CN110598046B

CN110598046B - 一种基于人工智能的标题党识别方法和相关装置

Info

Publication number: CN110598046B
Application number: CN201910877080.1A
Authority: CN
Inventors: 陈小帅; 李伟康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2021-03-02
Anticipated expiration: 2039-09-17
Also published as: CN110598046A

Abstract

本申请实施例公开一种标题党识别方法，针对待识别媒体数据，可以利用媒体分类模型确定待识别媒体数据的媒体特征，以及根据待识别媒体数据的文本信息确定文本特征，其中，文本信息至少包括待识别媒体数据的标题信息。之后，对媒体特征和文本特征进行融合得到多模态特征，由于多模态特征是结合待识别媒体数据多个维度的特征得到的，多模态特征所体现的信息更加丰富，能够从多个维度表征待识别媒体数据的特点，故根据多模态特征计算待识别媒体数据属于标题党的概率，以确定待识别媒体数据是否属于标题党会更加精确，提高了标题党识别能力。

Description

一种基于人工智能的标题党识别方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的标题党识别方法和相关装置。

背景技术

随着用户对媒体应用的使用的普及，各种媒体数据上传到网络，以便用户之间进行分享。一般情况下，上传者在上传媒体数据是会为媒体数据设置标题，以对媒体内容进行简单概括，标题在一定程度上可以成为吸引用户的一个因素。

但是，为了更大程度地吸引用户浏览上传的媒体数据以获取流量，上传者往往会将标题设定为较为吸引用户的内容，但是该标题反映的内容往往过分夸大，脱离了媒体数据的真实内容，来恶意引起用户点击/播放，即标题党媒体数据。这将导致用户在被标题吸引点击播放后，发现媒体数据的内容与标题不符，对用户判断媒体数据是否有兴趣观看造成干扰影响，降低用户的使用体验。

为此，媒体平台一般需要对标题党进行识别，目前所使用的标题党识别方法的识别能力不足，降低对标题党识别的精确度。

发明内容

为了解决上述技术问题，本申请提供了一种基于人工智能的标题党识别方法和相关装置，确定待识别媒体数据是否属于标题党会更加精确，提高了标题党识别能力。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种标题党识别方法，所述方法包括：

获取待识别媒体数据；

利用媒体分类模型确定所述待识别媒体数据的媒体特征，以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征；所述文本信息至少包括所述待识别媒体数据的标题信息；

对所述媒体特征和所述文本特征进行融合得到多模态特征；

根据所述多模态特征，利用标题党分类模型计算所述待识别媒体数据属于标题党媒体数据的概率；

根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据。

第二方面，本申请实施例提供一种标题党识别装置，所述装置包括第一获取单元、第一确定单元、融合单元、计算单元和第二确定单元：

所述第一获取单元，用于获取待识别媒体数据；

所述第一确定单元，用于利用媒体分类模型确定所述待识别媒体数据的媒体特征，以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征；所述文本信息至少包括所述待识别媒体数据的标题信息；

所述融合单元，用于对所述媒体特征和所述文本特征进行融合得到多模态特征；

所述计算单元，用于根据所述多模态特征，利用标题党分类模型计算所述待识别媒体数据属于标题党媒体数据的概率；

所述第二确定单元，用于根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据。

第三方面，本申请实施例提供一种用于标题党识别的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，针对待识别媒体数据，可以利用媒体分类模型确定待识别媒体数据的媒体特征，以及根据待识别媒体数据的文本信息确定文本特征，其中，文本信息至少包括待识别媒体数据的标题信息。之后，对媒体特征和文本特征进行融合得到多模态特征，由于多模态特征是结合待识别媒体数据多个维度的特征得到的，多模态特征所体现的信息更加丰富，能够从多个维度表征待识别媒体数据的特点，故根据多模态特征计算待识别媒体数据属于标题党的概率，以确定待识别媒体数据是否属于标题党会更加精确，提高了标题党识别能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种标题党识别方法的应用场景示意图；

图2为本申请实施例提供的一种标题党识别方法的流程图；

图3为本申请实施例提供的一种标题党识别方法的流程图；

图4a为本申请实施例提供的一种标题党识别装置的结构图；

图4b为本申请实施例提供的一种标题党识别装置的结构图；

图4c为本申请实施例提供的一种标题党识别装置的结构图；

图4d为本申请实施例提供的一种标题党识别装置的结构图；

图5为本申请实施例提供的一种用于标题党识别设备的结构图；

图6为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

当用户在浏览媒体数据时，首先会通过标题对该媒体数据进行初步的了解，再决定是否进入该视频播放页面进行浏览。也就是说，标题在一定程度上可以成为吸引用户的一个因素，故涌现出了很多标题党媒体数据，对用户判断媒体数据是否有兴趣观看造成干扰影响。为此，需要对标题党进行识别。

而目前基本是基于标题的文本特征来实现，通过对标题进行文本分类，如基于传统机器学习方式例如朴素贝叶斯、支持向量机(Support Vector Machine，SVM)，或者是基于深度学习的方法。这种方法往往通过识别标题中是否出现了标题党常用的文字、符号等来判断是否为标题党。

例如，媒体数据是一个音乐短片(Music Video，MV)，标题是“震惊！×××的MV风靡全球”，由于“震惊！”是标题党的常用词汇，而该标题中包括“震惊！”，故，通过现有方法通常会将该媒体数据识别为标题党视频。

再如，媒体数据是一个萌宠视频，标题是“×××的舞蹈真好看”，仅根据标题的文本特征很有可能将该媒体数据识别为非标题党视频。

可见，传统方法中基于标题的文本特征来识别标题党，识别能力不足，标题党识别的精确度不高。

为了解决上述技术问题，本申请实施例提供一种基于人工智能的标题党识别方法，该方法针对一个待识别媒体数据，可以结合待识别媒体数据多个维度的特征得到多模态特征，多模态特征所体现的信息更加丰富，能够从多个维度表征待识别媒体数据的特点，故根据多模态特征确定待识别媒体数据是否属于标题党会更加精确，提高了标题党识别能力。

需要强调的是，本申请实施例所提供的标题党识别方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术/语音处理技术、自然语言处理和机器学习等方向。

若待识别媒体数据为视频，例如可以设计计算机视觉技术(Computer Vision,CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理(ImageProcessing)、图像识别(Image recognition，IR)，图像语义理(Image SemanticUnderstanding，ISU)、光学字符识别(Optical Character Recognition，OCR)、视频处理(video processing)、视频内容/行为识别等技术。

若待识别媒体数据为音频，例如可以涉及语音技术(Speech Technology)中的语音识别技术(Automatic Speech Recognition，ASR)，其中包括语音信号预处理(Speechsignal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speech signal feature extraction)、语音信号特征匹配/识别(Speechsignal feature matching/recognition)、语音的训练(Speech training)等。

例如可以涉及自然语言处理(Nature Language processing，NLP)，文本预处理(Text preprocessing)、语义理解(Semantic understanding)、与搜索相关的，如排序、关键词、推荐等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

该方法可以应用到数据处理设备，该数据处理设备可以是终端设备，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。

该数据处理设备还可以是服务器，该服务器可以为独立服务器，也可以为集群服务器。

本申请实施例提供的标题党识别方法可以应用到多种场景中，例如用于媒体数据标准化过程中，即上传者在填写了标题、描述等，并将媒体数据上传后，媒体平台对上传的媒体数据进行标题党识别，如果是判定标题党媒体数据，一般不将此媒体数据放入推荐池，不会主动将其推荐给其他用户，降低对其他用户的干扰。

该方法也可用于产品前端，如用户在检索时，对检索结果进行标题党识别，将标题党媒体数据和非标题党媒体数据的标题进行差异化展示，以便用户可以区分检索结果中的标题党媒体数据，降低标题党媒体数据对检索结果人工判断兴趣性的混淆。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器为例对本申请实施例提供的标题党识别方法进行介绍。

参见图1，图1为本申请实施例提供的标题党识别方法的应用场景示意图。该应用场景中包括服务器101，服务器101可以获取待识别媒体数据。待识别媒体数据可以是指上传者上传至媒体平台、需要被识别是否为标题党媒体数据的数据，待识别媒体数据包括媒体内容本身以及标题等文本信息，其中，媒体内容可以是针对对象录制的视频、音频等，对象可以是人、动物、物等。

为了避免标题党媒体数据对其他用户造成干扰，需要对待识别媒体数据进行标题党识别，在识别标题党时，服务器101可以利用媒体分类模型确定待识别媒体数据的媒体特征，以及根据待识别媒体数据的文本信息确定文本特征。其中，媒体特征表征的是待识别媒体数据的媒体内容特点，文本特征表征的是待识别媒体数据的文本信息特点。

媒体特征和文本特征从不同维度体现待识别媒体数据的特点，服务器101对媒体特征和文本特征进行融合得到多模态特征，由于多模态特征是结合待识别媒体数据多个维度的特征得到的，多模态特征所体现的信息更加丰富，能够从多个维度表征待识别媒体数据的特点，故根据多模态特征计算待识别媒体数据属于标题党的概率，以根据概率确定待识别媒体数据是否属于标题党会更加精确，提高了标题党识别能力。

接下来，将结合附图对本申请实施例提供的标题党识别方法进行详细介绍。

参见图2，图2示出了一种标题党识别方法的流程图，方法包括：

S201、获取待识别媒体数据。

待识别媒体数据可以是上传者上传到媒体平台的媒体数据，上传者可以从已有文件中选择媒体数据或者针对对象进行录制得到媒体数据进行上传。其中，待识别媒体数据可以是视频、音频等。

S202、利用媒体分类模型确定待识别媒体数据的媒体特征，以及根据待识别媒体数据的文本信息确定待识别媒体数据的文本特征。

上传者在上传媒体数据时，通常会针对所上传的媒体数据填写标题信息等文本信息，标题信息是对所上传媒体数据内容的概括。由于标题党实际上就是标题信息等文本信息对媒体内容过分夸大，与媒体内容不符，因此，为了确定待识别媒体数据是否为标题党媒体数据，可以获取媒体特征和文本特征，媒体特征用于表征待识别媒体数据的媒体内容特点，文本特征用于表征待识别媒体数据的文本信息特点，这样，可以根据文本特征和媒体特征识别待识别媒体数据是否为标题党媒体数据。

可以理解的是，若待识别媒体数据是视频，则媒体特征为图像特征，当然，由于视频中还可以包括音频，因此，在待识别媒体数据是视频时，媒体特征可以为图像特征和声学特征。若待识别媒体数据是音频，则媒体特征为声学特征。

需要说明的是，在一种可能的实现方式中，利用媒体分类模型确定待识别媒体数据的媒体特征的方式可以是将待识别媒体数据逐帧输入到预先训练好的媒体分类模型，将媒体分类模型的分类层前的最后一层隐藏层输出，如256位浮点型向量，作为该帧的表示。在得到每一帧表示后，将各帧依次输入一个具备时间序列表示能力的模型层，如双向长短时记忆(Bi-directional Long Short-Term Memory，BiLSTM)神经网络/双向门控循环单元(Bi-direction Gated Recurrent Unit，BiGRU)等，该层的输出的最后一个隐状态作为待识别媒体数据的媒体特征。其中，媒体分类模型可以是残差网络(Residual Networks，ResNets)模型，也可以是其他神经网络模型，本实施例对此不做限定。

在一种可能的实现方式中，根据待识别媒体数据的文本信息确定待识别媒体数据的文本特征的方式可以是通过将标题信息进行分词，得到每个词的词向量，然后将词向量序列输入BiLSTM或Transformer Encoder等模型，其中，Transformer Encoder模型可以表示机器翻译模型(Transformer)中的解码器(Encode)。将模型的输出作为标题信息的子文本特征，将标题信息的子文本特征作为待识别媒体数据的文本特征。

S203、对媒体特征和文本特征进行融合得到多模态特征。

其中，对媒体特征和文本特征进行融合的方式可以是通过双向注意力(Attention)机制对媒体特征和文本特征进行融合，具体的，通过文本特征对媒体特征做Attention，通过视频特征对文本特征做Attention，然后将两个Attention表示进行拼接作为多模态特征。

S204、根据多模态特征，利用标题党分类模型计算待识别媒体数据属于标题党媒体数据的概率。

标题党分类模型中包括归一化指数(softmax)层，softmax层可以根据多模态特征对待识别媒体数据是否是标题党媒体数据进行二分类，例如，待识别媒体数据是标题党媒体数据为类别1，待识别媒体数据不是标题党媒体数据为类别0，从而计算得到待识别媒体数据属于标题党媒体数据的概率，该概率可以通过二维向量表示，两个维度分别表示该多模态特征为类别1和类别0的概率。类别1这一维度的概率值越大，待识别媒体数据属于标题党媒体数据的可能性越大；类别0这一维度的概率值越大，待识别媒体数据不属于标题党媒体数据的可能性越大。

标题党分类模型是预先训练得到的，标题党分类模型的一种可能的训练方式为获取目标媒体数据的文本特征和媒体特征，以及获取目标媒体数据对应的标题党标签；目标媒体数据中包括是标题党媒体数据的第一类媒体数据和不是标题党媒体数据的第二类媒体数据，第一类媒体数据的标题党标签标识第一类媒体数据是标题党媒体数据，第二类媒体数据的标题党标签标识第二类媒体数据不是标题党媒体数据。根据目标媒体数据的文本特征、目标媒体数据的媒体特征和对应的标题党标签训练标题党分类模型。

S205、根据概率确定待识别媒体数据是否属于标题党媒体数据。

若概率满足预设条件，则可以确定待识别媒体数据属于标题党媒体数据，否则，可以确定待识别媒体数据不属于标题党媒体数据。

若该概率通过前述的二维向量表示，当根据类别1这一维度的概率值确定待识别媒体数据是否属于标题党媒体数据时，若概率值大于第一阈值，则待识别媒体数据属于标题党媒体数据，此时，概率值大于第一阈值为预设条件。当根据类别0这一维度的概率值确定待识别媒体数据是否属于标题党媒体数据时，若概率值大于第二阈值，则待识别媒体数据不属于标题党媒体数据，此时，概率值大于第二阈值为预设条件。

若识别出待识别媒体数据是标题党媒体数据，可以对标题党媒体数据进行处理。在不同的应用场景中，对标题党媒体数据进行处理的方式有所不同。

例如，在媒体数据标准化过程中，为了避免将标题党媒体数据推荐给其他用户，对其他用户造成干扰，可以将待识别媒体数据从推荐列表中删除，即不将此标题党媒体数据放入推荐池。

又如，在产品前端向用户返回检索结果的场景中，为了降低标题党媒体数据对用户选择感兴趣检索结果的影响，可以将向用户展示的待识别媒体数据进行标记，便于用户区分哪些是标题党媒体数据，哪些不是标题党媒体数据。当然，也可以从检索结果中删除该标题党媒体数据，本实施例对其处理方式不做限定。

可以理解的是，上传者在上传待识别媒体数据时，除了添加标题信息，可能还会添加描述信息，以对待识别媒体数据的内容进行描述。当然，在一些情况下，若待识别媒体数据中包括说话声音，为了便于观看者对待识别媒体数据中说话内容的理解，待识别媒体数据还可能包括字幕信息。因此，在一种可能的实现方式中，文本信息还包括描述信息和字幕信息中一种或多种组合。

若文本信息中包括待识别媒体数据的标题信息、描述信息和字幕信息，则在执行S202以确定待识别媒体数据的文本特征时，可以获取待识别媒体数据的标题信息、描述信息和字幕信息。然后，确定标题信息、描述信息和字幕信息分别对应的子文本特征。再将标题信息、描述信息和字幕信息分别对应的子文本特征进行融合得到待识别媒体数据的文本特征。

由于文本特征融合了标题信息、描述信息和字幕信息分别对应的子文本特征，故实现了从标题信息、描述信息、字幕信息和媒体内容等多个维度表征待识别媒体数据的特点，结合了更多维度的特征确定待识别媒体数据是否为标题党媒体数据，能更加精准的识别标题党媒体数据。

其中，标题信息、描述信息和字幕信息分别对应的子文本特征的确定方式参见前述介绍的标题信息的子文本特征的确定方式。

将标题信息、描述信息和字幕信息分别对应的子文本特征进行融合的方式可以包括多种，例如直接拼接、相同维度取最大或最小等。

需要说明的是，由于字幕信息是在待识别媒体数据的媒体内容中展示的，故可以通过光学字符识别(Optical Character Recognition，OCR)识别其中的字幕信息。

在一些情况下，一些用户可能点击播放了标题党媒体数据，并且针对该标题党媒体数据会发表类似“视频内容不符”等类似的评论，可见，评论信息有助于识别某个媒体数据是否是标题党媒体数据。因此，若待识别媒体数据已经被播放，则待识别媒体数据的文本信息中还可能包括评论信息，在这种情况下，文本特征是结合评论信息的子文本特征得到的，从而实现结合评论信息确定待识别媒体数据是否为标题党媒体数据。

可见，通过对评论信息进行识别，进一步结合评论信息确定待识别媒体数据是否为标题党媒体数据，可以进一步提升标题党识别的能力。

在一些情况下，一些用户可能点击播放了标题党媒体数据，但是，用户通常不会完整播放标题党媒体数据。例如，若在播放的过程中，用户发现媒体内容与标题信息不符，即媒体数据为标题党媒体数据，就会退出播放。也就是说，通常情况下标题党媒体数据的播放时长小于甚至远小于其总时长。而播放时长与总时长的关系可以通过完整播放率特征来表示，故可以通过完整播放率特征来辅助标题党识别。

因此，若待识别媒体数据已经被播放，则可以获取待识别媒体数据的完整播放率特征，完整播放率特征表征待识别媒体数据的播放时长与待识别媒体数据的总时长的比例。相应的，S203中得到多模态特征的可能方式可以是对媒体特征、文本特征和完整播放率特征进行融合得到多模态特征。

通过完整播放率特征来辅助标题党识别，结合了用户对待识别媒体数据的播放行为这一维度，可以进一步提升标题党识别的能力。

需要说明的是，待识别媒体数据可能包括很多帧，例如待识别媒体数据为视频时，待识别媒体数据可能包括多个视频帧，当然，此时待识别媒体数据也可能包括多个视频帧和音频帧，待识别媒体数据为音频时，待识别媒体数据可能包括多个音频帧。这些帧中还有可能包括很多重复帧、无意义帧，为了避免在确定媒体特征时针对所有帧进行计算，而导致计算量过大或者做出无意义计算的问题，在一种可能的实现方式中，可以提取待识别媒体数据的关键帧，从而使得媒体分类模型根据关键帧确定媒体特征。其中，关键帧为待识别媒体数据中反映媒体内容特点的帧。以待识别媒体数据是舞蹈视频为例，则关键帧为包括人物且人物在跳舞的帧。

可见，通过提取关键帧，在确定媒体特征时无需针对每帧进行计算，从而大大减少了计算量。

相应的，若媒体特征是根据关键帧确定的，那么，在文本信息包括字幕信息的情况下，字幕信息可以是从关键帧中识别得到的。

需要说明的是，提取关键帧的方式可以是通过序列标注模型提取待识别媒体数据中的关键帧，也就是对待识别媒体数据中每一帧进行0、1标注，1表示是此帧是关键帧，0表示是此帧是非关键帧。序列标注模型的训练方式为，对媒体数据进行人工标注，对媒体数据的每一帧标注0或1，构建训练数据集，根据此训练数据集训练序列标注模型，使得模型具备输入一个媒体数据，输出该媒体数据的关键帧的能力，一般针对每个媒体数据提取K个关键帧。

接下来，将结合具体应用场景对本申请实施例提供的标题党识别方法进行介绍。在该应用场景中，待识别媒体数据为视频，用户拍摄得到视频后，在媒体平台上发表视频时，填写标题信息、描述信息进行填写，并且视频中包括字幕信息。在用户上传视频后，服务器(媒体平台)可以识别该视频是否为标题党媒体数据，此时，标题党识别方法的流程可以参见图3所示。从视频中提取关键帧，利用ResNets模型根据关键帧确定图像特征。另外，获取该视频的标题信息、描述信息和字幕信息，确定标题信息、描述信息和字幕信息分别对应的子文本特征，将标题信息、描述信息和字幕信息分别对应的子文本特征进行融合得到该视频的文本特征。对媒体特征和文本特征进行融合得到多模态特征，根据多模态特征确定该视频是否属于标题党媒体数据。

基于前述实施例提供的标题党识别方法，本申请实施例还提供一种标题党识别装置，参见图4a，所述装置包括第一获取单元401、第一确定单元402、融合单元403、计算单元404和第二确定单元405：

所述第一获取单元401，用于获取待识别媒体数据；

所述第一确定单元402，用于利用媒体分类模型确定所述待识别媒体数据的媒体特征，以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征；所述文本信息至少包括所述待识别媒体数据的标题信息；

所述融合单元403，用于对所述媒体特征和所述文本特征进行融合得到多模态特征；

所述计算单元404，用于根据所述多模态特征，利用标题党分类模型计算所述待识别媒体数据属于标题党媒体数据的概率；

所述第二确定单元405，用于根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据

在一种可能的实现方式中，所述文本信息还包括描述信息和字幕信息中一种或多种组合。

在一种可能的实现方式中，若所述文本信息包括所述待识别媒体数据的标题信息、描述信息和字幕信息，所述第一确定单元402，用于：

获取所述待识别媒体数据的标题信息、描述信息和字幕信息；

确定所述标题信息、描述信息和字幕信息分别对应的子文本特征；

将所述标题信息、描述信息和字幕信息分别对应的子文本特征进行融合得到所述待识别媒体数据的文本特征。

在一种可能的实现方式中，若所述待识别媒体数据已经被播放，所述文本信息还包括评论信息。

在一种可能的实现方式中，若所述待识别媒体数据已经被播放，参见图4b，所述装置还包括第二获取单元406：

所述第二获取单元406，用于获取所述待识别媒体数据的完整播放率特征，所述完整播放率特征表征所述待识别媒体数据的播放时长与所述待识别媒体数据的总时长的比例；

所述融合单元403，用于：

对所述媒体特征、所述文本特征和所述完整播放率特征进行融合得到多模态特征。

在一种可能的实现方式中，所述第一确定单元402，用于：

提取所述待识别媒体数据的关键帧；

利用所述媒体分类模型，根据所述关键帧确定所述媒体特征；

若所述文本信息中包括字幕信息，所述第一确定单元402，还用于：

从所述关键帧中识别所述字幕信息。

在一种可能的实现方式中，参见图4c，所述装置还包括第三获取单元407和训练单元408：

所述第三获取单元407，用于获取目标媒体数据的文本特征和媒体特征，以及获取所述目标媒体数据对应的标题党标签；所述目标媒体数据中包括是标题党媒体数据的第一类媒体数据和不是标题党媒体数据的第二类媒体数据，所述第一类媒体数据的标题党标签标识所述第一类媒体数据是标题党媒体数据，所述第二类媒体数据的标题党标签标识所述第二类媒体数据不是标题党媒体数据；

所述训练单元408，用于根据所述目标媒体数据的文本特征、所述目标媒体数据的媒体特征和对应的标题党标签训练所述标题党分类模型。

在一种可能的实现方式中，参见图4d，所述装置还包括处理单元409：

若识别出所述待识别媒体数据是标题党媒体数据，将所述待识别媒体数据从推荐列表中删除，或，将向用户展示的所述待识别媒体数据进行标记。

本申请实施例还提供了一种用于标题党识别的设备，下面结合附图对用于标题党识别的设备进行介绍。请参见图5所示，本申请实施例提供了一种用于标题党识别的设备500，该设备500还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图5示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，简称RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，简称WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器580还具有以下功能：

获取待识别媒体数据；

对所述媒体特征和所述文本特征进行融合得到多模态特征；

本申请实施例还提供服务器，请参见图6所示，图6为本申请实施例提供的服务器600的结构图，服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种标题党识别方法，其特征在于，所述方法包括：

获取待识别媒体数据，所述待识别媒体数据为视频；

利用媒体分类模型确定所述待识别媒体数据的媒体特征，以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征；所述媒体特征为图像特征和声学特征，所述文本信息至少包括所述待识别媒体数据的标题信息、描述信息和字幕信息；所述媒体特征和所述字幕信息是根据关键帧确定的，所述关键帧是通过序列标注模型从所述待识别媒体数据中提取的；所述序列标注模型的训练方式为对媒体数据进行人工标注，对媒体数据的每一帧标注0或1，构建训练数据集，根据所述训练数据集训练所述序列标注模型；

通过双向注意力机制对所述媒体特征和所述文本特征进行融合得到多模态特征；

所述通过双向注意力机制对所述媒体特征和所述文本特征进行融合得到多模态特征，包括：

通过所述文本特征对所述媒体特征做Attention，通过所述媒体特征对所述文本特征做Attention，并将两个Attention表示进行拼接作为所述多模态特征；

若所述待识别媒体数据已经被播放，所述文本信息还包括评论信息，所述方法还包括：

获取所述待识别媒体数据的完整播放率特征，所述完整播放率特征表征所述待识别媒体数据的播放时长与所述待识别媒体数据的总时长的比例；

所述多模态特征中还包括完整播放率特征；

根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据；

若所述待识别媒体数据属于标题党媒体数据，在检索结果中将标题党媒体数据和非标题党媒体数据的标题信息进行差异化展示。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述标题党分类模型的训练方式为：

获取目标媒体数据的文本特征和媒体特征，以及获取所述目标媒体数据对应的标题党标签；所述目标媒体数据中包括是标题党媒体数据的第一类媒体数据和不是标题党媒体数据的第二类媒体数据，所述第一类媒体数据的标题党标签标识所述第一类媒体数据是标题党媒体数据，所述第二类媒体数据的标题党标签标识所述第二类媒体数据不是标题党媒体数据；

根据所述目标媒体数据的文本特征、所述目标媒体数据的媒体特征和对应的标题党标签训练所述标题党分类模型。

4.一种标题党识别装置，其特征在于，所述装置包括第一获取单元、第一确定单元、融合单元、计算单元和第二确定单元：

所述第一获取单元，用于获取待识别媒体数据，所述待识别媒体数据为视频；

所述第一确定单元，用于利用媒体分类模型确定所述待识别媒体数据的媒体特征，以及根据所述待识别媒体数据的文本信息确定所述待识别媒体数据的文本特征；所述媒体特征为图像特征和声学特征，所述文本信息至少包括所述待识别媒体数据的标题信息、描述信息和字幕信息；所述媒体特征和所述字幕信息是根据关键帧确定的，所述关键帧是通过序列标注模型从所述待识别媒体数据中提取的；所述序列标注模型的训练方式为对媒体数据进行人工标注，对媒体数据的每一帧标注0或1，构建训练数据集，根据所述训练数据集训练所述序列标注模型；

所述融合单元，用于通过双向注意力机制对所述媒体特征和所述文本特征进行融合得到多模态特征；

所述融合单元，用于通过所述文本特征对所述媒体特征做Attention，通过所述媒体特征对所述文本特征做Attention，并将两个Attention表示进行拼接作为所述多模态特征；

若所述待识别媒体数据已经被播放，所述文本信息还包括评论信息，所述装置还包括第二获取单元：

所述第二获取单元，用于获取所述待识别媒体数据的完整播放率特征，所述完整播放率特征表征所述待识别媒体数据的播放时长与所述待识别媒体数据的总时长的比例；

所述多模态特征中还包括完整播放率特征；

所述第二确定单元，用于根据所述概率确定所述待识别媒体数据是否属于标题党媒体数据；

5.一种用于标题党识别的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-3任一项所述的方法。