CN106446135B

CN106446135B - 一种多媒体数据标签生成方法和装置

Info

Publication number: CN106446135B
Application number: CN201610833816.1A
Authority: CN
Inventors: 贾英娟
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2019-12-10
Anticipated expiration: 2036-09-19
Also published as: CN106446135A

Abstract

本发明实施例提供一种多媒体数据标签生成方法和装置，所述方法包括：获取第一多媒体数据对应的文本数据；对所述文本数据进行分词处理，获取所述文本数据的文本特征；利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签；根据所述第一标签生成所述第一多媒体数据的标签。本发明可以基于多媒体数据的文本特征，自动分析获取与所述多媒体数据对应的标签，提高了标签生成的效率和准确率，降低了算法的复杂度。

Description

一种多媒体数据标签生成方法和装置

技术领域

本发明实施例涉及通信技术领域，具体涉及一种多媒体数据标签生成方法和装置。

背景技术

随着互联网的应用，越来越多的客户在线观看电影、剧集。现有技术中，为了方便用户观看影片，音视频网站往往会人工为影片标注标签，所述标签例如可以是喜剧、爱情、科幻、动作、动画等。由于人工标注影片标签存在人力成本高、标注效率低的缺陷。因此，出现一种基于视频内容检测生成标签的方法。这种方法可以检测视频关键帧的颜色、对比度、文理等特征以训练得到视频的分类标签。然而，这种方法存在处理复杂、效率低、准确率低的缺陷。

发明内容

本发明实施例提供了一种多媒体数据标签生成方法和装置，可以基于多媒体数据的文本特征，自动分析获取与所述多媒体数据对应的标签，提高了标签生成的效率和准确率，降低了算法的复杂度。

为此，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供了一种多媒体数据标签生成方法，包括：获取第一多媒体数据对应的文本数据；对所述文本数据进行分词处理，获取所述文本数据的文本特征；利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签；根据所述第一标签生成所述第一多媒体数据的标签。

可选地，所述对所述文本数据进行分词处理，获取所述文本数据的文本特征包括：对所述文本数据进行分词处理，获取多个词语；根据所述词语的词性对所述多个词语进行过滤处理；将过滤处理后获得的关键词作为所述文本数据的文本特征。

可选地，所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的标签包括：利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵；利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。

可选地，所述方法还包括：获取用户历史观看记录；计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度；将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签；则所述根据所述第一标签生成所述第一多媒体数据的标签具体为：根据所述第一标签和所述第二标签生成所述多媒体数据的标签。

可选地，所述获取第一多媒体数据对应的文本数据包括：获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。

可选地，所述获取第一多媒体数据对应的文本数据包括：获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据；其中，所述文字信息至少包括字幕信息和/或歌词信息。

可选地，所述方法还包括：

获取用户针对所述多媒体数据各标签的交互信息，根据所述交互信息对所述多媒体数据对应的各标签进行排序。

可选地，所述方法还包括：响应于赋予标签权重的设置，保存各标签对应的权重；所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括：根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。

可选地，所述方法还包括：保存标签与各影片的对应关系；响应于用户针对标签的点击操作，显示与所述标签对应的影片。

根据本发明实施例的第二方面，提供了一种多媒体数据标签生成装置，所述装置包括：文本数据获取模块，用于获取第一多媒体数据对应的文本数据；文本特征获取模块，用于对所述文本数据进行分词处理，获取所述文本数据的文本特征；LDA计算模块，用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签；标签生成模块，用于根据所述第一标签生成所述第一多媒体数据的标签。

可选地，所述文本特征获取模块包括：

分词模块，用于对所述文本数据进行分词处理，获取多个词语；

过滤模块，用于根据所述词语的词性对所述多个词语进行过滤处理；

关键词获得模块，用于将过滤处理后获得的关键词作为所述文本数据的文本特征。

可选地，所述LDA计算模块具体用于：

利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵；利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。

可选地，所述装置还包括：

观看记录获取模块，用于获取用户历史观看记录；

相似度计算模块，用于计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度；

第二标签计算模块，用于将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签；

则所述标签生成模块具体用于：

根据所述第一标签和所述第二标签生成所述多媒体数据的标签。

可选地，所述文本数据获取模块具体用于：

获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。

可选地，所述文本数据获取模块具体用于：

获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据。

可选地，所述装置还包括：

排序模块，用于获取用户针对所述多媒体数据各标签的交互信息，根据所述交互信息对所述多媒体数据对应的各标签进行排序。

可选地，所述装置还包括：

设置模块，具体用于响应于赋予标签权重的设置，保存各标签对应的权重；

所述排序模块具体用于：

根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。

可选地，所述装置还包括：

保存模块，用于保存标签与各影片的对应关系；

显示模块，用于响应于用户针对标签的点击操作，显示与所述标签对应的影片。

本发明实施例提供的多媒体数据标签生成方法和装置，可以获取多媒体数据对应的文本数据，对所述文本数据进行分词处理以获得所述文本数据的文本特征。然后，利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签，根据所述第一标签生成所述第一多媒体数据的标签。本发明提供的方法可以利用多媒体数据例如电影的文本数据生成与所述电影匹配的标签，无需对电影内容进行检测分析，大大降低了算法的复杂度，有效提高了生成标签的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本发明一实施例提供的多媒体数据标签生成方法的流程示意图；

图2为本发明又一实施例提供的多媒体数据标签生成方法的流程示意图；

图3为本发明实施例提供的一种多媒体数据标签生成装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1为本发明一实施例提供的多媒体数据标签生成方法的流程示意图，所述方法例如可以包括：

S101，获取第一多媒体数据对应的文本数据。

在本发明实施例中，所述多媒体数据包括但不限于视频、音频、图形、图像等数据，以下以视频例如影片为例进行说明。

在一些实施方式中，所述获取第一多媒体数据对应的文本数据包括：获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。举例说明，可以获取电影、电视剧的内容简介、演职员表等文字信息作为与所述电影、电视剧对应的文本数据。

在一些实施方式中，所述获取第一多媒体数据对应的文本数据包括：获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据；其中，所述文字信息至少包括字幕信息和/或歌词信息。举例说明，可以电影、电视剧的字幕信息作为与所述电影、电视剧对应的文本数据。又举例说明，对于音频信息例如歌曲，还可以将音频信息的歌词信息作为文本数据。当然，若所述第一媒体数据不存在字幕信息，也可以通过音频识别处理获取与所述第一媒体数据对应的字幕信息。这种方式相对于对视频内容本身进行分析，从一定程度上降低了算法的复杂度。

由于本发明在具体实现时，无需对多媒体数据内容本身进行特征提取与分析，仅仅通过获取多媒体数据的内容简介和/或字幕信息作为多媒体数据的文本数据进行文本特征的提取，大大减低了算法的复杂度且提高了数据处理的效率和准确率。

S102，对所述文本数据进行分词处理，获取所述文本数据的文本特征。

具体实现时，所述对所述文本数据进行分词处理，获取所述文本数据的文本特征包括：

S102A，对所述文本数据进行分词处理，获取多个词语。

在一些实施方式中，可以采用正向最大匹配法对所述文本数据进行分词处理，获取多个词语。举例说明，正向最大匹配法就是把一个语句从左至右来分词。例如，对应文本：“不知道你在说什么”，采用正向最大匹配法分词处理后的结果为：不知道，你，在，说什么。

在一些实施方式中，可以采用反向最大匹配法对所述文本数据进行分词处理，获取多个词语。举例说明，反向最大匹配法就是把一个语句从右至左来分词。同样地，对于文本“不知道你在说什么”，采用反向最大匹配法分词处理后的结果为：不，知道，你在，说，什么。

在一些实施方式中，可以采用最短路径分词法对所述文本数据进行分词处理，获取多个词语。举例说明，最短路径分词法旨在对一句话分词处理时要求切出的词数是最少的。同样地，对于文本“不知道你在说什么”，采用最短路径分词法分词处理后的结果为：不知道，你在，说什么。分出来就只有3个词了。

在一些实施方式中，可以采用双向最大匹配法对所述文本数据进行分词处理，获取多个词语。举例说明，当关键词前后组合内容被认为粘性相差不大时，可以进行正反向同时进行分词匹配。

S102B，根据所述词语的词性对所述多个词语进行过滤处理。

因此，在本发明实施例中，可以根据所述词语的词性对所述多个词语进行过滤处理。例如，获取各词语的词性，根据预先设置的词性过滤条件，对所述多个词语进行过滤处理。举例说明，在为影片生成标签时，文本数据中的形容词、名词一般较为重要，而量词、虚词则不那么重要。因此，过滤条件可以是设置过滤掉量词、虚词等，所述过滤条件也可以是保留名词、形容词等。

S102C，将过滤处理后获得的关键词作为所述文本数据的文本特征。

进一步的，还可以设置关键词黑名单，所述关键词黑名单为较为常见、无法区分影片特征的一些词语，具体可以根据需要进行设置。最后，获取过滤后的关键词作为文本数据的文本特征。

S103，利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签。

申请人在实现本发明的过程中发现：传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举例说明，有两个句子分别如下：“乔布斯离我们而去了。”“苹果价格会不会降？”。经过分析，这两个句子没有共同出现的单词，但这两个句子却是关联的，也就是说这两个矩阵是相似的。若按传统的方法判断这两个句子肯定不相似，所以在判断文档相关性的时候需要考虑到文档的语义，而语义挖掘的利器是主题模型，LDA就是其中一种比较有效的模型。

在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。怎样才能生成主题？对文章的主题应该怎么分析？这是主题模型要解决的问题。

首先，可以用生成模型来看文档和主题这两件事。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么，若要生成一篇文档，它里面的每个词语出现的概率如公式(1)所示：

p(词语|文档)＝∑p(词语|主题)×p(主题|文档) (1)

其中，p(词语|文档)表示每个文档中每个单词的词频，即出现的概率。p(词语|主题)表示每个主题中每个单词的出现概率；p(主题|文档)表示每个文档中每个主题出现的概率。

对于给定一系列文档，通过对文档进行分词，计算各个文档中每个单词的词频就可以得到左边这边”文档-词语”矩阵。主题模型就是通过左边这个矩阵进行训练，学习出右边两个矩阵。

在本发明具体实现时，所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的标签包括：利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵；利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。

在本发明实施例中，文本数据相当于公式(1)中的文档，提取的文本特征相当于公式(1)中的特征，最后获得的标签相对于公式(1)中的主题。具体实现时，选定一个主题(对应标签)，确定每个主题被选择的概率。循环每一个文档的每一个特征，随机找出一个主题(对应标签)。循环每一个文档m的每一个特征n纠正新的主题，直到满足预设的收敛条件为止。其中，收敛条件可以是找出p(词语|文档)的概率值最大时对应的主题，即标签。

S104，根据所述第一标签生成所述第一多媒体数据的标签。

具体实现时，第一标签可以是多个，也就是说，对应同一部影片，可以生成多个标签，保存标签与影片的对应关系。

在一些实施方式中，所述方法还包括：获取用户历史观看记录；计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度；将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签；则所述根据所述第一标签生成所述第一多媒体数据的标签具体为：根据所述第一标签和所述第二标签生成所述多媒体数据的标签。举例说明，对于一部影片，可以获取用户历史观影记录，计算所述影片与所述观影记录包含的各影片的相似度。在计算相似度时，可以采用协同过滤算法杰卡德计算相似度，具体实现可以参照现有技术而实现，在此不进行赘述。然后对计算获得的相似度进行排序，将与第一媒体数据相似度最高的影片对应的标签作为第二标签。然后，结合LDA算法获得的第一标签和第二标签，生成影片的标签。例如，可以将二者的交集或者并集作为影片的标签。这一实施方式中，结合了LDA方法和协同过滤算法共同生成标签，准确度更高。

参见图2为本发明又一实施例提供的多媒体数据标签生成方法的流程示意图。在图1所示的S104之后，本发明实施例提供的方法还可以包括：

S105，响应于用户针对标签的点击操作，显示与所述标签对应的影片。

具体实现时，可以保存标签与各影片的对应关系，并响应于用户针对标签的点击操作，显示与所述标签对应的影片。例如，对应标签“学英语必看的50部美剧”，有50部影片与之对应。则响应于用户点击所述标签的操作，显示这50部影片。进一步地，可以预先设置每页或者每次显示的数量，逐页或者逐次显示影片。举例说明，可以设置“换一换”按钮，从而可以使用户通过点击所述按钮更换显示的影片，从而找到适合自己口味的影片。

S106，获取用户针对所述多媒体数据各标签的交互信息，根据所述交互信息对所述多媒体数据对应的各标签进行排序。

举例说明，用户可以通过在标签下面点赞的方式反馈对影片的兴趣。从而可以根据用户反馈的类似点赞的交互信息对影片的标签进行排序，从而实现标签的修正。

在一些实施方式中，所述方法还包括：响应于赋予标签权重的设置，保存各标签对应的权重；所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括：根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。举例说明，对于不同的标签可以赋予不同的权重，在进行标签排序时，可以根据权重以及交互信息对影片对应各标签进行排序。例如，对于一些个性化的标签可以赋予较高权重，以增加标签的辨识度与趣味性。

在本发明实施例中，可以基于多媒体数据例如影片的文本信息以及LDA方法生成与所述影片对应的标签，，无需对电影内容进行检测分析，大大降低了算法的复杂度，有效提高了生成标签的效率和准确率。此外，还可以结合LDA与协同过滤方法共同生成多媒体数据的标签，进一步提高了标签的准确性。

参见图3，为本发明实施例提供的一种多媒体数据标签生成装置示意图。

一种多媒体数据标签生成装置300，所述装置包括：

文本数据获取模块301，用于获取第一多媒体数据对应的文本数据。

文本特征获取模块302，用于对所述文本数据进行分词处理，获取所述文本数据的文本特征。

LDA计算模块303，用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签。

标签生成模块304，用于根据所述第一标签生成所述第一多媒体数据的标签。

在一些实施方式中，所述文本特征获取模块包括：

在一些实施方式中，所述LDA计算模块具体用于：

在一些实施方式中，所述装置还包括：

观看记录获取模块，用于获取用户历史观看记录；

则所述标签生成模块具体用于：

在一些实施方式中，所述文本数据获取模块具体用于：

获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据；其中，所述文字信息至少包括字幕信息和/或歌词信息。

在一些实施方式中，所述装置还包括：

所述排序模块具体用于：

在一些实施方式中，所述装置还包括：

保存模块，用于保存标签与各影片的对应关系；

以上对装置实施例的介绍较为简略，可参照方法实施例实现本发明各装置实施例。

本发明方案可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序单元。一般地，程序单元包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明方案，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序单元可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多媒体数据标签生成方法，其特征在于，包括：

获取第一多媒体数据对应的文本数据；

对所述文本数据进行分词处理，获取所述文本数据的文本特征；

利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签；

根据所述第一标签生成所述第一多媒体数据的标签；

所述方法还包括：

获取用户历史观看记录；

计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度；

将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签；

则所述根据所述第一标签生成所述第一多媒体数据的标签具体为：

根据所述第一标签和所述第二标签生成所述多媒体数据的标签；

所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签包括：

利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵；

利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的第一标签。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行分词处理，获取所述文本数据的文本特征包括：

对所述文本数据进行分词处理，获取多个词语；

根据所述词语的词性对所述多个词语进行过滤处理；

将过滤处理后获得的关键词作为所述文本数据的文本特征。

3.根据权利要求1所述的方法，其特征在于，所述获取第一多媒体数据对应的文本数据包括：

4.根据权利要求1所述的方法，其特征在于，所述获取第一多媒体数据对应的文本数据包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

响应于赋予标签权重的设置，保存各标签对应的权重；

所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括：

根据所述交互信息以及各标签对应的权重对所述多媒体数据对应的各标签进行排序。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

保存标签与各影片的对应关系；

响应于用户针对标签的点击操作，显示与所述标签对应的影片。

8.一种多媒体数据标签生成装置，其特征在于，所述装置包括：

文本数据获取模块，用于获取第一多媒体数据对应的文本数据；

文本特征获取模块，用于对所述文本数据进行分词处理，获取所述文本数据的文本特征；

LDA计算模块，用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签；

标签生成模块，用于根据所述第一标签生成所述第一多媒体数据的标签；

观看记录获取模块，用于获取用户历史观看记录；

第二标签获得模块，用于将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签；

所述标签生成模块具体用于根据所述第一标签和所述第二标签生成所述多媒体数据的标签；

所述LDA计算模块包括：

相似度矩阵获得子模块，用于利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵；

第一标签获得子模块，用于利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的第一标签。