CN106446135A - 一种多媒体数据标签生成方法和装置 - Google Patents
一种多媒体数据标签生成方法和装置 Download PDFInfo
- Publication number
- CN106446135A CN106446135A CN201610833816.1A CN201610833816A CN106446135A CN 106446135 A CN106446135 A CN 106446135A CN 201610833816 A CN201610833816 A CN 201610833816A CN 106446135 A CN106446135 A CN 106446135A
- Authority
- CN
- China
- Prior art keywords
- label
- data
- medium data
- text
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种多媒体数据标签生成方法和装置,所述方法包括:获取第一多媒体数据对应的文本数据;对所述文本数据进行分词处理,获取所述文本数据的文本特征;利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签;根据所述第一标签生成所述第一多媒体数据的标签。本发明可以基于多媒体数据的文本特征,自动分析获取与所述多媒体数据对应的标签,提高了标签生成的效率和准确率,降低了算法的复杂度。
Description
技术领域
本发明实施例涉及通信技术领域,具体涉及一种多媒体数据标签生成方法和装置。
背景技术
随着互联网的应用,越来越多的客户在线观看电影、剧集。现有技术中,为了方便用户观看影片,音视频网站往往会人工为影片标注标签,所述标签例如可以是喜剧、爱情、科幻、动作、动画等。由于人工标注影片标签存在人力成本高、标注效率低的缺陷。因此,出现一种基于视频内容检测生成标签的方法。这种方法可以检测视频关键帧的颜色、对比度、文理等特征以训练得到视频的分类标签。然而,这种方法存在处理复杂、效率低、准确率低的缺陷。
发明内容
本发明实施例提供了一种多媒体数据标签生成方法和装置,可以基于多媒体数据的文本特征,自动分析获取与所述多媒体数据对应的标签,提高了标签生成的效率和准确率,降低了算法的复杂度。
为此,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供了一种多媒体数据标签生成方法,包括:获取第一多媒体数据对应的文本数据;对所述文本数据进行分词处理,获取所述文本数据的文本特征;利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签;根据所述第一标签生成所述第一多媒体数据的标签。
可选地,所述对所述文本数据进行分词处理,获取所述文本数据的文本特征包括:对所述文本数据进行分词处理,获取多个词语;根据所述词语的词性对所述多个词语进行过滤处理;将过滤处理后获得的关键词作为所述文本数据的文本特征。
可选地,所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的标签包括:利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵;利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。
可选地,所述方法还包括:获取用户历史观看记录;计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度;将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签;则所述根据所述第一标签生成所述第一多媒体数据的标签具体为:根据所述第一标签和所述第二标签生成所述多媒体数据的标签。
可选地,所述获取第一多媒体数据对应的文本数据包括:获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。
可选地,所述获取第一多媒体数据对应的文本数据包括:获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据;其中,所述文字信息至少包括字幕信息和/或歌词信息。
可选地,所述方法还包括:
获取用户针对所述多媒体数据各标签的交互信息,根据所述交互信息对所述多媒体数据对应的各标签进行排序。
可选地,所述方法还包括:响应于赋予标签权重的设置,保存各标签对应的权重;所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括:根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。
可选地,所述方法还包括:保存标签与各影片的对应关系;响应于用户针对标签的点击操作,显示与所述标签对应的影片。
根据本发明实施例的第二方面,提供了一种多媒体数据标签生成装置,所述装置包括:文本数据获取模块,用于获取第一多媒体数据对应的文本数据;文本特征获取模块,用于对所述文本数据进行分词处理,获取所述文本数据的文本特征;LDA计算模块,用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签;标签生成模块,用于根据所述第一标签生成所述第一多媒体数据的标签。
可选地,所述文本特征获取模块包括:
分词模块,用于对所述文本数据进行分词处理,获取多个词语;
过滤模块,用于根据所述词语的词性对所述多个词语进行过滤处理;
关键词获得模块,用于将过滤处理后获得的关键词作为所述文本数据的文本特征。
可选地,所述LDA计算模块具体用于:
利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵;利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。
可选地,所述装置还包括:
观看记录获取模块,用于获取用户历史观看记录;
相似度计算模块,用于计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度;
第二标签计算模块,用于将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签;
则所述标签生成模块具体用于:
根据所述第一标签和所述第二标签生成所述多媒体数据的标签。
可选地,所述文本数据获取模块具体用于:
获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。
可选地,所述文本数据获取模块具体用于:
获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据。
可选地,所述装置还包括:
排序模块,用于获取用户针对所述多媒体数据各标签的交互信息,根据所述交互信息对所述多媒体数据对应的各标签进行排序。
可选地,所述装置还包括:
设置模块,具体用于响应于赋予标签权重的设置,保存各标签对应的权重;
所述排序模块具体用于:
根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。
可选地,所述装置还包括:
保存模块,用于保存标签与各影片的对应关系;
显示模块,用于响应于用户针对标签的点击操作,显示与所述标签对应的影片。
本发明实施例提供的多媒体数据标签生成方法和装置,可以获取多媒体数据对应的文本数据,对所述文本数据进行分词处理以获得所述文本数据的文本特征。然后,利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签,根据所述第一标签生成所述第一多媒体数据的标签。本发明提供的方法可以利用多媒体数据例如电影的文本数据生成与所述电影匹配的标签,无需对电影内容进行检测分析,大大降低了算法的复杂度,有效提高了生成标签的效率和准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为本发明一实施例提供的多媒体数据标签生成方法的流程示意图;
图2为本发明又一实施例提供的多媒体数据标签生成方法的流程示意图;
图3为本发明实施例提供的一种多媒体数据标签生成装置示意图。
具体实施方式
本发明实施例提供了一种多媒体数据标签生成方法和装置,可以基于多媒体数据的文本特征,自动分析获取与所述多媒体数据对应的标签,提高了标签生成的效率和准确率,降低了算法的复杂度。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1为本发明一实施例提供的多媒体数据标签生成方法的流程示意图,所述方法例如可以包括:
S101,获取第一多媒体数据对应的文本数据。
在本发明实施例中,所述多媒体数据包括但不限于视频、音频、图形、图像等数据,以下以视频例如影片为例进行说明。
在一些实施方式中,所述获取第一多媒体数据对应的文本数据包括:获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。举例说明,可以获取电影、电视剧的内容简介、演职员表等文字信息作为与所述电影、电视剧对应的文本数据。
在一些实施方式中,所述获取第一多媒体数据对应的文本数据包括:获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据;其中,所述文字信息至少包括字幕信息和/或歌词信息。举例说明,可以电影、电视剧的字幕信息作为与所述电影、电视剧对应的文本数据。又举例说明,对于音频信息例如歌曲,还可以将音频信息的歌词信息作为文本数据。当然,若所述第一媒体数据不存在字幕信息,也可以通过音频识别处理获取与所述第一媒体数据对应的字幕信息。这种方式相对于对视频内容本身进行分析,从一定程度上降低了算法的复杂度。
由于本发明在具体实现时,无需对多媒体数据内容本身进行特征提取与分析,仅仅通过获取多媒体数据的内容简介和/或字幕信息作为多媒体数据的文本数据进行文本特征的提取,大大减低了算法的复杂度且提高了数据处理的效率和准确率。
S102,对所述文本数据进行分词处理,获取所述文本数据的文本特征。
具体实现时,所述对所述文本数据进行分词处理,获取所述文本数据的文本特征包括:
S102A,对所述文本数据进行分词处理,获取多个词语。
在一些实施方式中,可以采用正向最大匹配法对所述文本数据进行分词处理,获取多个词语。举例说明,正向最大匹配法就是把一个语句从左至右来分词。例如,对应文本:“不知道你在说什么”,采用正向最大匹配法分词处理后的结果为:不知道,你,在,说什么。
在一些实施方式中,可以采用反向最大匹配法对所述文本数据进行分词处理,获取多个词语。举例说明,反向最大匹配法就是把一个语句从右至左来分词。同样地,对于文本“不知道你在说什么”,采用反向最大匹配法分词处理后的结果为:不,知道,你在,说,什么。
在一些实施方式中,可以采用最短路径分词法对所述文本数据进行分词处理,获取多个词语。举例说明,最短路径分词法旨在对一句话分词处理时要求切出的词数是最少的。同样地,对于文本“不知道你在说什么”,采用最短路径分词法分词处理后的结果为:不知道,你在,说什么。分出来就只有3个词了。
在一些实施方式中,可以采用双向最大匹配法对所述文本数据进行分词处理,获取多个词语。举例说明,当关键词前后组合内容被认为粘性相差不大时,可以进行正反向同时进行分词匹配。
S102B,根据所述词语的词性对所述多个词语进行过滤处理。
因此,在本发明实施例中,可以根据所述词语的词性对所述多个词语进行过滤处理。例如,获取各词语的词性,根据预先设置的词性过滤条件,对所述多个词语进行过滤处理。举例说明,在为影片生成标签时,文本数据中的形容词、名词一般较为重要,而量词、虚词则不那么重要。因此,过滤条件可以是设置过滤掉量词、虚词等,所述过滤条件也可以是保留名词、形容词等。
S102C,将过滤处理后获得的关键词作为所述文本数据的文本特征。
进一步的,还可以设置关键词黑名单,所述关键词黑名单为较为常见、无法区分影片特征的一些词语,具体可以根据需要进行设置。最后,获取过滤后的关键词作为文本数据的文本特征。
S103,利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签。
申请人在实现本发明的过程中发现:传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。举例说明,有两个句子分别如下:“乔布斯离我们而去了。”“苹果价格会不会降?”。经过分析,这两个句子没有共同出现的单词,但这两个句子却是关联的,也就是说这两个矩阵是相似的。若按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型。
在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题。
首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,若要生成一篇文档,它里面的每个词语出现的概率如公式(1)所示:
p(词语|文档)=∑p(词语|主题)×p(主题|文档) (1)
其中,p(词语|文档)表示每个文档中每个单词的词频,即出现的概率。p(词语|主题)表示每个主题中每个单词的出现概率;p(主题|文档)表示每个文档中每个主题出现的概率。
对于给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边这边”文档-词语”矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
在本发明具体实现时,所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的标签包括:利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵;利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。
在本发明实施例中,文本数据相当于公式(1)中的文档,提取的文本特征相当于公式(1)中的特征,最后获得的标签相对于公式(1)中的主题。具体实现时,选定一个主题(对应标签),确定每个主题被选择的概率。循环每一个文档的每一个特征,随机找出一个主题(对应标签)。循环每一个文档m的每一个特征n纠正新的主题,直到满足预设的收敛条件为止。其中,收敛条件可以是找出p(词语|文档)的概率值最大时对应的主题,即标签。
S104,根据所述第一标签生成所述第一多媒体数据的标签。
具体实现时,第一标签可以是多个,也就是说,对应同一部影片,可以生成多个标签,保存标签与影片的对应关系。
在一些实施方式中,所述方法还包括:获取用户历史观看记录;计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度;将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签;则所述根据所述第一标签生成所述第一多媒体数据的标签具体为:根据所述第一标签和所述第二标签生成所述多媒体数据的标签。举例说明,对于一部影片,可以获取用户历史观影记录,计算所述影片与所述观影记录包含的各影片的相似度。在计算相似度时,可以采用协同过滤算法杰卡德计算相似度,具体实现可以参照现有技术而实现,在此不进行赘述。然后对计算获得的相似度进行排序,将与第一媒体数据相似度最高的影片对应的标签作为第二标签。然后,结合LDA算法获得的第一标签和第二标签,生成影片的标签。例如,可以将二者的交集或者并集作为影片的标签。这一实施方式中,结合了LDA方法和协同过滤算法共同生成标签,准确度更高。
参见图2为本发明又一实施例提供的多媒体数据标签生成方法的流程示意图。在图1所示的S104之后,本发明实施例提供的方法还可以包括:
S105,响应于用户针对标签的点击操作,显示与所述标签对应的影片。
具体实现时,可以保存标签与各影片的对应关系,并响应于用户针对标签的点击操作,显示与所述标签对应的影片。例如,对应标签“学英语必看的50部美剧”,有50部影片与之对应。则响应于用户点击所述标签的操作,显示这50部影片。进一步地,可以预先设置每页或者每次显示的数量,逐页或者逐次显示影片。举例说明,可以设置“换一换”按钮,从而可以使用户通过点击所述按钮更换显示的影片,从而找到适合自己口味的影片。
S106,获取用户针对所述多媒体数据各标签的交互信息,根据所述交互信息对所述多媒体数据对应的各标签进行排序。
举例说明,用户可以通过在标签下面点赞的方式反馈对影片的兴趣。从而可以根据用户反馈的类似点赞的交互信息对影片的标签进行排序,从而实现标签的修正。
在一些实施方式中,所述方法还包括:响应于赋予标签权重的设置,保存各标签对应的权重;所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括:根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。举例说明,对于不同的标签可以赋予不同的权重,在进行标签排序时,可以根据权重以及交互信息对影片对应各标签进行排序。例如,对于一些个性化的标签可以赋予较高权重,以增加标签的辨识度与趣味性。
在本发明实施例中,可以基于多媒体数据例如影片的文本信息以及LDA方法生成与所述影片对应的标签,,无需对电影内容进行检测分析,大大降低了算法的复杂度,有效提高了生成标签的效率和准确率。此外,还可以结合LDA与协同过滤方法共同生成多媒体数据的标签,进一步提高了标签的准确性。
参见图3,为本发明实施例提供的一种多媒体数据标签生成装置示意图。
一种多媒体数据标签生成装置300,所述装置包括:
文本数据获取模块301,用于获取第一多媒体数据对应的文本数据。
文本特征获取模块302,用于对所述文本数据进行分词处理,获取所述文本数据的文本特征。
LDA计算模块303,用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签。
标签生成模块304,用于根据所述第一标签生成所述第一多媒体数据的标签。
在一些实施方式中,所述文本特征获取模块包括:
分词模块,用于对所述文本数据进行分词处理,获取多个词语;
过滤模块,用于根据所述词语的词性对所述多个词语进行过滤处理;
关键词获得模块,用于将过滤处理后获得的关键词作为所述文本数据的文本特征。
在一些实施方式中,所述LDA计算模块具体用于:
利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵;利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。
在一些实施方式中,所述装置还包括:
观看记录获取模块,用于获取用户历史观看记录;
相似度计算模块,用于计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度;
第二标签计算模块,用于将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签;
则所述标签生成模块具体用于:
根据所述第一标签和所述第二标签生成所述多媒体数据的标签。
在一些实施方式中,所述文本数据获取模块具体用于:
获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。
在一些实施方式中,所述文本数据获取模块具体用于:
获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据;其中,所述文字信息至少包括字幕信息和/或歌词信息。
在一些实施方式中,所述装置还包括:
排序模块,用于获取用户针对所述多媒体数据各标签的交互信息,根据所述交互信息对所述多媒体数据对应的各标签进行排序。
在一些实施方式中,所述装置还包括:
设置模块,具体用于响应于赋予标签权重的设置,保存各标签对应的权重;
所述排序模块具体用于:
根据所述交互信息以及各各标签对应的权重对所述多媒体数据对应的各标签进行排序。
在一些实施方式中,所述装置还包括:
保存模块,用于保存标签与各影片的对应关系;
显示模块,用于响应于用户针对标签的点击操作,显示与所述标签对应的影片。
以上对装置实施例的介绍较为简略,可参照方法实施例实现本发明各装置实施例。
本发明方案可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序单元。一般地,程序单元包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明方案,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多媒体数据标签生成方法,其特征在于,包括:
获取第一多媒体数据对应的文本数据;
对所述文本数据进行分词处理,获取所述文本数据的文本特征;
利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签;
根据所述第一标签生成所述第一多媒体数据的标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行分词处理,获取所述文本数据的文本特征包括:
对所述文本数据进行分词处理,获取多个词语;
根据所述词语的词性对所述多个词语进行过滤处理;
将过滤处理后获得的关键词作为所述文本数据的文本特征。
3.根据权利要求1所述的方法,其特征在于,所述利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的标签包括:
利用所述文档主题生成模型LDA获取文本特征与标签、标签与文本数据的相似度矩阵;
利用所述文本特征与标签、标签与文本数据的相似度矩阵获取与所述文本数据对应的标签。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户历史观看记录;
计算所述用户历史观看记录包含的各多媒体数据与所述第一多媒体数据的相似度;
将与所述第一多媒体数据相似度最高的多媒体数据对应的标签作为所述第一多媒体数据的第二标签;
则所述根据所述第一标签生成所述第一多媒体数据的标签具体为:
根据所述第一标签和所述第二标签生成所述多媒体数据的标签。
5.根据权利要求1所述的方法,其特征在于,所述获取第一多媒体数据对应的文本数据包括:
获取所述第一多媒体数据的内容简介作为所述第一多媒体数据的文本数据。
6.根据权利要求1所述的方法,其特征在于,所述获取第一多媒体数据对应的文本数据包括:
获取所述第一多媒体数据包含的文字信息作为所述第一多媒体数据的文本数据;其中,所述文字信息至少包括字幕信息和/或歌词信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户针对所述多媒体数据各标签的交互信息,根据所述交互信息对所述多媒体数据对应的各标签进行排序。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
响应于赋予标签权重的设置,保存各标签对应的权重;
所述根据所述交互信息对所述多媒体数据对应的各标签进行排序包括:
根据所述交互信息以及各标签对应的权重对所述多媒体数据对应的各标签进行排序。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存标签与各影片的对应关系;
响应于用户针对标签的点击操作,显示与所述标签对应的影片。
10.一种多媒体数据标签生成装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取第一多媒体数据对应的文本数据;
文本特征获取模块,用于对所述文本数据进行分词处理,获取所述文本数据的文本特征;
LDA计算模块,用于利用所述文本特征、文档主题生成模型LDA获得与所述文本特征对应的第一标签;
标签生成模块,用于根据所述第一标签生成所述第一多媒体数据的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833816.1A CN106446135B (zh) | 2016-09-19 | 2016-09-19 | 一种多媒体数据标签生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833816.1A CN106446135B (zh) | 2016-09-19 | 2016-09-19 | 一种多媒体数据标签生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446135A true CN106446135A (zh) | 2017-02-22 |
CN106446135B CN106446135B (zh) | 2019-12-10 |
Family
ID=58165965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610833816.1A Active CN106446135B (zh) | 2016-09-19 | 2016-09-19 | 一种多媒体数据标签生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446135B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193883A (zh) * | 2017-04-27 | 2017-09-22 | 北京拓尔思信息技术股份有限公司 | 一种数据处理方法和系统 |
CN107832287A (zh) * | 2017-09-26 | 2018-03-23 | 晶赞广告(上海)有限公司 | 一种标签识别方法及装置、存储介质、终端 |
CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
CN108829893A (zh) * | 2018-06-29 | 2018-11-16 | 北京百度网讯科技有限公司 | 确定视频标签的方法、装置、存储介质和终端设备 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109165302A (zh) * | 2018-07-27 | 2019-01-08 | 腾讯科技(深圳)有限公司 | 多媒体文件推荐方法及装置 |
CN109213841A (zh) * | 2017-06-29 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 直播主题样本提取方法、存储介质、电子设备及系统 |
CN109376270A (zh) * | 2018-09-26 | 2019-02-22 | 青岛聚看云科技有限公司 | 一种数据检索方法和装置 |
CN109460470A (zh) * | 2018-10-31 | 2019-03-12 | 上海师范大学 | 基于会话的视频分类方法 |
CN109840292A (zh) * | 2018-12-17 | 2019-06-04 | 北京百度网讯科技有限公司 | 视频标签的生成方法及其装置 |
CN109902169A (zh) * | 2019-01-26 | 2019-06-18 | 北京工业大学 | 基于电影字幕信息提升电影推荐系统性能的方法 |
CN110019955A (zh) * | 2017-12-15 | 2019-07-16 | 青岛聚看云科技有限公司 | 一种视频标签标注方法及装置 |
CN110019962A (zh) * | 2017-10-27 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN110516084A (zh) * | 2019-08-05 | 2019-11-29 | 上海喜马拉雅科技有限公司 | 多媒体关联信息确定方法、装置、存储介质及设备 |
CN111538896A (zh) * | 2020-03-12 | 2020-08-14 | 成都云帆数联科技有限公司 | 基于深度学习的新闻视频细粒度标签智能提取方法 |
CN111711869A (zh) * | 2020-06-24 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种标签数据处理方法、装置以及计算机可读存储介质 |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN111770375A (zh) * | 2020-06-05 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111797325A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 事件贴标方法、装置、存储介质及电子设备 |
CN114064975A (zh) * | 2021-11-26 | 2022-02-18 | 四川长虹电器股份有限公司 | 视频的标签生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262659A (zh) * | 2011-07-15 | 2011-11-30 | 北京航空航天大学 | 一种基于内容计算的音频标签传播方法 |
CN103440335A (zh) * | 2013-09-06 | 2013-12-11 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
CN105893571A (zh) * | 2016-03-31 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种视频内容标签的建立方法和系统 |
-
2016
- 2016-09-19 CN CN201610833816.1A patent/CN106446135B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262659A (zh) * | 2011-07-15 | 2011-11-30 | 北京航空航天大学 | 一种基于内容计算的音频标签传播方法 |
CN103440335A (zh) * | 2013-09-06 | 2013-12-11 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
CN105893571A (zh) * | 2016-03-31 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种视频内容标签的建立方法和系统 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193883A (zh) * | 2017-04-27 | 2017-09-22 | 北京拓尔思信息技术股份有限公司 | 一种数据处理方法和系统 |
CN107193883B (zh) * | 2017-04-27 | 2020-06-02 | 北京拓尔思信息技术股份有限公司 | 一种数据处理方法和系统 |
CN109213841B (zh) * | 2017-06-29 | 2021-01-01 | 武汉斗鱼网络科技有限公司 | 直播主题样本提取方法、存储介质、电子设备及系统 |
CN109213841A (zh) * | 2017-06-29 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 直播主题样本提取方法、存储介质、电子设备及系统 |
CN107832287A (zh) * | 2017-09-26 | 2018-03-23 | 晶赞广告(上海)有限公司 | 一种标签识别方法及装置、存储介质、终端 |
CN110019962B (zh) * | 2017-10-27 | 2024-01-02 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN110019962A (zh) * | 2017-10-27 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN110019955A (zh) * | 2017-12-15 | 2019-07-16 | 青岛聚看云科技有限公司 | 一种视频标签标注方法及装置 |
CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108446276B (zh) * | 2018-03-21 | 2022-02-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108829893A (zh) * | 2018-06-29 | 2018-11-16 | 北京百度网讯科技有限公司 | 确定视频标签的方法、装置、存储介质和终端设备 |
CN108875059B (zh) * | 2018-06-29 | 2021-02-12 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108829893B (zh) * | 2018-06-29 | 2021-01-29 | 北京百度网讯科技有限公司 | 确定视频标签的方法、装置、存储介质和终端设备 |
CN109165302A (zh) * | 2018-07-27 | 2019-01-08 | 腾讯科技(深圳)有限公司 | 多媒体文件推荐方法及装置 |
CN109376270A (zh) * | 2018-09-26 | 2019-02-22 | 青岛聚看云科技有限公司 | 一种数据检索方法和装置 |
CN109460470A (zh) * | 2018-10-31 | 2019-03-12 | 上海师范大学 | 基于会话的视频分类方法 |
CN109840292A (zh) * | 2018-12-17 | 2019-06-04 | 北京百度网讯科技有限公司 | 视频标签的生成方法及其装置 |
CN109840292B (zh) * | 2018-12-17 | 2021-06-08 | 北京百度网讯科技有限公司 | 视频标签的生成方法及其装置 |
CN109902169B (zh) * | 2019-01-26 | 2021-03-30 | 北京工业大学 | 基于电影字幕信息提升电影推荐系统性能的方法 |
CN109902169A (zh) * | 2019-01-26 | 2019-06-18 | 北京工业大学 | 基于电影字幕信息提升电影推荐系统性能的方法 |
CN111797325A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 事件贴标方法、装置、存储介质及电子设备 |
CN110516084A (zh) * | 2019-08-05 | 2019-11-29 | 上海喜马拉雅科技有限公司 | 多媒体关联信息确定方法、装置、存储介质及设备 |
CN110516084B (zh) * | 2019-08-05 | 2023-06-06 | 上海喜马拉雅科技有限公司 | 多媒体关联信息确定方法、装置、存储介质及设备 |
CN111538896A (zh) * | 2020-03-12 | 2020-08-14 | 成都云帆数联科技有限公司 | 基于深度学习的新闻视频细粒度标签智能提取方法 |
CN111770375A (zh) * | 2020-06-05 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111770375B (zh) * | 2020-06-05 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
US11800042B2 (en) | 2020-06-05 | 2023-10-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Video processing method, electronic device and storage medium thereof |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN111711869A (zh) * | 2020-06-24 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种标签数据处理方法、装置以及计算机可读存储介质 |
CN111711869B (zh) * | 2020-06-24 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种标签数据处理方法、装置以及计算机可读存储介质 |
CN114064975A (zh) * | 2021-11-26 | 2022-02-18 | 四川长虹电器股份有限公司 | 视频的标签生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106446135B (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446135A (zh) | 一种多媒体数据标签生成方法和装置 | |
Zhao et al. | Reducing quantity hallucinations in abstractive summarization | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
CN109460512B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
US10635952B2 (en) | Cognitive analysis and classification of apparel images | |
US10255354B2 (en) | Detecting and combining synonymous topics | |
US10936680B2 (en) | Intent based search result interaction | |
US20160162464A1 (en) | Techniques for combining human and machine learning in natural language processing | |
US20180089197A1 (en) | Internet search result intention | |
US9818080B2 (en) | Categorizing a use scenario of a product | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
US20160063596A1 (en) | Automatically generating reading recommendations based on linguistic difficulty | |
US10290032B2 (en) | Blacklisting based on image feature analysis and collaborative filtering | |
JP6776310B2 (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
Radovanović et al. | Review spam detection using machine learning | |
US9830533B2 (en) | Analyzing and exploring images posted on social media | |
Lofi et al. | Design patterns for hybrid algorithmic-crowdsourcing workflows | |
Ramdhani et al. | Sentiment analysis of product reviews using naive bayes algorithm: A case study | |
Xu et al. | LSDSCC: a large scale domain-specific conversational corpus for response generation with diversity oriented evaluation metrics | |
Pezzelle et al. | Word representation learning in multimodal pre-trained transformers: An intrinsic evaluation | |
CN110032561B (zh) | 基于语义的表单构建方法和系统 | |
Sihag et al. | A data-driven approach for finding requirements relevant feedback from tiktok and youtube | |
Medvet et al. | Brand-related events detection, classification and summarization on twitter | |
US20150370887A1 (en) | Semantic merge of arguments | |
CN112270318A (zh) | 自动阅卷方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |