CN111737523A

CN111737523A - 一种视频标签、搜索内容的生成方法及服务器

Info

Publication number: CN111737523A
Application number: CN202010321365.XA
Authority: CN
Inventors: 蔡効谦
Original assignee: Qingdao Hisense Media Network Technology Co Ltd
Current assignee: Qingdao Hisense Media Network Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-10-02
Anticipated expiration: 2040-04-22
Also published as: CN111737523B

Abstract

本申请实施例示出一种视频标签、搜索内容的生成方法及服务器，视频标签自动生成方法包括：获取视频文本；根据所述视频文本，生成视频分类和第一视频标签列表；根据所述视频文本、视频分类和第一视频标签列表，确定相似媒资；根据所述相似媒资，生成第二视频标签列表；在所述第二标签列表中，提取关键词，根据所述关键词，确定语义扩充标签列表，其中，所述语义扩充标签列表中的词为视频标签。本申请实施例输入视频文本，自动产生视频标签，使得视频运营商可以准确的获取到视频标签，避免人工确定带来的不确定性，另外，当用户搜索视频时，可以对搜索文本扩充，提升搜索结果的准确性。

Description

一种视频标签、搜索内容的生成方法及服务器

技术领域

本发明涉及软件技术领域，特别涉及一种视频标签、搜索内容的生成方法及服务器。

背景技术

为了清楚方便的描述视频的相关信息，一般采用为视频添加视频标签的方法来实现，目前视频标签通常为人工确定。但是，人工确定视频标签会花费大量时间。

另外，由于不同的运营人员为相同视频所确定的视频标签可能不同，这样就会造成当用户使用视频标签查找视频时，可能查找的视频内容不完整。示例性的，运营人员A为某一视频确定的视频标签为唱歌，运营人员B为该视频确定视频标签为歌曲，这样当使用运营人员 A确定的视频标签唱歌作为视频标签时，而用户利用视频标签歌曲查找，这样就会出现用户不能查找到该视频。

发明内容

基于上述技术问题，本发明的发明目的在于提供一种视频标签、搜索内容的生成方法及服务器。

本申请实施例第一方面示出一种视频标签自动生成方法，包括：

获取视频文本；

根据所述视频文本，生成视频分类和第一视频标签列表；

根据所述视频文本、视频分类和第一视频标签列表，确定相似媒资；

根据所述相似媒资，生成第二视频标签列表；

在所述第二标签列表中，提取关键词，根据所述关键词，确定语义扩充标签列表，其中，所述语义扩充标签列表中的词为视频标签。

本申请实施例第二方面示出一种搜索内容的生成方法，包括：

获取用户输入的搜索文本；

将所述搜索文本作为视频文本，执行视频标签自动生成方法，确定语义扩充标签列表；

根据所述语义扩充标签列表，改写所述搜索文本，生成搜索内容。

本申请实施例第三方面示出一种服务器，被配置为：

获取视频文本；

根据所述视频文本，生成视频分类和第一视频标签列表；

根据所述相似媒资，生成第二标签列表；

本申请实施例第二方面示出一种服务器，被配置为：

获取用户输入的搜索文本；

由以上技术方案可以看出，本申请实施例示出一种视频标签、搜索内容的生成方法及服务器，视频标签自动生成方法包括：获取视频文本；根据所述视频文本，生成视频分类和第一视频标签列表；根据所述视频文本、视频分类和第一视频标签列表，确定相似媒资；根据所述相似媒资，生成第二视频标签列表；在所述第二标签列表中，提取关键词，根据所述关键词，确定语义扩充标签列表，其中，所述语义扩充标签列表中的词为视频标签。本申请实施例输入视频文本，自动产生视频标签，使得视频运营商可以准确的获取到视频标签，避免人工确定带来的不确定性，另外，当用户搜索视频时，可以对搜索文本扩充，提升搜索结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据实施例中的一种视频标签自动生成方法的流程图；

图2中示例性示出了根据实施例中的1个序列内的词以边相连的示意图；

图3中示例性示出了根据实施例中的2个序列内的词以边相连的示意图；

图4中示例性示出了根据实施例中的7个序列内的词以边相连的示意图；

图5中示例性示出了根据实施例中的一种搜索内容的生成方法的流程图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

为了清楚方便的描述视频的相关信息，一般采用为视频添加视频标签的方法来实现，目前视频标签通常为人工确定，但是，人工确定视频标签会花费大量时间。另外，由于不同的运营人员为相同视频所确定的视频标签可能不同，这样就会造成当用户使用视频标签查找视频时，可能查找的视频内容不完整。

基于上述技术问题，本申请示出第一方面示出一种视频标签自动生成方法，如图1所示，包括：

S100、获取视频文本。一些实施例中，当视频运营商获取到新的视频的同时，还会获取到与该视频的内容描述，即视频文本，示例性的，视频文本可以包括视频摘要，例如继曼谷、纽约之后，东京再出大案。侦探们闻讯后也齐聚东京，加入挑战，而排名第一Q的现身，让这个大案更加扑朔迷离，一场亚洲最强神探之间的较量即将爆笑展开。视频文本还可以包括视频标题，例如，唐人街探案3。在一些实施例中，当用户搜索视频时，可能会输入搜索文本，示例性的，我要看唱歌节目，用户输入的搜索文本，即为视频文本。

S200、根据所述视频文本，生成视频分类和第一视频标签列表。

在一些实施例中，根据所述视频文本，生成视频分类的方法包括：将所述视频文本作为输入文本，输入机器学习中的监督式学习，输出视频分类。

具体的，监督式学习，是一个机器学习中的方法，可以由训练资料中学到或建立一个模型，并依此模型推测新的实例。本申请实施例中监督式学习的训练资料是由大量的视频文本和视频分类所组成。当输入一个视频文本到监督式学习中，则可得到视频分类。

在一些实施例中，根据所述视频文本，生成第一视频标签列表的方法包括：

根据所述视频文本，利用标签词典匹配或命名实体识别模型，识别第一视频标签。

所述标签词典匹配的过程为：所述词典包括若干标签，将视频文本与词典中的标签进行对比，如果视频文本中存在与词典中的标签相同的内容，则确定该内容为第一视频标签。

所述命名实体识别模型为监督式学习中的一种，所述命名实体识别模型为由训练资料中学到或建立的一个模型，命名实体识别模型的训练资料为视频文本和视频标签。当输入视频文本到命名实体识别模型后，会确定标签的开头和结尾，最终会输出第一视频标签。

将所有第一识别标签组合，形成第一视频标签列表L1。由于第一识别标签的数量可能为多个，所以将多个第一视频标签组合，形成第一视频标签列表。

示例性的，视频标题为唐人街探案3；视频摘要为继曼谷、纽约之后，东京再出大案。侦探们闻讯后也齐聚东京，加入挑战，而排名第一Q的现身，让这个大案更加扑朔迷离，一场亚洲最强神探之间的较量即将爆笑展开；视频分类为电影。

将视频标题和视频摘要，输入命名实体识别模型，识别标签，该标签包括：演员名：王宝强，刘昊然；标签名：侦探，爆笑；地名：曼谷、纽约、东京。

在一些实施例中，可以将上述标签的全部内容作为第一视频标签，还可以以标签的部分内容作为第一视频标签。示例性的，可以将演员名、标签名和地名的内容均作为第一视频标签列表中的第一视频标签。在另一些实施例中，还可以将演员名、标签名和地名的内容中的任意的一个或两个作为第一视频标签列表中的第一视频标签。

示例性的，将演员名和标签名作为第一视频标签列表中的第一视频标签，因此，第一视频标签列表L1＝[王宝强，刘昊然，侦探，爆笑]。

S300、根据所述视频文本、视频分类和第一视频标签列表，确定相似媒资。需要说明的是，所述相似媒资包括视频，但是不限于视频的类型，示例性的，电影和电视剧等。

示例性的，视频文本包括视频摘要和视频标题。视频标题为唐人街探案3；视频摘要为继曼谷、纽约之后，东京再出大案。侦探们闻讯后也齐聚东京，加入挑战，而排名第一Q的现身，让这个大案更加扑朔迷离，一场亚洲最强神探之间的较量即将爆笑展开；视频分类为电影。第一视频标签列表L1＝[王宝强，刘昊然，侦探，爆笑]。

根据不用的情况，确定不同的搜索条件式，示例性的，搜索条件式可以为((视频标题：唐人街探案3)and(视频分类：电影))and((演员名：王宝强)or(演员名：刘昊然))，根据以上搜索条件式，搜索结果如表1。

表1

需要说明的是，所述搜索条件式并不唯一，可以根据实际的业务需要确定。

S400、根据所述相似媒资，生成第二视频标签列表；

需要说明的是，本申请实施例采用相似媒资，生成第二视频标签列表，可以提高生成视频标签的准确性。将相似媒资的视频标签组合，生成第二视频标签列表，例如，相似媒资包括相似媒资A和相似媒资B，相似媒资A的视频标签为[国内，侦探，惊耸，悬疑]，相似媒资B 的视频标签为[国内，侦探，推理，惊耸，泰国]，则第二视频标签列表L2＝[[国内，侦探，惊耸，悬疑]，[国内，侦探，推理，惊耸，泰国]]。

S500、在所述第二标签列表中，提取关键词，根据所述关键词，确定语义扩充标签列表其中，所述语义扩充标签列表中的词为视频标签。

在一些实施例中，所述在第二视频标签列表中，提取关键词的方法包括：利用自然语言处理关键词提取技术，确定第二视频标签列表中的关键词。

需要说明的是，自然语言处理关键词提取技术包括IDF(Inverse DocumentFrequency，逆文档频率)、TEXTRANK，以及词权重三种方法。

示例性的，第二视频标签列表包括k个第二视频标签。利用IDF确定关键词的方法包括：将k个第二视频标签当成k个文档，使用IDF作为权重，进行关键词的抽取，其中，IDF＝总文档数/词出现在多少文档。

示例性的，第二视频标签列表L2＝[[国内，侦探，惊耸，悬疑]，[国内，侦探，推理，惊耸，泰国]]

对L2进行关键词抽取，IDF的结果如表2。

表2

第二视频标签	IDF
		国内	2/2＝1
侦探	2/2＝1
		惊耸	2/2＝1
悬疑	2/1＝2
		推理	2/1＝2
泰国	2/1＝2

可以理解的是，第二视频标签越出现在少数文档中，越具备关键性。所以，最终选择IDF 值较高的悬疑，推理，泰国，作为关键词，将关键词组合，得到语义扩充标签列表LE(Extend List) ＝[悬疑，推理，泰国]，视频标签为悬疑，推理和泰国。

利用TEXTRANK确定关键词的方法包括：将k个第二视频标签拼接成一个文档，将相邻的w个词，或语言相似的w个词，连上边形成词与词之间的图，使用textrank算法算出图的中心，形成关键词。

示例性的，第二视频标签列表L2＝[[国内，侦探，惊耸，悬疑]，[国内，侦探，推理，惊耸，泰国]]，设定窗口尺寸(window size)＝3，则将连续的3个词形成序列，得到7个序列，包括[国内，侦探，惊悚]，[侦探，惊耸，悬疑]，[惊耸，悬疑，国内]，[悬疑，国内，侦探][国内，侦探，推理][，侦探，推理，惊耸][推理，惊耸，泰国]。

将每个序列中的词，当作节点，序列内的词以边相连。示例性的，1个序列内的词以边相连后，如图2所示。2个序列内的词以边相连后，如图3所示。依次类推，7个序列内的词以边相连后，如图4所示。利用图4，可以计算出图的中心，具体的，统计节点的度，即与节点相连的线的条数，图4中，推理的度为4，侦探的度为4，国内的度为4，泰国的度为 2，悬疑的度为3，惊悚的度为5，可确定词的重要程度，取度大于3的节点，得到图的中心为惊悚，推理，侦探，国内，最终关键词为惊悚，推理，侦探，国内。将关键词组合，得到语义扩充标签列表LE＝[惊悚，推理，侦探，国内]。

利用词权重确定关键词的方法包括：给定不同的视频标签不同的权重，将权重高的第二视频标签作为关键词。常见的视频标签权重可以按照标签点击率，标签出现在媒资的数量确定，当然也可以根据业务的不同目的，确定视频标签权重。

示例性的，第二视频标签列表L2＝[[湖南卫视，音乐，韩红]，[浙江卫视，音乐，那英]，[江苏卫视，音乐，真人秀]]，可以将第二视频标签出现在历史视频的数量，作为第二视频标签的权重，确定关键词，历史视频的数量如表3所示。

表3

第二视频标签	视频数量
		湖南卫视	8329
音乐	204712
		韩红	201
浙江卫视	10283
		那英	523
江苏卫视	12313
		真人秀	213233

由表3可知，历史视频的数量较多的第二视频标签为音乐和真人秀，因此，确定音乐和真人秀为关键词，语义扩充标签列表LE＝[音乐，真人秀]。

另外，在一些实施例中，还可以统计第二视频标签列表中的第二视频标签的词频，将词频较高的第二视频标签，作为关键词，生成语义扩充标签列表。示例性的，第二视频标签列表L2＝[[国内，侦探，惊耸，悬疑]，[国内，侦探，推理，惊耸，泰国]]，国内的词频为2，侦探的词频为 2，惊耸的词频为2，悬疑的词频为1，推理的词频为1，泰国的词频为1，最终确定国内，侦探，惊耸为关键词，语义扩充标签列表LE＝[国内，侦探，惊耸]。

当视频运营商获取到新的视频和视频文本后，视频运营商将新的视频存储在媒体内容管理系统，为了便于了解视频内容，为新的视频添加视频标签。通过本申请实施例的视频标签的生成方法，可以准确的生成视频标签避免人工确定视频标签而带来的不确定性。在确定视频标签后，还可以将视频标签和视频存储在媒体内容管理系统中，减少运营人员人工输入视频标签的时间。

示例性的，新增一个视频，该视频文本包括标题，该标题为肺炎最新消息，通过执行视频标签自动生成方法，自动生成语义扩充标签列表LE＝[健康，公共卫生，肺炎]。值得注意的是，在本实施例中，健康和公共卫生并没有出现在标题中，利用本申请实施例的视频标签自动生成方法，可以生成除视频文本以外的相关视频标签。这样，将视频标签更准确的确定后，便于以后对视频标签的应用。

本申请示出第二方面示出一种搜索内容的生成方法，如图5所示，包括：

S600、获取用户输入的搜索文本；

S700、将所述搜索文本作为视频文本，执行视频标签自动生成方法，确定语义扩充标签列表；

S800、根据所述语义扩充标签列表，改写所述搜索文本，生成搜索内容。

示例性的，用户输入的搜索文本为我要看唱歌节目。将该搜索文本作为视频文本，执行视频标签自动生成方法，得到语义扩充标签列表LE＝[音乐，真人秀]，生成搜索内容为[我要看唱歌节目，音乐，真人秀]。另外，针对搜索引擎的条件式也可以改写，示例性的，用户输入的搜索文本为我要看唱歌节目，可以扩充搜索文本，得到搜索内容为视频标签：(唱歌or 跳舞or演唱会or歌唱or舞蹈)。另外，可以直接将搜索文本，直接改写为语义扩充标签列表中的标签。示例性的，搜索内容为[演唱会，歌唱竞赛，舞蹈]。

这样，生成的搜索内容，可以扩充语义，为用户更准确的搜索需要观看的视频。

本申请利用以下两个实例说明视频标签自动生成方法和搜索内容的生成方法。

实例一：

当视频运营商获取到新的视频和视频文本后，视频运营商将新的视频存储在媒体内容管理系统。视频文本包括：视频标题和视频摘要，视频标题：唐人街探案3，视频摘要：继曼谷、纽约之后，东京再出大案。侦探们闻讯后也齐聚东京，加入挑战，而排名第一Q的现身，让这个大案更加扑朔迷离，一场亚洲最强神探之间的较量即将爆笑展开。

将视频标题与视频摘要，输入机器学习中的监督式学习中，得到视频分类为电影。

将视频标题与视频摘要，输入命名实体识别模型后，得到以下标签：演员名：王宝强，刘昊然；标签名：侦探，爆笑；地名：曼谷、纽约、东京。

第一视频标签列表L1可因业务需求，取演员名和标签名作为第一视频标签列表，因此第一视频标签列表L1＝[王宝强，刘昊然，侦探，爆笑]。

根据视频标题：唐人街探案3，视频分类：电影，第一视频标签列表，搜索历史视频数据库中的已有数据。搜索条件式为：((视频标题：唐人街探案3)and(视频分类：电影))and((演员名：王宝强)or(演员名：刘昊然))，搜索结果如下表4。

表4

搜索结果有2笔，因此第二视频标签列表L2＝[[国内，侦探，惊耸，悬疑]，[国内，侦探，推理，惊耸，泰国]。

对第二视频标签列表L2进行关键词提取，本实例利用IDF确定关键词，IDF结果如表5。

表5

最终选择IDF值较高的悬疑，推理，泰国，作为关键词，将关键词组合，得到语义扩充标签列表LE(Extend List)＝[悬疑，推理，泰国]。

因此，视频运营商可以在存储新的视频时，将语义扩展标签列表LE(Extend List)＝[悬疑，推理，泰国]，同时加入到媒体内容管理系统。

其中，标签字段：[悬疑，推理，泰国]，为本发明所自动生成的标签。以上范例展现了本发明的效果：自动产生标签，减少运营人员人工输入标签的时间。

实例二：

当用户输入搜索文本，搜索相应的视频。搜索文本为我要看唱歌的节目。

将搜索文本作为视频文本，输入机器学习中的监督式学习中，得到视频分类为综艺。

将搜索文本作为视频文本，输入到命名实体识别模型后，得到标签，标签为唱歌，将唱歌作为第一视频标签列表中的第一视频标签。

根据视频分类：综艺，以及第一视频标签列表L1＝[唱歌]，搜索历史视频数据库中的已有数据。搜索条件式为((视频分类：电影)and((标签名：唱歌))，搜索结果如下表6。

表6

视频标题	视频分类	视频标签
			我想和你唱3	综艺	湖南卫视，音乐，韩红
中国好声音	综艺	浙江卫视，音乐，那英
			蒙面唱将	综艺	江苏卫视，音乐，真人秀

因此，第二视频标签列表L2＝[[湖南卫视，音乐，韩红]，[浙江卫视，音乐，那英]，[江苏卫视，音乐，真人秀]]。

对第二视频标签列表L2进行关键词提取，本实例利用词权重确定关键词的方法确定关键词，由于本实施，中，业务的目的是，提升搜索召回的数量，找到较多的视频。因此使用标签出现在历史视频的数量，作为第二视频标签的权重，结果如表7。

表7

历史视频的数量较多的第二视频标签为音乐和真人秀，因此，确定音乐和真人秀为关键词，语义扩充标签列表LE＝[音乐，真人秀]。

根据语义扩充标签列表LE，扩充搜索文本后，得到搜索内容为[我要看唱歌节目，音乐，真人秀]。

由于，搜索视频时自动增加了音乐与真人秀，因此搜索结果将会回传语义更加多元的音乐、真人秀相关视频，增加视频搜索的媒体召回效果。用户即使只打唱歌搜索文本，也可搜索到音乐、真人秀相关的媒资，达成搜索更准确的效果。

本申请示出第三方面示出一种服务器，被配置为：

获取视频文本，根据所述视频文本，生成视频分类和第一视频标签列表；

根据所述相似媒资，生成第二标签列表；

根据所述视频文本，利用标签词典匹配或命名实体识别模型，识别第一视频标签；

将所有第一识别标签组合，形成第一视频标签列表。

在一些实施例中，所述在第二标签列表中，提取关键词的方法包括：利用自然语言处理关键词提取技术，确定第二标签列表中的关键词。

本申请示出第四方面示出一种服务器，被配置为：

获取用户输入的搜索文本；

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

此外，术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种视频标签自动生成方法，其特征在于，包括：

根据所述相似媒资，生成第二视频标签列表；

2.根据权利要求1所述的生成方法，其特征在于，根据所述视频文本，生成视频分类的方法包括：将所述视频文本作为输入文本，输入机器学习中的监督式学习，输出视频分类。

3.根据权利要求1所述的生成方法，其特征在于，根据所述视频文本，生成第一视频标签列表的方法包括：

将所有第一识别标签组合，形成第一视频标签列表。

4.根据权利要求1所述的生成方法，其特征在于，所述在第二视频标签列表中，提取关键词的方法包括：利用自然语言处理关键词提取技术，确定第二视频标签列表中的关键词。

5.一种搜索内容的生成方法，其特征在于，包括：

获取用户输入的搜索文本；

将所述搜索文本作为视频文本，执行如权利要求1所述的视频标签自动生成方法，确定语义扩充标签列表；

6.一种服务器，其特征在于，被配置为：

获取视频文本；

根据所述视频文本，生成视频分类和第一视频标签列表；

根据所述相似媒资，生成第二标签列表；

7.根据权利要求6所述的服务器，其特征在于，根据所述视频文本，生成视频分类的方法包括：将所述视频文本作为输入文本，输入机器学习中的监督式学习，输出视频分类。

8.根据权利要求6所述的服务器，其特征在于，根据所述视频文本，生成第一视频标签列表的方法包括：

将所有第一识别标签组合，形成第一视频标签列表。

9.根据权利要求6所述的服务器，其特征在于，所述在第二标签列表中，提取关键词的方法包括：利用自然语言处理关键词提取技术，确定第二标签列表中的关键词。

10.一种服务器，其特征在于，被配置为：

获取用户输入的搜索文本；