CN111737523B - 一种视频标签、搜索内容的生成方法及服务器 - Google Patents
一种视频标签、搜索内容的生成方法及服务器 Download PDFInfo
- Publication number
- CN111737523B CN111737523B CN202010321365.XA CN202010321365A CN111737523B CN 111737523 B CN111737523 B CN 111737523B CN 202010321365 A CN202010321365 A CN 202010321365A CN 111737523 B CN111737523 B CN 111737523B
- Authority
- CN
- China
- Prior art keywords
- video
- text
- tags
- tag list
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 10
- 239000000523 sample Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 239000008492 tangshen Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例示出一种视频标签、搜索内容的生成方法及服务器,视频标签自动生成方法包括:获取视频文本;根据所述视频文本,生成视频分类和第一视频标签列表;根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;根据所述相似媒资,生成第二视频标签列表;在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。本申请实施例输入视频文本,自动产生视频标签,使得视频运营商可以准确的获取到视频标签,避免人工确定带来的不确定性,另外,当用户搜索视频时,可以对搜索文本扩充,提升搜索结果的准确性。
Description
技术领域
本发明涉及软件技术领域,特别涉及一种视频标签、搜索内容的生成方法及服务器。
背景技术
为了清楚方便的描述视频的相关信息,一般采用为视频添加视频标签的方法来实现,目前视频标签通常为人工确定。但是,人工确定视频标签会花费大量时间。
另外,由于不同的运营人员为相同视频所确定的视频标签可能不同,这样就会造成当用户使用视频标签查找视频时,可能查找的视频内容不完整。示例性的,运营人员A为某一视频确定的视频标签为唱歌,运营人员B为该视频确定视频标签为歌曲,这样当使用运营人员A确定的视频标签唱歌作为视频标签时,而用户利用视频标签歌曲查找,这样就会出现用户不能查找到该视频。
发明内容
基于上述技术问题,本发明的发明目的在于提供一种视频标签、搜索内容的生成方法及服务器。
本申请实施例第一方面示出一种视频标签自动生成方法,包括:
获取视频文本;
根据所述视频文本,生成视频分类和第一视频标签列表;
根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;
根据所述相似媒资,生成第二视频标签列表;
在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。
本申请实施例第二方面示出一种搜索内容的生成方法,包括:
获取用户输入的搜索文本;
将所述搜索文本作为视频文本,执行视频标签自动生成方法,确定语义扩充标签列表;
根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
本申请实施例第三方面示出一种服务器,被配置为:
获取视频文本;
根据所述视频文本,生成视频分类和第一视频标签列表;
根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;
根据所述相似媒资,生成第二标签列表;
在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。
本申请实施例第二方面示出一种服务器,被配置为:
获取用户输入的搜索文本;
将所述搜索文本作为视频文本,执行视频标签自动生成方法,确定语义扩充标签列表;根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
由以上技术方案可以看出,本申请实施例示出一种视频标签、搜索内容的生成方法及服务器,视频标签自动生成方法包括:获取视频文本;根据所述视频文本,生成视频分类和第一视频标签列表;根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;根据所述相似媒资,生成第二视频标签列表;在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。本申请实施例输入视频文本,自动产生视频标签,使得视频运营商可以准确的获取到视频标签,避免人工确定带来的不确定性,另外,当用户搜索视频时,可以对搜索文本扩充,提升搜索结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1中示例性示出了根据实施例中的一种视频标签自动生成方法的流程图;
图2中示例性示出了根据实施例中的1个序列内的词以边相连的示意图;
图3中示例性示出了根据实施例中的2个序列内的词以边相连的示意图;
图4中示例性示出了根据实施例中的7个序列内的词以边相连的示意图;
图5中示例性示出了根据实施例中的一种搜索内容的生成方法的流程图。
具体实施方式
为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
为了清楚方便的描述视频的相关信息,一般采用为视频添加视频标签的方法来实现,目前视频标签通常为人工确定,但是,人工确定视频标签会花费大量时间。另外,由于不同的运营人员为相同视频所确定的视频标签可能不同,这样就会造成当用户使用视频标签查找视频时,可能查找的视频内容不完整。
基于上述技术问题,本申请示出第一方面示出一种视频标签自动生成方法,如图1所示,包括:
S100、获取视频文本。一些实施例中,当视频运营商获取到新的视频的同时,还会获取到与该视频的内容描述,即视频文本,示例性的,视频文本可以包括视频摘要,例如继曼谷、纽约之后,东京再出大案。侦探们闻讯后也齐聚东京,加入挑战,而排名第一Q的现身,让这个大案更加扑朔迷离,一场亚洲最强神探之间的较量即将爆笑展开。视频文本还可以包括视频标题,例如,唐人街探案3。在一些实施例中,当用户搜索视频时,可能会输入搜索文本,示例性的,我要看唱歌节目,用户输入的搜索文本,即为视频文本。
S200、根据所述视频文本,生成视频分类和第一视频标签列表。
在一些实施例中,根据所述视频文本,生成视频分类的方法包括:将所述视频文本作为输入文本,输入机器学习中的监督式学习,输出视频分类。
具体的,监督式学习,是一个机器学习中的方法,可以由训练资料中学到或建立一个模型,并依此模型推测新的实例。本申请实施例中监督式学习的训练资料是由大量的视频文本和视频分类所组成。当输入一个视频文本到监督式学习中,则可得到视频分类。
在一些实施例中,根据所述视频文本,生成第一视频标签列表的方法包括:
根据所述视频文本,利用标签词典匹配或命名实体识别模型,识别第一视频标签。
所述标签词典匹配的过程为:所述词典包括若干标签,将视频文本与词典中的标签进行对比,如果视频文本中存在与词典中的标签相同的内容,则确定该内容为第一视烦标签。
所述命名实体识别模型为监督式学习中的一种,所述命名实体识别模型为由训练资料中学到或建立的一个模型,命名实体识别模型的训练资料为视频文本和视频标签。当输入视频文本到命名实体识别模型后,会确定标签的开头和结尾,最终会输出第一视频标签。
将所有第一识别标签组合,形成第一视频标签列表L1。由于第一识别标签的数量可能为多个,所以将多个第一视频标签组合,形成第一视频标签列表。
示例性的,视频标题为唐人街探案3;视频摘要为继曼谷、纽约之后,东京再出大案。侦探们闻讯后也齐聚东京,加入挑战,而排名第一Q的现身,让这个大案更加扑朔迷离,一场亚洲最强神探之间的较量即将爆笑展开;视频分类为电影。
将视频标题和视频摘要,输入命名实体识别模型,识别标签,该标签包括:演员名:王某某,刘某某;标签名:侦探,爆笑;地名:曼谷、纽约、东京。
在一些实施例中,可以将上述标签的全部内容作为第一视频标签,还可以以标签的部分内容作为第一视频标签。示例性的,可以将演员名、标签名和地名的内容均作为第一视频标签列表中的第一视频标签。在另一些实施例中,还可以将演员名、标签名和地名的内容中的任意的一个或两个作为第一视频标签列表中的第一视频标签。
示例性的,将演员名和标签名作为第一视频标签列表中的第一视频标签,因此,第一视频标签列表L1=[王某某,刘某某,侦探,爆笑]。
S300、根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资。需要说明的是,所述相似媒资包括视频,但是不限于视频的类型,示例性的,电影和电视剧等。
示例性的,视频文本包括视频摘要和视频标题。视频标题为唐人街探案3;视频摘要为继曼谷、纽约之后,东京再出大案。侦探们闻讯后也齐聚东京,加入挑战,而排名第一Q的现身,让这个大案更加扑朔迷离,一场亚洲最强神探之间的较量即将爆笑展开;视频分类为电影。第一视频标签列表L1=[王某某,刘某某,侦探,爆笑]。
根据不用的情况,确定不同的搜索条件式,示例性的,搜索条件式可以为((视频标题:唐人街探案3)and(视频分类:电影))and((演员名:王某某)or(演员名:刘某某)),根据以上搜索条件式,搜索结果如表1。
表1
需要说明的是,所述搜索条件式并不唯一,可以根据实际的业务需要确定。
S400、根据所述相似媒资,生成第二视频标签列表;
需要说明的是,本申请实施例采用相似媒资,生成第二视频标签列表,可以提高生成视频标签的准确性。将相似媒资的视频标签组合,生成第二视频标签列表,例如,相似媒资包括相似媒资A和相似媒资B,相似媒资A的视频标签为[国内,侦探,惊耸,悬疑],相似媒资B的视频标签为[国内,侦探,推理,惊耸,泰国],则第二视频标签列表L2=[[国内,侦探,惊耸,悬疑],[国内,侦探,推理,惊耸,泰国]]。
S500、在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表其中,所述语义扩充标签列表中的词为视频标签。
在一些实施例中,所述在第二视频标签列表中,提取关键词的方法包括:利用自然语言处理关键词提取技术,确定第二视频标签列表中的关键词。
需要说明的是,自然语言处理关键词提取技术,包括IDF(Inverse DocumentFrequency,逆文档频率)、TEXTRANK,以及词权重三种方法。
示例性的,第二视频标签列表包括k个第二视频标签。利用IDF确定关键词的方法包括:将k个第二视频标签当成k个文档,使用IDF作为权重,进行关键词的抽取,其中,IDF=总文档数/词出现在多少文档。
示例性的,第二视频标签列表L2=[[国内,侦探,惊耸,悬疑],[国内,侦探,推理,惊耸,泰国]]
对L2进行关键词抽取,IDF的结果如表2。
表2
第二视频标签 | IDF |
国内 | 2/2=1 |
侦探 | 2/2=1 |
惊耸 | 2/2=1 |
悬疑 | 2/1=2 |
推理 | 2/1=2 |
泰国 | 2/1=2 |
可以理解的是,第二视频标签越出现在少数文档中,越具备关键性。所以,最终选择IDF值较高的悬疑,推理,泰国,作为关键词,将关键词组合,得到语义扩充标签列表LE(Extend List)=[悬疑,推理,泰国],视频标签为悬疑,推理和泰国。
利用TEXTRANK确定关键词的方法包括:将k个第二视频标签拼接成一个文档,将相邻的w个词,或语言相似的w个词,连上边形成词与词之间的图,使用textrank算法算出图的中心,形成关键词。
示例性的,第二视频标签列表L2=[[国内,侦探,惊耸,悬疑],[国内,侦探,推理,惊耸,泰国]],设定窗口尺寸(windOw size)=3,则将连续的3个词形成序列,得到7个序列,包括[国内,侦探,惊悚],[侦探,惊耸,悬疑],[惊耸,悬疑,国内],[悬疑,国内,侦探][国内,侦探,推理][,侦探,推理,惊耸][推理,惊耸,泰国]。
将每个序列中的词,当作节点,序列内的词以边相连。示例性的,1个序列内的词以边相连后,如图2所示。2个序列内的词以边相连后,如图3所示。依次类推,7个序列内的词以边相连后,如图4所示。利用图4,可以计算出图的中心,具体的,统计节点的度,即与节点相连的线的条数,图4中,推理的度为4,侦探的度为4,国内的度为4,泰国的度为2,悬疑的度为3,惊悚的度为5,可确定词的重要程度,取度大于3的节点,得到图的中心为惊悚,推理,侦探,国内,最终关键词为惊悚,推理,侦探,国内。将关键词组合,得到语义扩充标签列表LE=[惊悚,推理,侦探,国内]。
利用词权重确定关键词的方法包括:给定不同的视频标签不同的权重,将权重高的第二视频标签作为关键词。常见的视频标签权重可以按照标签点击率,标签出现在媒资的数量确定,当然也可以根据业务的不同目的,确定视频标签权重。
示例性的,第二视频标签列表L2=[[湖南卫视,音乐,韩某],[浙江卫视,音乐,那某],[江苏卫视,音乐,真人秀]],可以将第二视频标签出现在历史视频的数量,作为第二视频标签的权重,确定关键词,历史视频的数量如表3所示。
表3
第二视频标签 | 视频数量 |
湖南卫视 | 8329 |
音乐 | 204712 |
韩某 | 201 |
浙江卫视 | 10283 |
那某 | 523 |
江苏卫视 | 12313 |
真人秀 | 213233 |
由表3可知,历史视频的数量较多的第二视频标签为音乐和真人秀,因此,确定音乐和真人秀为关键词,语义扩充标签列表LE=[音乐,真人秀]。
另外,在一些实施例中,还可以统计第二视频标签列表中的第二视频标签的词频,将词频较高的第二视频标签,作为关键词,生成语义扩充标签列表。示例性的,第二视频标签列表L2=[[国内,侦探,惊耸,悬疑],[国内,侦探,推理,惊耸,泰国]],国内的词频为2,侦探的词频为2,惊耸的词频为2,悬疑的词频为1,推理的词频为1,泰国的词频为1,最终确定国内,侦探,惊耸为关键词,语义扩充标签列表LE=[国内,侦探,惊耸]。
当视频运营商获取到新的视频和视频文本后,视频运营商将新的视频存储在媒体内容管理系统,为了便于了解视频内容,为新的视频添加视频标签。通过本申请实施例的视频标签的生成方法,可以准确的生成视频标签避免人工确定视频标签而带来的不确定性。在确定视频标签后,还可以将视频标签和视频存储在媒体内容管理系统中,减少运营人员人工输入视频标签的时间。
示例性的,新增一个视频,该视频文本包括标题,该标题为肺炎最新消息,通过执行视频标签自动生成方法,自动生成语义扩充标签列表LE=[健康,公共卫生,肺炎]。值得注意的是,在本实施例中,健康和公共卫生并没有出现在标题中,利用本申请实施例的视频标签自动生成方法,可以生成除视频文本以外的相关视频标签。这样,将视频标签更准确的确定后,便于以后对视频标签的应用。
本申请示出第二方面示出一种搜索内容的生成方法,如图5所示,包括:
S600、获取用户输入的搜索文本;
S700、将所述搜索文本作为视频文本,执行视频标签自动生成方法,确定语义扩充标签列表;
S800、根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
示例性的,用户输入的搜索文本为我要看唱歌节目。将该搜索文本作为视频文本,执行视频标签自动生成方法,得到语义扩充标签列表LE=[音乐,真人秀],生成搜索内容为[我要看唱歌节目,音乐,真人秀]。另外,针对搜索引擎的条件式也可以改写,示例性的,用户输入的搜索文本为我要看唱歌节目,可以扩充搜索文本,得到搜索内容为视频标签:(唱歌or跳舞or演唱会or歌唱or舞蹈)。另外,可以直接将搜索文本,直接改写为语义扩充标签列表中的标签。示例性的,搜索内容为[演唱会,歌唱竞赛,舞蹈]。
这样,生成的搜索内容,可以扩充语义,为用户更准确的搜索需要观看的视频。
本申请利用以下两个实例说明视频标签自动生成方法和搜索内容的生成方法。
实例一:
当视频运营商获取到新的视频和视频文本后,视频运营商将新的视频存储在媒体内容管理系统。视频文本包括:视频标题和视频摘要,视频标题:唐人街探案3,视频摘要:继曼谷、纽约之后,东京再出大案。侦探们闻讯后也齐聚东京,加入挑战,而排名第一Q的现身,让这个大案更加扑朔迷离,一场亚洲最强神探之间的较量即将爆笑展开。
将视频标题与视频摘要,输入机器学习中的监督式学习中,得到视频分类为电影。
将视频标题与视频摘要,输入命名实体识别模型后,得到以下标签:演员名:王某某,刘某某;标签名:侦探,爆笑;地名:曼谷、纽约、东京。
第一视频标签列表L1可因业务需求,取演员名和标签名作为第一视频标签列表,因此第一视频标签列表L1=[王某某,刘某某,侦探,爆笑]。
根据视频标题:唐人街探案3,视频分类:电影,第一视频标签列表,搜索历史视频数据库中的已有数据。搜索条件式为:((视频标题:唐人街探案3)and(视频分类:电影))and((演员名:王某某)or(演员名:刘某某)),搜索结果如下表4。
表4
搜索结果有2笔,因此第二视频标签列表L2=[[国内,侦探,惊耸,悬疑],[国内,侦探,推理,惊耸,泰国]。
对第二视频标签列表L2进行关键词提取,本实例利用IDF确定关键词,IDF结果如表5。
表5
第二视频标签 | IDF |
国内 | 2/2=1 |
侦探 | 2/2=1 |
惊耸 | 2/2=1 |
悬疑 | 2/1=2 |
推理 | 2/1=2 |
泰国 | 2/1=2 |
最终选择IDF值较高的悬疑,推理,泰国,作为关键词,将关键词组合,得到语义扩充标签列表LE(Extend List)=[悬疑,推理,泰国]。
因此,视频运营商可以在存储新的视频时,将语义扩展标签列表LE(Extend List)=[悬疑,推理,泰国],同时加入到媒体内容管理系统。
其中,标签字段:[悬疑,推理,泰国],为本发明所自动生成的标签。以上范例展现了本发明的效果:自动产生标签,减少运营人员人工输入标签的时间。
实例二:
当用户输入搜索文本,搜索相应的视频。搜索文本为我要看唱歌的节目。
将搜索文本作为视频文本,输入机器学习中的监督式学习中,得到视频分类为综艺。
将搜索文本作为视频文本,输入到命名实体识别模型后,得到标签,标签为唱歌,将唱歌作为第一视频标签列表中的第一视频标签。
根据视频分类:综艺,以及第一视频标签列表L1=[唱歌],搜索历史视频数据库中的已有数据。搜索条件式为((视频分类:电影)and((标签名:唱歌)),搜索结果如下表6。
表6
视频标题 | 视频分类 | 视频标签 |
我想和你唱3 | 综艺 | 湖南卫视,音乐,韩某 |
中国好声音 | 综艺 | 浙江卫视,音乐,那某 |
蒙面唱将 | 综艺 | 江苏卫视,音乐,真人秀 |
因此,第二视频标签列表L2=[[湖南卫视,音乐,韩某],[浙江卫视,音乐,那某],[江苏卫视,音乐,真人秀]]。
对第二视频标签列表L2进行关键词提取,本实例利用词权重确定关键词的方法确定关键词,由于本实施,中,业务的目的是,提升搜索召回的数量,找到较多的视频。因此使用标签出现在历史视频的数量,作为第二视频标签的权重,结果如表7。
表7
第二视频标签 | 视频数量 |
湖南卫视 | 8329 |
音乐 | 204712 |
韩某 | 201 |
浙江卫视 | 10283 |
那某 | 523 |
江苏卫视 | 12313 |
真人秀 | 213233 |
历史视频的数量较多的第二视频标签为音乐和真人秀,因此,确定音乐和真人秀为关键词,语义扩充标签列表LE=[音乐,真人秀]。
根据语义扩充标签列表LE,扩充搜索文本后,得到搜索内容为[我要看唱歌节目,音乐,真人秀]。
由于,搜索视频时自动增加了音乐与真人秀,因此搜索结果将会回传语义更加多元的音乐、真人秀相关视频,增加视频搜索的媒体召回效果。用户即使只打唱歌搜索文本,也可搜索到音乐、真人秀相关的媒资,达成搜索更准确的效果。
本申请示出第三方面示出一种服务器,被配置为:
获取视频文本,根据所述视频文本,生成视频分类和第一视频标签列表;
根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;
根据所述相似媒资,生成第二标签列表;
在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。
在一些实施例中,根据所述视频文本,生成视频分类的方法包括:将所述视频文本作为输入文本,输入机器学习中的监督式学习,输出视频分类。
在一些实施例中,根据所述视频文本,生成第一视频标签列表的方法包括:
根据所述视频文本,利用标签词典匹配或命名实体识别模型,识别第一视频标签;
将所有第一识别标签组合,形成第一视频标签列表。
在一些实施例中,所述在第二标签列表中,提取关键词的方法包括:利用自然语言处理关键词提取技术,确定第二标签列表中的关键词。
本申请示出第四方面示出一种服务器,被配置为:
获取用户输入的搜索文本;
将所述搜索文本作为视频文本,执行视频标签自动生成方法,确定语义扩充标签列表;根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
由以上技术方案可以看出,本申请实施例示出一种视频标签、搜索内容的生成方法及服务器,视频标签自动生成方法包括:获取视频文本;根据所述视频文本,生成视频分类和第一视频标签列表;根据所述视频文本、视频分类和第一视频标签列表,确定相似媒资;根据所述相似媒资,生成第二视频标签列表;在所述第二标签列表中,提取关键词,根据所述关键词,确定语义扩充标签列表,其中,所述语义扩充标签列表中的词为视频标签。本申请实施例输入视频文本,自动产生视频标签,使得视频运营商可以准确的获取到视频标签,避免人工确定带来的不确定性,另外,当用户搜索视频时,可以对搜索文本扩充,提升搜索结果的准确性。
基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。
此外,术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (8)
1.一种视频标签自动生成方法,其特征在于,包括:
在获取到新增的第一视频同时,获取对应第一视频的视频文本;
根据所述视频文本,分别生成视频分类和第一视频标签列表,其中,所述视频文本包括视频摘要和视频标题,所述视频分类表征所述第一视频的分类,所述第一视频标签列表包含对应所述第一视频的标签;
根据所述视频文本、视频分类和第一视频标签列表,确定不同的搜索条件,并根据所述不同的搜索条件确定多个相似媒资,所述相似媒资为与所述第一视频相似的视频,其中,所述搜索条件包括第一视频的视频标题、视频分类和演员名称中的至少一种;
根据所述多个相似媒资,将多个相似媒资的视频标签组合,以生成第二视频标签列表;
将第二视频标签列表中的多个第二视频标签拼接成一个文档,将相邻的多个词,或语言相似的多个词,以边相连,形成词与词之间的图,将与节点连接的线数大于预设值的节点作为图的中心,将图的中心对应的标签作为所述第二视频标签列表中的关键词;或,根据第二视频列表中的第二视频标签在历史视频中出现的数量作为所述第二视频标签的权重,将权重高的第二视频标签,作为所述第二视频标签列表对应的关键词;
根据所述关键词,生成语义扩充标签列表,并将所述语义扩充标签列表中的标签作为所述第一视频的视频标签。
2.根据权利要求1所述的生成方法,其特征在于,根据所述视频文本,生成视频分类的方法包括:将所述视频文本作为输入文本,输入机器学习中的监督式学习,输出视频分类。
3.根据权利要求1所述的生成方法,其特征在于,根据所述视频文本,生成第一视频标签列表的方法包括:
根据所述视频文本,利用标签词典匹配或命名实体识别模型,识别第一视频标签;
将所有第一识别标签组合,形成第一视频标签列表。
4.一种搜索内容的生成方法,其特征在于,包括:
获取用户输入的对应第一视频的搜索文本;
将所述搜索文本作为视频文本,执行如权利要求1所述的视频标签自动生成方法,生成语义扩充标签列表,并将所述语义扩充标签列表中的标签作为所述第一视频的视频标签;
根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
5.一种服务器,其特征在于,被配置为:
在获取到新增的第一视频同时,获取对应第一视频的视频文本,所述视频文本包括视频摘要和视频标题;
根据所述视频文本,分别生成视频分类和第一视频标签列表,其中,所述视频分类表征所述第一视频的分类,所述第一视频标签列表包含对应所述第一视频的标签;
根据所述视频文本、视频分类和第一视频标签列表,确定不同的搜索条件,并根据所述不同的搜索条件确定多个相似媒资,所述相似媒资为与所述第一视频相似的视频,其中,所述搜索条件包括第一视频的视频标题、视频分类和演员名称中的至少一种;
根据所述多个相似媒资,将相似媒资的视频标签组合,以生成第二标签列表;
将第二视频标签列表中的多个第二视频标签拼接成一个文档,将相邻的多个词,或语言相似的多个词,以边相连,形成词与词之间的图,将与节点连接的线数大于预设值的节点作为图的中心,将图的中心对应的标签作为所述第二视频标签列表中的关键词;或,根据第二视频列表中的第二视频标签在历史视频中出现的数量作为所述第二视频标签的权重,将权重高的第二视频标签,作为所述第二视频标签列表对应的关键词;
根据所述关键词,生成对应所述第一视频的语义扩充标签列表,其中,所述语义扩充标签列表中的词用作对应所述第一视频的视频标签。
6.根据权利要求5所述的服务器,其特征在于,根据所述视频文本,生成视频分类的方法包括:将所述视频文本作为输入文本,输入机器学习中的监督式学习,输出视频分类。
7.根据权利要求5所述的服务器,其特征在于,根据所述视频文本,生成第一视频标签列表的方法包括:
根据所述视频文本,利用标签词典匹配或命名实体识别模型,识别第一视频标签;
将所有第一识别标签组合,形成第一视频标签列表。
8.一种服务器,其特征在于,被配置为:
获取用户输入的对应第一视频的搜索文本;
将所述搜索文本作为视频文本,执行如权利要求1所述的视频标签自动生成方法,生成语义扩充标签列表,并将所述语义扩充标签列表中的标签作为所述第一视频的视频标签;
根据所述语义扩充标签列表,改写所述搜索文本,生成搜索内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321365.XA CN111737523B (zh) | 2020-04-22 | 2020-04-22 | 一种视频标签、搜索内容的生成方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321365.XA CN111737523B (zh) | 2020-04-22 | 2020-04-22 | 一种视频标签、搜索内容的生成方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737523A CN111737523A (zh) | 2020-10-02 |
CN111737523B true CN111737523B (zh) | 2023-11-14 |
Family
ID=72646714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010321365.XA Active CN111737523B (zh) | 2020-04-22 | 2020-04-22 | 一种视频标签、搜索内容的生成方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737523B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699237B (zh) * | 2020-12-24 | 2021-10-15 | 百度在线网络技术(北京)有限公司 | 标签确定方法、设备和存储介质 |
CN113642536B (zh) * | 2021-10-13 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245062A (ja) * | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN103631856A (zh) * | 2013-10-17 | 2014-03-12 | 四川大学 | 一种中文文档集的主题可视化方法 |
CN107622048A (zh) * | 2017-09-06 | 2018-01-23 | 上海斐讯数据通信技术有限公司 | 一种文本模式识别方法及系统 |
CN108009293A (zh) * | 2017-12-26 | 2018-05-08 | 北京百度网讯科技有限公司 | 视频标签生成方法、装置、计算机设备和存储介质 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN109635197A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704503A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
-
2020
- 2020-04-22 CN CN202010321365.XA patent/CN111737523B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245062A (ja) * | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN103164471A (zh) * | 2011-12-15 | 2013-06-19 | 盛乐信息技术(上海)有限公司 | 视频文本标签的推荐方法及系统 |
CN103631856A (zh) * | 2013-10-17 | 2014-03-12 | 四川大学 | 一种中文文档集的主题可视化方法 |
CN107622048A (zh) * | 2017-09-06 | 2018-01-23 | 上海斐讯数据通信技术有限公司 | 一种文本模式识别方法及系统 |
CN108009293A (zh) * | 2017-12-26 | 2018-05-08 | 北京百度网讯科技有限公司 | 视频标签生成方法、装置、计算机设备和存储介质 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN109635197A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于标签的垂直搜索研究及在视频搜索中的应用;王梦溪, 王斌;《仪表技术》(第05期);59-61+65 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737523A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240347053A1 (en) | Generating topic-specific language models | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
US7912868B2 (en) | Advertisement placement method and system using semantic analysis | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN108009228A (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
US20100274667A1 (en) | Multimedia access | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
KR101355945B1 (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
CN111737523B (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
US12067061B2 (en) | Systems and methods for automated information retrieval | |
CN110866102A (zh) | 检索处理方法 | |
CN114021577A (zh) | 内容标签的生成方法、装置、电子设备及存储介质 | |
CN111752922A (zh) | 一种建立知识数据库、实现知识查询的方法及装置 | |
KR20200098381A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
EP3905060A1 (en) | Artificial intelligence for content discovery | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
CN103136221A (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
JP6521931B2 (ja) | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
JP6632564B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |