CN103559317A - 一种综合视频元信息的混合切词标注方法及其系统 - Google Patents

一种综合视频元信息的混合切词标注方法及其系统 Download PDF

Info

Publication number
CN103559317A
CN103559317A CN201310591037.1A CN201310591037A CN103559317A CN 103559317 A CN103559317 A CN 103559317A CN 201310591037 A CN201310591037 A CN 201310591037A CN 103559317 A CN103559317 A CN 103559317A
Authority
CN
China
Prior art keywords
video
word
element information
cut
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310591037.1A
Other languages
English (en)
Other versions
CN103559317B (zh
Inventor
刘伟
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201310591037.1A priority Critical patent/CN103559317B/zh
Publication of CN103559317A publication Critical patent/CN103559317A/zh
Application granted granted Critical
Publication of CN103559317B publication Critical patent/CN103559317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种综合视频元信息的混合切词标注方法及系统,所述方法包括如下步骤:视频元信息收集步骤,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;视频元信息标签生成步骤,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;融合视频元信息标签的混合切词标注步骤,包括,切分与视频有关的基本文字信息,得到的切词输出为输出序列;对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。本发明将视频元信息翻译成文字标签,赋予较低的权值并添加到搜索引擎,以反向命中的方式改进了用户的搜索体验,且避免了主次颠倒的问题。

Description

一种综合视频元信息的混合切词标注方法及其系统
技术领域
 本申请涉及一种搜索引擎的关键词切词标注方法,特别的,本发明涉及一种综合了视频的视频元信息的混合切词标注方法及其系统。
背景技术
传统搜索引擎根据用户输入的关键词在海量信息中寻找包含关键词的内容。查询结果是否相关取决于一系列因素,包括用户输入的关键词是否在目标文档中、用户输入的关键词是否能够筛选出足够少量的文档以避免目标文档淹没在大量的命中结果中、用户是否能够想到其目标文档可能包含哪些关键词。因此,基于关键词命中的引擎要求用户理解搜索引擎的工作原理,否则容易使用户搜不到其想要的内容。
通过分析用户的查询记录,可以发现用户的一些查询关键词不能命中其目标视频。这些用户常常基于自己的理解来输入关键词,这些关键词偏向于语义化、概念化,有一定的范围指向,例如“收费的电影”、“最新的热播电视剧”,“周星驰导演的电影”,而视频本身的标题等文字信息没有包含这样的文字串,因此传统搜索引擎难以满足这些用户的查询需求。
因此,也就是说,现有的搜索引擎所存储的关键字更加关注于视频本身的信息,不够智能。因此,对使用者通过搜索获得相关视频提出了较高的要求。使用者需要能够理解或者知道自己所要寻找的视频的准确信息。而这对于用户显然要求过高。或者说,现有技术的视频网站中的搜索引擎导致了对使用者提出了门槛要求,这不利于视频网站的推广,以及吸引更多的,各个阶层的用户,也使得用户浪费了大量的时间来搜索获得自己感兴趣的视频。
因此,如何能够提高搜索引擎的智能,使得其能够更容易的搜索到用户所需要的视频,成为现有技术亟需解决技术问题。
发明内容
本发明的目的在于提出一种综合视频元信息的混合切词标注方法及其系统,能够使得搜索引擎能够利用上述所提供的关键词以反向命中的方式来改进用户的搜索体验。
为达此目的,本发明采用以下技术方案:
一种综合视频元信息的混合切词标注方法,包括如下步骤:
视频元信息收集步骤S110,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成步骤S120,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注步骤S130,包括
S131,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
S132,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注步骤中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
进一步优选地,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
优选地,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
优选地,在视频元信息标签生成步骤中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明还公开了一种综合视频元信息的混合切词标注系统,包括如下单元:
视频元信息收集单元,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成单元,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注单元,包括
基本文字信息切词子单元,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
视频元信息标签切词单元,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注单元中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
优选地,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
优选地,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
优选地,在视频元信息标签生成单元中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明的方法和系统能够改善用户在不了解搜索引擎工作原理的情况下使用普通用语搜索目标视频的问题,同时因为选取通过分析用户查询所用的视频元信息,因此能够满足用户最常用的语义查询。通过采用增加与视频元信息有关的视频索引词的途径,将用户的正向查询统一转换为反向数据匹配,降低了视频搜索引擎的复杂度,并能够满足用户灵活组合语义查询的需求。
附图说明
图1是根据本发明的综合视频元信息的混合切词标注方法的流程图;
图2是根据本发明的综合视频元信息的混合切词标注系统的框架图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
根据对现有技术的分析,用户在搜索时,常常不记得视频自身的标题,而对于该视频的属性更加熟悉,或者印象更加深刻。例如,这个视频是谁主演的,是否收费,是否热播,等一系列不包括在视频标题中的信息。也就是说,目前视频网站用户的查询习惯和视频本身的文字信息没有交集,但是和视频本身的元信息有很多交集。
因此,如果能够将这些视频属性信息建立与视频自身的关联,通过规则引擎将视频元信息翻译为可以匹配用户查询关键词的元信息标签,将大大改善用户的搜索体验。用户在输入视频属性的时候就更加容易命中所需要寻找的视频,实现了一种反向的命中。
因此,本发明的关键在于:首先,收集所观看视频的可以使用的视频属性,或者与网站业务属性相关的各种视频元信息。然后,分析视频元信息与用户查询关键词之间的予以联系,针对每类视频元信息得到一组标签词,我们称为元信息标签;最后,将视频元信息标签进行切词,形成输出词序列,由搜索引擎实现命中查询关键词。
实施例1:
参见图1,公开了根据本发明的综合视频元信息的混合切词标注方法,包括如下步骤:
视频元信息收集步骤S110,多维度地收集视频自身相关的视频元信息,所述视频元信息包括,但不限于,视频自身属性和/或网站业务属性。例如,视频元信息可以包括:
1、视频是否收费;
2、视频是否为会员独享;
3、视频是由哪个广告主赞助播放;
4、视频是和网站的哪些活动相关;
5、视频的拍摄年代、地区、导演、演员等;
6、视频归属的类别,影片风格等;
7、视频的近期播放热度,受欢迎程度等;
8、…….
所述视频元信息可以从视频信息库中取到代表是或者否的整数值,例如是否收费、是否会员独享,也可以是从视频网站的统计系统中周期性得到的属性,例如是否热播、近期是否受欢迎。
本领域技术人员应当知道,以上列举仅为视频,该步骤在于通过各种途径收集用户查询可能指向所需要视频的与各种属性相关的视频元信息,以用于规则引擎。
视频元信息标签生成步骤S120,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词。应当知道,一组所述视频元信息标签包括多个标签词。
例如:
1、如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”等;
2、如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”等;
3、如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
4、如果视频和网站的B活动有关,则输出“B活动影院”;
5、如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
6、如果视频是拍摄与E年份,则输出“E年代”;
7、如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”;
8、......
应当知道,以上仅仅为视频,本步骤对于若干个视频元信息建立相对于用户搜索的关键词的映射。应当知道,由于每个视频都有类别标签,因此所有的视频元信息均包含了该视频的类别,例如,该视频是电源,电视剧,还是短片。。
我们设计的规则引擎是可以通过一系列逻辑判断得到每个视频自己的元信息标签词。
融合视频元信息标签的混合切词标注步骤S130,包括
S131,切分与视频有关的基本文字信息,得到的切词输出为输出序列Cut-A;
S132,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列Cut-B0、 Cut-B1、Cut-B2.....。
因此,视频元信息标签能够通过切词步骤成为多个切词,进入切词输出列表。该切词输出列表包括了与视频的基本文字信息的有关的切词,也包括了与视频元信息标签有关的切词。所述视频的基本文字信息,是包括了例如视频的标题的文字信息。
当用户如现有技术中那样,输入与视频元信息有关的关键词的时候,该关键词能够命中切词输出列表中的切词,使得用户查询到相关的视频。
进一步优选的,给输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
因为相对于视频标题会集中在少数,甚至个别的视频,单条视频元信息往往能够对应多个视频。因此,如果不对两者切词形成的关键词区分权值,仅仅简单地添加元信息标签会导致一些查询串出现主次颠倒的问题。例如,搜索A企业名称,如果A企业作为广告主赞助播出一些电影,则容易出现在搜索“A企业”时,搜索结果出现大量电影的情况。
因此,这样得到的每个视频的切词输出序列中包含了两种序列,一个是由例如视频标题的切分得到的基本文字信息词序列,一个是由视频元信息标签切分得到的视频元信息标签序列,且视频元信息标签序列中的词权重明显低于视频基本文字信息切分序列。再将包含了两种词序列的切词结果输出给索引系统,供用户查询使用。
本实施例的混合切词标注方法能够改善用户在不了解搜索引擎工作原理的情况下使用普通用语搜索目标视频的问题,同时因为选取通过分析用户查询所用的视频元信息,因此能够满足用户最常用的语义查询。通过采用增加与视频元信息有关的视频索引词的途径,将用户的正向查询统一转换为反向数据匹配,降低了视频搜索引擎的复杂度,并能够满足用户灵活组合语义查询的需求。
实施例2:
该实施例列举了一个具体的视频搜索的过程。
现有的视频网站中,有部分用户喜欢搜“收费电影”,于是本发明选取了电影是否收费的视频元信息。
因此,在为引擎切分视频基本信息时,从视频元信息库获取视频是否收费和以及视频元信息固有的视频的类别信息。如果一个名字为“巨人捕手杰克”的视频被标记为处于收费状态,并且该视频的类别值代表电影,则收集得到了“收费的电影”的视频元信息,然后将该视频元信息与用户查询的关键词对应,得到至少包含“收费电影”、“付费影院”的视频元信息标签词的一组视频元信息标签。然后对该视频标题和视频元信息标签进行切词,分别将输出如下两种词序列: Cut-A(“巨人”,“捕手”,“杰克”)
Cut-B0(“收费”,“电影”)
Cut-B1(“付费”,“影院”)
其中Cut-A类型的词序列的权值是Cut-B类型词序列权值的2倍。
这样搜索引擎在处理单个词的查询,例如“收费”时,视频“巨人捕手杰克”的命中权值将不会明显高于其他标题命中的视频。而在处理查询(“收费”,“电影”)时,因为视频“巨人捕手杰克”能够命中两个词,而系统中其他不收费视频的视频几乎不能命中该查询,因此视频“巨人捕手杰克”能够获得很高的命中得分,从而被用户顺利地在搜索结果中找到。
实施例3:
一种综合视频元信息的混合切词标注系统,包括如下单元:
视频元信息收集单元210,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成单元220,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注单元230,包括
基本文字信息切词子单元,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
视频元信息标签切词单元,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注单元中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
特别的,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
特别的,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
其中,在视频元信息标签生成单元中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明将视频元信息翻译成文字标签添加到搜索引擎中以改进用户命中的效果。在切词输出中采用多个输出类型的词序列来通知引擎分开命中用户查询关键词。以反向命中的方式改进用户搜索体验。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种综合视频元信息的混合切词标注方法,包括如下步骤:
视频元信息收集步骤S110,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成步骤S120,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注步骤S130,包括
S131,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
S132,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
2.根据权利要求1所述的综合视频元信息的混合切词标注方法,其特征在于:
在融合视频元信息标签的混合切词标注步骤中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
3.根据权利要求2所述的综合视频元信息的混合切词标注方法,其特征在于:
所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
4.根据权利要求3所述的综合视频元信息的混合切词标注方法,其特征在于:
所述视频元信息从视频信息库或者视频网站的统计系统中得到。
5.根据权利要求2所述的综合视频元信息的混合切词标注方法,其特征在于:
在视频元信息标签生成步骤中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
6.一种综合视频元信息的混合切词标注系统,包括如下单元:
视频元信息收集单元,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成单元,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注单元,包括
基本文字信息切词子单元,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
视频元信息标签切词单元,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
7.根据权利要求6所述的综合视频元信息的混合切词标注系统,其特征在于:
在融合视频元信息标签的混合切词标注单元中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
8.根据权利要求6所述的综合视频元信息的混合切词标注系统,其特征在于:
所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
9.根据权利要求8所述的综合视频元信息的混合切词标注系统,其特征在于:
所述视频元信息从视频信息库或者视频网站的统计系统中得到。
10.根据权利要求7所述的综合视频元信息的混合切词标注系统,其特征在于:
在视频元信息标签生成单元中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
CN201310591037.1A 2013-11-22 2013-11-22 一种综合视频元信息的混合切词标注方法及其系统 Active CN103559317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310591037.1A CN103559317B (zh) 2013-11-22 2013-11-22 一种综合视频元信息的混合切词标注方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310591037.1A CN103559317B (zh) 2013-11-22 2013-11-22 一种综合视频元信息的混合切词标注方法及其系统

Publications (2)

Publication Number Publication Date
CN103559317A true CN103559317A (zh) 2014-02-05
CN103559317B CN103559317B (zh) 2016-03-30

Family

ID=50013563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310591037.1A Active CN103559317B (zh) 2013-11-22 2013-11-22 一种综合视频元信息的混合切词标注方法及其系统

Country Status (1)

Country Link
CN (1) CN103559317B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183729A (zh) * 2014-05-30 2015-12-23 中国电信股份有限公司 音视频内容的检索方法和装置
CN106792018A (zh) * 2016-12-12 2017-05-31 四川长虹电器股份有限公司 集成YouTube应用的低端机顶盒系统及播放YouTube网站视频的方法
CN106919703A (zh) * 2017-03-09 2017-07-04 北京微影时代科技有限公司 电影信息搜索方法及装置
CN106961626A (zh) * 2017-03-13 2017-07-18 福州瑞芯微电子股份有限公司 一种视频元信息自动补全整理的方法和装置
CN110121107A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频素材收集方法及装置
CN111447494A (zh) * 2019-10-26 2020-07-24 泰州市赛得机电设备有限公司 多媒体大数据隐藏系统及方法
CN112784056A (zh) * 2020-12-31 2021-05-11 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708498A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于主题定向的广告投放方法
CN102740158A (zh) * 2012-07-04 2012-10-17 合一网络技术(北京)有限公司 一种供用户上传3d视频到视频网站的系统和方法
CN103051933A (zh) * 2012-12-24 2013-04-17 华数传媒网络有限公司 一种视频点播系统及方法
CN103064935A (zh) * 2012-12-24 2013-04-24 深圳先进技术研究院 一种多媒体数据并行处理系统及方法
CN103108252A (zh) * 2013-01-15 2013-05-15 安徽广行通信科技股份有限公司 一种互联网电视播出的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708498A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于主题定向的广告投放方法
CN102740158A (zh) * 2012-07-04 2012-10-17 合一网络技术(北京)有限公司 一种供用户上传3d视频到视频网站的系统和方法
CN103051933A (zh) * 2012-12-24 2013-04-17 华数传媒网络有限公司 一种视频点播系统及方法
CN103064935A (zh) * 2012-12-24 2013-04-24 深圳先进技术研究院 一种多媒体数据并行处理系统及方法
CN103108252A (zh) * 2013-01-15 2013-05-15 安徽广行通信科技股份有限公司 一种互联网电视播出的方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183729A (zh) * 2014-05-30 2015-12-23 中国电信股份有限公司 音视频内容的检索方法和装置
CN106792018A (zh) * 2016-12-12 2017-05-31 四川长虹电器股份有限公司 集成YouTube应用的低端机顶盒系统及播放YouTube网站视频的方法
CN106919703A (zh) * 2017-03-09 2017-07-04 北京微影时代科技有限公司 电影信息搜索方法及装置
CN106961626A (zh) * 2017-03-13 2017-07-18 福州瑞芯微电子股份有限公司 一种视频元信息自动补全整理的方法和装置
CN106961626B (zh) * 2017-03-13 2020-02-11 福州瑞芯微电子股份有限公司 一种视频元信息自动补全整理的方法和装置
CN110121107A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频素材收集方法及装置
CN111447494A (zh) * 2019-10-26 2020-07-24 泰州市赛得机电设备有限公司 多媒体大数据隐藏系统及方法
CN112784056A (zh) * 2020-12-31 2021-05-11 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法

Also Published As

Publication number Publication date
CN103559317B (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN103559317B (zh) 一种综合视频元信息的混合切词标注方法及其系统
US7730060B2 (en) Efficient evaluation of object finder queries
Cheng et al. Entity synonyms for structured web search
US8412796B2 (en) Real time information feed processing
CN103473273B (zh) 信息搜索方法、装置和服务器
US8712999B2 (en) Systems and methods for online search recirculation and query categorization
CN101719167B (zh) 一种可互动的影视搜索方法
CN101641674A (zh) 时间序列搜索引擎
CN102687167A (zh) 对于发布-订阅系统的上下文支持
US20130346386A1 (en) Temporal topic extraction
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
WO2012129152A2 (en) Annotating schema elements based associating data instances with knowledge base entities
CN103384883A (zh) 利用Top-K处理使语义丰富
Gubanov et al. Text and structured data fusion in data tamer at scale
US20170185690A1 (en) System and method for providing content recommendations based on personalized multimedia content element clusters
US10417334B2 (en) Systems and methods for providing a microdocument framework for storage, retrieval, and aggregation
CN109542930A (zh) 一种基于ElasticSearch的数据高效检索方法
US7809745B2 (en) Method for generating structured query results using lexical clustering
CN112148938B (zh) 一种跨域异构数据检索系统及检索方法
Messina et al. A generalised cross-modal clustering method applied to multimedia news semantic indexing and retrieval
Jin et al. Tise: A temporal search engine for web contents
Waitelonis et al. Use what you have: Yovisto video search engine takes a semantic turn
US20120117449A1 (en) Creating and Modifying an Image Wiki Page
JP2012242892A (ja) 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム
Marks et al. Optimizing Queries for Web Generated Sensor Data.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200402

Address after: 310015 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.