发明内容
本发明的目的在于提出一种综合视频元信息的混合切词标注方法及其系统,能够使得搜索引擎能够利用上述所提供的关键词以反向命中的方式来改进用户的搜索体验。
为达此目的,本发明采用以下技术方案:
一种综合视频元信息的混合切词标注方法,包括如下步骤:
视频元信息收集步骤S110,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成步骤S120,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注步骤S130,包括
S131,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
S132,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注步骤中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
进一步优选地,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
优选地,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
优选地,在视频元信息标签生成步骤中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明还公开了一种综合视频元信息的混合切词标注系统,包括如下单元:
视频元信息收集单元,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成单元,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注单元,包括
基本文字信息切词子单元,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
视频元信息标签切词单元,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注单元中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
优选地,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
优选地,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
优选地,在视频元信息标签生成单元中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明的方法和系统能够改善用户在不了解搜索引擎工作原理的情况下使用普通用语搜索目标视频的问题,同时因为选取通过分析用户查询所用的视频元信息,因此能够满足用户最常用的语义查询。通过采用增加与视频元信息有关的视频索引词的途径,将用户的正向查询统一转换为反向数据匹配,降低了视频搜索引擎的复杂度,并能够满足用户灵活组合语义查询的需求。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
根据对现有技术的分析,用户在搜索时,常常不记得视频自身的标题,而对于该视频的属性更加熟悉,或者印象更加深刻。例如,这个视频是谁主演的,是否收费,是否热播,等一系列不包括在视频标题中的信息。也就是说,目前视频网站用户的查询习惯和视频本身的文字信息没有交集,但是和视频本身的元信息有很多交集。
因此,如果能够将这些视频属性信息建立与视频自身的关联,通过规则引擎将视频元信息翻译为可以匹配用户查询关键词的元信息标签,将大大改善用户的搜索体验。用户在输入视频属性的时候就更加容易命中所需要寻找的视频,实现了一种反向的命中。
因此,本发明的关键在于:首先,收集所观看视频的可以使用的视频属性,或者与网站业务属性相关的各种视频元信息。然后,分析视频元信息与用户查询关键词之间的予以联系,针对每类视频元信息得到一组标签词,我们称为元信息标签;最后,将视频元信息标签进行切词,形成输出词序列,由搜索引擎实现命中查询关键词。
实施例1:
参见图1,公开了根据本发明的综合视频元信息的混合切词标注方法,包括如下步骤:
视频元信息收集步骤S110,多维度地收集视频自身相关的视频元信息,所述视频元信息包括,但不限于,视频自身属性和/或网站业务属性。例如,视频元信息可以包括:
1、视频是否收费;
2、视频是否为会员独享;
3、视频是由哪个广告主赞助播放;
4、视频是和网站的哪些活动相关;
5、视频的拍摄年代、地区、导演、演员等;
6、视频归属的类别,影片风格等;
7、视频的近期播放热度,受欢迎程度等;
8、…….
所述视频元信息可以从视频信息库中取到代表是或者否的整数值,例如是否收费、是否会员独享,也可以是从视频网站的统计系统中周期性得到的属性,例如是否热播、近期是否受欢迎。
本领域技术人员应当知道,以上列举仅为视频,该步骤在于通过各种途径收集用户查询可能指向所需要视频的与各种属性相关的视频元信息,以用于规则引擎。
视频元信息标签生成步骤S120,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词。应当知道,一组所述视频元信息标签包括多个标签词。
例如:
1、如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”等;
2、如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”等;
3、如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
4、如果视频和网站的B活动有关,则输出“B活动影院”;
5、如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
6、如果视频是拍摄与E年份,则输出“E年代”;
7、如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”;
8、......
应当知道,以上仅仅为视频,本步骤对于若干个视频元信息建立相对于用户搜索的关键词的映射。应当知道,由于每个视频都有类别标签,因此所有的视频元信息均包含了该视频的类别,例如,该视频是电源,电视剧,还是短片。。
我们设计的规则引擎是可以通过一系列逻辑判断得到每个视频自己的元信息标签词。
融合视频元信息标签的混合切词标注步骤S130,包括
S131,切分与视频有关的基本文字信息,得到的切词输出为输出序列Cut-A;
S132,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列Cut-B0、 Cut-B1、Cut-B2.....。
因此,视频元信息标签能够通过切词步骤成为多个切词,进入切词输出列表。该切词输出列表包括了与视频的基本文字信息的有关的切词,也包括了与视频元信息标签有关的切词。所述视频的基本文字信息,是包括了例如视频的标题的文字信息。
当用户如现有技术中那样,输入与视频元信息有关的关键词的时候,该关键词能够命中切词输出列表中的切词,使得用户查询到相关的视频。
进一步优选的,给输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
因为相对于视频标题会集中在少数,甚至个别的视频,单条视频元信息往往能够对应多个视频。因此,如果不对两者切词形成的关键词区分权值,仅仅简单地添加元信息标签会导致一些查询串出现主次颠倒的问题。例如,搜索A企业名称,如果A企业作为广告主赞助播出一些电影,则容易出现在搜索“A企业”时,搜索结果出现大量电影的情况。
因此,这样得到的每个视频的切词输出序列中包含了两种序列,一个是由例如视频标题的切分得到的基本文字信息词序列,一个是由视频元信息标签切分得到的视频元信息标签序列,且视频元信息标签序列中的词权重明显低于视频基本文字信息切分序列。再将包含了两种词序列的切词结果输出给索引系统,供用户查询使用。
本实施例的混合切词标注方法能够改善用户在不了解搜索引擎工作原理的情况下使用普通用语搜索目标视频的问题,同时因为选取通过分析用户查询所用的视频元信息,因此能够满足用户最常用的语义查询。通过采用增加与视频元信息有关的视频索引词的途径,将用户的正向查询统一转换为反向数据匹配,降低了视频搜索引擎的复杂度,并能够满足用户灵活组合语义查询的需求。
实施例2:
该实施例列举了一个具体的视频搜索的过程。
现有的视频网站中,有部分用户喜欢搜“收费电影”,于是本发明选取了电影是否收费的视频元信息。
因此,在为引擎切分视频基本信息时,从视频元信息库获取视频是否收费和以及视频元信息固有的视频的类别信息。如果一个名字为“巨人捕手杰克”的视频被标记为处于收费状态,并且该视频的类别值代表电影,则收集得到了“收费的电影”的视频元信息,然后将该视频元信息与用户查询的关键词对应,得到至少包含“收费电影”、“付费影院”的视频元信息标签词的一组视频元信息标签。然后对该视频标题和视频元信息标签进行切词,分别将输出如下两种词序列: Cut-A(“巨人”,“捕手”,“杰克”)
Cut-B0(“收费”,“电影”)
Cut-B1(“付费”,“影院”)
其中Cut-A类型的词序列的权值是Cut-B类型词序列权值的2倍。
这样搜索引擎在处理单个词的查询,例如“收费”时,视频“巨人捕手杰克”的命中权值将不会明显高于其他标题命中的视频。而在处理查询(“收费”,“电影”)时,因为视频“巨人捕手杰克”能够命中两个词,而系统中其他不收费视频的视频几乎不能命中该查询,因此视频“巨人捕手杰克”能够获得很高的命中得分,从而被用户顺利地在搜索结果中找到。
实施例3:
一种综合视频元信息的混合切词标注系统,包括如下单元:
视频元信息收集单元210,多维度地收集视频自身相关的视频元信息,所述视频元信息包括视频自身属性和/或网站业务属性;
视频元信息标签生成单元220,分析所述视频元信息与用户查询的关键词之间的语义关系,根据所述视频元信息生成视频元信息标签词;
融合视频元信息标签的混合切词标注单元230,包括
基本文字信息切词子单元,切分与视频有关的基本文字信息,得到的切词输出为输出序列;
视频元信息标签切词单元,对多组所述视频元信息标签分别进行切词,并标记输出为不同的输出序列。
优选地,在融合视频元信息标签的混合切词标注单元中,给所述输出序列中的切词赋予权值,其中在所述视频元信息标签所切分的输出序列中的切词的权值是与视频有关的基本文字信息所切分的输出序列中的切词的权值一半。
特别的,所述视频元信息包括下列元信息组中的一个或多个,所述元信息组包括a.视频是否收费,b.视频是否为会员独享,c.视频是由哪个广告主赞助播放,d.视频是和网站的哪些活动相关,d.视频的拍摄年代、地区、导演、演员,e.视频归属的类别,影片风格,f.视频的近期播放热度,受欢迎程度。
特别的,所述视频元信息从视频信息库或者视频网站的统计系统中得到。
其中,在视频元信息标签生成单元中的根据所述视频元信息生成视频元信息标签词,包括下列中的一个或多个:
(1)如果是收费视频,则输出一组标签词:“收费”、“付费”、“会员免费观看”;
(2)如果是会员独享视频,则输出一组标签词:“会员独享”、“影视会员”;
(3)如果视频是由A广告主赞助播放,则输出一组标签词:“A影院”、“A活动视频”;
(4)如果视频和网站的B活动有关,则输出“B活动影院”;
(5)如果视频是由C导演拍摄、D演员演出,则输出“C导演的”、“D主演的”、“D演出的”;
(6)如果视频是拍摄与E年份,则输出“E年代”;
(7)如果视频近期播放热度达到一定阈值,超过某个百分比的其他视频,则输出“最近热播的”。
本发明将视频元信息翻译成文字标签添加到搜索引擎中以改进用户命中的效果。在切词输出中采用多个输出类型的词序列来通知引擎分开命中用户查询关键词。以反向命中的方式改进用户搜索体验。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。