CN104809117B

CN104809117B - 视频数据聚合处理方法、聚合系统及视频搜索平台

Info

Publication number: CN104809117B
Application number: CN201410035957.XA
Authority: CN
Inventors: 许春林; 唐年鹏
Original assignee: SHENZHEN YUNFAN CENTURY TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YUNFAN CENTURY TECHNOLOGY Co Ltd
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2018-10-30
Anticipated expiration: 2034-01-24
Also published as: CN104809117A

Abstract

本申请公开了一种视频数据聚合处理方法、聚合系统及视频搜索平台，方法包括步骤：处理单元抽取接收的视频资源中的关键词；处理单元根据关键词查询索引管理器中的索引数据，获取与关键词匹配的候选聚合集，候选聚合集包括若干视频聚合；匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算，若匹配，则将视频资源写入匹配的视频聚合；若处理单元未获取到与关键词匹配的候选聚合集，则在数据库中新建一个视频聚合，将接收的视频资源写入该新建视频聚合中。本申请中的方法，通过对视频资源抽取关键词，并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算，减少了匹配计算次数，优化了匹配算法，提高了对视频资源的聚合处理效率。

Description

视频数据聚合处理方法、聚合系统及视频搜索平台

技术领域

本申请涉及视频搜索技术领域，具体涉及一种视频数据聚合处理方法、聚合系统及视频搜索平台。

背景技术

目前采用聚合形式的视频类垂直搜索，需要收录多家第三方站点的播放资源，但是由于各家视频站点的数据格式与内容都不尽相同，如何准确高效的将表示同一个视频内容的资源聚合到一起成为此类视频搜索亟需要解决的问题。

现有技术主要采用聚类技术来聚合视频资源，并在比较视频资源和视频聚合相似度时采用基于简单字符串比较的硬匹配方式。在现有技术的处理方式下，收到新的视频资源时，需要逐一与数据库里所有的聚合数据比较才能判断它属于哪个视频聚合，比较次数多，计算量巨大，效率低下，不能实时更新。同时由于各站点数据含有不同的噪声，使用硬匹配的方式来比较，准确率和容错率都很低。

发明内容

为了提高对视频资源的聚合处理效率，本申请提供一种视频数据聚合处理方法、聚合系统及视频搜索平台，能提高对视频资源的聚合处理效率。

根据本申请的第一方面，本申请提供一种视频数据聚合处理方法，包括步骤：处理单元抽取接收的视频资源中的关键词；处理单元根据所述关键词查询索引管理器中的索引数据，获取与所述关键词匹配的候选聚合集，所述候选聚合集包括若干视频聚合；匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算，若匹配，则将所述视频资源写入匹配的视频聚合；若所述处理单元未获取到与所述关键词匹配的候选聚合集，则在数据库中新建一个视频聚合，将接收的所述视频资源写入该新建视频聚合中。

进一步地，所述匹配计算包括短文本相似度计算和长文本相似度计算，所述短文本相似度计算通过最小编辑距离或dice距离计算，所述长文本相似度计算通过simhash算法计算。

进一步地，若短文本相似度大于短文本相似度阈值，则视频资源与视频聚合匹配；若长文本相似度小于长文本相似度阈值，则视频资源与视频聚合匹配。

进一步地，通过最小编辑距离计算短文本相似度的计算公式为：

f_X₁_X₂=max(f_x₁_x₂),

f_x₁_x₂=1-(min_editdistance(x₁,x₂)/maxlen(x₁,x₂)),

其中，x₁表示视频资源的短文本字符串，x₂表示视频聚合的短文本字符串；X₁表示视频资源的短文本字符串集合，X₂表示视频聚合的短文本字符串集合；f_x₁_x₂表示两个短文本字符串的匹配得分。

进一步地，通过dice距离计算短文本相似度的计算公式为：

f_X₁_X₂=max{d_X₁_X₂，|X₁∩X₂|/3},

d_X₁_X₂=dice(X₁,X₂)=2|X₁∩X₂|/(|X₁|+|X₂|),

其中，X₁表示视频资源的短文本字符串集合，X₂表示视频聚合的短文本字符串集合，d_X₁_X₂表示两个短文本字符串集合的dice距离。

进一步地，通过simhash算法计算长文本相似度的计算公式为：

f_j₁_j₂=hamming_distance(simhash(j₁),simhash(j₂))，

其中，j₁表示视频资源的长文本字符串，j₂表示视频聚合的长文本字符串。

进一步地，处理单元抽取接收的视频资源中的关键词的步骤前，还包括步骤：预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元；所述预处理包括解析、去噪和特征抽取。

根据本申请的第二方面，本申请还提供一种聚合系统，包括：数据库和聚合服务器，所述数据库用于存储视频资源和视频聚合；所述聚合服务器包括：索引管理器、处理单元和匹配单元，所述索引管理器用于存储管理索引数据；所述聚合系统应用上述所述的聚合处理方法处理视频资源。

进一步地，所述聚合服务器还包括预处理单元，所述预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元；所述预处理包括解析、去噪和特征抽取。

根据本申请的第三方面，本申请还提供一种视频搜索平台，包括spider和搜索引擎，所述spider用于爬取视频站点的视频资源，所述搜索引擎用于提供搜索服务，还包括如上述所述的聚合系统，所述聚合系统用于接收spider发送的视频资源并对其进行聚合处理，所述聚合系统还用于向所述搜索引擎提供视频聚合。

本申请的技术方案，通过对视频资源抽取关键词，并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算，减少了匹配计算次数，优化了匹配算法，提高了对视频资源的聚合处理效率。

附图说明

图1为本申请实施例一的流程图；

图2为本申请实施例二的原理框图；

图3为本申请实施例三的原理框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

本申请中用到的术语定义

视频基本信息：指一个视频的标题/别名、导演、演员、时长、上映时间、地区、类型、简介等基本信息；其中类型有电影、电视剧、动漫、综艺等，每一个类型还设有子类型，如电影的子类型有动作、剧情、科幻、恐怖等；

视频资源（Source）：指第三方站点的视频播放资源数据，包括播放链接和对应的视频基本信息；

视频聚合（Gather）：指多个视频资源的集合；如视频聚合《中国合伙人》，内容上，包含标题/别名、导演、演员、时长、上映时间、地区、类型、简介等基本信息；关系上，优酷、爱奇艺、pptv等第三方站点表示的《中国合伙人》视频资源都属于这个视频聚合；

短文本：指具有较少字符的文本，如在视频基本信息中，标题/别名、导演、演员、时长、上映时间、地区、类型等具有较少字符的文本均为短文本；

长文本：指具有较多字符的文本，如在视频基本信息中，简介等具有较多字符的文本为长文本；

最小编辑距离（min_editdistance）：指让2个字符串相等所需的最少基本操作次数，基本操作包括插入、删除和替换；

dice距离：公式为，dice（S₁，S₂）=2*comm（S₁，S₂）/（amount(S₁)+amount(S₂)），其中，comm（S₁，S₂）是集合S₁和S₂中相同元素的个数，amount(S₁)+amount(S₂)是集合S₁和S₂中的元素总数；

simhash算法：其主要思想是降维，将高维的特征向量映射成一个低维的特征向量，进而可以通过两个低维特征向量的汉明距离（Hamming Distance）来确定文章是否重复或者高度近似；

汉明距离（Hamming Distance）：指两个等长编码串在对应位置上编码不同的位置个数；

Spider：网络蜘蛛，也叫网络爬虫（Web crawler），是一种“自动化浏览网络”的程序，是为了自动从网络截取特定的数据，或为了组织网络上的数据，所设计的“‘自动浏览网络’的程序”；

IO接口：输入输出接口。

实施例一

本例中的视频数据聚合处理方法，包括步骤：处理单元抽取接收的视频资源中的关键词；处理单元根据关键词查询索引管理器中的索引数据，获取与当前关键词匹配的候选聚合集，候选聚合集包括若干视频聚合；匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算，若匹配，则将视频资源写入匹配的视频聚合；若处理单元未获取到与当前关键词匹配的候选聚合集，则在数据库中新建一个视频聚合，将接收的视频资源写入该新建视频聚合中。本例中的视频数据聚合处理方法，通过对视频资源抽取关键词，并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算，减少了匹配计算次数，优化了匹配算法，提高了对视频资源的聚合处理效率。

具体的，请参见图1，本例中的视频数据聚合处理方法，包括步骤：

S1：预处理单元接收视频资源；

S2：预处理单元对视频资源进行预处理并将预处理后的视频资源发送给处理单元；预处理包括解析、去噪和特征抽取，去噪包括非法和无意义字符串的过滤，如繁简体转化，大小写转换等；特征抽取主要包括续集指标抽取，如从“指环王1”，“指环王第二部”抽取出1、2，语言抽取，如从“暗战国语版”，“暗战粤语版”抽取出国语、粤语，长文本的simhash计算，简言之，特征抽取可将某些必要参数提取出来并作量化处理；

S3：处理单元抽取该视频资源中的关键词；关键词从该视频资源中的视频基本信息中选取，如选标题/别名、演员、导演等的具体名称作为关键词，其一般与索引数据中的索引种类对应；

S4：处理单元根据关键词查询索引数据，以获取候选聚合集；索引数据根据视频基本信息建成，其种类一般包括标题/别名索引、演员索引、导演索引、豆瓣ID索引等；其中，候选聚合集是指与视频资源中抽取的关键词匹配的视频聚合的集合，如，关键词选标题/别名、演员、导演、豆瓣ID的具体名称时，根据关键词相应的查询索引数据中的标题/别名索引、演员索引、导演索引和豆瓣ID索引，与该视频资源具有相同标题/别名，或具有相同导演，或具有相同演员，或具有相同豆瓣ID索引的视频聚合的并集即为候选聚合集；

S5：判断是否获取到候选聚合集，若是，执行步骤S6，若否，执行步骤S8；

S6：匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算；

S7：判断是否匹配，若是，执行步骤S9，若否，执行步骤S5；

S8：处理单元根据当前视频资源在数据库中新建一个视频聚合，将接收的视频资源写入该新建视频聚合中，结束流程。

S9：将该视频资源写入匹配的视频聚合，结束流程。

执行步骤S8或S9后，即可将数据库中的视频聚合发送给搜索引擎以提供检索服务，使搜索引擎能获取到最新的视频聚合。

其中，匹配计算包括短文本相似度计算和长文本相似度计算，短文本相似度计算通过最小编辑距离或dice距离计算，长文本相似度计算通过simhash算法计算。

通过最小编辑距离计算短文本相似度的计算公式为：

f_X₁_X₂=max(f_x₁_x₂), （公式一）

f_x₁_x₂=1-(min_editdistance(x₁,x₂)/maxlen(x₁,x₂))，（公式二）

其中，x₁表示视频资源的短文本字符串，x₂表示视频聚合的短文本字符串；X₁表示视频资源的短文本字符串集合，X₂表示视频聚合的短文本字符串集合；f_x₁_x₂表示两个短文本字符串的匹配得分，min_editdistance(x₁,x₂)表示两个短文本字符串的最小编辑距离，maxlen(x₁,x₂)表示两个短文本字符串中最长的字符串长度。

通过dice距离计算短文本相似度的计算公式为：

f_X₁_X₂=max{d_X₁_X₂，|X₁∩X₂|/3}, （公式三）

d_X₁_X₂=dice(X₁,X₂)=2|X₁∩X₂|/(|X₁|+|X₂|), （公式四）

其中，X₁表示视频资源的短文本字符串集合，X₂表示视频聚合的短文本字符串集合，d_X₁_X₂表示两个短文本字符串集合的dice距离，|X₁∩X₂|表示两个短文本字符串集合X₁和X₂中相同字符串的个数，|X₁|+|X₂|表示两个短文本字符串集合X₁和X₂中字符串的总个数。

其中，判断两个短文本字符串集合X₁和X₂中的字符串是否相同时，可以通过最小编辑距离来判断，判断表达式为：

min_editdistance(x₁,x₂)/maxlen(x₁,x₂)<C，

其中，C的取值根据实际情况选取，如0.1、0.2、0.25等，这个定义允许一定的差异，主要是短文本中存在错别字、翻译错误、写法多样等，保持容错比率可以提高召回率。

通过simhash算法计算长文本相似度的计算公式为：

f_j₁_j₂=hamming_distance(simhash(j₁),simhash(j₂))，（公式五）

其中，j₁表示视频资源的长文本字符串，j₂表示视频聚合的长文本字符串；simhash(j₁)表示长文本字符串j₁经过simhash算法处理得到的simhash序列串，simhash(j₂)表示长文本字符串j₂经过simhash算法处理得到的simhash序列串;hamming_distance表示两个simhash串的汉明距离。

若短文本相似度大于短文本相似度阈值，则视频资源与视频聚合匹配；若长文本相似度小于长文本相似度阈值，则视频资源与视频聚合匹配。短文本相似度阈值和长文本相似度阈值的取值根据对具体的短文本或长文本的匹配要求来设置。

例如，进行匹配计算时，在视频基本信息选标题/别名、演员、导演作为短文本进行匹配计算，选简介作为长文本进行匹配计算。具体的，一个视频通常存在多个标题/别名，要比较视频资源和视频聚合的标题别名相似度，实际上是比较两个字符串集合的相似度；本例中，采用最小编辑距离计算标题/别名的相似度，记视频资源的标题/别名集合为T₁，视频聚合的标题/别名集合为T₂，f_T₁_T₂为标题/别名的相似度，其具体数值根据公式一和公式二计算。演员通常也有多个，可以认为是一个字符串集合；本例中，采用dice距离计算演员的相似度，记视频资源和视频聚合的演员集合分别为A₁、A₂，演员集合A₁和A₂中一般只需包含主要演员即可，f_A₁_A₂为演员的相似度，其具体数值根据公式三和公式四计算，一般的，第三方站点主演的个数即集合A₁和A₂的元素个数可能存在很大差异，而dice距离对元素个数非常灵敏，而计算相似度只考虑主要演员即可，因而公式中增加|X₁∩X₂|/3这一项保证匹配更准确。导演有时也是多个，本例中，与计算演员相似度一样，采用dice距离计算导演的相似度，记视频资源和视频聚合的导演集合分别为D₁、D₂，f_D₁_D₂为导演的相似度，其具体数值根据公式三和公式四计算。本例中，采用simhash算法计算简介相似度，f_j₁_j₂为简介的相似度，其具体数值根据公式五计算。本例中视频资源和视频聚合匹配度是基于视频资源和视频聚合的上述视频基本信息字段相似度的一些规则而得出，可按如下的匹配计算步骤及设置值进行判断：

若：f_j₁_j₂<6，则匹配度为1；

若：f_T₁_T₂>0.9and f_A₁_A₂>0.66and f_D₁_D₂>0.5；则匹配度为1；

若：f_j₁_j₂<7，则匹配度为0.9；

若：f_T₁_T₂>0.9and(f_A₁_A₂>0.66or f_D₁_D₂>0.5)；则匹配度为0.9；

若：f_j₁_j₂<8，则匹配度为0.8；

匹配度大于>=0.8的，则认为该资源与该聚合相匹配；即在此情况下，短文本相似度阈值可取0.9、0.66或0.5，长文本相似度阈值可取6、7或8；短文本相似度阈值和长文本相似度阈值的取值不限于上述取值，还可以根据实际需要修改为其它合适的数值。

进一步的，如还在视频基本信息中选取了地区、子类型和上映时间这些短文本进行匹配，则还包括以下匹配计算步骤：

若：f_T₁_T₂>0.99并且地区和上映时间一致，则匹配度为0.8；

若：f_T₁_T₂>0.99并且子类型和上映时间一致，则匹配度为0.8；

当然，为减少匹配计算次数，还可以在视频基本信息中选取一些更具有代表性的信息进行匹配，如：

若：视频资源和视频聚合的续集指标不同，则匹配度为0；

若：视频资源和视频聚合的类型不同，则匹配度为0；

若：视频资源和视频聚合的豆瓣ID相同，则匹配度为1。

本例中的视频数据聚合处理方法，提高了对视频资源的聚合处理效率；且通过对视频资源和视频聚合的续集指标进行匹配，还能提高视频资源与视频聚合的匹配准确率，降低错误率。

实施例二

请参见图2，本例中的聚合系统，包括：数据库12和聚合服务器，数据库12用于存储视频资源和视频聚合；聚合服务器包括：索引管理器111、处理单元112和匹配单元113，索引管理器111用于存储管理索引数据；处理单元112抽取接收的视频资源中的关键词，根据关键词查询索引管理器111中的索引数据，获取与当前关键词匹配的候选聚合集，候选聚合集包括若干视频聚合；匹配单元113对视频资源和候选聚合集中的视频聚合进行匹配计算，若匹配，则将视频资源写入匹配的视频聚合；若处理单元未获取到与当前关键词匹配的候选聚合集，则在数据库中新建一个视频聚合，将接收的视频资源写入该新建视频聚合中。

本例中，数据库12包括视频资源表和视频聚合表，分别用来存储视频资源和视频聚合，每个视频聚合中均包括资源列表，资源列表记载属于该视频聚合的视频资源。索引数据根据视频基本信息建成，其种类一般包括标题/别名索引、演员索引、导演索引、豆瓣ID索引等。候选聚合集是指与视频资源中抽取的关键词匹配的视频聚合的集合，例如，关键词选标题/别名、演员、导演、豆瓣ID的具体名称时，根据关键词相应的查询索引数据中的标题/别名索引、演员索引、导演索引和豆瓣ID索引，与该视频资源具有相同标题/别名，或具有相同导演，或具有相同演员，或具有相同豆瓣ID索引的视频聚合的并集即为候选聚合集；候选聚合集一般是多种索引查询结果的并集，采用多种索引查询结果的并集作为候选聚合数据保证了在单一的标题或演员等索引因为含有噪声不准确时仍能够找到潜在的候选聚合集，并且相比现有技术中的两两匹配的复杂度由O(n²)降低到O(n)。

本例中，聚合系统还包括IO接口115和预处理单元114，IO接口115负责接收和发送数据。预处理单元114对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元，预处理包括解析、去噪和特征抽取，去噪包括非法和无意义字符串的过滤，特征抽取主要有续集指标抽取、语言抽取、长文本的simhash计算等。简言之，特征抽取可将某些必要参数提取出来并作量化处理。

其中，聚合系统对视频数据进行聚合处理的方法可参照实施例一。

实施例三

请参见图3，本例中的视频搜索平台，包括spider20和搜索引擎30，spider20用于爬取视频站点的视频资源，搜索引擎30用于提供搜索服务，还包括：聚合系统10，聚合系统10包括聚合服务器11和数据库12，用于接收spider20发送的视频资源并对其进行聚合处理，聚合系统10还用于向搜索引擎提供视频聚合。

本例中，视频搜索平台还包括控制台40，控制台用于人工编辑。例如，有些视频资源，算法做得再好，也还是存在badcase（负例，指不符合实际，不符合要求的结果），这时候就需要人工干预；比如算法算出来视频资源与视频聚合的匹配结果实际上是错的，工作人员就可以通过控制台来手动纠错。

其中，聚合系统可参见实施例二。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种视频数据聚合处理方法，其特征在于，包括步骤：

处理单元抽取接收的视频资源中的关键词；

处理单元根据所述关键词查询索引管理器中的索引数据，获取与所述关键词匹配的候选聚合集，所述候选聚合集包括若干视频聚合；

匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算，若匹配，则将所述视频资源写入匹配的视频聚合；所述匹配计算包括短文本相似度计算和长文本相似度计算，所述短文本相似度计算通过最小编辑距离或dice距离计算，所述长文本相似度计算通过simhash算法计算；根据短文本相似度和/或长文本相似度对视频资源与视频聚合进行匹配；

若所述处理单元未获取到与所述关键词匹配的候选聚合集，则在数据库中新建一个视频聚合，将接收的所述视频资源写入该新建视频聚合中。

2.如权利要求1所述的方法，其特征在于，通过最小编辑距离计算短文本相似度的计算公式为：

f_x₁_x₂＝1-(min_editdistance(x₁,x₂)/maxlen(x₁,x₂)),

3.如权利要求1所述的方法，其特征在于，通过dice距离计算短文本相似度的计算公式为：

f_X₁_X₂＝max{d_X₁_X₂，|X₁∩X₂|/3},

d_X₁_X₂＝dice(X₁,X₂)＝2|X₁∩X₂|/(|X₁|+|X₂|),

4.如权利要求1所述的方法，其特征在于，通过simhash算法计算长文本相似度的计算公式为：

f_j₁_j₂＝hamming_distance(simhash(j₁),simhash(j₂))，

5.如权利要求1所述的方法，其特征在于，所述处理单元抽取接收的视频资源中的关键词的步骤前，还包括步骤：预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元；所述预处理包括解析、去噪和特征抽取。

6.一种聚合系统，其特征在于，包括：数据库和聚合服务器，所述数据库用于存储视频资源和视频聚合；所述聚合服务器包括：索引管理器、处理单元和匹配单元，所述索引管理器用于存储管理索引数据；所述聚合系统应用权利要求1-5中任一项所述的聚合处理方法处理视频资源。

7.如权利要求6所述的聚合系统，其特征在于，所述聚合服务器还包括预处理单元，所述预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元；所述预处理包括解析、去噪和特征抽取。

8.一种视频搜索平台，包括spider和搜索引擎，所述spider用于爬取视频站点的视频资源，所述搜索引擎用于提供搜索服务，其特征在于，还包括如权利要求7所述的聚合系统，所述聚合系统用于接收spider发送的视频资源并对其进行聚合处理，所述聚合系统还用于向所述搜索引擎提供视频聚合。