CN104809117A - 视频数据聚合处理方法、聚合系统及视频搜索平台 - Google Patents
视频数据聚合处理方法、聚合系统及视频搜索平台 Download PDFInfo
- Publication number
- CN104809117A CN104809117A CN201410035957.XA CN201410035957A CN104809117A CN 104809117 A CN104809117 A CN 104809117A CN 201410035957 A CN201410035957 A CN 201410035957A CN 104809117 A CN104809117 A CN 104809117A
- Authority
- CN
- China
- Prior art keywords
- video
- aggregation
- video resource
- matching
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种视频数据聚合处理方法、聚合系统及视频搜索平台,方法包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据关键词查询索引管理器中的索引数据,获取与关键词匹配的候选聚合集,候选聚合集包括若干视频聚合;匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算,若匹配,则将视频资源写入匹配的视频聚合;若处理单元未获取到与关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中。本申请中的方法,通过对视频资源抽取关键词,并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算,减少了匹配计算次数,优化了匹配算法,提高了对视频资源的聚合处理效率。
Description
技术领域
本申请涉及视频搜索技术领域,具体涉及一种视频数据聚合处理方法、聚合系统及视频搜索平台。
背景技术
目前采用聚合形式的视频类垂直搜索,需要收录多家第三方站点的播放资源,但是由于各家视频站点的数据格式与内容都不尽相同,如何准确高效的将表示同一个视频内容的资源聚合到一起成为此类视频搜索亟需要解决的问题。
现有技术主要采用聚类技术来聚合视频资源,并在比较视频资源和视频聚合相似度时采用基于简单字符串比较的硬匹配方式。在现有技术的处理方式下,收到新的视频资源时,需要逐一与数据库里所有的聚合数据比较才能判断它属于哪个视频聚合,比较次数多,计算量巨大,效率低下,不能实时更新。同时由于各站点数据含有不同的噪声,使用硬匹配的方式来比较,准确率和容错率都很低。
发明内容
为了提高对视频资源的聚合处理效率,本申请提供一种视频数据聚合处理方法、聚合系统及视频搜索平台,能提高对视频资源的聚合处理效率。
根据本申请的第一方面,本申请提供一种视频数据聚合处理方法,包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据所述关键词查询索引管理器中的索引数据,获取与所述关键词匹配的候选聚合集,所述候选聚合集包括若干视频聚合;匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算,若匹配,则将所述视频资源写入匹配的视频聚合;若所述处理单元未获取到与所述关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的所述视频资源写入该新建视频聚合中。
进一步地,所述匹配计算包括短文本相似度计算和长文本相似度计算,所述短文本相似度计算通过最小编辑距离或dice距离计算,所述长文本相似度计算通过simhash算法计算。
进一步地,若短文本相似度大于短文本相似度阈值,则视频资源与视频聚合匹配;若长文本相似度小于长文本相似度阈值,则视频资源与视频聚合匹配。
进一步地,通过最小编辑距离计算短文本相似度的计算公式为:
f_X1_X2=max(f_x1_x2),
f_x1_x2=1-(min_editdistance(x1,x2)/maxlen(x1,x2)),
其中,x1表示视频资源的短文本字符串,x2表示视频聚合的短文本字符串;X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合;f_x1_x2表示两个短文本字符串的匹配得分。
进一步地,通过dice距离计算短文本相似度的计算公式为:
f_X1_X2=max{d_X1_X2,|X1∩X2|/3},
d_X1_X2=dice(X1,X2)=2|X1∩X2|/(|X1|+|X2|),
其中,X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合,d_X1_X2表示两个短文本字符串集合的dice距离。
进一步地,通过simhash算法计算长文本相似度的计算公式为:
f_j1_j2=hamming_distance(simhash(j1),simhash(j2)),
其中,j1表示视频资源的长文本字符串,j2表示视频聚合的长文本字符串。
进一步地,处理单元抽取接收的视频资源中的关键词的步骤前,还包括步骤:预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元;所述预处理包括解析、去噪和特征抽取。
根据本申请的第二方面,本申请还提供一种聚合系统,包括:数据库和聚合服务器,所述数据库用于存储视频资源和视频聚合;所述聚合服务器包括:索引管理器、处理单元和匹配单元,所述索引管理器用于存储管理索引数据;所述聚合系统应用上述所述的聚合处理方法处理视频资源。
进一步地,所述聚合服务器还包括预处理单元,所述预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元;所述预处理包括解析、去噪和特征抽取。
根据本申请的第三方面,本申请还提供一种视频搜索平台,包括spider和搜索引擎,所述spider用于爬取视频站点的视频资源,所述搜索引擎用于提供搜索服务,还包括如上述所述的聚合系统,所述聚合系统用于接收spider发送的视频资源并对其进行聚合处理,所述聚合系统还用于向所述搜索引擎提供视频聚合。
本申请的技术方案,通过对视频资源抽取关键词,并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算,减少了匹配计算次数,优化了匹配算法,提高了对视频资源的聚合处理效率。
附图说明
图1为本申请实施例一的流程图;
图2为本申请实施例二的原理框图;
图3为本申请实施例三的原理框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本申请中用到的术语定义
视频基本信息:指一个视频的标题/别名、导演、演员、时长、上映时间、地区、类型、简介等基本信息;其中类型有电影、电视剧、动漫、综艺等,每一个类型还设有子类型,如电影的子类型有动作、剧情、科幻、恐怖等;
视频资源(Source):指第三方站点的视频播放资源数据,包括播放链接和对应的视频基本信息;
视频聚合(Gather):指多个视频资源的集合;如视频聚合《中国合伙人》,内容上,包含标题/别名、导演、演员、时长、上映时间、地区、类型、简介等基本信息;关系上,优酷、爱奇艺、pptv等第三方站点表示的《中国合伙人》视频资源都属于这个视频聚合;
短文本:指具有较少字符的文本,如在视频基本信息中,标题/别名、导演、演员、时长、上映时间、地区、类型等具有较少字符的文本均为短文本;
长文本:指具有较多字符的文本,如在视频基本信息中,简介等具有较多字符的文本为长文本;
最小编辑距离(min_editdistance):指让2个字符串相等所需的最少基本操作次数,基本操作包括插入、删除和替换;
dice距离:公式为,dice(S1,S2)=2*comm(S1,S2)/(amount(S1)+amount(S2)),其中,comm(S1,S2)是集合S1和S2中相同元素的个数,amount(S1)+amount(S2)是集合S1和S2中的元素总数;
simhash算法:其主要思想是降维,将高维的特征向量映射成一个低维的特征向量,进而可以通过两个低维特征向量的汉明距离(Hamming Distance)来确定文章是否重复或者高度近似;
汉明距离(Hamming Distance):指两个等长编码串在对应位置上编码不同的位置个数;
Spider:网络蜘蛛,也叫网络爬虫(Web crawler),是一种“自动化浏览网络”的程序,是为了自动从网络截取特定的数据,或为了组织网络上的数据,所设计的“‘自动浏览网络’的程序”;
IO接口:输入输出接口。
实施例一
本例中的视频数据聚合处理方法,包括步骤:处理单元抽取接收的视频资源中的关键词;处理单元根据关键词查询索引管理器中的索引数据,获取与当前关键词匹配的候选聚合集,候选聚合集包括若干视频聚合;匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算,若匹配,则将视频资源写入匹配的视频聚合;若处理单元未获取到与当前关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中。本例中的视频数据聚合处理方法,通过对视频资源抽取关键词,并通过索引管理器获取与关键词匹配的视频聚合集再进行匹配计算,减少了匹配计算次数,优化了匹配算法,提高了对视频资源的聚合处理效率。
具体的,请参见图1,本例中的视频数据聚合处理方法,包括步骤:
S1:预处理单元接收视频资源;
S2:预处理单元对视频资源进行预处理并将预处理后的视频资源发送给处理单元;预处理包括解析、去噪和特征抽取,去噪包括非法和无意义字符串的过滤,如繁简体转化,大小写转换等;特征抽取主要包括续集指标抽取,如从“指环王1”,“指环王第二部”抽取出1、2,语言抽取,如从“暗战国语版”,“暗战粤语版”抽取出国语、粤语,长文本的simhash计算,简言之,特征抽取可将某些必要参数提取出来并作量化处理;
S3:处理单元抽取该视频资源中的关键词;关键词从该视频资源中的视频基本信息中选取,如选标题/别名、演员、导演等的具体名称作为关键词,其一般与索引数据中的索引种类对应;
S4:处理单元根据关键词查询索引数据,以获取候选聚合集;索引数据根据视频基本信息建成,其种类一般包括标题/别名索引、演员索引、导演索引、豆瓣ID索引等;其中,候选聚合集是指与视频资源中抽取的关键词匹配的视频聚合的集合,如,关键词选标题/别名、演员、导演、豆瓣ID的具体名称时,根据关键词相应的查询索引数据中的标题/别名索引、演员索引、导演索引和豆瓣ID索引,与该视频资源具有相同标题/别名,或具有相同导演,或具有相同演员,或具有相同豆瓣ID索引的视频聚合的并集即为候选聚合集;
S5:判断是否获取到候选聚合集,若是,执行步骤S6,若否,执行步骤S8;
S6:匹配单元对视频资源和候选聚合集中的视频聚合进行匹配计算;
S7:判断是否匹配,若是,执行步骤S9,若否,执行步骤S5;
S8:处理单元根据当前视频资源在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中,结束流程。
S9:将该视频资源写入匹配的视频聚合,结束流程。
执行步骤S8或S9后,即可将数据库中的视频聚合发送给搜索引擎以提供检索服务,使搜索引擎能获取到最新的视频聚合。
其中,匹配计算包括短文本相似度计算和长文本相似度计算,短文本相似度计算通过最小编辑距离或dice距离计算,长文本相似度计算通过simhash算法计算。
通过最小编辑距离计算短文本相似度的计算公式为:
f_X1_X2=max(f_x1_x2), (公式一)
f_x1_x2=1-(min_editdistance(x1,x2)/maxlen(x1,x2)),(公式二)
其中,x1表示视频资源的短文本字符串,x2表示视频聚合的短文本字符串;X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合;f_x1_x2表示两个短文本字符串的匹配得分,min_editdistance(x1,x2)表示两个短文本字符串的最小编辑距离,maxlen(x1,x2)表示两个短文本字符串中最长的字符串长度。
通过dice距离计算短文本相似度的计算公式为:
f_X1_X2=max{d_X1_X2,|X1∩X2|/3}, (公式三)
d_X1_X2=dice(X1,X2)=2|X1∩X2|/(|X1|+|X2|), (公式四)
其中,X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合,d_X1_X2表示两个短文本字符串集合的dice距离,|X1∩X2|表示两个短文本字符串集合X1和X2中相同字符串的个数,|X1|+|X2|表示两个短文本字符串集合X1和X2中字符串的总个数。
其中,判断两个短文本字符串集合X1和X2中的字符串是否相同时,可以通过最小编辑距离来判断,判断表达式为:
min_editdistance(x1,x2)/maxlen(x1,x2)<C,
其中,C的取值根据实际情况选取,如0.1、0.2、0.25等,这个定义允许一定的差异,主要是短文本中存在错别字、翻译错误、写法多样等,保持容错比率可以提高召回率。
通过simhash算法计算长文本相似度的计算公式为:
f_j1_j2=hamming_distance(simhash(j1),simhash(j2)), (公式五)
其中,j1表示视频资源的长文本字符串,j2表示视频聚合的长文本字符串;simhash(j1)表示长文本字符串j1经过simhash算法处理得到的simhash序列串,simhash(j2)表示长文本字符串j2经过simhash算法处理得到的simhash序列串;hamming_distance表示两个simhash串的汉明距离。
若短文本相似度大于短文本相似度阈值,则视频资源与视频聚合匹配;若长文本相似度小于长文本相似度阈值,则视频资源与视频聚合匹配。短文本相似度阈值和长文本相似度阈值的取值根据对具体的短文本或长文本的匹配要求来设置。
例如,进行匹配计算时,在视频基本信息选标题/别名、演员、导演作为短文本进行匹配计算,选简介作为长文本进行匹配计算。具体的,一个视频通常存在多个标题/别名,要比较视频资源和视频聚合的标题别名相似度,实际上是比较两个字符串集合的相似度;本例中,采用最小编辑距离计算标题/别名的相似度,记视频资源的标题/别名集合为T1,视频聚合的标题/别名集合为T2,f_T1_T2为标题/别名的相似度,其具体数值根据公式一和公式二计算。演员通常也有多个,可以认为是一个字符串集合;本例中,采用dice距离计算演员的相似度,记视频资源和视频聚合的演员集合分别为A1、A2,演员集合A1和A2中一般只需包含主要演员即可,f_A1_A2为演员的相似度,其具体数值根据公式三和公式四计算,一般的,第三方站点主演的个数即集合A1和A2的元素个数可能存在很大差异,而dice距离对元素个数非常灵敏,而计算相似度只考虑主要演员即可,因而公式中增加|X1∩X2|/3这一项保证匹配更准确。导演有时也是多个,本例中,与计算演员相似度一样,采用dice距离计算导演的相似度,记视频资源和视频聚合的导演集合分别为D1、D2,f_D1_D2为导演的相似度,其具体数值根据公式三和公式四计算。本例中,采用simhash算法计算简介相似度,f_j1_j2为简介的相似度,其具体数值根据公式五计算。本例中视频资源和视频聚合匹配度是基于视频资源和视频聚合的上述视频基本信息字段相似度的一些规则而得出,可按如下的匹配计算步骤及设置值进行判断:
若:f_j1_j2<6,则匹配度为1;
若:f_T1_T2>0.9and f_A1_A2>0.66and f_D1_D2>0.5;则匹配度为1;
若:f_j1_j2<7,则匹配度为0.9;
若:f_T1_T2>0.9and(f_A1_A2>0.66or f_D1_D2>0.5);则匹配度为0.9;
若:f_j1_j2<8,则匹配度为0.8;
匹配度大于>=0.8的,则认为该资源与该聚合相匹配;即在此情况下,短文本相似度阈值可取0.9、0.66或0.5,长文本相似度阈值可取6、7或8;短文本相似度阈值和长文本相似度阈值的取值不限于上述取值,还可以根据实际需要修改为其它合适的数值。
进一步的,如还在视频基本信息中选取了地区、子类型和上映时间这些短文本进行匹配,则还包括以下匹配计算步骤:
若:f_T1_T2>0.99并且地区和上映时间一致,则匹配度为0.8;
若:f_T1_T2>0.99并且子类型和上映时间一致,则匹配度为0.8;
当然,为减少匹配计算次数,还可以在视频基本信息中选取一些更具有代表性的信息进行匹配,如:
若:视频资源和视频聚合的续集指标不同,则匹配度为0;
若:视频资源和视频聚合的类型不同,则匹配度为0;
若:视频资源和视频聚合的豆瓣ID相同,则匹配度为1。
本例中的视频数据聚合处理方法,提高了对视频资源的聚合处理效率;且通过对视频资源和视频聚合的续集指标进行匹配,还能提高视频资源与视频聚合的匹配准确率,降低错误率。
实施例二
请参见图2,本例中的聚合系统,包括:数据库12和聚合服务器,数据库12用于存储视频资源和视频聚合;聚合服务器包括:索引管理器111、处理单元112和匹配单元113,索引管理器111用于存储管理索引数据;处理单元112抽取接收的视频资源中的关键词,根据关键词查询索引管理器111中的索引数据,获取与当前关键词匹配的候选聚合集,候选聚合集包括若干视频聚合;匹配单元113对视频资源和候选聚合集中的视频聚合进行匹配计算,若匹配,则将视频资源写入匹配的视频聚合;若处理单元未获取到与当前关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的视频资源写入该新建视频聚合中。
本例中,数据库12包括视频资源表和视频聚合表,分别用来存储视频资源和视频聚合,每个视频聚合中均包括资源列表,资源列表记载属于该视频聚合的视频资源。索引数据根据视频基本信息建成,其种类一般包括标题/别名索引、演员索引、导演索引、豆瓣ID索引等。候选聚合集是指与视频资源中抽取的关键词匹配的视频聚合的集合,例如,关键词选标题/别名、演员、导演、豆瓣ID的具体名称时,根据关键词相应的查询索引数据中的标题/别名索引、演员索引、导演索引和豆瓣ID索引,与该视频资源具有相同标题/别名,或具有相同导演,或具有相同演员,或具有相同豆瓣ID索引的视频聚合的并集即为候选聚合集;候选聚合集一般是多种索引查询结果的并集,采用多种索引查询结果的并集作为候选聚合数据保证了在单一的标题或演员等索引因为含有噪声不准确时仍能够找到潜在的候选聚合集,并且相比现有技术中的两两匹配的复杂度由O(n2)降低到O(n)。
本例中,聚合系统还包括IO接口115和预处理单元114,IO接口115负责接收和发送数据。预处理单元114对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元,预处理包括解析、去噪和特征抽取,去噪包括非法和无意义字符串的过滤,特征抽取主要有续集指标抽取、语言抽取、长文本的simhash计算等。简言之,特征抽取可将某些必要参数提取出来并作量化处理。
其中,聚合系统对视频数据进行聚合处理的方法可参照实施例一。
实施例三
请参见图3,本例中的视频搜索平台,包括spider20和搜索引擎30,spider20用于爬取视频站点的视频资源,搜索引擎30用于提供搜索服务,还包括:聚合系统10,聚合系统10包括聚合服务器11和数据库12,用于接收spider20发送的视频资源并对其进行聚合处理,聚合系统10还用于向搜索引擎提供视频聚合。
本例中,视频搜索平台还包括控制台40,控制台用于人工编辑。例如,有些视频资源,算法做得再好,也还是存在badcase(负例,指不符合实际,不符合要求的结果),这时候就需要人工干预;比如算法算出来视频资源与视频聚合的匹配结果实际上是错的,工作人员就可以通过控制台来手动纠错。
其中,聚合系统可参见实施例二。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。
Claims (10)
1.一种视频数据聚合处理方法,其特征在于,包括步骤:
处理单元抽取接收的视频资源中的关键词;
处理单元根据所述关键词查询索引管理器中的索引数据,获取与所述关键词匹配的候选聚合集,所述候选聚合集包括若干视频聚合;
匹配单元对所述视频资源和所述候选聚合集中的视频聚合进行匹配计算,若匹配,则将所述视频资源写入匹配的视频聚合;
若所述处理单元未获取到与所述关键词匹配的候选聚合集,则在数据库中新建一个视频聚合,将接收的所述视频资源写入该新建视频聚合中。
2.如权利要求1所述的方法,其特征在于,所述匹配计算包括短文本相似度计算和长文本相似度计算,所述短文本相似度计算通过最小编辑距离或dice距离计算,所述长文本相似度计算通过simhash算法计算。
3.如权利要求2所述的方法,其特征在于,若短文本相似度大于短文本相似度阈值,则视频资源与视频聚合匹配;若长文本相似度小于长文本相似度阈值,则视频资源与视频聚合匹配。
4.如权利要求2所述的方法,其特征在于,通过最小编辑距离计算短文本相似度的计算公式为:
f_X1_X2=max(f_x1_x2),
f_x1_x2=1-(min_editdistance(x1,x2)/maxlen(x1,x2)),
其中,x1表示视频资源的短文本字符串,x2表示视频聚合的短文本字符串;X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合;f_x1_x2表示两个短文本字符串的匹配得分。
5.如权利要求2所述的方法,其特征在于,通过dice距离计算短文本相似度的计算公式为:
f_X1_X2=max{d_X1_X2,|X1∩X2|/3},
d_X1_X2=dice(X1,X2)=2|X1∩X2|/(|X1|+|X2|),
其中,X1表示视频资源的短文本字符串集合,X2表示视频聚合的短文本字符串集合,d_X1_X2表示两个短文本字符串集合的dice距离。
6.如权利要求2所述的方法,其特征在于,通过simhash算法计算长文本相似度的计算公式为:
f_j1_j2=hamming_distance(simhash(j1),simhash(j2)),
其中,j1表示视频资源的长文本字符串,j2表示视频聚合的长文本字符串。
7.如权利要求1所述的方法,其特征在于,所述处理单元抽取接收的视频资源中的关键词的步骤前,还包括步骤:预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元;所述预处理包括解析、去噪和特征抽取。
8.一种聚合系统,其特征在于,包括:数据库和聚合服务器,所述数据库用于存储视频资源和视频聚合;所述聚合服务器包括:索引管理器、处理单元和匹配单元,所述索引管理器用于存储管理索引数据;所述聚合系统应用权利要求1-6中任一项所述的聚合处理方法处理视频资源。
9.如权利要求8所述的聚合系统,其特征在于,所述聚合服务器还包括预处理单元,所述预处理单元对接收的视频资源进行预处理并将预处理后的视频资源发送给处理单元;所述预处理包括解析、去噪和特征抽取。
10.一种视频搜索平台,包括spider和搜索引擎,所述spider用于爬取视频站点的视频资源,所述搜索引擎用于提供搜索服务,其特征在于,还包括如权利要求9所述的聚合系统,所述聚合系统用于接收spider发送的视频资源并对其进行聚合处理,所述聚合系统还用于向所述搜索引擎提供视频聚合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410035957.XA CN104809117B (zh) | 2014-01-24 | 2014-01-24 | 视频数据聚合处理方法、聚合系统及视频搜索平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410035957.XA CN104809117B (zh) | 2014-01-24 | 2014-01-24 | 视频数据聚合处理方法、聚合系统及视频搜索平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809117A true CN104809117A (zh) | 2015-07-29 |
CN104809117B CN104809117B (zh) | 2018-10-30 |
Family
ID=53693946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410035957.XA Expired - Fee Related CN104809117B (zh) | 2014-01-24 | 2014-01-24 | 视频数据聚合处理方法、聚合系统及视频搜索平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809117B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105471984A (zh) * | 2015-11-23 | 2016-04-06 | 深圳创维-Rgb电子有限公司 | 一种网络资源整合平台及其方法 |
CN105631033A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种视频数据的挖掘方法和装置 |
CN106294861A (zh) * | 2016-08-23 | 2017-01-04 | 武汉烽火普天信息技术有限公司 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
CN106649221A (zh) * | 2016-12-06 | 2017-05-10 | 北京锐安科技有限公司 | 重复文本的检测方法及装置 |
CN106980639A (zh) * | 2016-12-29 | 2017-07-25 | 中国银联股份有限公司 | 短文本数据聚合系统及方法 |
CN107229620A (zh) * | 2016-03-23 | 2017-10-03 | 杭州海康威视数字技术股份有限公司 | 一种视频数据的存储方法及装置 |
CN108009178A (zh) * | 2016-10-28 | 2018-05-08 | 百度在线网络技术(北京)有限公司 | 信息聚合方法及装置 |
CN108012192A (zh) * | 2017-12-25 | 2018-05-08 | 北京奇艺世纪科技有限公司 | 一种视频资源的识别和聚合的方法及系统 |
CN108932252A (zh) * | 2017-05-25 | 2018-12-04 | 合网络技术(北京)有限公司 | 视频聚合方法及装置 |
CN109889865A (zh) * | 2019-03-12 | 2019-06-14 | 四川长虹电器股份有限公司 | 一种视频播放源推荐方法 |
CN110351327A (zh) * | 2019-05-22 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 资源处理平台的确认方法、装置、电子设备和介质 |
CN112749750A (zh) * | 2021-01-15 | 2021-05-04 | 苏州浪潮智能科技有限公司 | 一种基于k均值聚类算法的搜索引擎聚合分析方法及系统 |
CN112784592A (zh) * | 2019-11-11 | 2021-05-11 | 四川睿象科技有限公司 | 一种基于自然语言特征提取有效告警数据的方法 |
CN112989076A (zh) * | 2021-04-15 | 2021-06-18 | 北京字节跳动网络技术有限公司 | 多媒体内容搜索方法、装置、设备及介质 |
CN113901264A (zh) * | 2021-11-12 | 2022-01-07 | 央视频融媒体发展有限公司 | 一种影视类属性数据源间的周期性实体匹配方法及系统 |
CN115914674A (zh) * | 2022-11-15 | 2023-04-04 | 四川启睿克科技有限公司 | 智能电视影视媒资的合并方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3409828B2 (ja) * | 1996-03-01 | 2003-05-26 | 日本電信電話株式会社 | 映像目次生成方法および装置 |
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN101419614A (zh) * | 2008-12-03 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 视频资源聚类方法和装置 |
CN102508923A (zh) * | 2011-11-22 | 2012-06-20 | 北京大学 | 基于自动分类和关键字标注的自动视频注释方法 |
CN102693279A (zh) * | 2012-04-28 | 2012-09-26 | 合一网络技术(北京)有限公司 | 一种快速计算评论相似度的方法、装置及系统 |
CN102768669A (zh) * | 2012-04-27 | 2012-11-07 | 新奥特(北京)视频技术有限公司 | 一种实现视频资料分类的方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103177091A (zh) * | 2013-03-08 | 2013-06-26 | 深圳先进技术研究院 | 视频分类方法和系统 |
CN103391455A (zh) * | 2013-07-18 | 2013-11-13 | 博大龙 | 互动视频的内容数据管理系统及其方法 |
-
2014
- 2014-01-24 CN CN201410035957.XA patent/CN104809117B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3409828B2 (ja) * | 1996-03-01 | 2003-05-26 | 日本電信電話株式会社 | 映像目次生成方法および装置 |
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN101419614A (zh) * | 2008-12-03 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 视频资源聚类方法和装置 |
CN102508923A (zh) * | 2011-11-22 | 2012-06-20 | 北京大学 | 基于自动分类和关键字标注的自动视频注释方法 |
CN102768669A (zh) * | 2012-04-27 | 2012-11-07 | 新奥特(北京)视频技术有限公司 | 一种实现视频资料分类的方法 |
CN102693279A (zh) * | 2012-04-28 | 2012-09-26 | 合一网络技术(北京)有限公司 | 一种快速计算评论相似度的方法、装置及系统 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103177091A (zh) * | 2013-03-08 | 2013-06-26 | 深圳先进技术研究院 | 视频分类方法和系统 |
CN103391455A (zh) * | 2013-07-18 | 2013-11-13 | 博大龙 | 互动视频的内容数据管理系统及其方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105471984A (zh) * | 2015-11-23 | 2016-04-06 | 深圳创维-Rgb电子有限公司 | 一种网络资源整合平台及其方法 |
CN105631033A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种视频数据的挖掘方法和装置 |
CN107229620A (zh) * | 2016-03-23 | 2017-10-03 | 杭州海康威视数字技术股份有限公司 | 一种视频数据的存储方法及装置 |
CN107229620B (zh) * | 2016-03-23 | 2019-11-22 | 杭州海康威视数字技术股份有限公司 | 一种视频数据的存储方法及装置 |
CN106294861B (zh) * | 2016-08-23 | 2019-08-09 | 武汉烽火普天信息技术有限公司 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
CN106294861A (zh) * | 2016-08-23 | 2017-01-04 | 武汉烽火普天信息技术有限公司 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
CN108009178B (zh) * | 2016-10-28 | 2021-12-10 | 上海优扬新媒信息技术有限公司 | 信息聚合方法及装置 |
CN108009178A (zh) * | 2016-10-28 | 2018-05-08 | 百度在线网络技术(北京)有限公司 | 信息聚合方法及装置 |
CN106649221A (zh) * | 2016-12-06 | 2017-05-10 | 北京锐安科技有限公司 | 重复文本的检测方法及装置 |
CN106980639A (zh) * | 2016-12-29 | 2017-07-25 | 中国银联股份有限公司 | 短文本数据聚合系统及方法 |
CN106980639B (zh) * | 2016-12-29 | 2020-07-28 | 中国银联股份有限公司 | 短文本数据聚合系统及方法 |
CN108932252A (zh) * | 2017-05-25 | 2018-12-04 | 合网络技术(北京)有限公司 | 视频聚合方法及装置 |
CN108012192A (zh) * | 2017-12-25 | 2018-05-08 | 北京奇艺世纪科技有限公司 | 一种视频资源的识别和聚合的方法及系统 |
CN109889865A (zh) * | 2019-03-12 | 2019-06-14 | 四川长虹电器股份有限公司 | 一种视频播放源推荐方法 |
CN110351327A (zh) * | 2019-05-22 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 资源处理平台的确认方法、装置、电子设备和介质 |
CN112784592A (zh) * | 2019-11-11 | 2021-05-11 | 四川睿象科技有限公司 | 一种基于自然语言特征提取有效告警数据的方法 |
CN112749750A (zh) * | 2021-01-15 | 2021-05-04 | 苏州浪潮智能科技有限公司 | 一种基于k均值聚类算法的搜索引擎聚合分析方法及系统 |
CN112989076A (zh) * | 2021-04-15 | 2021-06-18 | 北京字节跳动网络技术有限公司 | 多媒体内容搜索方法、装置、设备及介质 |
CN113901264A (zh) * | 2021-11-12 | 2022-01-07 | 央视频融媒体发展有限公司 | 一种影视类属性数据源间的周期性实体匹配方法及系统 |
CN115914674A (zh) * | 2022-11-15 | 2023-04-04 | 四川启睿克科技有限公司 | 智能电视影视媒资的合并方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104809117B (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809117A (zh) | 视频数据聚合处理方法、聚合系统及视频搜索平台 | |
US10713323B2 (en) | Analyzing concepts over time | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
US9971967B2 (en) | Generating a superset of question/answer action paths based on dynamically generated type sets | |
CN108701161B (zh) | 为搜索查询提供图像 | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
US20200057788A1 (en) | Method, apparatus and device for generating entity relationship data, and storage medium | |
WO2015175931A1 (en) | Language modeling for conversational understanding domains using semantic web resources | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN106484774B (zh) | 一种多源视频元数据的关联方法及系统 | |
CN110569405A (zh) | 一种基于bert的政务公文本体概念抽取方法 | |
US11714840B2 (en) | Method and apparatus for information query and storage medium | |
CN113535977B (zh) | 一种知识图谱融合方法和装置及设备 | |
CN102855317A (zh) | 一种基于演示视频的多模式索引方法及系统 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN113641707B (zh) | 知识图谱消歧方法、装置、设备及存储介质 | |
CN106446051A (zh) | Eagle媒资深度搜索方法 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
Li et al. | Social context-aware person search in videos via multi-modal cues | |
CN103136221B (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181030 Termination date: 20210124 |
|
CF01 | Termination of patent right due to non-payment of annual fee |