CN101673265B - 视频内容的搜索装置 - Google Patents

视频内容的搜索装置 Download PDF

Info

Publication number
CN101673265B
CN101673265B CN200810042856A CN200810042856A CN101673265B CN 101673265 B CN101673265 B CN 101673265B CN 200810042856 A CN200810042856 A CN 200810042856A CN 200810042856 A CN200810042856 A CN 200810042856A CN 101673265 B CN101673265 B CN 101673265B
Authority
CN
China
Prior art keywords
video
finger print
module
index
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810042856A
Other languages
English (en)
Other versions
CN101673265A (zh
Inventor
连惠城
程建章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN200810042856A priority Critical patent/CN101673265B/zh
Publication of CN101673265A publication Critical patent/CN101673265A/zh
Application granted granted Critical
Publication of CN101673265B publication Critical patent/CN101673265B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种视频内容的搜索装置,包括:视频指纹提取模块,用于提取多个视频文件的视频指纹;视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词;索引生成模块,与所述视频指纹分词模块相连接,用于根据分词结果生成视频指纹索引;搜索模块,与所述索引生成模块相连接,用于提供利用该视频指纹索引搜索匹配的视频文件。本发明通过采用文本搜索引擎中的分词技术,在视视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对视视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的视视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。

Description

视频内容的搜索装置
技术领域
本发明涉及视频内容的搜索装置。 
背景技术
随着互联网的发展,搜索引擎成为人们上网必不可少的工具之一。传统的搜索引擎都是基于文本搜索(Text Search),称为是文本搜索引擎。其原理是:搜索引擎服务器收集大量的网页;并根据已有的规则提取网页中的文本并做分词(Word Segmentation)处理,常见的分词方法,例如:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;文本搜索引擎利用文本词库做索引表用于快速搜索。用户在进行搜索的时候,将文本输入到服务器,服务器对该文本进行分词处理后,根据索引表进行快速的搜索,然后返回结果。 
目前,搜索引擎都是基于文本的,即使是一些搜索图片或视频的搜索引擎也是通过图片或视频节目的名称、说明、介绍、标签等文本信息进行搜索的。搜索引擎还没有直接通过视视频的信号内容进行搜索的。这里,我们所说的视视频是指视频文件或者视频文件。通常视频文件包含视频信号流和视频信号流。 
视频指纹(video fingerprinting)系统将每一帧(frame)或者几帧转化为很小的指纹(例如32比特大小),然后进行检索。例如国际专利号为WO2007/127590A2的“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”(Method and system forfingerprinting digital video object based on multiresolution,multirate and temporalsignatures)公开了一种将视频信号的每帧转化为84比特或132比特的视频指纹处理方法。通过这种方法一个视频文件就可以被转换成一个很小的指纹文件。 
在视频文件数目较少(例如1万个)的情况下,可以将所有的指纹文件存入到计算机内存中,进行索引后,可方便地进行快速的检索。上述“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”即给出了这种方法的详细步骤。然而,在实际情况下,视频文件的数目要远远超过一万的数目。例如,目前在互联网上出现的视频文件数目超过一千万数目,而且数量在不断增长。因此采用这种方法很难做出实用的搜索引擎。 
发明内容
为了解决上述技术问题,本发明提供一种视频内容的搜索装置。
本发明采用如下技术方案: 
一种视频内容的搜索装置,包括: 
视频指纹提取模块,用于提取多个视频文件的视频指纹; 
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词; 
索引生成模块,与所述视频指纹分词模块相连接,用于根据分词结果生成视频指纹索引; 
搜索模块,与所述索引生成模块相连接,用于提供利用该视频指纹索引搜索匹配的视频文件。 
进一步地,还包括连接于所述索引生成模块与所述搜索模块之间的存储模块,用于存储视频指纹、所述视频指纹索引及其对应的视频文件。 
本发明通过采用文本搜索引擎中的分词技术,在视视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对视视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的视视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。 
以下结合附图及实施例进一步说明本发明。 
附图说明
图1为本发明视频内容的搜索装置实施例的流程示意图。 
具体实施方式
如图1所示,一种视频内容的搜索装置,包括: 
视频指纹提取模块,用于提取多个视频文件的视频指纹; 
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词; 
索引生成模块,与所述视频指纹分词模块相连接,用于根据分词结果生成视频指纹索引; 
搜索模块,与所述索引生成模块相连接,用于提供利用该视频指纹索引搜索匹配的视频文件。 
搜索可采用根据输入的需要检索的视频文件或视频文件片段,通过所述视频指纹提取模块提取其视频指纹,并通过视频指纹分词模块对该视频指纹进行分词,根据分词结果在该视频指纹索引中搜索匹配的视频文件;也可以直接根据用户输入视频指纹,利用视频指纹分词模块对该视频指纹进行分词后,根据分词结果在该视频指纹索引中搜索匹配的视频文件。 
进一步地,还包括连接于所述索引生成模块与所述搜索模块之间的存储模块,用于存储视频指纹、所述视频指纹索引及其对应的视频文件。所述存储模块可以是服务器。 
上述实施例中的分词方式可采用多种方式实现,以下列举几种方式分别说明。 
方式一 
采用基于统计的中文分词方法对视频指纹进行分词处理。首先将15000个视频文件生成宽度固定的指纹文件,其宽度可以是32比特或16比特,得到的每个指纹文件平均由约10000个宽度固定的指纹组成。每个32比特或16比特的数据被看作是中文中的一个字。所有15000个包含“字”的指纹文件被当作是15000篇“文章”,而这些“文章”则作为中文分词的语料进行分词。在统计过程中,对视频语料中相邻共现的每个“字”的组合的频度进行统计。共现频度高的组合被认为是一个词,称为“指纹词”。例如,频度较高的7个连续的二进制“00000000000000000000000000000000”的指纹的组合,和5个连续的二进制“11111111111111111111111111111111”的指纹的组合被统计是频度较高的指纹组合,他们被作为“指纹词”。 
方式二 
采用指纹宽度为16比特的视频指纹提取方法。具体是将方式一中宽度为32比特的指纹进行间隔采样得到16比特的指纹。然后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。 
方式三 
采用Job Oostven等人在2002年发表在第五次视频信息系统进展国际会议(Proceeding 
of the5th International Conference on Recent Advances in Visual Information Systems.)上发表的视频指纹的特征提取和一种数据库策略(Feature Extraction and a Databasestrategy for video fingerprinting.)的方法进行视频指纹提取。然后将32比特的指纹经过间隔采样后,得到16比特的视频指纹文件。最后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。

Claims (2)

1.一种视频内容的搜索装置,其特征在于包括:
视频指纹提取模块,用于提取多个视频文件的视频指纹;
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词;
索引生成模块,与所述视频指纹分词模块相连接,用于根据分词结果生成视频指纹索引;
搜索模块,与所述索引生成模块相连接,用于根据输入的需要检索的视频文件或视频文件片段,通过所述视频指纹提取模块提取其视频指纹,并通过视频指纹分词模块对视频指纹进行分词,根据分词结果在该视频指纹索引中搜索匹配的视频文件;或直接根据用户输入视频指纹,利用视频指纹分词模块对该视频指纹进行分词后,根据分词结果在视频指纹索引中搜索匹配的视频文件;
所述视频指纹分词包括以下步骤:
1)视频文件生成宽度固定的视频指纹文件;
2)对视频指纹文件中相邻共现指纹的组合的频度进行统计;
3)共现频度高的组合被认为是一个词。
2.根据权利要求1所述的视频内容的搜索装置,其特征在于还包括:连接于所述索引生成模块与所述搜索模块之间的存储模块,用于存储视频指纹、所述视频指纹索引及其对应的视频文件。 
CN200810042856A 2008-09-12 2008-09-12 视频内容的搜索装置 Expired - Fee Related CN101673265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810042856A CN101673265B (zh) 2008-09-12 2008-09-12 视频内容的搜索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810042856A CN101673265B (zh) 2008-09-12 2008-09-12 视频内容的搜索装置

Publications (2)

Publication Number Publication Date
CN101673265A CN101673265A (zh) 2010-03-17
CN101673265B true CN101673265B (zh) 2012-09-05

Family

ID=42020494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810042856A Expired - Fee Related CN101673265B (zh) 2008-09-12 2008-09-12 视频内容的搜索装置

Country Status (1)

Country Link
CN (1) CN101673265B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9894413B2 (en) 2014-06-12 2018-02-13 Google Llc Systems and methods for locally detecting consumed video content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置

Also Published As

Publication number Publication date
CN101673265A (zh) 2010-03-17

Similar Documents

Publication Publication Date Title
CN101673266B (zh) 音频、视频内容的搜索方法
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN100405371C (zh) 一种提取新词的方法和系统
CN101706807B (zh) 一种中文网页新词自动获取方法
CN104598577B (zh) 一种网页正文的提取方法
CN106055667B (zh) 一种基于文本-标签密度的网页核心内容提取方法
CN101673263B (zh) 视频内容的搜索方法
CN102043808B (zh) 利用网页结构抽取双语词条的方法及设备
CN104951469B (zh) 优化语料库的方法和装置
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN101673262B (zh) 音频内容的搜索方法
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN108647199A (zh) 一种地名新词的发现方法
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN110705292A (zh) 一种基于知识库和深度学习的实体名称提取方法
CN101673267B (zh) 音频、视频内容的搜索方法
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN109472020A (zh) 一种特征对齐中文分词方法
CN101673265B (zh) 视频内容的搜索装置
CN105574004A (zh) 一种网页去重方法和设备
CN107291952B (zh) 一种提取有意义串的方法及装置
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TRANSMISSION LINE NETWORK TECHNOLOGY (SHANGHAI) CO

Free format text: FORMER OWNER: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140416

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200003 HUANGPU, SHANGHAI TO: 200241 MINHANG, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140416

Address after: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee after: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Address before: 200003 gate 1305, 6 South Suzhou Road, Shanghai

Patentee before: Weixu Network Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180110

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co., Ltd.

Address before: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee before: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200709

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20200912