CN101673263B - 视频内容的搜索方法 - Google Patents

视频内容的搜索方法 Download PDF

Info

Publication number
CN101673263B
CN101673263B CN 200810042854 CN200810042854A CN101673263B CN 101673263 B CN101673263 B CN 101673263B CN 200810042854 CN200810042854 CN 200810042854 CN 200810042854 A CN200810042854 A CN 200810042854A CN 101673263 B CN101673263 B CN 101673263B
Authority
CN
China
Prior art keywords
video
finger print
index
file
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810042854
Other languages
English (en)
Other versions
CN101673263A (zh
Inventor
连惠城
程建章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN 200810042854 priority Critical patent/CN101673263B/zh
Publication of CN101673263A publication Critical patent/CN101673263A/zh
Application granted granted Critical
Publication of CN101673263B publication Critical patent/CN101673263B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种视频内容的搜索方法,包括:1)视频指纹提取步骤,提取多个视频文件的视频指纹;2)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;3)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;4)搜索步骤,利用该视频指纹索引搜索匹配的视频文件。本发明通过采用文本搜索引擎中的分词技术,在视视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对视视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的视视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。

Description

视频内容的搜索方法
技术领域
本发明涉及视频内容的搜索方法。
背景技术
随着互联网的发展,搜索引擎成为人们上网必不可少的工具之一。传统的搜索引擎都是基于文本搜索(Text Search),称为是文本搜索引擎。其原理是:搜索引擎服务器收集大量的网页;并根据已有的规则提取网页中的文本并做分词(Word Segmentation)处理,常见的分词方法,例如:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;文本搜索引擎利用文本词库做索引表用于快速搜索。用户在进行搜索的时候,将文本输入到服务器,服务器对该文本进行分词处理后,根据索引表进行快速的搜索,然后返回结果。
目前,搜索引擎都是基于文本的,即使是一些搜索图片或视频的搜索引擎也是通过图片或视频节目的名称、说明、介绍、标签等文本信息进行搜索的。搜索引擎还没有直接通过视视频的信号内容进行搜索的。这里,我们所说的视视频是指视频文件或者视频文件。通常视频文件包含视频信号流和视频信号流。
视频指纹(video fingerprinting)系统将每一帧(frame)或者几帧转化为很小的指纹(例如32比特大小),然后进行检索。例如国际专利号为WO2007/127590A2的“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”(Method and system forfingerprinting digital video object based on multiresolution,multirate and temporalsignatures)公开了一种将视频信号的每帧转化为84比特或132比特的视频指纹处理方法。通过这种方法一个视频文件就可以被转换成一个很小的指纹文件。
在视频文件数目较少(例如1万个)的情况下,可以将所有的指纹文件存入到计算机内存中,进行索引后,可方便地进行快速的检索。上述“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”即给出了这种方法的详细步骤。然而,在实际情况下,视频文件的数目要远远超过一万的数目。例如,目前在互联网上出现的视频文件数目超过一千万数目,而且数量在不断增长。因此采用这种方法很难做出实用的搜索引擎。
发明内容
为了解决上述技术问题,本发明提供一种视频内容的搜索方法,这种搜索引擎称为是视频指纹搜索引擎(video fingerprint search engine)。
本发明采用如下技术方案:
一种视频内容的搜索方法,包括:
1)视频指纹提取步骤,提取多个视频文件的视频指纹;
2)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;
3)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;
4)搜索步骤,利用该视频指纹索引搜索匹配的视频文件。
进一步地,所述步骤4)具体包括以下步骤:
根据输入的需要检索的视频文件或视频文件片段,提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
进一步地,所述步骤3)与所述步骤4)之间还包括以下步骤:
存储步骤,视频指纹、所述视频指纹索引及其对应的视频文件。
本发明通过采用文本搜索引擎中的分词技术,在视视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对视视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的视视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。
附图说明
图1为本发明视频内容的搜索方法实施例的流程示意图。
具体实施方式
如图1所示,一种视频内容的搜索方法,包括:
1)视频指纹提取步骤,提取多个视频文件的视频指纹;
2)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;
3)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;
4)搜索步骤,利用该视频指纹索引搜索匹配的视频文件。
进一步地,所述步骤4)具体包括以下步骤:
根据输入的需要检索的视频文件或视频文件片段,提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
进一步地,所述步骤4)之后还包括以下步骤:
存储步骤,视频指纹、所述视频指纹索引及其对应的视频文件。
上述实施例中的分词方式可采用多种方式实现,以下列举几种方式分别说明。
方式一
采用基于统计的中文分词方法对视频指纹进行分词处理。首先将15000个视频文件生成宽度固定的指纹文件,其宽度可以是32比特或16比特,得到的每个指纹文件平均由约10000个宽度固定的指纹组成。每个32比特或16比特的数据被看作是中文中的一个字。所有15000个包含“字”的指纹文件被当作是15000篇“文章”,而这些“文章”则作为中文分词的语料进行分词。在统计过程中,对视频语料中相邻共现的每个“字”的组合的频度进行统计。共现频度高的组合被认为是一个词,称为“指纹词”。例如,频度较高的7个连续的二进制“00000000000000000000000000000000”的指纹的组合,和5个连续的二进制“11111111111111111111111111111111”的指纹的组合被统计是频度较高的指纹组合,他们被作为“指纹词”。
方式二
采用指纹宽度为16比特的视频指纹提取方法。具体是将方式一中宽度为32比特的指纹进行间隔采样得到16比特的指纹。然后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。
方式三
采用Job Oostven等人在2002年发表在第五次视频信息系统进展国际会议(Proceedingof the 5th International Conference on Recent Advances in Visual Information Systems.)上发表的视频指纹的特征提取和一种数据库策略(Feature Extraction and a Databasestrategy for video fingerprinting.)的方法进行视频指纹提取。然后将32比特的指纹经过间隔采样后,得到16比特的视频指纹文件。最后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。

Claims (3)

1.一种视频内容的搜索方法,其特征在于包括:
1)视频指纹提取步骤,提取多个视频文件的视频指纹;
2)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;
3)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;
4)搜索步骤,利用该视频指纹索引搜索匹配的视频文件;
所述视频指纹分词包括以下步骤:
A.视频文件生成宽度固定的指纹文件,其宽度为32比特或16比特;
B.对视频指纹文件中相邻出现的指纹的组合的频度进行统计;
C.共现频度高的组合被认为是一个词来进行。
2.根据权利要求1所述的视频内容的搜索方法,其特征在于,所述步骤4)具体包括以下步骤:
根据输入的需要检索的视频文件或视频文件片段,提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
3.根据权利要求1或2所述的视频内容的搜索方法,其特征在于,所述步骤3)与所述步骤4)之间还包括以下步骤:
存储步骤,存储视频指纹、所述视频指纹索引及其对应的视频文件。
CN 200810042854 2008-09-12 2008-09-12 视频内容的搜索方法 Expired - Fee Related CN101673263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810042854 CN101673263B (zh) 2008-09-12 2008-09-12 视频内容的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810042854 CN101673263B (zh) 2008-09-12 2008-09-12 视频内容的搜索方法

Publications (2)

Publication Number Publication Date
CN101673263A CN101673263A (zh) 2010-03-17
CN101673263B true CN101673263B (zh) 2012-12-05

Family

ID=42020492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810042854 Expired - Fee Related CN101673263B (zh) 2008-09-12 2008-09-12 视频内容的搜索方法

Country Status (1)

Country Link
CN (1) CN101673263B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103688256A (zh) * 2012-01-20 2014-03-26 华为技术有限公司 基于评论信息确定视频质量参数的方法、装置和系统
US9740775B2 (en) * 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
CN106294797B (zh) * 2016-08-15 2019-10-18 北京数码视讯科技股份有限公司 一种视频基因的生成方法和装置
CN110555127A (zh) * 2018-03-30 2019-12-10 优酷网络技术(北京)有限公司 多媒体内容的生成方法及装置
CN111008301B (zh) * 2019-12-19 2023-08-15 新华智云科技有限公司 一种以图搜视频的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
WO2007127590A2 (en) * 2006-04-28 2007-11-08 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
WO2007127590A2 (en) * 2006-04-28 2007-11-08 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures

Also Published As

Publication number Publication date
CN101673263A (zh) 2010-03-17

Similar Documents

Publication Publication Date Title
CN101673266B (zh) 音频、视频内容的搜索方法
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN101706807B (zh) 一种中文网页新词自动获取方法
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN101673263B (zh) 视频内容的搜索方法
CN104598577B (zh) 一种网页正文的提取方法
CN106055667B (zh) 一种基于文本-标签密度的网页核心内容提取方法
CN104951469B (zh) 优化语料库的方法和装置
CN102043808A (zh) 利用网页结构抽取双语词条的方法及设备
CN102262625A (zh) 网页关键词提取方法及装置
CN111104801B (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN103995904A (zh) 一种影像档案电子资料的识别系统
CN103678412A (zh) 一种文档检索的方法及装置
CN101673262B (zh) 音频内容的搜索方法
WO2015062377A1 (zh) 一种相似文本检测装置、方法以及应用
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN101673267B (zh) 音频、视频内容的搜索方法
CN105574004B (zh) 一种网页去重方法和设备
CN109472020A (zh) 一种特征对齐中文分词方法
CN101673265B (zh) 视频内容的搜索装置
CN107291952B (zh) 一种提取有意义串的方法及装置
CN107169065B (zh) 一种特定内容的去除方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TRANSMISSION LINE NETWORK TECHNOLOGY (SHANGHAI) CO

Free format text: FORMER OWNER: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140409

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200003 HUANGPU, SHANGHAI TO: 200241 MINHANG, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140409

Address after: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee after: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Address before: 200003 gate 1305, 6 South Suzhou Road, Shanghai

Patentee before: Weixu Network Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171227

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co., Ltd.

Address before: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee before: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200713

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121205

Termination date: 20200912