CN101673266B - 音频、视频内容的搜索方法 - Google Patents

音频、视频内容的搜索方法 Download PDF

Info

Publication number
CN101673266B
CN101673266B CN200810042857A CN200810042857A CN101673266B CN 101673266 B CN101673266 B CN 101673266B CN 200810042857 A CN200810042857 A CN 200810042857A CN 200810042857 A CN200810042857 A CN 200810042857A CN 101673266 B CN101673266 B CN 101673266B
Authority
CN
China
Prior art keywords
audio
video
file
fingerprint
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810042857A
Other languages
English (en)
Other versions
CN101673266A (zh
Inventor
连惠城
程建章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN200810042857A priority Critical patent/CN101673266B/zh
Publication of CN101673266A publication Critical patent/CN101673266A/zh
Application granted granted Critical
Publication of CN101673266B publication Critical patent/CN101673266B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种音频、视频内容的搜索方法,包括以下步骤:1)判断当前流媒体文件是否包括音频文件和视频文件;如果包括音频文件,则进行如下步骤:11)音频指纹提取步骤,12)音频指纹分词步骤;13)索引生成步骤;如果包括视频文件,则进行如下步骤:21)视频指纹提取步骤;22)视频指纹分词步骤;23)索引生成步骤;2)搜索步骤,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。本发明通过采用文本搜索引擎中的分词技术,在音视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对音视频指纹进行索引处理,搜索引擎可以对用户输入的音视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。

Description

音频、视频内容的搜索方法
技术领域
本发明涉及音频、视频内容的搜索方法。
背景技术
随着互联网的发展,搜索引擎成为人们上网必不可少的工具之一。传统的搜索引擎都是基于文本搜索(Text Search),称为是文本搜索引擎。其原理是:搜索引擎服务器收集大量的网页;并根据已有的规则提取网页中的文本并做分词(Word Segmentation)处理,常见的分词方法,例如:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;文本搜索引擎利用文本词库做索引表用于快速搜索。用户在进行搜索的时候,将文本输入到服务器,服务器对该文本进行分词处理后,根据索引表进行快速的搜索,然后返回结果。
目前,搜索引擎都是基于文本的,即使是一些搜索图片或视频的搜索引擎也是通过图片或视频节目的名称、说明、介绍、标签等文本信息进行搜索的。搜索引擎还没有直接通过音视频的信号内容进行搜索的。这里,我们所说的音视频是指音频文件或者视频文件。通常视频文件包含音频信号流和视频信号流。
音频指纹(audio fingerprinting)在很早以前就被提出来,例如,Jaap Haitsma和TonKalke在2002年音乐搜索进展国际会议(Proceedings of International Conference on MusicInformation Retrieval)上发表了“一种高可靠性的音频指纹系统”(A Highly Robust AudioFingerprinting System)。这种系统通过信号处理的方法,将音频文件中每隔一段时间(例如11.6ms)的音频信号,转化为一个32比特(bit)大小的指纹(fingerprint),通过这种方法一个音频文件就可以被转换成一个指纹文件。系统在对所有的音频指纹文件做索引表后,就可以进行快速的音频指纹检索了。
和音频指纹系统原理相似地,视频指纹(video fingerprinting)系统将每一帧(frame)或者几帧转化为很小的指纹(例如32比特大小),然后进行检索。例如国际专利号为WO2007/127590A2的“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”(Method and system for fingerprinting digital video object based on multiresolution,multirate and temporal signatures)公开了一种将视频信号的每帧转化为84比特或132比特的视频指纹处理方法。通过这种方法一个视频文件就可以被转换成一个很小的指纹文件。
在音频指纹或视频文件数目较少(例如1万个)的情况下,可以将所有的指纹文件存入到计算机内存中,进行索引后,可方便地进行快速的检索。上述“一种高可靠性的音频指纹系统”即给出了这种方法的详细步骤。然而,在实际情况下,视频文件的数目要远远超过一万的数目。例如,目前在互联网上出现的视频文件数目超过一千万数目,而且数量在不断增长。因此采用这种方法很难做出实用的搜索引擎。
发明内容
为了解决上述技术问题,本发明提供一种音频、视频内容的搜索方法。
本发明采用如下技术方案:
一种音频、视频内容的搜索方法,其特征包括以下步骤:
1)判断当前流媒体文件是否包括音频文件和视频文件;
如果包括音频文件,则进行如下步骤:
11)音频指纹提取步骤,提取多个音频文件的音频指纹;
12)音频指纹分词步骤,对步骤1)提取的音频指纹进行分词;
13)索引生成步骤,根据步骤2)的分词结果生成音频指纹索引;
如果包括视频文件,则进行如下步骤:
21)视频指纹提取步骤,提取多个视频文件的视频指纹;
22)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;
23)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;
2)搜索步骤,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。
进一步地,所述步骤2)具体包括以下步骤:
判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件,如果包括音频文件,则提取其音频指纹,对该音频指纹进行分词,根据分词结果在所述音频指纹索引中搜索匹配的音频文件;如果包括视频文件,则提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
进一步地,在所述步骤1)与所述步骤2)之间还包括以下步骤:
存储步骤,存储音频指纹、所述音频指纹索引及其对应的音频文件,存储视频指纹、所述视频指纹索引及其对应的视频文件。
本发明通过采用文本搜索引擎中的分词技术,在音视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对音视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的音视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。
附图说明
图1为本发明音频、视频指纹搜索方法实施例流程示意图。
具体实施方式
如图1所示,一种音频、视频内容的搜索方法,包括以下步骤:
1)判断当前流媒体文件是否包括音频文件和视频文件;
如果包括音频文件,则进行如下步骤:
11)音频指纹提取步骤,提取多个音频文件的音频指纹;
12)音频指纹分词步骤,对步骤1)提取的音频指纹进行分词;
13)索引生成步骤,根据步骤2)的分词结果生成音频指纹索引;
如果包括视频文件,则进行如下步骤:
21)视频指纹提取步骤,提取多个视频文件的视频指纹;
22)视频指纹分词步骤,对步骤1)提取的视频指纹进行分词;
23)索引生成步骤,根据步骤2)的分词结果生成视频指纹索引;
2)搜索步骤,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。
进一步地,所述步骤2)具体包括以下步骤:
判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件,如果包括音频文件,则提取其音频指纹,对该音频指纹进行分词,根据分词结果在所述音频指纹索引中搜索匹配的音频文件;如果包括视频文件,则提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
进一步地,在所述步骤1)与所述步骤2)之间还包括以下步骤:
存储步骤,存储音频指纹、所述音频指纹索引及其对应的音频文件,存储视频指纹、所述视频指纹索引及其对应的视频文件。
上述实施例中的分词方式可采用多种方式实现,以下列举几种方式分别说明。
方式一
采用基于统计的中文分词方法对音频指纹进行分词处理。首先将15000个音频文件按上述Jaap Haitsma和Ton Kalke的方法生成宽度固定的指纹文件,其宽度可以是32比特或16比特,得到的每个指纹文件平均由约10000个宽度固定的指纹组成。每个32比特或16比特的数据被看作是中文中的一个字。所有15000个包含“字”的指纹文件被当作是15000篇“文章”,而这些“文章”则作为中文分词的语料进行分词。在统计过程中,对音频语料中相邻共现的每个“字”的组合的频度进行统计。共现频度高的组合被认为是一个词,称为“指纹词”。例如,频度较高的7个连续的二进制“00000000000000000000000000000000”的指纹的组合,和5个连续的二进制“11111111111111111111111111111111”的指纹的组合被统计是频度较高的指纹组合,他们被作为“指纹词”。
方式二
采用指纹宽度为16比特的音频指纹提取方法。具体是将方式一中宽度为32比特的指纹进行间隔采样得到16比特的指纹。然后采用与方式一相同的基于统计的中文分词方法进行音频指纹的分词处理。
方式三
采用Job Oostven等人在2002年发表在第五次视频信息系统进展国际会议(Proceeding of the5th International Conference on Recent Advances in Visual Information Systems.)上发表的视频指纹的特征提取和一种数据库策略(Feature Extraction and a Databasestrategy for video fingerprinting.)的方法进行视频指纹提取。然后将32比特的指纹经过间隔采样后,得到16比特的视频指纹文件。最后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。

Claims (2)

1.一种音频、视频内容的搜索方法,其特征在于包括以下步骤:
1)判断当前流媒体文件是否包括音频文件和视频文件;
如果包括音频文件,则进行如下步骤:
11)音频指纹提取步骤,提取音频文件的音频指纹;
12)音频指纹分词步骤,对步骤11)提取的音频指纹进行分词;
13)索引生成步骤,根据步骤12)的分词结果生成音频指纹索引;
所述音频指纹分词包括以下步骤:
A.音频文件生成宽度固定的音频指纹文件;
B.对音频指纹文件中相邻共现的指纹的组合的频度进行统计;
C.共现频度高的组合被认为是一个词;
如果包括视频文件,则进行如下步骤:
21)视频指纹提取步骤,提取视频文件的视频指纹;
22)视频指纹分词步骤,对步骤21)提取的视频指纹进行分词;
23)索引生成步骤,根据步骤22)的分词结果生成视频指纹索引;
所述视频指纹分词包括以下步骤:
D.视频文件生成宽度固定的视频指纹文件;
E.对视频指纹文件中相邻共现的指纹的组合的频度进行统计;
F.共现频度高的组合被认为是一个词来进行;
2)搜索步骤,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件;
所述步骤2)具体包括以下步骤:
判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件,如果包括音频文件,则提取其音频指纹,对该音频指纹进行分词,根据分词结果在所述音频指纹索引中搜索匹配的音频文件;如果包括视频文件,则提取其视频指纹,对该视频指纹进行分词,根据分词结果在所述视频指纹索引中搜索匹配的视频文件。
2.根据权利要求1所述的音频、视频内容的搜索方法,其特征在于:在所述步骤1)与所述步骤2)之间还包括以下步骤:
存储步骤,存储音频指纹、所述音频指纹索引及其对应的音频文件,存储视频指纹、所述视频指纹索引及其对应的视频文件。
CN200810042857A 2008-09-12 2008-09-12 音频、视频内容的搜索方法 Expired - Fee Related CN101673266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810042857A CN101673266B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810042857A CN101673266B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Publications (2)

Publication Number Publication Date
CN101673266A CN101673266A (zh) 2010-03-17
CN101673266B true CN101673266B (zh) 2012-09-05

Family

ID=42020495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810042857A Expired - Fee Related CN101673266B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Country Status (1)

Country Link
CN (1) CN101673266B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807208B (zh) * 2010-03-26 2015-05-20 上海全土豆网络科技有限公司 视频指纹快速检索方法
CN102622353B (zh) * 2011-01-27 2013-10-16 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
CN103180847B (zh) * 2011-10-19 2016-03-02 华为技术有限公司 音乐查询方法和装置
CN103179430A (zh) * 2011-12-20 2013-06-26 中国电信股份有限公司 基于云计算的音视频内容转码方法、装置和服务器
CN103294696B (zh) * 2012-02-27 2018-01-19 上海果壳电子有限公司 音视频内容检索方法及系统
CN103970868A (zh) * 2014-05-09 2014-08-06 清华大学深圳研究生院 含幻灯片的教学视频的索引建立方法及幻灯片定位方法
CN104881486A (zh) * 2015-06-05 2015-09-02 腾讯科技(北京)有限公司 一种信息查询方法、终端设备及系统
KR102560635B1 (ko) * 2015-12-28 2023-07-28 삼성전자주식회사 컨텐트 인식 장치 및 그 동작 방법
CN110309324B (zh) * 2018-03-09 2024-03-22 北京搜狗科技发展有限公司 一种搜索方法及相关装置
CN111008301B (zh) * 2019-12-19 2023-08-15 新华智云科技有限公司 一种以图搜视频的方法
CN111382124A (zh) * 2020-03-13 2020-07-07 维沃移动通信有限公司 一种文件管理方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996307A (zh) * 2000-07-31 2007-07-11 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
CN1998168A (zh) * 2004-02-19 2007-07-11 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints

Also Published As

Publication number Publication date
CN101673266A (zh) 2010-03-17

Similar Documents

Publication Publication Date Title
CN101673266B (zh) 音频、视频内容的搜索方法
US8285713B2 (en) Image search using face detection
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102542061B (zh) 一种产品的智能分类方法
CN102682024B (zh) 未残缺jpeg文件碎片重组的方法
CN102511048A (zh) 一种用于预处理包括文本的视频区域的方法及系统
CN102411578A (zh) 一种多媒体播放系统和方法
CN101673263B (zh) 视频内容的搜索方法
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN101673262B (zh) 音频内容的搜索方法
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN101673267B (zh) 音频、视频内容的搜索方法
CN111859070A (zh) 一种海量互联网新闻清洗系统
WO2015062377A1 (zh) 一种相似文本检测装置、方法以及应用
CN102457817A (zh) 一种手机报中新闻内容的抽取方法及系统
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
CN107315799A (zh) 一种互联网重复信息筛选方法及系统
WO2015024429A1 (zh) 获取网页中影视主体的方法及装置
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
CN109472020A (zh) 一种特征对齐中文分词方法
CN107291952B (zh) 一种提取有意义串的方法及装置
CN100336061C (zh) 多媒体对象检索设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TRANSMISSION LINE NETWORK TECHNOLOGY (SHANGHAI) CO

Free format text: FORMER OWNER: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140411

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200003 HUANGPU, SHANGHAI TO: 200241 MINHANG, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140411

Address after: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee after: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Address before: 200003 gate 1305, 6 South Suzhou Road, Shanghai

Patentee before: Weixu Network Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20171227

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co., Ltd.

Address before: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee before: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200709

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20200912