CN101673267A - 音频、视频内容的搜索方法 - Google Patents

音频、视频内容的搜索方法 Download PDF

Info

Publication number
CN101673267A
CN101673267A CN200810042858A CN200810042858A CN101673267A CN 101673267 A CN101673267 A CN 101673267A CN 200810042858 A CN200810042858 A CN 200810042858A CN 200810042858 A CN200810042858 A CN 200810042858A CN 101673267 A CN101673267 A CN 101673267A
Authority
CN
China
Prior art keywords
audio
video
module
finger print
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810042858A
Other languages
English (en)
Other versions
CN101673267B (zh
Inventor
连惠城
程建章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN2008100428589A priority Critical patent/CN101673267B/zh
Publication of CN101673267A publication Critical patent/CN101673267A/zh
Application granted granted Critical
Publication of CN101673267B publication Critical patent/CN101673267B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种音频、视频内容的搜索装置,包括:判断模块,用于判断当前流媒体文件是否包括音频文件和视频文件;音频指纹提取模块,与所述判断模块相连接,音频指纹分词模块,与所述音频指纹提取模块相连接;音频索引生成模块,与所述音频指纹分词模块相连接;视频指纹提取模块,与所述判断模块相连接;视频指纹分词模块,与所述视频指纹提取模块相连接;视频索引生成模块,与所述视频指纹分词模块相连接;搜索模块。本发明通过采用文本搜索引擎中的分词技术,在音视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对音视频指纹进行索引处理,搜索引擎可以对用户输入的音视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。

Description

音频、视频内容的搜索方法
技术领域
本发明涉及音频、视频内容的搜索方法。
背景技术
随着互联网的发展,搜索引擎成为人们上网必不可少的工具之一。传统的搜索引擎都是基于文本搜索(Text Search),称为是文本搜索引擎。其原理是:搜索引擎服务器收集大量的网页;并根据已有的规则提取网页中的文本并做分词(Word Segmentation)处理,常见的分词方法,例如:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;文本搜索引擎利用文本词库做索引表用于快速搜索。用户在进行搜索的时候,将文本输入到服务器,服务器对该文本进行分词处理后,根据索引表进行快速的搜索,然后返回结果。
目前,搜索引擎都是基于文本的,即使是一些搜索图片或视频的搜索引擎也是通过图片或视频节目的名称、说明、介绍、标签等文本信息进行搜索的。搜索引擎还没有直接通过音视频的信号内容进行搜索的。这里,我们所说的音视频是指音频文件或者视频文件。通常视频文件包含音频信号流和视频信号流。
音频指纹(audio fingerprinting)在很早以前就被提出来,例如,Jaap Haitsma和TonKalke在2002年音乐搜索进展国际会议(Proceedings of International Conference on MusicInformation Retrieval)上发表了“一种高可靠性的音频指纹系统”(A Highly Robust AudioFingerprinting System)。这种系统通过信号处理的方法,将音频文件中每隔一段时间(例如11.6ms)的音频信号,转化为一个32比特(bit)大小的指纹(fingerprint),通过这种方法一个音频文件就可以被转换成一个指纹文件。系统在对所有的音频指纹文件做索引表后,就可以进行快速的音频指纹检索了。
和音频指纹系统原理相似地,视频指纹(video fingerprinting)系统将每一帧(frame)或者几帧转化为很小的指纹(例如32比特大小),然后进行检索。例如国际专利号为WO2007/127590A2的“基于多分辨率,多帧率和时域信号的数字视频指纹处理方法和系统”(Method and system for fingerprinting digital video object based on multiresolution,multirate and temporal signatures)公开了一种将视频信号的每帧转化为84比特或132比特的视频指纹处理方法。通过这种方法一个视频文件就可以被转换成一个很小的指纹文件。
在音频指纹或视频文件数目较少(例如1万个)的情况下,可以将所有的指纹文件存入到计算机内存中,进行索引后,可方便地进行快速的检索。上述“一种高可靠性的音频指纹系统”即给出了这种方法的详细步骤。然而,在实际情况下,视频文件的数目要远远超过一万的数目。例如,目前在互联网上出现的视频文件数目超过一千万数目,而且数量在不断增长。因此采用这种方法很难做出实用的搜索引擎。
发明内容
为了解决上述技术问题,本发明提供一种音频、视频内容的搜索方法。
本发明采用如下技术方案:
一种音频、视频内容的搜索装置,包括:
判断模块,用于判断当前流媒体文件是否包括音频文件和视频文件;
音频指纹提取模块,与所述判断模块相连接,用于提取多个音频文件的音频指纹;
音频指纹分词模块,与所述音频指纹提取模块相连接,用于对提取的音频指纹进行分词;
音频索引生成模块,与所述音频指纹分词模块相连接,用于根据分词结果生成音频指纹索引;
视频指纹提取模块,与所述判断模块相连接,用于提取多个视频文件的视频指纹;
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词;
视频索引生成模块,与所述视频指纹分词模块相连接,用于根据据分词结果生成视频指纹索引;
搜索模块,与所述音频索引生成模块和视频索引生成模块相连接,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。
进一步地,所述搜索模块包括:
输入判断模块,用于判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件:
如果包括音频文件或音频片段,则通过所述音频指纹提取模块提取其音频指纹,并通过音频指纹分词模块对该音频指纹进行分词,根据分词结果在该音频指纹索引中搜索匹配的音频文件;
如果包括视频文件或视频片段,则通过所述视频指纹提取模块提取其视频指纹,并通过视频指纹分词模块对该视频指纹进行分词,根据分词结果在该视频指纹索引中搜索匹配的视频文件。
进一步地,还包括存储模块,所述搜索模块通过所述存储模块与所述音频索引生成模块和视频索引生成模块相连接,所述音频索引生成模块和视频索引生成模块相连接,用于存储音频指纹、所述音频指纹索引及其对应的音频文件,并存储视频指纹、所述视频指纹索引及其对应的视频文件。
本发明通过采用文本搜索引擎中的分词技术,在音视频指纹文件上进行分词处理,然后采用文本搜索领域中的索引技术对音视频指纹进行索引处理,索引处理完成后,搜索引擎可以对用户输入的音视频片段进行搜索。不但方便了用户的搜索,而且提高了搜索的效率。
附图说明
图1为本发明音频、视频指纹搜索装置实施例结构示意图。
具体实施方式
如图1所示,一种音频、视频内容的搜索装置,包括:
判断模块,用于判断当前流媒体文件是否包括音频文件和视频文件;
音频指纹提取模块,与所述判断模块相连接,用于提取多个音频文件的音频指纹;
音频指纹分词模块,与所述音频指纹提取模块相连接,用于对提取的音频指纹进行分词;
音频索引生成模块,与所述音频指纹分词模块相连接,用于根据分词结果生成音频指纹索引;
视频指纹提取模块,与所述判断模块相连接,用于提取多个视频文件的视频指纹;
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词;
视频索引生成模块,与所述视频指纹分词模块相连接,用于根据据分词结果生成视频指纹索引;
搜索模块,与所述音频索引生成模块和视频索引生成模块相连接,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。
进一步地,所述搜索模块包括:
输入判断模块,用于判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件:
如果包括音频文件或音频片段,则通过所述音频指纹提取模块提取其音频指纹,并通过音频指纹分词模块对该音频指纹进行分词,根据分词结果在该音频指纹索引中搜索匹配的音频文件;
如果包括视频文件或视频片段,则通过所述视频指纹提取模块提取其视频指纹,并通过视频指纹分词模块对该视频指纹进行分词,根据分词结果在该视频指纹索引中搜索匹配的视频文件。
进一步地,还包括:
存储模块,所述搜索模块通过所述存储模块与所述音频索引生成模块和视频索引生成模块相连接,用于存储音频指纹、所述音频指纹索引及其对应的音频文件,并存储视频指纹、所述视频指纹索引及其对应的视频文件。
上述实施例中的分词方式可采用多种方式实现,以下列举几种方式分别说明。
方式一
采用基于统计的中文分词方法对音频指纹进行分词处理。首先将15000个音频文件按上述Jaap Haitsma和Ton Kalke的方法生成宽度固定的指纹文件,其宽度可以是32比特或16比特,得到的每个指纹文件平均由约10000个宽度固定的指纹组成。每个32比特或16比特的数据被看作是中文中的一个字。所有15000个包含“字”的指纹文件被当作是15000篇“文章”,而这些“文章”则作为中文分词的语料进行分词。在统计过程中,对音频语料中相邻共现的每个“字”的组合的频度进行统计。共现频度高的组合被认为是一个词,称为“指纹词”。例如,频度较高的7个连续的二进制“00000000000000000000000000000000”的指纹的组合,和5个连续的二进制“11111111111111111111111111111111”的指纹的组合被统计是频度较高的指纹组合,他们被作为“指纹词”。
方式二
采用指纹宽度为16比特的音频指纹提取方法。具体是将方式一中宽度为32比特的指纹进行间隔采样得到16比特的指纹。然后采用与方式一相同的基于统计的中文分词方法进行音频指纹的分词处理。
方式三
采用Job Oostven等人在2002年发表在第五次视频信息系统进展国际会议(Proceeding of the5th International Conference on Recent Advances in Visual Information Systems.)上发表的视频指纹的特征提取和一种数据库策略(Feature Extraction and a Databasestrategy for video fingerprinting.)的方法进行视频指纹提取。然后将32比特的指纹经过间隔采样后,得到16比特的视频指纹文件。最后采用与方式一相同的基于统计的中文分词方法进行视频指纹的分词处理。

Claims (3)

1、一种音频、视频内容的搜索装置,其特征在于包括:
判断模块,用于判断当前流媒体文件是否包括音频文件和视频文件;
音频指纹提取模块,与所述判断模块相连接,用于提取多个音频文件的音频指纹;
音频指纹分词模块,与所述音频指纹提取模块相连接,用于对提取的音频指纹进行分词;
音频索引生成模块,与所述音频指纹分词模块相连接,用于根据分词结果生成音频指纹索引;
视频指纹提取模块,与所述判断模块相连接,用于提取多个视频文件的视频指纹;
视频指纹分词模块,与所述视频指纹提取模块相连接,用于对提取的视频指纹进行分词;
视频索引生成模块,与所述视频指纹分词模块相连接,用于根据据分词结果生成视频指纹索引;
搜索模块,与所述音频索引生成模块和视频索引生成模块相连接,利用所述音频指纹索引搜索匹配的音频文件,利用所述视频指纹索引搜索匹配的视频文件。
2、根据权利要求1所述的音频、视频内容的搜索装置,其特征在于:所述搜索模块包括:
输入判断模块,用于判断输入的需要检索的流媒体文件或流媒体文件片段,是否包括音频文件和视频文件:
如果包括音频文件或音频片段,则通过所述音频指纹提取模块提取其音频指纹,并通过音频指纹分词模块对该音频指纹进行分词,根据分词结果在该音频指纹索引中搜索匹配的音频文件;
如果包括视频文件或视频片段,则通过所述视频指纹提取模块提取其视频指纹,并通过视频指纹分词模块对该视频指纹进行分词,根据分词结果在该视频指纹索引中搜索匹配的视频文件。
3、根据权利要求1或2所述的音频、视频内容的搜索装置,其特征在于还包括:
存储模块,所述搜索模块通过所述存储模块与所述音频索引生成模块和视频索引生成模块相连接,所述音频索引生成模块和视频索引生成模块相连接,用于存储音频指纹、所述音频指纹索引及其对应的音频文件,并存储视频指纹、所述视频指纹索引及其对应的视频文件。
CN2008100428589A 2008-09-12 2008-09-12 音频、视频内容的搜索方法 Expired - Fee Related CN101673267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100428589A CN101673267B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100428589A CN101673267B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Publications (2)

Publication Number Publication Date
CN101673267A true CN101673267A (zh) 2010-03-17
CN101673267B CN101673267B (zh) 2012-11-07

Family

ID=42020496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100428589A Expired - Fee Related CN101673267B (zh) 2008-09-12 2008-09-12 音频、视频内容的搜索方法

Country Status (1)

Country Link
CN (1) CN101673267B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CN109710801A (zh) * 2018-12-03 2019-05-03 珠海格力电器股份有限公司 一种视频搜索方法、终端设备及计算机存储介质
CN111324768A (zh) * 2020-02-12 2020-06-23 新华智云科技有限公司 一种视频搜索系统和方法
CN111402935A (zh) * 2019-01-03 2020-07-10 李庆成 音视图数据的播放方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100538701C (zh) * 2000-07-31 2009-09-09 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
US7986913B2 (en) * 2004-02-19 2011-07-26 Landmark Digital Services, Llc Method and apparatus for identificaton of broadcast source

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CN109710801A (zh) * 2018-12-03 2019-05-03 珠海格力电器股份有限公司 一种视频搜索方法、终端设备及计算机存储介质
CN111402935A (zh) * 2019-01-03 2020-07-10 李庆成 音视图数据的播放方法
CN111324768A (zh) * 2020-02-12 2020-06-23 新华智云科技有限公司 一种视频搜索系统和方法
CN111324768B (zh) * 2020-02-12 2023-07-28 新华智云科技有限公司 一种视频搜索系统和方法

Also Published As

Publication number Publication date
CN101673267B (zh) 2012-11-07

Similar Documents

Publication Publication Date Title
CN101673266B (zh) 音频、视频内容的搜索方法
CN109684513B (zh) 一种低质量视频识别方法及装置
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102511048A (zh) 一种用于预处理包括文本的视频区域的方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN101673262B (zh) 音频内容的搜索方法
CN102262625A (zh) 网页关键词提取方法及装置
CN103761261A (zh) 一种基于语音识别的媒体搜索方法及装置
CN101673263B (zh) 视频内容的搜索方法
CN102411578A (zh) 一种多媒体播放系统和方法
CN103577478A (zh) 网页推送方法及系统
CN101673267B (zh) 音频、视频内容的搜索方法
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
KR20120090101A (ko) 디지털 비디오 고속 정합 시스템
WO2015024429A1 (zh) 获取网页中影视主体的方法及装置
CN105574004B (zh) 一种网页去重方法和设备
CN109740147A (zh) 一种大数量人才简历去重匹配分析方法
CN103294696A (zh) 音视频内容检索方法及系统
CN107291952B (zh) 一种提取有意义串的方法及装置
CN101673265B (zh) 视频内容的搜索装置
CN101673264B (zh) 音频内容的搜索装置
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN102929862B (zh) 一种新词获取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TRANSMISSION LINE NETWORK TECHNOLOGY (SHANGHAI) CO

Free format text: FORMER OWNER: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140409

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200003 HUANGPU, SHANGHAI TO: 200241 MINHANG, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140409

Address after: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee after: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Address before: 200003 gate 1305, 6 South Suzhou Road, Shanghai

Patentee before: Weixu Network Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20180110

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co., Ltd.

Address before: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee before: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200709

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20200912