CN100424692C - 音频快速搜索方法 - Google Patents

音频快速搜索方法 Download PDF

Info

Publication number
CN100424692C
CN100424692C CNB2005100863153A CN200510086315A CN100424692C CN 100424692 C CN100424692 C CN 100424692C CN B2005100863153 A CNB2005100863153 A CN B2005100863153A CN 200510086315 A CN200510086315 A CN 200510086315A CN 100424692 C CN100424692 C CN 100424692C
Authority
CN
China
Prior art keywords
audio
histogram
similarity
target audio
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100863153A
Other languages
English (en)
Other versions
CN1924850A (zh
Inventor
梁伟
张树武
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CNB2005100863153A priority Critical patent/CN100424692C/zh
Publication of CN1924850A publication Critical patent/CN1924850A/zh
Application granted granted Critical
Publication of CN100424692C publication Critical patent/CN100424692C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

快速音频搜索方法提出了基于时-频域频谱描述的快速音频搜索方法。该方法的基本特征是利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,最基本特征,一是选择合适的子带,使得该频带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整VQ量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法。子带能量信号作归一化后,避免了常规方法中因背景噪声干扰等畸变造成的检出错误和漏检,而且计算量很小;四是提出了建立音频搜索算法的性能评价标准,并设计分析了检索结果的客观评价参数。

Description

音频快速搜索方法
技术领域
本发明涉及多媒体音频检索系统技术领域。更确切的说,一种音频快速搜索方法。
背景技术
目前,信息产业正得到前所未有的发展。各种信息媒体也得到了迅猛的发展,比如电视,广播,网络,无线通讯等。这些信息媒体中每天都充斥着大量的信息。如何对这些信息进行有效的管理和监控以保证国家的信息安全正逐步得到国家的重视。基于音频时频域处理技术的敏感音频监控系统就是为了满足信息安全领域敏感音频的监控要求的。
发明内容
本发明提出了一种鲁棒的音频快速搜索方法,该方法对于噪声等畸变具有强鲁棒性。本发明最基本的特征是针对频谱的时频域处理技术。通过对频谱的归一化处理,使得特征向量具有很强的鲁棒性和区分性。基于处理后的频谱,建立子带能量比直方图,利用直方图交叠的匹配方法对目标音频的疑似位置进行快速预估;
一种音频快速搜索方法,快速音频搜索方法提出了基于时-频域频谱描述的快速音频搜索方法。该方法的基本特征是利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,从而具有很高的搜索速度;该方法的最基本特征,一是选择合适的子带,使得该子带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整向量量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法。子带能量信号作归一化后,避免了常规方法中因背景噪声干扰等畸变造成的检出错误和漏检,而且计算量很小;四是建立音频搜索算法的性能评价标准,并设计分析检索结果的客观评价参数。实验证明,本发明提出的算法不仅在平稳背景噪声下可取得很好的检索精度和搜索速度,对非平稳噪声也具有很好的鲁棒性。
音频快速搜索方法,该方法能够从海量的被测试音频流中对所关心的目标音频片段进行快速定位,流程图如图1所示,其步骤为:
1)首先对目标音频片断和被测试音频流进行特征提取;音频的特征提取首先利用带通滤波器对音频进行滤波,基于滤波后各个通带的信号分别计算子带能量,子带能量的计算以256点为一帧,帧移128点;频率子带平均分布在log频率上;
2)以1)所计算的子带能量为基础,计算目标音频片断和被测试音频流的子带能量比,以子带能量比作为基本特征向量;
3)为了提高特征对于噪声的鲁棒性,需要对2)所计算的特征向量进行量化处理,每维量化边界的选择以目标音频各维特征在每个包腔bin中具有相等的特征数为准则,对量化后的特征向量建立直方图模型,并记录各维的量化边界;根据目标音频的量化边界对被测试音频流的特征向量进行向量量化;
4)目标音频的直方图沿着被测试音频流特征进行滑动,并建立被测试音频流当前位置的直方图,将目标音频的直方图和被测试音频流的直方图相匹配,得到相似度;如果相似度大于一定的门限,则认为找到目标音频的位置,否则根据当前相似度的估计跳跃到下一个可能位置进行下一次匹配。
本发明主要包括三个模块:一特征提取,二直方图的建立,三相似度度量下面分别加以详细说明。
特征提取。本方法采用子带能量比作为基本特征,子带能量比是对各个时刻所对应的各个子带能量的分布趋势的描述,为了提高特征的鲁棒性,需要对子带能量比进行向量量化处理,量化边界的选择以目标音频各维特征在每个包腔bin中具有相等的特征个数为准则,量化边界以及量化后的特征向量存放于文件中,
可以表示为:
Feature(n)=(f(n),g(n))               (5)
f(n)=(f1(n),f2(n),f3(n),..,fM(n)) (6)
g(n)=(g1(n),g2(n),g3(n),...,gM(n))(7)
式中,n表示时间,M表示特征向量的频带个数
fi(n)=α(n)×Ei(n)              (8)
gi(n)=β(n)×ECRi(n)            (9)
ECRi(n)=(Ei(n)-Ei(n-1))/Ei(n-1) (10)
式中,Ei(n)表示第n帧所对应的第i个带通滤波器的输出帧能量;由于短时能量对高电平比较敏感,所以采用短时平均幅度来度量音频信号的幅度值变化,定义为:
E i ( n ) = Σ i = nN ( n + 1 ) N | g i ( t ) | - - - ( 11 )
α(n)用来对每个特征向量进行归一化,以便消除音量的影响,定义为:
α ( n ) = 1 max ( E i ( n ) ) - - - ( 12 )
β ( n ) = 1 max i ( ECR i ( n ) ) - - - ( 13 )
式中,max表示取最大值。
为了提高特征的鲁棒性,需要对子带能量比进行向量量化。向量量化边界是根据目标音频的子带能量比的分布确定的。量化边界的选择以目标音频各维特征在每个包腔bin中具有相等的特征数为准则。
直方图的建立以及相似度度量。在完成了特征提取后,需要对各个音频片断建立模型,建立模型的方法很多,由于直方图匹配方法的计算量小,而且对于噪声具有较强的鲁棒性,所以采用直方图的匹配方法。
同时,为了增加模板的时序区分性,对时长为t的目标音频平均分为n个子窗口,针对每个子窗口分别建立直方图,用hi R表示。
距离度量采用直方图重叠的方式,比如目标音频直方图和被测试音频流中第n时刻的直方图的距离可以表示为:
S ( h R , h T ( n ) ) = 1 L Σ i = 1 L min ( h i R , h i T ( n ) ) - - - ( 1 )
式中,hR:目标音频的直方图,hi T(n):第n时刻被测试音频的直方图,L:直方图中包腔的个数。
由于直方图之间的相似度与直方图的滑动位置有着相关性,可以通过n1时刻的相似度对n2时刻的相似度上限进行预估。如果预估值低于指定的门限则可以跳过该点的匹配预算,从而降低了计算量。预估公式如下:
S up ( h i R , h i T ( n 2 ) ) = S ( h i R , h i T ( n 1 ) ) + n 2 - n 1 P i - - - ( 2 )
式中,Sup:根据n1时刻的相似度对n2时刻相似度的预估值;
于是每个子窗口的跳越步长可以利用公式表示如下:
w i = floor ( P i ( &theta; - S i ) ) + 1 if S i < &theta; , 1 otherwise , - - - ( 3 )
式中,wi表示跳跃步长,Pi表示特征个数,θ表示指定的门限,Si表示当前相似度,floor(x)表示取小于x的最大正整数;
最终的跳跃步长w可以用如下公式:
w = max i ( w i ) - - - ( 4 )
算法性能评价。本算法的性能评价是通过对电视节目中广告的出现次数进行验证的。如果目标广告的检出位置与实际播放位置相差不超过1秒,我们就认为该广告正确检出。搜索性能由两个指标组成:正确率ξ、召回率δ以及综合准确度τ。公式表示如下:
Figure C20051008631500081
Figure C20051008631500082
&tau; = 2 &times; &xi; &times; &delta; &xi; + &delta;
附图说明
图1是本发明的快速音频检索流程图。
图2是音频片断经过多通带滤波后的短时能量波形图。
图3是低通滤波后各个频带的能量波形图。
图4是归一化后的各个频带的能量波形图。
具体实施方式
图1的快速音频检索流程,该流程首先利用多通带滤波器组对测试音频和参考音频进行多通带滤波,经过处理得到特征向量;然后对参考音频建立直方图;最后利用参考音频直方图对测试音频进行搜索。搜索窗的每一次跳跃都与当前的匹配相似度有着密切的关系。
图2的音频片断经过多通带滤波后的短时能量波形图,该图是音频片断经过多通带滤波组处理后得到的子带短时能量波形。不同的颜色表示不同的频带能量波形。
图3的低通滤波后各个频带的能量波形图。该图是子带短时能量波形经过低通平滑滤波器后得到的短时能量曲线。
图4,该图是对经过低通平滑滤波器处理后的短时能量曲线进行频率轴方向上的归一化处理,最终得到的归一化短时能量曲线。
表1:检索结果
表1:实验结果比较

Claims (3)

1. 一种音频快速搜索方法,利用音频信号子带能量比作为基本特征,以直方图作为建模方法,对目标音频的出现位置进行跳跃检出,该方法的最基本特征,一是选择合适的子带,使得该子带的信号在统计意义上对于噪声信号和畸变具有最佳的鲁棒性;二是根据目标音频的频谱分布,自适应的调整向量量化边界;三是借鉴了图像识别中广泛使用的直方图匹配算法,子带能量信号作归一化后,避免了常规方法中因背景噪声干扰畸变造成的检出错误和漏检,而且计算量很小;四是建立音频搜索算法的性能评价标准,并设计分析检索结果的客观评价参数。
2. 根据权利要求1的音频快速搜索方法,其特征在于,该方法能够从海量的被测试音频流中对所关心的目标音频片段进行快速定位,其步骤为:
1)首先对目标音频片断和被测试音频流进行特征提取;音频的特征提取首先利用带通滤波器对音频进行滤波,基于滤波后各个通带的信号分别计算子带能量,子带能量的计算以256点为一帧,帧移128点;频率子带平均分布在log频率上;
2)以1)所计算的子带能量为基础,计算目标音频片断和被测试音频流的子带能量比,以子带能量比作为基本特征向量;
3)为了提高特征对于噪声的鲁棒性,需要对2)所计算的特征向量进行向量量化处理,每维量化边界的选择以目标音频各维特征在每个包腔中具有相等的特征数为准则,对量化后的特征向量建立直方图模型,并记录各维的量化边界;根据目标音频的量化边界对被测试音频流的特征向量进行向量量化;
4)目标音频的直方图沿着被测试音频流特征进行滑动,并建立被测试音频流当前位置的直方图,将目标音频的直方图和被测试音频流的直方图相匹配,得到相似度;如果相似度大于一定的门限,则认为找到目标音频的位置,否则根据当前相似度的估计跳跃到下一个可能位置进行下一次匹配。
3. 根据权利要求2所述的音频快速搜索方法,其特征在于,特征提取,直方图的建立以及相似度计算由下列步骤完成:
1)特征提取
本方法采用子带能量比作为基本特征,子带能量比是对各个时刻所对应的各个子带能量的分布趋势的描述,为了提高特征的鲁棒性,需要对子带能量比进行向量量化处理,量化边界的选择以目标音频各维特征在每个包腔中具有相等的特征个数为准则,量化边界以及量化后的特征向量存放于文件中,
2)直方图的建立和相似度度量
在完成了特征提取后,需要对各个音频片断建立模型,建立模型的方法很多,由于直方图匹配方法的计算量小,而且对于噪声具有较强的鲁棒性,所以采用直方图的匹配方法,
同时,为了增加模板的时序区分性,对时长为t的目标音频平均分为4个子窗口,针对每个子窗口分别建立直方图,用hi R表示,
距离度量采用直方图重叠的方式,目标音频直方图和被测试音频流中第n时刻的直方图的距离可以表示为:
S ( h R , h T ( n ) ) = 1 L &Sigma; i = 1 L min ( h i R , h i T ( n ) ) - - - ( 1 )
式中,hi R:目标音频直方图,hi T(n):第n时刻被测试音频的直方图,L:直方图中包腔的个数,
由于直方图之间的相似度与直方图的滑动位置有着相关性,通过n1时刻的相似度对n2时刻的相似度上限进行预估,如果预估值低于指定的门限则可以跳过该点的匹配预算,从而降低了计算量,预估公式如下:
S up ( h R , h T ( n 2 ) ) = S ( h R , h T ( n 1 ) ) + n 2 - n 1 P i - - - ( 2 )
式中,Sup:根据n1时刻的相似度对n2时刻相似度的预估值。
CNB2005100863153A 2005-08-31 2005-08-31 音频快速搜索方法 Expired - Fee Related CN100424692C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100863153A CN100424692C (zh) 2005-08-31 2005-08-31 音频快速搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100863153A CN100424692C (zh) 2005-08-31 2005-08-31 音频快速搜索方法

Publications (2)

Publication Number Publication Date
CN1924850A CN1924850A (zh) 2007-03-07
CN100424692C true CN100424692C (zh) 2008-10-08

Family

ID=37817492

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100863153A Expired - Fee Related CN100424692C (zh) 2005-08-31 2005-08-31 音频快速搜索方法

Country Status (1)

Country Link
CN (1) CN100424692C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123787B (zh) * 2011-11-21 2015-11-18 金峰 一种移动终端与媒体同步与交互的方法
CN104505101B (zh) * 2014-12-24 2017-11-03 北京巴越赤石科技有限公司 一种实时音频比对方法
CN110299134B (zh) * 2019-07-01 2021-10-26 中科软科技股份有限公司 一种音频处理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1510661A (zh) * 2002-12-23 2004-07-07 ���ǵ�����ʽ���� 使用时间频率相关编码和/或解码数字音频的方法及装置
US20050004910A1 (en) * 2003-07-02 2005-01-06 Trepess David William Information retrieval
WO2005010865A2 (en) * 2003-07-31 2005-02-03 The Registrar, Indian Institute Of Science Method of music information retrieval and classification using continuity information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1510661A (zh) * 2002-12-23 2004-07-07 ���ǵ�����ʽ���� 使用时间频率相关编码和/或解码数字音频的方法及装置
US20050004910A1 (en) * 2003-07-02 2005-01-06 Trepess David William Information retrieval
WO2005010865A2 (en) * 2003-07-31 2005-02-03 The Registrar, Indian Institute Of Science Method of music information retrieval and classification using continuity information

Also Published As

Publication number Publication date
CN1924850A (zh) 2007-03-07

Similar Documents

Publication Publication Date Title
CN102760444B (zh) 基于支撑向量机的基带时域音频信号分类方法
US20160322064A1 (en) Method and apparatus for signal extraction of audio signal
CN103646649A (zh) 一种高效的语音检测方法
KR20180063282A (ko) 음성 검측 방법, 장치 및 기억 매체
CN1655229A (zh) 检测和鉴别冲击声的设备和方法
CN102097095A (zh) 一种语音端点检测方法及装置
CN101159834A (zh) 一种重复性视频音频节目片段的检测方法和系统
CN101366078A (zh) 从单音音频信号分离音频信源的神经网络分类器
CN101995437B (zh) 一种拉深件裂纹声发射信号的特征提取方法
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
US20140282664A1 (en) Methods and apparatus to classify audio
CN101133442B (zh) 生成音频信号的印迹的方法
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN105825857A (zh) 基于声纹识别帮助失聪患者判断声音类别的方法
CN100424692C (zh) 音频快速搜索方法
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
CN101594527B (zh) 从音频视频流中高精度检测模板的两阶段方法
CN102759572B (zh) 一种产品的质量检测方法和检测装置
CN106504760A (zh) 宽频带背景噪声与语音分离检测系统及方法
CN101858939B (zh) 一种谐波信号检测方法及装置
CN113782051B (zh) 广播效果分类方法及系统、电子设备和存储介质
CN102759571B (zh) 一种产品的质量检测方法和检测装置
CN106340310A (zh) 语音检测方法及装置
CN104318931A (zh) 一种音频文件的情绪活跃度获取方法及分类方法、装置
CN116631443B (zh) 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081008

Termination date: 20180831

CF01 Termination of patent right due to non-payment of annual fee