CN100585592C - 一种音频片断之间相似度度量的方法 - Google Patents

一种音频片断之间相似度度量的方法 Download PDF

Info

Publication number
CN100585592C
CN100585592C CN200610080669A CN200610080669A CN100585592C CN 100585592 C CN100585592 C CN 100585592C CN 200610080669 A CN200610080669 A CN 200610080669A CN 200610080669 A CN200610080669 A CN 200610080669A CN 100585592 C CN100585592 C CN 100585592C
Authority
CN
China
Prior art keywords
audio
frequency fragments
frequency
similarity
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610080669A
Other languages
English (en)
Other versions
CN101079044A (zh
Inventor
彭宇新
房翠华
陈晓鸥
吴於茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Peking University Founder Research and Development Center
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN200610080669A priority Critical patent/CN100585592C/zh
Publication of CN101079044A publication Critical patent/CN101079044A/zh
Application granted granted Critical
Publication of CN100585592C publication Critical patent/CN100585592C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频片断之间相似度度量的方法。现有技术中,没有考虑音频片断中具体内容的差别而采用音频特征表示整个音频片断,因此不能有效度量音频内容的相似度。针对上述问题,本发明把音频片断度量分为两个层次:音频单元和音频片断。在音频单元阶段,本发明定义音频单元是一系列音质相似的音频帧,首先把音频片断分割为一个个音频单元,然后度量两个音频片断中音频单元的相似度;在音频片断阶段,基于音频单元的度量结果,把两个音频片断的相似度度量建模为一个带权二分图,最后使用最优匹配度量两个音频片断的相似度。试验结果表明,与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。

Description

一种音频片断之间相似度度量的方法
技术领域
本发明属于音频检索技术领域,具体涉及一种音频片断之间相似度度量的方法。
背景技术
随着多媒体资料及应用的不断增多,音频分析及检索技术变得越来越重要,而音频片断检索是上述技术的一种重要形式,即用户给定一个音频片断,怎样自动从音频库里检索到相似的音频片断,并按照相似度从高到低排序。现有的音频检索技术,一般是从音频片断中提取出音频特征,然后利用这些特征进行相似度度量,根据度量结果进行检索。这种方法因为没有考虑音频片断中具体内容的差别,而采用音频特征表示整个音频片断,因此不能有效度量音频内容的相似度。
2004年在Pacific-Rim Conference on Multimedia发表的文献“DominantFeature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,页码是890-897),提出了一种基于音频特征矩阵的特征向量和特征值的音频特征:主特征向量(Dominant Feature Vectors)。该文献提取出音频片段的帧特征定义成一个特征帧矩阵,然后计算这个矩阵的自相关矩阵,最后计算自相关矩阵的特征向量和特征值作为音频片段特征。该方法是基于整个音频片段的统计特征,因此无法描述音频片断中的内容变化特性,从而限制了音频检索的准确度。
发明内容
针对现有技术的不足,本发明提出一种音频片断相似度度量的方法,用于度量不同音频片断之间的相似度。
为达到以上目的,本发明采用的技术方案是:一种音频片断之间相似度度量的方法,包括以下步骤:
(1)分别将待度量的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(2)计算上述两个音频片断中任意两个音频单元之间的相似度;
(3)把两个音频片断的相似度度量建模为一个带权二分图;
(4)运用最优匹配度量两个音频片断之间的相似度;
(5)采用以下公式计算两个音频片断之间的相似度:
Sim OM ( X , Y ) = Σ ω ij max ( p , q )
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目。
更进一步,运用贝叶斯信息标准(Bayesian Information Criterion,BIC),将待度量的音频片断分割为多个音质相似的音频单元。
更进一步,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distan(si,sj)/2)
Dis tan ce ( s i , s j ) = ( Σ p = 1 n ( f ip - f jp ) 2 ) 1 2
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离。
更进一步,音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示。
更进一步,音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
另外,本发明提出一种音频片断检索的方法,该方法可以更加有效地检索与查询片断相似的音频片断,并按照相似度从高到低排序,从而可以更加充分地发挥音频检索技术在信息检索中的巨大作用。
为达到以上目的,采用的技术方案是,一种音频片断检索的方法,用于从音频库中检索出与查询的音频片断相似的音频片断,包括以下步骤:
(一)将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(二)分别计算查询音频片断和音频库中音频片断中音频单元之间的相似度;
(三)A:把两个音频片断的相似度度量建模为一个带权二分图;
B:运用最优匹配度量两个音频片断之间的相似度;
C:采用以下公式计算两个音频片断之间的相似度:
Sim OM ( X , Y ) = Σ ω ij max ( p , q )
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目;
(四)按相似度从高到低,检索出与查询片断相似的音频片断。
进一步,运用贝叶斯信息标准(Bayesian Information Criterion,BIC),将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元。
进一步,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distance(si,sj)/2)
Dis tan ce ( s i , s j ) = ( Σ p = 1 n ( f ip - f jp ) 2 ) 1 2
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离;其中音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示,音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
本发明的效果在于:与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。
本发明之所以具有上述发明效果,其原因在于:针对现有技术的问题,本发明把音频片断检索分为两个层次:音频单元和音频片断。在音频单元阶段,本发明定义音频单元是一系列音质相似的音频帧,首先把音频片断分为一个个音频单元,然后度量两个音频片断中音频单元的相似度;在音频片断阶段,基于音频单元的度量结果,把两个音频片断的相似度度量建模为一个带权二分图,最后使用最优匹配度量两个音频片断的相似度。
附图说明
图1是本发明的流程示意图;
图2是本发明和现有3种方法的查全率对比示意图;
图3是本发明和现有3种方法的查准率对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如图1所示,本发明的方法具体包括以下步骤:
(1)将查询的音频片断及音频库中的音频片断分割为一个个音质相似的音频单元;
首先运用贝叶斯信息标准(Bayesian Information Criterion,BIC),把音频片断分割为一个个音质相似的音频单元。关于贝叶斯信息标准的详细描述,可以参考文献“Efficient Audio Segmentation Algorithms based on the BIC”[M.Cettolo and M.Vescovi,IEEE International Conference on Acoustics,Speech andSignal Processing,2003]。
(2)分别计算查询音频片断和音频库中音频片断中音频单元之间的相似度;
音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量,而音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示。然后使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distan(si,sj)/2)
Dis tan ce ( s i , s j ) = ( Σ p = 1 n ( f ip - f jp ) 2 ) 1 2
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离。
(3)分别度量上述查询片断和音频库中音频片断之间的相似度;
a:把两个音频片断的相似度度量建模为一个带权二分图;
b:运用最优匹配度量两个音频片断之间的相似度;
c:采用以下公式计算两个音频片断之间的相似度:
Sim OM ( X , Y ) = Σ ω ij max ( p , q )
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q表示两个音频片断X和Y的音频单元数目。
(4)按相似度从高到低,检索出与查询片断相似的音频片断。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。
本实施例中建立了1000个音频片断的数据库,包括了许多类型的声音片断,例如动物声、人声、车辆声、机器声、音乐声、枪炮声等。在这1000个音频片断中,有500个片断有一个或多个相似的片断,而另外500个片断仅仅出现了一次。因此,有一个或多个相似片断的500个音频片断,被使用作为查询片断,以便验证相似音频片断检索的正确性。
为了证明本发明的有效性,我们测试了以下4种方法作为实验对比:
1、本发明;
2、现有方法1:2004年在Pacific-Rim Conference on Multimedia发表的文献“Dominant Feature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,页码890-897);
3、现有方法2:L2距离;
4、现有方法3:2000年在IEEE International Conference on Multimedia andExpo发表的文献“Content-based Indexing and Retrieval-by-Example in Audio”(作者是Z.Liu and Q.Huang)。
上述4种方法,音频帧特征都采用了对数能量和梅尔倒频谱系数组成的13维特征向量,因此,最后的实验结果能够证明本发明的优越性。这4种方法的主要区别如表1所示:
表1:本发明与现有方法的主要区别
  本发明   现有方法1   现有方法2   现有方法3
  片断表示   音频单元特征   主特征   音频帧特征   音频帧特征
  相似度度量   音频单元度量和音频片断度量   音频片断度量   音频片断度量   音频片断度量
  度量方法   最优匹配   主特征向量   K-L距离   L<sub>2</sub>距离
实验采用了两种在MPEG-7标准化活动中的评价指标:平均归一化调整后的检索秩ANMRR(Average Normalized Modified Retrieval Rank)和平均查全率AR(Average Recall)。AR类似于传统的查全率(Recall),而ANMRR与传统的查准率(Precision)相比,不仅能够反映出正确的检索结果比例,而且能够反映出正确结果的排列序号。ANMRR值越小,意味着检索得到的正确片断的排名越靠前;AR值越大,意味着在前K(K是检索结果的截断值)个检索结果中相似片断占所有相似片断的比例越大。所以,AR越大,说明片断检索的查全率越好;ANMRR越小,说明片断检索的准确性越高。表2是上述4种方法对500个音频片断检索的AR和ANMRR比较。
表2本发明与现有方法的对比实验结果
  本发明  现有方法1  现有方法2  现有方法3
  AR   0.72  0.66  0.67  0.66
  ANMRR   0.26   0.33   0.32   0.33
从表2可以看出,本发明无论是AR,还是ANMRR,都取得了比现有方法更好的效果,这主要是因为:(1)本发明提出把音频片断的相似度建立在音频单元的相似度之上,而音频单元是一系列音质相似的音频帧,这保证了音频片断相似度度量的有效性;(2)本发明提出使用最优匹配度量音频片断的相似度,最优匹配具有一对一匹配的机制,这保证了音频片断度量的有效性。
为了进一步确认本发明的有效性,除了AR与ANMRR,我们采用了另外一组评价指标:查全率和查准率,它们的定义如下:
查全率=检索到的相关片断数目/所有相关片断的数目
查准率=检索到的相关片断数目/检索到的所有片断数目
结果如图2和图3所示,本发明无论是查全率,还是查准率,都取得了比现有方法更好的效果。因此,上述两类评价指标:AR与ANMRR,查全率和查准率,已经全面证明了本发明在音频片断检索中的出色效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1、一种度量两个音频片断之间相似度的方法,其特征在于,包括以下步骤:
(1)分别将待度量的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(2)计算上述两个音频片断中任意两个音频单元之间的相似度;
(3)把两个音频片断的相似度度量建模为一个带权二分图;
(4)运用最优匹配度量两个音频片断之间的相似度;
(5)采用以下公式计算两个音频片断之间的相似度:
Sim OM ( X , Y ) = &Sigma; &omega; ij max ( p , q )
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目。
2、如权利要求1所述的一种音频片断之间相似度度量的方法,其特征在于:步骤(1)中,运用贝叶斯信息标准,将待度量的音频片断分割为多个音质相似的音频单元。
3、如权利要求1所述的一种音频片断之间相似度度量的方法,其特征在于:步骤(2)中,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distance(si,sj)/2)
Dis tan ce ( s i , s j ) = ( &Sigma; p = 1 n ( f ip - f jp ) 2 ) 1 2
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离。
4、如权利要求3所述的一种音频片断之间相似度度量的方法,其特征在于:步骤(2)中,音频单元的特征向量,是采用该音频单元中所有音频帧的特征向量的平均值表示。
5、如权利要求4所述的一种音频片断之间相似度度量的方法,其特征在于:步骤(2)中,音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
6、一种音频片断检索的方法,用于从音频库中检索出与查询的音频片断相似的音频片断,其特征在于,包括以下步骤:
(一)将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(二)分别计算查询音频片断和音频库中音频片断中任意两个音频单元之间的相似度;
(三)A:把两个音频片断的相似度度量建模为一个带权二分图;
B:运用最优匹配度量两个音频片断之间的相似度;
C:采用以下公式计算两个音频片断之间的相似度:
Sim OM ( X , Y ) = &Sigma; &omega; ij max ( p , q )
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目;
(四)按相似度从高到低,检索出与查询音频片断相似的音频片断。
7、如权利要求6所述的一种音频片断检索的方法,其特征在于:步骤(一)中,运用贝叶斯信息标准,将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元。
8、如权利要求6所述的音频片断检索方法,其特征在于:步骤(二)中,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distancece(si,sj)/2)
Dis tan ce ( s i , s j ) = ( &Sigma; p = 1 n ( f ip - f jp ) 2 ) 1 2
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离;音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示;音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
CN200610080669A 2006-05-25 2006-05-25 一种音频片断之间相似度度量的方法 Expired - Fee Related CN100585592C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610080669A CN100585592C (zh) 2006-05-25 2006-05-25 一种音频片断之间相似度度量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610080669A CN100585592C (zh) 2006-05-25 2006-05-25 一种音频片断之间相似度度量的方法

Publications (2)

Publication Number Publication Date
CN101079044A CN101079044A (zh) 2007-11-28
CN100585592C true CN100585592C (zh) 2010-01-27

Family

ID=38906523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610080669A Expired - Fee Related CN100585592C (zh) 2006-05-25 2006-05-25 一种音频片断之间相似度度量的方法

Country Status (1)

Country Link
CN (1) CN100585592C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221760B (zh) * 2008-01-30 2010-12-22 中国科学院计算技术研究所 一种音频匹配方法及系统
CN101593517B (zh) * 2009-06-29 2011-08-17 北京市博汇科技有限公司 一种音频比对系统及其音频能量比对方法
CN101980197B (zh) * 2010-10-29 2012-10-31 北京邮电大学 一种基于长时结构声纹的多层滤波音频检索方法和装置
CN102469350A (zh) * 2010-11-16 2012-05-23 北大方正集团有限公司 广告统计的方法、装置和系统
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
CN105355214A (zh) 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
CN104184741A (zh) * 2014-09-05 2014-12-03 重庆市汇链信息科技有限公司 音频视频海量数据在分发服务器中的分发方法
CN104992713B (zh) * 2015-05-14 2018-11-13 电子科技大学 一种快速广播音频比对方法
CN105657535B (zh) * 2015-12-29 2018-10-30 北京搜狗科技发展有限公司 一种音频识别方法和装置
CN107609149B (zh) * 2017-09-21 2020-06-19 北京奇艺世纪科技有限公司 一种视频定位方法和装置
CN108091346A (zh) * 2017-12-15 2018-05-29 奕响(大连)科技有限公司 一种局部傅里叶变换的音频相似判断方法
CN108039178A (zh) * 2017-12-15 2018-05-15 奕响(大连)科技有限公司 一种傅里叶变换时域与频域的音频相似判断方法
CN111400543B (zh) * 2020-03-20 2023-10-10 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、设备及存储介质
CN116884437B (zh) * 2023-09-07 2023-11-17 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
一种基于二分图最优匹配的镜头检索方法. 彭宇新,Ngo,Chong-Wah,肖建国.电子学报,第Vol.32卷第No.7期. 2004
一种基于二分图最优匹配的镜头检索方法. 彭宇新,Ngo,Chong-Wah,肖建国.电子学报,第Vol.32卷第No.7期. 2004 *
一种改进的基于说话者的语音分割算法. 卢坚,毛兵,孙正兴,张福炎.软件学报,第Vol.13卷第No.2期. 2002
一种改进的基于说话者的语音分割算法. 卢坚,毛兵,孙正兴,张福炎.软件学报,第Vol.13卷第No.2期. 2002 *
基于距离相关图的音频相似性度量方法. 李超,熊璋,朱成军.北京航空航天大学学报,第Vol.32卷第Nol.2期. 2006
基于距离相关图的音频相似性度量方法. 李超,熊璋,朱成军.北京航空航天大学学报,第Vol.32卷第Nol.2期. 2006 *
音频信息检索的研究及实现. 宋博,须德.计算机应用,第Vol.23卷第No.12期. 2003
音频信息检索的研究及实现. 宋博,须德.计算机应用,第Vol.23卷第No.12期. 2003 *

Also Published As

Publication number Publication date
CN101079044A (zh) 2007-11-28

Similar Documents

Publication Publication Date Title
CN100585592C (zh) 一种音频片断之间相似度度量的方法
Mamou et al. System combination and score normalization for spoken term detection
US7542966B2 (en) Method and system for retrieving documents with spoken queries
CN101510222B (zh) 一种多层索引语音文档检索方法
CN101833986B (zh) 一种三级音频索引的创建方法及音频检索方法
CN107402965B (zh) 一种音频检索方法
CN103116588A (zh) 一种个性化推荐方法及系统
Mantena et al. Speed improvements to information retrieval-based dynamic time warping using hierarchical k-means clustering
CN102436806A (zh) 一种基于相似度的音频拷贝检测的方法
CN101464896A (zh) 语音模糊检索方法及装置
CN104199965A (zh) 一种语义信息检索方法
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN108197319A (zh) 一种基于时频局部能量的特征点的音频检索方法和系统
CN101980197B (zh) 一种基于长时结构声纹的多层滤波音频检索方法和装置
Shum et al. Large-scale community detection on speaker content graphs
Ng Information fusion for spoken document retrieval
Banuroopa et al. MFCC based hybrid fingerprinting method for audio classification through LSTM
CN1174374C (zh) 并发进行语音识别、说话者分段和分类的方法
Cha An effective and efficient indexing scheme for audio fingerprinting
Mechtley et al. Combining semantic, social, and acoustic similarity for retrieval of environmental sounds
He et al. Latent class model with application to speaker diarization
Hoashi et al. Implementation of relevance feedback for content-based music retrieval based on user prefences
Zhou et al. Research on matching method in humming retrieval
KR101363335B1 (ko) 문서 분류모델 생성장치 및 방법
Li A classification method for environmental audio data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100127