一种音频片断之间相似度度量的方法
技术领域
本发明属于音频检索技术领域,具体涉及一种音频片断之间相似度度量的方法。
背景技术
随着多媒体资料及应用的不断增多,音频分析及检索技术变得越来越重要,而音频片断检索是上述技术的一种重要形式,即用户给定一个音频片断,怎样自动从音频库里检索到相似的音频片断,并按照相似度从高到低排序。现有的音频检索技术,一般是从音频片断中提取出音频特征,然后利用这些特征进行相似度度量,根据度量结果进行检索。这种方法因为没有考虑音频片断中具体内容的差别,而采用音频特征表示整个音频片断,因此不能有效度量音频内容的相似度。
2004年在Pacific-Rim Conference on Multimedia发表的文献“DominantFeature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,页码是890-897),提出了一种基于音频特征矩阵的特征向量和特征值的音频特征:主特征向量(Dominant Feature Vectors)。该文献提取出音频片段的帧特征定义成一个特征帧矩阵,然后计算这个矩阵的自相关矩阵,最后计算自相关矩阵的特征向量和特征值作为音频片段特征。该方法是基于整个音频片段的统计特征,因此无法描述音频片断中的内容变化特性,从而限制了音频检索的准确度。
发明内容
针对现有技术的不足,本发明提出一种音频片断相似度度量的方法,用于度量不同音频片断之间的相似度。
为达到以上目的,本发明采用的技术方案是:一种音频片断之间相似度度量的方法,包括以下步骤:
(1)分别将待度量的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(2)计算上述两个音频片断中任意两个音频单元之间的相似度;
(3)把两个音频片断的相似度度量建模为一个带权二分图;
(4)运用最优匹配度量两个音频片断之间的相似度;
(5)采用以下公式计算两个音频片断之间的相似度:
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目。
更进一步,运用贝叶斯信息标准(Bayesian Information Criterion,BIC),将待度量的音频片断分割为多个音质相似的音频单元。
更进一步,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distan(si,sj)/2)
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离。
更进一步,音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示。
更进一步,音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
另外,本发明提出一种音频片断检索的方法,该方法可以更加有效地检索与查询片断相似的音频片断,并按照相似度从高到低排序,从而可以更加充分地发挥音频检索技术在信息检索中的巨大作用。
为达到以上目的,采用的技术方案是,一种音频片断检索的方法,用于从音频库中检索出与查询的音频片断相似的音频片断,包括以下步骤:
(一)将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元;其中音频单元是一系列音质相似的音频帧;
(二)分别计算查询音频片断和音频库中音频片断中音频单元之间的相似度;
(三)A:把两个音频片断的相似度度量建模为一个带权二分图;
B:运用最优匹配度量两个音频片断之间的相似度;
C:采用以下公式计算两个音频片断之间的相似度:
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q分别表示两个音频片断X和Y的音频单元数目;
(四)按相似度从高到低,检索出与查询片断相似的音频片断。
进一步,运用贝叶斯信息标准(Bayesian Information Criterion,BIC),将查询的音频片断及音频库中的音频片断分割为多个音质相似的音频单元。
进一步,使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distance(si,sj)/2)
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离;其中音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示,音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
本发明的效果在于:与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。
本发明之所以具有上述发明效果,其原因在于:针对现有技术的问题,本发明把音频片断检索分为两个层次:音频单元和音频片断。在音频单元阶段,本发明定义音频单元是一系列音质相似的音频帧,首先把音频片断分为一个个音频单元,然后度量两个音频片断中音频单元的相似度;在音频片断阶段,基于音频单元的度量结果,把两个音频片断的相似度度量建模为一个带权二分图,最后使用最优匹配度量两个音频片断的相似度。
附图说明
图1是本发明的流程示意图;
图2是本发明和现有3种方法的查全率对比示意图;
图3是本发明和现有3种方法的查准率对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如图1所示,本发明的方法具体包括以下步骤:
(1)将查询的音频片断及音频库中的音频片断分割为一个个音质相似的音频单元;
首先运用贝叶斯信息标准(Bayesian Information Criterion,BIC),把音频片断分割为一个个音质相似的音频单元。关于贝叶斯信息标准的详细描述,可以参考文献“Efficient Audio Segmentation Algorithms based on the BIC”[M.Cettolo and M.Vescovi,IEEE International Conference on Acoustics,Speech andSignal Processing,2003]。
(2)分别计算查询音频片断和音频库中音频片断中音频单元之间的相似度;
音频帧的特征向量采用的是对数能量和梅尔倒频谱系数组成的13维特征向量,而音频单元的特征向量,是采用该音频单元中所有帧音频特征向量的平均值表示。然后使用如下公式计算两个音频单元的相似度:
Sim(si,sj)=exp(-Distan(si,sj)/2)
其中,si和sj表示两个音频单元,Distance(si,sj)表示si和sj音频特征向量的欧式距离。
(3)分别度量上述查询片断和音频库中音频片断之间的相似度;
a:把两个音频片断的相似度度量建模为一个带权二分图;
b:运用最优匹配度量两个音频片断之间的相似度;
c:采用以下公式计算两个音频片断之间的相似度:
∑ωij表示两个音频片断最优匹配取得的最大相似度,p和q表示两个音频片断X和Y的音频单元数目。
(4)按相似度从高到低,检索出与查询片断相似的音频片断。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。
本实施例中建立了1000个音频片断的数据库,包括了许多类型的声音片断,例如动物声、人声、车辆声、机器声、音乐声、枪炮声等。在这1000个音频片断中,有500个片断有一个或多个相似的片断,而另外500个片断仅仅出现了一次。因此,有一个或多个相似片断的500个音频片断,被使用作为查询片断,以便验证相似音频片断检索的正确性。
为了证明本发明的有效性,我们测试了以下4种方法作为实验对比:
1、本发明;
2、现有方法1:2004年在Pacific-Rim Conference on Multimedia发表的文献“Dominant Feature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,页码890-897);
3、现有方法2:L2距离;
4、现有方法3:2000年在IEEE International Conference on Multimedia andExpo发表的文献“Content-based Indexing and Retrieval-by-Example in Audio”(作者是Z.Liu and Q.Huang)。
上述4种方法,音频帧特征都采用了对数能量和梅尔倒频谱系数组成的13维特征向量,因此,最后的实验结果能够证明本发明的优越性。这4种方法的主要区别如表1所示:
表1:本发明与现有方法的主要区别
|
本发明 |
现有方法1 |
现有方法2 |
现有方法3 |
片断表示 |
音频单元特征 |
主特征 |
音频帧特征 |
音频帧特征 |
相似度度量 |
音频单元度量和音频片断度量 |
音频片断度量 |
音频片断度量 |
音频片断度量 |
度量方法 |
最优匹配 |
主特征向量 |
K-L距离 |
L<sub>2</sub>距离 |
实验采用了两种在MPEG-7标准化活动中的评价指标:平均归一化调整后的检索秩ANMRR(Average Normalized Modified Retrieval Rank)和平均查全率AR(Average Recall)。AR类似于传统的查全率(Recall),而ANMRR与传统的查准率(Precision)相比,不仅能够反映出正确的检索结果比例,而且能够反映出正确结果的排列序号。ANMRR值越小,意味着检索得到的正确片断的排名越靠前;AR值越大,意味着在前K(K是检索结果的截断值)个检索结果中相似片断占所有相似片断的比例越大。所以,AR越大,说明片断检索的查全率越好;ANMRR越小,说明片断检索的准确性越高。表2是上述4种方法对500个音频片断检索的AR和ANMRR比较。
表2本发明与现有方法的对比实验结果
|
本发明 |
现有方法1 |
现有方法2 |
现有方法3 |
AR |
0.72 |
0.66 |
0.67 |
0.66 |
ANMRR |
0.26 |
0.33 |
0.32 |
0.33 |
从表2可以看出,本发明无论是AR,还是ANMRR,都取得了比现有方法更好的效果,这主要是因为:(1)本发明提出把音频片断的相似度建立在音频单元的相似度之上,而音频单元是一系列音质相似的音频帧,这保证了音频片断相似度度量的有效性;(2)本发明提出使用最优匹配度量音频片断的相似度,最优匹配具有一对一匹配的机制,这保证了音频片断度量的有效性。
为了进一步确认本发明的有效性,除了AR与ANMRR,我们采用了另外一组评价指标:查全率和查准率,它们的定义如下:
查全率=检索到的相关片断数目/所有相关片断的数目
查准率=检索到的相关片断数目/检索到的所有片断数目
结果如图2和图3所示,本发明无论是查全率,还是查准率,都取得了比现有方法更好的效果。因此,上述两类评价指标:AR与ANMRR,查全率和查准率,已经全面证明了本发明在音频片断检索中的出色效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。