CN103729368B

CN103729368B - 一种基于局部频谱图像描述子的鲁棒音频识别方法

Info

Publication number: CN103729368B
Application number: CN201210389035.XA
Authority: CN
Inventors: 李伟; 朱碧磊; 董旭炯
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2012-10-13
Filing date: 2012-10-13
Publication date: 2016-12-21
Anticipated expiration: 2032-10-13
Also published as: CN103729368A

Abstract

本发明属基于内容的音乐检索技术领域，涉及一种基于局部频谱图像描述子的鲁棒音频识别方法，本发明方法中，将一维音频信号转化为二维听觉图像，提取图像特征作为音频指纹，使其对时间缩放和变调等主要的音频失真类型具有鲁棒性；其包括指纹提取步骤和指纹匹配步骤)两部分。本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法，而是将一维音频信号转换为二维的图像信号，基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹，同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。本发明从全新思路提供了一种新的强鲁棒性音频指纹，从而实现在各种信号失真以及时‑频伸缩的情况下，仍能准确地进行音频识别。

Description

一种基于局部频谱图像描述子的鲁棒音频识别方法

技术领域

本发明属于基于内容的音乐检索技术领域，涉及一种基于局部频谱图像描述子的鲁棒音频识别方法，具体涉及一种基于计算机视觉技术的音频指纹提取和匹配方法。

背景技术

音频指纹是指能够代表一段音乐重要音频特征的紧致数字签名，其主要目的是建立一种有效的机制来比较两个音频数据感知听觉质量的相似程度，使人们可以仅仅通过一个没有任何文本标记的音频片段，便可以得到和该音频相关的元数据。这里不是直接比较通常很大的音频数据本身，而是比较其相应通常较小的数字指纹。典型的音频指纹方法一般遵循以下步骤：首先计算原始音频的指纹并将其与相应的元数据一同存入数据库中；当给定未知音频片段时，从该片段中提取指纹并将之与数据库中存储的指纹进行比对。如果在比对过程中发现匹配，则未知音频片段被确认，而相应的元数据(比如歌曲名称、词曲作者、歌词等)则被返回。

音频指纹主要有以下三点好处：首先，因为指纹本身数据量较小，因此可以节省很多的计算和内存要求；其次，指纹来源于音频数据中听觉最为重要的部分，往往保留了音频在听觉感知上的一些不变特性，因此能够在音频遭受攻击和破坏，但感知特性又变化较小时，依然可以进行有效比对；最后，保持指纹的数据库(指纹库)往往远小于媒体数据库，因此可以进行高效搜索。

目前音频指纹的研究已有很大发展，商业应用前景也非常明朗，大致有如下几类：第一，指纹用于音频的识别，如乐曲的识别和索引。当用户希望了解所听到的某未知乐曲片断的名字及其相关信息时，可以用手机收集5～10s的声音片断并向服务器传送，就会接收到关于该乐曲的完整信息反馈；第二，音频指纹可以用来对音频的内容进行控制和跟踪，例如通过音频指纹音乐电台可以确定自己是否拥有某个音频的播放权；版权所有者可以监视电台是否已支付版权费，并进行播放统计；广告商则可以监视电台是否按协议播放自己的广告；第三，音频识别可以用于增值服务。在音频指纹的帮助下，不同用户将得到自己感兴趣的元信息，例如，普通用户可能对一般信息如歌词、歌曲名称、词曲作者、专辑年份、演唱者等感兴趣；音乐家可能想知道乐器如何演奏以及节奏、旋律、和声；而录音师可能对录音过程感兴趣。元信息可以按照不同目的组织存储，使用指纹技术进行正确的检索来得到用户感兴趣的信息。

当前，与本发明相关的已提出的主要音频指纹方法有：

文献[1]是著名的Philips音频指纹系统，作者将一个音频信号分割成0.37秒长、98％重叠的帧，从每帧的33个非重叠频带部分提取出32比特的子指纹，由于相邻子指纹之间具有很大的相似性并且随时间缓慢变化，因此对信号处理失真非常鲁棒，并且可以识别在时域上缩放96％到104％的音频文件，但是该系统对变调失真的抵抗能力较差。

文献[2]对上述方法提出了两个直观的改进方案：(1)在数据库中增加原始音频文件的各种变调版本；(2)对每个查询片段进行各种变调处理后再到数据库里进行识别。前一种方法增加了对存储空间的消耗，后一种方法则增加了计算量。

文献[3]提出的音频指纹方法着重于抵抗音频的线性速度变化，其主要思路是提取频谱特征的局部最大值作为边界对音频信号进行非固定分段，该方法能够识别缩放因子介于85％～115％之间的音频信号，然而这个系统对于诸如噪声和压缩等信号失真的抵抗性较差。

传统的音频识别方法多使用频谱特征，与此不同，文献[4]提出了一种新颖的方法，提取一组时间相关的特征用于捕获音乐信号的速度、节奏和小节特性，通过把速度估计值量化分入各个速度类中，提取一种称之为循环节拍谱(Cyclic Beat Spectrum,CBS)的有效特征，从而使查询片段在缩放因子为79％～126％之间时仍能正确地识别出原始歌曲。

与本发明相关的参考资料有：

[1]J.Haitsma and T.Kalker.A highly robust audio fingerprintingsystem.In Intern ational Symposium on Music Information Retrieval,pp.107–115,2002.

[2]S.Baluja and M.Covell.Waveprint:efficient wavelet-based audiofingerprinting.Pattern Recognition,41(11):3467–3480,2008.

[3]R.Bardeli and F.Kurth.Robust identification oftime-scaled audio.InAES 25th International Conference on Metadata for Audio,2004.

[4]F.Kurth,T.Gehrmann,and M.Müller.The cyclic beat spectrum:temporelated a udio features for time-scale invariant audio identification.InInternational Symposium on Music Information Retrieval,pp.35-40,2006.

发明内容

本发明的目的在于从全新思路设计一种新的强鲁棒性音频指纹，从而实现在各种信号失真以及时-频伸缩的情况下，仍能准确地进行音频识别。本发明提供了一种基于局部频谱图像描述子的鲁棒音频识别方法，具体涉及一种基于计算机视觉技术的音频指纹提取和匹配方法。

本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法，而是将一维音频信号转换为二维的图像信号，基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹，同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。

具体而言，本发明提供了一种基于计算机视觉技术的音频指纹方法，其特征在于，将一维音频信号转化为二维听觉图像，提取图像特征作为音频指纹，使其对时间缩放和变调等主要的音频失真类型具有鲁棒性；其包括指纹提取步骤1，步骤2和指纹匹配步骤3两部分：

步骤1，使用短时傅里叶变换(STFT)将1维音频信号转换为2维时-频表示；

鉴于时间缩放攻击(Time Scale Modification,TSM)和变调(Pitch Shifting)是音频失真中最难以抵抗的两种类型，两者对音频信号的作用可以等价视为对该音频对应的对数语谱图进行伸缩和平移处理(如图1所示)，因此，对语谱图伸缩和平移具有良好鲁棒性的图像特征，也是对原音频信号的TSM和变调失真具有良好鲁棒性的音频特征；

本发明中，

使用长度为185.76ms、重叠率为75％的汉宁窗对音频信号进行时域上的重叠分段；本发明的实施例中，注意窗的时长和重叠率的选取：由于长时窗比短时窗在反映时域信息时更有效，故而选用时长大于50ms的长时窗；而由于原长信号和用于检索的短信号之间的不同步，故而需要一定的重叠性；

利用短时傅里叶变换得到时-频平面语谱图，再依照公式(1)将其量化成对数空间上的64个子频带，

其中f_i是第i个子频带的中心频率；

步骤2，提取对数语谱图的SIFT局部描述子，并将每一个描述子作为音频信号的一个子指纹(如图2所示)；依据SIFT特征对于图像仿射变换、尺度缩放、旋转、JPEG压缩、亮度变化等具有较强的鲁棒性，因此基于语谱图SIFT特征的音频指纹对于传统的信号处理攻击及TSM和变调也具有强鲁棒性；SIFT特征提取的步骤具体如下：

本发明中，SIFT特征提取的过程具体如下：

尺度空间极值检测，以初步确定关键点位置和所在尺度；

通过函数拟合精确确定关键点的位置与尺度，除去对噪声敏感的低对比度的关键点以及不稳定的边缘响应点；

利用关键点邻域的局部像素梯度方向，为每个关键点指定方向参数，使算子具备旋转不变性；

生成SIFT特征描述符，对每个关键点采用4*4共16个邻域像素计算8个方向的梯度直方图，从而形成一个128维的描述子；

步骤3，将检索音频片段的每个子指纹与数据库中原始音频的子指纹进行匹配，返回和检索音频片段具有最多匹配子指纹的原始音频作为识别结果。

本发明中，指纹匹配过程包括基于LSH方法的指纹检索步骤和相似性计算步骤：其中

基于LSH方法的指纹检索：

考虑到实际应用中的音频数据库通常很大，并且SIFT特征向量的维度较高，本发明中采用LSH方法加速子指纹的检索；所述的LSH为一个近似最近邻检索技术，其中主要是使用一组哈希函数对数据点计算哈希值，使得相似的数据点有较大的可能性被映射到同一个桶中；本发明中，给定一个点集{p}，一个哈希函数定义为，

g(p)＝(h₁(p)，...，h_k(p)) (2)

其中k是宽度函数，{h_j(p),j＝1,…,k}是LSH函数，这些LSH函数满足如下不等式，

P_r(h(q)＝h(v))≥p₁，当||q-r||≤r₁

P_r(h(q)＝h(v))≤p₂，当||q-r||≥r₂ (3)

p₁，p₂，r₁，r₂是相应阈值，满足p₁＞p₂，r₁＜r₂；而q和v是任意两点，且||q-r||为两点间距离；公式(3)表明距离小于r₁的两点比距离大于r₂的两点在概率上更有可能被映射到同一个桶中。

基于LSH的最近邻检索一般分为两个阶段，即索引和检索。本发明中在索引阶段，数据库中的所有数据点被映射到L个哈希表中，每一个哈希表对应一个随机选取的哈希函数；在检索阶段，给定一个检索数据点q，方法对L个哈希表进行迭代；对每一个哈希表，方法遍历和q处于同一桶中的所有数据；最终返回的最近邻结果是L个哈希表中和q距离最近的数据点；

指纹相似性计算：

利用LSH将相似指纹映射到同一桶中后，为检索音频片段的每个子指纹做相似搜索；由于LSH本质上是一种近似检索方法，其返回结果存在假阳性(错误匹配)，因此，本方法设置了额外的指纹匹配来过滤LSH的最近邻检索结果：设a是待测子指纹，b是LSH检索到的数据库中与a距离最近的指纹，b’是除b外与a的距离最近的指纹，若如下不等式成立，

D(a，b)＜Th*D(a，b′) (4)

则表明a与b是匹配的；式中D(x，y)表示变量x与y之间的欧氏距离，Th是设定的阈值。

本发明中公开了两对音频的匹配结果(如图4所示)，其中，频谱A是一段长度为5s的音频，B和C分别是它的-20％时间缩放版本和-30％变调版本，值得注意的是图中A和B之间几乎所有的局部特征对之间的连线都是水平的，表明了时间伸缩(TSM)对于一个音频信号时-频表示图的频率轴没有影响；同样可见，A和C之间几乎所有连线都是倾斜的，表明了变调导致了时-频图中特征点在频率轴方向上的移动。

附图说明

图1：TSM和变调在频谱上的显示：其中，

(a)10s原音频信号的频谱；

(b)原信号时间缩放-20％的信号的频谱；

(c)原信号时间缩放+20％的信号的频谱；

(d)原信号变调-50％的信号的频谱；

(e)原信号变调+50％的信号的频谱。

图2：使用SIFT特征提取法得到的局部描述符分布图。

图3：音频子指纹匹配示意图。

图4：两音乐片段子指纹匹配示意图。

具体实施方式

为评估上述方法的有效性，本发明进行了如下的验证实验。

实施例1

首先，建立一个包含1241首不同风格的音乐片段的数据库，并按照上述步骤1构造相应的指纹数据库。每一首歌的参数设置为：单声道，长度为60s，采样率为44.1kHz。考虑对音频指纹识别的粒度、鲁棒性和检索效率之间的权衡，我们对数据库中被选择的音乐片段随机选取10s的长度作为检索片段，通过随机选取100组这样的片段，采用多种方式对其做失真处理，以测试在时间缩放、变调、背景噪声、MPEG压缩、均衡化和回声等常见失真下，按该方法所取得的检索正确率(identification rate,ID rate)。

实验结果如下面的三个表所示。

表1显示了时间缩放范围在-35％～+50％之间的检索正确率。由实验数据可见，本发明的系统在较大范围的时域缩放攻击中能保持理想的正确率，优于现有的其他方法。

表2显示了变调范围在-50％～+100％之间的检索正确率。由实验数据可见，即使音频文件的音调比原音调低一个八度(原音调的50％)或高一个八度(原音调的200％)，系统仍能保持理想的检索正确率。

表3显示了除TSM和变调外，系统对于现实条件中音频信号可能遭受其他失真类型攻击的音频文件的检测，如背景噪声、MPEG压缩、均衡化和回声等的鲁棒性测试结果。

表1.不同的时间缩放参数下，音乐片段的识别正确率

时间伸缩比例[％]	-35	-30	-20	-10	0
						识别准确率[％]	80	95	100	100	100
时间伸缩比例[％]	+10	+20	+30	+40	+50
						识别准确率[％]	100	100	100	95	90

表2.不同的变调参数下，音乐片段的识别正确率

变调比例[％]	-50	-25	0	+50	+100
						识别准确率[％]	92	97	100	98	100

表3.其他不同的失真类型下，音乐片段的识别正确率

失真类型	识别准确率[％]
		背景噪声(SNR＝18db)	94
MPEG压缩(32kbps)	98
		均衡化(增强低音)	100
添加回声(-6分贝，500毫秒延迟)	99

Claims

1.一种基于局部频谱图像描述子的鲁棒音频识别方法，其特征在于，将一维音频信号转化为二维听觉图像，提取图像特征作为音频指纹，使其对时间缩放和变调主要的音频失真类型具有鲁棒性；其包括指纹提取步骤1，步骤2和指纹匹配步骤3：

其中，

使用长度为185.76ms、重叠率为75％的汉宁窗对音频信号进行时域上的重叠分段；

其中f_i是第i个子频带的中心频率；

步骤2，在语谱图上计算SIFT局部描述子，并将每一个描述子作为音频信号的一个子指纹；

其中，SIFT特征提取的过程如下：

尺度空间极值检测，以初步确定关键点位置和所在尺度；

生成SIFT特征描述符，对每个关键点采用4*4共16个邻域像素计算8个方向的梯度直方图，形成一个128维的描述子；

步骤3，将检索音频片段的每个子指纹与数据库中原始音频的子指纹进行匹配，返回和检索音频片段具有最多匹配子指纹的原始音频作为识别结果；

其中的指纹匹配过程包括基于LSH方法的指纹检索步骤和相似性计算步骤：

基于LSH方法的指纹检索：

采用LSH方法加速子指纹的检索，给定一个点集{p}，一个哈希函数定义为，

g(p)＝(h₁(p)，...，h_k(p)) (2)

P_r(h(q)＝h(v))≥p₁，当||q-r||≤r₁

P_r(h(q)＝h(v))≤p₂，当||q-r||≥r₂ (3)

p₁，p₂，r₁，r₂是相应阈值，满足p₁＞p₂，r₁＜r₂；而q和v是任意两点，且||q-r||为两点间距离；公式(3)表明距离小于r₁的两点比距离大于r₂的两点在概率上更有可能被映射到同一个桶中；

指纹相似性计算：

利用LSH将相似指纹映射到相同的桶中后，为检索音频片段的每个子指纹做相似搜索，设置额外的指纹匹配过滤LSH的最近邻检索结果：设a是待测子指纹，b是LSH检索到的数据库中与a距离最近的指纹，b′是除b外与a的距离最近的指纹，若如下不等式成立，

D(a，b)＜Th*D(a，b′) (4)

2.按权利要求1所述的方法，其特征在于，所述的基于LSH的最近邻检索的中两个阶段为，索引阶段和检索阶段，其中，在索引阶段，数据库中的所有数据点被映射到L个哈希表中，每一个哈希表对应一个随机选取的哈希函数；在检索阶段，给定一个检索数据点q，所述的方法对L个哈希表进行迭代；对每一个哈希表，所述方法遍历和q处于同一桶中的所有数据；最终返回的最近邻结果是L个哈希表中和q距离最近的数据点。