CN103853836B

CN103853836B - 一种基于音乐指纹特征的音乐检索方法及系统

Info

Publication number: CN103853836B
Application number: CN201410095561.4A
Authority: CN
Inventors: 孔秋强
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2017-01-25
Anticipated expiration: 2034-03-14
Also published as: CN103853836A

Abstract

本发明公开了一种基于音乐指纹特征的音乐检索方法及系统，其方法包括：构建音乐指纹索引，输入音频信号并进行预处理获取音频频谱图，在频谱图内选取第一锚点、第二锚块和第三锚块进行组合，得到指纹并将其插入到哈希表内，记录该指纹出现的歌曲ID和在歌曲内的位置；音乐检索，提取待检索音乐片段的指纹序列，通过查找哈希表得到各指纹对应的歌曲ID和歌曲位置链表，构建歌曲ID与指纹对应的匹配表，将匹配表内重复最多的歌曲内位置作为命中数，将命中数最多的歌曲作为检索结果。本发明实现当音乐库达到百万级时快速检索；克服信道漂移的问题；提高指纹的抗噪性、鲁棒性；解决最少录音时间的限制；获得更紧致，占更少内存空间的指纹特征。

Description

一种基于音乐指纹特征的音乐检索方法及系统

技术领域

本发明涉及音频信号处理和多媒体信息检索系统技术领域，更具体地，涉及一种基于音乐指纹特征的音乐检索方法及系统。

背景技术

随着互联网时代的到来，大数据越来越成为了一个热门的课题。在音乐检索领域，面对百万级的音乐数据，如何实现快速检索成为了一个十分具有价值的问题。现实应用中，录音环境可能非常嘈杂，如何选取抗噪的、鲁棒性高的指纹成了一个难题。

目前市场上现有的音乐指纹算法包括Philips公司的音乐检索算法，参见HaitsmaJ,Kalker T.A Highly Robust Audio Fingerprinting System[C]ISMIR.2002。其方法是获得音乐的频谱图，为每一帧提取一个特征。频谱图切分成了若干频带，取频带间能量的差值的符号作为特征。Philips算法的缺点包括：1.在静音部分特征提取的准确率较低。2.由于手机等录音设备高低频区域内信道失真严重，导致准确率较低。3.音乐信号实际上是稀疏的，Philips算法为每一帧提取特征，造成了指纹特征的冗余，使得检索变慢。

Shazam算法是市场上另一种算法，参见Wang A.An Industrial Strength AudioSearch Algorithm[C]//ISMIR.2003:7-13。其基本原理是获得音乐的频谱图，在频谱图某个区域内选中一个锚点，在此锚点附近的区域内再选择若干个重要点，以这些锚点和这重要点的点对的组合作为特征。Shazam的指纹特征冗余度较Philips算法低，但是有以下缺点：1.当曲库达到百万级时，由于点对组成的桶的空间上限限制，使得搜索速度变慢。2.当录音源抖动或录音信道不稳定时，锚点及重要点发生漂移，导致识别准确率下降。3.存在最少录音时间限制，如至少录音3秒才能识别。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种快速检索百万级音乐库的音乐检索方法，是基于音乐指纹特征的音乐检索方法。

本发明的又一目的是提出一种基于音乐指纹特征的音乐检索系统。

本发明的具体技术方案为：

一种基于音乐指纹特征的音乐检索方法，包括：

构建音乐指纹索引，输入音频信号并进行预处理获取音频频谱图，在频谱图内选取第一锚点、第二锚块和第三锚块进行组合，得到指纹并将其插入到哈希表内，记录该指纹出现的歌曲ID和在歌曲内的位置；

音乐检索，提取待检索音乐片段的指纹序列，通过查找哈希表得到各指纹对应的歌曲ID和歌曲位置链表，构建歌曲ID与指纹对应的匹配表，将匹配表内重复最多的歌曲内位置作为命中数，将命中数最多的歌曲作为检索结果；

所述第一锚点的获取方式为：将频谱图切分为M×N块，其中M是指将频谱图纵向频域均匀划分为M个频带，每个频带为a个点；N是指将频谱图横向时域以步长b为单位切割为N个部分；

在每块中选取一个幅值最大的点作为第一锚点，并将第一锚点附近R*R的区域内的点赋值为0；

所述第二锚块的获取方式为：以第一锚点为起点，在时移b帧后的矩形区域内搜索第二锚块；将该矩形区域划分为X个3*3小块，在每个3*3小块内选择最大的幅值作为该3*3小块的小块代表值，在该矩形区域内选择小块代表值最大的3*3小块的作为第二锚块，并以第二锚块为中心将R*R的区域内的点赋值为0；

所述第三锚块的获取方式为：以第一锚点为起点，在时移b帧后的大矩形区域内搜索第三锚块；将该大矩形区域划分为Y个小矩形区域，每个小矩形区域划分为y个2*2小块；在每个2*2小块内选择最大的幅值作为该2*2小块的小块代表值，在小矩形区域内选取出幅值最大的2*2小块，在大矩形区域内选择Z个2*2小块。

采用该方法能在音乐库达到百万级时实现快速检索，在频谱图中采用2*2小块代替1*1点，从而克服了录音源抖动及信道不稳定的问题。采用一个锚点和两个锚块作为集合，扩大了桶的取值空间，使得检索倒排表的链长缩短，可以实现在百万级的数据量下大幅加快检索速度；在选择特征点及特征块时，考虑到了信道的局部平稳性，抗噪性更强，识别率更高。不存在最少录音时间的限制。使得用户体验更好。当音乐数据库巨大时，由于指纹信息是紧致的，冗余度低，因此更节省内存。

上述第一锚点选出后，在其附近R*R的区域内的点赋值为0是基于以下原因：若不设禁忌，可能会出现相邻的两个锚点。实验显示，此情况下错误的hit数可能会翻倍，如hit从4变到8。产生上述情况的原因是锚点相关性大。选点尽量要去相关，让点独立(即熵大)，这样才能减少碰撞，且获得较好的桶。

同理，选择第二个锚块之后，以该锚块中心的为中心点，周围R*R区域置0。这样做的原因是：避免第三个锚块和第二个锚块重叠，选点尽量要去相关，让点独立(即熵大)，这样才能减少碰撞，且获得较好的桶。

在一种优选的方案中，所述预处理是通过对输入的音频信号进行短时傅里叶变换获取音频频谱图，在频谱图尾部进行补白，对补白后的频谱图进行滤波。

在音频信号处理中，时域-频域分析是非常有力的工具，符合人耳的感知特性。在语音识别中，MFCC和LPCC是经常使用的特征。但其丢掉了许多细节。在音乐检索中，音乐的音高很精确，故不适宜用这些特征。本方法采用短时傅里叶变换(STFT)作为特征，由于STFT是完备变换，包含了所有细节，更适宜于音乐检索需求。同时采用补白的方式代替切掉尾部，可以充分利用信息。

在一种优选的方案中，所述对补白后音频频谱图进行滤波方式是梯形带通滤波。由于在真实环境中，信道失真非常严重，尤其是在低频、高频，本方法采用梯形带通滤波来对频谱图进行滤波，目的是保留平坦的频带，去除高频和低频。

在一种优选的方案中，所述在音乐检索时，对待检索音乐片段在前端补白若干次分别进行检索，具体是对待检索音乐片段在前端补白8次分别进行检索。

公知的，只有在BLOCK的边界对齐的情况下才能得到最佳匹配，假如输入片段如上所示，BLOCK的边界不对齐，特征点的提取就会不一致。本方法在待检索音乐片段在前端8次补白中，总有一次能使得边界与原曲重合，此时的特征点重合最多，hit数也最多，因此需要进行8次补白检索。

在一种优选的方案中，所述b＝8，R＝5，Z＝4。

在一种优选的方案中，还包括对音乐指纹索引中构建的哈希表进行剪枝。由于指纹在空间上分布是不均匀的(良好的指纹可以使其尽量均匀)，所以桶的链长也是不相同的，存在一定程度的病态。在病态的链上遍历会很慢，因此在加载完大哈希表之后剪去这些病态的链，剪枝会使得正确曲目hit数目有细微减少，但可以提高搜索速度。

一种基于音乐指纹特征的音乐检索系统，包括：

音乐指纹索引模块，用于对输入的音频信号进行预处理获取音频频谱图，在频谱图内选取第一锚点、第二锚块和第三锚块进行组合，得到指纹并将其插入到哈希表内，记录该指纹出现的歌曲ID和在歌曲内的位置；

音乐检索模块，用于提取待检索音乐片段的指纹序列，通过查找哈希表得到各指纹对应的歌曲ID和歌曲位置链表，构建歌曲ID与指纹对应的匹配表，将匹配表内重复最多的歌曲内位置作为命中数，将命中数最多的歌曲作为检索结果；

所述音乐指纹索引模块还包括第一锚点选取模块、第二锚块选取模块和第三锚块选取模块；

所述第一锚点选取模块，是将频谱图切分为M×N块，其中M是指将频谱图纵向频域均匀划分为M个频带，每个频带为a个点；N是指将频谱图横向时域以步长b为单位切割为N个部分；

所述第二锚块选取模块，是以第一锚点为起点，在时移b帧后的矩形区域内搜索第二锚块；将该矩形区域划分为X个3*3小块，在每个3*3小块内选择最大的幅值作为该3*3小块的小块代表值，在该矩形区域内选择小块代表值最大的3*3小块的作为第二锚块，并以第二锚块为中心将R*R的区域内的点赋值为0；

所述第三锚块选取模块，是以第一锚点为起点，在时移b帧后的矩形区域内搜索第三锚块；将该矩形区域划分为Y个小矩形区域，每个小矩形区域划分为y个2*2小块；在每个2*2小块内选择最大的幅值作为该2*2小块的小块代表值，在小矩形区域内选取出幅值最大的2*2小块，在大矩形内选择Z个2*2小块。

与现有技术相比，本发明技术方案的有益效果是：

附图说明

图1为本发明实施例中获取指纹的流程图。

图2为本发明实施例中音乐检索示意图。

图3为本发明实施例中输入的时域波形示意图。

图4为时域波形图转换为的频谱示意图。

图5为对图4中的频谱图进行补白后的频谱示意图。

图6为本发明实施例中带通滤波器的增益示意图。

图7为本发明实施例中经过带通滤波器后的频谱图。

图8为本发明实施例中第一锚点的选择示意图。

图9为本发明实施例中第二锚块的选择示意图。

图10为本发明实施例中第三锚块的选择示意图。

图11为本发明实施例的哈希表示意图。

图12为本发明实施例中音乐检索正确的匹配示意图。

图13为本发明实施例中音乐检索错误的匹配示意图。

图14为本发明实施例中构建的歌曲ID与指纹对应的匹配表示意图。

图15为本发明实施例中输入音频片段错位示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

1.预处理，输入的wav必须是单声道，采样率必须为8000Hz，如图3；

2.计算音频频谱图，其窗长1024点，步长400点，加汉明窗，如图4；

在音频信号处理中，时域-频域分析是非常有力的工具，符合人耳的感知特性。在语音识别中，MFCC和LPCC是经常使用的特征。但其丢掉了许多细节。在音乐检索中，音乐的音高很精确，故不适宜用这些特征。本方法采用短时傅里叶变换(STFT)作为特征，由于STFT是完备变换，包含了所有细节，更适宜于音乐检索需求。参数如下：

窗长(window)：1024点。兼顾频域分辨率与时域短时平稳性，经测试此参数较好。

步长(step_length)：400点。使得频谱是连续的。

汉明窗：防止频域主瓣泄露。

3.在频谱图尾部补白，如图5，在本实施例中采用补白代替切掉尾部，在识别的时候常常只有5秒左右录音，可以充分利用信息。在本实施例中其补白长度为：(int)(len/BLOCK1_LEN)*BLOCK1_LEN+AREA23_DELAY(8帧)+AREA3_LEN(48帧)，

4.梯形带通滤波，如图6，由于在真实环境中，信道失真非常严重，尤其是在低频、高频。梯形带通滤波目的是保留平坦的频带。去除高频和低频。在本实施例中的参数：上升带600Hz-1100Hz；平坦带1100Hz-2500Hz；下降带:2500Hz-3000Hz

5.第一个锚点的选取，经过带通滤波器后的频谱图如图7。为显示清楚，本实施例以100-200帧的局部区域为例，见方框区域，将其放大后如图8。网格为选择第一个锚点时做的分割，将在下面详述。

网格纵向将频域均匀切成三个部分，每个频带约102个点。横向时域每8帧做分割。如此将频谱图切为若干块，如图6的矩形块。每块选取一个幅值最大(该幅值是指能量值)的点作为锚点，如图7的黑色点位置。如果区域内所有点值为0，则随机选择一个点作为锚点。第一个锚点取值空间大小约为306。平均每秒选取7.5个第一锚点。

禁忌搜索：在每选取一个锚点之后，即将该点及附近5*5的区域赋0值。这样做的原因是：

1.若不设禁忌，可能会出现相邻的两个锚点。实验显示，此情况下错误的hit数可能会翻倍，如hit从4变到8。

2.产生上述情况的原因是锚点相关性大。选点尽量要去相关，让点独立(即熵大)，这样才能减少碰撞，且获得较好的桶。

6.第二锚块选取，如图9，选定第一个锚点，在时移8帧后的矩形区域内搜索第二锚块，将矩形区域切分成若干个3*3小块。在每个3*3小块内选择最大的幅值作为该小块值的代表。在区域内选择小块值最大的小块的作为第二锚块。若区域内所有小块值为0，则随机选择一个小块作为第二锚块。

在矩形内搜索的原因：第二个锚块要保准。矩形太大的话，由于信道不平稳，找的点就不准了。矩形太小的话，可能音乐在此区域不存在频谱。因此矩形大小需适中，经试验如图7中的参数大小较好，第二个锚块取值空间大小为25*8＝200。

使用3*3小块代替1*1点的原因：(1)如上矩形内取值空间6000个点太多了，hit的概率较低。使用3*3小块可以使取值空间降至25*8＝200，提高了hit概率。(2)峰值点有时会上下左右漂移，使用3*3可以抗抖动。

禁忌搜索：选择第二个锚点之后，以该小块中心的为中心点，周围5*5区域置0。这样做的原因是：

避免第三个点块和第二个锚点块重叠，选点尽量要去相关，让点独立(即熵大)，这样才能减少碰撞，且获得较好的桶。

7.第三个锚块的选取，如图10，第三个锚块依然以第一个锚点为参考，在时移8帧后的大矩形区域内搜索第三个2*2小块。首先把大矩形区域分成了8*4＝32个小矩形区域。每个小矩形区域分为若干个2*2小块。每个小矩形区域中只允许选择一个小块。在每个2*2小块内选择最大的幅值作为该小块值的代表。在小矩形内选择值最大的小块。最后在大矩形内一共选择4个小块，这4个小块都是2*2的小块。若大矩形内所有小块值为0，则随机选择剩余小块。第三个小块取值空间大小为24*72＝1728。

大矩形区域中选4个点原因：理论上大矩形中选的点越多，hit的数目越高。考虑到内存占用不能太大，故选4个点，此时每秒的指纹数为7.5*4＝30个。

细分成32个小矩形区域原因：若不作小矩形限制，常常有可能选择的四个2*2小块相邻，相关性很大。若强行限制每个小矩形区域内只能有一个2*2小块，则2*2小块在大矩形中分布更均匀，相关性降低，熵增大。

使用2*2小块代替1*1点原因：(1)大矩形内取值空间48*144＝6912个点太多了，hit的概率较低。使用2*2小块可以使取值空间降至8*25＝200，提高了hit概率。(2)峰值点有时会上下左右漂移，使用2*2小块可以抗抖动。

8.合并得到指纹

由第一锚点、第二锚块和第三个小块组合得到最终的指纹[f1，Δt2，Δf2，Δt3，Δf3],在本实施例中，f1是指第一锚点的取值空间，f1＝306，Δt2是第二锚块的时域取值空间，Δt2＝8，Δf2是第二锚块的频域取值空间，Δf2＝25；Δt3是第三锚块的时域取值空间，Δt3＝24，Δf3是第三锚块的频域取值空间，Δf3＝72；取值空间为306*200*1728＝105753600约2^26.65。

三、基于哈希表的快速检索原理

1.建表

为了实现快速检索，故采用哈希表的方法。实现方法如图11。记指纹空间为Ω大小，在指纹提取一节中讲到Ω＝105753600。

指纹值为索引，从0～(Ω-1)顺序排列，每个指纹值对应一个指针，因此对于给定的指纹值，可以在O(1)时间内完成查找。在64为系统中，指针大小占8byte，桶的占用大小为Ω×8byte≈846Mb。

每个指纹值对应一个指针，指向一个<songID,loct>链，代表此指纹出现在哪首歌曲的哪个位置。本系统使用一个int型代表<songID,loct>。由于每秒20帧，故一分钟歌曲需要的loct空间大小为20×60＝1200。本系统选择loct占14bit≈16384，支持最大歌曲长度13分半左右。songID占18bit，支持歌曲数25万左右(若曲目多可以自行定义位数)。

2.剪枝

由于指纹在空间Ω上分布是不均匀的(良好的指纹可以使其尽量均匀)，所以桶的链长也是不相同的，存在一定程度的病态。在病态的链上遍历会很慢，因此在加载完大哈希表之后剪去这些病态的链，剪枝长度常设为1000-3000。剪枝会使得正确曲目hit数目有细微减少，但可以提高搜索速度。

3.识别

(1)对于输入的音乐片段，首先提取指纹序列。如果输入的片段和某首乐曲匹配，则如图12，匹配的点落在一条线上。如果输入片段与某首乐曲不匹配，则如图13，只有零星的匹配点。

对每个指纹搜索时，若发现匹配的<songID,loct>，则更新匹配表，图14。插入songID，并添加(loct-片段的loct)。对所有指纹搜索完毕后，可以得到一张最终的匹配表。

(2)将匹配表的重复最多的loct(及+1，-1位置)作为该曲目的hit数。

(3)对hit数进行排序，选择最多的作为搜索结果。

4.其它

在进行搜索时，要对输入音乐片段在前端补白8次分别进行检索。原因如图15。在前面讲到第一个锚点的BLOCK_LEN＝8帧，只有在BLOCK的边界对齐的情况下才能得到最佳匹配。假如输入片段如上所示，BLOCK的边界不对齐，特征点的提取就会不一致(如上图)。在8次补白中，总有一次能使得边界与原曲重合，此时的特征点重合最多，hit数也最多。因此需要进行8次补白检索。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于音乐指纹特征的音乐检索方法，其特征在于，包括：

所述第三锚块的获取方式为：以第一锚点为起点，在时移b帧后的大矩形区域内搜索第三锚块；将该大矩形区域划分为Y个小矩形区域，每个小矩形区域划分为y个2*2小块；在每个2*2小块内选择最大的幅值作为该2*2小块的小块代表值，在小矩形区域内选取出幅值最大的2*2小块，在大矩形区域内选择Z个2*2小块作为第三锚块。

2.根据权利要求1所述的基于音乐指纹特征的音乐检索方法，其特征在于，所述预处理是通过对输入的音频信号进行短时傅里叶变换获取音频频谱图，在频谱图尾部进行补白，对补白后的频谱图进行滤波。

3.根据权利要求2所述的基于音乐指纹特征的音乐检索方法，其特征在于，所述对补白后音频频谱图进行滤波方式是梯形带通滤波。

4.根据权利要求1所述的基于音乐指纹特征的音乐检索方法，其特征在于，所述在音乐检索时，对待检索音乐片段在前端补白若干次分别进行检索。

5.根据权利要求4所述的基于音乐指纹特征的音乐检索方法，其特征在于，所述在音乐检索时，对待检索音乐片段在前端补白8次分别进行检索。

6.根据权利要求1所述的基于音乐指纹特征的音乐检索方法，其特征在于，所述b＝8，R＝5，Z＝4。

7.根据权利要求1所述的基于音乐指纹特征的音乐检索方法，其特征在于，还包括对音乐指纹索引中构建的哈希表进行剪枝。

8.一种基于音乐指纹特征的音乐检索系统，其特征在于，包括：