CN102332262B

CN102332262B - 基于音频特征的歌曲智能识别方法

Info

Publication number: CN102332262B
Application number: CN2011102858507A
Authority: CN
Inventors: 张钦宇; 林威; 梁玉锋; 李云鹤; 卜磊; 潘振鹏
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2011-09-23
Filing date: 2011-09-23
Publication date: 2012-12-19
Anticipated expiration: 2031-09-23
Also published as: CN102332262A

Abstract

本发明提供了一种基于音频特征的歌曲智能识别方法，其包括以下步骤：(1)服务器对歌曲建立音频特征库；(2)在客户端设置好采样率，对外界歌曲进行录音t秒时间以上；(3)然后采用特定的音频特征提取算法提取该段音频的特征值；(4)处理完毕后，将音频特征参数通过网络上传到服务器；(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配；(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端；匹配失败则反馈匹配失败的信息。本发明的目的在于设计出一种高性能高识别率的歌曲识别方案，实现起来比较灵活又具有良好的模块化和可扩展性。

Description

基于音频特征的歌曲智能识别方法

技术领域

本发明涉及歌曲或乐曲的识别。

背景技术

传统的音频特征常用来识别字、词、说话人和场景识别，比如：

（1）连续语音识别系统，把输入的语流切分为小的片段，在识别前先把各字分开，识别单词之间的边界。整个识别系统分为三层：声学-语音层、词层和句法层。采用隐式马尔可夫模型框架，将各层次组成一个统一的结构。

（2）基于内容的音频检索，通过反复重复一个歌曲的曲调，可以将歌曲的曲调片段从一系列音频信号中检索出来。

（3）嵌入式语音识别系统

在嵌入式平台实现的特定人孤立词语音识别系统。特定人语音识别系统可以对孤立词汇进行声学建模，识别采用动态时间归整等匹配算法，对小词汇量识别实现效果比较理想。

尽管传统音频特征可以被用来识别字词和语句曲调，但在用来识别歌曲音乐的时候，也存在一些问题或缺陷：

例如利用连续语音识别系统进行歌曲识别。由于歌词速度不固定，时快时慢，对歌曲内容进行分割建立单词之间的边界是非常困难的。尽管有时可以采用能量最低点作为边界，但通常还要根据发音信息加以验证。利用Mel频率倒谱系数为特征以及一个树形结构的分类器进行分类的方法，可以实现对音乐和声音的检索，但该方法对音乐和环境声音分类效果不够好。另外目前在嵌入式平台实现的主要是对系统的运算资源和存储资源要求比较低的特定人孤立词语音识别系统。

综上，现有音频特征识别系统实现方案主要针对说话语音语义进行识别，在歌曲识别方面要么不能进行有效的识别，要么带有一些局限性。本发明的目的在于设计出一种高性能高识别率的歌曲识别方案，实现起来比较灵活又具有良好的模块化和可扩展性。

发明内容

为了解决现有技术中问题，本发明提供了一种基于音频特征的歌曲智能识别方法，其包括以下步骤：

(1)服务器对歌曲建立音频特征库；

(2)在客户端设置好采样率，对外界歌曲进行录音t秒时间以上;

(3)然后采用特定的音频特征提取算法提取该段音频的特征值;

(4)处理完毕后，将音频特征参数通过网络上传到服务器;

(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配；

(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端；匹配失败则反馈匹配失败的信息。

作为本发明的进一步改进，所述步骤（1）中，服务器对歌曲建立音频特征库，具体如下：将音频数据流进行采样、分帧，假设分为x帧，通过对每帧PCM数据提取一个y位的0/1值作为特征，共提取y×x个特征值。Pulse Code Modulation----脉码调制录音, 所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列，再予以记录。

作为本发明的进一步改进，所述步骤（3）中具体操作如下：以一定的采样频率采集t秒的音频流得到PCM数据，对PCM数据分帧，设按N个采样点划分为一帧，对每一帧的采样点进行快速傅里叶变换，设每一帧采样点x (0), x (1), …, x(N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1)，其中

Figure 2011102858507100002DEST_PATH_IMAGE001

,,

Figure 2011102858507100002DEST_PATH_IMAGE003

为了提取y位的音频特征，把快速傅里叶变换之后的N个频域幅值，按照所在频带平均分成y+1等份，

计算每等份频带内各个频域值的绝对值的和S，用S(n,m)表示第n帧第m个等份频带所有频域幅值的和值，用F(n,m)表示第n帧第m个等份频带的特征值，则：

其中

，，

这样，每个音频帧共提取y个特征值，x为音频段的总帧数，这样整个音频流共采集了y × x个特征值。

作为本发明的进一步改进，数字录音装置的采样频率为44.1kHz。

作为本发明的进一步改进，频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz。

作为本发明的进一步改进，步骤（5）中匹配方法如下：

将音频流的y × x特征值组成y × x维特征向量A，用这个特征向量与歌曲特征库中已经事先提取保存的特征向量B进行匹配，判断是否是同一首歌曲，匹配采用计算向量余弦夹角的方法：

设置一个比较门限值为T，当向量余弦夹角d>T时，认为歌曲匹配成功，否则认为匹配不成功。

作为本发明的进一步改进，比较门限值为T取值范围在0.5~0.7之间。

本发明的有益效果是：本发明所提出的基于音频特征的歌曲识别系统实现方案不存在现有的其他类似系统在实际实现上对歌曲识别存在的困难：

（1）图1所示的方框图中将客户端和服务端分离开来，特别适合应用在智能手持终端和后端服务器。手持终端只需计算小数据量的音频特征片段然后发送即可，把歌曲特征匹配识别的大批量数据运算放在后端服务器由高性能处理器来完成，很好的平衡系统负载。

（2）在音频特征提取算法中，根据人耳听觉特性将音频频带等分，对每份频带幅值求模。采用等分频带的方法提取音频特征，得到的数据量比原始数据要小很多。

（3）采用计算空间向量夹角余弦的方法对样本歌曲特征片段和特征库进行匹配。特征片段和特征库中特征相似度越大，得到的值越接近于1。虽然实际录音中由于环境的嘈杂，会引入大量的噪声，但该匹配方法依然能很好的进行识别。

在基于音频特征提取方法的系统方案中，采用音频频段划分提取音频特征的方法和采用空间向量夹角余弦的匹配方法进行歌曲识别，能够准确有效的识别待识别歌曲。以服务端/客户端的方式实现特征算法提取处理和匹配识别过程分离所呈现的高效率和灵活性，充分验证了本发明所提出的歌曲识别实现方案的优越性。

【附图说明】

图1是本发明基于音频特征提取的歌曲识别客户端和服务端框架结构；

图2是本发明音频特征提取算法方框图。

【具体实施方式】

下面结合附图说明及具体实施方式对本发明进一步说明。

如图1所示，在客户端设置好采样率对外界歌曲进行录音t秒时间以上。然后采用特定的音频特征提取算法提取该段音频的特征参数。处理完毕后，将音频特征参数通过网络上传到服务器。服务器预先对歌曲建立了音频特征库，在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配。匹配成功则将歌曲的元信息如歌曲名称、歌手、专辑名称等发送到客户端；匹配失败则反馈匹配失败的信息。

如图2所示，将音频数据流进行采样、分帧，假设分为x帧，通过对每帧PCM数据提取一个y位的0/1值作为特征，共提取y×x（x为音频帧数）个特征值。每帧的y个0/1值可以用一个y位的数据保存，这样提取出的特征比原始音频小的多。

以一定的采样频率（例如一般数字录音装置的采样频率为44.1kHz）采集8到15秒的音频流得到PCM数据。对PCM数据分帧，设按N = 8192个采样点划分为一帧。对每一帧的采样点进行快速傅里叶变换，设每一帧采样点x (0), x (1), …, x (N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1)。其中

,

,

这些频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz，符合音频特征的感知相关特性。为了提取y位的音频特征，把快速傅里叶变换之后的N个频域幅值，按照所在频带平均分成y+1等份。例如，希望在每一帧内提取y = 49个特征向量，则可以把频率范围分为50等份。具体分法如下表：

帧号	频率范围(Hz)	帧号	频率范围(Hz)	帧号	频率范围(Hz)	帧号	频率范围(Hz)
								1	300~734	14	5942~6376	27	11584~12018	40	17226~17660
2	734~1168	15	6376~6810	28	12018~12452	41	17660~18094
								3	1168~1602	16	6810~7244	29	12452~12886	42	18094~18528
4	1602~2036	17	7244~7678	30	12886~13320	43	18528~18962
								5	2036~2470	18	7678~8112	31	13320~13754	44	18962~19396
6	2470~2904	19	8112~8546	32	13754~14188	45	19396~19830
								7	2904~3338	20	8546~8980	33	14188~14622	46	19830~20264
8	3338~3772	21	8980~9414	34	14622~15056	47	20264~20698
								9	3772~4206	22	9414~9848	35	15056~15490	48	20698~21132
10	4206~4640	23	9848~10282	36	15490~15924	49	21132~21566
								11	4640~5074	24	10282~10716	37	15924~16358	50	21566~22000
12	5074~5508	25	10716~11150	38	16358~16792
								13	5508~5942	26	11150~11584	39	16792~17226

计算每等份频带内各个频域值的绝对值的和S。用S(n,m)表示第n帧第m个等份频带所有频域幅值的和值，用F(n,m)表示第n帧第m个等份频带的特征值，则：

其中

，

。

将音频流的y × x特征值组成y × x维特征向量A，用这个特征向量可以与歌曲特征库中已经事先提取保存的特征向量B进行匹配，判断是否是同一首歌曲。匹配采用计算向量余弦夹角的方法：

设置一个比较门限值为T（一般取值范围在0.5~0.7），当向量余弦夹角d>T时，认为歌曲匹配成功，否则认为匹配不成功。匹配成功后，将数据库中存储的歌曲元信息通过网络发送给客户端，实现歌曲的识别信息显示。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于音频特征的歌曲智能识别方法，其特征在于：其包括以下步骤：

(1)服务器对歌曲建立音频特征库；

(3)然后采用特定的音频特征提取算法提取该段音频的特征值;

(4)处理完毕后，将音频特征参数通过网络上传到服务器;

(6)匹配成功则将歌曲的原信息发送到客户端；匹配失败则反馈匹配失败的信息；

所述步骤（3）中具体操作如下：以一定的采样频率采集t秒的音频流得到PCM数据，对PCM数据分帧，设按N个采样点划分为一帧，对每一帧的采样点进行快速傅里叶变换，设每一帧采样点x (0), x (1), …, x(N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1)，其中

, ,

Figure 2011102858507100001DEST_PATH_IMAGE003

其中

，

，

2.根据权利要求1所述的基于音频特征的歌曲智能识别方法，其特征在于：所述步骤（1）中，服务器对歌曲建立音频特征库，具体如下：将音频数据流进行采样、分帧，分为x帧，通过对每帧PCM数据提取一个y位的0/1值作为特征，共提取y×x个特征值。

3.根据权利要求1所述的基于音频特征的歌曲智能识别方法，其特征在于：数字录音装置的采样频率为44.1kHz。

4.根据权利要求1所述的基于音频特征的歌曲智能识别方法，其特征在于：频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz。

5.根据权利要求1所述的基于音频特征的歌曲智能识别方法，其特征在于：步骤（5）中匹配方法如下：

6.根据权利要求5所述的基于音频特征的歌曲智能识别方法，其特征在于：比较门限值为T取值范围在0.5~0.7之间。

7.根据权利要求1所述的基于音频特征的歌曲智能识别方法，其特征在于：歌曲的原信息为歌曲名称、歌手、专辑名称。