CN109903749B

CN109903749B - 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法

Info

Publication number: CN109903749B
Application number: CN201910143499.4A
Authority: CN
Inventors: 王龙标; 姚艳丽; 于强; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2021-04-02
Anticipated expiration: 2039-02-26
Also published as: CN109903749A

Abstract

生物证据表明局部时频信息能够有效处理带有噪声的信号，而且卷积神经网络广泛被应用到听觉处理领域。本发明提出了一种新的声音识别的方法，基于关键点编码和卷积神经网络进行鲁棒的声音识别方法，采用关键点编码的方法来提取局部时频信息，用卷积神经网络对声音进行识别分类。本发明使用RWCP数据库来评估系统性能。结果表明本发明提出的系统在噪声环境下可以有效地对声音进行分类。

Description

基于关键点编码和卷积神经网络进行鲁棒的声音识别方法

技术领域

本发明涉及声音识别、类脑计算领域，尤其是涉及如何设计优化合适的编码方法更接近于生物神经系统的处理方式进行鲁棒的声音识别。

背景技术

近几年来，声音识别受到了研究者们越来越多的关注，并被广泛应用到多媒体、房间和公共交通中的安全监控、野生动物区域的入侵者检测以及老年人监控等领域。特定声音往往与偶发重要事件或过程相关，有效及时的将这些声音探测识别出来，对于后续地采取处理行动至关重要。考虑到现实环境的动态复杂性，如何有效鲁棒地探测及识别声音逐渐成为了一个关键的热点科研及应用问题。

声音识别最开始是基于语音识别应用开展起来的。和语音识别相似，鲁棒性的声音识别主要依赖于不同的特征和分类器的选择。传统的声音识别通常借鉴语音识别的方法，例如采用梅尔频率倒谱系数(MFCC)提取特征，隐马尔科夫模型(HMM)进行分类。但是这种方法在噪声增加时，其识别性能会迅速变得很差。其中主要的原因是MFCC是在广泛的频率范围内去提取的特征，不能有效地抵抗噪声干扰。

和语音信号不同，声音信号具有更广泛的频率和振幅范围，实验表明，声音的这些独特的时频特性可以通过人类的听觉系统在低信噪比的情况下有效地处理听觉信息。基于这些独特特性，提出了各种提取声音特征的方法，例如语谱图图像特征。随着深度学习的发展，深度神经网络和卷积神经网络也应用到鲁棒性的声音识别上。但是，这种提取特征的方法比较复杂，而且是基于全局的语谱图提取的。但生物证据表明声音信息是通过局部的时频信息来表示的。

为了克服现有复杂特征表示的局限性，本发明提出一种更加简单、且更加具有生物可塑性的关键点编码的方法提取局部的时频信息，并结合性能比较好的卷积神经网络来对声音进行识别。

发明内容

本发明为克服现有技术的不足，提出一种有效的针对鲁棒性的声音识别的系统评估的方法。技术方案以RWCP音频数据库为处理对象，整个系统主要由数据预处理、特征提取和分类器分类三个部分组成。1)在数据预处理阶段，首先将声音信号通过分帧、加窗、短时傅里叶变换转换成语谱图，再对语谱图进行归一化和取对数操作，得到归一化之后的对数能量语谱图。2)在特征提取阶段，采用关键点(KP)编码来提取局部的频谱特征。3)在分类器分类阶段，采用卷积神经网络(CNN)对编码得到的特征图进行识别分类。

从RWCP音频数据库中选取了10类不同的声音。每类声音选择40个声音文件作为训练集，另外40个作为测试集。噪声数据是从NOISEX’92中选择的“speechbabble”噪声。

1)数据预处理部分

在数据预处理阶段，首先声音信号通过分帧、加窗、短时傅里叶变换得到二维的语谱图S_abs(t,f)，之后对语谱图进行归一化和取对数的操作，得到归一化的对数能量语谱图S_log(f,t)。取对数操作如下：

S_log(f,t)＝log(S_abs(t,f)+∈)-log(∈) (1)

其中，∈表示学习率。由于本发明所使用的数据库中不同的声音信号具有不同的时间长度，而CNN要求输入的大小是固定的，因此，采用填充零的方法得到固定尺寸的语谱图。

2)关键点编码

对于每一张固定的语谱图S_log(f,t),分别从局部的时间域和频率域采用一维的最大值滤波器提取关键点，来提取局部的时频信息。局部时域和频域区域定义如下：

Q_f(y)＝S_log(f±d,t),d∈{0,1,…,D} (2)

Q_t(y)＝S_log(f,t±d)

其中，Q_f表示局部纵向频域，Q_t表示局部横向时域。D设置为4表示局部区域的大小。

分别从时域和频域提取关键点信息。关键点定义如下：

提取的第i个关键点信息保存为K_i＝{f_i,t_i,s_i},f_i,t_i,s_i分别表示第i个点多对应的频率、时间以及对数能量值。

为了进一步提升关键点的稀疏性，去除可能属于背景噪声的一些不重要的信息，本发明采用两种掩码机制，分别是基于绝对值的掩码方法和基于相对值的掩码方法。在基于绝对值的掩码方法中，本发明采用一种宏观过滤机制，在关键点的值小于超参数β_a时，将会视其为背景噪声去除掉,β_a用来控制去除关键点的数目。在相对的对比度掩码方法中，本发明根据以下规则去除关键点：

P(s_i)＝β_r×s_i-mean{S_log(f±d,t±d)} (4)

其中，β_r是另一个调整系数。如果P(s_i)>0则保留关键点，否则将其视为背景噪声删除掉。最后，提取出更加稀疏的关键点信息。

将提取的关键点信息映射到二维的脉冲时空图上，完成编码阶段。

3)分类器

CNN是一个多层神经网络，主要有卷积层、池化层和全连接层组成。CNN的这种分层结构使得其在图像处理中有很多优势，关键点图也可看成一张具有时频信息的图像，而且CNN具有时移不变性的特性，使得CNN更加适合于声音识别任务。因此，本发明使用CNN处理编码的关键点图，进行鲁棒性声音的识别。

有益效果

本发明的鲁棒声音识别首次将关键点编码方法和卷积神经网络结合起来，并在编码时分别采用绝对和相对的掩码机制来提升关键点编码的鲁棒性和稀疏性，和传统的声音识别方法相比得到了比较好的识别性能。

附图说明

图1是基于KP和CNN的系统架构图；

图2显示了一个关键点编码的详细步骤框图。

具体实施方式

下面结合附图和附表对本发明中的作用和效果进行展示。

本示例以RWCP数据库为例来给出发明的实施方式。整个系统流程如图1所示，包括RWCP数据集输入预处理、数据特征的关键点编码、CNN训练进行分类这三个步骤。

1)RWCP数据集预处理

从RWCP数据库中选取10类不同的声音进行分类，分别是：铃声、瓶子声、蜂鸣器声音、大镲声、喇叭声、卡拉、金属。每一类声音文件随机选取40个作为训练集，另外40个作为测试集，总共400个训练样本，400个测试样本。为了评估在不匹配情况下的识别性能，从NOISEX’92中选取“speech babble”噪声。

为了证明系统的鲁棒性，分别采用了干净以及20dB、10dB、0dB和-5dB的信噪比的声音数据，这些声音数据首先通过分帧、加窗、短时傅里叶变换转换为语谱图，再经过归一化和取对数操作对语谱图进行预处理得到归一化的对数能量语谱图。对每个声音信号提取语谱图时，窗长设置为16ms，窗移设置为8ms，窗函数使用的是汉明窗。

2)关键点编码

运用关键点编码方法结合掩码机制进行特征提取，采用一维的最大值滤波器进行局部时频信息的提取，局部区域长度设置为4，提取到的关键点信息经过映射得到稀疏的脉冲时空图，图2显示了得到数据编码的脉冲图的细节步骤框图。

3)CNN分类

在获取声音数据的脉冲序列之后，运用CNN训练分类，通过调整权重来训练模型。CNN的结构采用4层卷积层和一个全连接层组成，另外除了输入层和输出层之外，每一层都是用ReLU作为激活函数，并使用batch normalization防止过拟合。输出层采用softmax进行分类。

表1在干净环境下训练，不同信噪比下测试各方法声音分类的准确率

方法	MFCC-HMM	SPEC-CNN	KP-CNN
				Clean	99.0％	99.83％	99.88％
20dB	62.1％	99.88％	99.85％
				10dB	34.4％	98.93％	99.68％
0dB	21.8％	83.65％	94.43％
				-5dB	19.5％	58.08％	84.80％
平均	47.3％	88.07％	95.73％

表1列出了在没有噪声训练，不同信噪比下测试，不匹配条件下不同实验方法的实验结果，其中MFCC-HMM是传统的方法，SPEC-CNN是直接用语谱图作为CNN输入的方法，KP-CNN是在SPEC-CNN基础上增加关键点编码的方法，通过表1可以看出KP-CNN的方法在有噪声的情况下可以得到更加鲁棒的分类效果。

表1是在没有噪声的训练，不同信噪比下测试时不同方法声音分类的准确率；

表2是在带噪条件下训练，不同的信噪比下测试使用不同方法得到的声音分类的准确率。

表2在带噪条件下训练，不同信噪比下测试声音分类的准确率

方法	SPEC-CNN	KP-CNN
			Clean	99.89％	99.93％
20dB	99.89％	99.93％
			10dB	99.89％	99.73％
0dB	99.11％	98.13％
			-5dB	91.17％	94.75％
平均	98.04％	98.49％

为了进一步提升声音分类的鲁棒性，表2列出了在带噪条件下训练，不同信噪比下测试的结果，表2的实验结果表明，采用带噪训练，可以进一步提升声音分类的鲁棒性。

Claims

1.基于关键点编码和卷积神经网络进行鲁棒的声音识别方法,其特征在于，包括如下步骤：

1)数据预处理

在数据预处理阶段，首先声音信号通过分帧、加窗、短时傅里叶变换得到二维的语谱图S_abs(t,f)，之后对语谱图进行归一化和取对数的操作，得到归一化的对数能量语谱图S_log(f,t)，取对数操作如下：

S_log(f,t)＝log(S_abs(t,f)+∈)-log(∈) (1)

其中，∈表示学习率，由于本发明所使用的数据库中不同的声音信号具有不同的时间长度，而CNN要求输入的大小是固定的；

2)关键点编码

对于每一张固定的语谱图S_log(f,t),分别从局部的时间域和频率域采用一维的最大值滤波器提取关键点，来提取局部的时频信息；

局部时域和频域区域定义如下：

Q_f(y)＝S_log(f±d,t),d∈{0,1,…,D} (2)

Q_t(y)＝S_log(f,t±d)

其中，Q_f表示局部纵向频域，Q_t表示局部横向时域，D设置为4表示局部区域的大；

分别从时域和频域提取关键点信息，关键点定义如下：

提取的第i个关键点信息保存为K_i＝{f_i,t_i,s_i},f_i,t_i,s_i分别表示第i个点多对应的频率、时间以及能量值；

3)分类器分类：使用CNN处理编码的关键点图，进行鲁棒性声音的识别；

提升所述步骤2)中关键点的稀疏性，采用两种掩码机制，分别是基于绝对值的掩码方法和基于相对值的掩码方法；

在基于绝对值的掩码方法中，采用一种宏观过滤机制，在关键点的值小于超参数β_a时，将会视其为背景噪声去除掉,β_a用来控制去除关键点的数目,在相对的对比度掩码方法中，根据以下规则去除关键点：

P(s_i)＝β_r×s_i-mean{S_log(f±d,t±d)} (4)

其中，β_r是另一个调整系数，如果P(a_i)>0则保留关键点，否则将其视为背景噪声删除掉；

最后，提取出更加稀疏的关键点信息；