CN110164472A

CN110164472A - 基于卷积神经网络的噪声分类方法

Info

Publication number: CN110164472A
Application number: CN201910320417.9A
Authority: CN
Inventors: 张涛; 刘阳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-08-23

Abstract

一种基于卷积神经网络的噪声分类方法，包括：对输入的噪声信号进行分帧加窗，窗长为10ms～30ms；对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征，构成大小为12*24的二维矩阵；搭建卷积神经网络，所述卷积神经网络由输入层、隐藏层、全连接层和输出层构成，其中，所述的隐藏层是由1个以上的卷积层和1个以上的池化层间隔设置构成；对卷积神经网络进行训练；将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络，得到分类结果。本发明能够有效提高噪声分类的准确率，本发明所提出的基于卷积神经网络的噪声分类方法的输入特征大小仅为12*24，有效降低了卷积神经网络的计算复杂度。

Description

基于卷积神经网络的噪声分类方法

技术领域

本发明涉及一种噪声分类方法。特别是涉及一种基于卷积神经网络的噪声分类方法。

背景技术

噪声的类型众多，其特性也各不相同，根据噪声的特性，可以将噪声分为以下几类：冲激噪声、周期噪声、宽带噪声、语音干扰、背景噪声以及传输噪声。研究表明，要得到更好的语音增强、识别、编码效果，首先要区分语音信号被哪一类噪声所污染，进而采取不同的解决方案。因此，噪声分类算法是必不可少的。

目前，噪声分类算法众多，提升分类准确率的关键就技术有两点：一是提取噪声的何种特征，二是采用何种分类技术。

目前常用的特征包括：自适应子波特征、短时自相关函数(Short Auto-correlation Function, SACF)、bark域能量分布、梅尔倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、一阶差分梅尔倒谱系数(first-order MFCC,ΔMFCC)、离散傅里叶系数、线性预测编码系数等。

目前常用的噪声分类技术众多，包括基于隐马尔科夫模型(Hidden MarkovModel,HMM) 的噪声分类算法、基于混合高斯模型(Gaussian Mixture Model,GMM)的噪声分类算法、基于支持向量机(Support Vector Machine,SVM)的噪声分类算法以及基于神经网络的噪声分类算法等。但目前提出的噪声分类算法对噪声分类的准确率不高，特别是对非平稳噪声，这类统计特性较差的噪声识别准确率较低。

发明内容

本发明所要解决的技术问题是，提供一种能够有效提升噪声分类算法的准确率和鲁棒性的基于卷积神经网络的噪声分类方法。

本发明所采用的技术方案是：一种基于卷积神经网络的噪声分类方法，包括如下步骤：

1)对输入的噪声信号进行分帧加窗，窗长为10ms～30ms；

2)对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征，构成大小为12*24的二维矩阵；

3)搭建卷积神经网络，所述卷积神经网络由输入层、隐藏层、全连接层和输出层构成，其中，所述的隐藏层是由1个以上的卷积层和1个以上的池化层间隔设置构成；

4)对卷积神经网络进行训练；

5)将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络，得到分类结果。

步骤2)所述的频域特征是梅尔倒谱系数和一阶差分梅尔倒谱系数，所述的时域特征为多帧串联的长时特征。

步骤2)包括：

提取频域特征：

对噪声信号进行快速傅里叶变换，表示为X(k)，k表示频率点，则梅尔滤波器能量S(m)表示为：

式中H_m(k)表示第m个梅尔滤波器的频率响应，M为梅尔滤波器的个数，N表示每一帧长度；

将梅尔滤波器能量取对数后计算离散余弦变换得到第n维梅尔倒谱系数mfcc(n)：

式中L为梅尔倒谱系数的维度；

一阶差分梅尔倒谱系数是对梅尔倒谱系数进行一阶差分得到；

提取时域特征：

时域特征由当前帧信号的频域特征与当前帧信号之前6帧和之后5帧共12帧信号的频域特征组成；

最终的频域特征和时域特征共同构成一个大小为12*24的二维矩阵。

步骤3)中所述的输入层用于输入每一帧噪声信号的频域特征和时域特征；所述的卷积层是卷积神经网络的核心，每个卷积层由一组可学习的滤波器组成，不同卷积层中的滤波器个数不同，在前馈期间，用于对输入进行卷积，计算滤波器和输入之间的点积，并产生该滤波器的二维激活图；所述的池化层的作用是减小数据处理量同时保留有用信息；所述的全连接层的作用是对经过多个卷积层和多个池化层后所得出来的高级特征进行全连接，算出最后的预测值；所述的输出层用于输出噪声分类结果。

步骤4)包括：

(1)对卷积神经网络进行权值的初始化；

(2)将每一帧噪声信号经输入层依次进入隐藏层、全连接层和输出层得到输出值；

(3)求出卷积神经网络的输出值与设定的目标值之间的误差；

(4)根据第(3)步所述的误差分别求各卷积层、各池化层和全连接层的误差，根据求得的该误差进行权值更新；

(5)当达到预设的最大训练次数时，结束训练；否则返回第(2)步继续训练。

本发明的基于卷积神经网络的噪声分类方法，能够有效提高噪声分类的准确率，不论是对white噪声等平稳噪声，还是对machinegun噪声和babble噪声等非平稳噪声本发明所提出的方法均能有限提高分类的准确率，对于除了Factory1噪声外的14类噪声，本发明提出的方法可达到90％以上的识别准确率，对F16、Hfchannel、Factory2以及machingun噪声的分类准确率可以达到100％，对Factory1噪声也可以达到89％的分类准确率；依靠卷积神经网络的泛化能力，有效提高了本发明提出方法的鲁棒性；本发明所提出的基于卷积神经网络的噪声分类方法的输入特征大小仅为12*24，有效降低了卷积神经网络的计算复杂度。

附图说明

图1是本发明的基于卷积神经网络的噪声分类方法构成框图；

图2是本发明中卷积神经网络的结构示意图。

具体实施方式

下面结合实施例和附图对本发明的基于卷积神经网络的噪声分类方法做出详细说明。

如图1所示，本发明的基于卷积神经网络的噪声分类方法，包括如下步骤：

1)混合语音中语音信号是短时平稳信号，因此需要对语音信号作分帧加窗处理，而噪声信号也需要进行分帧加窗处理。本发明对输入的噪声信号进行分帧加窗，窗长为10ms～30ms；

2)由于卷积神经网络的输入是二维向量，将噪声作为二维信号输入时，要对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征，构成大小为12*24的二维矩阵；所述的频域特征是梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和一阶差分梅尔倒谱系数(first-order MFCC,ΔMFCC)，所述的时域特征为多帧串联的长时特征。该步骤包括：

提取频域特征：

对噪声信号进行快速傅里叶变换(Fast Fourier Transform,FFT)，表示为X(k)，k表示频率点，则梅尔滤波器能量S(m)表示为：

将梅尔滤波器能量取对数后计算离散余弦变换(Discerte Cosine Transform，DCT)得到梅尔倒谱系数mfcc(n)：

提取时域特征：

3)搭建卷积神经网络，如图2所示，所述卷积神经网络由输入层1、隐藏层2、全连接层3和输出层4构成，其中，所述的隐藏层是由1个以上的卷积层2.1和1个以上的池化层 2.2间隔设置构成；其中

所述的输入层1用于输入每一帧噪声信号的频域特征和时域特征；所述的卷积层2.1是卷积神经网络的核心，每个卷积层2.1由一组可学习的滤波器组成，不同卷积层2.1中的滤波器个数不同，在前馈期间，用于对输入进行卷积，计算滤波器和输入之间的点积，并产生该滤波器的二维激活图，简单来说，卷积层是用来对输入层进行卷积，提取更高层次的特征；所述的池化层2.2的作用是减小数据处理量同时保留有用信息；所述的全连接层3的作用是对经过多个卷积层2.1和多个池化层2.2后所得出来的高级特征进行全连接，算出最后的预测值；所述的输出层4用于输出噪声分类结果。

4)对卷积神经网络进行训练；包括：

(1)对卷积神经网络进行权值的初始化；

(2)将每一帧噪声信号经输入层1依次进入隐藏层2、全连接层3和输出层4得到输出值；

(3)求出卷积神经网络的输出值与设定的目标值之间的误差；

(4)根据第(3)步所述的误差分别求各卷积层2.1、各池化层2.2和全连接层3的误差，根据求得的该误差进行权值更新；

采用本发明的基于卷积神经网络的噪声分类方法，对噪声进行分类的准确率如表1示。

表1

噪声类型	Pink	Factory1	F16	Destroyerengine	Buccaneer1
						准确率	98.4％	89％	100％	99％	99％
噪声类型	Babble	White	Hfchannel	Factory2	Buccaneer2
						准确率	96.7％	96.6％	100％	100％	96.5％
噪声类型	Volvo	Machinegun	M109	Leopard	Destroyerops
						准确率	99.9％	100％	99.7％	99.3％	98.4％

下面给出具体实例：

第一步：预处理

对Noisex-92噪声库中的15类噪声信号进行分帧加窗，每一帧信号的帧长为512个采样点，窗函数选用汉明窗。将每一个连续的12帧信号作为一个噪声样本，从中选取60000个样本作为训练集，10000个样本作为测试集。

第二步：提取特征

将样本中的每一帧信号提取24维的MFCC和ΔMFCC特征，将每一个样本中共12帧信号的特征值组合为一个大小为12*24的二维矩阵作为每一个样本的时频特征。

第三步：搭建CNN结构

CNN网络由输入层1，第一个卷积层2.1，第一个池化层2.2，第二个卷积层2.1，第二个池化层2.2，全连接层3和输出层4构成。如图1所示。

输入层是一个大小为12*24的二维矩阵；第一卷积层有6个滤波器，每个滤波器的大小为5*5；第一池化层的降采样比例为2：1；第二卷积层有12个滤波器，每个滤波器的大小为 3*3；第二个池化层的降采样比例为2：1；输出层有15个节点。

第四步：CNN网络的训练

利用CNN网络进行噪声分类的任务主要分为两个阶段：训练阶段和工作阶段。

先使用训练集对CNN网络进行训练，得到噪声分类准确率最高的网络，训练迭代次数设置为50次，批训练样本数量为50。

得到训练完成后的CNN网络，并使用训练完成后的CNN网络对测试集进行分类。

Claims

1.一种基于卷积神经网络的噪声分类方法，其特征在于，包括如下步骤：

1)对输入的噪声信号进行分帧加窗，窗长为10ms～30ms；

3)搭建卷积神经网络，所述卷积神经网络由输入层(1)、隐藏层(2)、全连接层(3)和输出层(4)构成，其中，所述的隐藏层是由1个以上的卷积层(2.1)和1个以上的池化层(2.2)间隔设置构成；

4)对卷积神经网络进行训练；

2.根据权利要求1所述的基于卷积神经网络的噪声分类方法，其特征在于，步骤2)所述的频域特征是梅尔倒谱系数和一阶差分梅尔倒谱系数，所述的时域特征为多帧串联的长时特征。

3.根据权利要求1所述的基于卷积神经网络的噪声分类方法，其特征在于，步骤2)包括：

提取频域特征：

式中L为梅尔倒谱系数的维度；

提取时域特征：

4.根据权利要求1所述的基于卷积神经网络的噪声分类方法，其特征在于，步骤3)中所述的输入层(1)用于输入每一帧噪声信号的频域特征和时域特征；所述的卷积层(2.1)是卷积神经网络的核心，每个卷积层(2.1)由一组可学习的滤波器组成，不同卷积层(2.1)中的滤波器个数不同，在前馈期间，用于对输入进行卷积，计算滤波器和输入之间的点积，并产生该滤波器的二维激活图；所述的池化层(2.2)的作用是减小数据处理量同时保留有用信息；所述的全连接层(3)的作用是对经过多个卷积层(2.1)和多个池化层(2.2)后所得出来的高级特征进行全连接，算出最后的预测值；所述的输出层(4)用于输出噪声分类结果。

5.根据权利要求1所述的基于卷积神经网络的噪声分类方法，其特征在于，步骤4)包括：

(1)对卷积神经网络进行权值的初始化；

(2)将每一帧噪声信号经输入层(1)依次进入隐藏层(2)、全连接层(3)和输出层(4)得到输出值；

(3)求出卷积神经网络的输出值与设定的目标值之间的误差；

(4)根据第(3)步所述的误差分别求各卷积层(2.1)、各池化层(2.2)和全连接层(3)的误差，根据求得的该误差进行权值更新；