CN109473120A

CN109473120A - 一种基于卷积神经网络的异常声音信号识别方法

Info

Publication number: CN109473120A
Application number: CN201811350942.7A
Authority: CN
Inventors: 姜彦吉; 荆德吉; 葛少成; 郭羽含
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-15

Abstract

本发明提供一种基于卷积神经网络的异常声音信号识别方法，涉及声信号分类与识别技术领域。该方法首先利用现有的异常声音库采集6种异常声音样本，构成样本声音库，并形成带噪样本；然后对样本声音库中的声音进行预处理，并按照在时间和频域两个维度上排列成为二维的声音特征图，作为卷积神经网络模型的输入；使用代价函数计算训练集的实际输出结果与标签结果之间的误差，利用反向传播算法传递差值，并更新卷积神经网络的全连接层中的权值向量；使用监督学习方法训练卷积神经网络模型；最后输入测试集中的数据，验证卷积神经网络模型的准确性。本发明提供的基于卷积神经网络的异常声音信号识别方法，能够更加高效准确的识别出异常声音信号。

Description

一种基于卷积神经网络的异常声音信号识别方法

技术领域

本发明涉及声信号分类与识别技术领域，尤其涉及一种基于卷积神经网络的异常声音信号识别方法。

背景技术

工业生产过程中持续产生的噪声会对人体造成多方面的伤害，对人体的听力系统、神经系统有长期不可逆损伤；另一方面持续大量的噪声会淹没生产中有用的声信号，比如发生事故或危险后无法及时听到报警信号，铃声等，不能及时主动逃脱危险，对现场人们造成更大伤害，因此除了需要应用各种技术手段消除或减小工作环境中的噪声之外，对于难以彻底消除的噪声，要能在噪声环境中及时监控并辨别各类危险信号或警报声音信号，提高预警危险事件的准确率。对此类警示性声音识别中的采集过程相对于图像识别过程相比，更为容易简单，存储需求也更小，因此，对于声音信号的识别与分类的计算复杂度相对较低，效率也可以有效的提高，亦可以用于隐私性较高的环境。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于卷积神经网络的异常声音信号识别方法，实现对异常声音的分类。

为解决上述技术问题，本发明所采取的技术方案是：一种基于卷积神经网络的异常声音信号识别方法，包括以下步骤：

步骤1、通过语音采集系统对声音进行采集，利用现有的异常声音库，共采集爆炸声、建筑坍塌声、撞击声、警报声、铃声、呼救声6种异常声音，每种声音采集N个样本，共采集6N个样本，构成样本声音库，其中包括五种不同的信噪比，分别为0dB、5dB、10dB、15dB与无噪声；并将采集的样本利用babble噪声形成带噪样本，加噪公式如下公式所示：

f(t)＝h₁*S(t)+h₂*n(t)

其中，f(t)表示带噪声音信号，S(t)表示未带噪声音信号，n(t)表示babble噪声，h₁、h₂均为根据信噪比来决定的混合矩阵，*表示线性卷积；

将这些带噪样本分为测试集与训练集两部分，根据五种不同的信噪比，分别对每种声音随机抽取70％作为卷积神经网络中的训练集，随机抽取50％作为网络中的测试集；

步骤2、对样本声音库中的声音进行预处理；利用动态时间规整方法将样本声音库中所有异常声音规整为相同帧数，选择帧长256个采样点，帧移为128个采样点以及汉明窗进行分帧加窗操作，每一帧提取36维MFCC特征参数，其中包括MFCC系数、ΔMFCC和ΔΔMFCC，保证异常样本数量的特征向量排列成为相同的特征图输入到卷积神经网络；

步骤3、将步骤2预处理的异常声音信号按照在时间和频域两个维度上排列成为二维的声音特征图，作为卷积神经网络模型的输入，具体方法为：

所述卷积神经网络模型包括依序连接的两个卷积层、一个子采样层、一个卷积层、一个子采样层、一个全连接层以及一个Softmax分类层，具体为：

(1)卷积层C1，卷积核大小为2*2，步长为1，卷积核个数为10，无填充；

(2)子采样层S1，子采样窗口大小为2*2，步长为1，采样方法采用最大值采样方法；

(3)卷积层C3，卷积核大小为2*2，步长为1，卷积核个数为10，无填充；

(4)子采样层S2，子采样窗口大小为2*2，步长为1，采样方法采用最大值采样方法；

(5)全连接层，将子采样层S2的输出特征图转化为一维向量；

(6)Softmax分类层，采用六个神经元，与全连接层中的神经元进行全连接，得到六个预测值；

步骤3.1、将训练集中的声音特征图进行卷积运算操作，将2*2卷积核从左上端开始卷积，每次操作完成后，根据步长为1开始卷积操作，直至遍历整个声音特征图，最后得到一个二维的卷积特征图；

所述卷积层第l层的j个特征图的输出函数如下公式所示：

其中，l表示第l层，即为当前层，l-1即表示前一层；表示第l层的排列顺序为j的特征图；w_i，j表示当前层与前一层特征图的卷积核；表示当前层的排列顺序为j的特征图的偏置；表示前一层第i个特征图；θ()为激励函数；M表示当前层特征图个数；表示当前层第j个特征图连接前一层特征图的数量；

为保证卷积神经网络被快速训练，减少网络的参数个数，将设置为0，激励函数θ()采用ReLUs函数，解决Sigmoid与Tanh函数极易出现梯度消失现象，卷积神经网络模型无法收敛的问题；所述ReLUs函数如下公式所示：

f(y)＝max(0，y)

其中，y表示的值，ReLUs函数将该值与0作比较，解决了梯度消失的现象；

步骤3.2、利用最大值采样方法对步骤3.1得到的卷积特征图进行处理，减少卷积特征图的参数数量，如下公式所示：

其中，R_i表示第i个子采样区域，a_i表示在R_i范围内的特征图，S_i为第i个子采用区域的最大值；最大子采样法是挑选概率值a_i中最大的值作为最终的子采样结果；

步骤3.3、重复步骤3.1与3.2，得到最终的子采样结果，并通过全连接层将子采样结果中的二维向量转化为一维向量；

所述全连接层的输入公式如下公式所示：

H_w，b(x)＝δ(W^Tx+b)

其中，H_w，b(x)表示全连接层的输出，x表示全连接层输入的一个特征向量，W为全连接层的权值向量；b表示偏置向量，δ()表示全连接层的激励函数，如下公式所示：

步骤3.4、将全连接层中的一维向量输入到Softmax分类器中，得到六个预测值，作为最终的分类结果；

步骤4、使用代价函数计算训练集的实际输出结果与标签结果之间的误差，利用反向传播算法传递差值，并通过权值更新公式更新卷积神经网络的全连接层中的权值向量W，如下公式所示：

其中，J(W，b)表示代价函数，h_w，b(x_ij)表示样本的实际输出值，y_i为该样本的标签值，m表示训练集中的语音信号数量，x_ij表示语音信号中的幅值；

使用监督学习方法训练卷积神经网络模型，训练完后，保存训练完成的网络模型，设定监督学习方法的迭代次数为10次；

步骤5、输入测试集中的数据，计算出识别率，验证卷积神经网络模型的准确性。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于卷积神经网络的异常声音信号识别方法，将卷积神经网络应用于声音信号辨别中，得到对于声音信号的分类结果。由一对或多对卷积层与采样层代替全连接的隐藏层，这样在输出结果时，利用全连接层将所有频带的特征信息连接起来整合成一维的特征向量，对于分类结果具有更高的准确率。最终通过这种方法达到识别异常声音信号的效果。同时，卷积神经网络采用局部感受野的连接方式，降低了网络的复杂度，加快了模型的收敛速度。

附图说明

图1为本发明实施例提供的一种基于卷积神经网络的异常声音信号识别方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于卷积神经网络的异常声音信号识别方法，如图1所示，包括以下步骤：

步骤1、通过语音采集系统对声音进行采集，利用现有的异常声音库，共采集爆炸声、建筑坍塌声、撞击声、警报声、铃声、呼救声6种异常声音，每种声音采集1500个样本，共采集9000个样本，构成样本声音库，其中包括五种不同的信噪比，分别为0dB、5dB、10dB、15dB与无噪声；将采集的样本利用babble噪声形成带噪样本，加噪公式如下公式所示：

f(t)＝h₁*S(t)+h₂*n(t)

步骤2、对样本声音库中的声音进行预处理；由于声音信号具有很大的随机性，每个异常声音样本时间长度不一致，所以每个异常声音样本的帧数也不相同，因此，利用动态时间规整方法将样本声音库中所有异常声音规整为相同帧数，选择帧长256个采样点，帧移为128个采样点以及汉明窗进行分帧加窗操作，每一帧提取36维MFCC特征参数，其中包括MFCC系数、ΔMFCC和ΔΔMFCC，保证异常样本数量的特征向量排列成为相同的特征图输入到卷积神经网络；

步骤3、由于卷积神经网络的输入向量为二维向量，因此，将步骤2预处理的异常声音信号按照在时间和频域两个维度上排列成为二维的声音特征图，作为卷积神经网络模型的输入，具体方法为：

(5)全连接层，将子采样层S2的输出特征图转化为一维向量；

步骤3.1、将训练集中的声音特征图进行卷积运算操作，将2*2卷积核从左上端开始卷积，每次操作完成后，根据步长为1开始卷积操作，直至遍历整个声音特征图，最后得到一个二维的卷积特征图；卷积层第l层的j个特征图的输出函数如下公式所示：

其中，l表示第l层，即为当前层，l-1即表示前一层；表示第l层的排列顺序为j的特征图；wi，j表示当前层与前一层特征图的卷积核；表示当前层的排列顺序为j的特征图的偏置；表示前一层第i个特征图；θ()为激励函数；M表示当前层特征图个数；表示当前层第j个特征图连接前一层特征图的数量；

f(y)＝max(0，y)

所述全连接层的输入公式如下公式所示：

H_w，b(x)＝δ(W^Tx+b)

本实施例中，根据实验验证，α取0.005。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于卷积神经网络的异常声音信号识别方法，其特征在于：包括以下步骤：

步骤1、通过语音采集系统对声音进行采集，利用现有的异常声音库，共采集爆炸声、建筑坍塌声、撞击声、警报声、铃声、呼救声6种异常声音，每种声音采集N个样本，共采集6N个样本，构成样本声音库，其中包括五种不同的信噪比，分别为0dB、5dB、10dB、15dB与无噪声；并将采集的样本利用babble噪声形成带噪样本；

所述卷积层第l层的j个特征图的输出函数如下公式所示：

所述全连接层的输入公式如下公式所示：

H_w，b(x)＝δ(W^Tx+b)

2.根据权利要求1所述的一种基于卷积神经网络的异常声音信号识别方法，其特征在于：步骤1所述将采集的样本利用babble噪声形成带噪样本，加噪公式如下公式所示：

f(t)＝h₁*S(t)+h₂*n(t)

其中，f(t)表示带噪声音信号，S(t)表示未带噪声音信号，n(t)表示babble噪声，h₁、h₂均为根据信噪比来决定的混合矩阵，*表示线性卷积。

3.根据权利要求1所述的一种基于卷积神经网络的异常声音信号识别方法，其特征在于：所述卷积神经网络模型包括依序连接的两个卷积层、一个子采样层、一个卷积层、一个子采样层、一个全连接层以及一个Softmax分类层，具体为：

(5)全连接层，将子采样层S2的输出特征图转化为一维向量；

(6)Softmax分类层，采用六个神经元，与全连接层中的神经元进行全连接，得到六个预测值。

4.根据权利要求1所述的一种基于卷积神经网络的异常声音信号识别方法，其特征在于：所述步骤3.1为保证卷积神经网络被快速训练，减少网络的参数个数，将设置为0，激励函数θ()采用ReLUs函数，解决Sigmoid与Tanh函数极易出现梯度消失现象，卷积神经网络模型无法收敛的问题；所述ReLUs函数如下公式所示：

f(y)＝max(0，y)

其中，y表示的值，ReLUs函数将该值与0作比较，解决了梯度消失的现象。