CN109599126A

CN109599126A - 一种基于mel能量谱和卷积神经网络的声音故障识别方法

Info

Publication number: CN109599126A
Application number: CN201811642820.5A
Authority: CN
Inventors: 陈曦; 蓝志坚; 陈卓; 李学辉; 喻春霞; 容伯杰
Original assignee: Guangzhou Feng Shi Technology Co Ltd
Current assignee: Guangzhou Feng Shi Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-09
Anticipated expiration: 2038-12-29
Also published as: CN109599126B

Abstract

本发明公开了一种基于mel能量谱和卷积神经网络的声音故障识别方法，首先将初始输入的音频数据进行预加重，之后需要对数据进行分帧、加窗处理，然后要对分帧、加窗后的音频信号进行快速傅里叶变换，提取频域上的能量特征之后，将能量谱通过一组Mel尺度的三角形滤波器组，之后对每一帧对应不同频域的能量作为Y轴，时域上不同帧作为X轴，将数据转换为梅尔能量谱图。此后，需要进一步对能量谱图进行分帧，以适应CNN(卷积神经网络)的输入，每一帧为一个样本，每个样本对应的标签的独热编码作为CNN网络的输出，对CNN网络模型进行训练，直到网络训练误差达到最低。在预测时，输出每一类标签的概率值，取概率值最大的标签作为最终的判别结果。

Description

一种基于mel能量谱和卷积神经网络的声音故障识别方法

技术领域

本发明AI声音故障检测识别领域，更具体地，涉及一种基于mel能量谱和卷积神经网络的声音故障识别方法。

背景技术

大型空调冷却设备在现实应用中已经相当普及，对于其发生故障的检测，大多采用了人工检测的方式。专业的工作人员进行巡视检查的方法，可以凭借工作人员的感官和感觉，检查设备的外观、震动、运行声音等，以此来判定设备是否发生破损、松动等异常。这种方式简单方便，但是得到的信息十分有限，且工作人员的知识技能、经验以及观察能力差异化较大，巡视的结果也难以让人满意。

发明内容

本发明的目的是解决现有技术中工作人员判别差异大、信息传达速度慢以及检测成本高的缺陷，提出一种基于mel能量谱和卷积神经网络的声音故障识别方法。

为实现以上发明目的，采用的技术方案是：

一种基于mel能量谱和卷积神经网络的声音故障识别方法，其特征在于，包括以下步骤：

S1：对语音信号进行预加重，增加声音的高频分辨率；

S2：对语音信号进行分帧处理，通过将N个语音信号上的采样点组合为一个观测单位即为为帧，两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，M的值为N的1/2或1/3；

S3：对语音信号进行加窗处理，通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征，其中窗函数为：

n＝0，1…，N-1，N为帧的大小；

S4：乘上汉明窗后的各帧信号进行快速傅里叶变换，得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱，设语音信号的DFT为：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

S5：将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，...，M；M取22-26，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

三角滤波器的频率响应定义为：

式中：

f(m)为中心频率，k为频率；

S6：计算每个滤波器组输出的对数能量：

m＝0，1…，M，M为滤波器个数，H_m(k)为滤波器的频率响应；

S7：转换为梅尔能量谱图；步骤S2的分帧是在采样点上进行的，对N个采样点作为一帧进行之后步骤的一系列操作后，最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值，而X轴以帧数作为单位，由此得到一张梅尔能量谱图；

S8：以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度，以Y轴所有数据作为一帧的宽度，对梅尔能量谱图进行分帧。等同于将一个梅尔能量谱他按照X轴切为多个分段，其中每一段作为一个样本，作为下一阶段卷积神经网络的输入。此步骤的分帧步长，和分帧长度相等，即相邻两帧没有重叠的部分；

S9：搭建CNN网络；其中包含了5个2维卷积层，3个全连接层，2个最大池化层，此外为了缓解过拟合，设置了3层dropout；而在第一层卷积层后，增加了一层batch_normalization以加快收敛速度；CNN网络最后一层使用softmax激活函数：

其中，j＝1，…，K，K为分类的最大类别；，z为网络最后一层输出；

S10：把进一步分帧的梅尔能量谱图，一帧作为一个样本，以16个样本为一个包(batch)，放入CNN网络的输入进行训练，以样本对应的标签的独热编码为输出，采用BP算法进行迭代优化，不断更新CNN网络的参数，使得输出的预测误差达到最小；当继续训练不能使得验证集的数据误差降低的时候，停止算法优化；

S11：将前向传播的结果和真实输出值计算交叉熵误差(Cross-entropy)，具体计算公式为：

其中N为类别数量，为模型输出值，y为真实值，L为损失函数；

S12：根据链式求导法则，计算各层神经元的梯度项，使得误差减小；

S13：根据计算出的梯度项，采用Momentum优化方法更新各层神经元参数；

S14：重复步骤S10到步骤S13，直到误差达到指定最小值，或者超出循环次数epoch跳出循环；

S15：将经过预处理的数据，放入CNN网络进行前向传播，取最后一层输出概率最大的类别，作为最终的判定结果。

优选的是，步骤S1所述预加重一阶FIR高通滤波器实现，采用的传递函数为H(z)＝1-az^-1，其中a为预加重系数。

优选的是，步骤S2所述N个语音信号中N的值为256或512。

与现有技术相比，本发明的有益效果是：

1)节约人力，大大减少值班人员在强噪声环境下的工作时间，即改善了工作条件，又使企业达到国家有关噪声卫生标准；

2)声音故障识别算法可分性强、稳定性高，在外界的客观条件发生变化时有良好的适应性；

3)对于检测的结果可以及时的介入管理信息系统，通知对应的维修人员进行及时的修理，大大缩短了维修的反应时间，降低进一步发生故障的可能性。

具体实施方式

以下结合实施例对本发明做进一步的阐述。

实施例1

一种基于mel能量谱和卷积神经网络的声音故障识别方法，包括以下步骤：

S1：对语音信号进行预加重，增加声音的高频分辨率；

对语音信号进行预加重，从而增加声音的高频分辨率。预加重一般传递函数为H(z)＝1-az^-1。本发明使用一阶FIR高通滤波器实现预加重，其中a为预加重系数，设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)＝x(n)-ax(n-1),这里取a＝0.95。

S2：对语音信号进行分帧处理，在时序上，每间隔一定的时间截取一部分音频数据为一帧，而间隔的时间则为分帧的步长。由于声音信号具有短时平稳特性，对音频进行分帧有助于进一步细分声音的特性。通过将N个语音信号上的采样点组合为一个观测单位即为为帧，N的值为256或512，涵盖的时间约为20～30ms，相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，M的值为N的1/2或1/3；通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

S3：对语音信号进行加窗处理，加窗之后是为了进行傅里叶展开，加窗的目的是为了使全局更加连续，避免出现吉布斯效应；此外，加窗之后，原本没有周期性的语音信号呈现出周期函数的部分特征。通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征，其中窗函数为：

n＝0，1…，N-1，N为帧的大小；不同的a值会产生不同的汉明窗，一般情况下a取0.46。

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。

三角滤波器的频率响应定义为：

式中：f(m)为中心频率，k为频率；三角带通滤波器有两个主要目的：

对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。

S6：计算每个滤波器组输出的对数能量：

M为滤波器个数，H_m(k)为滤波器的频率响应；三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果。

S7：转换为梅尔能量谱图；步骤S2的分帧是在采样点上进行的，对N个采样点作为一帧进行之后步骤的一系列操作后，最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值，而X轴以帧数作为单位，由此得到一张梅尔能量谱图；如果数据采样点有10240个，每一帧的值为1024，步长为512，梅尔滤波器个数为64，那么最终的梅尔能量谱图大小为：

64×((10240-1024)/512+1)＝64*19。其中64为Y轴长度，19为X轴长度。

其中，j＝1，…，K，K为分类的最大类别；z为网络最后一层输出

实施例2

S1：针对输入的音频数据，按照如下公式预加重y(n)＝x(n)-0.95*x(n-1)；

S2：对双通道音频在通道上取均值改为单通道，并以单帧采样点612，步长306对数据分帧

S3：给每一帧加窗，窗口取汉明窗，系数a＝0.46

S4：对每一帧数据进行快速傅里叶变换，生成能量谱

S5：将能量谱通过Mel尺度的三角带通滤波器。滤波器数量取64，最大频率22050(采样点频率44100的一半)

S6：S5生成的数据，以频域为Y轴，时域为X轴，转换成Mei能量谱图

S7：进一步分帧，最后截取的每一帧图谱长128像素，高64像素。以16张图为一个batch

S8：随机初始化CNN神经网络参数

S9：将数据输入神经网络，进行前向传播，得到输出

S10：计算CNN神经网络的交叉熵误差L

S11：根据误差，计算各层神经元的梯度项g_t

S12：根据Momentun优化算法，计算本次误差的各神经元更新参数Δθ_t。更新公式为：

m_t＝μ*m_t-1+g_t

Δθ_t＝-ρ*m_t

其中，μ是动量因子，g_t是当前计算的梯度，-ρ是更新步长系数

S13：当误差小于最低误差，或者循环次数大于epoch，停止迭代，否则步入Step 9，进行循环。

S14：利用训练完成的CNN神经网络模型，对经过预处理的未知标签的样本进行预测，取输出概率最大的标签为预测结果。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于mel能量谱和卷积神经网络的声音故障识别方法，其特征在于，包括以下步骤：

S1：对语音信号进行预加重，增加声音的高频分辨率；

S2：对语音信号进行分帧处理，通过将N个语音信号上的采样点组合为一个观测单位即为帧，两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，M的值为N的1/2或1/3；

n＝0，1…，N-1，N为帧的大小，a为窗函数大小系数；

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

三角滤波器的频率响应定义为：

式中：

f(m)为中心频率，k为频率；

S6：计算每个滤波器组输出的对数能量：

m＝0，1…，M，M为滤波器个数，H_m(k)为滤波器的频率响应；

S8：以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度，以Y轴所有数据作为一帧的宽度，对梅尔能量谱图进行分帧，等同于将一个梅尔能量谱他按照X轴切为多个分段，其中每一段作为一个样本，作为下一阶段卷积神经网络的输入。此步骤的分帧步长，和分帧长度相等，即相邻两帧没有重叠的部分；

其中，j＝1，…，K，K为分类的最大类别，z为网络最后一层输出；

其中N为类别数量，为模型预测输出值，y为真实值，L为损失函数；

2.根据权利要求1所述的一种基于mel能量谱和卷积神经网络的声音故障识别方法，其特征在于，步骤S1所述预加重一阶FIR高通滤波器实现，采用的传递函数为H(z)＝1-az^-1，其中a为预加重系数。

3.根据权利要求1所述的一种基于mel能量谱个卷积神经网络的声音故障识别方法，其特征在于，步骤S2所述N个语音信号中N的值为256或512。