CN111429947B

CN111429947B - 一种基于多级残差卷积神经网络的语音情感识别方法

Info

Publication number: CN111429947B
Application number: CN202010225783.9A
Authority: CN
Inventors: 郑凯; 夏志广; 张毅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2022-06-10
Anticipated expiration: 2040-03-26
Also published as: CN111429947A

Abstract

本发明涉及一种基于多级残差卷积神经网络的语音情感识别方法，属于语音信号分析和图像处理等技术领域。该方法包括：1)训练过程：收集并预处理带所有情感的声音信号，生成语谱图；然后构建多级残差卷积神经网络，并将语谱图输入到多级残差卷积神经网络进行训练；2)测试过程：获取并预处理待识别声音信号，生成待识别语谱图；然后将待识别语谱图输入到训练好的多级残差卷积神经网络，得到识别结果。本发明通过跨越多级的残差块对CNN进行特征弥补，解决了对CNN随着卷积层加深而出现的特征丢失的问题，且提高识别率。

Description

一种基于多级残差卷积神经网络的语音情感识别方法

技术领域

本发明属于语音信号分析和图像处理等技术领域，涉及一种基于多级残差卷积神经网络的语音情感识别方法。

背景技术

随着深度学习技术的发展，语音情感识别技术与深度学习技术相结合的研究越来越多，以卷积神经网络(CNN)作为识别模型是研究重点之一。CNN的卷积核能够提取不同层级的特征，且能够完成特征提取、模型识别的全部流程，从而省略繁琐复杂的手工特征工程过程。但是CNN模型存在随着卷积层的加深，原始信号的特征逐渐丢失，从而导致识别率下降的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于多级残差卷积神经网络的语音情感识别方法，针对CNN随着卷积层加深而出现的特征丢失的问题，通过跨越多级的残差块对CNN进行特征弥补，从而提高识别率。

为达到上述目的，本发明提供如下技术方案：

一种基于多级残差卷积神经网络的语音情感识别方法，包括以下步骤：

1)训练过程：

S11：收集并预处理带所有情感的声音信号，生成语谱图；

S12：构建多级残差卷积神经网络，并将语谱图输入到多级残差卷积神经网络进行训练；

2)测试过程：

S21：获取并预处理待识别声音信号，生成待识别语谱图；

S22：将待识别语谱图输入到训练好的多级残差卷积神经网络，得到识别结果。

进一步，所述步骤S12或S21中，生成语谱图具体包括：声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。

进一步，所述步骤S12中，构建多级残差卷积神经网络具体包括以下步骤：

S121：常将输入的语谱图转换成3个像素点矩阵；

S122：多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历，得出一个卷积结果，即特征图，卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息；然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充，重复此步骤；

S123：卷积的最后结果以一维矩阵的方式输入到全连接层，全连接层对卷积结果再进行特征学习，并通过softmax进行相对概率转换，得出最终分类结果。

进一步，所述步骤S12中，训练多级残差卷积神经网络具体包括：采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述，如果偏差值较大说明训练效果不好，再通过梯度下降的方式进行反向传播，通过逐层求偏导调整参数的值，直至交叉熵的值趋近于零，即模型拟合；最后采用dropout正则化方法对网络结构中的神经元进行随机忽略，防止训练过拟合。

进一步，所述步骤S122中，所述多级残差结构为：假设引出残差时的输入是x_i，引入残差后的输出是x_i+n，则有多级残差结构的输出为：

x_i+n＝σ(w_i+nF(x_i+n-1)+b_i+n+αx_i)

其中，σ为激活函数，n为多级残差结构跨越的卷积层数，w和b分别为每个卷积层的权值和偏置，α和β是控制系数，用于限制输入特征的维度；。

进一步，所述交叉熵损失函数C为：

其中

表示1到K的标签，y^(L)是网络模型的输出；

则反向传播的权值更新为：

其中，x_i是引出残差时的输入，x_i+n是引入残差后的输出，T(w,b)是权值和偏置的常数项；

表示对丢失特征的补充项。

进一步，所述梯度下降方式采用RMSProp算法，其自适应全参数为：

其中，r为梯度平方值的滑动率，w'为衰减率，α为学习率，ε、η为常数。

本发明的有益效果在于：与传统CNN模型对比，本发明所述的多级残差卷积神经网络模型通过弥补丢失特征的方法能有效地降低丢失率，提高识别率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明方法的流程图；

图2为本发明中残差结构示意图；

图3为本发明中多级残差卷积神经网络模型的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，图1为一种基于多级残差卷积神经网络的语音情感识别方法，包括以下步骤：

1)训练过程：

S11：收集并预处理带所有情感的声音信号，生成语谱图；

S12：构建多级残差卷积神经网络，并将语谱图输入到多级残差卷积神经网络进行训练，该网络模型是一个包含多个卷积池化层和残差结构的深度神经网络，此结构可以在提升识别效果的同时保证训练收敛速度。

2)测试过程：

S21：获取并预处理待识别声音信号，生成待识别语谱图；

其中，语谱图生成过程为：声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图，语谱图的横轴表示时域信息，纵轴表示频域信息，语谱图颜色的深浅的代表信号能量的强弱。因此语谱图能够反映声音信号的大多数特征信息。

步骤S12中，构建及训练多级残差卷积神经网络的过程为：搭建好的CNN网络包含大量待训练的参数，训练过程即相当于对各个参数的拟合过程。输入的语谱图相当于一个三通道(RGB)的图像，计算时通常将其转换成3个像素点矩阵，CNN的每个卷积核都相当于一个特征提取器，每个卷积核通过在矩阵中遍历的方式实现对特征信息的提取，例如纹理特征、边缘特征等。每个卷积层都会得出一个卷积结果(即特征图)，卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息，重复上述过程。卷积的最后结果会以一维矩阵的方式输入到全连接层，全连接层对卷积结果再进行特征学习，并通过softmax进行相对概率转换，得出最终分类结果。训练过程采用交叉熵对真实的样本和预测样本的偏差进行描述，如果偏差值较大说明训练效果不好，再通过梯度下降的方式进行反向传播，通过逐层求偏导调整参数的值，直至交叉熵的值趋近于零，即模型拟合。深度神经网络在训练的过程中容易出现过拟合情况，采取合理的正则化方法是训练成功的关键之一，本研究采用dropout正则化方法，dropout正则化方法是对网络结构中的神经元进行随机忽略的一种训练策略，可以很好地防止训练过拟合。

多级残差结构，如图2、3所示：每个卷积层的结果会成为下一个卷积层的输入，在这个给过程中存在特征丢失的现象，多级残差能够跨越多个卷积层将原始特征信息引入到后续卷积层从而实现特征补充。

假设引出残差时的输入是x_i，引入残差后的输出是x_i+n，则有多级残差结构的输出为：

x_i+n＝σ(w_i+nF(x_i+n-1)+b_i+n+αx_i)

其中，σ为激活函数，n为多级残差结构跨越的卷积层数，w和b分别为每个卷积层的权值和偏置，α和β是控制系数，用于限制输入特征的维度。

交叉熵损失函数C为：

其中

表示1到K的标签，y^(L)是网络模型的输出；

则反向传播的权值更新为：

表示对丢失特征的补充项。

本发明中，梯度下降方式采用RMSProp算法，该方法具备全参数自适应的特点，对于提高训练速度有重要帮助。其自适应全参数为：

其中，r为梯度平方值的滑动率，w'为衰减率，α为学习率，ε为常数项，防止分母为零，一般取10^-8，η为常数，自适应参数，一般取0.9。

实验验证实施例：

1、语音情感数据库：将在EMO-DB数据库上对模型的性能表现进行探究和测试。德国柏林语音情感数据库(EMO-DB)是由演员对七种不同的情绪(愤怒、无聊、恐惧、焦虑、开心、悲伤、中性)进行表达组成的。EMO-DB数据库的采样频率是16Khz，采用单声道16bit的设备进行录制。语音情感库的具体组成分布如表1所示。

表1EMO-DB数据库情感分布

数据集	愤怒	讨厌	恐惧	开心	悲伤	无聊	惊喜	中性	总计
										EMO-DB	127	46	69	71	62	81	—	79	535

注：“—”代表此数据库中没有对应的情感类别

2、实验的准备工作

1)数据集的扩充

本实验先将数据库的语音文件转变成语谱图。本实验采用的EMO-DB数据库一共包含有535条语音情感数据，因为样本量太少难以训练出效果较好的神经网络结构，故对数据集进行扩充。对数据集的扩充主要包括随机裁剪、随机翻转、灰度化、添加噪声点等操作，最终得到5000张语谱图，其中每种情感大约包含有700张语谱图，语谱图的制作在MATLAB2016b上完成。

2)参数设置

本实验使用TensorFlow工具包完成提出的网络结构的搭建和训练算法的实现，使用的服务器平台参数和详细的训练参数如表2所示：

表2平台配置和训练参数

3)模型实例和实验

本发明设计了图3所示的三种模型结构，并分别统计在EMO-DB数据集上的准确率如表3所示。

表3不同结构的识别率对比

由表3可知，本发明提出的结构在EMO-DB数据集上能取得较好的识别率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多级残差卷积神经网络的语音情感识别方法，其特征在于，该方法包括以下步骤：

1)训练过程：

S11：收集并预处理带所有情感的声音信号，生成语谱图；

S12：构建多级残差卷积神经网络，并将语谱图输入到多级残差卷积神经网络进行训练；其中，构建多级残差卷积神经网络具体包括以下步骤：

S121：常将输入的语谱图转换成3个像素点矩阵；

所述多级残差结构为：假设引出残差时的输入是x_i，引入残差后的输出是x_i+n，则有多级残差结构的输出为：

x_i+n＝σ(w_i+nF(x_i+n-1)+b_i+n+αx_i)

其中，σ为激活函数，n为多级残差结构跨越的卷积层数，w和b分别为每个卷积层的权值和偏置，α和β是控制系数，用于限制输入特征的维度；

S23：卷积的最后结果以一维矩阵的方式输入到全连接层，全连接层对卷积结果再进行特征学习，并通过softmax进行相对概率转换，得出最终分类结果；

2)测试过程：

S21：获取并预处理待识别声音信号，生成待识别语谱图；

2.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法，其特征在于，所述步骤S12或S21中，生成语谱图具体包括：声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。

3.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法，其特征在于，所述步骤S12中，训练多级残差卷积神经网络具体包括：采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述，如果偏差值较大，再通过梯度下降的方式进行反向传播，通过逐层求偏导调整参数的值，直至交叉熵的值趋近于零，即模型拟合。

4.根据权利要求3所述的一种基于多级残差卷积神经网络的语音情感识别方法，其特征在于，所述交叉熵损失函数C为：

其中，

表示1到K的标签，

是网络模型的输出；

则反向传播的权值更新为：

其中，x_i是引出残差时的输入是，x_i+n是引入残差后的输出，T(w,b)是权值和偏置的常数项；

表示对丢失特征的补充项。

5.根据权利要求3所述的一种基于多级残差卷积神经网络的语音情感识别方法，其特征在于，所述梯度下降方式采用RMSProp算法，其自适应全参数为：

其中，C为交叉熵损失函数，r为梯度平方值的滑动率，w'为衰减率，α为学习率，ε、η为常数。