CN109460737A

CN109460737A - 一种基于增强式残差神经网络的多模态语音情感识别方法

Info

Publication number: CN109460737A
Application number: CN201811346114.6A
Authority: CN
Inventors: 陈盈科; 毛华; 吴雨
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-03-12

Abstract

本发明公开了一种基于增强式深度残差神经网络的多模态语音情感识别方法，涉及视频流图像处理和语音信号分析等技术领域，解决人机交互的情感识别问题。本发明主要有提取视频（序列数据）与语音的特征表达，包括将语音数据转换为相应的语谱图表达，以及对时序数据进行编码；使用卷积神经网络提取原始数据的情感特征表达用于分类，模型接受多输入并且输入维度不等，提出交叉卷积层对不同模态的数据特征进行融合，模型使用的整体网络结构是增强式深度残差神经网络；模型初始化后，使用语音语谱图、序列视频信息及相应的情感标签训练多分类模型，训练完毕后对未标记的语音和视频进行预测，得到情感预测的概率值，选择概率最大值作为该多模态数据的情感类别。本发明在多模态情感识别问题上提高了识别准确率。

Description

一种基于增强式残差神经网络的多模态语音情感识别方法

技术领域

一种基于增强式深度残差神经网络的多模态语音情感识别方法，涉及视频流图像处理和语音信号分析等技术领域，解决人机交互的情感识别问题。

背景技术

随着计算机技术的快速发展，人类对计算机的依赖性和要求不断增强，如何更好地实现计算机的拟人化成为了一个研究热点，拥有“情感”已经成为了计算机下一代的研究目标。情感可以通过多种沟通方式传递，例如文本，语音，视频等。通过单一的信息，往往不能够很好地理解情感，因此多模态数据的情感识别是目前模式识别的主要眼界方向。

传统的多模态研究方法主要依赖面部表情信息，通过面部特征提取对情感进行分类，或者根据语音信息提取特征，首先采集特定人面部表情样本建立面部表情数据库，或者采集特定人语音样本建立语音数据库。传统的研究点通常是征对所有形式大数据统一的研究方法，例如有特征提取，特征选择，特征归一化等。该项目研究征对语音大数据的特点，研究基于傅里叶变换的频域特征选择，研究频域特征，例如MFCC，语谱图等的特征级别数据融合技术。但是由于语音与图像信息往往是高维度的数据，传统的计算方法不能很好地进行特征学习。

针对大数据多维度，特征稀疏等特点，研究数据融合方法，利用深度学习的强大学习能力，在不丢失数据特征下，结合其他模态，例如视频图像，文本等，从深度学习“深”的特点出发，通过借鉴深度模型的强大能力，通过增加深度的非线性连接设计多深度，多广度的数据融合模型，提高情感的辨识度。

发明内容

本发明提供了一种基于增强式深度残差神经网络的多模态语音情感识别方法，解决人机交互问题中情感识别问题，实现大数据高维度数据的有效融合，提高情感识别任务的效果。

为了实现上述目的，本发明所采用的技术方案是：

基于增强式深度残差神经网络的多模态语音情感识别方法，其特征在于利用残差网络交叉融合多模态的输入信息，包括如下步骤：

（1）将多模态输入数据进行预处理，包括转换语音数据为相应的语谱图，处理视频流数据组织成时序表达；

（2）设计网络模型，使用增强式深度残差神经网络，对维度不等的多模态输入信息进行特征提取与特征融合；

（3）训练与测试模型，使用匹配的多模态输入数据及对应的情感类别标签，训练深度神经网络模型；训练好的的模型对未标记的多模态输入数据进行预测，得到各类情感预测的概率值，选择较高概率值的类别作为情感识别的结果。

进一步，所述步骤（1）中包括如下步骤：

（11）语音预处理：语音的特征表达是预处理的关键步骤，本发明采用语谱图作为语音特征的一种表示，相比于其他特征提取算法，语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息，降低了语音维度的同时保留了大部分语音的原始信息；

（12）视频流预处理：视频流数据主要包含对人体的面部表情与肢体动作在视频的变化的移动信息记录，将每个时刻视频内的位置信息（面部，头部，手）构成一个一维表达，将多个时刻的一维表达合并，并通过滑动窗口的处理，得到统一的时序数据表达。

进一步，所述步骤（2）中包括如下步骤：

（21）所述步骤（2）中使用残差卷积神经网络提取输入特征的基本结构可用下述公式表示：

其中，定义了卷积层的输入，表示线性映射的权值，仅当输入经过卷积操作后，数据维度发生了变化，因此无法使用对位相加的操作，需要对进行维度映射，其中是卷积核函数，表示卷积层中用于学习非线性映射的权值；

（22）所述步骤（2）中使用残差卷积神经网络融合多模态输入特征的基本结构可用下述步骤计算所得：

首先，对不同模态的输入数据进行特征提取，如所述步骤（2）中的特征提取公式：

其中是卷积层的某种模态，如语谱图，则表示为另外一种模态的输入数据，其中和是卷积层的卷积权值，和则为卷积层的特征表达输出；

当输入数据连接进网络提取特征之后，特征融合的基本表达如下：

其中，为模型所定义的融合函数；更进一步，这里给出三种不同的具体的融合函数：

加权融合函数表示为卷积操作后两种模态的特征数据和之间进行对位相加的操作，公式计算如下：

乘积融合函数为卷积操作后两种模态的特征数据和之间进行对位相乘的操作，公式计算如下：

Max融合函数为卷积操作后两种模态的特征数据和之间进行对位取最大值的操作，公式计算如下：

合并融合函数为卷积操作后两种模态的特征数据和之间在通道上面进行合并操作，公式计算如下：

其中表示卷积特征的通道数，表示卷积特征表达的大小。

进一步，所述步骤（3）中包括如下步骤：

（31）构建数据集：对每组语音与视频进行步骤（1）的数据处理操作后得到网络的最终输入，同时数值化情感类别，给出对应的编码，同时划分测试集，训练集数据；

（32）初始化网络权值：根据步骤（2）的增强式深度残差神经网络的基本结构，具体化设计网络的整体结构，同时初始化网络的全部可训练权值。

（33）训练网络：定义目标损失函数，采用反向传播算法对网络的各权值梯度进行计算，从而更新网络权值；

（34）测试网络：采用训练完毕的网络权值与定义好的网络结构，将未训练的测试数据输入网络，根据网络最后的输出结果，预测输入数据中所包含的情感类别。

与现有技术相比，本发明的优点在于：

一、高维度数据的特征提取本身是一大主要问题，采用最先进的深度残差网络可以更好地进行特征学习；

二、高维度数据的特征融合是本发明研究的重点，通过提出四种不同的融合函数，对多种不同模态的特征数据进行融合；

三、本模型能够根据不同维度的输入进行对应的特征提取模块，解决了输入维度不等的问题。

附图说明

图1为本发明中多模态语音情感分类的深度残差模型图；

图2为本发明中多模态语音情感分类的流程图；

图3为本发明中多模态数据融合模块的拓扑图。

具体实施方案

下面结合附图和实施例对本发明作进一步的说明。

参见图1，一种基于增强式深度残差神经网络的多模态语音情感识别方法的核心模型是一个交叉增强后的深度残差神经网路模型，该模型可以接受维度不同的多种模态数据：语音、视频等，同时残差卷积的基本结构可以对数据进行特征提取，同时交叉式残差卷积结构以及融合函数使得多模态数据得以充分的融合，从而有效地提高了情感识别的准确性。

参见图2，一种基于增强式深度残差神经网络的多模态语音情感识别方法的整体数据流程，具体步骤如下：

（11）音频预处理：将原始的语音信号进行语谱图特征提取，相比于其他特征提取算法，语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息，最后语谱图统一的规格表达为（224，224）；

（12）视频预处理：对视频流中人体的面部表情与肢体动作在视频的变化的移动信息进行记录，每个时刻视频内的位置信息（面部，头部，手）构成一个一维表达，将多个时刻的一维表达合并。要求考虑网络的输入统一规格，通过滑动窗口的处理，得到统一规格的视频流信息表达（224，183）。

（21）将不同模态的数据输入网络进行特征提取，网络的卷积模块使用残差卷积模块，其基本结构可用下述公式表示：

其中，定义了卷积层的输入，表示线性映射的权值，仅当输入经过卷积操作后，数据维度发生了变化，因此无法使用对位相加的操作，需要对进行维度映射，其中是卷积核函数，表示卷积层中用于学习非线性映射的权值

（22）经过多层残差卷积模块提取特后，数据融合多模态输入会不同模态的输入数据进行特征融合，其特征融合表示为公式：

其中，为模型所定义的融合函数；和则为经过卷积操作后不同模态特征表达输出。这里给出三种不同的具体的融合函数：

其中表示卷积特征的通道数，表示卷积特征表达的大小。

网络对多模态的输入数据进行特征提取与特征融合步骤后，通过计算最后一层对不同情感类别的概率，选取概率最大的所属类别作为预测的结果。

参见图3，一种基于增强式深度残差神经网络的多模态语音情感识别方法的数据融合函数拓扑图，和是网络经过卷积操作后对不同模态的数据进行的特征表达，在每一层都先经过残差基本结构的卷积提取后再将信息与另一模态特征进行融合，层层递进，一直到最后再通过融合模块进行交叉，相比于传统做法，大大加强了数据融合，并且有效地对高维数据进行特征学习。

Claims

1.一种基于增强式深度残差神经网络的多模态语音情感识别方法，其特征在于利用残差网络交叉融合多模态的输入信息，包括如下步骤：

（1）将语音数据转换为相应的语谱图，将视频流数据处理成时序数据；

（2）使用增强式深度残差神经网络，对维度不等的多模态输入信息进行特征提取与特征融合；

（3）使用匹配的多模态输入数据及对应的情感类别标签，训练深度神经网络模型；训练好的的模型对未标记的多模态输入数据进行预测，得到各类情感预测的概率值，选择较高概率值的类别作为情感识别的结果。

2.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法，所述步骤（1）中包括如下步骤：

（11）语音语谱图：语谱图是语音特征的一种表示，相比于其他特征提取算法，语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息，而且语谱图统一的规格表达为（224，224）；

（12）视频流特征表达：视频流数据主要是对人体的面部表情与肢体动作在视频的变化的移动信息记录，每个时刻视频内的位置信息（面部，头部，手）构成一个一维表达，将多个时刻的一维表达合并；要求考虑网络的输入统一规格，通过滑动窗口的处理，得到统一规格的视频流信息表达（224，183）。

3.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法，所述步骤（2）中包括如下步骤：

其中表示卷积特征的通道数，表示卷积特征表达的大小。

4.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法，所述步骤（3）中包括如下步骤：

（31）准备数据与标签：对每组语音与视频进行步骤（1）的数据处理操作后得到网络的最终输入，同时数值化情感类别，给出对应的编码；

（32）网络初始化：根据步骤（2）的增强式深度残差神经网络的基本结构，具体化设计网络的整体结构，同时初始化网络的全部可训练权值；

（33）网络训练：定义损失函数，采用反向传播算法对网络的梯度进行计算，从而更新网络权值；

（34）网络测试：根据训练完毕的网络权值与定义好的网络结构，将未训练的测试数据输入网络，根据网络最后的输出结果，预测输入数据中所包含的情感类别。