CN111242155A

CN111242155A - 一种基于多模深度学习的双模态情感识别方法

Info

Publication number: CN111242155A
Application number: CN201910951187.6A
Authority: CN
Inventors: 赵小明; 张石清
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-06-05

Abstract

本发明涉及语音和图像处理、模式识别领域，公开了一种基于多模深度学习的双模态情感识别方法，包括步骤：A)分别获得音频和视频RGB图像三通道输入矩阵，获得音频数据样本和视频数据样本；B)构建音频深度卷积神经网络和视频深度卷积神经网络，获得高层次音频特征和获得高层次视频特征；C)建立由全连接层构成的融合网络，构建高层次音视频统一特征；D)将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征，将全局特征输入到分类器中，获得音视频情感识别分类结果。本发明采用了全连接层构成的融合网络，实现对音视频情感信息的融合，构建高层次的音视频统一特征表示，有效地提高音视频情感识别性能。

Description

一种基于多模深度学习的双模态情感识别方法

技术领域

本发明涉及语音和图像处理、模式识别领域，特别是涉及一种基于多模深度学习的双模态情感识别方法。

背景技术

语音信号和人脸表情是人类之间情感交流的两种主要方式。融合音视频中的情感语音信息和人脸表情信息进行情感识别，通常称为“音视频情感识别”。音视频情感识别研究的最终目标是让计算机通过情感语音和人脸表情同时对用户的情感信息进行获取、识别和响应，以便帮助用户在和谐、自然地交互模式下高效地完成既定的任务。因此，该研究在人工智能、自然人机交互等领域具有重要的应用价值。

在音视频情感特征的提取方面，现有技术采用手工设计的典型的音视频情感特征参数，即语音情感识别领域和人脸表情识别领域中常用的主流特征参数，具体包括：与情感语音相关的韵律特征、音质特征、谱特征，以及与人脸表情相关的形变特征、运动特征等(比如文献：Y.Wang and L.Guan.Recognizing human emotional state from audiovisualsignals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的音视频情感特征参数已经成为音视频情感识别研究中的主流特征参数，但是手工设计的情感特征依赖于设计者的经验和专业知识，可靠性不够，很难利用大数据的优势。此外，手工设计的特征都属于低层次的情感特征，因为它们对于情感语义的表示力非常有限，尤其与人脑理解的高层次的情感语义之间存在较大差异，即存在“情感鸿沟”问题。

在音视频情感信息的融合策略方面，现有的融合方法，如特征层融合和决策层融合，都是采用某种规则或模型对最后获得的手工设计的音视频情感特征数据进行一次简单的融合操作，如串联，因此它们都属于浅层融合方法。这些浅层融合方法无法对具有高度非线性的音视频情感特征数据之间的内在关系进行深度建模，因而也无法构建出高层次的跨媒体的音视频情感特征数据的统一表征。

发明内容

本发明是为了解决手工设计特征对于情感语义的表示力有限以及现有融合方法无法构建高层次的音视频统一特征表示的问题，提供一种基于多模深度学习的双模态情感识别方法，本发明采用两个深度卷积神经网络(CNN)模型分别对音频、视频信号进行高层次的特征学习，然后采用全连接层构成的融合网络实现音视频情感信息的融合，构建高层次的音视频统一特征表示，用于音视频情感的分类。

为了实现上述目的，本发明采用以下技术方案：

一种基于多模深度学习的双模态情感识别方法，包括步骤：

A)采集音视频信号，获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段，获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵，获得音频数据样本和视频数据样本；

B)构建音频深度卷积神经网络和视频深度卷积神经网络，利用音频数据样本训练音频深度卷积神经网络，获得高层次音频特征；利用视频数据样本训练深度卷积神经网络，获得高层次视频特征；

C)构建高层次的音视频统一特征，建立由全连接层构成的融合网络，融合网络最后一层全连接层与分类器相连；

D)将最后一层全连接层的输出聚合成全局特征，将全局特征输入到分类器中，获得音视频情感识别分类结果，验证融合网络的识别率。

通过采用两个深度卷积神经网络模型分别对音频、视频信号进行高层次的特征学习，然后采用全连接层构成的融合网络实现音视频情感信息的融合，构建高层次的音视频统一特征表示，用于音视频情感的分类。

进一步地，步骤A)中，获得音频数据样本包括步骤：

A1)采集一维的情感语音信号，采用N₁个Mel滤波器和N₂帧的文本窗大小，获得N₁×N₂的二维静态频谱片段特征；

A2)对二维静态频谱片段特征在时间轴上进行一阶求导，获得一阶求导系数；

A3)对二维静态频谱片段特征在时间轴上进行二阶求导，获得二阶求导系数；

A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道，获得特征为N₁×N₂×3的音频RGB图像三通道输入矩阵；

A5)对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理，获得预设特征大小的音频RGB图像三通道输入矩阵；

A6)依次重复步骤A1)至A5)，获得K个音频数据样本，记为{α₁，α₂，...，α_K}。

对于一维的情感语音信号，先采用N₁个Mel滤波器和N₂帧的文本窗大小，计算出二维的静态频谱片段N₁×N₂，然后对其在时间轴上进行一阶和二阶求导，以便抓住该频谱片段的时间动态特性。最后，将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个通道，从而得到一个类似于RGB图像的三维Mel频谱片段，特征为N₁×N₂×3，然后缩放成预设特征大小的音频RGB图像三通道输入矩阵，将其作为音频深度卷积神经网络的音频输入，获得K个音频数据样本。

进一步地，步骤A)中，获得视频数据样本包括步骤：

A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像；

A22)对每一幅关键帧图像进行实时性人脸检测与定位；

A33)计算出人脸双眼瞳孔中心之间的距离，将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离；

A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N₃×N₄×3大小区域图像；

A55)对N₃×N₄×3大小区域图像进行缩放处理，获得预设特征大小的视频RGB图像三通道输入矩阵；

A66)依次重复步骤A11)至A55)，获得K个视频数据样本，记为{v₁，v₂，...，v_K}。

在产生的语音Mel频谱片段所对应的视频片段中，选取该视频片段最中心的一帧图像作为关键帧图像，用于视频的表情识别。

进一步地，步骤A5)中，采用双线性内插法对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理；步骤A55)中，采用双线性内插法对N₃×N₄×3大小区域图像进行缩放处理。

通过采用双线性内插法对图像进行缩放处理，使缩放处理后的图像能够满足深度卷积神经网络模型的图像输入特征要求。

进一步地，步骤B)中，对音频深度卷积神经网络和视频深度卷积神经网络进行初始化，卷积神经网络均包含5个卷积层、3个池化层和3个全连接层，所有池化层均采用平均池化，最后一层全连接层与分类器相连。

对每个音视频片段，均采用两个深度卷积神经网络，在目标情感数据集上进行微调，分别学习出高层次的音频、视频情感特征表示。这两个深度卷积神经网络模型都采用深度卷积神经网络，对其进行初始化，两个卷积神经网络均包含5个卷积层、3个池化层和3个全连接层，3个全连接层分别为fc6,fc7和fc8。其中，fc7层表示卷积神经网络所学习到的高层次的属性特征；而fc8层与分类器相连，利用分类器输出情感识别分类结果。

进一步地，步骤B)中，还包括计算总样本损失函数，更新网络权重值；通过计算

得到损失函数，其中，

表示第j个情感识别类别的真实值，S_j表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值，l表示情感类别数目；通过计算

得到总样本损失函数，L_i(S,y)为第i个样本的损失函数，K为样本总数。

获得音视频样本{(a₁,v₁,y₁),...(a_i,v_i,y_i),...,(a_K,v_k,y_K)}，其中(a_i,v_i,y_i)表示第i个音视频数据样本，a_i表示第i个音频数据样本，v_i表示第i个视频数据样本，y_i表示第i个音视频数据样本真实的情感识别类别向量，将分类器设为softmax分类器，利用音频数据训练样本对音频深度卷积神经网络A进行训练，则相当于求解最优化问题：

其中，a_i表示第i个音频数据样本，θ^A为网络A的网络参数，Υ^A(a_i；θ^A)为网络A的最后一层全连接层的特征表示，W^A为网络A的最后一层全连接层的权重值。

利用视频数据训练样本对深度卷积神经网络V进行训练，则相当于求解最优化问题：

其中，v_i表示第i个视频数据样本，θ^V为网络V的网络参数，γ^V(v_i；θ^V)为网络V的最后一层全连接层的特征表示，W^V为网络V的最后一层全连接层的权重值。

进一步地，步骤C)中，构建高层次的音视频统一特征，包括：

C1)对训练好的音频深度卷积神经网络的权重值W^A和视频深度卷积神经网络的权重值W^V进行固定；

C2)去掉音频深度卷积神经网络的分类器和视频深度卷积神经网络的分类器；

C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出与去掉分类器后的视频深度卷积神经网络最后一层全连接层的输出进行串联，获得总的特征向量，将总的特征向量作为融合模型F的输入，获得高层次的音视频统一特征。

采用全连接层构成的融合网络对多模深度卷积神经网络学习到的音频、视频特征进行融合学习，构建高层次的音视频统一特征表示，包括：

将训练好的音频网络A和视频网络V的权重值(W^A，W^V)进行固定，并去掉这两个网路最后连接的分类器，然后把这两个网络的最后一层全连接层输出(Υ^A＝Υ^A(a_i；θ^A)和Υ^V＝Υ^V(v_i；θ^V))串联在一起，得到一个总的特征向量f([Υ^A,Υ^V]，把总的特征向量f([Υ^A,Υ^V]作为融合模型F的输入。此时融合模型F的训练相当于求解最优化问题：

其中，soft max(f[γ^A,γ^V]；W^F；θ^F)表示融合模型F的分类器的输出，W^F表示网络F所有全连接层的权重值，θ^F为网络F的网络参数。

进一步地，融合网络包括输入数据层和全连接层，将高层次的音视频统一特征作为融合网络的输入数据层，全连接层之间采用随机失活优化方法，融合网络的分类器采用线性支持向量机分类器或softmax分类器，线性支持向量机采用线性核函数。

随机失活(dropout)是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将部分权重或输出随机归零，降低节点间的相互依赖性，从而实现神经网络的正则化，提高模型的泛化能力，降低网络的结构风险。

进一步地，融合网络采用深度信念网络，深度信念网络包括可见层和隐藏层，将高层次的音视频统一特征直接输入到深度信念网络的可见层。

深度信念网络是由多个受限玻尔兹曼机(RBM)堆栈而成，层与层之间全连接，层内无连接，通过多个RBM的无监督学习，使得网络参数接近局部最优，以便网络能有效学习出输入数据的结构特点。由于深度信念网络中的每个RBM都可以用来对音视频情感特征数据进行融合学习，因此深度信念网络能够通过多个RBM的学习实现音视频情感特征数据的深度融合，从而构建出高层次的音视频统一特征表示，用于音视频情感识别。

进一步地，步骤D)中，验证融合网络的识别率采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终融合网络的识别率。

留一法交叉验证方式使得每次迭代中都使用了最大可能数目的样本来训练。

本发明具有如下有益效果：解决了现有特征提取方法提取的特征对于情感语义的表示力比较有限的问题，采用多模深度卷积神经网络从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的问题，采用全连接层构成的融合网络对多模深度卷积神经网络学习到的音视频情感特征进行融合学习，从而构建出高层次的音视频统一特征，对音视频情感识别进行分类。

附图说明

图1是本发明的实施例一流程示意图。

图2是本发明的实施例一获得音频数据样本流程示意图。

图3是本发明的实施例一获得视频数据样本流程示意图。

图4是本发明的实施例一多模深度卷积神经网络结构示意图。

图5是本发明的实施例一音视频情感数据集RML表情样本示例图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

实施例一，一种基于多模深度学习的双模态情感识别方法，如图1所示，包括：A)采集音视频信号，采用音视频情感数据集RML进行音视频情感识别性能测试(见文献：Y.Wangand L.Guan.Recognizing human emotional state from audiovisual signals.IEEETransaction on Multimedia,10(5):936–946,2008.)。如图5所示，该数据集由8个人录制而成，包含720个音视频样本，6种情感，即生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)以及害怕(Fear)。获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段，获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵，如图2所示，获得音频数据样本包括步骤：

A1)采集一维的情感语音信号，采用64个Mel滤波器和64帧的文本窗大小，获得64×64的二维静态频谱片段特征；

A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道，获得特征为64×64×3的音频RGB图像三通道输入矩阵；

A5)采用双线性内插法对特征为64×64×3的音频RGB图像三通道输入矩阵进行缩放处理，获得特征为227×227×3的音频RGB图像三通道输入矩阵；

A6)依次重复步骤A1)至A5)，获得K个音频数据样本，记为{a₁，a₂，...，a_K}。

如图3所示，获得视频数据样本包括步骤：

A22)对每一幅关键帧图像进行实时性人脸检测与定位；

A33)计算出人脸双眼瞳孔中心之间的距离，将双眼瞳孔中心之间的距离统一缩放到55个像素大小的距离；

A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域图像；

A55)采用双线性内插法对150×110×3大小区域图像进行缩放处理，获得特征为227×227×3视频RGB图像三通道输入矩阵；

B)构建音频深度卷积神经网络和视频深度卷积神经网络，如图4所示，音频深度卷积神经网络和视频深度卷积神经网络均采用ImageNet数据集上预训练好的AlexNet网络模型，对网络进行初始化，两个深度卷积神经网络均包含5个卷积层、3个池化层和3个全连接层，3个全连接层分别为fc6,fc7和fc8。其中，fc7层表示卷积神经网络所学习到的高层次的属性特征，fc8层与分类器相连，利用分类器输出情感识别分类结果，所有池化层均采用平均池化，分类器采用softmax分类器。利用音频数据样本训练音频深度卷积神经网络，计算音频深度卷积神经网络的总样本损失函数，更新音频深度卷积神经网络权重值，获得高层次音频特征；利用视频数据样本训练深度卷积神经网络，计算视频深度卷积神经网络的总样本损失函数，更新视频深度卷积神经网络权重值，获得高层次视频特征。

其中通过计算

得到损失函数，其中，

C)构建高层次的音视频统一特征包括：

建立由全连接层构成的融合网络，融合网络最后一层全连接层与分类器相连。

D)将最后一层全连接层的输出聚合成全局特征，将全局特征输入到分类器中，获得音视频情感识别分类结果。融合网络包括输入层和三层全连接层，将高层次的音视频统一特征作为融合网络的输入层，全连接层之间采用随机失活优化方法，令dropout为0.3，防止过拟合。最后一层全连接层与分类器相连，融合网络的分类器采用线性支持向量机分类器，线性支持向量机采用线性核函数。验证融合网络的识别率时采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终融合网络的识别率。

对采用线性支持向量机和采用低层次手工音视频情感特征得到的情感识别结果进行对比分析。采用低层次手工音视频情感特征进行情感识别的方法时，对每一句情感语音提取出1582维声学特征参数(LLD)，对每一幅关键帧表情图像提取出2478维的局部二元模式(LBP)特征作为表情特征。其中，Alex_Audio、Alex_Visual分别表示AlexNet网络模型的FC7直接作为特征提取的方法，EF_LLD+LBP表示将1582维声学特征参数与2478维的局部二元模式特征进行特征层融合的融合方法。如表1所示，AlexNet网络模型不做微调，直接用于特征提取的性能接近手工特征的性能。可见，采用预训练好的AlexNet模型进行CNN的网络初始化是可行的。

表1采用线性支持向量机和手工音视频情感特征得到的情感识别结果分析

方法	LLD	LBP	Alex<sub>Audio</sub>	Alex<sub>Visual</sub>	EF<sub>LLD+LBP</sub>
						正确识别率(％)	61.86	56.90	59.46	54.49	70.62

表1

将本实施例采用的全连接层融合网络分别与特征层融合方法、决策层融合方法的性能进行比较。其中，特征层融合方法是在分类前将音视频特征进行直接串联，称为前期融合(Early Fusion,EF)方法。决策层融合方法采用多数投票方法对音视频的分类结果进行融合，称为后期融合LF(LateFusion,LF)方法。三种方法的正确识别率分析结果如表2所示。

表2基于多模CNN方法的识别结果分析

方法	A<sub>net</sub>	V<sub>net</sub>	F<sub>net</sub>	LF	EF
						正确识别率(％)	66.17	60.79	74.32	57.45	72.18

表2

表中，Anet、Vnet分别表示AlexNet网络模型微调之后的音频情感识别方法和视频情感识别方法，Fnet表示采用全连接层构成的融合网络方法，LF表示后期融合方法，EF表示前期融合方法。通过对比，可以看出全连接层融合网络方法的性能也明显优于后期融合方法和前期融合方法，这表明全连接层构成的融合网络可以学习到更具判别力的音视频情感特征用于情感的分类。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims

1.一种基于多模深度学习的双模态情感识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤A)中，获得音频数据样本包括步骤：

3.根据权利要求2所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤A)中，获得视频数据样本包括步骤：

A22)对每一幅关键帧图像进行实时性人脸检测与定位；

4.根据权利要求3所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤A5)中，采用双线性内插法对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理；步骤A55)中，采用双线性内插法对N₃×N₄×3大小区域图像进行缩放处理。

5.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤B)中，对音频深度卷积神经网络和视频深度卷积神经网络进行初始化，所述卷积神经网络均包含5个卷积层、3个池化层和3个全连接层，所有池化层均采用平均池化，最后一层全连接层与分类器相连。

6.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤B)中，还包括计算总样本损失函数，更新网络权重值；通过计算

得到损失函数，其中，

7.根据权利要求5所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤C)中，构建高层次的音视频统一特征，包括：

8.根据权利要求1或7所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，所述融合网络包括输入数据层和全连接层，将高层次的音视频统一特征作为所述融合网络的输入数据层，全连接层之间采用随机失活优化方法，所述融合网络的分类器采用线性支持向量机分类器或softmax分类器，所述线性支持向量机采用线性核函数。

9.根据权利要求1或7所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，所述融合网络采用深度信念网络，所述深度信念网络包括可见层和隐藏层，将高层次的音视频统一特征直接输入到所述深度信念网络的可见层。

10.根据权利要求1或9所述的一种基于多模深度学习的双模态情感识别方法，其特征在于，步骤D)中，验证融合网络的识别率采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终融合网络的识别率。