CN111292765B

CN111292765B - 一种融合多个深度学习模型的双模态情感识别方法

Info

Publication number: CN111292765B
Application number: CN201911149238.XA
Authority: CN
Inventors: 赵小明; 张石清
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-07-28
Anticipated expiration: 2039-11-21
Also published as: CN111292765A

Abstract

本发明涉及语音和图像处理、模式识别领域，公开了一种融合多个深度学习模型的双模态情感识别方法，包括步骤：A）采集音视频信号，获得音频数据样本和视频数据样本；B）构建音频深度卷积神经网络和多模视频深度卷积神经网络，获得高层次音频特征和高层次视频特征；C）构建高层次的音视频统一特征，建立由受限玻尔兹曼机构成的深度信念网络，深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连；D）获得音视频情感识别分类结果，验证深度信念网络的识别率。本发明采用了采用多个深度卷积神经网络进行两次融合，实现对音视频情感信息的融合，构建高层次的音视频统一特征表示，有效地提高音视频情感识别性能。

Description

一种融合多个深度学习模型的双模态情感识别方法

技术领域

本发明涉及语音和图像处理、模式识别领域，特别是涉及一种融合多个深度学习模型的双模态情感识别方法。

背景技术

语音信号和人脸表情是人类之间情感交流的两种主要方式。融合音视频中的情感语音信息和人脸表情信息进行情感识别，通常称为“音视频情感识别”。音视频情感识别研究的最终目标是让计算机通过情感语音和人脸表情同时对用户的情感信息进行获取、识别和响应，以便帮助用户在和谐、自然地交互模式下高效地完成既定的任务。因此，该研究在人工智能、自然人机交互等领域具有重要的应用价值。

在音视频情感特征的提取方面，现有技术采用手工设计的典型的音视频情感特征参数，即语音情感识别领域和人脸表情识别领域中常用的主流特征参数，具体包括：与情感语音相关的韵律特征、音质特征、谱特征，以及与人脸表情相关的形变特征、运动特征等(比如文献：Y.Wang and L.Guan.Recognizing human emotional state fromaudiovisual signals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的音视频情感特征参数已经成为音视频情感识别研究中的主流特征参数，但是手工设计的情感特征依赖于设计者的经验和专业知识，可靠性不够，很难利用大数据的优势。此外，手工设计的特征都属于低层次的情感特征，因为它们对于情感语义的表示力非常有限，尤其与人脑理解的高层次的情感语义之间存在较大差异，即存在“情感鸿沟”问题。

在音视频情感信息的融合策略方面，现有的融合方法，如特征层融合和决策层融合，都是采用某种规则或模型对最后获得的手工设计的音视频情感特征数据进行一次简单的融合操作，如串联，因此它们都属于浅层融合方法。这些浅层融合方法无法对具有高度非线性的音视频情感特征数据之间的内在关系进行深度建模，因而也无法构建出高层次的跨媒体的音视频情感特征数据的统一表征。

发明内容

本发明是为了解决手工设计特征对于情感语义的表示力有限以及现有融合方法无法构建高层次的音视频统一特征表示的问题，提供一种融合多个深度学习模型的双模态情感识别方法，本发明采用多个深度卷积神经网络(CNN)模型分别对音频、视频信号进行高层次的特征学习，然后采用由受限玻尔兹曼机构成的深度信念网络实现音视频情感信息的融合，构建高层次的音视频统一特征表示，用于音视频情感的分类。

为了实现上述目的，本发明采用以下技术方案：

一种融合多个深度学习模型的双模态情感识别方法，包括步骤：

A)采集音视频信号，获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段，获得音频数据样本和视频数据样本；

B)构建音频深度卷积神经网络(Audio Network)和多模视频深度卷积神经网络(Visual Network,Optical Flow Network)，获得高层次音频特征和高层次视频特征；

C)构建高层次的音视频统一特征，建立由受限玻尔兹曼机构成的深度信念网络(Fusion Network)，深度信念网络最后一层隐藏层的输出做平均池化之后与线性SVM分类器相连；

D)获得音视频情感识别分类结果，验证深度信念网络的识别率。

通过构建音频深度卷积神经网络和多模视频深度卷积神经网络分别对音频、视频信号进行高层次的特征学习，然后采用由受限玻尔兹曼机构成的深度信念网络实现音视频情感信息的融合，构建高层次的音视频统一特征表示，用于音视频情感的分类。

进一步地，步骤A)中获得音频数据样本，包括步骤：

A1)采集一维的情感语音信号，采用N₁个Mel滤波器和N₂帧的文本窗大小，获得N₁×N₂的二维静态频谱片段特征；

A2)对二维静态频谱片段特征在时间轴上进行一阶求导，获得一阶求导系数；

A3)对二维静态频谱片段特征在时间轴上进行二阶求导，获得二阶求导系数；

A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道，获得特征为N₁×N₂×3的音频RGB图像三通道输入矩阵；

A5)对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理，获得预设特征大小的音频RGB图像三通道输入矩阵；

A6)依次重复步骤A1)至A5)，获得K个音频数据样本，记为{a₁，a₂，...，a_K}。

对于一维的情感语音信号，先采用N₁个Mel滤波器和N₂帧的文本窗大小，计算出二维的静态频谱片段N₁×N₂，然后对其在时间轴上进行一阶和二阶求导，以便抓住该频谱片段的时间动态特性。最后，将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个通道，从而得到一个类似于RGB图像的三维Mel频谱片段，特征为N₁×N₂×3，然后缩放成预设特征大小的音频RGB图像三通道输入矩阵，将其作为音频深度卷积神经网络的音频输入，获得K个音频数据样本。

进一步地，步骤A)中获得视频数据样本，包括步骤：

A11)按照视频片段的时间先后顺序依次获得t帧视频图像；

A22)对每一帧视频图像进行实时性人脸检测与定位；

A33)计算出人脸双眼瞳孔中心之间的距离，将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离；

A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N₃×N₄×3大小区域图像；

A55)依次重复步骤A11)至A44)，获得K个特征为t×N₃×N₄×3视频数据样本，记为{v₁，v₂，...，v_K}。

首先对语音Mel频谱片段所对应的视频片段中的每一帧图像采用人脸定位方法进行人脸检测及定位，然后把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N₃×N₄×3大小区域图像。进行网络训练微调时设置每次训练输入的视频片段帧数为t帧。因此，为了保证每个视频片段的帧数达到t帧，需要对原始视频片段的帧数进行预处理，对不足t帧的视频片段，采用首尾帧重复的方式进行预处理；对超过t帧的视频片段，采用首尾帧删除的方式进行预处理。每一帧关键表情部位的视频图像特征为N₃×N₄×3，一个视频数据样本对应t 帧视频图像，所以每个视频数据样本的特征为t×N₃×N₄×3。

进一步地，步骤A5)中，采用双线性内插法对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理。

通过采用双线性内插法对图像进行缩放处理，使缩放处理后的图像能够满足深度卷积神经网络模型的图像输入特征要求。

进一步地，步骤B)中，音频卷积神经网络包含k₁个卷积层、k₂个池化层和k₃个全连接层，k₂个池化层均采用平均池化或最大池化，最后一层全连接层与分类器相连。

对每个语音Mel频谱片段，采用音频卷积神经网络，在目标情感数据集上进行微调，分别学习出高层次的音频情感特征表示。最后一层全连接层与分类器相连，利用分类器输出情感识别分类结果。

进一步地，步骤B)中构建多模视频深度卷积神经网络，包括步骤：

B1)获取视频片段的有序光流图；

B2)构建长时运动流视频卷积神经网络模型，长时运动流视频卷积神经网络模型包含m₁个卷积层、m₂个池化层和m₃个全连接层，m₂个池化层均采用平均池化或最大池化；

B3)构建短时运动流视频卷积神经网络模型，短时运动流视频卷积神经网络模型包含m₄个卷积层、m₅个池化层和m₆个全连接层，m₅个池化层均采用平均池化或最大池化；

B4)把长时运动流视频卷积神经网络模型的最后一层全连接层的输出特征与短时运动流视频卷积神经网络模型的最后一层全连接层的输出特征进行串联，输入到一个全连接层网络进行特征层融合，获得总的视频特征，并将总的视频特征与线性SVM分类器相连；

B5)将有序光流图作为长时运动流视频卷积神经网络模型的输入，将步骤A55)中的视频数据样本作为短时运动流视频卷积神经网络模型的输入，训练多模视频深度卷积神经网络，获得高层次视频特征。

为了充分利用视频片段的表观短时信息和长时信息，构建了长时运动流视频卷积神经网络模型和短时运动流视频卷积神经网络模型，以视频片段帧序列即步骤A55)中的视频数据样本作为输入，采用短时运动流视频卷积神经网络模型即3D-CNN时空特征学习方法提取视频片段的表观和短时运动特征。有序光流图是单幅图像，采用长时运动流视频卷积神经网络模型即二维卷积神经网络(2D-CNN)特征学习方法提取视频片段的长时运动特征。

进一步地，步骤B)中，还包括计算总样本损失函数，更新网络权重值；通过计算得到损失函数，其中，/>表示第j个情感识别类别的真实值，S_j表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值，l表示情感类别数目；通过计算/>得到总样本损失函数，L_i(S,y)为第i个样本的损失函数，K为样本总数。

获得音视频样本{(a₁,v₁,y₁),...(a_i,v_i,y_i),...,(a_K,v_k,y_K)}，其中(a_i,v_i,y_i)表示第i个音视频数据样本，a_i表示第i个音频数据样本，v_i表示第i个视频数据样本，y_i表示第i个音视频数据样本真实的情感识别类别向量，将分类器设为softmax分类器，利用音频数据训练样本对音频深度卷积神经网络A进行训练，则相当于求解最优化问题：

其中，a_i表示第i个音频数据样本，θ^A为网络A的网络参数，Υ^A(a_i；θ^A)为网络A的最后一层全连接层的特征表示，W^A为网络A的最后一层全连接层的权重值。

进一步地，步骤C)中构建高层次的音视频统一特征，包括步骤：

C1)对训练好的音频深度卷积神经网络的权重值W^A和多模视频深度卷积神经网络的权重值 W^V进行固定；

C2)去掉音频深度卷积神经网络的分类器和多模视频深度卷积神经网络的SVM分类器；

C3)将去掉分类器后的音频深度卷积神经网络最后一层全连接层的输出特征与去掉SVM分类器后的多模视频深度卷积神经网络最后一层全连接层的输出特征进行串联，输入到一个深度信念网络进行特征层融合，获得总的特征向量，获得高层次的音视频统一特征。

采用深度信念网络对深度卷积神经网络学习到的音频、视频特征进行融合学习，构建高层次的音视频统一特征表示。

进一步地，深度信念网络包括可见层、隐藏层和输出层，将高层次的音视频统一特征直接输入到所述深度信念网络的可见层。

深度信念网络是由多个受限玻尔兹曼机(RBM)堆栈而成，层与层之间全连接，层内无连接，通过多个RBM的无监督学习，使得网络参数接近局部最优，以便网络能有效学习出输入数据的结构特点。由于深度信念网络中的每个RBM都可以用来对音视频情感特征数据进行融合学习，因此深度信念网络能够通过多个RBM的学习实现音视频情感特征数据的深度融合，从而构建出高层次的音视频统一特征表示，用于音视频情感识别。

进一步地，步骤D)中，验证深度信念网络的识别率采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终深度信念网络的识别率。

留一法交叉验证方式使得每次迭代中都使用了最大可能数目的样本来训练模型。

本发明具有如下有益效果：解决了现有特征提取方法提取的特征对于情感语义的表示力比较有限的问题，采用多模视频深度卷积神经网络进行两次融合，一次融合为长时视频信息和短时视频信息的融合，一次为音频和视频信息的融合，从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的问题，采用由受限玻尔兹曼机构成的深度信念网络对多模视频深度卷积神经网络学习到的音视频情感特征进行融合学习，从而构建出高层次的音视频统一特征，对音视频情感识别进行分类。

附图说明

图1是本发明的实施例一流程示意图。

图2是本发明的实施例一获得音频数据样本流程示意图。

图3是本发明的实施例一获得视频数据样本流程示意图。

图4是本发明的实施例一深度卷积神经网络整体结构示意图。

图5是本发明的实施例一多模视频深度卷积神经网络结构示意图。

图6是本发明的实施例一音视频情感数据集RML表情样本示例图。

图7是本发明方法取得的各种情感的正确识别率(％)。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述。

实施例一，一种融合多个深度学习模型的双模态情感识别方法，如图1所示，包括：A)采集音视频信号，采用音视频情感数据集RML进行音视频情感识别性能测试(见文献：Y.Wang and L.Guan.Recognizing human emotional state from audiovisualsignals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。如图6所示，该数据集由8个人录制而成，包含720个音视频样本，6种情感，即生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)以及害怕(Fear)。获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段，获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵，如图2所示，获得音频数据样本包括步骤：

A1)采集一维的情感语音信号，采用64个Mel滤波器和64帧的文本窗大小，获得64×64的二维静态频谱片段特征；

A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道，获得特征为64×64×3的音频RGB图像三通道输入矩阵；

A5)采用双线性内插法对特征为64×64×3的音频RGB图像三通道输入矩阵进行缩放处理，获得特征为227×227×3的音频RGB图像三通道输入矩阵；

如图3所示，获得视频数据样本包括步骤：

A11)按照视频片段的时间先后顺序依次获得16帧视频图像；

A22)对每一帧视频图像进行实时性人脸检测与定位；

A33)计算出人脸双眼瞳孔中心之间的距离，将双眼瞳孔中心之间的距离统一缩放到55个像素大小的距离；

A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域图像；

A55)依次重复步骤A11)至A44)，获得K个特征为16×150×110×3视频数据样本，记为 {v₁，v₂，...，v_K}。

B)构建音频深度卷积神经网络和多模视频深度卷积神经网络，如图4所示，音频深度卷积神经网络采用ImageNet数据集上预训练好的AlexNet网络模型，对网络进行初始化， AlexNet网络模型包含5个卷积层、3个池化层和3个全连接层，3个全连接层分别为fc6,fc7 和fc8。其中，fc7层表示卷积神经网络所学习到的高层次的属性特征，fc8层与分类器相连，利用分类器输出情感识别分类结果，3个池化层均采用平均池化，分类器采用softmax分类器。利用音频数据样本训练音频深度卷积神经网络，计算音频深度卷积神经网络的总样本损失函数，更新音频深度卷积神经网络权重值，获得高层次音频特征。

步骤B)中构建多模视频深度卷积神经网络，如图5所示，包括步骤：

B1)获取视频片段的有序光流图；

B2)构建长时运动流视频卷积神经网络模型，长时运动流视频卷积神经网络模型包含5个卷积层、3个池化层和3个全连接层，5个池化层均采用最大池化；

B3)构建短时运动流视频卷积神经网络模型，短时运动流视频卷积神经网络模型包含8个卷积层、5个池化层和3个全连接层，8个池化层均采用最大池化；

B4)把长时运动流视频卷积神经网络模型的最后一层全连接层的输出特征与短时运动流视频卷积神经网络模型的最后一层全连接层的输出特征进行串联，输入到一个全连接层网络进行特征层融合，获得8192维的特征向量，再与一层全连接层，获得4096维的总的视频特征，将4096维的总的视频特征与线性SVM分类器相连；

其中通过计算得到损失函数，其中，/>表示第j个情感识别类别的真实值，S_j表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值，l表示情感类别数目；通过计算/>得到总样本损失函数，L_i(S,y)为第i个样本的损失函数，K为样本总数。

C)构建高层次的音视频统一特征，如图4所示，包括：

C2)去掉音频深度卷积神经网络的softmax分类器和多模视频深度卷积神经网络的SVM分类器；

C3)将去掉softmax分类器后的音频深度卷积神经网络最后一层全连接层的输出特征与去掉 SVM分类器后的多模视频深度卷积神经网络最后一层全连接层的输出特征进行串联，输入到一个深度信念网络进行特征层融合，获得总的特征向量，获得高层次的音视频统一特征。

建立由受限玻尔兹曼机构成的深度信念网络，深度信念网络包括可见层、隐藏层和输出层，将高层次的音视频统一特征直接输入到深度信念网络的可见层。深度信念网络最后一层隐藏层的输出做平均池化之后与分类器线性SVM相连。

D)获得音视频情感识别分类结果，验证深度信念网络的识别率时采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终深度信念网络的识别率。表1给出了本发明方法在音视频情感数据集RML上取得的平均正确识别率。由表1可见，音频深度卷积神经网络获得了66.17％的正确识别率，多模视频深度卷积神经网络获得了72.14％的正确识别率，而基于深度信念网络的音视频融合网络获得了81.05％的正确识别率。这说明了本发明方法的有效性。表1给出了本发明方法取得81.05％的识别性能时的各种情感类型的正确识别率。其中，表1中对角线粗体数据表示每一种具体的情感类型所获得的正确识别率。

表1本实施例在音视频情感数据集RML上取得的平均正确识别率(％)

方法	平均正确识别率(％)
		音频深度卷积神经网络	66.17
多模视频深度卷积神经网络	72.14
		基于深度信念网络的音视频融合网络	81.05

本发明解决了现有特征提取方法提取的特征对于情感语义的表示力比较有限的问题，采用多模视频深度卷积神经网络进行两次融合，一次融合为长时视频信息和短时视频信息的融合，一次为音频和视频信息的融合，从原始的音视频信号来学习高层次的音视频情感特征。并且解决了现有融合方法无法构建高层次的音视频统一特征表示的问题，采用由受限玻尔兹曼机构成的深度信念网络对多模视频深度卷积神经网络学习到的音视频情感特征进行融合学习，从而构建出高层次的音视频统一特征，对音视频情感识别进行分类。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims

1.一种融合多个深度学习模型的双模态情感识别方法，其特征在于，包括步骤：

A)采集音视频信号，获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段，生成音频RGB图像三通道输入矩阵，获得音频数据样本和视频数据样本；

B)构建音频深度卷积神经网络，获得高层次音频特征；

构建多模视频深度卷积神经网络，获得高层次视频特征；获取视频片段的有序光流图，构建长时运动流视频卷积神经网络模型和短时运动流视频卷积神经网络模型，获得总的视频特征；将有序光流图作为长时运动流视频卷积神经网络模型的输入，将视频数据样本作为短时运动流视频卷积神经网络模型的输入，训练多模视频深度卷积神经网络，获得高层次视频特征；

C)构建高层次的音视频统一特征，建立由受限玻尔兹曼机构成的深度信念网络，深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连；

2.根据权利要求1所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤A)中获得音频数据样本，包括步骤：

A6)依次重复步骤A1)至A5)，获得K个音频数据样本，记为a₁，a₂，...，a_k。

3.根据权利要求1或2所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤A)中获得视频数据样本，包括步骤：

A11)按照视频片段的时间先后顺序依次获得t帧视频图像；

A22)对每一帧视频图像进行实时性人脸检测与定位；

A44)把图像裁切成包含嘴巴、鼻子、额头关键表情部位的N₃×N₄×3大小区域图像；

A55)依次重复步骤A11)至A44)，获得K个特征为t×N₃×N₄×3视频数据样本，记为v₁，v₂，…，v_K。

4.根据权利要求3所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤A5)中，采用双线性内插法对特征为N₁×N₂×3的音频RGB图像三通道输入矩阵进行缩放处理。

5.根据权利要求4所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤B)中，所述音频卷积神经网络包含k₁个卷积层、k₂个池化层和k₃个全连接层，k₂个池化层均采用平均池化或最大池化，最后一层全连接层与分类器相连。

6.根据权利要求4或5所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤B)中构建多模视频深度卷积神经网络，包括步骤：

B1)获取视频片段的有序光流图；

B2)构建长时运动流视频卷积神经网络模型，所述长时运动流视频卷积神经网络模型包含m₁个卷积层、m₂个池化层和m₃个全连接层，m₂个池化层均采用平均池化或最大池化；

B3)构建短时运动流视频卷积神经网络模型，所述短时运动流视频卷积神经网络模型包含m₄个卷积层、m₅个池化层和m₆个全连接层，m₅个池化层均采用平均池化或最大池化；

7.根据权利要求6所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤B)中，还包括计算总样本损失函数，更新网络权重值；通过计算得到损失函数，其中，/>表示第j个情感识别类别的真实值，S_j表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值，l表示情感类别数目；通过计算/>得到总样本损失函数，L_i(S,y)为第i个样本的损失函数，K为样本总数。

8.根据权利要求1或7所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤C)中构建高层次的音视频统一特征，包括步骤：

C1)对训练好的音频深度卷积神经网络的权重值W^A和多模视频深度卷积神经网络的权重值W^V进行固定；

9.根据权利要求8所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，所述深度信念网络包括可见层、隐藏层和输出层，将高层次的音视频统一特征直接输入到所述深度信念网络的可见层。

10.根据权利要求1或9所述的一种融合多个深度学习模型的双模态情感识别方法，其特征在于，步骤D)中，验证深度信念网络的识别率采用留一法交叉验证方式，计算平均识别率，将平均识别率作为最终深度信念网络的识别率。