CN112784730B

CN112784730B - 一种基于时域卷积网络的多模态情感识别方法

Info

Publication number: CN112784730B
Application number: CN202110072249.3A
Authority: CN
Inventors: 李克; 梁瑞宇; 赵力; 郭如雪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-03-29
Anticipated expiration: 2041-01-20
Also published as: CN112784730A

Abstract

本发明公开了一种基于时域卷积网络的多模态情感识别方法，对音视频样本中的视频模态数据间隔采样并进行人脸检测与关键点定位，得到灰度人脸图像序列；进行短时傅里叶变换并通过梅尔滤波器组，得到梅尔声谱图；将灰度人脸图像序列和梅尔声谱图分别通过人脸图像卷积网络和声谱图像卷积网络，并进行特征融合；将融合特征序列输入时域卷积网络得到高级特征向量；将高级特征向量通过全连接层以及Softmax回归，得到每一情感类别的预测概率，与实际概率分布之间计算交叉熵损失，并通过反向传播训练整个网络，得到训练好的神经网络模型。本发明能够通过音视频预测情感，同时训练时长短，识别准确率高。

Description

一种基于时域卷积网络的多模态情感识别方法

技术领域

本发明涉及音视频处理、模式识别、深度学习技术，尤其涉及一种基于时域卷积网络的多模态情感识别方法。

背景技术

1997年，Picard教授首先提出了“情感计算”的概念，情感计算涉及心理学、认知学、模式识别、语音信号处理、生理学、社会学、计算机视觉和人工智能等方面，它利用计算机获取人类的脸部表情、语音等信息来识别人类表现出的情感状态，从而使机器能够更好地理解人类的情感和行为，以此带来更流畅和高效的交互体验。多模态情感识别，旨在利用表情和语音模态信息来识别人的基本情感，一般分为6类，依次为高兴(Happy)、悲伤(Sad)、吃惊(Surprise)、愤怒(Angry)、恐惧(Fear)和厌恶(Disgust)，多模态融合的方法一般有特征融合和决策融合。特征融合能够最大程度得保留各个模态的信息，但也存在着多个模态信息同步问题和因特征维度太大而出现的过拟合问题。决策融合是在各个模态模型得出情感识别结果后，对最后的结果以某种规则进行最后判决，灵活性高，实时性强，但由于最后只能获得各个模态上的判定结果，信息量较少，相对精度较低。

随着近年来深度学习技术的不断发展，越来越多的研究者将其应用于多模态情感识别，Chen等人在2016年EmotiW情感识别挑战赛中，在语音模态上使用声学统计特征等多种语音特征，在人脸表情模态上使用CNN特征等多种人脸表情特征，针对每种特征训练支持向量机、随机森林和逻辑回归分类器，并采用决策融合的方法来实现最后的情感识别，取得了远高于基线的成绩。Noroozi等人提出了一种新型的基于语音和视频的决策融合方法的多模态情感识别系统，从语音中提取基于MFCC的特征，并从视频中计算面部标记的几何关系,在eNTERFACE’05数据库上取得了较好的识别效果。Chao等人在2015年EmotiW情感识别挑战赛中融合了使用长短时记忆神经网络聚合的语音和人脸表情特征，并对得到的特征采用SVM分类器来实现最后的分类，实现特征融合方法的情感识别方法，在测试集上取得了很高的识别率。

样本的时序建模是多模态情感识别中的关键问题，在深度学习背景下一般使用与与递归神经网络(RNN)有关的架构如长短时记忆(LSTM)网络、门控循环单元(GRU)等，但RNN等架构存在多个缺陷，如易出现梯度消失和梯度爆炸问题、内存占用问题、顺序处理的耗时过长问题等，因此S.Bai等人认为在对序列数据进行建模时，应该将卷积网络作为主要候选者之一加以考虑，他们在2018年提出了称为时域卷积网络(Temporal ConvolutionalNetwork,TCN)的架构，能够有效解决以上问题，因此同样可应用于多模态情感识别的时序建模。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种准确率高的基于时域卷积网络的多模态情感识别方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于时域卷积网络的多模态情感识别方法，包括以下步骤：

步骤1，获取含有情感信息的音视频作为训练样本。

步骤2，对步骤1获得的训练样本中的视频模态数据间隔采样并进行人脸检测与关键点定位，得到灰度人脸图像序列。

步骤3，对样本中的音频模态数据进行短时傅里叶变换STFT并通过梅尔滤波器组，得到梅尔声谱图。

步骤4，构建神经网络模型，以训练样本得到的灰度人脸图像序列、梅尔声谱图输入神经网络模型，以交叉熵L作为损失函数进行反向传播训练神经网络模型，并采用自适应矩估计Adam方法进行训练优化，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，最终得到训练好的神经网络模型。

所述神经网络模型包括人脸图像卷积网络、声谱图像卷积网络以及时域卷积网络，其中：

所述人脸图像卷积网络包括依次连接的卷积层一、最大值池化层一、残差单元、全局平均值池化层一和全连接层一，所述残差单元包括八个残差模块，每个残差模块包括两个由3×3尺寸卷积核构成的卷积层，残差模块以shortcut结构连接。

所述声谱图像卷积网络包括依次连接的卷积层二、归一化层一、最大值池化层二、卷积层三、归一化层二、最大值池化层三、全局平均值池化层二。

所述时域卷积网络TCN包括四个膨胀系数呈2的幂级数增长的时域卷积模块和全连接层二，所述时域卷积模块按膨胀系数由低到高依次连接，最后的时域卷积模块与全连接层二连接。

所述时域卷积模块由两个因果膨胀1维卷积层以shortcut结构进行连接构成。因果膨胀1维卷积对于输入的融合特征序列，随机初始化一个大小为7的1维卷积核，在序列的时间维度上进行滑动，依次与相同长度的子序列点乘得到输出序列中的一个元素。对于输出序列{x′₀,...,x′_T-1}的第i个元素，仅依赖于输入序列中索引为{0,...,i-1}即其之前的元素，为保持输入输出序列长度相等，仅在输入序列左侧填充0，从而使得该卷积操作是严格约束的因果模型。为使得1维卷积能够分析长期的时序关系，卷积核采用膨胀操作，即在与输入序列点乘时进行间隔采样，在卷积核大小不变的情况下使其感受野更大，能够与输入序列中更大范围的子序列进行点乘，在每个时域卷积模块中，两个卷积层的膨胀系数相同，而在时域卷积模块之间，膨胀系数呈2的幂级数逐渐增长。每一个时域卷积模块的输出序列长度与输入序列长度相等，而特征维度等同于卷积核的数量。

神经网络模型训练方法如下：

步骤4-1，将所有提取到的灰度人脸图像序列输入人脸图像卷积网络，将每一幅图像编码为128维、列宽T的特征向量一，所有的特征向量一组成特征矩阵一。

步骤4-2，将梅尔声谱图输入声谱图像卷积网络，编码为行高128、列宽为T的特征矩阵二。

步骤4-3，将特征矩阵一、特征矩阵二在纵向进行拼接，即逐帧进行特征融合，得到特征向量维度为256、长度为T的融合特征序列。

步骤4-4，将所述的融合特征序列输入时域卷积网络TCN，并选取经过时序建模的序列的末尾元素作为高级特征向量。

步骤4-5，将高级特征向量输入全连接层二得到一个维度等同于分类数量的输出向量z，使用Softmax函数映射为概率分布后计算输出向量z与样本实际概率分布之间的交叉熵L，并通过反向传播训练整个神经网络模型不断更新权重，得到对音视频样本进行情感分类的训练好的神经网络模型。

交叉熵L：

式中，R_i为样本实际概率分布，z_i为第i个输出神经元的值，K为分类数量。

步骤5，识别时，获取待识别的含有情感信息的音视频作为识别样本，将识别样本通过步骤2、步骤3的处理得到识别样本的灰度人脸图像序列、梅尔声谱图，将识别样本的灰度人脸图像序列、梅尔声谱图输入训练好的神经网络模型得到情绪识别结果。

优选的：步骤2中得到灰度人脸图像序列的方法：

步骤2-1，对视频模态数据进行间隔采样，每80毫秒提取一帧图像并转换为灰度色域得到灰度图像。

步骤2-2，使用基于HOG特征的人脸检测器和基于回归树集合的人脸配准器对所有提取到的灰度图像进行人脸检测及68点关键点定位。

步骤2-3，根据定位得到的关键点，以30号关键点鼻尖作为中心，以s作为边长，裁剪出人脸正方形区域，并归一化为64×64的尺寸、[0,1]的像素值范围，其中s具体为：

式中，x_right表示人脸最左侧0号关键点横坐标，x_left表示人脸最右侧16号关键点的横坐标，x_center表示中心点的横坐标，y_center表示中心点的纵坐标，width表示图像帧宽，height表示图像帧高。

优选的：步骤3得到梅尔声谱图方法：

步骤3-1，对样本中的音频模态数据以8kHz的采样率进行采样并将1024个采样点集合成一个观测单位，称为帧，帧长为64ms。两相邻帧之间有一段重叠区域，此重叠区域长度，称为帧移。帧移＝音频采样率Hz*音频采样间隔s+1＝641。

步骤3-2，对每一帧加汉明窗，具体为：

s′(n)＝s(n)×w(n,a)

式中，n＝0,1,...,N-1，N为帧长，s(n)表示加窗前的帧，s′(n)表示加窗后的帧，w(n,a)为汉明窗函数，具体为：

式中，a为预设常量。

步骤3-3，对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，并对频谱取模平方得到功率谱，所述的频谱计算和功率谱计算具体为：

式中，S(k)为频谱，P(k)为功率谱，j表示虚数，k＝0,1,...,N-1，N为帧长。

步骤3-4，定义一个梅尔滤波器组，滤波器频率响应H_m(k)为：

式中，k表示变量，f(m)为中心频率，m＝1,2,...,M，M为滤波器个数。

步骤3-5，将功率谱P(k)分别与滤波器组中的每一个滤波器进行频率相乘累加并取对数，得到第k帧数据在第m个滤波器对应频段的功率值h(m)，具体为：

步骤3-6，对每一帧数据重复步骤2-2到步骤2-5的操作，得到整段音频数据的梅尔声谱图。

优选的：所述卷积层一步长为2，卷积层一由64个7×7尺寸卷积核构成。所述最大值池化层一滑动窗口尺寸为3×3，步长为2。所述全局平均值池化层一滑动窗口尺寸等同于特征图尺寸。

优选的：所述卷积层二、卷积层三的卷积核尺寸为3×1、纵向步长为2。最大值池化层二、最大值池化层三的滑动窗口尺寸为3×1、纵向步长为2。

本发明相比现有技术，具有以下有益效果：

本发明能够通过音视频预测情感，同时训练时长短，识别准确率高。

附图说明

图1是本发明提供的基于时域卷积网络的多模态情感识别方法的一个实施例的流程示意图。

图2是梅尔声谱图的示意图。

图3是人脸图像卷积网络结构图。

图4是声谱图像卷积网络结构图。

图5是用于融合特征序列时序建模的时域卷积网络的结构图。

图6是本发明更换时序建模方法在eNTERFACE'05数据集下的对比实验结果。

图7是本发明在eNTERFACE'05数据集下的归一化混淆矩阵。

图8是本发明在RAVDESS数据集下的归一化混淆矩阵。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于时域卷积网络的多模态情感识别方法，如图1所示，该方法包括：

(1)获取若干含有情感信息的音视频样本，对样本中的视频模态数据间隔采样并进行人脸检测与关键点定位，得到灰度人脸图像序列。

该步骤具体包括：

(1-1)对所述的视频模态数据进行间隔采样，每80毫秒提取一帧图像并转换为灰度色域，图像序列长为T。

(1-2)使用基于HOG特征的人脸检测器和基于回归树集合的人脸配准器对所有提取到的灰度图像进行人脸检测及68点关键点定位。

(1-3)根据定位得到的关键点，以30号关键点鼻尖作为中心，以s作为边长，裁剪出人脸正方形区域，如图2所示，并归一化为64×64的尺寸、[0,1]的像素值范围，其中所述的s具体为：

式中，x_right与x_left分别表示表示人脸最左侧0号关键点与最右侧16号关键点的横坐标，x_center与y_center分别表示中心点的横纵坐标，width与height分别表示图像帧宽与帧高。

(2)对样本中的音频模态数据进行短时傅里叶变换(STFT)并通过梅尔滤波器组，得到梅尔声谱图。

该步骤具体包括：

(2-1)对样本中的音频模态数据以8kHz的采样率进行采样并将1024个采样点集合成一个观测单位，称为帧，帧长为64ms。两相邻帧之间有一段重叠区域，此重叠区域长度，称为帧移。帧移将决定由音频数据提取得到的帧数，为保证音频序列与视频序列长度均为T，本实施例中取帧移＝音频采样率(Hz)*音频采样间隔(s)+1＝641。

(2-2)对每一帧音频数据加汉明窗以增加帧左端和右端的连续性，所述的加窗操作具体为：

s′(n)＝s(n)×w(n,a)

式中，n＝0,1,...,N-1，N为帧长，s(n)表示加窗前的帧,s′(n)表示加窗后的帧，w(n,a)为汉明窗函数，具体为：

式中，a为预设常量，本实施例中取0.46。

(2-3)对分帧加窗后的各帧信号进行快速傅里叶变换(FFT)得到各帧的频谱，并对频谱取模平方得到功率谱，所述的频谱计算和功率谱计算具体为：

式中，k＝0,1,...,N-1，N为帧长，S(k)为频谱，P(k)为功率谱。

(2-4)定义一个梅尔滤波器组(Mel Filterbank)，滤波器频率响应H_m(k)具体为：

式中，f(m)为中心频率，m＝1,2,...,M，M为滤波器个数，本实施例中取22。

(2-5)对于所述的功率谱P(k)，分别与(2-4)所述滤波器组中的每一个滤波器进行频率相乘累加并取对数，得到的值h(m)即为该帧数据在该滤波器对应频段的功率值，具体为：

(2-6)对每一帧数据重复(2-1到2-5)中的操作，即可得到整段音频数据的梅尔声谱图，其可视化结果如图2所示。

(3)将灰度人脸图像序列和梅尔声谱图分别通过人脸图像卷积网络和声谱图像卷积网络，并进行特征融合。

该步骤具体包括：

(3-1)将所有提取到的人脸图像输入人脸图像卷积网络，将每一幅图像编码为128维的特征向量。其中，如图3所示，所述的人脸图像卷积网络依次连接的一个由64个7×7尺寸卷积核构成、步长为2的头部卷积层一，对特征图尺寸进行0.5倍下采样并将通道数升维至64维。一个滑动窗口尺寸为3×3、步长为2最大值池化层一，对特征图进行0.5倍下采样。两个为一组共八个残差模块，每个残差模块含两个由3×3尺寸卷积核构成的卷积层，并以shortcut结构连接，每组中的卷积层参数一致，组内首个卷积层步长为2其余为1，卷积核数量由浅至深逐步增加，最终将特征图尺寸下采样至输入的1/32、通道数升维至512维。一个滑动窗口尺寸等同于特征图尺寸的全局平均值池化层一，将特征图尺寸下采样为1×1。一个全连接层一，将平化后的特征向量转换为期望的特征维度，本实施例中取128维。

(3-2)将梅尔声谱图输入声谱图像卷积网络，编码为行高128、列宽为T的矩阵。其中，如图4所示，所述的声谱图像卷积网络包括依次连接的卷积层二、归一化(BN)层一、最大值池化层二、卷积层三、归一化(BN)层二、最大值池化层三、全局平均值池化层二。由于梅尔声谱图的宽等同于时间长度T，因此在卷积过程中特征图的宽应是不变的，为此卷积层二、卷积层三的卷积核尺寸以及最大值池化层二、最大值池化层三的滑动窗口尺寸均为3×1，横向步长均为1、纵向步长均为2。卷积层二将特征图升维至64通道并在纵向进行0.5倍下采样、卷积层三将特征图升维到128通道并在纵向进行0.5倍下采样，最大值池化层二、最大值池化层三每次将特征图在纵向进行0.5倍下采样，最后的全局平均值池化层二将特征图尺寸下采样为1×T，而BN层能够加快模型的收敛速度并避免梯度爆炸和过拟合。

(3-3)人脸图像序列与梅尔声谱图分别经过卷积网络后均转换为行高128、列宽T的特征矩阵，对两个特征矩阵在纵向进行拼接，即逐帧进行特征融合，得到特征向量维度为256、长度为T的融合特征序列{x₀,...,x_T-1}。

(4)将融合特征序列输入时域卷积网络(TCN)进行时序建模。

该步骤具体包括：

(4-1)构建时域卷积网络(TCN)，TCN由四个膨胀系数呈2的幂级数增长的时域卷积模块构成，时域卷积模块由两个因果膨胀1维卷积层组成并以shortcut结构进行连接，如图5所示，所述时域卷积模块按膨胀系数由低到高依次连接，最后的时域卷积模块与全连接层二连接。

其中，所述的因果膨胀1维卷积具体为对于输入的融合特征序列，随机初始化一个大小为7的1维卷积核，在序列的时间维度上进行滑动，依次与相同长度的子序列点乘得到输出序列中的一个元素。对于输出序列{x′₀,...,x′_T-1}的第i个元素，仅依赖于输入序列中索引为{0,...,i-1}即其之前的元素，为保持输入输出序列长度相等，仅在输入序列左侧填充0，从而使得该卷积操作是严格约束的因果模型。为使得1维卷积能够分析长期的时序关系，卷积核采用膨胀操作，即在与输入序列点乘时进行间隔采样，在卷积核大小不变的情况下使其感受野更大，能够与输入序列中更大范围的子序列进行点乘，在每个时域卷积模块中，两个卷积层的膨胀系数相同，而在模块之间，膨胀系数呈2的幂级数逐渐增长。每一个时域卷积模块的输出序列长度与输入序列长度相等，而特征维度等同于卷积核的数量。

(4-2)将所述的融合特征序列{x₀,...,x_T-1}输入TCN，得到序列长度相等，而特征向量维度升维至256的高级特征序列{c₀,...,c_T-1}。

(5)将高级特征向量通过全连接层二以及Softmax回归，得到每一情感类别的预测概率，与实际概率分布之间计算交叉熵损失，并通过反向传播训练整个网络不断更新权重，得到可以对音视频样本进行情感分类的神经网络模型。

该步骤具体包括：

(5-1)将所述的高级特征序列的末尾元素c_T-1输入全连接层二得到一个维度为K的输出向量z，映射为概率分布后计算其与样本实际概率分布之间的交叉熵(Cross Entropy)L，具体为：

式中，R_i为样本实际概率分布，z_i为第i个输出神经元的值，K为分类数量，本实施例进行6类基本情绪(愤怒、恶心、恐惧、喜悦、悲伤、惊讶)的分类，故K＝6。

(5-2)以含有情感信息的音视频数据作为训练样本、以所述的交叉熵L作为损失函数进行反向传播训练整个神经网络，并采用权值衰减设置为5e^-5的自适应矩估计(Adam)方法进行训练优化，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，最终得到可以预测音视频样本情感分类概率的神经网络模型。

本实施例在训练神经网络时采取五折交叉验证，选取数据集中4/5的样本作为训练集、1/5的样本作为验证集，以32个样本作为一个小批次进行输入，学习率初始化为4e^-3，每20个迭代周期衰减为原先的一半，共迭代100个周期。

对于完成训练的神经网络模型，会进行测试，测试结果如下：

为验证本发明的时域卷积网络的有效性与必要性，在公开的多模态情感识别数据集eNTERFACE'05使用不同的时序建模方法，在控制超参数使得总参数量一致的前提下对比100个迭代周期的训练时长和识别准确率，如图6所示，可以观察到本发明的时域卷积网络同时取得了最低的训练时长和最高的识别准确率。同时为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题，我们对于神经网络模型在eNTERFACE'05和RAVDESS两个数据集上的结果计算了归一化混淆矩阵，如图7和图8所示。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于时域卷积网络的多模态情感识别方法，其特征在于，包括以下步骤：

步骤1，获取含有情感信息的音视频作为训练样本；

步骤2，对步骤1获得的训练样本中的视频模态数据间隔采样并进行人脸检测与关键点定位，得到灰度人脸图像序列；

步骤3，对样本中的音频模态数据进行短时傅里叶变换STFT并通过梅尔滤波器组，得到梅尔声谱图；

步骤4，构建神经网络模型，以训练样本得到的灰度人脸图像序列、梅尔声谱图输入神经网络模型，以交叉熵L作为损失函数进行反向传播训练神经网络模型，并采用自适应矩估计Adam方法进行训练优化，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，最终得到训练好的神经网络模型；

所述人脸图像卷积网络包括依次连接的卷积层一、最大值池化层一、残差单元、全局平均值池化层一和全连接层一，所述残差单元包括八个残差模块，每个残差模块包括两个由3×3尺寸卷积核构成的卷积层，残差模块以shortcut结构连接；

所述声谱图像卷积网络包括依次连接的卷积层二、归一化层一、最大值池化层二、卷积层三、归一化层二、最大值池化层三、全局平均值池化层二；

所述时域卷积网络TCN包括四个膨胀系数呈2的幂级数增长的时域卷积模块和全连接层二，所述时域卷积模块按膨胀系数由低到高依次连接，最后的时域卷积模块与全连接层二连接；

所述时域卷积模块由两个因果膨胀1维卷积层以shortcut结构进行连接构成；因果膨胀1维卷积对于输入的融合特征序列，随机初始化一个大小为7的1维卷积核，在序列的时间维度上进行滑动，依次与相同长度的子序列点乘得到输出序列中的一个元素；对于输出序列{x′₀,...,x′_T-1}的第i个元素，仅依赖于输入序列中索引为{0,...,i-1}即其之前的元素，为保持输入输出序列长度相等，仅在输入序列左侧填充0，从而使得该卷积操作是严格约束的因果模型；为使得1维卷积能够分析长期的时序关系，卷积核采用膨胀操作，即在与输入序列点乘时进行间隔采样，在卷积核大小不变的情况下使其感受野更大，能够与输入序列中更大范围的子序列进行点乘，在每个时域卷积模块中，两个卷积层的膨胀系数相同，而在时域卷积模块之间，膨胀系数呈2的幂级数逐渐增长；每一个时域卷积模块的输出序列长度与输入序列长度相等，而特征维度等同于卷积核的数量；

神经网络模型训练方法如下：

步骤4-1，将所有提取到的灰度人脸图像序列输入人脸图像卷积网络，将每一幅图像编码为128维、列宽T的特征向量一，所有的特征向量一组成特征矩阵一；

步骤4-2，将梅尔声谱图输入声谱图像卷积网络，编码为行高128、列宽为T的特征矩阵二；

步骤4-3，将特征矩阵一、特征矩阵二在纵向进行拼接，即逐帧进行特征融合，得到特征向量维度为256、长度为T的融合特征序列；

步骤4-4，将所述的融合特征序列输入时域卷积网络TCN，并选取经过时序建模的序列的末尾元素作为高级特征向量；

步骤4-5，将高级特征向量输入全连接层二得到一个维度等同于分类数量的输出向量z，使用Softmax函数映射为概率分布后计算输出向量z与样本实际概率分布之间的交叉熵L，并通过反向传播训练整个神经网络模型不断更新权重，得到对音视频样本进行情感分类的训练好的神经网络模型；

交叉熵L：