CN112418166A

CN112418166A - 一种基于多模态信息的情感分布学习方法

Info

Publication number: CN112418166A
Application number: CN202011434335.6A
Authority: CN
Inventors: 贾修一; 沈小霞
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-02-26
Anticipated expiration: 2040-12-10
Also published as: CN112418166B

Abstract

本发明公开了一种基于多模态信息的情感分布学习方法，包括：S1、数据准备：提取多模态数据特征，并将多模态数据特征数据集分为训练集和测试集，分别用于模型训练部分和情感预测部分；S2、模型训练：在训练集上学习每个模态的情感分布；S3、情感预测：基于步骤S2中训练好的模型在测试集上进行预测，并通过融合策略将所有模态结果结合起来得到最终结果。本发明通过学习来获取更加准确的标记相关性矩阵，另外，在进行多模态数据处理时采用了后期融合策略，同时，在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。本发明通过引入多模态信息可以提高情感分布学习模型的性能。

Description

一种基于多模态信息的情感分布学习方法

技术领域

本发明涉及机器学习技术，特别是涉及一种基于多模态信息的情感分布学习方法。

背景技术

情感识别是一个热门研究领域，在计算语言学、计算机视觉和机器学习等多个领域具有相当大的实践和理论价值。先前的大量研究只是能够解决“什么描述了情感”这一不明确的问题，即假设每个表情都与一个或多个预定义的情感标签相关联，而忽略了多种情绪始终具有不同强度的事实。因此，耿新等人将标记分布学习(LDL)框架引入到情感识别中。与以往的情感分类研究不同，LDL框架对一个实例分配一组具有描述度的标签，对情感的描述更加明确。

近年来，已经进行了一些基于LDL的情绪识别工作。例如，通过基于Plutchik的情感理论捕获标记的关系来进行情感学习的方法；利用标记相关性来构建情感识别模型的方法，等等。

但是，只通过面部表情或某单一模态来进行情感识别时具有一定的片面性。例如，在刑事案件中，被审讯人可以控制自己的面部表情来掩饰自己真实的情感，但是，心跳血压等生理信号很难控制，这时候多模态信息就显得尤为重要。多模态数据可以为情感识别提供更全面、更丰富的信息。

因此，现有的情感分布学习模型的主要缺点是：它们都是基于面部表情的单一模态学习，然而在现实世界中，只通过面部表情或某单一模态来进行情感识别时具有一定的片面性，且可能产生错误结果。例如，在刑事案件中，被审讯人可以控制自己的面部表情来掩饰自己真实的情感，但是，心跳血压等生理信号很难控制，这时候多模态信息就显得尤为重要。而且随着各种数据收集技术的出现，收集身体姿态、声音以及生理信号等多种模态的信息得以实现。

发明内容

发明目的：本发明的目的是提供一种基于多模态信息的情感分布学习方法，通过引入多模态信息可以提高情感分布学习模型的性能。

技术方案：本发明的基于多模态信息的情感分布学习方法，包括以下步骤：

S1、数据准备：提取多模态数据特征，并将多模态数据特征数据集分为训练集和测试集，分别用于模型训练部分和情感预测部分；

S2、模型训练：在步骤S1得到的训练集上学习每个模态的情感分布，具体地：首先为每个模态学习一个标记相关性矩阵，然后，利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数；最后，利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化，求解出模型参数矩阵的最优值，即模型训练完成；

S3、情感预测：基于步骤S2中训练好的模型在测试集上进行预测，并通过融合策略将所有模态结果结合起来得到最终结果。

进一步的，步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征，其中，音频数据特征提取中先对原始音频进行去躁，然后对去躁后的音频提取情感特征，具体为：

S101、删除原始音频中首尾各1s的内容；

S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解，保留大尺度下的全部分解值；对于小尺度下的分解值，设定阈值：

其中，σ＝MAD/0.6745，MAD为首层小波分解系数绝对值的中间值，0.6745为高斯噪声标准方差的调整系数，N为信号的尺寸或长度，幅值低于该阈值的小波系数置为零，高于该阈值的小波系数完整保留；

S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构，恢复出有效的信号；

S104、根据步骤S103中去躁后的音频信号，依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换，计算得到MFCC特征；

S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维；

视频数据特征提取的方法为：

S111、使用一个关键帧来表示视频中被试的情绪状态，该关键帧提取为语音振幅最高的那一帧；

S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征，具体地：将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络，取分类器层之前的最后隐层的输出作为图片特征；使用由RESNET预训练的VGG19网络来提取图片特征，具体地：将含有通道维的图片矩阵输入到预训练好的VGG网络，取分类器层之前的最后隐层的输出作为图片特征。

进一步的，步骤S2具体包括以下步骤：

S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵，该标记相关性矩阵是一个二维对称矩阵，表示标记x与标记y之间的相关性，数值越大表示相关性越大；

S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数；

S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化，求解出模型参数矩阵的最优值，即模型训练完成。

更进一步的，步骤S21具体为：

采用核回归模型为每个模态来学习情感分布，给出一个核k，令H为对应的RKHS。对于模态m，输出函数为：

其中，

是基于模态m预测的情感分布，W^(m)∈H是求解的参数矩阵，φ^(m)具体为：

φ^(m)＝[φ([X^(m)]₁),φ([X^(m)]₂),…,φ([X^(m)]_n)]；

其中，m表示第m个模态，

是一种核函数，[X^(m)]_n表示第m个模态中样本n的特征向量；为了拟合情感分布，采用均方误差作为损失函数，具体如下：

s.t.φ^(m)·W^(m)×1_l×1＝1_n×1；

φ^(m)·W^(m)1≥0_n×1；

其中，D是真实的情感分布，‖·‖是RKHS范式，λ₁是权重系数；根据表示定理将损失函数优化；表示定理优化策略如下：

其中，k(x_i,x)表示样本i的特征x_i与特征x的内积，α_ij为系数；因此，根据表示定理，优化后的损失函数为：

s.t.K^(m)·α^(m)×1_l×1＝1_n×1；

K^(m)·α^(m)1≥0_n×1；

其中，tr(·)为均方矩阵的迹，K为核矩阵，即，[K^(m)]_i,j＝k([X^(m)]_i,[X^(m)]_j)，X^(m)为第m个模态的特征矩阵，D为真实的情感分布矩阵，

为权重系数；

更进一步的，步骤S22具体为：

首先，标记流行正则化器定义为：

其中，

是关于m模态的预测情感分布，C^(m)是l×l的标记相关性矩阵；定义

作为对角矩阵，其对角元素表示为

由于拉普拉斯矩阵是对称正定的，定义

那么，标记正则化项重新化简为：

min tr(K^(m)α^(m)Z^(m)Z^(m)Tα^(m)TK^(m)T)；

s.t.diag(Z^(m),Z^(m)T)＝1；

其中，diag(Z^(m),Z^(m)T)＝1是为了防止在优化过程中Z^(m)变为0；

在多模态学习中，多个模态的相关性应该被充分利用来促进模型的健壮性；希尔伯特-施密特独立标准HSIC度量两个变量在相似空间中的一致性，不同模态的标记相关矩阵是独立学习的，利用HSIC能够加强不同标记相关矩阵之间的依赖性；接下来给出HSIC的简略定义：首先，令φ(x_i)为一个从

到核空间

的映射，该空间中向量的内积由核函数k₁(x_i,x_j)＝<φ(x_i),φ(x_j)＞给出；令

为另一个关于

的核空间，该空间中向量的内积由核函数

给出；HSIC的实验版定义如下：

考虑一些列来自p_xy的N个独立观察数据：

那么HSIC可以定义为：

其中K₁和K₂为克矩阵，k_1,ij＝k₁(x_i,x_j)，k_2,ij＝k₂(y_i,y_j)。N约束克矩阵在特征空间中的均值为零；

因此，具体的目标函数最终形式如下：

s.t.diag(Z^(m)Z^(m)T)＝1；

K^(m)α^(m)×1_l×1＝1_n×1；

K^(m)α^(m)≥0_n×1；

(for m＝1,2,…,M)。

更进一步的，步骤S23具体为：

针对目标函数采用优化方法交替方向乘子算法ADMM进行最优化，求解出模型参数矩阵的最优值，即训练结束；具体为：

首先，将目标函数拆解成关于α和Z的两个子问题；

其次，在每次迭代中对每个子问题采用拟牛顿下降法L-BFGS算法对其优化；

然后，使用交替方向乘子算法ADMM进行整体优化，最终达到收敛，停止迭代，获得最优的参数矩阵α和Z。

进一步的，步骤S3具体为：融合策略采用线性意见池方法，并定义了加权规则来组合每个决策的预测值，如下所示：

其中，

是预测的情感分布矩阵，表示第m模态的测试集

γ^(m)是对应的权重，并满足

是最终的预测情感分布。

有益效果：与现有技术相比，本发明具有以下好的技术效果：

(1)本发明首次提出多模态情感分布学习来解决现有情感分布学习中信息不全面、容易受噪声干扰等缺陷；

(2)本发明设计了一个适用于多模态情感分布学习的方法，它既保留了多模态中信息全面的优势，又充分利用了标记分布中有价值的语义信息；

(3)本发明对两个真实多模态情感数据集进行了特征提取，为多模态情感分布学习提供了实验基础；

(4)实验验证了本发明的方法明显优于一些最新的多模态情感预测方法和单模态情感分布学习方法。

附图说明

图1是本发明提出的基于多模态信息的情感分布学习方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。以下所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明提出了一种适用于多模态情感分布学习的方法，它既保留了多模态中信息全面的优势，又充分利用了标记分布中有价值的语义信息。情感分布最显著特点是情感标记之间的相关性。比如，当一个人在生气的时候，很有可能带有一部分厌恶的情绪，因此，“生气”和“厌恶”属于正相关的一对标签，相反，当一个人生气的时候，不大可能会有开心的情绪，因此，“生气”和“开心”属于负相关的一对标签。不同于前人通过先验知识挖掘标记相关性的方法，本发明通过学习来获取更加准确的标记相关性矩阵。另外，本发明在进行多模态数据处理时采用了后期融合策略，同时，在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。

多模态情感识别问题可以定义为，在X＝{x⁽¹⁾,…,x^(m),…,x^(M)}为M个多模态的特征空间，其中

q_m为第m个模态的特征纬度。标记空间为D＝[d₁；d₂；…；d_n]，其中

表示标记j对样本i的描述程度，并且满足

且

多模态情绪分布学习的目标是学习一个映射函数f:X→D能够预测新样本的情感分布。

如图1所示，本发明的一种多模态情感分布学习方法，首先提取多模态数据特征，其次利用核回归模型学习每个模态的情感分布，并同时采用希尔伯特-施密特独立标准(HSIC)来促进不同模态间的相互印证和相互补充，最后，通过融合策略将将所有模态结果结合起来得到最终结果。本发明适用于各种多模态情感识别问题，包含但不限于音频、视频、心电图等，实验过程中采用了典型的音频和视频作为多模态数据。

具体流程为：

特征提取中，不同的模态采用的方法不同，本发明基于音频数据和视频数据展开介绍；其中，音频数据特征提取中先对原始音频进行去躁，然后对去躁后的音频提取情感特征。

音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下，噪声的存在会对信号造成破坏，使特征提取和分类的准确性降低。在本发明中，我们通过对小波阈值去噪来实现降噪。由于前部分和后部分不能提供有用的信息，因此可以消除它们。要实现情感识别，提取出真正能代表预期情感的普遍特征是一个挑战。对于情感型言语而言，良好的参考模型是人类听觉系统。经过大量前人的研究，韵律被认为是衡量说话人情绪状态的主要指标，因此大部分作品都采用了韵律特征，即Mel-frequency CepstralCoefficient(MFCC)\cite，也被广泛应用于语音识别和其他一些语音处理应用中，也有针对情绪识别的研究。由于本发明的目标是模拟人类对情绪的感知，并确定可能的特征来传达讲话中潜在的情绪，而不考虑语言、说话者和上下文，因此本发明研究了所有这两种类型的特征。由于我们提取的音频特征是高维的，我们使用PCA将其降至168维。

面部表情是人类情感识别的另一个重要因素。一般首先从图像中检测出人脸区域，然后从观察到的人脸图像或图像序列中提取出人脸表情信息。对于静止图像，提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下，它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征，但它通常需要更多的计算。在本文中，我们使用一个关键帧来表示视频中被试的情绪状态，该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察，即在较大的声音幅度下，人脸特征会被夸大。得到关键帧的人脸区域后，将其输入到VGG网络中，学习视频特征。

音频去躁过程具体如下：

S101、由于原始音频的前部分和后部分不能提供有用的信息，因此删除原始音频中首尾各1s的内容；

S102、音频数据所收集到的情绪数据通常含有背景噪声和录音机的“嘶嘶声”。一般情况下，噪声的存在会对信号造成破坏，使特征提取和分类的准确性降低。在本发明中，我们通过对小波阈值去噪来实现降噪。具体地，将经步骤S101处理后的音频信号在各尺度上进行小波分解，保留大尺度下的全部分解值；对于小尺度下的分解值，设定阈值：

其中，σ＝MAD/0.6745，MAD为首层小波分解系数绝对值的中间值，0.6745为高斯噪声标准方差的调整系数，N为信号的尺寸或长度，幅值低于该阈值的小波系数置为零，高于该阈值的小波系数完整保留。

S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构，恢复出有效的信号。

音频特征提取的方法为：

S103、经过大量前人的研究，韵律被认为是衡量说话人情绪状态的主要指标，因此大部分作品都采用了韵律特征，即梅尔频率倒谱系数(MFCC)。具体地，首先根据上述步骤3)中去躁后的音频计算MFCC特征，经过步骤为：预加重，分帧，加窗，快速傅里叶变换(FFT)，梅尔滤波器组，离散余弦变换(DCT)。

S104、由于本发明提取的音频特征是高维的，因此将步骤1)中获取的高维特征通过调用PCA方法降至168维。

视频数据特征提取的方法为：

S111、对于静止图像，提取面部表情信息是指从一幅图像中对人脸及其特征进行定位。在图像序列的情况下，它意味着跟踪人脸的运动及其在图像序列中的特征。虽然后一种情况可以提供更准确的面部表征，但它通常需要更多的计算。在本发明中，我们使用一个关键帧来表示视频中被试的情绪状态，该关键帧提取为语音振幅最高的那一帧。选择关键帧的基本想法是基于直觉和观察，即在较大的声音幅度下，人脸特征会被夸大。

S112、使用由RESNET预训练的VGG19网络来提取步骤(1)中关键帧的特征，具体地：将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络，取分类器层之前的最后隐层的输出作为图片特征。使用由RESNET预训练的VGG19网络来提取图片特征，具体地：将含有通道维的图片矩阵输入到预训练好的VGG网络，取分类器层之前的最后隐层的输出作为图片特征。

以上提取到的音频和视频特征将被数据集分为训练集和测试集，分别作为模型训练部分的输入特征和情感预测部分的输入特征。

S2、模型训练：在步骤S1得到的训练集上学习每个模态的情感分布。具体地，首先为每个模态学习一个标记相关性矩阵(即一个二维对称矩阵，表示标记x与标记y之间的相关性，数值越大表示相关性越大)；然后，利用希尔伯特-施密特独立标准(HSIC)约束每个模态的标记相关性矩阵相似构建出目标函数；最后，利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化，求解出模型参数矩阵的最优值，即模型训练完成。具体为：

S21、在步骤S1得到的训练集上，为每个模态各学习一个标记相关性矩阵；

本发明采用核回归模型为每个模态来学习情感分布。给出一个核k，令H为对应的RKHS。对于模态m，输出函数为：

其中，

φ^(m)＝[φ([X^(m)]₁),φ([X^(m)]₂),…,φ([X^(m)]_n)]；

其中，m表示第m个模态，

是一种核函数，[X^(m)]_n表示第m个模态中样本n的特征向量。为了拟合情感分布，本发明采用均方误差作为损失函数，具体如下：

s.t.φ^(m)·W^(m)×1_l×1＝1_n×1；

φ^(m)·W^(m)1≥0_n×1；

其中，D是真实的情感分布，‖·‖是RKHS范式，λ₁是权重系数。根据表示定理可将损失函数优化。表示定理优化策略如下：

其中，k(x_i,x)表示样本i的特征x_i与特征x的内积，α_ij为系数。因此，根据表示定理，优化后的损失函数为：

s.t.K^(m)·α^(m)×1_l×1＝1_n×1；

K^(m)·α^(m)1≥0_n×1；

其中，tr(·)为均方矩阵的迹，K为核矩阵，即，[K^(m)]_i,j＝k([X^(m)]_i,[X^(m)]_j)，α^(m)为第m个模态的系数，[X^(m)]_i表示第m个模态中样本i的特征向量，X^(m)为第m个模态的特征矩阵，D为真是的情感分别矩阵，

为权重系数。

S22、利用希尔伯特-施密特独立标准(HSIC)约束M个模态的标记相关性矩阵相似构建出目标函数；

挖掘标签相关性对情感分布学习至关重要。本发明使用了流行正则化器来改进模型。具体来说，两个标签的正相关程度越高，对应的输出越接近，反之亦然。也就是说，正相关的标签会促使对应的输出相似，而负相关的标签会将对应的输出推向相反的方向。标签流形正则化器的成功与否取决于一个好的标记关联矩阵(或者等同于一个好的标记拉普拉斯矩阵)。在LDL中，一个基本的方法是通过皮尔森相关理论计算两个标签之间的相关系数。但是在数据获取的过程中不可避免地会引入一些噪声，因此根据先验知识得到的情感标签的相关系数是不准确的，甚至会产生误导。在本发明中直接学习拉普拉斯矩阵，而不是指定任何相关度量或标号相关矩阵。因此，标记流行正则化器可定义为：

其中，

是关于m模态的预测情感分布，C^(m)是l×l的标记相关性矩阵。定义

作为对角矩阵，其对角元素表示为

由于拉普拉斯矩阵是对称正定的，定义

那么，标记正则化项可以重新化简为：

min tr(K^(m)α^(m)Z^(m)Z^(m)Tα^(m)TK^(m)T)；

s.t.diag(Z^(m),Z^(m)T)＝1；

其中，diag(Z^(m),Z^(m)T)＝1是为了防止在优化过程中Z^(m)变为0。

在多模态学习中，多个模态的相关性应该被充分利用来促进模型的健壮性。希尔伯特-施密特独立标准(HSIC)度量两个变量在相似空间中的一致性，不同模态的标记相关矩阵是独立学习的，利用HSIC能够加强不同标记相关矩阵之间的依赖性。接下来给出HSIC的简略定义。首先，令φ(x_i)为一个从

到核空间

为另一个关于

的核空间，该空间中向量的内积由核函数

给出。HSIC的实验版定义如下：

考虑一些列来自p_xy的N个独立观察数据：

那么HSIC可以定义为：

其中K₁和K₂为克矩阵，k_1,ij＝k₁(x_i,x_j)，k_2,ij＝k₂(y_i,y_j)。N约束克矩阵在特征空间中的均值为零。

因此，具体的目标函数最终形式如下：

s.t.diag(Z^(m)Z^(m)T)＝1；

K^(m)α^(m)×1_l×1＝1_n×1；

K^(m)α^(m)≥0_n×1；

(for m＝1,2,…,M)；

S23、利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化，求解出模型参数矩阵的最优值，即模型训练完成；

具体如下：

首先，将目标函数拆解成关于α和Z的两个子问题；

情感预测：

本发明的融合策略采用线性意见池方法，并定义了加权规则来组合每个决策的预测值，如下所示：

其中，

是预测的情感分布矩阵，表示第m模态的测试集

γ^(m)是对应的权重，并满足

是最终的预测情感分布。

为了验证本发明提出的多模态情感方法的有益性，本发明进行了大量实验。本发明的实验是在两个真实的多模态情感数据集上进行，分别为RAVDESS和SAVEE，包含视频和音频两个模态。本发明采用6个常用的情感分布学习评价指标：K-L、Chebyshev、Intersetcion、Cosine、Clark、Canberra。

首先，本发明与6个先进的情感分布学习方法进行了对比。实验中单模态的情感分布学习方法包含EDL-LRL、LDL-SCL、LDLLC、EDL、BFGS和PT-Bayes，在表一中每个单模态情感分布算法第一行展示的是最佳模态的实验结果，第二行展现的是将两个模态数据拼接在一起的结果。除此之外，本发明还与多模态情感预测方法进行了对比，具体地，包含SEE-SVR和ADR-PLS，如表1所示：

表1 9个算法在2个数据集上的实验结果

在表1中，算法MEDL(Multimodal Emotion Distribution Learning)为本发明提出的方法，显然MEDL在所有评价指标上均表现最优。