CN109872728A

CN109872728A - 基于核典型相关分析的语音和姿态双模态情感识别方法

Info

Publication number: CN109872728A
Application number: CN201910145086.XA
Authority: CN
Inventors: 吕方惠; 闫静杰; 李海波; 朱康; 宋宇康; 卢官明
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-11

Abstract

本发明公开了一种基于核典型相关分析的语音和姿态双模态情感识别方法，该方法首先提取姿态的空时特征，并提取出视频中的音频文件，再对所提取的音频进行语音情感特征提取，然后对语音和姿态的情感特征分别进行归一化并降维，再进行基于核典型相关分析的情感特征融合，最后用支持向量机进行情感分类。本方法能够综合利用了语音和姿态之间的相关信息，采用特征融合等手段增强了单模态特征数据间的相关性，去除了其中的冗余信息，使计算机的情感识别能力得到提升，比单模态的情感识别有更高的识别率，并使用了情感特征归一化和特征降维方法，降低了特征的维度与特征识别过程中的计算复杂度，进一步提高了情感识别的识别率。

Description

基于核典型相关分析的语音和姿态双模态情感识别方法

技术领域

本发明涉及一种双模态情感识别方法，特别是涉及一种基于核典型相关分析的语音和姿态双模态情感识别方法。

背景技术

情感识别对于人类来说十分容易，人们可以通过视觉与听觉等对人类所产生的各种情绪进行判断，但是对于计算机来说，要想准确的识别出人类的情感却是十分困难的，它需要通过传感器来读入人们的情感信息，再对这些信息进行分析、加工与识别，这是一个庞大的工程。随着人工智能的迅速发展，越来越多的机器人被创造出来，用来帮助解决人类生活中所遇到的困难，而情感识别正是机器人所必须具备的功能，因为只有计算机具备了该功能，才能更加和谐与智能地与人进行情感交流，为人机交互的发展做出贡献。

早在上个世纪时，语音情感识别和姿态情感识别就已经受到众多学者和科研机构以及政府的重视，并且取得了一定的成就。现在，单模态的情感识别方法已经日趋成熟，但是仅仅依靠单模态信息对人类的情感进行分析与识别，往往是不够的，人们往往在做出动作的同时，还会用语言来表达自己的情感，此时，语音跟姿态都是对同种情绪的描述，二者相互联系、相互影响、相互补充，其表达出的信息也必定具有相关性，只要能够找到二者的相关性，然后再进行情感的理解与识别，一定比单模态的识别效果好。虽然双模态识别的识别效果要优于单模态的识别效果，但是其计算过程与计算量往往要比单模态的情感识别复杂许多，如何降低双模态识别过程中的运算复杂度并提高识别的效果是一个非常困难的事情。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于核典型相关分析的语音和姿态双模态情感识别方法，弥补现有单模态情感识别技术在识别人类情感方面所存在的不足，并且相较于典型相关分析方法，基于核典型相关分析的方法能解决非线性分类问题，进一步提高了情感识别的识别率，并降低了识别过程中的计算复杂度。

技术方案：本发明所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于包括以下步骤：

(1)对数据库中的视频提取出音频，然后对音频提取语音情感特征，并对视频直接提取姿态情感特征，提取出的语音情感特征矩阵与姿态情感特征矩阵分别为和其中n为数据库中的视频样本总数，d₁、d₂分别为每个样本的语音情感特征维数和姿态情感特征维数；

(2)对所述的语音情感特征矩阵和姿态情感特征矩阵分别进行归一化处理，得到归一化后的语音情感特征矩阵和姿态情感特征矩阵分别为和

(3)对所述的归一化后的语音情感特征矩阵和姿态情感特征矩阵和进行主成分分析法降维处理，得到降维后的语音情感特征矩阵和姿态情感特征矩阵其中k₁为降维后的语音数据维度，k₂为降维后的姿态数据维度；

(4)使用核典型相关分析法，将降维后的语音情感特征矩阵和姿态情感特征矩阵进行特征融合，得到融合后的特征J；

(5)将特征J放入支持向量机进行情感识别。

进一步的，所述的步骤(2)中进行归一化处理的过程为：

(1)对样本中的行向量元素绝对值的平方进行求和，求和后再开方，得到该样本所有情感特征值的二范数；

(2)将该样本的每一个情感特征值除以上述求得的二范数，使数据归一到[-1,1]；

(3)将所有样本的每一维特征都做上述的操作，得到归一化后的语音情感特征矩阵和姿态情感特征矩阵和

进一步的，步骤(3)中所述的降维处理的过程为：

(1)将所述的语音情感特征矩阵和姿态情感特征矩阵和进行转置，得到和

(2)将上述转置矩阵进行零均值化，得到零均值化矩阵和即：

其中v_i为的第n个样本的第i个向量，p_i为的第n个样本的第i个向量；

(3)求出零均值化矩阵和的协方差矩阵C₁和C₂，即：

(4)求出协方差矩阵C₁和C₂的特征值和特征向量，并将特征向量按照特征值的大小顺序依次排列得到矩阵和

(5)取矩阵和的前k₁行和k₂行，再进行转置，即可得降维后的语音情感特征矩阵和姿态情感特征矩阵为

进一步的，步骤(4)中特征融合的过程为：

(1)将所述的矩阵和进行转置，得到和将和经过非线性映射分别映射到高维空间变为A和B；

(2)确定核函数K_x和K_y，即：

K_x＝<A,A>＝A^TA

K_y＝<B,B>＝B^TB；

(3)构造投影矩阵D和E，使A和B分别经过投影矩阵D和E，投影成H和I，使投影后的H和I具有最大的相关性，即：

H＝D^TA,I＝E^TB；

(4)得到融合后的特征J，即

进一步的，

D＝AF,E＝BG，

其中，F和G是另外两个矩阵，F＝K_xv₁，G＝K_yv₂，其中，v₁是K_x ⁴v₁＝λ²v₁的一组标准正交解向量，v₂是K_y ⁴v₂＝λ²v₂的一组标准正交解向量，λ为拉格朗日乘子，从而得到投影矩阵D和E。

进一步的，步骤(5)中放入支持向量机的过程为：将融合好的特征J放入支持向量机，首先选取若干个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练，训练完毕后将待识别个人的特征用MATLAB中的predict函数进行预测识别。

有益效果：本方法能够综合利用了语音和姿态之间的相关信息，采用特征融合等手段增强了单模态特征数据间的相关性，去除了其中的冗余信息，使计算机的情感识别能力得到提升，比单模态的情感识别有更高的识别率。实验证明，经过基于核典型相关分析方法的特征融合后的双模态情感识别的识别率相对于单模态情感识别的识别率以及基于典型相关分析方法的特征融合的识别率有很大提升，说明基于核典型相关分析方法的特征融合增强了单模态特征数据间的相关性，去除了其中的冗余信息，并对典型相关分析方法不能处理非线性分类的问题进行了解决，使计算机的情感识别能力得到明显提升。具体优点如下：

(1)本发明综合利用了语音和姿态之间的相关信息，比单模态的情感识别有更高的识别率；

(2)本发明将数据映射到高维空间再进行分类，解决了典型相关分析方法不能处理非线性数据的问题；

(3)本发明使用了情感特征归一化和特征降维方法，降低了特征的维度与特征识别过程中的计算复杂度，并进一步提高了情感识别的识别率。

附图说明

图1是本方法的整体流程图；

图2是双模态情感数据库中的部分图像。

具体实施方式

如图1所示，本方法的具体步骤如下：

步骤一：获取GEMEP数据库。该数据库中有145个视频，共包含17种情绪，人工将17种情绪分为七大类：高兴、悲伤、惊讶、生气、厌恶、恐惧和平静。并将视频按人进行分组。数据库中的部分图像如图2所示。

步骤二：对数据库中的每个样本进行语音情感特征和姿态情感特征的提取

(1)提取语音情感特征：先从视频文件中提取出音频文件，然后利用opensmile工具的配置文件config/emobase2010.conf提取出1582维的语音情感特征。

(2)提取姿态特征：通过设置空间尺度和时间尺度，得到cuboid立方体的大小，对每个cuboid进行描述，然后计算其中像素点三个通道的梯度得到姿态的空时特征。

步骤三：对单模态特征进行预处理，包括特征归一化与特征降维。

(1)对提取出来的语音情感特征和姿态情感特征分别进行归一化处理，以语音情感特征为例，具体的归一化步骤如下：

求一个样本的所有情感特征值的二范数，即行向量元素绝对值的平方和再开方，具体的计算公式如下：

然后用该样本的每一个情感特征值除以所求得的二范数，使数据归一到[-1,1]，再将n个样本的每一维特征都做如上的操作，将语音情感特征全部归一到[-1,1]。对姿态情感特征矩阵做相同的操作，最终得到归一化后的语音情感特征矩阵和姿态情感特征矩阵分别为和

(2)对归一化后的语音情感特征和姿态情感特征分别进行主成分分析法(pca)降维处理，找到情感特征中最有价值的成分，将冗余成分去除，以达到降低数据处理量的目的，同样以语音情感特征为例，具体步骤如下：

先将语音特征矩阵进行转置得到即

再将转置矩阵进行零均值化，即

并求出零均值化矩阵的协方差矩阵，即

最后求出协方差矩阵的特征值和特征向量，并将特征向量按照特征值的大小顺序依次排列得到矩阵取的前k₁行，再进行转置，即可得降维后的语音情感特征矩阵其中k₁为降维后的语音数据维度。同理可得降维后的姿态情感特征矩阵为其中k₂为降维后的姿态数据维度。

步骤四：将语音情感特征和姿态情感特征进行特征融合，本文所用的融合方法为核典型相关分析法(KCCA),其主要思想是将典型相关分析(CCA)所不能解决的数据的非线性关系映射到高维空间，然后在高维空间利用CCA方法进行求解，具体步骤如下：

(1)为表示方便，令将低维空间的X和Y经过非线性映射分别映射到高维空间变为A和B，然后分别经过投影矩阵D和E，投影成H和I，则有

H＝D^TA,I＝E^TB，

我们需要寻找合适的投影矩阵D和E，使投影后的H和I具有最大的相关性。

(2)由核函数的定义，可知

K_x＝<A,A>＝A^TA

K_y＝<B,B>＝B^TB

投影矩阵可以表示为

D＝AF,E＝BG

其中F和G是另外两个矩阵，分别对应于投影矩阵D和E。

则求合适的投影矩阵D和E的任务可以转化为求解下述公式：

为了便于求解，我们可以将其转化为下式：

此时，可以通过构造拉格朗日函数对上式进行求解,其中λ₁、λ₂为拉格朗日乘子，

(3)令L对F和G分别求偏导并令偏导数为0，即

从而得λ₁＝λ₂,若K_x,K_y均可逆，则有最后可得到广义特征值问题

IF＝λ²F,IG＝λ²G

由此可求出F＝K_xv₁和G＝K_yv₂，其中v₁是K_x ⁴v₁＝λ²v₁的一组标准正交解向量，v₂是K_y ⁴v₂＝λ²v₂的一组标准正交解向量，从而可以解得投影矩阵D和E，且融合后的特征J可以表示为

步骤五：将融合好的特征J放入支持向量机，每次选取9个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练，将剩下一个人的特征作为测试集用MATLAB中的predict函数进行预测，并与测试集标签对比，得出该人的情感识别率，循环十次取平均即得到平均识别率。实验证明，本方法能够有效弥补单模态情感识别的不足之处，找到语音跟姿态之间的相关性，并且能使“高兴”、“厌恶”、“生气”、“吃惊”、“害怕”、“悲伤”以及“平静”七类表情的分类识别达到更好的效果，本方法的识别率相对于单模态情感识别的识别率有很大提升。实际应用时，直接将原始的情感数据输入训练好的系统后就可以得到识别的结果。

Claims

1.一种基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于包括以下步骤：

(5)将特征J放入支持向量机进行情感识别。

2.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于所述的步骤(2)中进行归一化处理的过程为：

3.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于步骤(3)中所述的降维处理的过程为：

(2)将上述转置矩阵进行零均值化，得到零均值化矩阵和即：

(3)求出零均值化矩阵和的协方差矩阵C₁和C₂，即：

4.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于步骤(4)中特征融合的过程为：

(2)确定核函数K_x和K_y，即：

H＝D^TA,I＝E^TB；

(4)得到融合后的特征J，即

5.根据权利要求4所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于：

D＝AF,E＝BG，

6.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法，其特征在于步骤(5)中放入支持向量机的过程为：将融合好的特征J放入支持向量机，首先选取若干个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练，训练完毕后将待识别个人的特征用MATLAB中的predict函数进行预测识别。