CN109815938A

CN109815938A - 基于多类核典型相关分析的多模态情感特征识别方法

Info

Publication number: CN109815938A
Application number: CN201910144997.0A
Authority: CN
Inventors: 朱康; 闫静杰; 宋宇康; 吕方惠; 徐志鹏; 卢官明
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-05-28

Abstract

本发明公开了一种基于多类核典型相关分析的多模态情感特征识别方法，包括以下步骤：1)在包含多种模态数据的情感数据库中选取一定数量的样本；2)从上述样本数据中提取表情特征、语音特征和姿态特征，形成表情特征数据矩阵、语音特征数据矩阵和姿态特征数据矩阵；3)将上述3个矩阵进行归一化和标准化处理；4)使用多类核典型相关分析方法将多个模态的特征进行融合，得到融合后的特征；5)将融合后的特征放入支持向量机中进行情感识别。本方法通过将多类核典型相关分析方法的应用，寻找各模态特征之间强相关性，充分使用人类各种情绪情况下的各个模态的特征，在情感识别中使计算机能够更加精确的识别人类的情绪。

Description

基于多类核典型相关分析的多模态情感特征识别方法

技术领域

本发明涉及一种多模态情感特征识别方法，特别是涉及一种基于多类核典型相关分析的多模态情感特征识别方法。

背景技术

人类的情感表达通常不仅仅通过表情或是语音语调等某一种单一的表现形式表现出来，例如在一个人比较高兴的时候，脸部五官表情较为舒展，音调比较高亢，身体四肢会不由自主的做出一些相应的动作，而在比较悲伤的时候脸部表情较为凝重，声音对应的也会较为伤感，四肢动作幅度不会太大等等，每种情绪在面部、声音和姿态方面都会有对应的表现。传统方法使计算机仅仅根据某一模态或是融合表情和语音两个模态的特征进行情绪的识别分类，识别率不够高，如果将单模态延伸到多模态，使计算机经过某些方法使用多种模态的特征融合判断进行情绪的识别分类，对于提高识别率，促进人机交互的发展必然有着积极的作用。同时融合方法的好坏也会很大程度上影响最后识别结果好坏，现在已经存在的融合方法也有很多，例如主成分分析(PCA)，典型相关分析(CCA)，核典型相关分析(KCCA)等。多类核典型相关分析(MKCCA)是核典型相关分析(KCCA)在多类问题上的拓展，通过变量之间的相关性将特征融合起来，适合于多模态情感特征识别的问题。但是MKCCA在具体应用到情感特征识别方面还有很多难点，目前的现有技术中还没有发现其被应用到多模态情感特征识别的方法。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于多类核典型相关分析的多模态情感特征识别方法，通过寻找各模态特征之间强相关性，充分使用人类各种情绪情况下的各个模态的特征，在情感识别中使计算机能够更加精确的识别人类的情绪。

技术方案：本发明所述的基于多类核典型相关分析的多模态情感特征识别方法,包括以下步骤：

(1)在包含多种模态数据的情感数据库中选取一定数量的样本；

(2)从上述样本数据中提取表情特征、语音特征和姿态特征，形成N*d₁的表情特征数据矩阵、N*d₂的语音特征数据矩阵和N*d₃的姿态特征数据矩阵，其中N为样本个数，d₁、d₂、d₃分别为每个样本的表情特征、语音特征和姿态特征的维度；

(3)将上述3个矩阵进行归一化和标准化处理，得到矩阵X₁、X₂、X₃，矩阵X₁、X₂、X₃中的数据都是归一的符合标准正态分布；

(4)使用多类核典型相关分析方法将多个模态的特征进行融合，得到融合后的特征；

(5)将融合后的特征放入支持向量机中进行情感识别。

进一步的，步骤(2)中提取表情特征的方法为，先使用matlab的AAM算法程序检测出样本中人脸区域并裁剪出来，再将所裁剪的人脸部分图片重新规划成统一的尺寸，使用密集sift特征算法，计算得到d₁维的sift特征，得到N*d₁的表情特征数据矩阵。

进一步的，步骤(2)中提取语音特征的方法为，使用工具opensmile中的emobase2010.conf特征集提取语音特征，用python对每段原始音频数据提取d₂维的音频特征，得到N个文本格式的音频数据特征文件，之后使用matlab去除文件中的说明部分并进行格式的转换与所有数据的合并，得到N*d₂的语音特征数据矩阵。

进一步的，步骤(2)中提取姿态特征的方法为，使用matlab的lbptop算法程序，提取数据库中的全身视频图片帧之间的关联信息，对于一帧的图像进行分块，使用lbotop算法程序计算每张图片的特征，得到N个d₃的特征数组，再另外使用matlab程序将其按样本顺序合并，最终获得N*d₃的姿态特征数据矩阵。

进一步的，步骤(3)中进行归一化和标准化处理的过程为：

(1)对所述3个矩阵进行归一化处理，即将每个样本的特征值都映射到区间[-1,1]中，最大值对应1，最小值对应-1；

(2)对特征值进行零均值标准化操作，即将每个样本的特征值减去该样本的均值后，除以该样本数据的标准差，得到的样本特征值遵循标准正态分布；

(3)对经上述标准化处理后的数据再进行归一化处理，得到归一化后的矩阵表情特征数据矩阵X₁、语音特征数据矩阵X₂和姿态特征数据矩阵X₃。

进一步的，步骤(4)中融合的步骤是：

(1)建立投影方向Ψ₁,Ψ₂,Ψ₃，使得之间获得最强的相关性，即使下列表达式的和最大：

求解出和最大时的投影方向Ψ₁,Ψ₂,Ψ₃；

(2)得到融合后的特征

进一步的，求解投影方向的步骤是：

(1)将数据矩阵X₁、X₂、X₃映射到高维空间为：

其中，分别表示数据矩阵X₁、X₂、X₃的第N个样本数据从低维到高维的映射；

(2)确定线性核函数构建的核矩阵为：

K₁＝Φ₁ ^TΦ₁，K₂＝Φ₂ ^TΦ₂，K₃＝Φ₃ ^TΦ₃，

(3)求解下列方程中的α、β、γ，α、β、γ均是N*1的列向量，

其中，λ₁、λ₂、λ₃为正则化参数，ρ是拉格朗日乘子，I为单位矩阵；

(4)求出α、β、γ之后，通过表达式得到投影方向。

进一步的，步骤(5)中的情感识别方法为：将融合后的特征放入支持向量机，首先选取若干个样本作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练，训练完毕后将待识别个人的样本用MATLAB中的predict函数进行预测识别。

有益效果：本发明基于多类核典型相关分析方法融合多模态的情感特征进行人类情感的识别，核心在于第一次使用多类核典型相关分析(MKCCA)方法进行多模态特征的融合，难点包括了核函数的选择和核矩阵的构建，实验结果表明，经过融合过后的对多种情绪的识别结果相较于单模态有较大提升，对比其他例如PCA融合等方法识别结果也有一定提升。本方法能够使计算机更准确的识别人类的各种情绪。

附图说明

图1是本方法的整体流程图；

图2是多模态数据进行相关性计算的模型图；

图3是gemep数据库中部分样本的截图。

具体实施方式

本实施例的步骤如图1所示，具体为：

第一步：获取gemep数据库，此数据库有两部分的样本，一部分是全身视频，一部分是半身视频，半身视频由全身视频截取所得，全身视频主要用于提取姿态特征，分别都是由10个人，总共145个样本组成，将其分成七类分别为happy,anger,disgust,fear,sad,surprice,peace,按人排序，部分样本的面部截图如图3所示。

第二步：分别提取三种模态的特征。对于表情特征，首先使用matlab的AAM算法程序将视频样本中人脸的部分截取出来，之后将所截取的人脸部分图片统一重新规划成128*128的尺寸，使用密集sift特征算法程序，每10个像素取一个关键点，提取出18432维的sift特征，构成了145*18432的表情特征数据矩阵。对于音频特征，首先使用Audition或类似软件将视频中的音频部分提取出来，之后使用opensmile2.1.0工具中的emobase2010.conf特征集，用python对每段原始音频数据提取1582维的音频特征，得到145个文本格式的音频数据特征文件，之后使用matlab程序去除文件中的说明部分并进行格式的转换与所有数据的合并，构成了145*1582的语音特征数据矩阵。对于姿态特征使用matlab的lbptop算法，用于对数据库中的全身视频提取图片帧之间的关联信息，对于一帧的图像进行5*5的分块，使用lbotop算法程序计算每张图片的特征，得到145个1*4425的特征数组，在另外使用matlab程序将其按样本顺序合并，最终获得145*4425的姿态特征数据矩阵。之后建立对应的标签。

第三步：对提取的数据进行预处理。对每个数据矩阵都进行归一化和标准化处理，将每个样本的特征值都映射到区间[-1,1]中，最大值对应1，最小值对应-1，之后使用零均值标准化操作，假设某个样本的特征数据为[x₁,x₂,...,x_d]，使用下列公式对其进行零均值标准化操作：

其中的为该样本数据的均值，为该样本数据的标准差。经过此操作使数据遵循标准正态分布，之后再进行一次数据归一化。

上述过程的具体操作可以这样实现：先进行一次归一化：将每个样本的特征都使用matlab的mapminmax函数将数值映射到区间[-1,1]中，最大值对应1，最小值对应-1。之后使用零均值标准化操作：使用matlab的std函数计算每个样本向量的标准差，mean函数计算其均值，再将每个样本中的值减去均值并且除以标准差，得到零均值标准化的结果。经过此操作使数据遵循标准正态分布，之后再进行一次数据归一化。

第四步，使用多类核典型相关分析方法将多个模态的特征进行融合，具体内容如下：

在两类问题当中，典型相关分析(CCA)的目的是找到两个数据矩阵之间最大相关性，使特征与特征之间相关性最大化，但CCA可能无法发掘两组随机变量之间的非线性关系，为了解决这个问题，在核方法的基础上可以将CCA扩展成核CCA(KCCA)，通过两个非线性映射将数据集映射到高维空间中去，在高维空间中通过线性方式区分两者。对于多于两组变量的情况，则可以使用多类的核典型相关分析(MKCCA)方法。

本发明中涉及3组数据假设为：

其中，N为样本数，每个数据矩阵都已经经过了去均值处理，通过建立投影方向Ψ₁,Ψ₂,Ψ₃，使得之间获得最强的相关性，下列的相关系数达到最大：

实际计算过程中通过假设分母上的乘积项为1来简化问题，在此条件下变成下列优化问题：

由此求解出和最大时的方向Ψ₁,Ψ₂,Ψ₃。相关性计算模型如图2所示。通过拉格朗日方程来求解此优化问题，拉格朗日方程如下：

其中的ρ₁,ρ₂,ρ₃是拉格朗日乘子。在这之后结合核方法，构建3个核矩阵。假设数据矩阵映射到高维空间后为

其中分别表示第一、二、三个数据矩阵的第N个样本数据从低维到高维的映射，构建核矩阵所需要的核函数定义在一个域上，这个域上定义了高维空间和相应的映射，具体的映射形式无需知道，我们所需的是核函数给出的高维空间中个样本间的内积，即核函数为具体的核函数有线性核函数，高斯核函数等，由线性核函数构建的核矩阵为：

K₁＝Φ₁ ^TΦ₁,K₂＝Φ₂ ^TΦ₂,K₃＝Φ₃ ^TΦ₃

核化之后投影方向与数据矩阵的关系变为α,β,γ是N*1的列向量，这样就将优化问题转换成求解α,β,γ。核化后，原本的优化式子就变成了下列形式：

加入正则化，上面的拉格朗日方程可以改写为：

其中的λ₁,λ₂,λ₃为正则化参数，加入正则化来解决样本数远小于维数时计算不准确的问题。最后，求解拉格朗日方程可以转化成求解下面的广义特征值问题：

其中ρ是拉格朗日乘子，把训练数据输入MATLAB的fitcecoc函数进行分类器的训练时，可以调整拉格朗日乘子ρ使得分类器在测试中获得最佳的测试结果，这里假设

ρ＝ρ₁＝ρ₂＝ρ₃，I是单位矩阵。

找到α,β,γ之后，就能通过得到投影方向，进而此时得到最大相关情况下的融合过后的特征。

第五步：首先选取若干个样本作为训练集，将训练集样本融合后的特征和对应的标签放入MATLAB的fitcecoc函数进行支持向量机(SVM)的分类器训练，得到训练好的分类器。再选取若干样本作为测试集，将上述训练得到的分类器和测试机样本融合后的特征输入MATLAB的predict函数进行预测得到预测结果，将预测结果和实际标签比较得到测试结果。实验结果表明，本方法的识别率相较于单模态有较大提升，对比其他例如PCA融合等方法的识别率也有一定提升。实际应用时，直接将原始的表情图片输入训练好的系统后就可以得到识别的结果。

Claims

1.一种基于多类核典型相关分析的多模态情感特征识别方法,其特征在于包括以下步骤：

(5)将融合后的特征放入支持向量机中进行情感识别。

2.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法，其特征在于：步骤(2)中提取表情特征的方法为，先使用matlab的AAM算法程序检测出样本中人脸区域并裁剪出来，再将所裁剪的人脸部分图片重新规划成统一的尺寸，使用密集sift特征算法，计算得到d₁维的sift特征，得到N*d₁的表情特征数据矩阵。

3.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法，其特征在于：步骤(2)中提取语音特征的方法为，使用工具opensmile中的emobase2010.conf特征集提取语音特征，用python对每段原始音频数据提取d₂维的音频特征，得到N个文本格式的音频数据特征文件，之后使用matlab去除文件中的说明部分并进行格式的转换与所有数据的合并，得到N*d₂的语音特征数据矩阵。

4.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法，其特征在于：步骤(2)中提取姿态特征的方法为，使用matlab的lbptop算法程序，提取数据库中的全身视频图片帧之间的关联信息，对于一帧的图像进行分块，使用lbotop算法程序计算每张图片的特征，得到N个d₃的特征数组，再另外使用matlab程序将其按样本顺序合并，最终获得N*d₃的姿态特征数据矩阵。

5.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法，其特征在于：步骤(3)中进行归一化和标准化处理的过程为：

6.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法，其特征在于步骤(4)中融合的步骤是：