CN111950592A

CN111950592A - 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法

Info

Publication number: CN111950592A
Application number: CN202010660340.2A
Authority: CN
Inventors: 闫静杰; 朱康; 宋宇康; 吕方惠; 顾晓娜; 卢官明
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-17
Anticipated expiration: 2040-07-10
Also published as: CN111950592B

Abstract

本发明公开了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。其步骤：提取各模态特征所需要的样本；提取表情模态、语音模态及姿态模态的特征，构成特征矩阵；对提取的各模态特征进行去均值、归一化处理；使用监督最小二乘多类核典型相关分析方法进行多模态特征的融合；进行模型训练得到预测评估结果。本发明针对多类别情感分析问题，将波兰多模态数据库中所有人的各类情感整理分成7类情绪，分别为恐惧、惊讶、愤怒、悲伤、高兴、厌恶及平静，提出基于监督最小二乘多类核典型相关分析的方法来融合多种模态的特征数据，使用此方法计算各模态特征之间的相关性，计算特征之间的关联，能够使计算机更准确的分别人类的各种情绪。

Description

一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法

技术领域

本发明涉及图像处理和模式识别领域，具体涉及一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。

背景技术

计算机技术经过了数十年的发展，人们早已不满足于仅仅通过一些指令来对计算机进行操作这一单向的行为，而是追求计算机能够趋向于理解人的情感，由此与人类进行双向的交互，在此需求上各国研究人员和技术人员做了许多研究和努力。

在人机交互方面，为了使计算机更好的与人进行互动，理解人的情绪十分重要，这使得计算机能够更具人们不同的感情状态做出很合理的回应。研究人员在这方面进行了相当数量的研究，运用一个模态或是两个模态的信息进行计算的方法有很多，例如主成分分析(PCA)，典型相关分析(CCA)，核典型相关分析(KCCA)，稀疏典型相关分析(SCCA)等，近些年人们进一步使用可用的信息，将这些方法扩展到多模态上，产生了多类典型相关分析(MCCA)，多类核典型相关分析(MKCCA)，稀疏多类典型相关分析(SMCCA)等，这些方法运用了更多的情感信息，获得了相较双模态方法更好的效果。在这些方法的基础上，本发明提出的SLSMKCCA方法使用最小二乘法求解优化式，简便地通过最小化误差平方寻找最匹配的函数表达。充分利用已知类别数据的标签信息监督训练，使得训练过程更加准确高效，结果更加可信。同时将已有的数据通过核函数，以非线性映射到更高维的空间中以解决低维空间上部分数据之间线性不可分的问题，在之后的模型训练中更顺利地求解超平面。

发明内容

针对上述问题，本发明提供了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法，本发明利用更多模态的信息同时更顺利地训练模型，为提升计算机识别人类情感的准确率提供一种新方法。

本发明的技术方案是：一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法，具体操作方法如下：

步骤(1.1)、建立一个包含多种模态特征数据的数据库，对数据库中的原始数据进行整理，得到提取各模态特征所需要的样本；

步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来，重新统一尺寸，构成表情模态的数据，接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件，构成语音模态的数据，最后使用原始数据库中储存的点云数据，构成姿态模态的数据；提取上述三个模态的特征，构成特征矩阵；

步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理；将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵；

步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合；

步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练；

步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估，从而得到预测结果。

进一步的，所述步骤(1.2)中通过提取三个模态的特征，构成特征矩阵的具体操作方法如下：

1.2.1)、设各模态拥有N个样本，使用lbp特征算法提取人脸的纹理特征，得到d₁×N的表情特征矩阵，其中，d₁表示每个表情样本的lbp特征维度；

1.2.2)、使用特征集提取语音数据的特征信息，构成d₂×N的语音特征矩阵，其中，d₂表示每个语音样本的特征维度；

1.2.3)、在点云数据中，各样本按照时间长短取不等间隔的十帧的点云数据，将每帧的150维的数据串联起来，构成每个样本特征维度d₃＝1500的特征，所有样本构成d₃×N的姿态特征矩阵；

所述三个特征矩阵具体如下：

其中，矩阵中的第i行第j列表示第j个样本的第i维的特征数据，最终得到三个模态的特征矩阵X,Y,Z。

进一步的，在所述步骤(1.3)中，进行均值归一化处理的具体操作步骤如下：

1.3.1)、去均值；对于特征矩阵X中的第n个样本特征X_n＝[x_n1,x_n2,L,x_nN]，计算其均值

和标准差

得到新的样本特征X％＝(X-M)/s，M为由N个m组成的向量；

1.3.2)、归一化，将每个特征向量中的值映射到0:1之间；

最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵；对Y和Z作同样处理。

进一步的，在步骤(1.4)中，对训练用特征矩阵中的特征进行融合的具体操作过程如下：

在双模态融合过程中，将其扩展至多模态融合问题，其核心是求解下述优化式：

其中，X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据，A,B,C为X,Y,Z对应的映射矩阵，求解对应的映射矩阵；式(1)简化为下述的优化方程：

设

分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和

变换至更高维空间中，p_φ,q_ψ,

分别对应映射之后三个模态特征矩阵的维数；

监督最小二乘多类核典型相关分析方法的优化式表示为下式：

其中，三个映射矩阵A,B,C表示为A＝φ(X)D,B＝ψ(Y)E,

D,E,G表示三个新的投影矩阵，此时式(3)改写成：

定义其中K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

则将上式表示为：

式(5)亦可改写为最小二乘形式：

式(5)与式(6)两者等价；

所述监督最小二乘多类核典型相关分析方法，其最小二乘形式优化式如下：

其中，J∈R^m×N表示X,Y,Z的标签矩阵，m表示其维度；引入A＝φ(X)D,B＝ψ(Y)E,

将式(7)改写成：

再定义K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

进一步将上式表示为：

之后上式重新写作：

后改写为：

此时分别对D,E,G,H求偏导，求得：

由上述推导，监督最小二乘多类核典型相关分析方法的迭代算法可以归纳

成下面的过程：

输入：标签矩阵J∈R^m×N，三个特征矩阵X∈R^p×N，Y∈R^q×N，Z∈R^s×N

1.计算：K_X＝φ(X)^Tφ(X)，KY＝ψ(Y)^Tψ(Y)：

2不断迭代下面四步直到收敛：

(1).H固定，更新D：

(2).H固定，更新E：

(3).H固定，更新G：

(4).D，E，G固定，更新H：

H＝(JK_XD+JK_YE+JK_ZG)(D^TK_XK_XD+E^TK_YK_YE+G^TK_ZK_ZG)^-1； (13)

输出：D，E，G

最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征：

进一步的，通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵，矩阵乘步骤如下

将测试用特征矩阵输入分类模型，得到测试的结果；在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘，输入模型得到预测结果。

本发明的有益效果是：本发明基于计算多个模态信息特征向量之间的相关性，强化强相关，弱化弱相关，使得计算机能够更准确的分辨人类的情感变化；针对表情语音和姿态三个模态的数据，分别使用lbp算法提取表情特征，opensmile工具的emobase2010特征集提取语音的相应特征，以及部分kinect关节关键点的点云数据，经过特征融合；实验结果证明该方法相较过去一些方法，能够较为有效的提升情感的识别正确率。

附图说明

图1是本发明的结构流程图；

图2是本发明中波兰多模态数据库中的部分样本截图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法，具体操作方法如下：

所述三个特征矩阵具体如下：

和标准差

得到新的样本特征X％＝(X-M)/s，M为由N个m组成的向量；

1.3.2)、归一化，将每个特征向量中的值映射到0:1之间；

进一步的，在步骤(1.4)中，监督最小二乘多类核典型相关分析方法对三个模态的训练用特征矩阵中的特征进行融合，具体过程如下(下列推导中的X,Y,Z均指代特征矩阵中分出来的训练部分)：

在双模态融合过程中，典型相关分析方法(CCA)常用于计算两组数据之间的相关性，将其扩展到多模态融合问题上，提出了多类典型相关分析(MCCA)，其核心是求解下述优化式：

其中，X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据，A,B,C为X,Y,Z对应的映射矩阵，求解对应的映射矩阵；式(1)可以简化为下述的优化方程：：

基于线性的MCCA方法，多类核典型相关分析方法(MKCCA)引入了核的概念，设

分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和

变换至更高维空间中，p_φ,q_ψ,

分别对应映射之后三个模态特征矩阵的维数；经过这样的处理，MKCCA的优化式可以表示为下式：

其中，三个映射矩阵A,B,C表示为A＝φ(X)D,B＝ψ(Y)E,

D,E,G表示三个新的投影矩阵，此时式(3)改写成：

定义其中K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

则将上式表示为：

与CCA方法一样，式(5)也可以通过假设分母为1来简化求解的优化式。

对于CCA方法，其优化式子就是式(1)的第一部分：

针对双模态(只能计算两个特征矩阵X,Y)，这是它的传统形式。它还可以改写为最小二乘形式：

两者等价。

基于CCA方法的最小二乘形式，提出了监督最小二乘多类核典型相关分析(SLSMKCCA)方法，其最小二乘形式优化式如下：

其中，J∈R^m×N表示X,Y,Z的标签矩阵，m表示其维度；引入MKCCA中的变换A＝φ(X)D,B＝ψ(Y)E,

将式(7)改写成：

再定义K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

进一步将上式表示为：

之后上式重新写作：

后改写为：

此时分别对D,E,G,H求偏导，求得：

由上述推导，SLSMKCCA的迭代算法可以归纳成下面的过程：

SSLSMKCCA:

输入:标签矩阵J∈R^m×N,三个特征矩阵X∈R^p×N,Y∈R^q×N,Z∈R^s×N

1.计算:K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

2.不断迭代下面四步直到收敛：

(1).H固定,更新D:

(2).H固定,更新E:

(3).H固定,更新G:

(4).D,E,G固定,更新H:

H＝(JK_XD+JK_YE+JK_ZG)(D^TK_XK_XD+E^TK_YK_YE+G^TK_ZK_ZG)^-1； (13)

输出:D,E,G.

本发明的基于监督最小二乘多类核典型相关分析的多模态情感识别方法的实现主要包含以下步骤：

第一步：处理波兰多模态数据库：数据库中包含13个人，每人7个视频，每个视频中包含一种情感的5次表达，由此我们可以得到总共455个有效样本，将其分成高兴、生气、悲伤、厌恶、惊讶、恐惧及平静七类，部分样本示例如附图2；

第二步：提取三种模态的特征：对于表情特征，使用opencv2中的VideoCapture将原始数据库中的视频文件转换成图片序列，使用dlib人脸识别库识别其中的人脸部分并用opencv2库中的resize将这部分统一规划成200×200的大小，使用matlab中的lbp算法提取这些人脸图片特征，得到3776×455的表情特征矩阵X；对于音频数据，使用格式转换软件将数据库中的视频转换为.wav格式的音频文件，之后使用opensmile工具中的emobase2010特征集，对每段原始音频数据提取其1582维的音频特征，得到1582×455的音频特征矩阵Y；对于姿态数据，使用原始数据库中给出的微软kinect设备提取的每个视频中每帧人体25个关节关键点的信息，每个点有6维的信息，每个样本取等间隔的10帧数据，得到1500×455的姿态特征矩阵Z；之后建立相对应每个样本的标签向量，并对其进行one-hot编码得到标签矩阵J；

第三步：对提取的数据进行预处理：对得到的特征矩阵进行去均值归一化处理：首先去均值：对于特征矩阵X中的第n个样本特征X_n＝[x_n1,x_n2,L,x_nN]，计算其均值

和标准差

得到新的样本特征X％＝(X-M)/s，M为由N个m组成的向量；之后归一化，使用matlab的mapminmax函数将每个特征向量中的值映射到0:1之间；最后将得到的特征矩阵分成训练和测试两部分；对Y和Z也是同样的处理；

第四步：将三种模态的数据分成训练数据X_tr,Y_tr,Z_tr和测试数据X_ts,Y_ts,Z_ts，通过本发明提出的SLSMKCCA算法，由训练数据X_tr,Y_tr,Z_tr和标签矩阵J计算映射矩阵：

SSLSMKCCA:

1.计算:K_X＝φ(X)^Tφ(X),K_Y＝ψ(Y)^Tψ(Y),

2.不断迭代下面四步直到收敛：

(1).H固定,更新D:

(2).H固定,更新E:

(3).H固定,更新G:

(4).D,E,G固定,更新H:

H＝(JK_XD+JK_YE+JK_ZG)(D^TK_XK_XD+E^TK_YK_YE+G^TK_ZK_ZG)^-1；

输出:D,E,G.

由此得到映射D,E,G，接着得到融合过后的训练数据

其中

同时得到融合后的测试数据

其中的

为经过核函数映射后的特征数据，

使用得到的矩阵TR和对应的标签输入到SVM分类器中进行模型的训练，得到合适的模型；将TS输入分类模型，得到测试的结果；在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘，输入模型得到预测结果。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。