CN106250855B

CN106250855B - 一种基于多核学习的多模态情感识别方法

Info

Publication number: CN106250855B
Application number: CN201610627333.6A
Authority: CN
Inventors: 朱娜; 卢官明; 闫静杰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2016-08-02
Filing date: 2016-08-02
Publication date: 2022-01-28
Anticipated expiration: 2036-08-02
Also published as: CN106250855A

Abstract

本发明公开了一种基于多核学习的多模态情感识别方法，该方法首先对多模态情感数据库中每种模态的样本数据提取情感特征，如表情特征、语音特征和生理特征等，然后对每种模态分别构建多个不同的核矩阵，将不同模态对应的核矩阵组进行融合，得到融合的多模态情感特征，最后使用多核支持向量机作为分类器进行训练和识别，能够有效地识别出生气、恶心、害怕、高兴、悲伤和惊讶等基本情感。

Description

一种基于多核学习的多模态情感识别方法

技术领域

本发明涉及信号处理及模式识别领域，特别是一种基于多核学习的多模态情感识别方法。

背景技术

情感识别一直是模式识别领域的热门话题，它有利于人们的社会沟通和活动。在人们的生活和交往的过程中，包含各种表达内心情感的方式，然而面部表情和语音是其中最直接、最容易和最具表现力的方式并且容易被研究者们获取。目前针对表情或者语音的单模态的情感识别技术已经相对成熟，但因其信息的单一性使得识别效果往往不够可靠精确。所以，利用不同性质的多模态特征的相关性以及互补性实现更加可靠稳定的情感识别系统值得进一步研究。

多模态情感识别的融合方法包含特征层融合以及决策层融合。前者通过一定的方法将多种模态的特征通过一定的线性或非线性变换形成新特征；后者分别对多种模态的特征进行训练，分类，得出分类结果，并在决策层通过相应的加权模型综合得出最终的结果。

继支持向量机出现后，核方法得到了广泛的关注，相继出现了核主成分分析(KPCA)、核判别分析(KDA)以及核典型相关分析(KCCA)等。尽管这些方法在包括多模态情感识别在内的众多领域得到了广泛的应用，但其终究是基于单个特征空间的单核方法。面对多种模态的情感特征，使用单个核函数无法解决特征空间分布不均以及特征冗余的问题，并且，不同的核函数性质不一样，在运用不同核函数时得到的效果往往差别很大，由此出现了多核学习，在以往的多核学习应用中，往往是给予不同特征不一样的核函数再加以训练得到核函数对应的权值实现特征融合，仍旧需要考虑不同特征所需要选择的核函数的种类以及参数。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于多核学习的多模态情感识别方法，从视频中提取面部表情图像和人们说话的语音信息，提取相应的特征，并对多种特征进行处理，分别创建不同的核函数形成相应的核矩阵，将多模态特征进行融合，运用多核学习结合支持向量机进行训练和识别，获得更准确可靠的识别效果。

本发明为解决上述技术问题采用以下技术方案：

根据本发明所述的一种基于多核学习的多模态情感识别方法，包含以下步骤：

步骤一、构建一个多模态情感数据库，该数据库的总样本数为N，对于数据库中的每一个样本，提取其L种不同模态的情感特征；

步骤二、从步骤一构建的多模态情感数据库中随机选取n个样本作为训练样本，n＜N,采用M个不同种类不同参数的基础核函数，对每一种模态的情感特征分别构建M个核矩阵，每个核矩阵大小为n×n；

步骤三、将不同模态特征的核矩阵进行融合，每种模态特征均有M个核矩阵，用其各自的第m个核矩阵的元素进行模态间加权和融合或乘法融合，得到第m个融合后的核矩阵K_m第i行第j列的元素K_m(x_i,x_j)，K_m(x_i,x_j)即代表x_i和x_j两个样本特征的第m个模态间融合核；其中，i＝1,2,3,…,n，j＝1,2,3,…,n，m＝1,2,3,…,M；

步骤四、利用步骤三中所产生的M个模态间融合核的线性组合构建成一个新的核，采用该新的核代替支持向量机分类器中的单个基础核；

步骤五、利用多核学习算法训练支持向量机，得到多核的最优融合权值、多核支持向量机的决策判别函数；

步骤六、通过计算测试样本的基础核矩阵，再根据步骤三中所采用的模态间的融合方法得到测试样本的模态间融合核，再而通过步骤五中训练得到的最优融合权值计算出最终融合核，并将该最终融合核代入步骤五得到的决策判别函数中，采用一对多或一对一的多分类SVM判别方法识别情感。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤一中的情感特征为表情特征、语音特征和生理特征。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤二中对每一种模态的情感特征分别构建M个核矩阵，第l种模态特征的第m个核矩阵表示为

其中，v_l(x_i)为第i个训练样本x_i的第l种模态的情感特征，v_l(x_j)为第j个训练样本x_j的第l种模态的情感特征，

为第i个和第j个样本第l种模态特征利用第m个核函数计算所得的核，l＝1,2,3,…,L。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，M₁+M₂＝M，M₁为不同参数的高斯核函数个数，M₂为不同参数的多项式核函数个数。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤三中加权和融合的方法如下：

其中，ω₁…ω_L的取值为满足ω₁+ω₂+…+ω_L＝1的一组自定义的数值。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤三中乘法融合的方法如下：

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤四中新的核K(x_i,x_j)具体如下：

其中，β_m为第m个模态间融合核前的融合权值。

作为本发明所述的一种基于多核学习的多模态情感识别方法进一步优化方案，步骤五中，利用多核学习算法训练支持向量机，优化问题变为：

其中，f_m代表分类超平面，C为惩罚系数，ζ_i为松弛变量，b为分类超平面的偏移量，y_i为样本标签；

通过求解上式的优化问题，学习训练过程中得到多核的最优融合权值，最终得到多核支持向量机的决策判别函数为:

其中，α_i为拉格朗日乘子，K(x,x_i)为根据测试样本与第i个训练样本特征数据以及步骤三中所采用的模态间的融合方法计算得到的模态间融合核。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)采用多种模态情感特征进行情感识别；

(2)采用特征层融合提高识别效果；

(3)运用多核矩阵先进行模态间特征融合，再将其得到的多个核通过多核学习得到各核对应的权值，线性组合之后构建一个新的核，运用到多分类支持向量机中进行识别得到更好的效果。

附图说明

图1是基于多核学习的多模态情感识别方法的流程示意图；

图2是核矩阵特征融合示意图；

图3是表情和语音的双模态情感识别流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明是一种基于多核学习的多模态情感识别方法，以表情和语音的双模态情感识别为例，具体流程图如图1，图2是核矩阵特征融合示意图，图3是表情和语音的双模态情感识别流程图。它的实现有如下步骤：

1.处理表情和语音的情感数据库，获取表情图像以及语音信息

本发明实验基于Enterface’05情感数据库，选取其中信息全面的42个短视频资料作为情感数据源，42个专业的男女演员，演员们分别表演生气、恶心、害怕、高兴、难过和惊讶六种基本情绪，并说出相对应的台词。每种情绪包含五句台词，也就是说，每种情绪有五段短视频资料。因此，总样本个数为1260个，每类情绪样本有210个。对这1260个短视频资料进行图像和语音的分离，然后对视频进行分帧转化为图片，每段视频选取其中一张图片作为表情样本，统一图像的大小为180*144。因此，最终获得1260个表情样本和语音样本。

2.提取情感特征

情感特征的好坏对后续的识别效果造成很大的影响，本发明采用的是表情和语音两种表达最为明显直接且容易被获取的两种模态特征作为情感特征；

(2-1)提取面部表情的Gabor特征：Gabor特征具有良好的空间局部性和方向选择性，而且对光照、姿态具有一定的鲁棒性。对所有表情样本进行预处理转为灰度图之后，采用5个尺度8个方向的Gabor滤波器对所有样本进行纹理特征提取，提取的特征为12800维；

(2-2)Open Smile工具箱提取INTERSPEECH 2013ComParE语音特征集，特征集中包含各种低层特征描述子和特征统计函数共计6373维；

3.情感特征降维与选择：由于所提取的表情和语音维数过大，造成冗余信息过多，

影响识别的效率，所以需要对所获得的特征进行特征降维和选择。

(3-1)特征降维意义在于避免维数灾难，获取本质的特征，目前在机器学习领域中的四大降维方法分别为主成分分析法(PCA)、线性判别分析法(LDA)、局部线性嵌入(LLE)和拉普拉斯特征映射。本发明使用PCA对Gabor面部纹理特征进行降维，计算表情特征矩阵的协方差矩阵，并将特征值由大到小排列，提取特征值贡献率之和大于90％的前几个特征值对应的特征向量构成新的特征矩阵，最终表情特征为246维；

(3-2)优化选择语音特征，选取包括基频、梅尔倒谱系数(MFCC)、帧能量、频率微扰、振幅微扰等的算数平均值共计71维。

4.产生多个核矩阵进行融合

(4-1)、经过上述步骤，所构建的双模态情感数据库，样本数为N，表示为{x₁,x₂,x₃,…,x_N}，包含六种情感类别，对于每一个样本，对已经提取表情和语音两种模态的特征，特征使用v表示，则第r个样本的第l种模态的特征表示为v_l(x_r)，l＝1,2；r＝1,2,…,N；

本发明采用的核函数为高斯核函数和多项式核函数，其表达式如下：

K_ploy(a₁,a₂)＝(＜a₁,a₂＞+1)^d (2)

a₁,a₂表示两个样本数据；

(4-2)、随机选取n个样本作为训练样本，n＜N,采用M个不同种类不同参数的基础核函数，例如，采用M₁个不同参数的高斯核函数和M₂个不同参数的多项式核函数，M₁+M₂＝M，根据经验，设定高斯核参数σ＝(0.5,1,2,5,7,10,12,15,17,20)，多项式核参数d＝(1,2,3)，对不同模态的特征分别构建了13个核矩阵，每个核矩阵大小为n×n，设第l种模态特征的第m个核矩阵

为：

为第i个和第j个样本第l种模态特征利用第m个核函数计算所得的核，j＝1,2,3,…,n，i＝1,2,3,…,n，m＝1,2,3,…,13；l＝1,2；

(4-3)、本实验中采用将不同模态特征的核矩阵内的核元素进行加权和融合，每种模态特征均有13个核矩阵，用其各自的第m个核矩阵的元素进行模态间融合的公式如下：

这里，K_m(x_i,x_j)即为第m个特征融合后的核矩阵第i行第j列的元素，首先固定一组ω₁,ω₂的值，将其设置为0.1-0.9范围内的数值，根据最终的识别结果可进行调整；

(4-4)、利用所产生的M个模态间融合核的线性组合构建成一个新的核，即：

5.利用多核学习改善支持向量机训练与识别

产生的多核支持向量机的优化问题变为：

使用拉格朗日乘子法和wolf对偶对(6)式的优化问题进行转换，形成相应的对偶问题，即：

其中，α_i，α_j为拉格朗日乘子；

首先，固定

求解相应的K(x_i,x_j)，从而(7)式得优化问题变为可以使用SMO算法求解的QP问题，得到α_i,α_j的最优解；

因此，根据其强对偶条件，目标函数变为：

α_i ^*,α_j ^*即分别为α_i,α_j的最优解；

计算J^*(β)对β_m偏导数求得可行的梯度下降方向不断更新β_m，上式得最大值的最优解等同于原目标函数最小值的最优解。

因此，最终的多核支持向量机的决策函数变为:

通过计算测试样本的基础核，再根据求得的最优融合权值计算得到融合核

代入判别函数中，采用一对多或一对一的多分类SVM判别方法识别生气、反感、害怕、高兴、悲伤和惊讶等基本情感。

6.识别结果

本发明随机选取每类样本的百分之八十作为训练样本，即每类训练样本有168张，剩余42张作为测试样本,得到的识别率如下，表1是不同识别方法的识别率对比：

表1

从表1可以看出，较单模态情感识别，表情和语音的双模态情感识别的识别效果有一定的提升；采用多核的SVM相较于SVM更是提高了近七个百分点；然而本发明在前者的基础上使用多核矩阵的特征层融合方法，又将结果提升了近两个百分点，比起单模态的情感识别，具有十分明显优势。本发明中，每类测试样本为42张，识别结果的混沌矩阵如表2所示：

表2

	生气	恶心	害怕	高兴	难过	惊讶
							生气	35	3	1	1	1	1
恶心	3	36	2	1	0	0
							害怕	3	1	34	1	3	0
高兴	0	1	0	38	1	2
							难过	0	0	1	0	40	1
惊讶	1	0	2	1	2	36

由表2得出识别率分别为：生气83.33％，恶心85.71％，害怕80.95％，高兴90.48％，难过95.23％以及惊讶85.71％。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于多核学习的多模态情感识别方法，其特征在于，包含以下步骤：

步骤一中的情感特征为表情特征、语音特征和生理特征；步骤二中对每一种模态的情感特征分别构建M个核矩阵，第l种模态特征的第m个核矩阵表示为

为第i个和第j个样本第l种模态特征利用第m个核函数计算所得的核，l＝1,2,3,…,L；M1+M2＝M，M1为不同参数的高斯核函数个数，M2为不同参数的多项式核函数个数；

步骤三、将不同模态特征的核矩阵进行融合，每种模态特征均有M个核矩阵，用其各自的第m个核矩阵的元素进行模态间加权和融合或乘法融合，得到第m个融合后的核矩阵K_m第i行第j列的元素K_m(x_i,x_j)，K_m(x_i,x_j) 即代表x_i和x_j两个样本特征的第m个模态间融合核；其中，i＝1,2,3,…,n，j＝1,2,3,…,n，m＝1,2,3,…,M；

步骤三中加权和融合的方法如下：

其中，ω₁…ω_L的取值为满足ω₁+ω₂+…+ω_L＝1的一组自定义的数值；

步骤三中乘法融合的方法如下：

2.根据权利要求1所述的一种基于多核学习的多模态情感识别方法，其特征在于，步骤四中新的核K(x_i,x_j)具体如下：

其中，β_m为第m个模态间融合核前的融合权值。

3.根据权利要求1中所述的一种基于多核学习的多模态情感识别方法，其特征在于，步骤五中，利用多核学习算法训练支持向量机，优化问题变为：