CN111274955A

CN111274955A - 一种基于视听特征相关性融合的情感识别方法及系统

Info

Publication number: CN111274955A
Application number: CN202010063623.9A
Authority: CN
Inventors: 陈略峰; 吴敏; 曹卫华; 王宽林
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本发明公开了一种基于视听特征相关性融合的情感识别方法及系统，首先，对面部表情和语音数据进行预处理，之后分别采用了灰度化、时域、频域等特征提取面部表情和语音数据的情感特征；然后，基于K‑Means聚类方法进行特征聚类；接着，基于核典型相关分析对聚类后的特征进行相关性分析并串行融合；最后，采用SVM分类器对融合特征进行识别。本发明公开的情感识别方法，选用核典型相关分析的融合方法来进行基于特征层面的特征数据融合，有效地去除特征之间的冗余；同时，采用K‑Means聚类方法将如何处理两类模态间内在联系的问题转换为如何处理不同情感标签下不同离散度特征间相关性的问题，解决了特征融合过程中特征间内在联系不充分的问题。

Description

一种基于视听特征相关性融合的情感识别方法及系统

技术领域

本发明涉及智能情感识别领域，更具体地说，涉及一种基于视听特征相关性融合的情感识别方法及系统。

背景技术

情感是人们在沟通交流的过程中传递的重要信息，情感状态的变化影响着人们的感知和决策。目前，依靠表情、语音、行为姿态等单一模态的情感识别方法较为熟知，单情感的表达不仅仅通过单种模态，而是通过多种模态情感信息融合的方式，不同表现方式在表达情感是存在一定的互补作用。因此，单模态情感识别有一定的局限性，基于多重情感表达方式的情感识别更加完整，也更加符合智能人机交互的应用需求。

在人类表达情感的各种方式中，表情和语音是最为直接和明显的表达方式。不同模态间的情感信息具有不同的特征，如何成分考虑面部表情和语音信息的特点，研究各模态特征提取与融合方法，提取各模态数据中的关键情感特征，加强融合过程中各模态特征间的内在联系，实现多模态特征信息的互补，是获得准确情感状态的关键。

基于典型相关分析的特征层级串行融合方法只能用于解决线性关系，对于不同特征维度的非线性关系，采用核函数的方式将低维数据映射到高维空间中，再进行典型相关分析完成线性融合过程。可是直接将面部表情和语音数据进行融合并没有充分考虑各模态特征之间的内在联系，本发明基于K-Means聚类方法对特征进行重新聚类，以每一维特征的均值与标准差构建的二维坐标为分类依据，经过随机设定簇中心以及反复更新簇中心，进而将各个模态间内在联系的问题转化为不同情感标签下不同离散度特征间相关性的问题，不仅能够有效地去除特征之间的冗余，还能够得到具有较好鉴别力的情感融合特征。

发明内容

本发明要解决的技术问题在于，针对现有技术没有充分考虑各模态特征之间的内在联系缺陷，提供一种基于视听特征相关性融合的情感识别方法及系统。

本发明解决其技术问题所采用的技术方案是：构造一种基于视听特征相关性融合的情感识别方法，包括以下步骤：

S1、获取情感数据，所述情感数据包括面部表情模态数据和语音模态数据，对所述情感数据进行预处理；

S2、针对预处理后的情感数据，进行情感特征提取；

S3、基于提取得到的情感特征，采用K-Means聚类方法针对面部表情、语音模态数据的情感特征进行特征间的聚类，去除对情感识别结果影响小的特征点；其中，在进行特征聚类前，首先，将基于步骤S2提取到的特征数据进行数据归一化处理，将所有的特征数据统一映射到预设的数值区间；其次，基于归一化后的特征数据，构建均值与标准差的二维坐标平面；采用K-Means聚类方法的处理过程为：

随机选取数据点作为初始质心，将选取得到的初始质心分为N类；在反复迭代优化后，基于构建的二维坐标平面，在当前迭代后产生的质心与上一次迭代产生的质心之间的距离小于预设阈值时，完成聚类；

S4、基于核典型相关分析方法，对特征聚类后的特征数据进行非线性融合，得到融合后的情感特征；

S5、采用SVM分类器对融合后的情感特征进行识别，得到情感识别结果。

本发明公开的一种基于视听特征相关性融合的情感识别系统，包括以下模块：

数据获取模块，用于获取情感数据，所述情感数据包括面部表情模态数据和语音模态数据，对所述情感数据进行预处理；

特征提取模块，用于针对预处理后的情感数据，进行情感特征提取；

特征聚类模块，用于基于提取得到的情感特征，采用K-Means聚类方法针对面部表情、语音模态数据的情感特征进行特征间的聚类，去除对情感识别结果影响小的特征点；其中，在进行特征聚类前，首先，将基于特征提取模块提取到的特征数据进行数据归一化处理，将所有的特征数据统一映射到预设的数值区间；其次，基于归一化后的特征数据，构建均值与标准差的二维坐标平面；

特征融合模块，用于基于核典型相关分析方法，对特征聚类后的特征数据进行非线性融合，得到融合后的情感特征；

情感识别模块，用于采用SVM分类器对融合后的情感特征进行识别，得到情感识别结果。

在本发明所述的一种基于视听特征相关性融合的情感识别方法及系统中，采用了灰度化和自适应直方图均衡化和时域、频域、梅尔倒谱系数和音频特征提取面部表情和语音数据的情感特征，选用核典型相关分析的融合方法来进行基于特征层面的融合面部表情和语音数据，能够有效地去除特征之间的冗余。同时，采用K-Means聚类方法对面部表情和语音两类特征进行聚类重新分配，将如何处理两类模态间内在联系的问题转换为如何处理不同情感标签下不同离散度特征间相关性的问题，进而解决了一般面部表情和语音特征融合过程中特征间内在联系不充分的问题，从而得到具有较好鉴别力的情感融合特征。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明公开的一种基于视听特征相关性融合的情感识别方法实施流程图；

图2本发明实际处理数据过程中的总体流程框图；

图3本发明在进行面部表情模态数据预处理时的处理示意图；

图4本发明中公开的利用K-Means特征聚类算法进行特征聚类的示意图；

图5是本发明公开的一种基于视听特征相关性融合的情感识别系统结构框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明涉及一种基于视听特征相关性融合的情感识别方法及系统，其总体流程框图如图1-2所示。首先，分别对面部表情模态数据与语音模态数据进行数据预处理；之后，分别采用了灰度化和自适应直方图均衡化和时域、频域、梅尔倒谱系数和音频特征提取面部表情和语音数据的情感特征；然后，基于K-Means聚类方法对两类特征进行聚类；接着基于核典型相关分析对聚类后的特征进行相关性分析并串行融合；最后采用SVM分类器对融合特征进行识别。

本实施例下，基于视听特征深度融合的动态情感识别方法得处理过程主要可分为五部分，即情感数据预处理、情感特征提取、特征聚类、特征融合和情感融合特征识别，实现流程如下：

S1、情感数据预处理：对于面部表情模态数据，首先根据每个视频总帧数按照等帧距提取30帧图像，然后基于Viola-Jones算法提取每帧图像的人脸关键区域，接着将图像归一化到统一尺度，得到预处理后的面部表情图像帧；

对于语音模态数据，进行端点检测并将空白帧段删除，且以等帧距分为各个帧段；

本步骤下，具体得，对于面部表情模态数据得数据预处理过程为：

(1-1-1)对于面部表情模态特征，首先获取每个视频数据的总帧数N帧；

(1-1-2)每间隔N/30帧获取一帧视频关键帧，得到30帧关键帧；

(1-1-3)接着基于Viola-Jones算法提取每帧图像的人脸关键区域，之后将图像归一化到统一尺寸至128×128，得到30帧人脸关键帧；

(1-1-4)重复步骤(1-1-1)～(1-1-3)，直至预处理完情感数据集中所有视频数据。

本步骤下，具体得，对于语音模态数据得数据预处理过程为：

(1-2-1)进行端点检测(VAD)并将空白帧段删除；

(1-2-2)获取端点检测后每个语音数据的总时M秒；

(1-2-3)以步长0.04s将语音信号分为M/(0.04)帧，从而获得不同帧数的语音信号；

(1-2-4)重复步骤(1-2-1)～(1-2-3)，直至预处理完情感数据集中所有语音数据。

S2、对于面部表情模态数据得情感特征提取为：将每一像素点RBG转化为灰度值，得到灰度直方图后，采用自适应直方图均衡化(AHE)来提升图像的对比度，增强情感特征，同时采用主成分分析(PCA)的特征抽取方法，将降维后的像素点灰度值(前面没有说到降维)作为特征向量；

对于语音模态数据得情感特征提取为：提取语音情感数据的时域、频域、梅尔倒普系数(MFCCs)以及音频特征；

本步骤下，具体得面部表情模态数据得情感特征提取步骤为：

(2-1-1)采用式(1)将每一像素点RBG转化为灰度值，得到灰度直方图：

Gray＝R*0.3+G*0.59+B*0.11； (1)

其中，R为像素点指代得红色值，G为像素点指代得绿色值，B为像素点指代得蓝色值；

(2-1-2)在得到灰度直方图后，采用自适应直方图均衡化(AHE)来提升灰度图像的对比度；采用式(2)进行自适应直方图均衡化(AHE)：

其中，图像灰度群范围为[0,L-1]，L为图像的灰度等级，一般取8，无量纲；n为图像中像素点得总数目，记n’为进行直方图剪切后得到的像素点总数目，n_k为图像中灰度级为k的像素点总数目，n’_k为剪切后图像中灰度级k的像素点总数目，s为剪切系数，0≤k≤L-1，0≤n_k≤n-1，0≤s≤n-1；

(2-1-3)自适应处理且采用变换函数式(3)进行将所述直方图进行均衡化：

其中，r为归一化后图像灰度级的分布范围，0≤r_k≤1，s为经过直方图均衡化后的图像灰度级，P_r(r)为第k个灰度级出现的概率；k表示图像的总灰度级；

本步骤下，具体得语音情感数据得情感特征提取步骤为：

对于语音模态数据，提取语音情感数据的时域、频域、梅尔倒普系数(MFCCs)以及音频特征共34维，各维特征如表1所示；

表1语音样本的34维特征信息

(2-2-1)针对预处理后得到语音情感数据，分别提取其时域特征(短时平均过零率、短时能量和能量熵)、频域特征(频谱中心化、延展度、谱熵、频谱通量和频谱降滚点)以及12维音阶特征(Chroma Vector)，共计21维语音特征；

(2-2-2)针对预处理后得到语音情感数据y_d(n)用哈宁窗进行加窗处理，得到加窗分帧处理后的语音信号y_d,w(n)；

(2-2-3)对语音信号y_d,w(n)进行快速傅里叶变换(Fast FourierTransformation,FFT)，得到FFT系数Y_d(k)；

(2-2-4)将快速傅里叶变换后的Y_d(k)通过24个Mel滤波器，得到24个均匀划分的子带，其中，相邻子带带有一半重叠，这样得到24个特征F_mel(i),i＝1,2,…,24；i指的滤波器个数；

(2-2-5)为了获得具有更平滑分布的数据，采用log函数对F_mel(i)处理后，生成倒谱系数L_mel(i),i＝1,2,…,24；

(2-2-6)对倒谱系数L_mel(i)进行离散傅里叶变换(Discrete Fourier Transform,DFT)并将其维度降至13维，得到梅尔倒谱系数C0-C12；

经过步骤2-2-1～步骤2-2-6的处理后，完成对预处理后到语音情感数据的特征提取。

S3、经过步骤S1和S2并依据实验数据库的初始情感标签，我们得到了两组不同模态下的特征矩阵，经过数据归一化，把数据统一映射到[0,1]的区间中，最后将统一后的数据进行整合并聚类，具体包括以下步骤：

本实施例下，对提取后的面部表情和语音特征通过K-Means聚类方法进行特征层级的聚类，意图消除不同模态间的特征差异，具体包括以下步骤：

(3-1-1)对数据集的每一维度特征，采用最小-最大归一化方法将其值统一映射到[0,1]区域中，基于式(4)进行特征映射后，得到特征向量X[0,1](m)，其中，m为面部表情和语音数据的特征数量：

(3-1-2)求得每一维度特征X[0,1](m)的均值X_E(m)和标准差X_σ(m)，由此得到包含(E,σ)的二维特征指标，再将所有维度数据整合后，得到数据集X_(E,σ)(m)；所述X_(E,σ)(m)即代表构建的均值和标准差二维坐标平面；

(3-1-3)在所述二维坐标平面下，随机地选择3个特征对象(E_A0,σ_A0)、(E_B0,σ_B0)和(E_C0,σ_C0)，每个特征对象均初始地代表了一个簇的中心，将之用c₁,c₂,c₃分别表示；

(3-1-4)对剩余的每个对象，根据其与各簇中心的欧几里得距离，将它赋给最近的簇A或B或C，进行聚类；

(3-1-5)重新计算每个簇的平均值(E_A1,σ_A1)和(E_B1,σ_B1)，依据当前更新后的值，进行初始质心的更新；定义最小化目标函数J：

其中，误差平方项|*|²是数据点X_i ^(j)和簇中心c_j之间的距离，k为簇总数，j为当前簇数，N为特征点总数，i为当前迭代到的特征点数，J是N个数据点与其各自簇中心的距离的标志；

(3-1-6)不断重复步骤(3-1-4)和(3-1-5)，如果新的簇中心和上一次迭代的簇中心距离小于某一个设置的阈值，可以认为进行的聚类已经达到期望的结果，算法终止，完成聚类。

本实施例下，可以采用测试集数据按照步骤3-1-1～步骤3-1-6的特征聚类结果进行分类，本实施例下认为双值越大的簇，其影响最终识别结果的能力就越强，即有作用于情感识别准确性的提升，于是仅留下均值和标准差最大的两簇，并将面部表情表示为A类特征，语音数表示为B类特征，当前即完成特征分类。

S4、将特征聚类后的A类和B两类特征进行核典型相关分析，依据特征间的相关性进行特征层面融合，先采用核函数将较低维数的特征升成同维，进而进行线性分析，而后再进行串行融合，得到输入分类器前的特征向量C，具体包括以下步骤：

(4-1)将A类和B两类特征经由核函数投影至高维度空间分别得到φ(A)与φ(B)，经由核典型相关分析再次投影，依据此得到了相关性最大的目标函数ψ：

其中，

与

为相关关系最大时的A类和B两类特征的投影向量；

然而，在A类和B两类特征不同维时，出现的非线性问题导致无法继续进行相关性分析，为了解决两类特征融合过程中的非线性问题，对于低维度数据A采用核方法映射到高维空间后降维至另一数据维度m_B，得到特征数据A_K和B：

K＝<φ(A_K)，φ(A_K)>＝φ^T(A)φ(A)； (7)

其中，K为所采用的核函数，本方法共试验5种核进而得出结果，因本发明所采用的方法以及相关仿真数据库，由结果表明多项核的结果优于其他核，故后续选择采用多项核作用于情感识别，得到A_K；

(4-2)采用典型相关分析算法对特征数据B和核映射后的A_K进行典型相关分析，得到同类样本特征之间相关性最大的两组新特征A_c和B_c，具体包括以下步骤：

(4-2-1)对A_K和B进行相关性分析，两组数据的相关系数ρ定义为：

其中cov(A_K，B)是A_K和B的协方差，而D(A_K)和D(B)分别是A_K和B的方差；

相关系数ρ的取值为[-1,1]，若ρ的绝对值越接近于1，则A_K和B的线性相关性越高；若ρ的绝对值越接近于0，则A_K和B的线性相关性越低；

(4-2-2)根据式(6)可以的到相关性最大的目标函数，由此确定典型相关分析的优化目标是最大化ρ(ψ(A_K)，ψ(B))：

本实施例下，将上述优化目标转化为凸优化过程，求得限定条件下

与

即可求解；

(4-2-3)在投影前把原始数据进行标准化，同时令

则将上述目标函数转化为：

由于，分子分母增大相同的倍数，优化目标结果不变，可以固定分母，优化分子，具体的转化为：

其中，

表示A类的投影向量、

表示B类的投影向量、

表示对A_K和B进行协方差计算后的得到的结果、

表示对A_K进行协方差计算后的得到的结果、S_BB表示对B进行协方差计算后的得到的结果。

(4-2-4)在(4-2-3)的基础上采用奇异值分解SVD，最大的奇异值就是优化目标的最大值，从而求得投影向量，进而求得ψ(A_K)与ψ(B)，即两组新特征A_c和B_c；

(4-3)将得到的数据特征A_c和B_c进行串行融合，得到融合后的特征C＝[A_c,B_c]。

S5、采用支持向量机(SVM)对得到的情感融合特征进行识别，得到相应的情感信息；具体包括以下步骤：

(5-1)构建SVM分类器对得到的情感融合特征进行识别，得到相应的情感信息，具体包括以下步骤：

(5-1-1)寻找超平面H对不同情感间的样本数据分割开来，并使彼此间的距离最大，以此来构造如下条件的极值问题；

(5-1-2)采用拉格朗日方程法对构造的极值问题进行求解，对目标函数对偶变换，即将问题转换成对偶问题，在此基础上进行求解计算，便可得到所有的拉格朗日系数，同时得到最优超平面H；

(5-1-3)采用已构建的SVM分类器进行分类，当输入的情感融合特征C_i超平面的情感类别e的一侧，则判定输入的情感融合特征C_i属于情感类别e。

利用上述方法进行实验，所用面部表情-语音双模态情感数据库为SAVEE数据库。该情感数据库从4位平均年龄30岁的英语母语者录入。情感类别包括七种基本情感，即生气、厌恶、恐惧、开心、中性、悲伤和惊讶。数据库的文本材料选自标准TIMIT数据库，除中性情感外，每种情感包含15个句子，中性情感包含30个句子。数据库总共包含面部表情数据和语音数据各480组，面部表情视频采样率是60fps，语音数据采样率是44.1kHz。

采用十折交叉验证法在SAVEE数据库上进行实验，即每次实验时选取数据库的80％为训练样本，20％为测试样本，采用核典型相关分析的方法得到的实验结果如表2所示。在表2中，采用不同的核函数得到的不同的实验结果，是在本发明构建的典型相关分析后连接SVM分类器得到的识别结果。由表2可得，不同核函数对于所选方法和数据库有不同的效果，采用多项式核进行典型相关分析得到的平均识别率为91.30％，采用其他核函数均低于多项式核，由此可见，多项式核典型相关分析的特征融合方法一定程度上发现面部表情和语音模态的相关性，实现面部表情和语音模态信息互补。

表2不同核函数典型相关分析融合下不同的情感识别实验结果

为了验证本发明提出方法的有效性，将其它方法的实验结果与本方法的实验结果进行对比，对比结果如表3所示。表3比较了单模态、串行融合、基于主成分分析的典型相关分析的融合、基于核典型相关分析的融合与基于K-Means聚类的核典型相关分析的融合的6种情感识别方法，均是在连接SVM分类器得到的识别结果。由表3可知基于K-Means聚类的核典型相关分析的特征融合方法在SAVEE面部表情-语音双模态数据库上得到的平均识别率为93.06％，由此可见，基于K-Means聚类的核典型相关分析的特征融合，即基于视听特征相关性融合的效果，比传统的基于核典型相关分析的特征融合更好，因此，基于K-Means聚类的核典型相关分析可发现面部表情和语音模态之间的内在联系，实现双模态信息的有效融合，得到具有较好鉴别力的情感融合特征。

表3基于不同方法下的情感识别实验结果

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于视听特征相关性融合的情感识别方法，其特征在于，包括以下步骤：

S2、针对预处理后的情感数据，进行情感特征提取；

S3、针对提取得到的面部情感特征和语音情感特征，采用K-Means聚类方法分别对上述两类情感特征进行特征间的聚类，去除对情感识别结果影响较小的特征点；其中，在进行特征聚类前，首先，将基于步骤S2提取到的特征数据进行数据归一化处理，将所有的特征数据统一映射到预设的数值区间[0,1]；其次，基于归一化后的特征数据，构建均值与标准差的二维坐标平面数据集；所述二维坐标平面下横坐标表示均值，纵坐标表示方差；

结合当前构建得二维坐标平面，采用K-Means聚类方法进行特征聚类的处理过程为：

在所述二维坐标平面数据集下随机选取若干个数据点，将其作为初始质心，并对选取得到的初始质心进行分类；在反复迭代优化后，在当前迭代后产生的质心与上一次迭代产生的质心之间的距离小于预设阈值时，完成聚类；

S4、基于核典型相关分析方法，对聚类后得到的面部情感特征和语音情感特征进行非线性融合，得到融合后的情感特征集；

S5、输入所述融合后的情感特征集到SVM分类器进行训练，利用训练后的SVM分类器针对融合后得情感特征数据进行处理，得到情感识别结果。

2.根据权利要求1所述的情感识别方法，其特征在于，步骤S1中，对所述情感数据进行预处理具体为：

对于面部表情模态数据，首先，获取包括面部表情模态数据的若干个视频，根据每个视频的总帧数按照等帧距提取M帧图像；其中，M大于等于1；然后，基于Viola-Jones算法提取每帧图像的人脸关键区域；最后，针对提取到人脸关键区域图像进行尺度归一化处理，得到预处理后的面部表情图像帧数据；

对于语音模态数据，针对获得的语音信号进行端点检测，将空白帧段删除；获取端点检测后每个语音信号的总时T秒，且以步长t秒将语音信号分为T/(t)帧，得到不同帧数的语音信号数据。

3.根据权利要求1所述的情感识别方法，其特征在于，步骤S2中，所述情感特征提取具体为：

对于面部表情模态数据，在预处理图像的基础上，将所述预处理图像转化为灰度图像，其中，采用自适应直方图均衡化方法对转化后的灰度图像进行处理，提升图像的对比度；同时，采用主成分分析特征抽取方法，抽取降维后的像素点灰度值，将所述像素点灰度值作为特征向量；

对于语音模态数据，在预处理图像的基础上，提取每帧信号的时域、频域、梅尔倒普系数以及音频特征。

4.根据权利要求1所述的情感识别方法，其特征在于，步骤S3中，包括以下子步骤：

S31、对提取得到的情感特征，采用最小-最大归一化方法，将其值统一映射到[0,1]区域中，基于下述公式得到特征向量X[0,1](m)：

其中，m为面部表情、语音数据的特征数量；X_min表示特征向量取到的最小值；X_max表示特征向量取到的最大值；

S32、求得每一维度特征X[0,1](m)的均值X_E(m)和标准差X_σ(m)，由此得到(E,σ)的二维特征，对所有维度的二维特征进行整合后，得到数据集X_(E,σ)(m)；

S33、从所得的数据集中任意地选择3个对象(E_A0,σ_A0)、(E_B0,σ_B0)和(E_C0,σ_C0)，其中，每个对象代表了一个簇的初始质心，将其分别用c₁、c₂和c₃表示；

S34、对选取过后剩余的若干个对象，根据每个对象与各簇初始质心的欧几里得距离，将其赋给距离最近的簇，进行特征聚类；

S35、在进行特征聚类后，重新计算每个簇的平均值，依据计算得到的平均值，进行初始质心的更新；

S36、重复执行步骤S34和S35，设定最小化目标函数J：

其中，误差平方项是数据点X_i ^(j)和簇质心c_j之间的距离，k为簇总数，j为当前簇数，N为数据总数，i为当前数据数，目标函数J是N个是数据点与其各自簇质心的距离标志；在当前迭代过程中的簇质心和上一次迭代的簇质心之间距离小于预设阈值时，完成聚类。

5.根据权利要求1所述的情感识别方法，其特征在于，步骤S4中采用典型相关分析算法对聚类后得到的面部特征数据和语音特征数据进行典型相关分析，得到若干个反映两类特征之间相关关系的特征数据集；最后，将所述特征数据集进行串行融合，得到融合后的情感特征集。

6.根据权利要求1所述的情感识别方法，其特征在于，步骤S5中，采用已构建的SVM分类器，针对所述融合后的情感特征集中的特征数据进行特征分类，其中，基于超平面H对不同情感间的样本数据进行分割，当输入的情感融合特征C_i位于超平面的情感类别e的一侧，则判定输入的情感融合特征C_i属于情感类别e；参数i代表特征索引标记。

7.一种基于视听特征相关性融合的情感识别系统，其特征在于，包括以下模块：

特征融合模块，用于基于核典型相关分析方法，对特征聚类后的面部表情、语音模态数据进行非线性融合，得到融合后的情感特征集；

情感识别模块，用于采用SVM分类器对融合后的情感特征集进行识别，得到情感识别结果。

8.根据权利要求7所述的情感识别系统，其特征在于，特征聚类模块中，包括以下子模块：

归一化模块，用于对提取得到的情感特征，采用最小-最大归一化方法，将其值统一映射到[0,1]区域中，基于下述公式得到特征向量X[0,1](m)：

其中，m为面部表情、语音数据的特征数量；

均值和标准差计算模块，用于求得每一维度特征X[0,1](m)的均值X_E(m)和标准差X_σ(m)，由此得到(E,σ)的二维特征，对所有维度的二维特征进行整合后，得到整合数据集X_(E,σ)(m)；

初始质心选择模块，用于从所得得数据集中任意选择3个对象(E_A0,σ_A0)、(E_B0,σ_B0)和(E_C0,σ_C0)，其中，每个对象代表了一个簇的初始质心，将其分别用c₁、c₂和c₃表示；

欧几里得距离模块，用于对选取过后剩余的若干个对象，根据每个对象与各簇初始质心的欧几里得距离，将其赋给距离最近的簇，进行特征聚类；

质心更新模块，用于在进行特征聚类后，重新计算每个簇的平均值，依据计算得到的平均值，进行初始质心的更新；

特征聚类模块，用于重复执行欧几里得距离模块和质心更新模块，设定最小化目标函数J：

其中，误差平方项是数据点X_i ^(j)和簇质心c_j之间的距离，k为簇总数，j为当前簇数，N为数据总数，i为当前数据数，J是N个是数据点与其各自簇质心的距离标志；在当前迭代过程中的簇质心和上一次迭代的簇质心之间距离小于预设阈值时，完成特征聚类。