CN109815938A - 基于多类核典型相关分析的多模态情感特征识别方法 - Google Patents

基于多类核典型相关分析的多模态情感特征识别方法 Download PDF

Info

Publication number
CN109815938A
CN109815938A CN201910144997.0A CN201910144997A CN109815938A CN 109815938 A CN109815938 A CN 109815938A CN 201910144997 A CN201910144997 A CN 201910144997A CN 109815938 A CN109815938 A CN 109815938A
Authority
CN
China
Prior art keywords
feature
data
correlation analysis
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910144997.0A
Other languages
English (en)
Inventor
朱康
闫静杰
宋宇康
吕方惠
徐志鹏
卢官明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910144997.0A priority Critical patent/CN109815938A/zh
Publication of CN109815938A publication Critical patent/CN109815938A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多类核典型相关分析的多模态情感特征识别方法,包括以下步骤:1)在包含多种模态数据的情感数据库中选取一定数量的样本;2)从上述样本数据中提取表情特征、语音特征和姿态特征,形成表情特征数据矩阵、语音特征数据矩阵和姿态特征数据矩阵;3)将上述3个矩阵进行归一化和标准化处理;4)使用多类核典型相关分析方法将多个模态的特征进行融合,得到融合后的特征;5)将融合后的特征放入支持向量机中进行情感识别。本方法通过将多类核典型相关分析方法的应用,寻找各模态特征之间强相关性,充分使用人类各种情绪情况下的各个模态的特征,在情感识别中使计算机能够更加精确的识别人类的情绪。

Description

基于多类核典型相关分析的多模态情感特征识别方法
技术领域
本发明涉及一种多模态情感特征识别方法,特别是涉及一种基于多类核典型相关分析的多模态情感特征识别方法。
背景技术
人类的情感表达通常不仅仅通过表情或是语音语调等某一种单一的表现形式表现出来,例如在一个人比较高兴的时候,脸部五官表情较为舒展,音调比较高亢,身体四肢会不由自主的做出一些相应的动作,而在比较悲伤的时候脸部表情较为凝重,声音对应的也会较为伤感,四肢动作幅度不会太大等等,每种情绪在面部、声音和姿态方面都会有对应的表现。传统方法使计算机仅仅根据某一模态或是融合表情和语音两个模态的特征进行情绪的识别分类,识别率不够高,如果将单模态延伸到多模态,使计算机经过某些方法使用多种模态的特征融合判断进行情绪的识别分类,对于提高识别率,促进人机交互的发展必然有着积极的作用。同时融合方法的好坏也会很大程度上影响最后识别结果好坏,现在已经存在的融合方法也有很多,例如主成分分析(PCA),典型相关分析(CCA),核典型相关分析(KCCA)等。多类核典型相关分析(MKCCA)是核典型相关分析(KCCA)在多类问题上的拓展,通过变量之间的相关性将特征融合起来,适合于多模态情感特征识别的问题。但是MKCCA在具体应用到情感特征识别方面还有很多难点,目前的现有技术中还没有发现其被应用到多模态情感特征识别的方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于多类核典型相关分析的多模态情感特征识别方法,通过寻找各模态特征之间强相关性,充分使用人类各种情绪情况下的各个模态的特征,在情感识别中使计算机能够更加精确的识别人类的情绪。
技术方案:本发明所述的基于多类核典型相关分析的多模态情感特征识别方法,包括以下步骤:
(1)在包含多种模态数据的情感数据库中选取一定数量的样本;
(2)从上述样本数据中提取表情特征、语音特征和姿态特征,形成N*d1的表情特征数据矩阵、N*d2的语音特征数据矩阵和N*d3的姿态特征数据矩阵,其中N为样本个数,d1、d2、d3分别为每个样本的表情特征、语音特征和姿态特征的维度;
(3)将上述3个矩阵进行归一化和标准化处理,得到矩阵X1、X2、X3,矩阵X1、X2、X3中的数据都是归一的符合标准正态分布;
(4)使用多类核典型相关分析方法将多个模态的特征进行融合,得到融合后的特征;
(5)将融合后的特征放入支持向量机中进行情感识别。
进一步的,步骤(2)中提取表情特征的方法为,先使用matlab的AAM算法程序检测出样本中人脸区域并裁剪出来,再将所裁剪的人脸部分图片重新规划成统一的尺寸,使用密集sift特征算法,计算得到d1维的sift特征,得到N*d1的表情特征数据矩阵。
进一步的,步骤(2)中提取语音特征的方法为,使用工具opensmile中的emobase2010.conf特征集提取语音特征,用python对每段原始音频数据提取d2维的音频特征,得到N个文本格式的音频数据特征文件,之后使用matlab去除文件中的说明部分并进行格式的转换与所有数据的合并,得到N*d2的语音特征数据矩阵。
进一步的,步骤(2)中提取姿态特征的方法为,使用matlab的lbptop算法程序,提取数据库中的全身视频图片帧之间的关联信息,对于一帧的图像进行分块,使用lbotop算法程序计算每张图片的特征,得到N个d3的特征数组,再另外使用matlab程序将其按样本顺序合并,最终获得N*d3的姿态特征数据矩阵。
进一步的,步骤(3)中进行归一化和标准化处理的过程为:
(1)对所述3个矩阵进行归一化处理,即将每个样本的特征值都映射到区间[-1,1]中,最大值对应1,最小值对应-1;
(2)对特征值进行零均值标准化操作,即将每个样本的特征值减去该样本的均值后,除以该样本数据的标准差,得到的样本特征值遵循标准正态分布;
(3)对经上述标准化处理后的数据再进行归一化处理,得到归一化后的矩阵表情特征数据矩阵X1、语音特征数据矩阵X2和姿态特征数据矩阵X3
进一步的,步骤(4)中融合的步骤是:
(1)建立投影方向Ψ123,使得之间获得最强的相关性,即使下列表达式的和最大:
求解出和最大时的投影方向Ψ123
(2)得到融合后的特征
进一步的,求解投影方向的步骤是:
(1)将数据矩阵X1、X2、X3映射到高维空间为:
其中,分别表示数据矩阵X1、X2、X3的第N个样本数据从低维到高维的映射;
(2)确定线性核函数构建的核矩阵为:
K1=Φ1 TΦ1,K2=Φ2 TΦ2,K3=Φ3 TΦ3
(3)求解下列方程中的α、β、γ,α、β、γ均是N*1的列向量,
其中,λ1、λ2、λ3为正则化参数,ρ是拉格朗日乘子,I为单位矩阵;
(4)求出α、β、γ之后,通过表达式得到投影方向。
进一步的,步骤(5)中的情感识别方法为:将融合后的特征放入支持向量机,首先选取若干个样本作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练,训练完毕后将待识别个人的样本用MATLAB中的predict函数进行预测识别。
有益效果:本发明基于多类核典型相关分析方法融合多模态的情感特征进行人类情感的识别,核心在于第一次使用多类核典型相关分析(MKCCA)方法进行多模态特征的融合,难点包括了核函数的选择和核矩阵的构建,实验结果表明,经过融合过后的对多种情绪的识别结果相较于单模态有较大提升,对比其他例如PCA融合等方法识别结果也有一定提升。本方法能够使计算机更准确的识别人类的各种情绪。
附图说明
图1是本方法的整体流程图;
图2是多模态数据进行相关性计算的模型图;
图3是gemep数据库中部分样本的截图。
具体实施方式
本实施例的步骤如图1所示,具体为:
第一步:获取gemep数据库,此数据库有两部分的样本,一部分是全身视频,一部分是半身视频,半身视频由全身视频截取所得,全身视频主要用于提取姿态特征,分别都是由10个人,总共145个样本组成,将其分成七类分别为happy,anger,disgust,fear,sad,surprice,peace,按人排序,部分样本的面部截图如图3所示。
第二步:分别提取三种模态的特征。对于表情特征,首先使用matlab的AAM算法程序将视频样本中人脸的部分截取出来,之后将所截取的人脸部分图片统一重新规划成128*128的尺寸,使用密集sift特征算法程序,每10个像素取一个关键点,提取出18432维的sift特征,构成了145*18432的表情特征数据矩阵。对于音频特征,首先使用Audition或类似软件将视频中的音频部分提取出来,之后使用opensmile2.1.0工具中的emobase2010.conf特征集,用python对每段原始音频数据提取1582维的音频特征,得到145个文本格式的音频数据特征文件,之后使用matlab程序去除文件中的说明部分并进行格式的转换与所有数据的合并,构成了145*1582的语音特征数据矩阵。对于姿态特征使用matlab的lbptop算法,用于对数据库中的全身视频提取图片帧之间的关联信息,对于一帧的图像进行5*5的分块,使用lbotop算法程序计算每张图片的特征,得到145个1*4425的特征数组,在另外使用matlab程序将其按样本顺序合并,最终获得145*4425的姿态特征数据矩阵。之后建立对应的标签。
第三步:对提取的数据进行预处理。对每个数据矩阵都进行归一化和标准化处理,将每个样本的特征值都映射到区间[-1,1]中,最大值对应1,最小值对应-1,之后使用零均值标准化操作,假设某个样本的特征数据为[x1,x2,...,xd],使用下列公式对其进行零均值标准化操作:
其中的为该样本数据的均值,为该样本数据的标准差。经过此操作使数据遵循标准正态分布,之后再进行一次数据归一化。
上述过程的具体操作可以这样实现:先进行一次归一化:将每个样本的特征都使用matlab的mapminmax函数将数值映射到区间[-1,1]中,最大值对应1,最小值对应-1。之后使用零均值标准化操作:使用matlab的std函数计算每个样本向量的标准差,mean函数计算其均值,再将每个样本中的值减去均值并且除以标准差,得到零均值标准化的结果。经过此操作使数据遵循标准正态分布,之后再进行一次数据归一化。
第四步,使用多类核典型相关分析方法将多个模态的特征进行融合,具体内容如下:
在两类问题当中,典型相关分析(CCA)的目的是找到两个数据矩阵之间最大相关性,使特征与特征之间相关性最大化,但CCA可能无法发掘两组随机变量之间的非线性关系,为了解决这个问题,在核方法的基础上可以将CCA扩展成核CCA(KCCA),通过两个非线性映射将数据集映射到高维空间中去,在高维空间中通过线性方式区分两者。对于多于两组变量的情况,则可以使用多类的核典型相关分析(MKCCA)方法。
本发明中涉及3组数据假设为:
其中,N为样本数,每个数据矩阵都已经经过了去均值处理,通过建立投影方向Ψ123,使得之间获得最强的相关性,下列的相关系数达到最大:
实际计算过程中通过假设分母上的乘积项为1来简化问题,在此条件下变成下列优化问题:
由此求解出和最大时的方向Ψ123。相关性计算模型如图2所示。通过拉格朗日方程来求解此优化问题,拉格朗日方程如下:
其中的ρ123是拉格朗日乘子。在这之后结合核方法,构建3个核矩阵。假设数据矩阵映射到高维空间后为
其中分别表示第一、二、三个数据矩阵的第N个样本数据从低维到高维的映射,构建核矩阵所需要的核函数定义在一个域上,这个域上定义了高维空间和相应的映射,具体的映射形式无需知道,我们所需的是核函数给出的高维空间中个样本间的内积,即核函数为具体的核函数有线性核函数,高斯核函数等,由线性核函数构建的核矩阵为:
K1=Φ1 TΦ1,K2=Φ2 TΦ2,K3=Φ3 TΦ3
核化之后投影方向与数据矩阵的关系变为α,β,γ是N*1的列向量,这样就将优化问题转换成求解α,β,γ。核化后,原本的优化式子就变成了下列形式:
加入正则化,上面的拉格朗日方程可以改写为:
其中的λ123为正则化参数,加入正则化来解决样本数远小于维数时计算不准确的问题。最后,求解拉格朗日方程可以转化成求解下面的广义特征值问题:
其中ρ是拉格朗日乘子,把训练数据输入MATLAB的fitcecoc函数进行分类器的训练时,可以调整拉格朗日乘子ρ使得分类器在测试中获得最佳的测试结果,这里假设
ρ=ρ1=ρ2=ρ3,I是单位矩阵。
找到α,β,γ之后,就能通过得到投影方向,进而此时得到最大相关情况下的融合过后的特征。
第五步:首先选取若干个样本作为训练集,将训练集样本融合后的特征和对应的标签放入MATLAB的fitcecoc函数进行支持向量机(SVM)的分类器训练,得到训练好的分类器。再选取若干样本作为测试集,将上述训练得到的分类器和测试机样本融合后的特征输入MATLAB的predict函数进行预测得到预测结果,将预测结果和实际标签比较得到测试结果。实验结果表明,本方法的识别率相较于单模态有较大提升,对比其他例如PCA融合等方法的识别率也有一定提升。实际应用时,直接将原始的表情图片输入训练好的系统后就可以得到识别的结果。

Claims (8)

1.一种基于多类核典型相关分析的多模态情感特征识别方法,其特征在于包括以下步骤:
(1)在包含多种模态数据的情感数据库中选取一定数量的样本;
(2)从上述样本数据中提取表情特征、语音特征和姿态特征,形成N*d1的表情特征数据矩阵、N*d2的语音特征数据矩阵和N*d3的姿态特征数据矩阵,其中N为样本个数,d1、d2、d3分别为每个样本的表情特征、语音特征和姿态特征的维度;
(3)将上述3个矩阵进行归一化和标准化处理,得到矩阵X1、X2、X3,矩阵X1、X2、X3中的数据都是归一的符合标准正态分布;
(4)使用多类核典型相关分析方法将多个模态的特征进行融合,得到融合后的特征;
(5)将融合后的特征放入支持向量机中进行情感识别。
2.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于:步骤(2)中提取表情特征的方法为,先使用matlab的AAM算法程序检测出样本中人脸区域并裁剪出来,再将所裁剪的人脸部分图片重新规划成统一的尺寸,使用密集sift特征算法,计算得到d1维的sift特征,得到N*d1的表情特征数据矩阵。
3.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于:步骤(2)中提取语音特征的方法为,使用工具opensmile中的emobase2010.conf特征集提取语音特征,用python对每段原始音频数据提取d2维的音频特征,得到N个文本格式的音频数据特征文件,之后使用matlab去除文件中的说明部分并进行格式的转换与所有数据的合并,得到N*d2的语音特征数据矩阵。
4.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于:步骤(2)中提取姿态特征的方法为,使用matlab的lbptop算法程序,提取数据库中的全身视频图片帧之间的关联信息,对于一帧的图像进行分块,使用lbotop算法程序计算每张图片的特征,得到N个d3的特征数组,再另外使用matlab程序将其按样本顺序合并,最终获得N*d3的姿态特征数据矩阵。
5.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于:步骤(3)中进行归一化和标准化处理的过程为:
(1)对所述3个矩阵进行归一化处理,即将每个样本的特征值都映射到区间[-1,1]中,最大值对应1,最小值对应-1;
(2)对特征值进行零均值标准化操作,即将每个样本的特征值减去该样本的均值后,除以该样本数据的标准差,得到的样本特征值遵循标准正态分布;
(3)对经上述标准化处理后的数据再进行归一化处理,得到归一化后的矩阵表情特征数据矩阵X1、语音特征数据矩阵X2和姿态特征数据矩阵X3
6.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于步骤(4)中融合的步骤是:
(1)建立投影方向Ψ123,使得之间获得最强的相关性,即使下列表达式的和最大:
求解出和最大时的投影方向Ψ123
(2)得到融合后的特征
7.根据权利要求6所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于求解投影方向的步骤是:
(1)将数据矩阵X1、X2、X3映射到高维空间为:
其中,分别表示数据矩阵X1、X2、X3的第N个样本数据从低维到高维的映射;
(2)确定线性核函数构建的核矩阵为:
K1=Φ1 TΦ1,K2=Φ2 TΦ2,K3=Φ3 TΦ3
(3)求解下列方程中的α、β、γ,α、β、γ均是N*1的列向量,
其中,λ1、λ2、λ3为正则化参数,ρ是拉格朗日乘子,I为单位矩阵;
(4)求出α、β、γ之后,通过表达式得到投影方向。
8.根据权利要求1所述的基于多类核典型相关分析的多模态情感特征识别方法,其特征在于步骤(5)中的情感识别方法为:将融合后的特征放入支持向量机,首先选取若干个样本作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练,训练完毕后将待识别个人的样本用MATLAB中的predict函数进行预测识别。
CN201910144997.0A 2019-02-27 2019-02-27 基于多类核典型相关分析的多模态情感特征识别方法 Withdrawn CN109815938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910144997.0A CN109815938A (zh) 2019-02-27 2019-02-27 基于多类核典型相关分析的多模态情感特征识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910144997.0A CN109815938A (zh) 2019-02-27 2019-02-27 基于多类核典型相关分析的多模态情感特征识别方法

Publications (1)

Publication Number Publication Date
CN109815938A true CN109815938A (zh) 2019-05-28

Family

ID=66607498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910144997.0A Withdrawn CN109815938A (zh) 2019-02-27 2019-02-27 基于多类核典型相关分析的多模态情感特征识别方法

Country Status (1)

Country Link
CN (1) CN109815938A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991470A (zh) * 2019-07-03 2020-04-10 北京市安全生产科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111680550A (zh) * 2020-04-28 2020-09-18 平安科技(深圳)有限公司 情感信息识别方法、装置、存储介质及计算机设备
CN111950592A (zh) * 2020-07-10 2020-11-17 南京邮电大学 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
CN112101401A (zh) * 2020-07-10 2020-12-18 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN112329633A (zh) * 2020-11-05 2021-02-05 南开大学 基于张量分解的情感识别方法、装置、介质及电子设备
CN115375934A (zh) * 2022-10-25 2022-11-22 北京鹰瞳科技发展股份有限公司 一种用于对进行聚类的模型进行训练的方法和相关产品
CN116682168A (zh) * 2023-08-04 2023-09-01 阳光学院 一种多模态表情识别方法、介质及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991470B (zh) * 2019-07-03 2022-04-15 北京市应急管理科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质
CN110991470A (zh) * 2019-07-03 2020-04-10 北京市安全生产科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111680550A (zh) * 2020-04-28 2020-09-18 平安科技(深圳)有限公司 情感信息识别方法、装置、存储介质及计算机设备
CN111680550B (zh) * 2020-04-28 2024-06-04 平安科技(深圳)有限公司 情感信息识别方法、装置、存储介质及计算机设备
CN111950592A (zh) * 2020-07-10 2020-11-17 南京邮电大学 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
CN112101401B (zh) * 2020-07-10 2022-08-26 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN111950592B (zh) * 2020-07-10 2022-09-23 南京邮电大学 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
CN112101401A (zh) * 2020-07-10 2020-12-18 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN112329633A (zh) * 2020-11-05 2021-02-05 南开大学 基于张量分解的情感识别方法、装置、介质及电子设备
CN115375934A (zh) * 2022-10-25 2022-11-22 北京鹰瞳科技发展股份有限公司 一种用于对进行聚类的模型进行训练的方法和相关产品
CN116682168A (zh) * 2023-08-04 2023-09-01 阳光学院 一种多模态表情识别方法、介质及系统
CN116682168B (zh) * 2023-08-04 2023-10-17 阳光学院 一种多模态表情识别方法、介质及系统

Similar Documents

Publication Publication Date Title
CN109815938A (zh) 基于多类核典型相关分析的多模态情感特征识别方法
Chen et al. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction
Wang et al. Kernel cross-modal factor analysis for information fusion with application to bimodal emotion recognition
Zheng et al. Student’s t-hidden Markov model for unsupervised learning using localized feature selection
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Kumar et al. Artificial Emotional Intelligence: Conventional and deep learning approach
Bahari Speaker age estimation using Hidden Markov Model weight supervectors
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
Fu et al. Multimodal shared features learning for emotion recognition by enhanced sparse local discriminative canonical correlation analysis
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Oya et al. Do we need sound for sound source localization?
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
CN106919884A (zh) 面部表情识别方法及装置
Abidin et al. Enhanced LBP texture features from time frequency representations for acoustic scene classification
Ding et al. Enhancing GMM speaker identification by incorporating SVM speaker verification for intelligent web-based speech applications
Coviello et al. The variational hierarchical EM algorithm for clustering hidden Markov models
Barbosa et al. Support vector machines, Mel-Frequency Cepstral Coefficients and the Discrete Cosine Transform applied on voice based biometric authentication
CN113762005A (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
Zheng et al. Audio-visual speaker identification with multi-view distance metric learning
Ukai et al. GIF-LR: GA-based informative feature for lipreading
CN117056506A (zh) 一种基于长序列文本数据的舆情情感分类方法
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
Xu et al. Emotion recognition research based on integration of facial expression and voice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190528

WW01 Invention patent application withdrawn after publication