CN109872728A - 基于核典型相关分析的语音和姿态双模态情感识别方法 - Google Patents

基于核典型相关分析的语音和姿态双模态情感识别方法 Download PDF

Info

Publication number
CN109872728A
CN109872728A CN201910145086.XA CN201910145086A CN109872728A CN 109872728 A CN109872728 A CN 109872728A CN 201910145086 A CN201910145086 A CN 201910145086A CN 109872728 A CN109872728 A CN 109872728A
Authority
CN
China
Prior art keywords
posture
matrix
feature
affective characteristics
emotion recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910145086.XA
Other languages
English (en)
Inventor
吕方惠
闫静杰
李海波
朱康
宋宇康
卢官明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910145086.XA priority Critical patent/CN109872728A/zh
Publication of CN109872728A publication Critical patent/CN109872728A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于核典型相关分析的语音和姿态双模态情感识别方法,该方法首先提取姿态的空时特征,并提取出视频中的音频文件,再对所提取的音频进行语音情感特征提取,然后对语音和姿态的情感特征分别进行归一化并降维,再进行基于核典型相关分析的情感特征融合,最后用支持向量机进行情感分类。本方法能够综合利用了语音和姿态之间的相关信息,采用特征融合等手段增强了单模态特征数据间的相关性,去除了其中的冗余信息,使计算机的情感识别能力得到提升,比单模态的情感识别有更高的识别率,并使用了情感特征归一化和特征降维方法,降低了特征的维度与特征识别过程中的计算复杂度,进一步提高了情感识别的识别率。

Description

基于核典型相关分析的语音和姿态双模态情感识别方法
技术领域
本发明涉及一种双模态情感识别方法,特别是涉及一种基于核典型相关分析的语音和姿态双模态情感识别方法。
背景技术
情感识别对于人类来说十分容易,人们可以通过视觉与听觉等对人类所产生的各种情绪进行判断,但是对于计算机来说,要想准确的识别出人类的情感却是十分困难的,它需要通过传感器来读入人们的情感信息,再对这些信息进行分析、加工与识别,这是一个庞大的工程。随着人工智能的迅速发展,越来越多的机器人被创造出来,用来帮助解决人类生活中所遇到的困难,而情感识别正是机器人所必须具备的功能,因为只有计算机具备了该功能,才能更加和谐与智能地与人进行情感交流,为人机交互的发展做出贡献。
早在上个世纪时,语音情感识别和姿态情感识别就已经受到众多学者和科研机构以及政府的重视,并且取得了一定的成就。现在,单模态的情感识别方法已经日趋成熟,但是仅仅依靠单模态信息对人类的情感进行分析与识别,往往是不够的,人们往往在做出动作的同时,还会用语言来表达自己的情感,此时,语音跟姿态都是对同种情绪的描述,二者相互联系、相互影响、相互补充,其表达出的信息也必定具有相关性,只要能够找到二者的相关性,然后再进行情感的理解与识别,一定比单模态的识别效果好。虽然双模态识别的识别效果要优于单模态的识别效果,但是其计算过程与计算量往往要比单模态的情感识别复杂许多,如何降低双模态识别过程中的运算复杂度并提高识别的效果是一个非常困难的事情。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于核典型相关分析的语音和姿态双模态情感识别方法,弥补现有单模态情感识别技术在识别人类情感方面所存在的不足,并且相较于典型相关分析方法,基于核典型相关分析的方法能解决非线性分类问题,进一步提高了情感识别的识别率,并降低了识别过程中的计算复杂度。
技术方案:本发明所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于包括以下步骤:
(1)对数据库中的视频提取出音频,然后对音频提取语音情感特征,并对视频直接提取姿态情感特征,提取出的语音情感特征矩阵与姿态情感特征矩阵分别为其中n为数据库中的视频样本总数,d1、d2分别为每个样本的语音情感特征维数和姿态情感特征维数;
(2)对所述的语音情感特征矩阵和姿态情感特征矩阵分别进行归一化处理,得到归一化后的语音情感特征矩阵和姿态情感特征矩阵分别为
(3)对所述的归一化后的语音情感特征矩阵和姿态情感特征矩阵进行主成分分析法降维处理,得到降维后的语音情感特征矩阵和姿态情感特征矩阵其中k1为降维后的语音数据维度,k2为降维后的姿态数据维度;
(4)使用核典型相关分析法,将降维后的语音情感特征矩阵和姿态情感特征矩阵进行特征融合,得到融合后的特征J;
(5)将特征J放入支持向量机进行情感识别。
进一步的,所述的步骤(2)中进行归一化处理的过程为:
(1)对样本中的行向量元素绝对值的平方进行求和,求和后再开方,得到该样本所有情感特征值的二范数;
(2)将该样本的每一个情感特征值除以上述求得的二范数,使数据归一到[-1,1];
(3)将所有样本的每一维特征都做上述的操作,得到归一化后的语音情感特征矩阵和姿态情感特征矩阵
进一步的,步骤(3)中所述的降维处理的过程为:
(1)将所述的语音情感特征矩阵和姿态情感特征矩阵进行转置,得到
(2)将上述转置矩阵进行零均值化,得到零均值化矩阵即:
其中vi的第n个样本的第i个向量,pi的第n个样本的第i个向量;
(3)求出零均值化矩阵的协方差矩阵C1和C2,即:
(4)求出协方差矩阵C1和C2的特征值和特征向量,并将特征向量按照特征值的大小顺序依次排列得到矩阵
(5)取矩阵的前k1行和k2行,再进行转置,即可得降维后的语音情感特征矩阵和姿态情感特征矩阵为
进一步的,步骤(4)中特征融合的过程为:
(1)将所述的矩阵进行转置,得到经过非线性映射分别映射到高维空间变为A和B;
(2)确定核函数Kx和Ky,即:
Kx=<A,A>=ATA
Ky=<B,B>=BTB;
(3)构造投影矩阵D和E,使A和B分别经过投影矩阵D和E,投影成H和I,使投影后的H和I具有最大的相关性,即:
H=DTA,I=ETB;
(4)得到融合后的特征J,即
进一步的,
D=AF,E=BG,
其中,F和G是另外两个矩阵,F=Kxv1,G=Kyv2,其中,v1是Kx 4v1=λ2v1的一组标准正交解向量,v2是Ky 4v2=λ2v2的一组标准正交解向量,λ为拉格朗日乘子,从而得到投影矩阵D和E。
进一步的,步骤(5)中放入支持向量机的过程为:将融合好的特征J放入支持向量机,首先选取若干个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练,训练完毕后将待识别个人的特征用MATLAB中的predict函数进行预测识别。
有益效果:本方法能够综合利用了语音和姿态之间的相关信息,采用特征融合等手段增强了单模态特征数据间的相关性,去除了其中的冗余信息,使计算机的情感识别能力得到提升,比单模态的情感识别有更高的识别率。实验证明,经过基于核典型相关分析方法的特征融合后的双模态情感识别的识别率相对于单模态情感识别的识别率以及基于典型相关分析方法的特征融合的识别率有很大提升,说明基于核典型相关分析方法的特征融合增强了单模态特征数据间的相关性,去除了其中的冗余信息,并对典型相关分析方法不能处理非线性分类的问题进行了解决,使计算机的情感识别能力得到明显提升。具体优点如下:
(1)本发明综合利用了语音和姿态之间的相关信息,比单模态的情感识别有更高的识别率;
(2)本发明将数据映射到高维空间再进行分类,解决了典型相关分析方法不能处理非线性数据的问题;
(3)本发明使用了情感特征归一化和特征降维方法,降低了特征的维度与特征识别过程中的计算复杂度,并进一步提高了情感识别的识别率。
附图说明
图1是本方法的整体流程图;
图2是双模态情感数据库中的部分图像。
具体实施方式
如图1所示,本方法的具体步骤如下:
步骤一:获取GEMEP数据库。该数据库中有145个视频,共包含17种情绪,人工将17种情绪分为七大类:高兴、悲伤、惊讶、生气、厌恶、恐惧和平静。并将视频按人进行分组。数据库中的部分图像如图2所示。
步骤二:对数据库中的每个样本进行语音情感特征和姿态情感特征的提取
(1)提取语音情感特征:先从视频文件中提取出音频文件,然后利用opensmile工具的配置文件config/emobase2010.conf提取出1582维的语音情感特征。
(2)提取姿态特征:通过设置空间尺度和时间尺度,得到cuboid立方体的大小,对每个cuboid进行描述,然后计算其中像素点三个通道的梯度得到姿态的空时特征。
步骤三:对单模态特征进行预处理,包括特征归一化与特征降维。
(1)对提取出来的语音情感特征和姿态情感特征分别进行归一化处理,以语音情感特征为例,具体的归一化步骤如下:
求一个样本的所有情感特征值的二范数,即行向量元素绝对值的平方和再开方,具体的计算公式如下:
然后用该样本的每一个情感特征值除以所求得的二范数,使数据归一到[-1,1],再将n个样本的每一维特征都做如上的操作,将语音情感特征全部归一到[-1,1]。对姿态情感特征矩阵做相同的操作,最终得到归一化后的语音情感特征矩阵和姿态情感特征矩阵分别为
(2)对归一化后的语音情感特征和姿态情感特征分别进行主成分分析法(pca)降维处理,找到情感特征中最有价值的成分,将冗余成分去除,以达到降低数据处理量的目的,同样以语音情感特征为例,具体步骤如下:
先将语音特征矩阵进行转置得到
再将转置矩阵进行零均值化,即
并求出零均值化矩阵的协方差矩阵,即
最后求出协方差矩阵的特征值和特征向量,并将特征向量按照特征值的大小顺序依次排列得到矩阵的前k1行,再进行转置,即可得降维后的语音情感特征矩阵其中k1为降维后的语音数据维度。同理可得降维后的姿态情感特征矩阵为其中k2为降维后的姿态数据维度。
步骤四:将语音情感特征和姿态情感特征进行特征融合,本文所用的融合方法为核典型相关分析法(KCCA),其主要思想是将典型相关分析(CCA)所不能解决的数据的非线性关系映射到高维空间,然后在高维空间利用CCA方法进行求解,具体步骤如下:
(1)为表示方便,令将低维空间的X和Y经过非线性映射分别映射到高维空间变为A和B,然后分别经过投影矩阵D和E,投影成H和I,则有
H=DTA,I=ETB,
我们需要寻找合适的投影矩阵D和E,使投影后的H和I具有最大的相关性。
(2)由核函数的定义,可知
Kx=<A,A>=ATA
Ky=<B,B>=BTB
投影矩阵可以表示为
D=AF,E=BG
其中F和G是另外两个矩阵,分别对应于投影矩阵D和E。
则求合适的投影矩阵D和E的任务可以转化为求解下述公式:
为了便于求解,我们可以将其转化为下式:
此时,可以通过构造拉格朗日函数对上式进行求解,其中λ1、λ2为拉格朗日乘子,
(3)令L对F和G分别求偏导并令偏导数为0,即
从而得λ1=λ2,若Kx,Ky均可逆,则有最后可得到广义特征值问题
IF=λ2F,IG=λ2G
由此可求出F=Kxv1和G=Kyv2,其中v1是Kx 4v1=λ2v1的一组标准正交解向量,v2是Ky 4v2=λ2v2的一组标准正交解向量,从而可以解得投影矩阵D和E,且融合后的特征J可以表示为
步骤五:将融合好的特征J放入支持向量机,每次选取9个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练,将剩下一个人的特征作为测试集用MATLAB中的predict函数进行预测,并与测试集标签对比,得出该人的情感识别率,循环十次取平均即得到平均识别率。实验证明,本方法能够有效弥补单模态情感识别的不足之处,找到语音跟姿态之间的相关性,并且能使“高兴”、“厌恶”、“生气”、“吃惊”、“害怕”、“悲伤”以及“平静”七类表情的分类识别达到更好的效果,本方法的识别率相对于单模态情感识别的识别率有很大提升。实际应用时,直接将原始的情感数据输入训练好的系统后就可以得到识别的结果。

Claims (6)

1.一种基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于包括以下步骤:
(1)对数据库中的视频提取出音频,然后对音频提取语音情感特征,并对视频直接提取姿态情感特征,提取出的语音情感特征矩阵与姿态情感特征矩阵分别为其中n为数据库中的视频样本总数,d1、d2分别为每个样本的语音情感特征维数和姿态情感特征维数;
(2)对所述的语音情感特征矩阵和姿态情感特征矩阵分别进行归一化处理,得到归一化后的语音情感特征矩阵和姿态情感特征矩阵分别为
(3)对所述的归一化后的语音情感特征矩阵和姿态情感特征矩阵进行主成分分析法降维处理,得到降维后的语音情感特征矩阵和姿态情感特征矩阵其中k1为降维后的语音数据维度,k2为降维后的姿态数据维度;
(4)使用核典型相关分析法,将降维后的语音情感特征矩阵和姿态情感特征矩阵进行特征融合,得到融合后的特征J;
(5)将特征J放入支持向量机进行情感识别。
2.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于所述的步骤(2)中进行归一化处理的过程为:
(1)对样本中的行向量元素绝对值的平方进行求和,求和后再开方,得到该样本所有情感特征值的二范数;
(2)将该样本的每一个情感特征值除以上述求得的二范数,使数据归一到[-1,1];
(3)将所有样本的每一维特征都做上述的操作,得到归一化后的语音情感特征矩阵和姿态情感特征矩阵
3.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于步骤(3)中所述的降维处理的过程为:
(1)将所述的语音情感特征矩阵和姿态情感特征矩阵进行转置,得到
(2)将上述转置矩阵进行零均值化,得到零均值化矩阵即:
其中vi的第n个样本的第i个向量,pi的第n个样本的第i个向量;
(3)求出零均值化矩阵的协方差矩阵C1和C2,即:
(4)求出协方差矩阵C1和C2的特征值和特征向量,并将特征向量按照特征值的大小顺序依次排列得到矩阵
(5)取矩阵的前k1行和k2行,再进行转置,即可得降维后的语音情感特征矩阵和姿态情感特征矩阵为
4.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于步骤(4)中特征融合的过程为:
(1)将所述的矩阵进行转置,得到经过非线性映射分别映射到高维空间变为A和B;
(2)确定核函数Kx和Ky,即:
(3)构造投影矩阵D和E,使A和B分别经过投影矩阵D和E,投影成H和I,使投影后的H和I具有最大的相关性,即:
H=DTA,I=ETB;
(4)得到融合后的特征J,即
5.根据权利要求4所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于:
D=AF,E=BG,
其中,F和G是另外两个矩阵,F=Kxv1,G=Kyv2,其中,v1是Kx 4v1=λ2v1的一组标准正交解向量,v2是Ky 4v2=λ2v2的一组标准正交解向量,λ为拉格朗日乘子,从而得到投影矩阵D和E。
6.根据权利要求1所述的基于核典型相关分析的语音和姿态双模态情感识别方法,其特征在于步骤(5)中放入支持向量机的过程为:将融合好的特征J放入支持向量机,首先选取若干个人的特征作为训练集并用MATLAB中的fitcecoc函数进行分类器的训练,训练完毕后将待识别个人的特征用MATLAB中的predict函数进行预测识别。
CN201910145086.XA 2019-02-27 2019-02-27 基于核典型相关分析的语音和姿态双模态情感识别方法 Pending CN109872728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910145086.XA CN109872728A (zh) 2019-02-27 2019-02-27 基于核典型相关分析的语音和姿态双模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910145086.XA CN109872728A (zh) 2019-02-27 2019-02-27 基于核典型相关分析的语音和姿态双模态情感识别方法

Publications (1)

Publication Number Publication Date
CN109872728A true CN109872728A (zh) 2019-06-11

Family

ID=66919413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910145086.XA Pending CN109872728A (zh) 2019-02-27 2019-02-27 基于核典型相关分析的语音和姿态双模态情感识别方法

Country Status (1)

Country Link
CN (1) CN109872728A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261172A (zh) * 2020-01-21 2020-06-09 北京爱数智慧科技有限公司 一种声纹识别方法和装置
CN112101401A (zh) * 2020-07-10 2020-12-18 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置
CN113327589A (zh) * 2021-06-10 2021-08-31 杭州芯声智能科技有限公司 一种基于姿态传感器的语音活动检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
US20140052441A1 (en) * 2011-04-26 2014-02-20 Nec Casio Mobile Communications, Ltd. Input auxiliary apparatus, input auxiliary method, and program
CN106096641A (zh) * 2016-06-07 2016-11-09 南京邮电大学 一种基于遗传算法的多模态情感特征融合方法
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052441A1 (en) * 2011-04-26 2014-02-20 Nec Casio Mobile Communications, Ltd. Input auxiliary apparatus, input auxiliary method, and program
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
CN106096641A (zh) * 2016-06-07 2016-11-09 南京邮电大学 一种基于遗传算法的多模态情感特征融合方法
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOHUA HUANG ET AL.: "Multi-modal emotion analysis from facial expressions and electroencephalogram", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 *
刘付民等: "D2_核典型相关分析算法的多特征融合情感识别", 《计算机工程与应用》 *
郭帅杰: "基于语音、表情与姿态的多模态情感识别算法实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
魏斌等: "《人工情感原理及其应用》", 31 January 2017, 华中科技大学出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261172A (zh) * 2020-01-21 2020-06-09 北京爱数智慧科技有限公司 一种声纹识别方法和装置
CN111261172B (zh) * 2020-01-21 2023-02-10 北京爱数智慧科技有限公司 一种声纹识别方法和装置
CN112101401A (zh) * 2020-07-10 2020-12-18 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN112101401B (zh) * 2020-07-10 2022-08-26 南京邮电大学 一种基于稀疏监督最小二乘多类核典型相关分析的多模态情感识别方法
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置
CN112820071B (zh) * 2021-02-25 2023-05-05 泰康保险集团股份有限公司 一种行为识别方法和装置
CN113327589A (zh) * 2021-06-10 2021-08-31 杭州芯声智能科技有限公司 一种基于姿态传感器的语音活动检测方法

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN109872728A (zh) 基于核典型相关分析的语音和姿态双模态情感识别方法
Lai et al. Form design of product image using grey relational analysis and neural network models
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
Senthilkumar et al. Speech emotion recognition based on Bi-directional LSTM architecture and deep belief networks
Huang et al. End-to-end continuous emotion recognition from video using 3D ConvLSTM networks
CN105956150A (zh) 一种生成用户发型及妆容搭配建议的方法及装置
CN110705490B (zh) 视觉情感识别方法
CN114038037B (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
Singh et al. Multichannel CNN model for biomedical entity reorganization
Zou et al. Utilizing bert intermediate layers for multimodal sentiment analysis
CN114781441A (zh) Eeg运动想象分类方法及多空间卷积神经网络模型
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
Bouali et al. Cross-modal learning for audio-visual emotion recognition in acted speech
CN110210562B (zh) 基于深度网络和稀疏Fisher矢量的图像分类方法
Altaei Detection of Deep Fake in Face Images Using Deep Learning
Wang et al. Lightweight bilateral network for real-time semantic segmentation
CN111222854A (zh) 基于面试机器人的面试方法、装置、设备及存储介质
Guo Intelligent sports video classification based on deep neural network (DNN) algorithm and transfer learning
Jadhav et al. Content based facial emotion recognition model using machine learning algorithm
Chang et al. A genre-affect relationship network with task-specific uncertainty weighting for recognizing induced emotion in music
CN114443956A (zh) 内容推荐方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190611