CN111950592A - 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 - Google Patents

一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 Download PDF

Info

Publication number
CN111950592A
CN111950592A CN202010660340.2A CN202010660340A CN111950592A CN 111950592 A CN111950592 A CN 111950592A CN 202010660340 A CN202010660340 A CN 202010660340A CN 111950592 A CN111950592 A CN 111950592A
Authority
CN
China
Prior art keywords
feature
matrix
supervised
modal
correlation analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010660340.2A
Other languages
English (en)
Other versions
CN111950592B (zh
Inventor
闫静杰
朱康
宋宇康
吕方惠
顾晓娜
卢官明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010660340.2A priority Critical patent/CN111950592B/zh
Publication of CN111950592A publication Critical patent/CN111950592A/zh
Application granted granted Critical
Publication of CN111950592B publication Critical patent/CN111950592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。其步骤:提取各模态特征所需要的样本;提取表情模态、语音模态及姿态模态的特征,构成特征矩阵;对提取的各模态特征进行去均值、归一化处理;使用监督最小二乘多类核典型相关分析方法进行多模态特征的融合;进行模型训练得到预测评估结果。本发明针对多类别情感分析问题,将波兰多模态数据库中所有人的各类情感整理分成7类情绪,分别为恐惧、惊讶、愤怒、悲伤、高兴、厌恶及平静,提出基于监督最小二乘多类核典型相关分析的方法来融合多种模态的特征数据,使用此方法计算各模态特征之间的相关性,计算特征之间的关联,能够使计算机更准确的分别人类的各种情绪。

Description

一种基于监督最小二乘多类核典型相关分析的多模态情感特 征融合方法
技术领域
本发明涉及图像处理和模式识别领域,具体涉及一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。
背景技术
计算机技术经过了数十年的发展,人们早已不满足于仅仅通过一些指令来对计算机进行操作这一单向的行为,而是追求计算机能够趋向于理解人的情感,由此与人类进行双向的交互,在此需求上各国研究人员和技术人员做了许多研究和努力。
在人机交互方面,为了使计算机更好的与人进行互动,理解人的情绪十分重要,这使得计算机能够更具人们不同的感情状态做出很合理的回应。研究人员在这方面进行了相当数量的研究,运用一个模态或是两个模态的信息进行计算的方法有很多,例如主成分分析(PCA),典型相关分析(CCA),核典型相关分析(KCCA),稀疏典型相关分析(SCCA)等,近些年人们进一步使用可用的信息,将这些方法扩展到多模态上,产生了多类典型相关分析(MCCA),多类核典型相关分析(MKCCA),稀疏多类典型相关分析(SMCCA)等,这些方法运用了更多的情感信息,获得了相较双模态方法更好的效果。在这些方法的基础上,本发明提出的SLSMKCCA方法使用最小二乘法求解优化式,简便地通过最小化误差平方寻找最匹配的函数表达。充分利用已知类别数据的标签信息监督训练,使得训练过程更加准确高效,结果更加可信。同时将已有的数据通过核函数,以非线性映射到更高维的空间中以解决低维空间上部分数据之间线性不可分的问题,在之后的模型训练中更顺利地求解超平面。
发明内容
针对上述问题,本发明提供了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,本发明利用更多模态的信息同时更顺利地训练模型,为提升计算机识别人类情感的准确率提供一种新方法。
本发明的技术方案是:一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
进一步的,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
Figure BDA0002578281650000021
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
进一步的,在所述步骤(1.3)中,进行均值归一化处理的具体操作步骤如下:
1.3.1)、去均值;对于特征矩阵X中的第n个样本特征Xn=[xn1,xn2,L,xnN],计算其均值
Figure BDA0002578281650000022
和标准差
Figure BDA0002578281650000023
得到新的样本特征X%=(X-M)/s,M为由N个m组成的向量;
1.3.2)、归一化,将每个特征向量中的值映射到0:1之间;
最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵;对Y和Z作同样处理。
进一步的,在步骤(1.4)中,对训练用特征矩阵中的特征进行融合的具体操作过程如下:
在双模态融合过程中,将其扩展至多模态融合问题,其核心是求解下述优化式:
Figure BDA0002578281650000031
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)简化为下述的优化方程:
Figure BDA0002578281650000032
Figure BDA0002578281650000033
分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和
Figure BDA0002578281650000034
变换至更高维空间中,pφ,qψ,
Figure BDA0002578281650000035
分别对应映射之后三个模态特征矩阵的维数;
监督最小二乘多类核典型相关分析方法的优化式表示为下式:
Figure BDA0002578281650000036
其中,三个映射矩阵A,B,C表示为A=φ(X)D,B=ψ(Y)E,
Figure BDA0002578281650000041
D,E,G表示三个新的投影矩阵,此时式(3)改写成:
Figure BDA0002578281650000042
定义其中KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000043
则将上式表示为:
Figure BDA0002578281650000044
式(5)亦可改写为最小二乘形式:
Figure BDA0002578281650000045
式(5)与式(6)两者等价;
所述监督最小二乘多类核典型相关分析方法,其最小二乘形式优化式如下:
Figure BDA0002578281650000046
其中,J∈Rm×N表示X,Y,Z的标签矩阵,m表示其维度;引入A=φ(X)D,B=ψ(Y)E,
Figure BDA0002578281650000047
将式(7)改写成:
Figure BDA0002578281650000051
再定义KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000052
进一步将上式表示为:
Figure BDA0002578281650000053
之后上式重新写作:
Figure BDA0002578281650000054
后改写为:
Figure BDA0002578281650000055
此时分别对D,E,G,H求偏导,求得:
Figure BDA0002578281650000061
由上述推导,监督最小二乘多类核典型相关分析方法的迭代算法可以归纳
成下面的过程:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
1.计算:KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y):
Figure BDA0002578281650000062
2不断迭代下面四步直到收敛:
(1).H固定,更新D:
Figure BDA0002578281650000063
(2).H固定,更新E:
Figure BDA0002578281650000064
(3).H固定,更新G:
Figure BDA0002578281650000065
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
Figure BDA0002578281650000066
进一步的,通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵,矩阵乘步骤如下
Figure BDA0002578281650000067
将测试用特征矩阵输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
本发明的有益效果是:本发明基于计算多个模态信息特征向量之间的相关性,强化强相关,弱化弱相关,使得计算机能够更准确的分辨人类的情感变化;针对表情语音和姿态三个模态的数据,分别使用lbp算法提取表情特征,opensmile工具的emobase2010特征集提取语音的相应特征,以及部分kinect关节关键点的点云数据,经过特征融合;实验结果证明该方法相较过去一些方法,能够较为有效的提升情感的识别正确率。
附图说明
图1是本发明的结构流程图;
图2是本发明中波兰多模态数据库中的部分样本截图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图所述;一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
进一步的,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
Figure BDA0002578281650000081
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
进一步的,在所述步骤(1.3)中,进行均值归一化处理的具体操作步骤如下:
1.3.1)、去均值;对于特征矩阵X中的第n个样本特征Xn=[xn1,xn2,L,xnN],计算其均值
Figure BDA0002578281650000082
和标准差
Figure BDA0002578281650000083
得到新的样本特征X%=(X-M)/s,M为由N个m组成的向量;
1.3.2)、归一化,将每个特征向量中的值映射到0:1之间;
最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵;对Y和Z作同样处理。
进一步的,在步骤(1.4)中,监督最小二乘多类核典型相关分析方法对三个模态的训练用特征矩阵中的特征进行融合,具体过程如下(下列推导中的X,Y,Z均指代特征矩阵中分出来的训练部分):
在双模态融合过程中,典型相关分析方法(CCA)常用于计算两组数据之间的相关性,将其扩展到多模态融合问题上,提出了多类典型相关分析(MCCA),其核心是求解下述优化式:
Figure BDA0002578281650000091
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)可以简化为下述的优化方程::
Figure BDA0002578281650000092
基于线性的MCCA方法,多类核典型相关分析方法(MKCCA)引入了核的概念,设
Figure BDA0002578281650000093
分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和
Figure BDA0002578281650000094
变换至更高维空间中,pφ,qψ,
Figure BDA0002578281650000095
分别对应映射之后三个模态特征矩阵的维数;经过这样的处理,MKCCA的优化式可以表示为下式:
Figure BDA0002578281650000096
其中,三个映射矩阵A,B,C表示为A=φ(X)D,B=ψ(Y)E,
Figure BDA0002578281650000097
D,E,G表示三个新的投影矩阵,此时式(3)改写成:
Figure BDA0002578281650000101
定义其中KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000102
则将上式表示为:
Figure BDA0002578281650000103
与CCA方法一样,式(5)也可以通过假设分母为1来简化求解的优化式。
对于CCA方法,其优化式子就是式(1)的第一部分:
Figure BDA0002578281650000104
针对双模态(只能计算两个特征矩阵X,Y),这是它的传统形式。它还可以改写为最小二乘形式:
Figure BDA0002578281650000105
两者等价。
基于CCA方法的最小二乘形式,提出了监督最小二乘多类核典型相关分析(SLSMKCCA)方法,其最小二乘形式优化式如下:
Figure BDA0002578281650000111
其中,J∈Rm×N表示X,Y,Z的标签矩阵,m表示其维度;引入MKCCA中的变换A=φ(X)D,B=ψ(Y)E,
Figure BDA0002578281650000112
将式(7)改写成:
Figure BDA0002578281650000113
再定义KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000114
进一步将上式表示为:
Figure BDA0002578281650000115
之后上式重新写作:
Figure BDA0002578281650000116
后改写为:
Figure BDA0002578281650000121
此时分别对D,E,G,H求偏导,求得:
Figure BDA0002578281650000122
由上述推导,SLSMKCCA的迭代算法可以归纳成下面的过程:
SSLSMKCCA:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
1.计算:KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000123
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
Figure BDA0002578281650000124
(2).H固定,更新E:
Figure BDA0002578281650000125
(3).H固定,更新G:
Figure BDA0002578281650000126
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G.
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
Figure BDA0002578281650000131
进一步的,通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵,矩阵乘步骤如下
Figure BDA0002578281650000132
将测试用特征矩阵输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
本发明的基于监督最小二乘多类核典型相关分析的多模态情感识别方法的实现主要包含以下步骤:
第一步:处理波兰多模态数据库:数据库中包含13个人,每人7个视频,每个视频中包含一种情感的5次表达,由此我们可以得到总共455个有效样本,将其分成高兴、生气、悲伤、厌恶、惊讶、恐惧及平静七类,部分样本示例如附图2;
第二步:提取三种模态的特征:对于表情特征,使用opencv2中的VideoCapture将原始数据库中的视频文件转换成图片序列,使用dlib人脸识别库识别其中的人脸部分并用opencv2库中的resize将这部分统一规划成200×200的大小,使用matlab中的lbp算法提取这些人脸图片特征,得到3776×455的表情特征矩阵X;对于音频数据,使用格式转换软件将数据库中的视频转换为.wav格式的音频文件,之后使用opensmile工具中的emobase2010特征集,对每段原始音频数据提取其1582维的音频特征,得到1582×455的音频特征矩阵Y;对于姿态数据,使用原始数据库中给出的微软kinect设备提取的每个视频中每帧人体25个关节关键点的信息,每个点有6维的信息,每个样本取等间隔的10帧数据,得到1500×455的姿态特征矩阵Z;之后建立相对应每个样本的标签向量,并对其进行one-hot编码得到标签矩阵J;
第三步:对提取的数据进行预处理:对得到的特征矩阵进行去均值归一化处理:首先去均值:对于特征矩阵X中的第n个样本特征Xn=[xn1,xn2,L,xnN],计算其均值
Figure BDA0002578281650000141
和标准差
Figure BDA0002578281650000142
得到新的样本特征X%=(X-M)/s,M为由N个m组成的向量;之后归一化,使用matlab的mapminmax函数将每个特征向量中的值映射到0:1之间;最后将得到的特征矩阵分成训练和测试两部分;对Y和Z也是同样的处理;
第四步:将三种模态的数据分成训练数据Xtr,Ytr,Ztr和测试数据Xts,Yts,Zts,通过本发明提出的SLSMKCCA算法,由训练数据Xtr,Ytr,Ztr和标签矩阵J计算映射矩阵:
SSLSMKCCA:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
1.计算:KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure BDA0002578281650000143
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
Figure BDA0002578281650000144
(2).H固定,更新E:
Figure BDA0002578281650000145
(3).H固定,更新G:
Figure BDA0002578281650000146
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1
输出:D,E,G.
由此得到映射D,E,G,接着得到融合过后的训练数据
Figure BDA0002578281650000147
其中
Figure BDA0002578281650000148
同时得到融合后的测试数据
Figure BDA0002578281650000151
其中的
Figure BDA0002578281650000152
为经过核函数映射后的特征数据,
Figure BDA0002578281650000153
使用得到的矩阵TR和对应的标签输入到SVM分类器中进行模型的训练,得到合适的模型;将TS输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims (5)

1.一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
2.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
Figure FDA0002578281640000011
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
3.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,在所述步骤(1.3)中,进行均值归一化处理的具体操作步骤如下:
1.3.1)、去均值;对于特征矩阵X中的第n个样本特征Xn=[xn1,xn2,L,xnN],计算其均值
Figure FDA0002578281640000021
和标准差
Figure FDA0002578281640000022
得到新的样本特征X%=(X-M)/s,M为由N个m组成的向量;
1.3.2)、归一化,将每个特征向量中的值映射到0:1之间;
最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵;对Y和Z作同样处理。
4.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,在步骤(1.4)中,对训练用特征矩阵中的特征进行融合的具体操作过程如下:
在双模态融合过程中,将其扩展至多模态融合问题,其核心是求解下述优化式:
Figure FDA0002578281640000023
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)简化为下述的优化方程:
Figure FDA0002578281640000024
Figure FDA0002578281640000025
分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和
Figure FDA0002578281640000026
变换至更高维空间中,pφ,qψ,
Figure FDA0002578281640000027
分别对应映射之后三个模态特征矩阵的维数;
监督最小二乘多类核典型相关分析方法的优化式表示为下式:
Figure FDA0002578281640000031
其中,三个映射矩阵A,B,C表示为A=φ(X)D,B=ψ(Y)E,
Figure FDA0002578281640000032
D,E,G表示三个新的投影矩阵,此时式(3)改写成:
Figure FDA0002578281640000033
定义其中KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure FDA0002578281640000034
则将上式表示为:
Figure FDA0002578281640000035
式(5)亦可改写为最小二乘形式:
Figure FDA0002578281640000036
式(5)与式(6)两者等价;
所述监督最小二乘多类核典型相关分析方法,其最小二乘形式优化式如下:
Figure FDA0002578281640000041
其中,J∈Rm×N表示X,Y,Z的标签矩阵,m表示其维度;引入A=φ(X)D,B=ψ(Y)E,
Figure FDA0002578281640000042
将式(7)改写成:
Figure FDA0002578281640000043
再定义KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure FDA0002578281640000044
进一步将上式表示为:
Figure FDA0002578281640000045
之后上式重新写作:
Figure FDA0002578281640000046
后改写为:
Figure FDA0002578281640000051
此时分别对D,E,G,H求偏导,求得:
Figure FDA0002578281640000052
由上述推导,监督最小二乘多类核典型相关分析方法的迭代算法可以归纳成下面的过程:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
1.计算:KX=φ(X)Tφ(X),KY=ψ(Y)Tψ(Y),
Figure FDA0002578281640000053
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
Figure FDA0002578281640000054
(2).H固定,更新E:
Figure FDA0002578281640000055
(3).H固定,更新G:
Figure FDA0002578281640000056
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G.
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
Figure FDA0002578281640000061
5.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵,矩阵乘步骤如下
Figure FDA0002578281640000062
将测试用特征矩阵输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
CN202010660340.2A 2020-07-10 2020-07-10 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 Active CN111950592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010660340.2A CN111950592B (zh) 2020-07-10 2020-07-10 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010660340.2A CN111950592B (zh) 2020-07-10 2020-07-10 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法

Publications (2)

Publication Number Publication Date
CN111950592A true CN111950592A (zh) 2020-11-17
CN111950592B CN111950592B (zh) 2022-09-23

Family

ID=73340418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010660340.2A Active CN111950592B (zh) 2020-07-10 2020-07-10 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法

Country Status (1)

Country Link
CN (1) CN111950592B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905837A (zh) * 2022-11-17 2023-04-04 杭州电子科技大学 异常自动检测的半监督自适应标记回归脑电情感识别方法
CN117133277A (zh) * 2023-10-20 2023-11-28 中影年年(北京)文化传媒有限公司 用于人机交互的虚拟人物表情控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN109815938A (zh) * 2019-02-27 2019-05-28 南京邮电大学 基于多类核典型相关分析的多模态情感特征识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
CN109815938A (zh) * 2019-02-27 2019-05-28 南京邮电大学 基于多类核典型相关分析的多模态情感特征识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905837A (zh) * 2022-11-17 2023-04-04 杭州电子科技大学 异常自动检测的半监督自适应标记回归脑电情感识别方法
CN117133277A (zh) * 2023-10-20 2023-11-28 中影年年(北京)文化传媒有限公司 用于人机交互的虚拟人物表情控制方法及系统
CN117133277B (zh) * 2023-10-20 2024-01-05 中影年年(北京)文化传媒有限公司 用于人机交互的虚拟人物表情控制方法及系统

Also Published As

Publication number Publication date
CN111950592B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
JP7193252B2 (ja) 画像の領域のキャプション付加
CN110046656B (zh) 基于深度学习的多模态场景识别方法
Suryani et al. On the benefits of convolutional neural network combinations in offline handwriting recognition
US9489568B2 (en) Apparatus and method for video sensor-based human activity and facial expression modeling and recognition
Kim et al. Deep learning for robust feature generation in audiovisual emotion recognition
CN111931795B (zh) 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN110705490B (zh) 视觉情感识别方法
CN111950592B (zh) 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
CN106096642B (zh) 基于鉴别局部保持投影的多模态情感特征融合方法
CN111985525B (zh) 基于多模态信息融合处理的文本识别方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Avula et al. CNN based recognition of emotion and speech from gestures and facial expressions
CN118194238B (zh) 一种多语种多模态情感识别方法、系统及设备
Ahammad et al. Recognizing Bengali sign language gestures for digits in real time using convolutional neural network
Abiram et al. Identity preserving multi-pose facial expression recognition using fine tuned VGG on the latent space vector of generative adversarial network
Das et al. Emotion recognition from face dataset using deep neural nets
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN111695507B (zh) 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
Hossain et al. A novel approach to classify bangla sign digits using capsule network
Nagaral et al. Hybrid approach for facial expression recognition using HJDLBP and LBP histogram in video sequences
CN112560712B (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: 210023 No. 186 Software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant