CN111950592A - 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 - Google Patents
一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 Download PDFInfo
- Publication number
- CN111950592A CN111950592A CN202010660340.2A CN202010660340A CN111950592A CN 111950592 A CN111950592 A CN 111950592A CN 202010660340 A CN202010660340 A CN 202010660340A CN 111950592 A CN111950592 A CN 111950592A
- Authority
- CN
- China
- Prior art keywords
- feature
- matrix
- supervised
- modal
- correlation analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。其步骤:提取各模态特征所需要的样本;提取表情模态、语音模态及姿态模态的特征,构成特征矩阵;对提取的各模态特征进行去均值、归一化处理;使用监督最小二乘多类核典型相关分析方法进行多模态特征的融合;进行模型训练得到预测评估结果。本发明针对多类别情感分析问题,将波兰多模态数据库中所有人的各类情感整理分成7类情绪,分别为恐惧、惊讶、愤怒、悲伤、高兴、厌恶及平静,提出基于监督最小二乘多类核典型相关分析的方法来融合多种模态的特征数据,使用此方法计算各模态特征之间的相关性,计算特征之间的关联,能够使计算机更准确的分别人类的各种情绪。
Description
技术领域
本发明涉及图像处理和模式识别领域,具体涉及一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法。
背景技术
计算机技术经过了数十年的发展,人们早已不满足于仅仅通过一些指令来对计算机进行操作这一单向的行为,而是追求计算机能够趋向于理解人的情感,由此与人类进行双向的交互,在此需求上各国研究人员和技术人员做了许多研究和努力。
在人机交互方面,为了使计算机更好的与人进行互动,理解人的情绪十分重要,这使得计算机能够更具人们不同的感情状态做出很合理的回应。研究人员在这方面进行了相当数量的研究,运用一个模态或是两个模态的信息进行计算的方法有很多,例如主成分分析(PCA),典型相关分析(CCA),核典型相关分析(KCCA),稀疏典型相关分析(SCCA)等,近些年人们进一步使用可用的信息,将这些方法扩展到多模态上,产生了多类典型相关分析(MCCA),多类核典型相关分析(MKCCA),稀疏多类典型相关分析(SMCCA)等,这些方法运用了更多的情感信息,获得了相较双模态方法更好的效果。在这些方法的基础上,本发明提出的SLSMKCCA方法使用最小二乘法求解优化式,简便地通过最小化误差平方寻找最匹配的函数表达。充分利用已知类别数据的标签信息监督训练,使得训练过程更加准确高效,结果更加可信。同时将已有的数据通过核函数,以非线性映射到更高维的空间中以解决低维空间上部分数据之间线性不可分的问题,在之后的模型训练中更顺利地求解超平面。
发明内容
针对上述问题,本发明提供了一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,本发明利用更多模态的信息同时更顺利地训练模型,为提升计算机识别人类情感的准确率提供一种新方法。
本发明的技术方案是:一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
进一步的,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
进一步的,在所述步骤(1.3)中,进行均值归一化处理的具体操作步骤如下:
1.3.2)、归一化,将每个特征向量中的值映射到0:1之间;
最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵;对Y和Z作同样处理。
进一步的,在步骤(1.4)中,对训练用特征矩阵中的特征进行融合的具体操作过程如下:
在双模态融合过程中,将其扩展至多模态融合问题,其核心是求解下述优化式:
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)简化为下述的优化方程:
监督最小二乘多类核典型相关分析方法的优化式表示为下式:
式(5)亦可改写为最小二乘形式:
式(5)与式(6)两者等价;
所述监督最小二乘多类核典型相关分析方法,其最小二乘形式优化式如下:
之后上式重新写作:
后改写为:
此时分别对D,E,G,H求偏导,求得:
由上述推导,监督最小二乘多类核典型相关分析方法的迭代算法可以归纳
成下面的过程:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
2不断迭代下面四步直到收敛:
(1).H固定,更新D:
(2).H固定,更新E:
(3).H固定,更新G:
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
进一步的,通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵,矩阵乘步骤如下
将测试用特征矩阵输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
本发明的有益效果是:本发明基于计算多个模态信息特征向量之间的相关性,强化强相关,弱化弱相关,使得计算机能够更准确的分辨人类的情感变化;针对表情语音和姿态三个模态的数据,分别使用lbp算法提取表情特征,opensmile工具的emobase2010特征集提取语音的相应特征,以及部分kinect关节关键点的点云数据,经过特征融合;实验结果证明该方法相较过去一些方法,能够较为有效的提升情感的识别正确率。
附图说明
图1是本发明的结构流程图;
图2是本发明中波兰多模态数据库中的部分样本截图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图所述;一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
进一步的,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
进一步的,在所述步骤(1.3)中,进行均值归一化处理的具体操作步骤如下:
1.3.2)、归一化,将每个特征向量中的值映射到0:1之间;
最后将得到的特征矩阵分成训练用特征矩阵和测试用特征矩阵;对Y和Z作同样处理。
进一步的,在步骤(1.4)中,监督最小二乘多类核典型相关分析方法对三个模态的训练用特征矩阵中的特征进行融合,具体过程如下(下列推导中的X,Y,Z均指代特征矩阵中分出来的训练部分):
在双模态融合过程中,典型相关分析方法(CCA)常用于计算两组数据之间的相关性,将其扩展到多模态融合问题上,提出了多类典型相关分析(MCCA),其核心是求解下述优化式:
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)可以简化为下述的优化方程::
基于线性的MCCA方法,多类核典型相关分析方法(MKCCA)引入了核的概念,设分别表示表情语音核姿态模态特征矩阵X,Y,Z经过映射φ,ψ和变换至更高维空间中,pφ,qψ,分别对应映射之后三个模态特征矩阵的维数;经过这样的处理,MKCCA的优化式可以表示为下式:
与CCA方法一样,式(5)也可以通过假设分母为1来简化求解的优化式。
两者等价。
基于CCA方法的最小二乘形式,提出了监督最小二乘多类核典型相关分析(SLSMKCCA)方法,其最小二乘形式优化式如下:
之后上式重新写作:
后改写为:
此时分别对D,E,G,H求偏导,求得:
由上述推导,SLSMKCCA的迭代算法可以归纳成下面的过程:
SSLSMKCCA:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
(2).H固定,更新E:
(3).H固定,更新G:
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G.
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
进一步的,通过训练数据求得的映射矩阵和步骤(1.3)里分出来的测试数据进行矩阵乘得到测试用的特征矩阵,矩阵乘步骤如下
将测试用特征矩阵输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
本发明的基于监督最小二乘多类核典型相关分析的多模态情感识别方法的实现主要包含以下步骤:
第一步:处理波兰多模态数据库:数据库中包含13个人,每人7个视频,每个视频中包含一种情感的5次表达,由此我们可以得到总共455个有效样本,将其分成高兴、生气、悲伤、厌恶、惊讶、恐惧及平静七类,部分样本示例如附图2;
第二步:提取三种模态的特征:对于表情特征,使用opencv2中的VideoCapture将原始数据库中的视频文件转换成图片序列,使用dlib人脸识别库识别其中的人脸部分并用opencv2库中的resize将这部分统一规划成200×200的大小,使用matlab中的lbp算法提取这些人脸图片特征,得到3776×455的表情特征矩阵X;对于音频数据,使用格式转换软件将数据库中的视频转换为.wav格式的音频文件,之后使用opensmile工具中的emobase2010特征集,对每段原始音频数据提取其1582维的音频特征,得到1582×455的音频特征矩阵Y;对于姿态数据,使用原始数据库中给出的微软kinect设备提取的每个视频中每帧人体25个关节关键点的信息,每个点有6维的信息,每个样本取等间隔的10帧数据,得到1500×455的姿态特征矩阵Z;之后建立相对应每个样本的标签向量,并对其进行one-hot编码得到标签矩阵J;
第三步:对提取的数据进行预处理:对得到的特征矩阵进行去均值归一化处理:首先去均值:对于特征矩阵X中的第n个样本特征Xn=[xn1,xn2,L,xnN],计算其均值和标准差得到新的样本特征X%=(X-M)/s,M为由N个m组成的向量;之后归一化,使用matlab的mapminmax函数将每个特征向量中的值映射到0:1之间;最后将得到的特征矩阵分成训练和测试两部分;对Y和Z也是同样的处理;
第四步:将三种模态的数据分成训练数据Xtr,Ytr,Ztr和测试数据Xts,Yts,Zts,通过本发明提出的SLSMKCCA算法,由训练数据Xtr,Ytr,Ztr和标签矩阵J计算映射矩阵:
SSLSMKCCA:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
(2).H固定,更新E:
(3).H固定,更新G:
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1;
输出:D,E,G.
使用得到的矩阵TR和对应的标签输入到SVM分类器中进行模型的训练,得到合适的模型;将TS输入分类模型,得到测试的结果;在使用中将原始输入的各模态数据经过上述核化和与映射矩阵相乘,输入模型得到预测结果。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。
Claims (5)
1.一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,具体操作方法如下:
步骤(1.1)、建立一个包含多种模态特征数据的数据库,对数据库中的原始数据进行整理,得到提取各模态特征所需要的样本;
步骤(1.2)、先使用人脸检测库将各样本中的人脸截取出来,重新统一尺寸,构成表情模态的数据,接着使用格式转换的工具将原始数据库中储存的视频转换成音频文件,构成语音模态的数据,最后使用原始数据库中储存的点云数据,构成姿态模态的数据;提取上述三个模态的特征,构成特征矩阵;
步骤(1.3)、对三个模态的的特征矩阵的的每个样本进行均值归一化处理;将处理过的特征矩阵分为训练用特征矩阵和测试用特征矩阵;
步骤(1.4)、使用监督最小二乘多类核典型相关分析方法对训练用特征矩阵中的特征进行融合;
步骤(1.5)、将训练用特征矩阵及对应的标签输入至SVM分类器中进行模型的训练;
步骤(1.6)、使用测试用特征矩阵对训练用特征矩阵中训练的模型进行评估,从而得到预测结果。
2.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,所述步骤(1.2)中通过提取三个模态的特征,构成特征矩阵的具体操作方法如下:
1.2.1)、设各模态拥有N个样本,使用lbp特征算法提取人脸的纹理特征,得到d1×N的表情特征矩阵,其中,d1表示每个表情样本的lbp特征维度;
1.2.2)、使用特征集提取语音数据的特征信息,构成d2×N的语音特征矩阵,其中,d2表示每个语音样本的特征维度;
1.2.3)、在点云数据中,各样本按照时间长短取不等间隔的十帧的点云数据,将每帧的150维的数据串联起来,构成每个样本特征维度d3=1500的特征,所有样本构成d3×N的姿态特征矩阵;
所述三个特征矩阵具体如下:
其中,矩阵中的第i行第j列表示第j个样本的第i维的特征数据,最终得到三个模态的特征矩阵X,Y,Z。
4.根据权利要求1所述的一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法,其特征在于,在步骤(1.4)中,对训练用特征矩阵中的特征进行融合的具体操作过程如下:
在双模态融合过程中,将其扩展至多模态融合问题,其核心是求解下述优化式:
其中,X,Y,Z表示表情、语音和姿态模态特征矩阵的三组数据,A,B,C为X,Y,Z对应的映射矩阵,求解对应的映射矩阵;式(1)简化为下述的优化方程:
监督最小二乘多类核典型相关分析方法的优化式表示为下式:
式(5)亦可改写为最小二乘形式:
式(5)与式(6)两者等价;
所述监督最小二乘多类核典型相关分析方法,其最小二乘形式优化式如下:
之后上式重新写作:
后改写为:
此时分别对D,E,G,H求偏导,求得:
由上述推导,监督最小二乘多类核典型相关分析方法的迭代算法可以归纳成下面的过程:
输入:标签矩阵J∈Rm×N,三个特征矩阵X∈Rp×N,Y∈Rq×N,Z∈Rs×N
2.不断迭代下面四步直到收敛:
(1).H固定,更新D:
(2).H固定,更新E:
(3).H固定,更新G:
(4).D,E,G固定,更新H:
H=(JKXD+JKYE+JKZG)(DTKXKXD+ETKYKYE+GTKZKZG)-1; (13)
输出:D,E,G.
最终得到经过监督最小二乘多类核典型相关分析方法融合过后的表情语音和姿态三模态的特征:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660340.2A CN111950592B (zh) | 2020-07-10 | 2020-07-10 | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660340.2A CN111950592B (zh) | 2020-07-10 | 2020-07-10 | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950592A true CN111950592A (zh) | 2020-11-17 |
CN111950592B CN111950592B (zh) | 2022-09-23 |
Family
ID=73340418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660340.2A Active CN111950592B (zh) | 2020-07-10 | 2020-07-10 | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950592B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905837A (zh) * | 2022-11-17 | 2023-04-04 | 杭州电子科技大学 | 异常自动检测的半监督自适应标记回归脑电情感识别方法 |
CN117133277A (zh) * | 2023-10-20 | 2023-11-28 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN109815938A (zh) * | 2019-02-27 | 2019-05-28 | 南京邮电大学 | 基于多类核典型相关分析的多模态情感特征识别方法 |
-
2020
- 2020-07-10 CN CN202010660340.2A patent/CN111950592B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN109815938A (zh) * | 2019-02-27 | 2019-05-28 | 南京邮电大学 | 基于多类核典型相关分析的多模态情感特征识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905837A (zh) * | 2022-11-17 | 2023-04-04 | 杭州电子科技大学 | 异常自动检测的半监督自适应标记回归脑电情感识别方法 |
CN117133277A (zh) * | 2023-10-20 | 2023-11-28 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
CN117133277B (zh) * | 2023-10-20 | 2024-01-05 | 中影年年(北京)文化传媒有限公司 | 用于人机交互的虚拟人物表情控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111950592B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522818B (zh) | 一种表情识别的方法、装置、终端设备及存储介质 | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
Suryani et al. | On the benefits of convolutional neural network combinations in offline handwriting recognition | |
US9489568B2 (en) | Apparatus and method for video sensor-based human activity and facial expression modeling and recognition | |
Kim et al. | Deep learning for robust feature generation in audiovisual emotion recognition | |
CN111931795B (zh) | 基于子空间稀疏特征融合的多模态情感识别方法及系统 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN111950592B (zh) | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 | |
CN106096642B (zh) | 基于鉴别局部保持投影的多模态情感特征融合方法 | |
CN111985525B (zh) | 基于多模态信息融合处理的文本识别方法 | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
Avula et al. | CNN based recognition of emotion and speech from gestures and facial expressions | |
CN118194238B (zh) | 一种多语种多模态情感识别方法、系统及设备 | |
Ahammad et al. | Recognizing Bengali sign language gestures for digits in real time using convolutional neural network | |
Abiram et al. | Identity preserving multi-pose facial expression recognition using fine tuned VGG on the latent space vector of generative adversarial network | |
Das et al. | Emotion recognition from face dataset using deep neural nets | |
CN112541541B (zh) | 基于多元素分层深度融合的轻量级多模态情感分析方法 | |
CN111695507B (zh) | 一种基于改进VGGNet网络和PCA的静态手势识别方法 | |
CN113255752A (zh) | 基于特征聚类的固体材料一致性分选方法 | |
Hossain et al. | A novel approach to classify bangla sign digits using capsule network | |
Nagaral et al. | Hybrid approach for facial expression recognition using HJDLBP and LBP histogram in video sequences | |
CN112560712B (zh) | 基于时间增强图卷积网络的行为识别方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: 210023 No. 186 Software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |