CN111401268A

CN111401268A - 一种面向开放环境的多模态情感识别方法及装置

Info

Publication number: CN111401268A
Application number: CN202010196113.9A
Authority: CN
Inventors: 房建东; 崔明明
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-10
Anticipated expiration: 2040-03-19
Also published as: CN111401268B

Abstract

本发明实施例提供一种面向开放环境的多模态情感识别方法及装置，其中，所述方法包括，获取目标对象的人脸表情序列；基于所述人脸表情序列得到第一置信结果；获取目标对象的语谱图序列，基于所述语谱图序列得到第二置信结果；获取目标对象的姿态序列，基于所述姿态序列得到第三置信结果；将第一置信结果、第二置信结果和第三置信结果进行融合，得到第四置信结果；基于所述第四置信结果识别出所述目标对象的情感。本发明提供的方法结合大脑在进行情感识别时主要有三个特性：时序性、变化性、多模态，并且结合单图像信息和序列关联信息进行情感判别，使得即使是在开放环境中，准确性和鲁棒性都有所增加。

Description

一种面向开放环境的多模态情感识别方法及装置

技术领域

本发明属于人工智能领域，具体涉及一种面向开放环境的多模态情感识别方法及装置。

背景技术

随着智能机器和人工智能的发展，计算机情感分析已越来越重要，其研究目的是让机器感知人类的情感状态。情感信息交流的感知手段在教学认知状态分析、患者情绪状态分析、公共区域危险预警、盲人视觉感知等领域有广泛应用潜力。因此，作为智能交互、情感计算的关键技术，近年来情感识别成为人工智能研究重点。

目前国内外对情感识别的研究已经取得了很大的进展，但很多的工作都是集中在实验室理想环境下单模态静态识别算法,如分别通过语音、姿态、表情单模态识别情感，将这些方法与技术应用于各类复杂的自然场景时仍然面临诸多问題，如识别性能不尽如人意，识别结果鲁棒性得不到保证。

当前国内外研究者多从特征提取和分类器设计方面进行探索与研究，并提出基于全局特征、局部特征、梯度特征、模板特征等方法，2013年，Wang等人融合HOG(Histogram OfOriented Gradient，方向梯度直方图)特征和WLD(Weber’s Local Descriptor，韦伯局部描述)特征进行面部信息表示，最终在JAFFE和Cohn-Kanade表情库上分别取得70％、75％的识别精度；2013年，Kandemir等人采用Haar(Haar-like，哈尔，是一种组合特征，包括边缘特征、线性特征、中心特征和对角线特征)特征描述面部纹理信息，利用AdaBoost(AdaptiveBoosting，自适应提升算法)进行关键部位筛选，结合几何结构信息进行综合判断，在FEEDTUM表情库上几种表情分别取得60～70％的识别率；Gehrig等人提出了自然条件下的表情分析，利用Gabor特征(Gabor特征定义，主要依靠Gabor核对信号频域进行加窗，从而可以对信号的局部频率信息进行描述)和SVM(Support Vector Machine，支持向量机)分类器对EmotiW2013数据库进行识别，识别率达到29.81％；Mcduff等人利用互联网收集人脸表情视频和图像，构建自然条件下表情数据库，并进行了基于大数据样本的AU单元(ActionUnit，基本形变单元)分析。

但上述几种方案的缺点是：现有浅层特征提取模型虽然有效解决了图像维度灾难问题，但同时导致了有效鉴别特征信息的大量丢失，从而制约了识别精度，算法提升效果有限；应用于场景复杂时，人脸，姿态图像易受角度、姿态、光照、遮挡、多尺度等因素影响，引起算法识别结果波动很大，鲁棒性不高；现有的静态图像算法应用到自然场景中，缺乏对动态序列信息的有效利用，导致算法鲁棒性差；动态表情识别模型较少，且算法复杂，假设条件较多，应用效果有待改善。

目前多模态特征融合策略主要有特征层融合和决策层融合两种，2014年，SarkarC把情感声学特征和人脸表情特征信息提取出来，然后将这些特征串联成一个总的特征向量用于情感识别。2005年，Lee C M对语音和面部表情分别提取特征，并将其送入各自的分类器中，在决策层依据线性加权规则将各个分离器的结果进行融合决策。

但上述两种方案的缺点是：单模态特征信息量不足且容易受到外界各种因素的影响，常用多模态特征层融合算法,该融合方法利用不同模态相互之间的联系，但没有考虑到各情感特征的差异性，同时该融合策略很难表示不同模态之间的时间同步性；且随着融合模态的增多，会使得学习多种模态特征之间的相关性变得更加困难。常用多模态决策层基于规则的融合法(如线性加权融合、多数同意规则等)，易受到离群值的影响，造成情感识别鲁棒性差，识别率低等缺陷。

发明内容

本发明提供了一种面向开放环境的多模态情感识别方法及装置。

为了解决上述技术问题，本发明实施例提供了如下的技术方案：

本发明第一方面提供一种面向开放环境的多模态情感识别方法，所述方法包括，

获取目标对象的人脸表情序列；基于所述人脸表情序列得到第一置信结果；

获取目标对象的语谱图序列，基于所述语谱图序列得到第二置信结果；

获取目标对象的姿态序列，基于所述姿态序列得到第三置信结果；

将第一置信结果、第二置信结果和第三置信结果进行融合，得到第四置信结果；

基于所述第四置信结果识别出所述目标对象的情感；

其中，所述人脸表情序列、语谱图序列和姿态序列同在第一时间段内获取得到。

作为优选，所述基于所述人脸表情序列得到第一置信结果，包括，

使用第一算法提取所述人脸表情序列的特征，得到第一序列；

使用第二算法提取所述第一序列的特征，得到第二序列；

将第二序列中的最后一个元素送入分类器中进行分类，得到关于情感的第一置信结果。

作为优选，所述基于所述语谱图序列得到第二置信结果，包括，

使用第一算法提取所述语谱图序列的特征，得到第三序列；

使用第二算法提取所述第三序列的特征，得到第四序列；

将第四序列中的最后一个元素送入分类器中进行分类，得到关于情感的第二置信结果。

作为优选，所述基于所述姿态序列得到第三置信结果，包括，

基于所述姿态序列中的一张姿态图像得到简化线图像；

使用第一算法提取所述简化线图像的特征，得到第一特征；

将第一特征送入分类器中进行分类，得到关于情感的第三置信结果。

基于所述姿态序列得到简化线图序列；

使用第一算法提取所述简化线图序列的特征，得到第五序列；

使用第二算法提取所述第五序列的特征，得到第六序列；

将第六序列中的最后一个元素送入分类器中进行分类，得到关于情感的第三置信结果。

作为优选，所述获取目标对象的人脸表情序列，包括，

从视频文件中读取若干帧人脸表情图像；

所述若干帧人脸表情图像形成所述人脸表情序列。

作为优选，所述获取目标对象的语谱图序列，包括，

对音频文件进行加窗分帧，形成若干帧子音频文件；

基于所述若干帧子音频文件生成若干张语谱图；

所述若干张语谱图形成所述语谱图序列。

作为优选，所述获取目标对象的姿态序列，包括，

从视频文件中读取若干帧姿态图像；

所述若干帧姿态图像形成所述姿态序列。

作为优选，所述将第一置信结果、第二置信结果和第三置信结果进行融合，包括，

在决策层使用D-S证据理论融合方法将第一置信结果、第二置信结果和第三置信结果进行融合。

本发明第二方面提供一种面向开放环境的多模态情感识别装置，所述装置至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器执行如下步骤：

基于所述第四置信结果识别出所述目标对象的情感；

基于上述实施例的公开可以获知，本发明实施例具备如下的有益效果：

针对现有静态情感识别算法缺乏对序列信息有效利用，在开放条件下应用鲁棒性差的问题，本发明提供一种面向开放环境的多模态情感识别方法，本发明提供的方法结合大脑在进行情感识别时主要有三个特性：时序性、变化性、多模态，从这三个特性着手，以智能看护机器人为应用背景，研究构建基于开放环境条件下多模态情感嵌入式识别系统，并且结合单图像信息和序列关联信息进行情感判别，使得即使是在开放环境中，准确性和鲁棒性都有所增加。

附图说明

图1为本发明实施例提供的一种面向开放环境的多模态情感识别方法的流程示意图；

图2为本发明实施例提供的一种面向开放环境的多模态情感识别装置的结构示意图；

其中，01-面向开放环境的多模态情感识别装置，001-存储器，002-处理器。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本发明实施例，

如图1所示，本发明第一个实施例提供一种面向开放环境的多模态情感识别方法，所述方法包括，

基于所述第四置信结果识别出所述目标对象的情感；

在本实施例中，在开放环境中采集人的多种模态，所述多种模态包括人脸表情、语音和姿态，利用情感时间序列信息的关联性，及不同模态信息互补性进行情感识别，例如，人的情感可以包括愤怒、伤心、平静、惊讶、高兴和恐惧等六种表情，通过最终的情感识别结果(第四置信结果)就可以判断出目标对象属于上述六种表情中的具体哪一种表情。具体地，人脸表情序列例如可以从视频中获得，是从视频中基于时间顺序获得的多张图像，基于所述人脸表情序列得到第一置信结果；其中，所述第一置信结果为上述六种表情出现的概率，例如，愤怒20％，伤心20％，平静10％，惊讶5％，高兴40％，恐惧5％；语谱图序列可以从音频文件中获得，基于所述语谱图序列得到第二置信结果；其中，所述第二置信结果为上述六种表情出现的概率，例如，愤怒10％，伤心10％，平静20％，惊讶20％，高兴40％，恐惧0％；姿态序列可以从视频中获得，是从视频中基于时间顺序获得的多张图像，基于所述姿态序列得到第三置信结果；其中，所述第三置信结果为上述六种表情出现的概率，例如，愤怒0％，伤心20％，平静20％，惊讶5％，高兴50％，恐惧5％。将第一置信结果、第二置信结果和第三置信结果进行融合，得到第四置信结果；其中，所述第四置信结果为上述六种表情出现的概率，例如，愤怒10％，伤心10％，平静30％，惊讶5％，高兴40％，恐惧5％；基于所述第四置信结果识别出所述目标对象的情感，继续上面的实施例，通过查看第四置信结果，可知高兴的情感的概率相比于其他情感的概率高，因此，可以得到该目标对象的情感为高兴。其中，所述人脸表情序列、语谱图序列和姿态序列同在第一时间段内获取得到，以保证不同模态信息是在同一时间段内进行互补，即保证得到的情感结果是同一目标对象在第一时间段内的情感。

在本发明提供的一个实施例中，所述基于所述人脸表情序列得到第一置信结果，包括，

使用第二算法提取所述第一序列的特征，得到第二序列；

在本实施例中，所述第一算法为CNN，第二算法为LSTM，分类器为Softmax。所述人脸表情序列例如可以为从视频中提取的按照时间顺序排列的10帧图像，使用第一算法从上述每一帧图像中提取特征，形成第一序列；其中，第一序列中包括10个元素；然后使用第二算法从第一序列中的每个元素中提取特征，形成第二序列；其中，所述第二序列包括10个元素。由于第二算法LSTM能处理长序列的数据，并且能够从输入序列中获取时间上的关联性，也就是说，第二序列中位置靠后的元素关联了位置靠前元素的特征，即第二序列中的最后一个元素关联了前面所有元素的特征，因此，只需要将第二序列中的最后一个元素送入分类器中进行分类即可，这样不仅减少了分类器的运算量，而且增加了结果的可信度。

本实施例中，对于人脸表情序列采用基于CNN+LSTM+Softmax的动态情感识别方法。采用LSTM的动态情感识别方法，能够充分利用时域上的特征信息，从而能够更好地识别序列数据，利用LSTM进行图像序列的循环采集，学习和记忆序列关联信息，结合单图像信息和序列关联信息进行情感判别，以增强情感识别在开放环境下的准确性、鲁棒性。

在一个具体实施例中，对于人脸表情序列识别算法的具体实验条件为：Caffe深度学习框架，训练硬件平台是:Intel(R)Core(TM)i7-5820K CPU、主频3.3GHZ、内存64GB，Nvida GeForce GPU显存12GB，移植嵌入式开发板华为Atlas 200DK嵌入式开放板。

该实验的前期训练数据(所述训练数据主要是对CNN+LSTM+Softmax进行训练)来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。后期结合算法应用背景开放环境下室内摄像头采集人脸图像数据，测试数据来源Atlas 200DK嵌入式开放板摄像头实时采集开放环境下图像。

本实验采用5折交叉验证的方法，选取3000个表情序列等分成6份，每个序列的图片有10张，每份均包含6类表情。每一批次为1个序列，冲量为0.85,学习速率为0.01。

在另一个实施例中，在使用第一算法提取所述人脸表情序列的特征之前，还包括，对所述人脸表情序列进行预处理，即对所述人脸表情序列中包括的每一张人脸表情图像进行预处理，所述预处理例如为对人脸表情图像进行降维和/或调整尺寸。

在本发明提供的另一个实施例中，所述基于所述语谱图序列得到第二置信结果，包括，

使用第一算法提取所述语谱图序列的特征，得到第三序列；

使用第二算法提取所述第三序列的特征，得到第四序列；

在本实施例中，所述第一算法为CNN，第二算法为LSTM，分类器为Softmax。所述语谱图序列可以基于音频文件得到，例如，在一个具体实施例中，对音频文件进行加窗分帧，形成若干帧子音频文件；基于所述若干帧子音频文件生成若干张语谱图；所述若干张语谱图形成所述语谱图序列。在另一个实施例中，在对音频文件进行加窗分帧之前，还包括对音频文件进行预加重处理，预加重处理后还要进行端点检测，所述端点检测的目的是，判断音频文件是否为人的声音，若为人的声音进一步对音频文件进行加窗分帧处理；若不是人的声音，则剔除掉该段音频文件。其中，所述若干帧子音频文件按照音频文件的时间顺序排列，且生成的若干张语谱图也是按照音频文件的时间顺序进行排列。在一个实施例中，以一个语谱图序列包括10张语谱图为例进行说明，使用第一算法从上述每一张语谱图中提取特征，形成第三序列；其中，第三序列中包括10个元素；然后使用第二算法从第三序列中的每个元素中提取特征，形成第四序列；其中，所述第四序列包括10个元素。由于第二算法LSTM能处理长序列的数据，并且能够从输入序列中获取时间上的关联性，也就是说，第四序列中位置靠后的元素关联了位置靠前元素的特征，即第四序列中的最后一个元素关联了前面所有元素的特征，因此，只需要将第四序列中的最后一个元素送入分类器中进行分类即可，这样不仅减少了分类器的运算量，而且增加了结果的可信度。

本实施例中，对于语谱图序列采用基于CNN+LSTM+Softmax的动态情感识别方法。采用LSTM的动态情感识别方法，能够充分利用时域上的特征信息，从而能够更好地识别序列数据，利用LSTM进行图像序列的循环采集，学习和记忆序列关联信息，结合单图像信息和序列关联信息进行情感判别，以增强情感识别在开放环境下的准确性、鲁棒性。

在一个具体实施例中，对于语谱图序列识别算法的具体实验条件为：Caffe深度学习框架，训练硬件平台是:Intel(R)Core(TM)i7-5820K CPU、主频3.3GHZ、内存64GB，NvidaGeForce GPU显存12GB，移植华为Atlas 200DK嵌入式开发板。

该实验的前期训练数据(所述训练数据主要是对CNN+LSTM+Softmax进行训练)来自于中科院CASIA语音情感数据库，后期结合算法应用背景开放环境下室内麦克风采集语音情感数据库，主要包括愤怒、伤心、平静、惊讶、高兴和恐惧等情感语音，通过傅里叶变换获得所有情感音频的语谱图，由于不同长度的音频具有不同长度的语谱图，为了方便训练，本实验通过引入了一定的损失，将所有语谱图都缩放到一样的大小，即图片大小48*48，每条语音生成10张语谱图，多余语谱图抛弃。测试数据来源Atlas 200DK嵌入式开放板麦克风实时采集语音信号实时生成语谱图。

训练中，选择了三层LSTM网络，设置128个隐层神经元个数，同时设置时序长度为10，使用batch梯度下降法，batch size设置为10，同时迭代batch轮数为80000次，LSTM的梯度裁剪阈值为5，使用Adam优化方法，学习率设置为0.0005。

本实验采用5折交叉验证的方法，选取3000个语谱图序列等分成6份，每个序列的语谱图片有10张，每份均包含6类语音情感。每一批次为1个序列，冲量为0.85，学习速率为0.01。

在本发明提供的另一个实施例中，所述基于所述姿态序列得到第三置信结果，包括，

基于所述姿态序列中的一张姿态图像得到简化线图像；

使用第一算法提取所述简化线图像的特征，得到第一特征；

在本实施例中，所述第一算法为CNN，分类器为Softmax。所述姿态序列例如可以为从视频中提取的按照时间顺序排列的10帧图像，分别基于每一帧图像得到简化线图像，例如，基于第一姿态图像得到第一简化线图像；基于第二姿态图像得到第二简化线图像……基于第十姿态图像得到第十简化线图像等等；其中，基于姿态图像得到简化线图像的具体过程为：首先利用Openpose人体关键节点检测算法来提取所述姿态图像中的人体关键节点坐标，然后通过聚类算法绘制人体简化线图像。使用第一算法提取第一简化线图像的特征，得到第一特征；使用第一算法提取第二简化线图像的特征，得到第二特征等等；将第一特征、第二特征等不同的特征依次送入分类器中进行分类，得到关于情感的不同的第三置信结果，其中，不同的第三置信结果与不同的特征一一对应，即将第一特征送入分类器中进行分类后，得到与第一特征对应的第三置信结果(1)，将第二特征送入分类器中进行分类后，得到与第二特征对应的第三置信结果(2)……依次类推。

在一个具体实施例中，对于姿态序列识别算法的具体实验条件为：Caffe深度学习框架，训练硬件平台是:Intel(R)Core(TM)i7-5820K CPU、主频3.3GHZ、内存64GB，NvidaGeForce GPU显存12GB，移植嵌入式开放板华为Atlas 200DK嵌入式开放板。

该实验训练数据(所述训练数据主要是对CNN+Softmax进行训练)来自于课题应用背景开放环境下室内摄像头采集人体图像数据，测试数据来源Atlas 200DK嵌入式开放板摄像头实时采集开放环境下图像。

本实验采用5折交叉验证的方法，选取35000人体姿态简化线图分成6份，代表6类姿态情感。冲量为0.85，学习速率为0.01。

在另一个实施例中，在使用第一算法提取所述简化线图像的特征之前，还包括，对所述简化线图像进行预处理，所述预处理例如为对简化线图像进行降维和/或调整尺寸。

在本发明提供的其他实施例中，所述基于所述姿态序列得到第三置信结果，包括，

基于所述姿态序列得到简化线图序列；

使用第二算法提取所述第五序列的特征，得到第六序列；

在本实施例中，所述第一算法为CNN，第二算法为LSTM，分类器为Softmax。所述姿态序列例如可以为从视频中提取的按照时间顺序排列的10帧姿态图像，分别基于每一帧图像得到简化线图像，多张简化线图像形成简化线图序列；即，基于10帧图像可以形成10张简化线图像，10张简化线图像形成一个简化线图序列。其中，基于姿态序列中的姿态图像得到简化线图像的具体过程为：首先利用Openpose人体关键节点检测算法来提取所述姿态图像中的人体关键节点坐标，然后通过聚类算法绘制人体简化线图像。使用第一算法从上述每一张简化线图像中提取特征，形成第五序列；其中，第五序列中包括10个元素；然后使用第二算法从第五序列中的每个元素中提取特征，形成第六序列；其中，所述第六序列包括10个元素。由于第二算法LSTM能处理长序列的数据，并且能够从输入序列中获取时间上的关联性，也就是说，第六序列中位置靠后的元素关联了位置靠前元素的特征，即第六序列中的最后一个元素关联了前面所有元素的特征，因此，只需要将第六序列中的最后一个元素送入分类器中进行分类即可，这样不仅减少了分类器的运算量，而且增加了结果的可信度。

本实施例中，对于姿态序列采用基于CNN+LSTM+Softmax的动态情感识别方法。采用LSTM的动态情感识别方法，能够充分利用时域上的特征信息，从而能够更好地识别序列数据，利用LSTM进行图像序列的循环采集，学习和记忆序列关联信息，结合单图像信息和序列关联信息进行情感判别，以增强情感识别在开放环境下的准确性、鲁棒性。

在本发明提供的一个实施例中，所述获取目标对象的人脸表情序列，包括，

从视频文件中读取若干帧人脸表情图像；

所述若干帧人脸表情图像形成所述人脸表情序列。

在本实施例中，提供了获取人脸表情序列的具体方法，其来源于视频文件，首先从视频文件中按照时间顺序依次读取若干帧人脸表情图像，在本发明中，优选所述若干帧人脸表情图像为连续的帧图像；然后所述若干帧人脸表情图像形成所述人脸表情序列，其中，所述人脸表情图像为至少包括人脸的图像，其既可以包括人体的身体信息，也可以不包括人体的身体信息。

在本发明提供的另一个实施例中，所述获取目标对象的姿态序列，包括，

从视频文件中读取若干帧姿态图像；

所述若干帧姿态图像形成所述姿态序列。

在本实施例中，提供了获取姿态序列的具体方法，其来源于视频文件，首先从视频文件中按照时间顺序依次读取若干帧姿态图像，在本发明中，优选所述若干帧姿态图像为连续的帧图像；然后所述若干帧姿态图像形成所述姿态序列，其中，所述姿态图像为至少包括人体姿态的图像，其必须要包括人体的身体信息，以便于基于所述姿态图像能够得到肢体姿态行为。

在本发明提供的其他实施例中，所述将第一置信结果、第二置信结果和第三置信结果进行融合，包括，

在本实施例中，多模态情感特征融合方面，采用D-S(Dempster-Shafer)证据理论分类决策层融合识别方法，相比特征层融合算法,决策层融合策略无需考虑模态之间的时间同步性。D-S证据理论融合算法通过建立命题与集合之间的对应关系把命题的不确定性转化为集合交集不确定性的研究，最后将集合交集不确定度的比较结果作为综合评判不确定问题的依据。在对证据进行融和的过程中，它可以去掉一些偏离证据的、无用的假设，使结果更加稳定和可靠，它可以单独用来处理不确定性问题，而不需要提前知道条件概率密度和先验概率。D-S证据理论融合算法是一种有效的决策级融合方法，其最大的特点是在证据中引入了不确定信息，同时摆脱了先验概率的限制，由于引入了不确定性推理，使得D-S证据理论可以处理不同层次属性的合成问题。

D-S证据理论用识别框架Θ表示感兴趣的命题，它定义了一个集函数m：2^Θ→[0,1]，满足这2个条件：

其中，m(A)为命题A的基本概率赋值，表示对A的支持程度。

设bel1和bel2是同一识别框架上的2个信任函数，m₁和m₂分别是其对应的基本概率赋值函数，焦元分别为A₁,A₂,…,A_i和B₁,B₂,…,B_j，m(p)为命题p的基本概率赋值，表示对p的支持程度。在算法中，m(p)表示某一模态识别某一情感类别的具体置信度，p表示某一情感类别。组合规则定义为公式的形式：

当组合多个证据时，可通过该公式将证据两两组合，该合成法则强调多种证据的协调性，抛弃冲突的证据。

在本发明提供的其他实施例中，将多模态情感识别算法和服务器训练完成的网络模型移植到华为Atlas 200DK嵌入式开发板，实现多模态情感识别系统智能移动终端开发。

基于同一发明构思，如图2所示，本发明第二个实施例提供一种面向开放环境的多模态情感识别装置01，所述装置01至少包括存储器001、处理器002，所述存储器上存储有计算机程序，所述处理器执行如下步骤：

基于所述第四置信结果识别出所述目标对象的情感；

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种面向开放环境的多模态情感识别方法，其特征在于，所述方法包括，

基于所述第四置信结果识别出所述目标对象的情感；

2.根据权利要求1所述的方法，其特征在于，所述基于所述人脸表情序列得到第一置信结果，包括，

使用第二算法提取所述第一序列的特征，得到第二序列；

3.根据权利要求1所述的方法，其特征在于，所述基于所述语谱图序列得到第二置信结果，包括，

使用第一算法提取所述语谱图序列的特征，得到第三序列；

使用第二算法提取所述第三序列的特征，得到第四序列；

4.根据权利要求1所述的方法，其特征在于，所述基于所述姿态序列得到第三置信结果，包括，

基于所述姿态序列中的一张姿态图像得到简化线图像；

使用第一算法提取所述简化线图像的特征，得到第一特征；

5.根据权利要求1所述的方法，其特征在于，所述基于所述姿态序列得到第三置信结果，包括，

基于所述姿态序列得到简化线图序列；

使用第二算法提取所述第五序列的特征，得到第六序列；

6.根据权利要求1所述的方法，其特征在于，所述获取目标对象的人脸表情序列，包括，

从视频文件中读取若干帧人脸表情图像；

所述若干帧人脸表情图像形成所述人脸表情序列。

7.根据权利要求1所述的方法，其特征在于，所述获取目标对象的语谱图序列，包括，

对音频文件进行加窗分帧，形成若干帧子音频文件；

基于所述若干帧子音频文件生成若干张语谱图；

所述若干张语谱图形成所述语谱图序列。

8.根据权利要求1所述的方法，其特征在于，所述获取目标对象的姿态序列，包括，

从视频文件中读取若干帧姿态图像；

所述若干帧姿态图像形成所述姿态序列。

9.根据权利要求1所述的方法，其特征在于，所述将第一置信结果、第二置信结果和第三置信结果进行融合，包括，

10.一种面向开放环境的多模态情感识别装置，其特征在于，所述装置至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器执行如下步骤：

基于所述第四置信结果识别出所述目标对象的情感；