CN113807249A

CN113807249A - 基于多模态特征融合的情感识别方法、系统、装置及介质

Info

Publication number: CN113807249A
Application number: CN202111090685.XA
Authority: CN
Inventors: 陈首彦; 刘冬梅; 孙欣琪; 张健; 杨晓芬; 赵志甲; 朱大昌
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-17
Anticipated expiration: 2041-09-17
Also published as: CN113807249B

Abstract

本发明公开了一种基于多模态特征融合的情感识别方法、系统、装置及介质，方法包括：获取预设的第一语音信息和对应的第一视觉信息，对第一语音信息和第一视觉信息进行特征提取得到语音特征图像和表情特征图像；对语音特征图像和表情特征图像进行特征融合得到第一多模态特征，根据第一多模态特征构建训练数据集；将训练数据集输入到预先构建的卷积神经网络中进行训练，得到训练好的多模态特征识别模型；根据多模态特征识别模型对待测者的情感进行识别。本发明一方面降低了模型复杂度，提高了模型训练和情感识别的效率，另一方面，同时考虑了语音特征和表情特征对模型的情感识别结果的影响，提高了情感识别的准确度，可广泛应用于情感识别技术领域。

Description

基于多模态特征融合的情感识别方法、系统、装置及介质

技术领域

本发明涉及情感识别技术领域，尤其是一种基于多模态特征融合的情感识别方法、系统、装置及介质。

背景技术

情感识别是实现人机完全交互的重要组成部分，情感识别可以应用在许多不同的领域，例如，情感识别可用于监测和预测疲劳状态。情感识别的任务具有挑战性，因为人类的情感缺乏时间界限，不同的人表达情感的方式也不同。尽管当前关于情感识别在从受试者的语音或其他形式，如视觉信息(面部姿势)中推断其情感有丰富的经验，但单一模态的情感识别准确率不高，而且泛化能力较差。

随着深度神经网络在过去十年中的出现，在几个已建立的模式识别领域，例如对象、语音和说话者识别，以及在组合问题解决方法中，例如在视听识别中，已经有许多突破性的改进。然而，现有技术往往都是通过多个神经网络模型分别对语音、表情等特征进行情感识别，然后根据各自的识别结果进行综合判定，这种方法一方面需要训练多个识别模型分别对各种类型的特征进行识别，模型复杂度较高，识别效率低下，另一方面，各个特征均单独进行识别，未考虑到各个特征之间的关联对情感识别结果的影响，因此情感识别的准确度较低。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种基于多模态特征融合的情感识别方法，该方法对语音特征和表情特征进行特征融合得到多模态特征，根据该多模态特征进行模型训练，一方面无需训练多个识别模型分别对语音特征和表情特征进行识别，降低了模型复杂度，提高了模型训练和情感识别的效率，另一方面，该方法同时考虑了语音特征和表情特征对模型的情感识别结果的影响，提高了情感识别的准确度。

本发明实施例的另一个目的在于提供一种基于多模态特征融合的情感识别系统。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种基于多模态特征融合的情感识别方法，包括以下步骤：

获取预设的第一语音信息和对应的第一视觉信息，对所述第一语音信息进行特征提取得到语音特征图像，并对所述第一视觉信息进行特征提取得到表情特征图像；

对所述语音特征图像和所述表情特征图像进行特征融合，得到第一多模态特征，进而根据所述第一多模态特征构建训练数据集；

将所述训练数据集输入到预先构建的卷积神经网络中进行训练，得到训练好的多模态特征识别模型；

获取待测者的第二语音信息和对应的第二视觉信息，并根据所述第二语音信息和所述第二视觉信息确定第二多模态特征，进而将所述第二多模态特征输入到所述多模态特征识别模型中，输出得到待测者的情感识别结果。

进一步地，在本发明的一个实施例中，所述对所述第一语音信息进行特征提取得到语音特征图像这一步骤，其具体包括：

对所述第一语音信息依次进行预加重、分帧、加窗、快速傅里叶变换、三角窗滤波、对数运算以及离散余弦变换，得到所述第一语音信息的梅尔频率倒谱系数；

根据所述梅尔频率倒谱系数确定多个语音特征，进而根据所述语音特征生成语音特征向量；

根据所述语音特征向量生成语音特征图像。

进一步地，在本发明的一个实施例中，所述语音特征包括梅尔频率倒谱系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度、偏斜度。

进一步地，在本发明的一个实施例中，所述对所述第一视觉信息进行特征提取得到表情特征图像这一步骤，其具体包括：

通过Haar分类器对所述第一视觉信息进行人脸识别，得到第一人脸图像；

根据所述第一人脸图像生成表情特征图像。

进一步地，在本发明的一个实施例中，所述根据所述第一多模态特征构建训练数据集这一步骤，其具体包括：

根据所述第一多模态特征确定训练样本；

确定所述第一语音信息和所述第一视觉信息对应的情感类型，并根据所述情感类型生成情感类型标签；

根据所述训练样本和所述情感类型标签构建训练数据集。

进一步地，在本发明的一个实施例中，所述将所述训练数据集输入到预先构建的卷积神经网络中进行训练这一步骤，其具体包括：

将所述训练数据集输入到所述卷积神经网络，得到情感类型识别结果；

根据所述情感类型识别结果和所述情感类型标签确定训练的损失值；

根据所述损失值对所述卷积神经网络的参数进行更新。

进一步地，在本发明的一个实施例中，所述获取待测者的第二语音信息和对应的第二视觉信息，并根据所述第二语音信息和所述第二视觉信息确定第二多模态特征这一步骤，其具体包括：

获取机器人与待测者互动过程中待测者的第二语音信息和机器人的第二视觉信息；

对所述第二语音信息和所述第二视觉信息进行特征提取和特征融合，得到第二多模态特征。

第二方面，本发明实施例提供了一种基于多模态特征融合的情感识别系统，包括：

特征提取模块，用于获取预设的第一语音信息和对应的第一视觉信息，对所述第一语音信息进行特征提取得到语音特征图像，并对所述第一视觉信息进行特征提取得到表情特征图像；

特征融合模块，用于对所述语音特征图像和所述表情特征图像进行特征融合，得到第一多模态特征，进而根据所述第一多模态特征构建训练数据集；

模型训练模块，用于将所述训练数据集输入到预先构建的卷积神经网络中进行训练，得到训练好的多模态特征识别模型；

模型识别模块，用于获取待测者的第二语音信息和对应的第二视觉信息，并根据所述第二语音信息和所述第二视觉信息确定第二多模态特征，进而将所述第二多模态特征输入到所述多模态特征识别模型中，输出得到待测者的情感识别结果。

第三方面，本发明实施例提供了一种基于多模态特征融合的情感识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种基于多模态特征融合的情感识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种基于多模态特征融合的情感识别方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例获取预设的第一语音信息和第一视觉信息，对第一语音信息和第一视觉信息进行特征提取后得到语音特征图像和表情特征图像，然后对语音特征图像和表情特征图像进行特征融合得到第一多模态特征，根据第一多模态特征构建用于卷积神经网络训练的训练数据集，训练得到多模态特征识别模型，进而根据该多模态特征识别模型对待测者的情感进行识别。本发明实施例对语音特征和表情特征进行特征融合得到多模态特征，根据该多模态特征进行模型训练，一方面无需训练多个识别模型分别对语音特征和表情特征进行识别，降低了模型复杂度，提高了模型训练和情感识别的效率，另一方面，本发明实施例同时考虑了语音特征和表情特征对模型的情感识别结果的影响，提高了情感识别的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种基于多模态特征融合的情感识别方法的步骤流程图；

图2为本发明实施例提供的一种基于多模态特征融合的情感识别系统的结构框图；

图3为本发明实施例提供的一种基于多模态特征融合的情感识别装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。

参照图1，本发明实施例提供了一种基于多模态特征融合的情感识别方法，具体包括以下步骤：

S101、获取预设的第一语音信息和对应的第一视觉信息，对第一语音信息进行特征提取得到语音特征图像，并对第一视觉信息进行特征提取得到表情特征图像。

具体地，在模型训练之前，获取已知情感类型的第一语音信息和对应的第一视觉信息，第一视觉信息中包括人脸的表情图像，然后对第一语音信息进行特征提取和图像化处理，得到二维的语音特征图像，对第一视觉信息同样进行特征提取，得到二维的表情特征图像。

进一步作为可选的实施方式，对第一语音信息进行特征提取得到语音特征图像这一步骤，其具体包括：

A1、对第一语音信息依次进行预加重、分帧、加窗、快速傅里叶变换、三角窗滤波、对数运算以及离散余弦变换，得到第一语音信息的梅尔频率倒谱系数(MFCC系数)；

A2、根据梅尔频率倒谱系数确定多个语音特征，进而根据语音特征生成语音特征向量；

A3、根据语音特征向量生成语音特征图像。

具体地，预加重处理其实是将语音信号通过一个高通滤波器，目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

分帧时先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是32ms。

加窗(Hamming Window)是将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n)，n＝0,1,…,N-1，N为帧的大小，那么乘上汉明窗后S'(n)＝S(n)xW(n)，W(n)为汉明窗。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

三角窗滤波是将能量谱通过一组Mel尺度的三角形滤波器组，三角窗滤波有两个主要目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰，因此一段语音的音调或音高，是不会呈现在MFCC系数内，换句话说，以MFCC系数为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响；此外，还可以降低运算量。

计算每个滤波器组输出的对数能量，然后经离散余弦变换(DCT)得到MFCC系数。

根据MFCC系数即可确定第一语音信号的多个语音特征。

进一步作为可选的实施方式，语音特征包括梅尔频率倒谱系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度、偏斜度。

具体地，本发明实施例采用MFCC系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度、偏斜度共10种特征生成240维列向量作为语音特征向量，然后用matplotlib工具将语音特征向量生成48*48大小的曲线图像作为语音特征图像。

进一步作为可选的实施方式，对第一视觉信息进行特征提取得到表情特征图像这一步骤，其具体包括：

B1、通过Haar分类器对第一视觉信息进行人脸识别，得到第一人脸图像；

B2、根据第一人脸图像生成表情特征图像。

具体地，对于第一视觉信息的处理，每50帧使用Haar分类器进行人脸识别，将识别得到的人脸图像保存为48*48大小的人脸表情图像作为表情特征图像。

S102、对语音特征图像和表情特征图像进行特征融合，得到第一多模态特征，进而根据第一多模态特征构建训练数据集。

具体地，本发明实施例针对语音和视觉维度差异、信息对齐、互补问题，将语音信息进行图像化，转换成二维的语音特征图像，然后将二维语音特征图像与二维的表情特征图像进行堆叠，形成三维的语音+表情特征矩阵，即为第一多模态特征。

进一步作为可选的实施方式，根据第一多模态特征构建训练数据集这一步骤，其具体包括：

C1、根据第一多模态特征确定训练样本；

C2、确定第一语音信息和第一视觉信息对应的情感类型，并根据情感类型生成情感类型标签；

C3、根据训练样本和情感类型标签构建训练数据集。

具体地，训练样本的情感类型可通过对第一语音信息和第一视觉信息进行人工判断并标注获得。情感类型包括但不限于：高兴、生气、害怕、悲伤、惊讶、中性以及厌恶。

S103、将训练数据集输入到预先构建的卷积神经网络中进行训练，得到训练好的多模态特征识别模型。

具体地，本发明实施例采用卷积神经网络构建多模态特征识别模型，将特征融合得到的第一多模态特征输入到卷积神经网络，对多模态特征的表现特征进行学习，并利用反向传播法对卷积神经网络进行训练，实现模型网络权重的优化，最终得到可用于情感识别的多模态特征识别模型。本发明实施例的多模态特征识别模型由输入层、CNN网络层、Flatten层、Dense层、Activation层、dropout层、输出层依次连接。

进一步作为可选的实施方式，将训练数据集输入到预先构建的卷积神经网络中进行训练这一步骤，其具体包括：

D1、将训练数据集输入到卷积神经网络，得到情感类型识别结果；

D2、根据情感类型识别结果和情感类型标签确定训练的损失值；

D3、根据损失值对卷积神经网络的参数进行更新。

具体地，对于多模态特征识别模型来说，情感类型识别结果的准确性可以通过损失函数(Loss Function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本发明实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的多模态特征识别模型。具体的迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。本发明实施例中，可以基于卷积神经网络搭建病虫害预测模型。

S104、获取待测者的第二语音信息和对应的第二视觉信息，并根据第二语音信息和第二视觉信息确定第二多模态特征，进而将第二多模态特征输入到多模态特征识别模型中，输出得到待测者的情感识别结果。

具体地，对于待测者的第二语音信息和对应的第二视觉信息，处理过程与第一语音信息和第一视觉信息类型，在此不作赘述；特征融合得到第二多模态特征后，输入到前述训练好的多模态特征识别模型中，即可得到情感识别结果。

进一步作为可选的实施方式，获取待测者的第二语音信息和对应的第二视觉信息，并根据第二语音信息和第二视觉信息确定第二多模态特征这一步骤，其具体包括：

E1、获取机器人与待测者互动过程中待测者的第二语音信息和机器人的第二视觉信息；

E2、对第二语音信息和第二视觉信息进行特征提取和特征融合，得到第二多模态特征。

下面结合一具体应用场景对本发明实施例的做进一步说明。

本发明实施例通过人形机器人对待测者进行信息采集以及情感识别，人形机器人正面正对待测者，相隔0.7-1米距离。

1)人形机器人向待测者进行简单的自我介绍，同时测试相关设备的运行情况。

2)人形机器人向待测者进行简单的提问，如“你好，我是XXX机器人，请问你叫什么名字？”等等。

3)人形机器人向待测者展示歌曲和舞蹈，对于疑似低功能自闭症对象，可由评估者向机器人发出相应的语音指令进行触发，若对于疑似高功能自闭症对象，评估者可以对待测者作一定的引导，通过待测者的语音信息来触发指令。评估者可以通过现场观察待测者的的反应，做相关记录。

4)数据采集，在互动的过程中，人形机器人内置的麦克风和摄像头、待测者和评估者身上的可穿戴麦克风和桌面Kinct摄像头全程录音和录制视频。通过软件wincsp，从PC端获取人形机器人系统里保存到的录音和视频文件。

5)数据预处理，在PC端上对语音和视频进行相关处理，得到多模态信号。

6)识别分析，通过训练好的多模态特征识别模型对待测的情感进行识别。

以上对本发明实施例的方法步骤以及应用场景进行了说明。可以理解的是，本发明实施例对语音特征和表情特征进行特征融合得到多模态特征，根据该多模态特征进行模型训练，一方面无需训练多个识别模型分别对语音特征和表情特征进行识别，降低了模型复杂度，提高了模型训练和情感识别的效率，另一方面，本发明实施例同时考虑了语音特征和表情特征对模型的情感识别结果的影响，提高了情感识别的准确度。

参照图2，本发明实施例提供了一种基于多模态特征融合的情感识别系统，包括：

特征提取模块，用于获取预设的第一语音信息和对应的第一视觉信息，对第一语音信息进行特征提取得到语音特征图像，并对第一视觉信息进行特征提取得到表情特征图像；

特征融合模块，用于对语音特征图像和表情特征图像进行特征融合，得到第一多模态特征，进而根据第一多模态特征构建训练数据集；

模型训练模块，用于将训练数据集输入到预先构建的卷积神经网络中进行训练，得到训练好的多模态特征识别模型；

模型识别模块，用于获取待测者的第二语音信息和对应的第二视觉信息，并根据第二语音信息和第二视觉信息确定第二多模态特征，进而将第二多模态特征输入到多模态特征识别模型中，输出得到待测者的情感识别结果。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图3，本发明实施例提供了一种基于多模态特征融合的情感识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种基于多模态特征融合的情感识别方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种基于多模态特征融合的情感识别方法。

本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种基于多模态特征融合的情感识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于多模态特征融合的情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态特征融合的情感识别方法，其特征在于，所述对所述第一语音信息进行特征提取得到语音特征图像这一步骤，其具体包括：

根据所述语音特征向量生成语音特征图像。

3.根据权利要求2所述的一种基于多模态特征融合的情感识别方法，其特征在于：所述语音特征包括梅尔频率倒谱系数的均值、标准差、方差、中值、最大值、最小值、四分位数、极差、陡峭度、偏斜度。

4.根据权利要求1所述的一种基于多模态特征融合的情感识别方法，其特征在于，所述对所述第一视觉信息进行特征提取得到表情特征图像这一步骤，其具体包括：

根据所述第一人脸图像生成表情特征图像。

5.根据权利要求1所述的一种基于多模态特征融合的情感识别方法，其特征在于，所述根据所述第一多模态特征构建训练数据集这一步骤，其具体包括：

根据所述第一多模态特征确定训练样本；

根据所述训练样本和所述情感类型标签构建训练数据集。

6.根据权利要求5所述的一种基于多模态特征融合的情感识别方法，其特征在于，所述将所述训练数据集输入到预先构建的卷积神经网络中进行训练这一步骤，其具体包括：

根据所述损失值对所述卷积神经网络的参数进行更新。

7.根据权利要求1至6中任一项所述的一种基于多模态特征融合的情感识别方法，其特征在于，所述获取待测者的第二语音信息和对应的第二视觉信息，并根据所述第二语音信息和所述第二视觉信息确定第二多模态特征这一步骤，其具体包括：

获取机器人与待测者互动过程中待测者的第二语音信息和机器人的第二视觉信息；对所述第二语音信息和所述第二视觉信息进行特征提取和特征融合，得到第二多模态特征。

8.一种基于多模态特征融合的情感识别系统，其特征在于，包括：

9.一种基于多模态特征融合的情感识别装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种基于多模态特征融合的情感识别方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种基于多模态特征融合的情感识别方法。