CN113469153B

CN113469153B - 基于微表情、肢体动作和语音的多模态情感识别方法

Info

Publication number: CN113469153B
Application number: CN202111033403.2A
Authority: CN
Inventors: 陶建华; 张昊; 刘斌; 连政
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-01-11
Anticipated expiration: 2041-09-03
Also published as: CN113469153A

Abstract

本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法，包括：第一步输入受试者接收某种信号的刺激的面部视频，对微表情进行识别；第二步输入受试者接收某种信号的刺激的身体视频，对肢体动作进行识别；第三步输入受试者接收某种信号的刺激的音频信号，对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合，判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合，更准确的预测出受试者的情感状态。本发明的有益效果是：相较于现有技术，本发明可以更加准确的识别出人的真实情感。

Description

基于微表情、肢体动作和语音的多模态情感识别方法

技术领域

本发明涉及图像处理与模式识别领域，具体涉及基于微表情、肢体动作和语言的多模态情感识别方法。

背景技术

随着技术的发展，计算机已经成为生活中必不可少的一部分。人类随时随地都会有喜怒哀乐等情感的起伏变化。如何使计算机理解人类的情感成为了一个研究热点。科学家们通过赋予计算机系统类似于人类的观察、识别、理解、表达以及生成各类情感表现的能力，从而令计算机系统具备更高、更全面的智能，能使其如同人类般进行自然、生动且亲切地交流与互动。在很多场景中情感识别是很有必要的，比如在人机交互的过程中，智能服务机器人如果可以准确的识别人们的情感的，那么会带来更好的服务，让人机交互更加自然，顺畅，有温度。

微表情是一种持续时间仅为1/25秒至1/5秒的非常快速的表情, 表达了人试图压抑与隐藏的真正情感。在有些场景下人类会尽力掩饰自己的真实情感，甚至做出与真正情感相反的表情，但是在这种情况下，会产生一种非常快速并且动作幅度非常微弱的表情，这种表情被称为微表情。由于微表情可以表达出人类内心真实的情感，所以在预测情感上具有很大的前景。

肢体动作是人类表达情感的重要组成部分，蕴含了丰富的情感信息，相比于基于面部的情感识别，由于肢体动作变化的规律较难获取，基于肢体动作情感识别的研究较少。但是肢体动作的情感识别在现实复杂生活中的人机交互中会使表述更加生动，所以具有重要作用。

心理学家Albert Mehrabian通过研究发现，人们日常的交流中声音及其特征(例如语调，语速)体现了38%的情感，语音交流是人与人最自然的一种交互方式，有效的识别出语音的情感是实现和谐化人机交互的重要组成部分之一。

在情感分类中，Ekman 将情感分为基本的六类基本表情包括：愤怒(anger)、恐惧(fear)、厌恶(disgust)、惊奇(surprise)、悲伤(sadness)和高兴(happiness)。此外在后续研究中，研究学者加入了中性(neutral)、紧张(nervous)和放松(relaxed)等表情，使表情分类更加完善。

现有技术中公开了，通过拍摄装置获取用户指定身体区域的图像，所述指定身体区域的图像包括肢体图像和面部图像；通过第一处理规则对所述面部图像进行解析，获得用户的微表情特征；通过第二处理规则对所述肢体图像进行解析，获得用户的肢体动作特征；将所述肢体动作特征和微表情特征输入情绪分析模型，获得所述情绪分析模型输出的所述用户的情绪标签。

现有技术中还公开了，通过对目标的行为视频、图片以及语音进行提取，分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频，获取在相应情绪下的语音数据，丰富数据集，予以标注后制作成训练集。后使用CNN训练图片及视频帧数据，关键点为面部表情，头部动作，四肢动作，整体动作频率，这4点训练成一个集成模型，其次使用LSTM训练语音数据，最后将两个模型进行集成训练，合成集成模型，最终会产生3个模型，保证模型支持语音或图片单独检测的能力。

但是，现实生活中，人类的情绪微妙又复杂，这些基于分类的表情识别具有局限性，无法反正完整的反应人类真实的情感。为了弥补上述分类的情感模型的不足和丰富面部表情的表达，本方法使用连续的情感模型来描述人们的情感即Arousal-Valence连续情感维度。它是一个多维度的模型，从心理学上的激励、愉悦等不同角度描述情感，不同的情感角度是相互依赖的，也因此基于维度的情感模型具有更强的表达能力。

发明内容

为了解决以上问题，本发明第一方面提供一种基于微表情、肢体动作和语音的多模态情感识别方法，由摄像头，麦克风和情感处理单元实现，所述方法包括：

S1：微表情的识别方法，

所述摄像头采集情感分析受试者的面部视频数据发送至微表情识别单元，得到基于微表情的情感识别结果；

S2：肢体动作的识别方法，

所述摄像头采集情感分析受试者的肢体动作视频数据并发送至肢体动作识别单元，得到基于肢体动作的情感识别结果；

S3：语音的识别方法，

所述麦克风采集情感分析受试者的语音信号并发射至语音情感识别模块，得到基于语音的情感识别结果；

S4：多模态融合的识别方法，

将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合，得到多模态融合的识别结果。

在一些实施例中，所述微表情的识别方法，包括：

S11：裁剪出脸部区域图像，并把宏表情与微表情的顶点帧，即动作幅度最大的峰值帧作为一个表情样本的A部分；提取宏表情与微表情的起始帧与顶点帧之间的光流特征，作为表情样本的B部分；

S12：应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络，生成预训练网络；

S13：应用所述表情样本的A部分的微表情数据和所述表情样本的B部分的微表情的光流特征输入所述预训练网络，进行再训练，生成微表情识别网络；

S14：应用步骤S11对微表情的预测数据进行数据预处理，将处理后的微表情的预测数据输入所述微表情识别网络，得到基于微表情的情感识别结果。

在一些实施例中，所述肢体动的作识别方法，包括：

S21：获取肢体动作视频，将所述肢体动作视频转化为肢体动作的RGB图像序列；通过人体骨架数据，得到18个人体骨骼关节点的二维坐标；将每个RGB图像序列和人体骨骼关节点作为一个肢体动作样本；

S22：构建双流网络：构建第二深度学习网络提取肢体动作的RGB图像特征和构建图卷积神经网络提取人体骨架特征；将所述肢体动作的RGB图像特征和所述人体骨架特征结合，将得到的特征进行降维至一维，送入支持向量回归模型（Support VectorRegression）SVR来预测Arousal-Valence情感维度，构成肢体动作识别网络；

S23：将所述肢体动作样本输入所述肢体动作识别网络进行训练，得到训练后的肢体动作识别网络；

S24：应用步骤S21对肢体动作的预测数据进行预处理，得到处理后的肢体动作预测数据，将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络，得到基于肢体动作的情感识别结果。

在一些实施例中，语音的识别方法，包括：

S31：从麦克风获取情感分析受试者的语音，通过采样与量化将语音信号转化为计算机识别的数字信号，在一些实施例中，可使用22.05kHz的采样频率对语音信号进行采样；

S32：使用OpenSMILE工具包对所述数字信号进行帧级的低层次声学特征提取，得到语音特征集；在一些实施例中，语音特征集配置文件由“IS10_paraling.conf”提供；

S33：通过opensmile工具提取的将语音特征集转化为1582维语音特征向量，并重塑为1*1582特征向量；

S34：构建CNN-bi-LSTM联合网络并添加注意力机制，将得到的1*1582语音特征向量输入到联合网络中，提取语音特征，将得到的语音特征进行降维至一维，送入支持向量回归模型（Support Vector Regression）SVR来预测语音的Arousal-Valence情感维度，构成语音情感识别网络，得到基于语音的情感识别结果。

在本申请的一种示例性实施例中，所述生成微表情识别网络之后还包括：应用留一交叉验证的方法验证所述微表情识别网络的准确率。

在本申请的一种示例性实施例中，所述得到训练后的肢体动作识别网络之后还包括：将20%的肢体动作样本用来对训练后的肢体动作识别网络进行验证。

在本申请的一种示例性实施例中，得到宏表情的样本的方法还包括：将宏表情数据随机旋转0°，90°，180°或270°。

在本申请的一种示例性实施例中，所述预训练网络的具体结构为双流残差网络，具体结构包括：顶点帧残差网络、光流特征残差网络和全连接层；所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接。

在本申请的一种示例性实施例中，所述顶点帧残差网络包括：卷积层、池化层和连接层；所述卷积层与所述池化层连接，所述池化层与所述连接层连接；所述光流特征残差网络与所述顶点帧残差网络结构相同。

在本申请的一种示例性实施例中，所述池化层设置为n层，前n-1层采用最大池化，最后一层采用平均池化。

在本申请的一种示例性实施例中，所述第二深度学习网络包括：三维卷积神经网络和长短期记忆神经网络；所述三维卷积神经网络与长短期记忆神经网络连接。

在本申请的一种示例性实施例中，所述第三深度学习网络包括：一维卷积神经网络和双向长短期记忆神经网络；所述一维卷积神经网络与长短期记忆神经网络连接，并添加注意力机制。

在本申请的一种示例性实施例中，将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为：

E _i=α×P _m +β×P _n +γ×P _k；

其中，

E _i：多模态融合Arousal-Valence情感维度的识别结果；

P _m：基于微表情的情感识别结果；

P _n：基于肢体动作的情感识别结果；

P _k：基于语音的情感识别结果；

α：基于微表情的情感识别结果的融合权重，设置参数；

β：基于肢体动作的情感识别结果的融合权重，设置参数。

γ：基于语音的情感识别结果的融合权重，设置参数。

在本申请的一种示例性实施例中，所述基于微表情的情感识别结果的融合权重，基于肢体动作的情感识别结果和基于语音的情感识别结果的融合权重的具体设置为：α=40%，β=30%，γ==30%。

本发明第二方面提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述所述的基于微表情，肢体动作和语音的情感别方法。

本发明第三方面提供一种计算机设备，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行存储在所述存储器上的计算机程序时，实现上述所述的基于微表情，肢体动作和语音的情感识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：识别效果更好，识别率更高，鲁棒性更强。可以有效识别当前人们内心的真实情感。

附图说明

图1为本发明实施例提供的基于微表情与肢体动作的情感识别方法的流程图；

图2为本发明实施例提供的基于微表情与肢体动作的情感识别方法的流程简化示意图；

图3为本发明实施例提供的微表情的识别方法的流程图；

图4为本发明实施例提供的肢体动作的识别方法的流程图；

图5为本发明实施例提供的语音的识别方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1和图2所示，本申请实施例提供的基于微表情与肢体动作的情感识别方法，由摄像头，麦克风和情感处理单元实现，所述方法包括：

S1：微表情的识别方法，

S2：肢体动作的识别方法，

S3：语音的识别方法，

S4：多模态融合的识别方法，

将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果语音情感识别进行加权融合，得到多模态融合的识别结果。

在一些实施例中，所述微表情的识别方法，包括：

S13：应用所述样本的A部分的微表情数据和所述样本的B部分的微表情的光流特征输入所述的预训练网络，进行再训练，生成微表情识别网络；

在一些实施例中，所述肢体动作的识别方法，包括：

S24：应用步骤S21对肢体动作预测数据进行预处理，得到处理后的肢体动作预测数据，将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络，得到基于肢体动作的情感识别结果。

在一些实施例中，语音的识别方法，包括：

S31:从麦克风获取受试者的语音，通过采样与量化将语音信号转化为计算机可以识别的数字信号；

S32:对所述数字信号进行帧级的低层次声学特征提取，得到语音特征集；

S33；将语音特征集转化为1582维语音特征向量，并重塑为1*1582特征向量；

S34：构建联合网络并添加注意力机制，将得到的1*1582语音特征向量输入到联合网络中，提取语音特征，最后将得到的语音特征进行降维至一维，送入支持向量回归模型（Support Vector Regression）SVR来预测语音的情感维度，构成语音情感识别网络，得到基于语音的情感识别结果。

在本申请的一种示例性实施例中，所述将所述基于微表情的情感识别结果，所述基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为：

E _i=α×P _m +β×P _n +γ×P _k；

其中，

E _i：多模态融合A-V情感维度的识别结果；

P _m：基于微表情的情感识别结果；

P _n：基于肢体动作的情感识别结果；

P _k：基于语音的情感识别结果；

α：基于微表情的情感识别结果的融合权重，设置参数；

β：基于肢体动作的情感识别结果的融合权重，设置参数。

γ：基于语音的情感识别结果的融合权重，设置参数。

实施例2：

如图2所示，微表情的识别方法：

在一些实施例中，

S111：利用OpenCV的Dlib库来检测每个宏表情和微表情样本68个面部特征点；

S112：根据人脸68个关键点得到面部区域图像，裁剪出脸部区域图像，并把其中宏表情与微表情的顶点帧即动作幅度最大的峰值帧作为一个样本的A部分；宏表情数据集的样本随机旋转0°，90°，180°或270°，以增加样本的多样性；

S113：光流特征提取是对每个宏表情和微表情样本的相邻两帧进行运动估计，提取高层次的面部表情运动特征；提取宏表情与微表情的起始帧与顶点帧之间的光流特征，以便得到宏表情与微表情的时间运动特征；将得到的光流信息作为一个样本的B部分；

S114：分别对所述A部分和B部分通过resize操作进行尺寸变换，使图像大小一致；

S115：将得到人脸图像进行灰度化处理；

在一些实施例中，光流特征使用稠密光流法，在Opencv中，使用calcOpticalFlowFarneback()函数可以用来计算两帧图像之间的稠密光流，使用光流可以提取到表情的动态时间特征；根据所述68个面部特征点位置，将人脸裁剪出来，作为一个样本的A部分，同时将得到的光流特征作为样本的B部分；对所述的样本进行resize操作进行尺寸变换，使图像大小一致，图像的大小为224*224像素，最后对图像进行灰度化具体步骤为：

S12：应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络，生成预训练网络；所述预训练网络的具体结构为双流残差网络，具体结构包括：顶点帧残差网络、光流特征残差网络和全连接层；将所述表情样本的A部分的宏表情数据输入所述顶点帧残差网络，提取A部分的人脸表情的空间运动特征；将所述B部分的宏表情的光流特征输入光流特征残差网络B部分的人脸表情的时间运动特征；所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接；所述顶点帧残差网络包括：卷积层、池化层和连接层；所述卷积层与所述池化层连接，所述池化层与所述连接层连接；所述光流特征残差网络与所述顶点帧残差网络结构相同；所述池化层设置为n层，前n-1层采用最大池化，最后一层采用平均池化；

在一些实施例中，

S121：构建双流残差网络，用于分别提取A部分的人脸表情的空间运动特征和B部分的人脸表情的时间运动特征；

S122：用于特征提取的双流残差网络，由卷积层、池化层、连接层和全连接层组成，其中由卷积层和池化层对人脸表情图像和光流分别提取其特征，在连接层连接；

S123：其中前几个池化层采用最大池化，即通过保留池化窗口内最大元素的方式进行特征降维，从而突出重要的特征；最后一个池化层采用平均池化，使池化窗口内的每个元素都会对降维结果产生影响，防止损失过多的高维特征；

S124：加入了丢弃率=0.5的Dropout层；Dropout层能够以一定的概率使某个神经元的激活值失效，使模型尽可能不依赖一些局部特征，以增强模型的泛化性，并缓解模型的过拟合问题；最后，将得到的特征进行降维至一维，送入SVR来预测Arousal-Valence情感维度；

S125：利用宏表情样本及其光流特征，对双流残差网络进行预训练，初始化学习率为0.001，训练周期epoch = 200，每训练10个epoch，学习率周期下降，batch_size为16；训练结束后得到预训练网络；

在一些实施例中，在训练神经网络时，重要的网络参数值设置如下：输入的大小（224，224，1），卷积层的卷积核大小3*3，池化层窗口3*3，卷积核数量为32，全连接层的输入为1024，选用SVR即支持向量回归对特征进行分类。学习率设置为0.001，共训练200个epoch；在训练神经网络的过程中采用Adam优化器，相比于广泛使用的随机梯度下降法，Adam优化器实现简单，计算高效，对内存需求少。在卷积层后使用BN层和relu激活函数；其中BN层为批量归一化算法（Batch Normalization，BN），能够加速训练，在数据预处理中，白化预训练使特征之间的相关性降低，但是白化计算量过大，而且白化并不是处处可微的，所以使用近似白化处理，其公式具体为：

其中

是指某一网络层中某个神经元的输入，

=Wh+b, W是该层的权重，h为上一层的输出，b为不确定常数，

是对该层神经元在随机梯度下降法中一个批次所有输入数据的均值，

是该神经元一个批次所有输入数据的标准差；

Relu激活函数的公式为：

；

S14：应用留一交叉验证的方法验证所述微表情识别网络的准确率；

应用步骤S11对微表情的预测数据进行数据预处理，将处理后的微表情的预测数据输入所述表情识别网络，得到基于微表情的情感识别结果；

在一些实施例中，

S141：在预训练的双流残差网络中，其训练参数为初始化学习率为0.001，训练周期epoch = 200，每训练10个epoch，学习率周期下降，batch_size为16。

S142：使用留一交叉验证（Leave-One-Subject-Out，LOSO）的方法来验证微表情识别的精确度；

如图4所示，肢体动作识别

在一些实施例中，

S211：获取若干肢体动作视频，转化为若干肢体动作的RGB图像序列样本；

S212：通过OpenPose算法得到人体骨架数据，得到8个人体骨骼关节点的二维坐标；

S213，将每个RGB图像序列和人体骨骼关节点作为一个样本，并将80%的数据作为训练集用于训练双流网络，20%的数据用来对训练好的模型进行测试；

在一些实施例中，为了之后对肢体动作图像进行神经网络的训练，使用时间插值算法（Temporal Interpolation Mode）将每个肢体动作的图像帧序列数统一。并将图像的大小尺度归一化为224*224像素。每个骨架数据均取图像中动作幅度最大的一帧图像来提取数据

S22：构建双流网络；构建第二深度学习网络提取肢体动作的RGB图像特征和构建图卷积神经网络提取人体骨架特征；将所述肢体动作的RGB图像特征和所述人体骨架特征结合，将得到的特征进行降维至一维，送入SVR来预测Arousal-Valence情感维度，构成肢体动作识别网络；所述第二深度学习网络包括：三维卷积神经网络和长短期记忆神经网络；所述三维卷积神经网络与长短期记忆神经网络连接；

在一些实施例中，

S221：构建三维卷积神经网络结合长短期记忆神经网络用于提取肢体动作的RGB图像特征；

S222：构建图卷积神经网络提取由OpenPose得到的人体骨架特征；

S223：将所述的提取肢体动作的RGB图像和图卷积神经网络提取到的二维特征相结合，作为肢体动作的特征，并使用SVR得到最后的连续情感维度结果；

在一些实施例中，同提取微表情的特征相同，为了避免由于数据集较小，而神经网络的参数较多而导致的过拟合的现象，所以加入Dropout算法和BN层来缓解过拟合现象；

在一些实施例中，图卷积神经网络参数为16，三维卷积层卷积核大小3*3*3，最大池化层大小3*3*3，长短期神经网络的参数为1024；学习率设置为0.01，共训练500个epoch；使用OpenPose提取到的人体骨架关节点的向量作为图卷积神经网络的输入；通过图卷积神经网络输出1*1024维度特征，同时由三维卷积网络和长短期神经网络提取的RGB图像输出1*1024维度特征，在全连接层将这两个特征相连接，得到肢体动作特征，并分类；

S24：应用步骤S21对肢体动作预测数据进行预处理，得到处理后的肢体动作预测数据，将所述处理后的肢体动作预测数据输入所述练后的肢体动作识别网络，得到基于肢体动作的情感识别结果；

在一些具体的实施例中，如图5所示，语音的识别方法，包括：

S31：从麦克风获取受试者的语音，通过采样与量化将语音信号转化为计算机可以识别的数字信号，使用22.05kHz的采样频率对语音信号进行采样；

S32：使用OpenSMILE工具包，音频进行帧级的低层次声学特征（LLDs）提取，语音特征集配置文件由“IS10_paraling.conf”提供；

S33：将opensmile工具提取的1582维语音特征向量重塑为1*1582特征向量；

S34：构建CNN-bi-LSTM联合网络并添加注意力机制，将得到的1*1582语音特征输入到联合网络中，提取语音特征，最后将得到的特征进行降维至一维，送入SVR来预测语音的Arousal-Valence情感维度，构成语音情感识别网络，得到基于语音的情感识别结果；

在一些实施例中，使用对音频信号加噪，拉伸等方法将音频的数据进行扩增，防止数据的不均衡。然后将由OpenSMILE得到的音频信号输入到一维CNN网络中，得到128*1维特征，在bi-LSTM即双向长短期神经网络中添加自注意力机制，即添加attention-layer；得到整句的音频特征，最后使用SVR分类器得到连续的情感结果。

多模态融合：将微表情识别结果，肢体动作识别结果和语音识别结果相融合，得到情绪识别结果；根据实验结果发现，微表情，肢体和语音识别结果的精确度不同，所以微表情，肢体动作和语音的权值不相同；

S4：将所述将所述基于微表情的情感识别结果，所述基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为：

E _i=α×P _m +β×P _n +γ×P _k；

其中，

E _i：多模态融合Arousel-Valence情感维度的识别结果；

P _m：基于微表情的情感识别结果；

P _n：基于肢体动作的情感识别结果；

P _k：基于语音的情感识别结果；

α：基于微表情的情感识别结果的融合权重，设置参数；

β：基于肢体动作的情感识别结果的融合权重，设置参数。

γ：基于语音的情感识别结果的融合权重，设置参数。

在本申请的一种示例性实施例中，所述基于微表情的情感识别结果的融合权重，基于肢体动作的情感识别结果的融合权重和基于语音的情感识别结果的融合权重的具体设置为：α=40%，β=30%，γ=30%

本发明还提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述所述的基于微表情，肢体动作和语音的情感别方法。

本发明还提供一种计算机设备，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行存储在所述存储器上的计算机程序时，实现上述所述的基于微表情，肢体动作和语音的情感识别方法的步骤。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于微表情、肢体动作和语音的多模态情感识别方法，由摄像头，麦克风和情感处理单元实现，其特征在于，所述方法包括：

S1：微表情的识别方法，

所述微表情的识别方法，包括：

S11：裁剪出脸部区域图像，并把宏表情与微表情的顶点帧作为一个表情样本的A部分；提取宏表情与微表情的起始帧与顶点帧之间的光流特征，作为表情样本的B部分；

S14：应用步骤S11对微表情的预测数据进行数据预处理，将处理后的微表情的预测数据输入所述微表情识别网络，得到基于微表情的情感识别结果；

S2：肢体动作的识别方法，

所述肢体动作的识别方法，包括：

S22：构建双流网络，具体为：构建第二深度学习网络提取肢体动作的RGB图像特征和构建卷积神经网络提取人体骨架特征；将所述肢体动作的RGB图像特征和所述人体骨架特征结合，将得到的特征进行降维至一维，送入支持向量回归模型来预测情感维度，构成肢体动作识别网络；

S24：应用步骤S21对肢体动作的预测数据进行预处理，得到处理后的肢体动作预测数据，将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络，得到基于肢体动作的情感识别结果；

S3：语音的识别方法，

S4：多模态融合的识别方法，

2.根据权利要求1所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述语音的识别方法，包括：

S31：从麦克风获取情感分析受试者的语音，通过采样与量化将语音信号转化为计算机识别的数字信号；

S32：对所述数字信号进行帧级的低层次声学特征提取，得到语音特征集；

S33：将提取的语音特征集转化为1582维语音特征向量，并重塑为1*1582语音特征向量；

S34：构建联合网络并添加注意力机制，将得到的1*1582语音特征向量输入到联合网络中，提取语音特征，将得到的语音特征进行降维至一维，送入支持向量回归模型来预测语音的情感维度，构成语音情感识别网络，得到基于语音的情感识别结果。

3.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述生成微表情识别网络之后还包括：应用留一交叉验证的方法验证所述微表情识别网络的准确率。

4.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述得到训练后的肢体动作识别网络之后还包括：将20%的肢体动作样本用来对训练后的肢体动作识别网络进行验证。

5.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述宏表情对应有宏表情的样本，具体获得宏表情的样本的具体方法还包括：将宏表情数据随机旋转0°，90°，180°或270°。

6.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述预训练网络的具体结构为双流残差网络，具体结构包括：顶点帧残差网络、光流特征残差网络和全连接层；所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接。

7.根据权利要求6所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述顶点帧残差网络包括：卷积层、池化层和连接层；所述卷积层与所述池化层连接，所述池化层与所述连接层连接；所述光流特征残差网络与所述顶点帧残差网络结构相同。

8.根据权利要求7所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述池化层设置为n层，前n-1层采用最大池化，最后一层采用平均池化。

9.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述第二深度学习网络包括：三维卷积神经网络和长短期记忆神经网络；所述三维卷积神经网络与长短期记忆神经网络连接。

10.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为：

E _i=α×P _m +β×P _n +γ×P _k；

其中，

E _i：多模态融合情感维度的识别结果；

P _m：基于微表情的情感识别结果；

P _n：基于肢体动作的情感识别结果；

P _k：基于语音的情感识别结果；

α：基于微表情的情感识别结果的融合权重，设置参数；

β：基于肢体动作的情感识别结果的融合权重，设置参数；

γ：基于语音的情感识别结果的融合权重，设置参数。

11.根据权利要求10所述的基于微表情、肢体动作和语音的多模态情感识别方法，其特征在于，所述基于微表情的情感识别结果的融合权重，基于肢体动作的情感识别结果的融合权重和基于语音的情感识别结果的融合权重的具体设置为：α=40%，β=30%，γ=30%。