CN114882553A

CN114882553A - 一种基于深度学习的微表情识别方法及系统

Info

Publication number: CN114882553A
Application number: CN202210422919.4A
Authority: CN
Inventors: 林光毅; 王备战; 姚俊峰; 刘昆宏; 洪清启; 陈俐燕
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-09
Anticipated expiration: 2042-04-21
Also published as: CN114882553B

Abstract

本发明提供了表情识别技术领域的一种基于深度学习的微表情识别方法及系统，方法包括：步骤S10、交互型机器人通过3D摄像头获取图像流；步骤S20、交互型机器人通过人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器；步骤S30、服务器从所述人脸数据流中提取包括人脸动态数据和人脸静态数据的人脸数据组；步骤S40、服务器基于软编码输出创建一微表情识别模型，并对所述微表情识别模型进行训练；步骤S50、服务器将所述人脸数据组输入训练后的微表情识别模型得到微表情信息，并将所述微表情信息反馈给交互型机器人，交互型机器人基于接收的所述微表情信息进行互动响应。本发明的优点在于：极大的提升了微表情识别的准确率。

Description

一种基于深度学习的微表情识别方法及系统

技术领域

本发明涉及表情识别技术领域，特别指一种基于深度学习的微表情识别方法及系统。

背景技术

面部表情是一种在情绪状态下，由面部肌肉收缩产生的非语言交流表情流露，不同的肌肉运动模式会产生不同的表情，进而反映出不同类型的情绪。

表情分为宏表情和微表情，宏表情的持续时间通常在0.75秒至2秒之间，微表情的持续时间通常在0.04秒至0.2秒之间。由于宏表情可能由人刻意展现出来，因此可能会误导交互型机器人对人类情感的识别；而微表情大多是在无意识的情况下表达的真实情感，最有可能揭示一个人深层的情绪，因此产生微表情识别的需求应运而生。但是，传统上对于微表情识别的准确率还不尽如人意。

因此，如何提供一种基于深度学习的微表情识别方法及系统，实现提升微表情识别的准确率，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于深度学习的微表情识别方法及系统，实现提升微表情识别的准确率。

第一方面，本发明提供了一种基于深度学习的微表情识别方法，包括如下步骤：

步骤S10、交互型机器人通过3D摄像头获取图像流；

步骤S20、交互型机器人通过人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器；

步骤S30、服务器从所述人脸数据流中提取包括人脸动态数据和人脸静态数据的人脸数据组；

步骤S40、服务器基于软编码输出创建一微表情识别模型，并对所述微表情识别模型进行训练；

步骤S50、服务器将所述人脸数据组输入训练后的微表情识别模型得到微表情信息，并将所述微表情信息反馈给交互型机器人，交互型机器人基于接收的所述微表情信息进行互动响应。

进一步地，所述步骤S10中，所述交互型机器人设有5G通信模块，所述3D摄像头的拍摄帧数至少为100fps。

进一步地，所述步骤S20具体为：

交互型机器人对所述图像流进行降噪处理后，通过OpenCV中基于Haar特征的人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器。

进一步地，所述步骤S30具体包括：

步骤S31、服务器利用BS-RoIs算法从人脸数据流中提取出顶点帧，将所述顶点帧作为人脸静态数据；

步骤S32、提取所述人脸数据流的起始帧，利用所述起始帧和顶点帧提取横向光流信息u、纵向光流信息v以及光学应变信息ε；利用FlowNet模型从所述人脸数据流中提取光流信息vis，将所述u、v、ε以及vis作为人脸动态数据；

步骤S33、将各所述人脸静态数据以及人脸动态数据缩放到相同尺寸，组成人脸数据组。

进一步地，所述步骤S40中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；

所述卷积层、池化层、第一残差块、卷积核、第二残差块、拉伸块、三层全连接层、软编码矩阵以及软编码输出模块依次连接；

所述卷积层以及池化层用于对人脸数据组进行特征提取；所述第一残差块用于对提取的特征进行贡献度分类，并突显有用的特征，抑制无效的特征；所述卷积核用于对提取的特征进行拼接整合；所述第二残差块用于对各特征的权重进行调整；所述拉伸块用于对权重调整后的特征进行拉伸，形成1×N的特征向量；所述三层全连接层用于将1×N的特征向量转换为L个输出值；所述软编码矩阵用于对各输出值进行解码；所述软编码输出模块用于计算解码后的输出值中，最小损失对应的情绪类别，所述情绪类别即微表情信息。

第二方面，本发明提供了一种基于深度学习的微表情识别系统，包括如下模块：

图像流获取模块，用于交互型机器人通过3D摄像头获取图像流；

人脸数据流获取模块，用于交互型机器人通过人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器；

人脸数据组提取模块，用于服务器从所述人脸数据流中提取包括人脸动态数据和人脸静态数据的人脸数据组；

微表情识别模型创建模块，用于服务器基于软编码输出创建一微表情识别模型，并对所述微表情识别模型进行训练；

微表情识别模块，用于服务器将所述人脸数据组输入训练后的微表情识别模型得到微表情信息，并将所述微表情信息反馈给交互型机器人，交互型机器人基于接收的所述微表情信息进行互动响应。

进一步地，所述图像流获取模块中，所述交互型机器人设有5G通信模块，所述3D摄像头的拍摄帧数至少为100fps。

进一步地，所述人脸数据流获取模块具体为：

进一步地，所述人脸数据组提取模块具体包括：

人脸静态数据提取单元，用于服务器利用BS-RoIs算法从人脸数据流中提取出顶点帧，将所述顶点帧作为人脸静态数据；

人脸动态数据提取单元，用于提取所述人脸数据流的起始帧，利用所述起始帧和顶点帧提取横向光流信息u、纵向光流信息v以及光学应变信息ε；利用FlowNet模型从所述人脸数据流中提取光流信息vis，将所述u、v、ε以及vis作为人脸动态数据；

人脸数据组生成单元，用于将各所述人脸静态数据以及人脸动态数据缩放到相同尺寸，组成人脸数据组。

进一步地，所述微表情识别模型创建模块中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；

本发明的优点在于：

通过人脸识别算法检测图像流中的人脸并进行截取以获取人脸数据流，从人脸数据流中提取包括人脸动态数据和人脸静态数据的人脸数据组，将人脸数据组输入训练后的微表情识别模型得到微表情信息；由于人脸数据组中的光流能够描述物体在运动过程中的速度分布，物体的图片像素随着时间变化产生不同的强度变化，因此能够体现人体脸部肌肉、五官的变化程度，并结合动态特征和静态特征(人脸动态数据和人脸静态数据)，能够有效提取脸部微表情特征，微表情识别模型通过软编码输出代替传统的softmax输出层，不仅能对一些错误进行纠错，还能缩小类内输出间距离，扩大类外输出间距离，最终极大的提升了微表情识别的准确率，并极大的提升了微表情识别模型的泛化能力以及鲁棒性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于深度学习的微表情识别方法的流程图。

图2是本发明一种基于深度学习的微表情识别系统的结构示意图。

图3是本发明Haar包含的三种人脸矩阵特征示意图。

图4是本发明人脸动态数据提取示意图。

图5是本发明微表情识别模型的框架图。

图6是本发明微表情识别模型训练的流程示意图。

图7是本发明残差块的框架图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过光流来表征表情，并结合人脸的动态特征和静态特征，以有效提取脸部微表情特征，微表情识别模型通过软编码输出代替传统的softmax输出层，以一些错误进行纠错，并缩小类内输出间距离，扩大类外输出间距离，以提升微表情识别的准确率。

请参照图1至图7所示，本发明一种基于深度学习的微表情识别方法的较佳实施例，包括如下步骤：

步骤S10、交互型机器人通过3D摄像头获取图像流；

步骤S20、交互型机器人通过人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器；即针对每一帧图像流中的人脸进行定位和追踪；

训练过程如下：首先，为每个类别初始化一个码字，从而构成最初的ECOC矩阵，初始的ECOC矩阵采用Hadamard codematrix，以最大化行之间的Hamming distance；其次，利用训练数据提取出的人脸数据组对微表情识别模型进行训练，微表情识别模型输出结果对比最初的ECOC矩阵，并利用损失函数计算输出整体损失，然后迭代优化微表情识别模型；最后，再次对人脸数据组进行最终预测，将得到的ECOC输出值利用损失最小化对ECOC矩阵元素进行软化。损失函数的公式为：

其中，x_i表示第i个包含人脸数据组(5个输入数据)的人脸样本；c_q表示第q个微表情类别；F(x_i)表示人脸样本经过网络映射后输出的ECOC软编码；EU(*,*)表示欧式距离。

ECOC_loss等式中，分子表示数据经过网络的输出结果与它的目标类别的码字间距离，分母表示输出结果与它非目标类别的平均距离。我们希望分子越小越好，分母越大越好，从而使整体Loss越小越好。基于相同微表情类别具有相近的特征分布的假设前提下，利用软编码输出能够使在有限的微表情训练数据下，表情通过网络后的输出更加的符合实际的输出分布。软编码输出能基于ECOC的纠错机制，单个错误的输出更有可能被其他正确的输出纠正，而不是取决于如Softmax输出一样的单一结果。

单一输出值往往直接代表着最终的预测结果，而本发明采用多个输出值，每个输出值都代表一部分的预测结果，并利用ECOC软编码输出纠错机制，使得一些错误输出有机会被其他正确的输出纠正，从而提高微表情识别的准确率。同时，输入和输出由一对一变为一对多，即将数据映射到更高维的空间，这样有利于缩放输出值类内和类外的距离。为了放大网络输出层的区分，结合光流法特征提取方式，利用ECOC软编码输出替换原有的深度学习softmax输出层，同时设计一个新的损失计算函数(ECOC_loss)，在训练微表情识别模型时缩小类内输出间距离，扩大类外输出间距离，从而提高微表情识别的准确率。

所述步骤S10中，所述交互型机器人设有5G通信模块，以便于稳定快速的连接服务器，所述3D摄像头的拍摄帧数至少为100fps，以便获取清晰的图像流。

所述步骤S20具体为：

交互型机器人对所述图像流进行降噪处理后，通过OpenCV中基于Haar特征的人脸识别算法(人脸识别分类器)检测所述图像流中的人脸并进行截取，获取人脸数据流并通过5G通信模块上传服务器。通过对所述图像流进行降噪处理，去除冗余信息，极大的减轻了后续的计算负担。OpenCV中的人脸识别分类器占用资源小，易于集成到交互型机器人中。

Haar包括边缘特征、线性特征、中心特征和对角线特征，每一种分类器都根据脸部的黑白分布提取对应的特征。例如，眼睛所在的位置通常比脸颊与鼻子更黑，可通过边缘特征来提取眼睛特征；而鼻梁通常比眼球更白，可通过线性特征来提取鼻梁特征。黑色矩形中的像素值减去白色矩形中的像素值之和即为提取出的特征值。然后建立积分图像，积分图像中的点是其左上角的所有像素之和。随后引入Adaboost，对每一个分类器赋权，最终的结果即为这些分类器的加权和。原始的图像流采用少量的特征来排除掉无人脸区域，然后逐渐增加复杂特征来进一步排除干扰区域。如果检测到人脸，则将人脸区域截取出来；反之，则抛弃该图像流。

所述步骤S30具体包括：

步骤S31、服务器利用BS-RoIs算法从人脸数据流中提取出顶点帧，将所述顶点帧作为人脸静态数据；所述顶点帧表示人脸数据流中肌肉活动幅度最大的图像帧，相比其他帧包含了最丰富的表情信息；

BS-RoIs首先利用特征点检测器(Landmark detection),例如DRMF，抽取出人脸数据流中的兴趣区域(RoIs，regions-of-interest)，同时计算出人脸数据流每个像素的光学应变强度，然后根据兴趣区域RoIs计算并排序每一帧的光学应变强度，具有最高光学应变强度的图像帧即为顶点帧；

所述横向光流信息u以及纵向光流信息v的计算公式如下：

u＝pΔt,v＝qΔt；

其中，I表示时间t在像素点(x,y)的图像强度函数；

表示空间变化梯度；I_t表示时间变化梯度；(dx,dy)表示点(x,y)的变化量；dt表示时间变化矢量；Δt表示两帧图像之间的时间间隔。

所述光学应变信息ε是衡量肌肉进行非刚性运动而引起的面部皮肤变形的矢量，计算公式如下：

其中，ε_xx和ε_yy表示对角线应变梯度，ε_xy和ε_yx表示非对角线应变梯度，因此所述光学应变信息ε的大小计算公式如下：

所述步骤S40中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；所述卷积层采用大小为7×7，步长为1的卷积核；所述池化层采用最大池化层，卷积核大小为7×7；所述软编码矩阵需要进行预先的训练；所述软编码输出模块的损失函数采用ECOC_loss函数；

所述卷积层以及池化层用于对人脸数据组进行特征提取；所述第一残差块用于对提取的特征进行贡献度分类，并突显有用的特征，抑制无效的特征，得到F＝{f₁,f₂,f₃,f₄,f₅}；所述卷积核用于对提取的特征进行拼接整合，得到F'＝concat(f₁,f₂,f₃,f₄,f₅)；所述第二残差块用于对各特征的权重进行调整；所述拉伸块用于对权重调整后的特征进行拉伸，形成1×N的特征向量；所述三层全连接层用于将1×N的特征向量转换为L个输出值；所述软编码矩阵用于对各输出值进行解码；所述软编码输出模块用于计算解码后的输出值中，最小损失对应的情绪类别，所述情绪类别即微表情信息；输出值与预定义ECOC矩阵各个码字中最短的距离所对应的微表情类别即为预测结果。

本发明一种基于深度学习的微表情识别系统的较佳实施例，包括如下模块：

人脸数据流获取模块，用于交互型机器人通过人脸识别算法检测所述图像流中的人脸并进行截取，获取人脸数据流并上传服务器；即针对每一帧图像流中的人脸进行定位和追踪；

所述图像流获取模块中，所述交互型机器人设有5G通信模块，以便于稳定快速的连接服务器，所述3D摄像头的拍摄帧数至少为100fps，以便获取清晰的图像流。

所述人脸数据流获取模块具体为：

交互型机器人对所述图像流进行降噪处理后，通过OpenCV中基于Haar特征的人脸识别算法人脸识别分类器)检测所述图像流中的人脸并进行截取，获取人脸数据流并通过5G通信模块上传服务器。通过对所述图像流进行降噪处理，去除冗余信息，极大的减轻了后续的计算负担。OpenCV中的人脸识别分类器占用资源小，易于集成到交互型机器人中。

所述人脸数据组提取模块具体包括：

人脸静态数据提取单元，用于服务器利用BS-RoIs算法从人脸数据流中提取出顶点帧，将所述顶点帧作为人脸静态数据；所述顶点帧表示人脸数据流中肌肉活动幅度最大的图像帧，相比其他帧包含了最丰富的表情信息；

所述横向光流信息u以及纵向光流信息v的计算公式如下：

u＝pΔt,v＝qΔt；

其中，I表示时间t在像素点(x,y)的图像强度函数；

所述微表情识别模型创建模块中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；所述卷积层采用大小为7×7，步长为1的卷积核；所述池化层采用最大池化层，卷积核大小为7×7；所述软编码矩阵需要进行预先的训练；所述软编码输出模块的损失函数采用ECOC_loss函数；

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于深度学习的微表情识别方法，其特征在于：包括如下步骤：

步骤S10、交互型机器人通过3D摄像头获取图像流；

2.如权利要求1所述的一种基于深度学习的微表情识别方法，其特征在于：所述步骤S10中，所述交互型机器人设有5G通信模块，所述3D摄像头的拍摄帧数至少为100fps。

3.如权利要求1所述的一种基于深度学习的微表情识别方法，其特征在于：所述步骤S20具体为：

4.如权利要求1所述的一种基于深度学习的微表情识别方法，其特征在于：所述步骤S30具体包括：

5.如权利要求1所述的一种基于深度学习的微表情识别方法，其特征在于：所述步骤S40中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；

6.一种基于深度学习的微表情识别系统，其特征在于：包括如下模块：

7.如权利要求6所述的一种基于深度学习的微表情识别系统，其特征在于：所述图像流获取模块中，所述交互型机器人设有5G通信模块，所述3D摄像头的拍摄帧数至少为100fps。

8.如权利要求6所述的一种基于深度学习的微表情识别系统，其特征在于：所述人脸数据流获取模块具体为：

9.如权利要求6所述的一种基于深度学习的微表情识别系统，其特征在于：所述人脸数据组提取模块具体包括：

10.如权利要求6所述的一种基于深度学习的微表情识别系统，其特征在于：所述微表情识别模型创建模块中，所述微表情识别模型包括一卷积层、一池化层、一第一残差块、一卷积核、一第二残差块、一拉伸块、三层全连接层、一软编码矩阵以及一软编码输出模块；