CN116012930A

CN116012930A - 一种基于深度学习卷积神经网络的维度表情识别方法

Info

Publication number: CN116012930A
Application number: CN202310309342.0A
Authority: CN
Inventors: 张祎霖; 孙晓
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-04-25
Anticipated expiration: 2043-03-28
Also published as: CN116012930B

Abstract

本发明涉及计算机视觉领域，公开了一种基于深度学习卷积神经网络的维度表情识别方法，本发明利用人脸检测模型进行人脸关键点检测，结合热力图预测的关键特征点进行表情识别，并在其中引入注意力机制，用来驱动对面部表情估计相关区域的关注；采用离散表情分类和连续表情回归的联合预测，以使网络对数据集中的异常值更具鲁棒性；最后使用一个专门定制的损失函数，来进行表情识别相关的度量的优化。

Description

一种基于深度学习卷积神经网络的维度表情识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习卷积神经网络的维度表情识别方法。

背景技术

由于机器学习、深度学习的飞速发展以及高计算量设备的大量普及，人脸识别技术经历了空前的发展，基于深度学习的面部识别技术也被持续关注。面部情感分析旨在通过让计算机更好地理解一个人的情绪状态，从而提供特别的帮助和互动，但由于离散的情绪类别（如愤怒、快乐、悲伤等）不能代表人类日常所表现的全部情绪，心理学家还通常依赖于维度测量，即效价（情绪表现的积极程度）和唤醒（情绪表现看起来的平静或兴奋程度）。事实上虽然从人脸上估计这些值对于人类来说是很自然的，但对于基于计算机的系统来说，尤其是在自然条件下效价和唤醒的自动估计，是非常困难的。目前还未出现比较好的解决方案。

发明内容

为解决上述技术问题，本发明提供一种基于深度学习卷积神经网络的维度表情识别方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于深度学习卷积神经网络的维度表情识别方法，包括以下步骤：

步骤一、获取人物表情数据，利用RetinaFace：Mobilenet0.25网络获取人物表情数据中的人脸，并通过调整人脸关键点对人脸进行对齐；

步骤二、将人脸对齐后的人物表情数据输入特征提取模型，得到关键特征点；所述特征提取模型包括多个级联的四阶HourGlass网络；每个四阶HourGlass网络输出一个热力图预测结果并作为下一个四阶HourGlass网络的输入；所述热力图预测结果包括为每个人脸关键点设置半径为r的缓冲区，沿着每一个缓冲区的径向、由内向外地、由浅至深地使用渐变灰度带对缓冲区进行填充；多个四阶HourGlass网络输出的热力图预测结果叠加，在有缓冲区交叉的区域，灰度值变大，以叠加后的灰度值为索引，选取得到所述的关键特征点；

步骤三、利用表情识别模型，对提取的关键特征点进行处理，预测得到离散表情的分类以及连续表情的回归，连续表情包括情绪效价和情绪唤醒度；

表情识别模型进行训练时，损失函数为：

；

是为离散表情分类所构建的损失函数：；

是利用均方根误差为连续表情回归构建的损失函数：

；

是利用皮尔森相关系数为连续表情回归构建的损失函数：

；

是利用协和相关系数为连续表情回归构建的损失函数：

；

为表情识别模型的预测结果，为真实结果，为交叉熵；、分别为在情绪效价的预测结果与真实结果之间求取的均方根误差和在情绪唤醒度的预测结果与真实结果之间求取的均方根误差，、分别为在情绪效价的预测结果与真实结果之间求取的皮尔森相关系数和在情绪唤醒度的预测结果与真实结果之间求取的皮尔森相关系数，、分别为在情绪效价的预测结果与真实结果之间求取的协和系数和在情绪唤醒度的预测结果与真实结果之间求取的协和系数；、、均为随机数，且。

具体地，所述人物表情数据包括人物表情图像和人物表情视频。

具体地，步骤一中利用RetinaFace：Mobilenet0.25网络检测人物表情数据中的人脸，并对人脸进行对齐时，输出的检测结果包括分类检测结果、人脸框的回归检测结果和人脸关键点的回归检测结果；

分类检测结果用于判断先验框内部是否包含物体或者人脸；

人脸框的回归检测结果：用于对先验框进行调整获得包含人脸的预测框；

人脸关键点的回归检测结果：用于对先验框进行调整获得人脸关键点，通过调整人脸关键点对人脸进行对齐。

与现有技术相比，本发明的有益技术效果是：

本发明提出了一种基于深度学习卷积神经网络的维度表情识别方法，改善了传统表情识别仅仅用于离散情绪识别这一单一功能，实现了包括68个关键特征点、离散表情以及连续表情的同时输出，来对自然环境中获取的表情特征进行情绪标定，填补了离散的情绪类别（如愤怒、快乐、悲伤等）不能代表人类日常所表现的全部情绪的缺陷。

本发明中的表情识别方案，对计算平台性能要求较低，数据集制作与训练成本较低，算法成熟易于移植。

本发明的多输出网络模型的构建方法，在情绪识别过程中使得神经网络模型可以获取更多有用的特征信息，人脸对齐结果与表情识别结果更加准确，且更具有说服力。

附图说明

图1为本发明维度表情识别方法的流程图；

图2为本发明四阶HourGlass网络的示意图；

图3为本发明多个四阶HourGlass网络级联的示意图；

图4为本发明预测得到离散表情分类以及连续表情回归的示意图；

图5为本发明预测结果的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明利用人脸检测模型进行人脸关键点检测，结合热力图预测的关键特征点进行表情识别，并在其中引入注意力机制，用来驱动对面部表情估计相关区域的关注；采用离散表情分类和连续表情回归的联合预测，使网络对数据集中的异常值更具鲁棒性；最后使用专门定制的损失函数，来对表情识别相关的度量进行优化。

如图1所示，本发明提供了一种基于深度卷积神经网络的维度表情识别方法，具体步骤如下：

S1、利用一台相机获取自然条件下的人物表情数据，对所获取的人物表情数据进行预处理并进行人脸检测。

无论是处理动态任务或是静态任务，无论是单一人物或者是多个人物，只要是在肉眼可区分级别以上，本发明均能进行情绪标定。因此本发明有着较为广泛的用途，在医疗监护系统、智能谈话系统、智慧校园以及辅助安全驾驶等等领域都有着较为广泛的应用。

对人物表情数据进行预处理时，对于图片形式的人物表情数据，需要剪裁至640像素×480像素的大小；对于视频形式的人物表情数据，人眼观感较为流畅的帧数为每秒12帧至24帧。本发明在人物表情视频中每秒抽取12帧图像进行后续的表情识别。本发明利用人脸检测模型（RetinaFace：mobilenet0.25网络）检测预处理后的人物表情数据中的人脸，最终得到的检测结果分为三类，分别是分类检测结果、人脸框的回归检测结果和人脸关键点的回归检测结果。

分类检测结果，用于判断先验框内部是否包含物体或者人脸。可以利用一个1×1的卷积，将人脸检测模型SSH模块的通道数调整成num_anchors×2，用于代表每个先验框内部包含人脸的概率；其中num_anchors为人脸关键点数量。

人脸框的回归检测结果，用于对先验框进行调整获得包含人脸的预测框，需要用四个参数对先验框进行调整，本发明利用一个1×1的卷积，将SSH模块的通道数调整成num_anchors×4，用于代表每个先验框的调整参数，四个先验框的调整参数包括先验框中心点的横坐标、纵坐标，以及先验框的长和宽。

人脸关键点的回归检测结果，用于对先验框进行调整获得人脸关键点，每张人脸有五个人脸关键点，每一个人脸关键点需要两个调整参数。本发明利用一个1×1的卷积，将SSH模块的通道数调整成num_anchors×10（即num_anchors×5×2），用于代表每个先验框的每个人脸关键点的调整参数。

通过上述预处理过程，检测到人物表情数据中的人脸并进行对齐。

S2、对预处理后的人物表情图像，利用四阶HourGlass网络进行人脸表情的关键特征点提取。

四阶HourGlass网络会将输入的图像下采样到一个很小的分辨率，接着进行上采样，进而将统一尺寸的特征结合起来。具体来讲：四阶HourGlass网络每次降采样之前，分出上半路保留原尺度信息；每次升采样之后，和上一个尺度的数据相加；该结构在不改变数据尺寸的情况下，大大加深了网络的深度。另一方面，由于HourGlass网络自身更对称的拓扑结构，使其具有更加优良的性能。

本实施例中，利用四个四阶HourGlass网络级联堆叠。如图2所示，N1代表四阶HourGlass网络中的第一个沙漏网络，N1提取出的混合特征经过一个1×1全卷积网络后，分成上下两个分支，上部分支继续经过1×1卷积后，进入下一个沙漏网络；下部分支先经过1×1卷积后，生成热力图（Heatmap），即图2中虚线框部分。图2中虚线框部分比其他三个方块要窄一些，这是因为热力图矩阵的深度与训练数据里的节点数一致。热力图继续经过1×1卷积，将深度调整到与上部分支一致，最后与上部分支合并，一起作为四阶HourGlass网络中的下一个沙漏网络的输入，最后产生一个热力图预测。

如图3，利用这样的四个四阶HourGlass网络级联，每一个HourGlass网络都会产生一个热力图预测，这样级联起来，上一个HourGlass网络学习并预测的关键特征点之间的联系可以为下一级HourGlass网络所用，最终使得热力图预测结果更加的接近准确值。图3中，四阶HourGlass网络中的空白框代表卷积层。

热力图预测结果包括：为68个人脸关键点设定一个半径为r的缓冲区；对每一个人脸关键点的缓冲区，由内而外、由浅至深地使用渐进的灰度带进行填充，其中由内而外指的是沿着缓冲区的径向、从圆心至圆弧的方向；通过灰度值的叠加，从而对于有缓冲区交叉的区域，其灰度值变大；以叠加后的灰度值为索引，选取每次热力图预测的关键特征点。

本发明进行人脸检测时选取68个人脸关键点，能够充分满足在表情识别任务中特征提取任务的需求。利用注意力机制来更好的进行关键点附近特征的提取，引入注意力机制后，能够让网络更加关注人脸关键点附近有用的面部特征，而对于面部其他区域不反映表情作用的特征减少关注，从而提高了本发明的应用效率。

S3、利用基于卷积神经网络的表情识别模型，对提取的关键特征点进行处理，预测得到离散表情的分类以及连续表情的回归。

如图4所示，利用表情识别模型输出的包含十个元素的特征，即为离散表情的分类以及连续表情的估计。本发明中，离散表情的分类包括：开心、悲伤、惊讶、害怕、厌恶、生气、中立、轻蔑；连续表情包括：情绪效价（valence）和情绪唤醒度（arouse）。情绪效价是描述情绪是积极还是消极的范围，具有方向性；情绪唤醒度则是描述情绪的强度，反应情绪的整体特性以及情绪状态的强度，不具有方向性；通过情绪效价和情绪唤醒度来构建表情的维度模型，对表情的连续性有一个更加直观的描述。

利用损失函数以及优化器来对表情识别模型参数进行优化之前，需要进行评价指标的设定。对于离散表情分类，本发明使用的评价指标是准确率（Accuracy，ACC），定义如下：

P表示1，N表示0，T表示预测正确，F表示预测错误；

TP表示预测结果为1，实际结果为1，预测正确；

FP表示预测结果为1，实际结果为0，预测错误；

FN表示预测结果为0，实际结果为1，预测错误；

TN表示预测结果为0，实际结果为0，预测正确。

准确率表示的是预测结果正确的样本占所有样本数量的比例：

；

对于连续维度表情的评价，本发明使用均方根误差RMSE、皮尔森相关系数PCC、协和系数CCC三个评价指标来对预测结果进行评价和分析。本发明将Y作为预测结果，作为注释标签中的真实结果；为对Y取平均值，为对取平均值，为Y的标准差，为的标准差。

均方根误差RMSE，常作为机器学习和深度学习中对预测结果评价指标，其范围为，预测结果误差越大时，RMSE值越大；当预测结果与真实结果完全吻合时，RMSE值等于0，即得到完美模型。RMSE的计算公式为：

；

其中为中的元素，为中的元素。

皮尔森相关系数PCC，用于判断预测结果和真实结果之间的相似程度，范围为（-1，1），计算公式为：

；

协和系数CCC，同样能够反映预测结果和真实结果之间的相似程度。当预测结果和真实结果之间的相似程度非常接近，但是数值上的距离较远，PCC不能较为充分地反映预测结果和真实结果之间相似程度，但CCC就能够很好地解决这个问题。协和系数CCC的计算公式为：

。

本发明的表情识别模型进行训练时采用的损失函数为：

。

是对离散表情分类构建的损失函数：

。

、、是为连续表情回归构建的损失函数，其中：

为以均方根误差构建的损失函数：

；

为以皮尔森相关系数构建的损失函数：

；（1）

为以协和相关系数构建的损失函数：

；（2）

本发明在选取构建损失函数的评价指标时，对于以交叉熵构建的损失函数，本发明需要它的数值尽可能的小，当交叉熵构成的损失函数数值越小时，表情识别模型对离散表情分类的性能越优良。对于连续表情的回归，以均方根误差构建的损失函数，本发明同样需要它的数值尽可能的小；但是对于以皮尔森相关系数构建的损失函数和以协和相关系数构建的损失函数，本发明需要它们的数值尽可能大。所以在构建这两部分损失函数时，考虑到它们与和变化的趋势并不相同，做如公式（1）和公式（2）中所展示的数学变化，使这四个部分的损失函数变化趋势相同，均为数值越小时，表情识别模型的表现越优秀。

本实施例最终的表情识别预测结果如图5所示，包括对人脸68个人脸特征点的标定结果，离散表情的分类结果以及连续维度情感的回归结果。其中，人脸特征点的呈现结果在目标图片上进行标注，离散表情的分类结果以及连续维度情感的回归结果在二维情感坐标系表示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习卷积神经网络的维度表情识别方法，包括以下步骤：