CN115188052A

CN115188052A - 一种基于深度残差网络的表情检测方法、装置及存储介质

Info

Publication number: CN115188052A
Application number: CN202210842610.0A
Authority: CN
Inventors: 李华亮; 刘羽中
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-10-14

Abstract

本发明公开了一种基于深度残差网络的表情检测方法、装置及存储介质，该方法获取作业人员的面部视频后，从所述面部视频中提取人脸图片；将所述人脸图片输入至基于深度残差网络的表情检测模型，输出面部表情检测结果，所述面部检测结果包括多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块。在本发明提高了面部表情检测的准确度。

Description

一种基于深度残差网络的表情检测方法、装置及存储介质

技术领域

本发明涉及人脸检测技术领域，尤其涉及一种基于深度残差网络的表情检测方法、装置及存储介质。

背景技术

传统方法中，先检测人脸的位置，然后，提取几何特征、外观特征或同时提取以生成模型的特定向量。这些方法通常相当复杂，需要大量的技术操作。由于数据量巨大，特征分析变得极具挑战性。这些方法经常面临自然或噪声环境中的问题，在这些环境中，路标检测是困难的。

与传统的手工制作的特征相比，静态图像面部表情识别技术FER(FacialExpression Recognition)具有更高的准确性，并采用了深度学习方法。基于深度学习的网络需要大量的训练图像来防止过拟合。更多大规模数据集的引入，如EmotioNet、AffectNet、ExpW等，同时采用大量的计算机算力(如GPU、TPU)使这些方法得以使用，这类方法主要问题仍然是技术操作的复杂性。此外，这类方法通常是为特定数据集(或特定目标)优化设计的，这导致了较低的可重用性。

总之，面部情绪的已有研究主要基于一些面部区域的组合来确定面部表情，例如眼睛、鼻子、嘴。几种传统方法基于面部标志提取这些面部区域。然而，这种固定标志检测主要在实验室控制的数据集上工作良好，如果受试者环境发生变化，如遮挡、照明和头部姿势的变化，在户外数据集上工作不佳。

发明内容

本发明提供一种深度残差网络的表情检测方法、装置及存储介质，提高了面部表情检测的准确度。

本发明一实施例提供一种深度残差网络的表情检测方法，包括以下步骤：

获取作业人员的面部视频后，从所述面部视频中提取人脸图片；

将所述人脸图片输入至基于深度残差网络的表情检测模型，输出面部表情检测结果，所述面部检测结果包括多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块。

进一步的，所述人脸图片输入至所述基于深度残差网络的表情检测模型后，根据以下步骤对所述人脸图片进行处理：

所述人脸图片通过一个步幅为2的3×3卷积层和一个2×2的最大池化层后得到第一特征图，将所述第一特征图传输至残差掩膜块；

所述第一特征图经过多个残差掩膜块的处理后，传输至平均池化层和具有softmax的7向全连接层后，输出相应的7种面部表情及相应的概率。

进一步的，所述第一特征图经过多个残差掩膜块的处理后，传输至平均池化层和具有softmax的7向全连接层，具体为：

将所述第一特征图依次经过4个残差掩膜块的处理，依次得到第二特征图、第三特征图、第四特征图和第五特征图，并将所述第五特征图传输至所述平均池化层和具有softmax的7向全连接层；所述第二特征图、第三特征图、第四特征图至第五特征图的空间大小逐渐降低。

进一步的，所述残差掩膜块包括残差层和掩模块。

进一步的，所述残差掩膜块表示为：

x_l+1＝h(x_l)+F(x_l,W_l)

其中，h(x_l)＝W_l′x，W_l′为1×1的卷积操作，h(x_l)为直接映射部分，x_l为l层的输入，F为残差计算操作，W_l为l层的权重。

进一步的，获取作业人员的面部视频后，从所述面部视频中提取人脸图片，具体为：

通过OpenCV模块捕获作业人员的面部视频，将所述面部视频保存为面部图片，使用haarcascade_frontalface_alt检测模板从所述面部图片中提取人脸区域，获得所述人脸图片。

本发明另一实施例提供了一种基于深度残差网络的表情检测装置，包括人脸图片提取模块和表情检测模块；

所述人脸图片提取模块用于获取作业人员的面部视频后，从所述面部视频中提取人脸图片；

所述表情检测模块用于将所述人脸图片输入至基于深度残差网络的表情检测模型，输出面部表情检测结果，所述面部检测结果包括多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块。

本发明另一实施例提供了一种可读存储介质，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行本发明任意一项方法项实施例所述的基于深度残差网络的表情检测方法。

本发明的实施例，具有如下有益效果：

本发明提供了一种基于深度残差网络的表情检测方法、装置及介质，该方法从面部视频中提取人脸图片，将所述人脸图片输入至基于深度残差网络的表情检测模型，并输出多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块，所述多个残差掩膜块，可以将输入的人脸图片从粗糙特征图处理为精细特征图，从而提高网络对重要信息的注意能力，提高网络的特征判别性能，进而提高了面部表情检测的准确度。

附图说明

图1是本发明一实施例提供的基于深度残差网络的表情检测方法的流程示意图；

图2是本发明一实施例提供的基于深度残差网络的表情检测装置的结构示意图；

图3是本发明一实施例提供的基于深度残差网络的表情检测方法的多个残差掩膜块的结构示意图；

图4是本发明一实施例提供的基于深度残差网络的表情检测方法的残差掩膜块的流程示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供的一种基于深度残差网络的表情检测方法，包括以下步骤：

步骤S101：获取作业人员的面部视频后，从所述面部视频中提取人脸图片。

作为其中一种实施例，通过OpenCV模块捕获作业人员的面部视频，将所述面部视频保存为面部图片，使用haarcascade_frontalface_alt检测模板从所述面部图片中提取人脸区域，获得人脸图片。

步骤S102：将所述人脸图片输入至基于深度残差网络的表情检测模型，输出面部表情检测结果，所述面部检测结果包括多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块。所述基于深度残差网络的表情检测模型采用Resnet残差网络作为主干，所述残差掩膜块包括残差层和掩模块。

作为其中一种实施例，所述人脸图片输入至所述基于深度残差网络的表情检测模型后，根据以下步骤进行处理：

步骤S1021：所述人脸图片通过一个步幅为2的3×3卷积层后，再通过一个2×2的最大池化层(max-pooling)，将其空间大小减少后得到第一特征图，将所述第一特征图传输至残差掩膜块；

步骤S1022：如图3所示，所述第一特征图依次经过4个残差掩膜块(对应图3中的残差掩模块)的处理后，依次得到第二特征图、第三特征图、第四特征图和第五特征图；具体的，所述第一特征图经过第一残差掩膜块处理后得到第二特征图，将所述第二特征图传输至第二残差掩膜块；

所述第二特征图经过第二残差掩膜块处理后得到第三特征图，将所述第三特征图传输至第三残差掩膜块；

所述第三特征图经过第三残差掩膜块处理后得到第四特征图，将所述第四特征图传输至第四残差掩膜块；

所述第四特征图经过第四残差掩膜块处理后得到第五特征图；所述第二特征图、第三特征图、第四特征图至第五特征图的空间大小逐渐降低；优选的，所述第二特征图、第三特征图、第四特征图和第五特征图的像素大小依次为56px×56px、28px×28px、14px×14px和7px×7px。

步骤S1023：将所述第五特征图传输至所述平均池化层和具有softmax的7向全连接层后，输出相应的7种面部表情及相应的概率。所述7种面部表情为：生气、厌恶、恐惧、开心、无表情、伤心和惊讶。

作为其中一种实施例，所述残差掩膜块包括直接映射部分和残差部分；如图4所示，所述残差掩膜块表示为：

x_l+1＝h(x_l)+F(x_l,W_l)

其中，h(x_l)＝W_l′x，W_l′为1×1的卷积操作，h(x_l)为所述直接映射部分，Weight是指卷积操作，addition是指单位加操作，x_l为l层的输入，F为残差计算操作，W_l为l层的权重。

作为其中一种实施例，根据以下步骤对输入至所述残差掩膜块的特征图进行处理：

对于输入至所述残差掩膜块的初始特征图F∈R^C×W×H(其中C代表颜色值，W和H代表特征图的宽度和高度)，首先经过残差层R产生粗糙特征图FR＝R(F)，FR∈R^{C′×W′×H′}；

然后，通过公式FM＝M(FR)得到与FR相同大小的激活图FM，其值在范围[0，1]之间。其中M()函数是指经由残差掩膜块(例如卷积、池化、激活等操作)来进行的计算操作。

根据公式

计算得到所述残差掩膜块的精细特征图输出FN；其中FR是F通过残差层转换的特征图，

表示元素乘法。所述精细特征图FN比改变前的所述粗糙输入特征图FR更便于对各元素重要性进行评分。

作为其中一种实施例，使用FER2013数据集对所述基于深度残差网络的表情检测模型进行训练、验证和测试。所述FER2013数据集包括35886张人脸的不同表情图片，其中训练集28708张，验证集和测试集各3589张。每张图片的大小是48*48像素大小。所述FER2013数据集包括以下情绪标签：0-anger生气、1-disgust厌恶、2-fear恐惧、3-happy开心、4-normal无表情、5-sad伤心、6-surprised惊讶。

本发明在残差网络中实现了一种新的掩模思想。本发明的基于深度残差网络的表情检测模型包含若干掩模块，这些掩模块应用于残差层，从粗糙特征图进化为精细特征图，从而提高网络对重要信息的注意能力，提高网络的特征判别性能。此外，本发明精简了所述基于深度残差网络的表情检测模型的网络参数以及模型参数，提高了跨视觉任务的网络性能，即提高了情绪分类和情绪检测的速度和精度。

在上述发明实施例的基础上，本发明对应提供了装置项实施例，如图2所示；

为描述的方便和简洁，本发明装置项实施例包括上述基于深度残差网络的表情检测方法实施例中的全部实施方式，此处不再赘述。

在上述发明项实施例的基础上，本发明对应提供了可读存储介质项实施例；本发明另一实施例提供了一种可读存储介质，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行如本发明任意一项方法项实施例所述的基于深度残差网络的表情检测方法。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质(即上述可读存储介质)中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种基于深度残差网络的表情检测方法，其特征在于，包括以下步骤：

将所述人脸图片输入至基于深度残差网络的表情检测模型，输出面部表情检测结果，所述面部表情检测结果包括多种面部表情及相应的概率；所述基于深度残差网络的表情检测模型包括多个残差掩膜块。

2.根据权利要求1所述的基于深度残差网络的表情检测方法，其特征在于，所述人脸图片输入至所述基于深度残差网络的表情检测模型后，根据以下步骤对所述人脸图片进行处理：

3.根据权利要求2所述的基于深度残差网络的表情检测方法，其特征在于，所述第一特征图经过多个残差掩膜块的处理后，传输至平均池化层和具有softmax的7向全连接层，具体为：

4.根据权利要求3所述的基于深度残差网络的表情检测方法，其特征在于，所述残差掩膜块包括残差层和掩模块。

5.根据权利要求4所述的基于深度残差网络的表情检测方法，其特征在于，所述残差掩膜块表示为：

x_l+1＝h(x_l)+F(x_l，W_l)

其中，h(x_l)＝W′_lx，W′_l为1×1的卷积操作，h(x_l)为直接映射部分，x_l为l层的输入，F为残差计算操作，W_l为l层的权重。

6.根据权利要求1至5任一项所述的基于深度残差网络的表情检测方法，其特征在于，获取作业人员的面部视频后，从所述面部视频中提取人脸图片，具体为：

7.一种基于深度残差网络的表情检测装置，其特征在于，包括人脸图片提取模块和表情检测模块；

8.一种可读存储介质，其特征在于，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行如权利要求1至6中任意一项所述的基于深度残差网络的表情检测方法。