CN111597884A

CN111597884A - 面部动作单元识别方法、装置、电子设备及存储介质

Info

Publication number: CN111597884A
Application number: CN202010262740.8A
Authority: CN
Inventors: 胡艺飞; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-08-28
Also published as: WO2021196389A1

Abstract

本申请提供了一种面部动作单元识别方法、装置、电子设备及存储介质，该方法包括：获取终端上传的第一待识别人脸图像；采用预训练的卷积神经网络模型对第一待识别人脸图像进行人脸检测，得到第一待识别人脸图像中人脸关键点的位置信息；利用人脸关键点的位置信息对第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；将第二待识别人脸图像输入预训练的面部动作单元识别模型，经过面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到第一待识别人脸图像的面部动作单元识别结果；向终端输出第一待识别人脸图像的面部动作单元识别结果。实施本申请实施例有利于提高人脸图像中面部动作单元识别的准确率。

Description

面部动作单元识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种面部动作单元识别方法、装置、电子设备及存储介质。

背景技术

人脸表情识别、人脸情绪分析等是当前计算机视觉研究的热门领域，而这些研究的结果在不同程度上都依赖于面部动作单元(Action Units，AU)的识别准确率。所谓面部动作单元是指识别眨眼、皱眉、嘟嘴等面部特定部位的肌肉动作是否出现，随着计算机信息技术的发展，深度学习在面部动作单元的识别中有着广泛的应用，即通过构建网络模型进行识别，但是，现有的面部动作单元识别模型大多支持的面部动作单元数量较少，且在人脸细微表情变化的描述上较为粗略，另外，当图片中的人脸处在不同的旋转角度时，或者图片中存在不影响脸部的干扰信息时，再或者图片的某些属性被改变时，都将使面部动作单元识别模型的输出受到影响，从而导致识别的准确率较低。

发明内容

针对以上问题，本申请实施例提出一种面部动作单元识别方法、装置、电子设备及存储介质，有利于提高人脸图像中面部动作单元识别的准确率。

本申请实施例第一方面，提供了一种面部动作单元识别方法，该方法包括：

获取终端上传的第一待识别人脸图像；

采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；

利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；

将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，所述主体网络部分包括多个深度残差密集网络，每个所述深度残差密集网络由深度残差网络和深度密集网络堆叠而成；

向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。

结合第一方面，在一种可能的实施方式中，所述利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像，包括：

从数据库中获取预先存储的标准人脸图像中人脸关键点的位置信息；

根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到所述第二待识别人脸图像。

结合第一方面，在一种可能的实施方式中，所述根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到所述第二待识别人脸图像，包括：

将所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息进行比对，得到相似变换矩阵H；

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

将所述第一待识别人脸图像中每个像素点的位置信息与求解后得到的所述相似变换矩阵H相乘，得到摆正的所述第二待识别人脸图像。

结合第一方面，在一种可能的实施方式中，所述将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，包括：

将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图；

利用所述注意力机制对所述高阶特征图进行最大池化和平均池化操作，得到宽、高与所述高阶特征图相同，深度为1的第一特征图和第二特征图；

根据所述第一特征图和所述第二特征图得到目标特征图，将所述目标特征图输入所述全连接层进行二分类，得到所述第一待识别人脸图像的面部动作单元识别结果。

结合第一方面，在一种可能的实施方式中，所述根据所述第一特征图和所述第二特征图得到目标特征图，包括：

在深度方向将所述第一特征图和所述第二特征图进行拼接，对拼接得到的特征图进行1*1的卷积，得到第三特征图；

将所述第三特征图的宽、高与所述高阶特征图的宽、高对应相乘得到所述目标特征图。

结合第一方面，在一种可能的实施方式中，所述将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图，包括：

将所述第二待识别人脸图像输入所述主体网络部分，经过多个所述深度残差密集网络进行特征提取，得到所述高阶特征图；其中，每个所述深度残差密集网络从1*1的卷积层开始进行卷积处理，后接3*3的卷积层，再接一个1*1的卷积层后分为两部分处理，一部分接入所述深度残差网络，在所述深度残差网络中将两个隐藏层输出的特征在宽、高上进行相加，深度保持不变，另一部分与所述深度密集网络的路径连接，在所述深度密集网络中将两个隐藏层输出的特征在深度上进行拼接，宽、高保持不变。

本申请实施例第二方面提供了一种面部动作单元识别装置，该装置包括：

图像获取模块，用于获取终端上传的第一待识别人脸图像；

人脸检测模块，用于采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；

人脸矫正模块，用于利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；

面部动作单元识别模块，用于将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，所述主体网络部分包括多个深度残差密集网络，每个所述深度残差密集网络由深度残差网络和深度密集网络堆叠而成；

识别结果输出模块，用于向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。

本申请实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取终端上传的第一待识别人脸图像；

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取终端上传的第一待识别人脸图像；

本申请的上述方案至少包括以下有益效果：本申请实施例通过获取终端上传的第一待识别人脸图像；采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果；向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。这样在终端输入第一待识别人脸图像时，首先获取第一待识别人脸图像的人脸关键点的位置信息，利用该位置信息对第一待识别人脸图像中的人脸进行矫正，以将其摆正，然后将人脸摆正的第二待识别人脸图像输入由主体网络部分、注意力机制模块和全连接层构成的面部动作单元识别模型进行识别，得到的面部动作单元识别结果相比现有技术更为准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网络架构图；

图2a为申请实施例提供的一种获取人脸图像的示例图；

图2b为申请实施例提供的另一种获取人脸图像的示例图；

图3为本申请实施例提供的一种面部动作单元识别方法的流程示意图；

图4为本申请实施例提供的一种卷积神经网络模型的结构示意图；

图5为本申请实施例提供的一种面部动作单元识别模型的结构示意图；

图6为本申请实施例提供的一种深度残差密集网络的结构示意图；

图7为本申请实施例提供的另一种面部动作单元识别方法的流程示意图；

图8为本申请实施例提供的一种面部动作单元识别装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提出一种面部动作单元识别方案，可应用于办理业务(例如：贷款业务、保险业务)时的面审或客户表情分析、心理活动分析等众多场景中，该方案中采用的面部动作单元识别模型结合了深度残差网络和深度密集网络，保证了能够学习到高阶特征，从而能够提高对终端输入的人脸图像进行面部动作单元识别的准确率，同时，由于在低阶特征阶段，人脸的面部动作单元的特征相似，如果对不同的面部动作单元分别训练模型，则会产生大量重复工作，本方案在高阶特征阶段对面部动作单元识别模型进行分支，仅需训练一个模型便能识别出39个面部动作单元，能够降低面部动作单元识别模型部署在设备上的难度，并提高模型的运行速度。具体的，该方案可基于图1所示的网络架构进行实施，如图1所示，该网络架构至少包括终端和服务器，终端和服务器之间通过网络进行通信，该网络包括但不限于虚拟专用网络、局域网络、城域网络，该终端可直接进行人脸图像采集，也可以依赖于外部图像采集工具进行人脸图像之后从外部图像采集工具获取人脸图像，终端可以是手机、平板、笔记本电脑、掌上电脑等设备。在本申请的一些实施例中，如图2a所示，终端可以在检测到人脸时自动完成人脸图像的采集，随即将采集的人脸图像发送至服务器，在本申请的一些实施例中，如图2b所示，终端也可以在屏幕上的控件被触发后才开始采集人脸图像，然后将采集的人脸图像发送至服务器，该控件可以是以固定的形式出现，也可以是以悬浮的形式出现，触发方式可以是轻触、长按、滑动等等，在此不作限定。服务器在获取到终端发送的人脸图像后，由处理器执行人脸关键点检测、人脸矫正、调用面部动作单元识别模型进行面部动作单元识别等一系列操作，最后将识别结果输出至终端向用户展示。服务器可以是单台服务器，也可以是服务器集群，还可以是云端服务器，是整个面部动作单元识别方案的执行主体，由此可见，图1所示的网络架构能够使本方案得以实施，当然，该网络架构中还可以包括更多的组成部分，例如：数据库等。

基于上述描述，以下结合其他附图对本申请实施例提供的面部动作单元识别方法进行详细阐述。请参见图3，图3为本申请实施例提供的一种面部动作单元识别方法的流程示意图，如图3所示，包括步骤S31-S35：

S31，获取终端上传的第一待识别人脸图像。

本申请具体实施例中，第一待识别人脸图像即终端上传的未经人脸检测、人脸矫正的原始人脸图像，其可以是国内外任一开源数据库中的人脸图像，也可以是银行、保险公司、通信公司等办理业务时采集的客户的人脸图像，或者还可以是小区、商场等任意监控区域的监控设备采集的图像。

S32，采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息。

本申请具体实施例中，人脸关键点即检测出的人脸中两个眼睛、鼻子、左右两侧嘴角五个关键点，位置信息即关键点的坐标，例如：两个眼部椭圆中心点的坐标、鼻尖的坐标、左右两侧嘴角的坐标。

预训练的卷积神经网络模型指多任务卷积神经网络(Multi-task CascadedConvolutional Networks，MTCNN)，如图4所示，采用三层级联架构结合卷积神经网络算法进行人脸检测及关键点定位，包括神经网络P-Net、R-Net和O-Net，第一待识别人脸图像首先输入P-Net进行识别，P-Net的输出作为R-Net的输入，同时，R-Net的输出作为O-Net的输入，每个网络的输入尺寸均不相同，P-Net的输入尺寸为12*12*3，R-Net的输入尺寸为24*24*3，O-Net的输入尺寸为48*48*3，P-Net中的处理主要为3*3的卷积和2*2的池化，R-Net中的处理主要为3*3的卷积、3*3的池化和2*2的池化，O-Net中的处理比R-Net3*3的卷积和2*2的池化，每个网络后通过一个人脸分类器判断该区域是否是人脸，同时使用边框回归和一个关键点定位器来进行人脸区域的检测。具体的，多任务卷积神经网络的处理过程为：将第一待识别人脸图像输入P-Net进行识别得到第一候选窗体和边界回归框，根据所述边界回归框对所述第一候选窗体进行校准，采用非极大值抑制去除校准后重叠的所述第一候选窗体，得到第二候选窗体；将所述第二候选窗体输入R-Net进行识别，过滤掉虚假的第二候选窗体，得到第三候选窗体；将所述第三窗体输入O-Net进行识别，通过边界框回归输出人脸区域，以及通过关键点定位输出第一待识别人脸图像中人脸关键点的位置信息。需要说明的是，P-Net中并未采用全连接，而R-Net和O-Net中分别采用了128通道和256通道的全连接，且O-Net比R-Net多一层卷积处理。

S33，利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像。

本申请具体实施例中，第二待识别人脸图像即对第一待识别人脸图像进行人脸矫正后得到的摆正的人脸图像，其中，人脸矫正涉及到缩放、旋转与平移等操作，在使用MTCNN得到第一待识别人脸图像中人脸关键点的位置信息后，获取预先存储的标准人脸图像中人脸关键点的位置信息，所谓标准人脸图像即指图像中的人脸为正面且头部不存在转动、不需要矫正的人脸，标准人脸图像中人脸关键点的位置信息(坐标信息)预先已经获取到，存储在预设数据库中，将第一待识别人脸图像中人脸关键点的位置信息与标准人脸图像中人脸关键点的位置信息进行比对，得到相似变换矩阵H，根据以下相似变换矩阵方程求解相似变换矩阵H：

之后，将第一待识别人脸图像中每个像素点的位置信息与求解后得到的相似变换矩阵H相乘，得到人脸摆正的第二待识别人脸图像。上述相似变换矩阵方程中，(x,y)表示第一待识别人脸图像中人脸关键点的位置信息，(x’,y’)表示标准人脸图像中人脸关键点的位置信息，

即为相似变换矩阵H，s表示缩放因子，θ表示旋转角度，通常是逆时针旋转，(t_x,t_y)表示平移参数，具体可采用transform.SimilarityTransform函数对相似变换矩阵H进行迭代求解，该函数来自于python sklearn库(一个机器学习库)。

S34，将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，所述主体网络部分包括多个深度残差密集网络，每个所述深度残差密集网络由深度残差网络和深度密集网络堆叠而成。

S35，向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。

本申请具体实施例中，面部动作单元识别模型的结构如图5所示，主要包括主体网络部分、注意力机制模块和最后接的全连接层，模型的输入为RGB格式的彩色图像，即输入的图像深度为3，模型的识别结果为39个面部动作单元出现的概率值，大于等于0.5则表示该面部动作单元出现，小于0.5则表示该面部动作单元未出现，例如：输出AU45(眨眼)的值为0.8，AU04(皱眉)的值为0.3，则表示输入图像中的人脸出现了AU45，而没有出现AU04。

具体的，上述将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果包括：

将第二待识别人脸图像输入预训练的面部动作单元识别模型的主体网络部分，经过多个深度残差密集网络进行特征提取，得到高阶特征图；利用面部动作单元识别模型的注意力机制对该高阶特征图进行最大池化和平均池化操作，得到宽、高与高阶特征图相同，深度为1的第一特征图和第二特征图；在深度方向将第一特征图和第二特征图进行拼接，对拼接得到的特征图进行1*1的卷积，得到第三特征图；将该第三特征图的宽、高与高阶特征图的宽、高相乘，得到一目标特征图，将该目标特征图作为全连接层的输入，由全连接层进行二分类，最终输出第一待识别人脸图像的面部动作单元识别结果。

面部动作单元识别模型的主体网络部分由四个深度残差密集网络构成，总共有92个隐藏层，如图6所示，每个深度残差密集网络由深度残差模块和深度密集模块堆叠而成，一个深度残差密集网络从1*1的卷积层开始，后接3*3的卷积层，在最后一个1*1的卷积层后分为两部分，一部分按照对应宽、高相加的方式接入深度残差模块，利用残差网络的特性，使得学习到的好的特征不会随着网络的加深而被遗忘掉，例如：将第二隐藏层层得到的特征的宽和高两个维度与第五隐藏层得到的特征的宽和高相加，深度这一维度保持不变，另一部分与深度密集模块的路径连接，例如：将第二隐藏层得到的特征的深度这一维度与第五隐藏层得到的特征的深度进行拼接，保持高阶特征的多样性，例如：深度为20和30的两个特征，拼接后的特征深度就为50，而宽和高不变。需要说明的是，主体网络部分采用深度残差网络与深度密集网络相结合的结构，与现有技术中只使用深度残差网络相比，更有利于保持高阶特征的多样性，进而更有利于准确识别出39个面部动作单元。

另外，注意力机制模块的作用是为主体网络部分提取到的高阶特征赋予权重，使这些高阶特征重新组合，其采用最大池化、平均池化和1*1卷积相结合的方式，其输入为主体网络部分的输出，经过最大池化和平均池化处理，得到两个宽、高与输入的特征相同，深度为1的特征图，即第一特征图和第二特征图。在深度上对这两个特征图进行拼接，经过1*1卷积的卷积得到注意力机制模块的输出特征图，即第三特征图，将该输出特征图的宽、高与注意力机制模块的输入特征图(即高阶特征图)对应的宽、高相乘得到全连接层的输入特征图，即目标特诊图，将该目标特征图输入全连接层进行矩阵相乘，得到39个面部动作单元的二分类概率值，最后向终端输出39个面部动作单元的二分类概率值，对第一待识别图像的面部动作单元识别结果进行展示。此处，使用不同尺度的最大池化和平均池化进行处理有利于捕捉到不同尺度的特征信息，着重于获取宽、高两个维度的权重，能明确输入的人脸哪个位置的特征信息更有利于面部动作单元的识别。

可以看出，本申请实施例通过获取终端上传的第一待识别人脸图像；采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果；向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。这样在终端输入第一待识别人脸图像时，首先获取第一待识别人脸图像的人脸关键点的位置信息，利用该位置信息对第一待识别人脸图像中的人脸进行矫正，以将其摆正，然后将人脸摆正的第二待识别人脸图像输入由主体网络部分、注意力机制模块和全连接层构成的面部动作单元识别模型进行识别，得到的面部动作单元识别结果相比现有技术更为准确。

基于图3所示的面部动作单元识别方法实施例的描述，请参见图7，图7为本申请实施例提供的另一种面部动作单元识别方法的流程示意图，如图7所示，包括步骤S71-S76：

S71，获取终端上传的第一待识别人脸图像；

S72，采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；

S73，从数据库中获取预先存储的标准人脸图像中人脸关键点的位置信息；

S74，根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；

在一种可能的实施方式中，上述根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像，包括：

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

该实施方式中，利用MTCNN进行人脸矫正，在第一待识别人脸图像中人脸转动不同角度时模型都能准确判断，保障了模型的稳定性。

S75，将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，所述主体网络部分包括多个深度残差密集网络，每个所述深度残差密集网络由深度残差网络和深度密集网络堆叠而成；

在一种可能的实施方式中，上述将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，包括：

利用所述面部动作单元识别模型的注意力机制对所述高阶特征图进行最大池化和平均池化操作，得到第一特征图和第二特征图；

根据所述第一特征图和所述第二特征图得到目标特征图。

其中，上述根据所述第一特征图和所述第二特征图得到目标特征图，包括：

根据所述高阶特征图和所述第三特征图得到目标特征图；

将所述目标特征图输入所述面部动作单元识别模型的全连接层进行二分类，输出所述第一待识别人脸图像的面部动作单元识别结果。

其中，上述将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图，包括：

该实施方式中，面部动作单元识别模型的主体网络部分采用深度残差网络和深度密集网络堆叠而成，保证了学习到更高阶的特征，加上最大池化、平均池化和1*1卷积的注意力机制模块，有利于删除冗余特征，提高了39个面部动作单元的识别准确度。

S76，向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。

需要说明的是，上述步骤S71-S76的具体实施方式在图3所示的实施例中已有详细描述，且能达到相同或相似的有益效果，此处不再赘述。

基于上述面部动作单元识别方法实施例的描述，本申请还提供一种面部动作单元识别装置，所述面部动作单元识别装置可以是运行于终端中的一个计算机程序(包括程序代码)。该面部动作单元识别装置可以执行图3或图7所示的方法。请参见图8，该装置包括：

图像获取模块81，用于获取终端上传的第一待识别人脸图像；

人脸检测模块82，用于采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；

人脸矫正模块83，用于利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；

面部动作单元识别模块84，用于将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，所述主体网络部分包括多个深度残差密集网络，每个所述深度残差密集网络由深度残差网络和深度密集网络堆叠而成；

识别结果输出模块85，用于向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。

在一个实施例中，在利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像方面，人脸矫正模块83具体用于：

在一个实施例中，在根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到所述第二待识别人脸图像方面，人脸矫正模块83具体用于：

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

在一个实施例中，在将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果方面，面部动作单元识别模块84具体用于：

在一个实施例中，在根据所述第一特征图和所述第二特征图得到目标特征图方面，面部动作单元识别模块84具体用于：

在一个实施例中，在将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图方面，面部动作单元识别模块84具体用于：

本申请实施例提供的面部动作单元识别装置，通过获取终端上传的第一待识别人脸图像；采用预训练的卷积神经网络模型对所述第一待识别人脸图像进行人脸检测，得到所述第一待识别人脸图像中人脸关键点的位置信息；利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像；将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果；向所述终端输出所述第一待识别人脸图像的面部动作单元识别结果。这样在终端输入第一待识别人脸图像时，首先获取第一待识别人脸图像的人脸关键点的位置信息，利用该位置信息对第一待识别人脸图像中的人脸进行矫正，以将其摆正，然后将人脸摆正的第二待识别人脸图像输入由主体网络部分、注意力机制模块和全连接层构成的面部动作单元识别模型进行识别，得到的面部动作单元识别结果相比现有技术更为准确。

根据本申请的一个实施例，图8所示的面部动作单元识别装置的各个模块可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，面部动作单元识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3或图7中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的面部动作单元识别装置设备，以及来实现本申请实施例的面部动作单元识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，请参见图9，图9为本申请实施例提供的一种电子设备的结构示意图，如图9所示，该电子设备至少包括处理器901、输入设备902、输出设备903以及计算机存储介质904。其中，电子设备内的处理器901、输入设备902、输出设备903以及计算机存储介质904可通过总线或其他方式连接。

计算机存储介质904可以存储在电子设备的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器901可以用于对获取到的人脸图像进行一系列面部动作单元识别处理：

获取终端上传的第一待识别人脸图像；

在一种可能的实施方式中，处理器901执行所述利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像，包括：

在一种可能的实施方式中，处理器901执行所述根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到所述第二待识别人脸图像，包括：

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

在一种可能的实施方式中，处理器901执行所述将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，包括：

在一种可能的实施方式中，处理器901执行所述根据所述第一特征图和所述第二特征图得到目标特征图，包括：

在一种可能的实施方式中，处理器901执行所述将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图，包括：

示例性的，上述电子设备可以是服务器、电脑主机、云端服务器等设备。电子设备可包括但不仅限于处理器901、输入设备902、输出设备903以及计算机存储介质904。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器901执行计算机程序时实现上述的面部动作单元识别方法中的步骤，因此上述面部动作单元识别方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器901的计算机存储介质。在一个实施例中，可由处理器901加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关面部动作单元识别方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：

获取终端上传的第一待识别人脸图像；

在一种示例中，计算机存储介质中的一条或多条指令由处理器901加载时还执行如下步骤：

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

示例性的，计算机存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的面部动作单元识别方法中的步骤，因此上述面部动作单元识别方法的所有实施例均适用于该计算机存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种面部动作单元识别方法，其特征在于，所述方法包括：

获取终端上传的第一待识别人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一待识别人脸图像中人脸关键点的位置信息与所述标准人脸图像中人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到所述第二待识别人脸图像，包括：

根据预设相似变换矩阵方程求解所述相似变换矩阵H；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述第二待识别人脸图像输入预训练的面部动作单元识别模型，经过所述面部动作单元识别模型的主体网络部分、注意力机制及全连接层的处理，得到所述第一待识别人脸图像的面部动作单元识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一特征图和所述第二特征图得到目标特征图，包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述第二待识别人脸图像输入所述主体网络部分进行特征提取，得到高阶特征图，包括：

7.一种面部动作单元识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取终端上传的第一待识别人脸图像；

8.根据权利要求7所述的装置，其特征在于，在利用所述人脸关键点的位置信息对所述第一待识别人脸图像进行人脸矫正，得到第二待识别人脸图像方面，所述人脸矫正模块具体用于：

9.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。