CN110321872B

CN110321872B - 人脸表情识别方法及装置、计算机设备、可读存储介质

Info

Publication number: CN110321872B
Application number: CN201910626366.2A
Authority: CN
Inventors: 陈冠男; 吴艳红
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-03-16
Anticipated expiration: 2039-07-11
Also published as: US20210012096A1; US11281895B2; CN110321872A

Abstract

本发明提供了一种人脸表情识别方法，包括：获取待识别的人脸图像；对待识别的人脸图像进行预处理；利用神经网络依次进行第一分区卷积处理和第二分区卷积处理；第一分区卷积处理包括：将输入图像划分为排成多行多列的多个区域；第二分区卷积处理包括：基于人脸关键器官的位置，将输入图像划分为多个区域；第一分区卷积处理和第二分区卷积处理均还包括：对每个区域进行特征提取，得到每个区域的区域特征图像；将所有的区域特征图像进行区域合并，生成输出图像；人脸识别方法还包括：根据第二分区卷积处理的输出图像确定表情类别。本发明还提供一种人脸表情识别装置、计算机设备和计算机可读存储介质。本发明能够提高表情识别的准确性。

Description

人脸表情识别方法及装置、计算机设备、可读存储介质

技术领域

本发明涉及图像处理领域，具体涉及一种人脸表情识别方法及装置、计算机设备、计算机可读存储介质。

背景技术

人脸特征识别是近年来生物模式识别中的热点技术。该技术要求对人脸的面部特征点进行检测定位，并根据这些特征点进行人脸匹配，表情分析等应用。其中，表情识别是人脸特征识别技术领域中的一个难点。而随着深度学习的兴起，目标识别算法也突破了传统算法的瓶颈，称为近年来人脸特征识别领域的热门关注点。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种人脸表情识别方法及装置、计算机设备、可读存储介质。

为了实现上述目的，本发明提供一种人脸表情识别方法，包括：

获取待识别的人脸图像；

对待识别的人脸图像进行预处理，得到预处理后的人脸图像；

利用训练得到的神经网络针对第一输入图像依次进行第一分区卷积处理和第二分区卷积处理；其中，所述第一输入图像基于所述预处理后的人脸图像得到；

所述第一分区卷积处理包括：

将第一输入图像划分为排成多行多列的多个区域；

所述第二分区卷积处理包括：

基于人脸关键器官的位置，将第二分区卷积处理的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域；其中，所述第二分区卷积处理的输入图像基于所述第一分区卷积处理的输出图像得到；

所述第一分区卷积处理和所述第二分区卷积处理均还包括：

对每个区域进行特征提取，得到每个区域的区域特征图像；所述每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸；

将所有的区域特征图像进行区域合并，生成与所述预处理后的人脸图像尺寸相同的输出图像；

所述人脸识别方法还包括：根据第二分区卷积处理的输出图像确定所述待识别的人脸图像对应的表情类别。

可选地，进行所述第一分区卷积处理之前，还包括：利用所述神经网络进行第三分区卷积处理，所述第三分区卷积处理包括：

将所述第三分区卷积处理的输入图像划分为排成多行多列的多个区域；

其中，所述第三分区卷积处理的输入图像为所述预处理后的人脸图像；所述第一输入图像为所述第三分区卷积处理的输出图像；所述第二分区卷积处理的输入图像为所述第一分区卷积处理的输出图像。

可选地，所述预处理包括图像增强处理。

可选地，所述对待识别的人脸图像进行预处理，包括：

对所述待识别的人脸图像进行低通滤波，得到低频图像；

获取所述待识别的人脸图像与所述低频图像之间的差值图像；

计算所述差值图像和所述待识别的人脸图像的加权和，得到所述预处理后的人脸图像。

可选地，所述第一分区卷积处理中，将第一输入图像划分成的多个区域的大小、形状均一致。

可选地，所述第一分区卷积处理中，将所述第一输入图像划分成的多个区域排成4行4列；

所述第二分区卷积处理中，将所述第二分区卷积处理的输入图像划分成的多个区域排成3行1列，所述第二分区卷积处理的输入图像划分成的多个区域分别对应人脸图像的眼部、鼻部和嘴部；

所述第三分区卷积处理中，将所述第三分区卷积处理的输入图像划分成的多个区域排成4行4列。

可选地，所述将第一输入图像划分为排成多行多列的多个区域，包括：

对所述第一输入图像进行卷积处理，得到第一特征图像；

将第一特征图像划分为排成4行4列的16个区域；

基于人脸关键器官的位置，将第二分区卷积处理的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域；包括：

对所述第二分区卷积处理的输入图像进行卷积处理，得到第二特征图像；

基于人脸关键器官的位置，将第二特征图像划分为三个区域，以使所述三个区域分别包含人脸的眼部、鼻部和嘴部；

将所述第三分区卷积处理的输入图像划分为排成多行多列的多个区域，包括：

对所述第三分区卷积处理的输入图像进行卷积处理，得到第三特征图像；

将第三特征图像划分为排成4行4列的16个区域。

可选地，所述对每个区域进行特征提取，得到每个区域的区域特征图像，包括：

对每个区域进行批量归一化处理，得到每个区域的归一化图像；

对每个区域的归一化图像进行激活处理，得到每个区域的激活图像；

对每个区域的激活图像进行卷积处理，得到每个区域的区域特征图像。

可选地，所述利用训练得到的神经网络依次进行第一分区卷积处理和第二分区卷积处理，之后还包括利用所述神经网络进行：

基于所述第二分区卷积处理的输出图像进行卷积处理，得到输出特征图像；

对所述输出特征图像进行全局平均池化处理，得到池化特征图像；

根据所述池化特征图像计算每种预设的表情类别的置信度；

所述根据第二分区卷积处理的输出图像确定所述待识别的人脸图像对应的表情类别，包括：根据每种预设的表情类别的置信度确定所述待识别的人脸图像对应的表情类别。

可选地，所述神经网络是通过随机梯度下降法训练得到。

本发明还提供了一种人脸表情识别装置，包括：图像获取模块、预处理模块、神经网络和识别模块；

所述图像获取模块用于获取待识别的人脸图像；

所述预处理模块用于对所述待识别的人脸图像进行预处理，得到预处理后的人脸图像；

所述神经网络包括：第一分区卷积模块和第二分区卷积模块；

所述第一分区卷积模块包括：第一分区单元，用于将第一分区卷积模块的输入图像划分为排成多行多列的多个区域；其中，所述第一分区卷积模块的输入图像基于所述预处理后的人脸图像得到；

所述第二分区卷积模块包括：第二分区单元，用于基于人脸关键器官的位置，将第二分区卷积模块的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域；其中，所述第二分区卷积模块的输入图像基于所述第一分区卷积模块的输出图像得到；

所述第一分区卷积模块和所述第二分区卷积模块均还包括区域特征提取单元和合并单元；

其中，所述区域特征提取单元，被配置为对每个区域进行特征提取，得到每个区域的区域特征图像；所述每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸；

所述合并单元，被配置为将所有的区域特征图像进行区域合并，生成与所述预处理后的人脸图像尺寸相同的输出图像；

所述识别模块用于根据所述第二分区卷积模块的输出图像确定所述待识别的人脸图像对应的表情类别。

可选地，所述神经网络还包括第三分区卷积模块，所述第三分区卷积模块包括：第三分区单元以及所述区域特征提取单元和所述合并单元，

其中，所述第三分区单元用于将所述第三分区卷积模块的输入图像划分为排成多行多列的多个区域；所述第三分区卷积模块的输入图像为所述预处理后的人脸图像，所述第一分区卷积模块的输入图像为所述第三分区卷积模块的输出图像；所述第二分区卷积模块的输入图像为所述第一分区卷积模块的输出图像。

可选地，所述第一分区单元被配置为将所述第一分区卷积模块的输入图像划分成4行4列的16个区域；所述第二分区单元被配置为将所述第二分区卷积模块的输入图像划分成3行1列的3个区域，所述3个区域分别对应所述待识别的人脸图像的眼部、鼻部和嘴部；所述第三分区单元被配置为将所述第三分区卷积模块的输入图像划分成4行4列的16个区域。

本发明还提供了一种计算机设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，所述一个或多个程序被所述一个或多个处理器执行时实现权利要求1至10中任一所述的人脸表情识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一所述的人脸表情识别方法。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种人脸表情识别方法的流程图之一；

图2为本发明实施例提供的人脸表情识别方法的流程图之二；

图3为本发明实施例中第三分区卷积处理的流程图；

图4为本发明实施例中第二分区卷积处理的流程图；

图5a为本发明实施例中第三分区卷积处理中将输入图像划分成多个区域的排列方式示意图；

图5b为本发明实施例中第二分区卷积处理中将输入图像划分成多个区域的排列方式示意图；

图6为本发明实施例提供的一种人脸表情识别装置的示意图；

图7为本发明实施例中第一分区卷积模块的一种可选结构示意图；

图8为本发明实施例中第二分区卷积模块的一种可选结构示意图；

图9为本发明实施例提供的另一种人脸表情识别装置的示意图；

图10为本发明实施例中第三分区卷积模块的一种可选结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提供一种人脸表情识别方法，该人脸表情识别方法可以基于CPU执行。图1为本发明实施例提供的一种人脸表情识别方法的流程图之一，如图1所示，人脸表情识别方法包括：

S1、获取待识别的人脸图像。

S2、对待识别的人脸图像进行预处理，得到预处理后的人脸图像。

在一些实施例中，步骤S2中进行的预处理包括图像增强处理。

S3、利用训练得到的神经网络对第一输入图像依次进行第一分区卷积处理和第二分区卷积处理。所述第一输入图像基于所述预处理后的人脸图像得到。具体的第一输入图像可以是预处理后的人脸图像，也可以是对预处理后的人脸图像进一步处理(例如再一次的分区卷积处理)后得到的图像。

其中，第一分区卷积处理包括：

S31a、将第一输入图像划分为排成多行多列的多个区域。

需要说明的是，在一些实施例中，将第一输入图像划分为多个区域时，可以不直接对第一输入图像本身进行区域的划分，而是可以对第一输入图像进行特征提取后，再对生成的特征图像进行区域划分。

S32、对S31a步骤中第一输入图像被划分后每个区域进行特征提取，得到每个区域的区域特征图像；每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸。

其中，本发明中的图像的尺寸可以看作图像的像素行、列数。

S33、将S32步骤中得到的所有的区域特征图像进行区域合并，生成与所述预处理后的人脸图像尺寸相同的输出图像。其中，区域合并是指，将多个尺寸较小的特征图像拼接成尺寸较大的特征图像，并进行激活处理等操作，此处的特征图像可以是矩阵或向量。

第二分区卷积处理包括：

S31b、基于人脸关键器官的位置，将第二分区卷积处理的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域。其中，第二分区卷积处理的输入图像基于第一分区卷积处理的输出图像得到，也就是说，第二分区卷积处理在神经网络的深层进行，第一分区卷积处理在神经网络的浅层进行。具体的，第二分区卷积处理的输入图像可以是第一分区卷积处理的输出图像，也可以是对第一分区卷积处理的输出图像进行处理(例如再一次的分区卷积处理)后得到的图像。

其中，人脸关键器官是指，形状发生变化时能够直接影响表情的器官。在本发明中，人脸关键器官包括：眼睛、鼻子(尤其指鼻头)和嘴巴。

和步骤S31a中相同的，在一些实施例中，步骤S31b对第二分区卷积处理的输入图像划分为多个区域时，可以不直接对输入图像本身进行区域的划分，而是可以对输入图像进行特征提取后，再对生成的特征图像进行区域划分。

另外，第二分区卷积处理同样包括上述步骤S32和步骤S33。应当理解的是，第二分区卷积处理和第一分区卷积处理中的步骤S32的处理过程相同，但所处理的输入图像不同；第二分区卷积处理和第一分区卷积处理的步骤S33的处理过程也相同，但所处理的输入图像不同。具体地，第一分区卷积处理的步骤S32中是对步骤S31a得到的每个区域进行特征提取；第二分区卷积处理的步骤S32中是对步骤S31b得到的每个区域进行特征提取；第一分区卷积处理的步骤S33和第二分区卷积处理的步骤S33则分别是对各自对应的步骤S32输出的多个区域特征图像进行处理。第一分区卷积处理和第二分区卷积处理的输出图像均为各自的步骤S33的输出图像。

步骤S3之后还包括：

S4、根据第二分区卷积处理的输出图像确定待识别的人脸图像对应的表情类别。

利用神经网络对图像进行处理时，在神经网络的浅层提取的特征以细节纹理特征为主；而在神经网络的深层，提取到的特征更偏重语义特征。因此，本实施例在利用神经网络对人脸图像进行表情识别时，在第一分区卷积处理中，将图像划分为多行多列的多个区域，再对每个区域进行特征提取，从而使神经网络更关注图像的细节特征；而在第一分区卷积处理之后的第二分区卷积处理中，基于人脸关键器官的位置对图像进行区域划分，从而使神经网络的深层能够更关注人脸器官的特征，进而能够结合人脸图像的细节特征和器官的结构特征进行表情识别，提高表情识别的准确性。

本发明中的神经网络可以通过随机梯度下降法(SGD)训练得到。具体地，首先可以获取待训练的神经网络以及各种预设的表情类别的人脸图像样本，然后每次获取一定数量的人脸图像的样本并将其进行预处理，将预处理后的人脸图像样本输入至神经网络中进行梯度下降迭代训练，直至达到预设训练条件，获得训练好的神经网络。其中，预设训练条件可以为：迭代次数达到预设次数，或者损失函数的取值小于预设值。其中，可以采用交叉熵作为损失函数。

其中，预设的表情类别可以包括：高兴、惊讶、平静、悲伤、生气、厌恶和恐惧。当然，也可以预设其他数量、其他种类的表情类别。

图2为本发明实施例提供的人脸表情识别方法的流程图之二，如图2所示，人脸表情识别方法包括：

A1、获取待识别的人脸图像。

A2、对待识别的人脸图像进行预处理，得到预处理后的人脸图像。其中，预处理包括图像增强处理，具体可以为反锐化掩模(unsharpmask)增强，从而突出图像的纹理细节，调节图像的动态范围，使其灰度表现更均衡，进而有助于提高识别效果。

具体地，步骤S2包括：

A21、对待识别的人脸图像进行低通滤波，得到低频图像。其中，可以采用高斯滤波器G对待识别的人脸图像I进行低通滤波，从而得到低频图像I_L＝I*G。

A22、获取待识别的人脸图像I与低频图像I_L之间的差值图像I_D＝I-I_L，该差值图像即为待识别的人脸图像的细节图像。

A23、计算差值图像I_D和待识别的人脸图像I的加权和，得到预处理后的人脸图像I_OUT。其中，I_OUT＝I+α·I_D，α为预设权值。

A3、利用神经网络对预处理后的人脸图像依次进行第三分区卷积处理、第一分区卷积处理和第二分区卷积处理。

其中，第三分区卷积处理在第一分区卷积处理之前进行，图3为本发明实施例中第三分区卷积处理的流程图，如图3所示，第三分区卷积处理包括步骤A31至步骤A33：

A31、将第三分区卷积处理的输入图像划分为排成多行多列的多个区域。其中，该步骤A31的输入图像(即，第三分区卷积处理的输入图像)可以为预处理后的人脸图像。

在一些实施例中，步骤A31包括以下步骤S311至S312：

A311、对第三分区卷积处理的输入图像进行特征提取，得到相应的第三特征图像。应当理解的是，经过神经网络的处理所得到的各个图像并不是可视化的图片，而是能够表示图像的图像特征向量或图像特征矩阵。

在一些实施例中，该步骤A311包括：对输入图像进行卷积处理。其中，可以利用至少一层卷积层来进行卷积处理，例如，利用一层卷积层来进行卷积处理，卷积层可以包括至少一个3*3的卷积核。

A312、将第三特征图像划分为排成多行多列的多个区域。

可以理解的是，在对图像进行区域划分时，具体可以为，从用于表征整个图像的矩阵中分别提取用于表征不同区域的数据。例如，将100*100的图像划分为两行两列的区域时，则提取第1～50行、第1～50列的数据作为第一个区域的数据，提取第51～100行、第1～50列的数据作为第二个区域的数据，依次类推。

图5a为本发明实施例中第三分区卷积处理中将输入图像划分成多个区域的排列方式示意图，如图5a所示，第三分区卷积处理中将输入图像划分为排成4行4列的多个区域，进一步的，多个区域的大小、形状均一致。

需要说明的是，在第三分区卷积处理中将输入图像划分成的区域的行列数仅为示例性说明，也可以根据输入图像的大小将输入图像划分为其他行列数的多个区域。例如，输入图像的大小为128*128时，可以将其划分为排成8行8列的多个区域。

A32、对每个区域进行特征提取，得到每个区域的区域特征图像。需要注意的是，第三分区卷积处理中的步骤A32所进行特征提取的每个区域为A31中划分后得到的区域。

如图3所示，步骤S32包括以下步骤A321至A322：

A321、对每个区域进行批量归一化(Batch Normalization，BN)处理，得到每个区域的归一化图像。其中，可以利用神经网络的批量归一化层进行批量归一化处理。

A322、对每个归一化图像进行激活处理，得到每个区域的激活图像。其中，可以利用激活层的激活函数进行该步骤S313b。激活函数具体可以为ReLU激活函数。

A323、对每个激活图像进行卷积处理，得到每个区域的区域特征图像。该卷积处理过程可以由至少一层卷积层进行，例如，利用一层卷积层来进行卷积处理，卷积层可以包括多个3*3的卷积核。每个区域特征图像的尺寸与相应的区域的尺寸相同。

A33、将A32中得到的所有的区域特征图像进行区域合并，生成与所述预处理后的人脸图像尺寸相同的输出图像。

如图3所示，步骤A33具体包括：A331、将多个区域特征图像合并，并进行激活处理，得到相应的输出图像。

在图2中的第一分区卷积处理包括步骤B1-B3：

B1、将第一输入图像划分为排成多行多列的多个区域。其中，该步骤B1的输入图像(即，第一输入图像)为第三分区卷积处理的输出图像，也即，第三分区卷积处理中的步骤A33的输出图像。

可以理解的是，该步骤B1与上述步骤A31的处理过程类似，区别在于处理的输入图像不同，具体的A31中输入图像为第三分区卷积处理的输入图像，而B1中输入图像为第一输入图像。因此，步骤B1可以通过上述步骤A31中的步骤A311至A312的处理方式来对B1的第一输入图像进行处理，具体参见上文描述。

同样的，第一分区卷积处理中将输入图像划分成的多个区域可以按照图5a中排列方式进行排列，当然，也可以按照其他行列数进行排列。具体的，第一分区卷积处理可以将第一输入图像划分为排成4行4列的16个区域，进一步地，所述16个区域的大小和尺寸都相同。

具体的，所述将第一分区卷积处理的输入图像划分为排成多行多列的多个区域，包括：对所述第一输入图像进行卷积处理，得到第一特征图像；将第一特征图像划分为排成4行4列的16个区域。

B2、对每个区域进行特征提取，得到每个区域的区域特征图像；每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸。第一分区卷积处理中的步骤B2与第三分区卷积处理中的步骤A32为相似的处理过程，只是二者所处理的区域不同。B2步骤中，第一分区卷积处理中的每个区域为B1中划分得到的区域。

B3、将所有的区域特征图像进行区域合并，生成与所述预处理后的人脸图像尺寸相同的输出图像。第一分区卷积处理中的步骤B3生成输出图像时利用的区域特征图像为第一分区卷积处理的步骤B2中得到的区域特征图像。

步骤B2对多个区域的具体处理、步骤B3生成输出图像的过程均参见上文描述，这里不再赘述。

图2中第二分区卷积处理的流程图，如图4所示，第二分区卷积处理包括：步骤SS31b至SS33。

SS31b、基于人脸关键器官的位置，将第二分区卷积处理的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域。

在一些实施例中，第二分区卷积处理的输入图像为第一分区卷积处理的输出图像。

图5b为本发明实施例中第二分区卷积处理中将输入图像划分成多个区域的排列方式示意图，第二分区卷积处理将输入图像划分为排成3行1列的3个区域，这3个区域分别对应人脸图像的眼部、鼻部(尤其是鼻头部分)和嘴部。在具体应用中，根据人脸器官的分布特点，使最上方的区域面积为输入图像的面积的一半，其余两个区域的面积均为人脸图像的面积的1/4，从而将眼睛、鼻子和嘴巴划分在三个区域中。

具体地，该步骤SS31b包括：

SS313、对第二分区卷积处理的输入特征图像进行特征提取，得到第二特征图像。其中，步骤SS313的输入图像(即，第二分区卷积处理的输入图像)为第一分区卷积处理的输出图像。对第二分区卷积处理的输入图像进行的卷积处理可以利用至少一层卷积层来进行。

SS314、基于人脸关键器官的位置，将第二特征图像划分为多个区域。具体的，基于人脸关键器官的位置，将第二特征图像划分为三个区域，以使所述三个区域分别包含人脸的眼部、鼻部和嘴部。

SS32、对每个区域进行特征提取，得到每个区域的区域特征图像；每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸。第二分区卷积处理中的步骤SS32与第一分区卷积处理的步骤B2、第三分区卷积处理的步骤A32为相似的处理过程，只是三者所进行特征提取的区域不同。第二分区卷积处理中的步骤SS32所进行特征提取的每个区域为步骤SS31b中划分得到的区域。

SS33、将所有的区域特征图像进行区域合并，生成与预处理后的人脸图像尺寸相同的输出图像。第二分区卷积处理中的步骤SS33与第一分区卷积处理的步骤B3、第三分区卷积处理的步骤A33为相似的处理过程，只是三者所处理的区域特征图像不同。第二分区卷积处理中的步骤SS33生成输出图像时利用的区域特征图像为第二分区卷积处理的步骤SS32中得到的区域特征图像。

步骤SS32对区域的具体处理、步骤SS33生成输出图像的过程均参见上文描述，这里不再赘述。

图2中的步骤A3之后还包括利用神经网络进行的步骤A34至A36：

A34、基于第二分区卷积处理的输出图像进行卷积处理，得到输出特征图像。其中，可以利用至少一层卷积层进行卷积处理，例如，利用两层卷积层进行卷积处理，其中一层卷积层包括多个1*1的卷积核，另一层卷积层包括多个3*3的卷积核。

需要说明的是，A34步骤可以是直接基于第二分区卷积处理的输出图像进行卷积处理，也可以是将第二分区卷积处理的输出图像再进行至少一次分区卷积处理(例如可以是与第二分区卷积处理相同的分区方式进行的分区处理，即3行1列的分区卷积处理)，根据再进行至少一次分区卷积处理后的输出再进行卷积处理得到输出特征图像。

A35、对输出特征图像进行全局平均池化处理，得到池化特征图像。其中，可以利用神经网络的全局平均池化层来进行全局平均池化处理，以求平均值的方式将高维向量转化为一维特征向量，从而减小计算量。

A36、根据池化特征图像计算每种预设的表情类别的置信度。

其中，该步骤S36可以由神经网络的Softmax层进行，Softmax层利用Softmax方法计算每种表情类别的置信度，置信度P的计算公式如下：

其中，j表示表情类别的序号，x为Softmax层的输入向量，w为网络权重参数，P(y＝j|x)为Softmax层的输入向量为x时，对应的表情类别为第j种表情类别的置信度。

步骤A36之后还包括：

A4、根据第二分区卷积处理的输出图像确定待识别的人脸图像对应的表情类别。

在一些实施例中，该步骤A4具体包括：A41、根据每种表情类别的置信度确定待识别的人脸图像对应的表情类别。

该步骤中，具体可以将置信度最大的表情类别确定为人脸图像对应的表情类别。

应当理解的是，本发明的人脸表情识别方法还可以包括在第三分区卷积处理之前进行其他分区卷积处理，第三分区卷积处理对图像的处理过程与第一分区卷积处理对图像的处理过程相类似。另外，第二分区卷积处理之后还可以进行其他分区卷积处理，第二分区卷积处理之后的分区卷积处理对图像的处理过程与第二分区卷积处理对图像的处理过程相同。

下面将本发明的人脸表情识别方法与其他表情识别方法的识别结果进行了对比。其中，本发明的人脸表情识别方法中，采用了上述第一分区卷积处理、第二分区卷积处理和第三分区卷积处理过程，其中，第一分区卷积处理和第三分区卷积处理所划分的区域均为4行4列，第二分区卷积处理所划分的区域为三行一列。表1为基于数据集CK+得到的不同表情识别方法的结果对比。其中，第一列准确率为识别6种表情时的准确率，第二列准确率为识别8种表情时的准确率。第二行的“一次分区卷积”方法为：只采用第一次分区卷积处理，且划分区域排列为8行8列。FN2EN为基于论文“H.Ding,S.Zhou，R.Challenge：Facenet2Expanet：Regularizing a Deep Face Recognition Net for ExpressionRecognition”中的方法。

表2为基于FER2013数据集进行的不同表情识别方法的结果对比。各方法基于CPU执行，表2中，第2列表示执行各方法的模型所占空间大小。

表1

方法	准确率(6种表情)	准确率(8种表情)
			本发明	0.992	0.978
一次分区卷积	0.949	0.942
			InceptionV3	0.949	0.959
FN2EN	0.986	0.968

表2

方法	模型(MB)	准确率
			本发明	25.3	0.68
InceptionV3	87.6	0.59
			一次分区卷积	61.7	0.56

从表1和表2可以看出，本发明的表情识别方法的识别准确率较高，且计算模型所占空间较小。

本发明实施例还提供一种人脸表情识别装置，该人脸表情识别装置用于执行上述人脸表情识别方法。图6为本发明实施例提供的一种人脸表情识别装置的示意图，如图6所示，该人脸表情识别装置包括：图像获取模块10、预处理模块20、神经网络30和识别模块40。

其中，图像获取模块10用于获取待识别的人脸图像。

预处理模块20用于对待识别的人脸图像进行预处理，得到预处理后的人脸图像。

神经网络30包括：第一分区卷积模块31和第二分区卷积模块32。第一分区卷积模块31用于执行上述第一分区处理过程，第二分区卷积模块用于执行上述第二分区处理过程。

图7为本发明实施例中第一分区卷积模块的一种可选结构示意图，如图7所示，在一些实施例中，第一分区卷积模块31包括：第一分区单元31a、区域特征提取单元312和合并单元313。

第一分区单元31a用于将第一分区卷积模块的输入图像划分为排成多行多列的多个区域；其中，第一分区卷积模块31的输入图像基于所述预处理后的人脸图像得到。可选地，第一分区单元31a将第一分区卷积模块31的输入图像划分成的多个区域排成4行4列，且多个区域的大小、形状均一致。

在一些实施例中，第一分区单元31a包括：第一提取子单元311a、第一分区子单元312a。

第一提取子单元311a用于对输入图像进行特征提取，得到第一特征图像。其中，第一提取子单元311a可以包括第一卷积层，该卷积层包括多个3*3的卷积核。

第一分区子单元312a用于将相应的第一特征图像划分为排成多行多列的多个区域。

区域特征提取单元312用于对每个区域进行特征提取，得到每个区域的区域特征图像；每个区域的区域特征图像的尺寸小于所述预处理后的人脸图像的尺寸。

在一些实施例中，区域特征提取单元312包括多个第三提取子单元3121，多个第三提取子单元3121与多个区域一一对应，多个第三提取子单元3121用于对各自对应的区域进行特征提取，得到每个区域的区域特征图像。

其中，第三提取子单元3121包括：批量归一化层3121a、第一激活层3121b和第二卷积层3121c，批量归一化层3121a位于第一激活层之前，第一激活层3121b位于批量归一化层3121a与第二卷积层3121c之间。

在一些实施例中，合并单元313包括：合并子单元313a和第二激活层313b。合并子单元313a用于将多个区域特征图像合并，得到与预处理后的人脸图像尺寸相同的合并特征图像；第二激活层313b用于对合并特征图像进行激活处理，得到相应的输出图像。

图8为本发明实施例中第二分区卷积模块的一种可选结构示意图，如图8所示，在一些实施例中，第二区卷积模块32包括：第二分区单元31b。

第二分区单元31b用于基于人脸关键器官的位置，将第二区卷积模块32的输入图像划分为多个区域，以使不同的人脸关键器官位于不同区域。其中，第二区卷积模块32的输入图像基于第一分区卷积模块31的输出图像得到。可选地，第二区卷积模块32的输入图像基于第一分区卷积模块31的输出图像。

在一些实施例中，第二分区单元31b将第二区卷积模块32的输入图像划分成的多个区域排成3行1列，该多个区域分别对应人脸图像的眼部、鼻部和嘴部。可选地，最上方的区域的面积可以为输入图像的面积的一半，其余两个区域的面积可以均为人脸图像的面积的1/4。

第二分区单元31b包括：第二提取子单元311b和第二分区子单元312b，第二提取子单元311b用于对第二区卷积模块32的输入图像进行特征提取，得到第二特征图像；第二分区子单元312b用于基于人脸关键器官的位置，将第二特征图像划分为多个区域。

另外，第二分区卷积模块32同样包括区域特征提取单元312和合并单元313。第二分区卷积模块32的区域特征提取单元312所处理的多个区域为第二分区单元31b得到的多个区域。第二分区卷积模块32的合并单元313生成输出图像时所利用的区域特征图像为相应的区域特征提取单元312所生成的区域特征图像。

区域特征提取单元312和合并单元313的具体结构和图像处理功能参见上文描述，这里不再赘述。

识别模块40用于根据第二分区卷积模块32的输出图像确定所述待识别的人脸图像对应的表情类别。

图9为本发明实施例提供的另一种人脸表情识别装置的示意图，如图9所示，该人脸表情识别装置与图6所示的人脸表情识别装置相比，图9的人脸表情识别装置中的神经网络还包括：第三分区卷积模块33、位于第二分区卷积模块32之后的第三卷积层34、位于第三卷积层34之后的全局平均池化层35以及位于全局平均池化层35之后的softmax层36，softmax层36用于根据接收到的图像数据计算每个表情类别的置信度。

图10为本发明实施例中第三分区卷积模块的一种可选结构示意图，如图10所示，第三分区卷积模块33包括：第三分区单元31c以及上述区域特征提取单元312和合并单元313。

第三分区单元31c用于将第三分区卷积模块33的输入图像划分为排成多行多列的多个区域；第三分区卷积模块33的输入图像为所述预处理后的人脸图像，第一分区卷积模块31的输入图像为第三分区卷积模块33的输出图像。其中，第三分区单元31c可以采用与第一分区单元31a相同的结构，从而将第三分区单元31c的输入图像分为多个区域。

第三分区卷积模块33中的区域特征提取单元312则根据第三分区单元31c得到的多个区域进行特征提取，得到多个分区卷积图像。第三分区卷积模块33的合并单元313根据相应的区域特征提取单元312得到的多个区域特征图像生成输出图像。第一分区单元31a的输入图像为第三分区卷积模块33的输出图像。

区域特征提取单元312和合并单元313的具体结构参见上文描述，这里不再赘述。

在图9所示的人脸表情识别装置中，识别模块40具体用于根据基于第二分区卷积模块32的输出图像得到的每种表情类别的置信度，确定所述待识别的人脸图像对应的表情类别。

各模块和神经网络的各层的工作原理已在上文进行介绍，这里不再赘述。

本发明实施例还提供一种计算机设备，包括：一个或多个处理器以及存储器。存储器上存储有一个或多个程序，一个或多个程序被一个或多个处理器执行时实现上述实施例中的人脸表情识别方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的人脸表情识别方法。

上述存储器和计算机可读存储介质包括但不限于以下可读介质：诸如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、闪存、磁或光数据存储、寄存器、磁盘或磁带、诸如光盘(CD)或DVD(数字通用盘)的光存储介质以及其它非暂时性介质。处理器的示例包括但不限于通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

获取待识别的人脸图像；

所述第一分区卷积处理包括：

将第一输入图像划分为排成多行多列的多个区域；

所述第二分区卷积处理包括：

所述第一分区卷积处理和所述第二分区卷积处理均还包括：

所述人脸表情识别方法还包括：根据第二分区卷积处理的输出图像确定所述待识别的人脸图像对应的表情类别。

2.根据权利要求1所述的人脸表情识别方法，其特征在于，进行所述第一分区卷积处理之前，还包括：利用所述神经网络进行第三分区卷积处理，所述第三分区卷积处理包括：

3.根据权利要求1所述的人脸表情识别方法，其特征在于，所述预处理包括图像增强处理。

4.根据权利要求1所述的人脸表情识别方法，其特征在于，所述对待识别的人脸图像进行预处理，包括：

对所述待识别的人脸图像进行低通滤波，得到低频图像；

5.根据权利要求1所述的人脸表情识别方法，其特征在于，所述第一分区卷积处理中，将第一输入图像划分成的多个区域的大小、形状均一致。

6.根据权利要求2所述的人脸表情识别方法，其特征在于，所述第一分区卷积处理中，将所述第一输入图像划分成的多个区域排成4行4列；

7.根据权利要求2至6中任一所述的人脸表情识别方法，其特征在于，所述将第一输入图像划分为排成多行多列的多个区域，包括：

对所述第一输入图像进行卷积处理，得到第一特征图像；

将第一特征图像划分为排成4行4列的16个区域；

将第三特征图像划分为排成4行4列的16个区域。

8.根据权利要求1至6中任一所述的人脸表情识别方法，其特征在于，所述对每个区域进行特征提取，得到每个区域的区域特征图像，包括：

9.根据权利要求1至6中任一所述的人脸表情识别方法，其特征在于，所述利用训练得到的神经网络依次进行第一分区卷积处理和第二分区卷积处理，之后还包括利用所述神经网络进行：

根据所述池化特征图像计算每种预设的表情类别的置信度；

10.根据权利要求1至6中任一所述的人脸表情识别方法，其特征在于，所述神经网络是通过随机梯度下降法训练得到。

11.一种人脸表情识别装置，其特征在于，包括：图像获取模块、预处理模块、神经网络和识别模块；

所述图像获取模块用于获取待识别的人脸图像；

12.根据权利要求11所述的人脸表情识别装置，其特征在于，所述神经网络还包括第三分区卷积模块，所述第三分区卷积模块包括：第三分区单元以及所述区域特征提取单元和所述合并单元，

13.根据权利要求12所述的人脸表情识别装置，其特征在于，所述第一分区单元被配置为将所述第一分区卷积模块的输入图像划分成4行4列的16个区域；所述第二分区单元被配置为将所述第二分区卷积模块的输入图像划分成3行1列的3个区域，所述3个区域分别对应所述待识别的人脸图像的眼部、鼻部和嘴部；所述第三分区单元被配置为将所述第三分区卷积模块的输入图像划分成4行4列的16个区域。

14.一种计算机设备，其特征在于，包括：

一个或多个处理器；

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一所述的人脸表情识别方法。