CN110222668B

CN110222668B - 基于生成对抗网络的多姿态面部表情识别方法

Info

Publication number: CN110222668B
Application number: CN201910523507.8A
Authority: CN
Inventors: 黄鹤; 韩子阳
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2020-12-22
Anticipated expiration: 2039-06-17
Also published as: CN110222668A

Abstract

本发明公开了一种基于生成对抗网络的多姿态面部表情识别方法。本发明基于生成对抗网络的多姿态面部表情识别方法，包括：多面部姿态下的表情识别系统在表情识别过程中加入正面人脸合成模块，将系统检测到的人脸与合成后的正面人脸同时输入到识别网络中，提高在人脸大姿态偏转下的识别性能，从而实现多种面部偏转姿态下的表情识别。本发明的有益效果：基于提出的生成对抗网络构建的正脸合成模块的多面部姿态表情识别系统的优势主要有：1.本发明采用基于生成对抗网络的正脸合成模块能够通过输入的任意角度人脸，合成出原始图像的正脸，为表情识别系统提供正脸信息，保障在人脸大姿态偏转时正确识别表情信息。

Description

基于生成对抗网络的多姿态面部表情识别方法

技术领域

本发明涉及面部表情领域，具体涉及一种基于生成对抗网络的多姿态面部表情识别方法。

背景技术

表情是人类表达情感状态和意图的最有力、最自然、最普遍的信号之一。由于面部表情分析在社交机器人、医学治疗、驾驶员疲劳监测以及许多其他人机交互系统中的实际重要性，人们对其进行了大量的研究。早在20世纪，相关研究人员就将人脸表情基本划分为七类，即“恐惧、愤怒、恶心、开心、正常、伤心、惊讶”。在计算机视觉和机器学习领域，针对面部表情识别的各种系统已经被开发出来，用于从面部表情中编码表情信息。近年来，以深度学习为代表的人工智能技术为各个研究领域提供了更强大的技术支持，尤其在计算机视觉领域更是大放异彩。因此研究实现基于深度学习的面部表情识别系统符合当前的研究趋势，对于构建更加高效稳定的人机交互系统有着非常重要的意义和应用前景。

人脸表情识别的目的是分析和分类一个给定的面部图像的几种情绪类型，即“恐惧、愤怒、恶心、开心、正常、伤心、惊讶”。在现有的人脸表情识别方法中，大部分都是基于正面或接近正面的人脸图像，而大角度面部偏转或复杂环境下的人脸表情识别问题在很大程度上还没有得到探索。与正面人脸表情识别相比，非正面人脸图像的表情识别更加具有挑战性，因为它需要处理人脸遮挡、人脸偏转后的面部表情信息丢失等问题。因此，即便目前的人脸检测已经相对比较成熟，在保证高效检测人脸的同时，对于人脸偏转±90度以内的姿态都能实现较好的检测。然而即便能够顺利提取到检测的人脸，已有的面部表情识别系统对于大姿态的面部偏转仍然难以取得令人满意的识别正确率。

基于传统方法的表情识别大多采用手工特征或浅层学习。然而自2013年以来，一系列情绪识别比赛从具有挑战性的现实场景中收集了相对充足的训练数据，这就促进了表情识别从实验室向室外环境的过渡。同时,由于大幅度提升的计算处理能力和精心设计的网络体系结构,研究领域已经开始转移到深度学习方法,实现了先进的识别精度。现在的表情识别技术通常采用基于卷积神经网络的模型直接对人脸图片进行识别，对于正面姿态下的人脸，卷积神经网络通常能很好的提取表情特征，达到较好的识别正确率。然后面部角度一旦偏转，网络便很难提取关键面部特征，从而影响识别的正确判断。一旦面部角度偏转达到45度以上，识别性能甚至无法满足正常需求。

为了解决人脸姿态偏转问题，现有的处理方法通常可以分为两类。一类尝试采用手工制作的特征或者学习使用与姿态无关的人脸特征，而另一类则采用合成技术从较大的人脸偏转图像中恢复正面视图图像，然后使用恢复后的人脸图像进行人脸相关任务。对于第一类，传统方法往往利用具有鲁棒性的局部人脸描述特征来考虑因偏转造成的局部畸变，然后采用度量学习技术来减少姿态变换造成的影响。与此相反，深度学习方法通常使用池化操作或者使用特别设计的损失函数训练网络来集中处理姿态变换。然而，这两种方法对于偏转角度较大情况下的性能表现都不理想。对于第二类，早期的正面视图合成通常使用3D几何变换来呈现正面视图，将2D图像与一般的或特定的3D模型进行匹配对齐。这些方法在小姿态人脸的正面化中表现良好，但在大姿态下由于纹理严重丢失，会造成性能下降。近年来，随着生成对抗网络的提出，越来越多的模型被设计用于人脸正面合成。生成对抗网络主要由生成器和辨别器组成，通过输入人脸任意角度图片，经过生成器会将输入图片编码再解码得到正脸图片，然后将生成的正脸图片与真实正脸图片输入到辨别器中，由辨别器来辨别图片真假。通过网络的不断训练，最终使得辨别器无法分出合成图片与真实图片的差别。由于当前的生成对抗网络主要用于合成出能够保留原始身份的正面图片，因此对于原始人脸的表情信息关注不够，容易导致表情特征的丢失。同时当人脸偏转角度过大时，网络生成图片的质量也有待进一步提升。

传统技术存在以下技术问题：

现在的多面部姿态下的人脸表情识别系统的缺点主要有：1.大角度的人脸偏转识别率低，稳定性较差；2.正脸合成导致表情信息丢失，当偏转角度过大时表现不佳。

发明内容

本发明要解决的技术问题是提供一种基于生成对抗网络的多姿态面部表情识别方法，通过深度学习技术解决由于面部角度偏转无法捕捉正脸的问题，所实现的系统应当在不同面部角度偏转的情况下实现人脸正面的合成，并保留原始身份及表情信息；设计实现基于原始人脸和合成正脸的表情识别分类器，实现在大姿态人脸偏转下的表情识别；简化系统模型，保证系统性能表现。

为了解决上述技术问题，本发明提供了一种基于生成对抗网络的多姿态面部表情识别方法，包括：多面部姿态下的表情识别系统在表情识别过程中加入正面人脸合成模块，将系统检测到的人脸与合成后的正面人脸同时输入到识别网络中，提高在人脸大姿态偏转下的识别性能，从而实现多种面部偏转姿态下的表情识别；该系统的具体流程为：

S1.输入一张待检测识别的彩色图像，通过图像预处理器将其缩放到尺寸为224*224的图像；

S2.将缩放后的图像输入到人脸合成模块；

S3.将检测人脸以及合成人脸同时输入到表情识别模块，最终输出结果就是整个系统对人脸表情识别的输出结果。

在其中一个实施例中，步骤S2的具体流程为：

S2-1.将卷积神经网络作为生成器的编码器，将检测到的人脸输入网络中编码得到不同尺度的人脸特征信息；

S2-2.将编码器提取的最后一层人脸特征信息裁剪平分为上下两部分，分别通过由反卷积层组成的解码器进行上采样得到上下部分人脸高维特征，通过合并得到整张人脸的高维特征；

S2-3.同样将编码器提取的最后一层人脸特征信息，直接输入另外一个解码器中进行上采样，通过融合S2-2得到的正脸高维特征以及编码提取的最后第二层特征信息，最终输出得到保留原始输入身份的正面人脸。

在其中一个实施例中，在步骤S2-1中首先使用VGGFace人脸数据集训练卷积神经网络进行人脸识别，网络模型采用视觉几何组网络(VGG Net)结构,将训练得到的VGG Net的卷积层部分作为生成对抗网络生成器的编码网络。这样的设计一方面在生成对抗网络的训练中能加速整个网络的训练过程，另一方面通过一个庞大的人脸数据集预先训练的网络能够更好的提取出人脸关键特征。通过VGG Net主要编码提取其中2个卷积层的高维人脸特征，包括conv4_2和conv5_2。

在其中一个实施例中，在步骤S2-2中，将大小为14*14*512的conv5_2层切分为7*14*512的两部分人脸高维特征，即上半部分人脸包含眼睛、眉毛等特征信息，下半部分包含嘴巴、鼻子等特征信息，将这两部分分别输入局部解码器中。为了在保证合成人脸质量的同时减少生成对抗网络的计算复杂度，生成器最终通过编码特征解码的图像大小为128*128*3。所以在输入特征首先进行一次步长为2的卷积操作以及一次最大池化操作，使得训练过程的解码器能够进一步选择获取编码特征的同时，对高维特征进行4倍缩放得到大小为2*4*512的编码信息。然后将编码特征通过反卷积层进行5次上采样不断从输入人脸信息中重建出相对应的大小为64*128*32的部分正面人脸，最后经过一层的卷积操作得到大小为64*128*3的部分人脸图片。合并两部分人脸，即得到128*128*3完整的正脸图片。由于解码器只重建人脸的一部分特征，这使得解码器能够更加关注到人脸的细节特征，尤其对五官这些关键特征的提取。对于步骤2-3中使用的局部解码器得到的正脸高维特征，来自于解码器第4次上采样合并得到的64*64*32的特征图。

在其中一个实施例中，在步骤S2-3中，将14*14*513的conv5_2层直接输入到全局解码器中，同时输入的还有大小为28*28*512的conv4_2高维特征图，以及S2-2中得到的64*64*32具有局部细节的正面人脸高维特征。首先，同样对输入的conv5_2特征进行一次步长为2的卷积操作以及一次最大池化操作，得到4*4*512的特征信息后进行3次反卷积上采样过程，最终得到的特征图大小为32*32*64。为了弥补原始特征在反卷积过程中造成的信息丢失，加入conv4_2层的特征进行第4次反卷积。考虑到conv4_2尺寸不匹配，对该特征图使用填充算法，通过边缘复制扩展到32*32。同时为了保证之前上采样的正脸信息的重要性，对conv4_2的512层特征图采样出其中的32层作为原始信息的补充。经过4次反卷积操作后得到新的特征图64*64*32，此时加入局部解码器合并得到的正脸局部细节，进行第5次反卷积上采样以及最后的卷积操作，即可以得到在保证人脸原始信息的在高质量正面图像。

在其中一个实施例中，步骤S2中第一层卷积层和之后的每一层反卷积操作后面都加入一层残差块网络，残差块由两层卷积层组成，残差块的输出为第二层的卷积输出加上第一层卷积层的输入。残差块学习的是残差函数F(x)＝H(x)-x，目的是为了能提升深度网络的优化性能，同时使用实例正则化(instance norm)对网络层进行归一化操作，instancenorm将进一步加速模型收敛，并且保持每个图像实例之间的独立。

在其中一个实施例中，步骤S3为了减少合成正面人脸图像中表情信息的丢失，将原始图像与合成图像融合一起输入到表情识别网络中。同时，考虑到表情识别更加关注面部特征变化，不需要过度关注人脸的细节特征，于是将步骤S2得到的128*128*3的正面人脸进行图像处理，缩放得到48*48*3大小的人脸图像，加速识别过程。与原始图像融合得到48*48*6的面部特征图后，表情识别网络将直接对融合后的特征图进行识别，输出识别结果。

其中步骤3中的表情识别网络主要由卷积层和全连接层组成，最后一层的全连接层神经元个数即为要分类的表情数，即7个。将识别网络的最后一层输出Z＝{Z₁,Z₂,…,Z_T}输入到softmax层中，转化为对应的概率分布Y＝{Y₁,Y₂,…Y_T}：

Y_t＝softmax(Z_t)

此时，概率分布中最大值对应的表情标签即为输入人脸的表情。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

基于提出的生成对抗网络构建的正脸合成模块的多面部姿态表情识别系统的优势主要有：

1.本发明采用基于生成对抗网络的正脸合成模块能够通过输入的任意角度人脸，合成出原始图像的正脸，为表情识别系统提供正脸信息，保障在人脸大姿态偏转时正确识别表情信息。

2.正脸合成模块首先使用局部生成器，抓取人脸的局部关键信息，结合全局生成器对合成人脸进一步优化，同时在反卷积层上采样的过程中加入原始人脸的低维特征，弥补在之前反卷积的过程中造成的原始细节丢失，使得最终合成的正面人脸能够更好的保证原始图像的特征信息。

3.在正脸合成模块即生成对抗网络的训练中，使用预训练的人脸识别分类器作为输入人脸的特征提取器，能够更好的提取原始特征。同时，在网络训练的过程中加入预训练的表情分类器，对合成人脸的表情和原始人脸对应正脸表情进行评价，从而指导网络进行表情优化，能够使得网络在合成人脸过程中保留更多原始表情信息。

4.通过将合成的正脸人脸与原始人脸融合，输入到最终基于前者训练的表情识别网络中，使得表情特征信息相互补充，从而提升多面部姿态下的表情识别，即合成人脸表情不佳由原始人脸进行信息补充，原始人脸偏转过大造成信息缺失由合成人脸进行信息补充。

5.不同模块进行多尺度缩放变换，在保证各模块性能的同时提升网络的识别效率。

附图说明

图1是本发明基于生成对抗网络的多姿态面部表情识别方法的人脸合成模块示意图。

图2是本发明基于生成对抗网络的多姿态面部表情识别方法的多尺度人脸特征信息融合方式图。

图3是本发明基于生成对抗网络的多姿态面部表情识别方法的表情模块示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提出的多面部姿态下的表情识别系统在表情识别过程中加入正面人脸合成模块，将系统检测到的人脸与合成后的正面人脸同时输入到识别网络中，提高在人脸大姿态偏转下的识别性能，从而实现多种面部偏转姿态下的表情识别。该系统的具体流程为：

S2.将缩放后的图像输入到人脸合成模块；

其中步骤S2的具体流程为：

S2-3.同样将编码器提取的最后一层人脸特征信息，直接输入另外一个解码器中进行上采样，通过融合S2-2得到的正脸高维特征以及编码提取的最后第二层特征信息，最终输出得到保留原始输入身份的正面人脸；

在步骤S2-1中首先使用VGGFace人脸数据集训练卷积神经网络进行人脸识别，网络模型采用视觉几何组网络(VGG Net)结构,将训练得到的VGG Net的卷积层部分作为生成对抗网络生成器的编码网络。这样的设计一方面在生成对抗网络的训练中能加速整个网络的训练过程，另一方面通过一个庞大的人脸数据集预先训练的网络能够更好的提取出人脸关键特征。通过VGG Net主要编码提取其中2个卷积层的高维人脸特征，包括conv4_2和conv5_2。

在步骤S2-2中，将大小为14*14*512的conv5_2层切分为7*14*512的两部分人脸高维特征，即上半部分人脸包含眼睛、眉毛等特征信息，下半部分包含嘴巴、鼻子等特征信息，将这两部分分别输入局部解码器中。为了在保证合成人脸质量的同时减少生成对抗网络的计算复杂度，生成器最终通过编码特征解码的图像大小为128*128*3。所以在输入特征首先进行一次步长为2的卷积操作以及一次最大池化操作，使得训练过程的解码器能够进一步选择获取编码特征的同时，对高维特征进行4倍缩放得到大小为2*4*512的编码信息。然后将编码特征通过反卷积层进行5次上采样不断从输入人脸信息中重建出相对应的大小为64*128*32的部分正面人脸，最后经过一层的卷积操作得到大小为64*128*3的部分人脸图片。合并两部分人脸，即得到128*128*3完整的正脸图片。由于解码器只重建人脸的一部分特征，这使得解码器能够更加关注到人脸的细节特征，尤其对五官这些关键特征的提取。对于步骤2-3中使用的局部解码器得到的正脸高维特征，来自于解码器第4次上采样合并得到的64*64*32的特征图。

在步骤S2-3中，将14*14*513的conv5_2层直接输入到全局解码器中，同时输入的还有大小为28*28*512的conv4_2高维特征图，以及S2-2中得到的64*64*32具有局部细节的正面人脸高维特征。首先，同样对输入的conv5_2特征进行一次步长为2的卷积操作以及一次最大池化操作，得到4*4*512的特征信息后进行3次反卷积上采样过程，最终得到的特征图大小为32*32*64。为了弥补原始特征在反卷积过程中造成的信息丢失，加入conv4_2层的特征进行第4次反卷积。考虑到conv4_2尺寸不匹配，对该特征图使用填充算法，通过边缘复制扩展到32*32。同时为了保证之前上采样的正脸信息的重要性，对conv4_2的512层特征图采样出其中的32层作为原始信息的补充。经过4次反卷积操作后得到新的特征图64*64*32，此时加入局部解码器合并得到的正脸局部细节，进行第5次反卷积上采样以及最后的卷积操作，即可以得到在保证人脸原始信息的在高质量正面图像。

步骤S2中第一层卷积层和之后的每一层反卷积操作后面都加入一层残差块网络，残差块由两层卷积层组成，残差块的输出为第二层的卷积输出加上第一层卷积层的输入。残差块学习的是残差函数F(x)＝H(x)-x，目的是为了能提升深度网络的优化性能，同时使用实例正则化(instance norm)对网络层进行归一化操作，i nstance norm将进一步加速模型收敛，并且保持每个图像实例之间的独立。

步骤S3为了减少合成正面人脸图像中表情信息的丢失，将原始图像与合成图像融合一起输入到表情识别网络中。同时，考虑到表情识别更加关注面部特征变化，不需要过度关注人脸的细节特征，于是将步骤S2得到的128*128*3的正面人脸进行图像处理，缩放得到48*48*3大小的人脸图像，加速识别过程。与原始图像融合得到48*48*6的面部特征图后，表情识别网络将直接对融合后的特征图进行识别，输出识别结果。

Y_t＝softmax(Z_t)

整个人脸表情识别系统需要先在标注好的数据集进行训练才可以用于实际测试和使用，整个训练过程分为三个步骤。

步骤一：

1.选择数据集中人脸偏转角度较小的图片，如偏转0-45°的图片

2将选好的数据集训练表情分类器，保证分类器能够更好的识别正面表情，加入小角度的人脸图片是为了保证训练训练样本数量，提升网络的性能。

步骤二：

1.准备数据集，训练生成对抗网络的数据集需包含侧脸图片及其对应的正脸图片。

2.生成对抗网络的生成器由编码器(特征提取器)和解码器组成，网络选择使用基于VGGFace数据集训练的VGGNet人脸识别网络作为生成对抗网络的特征提取器。

3.将训练样本中的侧脸和对应正脸(x^r)输入到预训练的特征提取器中，保留得到侧脸和正脸的五层卷积特征，其中侧脸特征分别记作conv1_2、conv2_2、conv3_2、conv4_2和conv5_2。

4.将conv5_2特征进行上下切分，分别得到人脸上下两部分的高维特征，输入到局部解码器中进行正脸解码还原。为了提升两部分反卷积上采样的泛化能力，在训练过程中，分别切分得到大小为9*14*512的上下两部分，接着对特征进行随机采样得到大小为7*14*512的特征图后，再输入到网络中。

5.通过局部解码器得到两部分信息，即最终合成的128*128*3的正面人脸，记作

以及在反卷积过程中得到的64*64*32具有局部细节的正面特征，记作dconv。将conv4_2、conv5_2以及dconv均输入到全局解码器中，首先对conv5_2进行反卷积解码得到32*32*64正脸特征，加入经过采样以及边缘复制填充的conv4_2，进行进一步反卷积，然后再通过与dconv融合进行最后的解码操作，输出得到最终合成正脸，记作

6.由于预训练的表情分类器无法做到百分之百的准确率，避免真实标签和分类器结果的偏差干扰，将x^r输入到预训练的分类器中得到的结果ep作为真实标签。之后将合成得到的

和

分别输入到表情分类器中，得到结果ep₁和ep₂

7.最后将x^r、

和

输入到由卷积层组成的辨别器中，得到辨别器的输出结果。

生成对抗网络的训练由两部分组成，分别是辨别器的训练和生成器的训练。辨别器的损失函数定义为：

其中

是生成值和真实值之间正态分布采样得到的结果，

是作为网络的梯度惩罚项。为了解决权值约束与目标函数耦合所带来的优化过程的困难，其中λ通常取值为10。

即为由两个生成器的合成图片与真实图片之间整体的辨别器损失。

生成器的损失函数定义为：

L_pix为像素损失，定义为：

其中，

表示生成图像在通道c位置(w,h)处的像素值，

则是真实图片在相应位置的像素值。

L_per为感知损失，定义为：

其中，

表示生成图片第i个卷积特征图在通道c位置(w,h)处的值，即conv1_2、conv2_2、conv3_2、conv4_2和conv5_2，

则为真实图片对应的值。

为对抗损失，定义为：

L_ep为表情分类器的损失值，定义为：

其中f_i(x^g)是生成图片在表情分类器输出的第i维值，p(x^r)为真实图片经过表情分类器输出后的one-hot编码值。最后L_reg是正则化损失函数，λ_i(i＝1,...,5)为对应损失函数的权重。对于两个不同的生成器，其总体损失函数组成相同，只是针对不同生成部分进行分别训练。即依次训练辨别器，局部解码器和全局解码器(由于编码器是预训练的网络，所以不用训练)的参数，通过最小化对应的损失函数进行反向传播训练就可以对整个网络进行联合优化。

步骤三：

1.保留步骤二中合成模块的网络参数，将局部生成器和全局生成器的结构加入到步骤一中的表情分类器中。

2.使用全部的训练数据集，即包括人脸图像及其对应的表情标签，使用合成正脸和原始人脸融合的特征重新训练表情分类器。即输入一张人脸图像，通过局部生成器和全局生成器组成的合成模块生成正面人脸，再通过与原始图片按通道级联输入到网络中进行训练，得到最终多面部姿态下的表情识别系统。

最后的表情分类器的损失函数定义与L_ep相同，只是p(x^r)为真实表情标签。通过最小化该损失函数来训练网络，即可得到最终的多面部姿态表情识别系统。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于生成对抗网络的多姿态面部表情识别方法，其特征在于，包括：多面部姿态下的表情识别系统在表情识别过程中加入正面人脸合成模块，将系统检测到的人脸与合成后的正面人脸同时输入到识别网络中，提高在人脸大姿态偏转下的识别性能，从而实现多种面部偏转姿态下的表情识别；该系统的具体流程为：

S2.将缩放后的图像输入到人脸合成模块；

S3.将检测人脸以及合成人脸同时输入到表情识别模块，最终输出结果就是整个系统对人脸表情识别的输出结果；

步骤S2的具体流程为：

在步骤S2-1中首先使用VGGFace人脸数据集训练卷积神经网络进行人脸识别，网络模型采用视觉几何组网络结构,将训练得到的VGG Net的卷积层部分作为生成对抗网络生成器的编码网络；这样的设计一方面在生成对抗网络的训练中能加速整个网络的训练过程，另一方面通过一个庞大的人脸数据集预先训练的网络能够更好的提取出人脸关键特征；通过VGG Net主要编码提取其中2个卷积层的高维人脸特征，包括conv4_2和conv5_2；

在步骤S2-2中，将大小为14*14*512的conv5_2层切分为7*14*512的两部分人脸高维特征，即上半部分人脸包含眼睛和眉毛特征信息，下半部分包含嘴巴和鼻子特征信息，将这两部分分别输入局部解码器中；为了在保证合成人脸质量的同时减少生成对抗网络的计算复杂度，生成器最终通过编码特征解码的图像大小为128*128*3；所以在输入特征首先进行一次步长为2的卷积操作以及一次最大池化操作，使得训练过程的解码器能够进一步选择获取编码特征的同时，对高维特征进行4倍缩放得到大小为2*4*512的编码信息；然后将编码特征通过反卷积层进行5次上采样不断从输入人脸信息中重建出相对应的大小为64*128*32的部分正面人脸，最后经过一层的卷积操作得到大小为64*128*3的部分人脸图片；合并两部分人脸，即得到128*128*3完整的正脸图片；由于解码器只重建人脸的一部分特征，这使得解码器能够更加关注到人脸的细节特征；对于步骤2-3中使用的局部解码器得到的正脸高维特征，来自于解码器第4次上采样合并得到的64*64*32的特征图；

在步骤S2-3中，将14*14*513的conv5_2层直接输入到全局解码器中，同时输入的还有大小为28*28*512的conv4_2高维特征图，以及S2-2中得到的64*64*32具有局部细节的正面人脸高维特征；首先，同样对输入的conv5_2特征进行一次步长为2的卷积操作以及一次最大池化操作，得到4*4*512的特征信息后进行3次反卷积上采样过程，最终得到的特征图大小为32*32*64；为了弥补原始特征在反卷积过程中造成的信息丢失，加入conv4_2层的特征进行第4次反卷积；考虑到conv4_2尺寸不匹配，对该特征图使用填充算法，通过边缘复制扩展到32*32；同时为了保证之前上采样的正脸信息的重要性，对conv4_2的512层特征图采样出其中的32层作为原始信息的补充；经过4次反卷积操作后得到新的特征图64*64*32，此时加入局部解码器合并得到的正脸局部细节，进行第5次反卷积上采样以及最后的卷积操作，即可以得到在保证人脸原始信息的在高质量正面图像；

步骤S2中第一层卷积层和之后的每一层反卷积操作后面都加入一层残差块网络，残差块由两层卷积层组成，残差块的输出为第二层的卷积输出加上第一层卷积层的输入；残差块学习的是残差函数F(x)＝H(x)-x，目的是为了能提升深度网络的优化性能，同时使用实例正则化对网络层进行归一化操作，实例正则化将进一步加速模型收敛，并且保持每个图像实例之间的独立；

步骤S3为了减少合成正面人脸图像中表情信息的丢失，将原始图像与合成图像融合一起输入到表情识别网络中；同时，考虑到表情识别更加关注面部特征变化，不需要过度关注人脸的细节特征，于是将步骤S2得到的128*128*3的正面人脸进行图像处理，缩放得到48*48*3大小的人脸图像，加速识别过程；与原始图像融合得到48*48*6的面部特征图后，表情识别网络将直接对融合后的特征图进行识别，输出识别结果；

其中步骤3中的表情识别网络主要由卷积层和全连接层组成，最后一层的全连接层神经元个数即为要分类的表情数，即7个；将识别网络的最后一层输出Z＝{Z₁,Z₂,…,Z_T}输入到softmax层中，转化为对应的概率分布Y＝{Y₁,Y₂,…Y_T}：

Y_t＝softmax(Z_t)

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。