CN114049662B

CN114049662B - 一种基于面部特征迁移学习的表情识别网络装置及方法

Info

Publication number: CN114049662B
Application number: CN202111207721.6A
Authority: CN
Inventors: 孙倩; 商宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2024-05-28
Anticipated expiration: 2041-10-18
Also published as: CN114049662A

Abstract

本发明公开一种基于面部特征迁移学习的表情识别网络装置及方法，包括人脸关键点检测网络和表情识别网络，人脸关键点检测网络包括无监督的人脸重构网络、受监督的热图生成网络和无监督的热图分类网络；人脸重构网络包含编码器、生成器和判别器。通过生成器生成人脸以及与判别器对抗训练，编码器可以将学到的大量的人脸中的隐含信息捕获到一个低维空间中；热图生成网络由人脸重构网络中的编码器和生成器改造而成，热图生成网络包含信息传输保留模型，信息传输保留模型捕获到的信息可以让热图生成网络更好的完成学习。热图分类网络通过一轮的训练会学会对热图分类，让热图自己搜寻可以减小映射误差的映射函数。表情识别网络添加有一个注意力模型。

Description

一种基于面部特征迁移学习的表情识别网络装置及方法

技术领域

本发明主要涉及深度学习领域，尤其涉及一种基于面部特征迁移学习的表情识别网络装置及方法。

背景技术

自从20世纪90年代以来，深度学习领域开始出现人脸特征解析^[13,14]方面的研究。人脸特征解析指基于一定的人脸特征提取需要的信息。这些人脸特征包括表情识别需要的表情特征、人脸对齐需要的脸部朝向特征、人脸分割需要的各个器官位置特征等等。

人脸关键点检测是人脸特征解析研究最基础的方向之一。所谓人脸关键点检测，指的是通过一系列算法，检测出人脸面部一些特征点位置，这些位置包括但不限于眼睛，鼻子，嘴巴，眉毛等。在人脸关键点检测领域有着诸多优秀的成果。其中，AWLoss^[1]、Wing Loss^[2]、Laplace Landmark Localization^[3]等论文分别从收敛速度、方差等角度专门研究了损失函数。LUVLI^[4]论文把人脸关键点的遮挡分为了自我遮挡、无遮挡和其他遮挡，并对可见性进行了标注，借助可见性概率预测了关键点位置。Hierarchical Structured Landmarks^[5]归纳了连接人脸关键点的树状结构，并提出了一种自动寻找最优树状结构的算法，该算法可以适用于任何人脸关键点检测其中。这些算法利用了各种细节对人脸关键点检测做出了贡献。

同时，人脸特征解析的研究者们在表情识别方向也有着较多成果。与人脸关键点检测不同，表情识别是一个分类任务。目前该领域的研究者们已经实现了通过改进网络、数据增强或抑制不确定性等方法对分类结果优化。Occlusion Aware Facial Expression^[6]利用人脸关键点技术预测被遮挡的表情，从而实现了在少量遮挡时较大的准确率提升。Region Attention Networks^[7]借助人脸关键点检测技术将人脸裁剪出感受野较大的不同器官，并利用注意力模型，实现对表情识别的提升。

在人脸特征解析的各个任务中，大多数研究者们更关注于对损失函数、网络结构、数据增强和不确定性增强等各方面因素的优化。尽管目前已经有研究证明，不同任务之间提取的特征可以相互利用。例如DAN^[8]网络，利用人脸关键点检测做人脸对齐，促进了人脸识别的性能。然而，针对各个任务之间相辅相成的联系的研究仍然较少。这可能有两点原因：(1)现存的绝大多数人脸特征解析数据集在领域上是相互独立的，例如人脸关键点检测的数据集可能并没有表情识别需要的标签，而制作新的数据集又是十分耗费人力的；(2)人脸特征解析任务之间需要的特征各异，使用普通的多任务学习网络进行训练时，准确率往往比更加专业的单任务网络低。这导致了基于非面部特征迁移学习的面部特征互相促进的研究较为困难。

目前，人脸关键点检测也有着较多挑战：(1)大多数人脸关键点检测网络在训练的时候需要成百上千张带注释的数据集，制作如此大量的数据集十分耗费时间成本，并且会出现语义歧义问题，即不确定性。(2)大多数人脸关键点检测网络^[1,10]都采用热图回归的方式预测关键点，然而由热图回归方法生成的热图可能呈现高斯分布之外的分布，因此使用特意为高斯分布设计的argmax映射函数，将热图映射成关键点坐标，会产生映射误差。尽管一些人也发现了这一问题，然而他们仅仅是将热图强制变得符合高斯分布，这可能会导致热图偏离它原本要表达的信息。

发明内容

本发明的目的是为了克服现有技术中的不足，减小人脸关键点训练集的制作成本，解决热图回归呈高斯分布之外其他分布的问题，以人脸关键点检测任务为基础，提供一种基于面部特征迁移学习的表情识别网络装置及方法，通过搭建并训练适合本发明数据集的半监督网络，实现基于面部特征迁移学习的表情识别。

本发明的目的是通过以下技术方案实现的：

一种基于面部特征迁移学习的表情识别网络装置，包括人脸关键点检测网络和表情识别网络，所述人脸关键点检测网络包括无监督的人脸重构网络、受监督的热图生成网络和无监督的热图分类网络；

所述人脸重构网络包括编码器、生成器和判别器，通过生成器生成人脸数据以及与判别器对抗训练，编码器能够将学到的人脸数据中的隐含信息捕获到一个低维空间E(x)中；

所述热图生成网络在人脸重构网络的编码器和生成器基础上加入了一个信息传输保留模型，信息传输保留模型由3*3的卷积网络和3*3的反卷积网络组成；信息传输保留模型包含两个模型：信息传输模型和信息保留模型；信息传输模型是交错地插在生成器每一层网络之间的3*3卷积网络；信息保留模型是编码器后面的若干条通道，由用来和卷积后信息做叠加的反卷积网络和无卷积网络组成；热图生成网络的训练以人脸重构网络训练阶段得到的隐含信息为基础；信息传输模型负责传输信息；信息传输模型能够将编码器得到的人脸隐含信息逐步解析得到出关键点位置信息；信息保留模型负责将隐含信息输送给信息传输模型的每一层网络，以防止在信息传输的过程中造成的信息丢失，增强热图生成网络的鲁棒性；

所述热图分类网络仅由三层卷积网络组成，热图分类网络将热图生成网络得到的热图当作输入进行训练，通过对热图分类网络的一轮训练后，热图分类网络学会对热图分类，使热图自己搜寻能够减小映射误差的映射函数；

所述表情识别网络由预处理网络、Resnet18和注意力模型组成，其中预处理网络是两层3*3的卷积网络，注意力模型是一个全连接网络；表情识别网络的训练需要更换数据集为表情识别数据集；将表情识别数据集输入到人脸关键点检测网络，得到的关键点坐标，然后将坐标转化为热图，并将热图与经过预处理网络预处理的表情识别数据集做乘积；注意力模型负责将表情识别网络输出结果维度变为1并使用Sigmoid激活函数激活；使用注意力模型的输出与Resnet18的输出相乘，当作表情识别网络最终的输出。

进一步的，所述人脸重构网络的训练使用四个损失函数做约束，分别为L_cs(E，G)，L_rec(E，G)，L_enc(E，G)和L_adv(E，G，D)，它们公式如下：

L_cs(E,G)＝E_x～p(x)[cs(x,G(E(x))]

L_rec(E,G)＝E_x～p(x)[||x,G(E(x))||₁]

L_adv(E,G)＝E_x～p(x)[logD_x(x)]+E_x～p(x)[log(1-D_x(G(E(x))))[。

其中，E_(x～p(x))和都指交叉熵损失函数，x指输入编码器的人脸图片，z指由编码器生成的人脸隐含信息，E指编码器，G指生成器，D_z指作用于z的判别器，D_x指作用于x的判别器，c和s是结构对齐度参数，它们公式如下：

其中，σ_x和σ_y指的x和y两个滑窗的强度方差，σ_xy则是它们的协方差，常数c负责增加分母的稳定性，在这里c＝255^0.01；每张图片都会经过k*k个滑窗，之后便可得到两张图的结构对齐度：

其中，w＝k*k，x_w和y_w分别表示不同的滑窗。

本发明还提供一种基于面部特征迁移学习的表情识别方法，包括以下步骤：

步骤一、准备三种数据集，具体为：

S101.收集人脸图片作为人脸重构网络的数据集，并分为训练集C和测试集C’；

S102.搜集包含清晰人脸器官的人脸图片，以左上角为原点，手动标注人脸关键点的位置坐标，以包含清晰人脸器官的人脸图片为数据集图片，以手动标注人脸关键点的位置坐标为数据集标注；按照5：1的比例将数据集图片分为训练图片P和测试图片P’，同时按照5：1的比例将数据集标注分为训练标注W和测试标注W’；

S103.下载RAF-DB数据集作为表情识别网络的数据集使用；RAF-DB数据集的训练集称为B，测试集称为B’；

步骤二、将训练图片P与训练标注W分别储存在两个文件夹中，并将训练标注W转化为numpy格式，以便快速读取关键点坐标；

步骤三、将训练集C输入人脸重构网络进行训练；

步骤四、将训练图片P输入热图生成网络进行训练；

步骤五、待热图生成网络的损失函数波动并趋于稳定，开始训练热图分类网络；

步骤六、将此时人脸关键点检测网络每个部分训练得到的参数都记录下来，作为人脸关键点检测网络模型并保存；

步骤七、将测试图片P’和测试集B’分别放入人脸关键点检测网络；观察测试图片P’输出的关键点误差与关键点位置合理性；观察测试集B’的关键点位置合理性；若都合理则进行下一步，否则重复步骤一至步骤七；直至完成对人脸关键点检测网络的训练；

步骤八、对表情识别网络进行训练；

步骤九、将此时表情识别网络每个部分训练得到的参数都记录下来，作为表情识别网络模型并保存；

步骤十、读入测试集B’到表情识别网络，输出检测结果的准确率和每张图片的表情识别结果。

进一步的，步骤S101中，在网上下载VGGFace2和AffectNet两个数据集，使用OpenCV人脸检测器检测数据集的人脸，取人脸高度大于100px的两百万+张作为人脸重构网络的数据集，其中200万张作为训练集C，其余作为测试集C’；

步骤S102中，在网上或者现实中找到60个人的包含清晰人脸器官的图片，以左上角为原点，手动标注人脸关键点位置的坐标，取50张训练图片P和50张训练标注W合成50张训练集；取10张测试图片P’和10张测试标注W’合成10张测试集。

进一步的，步骤三在将训练集C输入人脸重构网络进行训练时，编码器、生成器和判别器均使用Adam优化器，学习率为2*10^-5，β₁＝0，β₂＝0.999；具体如下：

S301.训练判别器；训练集C中的一张真实图片c_i输入到人脸重构网络中得到一张重构后的图片c_i’；判别器通过卷积提取c_i和c_i’的图片特征，最终损失函数让c_i’的图片特征接近0，数字0表示假，让c_i的图片特征接近1，数字1表示真，根据得到的数字0和1经反向传播后更新判别器参数。

S302.训练编码器和生成器；训练集C中的一张真实图片c_i输入到编码器和生成器中得到一张重构的图片c_i’，损失函数让c_i和c_i’的特征更加接近，根据c_i和c_i’的差值经反向传播后更新判别器参数；

S303.重复步骤S301和S302，直到损失函数趋于收敛即达到纳什平衡，停止训练。

进一步的，步骤四具体包括以下步骤：

S401.热图生成网络的训练；将训练好的编码器参数固定，防止训练好的人脸重构特征被破坏；训练时使用了翻转(p＝0.5)，放缩(±5％)的数据增强方法；此时，使用Adam优化器训练信息传输保留模型，学习率为2*10^-5，β₁＝0.9，β₂＝0.999；

S402.热图生成网络的微调；待热图生成任务的损失函数开始波动且趋于稳定，将人脸重构网络的参数作为模型并保存，读取该模型，解冻编码器参数，继续训练若干轮，对热图生成网络进行微调，以使热图生成网络更加适应热图生成任务；微调的时候信息传输保留模型的学习率为2*10^-7，β₁＝0.9，β₂＝0.999，编码器的学习率为2*10^-5，β₁＝0.9，β₂＝0.999；其中热图生成网络的损失函数为MSE损失函数。

进一步的，步骤五具体包括以下步骤：

S501.分别构建好将热图映射为热图中热力值最高点坐标的函数hMax与将热图映射为热图质心坐标的函数hMean；输入训练图片P的单张图片p_i，得到若干张热图h_ij；然后，将若干张热图h_ij分别用hMax和hMean计算坐标，与真实坐标l_i比较，如果hMax计算后更加接近，则对应的热图标签为[0,1]，否则为[1,0]，其中热图标签第一位表示将热图映射为热图中热力值最高点坐标的映射方式，第二位表示将热图映射为热图质心坐标的映射方式，使用数字0表示不选择该方式，使用数字1表示选择该方式；

S502.不断重复S501，直到得到所有热图的标签；然后训练热图分类网络一轮，将此时人脸关键点网络所有部分的参数作为人脸关键点检测模型保存；其中热图分类网络的损失函数为交叉熵损失函数。

进一步的，步骤八具体包括以下步骤：

S801.将训练集B中的每个图片b_i输入人脸关键点检测网络后得到坐标点；将坐标点重新映射回热图并与b_i相乘；

S802.固定人脸关键点检测网络参数，将结合后的图片输入表情识别网络，训练表情识别网络；表情识别网络的损失函数为交叉熵损失函数。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.由于人脸重构网络的训练过程仅需要人脸图片，因此可以进行大量的无监督学习，以学习到丰富的人脸隐含信息。这些隐含信息可以让人脸关键点检测网络减少所需手工标注的数量，从而减小标注成本。此外，这些隐含信息不仅可以作用于人脸关键点检测任务，还可以作用于其他相关的人脸特征提取任务，例如人脸识别、人脸残缺补齐等任务。

2.由于设计了新的从热图到人脸关键点坐标的映射函数，热图分类网络可以缓解热图生成网络生成的热图不呈现高斯分布的问题，热图分类网络仅由三层卷积网络组成，因此人脸关键点检测网络仍会有较快的速度。并且由于轻便性，热图分类网络可以接在目前任意热图生成网络的后面，具有普适性。

3.本发明在面部特征迁移学习领域有着良好的效果。基于面部特征迁移学习的表情识别网络的构建，既减少了制作人脸关键点训练集的成本、减小了语义歧义，又解决了热图分布呈现非高斯分布的问题。最终，由于关键点检测网络在人脸重构网络中学习了大量的人脸隐含信息，在热图生成网络训练进行时，即使仅使用1张带标注的图片进行训练，人脸关键点检测网络也可以在上千次测试中获得较高的人脸关键点检测准确率。

4.本发明在特征迁移学习方向开辟了新的跨域学习思路，使得人脸表情识别更加精准。此外由于总网络在学习表情识别之前，已经学习了人脸关键点信息，这些信息对表情识别有较大的帮助，因此当表情识别训练集缩小为原来的1/6时，表情识别网络也可以保持较为稳定的识别准确率。

5.本发明设计了新的人脸关键点数据集，不同于以往的人脸关键点数据集，本发明数据集标注了168个关键点，除了以往人脸关键点数据集包含的眼眶、眼球、眉毛、鼻子、嘴巴、下脸颊之外，该数据集还包含整个脸部轮廓、耳朵、头发和脖子的位置。该数据集保证本发明的网络结构可以提取到更加丰富的人脸特征。通过与WFLW数据集的迁移学习效果对比，详情见图5，很容易发现相较于包含以往的人脸关键点的数据集，使用50张本发明的数据集可以更好的完成迁移训练的表情识别任务。这证明了标注新数据集的合理性和有效性。

附图说明

图1为本发明的人脸关键点检测网络架构图；图中①指人脸重构网络部分，②指热图生成网络部分，③指热图分类网络部分；

图2为本发明的人脸表情识别网络架构图；

图3为本发明的人脸关键点数据集定义；

图4a是理想的呈高斯分布的热图；图4b是现实中可能预测的热图；

图5为本发明的数据集与WFLW数据集迁移学习效果对比图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前大多数人脸关键点检测网络，都会在使用某个大型数据集多次重复训练，这会导致模型在该数据集过拟合，从而对其他数据集进行误判。因此，适用于小样本的半监督网络近几年流行起来。受3FabRec^[9]网络启发，本发明的人脸关键点检测网络如图1所示，分为三个部分。第一部分是一个基于上百万张数据集训练的人脸重构网络，它包含编码器、生成器和判别器。通过生成器生成人脸以及与判别器对抗训练，编码器可以将学到的大量的人脸中的隐含信息捕获到一个低维空间E(x)中。第二部分是热图生成网络。热图生成网络由人脸重构网络中的编码器和生成器改造而成。为了防止生成器的卷积网络中信息损失，热图生成网络包含一个信息传输保留模型。信息传输保留模型捕获到的信息可以让热图生成网络更好的完成学习。第三部分是热图分类网络。它将通过一轮的训练学会对热图分类，让热图自己搜寻可以减小映射误差的映射函数。在训练好人脸关键点检测网络后，仅保留编码器部分，并插入Resnet18得到表情识别网络，如图2所示，表情识别网络没有使用多余的技巧，仅仅添加了一个注意力模型。下面详细讲述表情识别网络如何结合人脸关键点和人脸表情这两个特征。

1.人脸关键点检测网络。

(1)第一部分是基于无监督的人脸重构网络。人脸重构网络由编码器、生成器和判别器组成。这部分参照了3FabRec网络。人脸重构网络的训练使用四个损失函数做约束，分别为L_cs(E，G)，L_rec(E，G)，L_enc(E，G)和L_adv(E，G，D)，它们公式如下：

L_cs(E,G)＝E_x～p(x)[cs(x,G(E(x))]

L_rec(E,G)＝E_x～p(x)[||x,G(E(x))||₁]

L_adv(E,G)＝E_x～p(x)[logD_x(x)]+E_x～p(x)[log(1-D_x(G(E(x))))]

其中，σ_x和σ_y指的x和y两个滑窗的强度方差，σ_xy则是它们的协方差，常数c负责增加分母的稳定性，在这里c＝255^0.01。每张图片都会经过k*k个滑窗，之后便可得到两张图的结构对齐度：

其中，w＝k*k，x_w和y_w分别表示不同的滑窗。

由于人脸重构网络的训练过程仅需要人脸图片，因此可以进行大量的无监督学习，以学习到丰富的人脸隐含信息。这些隐含信息可以让人脸关键点检测网络减少所需手工标注的数量，从而减小标注成本。

(2)第二部分是受监督的热图生成网络。热图生成网络在人脸重构网络的编码器和生成器基础上加入了一个信息传输保留模型，它由3*3的卷积网络和3*3的反卷积网络组成。信息传输保留模型包含两个模型：信息传输模型和信息保留模型。信息传输模型是交错地插在生成器每一层网络之间的3*3卷积网络；信息保留模型是编码器后面的多条通道，由用来和卷积后信息做叠加的反卷积网络和无卷积网络组成。热图生成网络的训练以人脸重构网络训练阶段得到的隐含信息为基础。信息传输保留模型中的信息传输模型负责传输信息。它可以将编码器得到的人脸隐藏信息进行解析，逐步解析出关键点位置信息。信息保留模型负责将隐含信息输送给信息传输模型的每一层网络，这样做可以防止在信息传输的过程中造成的信息丢失，增强热图生成网络的鲁棒性。同时，为了让迁移学习取得更加良好的效果，本发明制作了新的人脸关键点数据集。这一数据集的关键点定义如图3所示。

(3)第三部分是无监督的热图分类网络。在得到热图后，人脸关键点检测网络需要将热图映射成关键点坐标。大多数人脸关键点检测工作到了热图生成任务后就没有继续研究，然而热图生成任务后也会产生误差。这是由于热图生成网络生成的热图会出现高斯分布之外的其他分布^[12]。如图4a和图4b所示，尽管想要生成的热图需要呈现图4a那样的高斯分布，但在真实情景中有时会得到图4b那样多个峰值的热图。这种情况下，特意为高斯分布热图设计的argmax映射函数便会带来映射误差。与约束热图形态的方法不同，热图分类网络可以在另一角度解决这一问题。热图分类网络仅由三层卷积网络组成，因此人脸检测网络仍会有较快的速度。并且热图分类网络可以接在目前任意热图生成网络的后面，具有普适性。

热图分类网络旨在设计大量从热图到人脸关键点坐标的映射函数，并将热图分类到映射误差更小的映射函数上。本实施例以空间均值映射函数和空间最值映射函数为例，进行分类介绍。热图分类网络将热图生成网络得到的热图当作输入进行训练。值得注意的是，这是一个无监督过程。因为真实的关键点坐标会告诉网络，每张热图用什么方法处理可以得到更小的误差。热图分类网络的算法如下：

其中findMax(H)和findMean(H)分别表示寻找热图上热力值最高的点的坐标和寻找热图上热力值的质心坐标。算法第十行仅使用简单的三层卷积网络完成训练，因此通过提升热图分类网络的性能，算法仍有提升空间。另外，本发明还可以加入更多的映射函数，比如利用第一高峰和第二高峰进行联合运算等。这些映射函数可以有效提升热图分类网络的性能。

2.表情识别网络

表情识别网络由预处理网络、Resnet18和注意力模型组成，其中预处理网络是两层3*3的卷积网络。表情识别网络的训练需要更换数据集为表情识别数据集。为了实现基于面部特征迁移学习的表情识别方法，本发明将表情识别数据集输入人脸关键点检测网络，得到的关键点坐标，然后将坐标转化为热图，并将热图与经过预处理网络预处理的表情识别数据集做乘积。此外，为了让表情识别网络可以自己学习到更加有用的特征，本发明使用了注意力模型，它是一个全连接网络，负责将表情识别网络输出结果维度变为1并使用Sigmoid激活函数激活。之后，使用全连接网络的输出与Resnet18的输出相乘，当作表情识别网络最终的输出。

具体的，本实施例中基于面部特征迁移学习的表情识别网络整体采用Pytorch深度学习框架搭建。人脸重构任务可以看作一个图片域P映射到相似图片域P’＝G(E(P))的过程，其中，E和G分别表示编码器和生成器。在这一过程中，编码器已经学习了特征z＝E(P)。在人脸关键点检测任务上，这一特征可以迁移学习到人脸关键点检测的热图H＝C(Q(E(P)))。其中，Q表示由生成器改良后的热图生成网络，C表示无监督的热图分类网络。最后，本发明将热图特征迁移到表情识别领域S＝R(C(Q(E(X))))，也是最终的目标域。此时，P换为了X，表示将人脸关键点检测数据集换为了表情识别数据集。R表示表情识别网络。本实施例的目标是搭建可以体现这种特征迁移学习的网络，并按照前述所述计划训练。

首先是人脸关键点检测网络，它包含人脸重构网络、热图生成网络和表情识别网络。

人脸重构网络包含编码器，生成器和判别器三个网络。编码器由一个Resnet18构成。起初是一个7×7,步长为2的卷积操作，和一个3×3，步长为2的最大池化操作。而后又经过了4次3×3的卷积核处理,步长为1。在提取到了较为抽象的特征之后，编码器又使用了三次同样的卷积操作，即一次3×3的卷积核卷积操作,步长为2，三次3×3的卷积核卷积操作,步长为1。最后，编码器由平均池化网络和全连接网络收尾。Resnet18的结构可以在网上很容易找到，它可以得到人脸重构任务提取出来的人脸特征z＝E(P)。

生成器G通过一个全连接网络和五个反卷积网络处理处理z。首先是一个4×4的卷积核处理,步长为1，后跟一个实例归一化函数(BN)，一个校正线性单元(ReLU)，以提取特征。然后，经历四次4*4的上采样，获得与原输入图片大小一致的输出。此阶段的输出便为人脸重构的预测结果。

判别器中主要是下采样卷积网络，用于提取特征并进行二分类，判别器由五层下采样和一个view函数构成，其中每层下采样卷积核为4×4，步长为2，最终使用view函数，输出一个一维向量，以便与真实标签做差。

热图生成网络使用人脸重构网络中的编码器和生成器，并对生成器进行了结构调整。人脸重构任务完成后，去掉生成器的最后一层网络，在生成器剩余的网络中间插入三层新的卷积网络，并在最后加入一个卷积网络。这四层网络均使用4×4，步长为1的卷积核进行卷积。借鉴跳跃连接^[11]思想，本实施例使用了三层反卷积网络试图让网络融合特征z的更多特征。他们都是4×4，步长为2的反卷积网络，每经过一次反卷积都会得到与上采样相同尺寸的特征。以便使用add函数让两个特征融合，训练出更加精准的热图。

热图分类网络是一个三层全连接网络。首先，它将热图维度变为1，然后使用全连接网络将16384通道数压缩成2048通道数，后跟一个实例归一化函数(BN)，一个校正线性单元(ReLU)，以提取特征。后面两个全连接网络分别将其压缩为256通道数，2通道数，都经过了实例归一化函数(BN)和一个校正线性单元(ReLU)处理。

其次是表情识别网络。

在表情识别网络中，本实施例使用Resnet18作为图片分类网络。该分类网络由一个7×7的卷积核,步长为2的卷积操作开始开始，经过了3×3，步长为2的最大池化网络。而后经过了4次3×3的卷积核处理,步长为1。再后经历了三次同样的卷积操作，即一次3×3的卷积核卷积操作,步长为2，三次3×3的卷积核卷积操作,步长为1。最后由平均池化网络和全连接网络收尾。该全连接网络将每张图片分为7类，包含快乐，悲伤，惊讶，愤怒，厌恶等表情。

表情识别网络使用了注意力模型。Resnet18的全连接网络输出结果之后，本实施例又使用了一个全连接网络对其进行处理，然后使用一个校正线性单元(Sigmoid)对其范围进行约束，该结果称为注意力权重，将其与Resnet18输出结果相乘，便可以得到表情识别结果。

具体的，基于面部特征迁移学习的表情识别方法的具体实施步骤如下：

1、准备三种数据集，具体操作为：

(101)在网上下载VGGFace2和AffectNet两个数据集，使用OpenCV人脸检测器检测数据集的人脸，取人脸高度大于100px的两百多万张作为人脸重构网络的数据集，其中200万张作为训练集C，其余作为测试集C’。

(102)在网上或者现实中找到60个人的包含清晰人脸器官的图片，并按照图3的定义，以左上角为原点，手动标注人脸关键点位置的坐标，得到50张训练图片P，50张训练标注W，合成50张训练集，10张测试图片P’和10张测试标注W’，合成10张测试集。

(103)网上下载RAF-DB数据集，作为表情识别网络的数据集使用。其中训练集和测试集已经分好类。将训练集称为B，测试集称为B’，直接使用即可。

2、将P储存在文件夹Image中，W使用numpy转化成“.npy”文件，以与P相对应的命名储存在Landmark文件，以便快速读取人脸关键点的坐标。

3、将训练集C输入人脸重构网络进行训练。在训练的时候，编码器、生成器和判别器均使用Adam优化器，学习率为2*10^-5，β₁＝0，β₂＝0.999。这一阶段大概需要训练一周时间。具体如下：

(301)训练判别器：训练集C中的一张真实图片c_i输入到人脸重构网络中得到一张重构后的图片c_i’。判别器通过卷积提取c_i和c_i’的图片特征，最终损失函数尽量让c_i’的图片特征接近0(假)，让c_i的图片特征接近1(真)，根据此值经反向传播后更新判别器参数。

(302)训练编码器和生成器：训练集C中的一张真实图片c_i输入到编码器和生成器中得到一张重构的图片c_i’，损失函数尽量让c_i和c_i’的特征更加接近，根据此值经反向传播后更新判别器参数。

(303)重复步骤(301)和(302)，直到损失函数趋于收敛即达到纳什平衡，停止训练。此过程一般要迭代一周。

(304)人脸重构网络的损失函数如下：

L_cs(E,G)＝E_x～p(x)[cs(x,G(E(x))]

L_rec(E,G)＝E_x～p(x)[||x,G(E(x))||₁]

L_adv(E,G)＝E_x～p(x)[logD_x(x)]+E_x～p(x)[log(1-D_x(G(E(x))))]

4、将P输入热图生成网络进行训练。具体步骤如下：

(401)热图生成网络的训练：将上述训练好的编码器参数固定，防止训练好的人脸重构特征被破坏。训练时使用了翻转(p＝0.5)，放缩(±5％)的数据增强方法。此时，使用Adam优化器训练信息传输保留模型，学习率为2*10^-5，β₁＝0.9，β₂＝0.999。

(402)热图生成网络的微调：待热图生成任务的损失函数开始波动且趋于稳定，将人脸重构网络的参数作为模型并保存，读取该模型，解冻编码器参数，继续训练几轮，对网络进行微调，以便网络更加适应热图生成任务。微调的时候信息传输保留模型的学习率为2*10^-7，β₁＝0.9，β₂＝0.999，编码器的学习率为2*10^-5，β₁＝0.9，β₂＝0.999。

(403)热图生成网络的损失函数为MSE损失函数。

5、待热图生成网络的损失函数波动并趋于稳定，开始训练热图分类网络。具体操作为：

(501)分别构建好将热图映射为热图中热力值最高点坐标的函数hMax与将热图映射为热图质心坐标的函数hMean；输入训练图片P的单张图片p_i，得到若干张热图h_ij；然后，将若干张热图h_ij别用hMax和hMean计算坐标，与真实坐标l_i比较，如果hMax计算后更加接近，则对应的热图标签为[0,1]，否则为[1,0]，其中热图标签第一位表示将热图映射为热图中热力值最高点坐标的映射方式，第二位表示将热图映射为热图质心坐标的映射方式，本发明使用0表示不选择该方式，使用1表示选择该方式。

(502)不断重复(501)，直到得到所有热图的标签。然后训练热图分类网络一轮，将此时人脸关键点网络所有部分的参数作为人脸关键点检测模型保存。

(503)热图分类网络的损失函数为交叉熵损失函数。

6、将此时人脸关键点检测网络每个部分训练得到的参数都记录下来，作为人脸关键点检测网络模型并保存。

7、将P’和B’分别放入人脸关键点检测网络。其中P’观察其输出关键点误差与关键点位置合理性；B’观察关键点位置合理性。若都合理可进行下一步，否则重复步骤1-7。

8、此时已经训练好人脸关键点检测网络，需要对表情识别网络进行训练，具体为：

(801)将B中的每个图片b_i输入人脸关键点检测网络后得到坐标点。将坐标点重新映射回热图并与b_i相乘。

(802)固定人脸关键点检测网络参数，将结合后的图片输入表情识别网络，训练表情识别网络。

(803)表情识别网络的损失函数为交叉熵损失函数。

9、将此时表情识别网络每个部分训练得到的参数都记录下来，作为表情识别网络模型并保存。

10、读入B’到表情识别网络，输出检测结果的准确率和每张图片的表情识别结果，观察其合理性。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Wang Xinyao,Bo Liefeng and Li Fuxin.Adaptive Wing Loss for RobustFace Alignment via Heatmap Regression.IEEE International Conference onComputer Vision.2019.

[2]Feng Zhenhua,Josef Kittler,Muhammad Awais,Patrik Huber,and WuXiaojun.Wing loss for robust facial landmark localisation with convolutionalneural networks.In The IEEE Conference on Computer Vision and PatternRecognition,June 2018.

[3]Joseph P Robinson,Li Yuncheng,Zhang Ning,Fu Yun,Sergey Tulyakov,Northeastern University and Snap Inc.Laplace Landmark Localization.IEEEInternational Conference on Computer Vision.2019.

[4]Abhinav Kumar,Tim K.Marks,Mou Wenxuan,Wang Ye,Michael Jones,AnoopCherian,Toshiaki Koike-Akino,Liu Xiaoming and Chen Feng.LUVLi Face Alignment:Estimating Landmarks’Location,Uncertainty,and Visibility Likelihood.In TheIEEE Conference on Computer Vision and Pattern Recognition,2020.

[5]Xu Zou,Sheng Zhong,Luxin Yan,Xiangyun Zhao,Zhou Jiahuan and YingWu.Learning Robust Facial Landmark Detection via Hierarchical StructuredEnsemble.IEEE International Conference on Computer Vision.2019.

[6]Y.Li,J.Zeng,S.Shan,and X.Chen.Occlusion aware facial expressionrecognition using cnn with attention mechanism.IEEE Transactions on ImageProcessing,28(5):2439–2450,May 2019.

[7]Wang Kai,Peng Xiaojiang,Yang Jianfei,Meng Debin and Yu Qiao.RegionAttention Networks for Pose and Occlusion Robust Facial ExpressionRecognition.IEEE Trans.On Image Processing.2020.

[8]Long M,Cao Y,Wang J,et al.Learning transferable features with deepadaptation networks.International Conference on Machine Learning.2015:97-105.

[9]B.Browatzki and Christian Wallraven.3FabRec:Fast Few-shot Facealignment by Reconstruction.In IEEE Conference on Computer Vision and PatternRecognition,2020.

[10]A.Toshev,and C.Szegedy.Deep pose:Human pose estimation via deepneural networks.In IEEE Conference on Computer Vision and PatternRecognition,2014.

[11]Z.-Q.Tang,X.Peng,S.Geng,L.-F.Wu,S.-T.Zhang,andD.Metaxas.Quantized densely connected u-nets for efficient landmarklocalization.In European Conference on Computer Vision,2018.

[12]Zhang Feng,Zhu Xiatian,Dai Hanbin,Ye Mao and Zhu Ce.Distribution-Aware Coordinate Representation for Human Pose Estimation.In IEEE Conferenceon Computer Vision and Pattern Recognition,2019.

[13]Kaiming He,Zhang Xiangyu,Sun Shaoqing and RenJian.Deep ResidualLearning for Image Recognition.In IEEE Conference on Computer Vision andPattern Recognition,2016.

[14]Liu Weiyang,Wen Yandong,Yu Zhiding,Li Ming,BhikshaRaj and SongLe.Sphereface:Deep hypersphere embedding for face recognition.In IEEEConference on Computer Vision and Pattern Recognition,2017.

Claims

1.一种基于面部特征迁移学习的表情识别网络装置，其特征在于，包括人脸关键点检测网络和表情识别网络，所述人脸关键点检测网络包括无监督的人脸重构网络、受监督的热图生成网络和无监督的热图分类网络；

所述热图生成网络在人脸重构网络的编码器和生成器基础上加入了一个信息传输保留模型，信息传输保留模型由3*3的卷积网络和3*3的反卷积网络组成；信息传输保留模型包含两个模型：信息传输模型和信息保留模型；信息传输模型是交错地插在生成器每一层网络之间的3*3卷积网络；信息保留模型是编码器后面的若干条通道，由用来和卷积后信息做叠加的反卷积网络和无卷积网络组成；热图生成网络的训练以人脸重构网络训练阶段得到的隐含信息为基础；信息传输模型负责传输信息；信息传输模型能够将编码器得到的人脸隐含信息逐步解析得到关键点位置信息；信息保留模型负责将隐含信息输送给信息传输模型的每一层网络，以防止在信息传输的过程中造成信息丢失，增强热图生成网络的鲁棒性；

所述表情识别网络由预处理网络、Resnet18和注意力模型组成，其中预处理网络是两层3*3的卷积网络，注意力模型是一个全连接网络；表情识别网络的训练需要更换数据集为表情识别数据集；将表情识别数据集输入到人脸关键点检测网络，得到关键点坐标，然后将关键点坐标转化为热图，并将热图与经过预处理网络预处理的表情识别数据集做乘积；注意力模型负责将表情识别网络输出结果维度变为1并使用Sigmoid激活函数激活；使用注意力模型的输出与Resnet18的输出相乘，当作表情识别网络最终的输出。

2.一种基于面部特征迁移学习的表情识别方法，基于权利要求1所述基于面部特征迁移学习的表情识别网络装置，其特征在于，包括以下步骤：

步骤一、准备三种数据集，具体为：

步骤三、将训练集C输入人脸重构网络进行训练；

步骤四、将训练图片P输入热图生成网络进行训练；

步骤八、对表情识别网络进行训练；

3.根据权利要求2所述一种基于面部特征迁移学习的表情识别方法，其特征在于，步骤S101中，在网上下载VGGFace2和AffectNet两个数据集，使用OpenCV人脸检测器检测数据集的人脸，取人脸高度大于100px的两百万+张作为人脸重构网络的数据集，其中200万张作为训练集C，其余作为测试集C’；

4.根据权利要求2所述一种基于面部特征迁移学习的表情识别方法，其特征在于，步骤三在将训练集C输入人脸重构网络进行训练时，编码器、生成器和判别器均使用Adam优化器，学习率为2*10^-5，β₁＝0，β₂＝0.999；具体如下：

S301.训练判别器；训练集C中的一张真实图片c_i输入到人脸重构网络中得到一张重构后的图片c_i’；判别器通过卷积提取c_i和c_i’的图片特征，最终损失函数让c_i’的图片特征接近0，数字0表示假，让c_i的图片特征接近1，数字1表示真，根据得到的数字0和1经反向传播后更新判别器参数；

S302.训练编码器和生成器；训练集C中的一张真实图片c_i输入到编码器和生成器中得到一张重构的图片c_i’，根据c_i和c_i’的差值经反向传播后更新判别器参数；

5.根据权利要求2所述一种基于面部特征迁移学习的表情识别方法，其特征在于，步骤四具体包括以下步骤：

S401.热图生成网络的训练；将训练好的编码器参数固定，防止训练好的人脸重构特征被破坏；训练时使用了翻转，放缩的数据增强方法；此时，使用Adam优化器训练信息传输保留模型，学习率为2*10^-5，β₁＝0.9，β₂＝0.999；

6.根据权利要求2所述一种基于面部特征迁移学习的表情识别方法，其特征在于，步骤五具体包括以下步骤：

7.根据权利要求2所述一种基于面部特征迁移学习的表情识别方法，其特征在于，步骤八具体包括以下步骤：