CN111860151A

CN111860151A - 一种无监督跨角度面部表情图像识别方法

Info

Publication number: CN111860151A
Application number: CN202010532746.2A
Authority: CN
Inventors: 孙宁; 卢情义; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-30
Anticipated expiration: 2040-06-12
Also published as: CN111860151B

Abstract

本发明公开了一种无监督跨角度面部表情图像识别方法，将由正脸表情图像训练得到的分类器迁移到侧脸图像域，实现侧脸表情图像的高精度识别。本方法是一种深度神经网络，称为无监督跨角度面部表情自适应网络。该网络使用两个生成对抗网络进行正脸图像和侧脸图像的循环生成，这种机制建立了两个对应的编码‑解码对，完成由图像到高层语义特征再到图像的变换，从而得到表情图像的高维特征。正脸图像和侧脸图像在特征空间的分布差异要远小于两者在图像空间的分布差异，本方法在两者的特征空间进行半监督学习，完成由正脸图像分类向侧脸图像的领域自适应。此外，本发明还使用了合成侧脸图像质量评估，域平均脸和乒乓螺旋上升训练等技巧。

Description

一种无监督跨角度面部表情图像识别方法

技术领域

本发明涉及图像处理领域，涉及一种一种无监督跨角度面部表情图像识别方法。

背景技术

在机器视觉研究中，领域漂移广泛存在，而且一直是局限视频分析算法从实验室走向大规模商用的重要障碍。其主要是由两方面因素导致：1)由于视频来源，摄像机视角，目标姿态，光照环境等各方面条件差异，导致使用有限的训练样本无法覆盖视频中待处理对象所有状态的数据分布。例如视频分析中的多角度问题，目标再识别问题和对不同环境的泛化性问题等等。2)对图像数据进行充分标注代价高昂，使得在当前海量的图像数据中真正能用于有监督学习的数据只占极少部分，一旦源域和目标域中的数据分布差异较大，则效果大幅下降，与人类具备的那种“举一反三”的能力相差甚远。因此，研究计算机视觉中的领域适应问题，将从已有标签信息的源域数据中学习所得的知识和模型迁移到只有少量标签(半监督领域适应)或是无标签(无监督领域适应)的目标域数据中去，在目标域获取高性能的图像分析效果，实现图像分析算法对领域漂移现象的适应性和鲁棒性，具有重要的理论意义和实践价值。

目前主流的人脸表情识别技术都是基于特定角度的人脸提出的，这与现实生活摄像机采集到的人脸数据不符，无法对多角度多光照的人脸做出准确的表情判别，从而导致将人脸面部表情识别用于现实场景下有局限性。如何在只有正脸表情的情况下也能生成并识别出侧脸表情，是目前人脸生成和识别的一个难题。

发明内容

发明目的：本发明的目的是提供一种无监督跨角度面部表情图像识别方法，该方法通过高维特征图像来优化生成和进行分类，从而无监督跨角度地识别的人脸表情图像。

技术方案：本发明所述的一种无监督跨角度面部表情图像识别方法，包括以下步骤：

步骤A，创建多角度的人脸表情库，表情库中包含的表情包括但不限于：生气、轻蔑、厌恶、害怕、伤心、自然；摄像机拍摄角度包括但不限于为0°，45°，90°，135°，150°，180°；摄像机在不同的角度下采集对象的图像，并将采集的90°的图像作为正脸图像，其他角度的图像作为侧脸图像；之后对不同角度下采集到的人脸图像进行校准，制作标签，获得多角度的人脸表情数据集；

步骤B，建立无监督跨角度面部表情自适应网络UCFEAN，无监督跨角度面部表情自适应网络UCFEAN包括两个用于跨角度图像生成的生成器G12、G21，两个判别器，两个用于在特征域进行半监督学习的分类器，学生网络Cs和教师网络Ct，以及一个合成图像质量评估网络Cq；

步骤C，对无监督跨角度面部表情自适应网络UCFEAN进行训练，训练中的技巧包括乒乓逐级下降训练策略和域平均脸以及合成图像质量评估；

步骤D，测试时，将侧脸表情图像输入到无监督跨角度面部表情自适应网络UCFEAN中，便可以得到该图像的表情分类结果。

通过采用上述技术方案，将源域表情图像输入生成器G12中生成假的目标域表情图像和源域高维特征，将目标域表情图像输入生成器G21中生成假的源域表情图像和目标域高维特征，源域图像和目标域图像在对应的判别器中进行判别，生成器与判别器对抗训练形成高质量图像；同时，G12生成的假的目标域图像通过E21得到假的目标域高维特征图像，经过质量判决Cq后和源域高维特征共同作为有标签图像输入Cs进行有标签训练，目标域高维特征fea_tar作为输入Cs，Ct进行无标签训练。在半监督分类网络对目标域高维特征的分类效果提升的同时，借助半监督网络，E12和E21也通过有标签学习得到更好的参数；上述过程中，生成对抗网络和半监督网络循环训练，相互促进共同进步。这样，整个网络在生成目标域表情图像的同时，还能通过将编码器E21和半监督网络级联起来在目标域人脸表情图像上获得可靠的无监督分类器。

有益效果：将生成对抗网络中的生成器分为编码和解码两个部分，在无标签的情况下也能通过编码部分提取高维特征，不仅能有效的弥补领域差异，还能极大程度上减少原图上的噪声干扰，用其训练得到的分类网络也会具有良好的鲁棒性；在领域差异较大的情况下，半监督分类器不能取得理想的效果，通过提取高维特征的方式缩小领域差异，使得半监督分类器能够跨领域使用；将生成对抗网络和半监督网络协同训练，分类精度提升的同时，也反馈到生成器，提升生成图像质量，生成器的优化能更好的提取特征，促进分类精度的提升，两者协同训练，共同进步，在提升侧脸分类效果的同时也能生成质量高的侧脸图片。

附图说明

图1是本发明的训练流程图，

图2是本发明的测试流程图。

具体实施方式

如图1和图2所示，一种一种无监督跨角度面部表情图像识别方法，包括以下步骤：

其中，生成器G12由从源域到目标域上构建而成，生成器G21由从目标域到源域上构建而成，把生成器G12分为卷积部分E12和反卷积部分D12，把生成器G21分为卷积部分E21和反卷积部分D21。

然后从源域和目标域对应的提取高维特征，即源域的高维特征fea_src和目标域高维特征fea_tar；源域图像经过G12得到目标域生成图像，再经过G21的卷积部分E21得到高维特征fea_fake_tar，高维特征fea_src和fea_fake_tar拥有源域的标签，fea_src和fea_fake_tar是有标签图像，fea_tar是目标域无标签图像，高维特征fea_src和经过质量评估后fea_fake_tar输入分类网络Cs进行有标签训练，无标签高维特征fea_tar分别输入分类网络Cs，Ct进行无标签训练。

步骤C，对无监督跨角度面部表情自适应网络UCFEAN进行训练，训练中的技巧包括乒乓逐级下降训练策略和域平均脸以及合成图像质量评估。

其中，乒乓逐级下降训练分为两个节拍，当训练生成器G12，G21时，分类网络Cs，Ct的参数冻结；当训练分类网络Cs，Ct时，生成器G12，G21的参数冻结；训练开始时，每20次迭代作为1个节拍，随着训练的开展，逐步减少每个节拍中迭代的次数，最终达到1次迭代作为1个节拍。

域从源域到目标域生成对抗网络和从目标域到源域的生成对抗网络都要求生成器所生成图像要接近另一个域的数据分布，对源域和目标域的真实图像分别求均值，得到域平均脸，将此作为生成器G12，G21训练时目标函数之一，由此提高训练性能。

最后源域和目标域的原始图像训练合成图像质量评估网络Cq，输出结果范围在0到1之间，质量越高越接近1，反之接近0。

其中，目标域侧脸表情图像通过G12的卷积部分E21获得fea_tar，并分别输入已经训练好的半监督分类网络Cs，Ct，得到的结果加权求和，作为最终的表情分类结果。

无监督跨角度面部表情自适应网络UCFEAN由两个对称的生成对抗网络和两个分类网络构成；生成对抗网络分为生成器和判别器，生成器的目的是生成另一个领域的图像，判别器的目的是判决生成图像的真假，与生成器对抗训练，提升生成图像质量；半监督分类网络由学生网络Cs和教师网络Ct组成，Cs进行有标签学习，Ct通过Cs的移动指数平均得到，无标签图像输入Cs,Ct进行无标签学习。

该方法的实际运用：生成对抗网络的生成器包括3个卷积层，6个残差层，3个转置卷积层。卷积层的卷积核尺寸为3×3，步长分别为2，2，2；目的是将128×128×3的图像提取高维特征；残差网络是由六个残差块构成，在第四个残差块上取高维特征图像来进行分类，残差块可以在尽可能保留有效信息地情况下加深网络层数并防止梯度爆炸；转置卷积层的转置卷积核尺寸为3×3，步长为2，目的是将压缩后的向量复原为128×128×3的表情图像；

对抗生成一致性网络的判别器的包括5层卷积层，卷积层卷积核尺寸为4×4，步长分别为2，2，2，1，1。主要用于对生成的图像和原始图像的比对，并和生成器共同进步直至分不出生成图像的真假。

将生成器的编码部分所提取的源域高维特征和目标域上高维特征分别作为有标签和无标签两部分，并用生成的假的目标域图像的高维特征图像作为有标签图像的补充，输入半监督网络进行训练，不断提高在目标域上的分类效果和生成器的生成效果。

半监督训练的具体方法：

两个相同结构的分类器，分别称作学生网络(Cs)和教师网络(Ct)，教师网络不进行训练，是由学生网络的移动指数平均得到。分类器先用一个7×7，步长为2的卷积核进行卷积，再用一个7×7，步长为2的卷积核最大池化，从而过滤噪声。然后接8个残差块，步长分别为1，1，2，1，2，1，2，1，进行升维，平均池化之后用全连接层和softmax输出分类。

源域图像的高维特征图和生成的假的目标域图像的高维特征图输入学生网络作为有监督损失，无标签的目标域高维特征图像分别添加噪声后输入学生网络和教师网络，教师网络的结果好于学生网络，我们希望用教师网络的结果来指导学生网络，于是用均方差来衡量两个网络的分类结果差异。随着训练的进行，有监督部分的损失所占权重越来越小，无监督部分所占损失越来越大，从而使学生网络再目标域上的分类效果逐渐提升。而教师网络不进行训练，是学生网络的移动指数平均得到，学生网络的效果提升也会让教师网络的精度越来越高。

测试的具体方法：

将无标签的侧脸表情图像通过编码部分E21得到高维特征，再将高维特征分别送到Cs，Ct中，得到的结果进行加权求和，作为最终的分类结果。

Claims

1.一种无监督跨角度面部表情图像识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤B中，生成器G12由源域到目标域上构建而成，生成器G21由目标域到源域上构建而成，把生成器G12分为卷积部分E12和反卷积部分D12，把生成器G21分为卷积部分E21和反卷积部分D21。

3.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤B中半监督网络Cs,Ct的构建。Cs是有标签分类器，将有标签的图像输入分类器Cs中进行有标签学习。Ct是无标签分类器，不进行训练，由Cs的参数经过移动指数平均得到，将无标签的图像经过不同程度的污染后，分别输入Cs和Ct得到分类结果，由Ct的分类结果指导Cs的分类结果。最终将有标签损失和Cs,Ct得到分类结果的差值经过加权后作为最终的半监督网络损失。

4.根据权利要求2所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤B中从源域和目标域对应的提取高维特征，即源域的高维特征fea_src和目标域高维特征fea_tar；源域图像经和目标域图像分别经过E12，E21得到高维特征fea_src和fea_tar，源域图像经过生成器G12得到的生成虚假的目标域图像再经过G21的卷积部分E21得到高维特征fea_fake_tar，高维特征fea_src和fea_fake_tar拥有源域的标签，fea_src和fea_fake_tar是有标签图像，fea_tar是目标域无标签图像，高维特征fea_src和经过质量评估后fea_fake_tar输入分类网络Cs进行有标签训练，无标签高维特征fea_tar分别输入分类网络Cs，Ct进行无标签训练。

5.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤B中源域和目标域的原始图像训练合成图像质量评估网络Cq，输出结果范围在0到1之间，质量越高越接近1，反之接近0。

6.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤C中乒乓逐级下降训练分为两个节拍，当训练生成器G12，G21时，分类网络Cs，Ct的参数冻结；当训练分类网络Cs，Ct时，生成器G12，G21的参数冻结；训练开始时，每20次迭代作为1个节拍，随着训练的开展，逐步减少每个节拍中迭代的次数，最终达到1次迭代作为1个节拍。

7.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤C中从源域到目标域生成对抗网络和从目标域到源域的生成对抗网络都要求生成器所生成图像要接近另一个域的数据分布，对源域和目标域的真实图像分别求均值，得到域平均脸，将此作为生成器G12，G21训练时目标函数之一，由此提高训练性能。

8.根据权利要求1所述的一种无监督跨角度面部表情图像识别方法，其特征在于步骤D中目标域侧脸表情图像通过G12的卷积部分E21获得fea_tar，并分别输入已经训练好的半监督分类网络Cs，Ct，得到的结果加权求和，作为最终的表情分类结果.。