CN113553961B

CN113553961B - 人脸识别模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN113553961B
Application number: CN202110852284.7A
Authority: CN
Inventors: 石海林; 蒋浩然; 胡一博; 刘颖璐; 王军; 梅涛; 周伯文
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-09-05
Anticipated expiration: 2041-07-27
Also published as: CN113553961A

Abstract

本申请公开了一种人脸识别模型的训练方法以及装置，其中方法包括构建人脸识别模型，包括局部特征细化模块和编码解码模块；获取配对人脸图像及其中每张图像的类别标签；针对每张图像，获取图像的面部特征图和面部特征向量，并根据面部特征图生成各个成分的局部特征图；将各个成分的局部特征图输入至局部特征细化模块，获得各个成分的特征向量；根据面部特征向量和各个成分的特征向量，获取针对图像的类别预测结果，并根据类别预测结果和真实类别标签生成分类损失；将每张图像中各个成分的特征向量输入至编码解码模块，获得编码解码模块重建出的特征序列；根据特征序列和编码解码模块的输入生成最小平方差损失，基于上述两种损失训练人脸识别模型。

Description

人脸识别模型的训练方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及人脸识别技术领域以及深度学习技术领域，特别的涉及一种人脸识别模型的训练方法、装置、电子设备和存储介质。

背景技术

人脸识别技术是计算机视觉领域中被广泛研究的课题之一。随着计算资源和算力的提升，基于深度神经网络的识别算法可以通过在大规模人脸数据集上的训练，取得优异的性能以及泛化性，因而被应用在身份核验的现实场景中，常见的有金融、安防和通行门禁等领域。然而，在一些嫌犯追踪、刷脸支付等重要场景，个别的漏检或误检引发的代价也是不可忽视的，这一定程度上由于神经网络的黑盒属性，虽然其拟合数据非线性关系的能力在很多领域得到验证，但是评价网络水平只能依赖于有限的测试样本，无法确保在面临新数据时的泛化性以及面对噪声扰动甚至是恶意攻击时的鲁棒性。

发明内容

本申请提供了一种可应用于人脸识别场景下的人脸识别模型的训练方法、装置、电子设备和存储介质。

根据本申请的第一方面，提供了一种人脸识别模型的训练方法，包括：

构建人脸识别模型；其中，所述人脸识别模型包括局部特征细化模块和编码解码模块；

获取配对人脸图像及所述配对人脸图像之中每张人脸图像的类别标签；其中，所述配对人脸图像为相同身份的一对人脸图像；

针对每张人脸图像，获取所述人脸图像的面部特征图和面部特征向量，并根据所述面部特征图生成所述人脸图像中各个面部成分的局部特征图；

将每张所述人脸图像中各个面部成分的局部特征图输入至所述局部特征细化模块，获得每张所述人脸图像中面部成分的特征向量；

根据每张所述人脸图像的面部特征向量和每张所述人脸图像中面部成分的特征向量，获取针对每张所述人脸图像的类别预测结果，并根据每张所述人脸图像的类别预测结果和每张所述人脸图像的类别标签，生成分类损失；

将每张所述人脸图像中各个面部成分的特征向量输入至所述编码解码模块，获得所述编码解码模块重建出的特征序列；

根据所述特征序列和每张所述人脸图像中各个面部成分的特征向量，生成最小平方差损失，并根据所述分类损失和所述最小平方损失，训练所述人脸识别模型。

根据本申请的第二方面，提供了一种人脸识别模型的训练装置，包括：

构建模块，用于构建人脸识别模型；其中，所述人脸识别模型包括局部特征细化模块和编码解码模块；

第一获取模块，用于获取配对人脸图像及所述配对人脸图像之中每张人脸图像的类别标签；其中，所述配对人脸图像为相同身份的一对人脸图像；

第二获取模块，用于针对每张人脸图像，获取所述人脸图像的面部特征图和面部特征向量；

第一生成模块，用于根据所述面部特征图生成所述人脸图像中各个面部成分的局部特征图；

第三获取模块，用于将每张所述人脸图像中各个面部成分的局部特征图输入至所述局部特征细化模块，获得每张所述人脸图像中面部成分的特征向量；

第四获取模块，用于根据每张所述人脸图像的面部特征向量和每张所述人脸图像中面部成分的特征向量，获取针对每张所述人脸图像的类别预测结果；

第二生成模块，用于根据每张所述人脸图像的类别预测结果和每张所述人脸图像的类别标签，生成分类损失；

第五获取模块，用于将每张所述人脸图像中各个面部成分的特征向量输入至所述编码解码模块，获得所述编码解码模块重建出的特征序列；

第三生成模块，用于根据所述特征序列和每张所述人脸图像中各个面部成分的特征向量，生成最小平方差损失；

训练模块，用于根据所述分类损失和所述最小平方损失，训练所述人脸识别模型。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

根据本申请的技术方案，通过基于精确面部成分的可解释人脸识别模型，能够与现有的识别网络集成带来性能提升，可以进一步提高对识别模型的内部逻辑理解，即人脸识别的可解释性，可以确保在面临新数据时的泛化性以及面对噪声扰动甚至是恶意攻击时的鲁棒性，并提高了人脸识别模型的效果。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是人眼视觉系统、可解释人脸识别和传统DCNNs之间的关系与区别的示例图；

图2为本申请实施例所提供的一种人脸识别模型的训练方法的流程图；

图3为本申请实施例的人脸识别模型的训练方法的整体流程示意图；

图4为本申请实施例的熟悉人脸验证实验的示例图；

图5为本申请实施例的相似度量矩阵的示例图；

图6为本申请实施例的局部遮掩实验的示例图；

图7为本申请实施例所提供的一种人脸识别模型的训练装置的结构框图；

图8示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，人脸识别技术是计算机视觉领域中被广泛研究的课题之一。随着计算资源和算力的提升，基于深度神经网络的识别算法可以通过在大规模人脸数据集上的训练，取得优异的性能以及泛化性，因而被应用在身份核验的现实场景中，常见的有金融、安防和通行门禁等领域。然而，在一些嫌犯追踪、刷脸支付等重要场景，个别的漏检或误检引发的代价也是不可忽视的，这一定程度上由于神经网络的黑盒属性，虽然其拟合数据非线性关系的能力在很多领域得到验证，但是评价网络水平只能依赖于有限的测试样本，无法确保在面临新数据时的泛化性以及面对噪声扰动甚至是恶意攻击时的鲁棒性。这就需要深入到识别模型内部，探究输入和输出结果之间的合理联系，这个联系应该不满足于启发式的思路，而是有一定的数学逻辑基础等，只有这种严密的关联得以保证，才能够放心地去使用识别模型，完成相应的任务。

因此，如何进一步提高对识别网络的内部逻辑理解，即人脸识别的可解释性，是值得研究的课题。将可解释AI(Artificial Intelligence，人工智能)分为两类，即模型的可解释性和结果的解释性。实际上，可解释人脸识别研究也在这个定义的基础上分为如下两个方向：

第一方向是研究训练好的网络，针对输入输出或者中间结果进行分析并尝试理解，或者对网络输入进行扰动，观察网络输出变化是否和预期一致从而得到解释性，比如用显著性映射的方法来分析面部各个部分对识别的影响程度；直接可视化网络的卷积核；通过反卷积网络重建不同层次的输入；基于梯度的方法来产生新的输入来最大化特定的神经元等等。这种解释性倾向于模型层面。

第二方向是自定义解释性，在训练阶段引入可解释性，并验证现有的方法符合这种定义，比如2019年ICCV的一篇工作定义人脸识别模型的解释性在于，任一卷积核会针对特定的面部结构或属性产生较强的激活响应，而且当遮掩存在时，这种集中的响应就会变得分散。

值得注意的是，人脸识别的解释性归根到底就是从源头解释网络是如何匹配同一身份而拒绝不同身份的。进一步来说就是人脸的哪一部分是网络作出识别的判别依据。那么目前主流的方法无论是研究训练好的网络去发现解释性，还是引导可解释性学习都有其各自的缺点。

针对研究训练好的网络，通常将识别结果以某种方式映射到输入人脸图像上，可以通过数值运算或者可视化的方式发现各个部分的重要性，但是这类方法只能生成出粗糙的位置信息，而且受样本影响较大。其他的诸如直接可视化网络的卷积核，通过反卷积网络重建不同层次的输入，基于梯度的方法来产生新的输入来最大化特定的神经元等等都是相似的思路。还有的工作专注于特殊场景，比如相似人脸识别，即那些人眼视觉都很难区分的样本，网络是如何区别的，能否帮助到人眼视觉。这些方法和启发式实验类似，虽然可以得到看似合理的因果关系，但是它并没有跳脱出现有的网络作出分析，更像是自圆其说，因而无法提供坚实的理论基础。

也就是说，现有的可解释人脸识别工作无论是分析现有的网络，还是引导网络可解释性学习，都没有针对性地从精确的局部语义角度识别网络，也没有探寻深度神经网络模型和人眼视觉的异同。为此，本申请则主要从这两个层面触发。如图1所示，对比了人眼视觉系统、可解释人脸识别和传统DCNNs(Deep Convolutional Neural Networks，深度卷积神经网络)之间的异同。本申请发明人发现人眼视觉系统是根据整体外观、显著特征以及一些细节线索作出身份的核验；而传统的深度神经网络则是根据网络输出的结果与阈值比较，作出身份一致与否的判别，至于神经网络是否也利用以及如何利用整体外观、显著特征和细节线索这些信息，就是可解释人脸识别想要探索的目标，也就是本申请所想要解决的问题。

为此，本申请提出了一种人脸识别模型的训练方法、装置、电子设备和存储介质。具体地，下面参考附图描述本申请实施例的人脸识别模型的训练方法、装置、电子设备和存储介质。

图2为本申请实施例所提供的一种人脸识别模型的训练方法的流程图。需要说明的是，本申请实施例的人脸识别模型的训练方法可应用于本申请实施例的人脸识别模型的训练装置，该训练装置可被配置于电子设备上。

如图2所示，本申请实施例的人脸识别模型的训练方法可以包括如下步骤201-207。

在步骤201中，构建人脸识别模型；其中，人脸识别模型包括局部特征细化模块和编码解码模块。

在本公开实施例中，局部特征细化模块可包括5层卷积、一个自适应平均池化层和一个全连接层，其中，卷积层负责进一步提取高级语义特征，自适应平均池化层统一所有局部特征图的尺寸为10x10，最后的全连接层得到32维的特征向量。

在本公开实施例中，该编码解码模块可包括基于Transformer结构的编码器和解码器。例如，该编码解码模块为基于Transformer结构的编码器和解码器，在现有Transformer模块的结构中做了两点调整：第一是将编码器单元的重复次数由6减为2；第二是舍弃最后的分类头，只保留编解码器部分。

在步骤202中，获取配对人脸图像及配对人脸图像之中每张人脸图像的类别标签；其中，配对人脸图像为相同身份的一对人脸图像。

可选地，先准备人脸训练数据集(例如CASIA-WebFace/MS-Celeb-1M数据集)，对每张原始图像进行人脸检测，获得人脸位置的坐标框，并进行人脸关键点检测，使用人脸关键点进行人脸对齐得到标准化的人脸图像，并结合每张原始图像的真实类别标签构成训练集。每批训练样本中输入为相同身份的一对正样本图像，即本申请实施例中的配对人脸图像，输入的人脸图像进行随机裁剪，尺度的缩放，灰度化，旋转等操作进行数据增强，然后作为训练数据输入到人脸识别模型中。

在步骤203中，针对每张人脸图像，获取人脸图像的面部特征图和面部特征向量，并根据面部特征图生成人脸图像中各个面部成分的局部特征图。

可选地，在本公开实施例中，该人脸识别模型还可包括基准网络。其中，该基准网络可以是预先训练好的Backbone(骨干)网络。例如，网络结构可采用ResNet18/ResNet50，然后将其参数固定作为Backbone网络。针对每张人脸图像，利用Backbone网络对输入的人脸图像进行特征提取，得到Backbone网络的网络深层输出的面部特征图和最后输出的512维的面部特征向量。

需要说明的是，在本实施例中，在获得每张人脸图像的面部特征图和面部特征向量之后，可以结合人脸解析结果和3D重建投影结果来获取面部的精确成分掩码，进而可以获得每张人脸图像中各个面部成分的局部特征图。

在一种实现方式中，可针对面部特征图，将人脸解析和3D重建投影获得的位置掩码标签化处理，获得面部特征图之中各个面部成分的位置掩码图像；根据面部特征图之中各个面部成分的位置掩码图像和面部特征图，生成人脸图像中各个面部成分的局部特征图。

举例而言，针对面部特征图，可将人脸解析和3D重建投影获得的位置掩码标签化处理，通过与面部特征图的乘积运算获得各个面部成分的局部特征图。例如，需要获取面部的精确成分掩码，其中重建投影的结果包括左右眼、左右眉毛、左右鼻翼、左右脸颊、鼻子、额头、下巴、人中、眉心和嘴唇共14个成分，而解析结果不仅添加了头发成分，还考虑了墨镜、口罩等遮掩情况的存在，使得位置掩码更加准确。当获得位置掩码后，可以将面部特征图与位置掩码相乘，得到15个面部成分的局部特征图，其中，该15个面部成分的局部特征图可包括左右眼、左右眉毛、左右鼻翼、左右脸颊、鼻子、额头、下巴、人中、眉心和嘴唇这14个成分的局部特征图，以及还包括解析结果(如头发成分)的局部特征图，该头发的局部特征图是利用解析结果(如头发成分)的位置掩码与面部特征图相乘后得到的。

在步骤204中，将每张人脸图像中各个面部成分的局部特征图输入至局部特征细化模块，获得每张人脸图像中面部成分的特征向量。

可选地，在得到每张人脸图像中各个面部成分的局部特征图之后，可将每张人脸图像中各个面部成分的局部特征图和每张人脸图像的面部特征图输入至局部特征细化模块中以抽取进一步细化特征，得到对应面部成分的特征向量。

作为一种示例，该局部特征细化模块可包括5层卷积、一个自适应平均池化层和一个全连接层，其中，卷积层负责进一步提取高级语义特征，自适应平均池化层统一所有局部特征图的尺寸为10x10，最后的全连接层得到32维的特征向量。例如，对于每张人脸图像，以步骤203中得到每张人脸图像之中15个面部成分的局部特征图为例，将这15个面部成分的局部特征图输入至局部特征细化模块，除了这15个面部成分的局部特征图，还将完整的全脸面部成分特征图作为一个输入，这样可以得到16个32维的特征向量。将这16个32维的特征向量拼接成，以得到该人脸图像中面部成分的特征向量。其中，该完整的全脸面部成分特征图可以是将面部特征图与包含上述15个面部成分位置掩码进行相乘操作后得到的特征图，即完整的全脸面部成分特征图中包含了15个面部成分的位置掩码。

在步骤205中，根据每张人脸图像的面部特征向量和每张人脸图像中面部成分的特征向量，获取针对每张人脸图像的类别预测结果，并根据每张人脸图像的类别预测结果和每张人脸图像的类别标签，生成分类损失。

可选地，在得到人脸图像中各个面部成分的特征向量之后，可将各个面部成分的特征向量进行拼接，以得到该人脸图像中面部成分的特征向量。例如，假设得到人脸图像之中16个32维的特征向量，可将这16个32维的特征向量拼接成512维的向量，该512维的向量即为该人脸图像中面部成分的特征向量。在得到每张人脸图像中面部成分的特征向量之后，可将每张人脸图像中面部成分的特征向量与每张人脸图像的面部特征向量进行拼接，以得到1024维向量，该向量即为该人脸图像的融合特征向量。将每张人脸图像的融合特征向量输入至人脸识别模型之中的分类模块中，以获得针对每张人脸图像的类别预测结果。

在本公开实施例中，可将每张人脸图像的类别预测结果和每张人脸图像的类别标签的交叉熵损失函数作为网络的分类损失。

在步骤206中，将每张人脸图像中各个面部成分的特征向量输入至编码解码模块，获得编码解码模块重建出的特征序列。

在本公开实施例中，该编码解码模块可包括基于Transformer结构的编码器和解码器。例如，该编码解码模块为基于Transformer结构的编码器和解码器，在现有Transformer模块的结构中做了两点调整：第一是将编码器单元的重复次数由6减为2；第二是舍弃最后的分类头，只保留编解码器部分。例如，可将局部特征细化模块输出的每张人脸图像之中16个32维特征向量以序列化的方式输入至编码解码模块，由于是正样本配对输入，所以二者分别输入到编码器和解码器，直接输出解码器重建出的特征序列。

在步骤207中，根据特征序列和每张人脸图像中各个面部成分的特征向量，生成最小平方差损失，并根据分类损失和最小平方损失，训练人脸识别模型。

作为一种示例，基于最小平方差损失函数，根据特征序列和每张人脸图像中各个面部成分的特征向量，计算最小平方差损失。利用梯度下降算法对分类损失和最小平方差损失进行迭代运算，每次迭代优化人脸识别模型的权重参数，以使得分类损失和最小平方差损失减小，直到模型收敛实现了人脸识别模型的训练。

为了方便本领域技术人员更加清楚地了解本申请，下面将结合图3进行详细描述。

举例而言，如图3所示，首先对人脸图像数据进行预处理：准备人脸训练数据集，对每张原始图像进行人脸检测，获得人脸位置的坐标框，并进行人脸关键点检测，使用人脸关键点进行人脸对齐得到标准化的人脸图像，并结合每张原始图片的真实类别标签构成训练集。每批训练样本中输入为一对正样本图片，输入的人脸图像进行随机裁剪，尺度的缩放，灰度化，旋转等操作进行数据增强，然后作为训练数据输入到网络中。此外，针对数据集中的图像同时进行人脸解析和人脸重建，获得各自的掩膜，两者叠加得到最终的位置掩膜。将配对人脸输入到预训练好的基准网络(如图3所示的Backbone网络)，抽取中间层的面部特征图和输出层的面部特征向量。针对面部特征图，将人脸解析和3D重建投影获得的位置掩膜标签化处理，通过与面部特征图的乘积运算获得15个面部成分的局部特征图，比如，可得到左右眼、左右眉毛、左右鼻翼、左右脸颊、鼻子、额头、下巴、人中、眉心和嘴唇、头发成分的局部特征图，再通过局部特征细化模块(如图3所示的LocalFeature Refine Module网络)进一步细化特征，得到对应各个面部成分的特征向量，例如，得到15个32维的特征向量，除了这个15个局部特征图，还将完整的面部成分特征图作为一个输入，这样就得到16个32维的特征向量。这些特征向量与基准网络的面部特征向量拼接，输入到分类模块，计算分类结果与真实标签的交叉熵损失函数作为网络的分类损失Loss_cls。将每张人脸图像的16个32维的特征向量以序列化的方式输入至编码解码模块(如图3所示的Transformer网络)，直接输出解码器重建出的特征序列，将该特征序列与两个输入序列计算最小平方差损失Loss_mse。利用梯度下降算法对分类损失和最小平方差损失进行迭代运算，每次迭代优化人脸识别模型的权重参数，以使得分类损失和最小平方差损失减小，直到模型收敛实现了人脸识别模型的训练。

需要说明的是，本申请可应用于人脸识别场景。在本申请一个实施例中，获取待识别人脸图像，并将待识别人脸图像输入至训练好的人脸识别模型，获得待识别人脸图像之中各个面部成分的特征向量，和/或，获得与待识别人脸图像对应的类别预测结果。

还需要说明的是，本申请主要围绕三条关于人脸识别的实验性结论展开：其一是面部只有在整体处理时才能保证性能；其二是在众多的面部成分中，眼眉区域发挥着尤为重要的作用；其三是人脸识别的鲁棒性与熟悉度之间的关系，通俗来说就是当模糊、缺失等退化现象发生时，网络越熟悉的人脸是否有更强的鲁棒性。这三条结论是在人眼视觉中是被反复论证成立的，但是在基于深度神经网络的识别模型上是未知的。因此本申请尝试解决了如下问题：(1)如何为人脸做精细的划分；(2)划分以后如何以独立解耦地方式去研究各个成分之间的影响；(3)可解释性的体现.

针对第一个问题，本申请提出了基于人脸解析和人脸三维重建的联合方式去解决面部的精细划分难题，进而可以从整体和局部语义两个角度去研究识别模型的解释性。针对第二个问题，本申请设计了对应如上三条结论的验证时延，包括整体性、局部重要性和与熟悉度相关的鲁棒性，从而拉近了深度人脸识别模型和人眼视觉的关系。针对第三个问题，除了从局部语义的角度验证了三条结论以外，还使用了以自注意力为核心的Transformer结构，它在自然语言处理的翻译任务中取得优异性能，假定人脸的正样本对之间的关系与同一语义不同语种的两个句子之间的关系类似，既有全局意义的一致，又有局部对应的相似性，识别精度上的提升也反过来验证了本申请假定的合理性。此外，本申请的方法可以灵活地与现有的网络结构集成，在人脸识别的主流测试集上获得一致的性能提升。

基于本申请提出的精确成分掩码获取方案，本申请设计了三个可解释性验证实验去研究面部处理整体性、眼眉区域重要性和熟悉人脸识别鲁棒性。

(1)熟悉人脸验证实验

在CASIA-WebFace数据集上选择3000个ID，每个ID大于22张图像，从每个ID中选择2张图像构成CASIA-FAM测试集,剩余的构成训练集去训练识别网络。此时再选择3000个ID，每个ID只有2-3张图像，从每个ID中选择2张图像构成CASIA-UNFAM测试集。如此以来，在测试阶段，识别网络对CASIA-FAM的熟悉度将会高于CASIA-UNFAM。同时引入LFW、AgeDB-30、CFP-FP、CALFW和CPLFW测试集作对比。如图4所示，该实验研究随着高斯模糊程度的递增，识别网络在每个测试集上的正确率变化。

观察实验结果，有两个结论：第一是所有测试集的正确率会随着高斯模糊的程度递增而下降，当模糊到一定程度上，模型几乎丧失识别力，这是符合逻辑的；第二是比较重要的发现是，CASIA-FAM上的正确率并没有明显高于CASIA-UNFAM，这是和人眼视觉系统所不同的，人眼视觉会保留对熟悉人脸的印象，进而对熟悉人脸有更好的鲁棒性。

(2)相似矩阵度量实验

本申请的精确成分掩膜可以精确地获取每个人脸成分的位置，基于此设计了相似度量矩阵包括原始矩阵(如图5所示的左边示图)和差异矩阵(如图5所示的右边示图)。从CASIA-WebFace中随机挑选了3000个正样本对，计算他们的平均相似度为0.4928并存为原始矩阵的首个元素，原始矩阵中的其余元素表示遮掩相应的位置后计算的平均相似度，比图[Mouth,Hair]指的就是一个样本遮掩嘴巴，而另一个样本遮掩头发后，二者的相似度。差异矩阵就是将原始矩阵的2～7行减去第1行再取绝对值的结果，想要观察的是当固定某一成分遮掩时，再遮掩哪一成分后相似度变化最大。

通过图5，可以得到两条结论：不发生任何遮掩时的相似度最高，这验证了人脸只要整体处理时才能保证性能；从原始矩阵的[Face,Eyebrow]和差异矩阵的Eyebrow对应行，可以发现遮掩眼眉区域对相似度的改变最为明显，这也就说明了眼眉区域的重要性。

(3)局部遮掩实验

为了进一步研究各个成分的影响程度，本申请对每个面部成分进行了遮掩，记录随着遮掩比例的增加，BLUFR指标相应的变化。图6记录了鼻子、嘴巴、头发、眼眉、额头和脸颊的变化情况，其中实线代表本申请的人脸识别模型实现，虚线代表基线标准。

分析实验结果，可以得到两个结论，其一是本申请的人脸识别模型在BLUFR性能方面是优于基线标准的；其二是眼眉的变化斜率最大，而且最终精度较低，这也可以说明眼眉区域的重要性。

综上所述，本申请实施例中的人脸识别模型，主要聚焦在可解释人脸识别方面，提出了精确的局部特征处理模块和基于自注意力机制的特征重建模块，这也是首次将Transformer模块应用到人脸识别领域，此外精确成分位置获取方案使得从局部语义角度研究人脸识别成为可能。同时还验证了人脸识别的全局处理性、眼眉区域重要性、熟悉人脸的鲁棒性等重要结论。

为了实现上述实施例，本申请还提出了一种人脸识别模型的训练装置。

图7为本申请实施例所提供的一种人脸识别模型的训练装置的结构框图。如图7所示，该人脸识别模型的训练装置可以包括：

构建模块701用于构建人脸识别模型；其中，人脸识别模型包括局部特征细化模块和编码解码模块；其中，编码解码模块包括基于Transformer结构的编码器和解码器。

第一获取模块702用于获取配对人脸图像及配对人脸图像之中每张人脸图像的类别标签；其中，配对人脸图像为相同身份的一对人脸图像；

第二获取模块703用于针对每张人脸图像，获取人脸图像的面部特征图和面部特征向量；其中，人脸识别模型还包括基准网络模块，作为一种示例，第二获取模块703具体用于：将人脸图像输入至基准网络模块，获取基准网络模块之中中间层输出的面部特征图和输出层输出的面部特征向量。

第一生成模块704用于根据面部特征图生成人脸图像中各个面部成分的局部特征图；作为一种示例，第一生成模块704具体用于：针对面部特征图，将人脸解析和3D重建投影获得的位置掩码标签化处理，获得面部特征图之中各个面部成分的位置掩码图像；根据面部特征图之中各个面部成分的位置掩码图像和面部特征图，生成人脸图像中各个面部成分的局部特征图。

第三获取模块705用于将每张人脸图像中各个面部成分的局部特征图输入至局部特征细化模块，获得每张人脸图像中面部成分的特征向量；

第四获取模块706用于根据每张人脸图像的面部特征向量和每张人脸图像中面部成分的特征向量，获取针对每张人脸图像的类别预测结果；其中，人脸识别模型还包括分类模块。第四获取模块706具体用于：根据每张人脸图像的面部特征向量和每张人脸图像中面部成分的特征向量，生成每张人脸图像的融合特征向量；将每张人脸图像的融合特征向量输入至分类模块，获得针对每张人脸图像的类别预测结果。

第二生成模块707用于根据每张人脸图像的类别预测结果和每张人脸图像的类别标签，生成分类损失；

第四获取模块708用于将每张人脸图像中各个面部成分的特征向量输入至编码解码模块，获得编码解码模块重建出的特征序列；

第三生成模块709用于根据特征序列和每张人脸图像中各个面部成分的特征向量，生成最小平方差损失；

训练模块710用于根据分类损失和最小平方损失，训练人脸识别模型

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于本申请的实施例，本申请还提供了一种电子设备，至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前述任一项人脸识别模型的训练方法。

基于本申请的实施例，本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据本申请实施例提供的前述任一项的人脸识别模型的训练方法。

图8示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如人脸识别模型的训练方法。例如，在一些实施例中，人脸识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的人脸识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人脸识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人脸识别模型的训练方法，其特征在于，包括：

根据所述特征序列和每张所述人脸图像中各个面部成分的特征向量，生成最小平方差损失，并根据所述分类损失和所述最小平方差损失，训练所述人脸识别模型。

2.根据权利要求1所述的方法，其特征在于，所述人脸识别模型还包括基准网络模块；所述获取所述人脸图像的面部特征图和面部特征向量，包括：

将所述人脸图像输入至所述基准网络模块，获取所述基准网络模块之中中间层输出的面部特征图和输出层输出的面部特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述面部特征图生成所述人脸图像中各个面部成分的局部特征图，包括：

针对所述面部特征图，将人脸解析和3D重建投影获得的位置掩码标签化处理，获得所述面部特征图之中各个面部成分的位置掩码图像；

根据所述面部特征图之中各个面部成分的位置掩码图像和所述面部特征图，生成所述人脸图像中各个面部成分的局部特征图。

4.根据权利要求1所述的方法，其特征在于，所述人脸识别模型还包括分类模块；所述根据每张所述人脸图像的面部特征向量和每张所述人脸图像中面部成分的特征向量，获取针对每张所述人脸图像的类别预测结果，包括：

根据每张所述人脸图像的面部特征向量和每张所述人脸图像中面部成分的特征向量，生成每张所述人脸图像的融合特征向量；

将每张所述人脸图像的融合特征向量输入至所述分类模块，获得针对每张所述人脸图像的类别预测结果。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述编码解码模块包括基于Transformer结构的编码器和解码器。

6.一种人脸识别模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述人脸识别模型还包括基准网络模块；所述第二获取模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述第一生成模块具体用于：

9.根据权利要求6所述的装置，其特征在于，所述人脸识别模型还包括分类模块；所述第四获取模块具体用于：

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述编码解码模块包括基于Transformer结构的编码器和解码器。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述的方法。