CN114359665B

CN114359665B - 全任务人脸识别模型的训练方法及装置、人脸识别方法

Info

Publication number: CN114359665B
Application number: CN202111616409.2A
Authority: CN
Inventors: 罗培元; 赖俊成; 李锐峰; 胡广
Original assignee: Beijing Eswin Computing Technology Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-03-26
Anticipated expiration: 2041-12-27
Also published as: CN114359665A

Abstract

本申请实施例提供了一种全任务人脸识别模型的训练方法及装置、人脸识别方法，涉及人工智能、图像处理领域。该方法中，对于每个样本图像，通过特征提取网络进行特征提取，得到样本图像对应的第一特征图，基于第一特征图，通过人脸检测网络确定样本图像中人脸所在区域的第一预测位置信息以及人脸关键点的第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息。基于分别对应于人脸检测网络、人脸质量网络、人脸跟踪网络的第一损失、第二损失、第三损失，对初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型。本申请减少了模型训练过程中的计算量，提高了模型训练效率。

Description

全任务人脸识别模型的训练方法及装置、人脸识别方法

技术领域

本申请涉及人工智能、图像处理领域，具体而言，本申请涉及一种全任务人脸识别模型的训练方及装置、人脸识别方法、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

在图像处理领域，通常包括人脸检测、人脸质量、人脸对齐、人脸跟踪等与人脸识别有关的任务。

相关技术中，通常会分别训练针对各项任务的模型，在面对需要同时执行多项任务时，会针对多项任务中选取多个模型，以分别执行对应的任务。该方式比较麻烦，实用性不强。

发明内容

本申请实施例提供了一种全任务人脸识别模型的训练方及装置、人脸识别方法、电子设备、计算机可读存储介质及计算机程序产品，减少了模型训练过程中的计算量，提高了模型训练效率。具体的技术方案如下：

根据本申请实施例的一个方面，提供了一种全任务人脸识别模型的训练方法，该方法包括：

获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和该样本图像的第一标签、第二标签、第三标签，第一标签表征样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，第二标签表征样本图像的人脸质量分数，第三标签表征样本图像的真实人脸区分信息；

将训练数据集中每个样本图像输入至初始神经网络模型中，对初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；该初始神经网络模型包括特征提取网络以及分别与特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络；对于每个样本图像，对初始神经网络模型进行迭代训练，具体包括：

通过特征提取网络进行特征提取，得到样本图像对应的第一特征图；

基于第一特征图，通过人脸检测网络确定样本图像的第一预测位置信息以及第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息；

基于第一标签、第一预测位置信息以及第二预测位置信息，确定第一损失；基于第二标签以及预测人脸质量分数，确定第二损失；基于第三标签以及预测人脸区分信息，确定第三损失；

基于第一损失、第二损失、第三损失，对初始神经网络模型进行迭代训练。

根据本申请实施例的另一个方面，提供了一种人脸识别方法，该方法包括：

获取待识别图像；

基于训练好的全任务人脸识别模型，确定待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息，训练好的全任务人脸识别模型是基于上述方法训练得到的；

基于第一位置信息、第二位置信息、人脸质量分数、人脸区分信息，进行人脸识别相关的处理操作。

根据本申请实施例的另一个方面，提供了一种全任务人脸识别模型的训练装置，该装置包括获取模块和训练模块，其中：

获取模块，用于获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和该样本图像的第一标签、第二标签、第三标签，第一标签表征样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，第二标签表征样本图像的人脸质量分数，第三标签表征样本图像的真实人脸区分信息；

训练模块，用于将训练数据集中每个样本图像输入至初始神经网络模型中，对初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；初始神经网络模型包括特征提取网络以及分别与特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络；对于每个样本图像，训练模块在对初始神经网络模型进行迭代训练时，具体用于：

基于第一特征图，通过人脸检测网络确定样本图像中第一预测位置信息以及第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息；

根据本申请实施例的另一个方面，提供了一种人脸识别装置，该装置包括获取模块、确定模块和处理模块，其中：

获取模块，用于获取待识别图像；

确定模块，用于基于训练好的全任务人脸识别模型，确定待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息，训练好的全任务人脸识别模型是基于上述装置训练得到的；

处理模块，基于第一位置信息、第二位置信息、人脸质量分数、人脸区分信息，进行人脸识别相关的处理操作。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现上述方法的步骤。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的一个方面，提供了一种计算机程序产品，该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时可实现上述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例提供的全任务人脸识别模型的训练方法中，由于初始神经网络模型包括特征提取网络以及分别与该特征提取网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络，在对初始神经网络模型时，在通过特征提取网络进行特征提取，得到样本图像对应的第一特征图后，可以直接基于该第一特征图，分别通过人脸检测网络确定样本图像中人脸所在区域的第一预测位置信息以及人脸关键点的第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息。由此，可以在进行人脸检测网络、人脸质量网络、人脸跟踪网络的训练过程中，复用特征提取网络提取得到的第一特征图，不必在对人脸检测网络、人脸质量网络、人脸跟踪网络中任意一个网络进行训练时，重复确定样本图像对应的第一特征图。从而减少了模型训练过程中的数据量，提高了模型的训练效率。

并且，由于根据本申请实施例提供的全任务人脸识别模型的训练方法，可以得到训练好的包括人脸检测网络、人脸质量网络、人脸跟踪网络的全任务人脸识别模型，在根据该全任务人脸识别模型进行待识别图像的处理时，也可以复用训练好的全任务人脸识别模型中特征提取网络提取得到的第一特征图，通过这一个全任务人脸识别模型就可以得到针对待识别图像中人脸所在区域的位置信息、人脸关键点的位置信息、人脸质量分数、人脸区分信息，提高了识别效率。

进一步地，由于训练好的全任务人脸识别模型可以包括人脸检测网络、人脸质量网络、人脸跟踪网络，因此，在利用该训练方法训练得到的全任务人脸识别模型进行待识别图像的处理时，可以直接仅需要设置一个I/O(input/output，输入接口/输出接口)，不必分别针对人脸检测网络、人脸质量网络、人脸跟踪网络中每个网络单独设置I/O，即减少了系统I/O，节省了接口资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例提供的全任务人脸识别模型的训练方法的流程图；

图2示出了本申请实施例提供的全任务人脸识别模型的具体训练过程的流程图；

图3示出了本申请实施例中样本图像的示意图；

图4示出了本申请实施例的初始神经网络模型的示意图；

图5示出了本申请实施例提供的初始神经网络模型的示意图；

图6示出了本申请实施例提出的一种人脸识别方法的流程图；

图7示出了本申请实施例提供的全任务人脸识别模型的训练装置的示意图；

图8示出了本申请实施例提出的一种人脸识别装置的示意图；

图9示出了本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

根据上文的记载，本申请创造性的发现，在相关技术的各项任务中，都需要相对原始输入图像进行相同的特征提取操作，再基于该特征提取操作的结果，针对每项任务的后续处理操作，会造成相同的处理操作的重复执行，造成系统级别的资源浪费情况。并且，在需要同时执行多项任务时，需要为每个模型设置单独的I/O，也会也会使得系统的I/O过大，增加产品的生产成本。

针对相关技术中所存在的上述至少一个技术问题或需要改善的地方，本申请提出了一种全任务人脸识别模型的训练方及装置、人脸识别方法、电子设备、计算机可读存储介质及计算机程序产品。在该全任务人脸识别模型的训练方法中，由于初始神经网络模型包括特征提取网络以及分别与该特征提取网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络，在对初始神经网络模型时，在通过特征提取网络进行特征提取，得到样本图像对应的第一特征图后，可以直接基于该第一特征图，分别通过人脸检测网络确定样本图像中人脸所在区域的第一预测位置信息以及人脸关键点的第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息。由此，可以在进行人脸检测网络、人脸质量网络、人脸跟踪网络的训练过程中，复用特征提取网络提取得到的第一特征图，不必在对人脸检测网络、人脸质量网络、人脸跟踪网络中任意一个网络进行训练时，重复确定样本图像对应的第一特征图。从而减少了模型训练过程中的数据量，提高了模型的训练效率。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1示出了本申请实施例提供的全任务人脸识别模型的训练方法的流程图。图2示出了本申请实施例提供的全任务人脸识别模型的具体训练过程的流程图。如图1所示，该方法包括步骤S110至步骤S120。其中，

步骤S110，获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和该样本图像的第一标签、第二标签、第三标签，第一标签表征样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，第二标签表征样本图像的人脸质量分数，第三标签表征样本图像的真实人脸区分信息。

训练数据集中的多个样本图像可以包括包含人脸的样本图像，也可以包括不包含人脸的样本图像，可以根据实际情况确定多个训练样本中包含人脸的样本图像和不包含人脸的样本图像的个数，或者包含人脸的样本图像和不包含人脸的样本图像在多个样本图像中的占比。可以理解的是，在样本图像为包括人脸的样本图像时，该样本图像中可以包括一个人脸，也可以包括多个人脸，本申请对此不做限制。

在样本图像中包括多个人脸的情况下，该样本图像的第一标签应该包括多个人脸中每个人脸在图像中所占区域的第一位置信息、以及每个人脸中的人脸关键点的第二位置信息。本申请对每个人脸中的人脸关键点的数量不做限制，例如每个人脸中的人脸关键点的数量可以包括4个、5个、6个、21个、29个等，可以根据所需确定的人脸关键点的数量，确定对应的第二位置信息的个数。

在确定出样本图像中人脸所在区域的第一位置信息之后，在样本图像中根据该第一位置信息进行连线，所形成的矩形框也称为人脸框，可以以各样本图像中任意一点作为坐标原点，建立坐标系，确定各样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息。可以理解的是，可以直接根据所建立坐标系确定的人脸关键点的坐标，并将人脸关键点的坐标确定为第二位置信息。

对于第一位置信息的表示方式不做限制。在将一个样本图像的左上角作为坐标原点时，可以根据该样本图像中人脸所在区域的左上角的坐标信息(x₁，y₁)以及右下角的坐标信息(x₂，y₂)，确定出第一位置信息为(x₁，y₁，x₂，y₂)。也可以用该样本图像中人脸所在区域的中心位置的坐标信息(x_center，y_center)、该样本图像的宽w和高h，确定出第一位置信息为(x_center，y_center，w，h)。

图3示出了本申请实施例中样本图像的示意图。如图3所示，较大的矩形表示该样本图像，较小的矩形表示该样本图像中人脸所在区域。将样本图像的左上角作为坐标原点，则可以根据该样本图像中人脸所在区域的左上角的坐标信息(16，16)以及右下角的坐标信息(58，58)，确定出第一位置信息为(16，16，58，58)。当然，也可以用该样本图像中人脸所在区域的中心位置的坐标信息(37，37)、该样本图像的宽144和高72，确定出第二位置信息为(37，37，144，72)。

在该实现方式中，质量分数用于判断样本图像的质量是否有利于人脸识别。由于样本图像质量的影响因素包括但不限于图像分辨率、模糊度、光照、图像中的人脸角度(即，图像中人脸与图像的深度方向之间的角度)等，对应的质量分数可以包括针对至少一个影响因素的数值。例如，质量分数可以包括图像分辨率为480PPI(pixels per inch，像素密度)。

人脸区分信息，即当前所识别的人脸与其他人脸之间的区分度，一般通过不同人脸之间的相似度和差异度表示人脸区分信息，其中，本申请对确定相似度和差异度的方式不做限定，例如，可以通过余弦相似度等确定相似度。在该实现方式中，可以根据样本图像中人脸的真实类别表示真实人脸区分信息，从而通过预测类别与真实类别之间的余弦相似度确定人脸区分信息。

步骤S120，将训练数据集中每个样本图像输入至初始神经网络模型中，对初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；该初始神经网络模型包括特征提取网络以及分别与特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络。

由于在该初始神经网络模型中，人脸检测网络、人脸质量网络、人脸跟踪网络都与特征提取网络级联，因此，可以将该特征提取网络称为主干网络(backbone，也可以成为骨干网络)。其中，对于特征提取模型的具体网络结构，本申请实施例不做限定，可以根据实际需求配置。可选的，特征提取模型可以是基于卷积神经网络的模型，可以包括但不限于基于InceptionNet(开始神经网络)，ResNet(残差网络)，DenseNet(浓密神经网络)，VggNet(一种深度卷积神经网络)，SENet(Squeeze-and-Excitation Networks，挤压与激活网络)、CSP(Center and Scale Prediction base Detection，中心与尺度预测对象检测)、mobilenet(轻量级网络)等模型结构的神经网络模型。

需要注意的是，在本申请实施例中的初始神经网络模型中，虽然仅包括特征提取网络、人脸检测网络、人脸质量网络、人脸跟踪网络，但本申请实施例所提供的全任务人脸识别模型的训练方法还可以应用至其他相似模型中。例如，还可以在特征提取网络之后分别级联其他与人脸识别任务相关的网络。也可以将该方法应用至其他目标检测网路模型的训练过程中，例如车辆检测网络模型等。

如图2所示，对于每个样本图像，对初始神经网络模型进行迭代训练，具体包括以下步骤S121至步骤S124。

步骤S121，通过特征提取网络进行特征提取，得到样本图像对应的第一特征图。

步骤S122，基于第一特征图，通过人脸检测网络确定样本图像中的人脸所在区域的第一预测位置信息以及人脸关键点的第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息。

步骤S123，基于第一标签、第一预测位置信息以及第二预测位置信息，确定第一损失；基于第二标签以及预测人脸质量分数，确定第二损失；基于第三标签以及预测人脸区分信息，确定第三损失。

步骤S124，基于第一损失、第二损失、第三损失，对初始神经网络模型进行迭代训练。

在本申请实施例中，可以基于通过人脸检测网络确定出的第一预测位置信息，进一步通过人脸质量网络确定该样本图像中第一预测位置信息对应的人脸的预测人脸质量分数，以及通过人脸跟踪网络确定样本图像该样本图像中第一预测位置信息对应的人脸的预测人脸区分信息。

图4示出了本申请实施例的初始神经网络模型的示意图。如图4所示，该初始神经网络模型(图4中虚线框所示)包括主干网络、检测颈部网络(origin neck)、检测头部网络(origin head)、质量颈部网络(quality neck)、质量头部网络(quality head)、跟踪颈部网络(embedding neck)、跟踪头部网络(embedding head)。在该神经网络模型中，主干网络即上述特征提取网络，检测颈部网络和检测头部网络可以构成上述人脸检测网络，质量颈部网络和质量头部网络可以构成上述人脸质量网络，跟踪颈部网络和跟踪头部网络可以构成上述人脸跟踪网络。根据图4，可以看出，在初始神经网络模型中，人脸检测网络、人脸质量网络、人脸跟踪网络分别与特征提取网络级联，其中，特征提取网络、检测颈部网络和检测头部网络可以构成人脸检测子模型，即人脸检测网络分支。特征提取网络、质量颈部网络和质量头部网络可以构成人脸质量子模型，即，人脸质量网络分支。特征提取网络、跟踪颈部网络和跟踪头部网络可以构成上述人脸跟踪子模型，即，人脸跟踪网络分支。以一个样本图像为例，在将该样本图像输入至该初始神经网络模型后，可以通过特征提取网络对该样本图像进行特征提取，得到该样本图像的第一特征图，人脸检测网络、人脸质量网络、人脸跟踪网络可以共用该第一特征图执行后续的处理操作。

在该全任务人脸识别模型的训练方法中，由于初始神经网络模型包括特征提取网络以及分别与该特征提取网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络，在对初始神经网络模型时，在通过特征提取网络进行特征提取，得到样本图像对应的第一特征图后，可以直接基于该第一特征图，分别通过人脸检测网络确定样本图像中人脸所在区域的第一预测位置信息以及人脸关键点的第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息。由此，可以在进行人脸检测网络、人脸质量网络、人脸跟踪网络的训练过程中，复用特征提取网络提取得到的第一特征图，不必在对人脸检测网络、人脸质量网络、人脸跟踪网络中任意一个网络进行训练时，重复确定样本图像对应的第一特征图。从而减少了模型训练过程中的数据量，提高了模型的训练效率。

进一步地，由于训练好的全任务人脸识别模型可以包括人脸检测网络、人脸质量网络、人脸跟踪网络，因此，在利用该训练方法训练得到的全任务人脸识别模型进行待识别图像的处理时，可以直接仅需要设置一个I/O，不必分别针对人脸检测网络、人脸质量网络、人脸跟踪网络中每个网络单独设置I/O，即减少了系统I/O，节省了接口资源。

在本申请实施例中，可以基于第一标签、第一预测位置信息以及第二预测位置信息，通过第一损失函数确定第一损失(即，第一损失值，第一训练损失值)。基于第二标签以及预测人脸质量分数，通过第二损失函数确定第二损失(同上，即，第二损失值，第二训练损失值)。基于第三标签以及预测人脸区分信息，通过第三损失函数确定第三损失(同上，即，第三损失值，第二训练损失值)。其中，对于第一损失函数、第二损失函数和第三损失函数的具体函数形式本申请实施例不做限定，可以根据实际需求选择。其中，第一损失函数、第二损失函数和第三损失函数可以为同一种损失函数，也可以是不同的损失函数。由于人脸检测网络、人脸质量网络、人脸跟踪网络中每种网络存在差异，各网络对应的具体的模型参数自然也是不同的，需要分别对各网络进行训练。因此，在实际实施时，优选根据各网络的实际需求设置不同的损失函数分别计算每种网络对应的损失，例如，可以设置第一损失函数为center loss(中心损失函数)，第二损失函数为Cross Entropy loss(交叉熵损失函数)，第三损失函数为Circle loss(圆损失函数)。

在本申请实施例中，由于通过人脸检测网络所得到的第一预测位置信息、第二预测位置信息与第一标签之间的对应关系比较明确，可以直接基于第一标签、第一预测位置信息和第二预测位置信息确定第一损失。通过人脸质量网络所得到的预测人脸质量分数与第二标签之间的对应关系也比较明确，也可以直接基于第二标签、预测人脸质量分数确定第二损失，因此，不对第一损失和第二损失的具体确定过程做过多的赘述。在本申请实施例中，对第三损失的具体确定过程如下：

真实人脸区分信息包括样本图像中人脸的真实类别，真实类别为多个预设类别中的任一个，预测人脸区分信息包括样本图像中人脸的预测类别的特征向量，基于第三标签以及预测人脸区分信息，确定第三损失，可以包括：

基于训练数据集中每个样本图像的第三标签，确定多个预设类别中的每个预设类别的类别特征向量；

基于每个预设类别的类别特征向量、预测类别的特征向量，确定第一相似度和第二相似度，第一相似度表征预测类别的特征向量与真实类别的类别特征向量之间的相似度，第二相似度表征预测类别的特征向量与多个预设类别中、除了真实类别之外的每个类别的类别特征向量之间的相似度；

根据第一相似度和第二相似度，确定第三损失。

真实类别的类别特征向量，即多个预设类别中的每个预设类别的类别特征向量中，对应于真实类别的类别特征向量。在确定预测类别的特征向量和多个预设类别中的每个预设类别的类别特征向量之后，可以基于预测类别的特征向量、每个预设类别的类别特征向量，分别确定预测类别的特征向量与每个预设类别的类别特征向量之间的相似度。本申请对确定相似度的方式不做限制，例如，可以包括但不限于分别确定预测类别的特征向量与每个预设类别的类别特征向量之间的余弦相似度。

在确定出预测类别的特征向量与每个预设类别的类别特征向量之间的相似度之后，可以基于Circle loss，确定第三损失。

在根据第三损失对人脸跟踪网络分支进行迭代训练时，训练结束条件可以包括但不限于以下至少一项：第一相似度大于或等于第一相似度阈值，第二相似度小于或等于第二相似度阈值。即，尽量增加预测类别的特征向量与真实类别的类别特征向量之间的相似度，降低预测类别的特征向量与多个预设类别中、除了真实类别之外的每个类别的类别特征向量之间的相似度。

本申请实施例对第一相似度阈值的取值和第二相似度阈值的取值不做限定，可以根据实际情况确定。例如，可以设置第一相似度阈值为0.9，第二相似度阈值为0.15。

通过分别确定第一相似度和第二相似度，从而根据第一相似度和第二相似度，确定第三损失，进而根据所确定的第三损失对人脸跟踪网络分支进行迭代训练，能够增加预测类别的特征向量与多个预设类别中、除了真实类别之外的每个类别的类别特征向量之间区分度，从而可以使得在通过训练好的人脸跟踪网络对待识别图像进行处理时，能够根据所得到的人脸区分信息，准确识别出待识别图像中的人脸类别。

如上文所记载的，人脸检测网络、人脸质量网络、人脸跟踪网络中每种网络存在差异，需要分别基于不同的训练损失函数对各网络进行训练。而在初始神经网络模型中，人脸检测网络、人脸质量网络、人脸跟踪网络均与特征提取网络级联，基于此，无论在对人脸检测网络、人脸质量网络、人脸跟踪网络中的哪种网络进行训练时，都可能会调整与这三种网络均级联的特征提取网络。

由于三者所需的基础特征是相似的，都是基于通过特征提取网络提取得到的第一特征图(基础特征)进行相关的处理的，虽然在对人脸检测网络、人脸质量网络、人脸跟踪网络中每种网络进行训练时，都调整与这三种网络均级联的特征提取网络的模型参数，会提高训练好的全任务识别网络的识别精度，但若在对人脸检测网络、人脸质量网络、人脸跟踪网络中每种网络进行训练时，都调整与这三种网络均级联的特征提取网络，可能会造成不必要的训练资源的浪费。基于此，本申请还提供了以下可选的实施方式：

对初始神经网络模型进行迭代训练，可以包括：

基于目标损失，对特征提取网络和目标网络进行迭代训练，得到训练好的特征提取网络和训练好的目标网络，目标网络为人脸检测网络、人脸质量网络、人脸跟踪网络中的任一网络，目标损失为目标网络对应的损失；

冻结训练好的特征提取网络对应的模型参数以及训练好的目标网络对应的模型参数；

基于训练好的特征提取网络提取到的第一特征图，分别对人脸检测网络、人脸质量网络、人脸跟踪网络中除了目标网络之外的其他网络进行迭代训练。

其中，在对各网络的模型参数进行冻结时，可以采取例如将对应的网络的梯度设置为0等冻结操作，本申请实施例对此不做限制。

可选地，在初始神经网络模型中，还可以在特征提取网络、人脸检测网络、人脸质量网络、人脸跟踪网络之后级联归一化层(batch normalization，BN层)，在对各网络的模型参数进行冻结时，还需要同时冻结与各网络级联的归一化层的模型参数，例如，传导均值(running_mean)、传导方差(running_var)、权重值(weight)、偏置值(bias)等。

在对特征提取网络和目标网络进行迭代训练时，目标损失可以视为由于特征提取网络与目标网络构建的子模型(即目标网络对应的分支)的损失，若该目标损失满足训练结束条件，则可以得到训练好的特征提取网络和训练好的目标网络。若该目标损失不满足训练结束条件，则可以调整特征提取网络的模型参数和目标网络的模型参数，并基于训练数据集，对调整后的特征提取网络和目标网络继续进行迭代训练，直至目标损失满足训练结束条件。作为一个示例，若目标网络为人脸检测网络，则第一损失可以为特征提取网络与人脸检测网络构成的子模型的损失。

在基于训练好的特征提取网络提取到的第一特征图，分别对人脸检测网络、人脸质量网络、人脸跟踪网络中除了目标网络之外的其他网络进行迭代训练时，由于已经对训练好的特征提取网络对应的模型参数进行了冻结，训练过程中的损失可以视为对应的人脸检测网络、人脸质量网络、人脸跟踪网络中除了目标网络之外的其他网络的损失。

作为一个示例，若目标网络为人脸检测网络，则在对人脸质量网络进行迭代训练时，第二损失即为人脸质量网络对应的损失，若该第二损失满足训练结束条件，则可以得到训练好的人脸质量网络。若该第二损失不满足训练结束条件，则可以调整人脸质量网络的模型参数，而不必调整特征提取网络的模型参数，并基于训练数据集，对调整后的人脸质量网络继续进行迭代训练，直至第二损失满足训练结束条件。

其中，训练结束条件可以包括但不限于以下任意一项：对应的损失函数收敛，对应的损失小于设定值，训练次数达到设定次数。可以理解的是，对于不同分支，所设置的设定值和设定次数可以不同。

上述设定值的取值与所得到的对应的训练好的模型的精确度成负相关，即上述设定值的取值越小，所得到的对应的训练好的模型的精确度越高。

上述设定次数的取值与所得到的对应的训练好的模型的精确度成正相关，即上述设定值的取值越大，所得到的对应的训练好的模型的精确度越高。应该需要注意的是，随着训练次数的增加，该训练过程所需的计算量也会增加，可以根据实际需要确定设定次数的具体取值。

以目标网络为人脸检测网络，在得到训练好的人脸检测网络之后，依次对人脸质量网络、人脸跟踪网络进行迭代训练为例，可以具体采取以下方式对初始神经网络模型进行迭代训练，以得到训练好的全任务人脸识别模型：

步骤A：基于训练数据集，将训练数据集中的多个样本图像输入至初始神经网络模型中，通过特征提取网络、人脸检测网络(即，目标网络)确定第一预测位置信息以及第二预测位置信息。基于第一标签、第一预测位置信息和第二预测位置信息，确定该人脸检测网络对应的第一损失。基于该第一损失，对特征提取网络与该人脸检测网络进行迭代训练，直至达到训练结束条件，得到训练好的特征提取网络以及训练好的人脸检测网络。

步骤B：冻结训练好的特征提取网络的模型参数以及训练好的人脸检测网络的模型参数。

步骤C：根据已冻结模型参数、训练好的特征提取网络提取到的第一特征图，通过人脸质量网络确定预测人脸质量分数。基于第二标签和预测人脸质量分数，确定该人脸质量网络对应的第二损失。基于该第二损失，对该人脸质量网络进行迭代训练，直至达到训练结束条件，得到训练好的人脸质量网络。

步骤D：冻结训练好的人脸质量网络的模型参数。

步骤E：基于训练数据集，根据训练好的特征提取网络提取到的第一特征图，通过人脸跟踪网络确定预测人脸区分信息。基于第三标签和预测人脸区分信息，确定该人脸跟踪网络对应的第三损失。基于该第三损失，对该人脸跟踪网络进行迭代训练，直至达到训练结束条件，得到训练好的人脸跟踪网络，得到训练好的全任务人脸识别模型。

在该实现方式中，通过基于目标损失，对特征提取网络和目标网络进行迭代训练，得到训练好的特征提取网络和训练好的目标网络，再对训练好的特征提取网络对应的模型参数以及训练好的目标网络对应的模型参数进行冻结。并基于已冻结模型参数、训练好的特征提取网络提取到的第一特征图，分别对人脸检测网络、人脸质量网络、人脸跟踪网络中除了目标网络之外的其他网络进行迭代训练。即，通过依次冻结已训练好的模型的方式，提高了对初始神经网络模型进行训练的效率，从而可以快速得到全任务人脸识别模型。

并且，由于在整个训练过程中，对已训练好的各网络的模型参数进行了冻结，因此，在对其他未训练好的模型进行训练时，还可以保证不影响已训练好的各网络的模型参数。

图5示出了本申请实施例提供的初始神经网络模型的示意图。如图5所示，该初始神经网络模型中包括主干网络、人脸检测网络(图5未示出)、质量颈部网络、质量头部网络、跟踪颈部网络、跟踪头部网络。如图5所示出的，该初始神经网络模型可以是基于已经训练好的特征提取网络和人脸检测网络构建得到的，因此，并未示出已经训练好的人脸检测网络。以下结合具体的实施例、图4、图5对人脸质量网络、人脸跟踪网络进行说明。

可选地，第一特征图包括至少两个深度层级的第三特征图，上述基于第一特征图，通过人脸检测网络确定样本图像的第一预测位置信息以及第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息，包括：

对至少两个深度层级中的最深层级对应的第三特征图进行特征提取，得到对应于最深层级的第四特征图；

按照至少两个深度层级对应的由深至浅的层级顺序，依次对至少两个深度层级中相邻的两个第三特征图进行第一特征融合，并基于第一特征融合的结果进行特征提取，得到对应于至少两个深度层级中除最深层级之外其他层级中每个层级对应的第四特征图；

对至少两个深度层级中的最浅层级对应的第四特征图进行特征提取，得到对应于最浅层级的第五特征图；

按照至少两个深度层级对应的由浅至深的层级顺序，依次对至少两个深度层级相邻的两个第四特征图中较浅层级对应的第四特征图进行降采样，并基于降采样(downsample)的结果与至少两个深度层级相邻的两个第四特征图中较深层级对应的第四特征图进行第二特征融合，并基于第二特征融合的结果进行特征提取，得到对应于至少两个深度层级中除最浅层级之外其他层级中每个层级对应的第五特征图；

基于每个第五特征图，通过人脸检测网络确定第一预测位置以及第二预测位置，通过人脸质量网络确定预测人脸质量分数，通过人脸跟踪网络确定预测人脸区分信息。

在上述从第一特征图和第五特征图之间的操作过程中，可以基于卷积操作实现特征提取。

可以在基于特征提取网络得到至少两个深度层级的第三特征图后，先分别对每个深度层级的第三特征图进行特征提取(例如，横向卷积，lateral convolution，简称lateral conv)，再基于每个特征提取结果对应的深度层级，依次执行上述处理(对至少两个深度层级中的最深层级对应的第三特征图进行特征提取，得到对应于最深层级的第四特征图；……基于每个第五特征图，通过人脸检测网络确定第一预测位置以及第二预测位置，通过人脸质量网络确定预测人脸质量分数，通过人脸跟踪网络确定预测人脸区分信息)。

在按照至少两个深度层级对应的由深至浅的层级顺序，依次对至少两个深度层级中相邻的两个第三特征图进行第一特征融合之前，还可以对这两个深度层级中的较深层级对应的第三特征图进行双线性插值操作(interpolate)。在得到该双线性差值结果之后，再基于该双线性插值的结果与这两个深度层级中的较浅层级对应的第三特征图进行第一特征融合。

由于第一特征图包括至少两个深度层级的第三特征图，在后续的处理过程中，需要对每个层级的第三特征图进行处理操作，相应地，将得到至少两个深度层级中每个深度层级对应的第一预测位置信息、第二预测位置信息、预测人脸质量分数、预测人脸区分信息。为了减少计算量，可以先基于所得到的至少两个深度层级中每个深度层级对应的第一预测位置信息进行非极大值抑制(non maximum suppression，NMS)处理，确定出最佳第一预测位置信息对应的层级，并基于该层级对应的第二预测位置信息、预测人脸质量分数、预测人脸区分信息进行后续处理即可。

通过对样本图像进行至少两个深度层级的特征提取，得到对应于每个深度层级的第三特征图，并基于每个深度层级的第三特征图，按照每个深度层级对应的层级顺序，对相应的深度层级的特征图进行特征提取、第一特征融合、降采样、第二特征融合等处理，可以实现更精确地对样本图像的特征提取。进而使得在基于第五特征图，可以更好地通过人脸检测网络确定第一预测位置以及第二预测位置，通过人脸质量网络确定预测人脸质量分数，通过人脸跟踪网络确定预测人脸区分信息，实现对人脸所在区域、人脸关键点、人脸质量分数、人脸区分信息进行更精确地预测。

如图4和图5所示，可以分别通过质量颈部网络和跟踪颈部网络实现上述从第一特征图和第五特征图之间的操作，可以理解的是，由于人脸质量网络和人脸跟踪网络所需的特征存在差异，人脸质量网络和人脸跟踪网络的具体的模型参数也会存在差异，图5仅表示了人脸质量网络和人脸跟踪网络中模型的结构，并未具体示出各模型的模型参数。在图5中质量颈部网络和跟踪颈部网络之间的结构相同，质量头部网络和跟踪头部网络的部分结构相同，因此，以下仅以人脸跟踪网络中的跟踪颈部网络为例对颈部网络(跟踪颈部网络和质量颈部网络)进行说明：

具体地，在将尺寸为1×5×640×640(即，N×C×W×H，N表示图片数量，C(channel，简称chn)表示通道数量，W表示图像的宽，H表示图像的高，1张图片、5个通道、宽为640、高为640)的样本图像输入至主干网络之后，先通过主干网络进行特征提取，得到三个深度层级的第三特征图，并分别对每个第三特征图进行横向卷积操作，得到对应最深层级、中间层级、最浅层级的横向卷积操作结果，最深层级的横向卷积操作结果为尺寸为1×16×20×20的特征图，中间层级的横向卷积操作结果为尺寸为1×16×40×40的特征图，最浅层级的横向卷积操作结果为尺寸为1×16×80×80的特征图。

对最深层级的横向卷积操作结果进行卷积核(kernel)为3×3的卷积操作，得到尺寸为1×16×20×20的第四特征图，在进行卷积操作时，通道数为16，卷积层补零数为1。对最深层级的横向卷积操作结果进行双线性插值操作，基于该双线性插值操作结果与中间层级的横向卷积操作结果进行第一特征融合，基于该第一特征融合结果进行卷积核为3×3的卷积操作，得到尺寸为1×16×40×40的第四特征图，在进行卷积操作时，通道数为16，卷积层补零数(padding)为1。对中间层级的横向卷积操作结果进行双线性插值操作，基于该双线性插值操作结果与最浅层级的横向卷积操作结果进行第一特征融合，基于该第一特征融合结果进行卷积核为3×3的卷积操作，得到尺寸为1×16×80×80的第四特征图，在进行卷积操作时，通道数为16，卷积层补零数为1。

对最浅层级的第四特征图进行特征金字塔卷积操作，得到尺寸为1×16×80×80的第五特征图。对最浅层级的第四特征图进行降采样操作，基于该降采样操作结果与中间层级的第四特征图进行第二特征融合，基于该第二特征融合结果进行特征金字塔卷积操作，得到尺寸为1×16×40×40的第五特征图。对中间层级的第四特征图进行降采样操作，基于该降采样操作结果与最浅层级的第四特征图进行第二特征融合，基于该第二特征融合结果进行特征金字塔卷积操作，得到尺寸为1×16×20×20的第五特征图。

可以理解的是，在该初始神经网络模型中，至少两个深度层级的具体层级数、各卷积核的大小、通道数、步长等参数都可以根据实际需求确定，本申请实施例对此不做限制。

可选地，通过人脸质量网络确定样本图像的预测人脸质量分数，可以包括：

基于第一特征图，依次进行深度卷积操作(depthwise)和逐点卷积操作(pointwise)，得到待解码质量分数原始特征图；

对待解码质量分数原始特征图进行解码操作，得到预测人脸质量分数。

本申请实施例对具体进行解码操作的方式不作限制，可以根据实际需求进行选择。

在该实现方式中，在基于第一特征图，依次进行深度卷积操作和逐点卷积操作之后，还可以对该逐点卷积操作结果进行特征提取(例如，二维卷积操作)，将该特征提取结果作为待解码质量分数原始特征图。

在通过人脸质量网络确定样本图像的预测人脸质量分数时，通过进一步通过深度卷积层和逐点卷积层，对第一特征图依次进行深度卷积操作和逐点卷积操作，相比于第一特征图，可以使得待解码质量分数原始特征图能够更好地表达确定人脸质量分数，从而使得所得到的预测人脸质量分数更加精确。

作为一个示例，如图5所示，在人脸质量网络中，对最深层级、中间层级、最浅层级中每个第五特征图(若没有质量颈部网络，仅为质量头部网络时，第五特征图即为第一特征图)执行的操作相同。以下仅以对最深层级的第五特征图为例，对该质量头部网络进行说明，具体地，对最深层级的第五特征图依次进行深度卷积操作和逐点卷积操作，得到卷积操作结果，在进行深度卷积操作和逐点卷积操作时的通道数均为16，卷积层补零数均为1×1，步长均为1×1。在进行深度卷积操作时，卷积核为3×3。在进行逐点卷积操作时，卷积核为3×3。

在对最深层级的第五特征图依次进行深度卷积操作和逐点卷积操作，得到卷积操作结果之后，对该卷积操作结果进行通道数为42的二维卷积操作，将该二维卷积操作结果作为待解码质量分数原始特征图。

可选地，通过人脸跟踪网络确定样本图像的预测人脸区分信息，可以包括：

基于第一特征图，进行第一特征图中像素间的相关联增强处理，得到第二特征图；

基于第二特征图，依次进行深度卷积操作和逐点卷积操作，得到预测人脸区分信息。

基于第一特征图，进行第一特征图中像素间的相关联增强处理，得到第二特征图时，具体包括：

设置特征块的预设数量，对第一特征图进行划分，得到总数目为预设数量的多个第一特征块，对于每个划分后的第一特征块，根据第一特征图与样本图像之间的映射关系，将该划分后的第一特征块映射至二倍的样本图像对应的图像中，将映射后的第一特征块与相邻的其他映射后的第一特征块进行特征融合(例如，可以为乘累加操作)。在完成对每个划分后的第一特征块的处理操作后，将操作结果合并为第二特征图。

在该实现方式中，在基于第二特征图，依次进行深度卷积操作和逐点卷积操作之后，还可以对该逐点卷积操作结果进行特征提取(例如，二维卷积操作)，将该特征提取结果作为预测人脸区分信息。

在通过人脸跟踪网络确定样本图像的预测人脸区分信息时，通过进一步通过相关联层(correlation layer)进行第一特征图中像素间的相关联增强处理，得到第二特征图，并对第二特征图依次进行深度卷积操作和逐点卷积操作，相比于第一特征图，对第二特征图进行深度卷积操作和逐点卷积操作之后的所得到的特征图，可以提高确定人脸区分度的特征向量的表达能力和区分能力，从而使得所得到的预测人脸区分信息更加精确。

作为一个示例，如图5所示，在人脸跟踪网络中，在对最深层级、中间层级、最浅层级中每个第五特征图(若没有跟踪颈部网络，仅为跟踪头部网络时，第五特征图即为第一特征图)进行像素间的相关联增强处理操作时，每个具体的参数不同，具体如下表：

项目	最浅层级	中间层级	最深层级
				预设特征块尺寸	16	8	4
第一特征图尺寸	80×80	40×40	20×20
				二倍的样本图像尺寸	200×200	100×100	50×50

以对最深层级的第五特征图进行像素间的相关联增强处理操作为例，对应的核大小为1×1，预设特征块尺寸为4，第一特征图尺寸为20×20，二倍的样本图像尺寸为50×50。对第一特征图进行划分，得到4个第一特征块，根据第一特征图与样本图像之间的映射关系，将该划分后的第一特征块映射至二倍的样本图像对应的图像中，将映射后的第一特征块与相邻的其他映射后的第一特征块进行乘累加操作得到第二特征图。

由于对最深层级、中间层级、最浅层级中每个第二特征图执行的操作相同。以下仅以对最深层级的第二特征图为例，对该质量头部网络进行说明，具体地，对最深层级的第二特征图依次进行深度卷积操作和逐点卷积操作，得到卷积操作结果，在进行深度卷积操作和逐点卷积操作时的通道数均为16，卷积层补零数均为1×1，步长均为1×1。在进行深度卷积操作时，卷积核为3×3。在进行逐点卷积操作时，卷积核为3×3。

在对最深层级的第二特征图依次进行深度卷积操作和逐点卷积操作，得到卷积操作结果之后，对该卷积操作结果进行通道数为32的二维卷积操作，将该二维卷积操作结果作为预测人脸区分信息。

本申请实施例还提供了一种人脸识别方法。图6示出了本申请实施例提出的一种人脸识别方法的流程图。如图6所示，该方法包括步骤S210至步骤S230。

步骤S210：获取待识别图像。

步骤S220：基于训练好的全任务人脸识别模型，确定待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息，训练好的全任务人脸识别模型是基于上述方法训练得到的。

步骤S230：基于第一位置信息、第二位置信息、人脸质量分数、人脸区分信息，进行人脸识别相关的处理操作。

可选地，人脸识别的相关处理操作可以包括人脸识别，即根据人脸区分信息进一步确定图像中人脸属于哪个类别等。还可以包括人脸跟踪，即根据人脸区分信息确定出目标人脸，在连续的多帧图像跟踪该目标人脸。

应该理解的是，在具体的人脸识别过程中，若仅需要确定人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息中的一项或多项，则可以对全任务人脸识别模型进行分离操作，例如仅根据训练好的特征提取网络和训练好的人脸检测网络确定待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息。但在需要确定人脸质量分数、人脸区分信息中任一项时，需要结合人脸检测网络确定的第一位置信息进而确定出该第一位置信息对应的人脸的人脸质量分数和/或人脸区分信息。

在该人脸识别方法中，由于可以复用训练好的全任务人脸识别模型中特征提取网络提取得到的第一特征图，通过这一个全任务人脸识别模型就可以得到针对待识别图像中人脸所在区域的位置信息、人脸关键点的位置信息、人脸质量分数、人脸区分信息，提高了识别效率。

进一步地，由于该全任务人脸识别模型可以包括人脸检测网络、人脸质量网络、人脸跟踪网络，因此，在利用该训练方法训练得到的全任务人脸识别模型进行待识别图像的处理时，可以直接仅需要设置一个I/O，不必分别针对人脸检测网络、人脸质量网络、人脸跟踪网络中每个网络单独设置I/O，即减少了系统I/O，节省了接口资源。

本申请实施例还提供了一种全任务人脸识别模型的训练装置。图7示出了本申请实施例提供的全任务人脸识别模型的训练装置的示意图。如图7所示，该装置30包括获取模块301和训练模块302。其中：

获取模块301，用于获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和该样本图像的第一标签、第二标签、第三标签，第一标签表征样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，第二标签表征样本图像的人脸质量分数，第三标签表征样本图像的真实人脸区分信息；

训练模块302，用于将训练数据集中每个样本图像输入至初始神经网络模型中，对初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；初始神经网络模型包括特征提取网络以及分别与特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络。

对于每个样本图像，训练模块302在对初始神经网络模型进行迭代训练时，具体用于：

可选地，训练模块302在对初始神经网络模型进行迭代训练时，可以具体用于：

可选地，训练模块302在通过人脸质量网络确定样本图像的预测人脸质量分数时，可以具体用于：

基于第一特征图，依次进行深度卷积操作和逐点卷积操作，得到待解码质量分数原始特征图；

可选地，训练模块302在通过人脸跟踪网络确定样本图像的预测人脸区分信息时，可以具体用于：

可选地，真实人脸区分信息包括样本图像中人脸的真实类别，真实类别为多个预设类别中的任一个，预测人脸区分信息包括样本图像中人脸的预测类别的特征向量，训练模块302在基于第三标签以及预测人脸区分信息，确定第三损失时，可以具体用于：

根据第一相似度和第二相似度，确定第三损失。

可选地，第一特征图包括至少两个深度层级的第三特征图，训练模块302在基于第一特征图，通过人脸检测网络确定样本图像的第一预测位置信息以及第二预测位置信息，通过人脸质量网络确定样本图像的预测人脸质量分数，通过人脸跟踪网络确定样本图像的预测人脸区分信息时，可以具体用于：

按照至少两个深度层级对应的由浅至深的层级顺序，依次对至少两个深度层级相邻的两个第四特征图中较浅层级对应的第四特征图进行降采样，并基于降采样的结果与至少两个深度层级相邻的两个第四特征图中较深层级对应的第四特征图进行第二特征融合，并基于第二特征融合的结果进行特征提取，得到对应于至少两个深度层级中除最浅层级之外其他层级中每个层级对应的第五特征图；

基于每个第五特征图，通过人脸检测网络确定第一预测位置信息以及第二预测位置信息，通过人脸质量网络确定预测人脸质量分数，通过人脸跟踪网络确定预测人脸区分信息。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例还提供了一种人脸识别装置。图8示出了本申请实施例提出的一种人脸识别装置的示意图。如图8所示，该装置40包括获取模块401、确定模块402、处理模块403。

获取模块401，用于获取待识别图像。

确定模块402，用于基于训练好的全任务人脸识别模型，确定待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息，训练好的全任务人脸识别模型是基于上述装置训练得到的。

处理模块403，用于基于第一位置信息、第二位置信息、人脸质量分数、人脸区分信息，进行人脸识别相关的处理操作。

基于与本申请实施例提供的全任务人脸识别模型的训练方法及装置、人脸识别方法及装置相同的原理，本申请实施例中还提供了一种电子设备(如服务器)，该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选地，图9示出了本申请实施例所适用的一种电子设备的结构示意图，如图9所示，图9所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种全任务人脸识别模型的训练方法，其特征在于，所述方法包括：

获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和所述样本图像的第一标签、第二标签、第三标签，所述第一标签表征所述样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，所述第二标签表征所述样本图像的人脸质量分数，所述第三标签表征所述样本图像的真实人脸区分信息；

将所述训练数据集中每个样本图像输入至初始神经网络模型中，对所述初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；所述初始神经网络模型包括特征提取网络以及分别与所述特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络；对于每个样本图像，所述对所述初始神经网络模型进行迭代训练，具体包括：

通过所述特征提取网络进行特征提取，得到所述样本图像对应的第一特征图；

基于所述第一特征图，通过所述人脸检测网络确定所述样本图像的第一预测位置信息以及第二预测位置信息，通过所述人脸质量网络确定所述样本图像的预测人脸质量分数，通过所述人脸跟踪网络确定所述样本图像的预测人脸区分信息；

基于所述第一标签、所述第一预测位置信息以及所述第二预测位置信息，确定第一损失；基于所述第二标签以及所述预测人脸质量分数，确定第二损失；基于所述第三标签以及所述预测人脸区分信息，确定第三损失；

基于所述第一损失、所述第二损失、所述第三损失，对所述初始神经网络模型进行迭代训练。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始神经网络模型进行迭代训练，包括：

基于目标损失，对所述特征提取网络和目标网络进行迭代训练，得到训练好的特征提取网络和训练好的目标网络，所述目标网络为所述人脸检测网络、所述人脸质量网络、所述人脸跟踪网络中的任一网络，所述目标损失为所述目标网络对应的损失；

冻结所述训练好的特征提取网络对应的模型参数以及所述训练好的目标网络对应的模型参数；

基于所述训练好的特征提取网络提取到的第一特征图，分别对所述人脸检测网络、所述人脸质量网络、所述人脸跟踪网络中除了所述目标网络之外的其他网络进行迭代训练。

3.根据权利要求1所述的方法，其特征在于，所述通过所述人脸质量网络确定所述样本图像的预测人脸质量分数，包括：

基于所述第一特征图，依次进行深度卷积操作和逐点卷积操作，得到待解码质量分数原始特征图；

对所述待解码质量分数原始特征图进行解码操作，得到所述预测人脸质量分数。

4.根据权利要求1所述的方法，所述通过所述人脸跟踪网络确定所述样本图像的预测人脸区分信息，包括：

基于所述第一特征图，进行所述第一特征图中像素间的相关联增强处理，得到第二特征图；

基于所述第二特征图，依次进行深度卷积操作和逐点卷积操作，得到所述预测人脸区分信息。

5.根据权利要求1或4所述的方法，其特征在于，所述真实人脸区分信息包括所述样本图像中人脸的真实类别，所述真实类别为多个预设类别中的任一个，所述预测人脸区分信息包括所述样本图像中人脸的预测类别的特征向量，所述基于所述第三标签以及所述预测人脸区分信息，确定第三损失，包括：

基于所述训练数据集中每个样本图像的第三标签，确定所述多个预设类别中的每个预设类别的类别特征向量；

基于每个所述预设类别的类别特征向量、所述预测类别的特征向量，确定第一相似度和第二相似度，所述第一相似度表征所述预测类别的特征向量与所述真实类别的类别特征向量之间的相似度，所述第二相似度表征所述预测类别的特征向量与所述多个预设类别中、除了所述真实类别之外的每个类别的类别特征向量之间的相似度；

根据所述第一相似度和所述第二相似度，确定所述第三损失。

6.根据权利要求1所述的方法，其特征在于，所述第一特征图包括至少两个深度层级的第三特征图，所述基于所述第一特征图，通过所述人脸检测网络确定所述样本图像的第一预测位置信息以及第二预测位置信息，通过所述人脸质量网络确定所述样本图像的预测人脸质量分数，通过所述人脸跟踪网络确定所述样本图像的预测人脸区分信息，包括：

对所述至少两个深度层级中的最深层级对应的第三特征图进行特征提取，得到对应于所述最深层级的第四特征图；

按照所述至少两个深度层级对应的由深至浅的层级顺序，依次对所述至少两个深度层级中相邻的两个第三特征图进行第一特征融合，并基于所述第一特征融合的结果进行特征提取，得到对应于所述至少两个深度层级中除所述最深层级之外其他层级中每个层级对应的第四特征图；

对所述至少两个深度层级中的最浅层级对应的第四特征图进行特征提取，得到对应于所述最浅层级的第五特征图；

按照所述至少两个深度层级对应的由浅至深的层级顺序，依次对所述至少两个深度层级相邻的两个第四特征图中较浅层级对应的第四特征图进行降采样，并基于所述降采样的结果与所述至少两个深度层级相邻的两个第四特征图中较深层级对应的第四特征图进行第二特征融合，并基于所述第二特征融合的结果进行特征提取，得到对应于所述至少两个深度层级中除所述最浅层级之外其他层级中每个层级对应的第五特征图；

基于每个所述第五特征图，通过所述人脸检测网络确定所述第一预测位置信息以及所述第二预测位置信息，通过所述人脸质量网络确定所述预测人脸质量分数，通过所述人脸跟踪网络确定所述预测人脸区分信息。

7.一种人脸识别方法，其特征在于，包括：

获取待识别图像；

基于训练好的全任务人脸识别模型，确定所述待识别图像中人脸所在区域的第一位置信息、人脸关键点的第二位置信息、人脸质量分数、人脸区分信息，所述训练好的全任务人脸识别模型是基于权利要求1至6中任一项所述的方法训练得到的；

基于所述第一位置信息、所述第二位置信息、人脸质量分数、人脸区分信息，进行人脸识别相关的处理操作。

8.一种全任务人脸识别模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取包括多个训练样本的训练数据集，每个训练样本包括一个样本图像和所述样本图像的第一标签、第二标签、第三标签，所述第一标签表征所述样本图像中人脸所在区域的第一位置信息以及人脸关键点的第二位置信息，所述第二标签表征所述样本图像的人脸质量分数，所述第三标签表征所述样本图像的真实人脸区分信息；

训练模块，用于将所述多个训练样本输入至初始神经网络模型中，对所述初始神经网络模型进行迭代训练，得到训练好的全任务人脸识别模型；所述初始神经网络模型包括特征提取网络以及分别与所述特征网络级联的人脸检测网络、人脸质量网络、人脸跟踪网络；对于每个样本图像，训练模块在对所述初始神经网络模型进行迭代训练时，具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤、或者实现权利要求8所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤、或者实现权利要求8所述方法的步骤。