CN116994319A

CN116994319A - 训练模型的方法和人脸识别方法、设备、介质

Info

Publication number: CN116994319A
Application number: CN202310964356.6A
Authority: CN
Inventors: 郑涵菲; 李文卿; 仲余
Original assignee: Hubei Xingji Meizu Technology Co ltd
Current assignee: Hubei Xingji Meizu Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-03

Abstract

本公开提供了一种训练人脸特征提取模型的方法，包括：获取第一图像、第二图像和第三图像，第二图像与第一图像的人脸同类，第三图像与第一图像的人脸不同类；针对获取的每个图像，获取与每个图像的人脸对应的关键点热图；采用人脸特征提取模型进行如下操作：提取关键点热图的特征，得到与每个图像的人脸对应的关键点特征图；提取每个图像的特征，得到初级特征数据；融合关键点特征图和初级特征数据，得到人脸特征数据；将人脸特征数据输入预定人脸分类模型，得到每个图像的人脸属于多个预定类别中每个类别的预测概率值；以及根据预测概率值和每个图像的人脸的真实类别，对人脸特征提取模型进行训练。本公开还提供了一种人脸识别方法、设备、介质。

Description

训练模型的方法和人脸识别方法、设备、介质

技术领域

本公开涉及人工智能领域，更具体地，涉及深度学习、图像处理和计算机视觉领域，尤其涉及一种训练人脸特征提取模型的方法和人脸识别方法、设备、介质。

背景技术

随着人工智能、通信和计算机技术的快速发展，深度学习技术越来越多地应用在各个领域。例如，在计算机视觉领域中，可以采用深度学习技术进行人脸识别。

受限于深度学习技术对算力的要求，基于深度学习的人脸识别技术在算力有限的设备上无法推广。另外，人脸识别中，人脸被遮挡的情形较多，因此，对人脸识别技术的精度要求较高，这对深度学习的算力又提出进一步的高要求。

发明内容

有鉴于此，本公开旨在提供一种高精度、轻量级的人脸特征提取模型的训练方法、人脸识别方法、设备和介质。

本公开的第一个方面提供了一种训练人脸特征提取模型的方法，包括：获取第一图像、第二图像和第三图像，第二图像的人脸与第一图像的人脸同类，第三图像的人脸与第一图像的人脸不同类；针对第一图像、第二图像和第三图像中的每个图像，获取与每个图像的人脸对应的关键点热图；采用人脸特征提取模型进行如下操作：提取关键点热图的特征，得到与每个图像的人脸对应的关键点特征图；提取每个图像的特征，得到初级特征数据；融合关键点特征图和初级特征数据，得到与每个图像的人脸对应的人脸特征数据；将人脸特征数据输入预定人脸分类模型，得到每个图像的人脸属于多个预定类别中每个类别的预测概率值，作为与每个图像对应的预测信息；以及根据与每个图像对应的预测信息和每个图像的人脸的真实类别，对人脸特征提取模型进行训练。

本公开的第二个方面提供了一种人脸识别方法，包括：获取包括待识别人脸的人脸图像；获取与人脸图像中的待识别人脸对应的关键点热图；采用人脸特征提取模型执行以下操作：提取关键点热图的特征，得到与待识别人脸对应的关键点特征图；提取人脸图像的图像特征，得到初级特征数据；融合关键点特征图和初级特征数据，得到待识别人脸的人脸特征数据；以及根据人脸特征数据与多个预定特征数据之间的相似关系，确定待识别人脸的识别结果，其中，人脸特征提取模型是采用本公开第一个方面提供的训练人脸特征提取模型的方法训练得到的。

本公开的第三个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一个方面提供的训练人脸特征提取模型的方法。

本公开的第四个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开第一个方面提供的训练人脸特征提取模型的方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的训练人脸特征提取模型的方法和人脸识别方法的应用场景图；

图2示意性示出了训练人脸特征提取模型的方法的流程示意图；

图3示意性示出了获取关键点热图的原理示意图；

图4示意性示出了得到人脸特征数据的原理示意图；

图5示意性示出了对人脸特征提取模型进行训练的原理示意图；

图6示意性示出了人脸识别方法的流程示意图；以及

图7示意性示出了根据本公开实施例的适于实现训练人脸特征提取模型的方法或人脸识别方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

目前，基于深度学习的人脸识别技术已经在电脑端、手机端等广泛应用，但在扩展现实(Extended Reality，简称XR)眼镜端的应用仍存在考验。这是由于XR眼镜端的算力有限，需要设计更轻量的人脸识别模型。再者，XR眼镜端等应用场景中，普遍会遇到口罩、眼镜等遮挡了脸部的部分结构的情况，这会导致人脸识别准确度低，误识别率高。这无疑对轻量级的人脸识别模型提出了进一步的高要求。

本公开旨在提供一种能够综合学习人脸的关键点热图与人脸图像的特征，得到人脸特征数据的人脸特征提取模型，以通过人脸的关键点热图为人脸特征提取模型提供更多的图像注意力信息。从而在轻量级模型的基础上，通过增加少量的计算参数即可有效提升模型的识别准确率，增强模型的抗噪能力。本公开具体通过训练该人脸特征提取模型的方法训练得到该人脸特征提取模型，并采用训练得到的人脸特征提取模型进行人脸识别。

图1示意性示出了根据本公开实施例的训练人脸特征提取模型的方法和人脸识别方法的应用场景图。

如图1所示，该应用场景100中包括电子设备110，该电子设备110可以是具有处理功能的各种电子设备，例如可以为供用户佩戴的XR眼镜、智能手表、智能手机、平板电脑、便携式计算机或台式计算机等。该电子设备110可以安装有各种客户端应用，例如图像拍摄类应用、图像处理类应用、图像展示类应用和/或即时通信类应用(仅为示例)等。

在一实施例中，电子设备110可以对输入或拍摄的人脸图像120进行人脸识别，识别得到人脸图像120中的人脸类别，并将该人脸类别作为识别结果130。其中，识别得到的人脸类别可以为预先设定的多个人脸类别中的其中一个类别。

在一实施例中，电子设备110例如可以先采用人脸特征提取模型140对人脸图像120进行处理，得到人脸特征数据。随后将人脸特征数据与多个预定人脸类别的人脸特征数据进行比对，根据比对结果来确定识别结果130。

在一实施例中，电子设备110例如还可以为人脸特征提取模型140提供人脸图像中人脸的关键点热图，以为人脸特征提取模型140提供更多的图像注意力信息。如此，人脸特征提取模型140可以结合人脸的关键点热图和人脸图像来提取人脸特征数据，提取得到的人脸特征数据的精度更高，利于提高得到的识别结果的准确性。

如图1所示，该应用场景100还可以包括服务器150。电子设备110可以通过网络与服务器150通信连接。服务器150可以为向电子设备110中客户端应用的运行提供支持的后台管理服务器等。服务器150例如可以用于根据预定人脸图像库中的图像来训练人脸特征提取模型，并将训练好的人脸特征提取模型140通过网络发送给电子设备110，以供电子设备110使用。

需要说明的是，本公开提供的训练人脸特征提取模型的方法可以由服务器执行，本公开提供的人脸识别方法可以由电子设备110执行。

应该理解，图1中的电子设备110、人脸图像120和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110、人脸图像120和服务器150。

以下将结合图2～图5对本公开提供的训练人脸特征提取模型的方法进行详细描述。

图2示意性示出了根据本公开实施例的训练人脸特征提取模型的方法的流程示意图。

如图2所示，该实施例的训练人脸特征提取模型的方法200可以包括操作S210～操作S270。其中，操作S230～操作S250是采用人脸特征提取模型执行的。

在操作S210，获取第一图像、第二图像和第三图像。

其中，第二图像的人脸与第一图像的人脸同类，第三图像的人脸与第一图像的人脸不同类。例如，第一图像A和第二图像A’可以是通过对人脸a进行拍摄所得到的人脸图像，而第三图像B可以是通过对人脸b进行拍摄所得到的人脸图像。

示例性地，可以从预定人脸图像库中获取第一图像、第二图像和第三图像。获取的三个图像中的每个图像都有标签信息，该标签信息指示每个图像中的人脸的真实类别。例如，对于第一图像和第二图像，标签信息可以为人脸a，对于第三图像，标签信息可以为人脸b。

示例性地，可以将从预定人脸库中获取的三个图像作为原始图像。即，从预定人脸图像库中选取第一原始图像、第二原始图像和第三原始图像。其中，第二原始图像的人脸与第一原始图像的人脸同类，且第三原始图像的人脸与第一原始图像的人脸不同类。随后，通过对第一原始图像进行增强处理，得到第一图像。类似地，通过对第二原始图像进行增强处理，得到第二图像；通过对第三原始图像进行增强处理，得到第三图像。其中，选取原始图像的过程可以采用随机选取的方式，本公开对此不做限定。

例如，对第一原始图像、第二原始图像和第三原始图像进行的增强处理可以包括图像翻转、运动模糊和小概率的随机遮挡块操作等。该实施例通过对从预定人脸图像库中选取的原始图像进行增强处理，从而得到用于训练人脸特征提取模型的图像，利于提高训练得到的人脸特征提取模型的鲁棒性和抗噪能力。

例如，在对原始图像进行了增强处理后，例如还可以对增强处理后的图像进行归一化操作，将归一化操作所得到的图像作为操作S210得到的图像。或者，可以直接对从预定人脸图像库中选取的图像进行归一化操作，将归一化操作所得到的图像作为操作S210得到的图像。例如，对图像的归一化操作可以包括将图像中像素的像素值除以127.5并减去1。可以理解的是，该归一化操作仅作为示例以利于理解本公开，本公开对此不做限定。

其中，对图像的归一化操作是指对图像进行一系列标准的处理变换，使得图像变换为一一致标准形式的过程。通过对图像进行归一化操作，可以使得人脸特征提取模型提取的人脸特征数据具有可比性，便于进行后续的特征比对和模型训练，加快网络训练收敛并提示泛化能力。

在操作S220，针对第一图像、第二图像和第三图像中的每个图像，获取与每个图像的人脸对应的关键点热图。

根据本公开的实施例，可以采用人脸关键点检测算法分别对第一图像、第二图像和第三图像进行检测，得到第一图像中人脸的关键点、第二图像中人脸的关键点和第三图像中人脸的关键点。随后，对于第一图像、第二图像、第三图像中的每个图像，根据检测得到的关键点的位置，将每个图像转化为关键点二值图，将该关键点二值图作为每个图像的人脸对应的关键点热图(也可以称为表示关键点的热力图Heat map)。具体地，可以将每个图像中关键点所在位置的像素值设定为255，将除关键点所在位置外其他位置的像素值设定为0，从而得到关键点热图。

在一实施例中，在针对每个图像完成关键点检测后，例如还可以将该每个图像重采样到预定尺寸。随后，根据关键点在该预定尺寸的图像上的位置，将预定尺寸的图像转化为关键点二值图。其中，预定尺寸例如可以为112×112等，本公开对此不做限定。

其中，关键点检测算法可以包括：基于模型的主动形状模型(Active ShapeModel，ASM)算法和主动纹理模型(Active Appearance Models，AAM)算法、基于级联姿态回归(Cascaded Pose Regression，CPR)的算法、基于深度学习的算法等。其中，基于深度学习的算法例如可以包括基于Ensemble of Regression Tress(简称为ERT)算法、DCNN算法、基于深度多任务学习的面部标记检测算法(Facial Landmark Detection by Deep Multi-task Learning，TCDCN)、多任务级联卷积网络、调整卷积神经网络等。

例如，可以采用基于Ensemble of Regression Tress(简称为ERT)算法来对每个图像进行检测。具体地，可以调用Dlib库来实现对每个图像的检测，从而得到每个图像中人脸的68个关键点。该68个关键点例如可以包括指示脸庞轮廓的关键点1～关键点17、指示左侧眉毛轮廓的关键点18～关键点22、指示右侧眉毛轮廓的关键点23～关键点27、指示鼻子轮廓的关键点28～关键点36、指示左眼轮廓的关键点37～关键点42、指示右眼轮廓的关键点43～关键点48、指示嘴巴轮廓的关键点49～关键点48。可以理解的是，得到的关键点个数68仅作为示例以利于理解本公开，根据实际需求，得到的关键点个数例如还可以为98、29、21、14等，本公开对此不做限定。

在一实施例中，每个图像的人脸对应的关键点热图可以预先生成后，以图像的编号等为索引存储在预定存储空间。则操作S220可以根据操作S210获取的图像的编号查询该预定存储空间，从而得到与S210中获取的图像中的人脸对应的关键点热图。

采用人脸特征提取模型针对每个图像执行的操作包括操作S230～操作S250。在操作S230，提取关键点热图的特征，得到与每个图像的人脸对应的关键点特征图。在操作S240，提取每个图像的特征，得到初级特征数据。在操作S250，融合关键点特征图和初级特征数据，得到与每个图像的人脸对应的人脸特征数据。

根据本公开的实施例，人脸特征提取模型例如可以采用卷积网络分别对每个图像和与每个图像中人脸对应的关键点热图进行卷积运算，以分别得到初级特征数据和关键点特征图。其中，卷积网络中卷积层的数量和每个卷积层采用的卷积核的大小可以根据实际需求进行设定，本公开对此不做限定。

例如，人脸特征提取模型可以包括两个卷积网络分支，其中一个卷积网络分支用于对每个图像进行卷积运算，其中另一个卷积网络分支用于对关键点热图进行卷积运算。该两个卷积网络分支的结构可以相同或不同。例如，该两个卷积网络分支各自包括的卷积层个数可以较小，以此保证人脸特征提取模型的轻量化。

例如，若每个图像及与该每个图像中人脸对应的关键点热图均为尺寸为112×112的图像，则对于每个图像，人脸特征提取模型的输入数据可以表示为4×112×112。其中，4为通道数，其中包括每个图像的RGB三个通道和关键点热图的一个通道。在人脸特征提取模型的训练过程中，可以将每个图像和与该每个图像中人脸对应的关键点热图构成一个图像对，并将批量的图像对输入人脸特征提取模型。例如，若作为样本的图像对个数为N，则输入人脸特征提取模型的数据可以表示为N×4×112×112。其中，N的取值为3*图像组数，每个图像组包括上述的第一图像、第二图像、第三图像以及与该三个图像中的人脸分别对应的三个关键点热图。

在得到关键点特征图和初始特征数据后，人脸特征提取模型例如可以在通道维度合并关键点特征图和初始特征数据。将合并得到的合并后特征数据作为人脸特征数据。或者，人脸特征提取模型还可以对合并得到的合并后特征数据进行基于注意力机制的运算，将运算得到的特征作为人脸特征数据。

在一实施例中，人脸特征提取模型可以包括融合网络，在正向传播的方向上，该融合网络设置在卷积网络之后。例如，该融合网络可以与两个卷积网络分支连接，两个卷积网络分支的输出为该融合网络的输入。

在得到人脸特征数据后，可以执行操作S260，将人脸特征数据输入预定人脸分类模型，得到每个图像的人脸属于多个预定类别中每个类别的预测概率值，作为与每个图像对应的预测信息。

根据本公开的实施例，预定人脸分类模型例如可以采用多分类器结构。多分类器例如可以为线性多类别分类器，例如可以采用全连接层、支持向量机、Softmax分类器等。该操作S260可以将人脸特征数据输入该预定人脸分类模型中，由预定人脸分类模型输出概率向量。该概率向量包括多个概率值，分别表示每个图像中的人脸属于多个预定类别中一个类别的预测概率值。例如，对于由第一图像、第二图像、第三图像以及与该三个图像中的人脸分别对应的三个关键点热图构成的每个图像组，可以得到三个概率向量。

在操作S270，根据与每个图像对应的预测信息和每个图像的人脸的真实类别，对人脸特征提取模型进行训练。

该实施例可以根据与每个图像对应的预测信息中对应真实类别的概率值与1之间的差值，来确定人脸特征提取模型针对该每个图像的损失值。将人脸特征提取模型针对多个图像的多个损失值的和或者多个损失值的平均值作为人脸特征提取模型的分类损失值。随后以最小化该分类损失值为目标，调整人脸特征提取模型中的网络参数，实现对人脸特征提取模型的训练。例如，可以采用交叉熵损失函数来确定人脸特征提取模型针对每个图像的损失值，例如可以采用反向传播算法对模型进行训练，本公开对此不做限定。

本公开实施例的技术方案，通过将人脸对应的关键点热图与具有人脸的图像一并输入人脸特征提取模型，并由人脸特征提取模型提取两个图像的特征，融合两个图像的特征，从而得到人脸特征数据。可以为人脸特征数据的提取提供更多的信息，可以有效地提升训练得到的人脸特征提取模型的识别准确度，利于人脸特征提取模型的轻量化设计。

图3示意性示出了获取关键点热图的原理示意图。

如图3所示，在一实施例300中，在获取关键点热图的过程中，采用人脸关键点检测算法310对每个图像301进行检测，得到的该每个图像301中人脸的多个关键点例如可以由该多个关键点在该每个图像301中的像素位置表示，即检测得到了多个人脸关键点的位置信息320。

在得到该多个关键点的位置信息320后，例如可以先根据该多个人脸关键点的位置信息320，确定表征多个人脸关键点的位置信息的二值图像302。在该二值图像302中，多个人脸关键点所在像素的像素值为255，除多个人脸关键点所在像素外的其他像素的像素值为0。

在得到二值图像302之后，该实施例300例如还可以采用第一卷积网络330来对该二值图像进行卷积运算，以构建以该多个人脸关键点为中心的局部区域注意力信息，得到与该每个图像301对应的关键点热图303。

其中，该第一卷积网络330例如可以以二值图像302中像素值为255的像素为中心，对二值图像302进行卷积操作。以此，可以使得得到的关键点热图可以更好地表达关键点彼此之间的关联关系，利于提高提取的人脸特征数据的精度。

其中卷积操作的次数可以为一次、两次或者更多次。优选地，卷积操作的次数可以为两次，以充分考虑时间的问题和空间的问题，并更好地在保证较高识别精度的基础上，减少算力需求。这是由于，若进行一次卷积操作，则局部区域的注意力信息覆盖的关键点位置的区域会较小，则可能存在关键点热图表达信息不完整的情况。若进行三次及更多次卷积操作时，则可能会存在关键点热图表达的信息具有较多的重复范围的情况，这不仅不会增加关键点热图的表达能力，还会增加生成关键点热图的时间成本和算力成本。

例如，该实施例可以以二值图像302所表征的每个人脸关键点的位置为中心，对二值图像302进行两次卷积操作。其中，两次卷积操作中，每次卷积操作的卷积核例如为([0.5，0.5，0.5]，[0.5，1，0.5]，[0.5，0.5，0.5])，步长例如为1，填充边例如为1。可以理解的是，上述卷积操作的卷积核尺寸、步长大小和填充边大小仅作为示例以利于理解本公开，本公开对此不做限定。

图4示意性示出了得到人脸特征数据的原理示意图。

如图4所示，在一实施例400中，人脸特征提取模型410例如可以包括第一卷积分支411、第二卷积分支412和第三卷积网络413。

在针对每个图像提取人脸特征数据时，可以将该每个图像401输入第一卷积分支411，由第一卷积分支411提取得到每个图像的初级特征数据403。同时，可以将与每个图像401中的人脸对应的关键点热图402输入第二卷积分支412，由第二卷积分支412提取得到关键点热图402的关键点特征图404。

其中，第一卷积分支411例如可以包括一个卷积层，用于对每个图像401进行下采样卷积运算。例如，每个图像401的尺寸若为3×112×112，则得到的初始特征数据403的尺寸可以为16×56×56。

其中，第二卷积分支412例如可以采用第二卷积网络。该第二卷积网络例如可以用于对关键点热图402进行卷积运算，以使得得到的关键点特征图404可以表征每个图像401中人脸的每个人脸关键点的重要程度。例如，第二卷积网络可以包括两个卷积层，以对关键点热图402进行两层的卷积操作。可以理解的是，两个卷积层中的其中一个卷积层还具有下采样的作用。例如，关键点热图402的尺寸若为1×112×112，则经过第二卷积网络处理后得到的关键点特征图404的尺寸例如可以为8×56×56。

在一实施例中，输入第二卷积分支412的关键点热图402例如可以为通过前述描述的实施例300得到的关键点热图。如此，在第二卷积分支412对关键点热图402进行卷积运算时，即可根据关键点热图402中各像素的热力值来确定各像素的权重，并根据该权重对关键点热图402进行卷积运算。如此，可以使得第二卷积分支412的模型参数重点学习需要关注的区域，从而可以在提升得到的人脸特征数据的精度的基础上降低人脸特征提取模型的学习压力，利于实现人脸特征提取模型的轻量化设计。

在得到初级特征数据403和关键点特征图404之后，该实施例400例如可以先在通道维度合并该初级特征数据403和关键点特征图404，得到合并后特征数据405。例如，合并后特征数据405的尺寸可以为(8+16)×56×56。

在得到合并后特征数据405之后，该实施例400例如还可以采用第三卷积网络413来对合并后特征数据405进行卷积运算，将卷积运算所得到的特征数据作为与每个图像401的人脸对应的人脸特征数据406。其中，第三卷积网络413例如可以包括一个或多个卷积层，本公开对此不做限定。

通过该第三卷机网络413的设置，可以使得最终得到的人脸特征数据充分地融合了初级特征数据403和关键点特征图404，可以提高得到的人脸特征数据406的表达能力。

图5示意性示出了对人脸特征提取模型进行训练的原理示意图。

在一实施例中，除了考虑人脸特征提取模型的分类损失值外，例如还可以考虑人脸特征提取模型提取特征数据的损失，以为人脸特征提取模型增加特征相似度损失的约束。例如，可以通过缩小针对同类人脸提取的特征之间的距离来训练人脸特征提取模型。也可以通过拉大针对不同类人脸提取的特征之间的距离来训练人脸特征提取模型。其中，每个对象的人脸可以作为一类人脸，不同对象的人脸属于不同类。

在一实施例中，如图5所示，在训练人脸特征提取模型时，可以将前述的图像组中具有人脸a的第一图像501及根据该第一图像501得到的第一关键点热图504输入人脸特征提取模型510中，得到与第一图像501的人脸对应的第一人脸特征数据521。同时，可以将具有人脸a的第二图像502及根据该第二图像502得到的第二关键点热图505输入人脸特征提取模型510中，得到与第二图像502的人脸对应的第二人脸特征数据522。其中，第一人脸特征数据521与第二人脸特征数据522例如可以采用前述实施例400描述的原理得到，在此不再赘述。

在得到第一人脸特征数据521和第二人脸特征数据522之后，可以以最小化该两个特征数据之间的第一差异值531(例如可以根据第一人脸特征数据521和第二人脸特征数据522之间的距离来确定)为目标，对人脸特征提取模型510进行训练。以通过缩小针对同类人脸提取的特征之间的距离来训练人脸特征提取模型。其中，特征数据之间的距离例如可以为余弦相似度距离、曼哈顿距离等，本公开对此不做限定。

例如，设定第一人脸特征数据521和第二人脸特征数据522之间的距离为d(F(A)，F(A’))，该实施例可以采用以下公式(1)计算同类损失值L_same，并以最小化该同类损失值为目标，对人脸特征提取模型进行训练。

L_same＝L2(d(F(A)，F(A′))，1) 公式(1)

其中，L2()表示欧式距离。F(A)表示第一人脸特征数据，F(A’)表示第二人脸特征数据，d()表示余弦相似度距离。可以理解的是，该公式(1)仅作为示例以利于理解本公开，本公开对此不做限定。

例如，该实施例可以将同类损失值与上文描述的分类损失值的加权和，作为人脸特征提取模型的总损失，以最小化总损失为目标，对人脸特征提取模型进行训练。

在一实施例中，如图5所示，在训练人脸特征提取模型时，可以将前述的图像组中具有人脸a的第一图像501及根据该第一图像501得到的第一关键点热图504输入人脸特征提取模型510中，得到与第一图像501的人脸对应的第一人脸特征数据521。同时，可以将具有人脸b的第三图像503及根据该第三图像503得到的第三关键点热图506输入人脸特征提取模型510中，得到与第三图像503的人脸对应的第三人脸特征数据523。其中，第一人脸特征数据521与第三人脸特征数据523例如可以采用前述实施例400描述的原理得到，在此不再赘述。

在得到第一人脸特征数据521和第三人脸特征数据523之后，可以以最大化该两个特征数据之间的第二差异值532(例如可以根据第一人脸特征数据521和第三人脸特征数据523之间的距离来确定)为目标，对人脸特征提取模型510进行训练。以通过扩大针对不同类人脸提取的特征之间的距离来训练人脸特征提取模型。其中，特征数据之间的距离例如可以为余弦相似度距离、曼哈顿距离等，本公开对此不做限定。

例如，设定第一人脸特征数据521和第三人脸特征数据523之间的距离为d(F(A)，F(B))，该实施例可以采用以下公式(2)计算异类损失值L_diff，并以最小化该异类损失值为目标，对人脸特征提取模型进行训练。

L_diff＝L2(d(F(A)，F(B))，0) 公式(2)

其中，F(B)为第三人脸特征数据。可以理解的是，该公式(2)仅作为示例以利于理解本公开，本公开对此不做限定。

例如，该实施例可以将异类损失值与上文描述的分类损失值的加权和，作为人脸特征提取模型的总损失，以最小化总损失为目标，对人脸特征提取模型510进行训练。

在一实施例中，可以同时考虑上述的第一差异值531和第二差异值532。例如，可以将上述的异类损失值L_diff与同类损失值L_same的加权和作为人脸特征提取模型的特征相似损失值。以最小化该特征相似损失值为目标，对人脸特征提取模型510进行训练。

在一实施例中，还可以根据第一差异值531和第二差异值532，采用以下公式(3)来计算同类相似度和异类相似度之间的距离损失值L_dis。随后采用公式(4)来对距离损失值L_dis、异类损失值L_diff与同类损失值L_same进行加权，将加权得到的值作为人脸特征提取模型的特征相似损失值L_sim 540。

L_dis＝max(d(F(A)，F(A′))-d(F(A)，F(B))-ω，0) 公式(3)

L_sim＝λ₁L_same+λ₂L_aiff+λ₃L_ais 公式(4)

其中，λ₁、λ₂、λ₃为根据实际需求设定的权重值，例如可以根据经验为该些权重值设定初始值，并根据实际训练情况进行取值的后期调整。例如，在一实施例中，λ₁、λ₂、λ₃的取值可以分别为0.1、0.3、0.6。ω为预定参数，用于限定d(F(A)，F(A’))-d(F(A)，F(B))的取值的大小。可以理解的是，上述公式(3)仅作为示例以利于理解本公开，本公开对此不做限定。

本公开实施例通过根据上述距离损失值L_dis、异类损失值L_diff与同类损失值L_same、特征相似损失值L_sim 540中至少一个训练人脸特征提取模型510，可以为人脸特征提取模型510的训练增加特征相似度的约束，可以在不断缩小类内距离和拉大类间距离，利于提高人脸特征提取模型510的精度，从而降低人脸识别的误识别率。

在一实施例中，上述分类损失值例如可以根据与每个图像对应的预测信息和每个图像的人脸的真实类别，采用softmax损失函数来确定或基于softmax损失改进后的损失函数来确定。其中，基于softmax损失改进后的损失函数例如可以包括L-margin softmax损失函数、A-softmax损失函数、基于增强间隔的softmax函数(例如AM-softmax损失函数)等。

以AM-softmax损失函数为例，该实施例可以采用以下公式(5)来计算分类损失值L_cls。

其中，n例如可以为获取的图像总个数，s表示人脸特征数据的L2范数，i表示n个图像中的第i个图像，j表示c个预定类别中的第j个类别，为预定人脸分类模型中针对第i个图像的真实类别y_i的网络权重与第i个图像中人脸的人脸特征数据x_i之间的夹角。需要说明的是，在该公式(5)中，设定了预定人脸分类模型中针对c个预定类别中每个类别的网络权重的L2范数的取值为1。/>可以理解为与第i个图像对应的预测信息中与第i个图像的人脸的真实类别对应的概率值，scosθ_j可以理解为与第i个图像对应的预测信息中与第j个类别对应的概率值。m为L-margin softmax损失函数中设定的常量。

该实施例通过采用基于sofimax损失改进后的损失函数来确定分类损失值，可以使得人脸特征提取模型学到类间距离更大的、类内距离更小的特征。通过采用基于增强间隔的softmax函数来确定分类损失值，可以达到减小样本图像的标签项的概率，增加损失的效果，从而可以加快人脸特征提取模型的训练效率。

在一实施例中，可以将上述的特征相似损失值L_sim与分类损失值L_cls的加权和作为人脸特征提取模型的总损失值。随后，以最小化总损失值为目标，对人脸特征提取模型进行训练。其中，在对L_sim和L_cls加权时，采用的权重可以根据实际需求进行设定，本公开对此不做限定。例如，针对L_sim的权重可以为0.4，针对L_cls的权重可以为0.6。

基于本公开提供的训练人脸特征提取模型的方法所训练得到的人脸特征提取模型，本公开还提供了一种人脸识别方法。以下将结合图6对该人脸识别方法进行详细描述。

如图6所示，该实施例的人脸识别方法可以包括操作S610～操作S660。其中，操作S630～操作S650是通过采用上文描述的训练方法训练得到的人脸特征提取模型来执行的。

在操作S610，获取包括待识别人脸的人脸图像。

根据本公开的实施例，包括待识别人脸的人脸图像例如可以是电子设备对任意人脸实时采集的图像。

在操作S620，获取与人脸图像中的待识别人脸对应的关键点热图。该操作S620例如可以采用与上文描述的操作S220类似的原理，来获取关键点热图，也可以采用图3描述的描述来生成关键点热图，在此不再赘述。

在操作S630，提取关键点热图的特征，得到与待识别人脸对应的关键点特征图。在操作S640，提取人脸图像的图像特征，得到初级特征数据。在操作S650，融合关键点特征图和初级特征数据，得到待识别人脸的人脸特征数据。该操作S630～操作S650的实现原理与上文描述的操作S230～操作S250的实现原理类似，在此不再赘述。

在操作S660，根据人脸特征数据与多个预定特征数据之间的相似关系，确定待识别人脸的识别结果。

根据本公开的实施例，多个预定特征数据可以是预先根据多个不同的人脸的图像所生成的人脸特征数据。其中，多个预定特征数据可以为提前注册的人脸特征库中的特征数据。该多个预定特征数据中的每个预定特征数据可以是采用操作S610～操作S650，获取多个预定人脸中一个预定人脸的图像，并对该图像进行处理所得到的人脸特征数据。每个预定特征数据都关联有一个人脸ID。

该实施例可以计算操作S650得到的人脸特征数据与多个预定特征数据中每个特征数据之间的相似度，得到多个相似度。确定多个预定特征数据中最大相似度所对应的预定特征数据，并将该确定的预定特征数据所关联的人脸ID作为待识别人脸的识别结果。例如，还可以先确定多个相似度是否包括大于相似度阈值的相似度，若包括，再确定最大相似度所对应的预定特征数据。若不包括，则可以确定待识别人脸的识别结果为未识别成功。在一个实施例中，例如，可以计算待识别人脸特征向量，并与已注册人脸特征库中人脸特征进行余弦距离计算。设置固定阈值f＝0.8，若余弦距离最大值大于等于f，则输出余弦距离最大值对应的已注册人脸库中的人名，若小于f，则表明该人脸未在人脸库中，输出未识别。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示意性示出了根据本公开实施例的适于实现训练人脸特征提取模型的方法或人脸识别方法的电子设备700的方框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如训练人脸特征提取模型的方法或人脸识别方法。例如，在一些实施例中，训练人脸特征提取模型的方法或人脸识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的训练人脸特征提取模型的方法或人脸识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行训练人脸特征提取模型的方法或人脸识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练人脸特征提取模型的方法，包括：

获取第一图像、第二图像和第三图像，所述第二图像的人脸与所述第一图像的人脸同类，所述第三图像的人脸与所述第一图像的人脸不同类；

针对所述第一图像、所述第二图像和所述第三图像中的每个图像，获取与所述每个图像的人脸对应的关键点热图；

采用所述人脸特征提取模型进行如下操作：

提取所述关键点热图的特征，得到与所述每个图像的人脸对应的关键点特征图；

提取所述每个图像的特征，得到初级特征数据；

融合所述关键点特征图和所述初级特征数据，得到与所述每个图像的人脸对应的人脸特征数据；

将所述人脸特征数据输入预定人脸分类模型，得到所述每个图像的人脸属于多个预定类别中每个类别的预测概率值，作为与所述每个图像对应的预测信息；以及

根据与所述每个图像对应的预测信息和所述每个图像的人脸的真实类别，对所述人脸特征提取模型进行训练。

2.根据权利要求1所述的方法，还包括：

确定与所述第一图像的人脸对应的人脸特征数据和与所述第二图像的人脸对应的人脸特征数据之间的第一差异值；

确定与所述第一图像的人脸对应的人脸特征数据和与所述第三图像的人脸对应的人脸特征数据之间的第二差异值；以及

根据所述第一差异值和所述第二差异值，确定所述人脸特征提取模型的特征相似损失值。

3.根据权利要求2所述的方法，其中，所述根据与所述每个图像对应的预测信息和所述每个图像的人脸的真实类别，对所述人脸特征提取模型进行训练包括：

根据与所述每个图像对应的预测信息和所述每个图像的人脸的真实类别，采用基于增强间隔的softmax函数确定所述人脸特征提取模型的分类损失值；以及

根据所述分类损失值与所述特征相似损失值的加权和，对所述人脸特征提取模型进行训练。

4.根据权利要求1所述的方法，其中，所述获取第一图像、第二图像和第三图像包括：

从预定人脸图像库中选取第一原始图像、第二原始图像和第三原始图像；所述第二原始图像的人脸与所述第一原始图像的人脸同类，所述第三原始图像的人脸与所述第一原始图像的人脸不同类；以及

分别对所述第一原始图像、所述第二原始图像和所述第三原始图像进行增强处理，得到所述第一图像、所述第二图像和所述第三图像。

5.根据权利要求1所述的方法，获取与所述每个图像的人脸对应的关键点热图，包括：

根据所述每个图像中多个人脸关键点的位置信息，确定表征所述多个人脸关键点的位置信息的二值图像；以及

采用第一卷积网络对所述二值图像进行卷积运算，构建以所述多个人脸关键点为中心的局部区域注意力信息，得到与所述每个图像对应的关键点热图。

6.根据权利要求1或5所述的方法，其中，所述人脸特征提取模型包括第二卷积网络；所述提取所述关键点热图的特征，得到与所述每个图像的人脸对应的关键点特征图，包括：

采用所述第二卷积网络对所述关键点热图进行卷积运算，得到表征所述每个图像中每个人脸关键点的重要程度的所述关键点特征图。

7.根据权利要求1所述的方法，其中，所述人脸特征提取模型包括第三卷积网络；所述融合所述关键点特征图和所述初级特征数据，得到与所述每个图像的人脸对应的人脸特征数据包括：

在通道维度合并所述关键点特征图和所述初级特征数据，得到合并后特征数据；以及

采用所述第三卷积网络对所述合并后特征数据进行卷积运算，得到与所述每个图像的人脸对应的人脸特征数据。

8.一种人脸识别方法，包括：

获取包括待识别人脸的人脸图像；

获取与所述人脸图像中的待识别人脸对应的关键点热图；

采用人脸特征提取模型执行以下操作：

提取所述关键点热图的特征，得到与所述待识别人脸对应的关键点特征图；

提取所述人脸图像的图像特征，得到初级特征数据；

融合所述关键点特征图和所述初级特征数据，得到所述待识别人脸的人脸特征数据；以及

根据所述人脸特征数据与多个预定特征数据之间的相似关系，确定所述待识别人脸的识别结果，

其中，所述人脸特征提取模型是采用权利要求1～7中任一项所述的方法训练得到的。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。