CN116884077B

CN116884077B - 一种人脸图像类别确定方法、装置、电子设备及存储介质

Info

Publication number: CN116884077B
Application number: CN202311126067.5A
Authority: CN
Inventors: 陈猛; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-08
Anticipated expiration: 2043-09-04
Also published as: CN116884077A

Abstract

本发明提供一种人脸图像类别确定方法、装置、电子设备及存储介质，涉及机器学习领域，方法包括：将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；第一编码器和第二编码器均采用对比学习方式训练得到，第一编码器的正样本为真实人脸图像，第二编码器的正样本为合成人脸图像；根据第一表征向量和第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定人脸图像的类别；标准人脸特征向量包括第一编码器生成的真实人脸表征向量和第二编码器生成的合成人脸表征向量；可实现对真实人脸图像和合成人脸图像的准确识别。

Description

一种人脸图像类别确定方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习领域，特别涉及一种人脸图像类别确定方法、装置、电子设备及存储介质。

背景技术

随着合成人脸技术的快速发展，尽管其在影视特效领域的应用效果较好，能够有效节省成本，但是该项技术也存在被滥用的可能，进而容易导致侵犯个人隐私等不良后果，因此需对合成人脸图像进行识别。相关技术中，对真实人脸图像和合成人脸图像的分类检测一般采用二分类模型进行，但在合成人像技术快速迭代的现状下，合成人脸图像和真实人脸图像上在脸部细节上更加接近，进而无法对真实人脸图像和合成人脸图像进行准确区分，无法满足合成人脸图像鉴别的需求。

发明内容

本发明的目的是提供一种人脸图像类别确定方法、装置、电子设备及存储介质，可基于以对比学习方式进行训练的、分别以真实人脸图像和合成人脸图像为正样本的两个编码器，实现对真实人脸图像和合成人脸图像的准确识别。

为解决上述技术问题，本发明提供一种人脸图像类别确定方法，包括：

将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；所述第一编码器和所述第二编码器均采用对比学习方式训练得到，所述第一编码器的正样本为真实人脸图像，所述第二编码器的正样本为合成人脸图像；

根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定所述人脸图像的类别；所述标准人脸特征向量包括所述第一编码器生成的真实人脸表征向量和所述第二编码器生成的合成人脸表征向量。

可选地，还包括：

在所述人脸图像中确定多个面部关键点，并利用所述面部关键点在所述人脸图像中形成矩形区域，得到人脸区域图像；

相应的，所述将人脸图像并行输入识别模型中的第一编码器和第二编码器，包括：

将所述人脸区域图像并行输入所述第一编码器和所述第二编码器。

可选地，所述根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定所述人脸图像的类别，包括：

确定所述第一表征向量与所述真实人脸表征向量和所述合成人脸表征向量间的第一相似度和第二相似度；

确定所述第二表征向量与所述真实人脸表征向量和所述合成人脸表征向量间的第三相似度和第四相似度；

将所述第一相似度、所述第二相似度、所述第三相似度和所述第四相似度中最大值对应的人脸图像类别作为所述人脸图像的类别。

可选地，还包括：

获取多张真实人脸图像及多张合成人脸图像；

基于对比学习方式，利用所述真实人脸图像及所述合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，得到所述识别模型；

将所述真实人脸图像输入所述第一编码器得到所述真实人脸表征向量，以及将所述合成人脸图像输入所述第二编码器得到所述合成人脸表征向量；

利用所述真实人脸表征向量和所述合成人脸表征向量构建所述预设检索库。

可选地，所述获取多张合成人脸图像，包括：

利用风格生成模型将所述真实人脸图像转换为所述合成人脸图像。

可选地，还包括：

在所述真实人脸图像中确定多个面部关键点，并利用所述面部关键点在所述真实人脸图像中形成矩形区域，得到真实人脸区域图像；

在所述合成人脸图像中确定多个面部关键点，并利用所述面部关键点在所述合成人脸图像中形成矩形区域，得到合成人脸区域图像；

相应的，所述基于对比学习方式，利用所述真实人脸图像及所述合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，包括：

基于对比学习方式，利用所述真实人脸区域图像及所述合成人脸区域图像对所述第一初始编码器和所述第二初始编码器进行训练。

可选地，还包括：

利用所述真实人脸图像构建第一正样本对，以及利用所述合成人脸图像构建第二正样本对；

查找与所述真实人脸图像最相似的合成人脸图像，并利用所述真实人脸图像与其最相近的合成人脸图像构建负样本对；

基于对比学习方式，利用所述第一正样本对和所述负样本对所述第一初始编码器进行训练，以及利用所述第二正样本对和所述负样本对所述第二初始编码器进行训练。

可选地，所述查找与所述真实人脸图像最相似的合成人脸图像，包括：

利用Clip模型将所述真实人脸图像和所述合成人脸图像转换为真实人脸图像嵌入向量和合成人脸图像嵌入向量；

基于向量检索方式，查找与所述真实人脸图像的真实人脸图像嵌入向量最相似的目标合成人脸图像嵌入向量，并将所述目标合成人脸图像嵌入向量对应的合成人脸图像作为与所述真实人脸图像最相似的合成人脸图像。

本发明还提供一种人脸图像类别确定装置，包括：

输入模块，用于将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；所述第一编码器和所述第二编码器均采用对比学习方式训练得到，所述第一编码器的正样本为真实人脸图像，所述第二编码器的正样本为合成人脸图像；

识别模块，用于根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定所述人脸图像的类别；所述标准人脸特征向量包括所述第一编码器生成的真实人脸表征向量和所述第二编码器生成的合成人脸表征向量。

本发明还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的人脸图像类别确定方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上所述的人脸图像类别确定方法。

本发明提供一种人脸图像类别确定方法，包括：将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；所述第一编码器和所述第二编码器均采用对比学习方式训练得到，所述第一编码器的正样本为真实人脸图像，所述第二编码器的正样本为合成人脸图像；根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定所述人脸图像的类别；所述标准人脸特征向量包括所述第一编码器生成的真实人脸表征向量和所述第二编码器生成的合成人脸表征向量。

可见，本发明使用的识别模型设置有第一编码器和第二编码器，这两个编码器均采用对比学习方式训练得到，其中第一编码器的正样本为真实人脸图像，而第二编码器的正样本为合成人脸图像，这使得第一编码器能够更好地提取真实人脸图像的特征，并对真实人脸图像特征与其他特征进行有效区分，以及可使得第二编码器能够更好地提取合成人脸图像的特征，并对合成人脸图像特征与其他特征进行有效区分。此外，本发明还可使用第一编码器生成的真实人脸表征向量和第一编码器生成的合成人脸表征向量构建了预设检索库，进而，仅需将上述第一表征向量、第二表征向量输入该预设检索库，以根据第一表征向量、第二表征向量与真实人脸表征向量、合成人脸表征向量间的相似性，便可准确确定人脸图像的类别，从而能够实现对真实人脸图像和合成人脸图像的准确识别。本发明还提供一种人脸图像类别确定装置、电子设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种人脸图像类别确定方法的流程图；

图2为本发明实施例所提供的一种训练数据构建的流程图；

图3为本发明实施例所提供的一种模型训练阶段的流程图；

图4为本发明实施例所提供的一种在线使用阶段的流程图；

图5为本发明实施例所提供的一种人脸图像类别确定装置的结构框图；

图6为本发明实施例所提供的一种电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，对真实人脸图像和合成人脸图像的分类检测一般采用二分类模型进行，但在合成人像技术快速迭代的现状下，合成人脸图像和真实人脸图像上在脸部细节上更加接近，进而无法对真实人脸图像和合成人脸图像进行准确区分，无法满足合成人脸图像鉴别的需求。有鉴于此，本发明可提供一种人脸图像类别确定方法，可采用以对比学习方式进行训练的、分别以真实人脸图像和合成人脸图像为正样本的两个编码器，以不同角度对待检测的人脸图像进行特征提取，从而可根据人脸图像在不同角度采集得到的特征实现对真实人脸图像和合成人脸图像的准确识别。

需要说明的是，本发明实施例并不限定以何种硬件设备执行本方法，例如可以为个人电脑、移动设备、服务器等，可根据实际应用需求进行设定。

请参考图1，图1为本发明实施例所提供的一种人脸图像类别确定方法的流程图，该方法可以包括：

S101、将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；第一编码器和第二编码器均采用对比学习方式训练得到，第一编码器的正样本为真实人脸图像，第二编码器的正样本为合成人脸图像。

本发明实施例所采用的识别模型中设置有两个编码器，即第一编码器和第二编码器。这两个编码器的网络结构相同，仅在网络参数存在差异；同时，这两个编码器可并行地对输入的人脸图像进行编码，即可并行地对输入的人脸图像进行特征提取，其中第一编码器输出第一表征向量，而第二编码器输出第二表征向量。需要说明的是，本发明实施例并不限定这两个编码器具体的网络结构，可根据实际应用需求进行选择，例如可以为ViT网络（Vision Transformer，视觉转换器模型）。

值得指出的是，这两个编码器均采用对比学习方式训练得到，第一编码器具体以真实人脸图像为正样本进行训练，而第二编码器具体以合成人脸图像为正样本进行训练。如此设置的目的在于，对比学习一般要达到的目标是确保所有相似对象的特征均处于特征空间相邻的区域，而不相似对象的特征处于均处于不相邻的区域。换句话说，以对比学习方式训练以后，第一编码器可对人脸图像进行特征提取，使得真实人脸图像的特征均相互靠近，而其他人脸图像（如合成人脸图像）的特征均远离真实人脸图像的特征；而第二编码器可对人脸图像进行特征提取，使得合成人脸图像的特征均相互靠近，而其他人脸图像（如真实人脸图像）的特征均远离合成人脸图像的特征。这样便可确保第一编码器能够更好地提取真实人脸图像的特征，并对真实人脸图像特征与其他特征进行有效区分，以及可确保第二编码器能够更好地提取合成人脸图像的特征，并对合成人脸图像特征与其他特征进行有效区分。

在上述训练成果的基础上，在得到上述第一表征向量和第二表征向量之后，假若待检测的人脸图像属于真实人脸图像，则其第一表征向量应当与第一编码器产出的真实人脸表征向量相靠近（即相似），而第二表征向量应当与第二编码器产出的合成人脸表征向量相远离（即不相似），其中真实人脸表征向量为第一编码器对真实人脸图像编码得到的表征向量，合成人脸表征向量为第二编码器对合成人脸图像编码得到的表征向量；若待检测的人脸图像属于合成人脸图像，则第一表征向量应当与该真实人脸表征向量相远离（即不相似），而第二表征向量应当与第一编码器产出的合成人脸表征向量相靠近（即相似）。换句话说，本发明实施例仅需确定人脸图像的第一表征向量和第二表征向量与上述真实人脸表征向量及合成人脸表征向量间的相似度，即可确定人脸图像的类别。

进一步，为避免人脸图像中的非人脸信息（如背景）对特征提取的影响，本发明实施例还可仅对人脸图像中的人脸部分进行特征提取。具体的，在将人脸图像输入至第一编码器和第二编码器之前，可在人脸图像中确定多个面部关键点，如确定双眼、鼻子及嘴角这五个面部关键点；随后，可利用面部关键点在人脸图像中形成矩形区域，如可确定双眼、鼻子及嘴角这五个面部关键点所形成的最小内切矩形，得到人脸区域图像；最后，可将人脸区域图像输入至第一编码器和第二编码器中进行特征提取，以避免人脸图像中无关部分对特征提取的影响。当然，为避免去除部分面部图像，在得到人脸区域图像之后，也可对其适当外扩，以确保人脸区域图像中包含更多人脸面部细节。

基于此，本方法还可以包括：

步骤11：在人脸图像中确定多个面部关键点，并利用面部关键点在人脸图像中形成矩形区域，得到人脸区域图像；

相应的，将人脸图像并行输入识别模型中的第一编码器和第二编码器，包括：

步骤12：将人脸区域图像并行输入第一编码器和第二编码器。

需要说明的是，本发明实施例并不限定如何在人脸图像中确定多个面部关键点，例如可采用人脸识别模型（如RetinaFace模型）在人脸图像中进行人脸检测，并输出面部关键点。本发明实施例也不限定具体的面部关键点，例如可以为如上所述的双眼、鼻子及嘴角这五个面部关键点，也可以进一步包含眉毛、耳朵等其他面部关键点。当然，在对第一编码器和第二编码器进行训练时，也可仅采用人脸区域图像进行训练。

S102、根据第一表征向量和第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定人脸图像的类别；标准人脸特征向量包括第一编码器生成的真实人脸表征向量和第二编码器生成的合成人脸表征向量。

如上所述，本发明实施例仅需确定人脸图像的第一表征向量和第二表征向量与第一编码器生成的真实人脸表征向量及第二编码器生成的合成人脸表征向量间的相似度，即可确定人脸图像的类别。为方便比对，本发明实施例可利用上述真实人脸表征向量和合成人脸表征向量构建预设检索库，并可将第一表征向量和第二表征向量输入至预设检索库以确定上述相似度。本发明实施例进一步可设置两个预设检索库，即用于存放述真实人脸表征向量的真实人像检索库及用于存放述合成人脸表征向量的合成人像检索库，进而可将第一表征向量和第二表征向量分别输入这两个检索库以进行相似度确定。进一步，为提升检测准确度，也可将第一表征向量输入至这两个检索库，以确定第一表征向量与真实人脸表征向量和合成人脸表征向量间的第一相似度和第二相似度，以及将第二表征向量输入至这两个检索库，以确定第二表征向量与真实人脸表征向量和合成人脸表征向量间的第三相似度和第四相似度，进而将第一相似度、第二相似度、第三相似度和第四相似度中最大值对应的人脸图像类别作为人脸图像的类别。

基于此，根据第一表征向量和第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定人脸图像的类别，可以包括：

步骤21：确定第一表征向量与真实人脸表征向量和合成人脸表征向量间的第一相似度和第二相似度；

步骤22：确定第二表征向量与真实人脸表征向量和合成人脸表征向量间的第三相似度和第四相似度；

步骤23：将第一相似度、第二相似度、第三相似度和第四相似度中最大值对应的人脸图像类别作为人脸图像的类别。

需要说明的是，本发明实施例并不限定如何确定向量间的相似度，可参考相关技术。

基于上述实施例，本发明使用的识别模型设置有第一编码器和第二编码器，这两个编码器均采用对比学习方式训练得到，其中第一编码器的正样本为真实人脸图像，而第二编码器的正样本为合成人脸图像，这使得第一编码器能够更好地提取真实人脸图像的特征，并对真实人脸图像特征与其他特征进行有效区分，以及可使得第二编码器能够更好地提取合成人脸图像的特征，并对合成人脸图像特征与其他特征进行有效区分。此外，本发明还可使用第一编码器生成的真实人脸表征向量和第一编码器生成的合成人脸表征向量构建了预设检索库，进而，仅需将上述第一表征向量、第二表征向量输入该预设检索库，以根据第一表征向量、第二表征向量与真实人脸表征向量、合成人脸表征向量间的相似性，便可准确确定人脸图像的类别，从而能够实现对真实人脸图像和合成人脸图像的准确识别。

基于上述实施例，下面对识别模型及预设检索库的构建方式进行详细介绍。在一种可能的情况中，本方法还可以包括：

S201、获取多张真实人脸图像及多张合成人脸图像。

应当指出的是，真实人脸图像及合成人脸图像应当由人工标注。然而，均由人工标注真实人脸图像及合成人脸图像容易增加人工工作量，因此本发明实施例可仅有人工标注真实人脸图像，并利用风格生成手段，将真实人脸图像转换为合成人脸图像。具体的，本发明实施例可利用风格生成模型（StyleGAN）将真实人脸图像转换为合成人脸图像。而为丰富合成人脸图像的生成方式，本发明实施例还可使用多个风格生成模型生成合成人脸图像，例如可使用StyleGAN1、StyleGAN2、StyleGAN3将真实人脸图像转换为不同合成风格的合成人脸图像。

基于此，获取多张合成人脸图像，包括：

步骤31：利用风格生成模型将真实人脸图像转换为合成人脸图像。

需要说明的是，本发明实施例并不限定识别模型所需的真实人脸图像及合成人脸图像数量，可根据实际应用需求进行设定。

S202、基于对比学习方式，利用真实人脸图像及合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，得到识别模型。

如上所述，第一编码器的正样本为真实人脸图像，而第二编码器的正样本为合成人脸图像，因此在利用真实人脸图像及合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练前，需利用真实人脸图像及合成人脸图像构造正样本对和负样本对，以利用正样本对和负样本对对第一初始编码器和第二初始编码器进行针对性训练。具体的，第一初始编码器对应的正样本对应当为（真实人脸图像，真实人脸图像），而对应的负样本对应当为（真实人脸图像，合成人脸图像）。第二初始编码器对应的正样本对应当为（合成人脸图像，合成人脸图像），而对应的负样本对应当为（合成人脸图像，真实人脸图像）。在构造正样本对时，可将真实人脸图像或合成人脸图像与自身构建正样本对；而在构造负样本对时，为提升两编码器对真实人脸图像特征及合成人脸图像特征的区分度，可将真实人脸图像与其最相似的合成人脸图像构建负样本对。

基于此，本方法还包括：

步骤41：利用真实人脸图像构建第一正样本对，以及利用合成人脸图像构建第二正样本对；

步骤42：查找与真实人脸图像最相似的合成人脸图像，并利用真实人脸图像与其最相近的合成人脸图像构建负样本对；

相应的，基于对比学习方式，利用真实人脸图像及合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，包括：

步骤43：基于对比学习方式，利用第一正样本对和负样本对第一初始编码器进行训练，以及利用第二正样本对和负样本对第二初始编码器进行训练。

需要说明的是，本发明实施例并不限定如何查找与真实人脸图像最相似的合成人脸图像，具体可参考图像相似度计算的相关技术。为方便查找，本发明实施例可利用Clip模型将真实人脸图像和合成人脸图像转换为真实人脸图像嵌入向量和合成人脸图像嵌入向量，并基于向量检索方式，查找与真实人脸图像的真实人脸图像嵌入向量最相似的目标合成人脸图像嵌入向量，并将目标合成人脸图像嵌入向量对应的合成人脸图像作为与真实人脸图像最相似的合成人脸图像，其中Clip模型是一种常见的大规模图文预训练模型，本发明对真实人脸图像和合成人脸图像的特征提取仅使用了Clip模型中的图像分支。

基于此，查找与真实人脸图像最相似的合成人脸图像，可以包括：

步骤51：利用Clip模型将真实人脸图像和合成人脸图像转换为真实人脸图像嵌入向量和合成人脸图像嵌入向量；

步骤52：基于向量检索方式，查找与真实人脸图像的真实人脸图像嵌入向量最相似的目标合成人脸图像嵌入向量，并将目标合成人脸图像嵌入向量对应的合成人脸图像作为与真实人脸图像最相似的合成人脸图像。

进一步，为避免人脸图像中的非人脸信息（如背景）对训练效果的影响，本发明实施例还可仅采用人脸区域图像对第一编码器和第二编码器进行训练。需要说明的是，关于从真实人脸图像提取出真实人脸区域图像的具体方式，以及关于从合成人脸图像提取出合成人脸区域图像的具体方式，与上述实施例中相关描述相同，此处不再赘述。

基于此，本方法还可以包括：

步骤61：在真实人脸图像中确定多个面部关键点，并利用面部关键点在真实人脸图像中形成矩形区域，得到真实人脸区域图像；

步骤62：在合成人脸图像中确定多个面部关键点，并利用面部关键点在合成人脸图像中形成矩形区域，得到合成人脸区域图像；

步骤63：基于对比学习方式，利用真实人脸区域图像及合成人脸区域图像对第一初始编码器和第二初始编码器进行训练。

S203、将真实人脸图像输入第一编码器得到真实人脸表征向量，以及将合成人脸图像输入第二编码器得到合成人脸表征向量。

S204、利用真实人脸表征向量和合成人脸表征向量构建预设检索库。

可以理解的是，在完成对第一编码器和第二编码器的训练之后，仅需将将真实人脸图像输入第一编码器得到真实人脸表征向量，以及将合成人脸图像输入第二编码器得到合成人脸表征向量，并利用这些真实人脸表征向量和合成人脸表征向量构建预设检索库即可。需要说明的是，本发明实施例并不限定预设检索库的具体构造方式，例如可采用HNSW算法（Hierarchical Navigable Small Word，可导航小世界网络）进行构造。

下面基于具体的流程图对上述人脸图像类别确定方法进行详细介绍。请参考图2、图3及图4，图2为本发明实施例所提供的一种训练数据构建的流程图，图3为本发明实施例所提供的一种模型训练阶段的流程图，图4为本发明实施例所提供的一种在线使用阶段的流程图。本方法包含三个阶段，分别为训练数据构建、模型训练阶段及在线使用阶段。

1、训练数据构建：

1.1 真实人脸图像数据集构建。收集站内积累的真实人脸图像以及开源的celebaHQ数据集作为真实人脸图像数据集，记为R_dataset；

1.2 合成人脸图像数据集构建。采用StyleGAN系列网络（风格生成模型）对R_dataset进行人像迁移，得到合成人脸图像数据集F_dataset；

1.3 人像区域抠取。采用人脸识别模型（RetinaFace）对R_dataset、F_dataset中人脸图像进行检测得到2个眼睛关键点、1个鼻尖关键点及2个嘴角关键点；

1.4 人脸关键区域数据集构建。根据1.3得到的五个面部关键点生成最小外接矩形后向外扩1.2倍得到人脸面部区域并进行区域截取，记截取后的人脸区域图像为Face_img，重复1.3-1.4步骤，分别得到合成人脸区域图像数据集、真实人脸区域图像数据集，记为FakeROI_dataset、RealROI_dataset；

1.5 检索库构建。采用CLIP模型的图像分支依次对1.4中获取的FakeROI_dataset、RealROI_dataset抽取特征（embedding），并采用HNSW算法构建真实人像特征检索库RealROI_search和合成人像特征检索库FakeROI_search；

1.6 图像对构建。第一正样本对为：真实人脸区域图像RealImg_Roi0和自身配对，即（RealImg_Roi0，RealImg_Roi0）。第二正样本对为：合成人脸区域图像FakeImg_Roi0和自身配对，即（FakeImg_Roi0，FakeImg_Roi0）。负样本对为真实人脸区域图像RealImg_Roi0，以及通过在合成人像检索库中得到的最相似的合成人脸区域图像FakeImg_Roi0配对，即（RealImg_Roi0，FakeImg_Roi0）。

2、模型训练阶段：

2.1 网络设计。采用双塔结构+对比学习loss网络结构进行训练。其中双塔部分都是采用12层的Transformer（转换器单元），损失函数采用对比学习损失函数；

2.2 数据输入。将第一正样本对和负样本对输入第一分支（ViT1，由12组Transformer组成），将第二正样本对和负样本对输入第二分支（ViT2，由12组Transformer组成），进行模型训练，最终得到模型Model_best。

3、在线使用阶段：

3.1 特征抽取建库。采用2.2得到的模型按照1.5的方式，对现有的人像数据集建立新的真实人像检索库NewRealROI_search和合成人像检索库NewFakeROI_search；

3.2 在线人像预处理。当线上过来一张人像图时，采用1.3-1.4中提到的人脸关键区域获取方式得到在线人脸关键区域O_FaceROI，然后采用Model_best的任意图像分支抽取O_FaceROI的表征向量，记为O_FaceEmbedding，维度为768*1;

3.3 在线人像的标签获取。利用HNSW算法将3.2中得到O_FaceEmbedding在3.1构建好的两个检索库中进行向量相似度检索，相似度最高的向量所在的检索库的类别即为在线人像所属的人像类别。

4、活动收益：

4.1合成人脸的召回和准确率对比第三方能力，效果提升100%+。

下面对本发明实施例提供的人脸图像类别确定装置、电子设备及计算机可读存储介质进行介绍，下文描述的人脸图像类别确定装置、电子设备及计算机可读存储介质与上文描述的人脸图像类别确定方法可相互对应参照。

请参考图5，图5为本发明实施例所提供的一种人脸图像类别确定装置的结构框图，该装置可以包括：

输入模块501，用于将人脸图像并行输入识别模型中的第一编码器和第二编码器，得到第一表征向量和第二表征向量；第一编码器和第二编码器均采用对比学习方式训练得到，第一编码器的正样本为真实人脸图像，第二编码器的正样本为合成人脸图像；

识别模块502，用于根据第一表征向量和第二表征向量与预设检索库中的标准人脸特征向量间的相似度，确定人脸图像的类别；标准人脸特征向量包括第一编码器生成的真实人脸表征向量和第二编码器生成的合成人脸表征向量。

可选地，该装置还可以包括：

人脸区域图像裁切模块，用于在人脸图像中确定多个面部关键点，并利用面部关键点在人脸图像中形成矩形区域，得到人脸区域图像；

相应的，输入模块501，具体用于：

将人脸区域图像并行输入第一编码器和第二编码器。

可选地，识别模块502，可以包括：

第一相似度计算子模块，用于确定第一表征向量与真实人脸表征向量和合成人脸表征向量间的第一相似度和第二相似度；

第二相似度计算子模块，用于确定第二表征向量与真实人脸表征向量和合成人脸表征向量间的第三相似度和第四相似度；

识别子模块，用于将第一相似度、第二相似度、第三相似度和第四相似度中最大值对应的人脸图像类别作为人脸图像的类别。

可选地，本装置还可以包括：

获取模块，用于获取多张真实人脸图像及多张合成人脸图像；

训练模块，用于基于对比学习方式，利用真实人脸图像及合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，得到识别模型；

表征向量生成模块，用于将真实人脸图像输入第一编码器得到真实人脸表征向量，以及将合成人脸图像输入第二编码器得到合成人脸表征向量；

检索库构建模块，用于利用真实人脸表征向量和合成人脸表征向量构建预设检索库。

可选地，获取模块，可以包括：

转化子模块，用于利用风格生成模型将真实人脸图像转换为合成人脸图像。

可选地，本装置还可以包括：

真实人脸区域图像裁切模块，用于在真实人脸图像中确定多个面部关键点，并利用面部关键点在真实人脸图像中形成矩形区域，得到真实人脸区域图像；

合成人脸区域图像裁切模块，用于在合成人脸图像中确定多个面部关键点，并利用面部关键点在合成人脸图像中形成矩形区域，得到合成人脸区域图像；

相应的，训练模块，具体用于：

基于对比学习方式，利用真实人脸区域图像及合成人脸区域图像对第一初始编码器和第二初始编码器进行训练。

可选地，本装置还可以包括：

正样本对构建模块，用于利用真实人脸图像构建第一正样本对，以及利用合成人脸图像构建第二正样本对；

负样本对构建模块，用于查找与真实人脸图像最相似的合成人脸图像，并利用真实人脸图像与其最相近的合成人脸图像构建负样本对；

相应的，训练模块，具体用于：

基于对比学习方式，利用第一正样本对和负样本对第一初始编码器进行训练，以及利用第二正样本对和负样本对第二初始编码器进行训练。

可选地，负样本对构建模块，可以包括：

嵌入向量生成子模块，用于利用Clip模型将真实人脸图像和合成人脸图像转换为真实人脸图像嵌入向量和合成人脸图像嵌入向量；

查找子模块，用于基于向量检索方式，查找与真实人脸图像的真实人脸图像嵌入向量最相似的目标合成人脸图像嵌入向量，并将目标合成人脸图像嵌入向量对应的合成人脸图像作为与真实人脸图像最相似的合成人脸图像。

请参考图6，图6为本发明实施例所提供的一种电子设备的结构框图，本发明实施例提供了一种电子设备60，包括处理器61和存储器62；其中，所述存储器62，用于保存计算机程序；所述处理器61，用于在执行所述计算机程序时执行前述实施例提供的人脸图像类别确定方法。

关于上述人脸图像类别确定方法的具体过程可以参考前述实施例中提供的相应内容，在此不再进行赘述。

并且，所述存储器62作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备60还包括电源63、通信接口64、输入输出接口65和通信总线66；其中，所述电源63用于为所述电子设备60上的各硬件设备提供工作电压；所述通信接口64能够为所述电子设备60创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口65，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的人脸图像类别确定方法的步骤。

由于计算机可读存储介质部分的实施例与人脸图像类别确定方法部分的实施例相互对应，因此存储介质部分的实施例请参见人脸图像类别确定方法部分的实施例的描述，这里不再赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种人脸图像类别确定方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种人脸图像类别确定方法，其特征在于，包括：

获取多张真实人脸图像及多张合成人脸图像；

利用所述真实人脸图像与其自身构建第一正样本对，以及利用所述合成人脸图像与其自身构建第二正样本对；

基于对比学习方式，利用所述第一正样本对和所述负样本对针对第一初始编码器进行训练得到第一编码器，以及利用所述第二正样本对和所述负样本对针对第二初始编码器进行训练得到第二编码器；

将所述真实人脸图像输入所述第一编码器得到真实人脸表征向量，以及将所述合成人脸图像输入所述第二编码器得到合成人脸表征向量；

利用所述真实人脸表征向量和所述合成人脸表征向量构建预设检索库；

根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的所有相似度中的最大值对应的标准人脸特征向量的类别，确定所述人脸图像的类别；所述标准人脸特征向量包括所述第一编码器生成的真实人脸表征向量和所述第二编码器生成的合成人脸表征向量，所述人脸图像的类别包括真实人脸图像类别和合成人脸图像类别。

2.根据权利要求1所述的人脸图像类别确定方法，其特征在于，还包括：

3.根据权利要求1所述的人脸图像类别确定方法，其特征在于，所述根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的所有相似度中的最大值对应的标准人脸特征向量的类别，确定所述人脸图像的类别，包括：

4.根据权利要求1所述的人脸图像类别确定方法，其特征在于，所述获取多张合成人脸图像，包括：

5.根据权利要求1所述的人脸图像类别确定方法，其特征在于，还包括：

基于对比学习方式，利用所述真实人脸图像及所述合成人脸图像对初始识别模型中的第一初始编码器和第二初始编码器进行训练，包括：

6.根据权利要求1所述的人脸图像类别确定方法，其特征在于，所述查找与所述真实人脸图像最相似的合成人脸图像，包括：

7.一种人脸图像类别确定装置，其特征在于，包括：

正样本对构建模块，用于利用所述真实人脸图像与其自身构建第一正样本对，以及利用所述合成人脸图像与其自身构建第二正样本对；

负样本对构建模块，用于查找与所述真实人脸图像最相似的合成人脸图像，并利用所述真实人脸图像与其最相近的合成人脸图像构建负样本对；

训练模块，用于基于对比学习方式，利用所述第一正样本对和所述负样本对针对第一初始编码器进行训练得到第一编码器，以及利用所述第二正样本对和所述负样本对针对第二初始编码器进行训练得到第二编码器；

表征向量生成模块，用于将所述真实人脸图像输入所述第一编码器得到真实人脸表征向量，以及将所述合成人脸图像输入所述第二编码器得到合成人脸表征向量；

检索库构建模块，用于利用所述真实人脸表征向量和所述合成人脸表征向量构建预设检索库；

识别模块，用于根据所述第一表征向量和所述第二表征向量与预设检索库中的标准人脸特征向量间的所有相似度中的最大值对应的标准人脸特征向量的类别，确定所述人脸图像的类别；所述标准人脸特征向量包括所述第一编码器生成的真实人脸表征向量和所述第二编码器生成的合成人脸表征向量，所述人脸图像的类别包括真实人脸图像类别和合成人脸图像类别。

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的人脸图像类别确定方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至6任一项所述的人脸图像类别确定方法。