CN117011949A

CN117011949A - 身份鉴别方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN117011949A
Application number: CN202310989069.0A
Authority: CN
Inventors: 饶宇熹; 刘金山; 王远楷; 宁博
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-11-07

Abstract

本申请提供一种身份鉴别方法、模型训练方法、装置、设备及存储介质，涉及人工智能领域。该方法包括：接收包括待识别的脸部图像的身份鉴别请求；获取用于身份参考的多个指纹图像；通过第一图像编码器提取脸部图像的脸部特征向量；通过第二图像编码器提取多个指纹图像的指纹特征向量；根据脸部特征向量与多个指纹特征向量的特征相似度，在多个指纹图像中筛选得到目标指纹图像；确定脸部图像对应的身份信息为目标指纹图像对应的身份信息。用于训练第一图像编码器和第二图像编码器的训练图像组中包括指纹训练图像、脸部正样本图像和脸部负样本图像，脸部负样本图像中包括脸部正样本图像的相似图像。从而，提高了身份鉴别的准确性。

Description

身份鉴别方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种身份鉴别方法、模型训练方法、装置、设备及存储介质。

背景技术

生物特征识别技术已经广泛应用于身份验证、门禁控制、支付安全等领域。

生物特征识别技术已经较为成熟。在身份识别过程中，可以利用训练数据，训练深度学习算法，基于训练好的深度学习算法，进行生物特征的提取和身份识别。

然而，随着技术发展，生物特征可能被替换为合成的生物特征，比如真实的脸部图像被替换为合成的脸部图像，生物特征真假难辨，导致身份鉴别准确性低。

发明内容

本申请提供一种身份鉴别方法、模型训练方法、装置、设备及存储介质，用以解决脸部图像真假难辨，导致身份鉴别准确性低的问题。

第一方面，本申请提供一种身份鉴别方法，包括：

接收身份鉴别请求，所述身份鉴别请求中包括待进行身份鉴别的脸部图像；

从身份认证参考库中，获取用于身份参考的多个指纹图像；

通过第一图像编码器对所述脸部图像进行特征提取，得到脸部特征向量；

通过第二图像编码器对所述多个指纹图像分别进行特征提取，得到多个指纹特征向量；

确定所述脸部特征向量与所述多个指纹特征向量之间的特征相似度；

根据所述特征相似度，在所述多个指纹图像中筛选得到目标指纹图像；

确定所述脸部图像对应的身份信息为所述目标指纹图像对应的身份信息；

其中，所述第一图像编码器和所述第二图像编码器基于多个训练图像组一起训练得到，在每个训练图像组中，包括指纹训练图像、与所述指纹训练图像属于同一人物的脸部正样本图像以及与所述指纹训练图像属于不同人物的脸部负样本图像，所述脸部负样本图像中包括所述脸部正样本图像的相似图像。

第二方面，本申请提供一种模型训练方法，包括：

获取训练数据，所述训练数据包括多个训练图像组，每个训练图像组中包括指纹训练图像、与所述指纹训练图像属于同一人物的脸部正样本图像以及与所述指纹训练图像属于不同人物的脸部负样本图像，所述脸部负样本图像中包括所述脸部正样本图像的相似图像；

通过训练数据和对比损失函数，对第一图像编码器和第二图像编码器进行参数调整，得到训练后的第一图像编码器和训练后的第二图像编码器；

其中，所述第一图像编码器用于提取脸部特征，所述第二图像编码器用于提取指纹特征，所述对比损失函数用于对同一人物的指纹图像与脸部图像之间的特征相似度进行最大化以及对不同人物的指纹图像与脸部图像之间的特征相似度进行最小化。

第三方面，本申请提供一种身份鉴别装置，包括：

请求接收模块，用于接收身份鉴别请求，所述身份鉴别请求中包括待进行身份鉴别的脸部图像；

指纹获取模块，用于从身份认证参考库中，获取用于身份参考的多个指纹图像；

脸部特征提取模块，用于通过第一图像编码器对所述脸部图像进行特征提取，得到脸部特征向量；

指纹特征提取模块，用于通过第二图像编码器对所述多个指纹图像分别进行特征提取，得到多个指纹特征向量；

相似度确定模块，用于确定所述脸部特征向量与所述多个指纹特征向量之间的特征相似度；

指纹图像筛选模块，用于根据所述特征相似度，在所述多个指纹图像中筛选得到目标指纹图像；

身份确定模块，用于确定所述脸部图像对应的身份信息为所述目标指纹图像对应的身份信息；

第四方面，本申请提供一种模型训练装置，包括：

训练数据获取模块，用于获取训练数据，所述训练数据包括多个训练图像组，每个训练图像组中包括指纹训练图像、与所述指纹训练图像属于同一人物的脸部正样本图像以及与所述指纹训练图像属于不同人物的脸部负样本图像，所述脸部负样本图像中包括所述脸部正样本图像的相似图像；

参数调整模块，用于通过训练数据和对比损失函数，对第一图像编码器和第二图像编码器进行参数调整，得到训练后的第一图像编码器和训练后的第二图像编码器；

第五方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的身份鉴别方法和/或第二方面所述的模型训练方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面所述的身份鉴别方法和/或第二方面所述的模型训练方法。

第七方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如第一方面提供的身份鉴别方法和/或第二方面所述的模型训练方法。

本申请提供的身份鉴别方法、模型训练方法、装置、设备及存储介质，利用多个训练图像组训练第一图像编码器和第二图像编码器，训练图像组包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，使得通过第一图像编码器和第二图像编码器提取得到同一人物的脸部特征和指纹特征相似，提取得到不同人物的脸部特征和指纹特征不相似；脸部负样本图像中包括脸部正样本图像的相似图像，使得第一图像编码器可以区分不同任务的相似脸部图像。如此，可以利用第一图像编码器和第二图像编码器进行身份鉴别，基于通过第一图像编码模型提取到的脸部特征向量与通过第二图像编码模型提取得到的指纹特征向量之间的特征相似度，从多个指纹图像中筛选出目标指纹图像，确定脸部图像对应的身份信息为目标指纹图像对应的身份信息。从而，基于第一图像编码器和第二图像编码器，利用指纹这一生物特征来辅助确定脸部图像对应的身份信息，有效地提高身份鉴别的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例适用的应用场景的示例图；

图2为本申请实施例提供的身份鉴别方法的流程示意图；

图3为本申请实施例提供的模型训练方法的流程示意图；

图4为本申请实施例提供的模型训练和应用过程的示例图；

图5为本申请实施例提供的身份鉴别装置的结构示意图；

图6为本申请实施例提供的模型训练装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，本申请提供的身份鉴别方法、模型训练方法、装置、设备及存储介质可用于人工智能领域，也可用于除人工智能领域之外的任意领域，本申请提供的身份鉴别方法、模型训练方法、装置、设备及存储介质的应用领域不作限定。

利用深度学习进行人物身份识别存在以下缺点：

1、数据采集成本高：身份认证通常需要采集大量的标注数据来训练深度学习器，需要专业的人员对数据进行一一标注，成本较高。

2、鲁棒性较差：随着视频换脸技术的发展，身份认证技术难以分辨出脸部图像是真实的脸部图像还是合成的脸部图像，身份识别准确性低。

为解决上述问题，本申请提供了一种身份鉴别方法、模型训练方法、装置、设备及存储介质。在本申请中，考虑到指纹特征具备唯一性、难以伪造以及便于存储等优点，通过利用指纹图像对应的图像信息，来辅助确定脸部图像对应的身份信息。通过用于指纹特征提取的图像编码器提取指纹图像的特征向量，通过用于脸部特征提取的图像编码器提取脸部图像的特征向量，基于指纹图像的特征向量与脸部图像的特征向量之间的特征相似度，识别出与脸部图像属于同一人物的指纹图像，进而可以基于指纹图像对应的身份信息确定脸部图像对应的身份信息。图像编码器可以利用指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像训练得到，脸部负样本图像中包括脸部正样本图像的相似图像，使得图像编码器能够区分相似的脸部图像，提高图像编码器的泛化能力，进行提高身份鉴别的鲁棒性和准确性。指纹训练图像、脸部正样本图像和脸部负样本图像也无需进行标注，降低了数据采集成本。

为便于区分，后续将用于提取脸部特征的图像编码器称为第一图像编码器，将用于提取指纹特征的图像编码器称为第二图像编码器。

本申请具体的应用场景为身份识别场景。图1为本申请实施例适用的应用场景的示例图。如图1所示，应用场景可涉及身份鉴别装置101、身份认证参考库102和模型训练装置103，身份鉴别装置101可以是服务器或者终端，图1以服务器为例，模型训练装置103可以是服务器。可在模型训练装置103上训练第一图像编码器和第二图像编码器，将训练好的第一图像编码器和训练好的第二图像编码器部署在身份鉴别装置101上。

身份鉴别装置101可从身份认证参考库102中获取可利用第一图像编码器对脸部图像进行特征提取，得到脸部特征向量，利用第二图像编码器对指纹图像进行特征提取，得到指纹特征向量；基于脸部特征向量与指纹特征向量之间的特征相似度以及指纹图像对应的身份信息，确定脸部图像对应的身份信息。

可选地，应用场景还可包括交互装置104。交互装置104与身份鉴别装置101之间可以相互通信，交互装置104可以为终端，用户可在交互装置104上输入脸部图像，身份鉴别装置101可以对人物视频中的脸部图像是否属于同一人物进行识别，将识别结果发送至交互装置104；身份鉴别装置101也可以从数据库中获取脸部图像。

其中，终端可以是个人数字处理(personal digital assistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))、可穿戴设备(例如智能手表、智能手环)以及智能家居设备(例如智能音箱、智能显示设备)等。服务器可以为独立的服务器也可以为服务器集群，可以为本地服务器也可以为云服务器。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的身份鉴别方法的流程示意图。如图2所示，身份鉴别方法包括如下步骤：

S201，接收身份鉴别请求，身份鉴别请求中包括待进行身份鉴别的脸部图像。

其中，身份鉴别请求用于请求对脸部图像进行身份鉴别。在身份鉴别请求中可包括一张或者多张脸部图像，多张脸部图像可以属于相同人物也可以属于不同的人物。

可选的，身份鉴别请求中包括视频数据，视频数据中包括待进行身份鉴别的脸部图像。从而，可实现对视频数据中人物的身份鉴别。

本实施例中，可接收用户输入的身份鉴别请求，或者，接收来自其他设备的身份鉴别请求。或者，在接收到脸部图像或者包含脸部图像的视频数据时，主动触发身份鉴别请求，或者，可配置身份鉴别任务，在身份鉴别任务开始执行时主动触发身份鉴别请求。

S202，从身份认证参考库中，获取用于身份参考的多个指纹图像。

其中，身份认证参考库中可包括多个指纹图像和各个指纹图像分别对应的身份信息。不同的指纹图像可以对应不同的身份信息。

本实施例中，在身份认证参考库中，指纹图像对应的身份信息为已认证的身份信息，从身份认证参考库中，获取用于身份参考的多个指纹图像，该多个指纹图像分别对应的身份信息可以用作脸部图像身份识别的参考身份，提高身份识别的可靠性和准确性。

S203，通过第一图像编码器对脸部图像进行特征提取，得到脸部特征向量，通过第二图像编码器对多个指纹图像分别进行特征提取，得到多个指纹特征向量。

其中，第一图像编码器和第二图像编码器基于多个训练图像组一起训练得到，在每个训练图像组中，包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，脸部负样本图像中包括脸部正样本图像的相似图像。在训练过程中，第一图像编码器用于对脸部正样本图像和脸部负样本图像分别进行特征提取，第二图像编码器用于对指纹训练图像进行特征提取，基于第一图像编码器提取得到的脸部正样本图像的脸部特征向量、第一图像编码器提取得到的脸部负样本图像的脸部特征向量以及第二图像编码器提取得到的指纹图像的指纹特征向量进行对比学习，使得同一人物的脸部特征向量和指纹特征向量接近，即相似，不同人物的脸部特征向量和指纹特征向量远离，即不相似。由于脸部负样本图像包括脸部正样本图像的相似图像，使得在训练过程中，第一图像编码器可以区分相似脸部图像，为相似图像生成不同的脸部特征向量，进而在身份识别时可以区分相似脸部图像，提高身份识别的泛化能力和鲁棒性。

本实施例中，可将脸部图像输入至第一图像编码器中，或者，可对脸部图像进行预处理，将预处理后的脸部图像输入第一图像编码器中，在第一图像编码器中对脸部图像进行脸部特征提取，得到脸部图像对应的脸部特征向量。可将指纹图像输入至第二图像编码器中，或者，可对指纹图像进行预处理，将预处理后的指纹图像输入第二图像编码器中，在第二图像编码器中对指纹图像进行指纹特征提取，得到指纹图像对应的指纹特征向量。

S204，确定脸部特征向量与多个指纹特征向量之间的特征相似度。

本实施例中，将脸部特征向量与多个指纹特征向量分别进行特征相似度的比较，得到脸部特征向量与多个指纹特征向量之间的特征相似度。其中，脸部特征向量与指纹特征向量之间的特征相似度越高，则脸部特征向量对应的脸部图像与指纹特征向量对应的指纹图像属于同一人物的概率越高，反之，脸部特征向量对应的脸部图像与指纹特征向量对应的指纹图像属于同一人物的概率越低。

S205，根据特征相似度，在多个指纹图像中筛选得到目标指纹图像。

本实施例中，可在多个指纹图像中，筛选出与脸部特征向量的特征相似度满足筛选条件的指纹图像，为便于区分，将该指纹特征向量称为目标指纹图像。

在一种可能的实现方式中，可从多个指纹图像中，筛选指纹特征向量与脸部特征向量的特征相似度最大的指纹图像，确定目标指纹图像为多个指纹图像中指纹特征向量与脸部特征向量的特征相似度最大的指纹图像。从而，通过筛选相似度最大的指纹图像，确保指纹图像与脸部图像属于同一人物的概率最大，提高身份识别的准确性。

在又一种可能的实现方式中，可从多个指纹图像中，筛选指纹特征向量与脸部特征向量的特性相似度最大的指纹图像，如果该指纹图像的指纹特征向量与脸部图像的脸部特征向量的特征相似度大于相似度阈值，则确定目标指纹图像为该指纹图像。从而，在筛选相似度最大的指纹图像的基础上结合相似度阈值对指纹图像进行判断，提高身份识别准确性。

S206，确定脸部图像对应的身份信息为目标指纹图像对应的身份信息。

本实施例中，在从多个指纹图像中筛选出目标指纹图像后，可确定目标指纹图像与脸部图像属于同一人物，可身份认证参考库中获取目标指纹图像对应的身份信息，确定脸部图像对应的身份信息为目标指纹图像对应的身份信息。如此，借助指纹图像，实现对脸部图像的身份识别，提高身份识别的准确性。

本申请实施例中，通过对比学习和多个训练图像组，训练得到第一图像编码器和第二图像编码器，在每个训练图像组中包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，使得在经第一图像编码器和第二图像编码器的特征提取后，属于同一人物的指纹特征向量和脸部特征向量在特征空间中更为接近，属于不同人物的指纹特征向量和脸部特征向量在特征空间中更为远离，而且提高了第一图像编码器对相似人物的脸部特征的区分能力。在身份识别过程中，通过第一图像编码器提取脸部图像对应的脸部特征向量，通过第二图像编码器提取多个指纹图像分别对应的指纹特征向量，基于脸部特征向量与多个指纹特征向量之间的特征相似度，从多个指纹图像中筛选出与脸部图像属于同一人物的目标指纹图像，确定脸部图像对应的身份信息为目标指纹图像对应的身份信息。从而，一方面，通过提高第一图像编码器对相似人物的脸部特征的区分能力，提高了身份识别的泛化能力和鲁棒性；另一方面，利用身份认证过的指纹图像，通过对比学习方式，比较不同生物特征之间的相似性或者差异性，来提高身份识别的可靠性和准确性。

在一些实施例中，还可以利用身份认证过的脸部图像，来识别指纹图像对应的身份信息。具体的，接收身份鉴别请求，身份鉴别请求中包括待进行身份识别的指纹图像；从身份认证参考库中，获取用于身份参考的多个脸部图像；通过第一图像编码器对多个脸部图像进行特征提取，得到多个脸部特征向量；通过第二图像编码器对指纹图像进行特征提取，得到指纹特征向量；确定指纹特征向量与多个脸部特征向量之间的特征相似度；根据特征相似度，在多个脸部图像中筛选得到目标脸部图像；确定指纹图像对应的身份信息为目标脸部图像对应的身份信息。具体过程可以参照前述实施例，不再赘述。

在一些实施例中，第一图像编码器为采用注意力机制的卷积神经网络，第一图像编码器包括卷积层和池化层，通过第一图像编码器对脸部图像进行特征提取，得到脸部特征，可包括：按照第一图像编码器的输入图像尺寸，对脸部图像进行尺寸调整；将调整后的脸部图像输入第一图像编码器，在第一图像编码器的卷积层中利用注意力机制对脸部图像进行特征提取，得到第一输出特征；将第一输出特征输入第一图像编码器的池化层，在池化层中对第一输出特征进行池化处理，得到脸部特征向量。从而，利用注意力机制和卷积神经网络，提高脸部特征提取的准确性，进而提高身份识别的准确性。

本实施例中，将脸部图像的图像尺寸转换为第一图像编码器的输入图像尺寸，比如，第一图像编码器的输入图像尺寸为224x224像素，将脸部图像的图像尺寸转换为224x224像素。第一图像编码器中可以包括多个卷积层，在多个卷积层中，利用注意力机制对脸部图像进行特征提取，得到第一输出特征。为了便于脸部特征向量与指纹特征向量进行匹配，脸部特征向量的向量长度与指纹特征向量的向量长度可保持一致，因此，可将第一输出特征输入至池化层中，在池化层中对第一输出特征进行池化处理，得到固定长度的脸部特征向量，从而，通过池化层实现对脸部特征向量的归一化处理。

可选的，池化层为平均池化层，在平均池化层中对第一输出特征进行平均池化，得到固定长度的脸部特征向量，从而通过平均池化提高对脸部特征归一化处理效果。

可选的，采用注意力机制的卷积神经网络可以为视觉转换器(visiontransformer，ViT)编码器，其中，ViT编码器采用自注意力机制来对输入的图像进行特征提取和编码，相比于传统的卷积神经网络，ViT编码器可以更好地捕捉图像中的全局信息和上下文关系。从而，利用ViT编码器可以提高对脸部图像进行脸部特征提取的准确性，提取更丰富的脸部特征，进而有利于提高身份识别的准确性。

本可选方式中，使用ViT编码器对人脸图像进行特征提取的步骤可包括：将脸部图像的图像尺寸转换为适合ViT编码器的尺寸，比如转换为224x224像素大小；使用ViT编码器对脸部图像进行特征提取，将人脸图像转化为一个固定长度的特征向量，即脸部特征向量。具体地，在ViT编码器中，将脸部图像通过前向传递，得到最后一层编码层的输出特征，然后将其进行平均池化，得到一个固定长度的特征向量，即脸部特征向量。

在一些实施例中，第二图像编码器为包括多个残差结构和池化层的深度残差网络，通过第二图像编码器对多个指纹图像分别进行特征提取，得到多个指纹特征向量，包括：按照第二图像编码器的输入图像尺寸，对多个指纹图像分别进行尺寸调整；针对调整后的多个指纹图像，将指纹图像输入第二图像编码器，在第二图像编码器中利用多个残差结构对指纹图像进行特征提取，得到第二输出特征；针对调整后的多个指纹图像，将第二输出特征输入第二图像编码器的池化层，在池化层中对第二输出特征进行池化，得到对应的指纹特征向量。从而，通过残差网络提高对指纹特征的提取准确性，进而提高身份识别准确性。

本实施例中，针对各个指纹图像：将指纹图像的图像尺寸转换为第二图像编码器的输入图像尺寸，比如，第二图像编码器的输入图像尺寸为224x224像素，将指纹图像图像的图像尺寸转换为224x224像素；在第二图像编码器中，通过多个残差结构对指纹图像进行特征提取，得到第二输出特征。为了便于脸部特征向量与指纹特征向量进行匹配，脸部特征向量的向量长度与指纹特征向量的向量长度可保持一致，因此，可将第二输出特征输入至池化层中，在池化层中对第二输出特征进行池化处理，得到固定长度的指纹特征向量，从而，通过池化层实现对指纹特征向量的归一化处理。

可选的，池化层为平均池化层，在平均池化层中对第二输出特征进行平均池化，得到固定长度的指纹特征向量，从而通过平均池化提高对指纹特征归一化处理效果。

可选的，深度残差网络可以为restnet50网络，restnet50网络包括多个堆叠的残差结构(又称为残差块)和池化层，具体的，该网络包括多个卷积层和池化层，并且采用了残差连接的方法来加强网络的深度和性能，在残差连接中，通过将输入特征和卷积层的输出特征进行加和，来构建更深的网络结构，提高指纹特征的提取效果。

本可选方案中，使用restnet50网络对指纹图像进行特征提取可包括如下步骤：将指纹图像转换为适合输入restnet50网络的尺寸，例如224x224像素大小；将转换后的指纹图像输入至restnet50网络；使用restnet50网络对指纹图像进行特征提取，将指纹图像转化为一个固定长度的特征向量。在restnet50网络中，可以将指纹图像通过前向传递，得到最后一层卷积层的输出特征，然后将其进行平均池化，得到一个固定长度的特征向量。

在一些实施例中，确定脸部特征向量与多个指纹特征向量之间的特征相似度，可包括：确定脸部特征向量与多个指纹特征向量之间的余弦距离，其中，余弦距离反映特征相似度，余弦距离越小则特征相似度越高，余弦距离越大则特征相似度越低。从而，通过余弦距离来表示特征相似度，提高特征相似度的准确性。

需说明，除了余弦距离还可采用其他方式判断特征相似度，比如通过特征向量中特征值的一一匹配。

下面给出第一图像编码器和第二图像编码器的训练实施例。需说明，训练过程与上述身份鉴别过程可以在相同设备上执行，也可以在不同设备上执行。

图3为本申请实施例提供的模型训练方法的流程示意图。如图3所示，模型训练方法包括如下步骤：

S301，获取训练数据，训练数据包括多个训练图像组，每个训练图像组中包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，脸部负样本图像中包括脸部正样本图像的相似图像。

其中，在各个训练图像组中，可以包括一个指纹训练图像、一个或者多个脸部正样本图像、一个或者多个脸部负样本图像。尤其地，可以包括一个脸部训练图像、一个脸部正样本图像以及多个脸部负样本图像，在多个脸部负样本图像中包括脸部正样本图像的多个相似图像，从而，通过多个相似图像提高第一图像编码器对相似脸部图像的区分能力。

本实施例中，可从数据库中，获取训练数据。其中，训练数据可预先采集并进行处理得到，在处理过程中可在多种图像中识别脸部正样本图像的相似图像，以挑选更难分类(相似度接近)的图像进入负样本队列，提高第一图像编码器对相似脸部图像的区分能力。

S302，通过训练数据和对比损失函数，对第一图像编码器和第二图像编码器进行参数调整，得到训练后的第一图像编码器和训练后的第二图像编码器。

其中，第一图像编码器用于提取脸部特征，第二图像编码器用于提取指纹特征，对比损失函数用于对同一人物的指纹图像与脸部图像之间的特征相似度进行最大化以及对不同人物的指纹图像与脸部图像之间的特征相似度进行最小化，对比损失函数可以为信息噪声对比估计损失(info noise contrastive estimation loss，InfoNCE loss)。

其中，对比学习是一种无监督学习方法，通过学习如何比较两个输入样本之间的相似度，从而将同一类别的样本特征向量聚在一起，不同类别的样本特征向量分开，利用对比学习可以无需对训练数据进行标注，降低了训练数据的采集成本。

本实施例中，可在训练数据中，选取当前次训练时使用的训练图像组，在一次训练中可以使用一个或者多个训练图像组。在每次训练中，可通过第一图像编码器和第二图像编码器，对当前次训练时使用的训练图像组中的指纹训练图像、脸部正样本图像、脸部负样本图像进行特征提取；基于提取得到的指纹特征向量和脸部特征向量，计算对比损失函数的损失值；根据损失值对第一图像编码器和第二图像编码器进行调整，实现对第一图像编码器和第二图像编码器的一次训练。如此，可对第一图像编码器和第二图像编码器进行多次训练，直至损失值小于或者等于损失阈值或者训练次数大于次数阈值。

本申请实施例中，通过对比学习方式和多个训练图像组，对第一图像编码器和第二图像编码器进行多次训练，使得经第一图像编码器和第二图像编码器提取得到的脸部特征向量、指纹特征向量满足：同一人物的指纹图像与脸部图像的特征相似度更大、不同人物的指纹图像与脸部图像的特征相似度更小；通过在训练图像组的负样本中添加正样本的相似图像，提高第一图像编码器对相似人脸的区分能力。如此，提高了利用第一图像编码器和第二图像编码器进行身份识别的准确性和鲁棒性。

在一些实施例中，第一图像编码器和第二图像编码器的一次训练过程，包括：通过第一图像编码器对脸部正样本图像进行特征提取，得到正样本特征向量；通过第一图像编码器对脸部负样本图像进行特征提取，得到负样本特征向量；通过第二图像编码器对指纹训练图像进行特征提取，得到指纹训练特征向量；基于对比损失函数、脸部负样本图像的数量、正样本特征向量和负样本特征向量，确定损失值；基于损失值对第一图像编码器和第二图像编码器进行参数调整。从而，通过第一图像编码器和第二图像编码器分别进行特征提取，基于对比损失函数、脸部负样本图像的数量、正样本特征向量和负样本特征向量，提高损失值的准确性，进而提高对第一图像编码器和第二图像编码器调整的准确性。

本实施例中，对于每个训练图像组：可将训练图像组中的脸部正样本图像输入至第一图像编码器中，在第一图像编码器中对脸部正样本图像进行特征提取，得到正样本特征向量；将训练图像组中的脸部负样本图像输入至第一图像编码器中，在第一图像编码器中对脸部负样本图像进行特征提取，得到负样本特征向量；将指纹训练图像输入至第二图像编码器中，在第二图像编码器中对指纹训练图像进行特征提取，得到指纹训练特征向量；将指纹训练特征向量、正样本特征向量、负样本特征向量和负样本图像数量输入至对比损失函数中，计算得到损失值；基于损失值对第一图像编码器和第二图像编码器进行参数调整。

可选的，损失函数可表示为：

其中，q表示指纹训练特征向量，k₊表示正样本特征向量，K_i表示第i个负样本特征向量，k表示负样本图像，τ为超参数。

在一种可能的实现方式中，脸部负样本图像为多个，负样本特征向量为多个，在基于对比损失函数、脸部负样本图像的数量、正样本特征向量和负样本特征向量，确定损失值的过程中，可确定正样本特征向量分别与各个负样本特征向量之间的特征相似度；将正样本特征向量分别与各个负样本特征向量之间的特征相似度、脸部负样本图像的数量(即负样本特征向量的数量)输入至对比损失函数中，计算得到损失值。从而，将特征相似度融入至对比损失函数中，提高损失值计算的准确性。

可选的，正样本特征向量分别与各个负样本特征向量之间的特征相似度可包括正样本特征向量分别与各个负样本特征向量之间的余弦距离，以通过余弦距离表示特征相似度，提高特征相似度的准确性。

可选的，根据余弦公式：

q·k₊可转换为：

q·k₊＝cos(a,b)·(‖a‖‖b‖)

损失函数可表示为：

可见，对于每个训练图像组，可分别使用第一图像编码器和第二图像编码器提取出指纹训练图像、脸部正样本图像和脸部负样本图像的特征向量，使用余弦距离来计算指纹训练图像与脸部正样本图像之间的特征相似度、指纹训练图像与脸部负样本图像之间的特征相似度，通过训练过程通过最小化损失值，可以将不同人物的脸部特征与指纹特征之间的相似度最大化，将同一人物的脸部特征与指纹特征之间的相似度其最小化。

在一些实施例中，脸部负样本图像中与脸部正样本图像的相似图像是通过如下方式得到的：获取图像对和脸部图像集，图像对包括指纹训练图像和脸部正样本图像，脸部图像集中包括多个负样本候选图像；通过第一图像编码器对脸部正样本图像进行特征提取，得到正样本特征向量；通过第一图像编码器对负样本候选图像进行特征提取，得到候选特征向量；确定正样本特征向量与候选特征向量的相似度；基于正样本特征向量与候选特征向量的相似度，从负样本候选图像中筛选得到脸部负样本图像。从而，通过特征向量之间的相似度来筛选出脸部正样本图像的相似图像，提高相似图像筛选的准确性。

其中，正样本特征向量与候选特征向量的相似度可以参照前述实施例中指纹特征向量与脸部特征向量之间的相似度的确定方式，不再赘述。

其中，第一图像编码器和第二图像编码器可以是预训练的，比如，通过其他任务(比如人脸识别任务、人脸检测任务)预训练第一图像编码器，通过其他任务(比如指纹识别任务)预训练第二图像编码器；第一图像编码器和第二图像编码器还可以是通过上述模型训练方法中经过一次或者多次的模型。

可选的，在第一图像编码器的训练过程中对第一图像编码器的模型参数进行调整后，通过调整后的第一图像编码器更新脸部负样本图像。从而，可以随着第一图像编码器的调整，得到更为准确的脸部负样本图像，提高脸部负样本图像筛选的准确性，提高负样本质量，也提高第一图像编码器与第二图像编码器的训练效果。

本可选方式，在通过调整后的第一图像编码器更新脸部负样本图像的过程中，可通过调整后的第一图像编码器对脸部正样本图像进行特征提取，得到正样本特征向量；通过调整后的第一图像编码器对负样本候选图像进行特征提取，得到候选特征向量；确定正样本特征向量与候选特征向量的相似度；基于正样本特征向量与候选特征向量的相似度，从负样本候选图像中筛选得到新的脸部负样本图像。

如图4所示，在训练过程中，通过脸部图像编码器(即前述实施例中的第一图像编码器)对脸部训练图像(包括脸部正样本图像和脸部负样本图像)进行特征提取，得到脸部特征向量，比如得到n个512长度的特征向量，其中包括1个脸部正样本图像对应的特征向量和n-1个脸部负样本图像对应的特征向量；通过指纹编码器(即前述实施例中的第二图像编码器)对指纹训练图像进行特征提取，得到指纹特征向量，比如得到1个512长度的特征向量。计算人脸训练图像对应的特征向量分别与指纹训练图像对应的特征向量之间的余弦距离，进而可以基于这些余弦距离计算损失值，基于损失值调整图像编码器和指纹编码器的参数，实现模型训练。

如图4所示，在应用过程中，获取待识别的脸部图像，通过脸部图像编码器对脸部图像进行特征提取，得到脸部图像对应的特征向量；从身份认证参考库中获取指纹图像，通过指纹编码器对指纹图像进行特征提取，得到指纹图像对应的特征向量；将指纹图像对应的特征向量与脸部图像对应的特征向量进行对比，得到指纹图像对应的特征向量与脸部图像对应的特征向量之间的余弦距离。基于余弦距离，从中确定与脸部图像属于同一人物的指纹图像，进而可以根据指纹图像对应的人物身份确定脸部图像对应的人物身份。

图5为本申请实施例提供的身份鉴别装置的结构示意图。如图5所示，本实施例提供的身份鉴别装置500，包括：请求接收模块501，用于接收身份鉴别请求，身份鉴别请求中包括待进行身份鉴别的脸部图像；指纹获取模块502，用于从身份认证参考库中，获取用于身份参考的多个指纹图像；脸部特征提取模块503，用于通过第一图像编码器对脸部图像进行特征提取，得到脸部特征向量；指纹特征提取模块504，用于通过第二图像编码器对多个指纹图像分别进行特征提取，得到多个指纹特征向量；相似度确定模块505，用于确定脸部特征向量与多个指纹特征向量之间的特征相似度；指纹图像筛选模块506，用于根据特征相似度，在多个指纹图像中筛选得到目标指纹图像；身份确定模块507，用于确定脸部图像对应的身份信息为目标指纹图像对应的身份信息；其中，第一图像编码器和第二图像编码器基于多个训练图像组一起训练得到，在每个训练图像组中，包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，脸部负样本图像中包括脸部正样本图像的相似图像。

在一些实施例中，第一图像编码器为采用注意力机制的卷积神经网络，第一图像编码器包括卷积层和池化层，脸部特征提取模块503具体用于：按照第一图像编码器的输入图像尺寸，对脸部图像进行尺寸调整；将调整后的脸部图像输入第一图像编码器，在第一图像编码器的卷积层中利用注意力机制对脸部图像进行特征提取，得到第一输出特征；将第一输出特征输入第一图像编码器的池化层，在池化层中对第一输出特征进行池化处理，得到脸部特征向量。

在一些实施例中，第二图像编码器为包括多个残差结构和池化层的深度残差网络，指纹特征提取模块504具体用于：按照第二图像编码器的输入图像尺寸，对多个指纹图像分别进行尺寸调整；针对调整后的多个指纹图像，将指纹图像输入第二图像编码器，在第二图像编码器中利用多个残差结构对指纹图像进行特征提取，得到第二输出特征；针对调整后的多个指纹图像，将第二输出特征输入第二图像编码器的池化层，在池化层中对第二输出特征进行池化，得到对应的指纹特征向量。

在一些实施例中，脸部负样本图像中与脸部正样本图像的相似图像是通过如下方式得到的：获取图像对和脸部图像集，图像对包括指纹训练图像和脸部正样本图像，脸部图像集中包括多个负样本候选图像；通过第一图像编码器对脸部正样本图像进行特征提取，得到正样本特征向量；通过第一图像编码器对负样本候选图像进行特征提取，得到候选特征向量；确定正样本特征向量与候选特征向量的相似度；基于正样本特征向量与候选特征向量的相似度，从负样本候选图像中筛选得到脸部负样本图像。

在一些实施例中，在第一图像编码器的训练过程中对第一图像编码器的模型参数进行调整后，通过调整后的第一图像编码器更新脸部负样本图像。

图6为本申请实施例提供的模型训练装置的结构示意图。如图6所示，本实施例提供的模型训练装置600，包括：

训练数据获取模块601，用于获取训练数据，训练数据包括多个训练图像组，每个训练图像组中包括指纹训练图像、与指纹训练图像属于同一人物的脸部正样本图像以及与指纹训练图像属于不同人物的脸部负样本图像，脸部负样本图像中包括脸部正样本图像的相似图像；

参数调整模块602，用于通过训练数据和对比损失函数，对第一图像编码器和第二图像编码器进行参数调整，得到训练后的第一图像编码器和训练后的第二图像编码器；

其中，第一图像编码器用于提取脸部特征，第二图像编码器用于提取指纹特征，对比损失函数用于对同一人物的指纹图像与脸部图像之间的特征相似度进行最大化以及对不同人物的指纹图像与脸部图像之间的特征相似度进行最小化。

在一些实施例中，在第一图像编码器和第二图像编码器的一次训练过程中，参数调整模块602具体用于：通过第一图像编码器对脸部正样本图像进行特征提取，得到正样本特征向量；通过第一图像编码器对脸部负样本图像进行特征提取，得到负样本特征向量；通过第二图像编码器对指纹训练图像进行特征提取，得到指纹训练特征向量；基于对比损失函数、脸部负样本图像的数量、正样本特征向量和负样本特征向量，确定损失值；基于损失值对第一图像编码器和第二图像编码器进行参数调整。

图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备700可以包括：至少一个处理器701和存储器702。图7示出的是以一个处理器为例的电子设备。

存储器702，用于存放处理器701的程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器702可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器701配置为用于执行存储器702存储的计算机程序，以实现以上各方法实施例中身份鉴别方法中的各步骤。

其中，处理器701可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器702既可以是独立的，也可以跟处理器701集成在一起。当存储器702是独立于处理器701之外的器件时，电子设备700，还可以包括：总线703，用于连接处理器701以及存储器702。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器702和处理器701集成在一块芯片上实现，则存储器702和处理器701可以通过内部界面完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有计算机执行指令，当电子设备的至少一个处理器执行该计算机执行指令时，电子设备执行上述的各种实施方式提供的身份鉴别方法的各个步骤。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的身份鉴别方法的各个步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种身份鉴别方法，其特征在于，包括：

从身份认证参考库中，获取用于身份参考的多个指纹图像；

2.根据权利要求1所述的身份鉴别方法，其特征在于，所述第一图像编码器为采用注意力机制的卷积神经网络，所述第一图像编码器包括卷积层和池化层，所述通过第一图像编码器对所述脸部图像进行特征提取，得到脸部特征，包括：

按照所述第一图像编码器的输入图像尺寸，对所述脸部图像进行尺寸调整；

将调整后的脸部图像输入所述第一图像编码器，在所述第一图像编码器的卷积层中利用注意力机制对所述脸部图像进行特征提取，得到第一输出特征；

将所述第一输出特征输入所述第一图像编码器的池化层，在池化层中对所述第一输出特征进行池化处理，得到所述脸部特征向量。

3.根据权利要求1所述的身份鉴别方法，其特征在于，所述第二图像编码器为包括多个残差结构和池化层的深度残差网络，所述通过第二图像编码器对所述多个指纹图像分别进行特征提取，得到多个指纹特征向量，包括：

按照所述第二图像编码器的输入图像尺寸，对所述多个指纹图像分别进行尺寸调整；

针对调整后的多个指纹图像，将指纹图像输入所述第二图像编码器，在所述第二图像编码器中利用所述多个残差结构对指纹图像进行特征提取，得到第二输出特征；

针对调整后的多个指纹图像，将所述第二输出特征输入所述第二图像编码器的池化层，在池化层中对所述第二输出特征进行池化，得到对应的指纹特征向量。

4.根据权利要求1至3中任一项所述的身份鉴别方法，其特征在于，所述脸部负样本图像中与所述脸部正样本图像的相似图像是通过如下方式得到的：

获取图像对和脸部图像集，所述图像对包括所述指纹训练图像和所述脸部正样本图像，所述脸部图像集中包括多个负样本候选图像；

通过所述第一图像编码器对所述脸部正样本图像进行特征提取，得到正样本特征向量；

通过所述第一图像编码器对所述负样本候选图像进行特征提取，得到候选特征向量；

确定所述正样本特征向量与所述候选特征向量的相似度；

基于所述正样本特征向量与所述候选特征向量的相似度，从所述负样本候选图像中筛选得到所述脸部负样本图像。

5.根据权利要求4所述的身份鉴别方法，其特征在于，还包括：

在所述第一图像编码器的训练过程中对所述第一图像编码器的模型参数进行调整后，通过调整后的第一图像编码器更新所述脸部负样本图像。

6.一种模型训练方法，其特征在于，包括：

7.根据权利要求6所述的模型训练方法，其特征在于，所述第一图像编码器和所述第二图像编码器的一次训练过程，包括：

通过所述第一图像编码器对所述脸部负样本图像进行特征提取，得到负样本特征向量；

通过所述第二图像编码器对所述指纹训练图像进行特征提取，得到指纹训练特征向量；

基于所述对比损失函数、所述脸部负样本图像的数量、所述正样本特征向量和所述负样本特征向量，确定损失值；

基于所述损失值对所述第一图像编码器和所述第二图像编码器进行参数调整。

8.根据权利要求6所述的模型训练方法，其特征在于，所述脸部负样本图像中与所述脸部正样本图像的相似图像是通过如下方式得到的：

确定所述正样本特征向量与所述候选特征向量的相似度；

9.一种身份鉴别装置，其特征在于，包括：

10.一种模型训练装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至5中任一项所述的身份鉴别方法或者如权利要求6至8中任一项所述的模型训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的身份鉴别方法或者如权利要求6至8中任一项所述的模型训练方法。