CN112926557A

CN112926557A - 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法

Info

Publication number: CN112926557A
Application number: CN202110509109.8A
Authority: CN
Inventors: 赵欲苗; 保长存; 陈智超; 户磊
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-06-08
Anticipated expiration: 2041-05-11
Also published as: CN112926557B

Abstract

本申请实施例提供一种训练多模态人脸识别模型的方法以及多模态人脸识别方法，所述训练方法包括：根据训练得到的目标彩色识别网络和所述目标深度识别网络获取多模态参考集中各类人脸图片的参考彩色识别特征和参考深度识别特征；根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型。当配对的RGB‑D人脸图片数据集较少时，通过本申请提供的自适应得分多模态人脸识别方法可以快速训练出鲁棒的多模态人脸识别模型。通过本申请一些实施例提供的方法至少可以实现当配对的RGB‑D人脸图片数据集较少时，通过自适应得分策略快速训练出鲁棒的多模态人脸识别模型。

Description

一种训练多模态人脸识别模型的方法以及多模态人脸识别方法

技术领域

本申请涉及人脸识别领域，具体而言本申请实施例涉及一种训练多模态人脸识别模型的方法以及多模态人脸识别方法。

背景技术

人脸识别技术已广泛应用于安防、金融支付、智能门禁等场景。随着应用场景的普及，且市场上对人脸识别安全系数要求越来越高，仅靠彩色信息很难在复杂场景下获得鲁棒的识别结果如复杂光照变化、人脸姿态角的变换、恶劣天气等。为了获得更多维度的数据信息，市场上出现了RGB-D相机。RGB-D相机可同时获取配准的彩色和深度信息，其深度信息表示人脸在场景中的空间几何信息。不同模态之间的信息具有互补性和冗余性，如何有效的利用不同模态之间的互补信息来弥补自身模态的缺陷，并减小模态之间冗余信息的影响成为研究多模态问题的重中之重。

本申请的发明人在研发过程中发现由于目前没有大规模公开的RGB-D训练集，构建大规模RGB-D识别训练集代价较大，因此如何在较小规模RGB-D数据集下依然可以有效学习出不同模态的互补信息成了亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种训练多模态人脸识别模型的方法以及多模态人脸识别方法，通过本申请一些实施例提供的方法至少可以实现当配对的RGB-D人脸图片数据集较少时，通过自适应得分策略快速训练出鲁棒的多模态人脸识别模型。此外，本申请一些实施例提供的阈值修正后处理方法，可以一定程度上降低不同样本类内、类间距离的差异性，其个体的错误接受的比例FAR（False Accept Rate）指标存在差异的问题，从而有效提升低误识率FAR下的通过率或称为正确接受的比例TAR（True Accept Rate），本申请实施例的后处理策略无须训练，即插即用，可快速提升人脸验证1:1的测试结果。

第一方面，本申请的一些实施例提供一种训练多模态人脸识别模型的方法，所述方法包括：根据训练得到的目标彩色识别网络和目标深度识别网络获取多模态参考集中各类人脸图片的参考彩色识别特征和参考深度识别特征；根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，其中，所述多模态人脸识别模型包括：所述目标彩色识别网络、所述目标深度识别网络、以及与所述目标彩色识别网络和所述目标深度识别网络分别连接的自适应得分决策网络，且所述自适应得分决策网络被配置为通过训练过程挖掘出自适应模态的融合权重系数。

与相关技术中多模态融合网络的融合权重系数固定的技术方案相比，本申请实施例通过训练过程可以挖掘出不同样本之间的差异性为不同质量的图片设置动态可变的融合系数，进而提升训练得到的多模态人脸识别模型的人脸识别效果。例如，针对彩色质量好、深度质量差的样本会为提取的彩色特征设置较大的融合权重，而对于深度质量好彩色质量差的样本会为提取的深度识别特征设置较大的融合权重。

在一些实施例中，所述目标彩色识别网络是根据单彩色数据训练彩色识别网络得到的；或者所述目标深度识别网络是根据单深度数据训练深度识别网络得到的；其中，所述多模态查询集和所述多模态参考集中的图片均选自于预先配对的RGB-D人脸识别数据集中，所述多模态参考集包括与各已知身份的对象对应的一张彩色图片和一张深度图片，所述多模态查询集中的图片包括与所述已知身份的对象对应的剩余的图片。

本申请的一些实施例通过小规模配对的RGB-D人脸识别数据训练多模态人脸识别模型提升了获取的人脸识别模型的人脸识别效果。

在一些实施例中，所述单彩色数据选自于人脸识别数据集，所述单深度数据选自于深度人脸识别数据集。

本申请的实施例采用采集的彩色图像数据训练（例如，即人脸识别数据集包括的彩色图像，对于RGB彩色图像包括R、G和B三通道的单彩色数据）彩色识别网络，并采用RGBD相机采集的深度图像（即单深度数据）训练深度识别网络，可以提升得到的彩色识别网络和深度识别网络的特征提取和类别识别效果。

在一些实施例中，所述多模态人脸识别模型的损失函数为：

其中，n为输入的样本数，

为彩色图像融合权重系数，

为深度图像融合权重系数，

为所述参考彩色识别特征，

为所述参考深度识别特征，

为采用所述目标彩色识别网络提取的所述多模态查询集中的彩色图片的查询彩色识别特征，

为采用所述目标深度识别网络提取的所述多模态查询集中的深度图片的查询深度识别特征，m为用于调整特征间距离的超参数（例如，m的取值为0.35）其中，所述根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，包括：根据所述损失函数确定训练过程终止，得到所述目标多模态人脸识别模型。

本申请的一些实施例通过最小化

损失函数获得最优的自适应融合得分值。

在一些实施例中，所述根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，包括：将所述多模态查询集中的彩色图片输入所述目标彩色识别网络得到查询彩色识别特征；将所述多模态查询集中的深度图片输入所述目标深度识别网络得到查询深度识别特征；将所述查询彩色识别特征和所述查询深度识别特征输入所述自适应得分决策网络，得到本次训练挖掘出的融合权重系数；根据所述参考彩色识别特征和所述查询彩色识别特征得到彩色相似度距离；根据所述参考深度识别特征和所述查询深度识别特征得到深度相似度距离；根据所述融合权重系数、所述彩色相似度距离和所述深度相似度距离得到本次训练预测的所述多模态查询集中的图片的分类结果。

本申请的一些实施例通过引入自适应得分决策网络可以挖掘出融合权重系数的取值，进而提升根据融合特征进行身份识别的准确性。

在一些实施例中，所述根据所述参考彩色识别特征和所述查询彩色识别特征得到彩色相似度距离，包括：根据所述参考彩色识别特征和所述查询彩色识别特征得到彩色余弦相似度距离；或者所述根据所述参考深度识别特征和所述查询深度识别特征得到深度相似度距离，包括：根据所述参考深度识别特征和所述查询深度识别特征得到深度余弦相似度距离。

本申请的一些实施例通过彩色余弦相似度距离和深度余弦相似度距离对输入的人脸图像进行身份识别，提升了数据处理的速度。

在一些实施例中，所述融合权重系数包括彩色图像融合权重系数

和深度图像融合权重系数

，其中，所述根据所述融合权重系数、所述彩色相似度距离和所述深度相似度距离得到本次训练预测的所述多模态查询集中的图片的分类结果，包括：根据所述彩色图像融合权重系数

和所述深度图像融合权重系数

，对所述彩色相似度距离和所述深度相似度距离加权求和，得到融合相似度距离；根据所述融合相似度距离得到所述分类结果。

本申请的一些实施例通过自主学习融合权重系数得到融合相似度距离，进而根据融合相似度距离进行人脸身份识别，提升了身份识别的准确性。

在一些实施例中，所述多模态人脸识别模型还包括分类器，其中，所述分类器通过所述彩色相似度距离、所述深度相似度距离和所述自适应得分决策网络挖掘得到的融合权重系数得到所述查询集中的各图片的预测分类结果。

本申请的一些实施例通过分类器获取人脸身份的分类结果。

在一些实施例中，当采用所述目标彩色识别网络、所述目标深度识别网络和所述多模态人脸识别模型进行人脸验证时，所述人脸识别模型的融合相似度距离与第N近的距离相关，其中，N为大于或等于2的整数。

本申请的一些实施例采用阈值修正的方法，得到一个较为一致的类内和类间距离分布，进而降低个体的FAR指标方差，提高低误识率FAR下的通过率TAR值。

在一些实施例中，所述N为2，所述融合相似度距离的计算公式为：

其中，disf表征所述距离修正后的融合相似度距离，dis表征得分决策加权融合相似度距离，top₂（dis）表征第二近距离。

本申请的一些实施在进行人脸验证测试时，通过计算多模态测试查询集的图片和注册机入库图片之间的欧氏距离。这里一般默认注册机每个类入库一张图片，例如，将测试查询集中的每个图片与注册机入库图片之间的距离减去该测试查询集与注册机入库所有图片之间第二小的距离即top₂（dis），这种方法一定程度上可将简单、难样本对的类内、类间距离分布修正到相对同一幅度下。

第二方面，本申请的一些实施例提供一种多模态人脸识别的方法，所述方法包括：输入一张或多张包含未确定身份的人脸图像；根据上述第一方面中任一实施例所述方法获取的所述目标多模态人脸识别模型和若干已知身份的人脸图像识别所述未确定身份的人脸图像对应的对象的身份。

第三方面，本申请的一些实施例提供一种多模态人脸识别网络，所述多模态人脸识别网络包括：目标彩色识别网络，被配置为采集至少一个已知身份的人脸图片的彩色识别特征或者采集待识别身份的人脸图片的彩色识别特征；目标深度识别网络，被配置为采集所述至少一个已知身份的人脸图片的深度识别特征或者采集所述待识别身份的人脸图片的深度识别特征；自适应得分决策网络，被配置为根据所述彩色识别特征和所述深度识别特征进行拼接，并挖掘出目标彩色识别网络和所述目标深度识别网络的得分决策融合值；分类器，被配置为根据确定的融合权重系数识别所述待识别身份的对象的身份信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的多模态人脸识别的方法的应用场景示意图；

图2为本申请实施例提供的训练多模态人脸识别模型的方法流程图之一；

图3为本申请实施例提供的训练多模态人脸识别模型的方法流程图之二；

图4为本申请实施例提供的获取目标彩色识别网络的流程图；

图5为本申请实施例提供的获取目标深度识别网络的流程图；

图6为本申请实施例提供的拆分小规模配对多模态数据集得到多模态参考集和多模态查询集的示意图；

图7为本申请实施例提供的获取参考彩色识别特征和参考深度识别特征的示意图；

图8为本申请实施例提供的训练多模态人脸识别模型的组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

相关技术的多模态信息融合方案包括两种：特征层面融合和得分融合。特征层面融合主要可以分为两部分，一种是对彩色（color_fea）和深度（depth_fea）的识别特征embedding进行处理，如多个模态识别特征求平均（0.5*color_fea+0.5*depth_fea）、使用1*1卷积对识别特征进行融合（conv1*1[color_fea，depth_fea]）、对多模态特征进行拼接concat，后使用全连接层进行特征映射到原始维度。一种是对彩色和深度模型的中间特征进行处理，如使用注意力机制学习其它模态的互补信息并与本模态的特征进行融合。但是该方法一般需要大量配对的RGB-D数据进行训练，才能获得较好的多模态识别模型。

得分融合是对彩色识别模型（即RGB识别模型）和深度识别模型（即Depth识别模型）的权重进行融合。相关技术的融合方法主要有两种，一是对两个模态计算出的特征距离进行平均，一是对两个模态的特征距离进行加权融合，如：

，其中

和

分别为测试查询集中彩色图片、深度图片与注册机入库的彩色图片、深度图片识别特征之间的欧氏距离，权重

由经验值给出。本申请的发明人在研究的过程汇总发现该融合方式（即加权融合）忽视了不同样本之间的差异性，因此本申请的实施例提供了一种新的多模态人脸识别模型，通过本申请实施例的多模态人脸识别模型可以达到：针对彩色质量好、深度质量差的样本设置较大的

，而对于深度质量好彩色质量差的样本应该设置较小的

。

本申请的发明人在研究过程中还发现人脸验证方法，主要采用搜索阈值获得不同误识率FAR下的通过率TAR值。通过观察发现其简单样本类内距离小、类间距离大，难样本类内距离大、类间距离较小。通过固定阈值搜索获得TAR@FAR的值，忽视了不同样本类内、类间距离分布的差异性导致个体FAR指标的差异。如某些样本在个体某个阈值下可有效区分类内和类间，但是由于类内距离较大，其在总体测试下，只有在较高FAR阈值下才认为其识别正确，从而导致在较低误识率FAR下，其识别通过率TAR的值较低，影响用户的体验感。

也就是说，相关技术的人脸识别还存在如下缺陷：对小规模的RGB-D多模态训练数据，不能训练出鲁棒的多模态人脸识别模型，或者对已现存较好地单模态识别模型，无法快速迁移到多模态识别上，并获得鲁棒的多模态人脸识别模型。对测试时不同样本类内、类间距离分布的差异性，导致个体误识率FAR指标存在差异的问题。如某些样本在个体某个阈值下可有效区分类内和类间，但是由于类内距离较大，其在总体测试下，只有在较高far阈值下才认为其识别正确，从而导致在较低误识率FAR下，其识别通过率TAR的值较低，影响用户的体验感。针对上述问题，本申请的一些实施例提出了自适应得分和阈值修正多模态人脸识别方法和对应的网络模型，在获得鲁棒的多模态人脸识别模型同时，进一步提升1:1人脸验证结果。本申请一些实施例提供的自适应得分和阈值修正多模态人脸识别方法，包括数据预处理、彩色深度识别模型训练，自适应得分多模态识别模型构建和阈值修正测试。

请参看图1，图1为本申请的一些实施例提供多模态人脸识别的方法的应用场景，在图1的人脸识别系统中包括：深度相机（或称为RGB-D相机）100以及服务器200，其中，深度相机100被配置为采集需要进行身份识别的对象的人脸图片，得到该对象人脸的彩色图像和深度图像；服务器200倍配置为接收来自于深度相机100拍摄的待识别的彩色图像和深度图像300，并依据数据库中已经存储的身份已知的对象的图片来识别待识别的彩色图像和深度图像300对应的对象的身份。在本申请的一些实施例中，服务器200采用已经训练完成的目标多模态人脸识别模型识别对象的身份，对于训练多模态人脸识别模型得到目标多模态人脸识别模型的过程可以参考下文描述为避免重复在此不做过多赘述。

深度相机100包括单目结构光的深度相机、双目结构光的深度相机等，本申请的实施例不限定深度相机的具体类型。

需要说明的是，图1的服务器200可以对输入的待识别的彩色图像和深度图像进行1:1人脸验证和1:N人脸识别，其中，1:1人脸验证即将待识别的图片和对象声称的身份对应的数据库中的图像进行1:1的比对，其身份验证模式本质上是计算机对当前人脸与人像数据库进行快速人脸比对，并得出是否匹配的过程；1:N人脸识别即系统采集了“我”的一张照片之后，从海量的人像数据库中找到与当前使用者人脸数据相符合的图像，并进行匹配，找出来“我是谁”。

可以理解的是，人脸识别(Facial Recognition)，即通过视频采集设备获取用户的面部图像，再利用相关的算法对其脸部的五官位置、脸型和角度进行计算分析，进而和自身数据库里已有的范本进行比对，从而判断出用户的真实身份。人脸识别算法，在检测到人脸并定位面部关键特征点之后，主要的人脸区域就可以被裁剪出来，经过预处理之后，馈入后端的识别算法。识别算法要完成人脸特征的提取，并与库存的已知人脸进行比对，完成最终的分类。人脸识别算法的原理：系统输入一张或者一系列含有未确定身份的人脸图像，以及人脸数据库中的若干已知身份的人脸图像或者相应的编码，而其输出则是一系列相似度得分，表明待识别的人脸的身份。

为了使得图1的服务器200能够对输入的待识别的彩色图像和深度图像进行人脸识别需要对服务器200上设置的多模态人脸识别模型进行训练，以得到目标多模态人脸识别模型。

下面示例性阐述本申请一些实施例的训练多模态人脸识别模型的过程。

为了进行多模态人脸识别模型的训练需要预先获取多个数据集，本申请一些实施例的数据集包括三部分：人脸识别数据集（或称为人脸彩色识别数据集，该数据集包括多副身份已知的人脸彩色图像）、深度人脸识别数据集（即多副身份已知的人脸深度图像）和小规模配对的RGB-D人脸识别数据（即多副身份已知的RGB-D人脸识别数据）。

当获取到多个数据集后需要对数据集中的数据进行预处理才能将这些数据输入多模态人脸识别模型对其进行训练。作为一个示例，首先通过人脸检测网络获取人脸框，根据返回的人脸框，将其边界框的宽和高扩大至原始的若干倍（例如，1.5倍）进行裁剪，裁剪后的图片送入到人脸关键点检测网络，获取关键点的位置（例如，获取左眼、右眼、鼻子，右嘴尖，左嘴尖五个关键点的位置）。对所有数据集处理完成后，本申请的一些实施例将获得裁剪后的人脸图片和多个关键点位置。为了扩充数据集的多样性，本申请的一些实施例会对现有的训练集进行数据增广，彩色数据增广主要通过随机裁剪、随机灰度化、随机水平翻转、人脸关键点随机抖动。深度数据增广主要通过随机视角变换、关键点抖动，此外，根据人脸检测算法反馈的人脸五个关键点位置，对裁剪后的人脸图片进行仿射变换，进行人脸矫正。最后将矫正后的人脸进行裁剪成224*224大小，并对裁剪后的数据进行标准化即减均值操作。至此，数据的预处理工作完成，得到的数据可以进行模型训练。

如图2所示，本申请的一些实施例提供一种训练多模态人脸识别模型的方法，该方法包括：S110，根据训练得到的目标彩色识别网络和目标深度识别网络获取多模态参考集中各类人脸图片的参考彩色识别特征和参考深度识别特征；S120，根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，其中，所述多模态人脸识别模型包括：所述目标彩色识别网络、所述目标深度识别网络、以及与所述目标彩色识别网络和所述目标深度识别网络分别连接的自适应得分决策网络，且所述自适应得分决策网络被配置为通过训练过程挖掘出自适应模态的融合权重系数。可以理解的是，目标多模态人脸识别模型与多模态人脸识别模型的网络结构相同，也就是说，目标多模态人脸识别模型包括：所述目标彩色识别网络、所述目标深度识别网络、以及与所述目标彩色识别网络和所述目标深度识别网络分别连接的自适应得分决策网络。

如图3所示，本申请的一些实施例提供一种训练多模态人脸识别模型的方法，所述方法包括：S310，根据单彩色数据训练彩色识别网络得到目标彩色识别网络；S320，根据单深度数据训练深度识别网络得到目标深度识别网络；S330，根据所述目标彩色识别网络和所述目标深度识别网络获取多模态参考集中各类人脸图片的参考彩色识别特征和参考深度识别特征；S340，根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，其中，所述多模态人脸识别模型包括：所述目标彩色识别网络、所述目标深度识别网络、以及与所述目标彩色识别网络和所述目标深度识别网络分别连接的自适应得分决策网络，且所述自适应得分决策网络被配置为通过训练过程挖掘出自适应模态的融合权重系数。

下面示例性阐述上述各步骤。

如图4所述，S310涉及的根据单彩色数据训练彩色识别网络得到目标彩色识别网络包括，将人脸识别数据包括的单色彩数据（例如，对于人脸识别数据为RGB彩色图像时，包括R通道、G通道和B通道的三种单色彩数据）输入彩色识别网络210，对彩色识别网络210进行模型训练得到目标彩色识别网络220。

如图5所述，S320涉及的根据单深度数据训练深度识别网络得到目标深度识别网络包括，将深度人脸识别数据包括的单深度数据输入深度识别网络310，对深度识别网络310进行模型训练得到目标深度识别网络320。

可以理解的是，训练彩色识别网络210和深度识别网络310的过程还需要结合损失函数来判断训练过程是否可以结束，当确定训练过程可以结束时就得到了目标彩色识别网络220和目标深度识别网络320。

作为一个示例，将对应于人脸识别数据的彩色的单模态数据（例如，RGB图片的像素数据）记为

，其中

表示彩色人脸裁剪图片，

表示人脸图像对应的身份的具体类别。将深度单模态数据（即单深度数据）记为

，其中

表示深度人脸裁剪图片，

表示深度人脸图像对应的身份的具体类别。彩色人脸识别模型（即彩色识别网络）记为

、深度人脸识别模型模型（即深度识别网络）记为

。首先使用单模态大规模的彩色数据、深度数据分别训练彩色人脸识别模型和深度人脸识别模型，其中，彩色人脸识别模型的损失函数记为

，深度人脸识别模型的损失函数记为

，作为一个示例，这两个损失函数的具体计算公式如下所示：

（1）

（2）

其中，m值由经验给出（例如，m设置为0.35），通过最小化损失函数，和大量单模态数据的训练，最终将获得鲁棒的单模态彩色的目标彩色识别网络和目标深度识别网络的模型。

为了训练多模态人脸识别模型需要预先处理小规模配对的彩色和深度RGB-D人脸识别数据，需要说明的是，小规模配对的彩色和深度RGB-D人脸识别数据是通过相机的两个摄像头（一个是深度相机、一个是彩色相机），同时对同一对象拍摄并输出的图片，即对同一对象的一张深度图片，一张彩色图片，即图片拍照的内容都一样就是输出模式不一样，一个是彩色的图片，一个是深度的图片。在本申请的一些实施例中，将RGB-D人脸识别数据拆分为两部分，一部分记为多模态查询

，另一部分记为多模态参考集

，其中

表示彩色人脸数据，

表示深度数据，

为识别标签。其中每个类（即每个已知的身份）选择一个配对的RGB-D图片对构成多模态参考集，剩下的全部作为多模态查询集。

例如，小规模配对的RGBD数据集包括A、B、C、D和E共5个已知身份的人脸的图片，且小规模配对的RGBD数据集包括A对象10张彩色图片和10张深度图片，B对象的5张彩色图片和5张深度图片、C对象的3张彩色图片和3张深度图片、D对象的4张彩色图像和4张深度图片以及E对象的6张彩色图片和6张深度图片。将小规模配对的RGBD数据集拆分为两部分，也就是说，从小规模配对的RGBD数据集中取出A对象、B对象、C对象、D对象以及E对象的各一张彩色图片和深度图片组成多模态参考集，而将小规模配对的RGBD数据集中剩余的所有图片作为多模态查询集中的图片。可以理解的是，多模态查询集中包括A对象9张彩色图片和9张深度图片，B对象的4张彩色图片和4张深度图片、C对象的2张彩色图片和2张深度图片、D对象的3张彩色图像和3张深度图片以及E对象的5张彩色图片和5张深度图片。

具体地，如图6所示，拆分小规模配对多模态数据集得到多模态参考集410以及多模态查询集420。之后，再基于多模态参考集410以及多模态查询集420训练多模态人脸识别模型。

下面示例性阐述根据多模态参考集410以及多模态查询集420训练多模态人脸识别模型的过程。

如图7所示，S330包括将拆分小规模配对的RGB-D人脸识别数据得到的多模态参考集410中包括的彩色图像（或者彩色图像）输入目标彩色识别网络220提取到各图像（即各对象）的参考彩色识别特征510，并将多模态参考集410中包括的深度图像输入目标深度识别网络320提取到各图像（即各对象）参考深度识别特征520。

在介绍S340的训练过程之前首先结合图8示例性阐述多模态人脸识别模型的网络结构。

如图8所示，本申请一些实施例的多模态人脸识别模型包括：目标彩色识别网络220、目标深度识别网络320、自适应得分决策网络610、第一相似度获取模块620、第二相似度获取模块630以及分类器660。

下面结合图8示例性阐述S340训练多模态人脸识别模型的过程。

在一些实施例中，S340包括：将多模态查询集420中的一张或多张彩色图片输入目标彩色识别网络220得到与各彩色图像对应的查询彩色识别特征640；将多模态查询集420中的深度图片输入目标深度识别网络320得到与各图像对应的查询深度识别特征650；将查询彩色识别特征640和查询深度识别特征650输入自适应得分决策网络610，得到本次训练挖掘出的融合权重系数；根据参考彩色识别特征510和查询彩色识别特征640得到彩色余弦相似度距离；根据参考深度识别特征520和查询深度识别特征650得到深度余弦相似度距离；根据本次训练挖掘出的融合权重系数、彩色相似度距离和深度相似度距离得到本次训练预测的多模态查询集中的至少部分图片的分类结果，获取图8的预测身份识别结果。本申请的一些实施例通过引入自适应得分决策网络可以挖掘出融合权重系数的取值，进而提升根据融合特征进行身份识别的准确性。

例如，本次训练挖掘出的融合权重系数包括彩色图像融合权重系数

和深度图像融合权重系数

，其中，所述根据本次训练挖掘出的融合权重系数融合权重系数、所述彩色相似度距离和所述深度相似度距离得到本次训练预测的所述多模态查询集中的图片的分类结果，包括：根据所述彩色图像融合权重系数

和所述深度图像融合权重系数

在一些实施例中，图8的分类器660通过彩色相似度距离、深度相似度距离和自适应得分决策网络挖掘得到的融合权重系数得到所述查询集中的各图片的预测分类结果。

下面结合图8和本申请一些实施例提供的损失函数示例性阐述训练图8的多模态人脸识别网络得到目标多模态人脸识别网络的过程。

由于前面已采用大规模单模态数据进行识别训练，故当前的彩色识别模型（即图8 的目标彩色识别网络220）和深度识别模型（即图8的目标深度识别网络320）均已具备较好地识别能力。为了快速训练并得出自适应多模态得分权重，本阶段固定上阶段（即S310和 S320）已训练好的彩色识别模型（即图4训练得到的目标彩色识别网络）和深度识别模型（即图5训练得到的目标深度识别网络）的权重。采用当前彩色识别模型和深度识别模型分别提取多模态参考集X _gallery和多模态查询集X _probe图片对的特征并分别记为各图片的参考彩色识别特征F _gc、参考深度识别特征F _gd、查询彩色识别特征F _pc、查询深度识别特征F _pd，并引入自适应得分attention结构（即图8的自适应得分决策网络610），该自适应得分决策网络610可以自适应学习两个模态的融合权重

、

。作为一个示例，自适应得分决策网络610的具体构造如下：将网络输出的彩色特征和深度特征进行拼接，然后连接全连接层，输出维度为 2（即输出对应两个模态的融合权重系数

和

），并对输出结果进行softmax。

,表示X _probe和X _gallery图片对的余弦相似度。

表示多模态得分决策融合后的余弦相似度，本申请的一些实施例通过最小化如下的L _fused损失函数（即多模态人脸识别模型额损失函数）获得最优的自适应融合得分值：

(3)

至此，自适应得分多模态训练步骤完成，训练完成后就代表，自适应得分决策网络可以有效地挖掘出不同模态的融合权重。需要说明的是，自适应得分值输出就是

和

的值。损失函数目的是采用自适应权重对不同模态相似度距离进行融合后，保证其分类的结果要尽可能的正确。如果分类损失大，就代表分类的不好，分类损失小，代表分类的好，通过最小化损失函数可以获得最优的融合权重值。

在识别测试的时候，本申请的一些实施例，首先提取测试集中注册机入库的图片记为多模态参考集gallery的特征，然后将多模态测试查询集（或称为probe）中的图片输入到多模态识别网络中获得610对应的多模态人脸识别框架获得融合权重

、

和彩色、深度识别特征，最终gallery和probe图片对的距离为

，其中

表示彩色查询集的图片与注册机入库彩色图片对之间的欧氏距离，

为深度查询集中的图片与注册机入库的深度图片对之间的欧氏距离。

针对测试时不同样本类内、类间距离分布的差异性，导致个体的FAR指标存在差异。某些样本在个体某个阈值下可有效区分类内和类间，但是由于类内距离较大，其在总体测试下，只有在较高far阈值下才认为其识别正确，从而导致在较低误识率FAR下，其识别通过率TAR的值较低。本申请的一些实施例采用阈值修正的方法，得到一个较为一致的类内和类间距离分布。进而降低个体的FAR指标方差，提高低误识率FAR下的通过率TAR值。针对测试集中注册机每个类入库一张图片。首先，计算彩色查询集probe和注册机彩色入库图片 gallery之间的距离，然后计算深度查询集probe和注册机深度入库图片gallery之间的距离，通过自适应得分决策融合分数，将两者的距离进行加权融合得到距离dis。对每一个查询集的图片减去其第二近的距离记为top₂（dis），这种方法可将简单、难样本对的类内、类间距离分布修正到相对同一幅度下。例如，具体计算公式如下所示

，其中，disf表征所述距离修正后的融合相似度距离，dis表征得分决策加权融合相似度距离，top₂（dis）表征第二近距离。参数

表示修正的幅度，一般由经验值给出，例如，

默认为1。此时dis距离会出现小于0的值，为了克服该问题，本申请的一些实施例还通过映射函数将其距离映射到[0,4]区间范围内，即

。最后将f(dis)代替原始的dis进行固定阈值搜索，提升1:1人脸验证低误识率FAR下的通过率TAR值。

也就是说，在本申请的一些实施例中，所述目标彩色识别网络、所述目标深度识别网络和所述多模态人脸识别模型均为人脸验证模型，其中，所述人脸验证模型的融合相似度距离与第N近的距离相关，其中，N为大于或等于2的整数。例如，所述N为2，所述融合相似度距离的计算公式为：

其中，disf表征人脸验证时，距离修正后的测试查询集中的某一图片彩色、深度分别与注册机入库彩色、深度图片对之间的欧氏距离通过自适应得分决策网络输出的权重值进行加权融合后的值，top₂（dis）表征测试查询集中的某一图片彩色、深度分别与注册机所有入库彩色、深度图片对之间的欧氏距离通过自适应得分决策网络输出的权重值进行加权融合后的值的第二近距离。也就是说，当采用所述目标彩色识别网络、所述目标深度识别网络和所述多模态人脸识别模型进行人脸验证时，可通过测试查询集中的图片与所有注册机入库图片之间的第N近距离来调整查询集中的图片与注册机入库图片之间的距离。其中，N为大于或等于2的整数。

本申请的一些实施例通过计算多模态查询集probe和多模态参考集gallery之间的距离，并默认其top₁（即第一近距离）识别正确，第二近距离top₂距离即为反例对类间的距离，将该类的所有图片对距离减去top₂的距离，这种方法可将简单、难样本对的类内、类间距离分布修正到相对同一幅度下。

本申请的一些实施例提供一种多模态人脸识别的方法，所述方法包括：输入一张或多张包含未确定身份的人脸图像；根据上述训练过程得到的目标多模态人脸识别模型和若干已知身份的人脸图像识别所述未确定身份的人脸图像对应的对象的身份。

如图8所示，本申请的一些实施例提供一种多模态人脸识别网络，所述多模态人脸识别网络包括：目标彩色识别网络220，被配置为采集至少一个已知身份的人脸图片的彩色识别特征或者采集待识别身份的人脸图片的彩色识别特征；目标深度识别网络320，被配置为采集所述至少一个已知身份的人脸图片的深度识别特征或者采集所述待识别身份的人脸图片的深度识别特征；自适应得分决策网络610，被配置为根据所述查询彩色识别特征和所述查询深度识别特征进行拼接，并挖掘出所述目标彩色识别网络和所述目标深度识别网络的得分决策融合值；分类器660，被配置为根据确定的融合权重系数识别所述待识别身份的对象的身份信息。

需要说明的是，针对自适应得分决策网络610：在训练时，采用得分决策输出的值，将多模态数据集中查询彩色识别特征与参考集彩色识别特征之间的余弦相似度距离、与其对应的查询深度识别特征与参考集深度识别特征之间的余弦相似度距离进行加权融合。然后采用所述的多模态人脸识别模型的损失函数进行训练，获得鲁棒的自适应得分决策网络；在测试时，将多模态测试查询集中的图片输入到多模态识别网络，获取查询集彩色识别特征、深度识别特征和自适应模态融合权重。将注册机入库图片输入到多模态识别网络，获得入库图片彩色识别特征、深度识别特征。采用自适应融合权重将查询集与注册机入库图片彩色、深度特征的欧氏距离进行加权融合，获得最终的决策融合距离。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述多模态人脸识别网络的具体工作过程，可以参考前述实施例中的对应描述，为避免重复在此不再过多赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种训练多模态人脸识别模型的方法，其特征在于，所述方法包括：

根据训练得到的目标彩色识别网络和目标深度识别网络获取多模态参考集中各类人脸图片的参考彩色识别特征和参考深度识别特征；

根据多模态查询集中的图片、所述参考彩色识别特征和所述参考深度识别特征训练多模态人脸识别模型，得到目标多模态人脸识别模型，其中，所述多模态人脸识别模型包括：所述目标彩色识别网络、所述目标深度识别网络、以及与所述目标彩色识别网络和所述目标深度识别网络分别连接的自适应得分决策网络，且所述自适应得分决策网络被配置为通过训练过程挖掘自适应模态的融合权重系数。

2.如权利要求1所述的方法，其特征在于，

所述目标彩色识别网络是根据单彩色数据训练彩色识别网络得到的；或者

所述目标深度识别网络是根据单深度数据训练深度识别网络得到的；

其中，所述多模态查询集和所述多模态参考集中的图片均选自于预先配对的RGB-D人脸识别数据集中，所述多模态参考集包括与各已知身份的对象对应的一张彩色图片和一张深度图片，所述多模态查询集中的图片包括与所述已知身份的对象对应的剩余的图片。

3.如权利要求1-2任一项所述的方法，其特征在于，所述多模态人脸识别模型的损失函数为：