CN115131858A

CN115131858A - 模型训练方法、人脸识别方法、电子设备及存储介质

Info

Publication number: CN115131858A
Application number: CN202210735739.1A
Authority: CN
Inventors: 胡长胜; 浦煜; 何武; 付贤强; 朱海涛; 户磊
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-30

Abstract

本发明实施例涉及人脸识别领域，公开了一种模型训练方法、人脸识别方法、电子设备及存储介质。模型训练方法包括：构建从人脸图像样本中提取人脸特征的特征提取模型；特征提取模型的相邻网络层之间设置有注意力机制模块；注意力机制模块用于根据相邻网络层中前一网络层输出的第一特征图形成权重矩阵，将第一特征图采用权重矩阵处理后的第二特征图输出到相邻网络层中后一网络层；将第一特征图采用与权重矩阵互补的权重矩阵处理后的第三特征图作为输入，构建特征分类模型，特征分类模型的输出为影响人脸图像样本身份识别的预设信息类别；对特征提取模型和特征分类模型进行联合训练。

Description

模型训练方法、人脸识别方法、电子设备及存储介质

技术领域

本发明实施例涉及人脸识别领域，特别涉及一种模型训练方法、人脸识别方法、电子设备及存储介质。

背景技术

随着人脸识别技术的发展和落地，对人脸识别系统的要求也越来越高，比如在戴口罩、戴眼镜、配饰遮挡、人脸化妆、光照影响等各种面容变化情况下的人脸精准识别。目前对于各种因素造成的人脸面容变化的人脸识别，通常有两种方法：第一种，配合式检测，即首先判断人脸完整性，如检测到人脸信息不完整时，通过提示（左转，右转，低头，抬头，摘下口罩，调整帽子等），引导人脸调整到符合识别条件的状态再进行识别。第二种，非配合式检测，即构建人脸识别模型，然后根据当前人脸识别场景切换到不同的识别模型进行识别。

但第一种方法需要用户配合调整为正常的、适合检测的人脸，不能直接对各场景下的人脸图像进行识别，适用场景有限且用户体验较差。第二种方法数据采集成本高、训练时间长，需要多个不同场景的人脸识别模型协同解决不同面容变化情况下的人脸识别，使得总的识别模型复杂性较高、泛化能力有限。

发明内容

本发明实施方式的目的在于提供一种模型训练、人脸识别方法、电子设备及存储介质，基于蒸馏损失、第一分类损失和第二分类损失对设置有注意力机制模块的特征提取模型和特征分类模型进行联合训练，使得得到的特征提取模型对眼镜，姿态，光照，妆容和人脸配饰等改变面容却不改变身份的影响因素的鲁棒性更好，且模型更加轻量、泛化能力更好。

为解决上述技术问题，本发明的实施方式提供了一种模型训练方法，包括：构建从人脸图像样本中提取人脸特征的特征提取模型；所述特征提取模型的相邻网络层之间设置有注意力机制模块；所述注意力机制模块用于根据所述相邻网络层中前一网络层输出的第一特征图形成权重矩阵，将所述第一特征图采用所述权重矩阵处理后的第二特征图输出到所述相邻网络层中后一网络层；将所述第一特征图采用与所述权重矩阵互补的权重矩阵处理后的第三特征图作为输入，构建特征分类模型，所述特征分类模型的输出为影响所述人脸图像样本身份识别的预设信息类别；互补的两个权重矩阵为同型矩阵，且对应元素的和为1；对所述特征提取模型和所述特征分类模型进行联合训练，所述联合训练的损失函数基于已训练好的教师模型输出的人脸特征与所述特征提取模型输出的人脸特征之间的蒸馏损失、所述特征提取模型输出的人脸特征经分类器输出的预测人脸类别对应的第一分类损失，以及所述特征分类模型输出的预测信息类别所对应的第二分类损失构建。

为解决上述技术问题，本发明的实施方式提供了人脸识别方法，包括：将待测人脸图像输入到已训练好的特征提取模型中，得到待测人脸图像的人脸特征；其中，所述特征提取模型通过如上所述的模型训练方法获取；根据所获取的所述人脸特征对所述待测人脸图像进行识别，获取识别结果。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的人脸识别方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的残缺人脸识别方法。

本发明实施方式提供的模型训练方法，基于蒸馏损失、第一分类损失和第二分类损失对设置有注意力机制模块的特征提取模型和特征分类模型进行联合训练，训练时特征提取模型的输入为人脸图像样本，输出为人脸特征，特征分类模型的输入为采用与第二特征图的权重矩阵互补的同型矩阵处理得到的第三特征图，输出为影响人脸图像样本身份识别的预设信息类别，也就是说，本申请通过特征提取模型提取与人脸图像样本身份识别相关的人脸特征，通过特征分类模型提取并识别影响人脸图像样本身份识别的特征和特征所属类别（比如：眼镜、配饰、刘海、口罩、人脸姿态、光照、化妆），在联合训练过程中，通过蒸馏损失、第一分类损失和第二分类损失使得特征提取模型对与身份识别相关的特征和影响身份识别的特征之间的分类界限学习地更加准确，从而提高了特征提取模型对眼镜、配饰、刘海、口罩、人脸姿态、光照、化妆等改变面容却不改变身份的影响因素的鲁棒性，且由于特征提取模型是与教师模型和特征分类模型进行联合训练，模型复杂度更低、泛化能力更好。

另外，本发明实施方式提供的模型训练方法，位于所述特征提取模型的多组的相邻网络层之间设置有多个所述注意力机制模块，所述特征分类模型包括与所述注意力机制模块一一对应的多个处理模块以及一个融合网络和一个预测网络；每个所述注意力机制模块将对应的所述第一特征图，采用与该注意力机制模块生成的所述权重矩阵互补的权重矩阵处理后的所述第三特征图输入到对应的所述处理模块，得到相同预设尺寸的第四特征图；将各所述处理模块输出的所述第四特征图输入到所述融合网络得到融合特征图；将所述融合特征图输入至所述预测网络，得到所述人脸图像样本对应的所述信息类别。本申请的特征分类模型包括与多个注意力机制模块一一对应的多个处理模块、一个融合网络和一个预测网络，通过特征分类模型对影响身份识别的特征进行多标签学习，在联合训练过程中使得特征提取模型输出的人脸特征只与个人身份信息高度相关，减少其他因素对身份识别的影响。

另外，本发明实施方式提供的模型训练方法，所述联合训练包括：第一阶段联合训练和第二阶段联合训练；对所述特征提取模型和所述特征分类模型进行所述第一阶段联合训练时，所述蒸馏损失的权重大于所述第一分类损失的权重、且所述第一分类损失的权重大于所述第二分类损失的权重；对所述特征提取模型和所述特征分类模型进行所述第二阶段联合训练时，所述第一分类损失的权重大于所述第二分类损失的权重、且所述第二分类损失的权重大于所述蒸馏损失的权重。本申请在第一阶段联合训练时将蒸馏损失的权重设置为最大，以此来提升初始训练阶段的网络收敛速度，使得特征提取模型具备初始的特征提取能力。第二阶段将第一分类损失的权重设置为最大、第二分类损失的权重设置为次大，以此来让特征提取模型朝着第一分类损失和第二分类损失共同作用的方向优化，使得特征提取模型对眼镜、配饰、刘海、口罩、人脸姿态、光照、化妆等改变面容却不改变身份的影响因素的鲁棒性更好、且泛化能力更好。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的实施方式提供的模型训练方法的流程图；

图2是本发明的实施方式提供的特征提取模型训练过程示意图；

图3是本发明的实施方式提供的人脸识别方法的流程图；

图4是本发明的实施方式的提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

下面对本实施方式的模型训练的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节，并非实施本方案的必须。

本发明的实施方式涉及一种模型训练方法，如图1所示，包括：

步骤101，构建从人脸图像样本中提取人脸特征的特征提取模型；特征提取模型的相邻网络层之间设置有注意力机制模块；注意力机制模块用于根据相邻网络层中前一网络层输出的第一特征图形成权重矩阵，将第一特征图采用权重矩阵处理后的第二特征图输出到相邻网络层中后一网络层。

本实施例中，特征提取模型主要基于提取模块和注意力机制模块构建，提取模块包括多个各种类型的网络块级联，如ResidulNet-Block（残差网络中的网络块）、DenseNet-Block（卷积神经网络中的网络块），也就是说，本申请可以基于各种类型网络中特征提取部分的网络来构建提取模块的网络架构，提取模块用于从人脸图像样本中提取第一特征图，注意力机制模块连接于提取模块之后，用于对第一特征图的各个通道设置相应权重，得到第二特征图，而第一特征图各个通道的权重构成了权重矩阵。注意力机制模块的网络结构可以是SENet网络中的Squeeze-and-Excitation（SE模块）、Convolutional BlockAttention Module（CBAM模块）、Pyramid Split Attention Module（PSA模块）等等现有注意力机制网络架构中的任何一种。

需要说明的是，本实施例只描述了特征提取模型中起主要作用和具有创造性的模块，但不代表不包含用于协助提取模块和注意力机制模块完成特征提取的其他模块或网络层，如激活层、池化层、全连接层、批规范化层等等。

步骤102，将第一特征图采用与权重矩阵互补的权重矩阵处理后的第三特征图作为输入，构建特征分类模型，特征分类模型的输出为影响人脸图像样本身份识别的预设信息类别；互补的两个权重矩阵为同型矩阵，且对应元素的和为1。

本实施例中，通过注意力机制模块给第一特征图F的每个通道设置一个权重W得到第二特征图F+（即F*W=F+），并将第二特征图输入到后一网络层中，以此在训练过程中让后续网络所提取的特征更加与人脸识别任务高度相关（即提取与身份信息高度相关的特征），同时，将第一特征图采用与权重矩阵互补的权重矩阵处理后的第三特征图F-（即F*(1-W)=F-）输入到特征分类模型，以此来让特征分类模型对与人脸识别任务低相关的特征（即与人脸身份信息无关的特征）进行多标签学习。

具体地，影响人脸图像样本身份识别的预设信息可以包括戴眼镜、化妆、光照、人脸姿态、刘海、配饰等等。当然，在将人脸图像样本输入到特征提取模型中进行训练之前，需要对每一个人脸图像进行标注得到带有标签信息的人脸图像，标签信息包括身份信息和预设信息（即影响人脸图像身份识别的信息或与身份信息无关的信息）。身份信息可以是人脸五官信息、人脸骨骼信息、虹膜信息等等。

比如：影响人脸图像样本身份识别的预设信息包含眼镜、化妆和配饰时，预先规定标签信息的设置规则为戴眼镜标为1、不带眼镜标为0，化妆标为1、不化妆标为0，戴配饰为1、不带配饰为0，而人脸图像A中的人脸戴眼镜、没有化妆且戴有配饰，则人脸图像A的标签信息为101。当然，标签信息的具体表示方法和设置规则可以根据识别需要灵活调整设置。另外，对人脸图像进行标注的方法可以是人工标注，也可以通过机器学习自动标注，本申请在此不做赘述。

在一实施例中，将所述第一特征图采用所述权重矩阵处理包括：对第一特征图中各个通道的特征图采用权重矩阵中与各通道对应的权重系数进行处理，得到第二特征图；将所述第一特征图采用与所述权重矩阵互补的权重矩阵处理，包括：对第一特征图中各个通道的特征图采用互补的权重矩阵中与各通道对应的权重系数进行处理，得到第三特征图。

本实施例中，权重矩阵中权重系数的数量与第一特征图的通道数相等，比如：假设第一特征图的通道数为6，则对第一特征图处理得到第二特征图的权重矩阵为[0.8，0.75，0.7，0.3，0.2，0.6]，则对第一特征图处理得到第三特征图的权重矩阵为[0.2，0.25，0.3，0.7，0.8，0.4]，其中，每一个权重系数对应一个通道，权重系数大表示该通道的特征与人脸识别任务高度相关（即与身份信息高度相关），权重系数小表示该通道的特征与人脸识别任务的相关性较小（即影响了人脸图像的身份识别）。

步骤103，对特征提取模型和特征分类模型进行联合训练，联合训练的损失函数基于已训练好的教师模型输出的人脸特征与特征提取模型输出的人脸特征之间的蒸馏损失、特征提取模型输出的人脸特征经分类器输出的预测人脸类别对应的第一分类损失，以及特征分类模型输出的预测信息类别所对应的第二分类损失构建。

本实施例中，教师模型实质是一种已训练好的、完备的特征提取模型，一般来说教师模型比作为学生模型的特征提取模型规模更大，更为复杂、训练时间更长。教师模型的网络结构可以是vision transformer结构、传统的CNN结构、ResidulNet网络等等能用于特征提取的任何一种网络结构。

可以理解的是，目前的人脸识别系统或模型通常是将待测人脸图像提取的人脸特征与系统中存储的人脸特征进行比较，确定待测人脸图像的身份。但若待测人脸面容发生变化很有可能导致待测人脸图像提取的人脸特征与系统中存储的人脸特征对比失败。比如：待测人脸换了发型、剃了胡子、戴了眼睛、待测人脸图像为大角度姿态等等场景，都会造成现有的人脸识别系统准确率下降、甚至于无法识别。因此，需要一种特征提取模型只提取与身份信息高度相关的特征，如此才能保证后续人脸识别时不受与身份识别无关的信息影响。与身份信息高度相关的特征可以是人脸五官特征、人脸骨骼结构、眼睛的虹膜特征等等。

本申请在对特征提取模型和特征分类模型进行联合训练的过程中，通过蒸馏损失让特征提取模型输出的人脸特征与教师模型输出的人脸特征尽可能接近，通过第一分类损失让特征提取模型输出的人脸特征经分类器输出的预测人脸类别与该人脸图像的真实人脸类别尽可能接近，通过第二分类损失让特征分类模型输出的预测信息类别与该人脸图像的真实信息类别尽可能接近。

也就是说，本申请通过教师模型和蒸馏损失让特征提取模型快速具备初始的特征提取能力，通过特征分类模型、第一分类损失和第二分类损失让特征提取模型更准确地学习与身份识别相关的特征和影响身份识别的特征之间的分类界限，从而使得最终获取的人脸特征只与能代表个人身份的因素高度相关。

换言之，特征提取模型的训练过程可以理解为既通过表示身份信息的标签直接监督训练，又通过表示预设信息（影响身份识别的信息）的标签间接监督训练，两者联合使得人脸特征更加鲁棒、减少其他因素的干扰。

在又一实施例中，位于特征提取模型的多组的相邻网络层之间设置有多个注意力机制模块，特征分类模型包括与注意力机制模块一一对应的多个处理模块以及一个融合网络和一个预测网络；将第一特征图采用与权重矩阵互补的权重矩阵处理后的第三特征图作为输入，以影响人脸图像样本身份识别的预设信息类别作为输出，构建特征分类模型，包括：每个注意力机制模块将对应的第一特征图，采用与该注意力机制模块生成的权重矩阵互补的权重矩阵处理后的第三特征图输入到对应的所述处理模块，得到相同预设尺寸的第四特征图；将各处理模块输出的第四特征图输入到所述融合网络得到融合特征图；将融合特征图输入至所述预测网络，得到人脸图像样本对应的所述信息类别。

在本实施例中，如图2所示，特征提取模型可以包括多个提取模块和多个注意力机制模块，特征分类模型中处理模块与注意力机制模块一一对应。可以理解的是，多个提取模块之间为级联形式，级联的越多，越能提取到深层次的特征，因此，不同提取模块输出的特征图的尺寸不同。以图3的特征提取模型为例，假设人脸图像的尺寸为224*224，第一个提取模块输出的特征图的尺寸为28*28，第二个提取模块输出的特征图的尺寸为14*14，即不同层次的特征图，尺寸不同，浅层特征图的尺寸大，深层次特征图的尺寸小。因此，在对不同尺寸的特征图进行融合或拼接之前，需要处理模块将多个不同尺寸的第三特征图进行尺寸统一，得到相同预设尺寸的第四特征图，然后各个处理模块将第四特征图输入到融合网络得到融合特征图，预测网络对融合特征图进行处理得到对应的预设信息类别。

具体地，处理模块包括：3*3卷积层、批规范化层、RELU层、全局平均池化层、1*1卷积层和全连接层。

另外，需要注意的是，注意力机制模块的位置与特征提取模型的输入、特征提取模型的结构高度相关，并不具有唯一性。图3所示的特征提取模型只是一个示例性的结构。在图2中224*224的输入人脸下，最优添加位置依次是在28*28，14*14，7*7大小的特征图模块最后一个级联网络块之后，考虑到网络浅层的特征提取能力较弱，不建议在56*56或者更大的特征图后接入注意力机制模块，否则可能会影响多标签分类的效果。

在又一实施例中，联合训练包括：第一阶段联合训练和第二阶段联合训练；对特征提取模型和特征分类模型进行第一阶段联合训练时，蒸馏损失的权重大于第一分类损失的权重、且第一分类损失的权重大于第二分类损失的权重；对特征提取模型和特征分类模型进行第二阶段联合训练时，第一分类损失的权重大于第二分类损失的权重、且第二分类损失的权重大于蒸馏损失的权重。

具体地说，联合损失函数=第一权重*蒸馏损失+第一权重*第一分类损失+第三权重*第二分类损失，第一阶段训练时，蒸馏损失的权重大于第一分类损失的权重、且第一分类损失的权重大于第二分类损失的权重，其目的是通过加入蒸馏损失使网络快速收敛,具备初始的特征提取能力。第一分类损失可以采用arcface_loss，cosface_loss等。

第二阶段训练时，第一分类损失的权重大于第二分类损失的权重、且第二分类损失的权重大于蒸馏损失的权重，需要注意的是，此时特征提取模型所输出的人脸特征与教师模型输出的人脸特征存在较大差异，为了不降低联合训练的有效性，本阶段应将蒸馏损失的权重大幅降低，甚至于可以将蒸馏损失的权重设置为0，让网络朝着第一分类损失和第二分类损失共同作用的方向优化。

进一步地，本实施例蒸馏损失通过如下公式构建：

其中，y_i为教师模型输出的人脸特征，y_i ^*为特征提取模型输出的人脸特征，N为人脸图像样本的数量。

进一步地，第一分类损失通过如下公式构建：

其中，p_im表示所述分类器输出的人脸特征所属各人脸类别的预测概率，y_im为人脸特征所属各人脸类别的真实概率，k表示人脸类别的类别数。

进一步地，第二分类损失通过以下公式构建:

其中，N表示所述样本人脸图像的数量，K表示所述预设信息的类别数，p_ic表示第i个人脸图像样本属于所述预设信息类别c的预测概率，y_ic为第i个人脸图像样本属于所述预设信息类别c的真实概率。

本发明的实施方式涉及一种人脸识别方法，如图3所示，包括：

步骤301，将待测人脸图像输入到已训练好的特征提取模型中，得到待测人脸图像的人脸特征；其中，特征提取模型通过如上实施方式所述的模型训练方法获取。

本实施例中，待测人脸图像可以是任何场景下的人脸图像。通过上述训练方法获取的特征提取模型对眼镜，姿态，光照，妆容和人脸配饰等改变面容却不改变身份的影响因素的鲁棒性更好，提取的人脸特征只与能代表个人身份的因素高度相关，如此提高了人脸识别系统的准确率和攻击安全性。

步骤302，根据所获取的所述人脸特征对所述待测人脸图像进行识别，获取识别结果。

具体地说，在提取出人脸特征后，将人脸特征输入到已训练好的人脸分类器中即可识别人脸图像，并获取识别结果。人脸分类器可以是最近邻分类器、线性分类器等等，具体分类器的模型结构在此不做限定。

本实施方式提供的人脸识别方法，由于人脸特征对眼镜，姿态，光照，妆容和人脸配饰等改变面容却不改变身份的影响因素的鲁棒性更好，因此提高了人脸识别系统的准确率和攻击安全性；且整个模型复杂程度低，参数量小，具有普适性，尤其是对于嵌入式平台部署的人脸识别轻量型模型更加友好。另外，本申请的模型不仅可以用于人脸识别任务，也可以迁移到其他人脸相关任务，如活体检测方法等。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的实施方式涉及一种电子设备，如图4所示，包括：

至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行如上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的人脸识别方法。

该电子设备包括：一个或多个处理器401以及存储器402，图4中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器402中。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述模型训练方法，或人脸识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器402中，当被一个或者多个处理器401执行时，如上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的人脸识别方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本发明的实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

构建从人脸图像样本中提取人脸特征的特征提取模型；所述特征提取模型的相邻网络层之间设置有注意力机制模块；所述注意力机制模块用于根据所述相邻网络层中前一网络层输出的第一特征图形成权重矩阵，将所述第一特征图采用所述权重矩阵处理后的第二特征图输出到所述相邻网络层中后一网络层；

将所述第一特征图采用与所述权重矩阵互补的权重矩阵处理后的第三特征图作为输入，构建特征分类模型，所述特征分类模型的输出为影响所述人脸图像样本身份识别的预设信息类别；互补的两个权重矩阵为同型矩阵，且对应元素的和为1；

对所述特征提取模型和所述特征分类模型进行联合训练，所述联合训练的损失函数基于已训练好的教师模型输出的人脸特征与所述特征提取模型输出的人脸特征之间的蒸馏损失、所述特征提取模型输出的人脸特征经分类器输出的预测人脸类别对应的第一分类损失，以及所述特征分类模型输出的预测信息类别所对应的第二分类损失构建。

2.根据权利要求1所述的模型训练方法，其特征在于，位于所述特征提取模型的多组的相邻网络层之间设置有多个所述注意力机制模块，所述特征分类模型包括与所述注意力机制模块一一对应的多个处理模块以及一个融合网络和一个预测网络；

所述将所述第一特征图采用与所述权重矩阵互补的权重矩阵处理后的第三特征图作为输入，构建特征分类模型，包括：

每个所述注意力机制模块将对应的所述第一特征图，采用与该注意力机制模块生成的所述权重矩阵互补的权重矩阵处理后的所述第三特征图输入到对应的所述处理模块，得到相同预设尺寸的第四特征图；

将各所述处理模块输出的所述第四特征图输入到所述融合网络得到融合特征图；

将所述融合特征图输入至所述预测网络，得到所述人脸图像样本对应的所述预设信息类别。

3.根据权利要求1或2所述的模型训练方法，其特征在于，所述联合训练包括：第一阶段联合训练和第二阶段联合训练；对所述特征提取模型和所述特征分类模型进行所述第一阶段联合训练时，所述蒸馏损失的权重大于所述第一分类损失的权重、且所述第一分类损失的权重大于所述第二分类损失的权重；

对所述特征提取模型和所述特征分类模型进行所述第二阶段联合训练时，所述第一分类损失的权重大于所述第二分类损失的权重、且所述第二分类损失的权重大于所述蒸馏损失的权重。

4.根据权利要求1或2所述的模型训练方法，其特征在于，

所述将所述第一特征图采用所述权重矩阵处理包括：

对所述第一特征图中各个通道的特征图采用所述权重矩阵中与各通道对应的权重系数进行处理，得到所述第二特征图；

所述将所述第一特征图采用与所述权重矩阵互补的权重矩阵处理，包括：

对所述第一特征图中各个通道的特征图采用所述互补的权重矩阵中与各通道对应的权重系数进行处理，得到所述第三特征图。

5.根据权利要求1所述的模型训练方法，其特征在于，所述蒸馏损失通过如下公式构建：

其中，y_i为所述教师模型输出的人脸特征，y_i ^*为所述特征提取模型输出的人脸特征，N为所述人脸图像样本的数量。

6.根据权利要求1所述的模型训练方法，其特征在于，所述第一分类损失通过如下公式构建：

其中，p_im表示所述分类器输出的所述人脸特征所属各人脸类别的预测概率，y_im为所述人脸特征所属各人脸类别的真实概率，k表示所述人脸类别的类别数。

7.根据权利要求1所述的模型训练方法，其特征在于，所述第二分类损失通过以下公式构建:

8.一种人脸识别方法，其特征在于，包括：

将待测人脸图像输入到已训练好的特征提取模型中，得到待测人脸图像的人脸特征；其中，所述特征提取模型通过如上权利要求1至7中任一项所述的模型训练方法获取；

根据所获取的所述人脸特征对所述待测人脸图像进行识别，获取识别结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的模型训练方法，或者能够执行如权利要求8所述的人脸识别方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的模型训练方法，或者实现如权利要求8中所述的人脸识别方法。