CN113505768A

CN113505768A - 模型训练、人脸识别方法、电子设备及存储介质

Info

Publication number: CN113505768A
Application number: CN202111058717.8A
Authority: CN
Inventors: 颜茂春; 户磊; 朱海涛; 付贤强; 何武
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-10-15

Abstract

本发明实施例涉及图像处理领域，公开了一种模型训练、人脸识别方法、电子设备及存储介质，其中模型训练方法包括：获取人脸的红外图样本和红外图样本的标签数据；将所述红外图样本输入至特征提取网络，得到不同尺寸的特征图；将所述不同尺寸的特征图输入至特征融合网络，得到特征融合图；将所述特征融合图输入至输出网络，得到预测数据；基于所述标签数据和所述预测数据构建的第一损失函数对所述特征提取网络、所述特征融合网络和所述输出网络组成的联合网络模型进行训练，获得训练完成的所述联合网络模型。本方案通过采用质量较高的红外图进行人脸识别模型的训练，从而提高人脸识别率。

Description

模型训练、人脸识别方法、电子设备及存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种模型训练、人脸识别方法、电子设备及存储介质。

背景技术

目前，人脸识别技术已经广泛应用于各类电子系统，如门禁系统、卡口系统、电子护照、公安、银行自助系统、信息安全等。但在人脸识别过程中容易产生误识别的情况，亦无法适用于无光照的情形，如何提高识别率就显得尤为重要。

现有的人脸检测技术的人脸质量评价多使用彩色人脸图像的角度、清晰度、光照对比度、眼睛状态、嘴巴状态等进行质量评价以便于提高后续的人脸识别准确率。这种方法的问题在于零光照或强光照、正常佩戴口罩等情况被认为质量低而无法送入后续人脸识别，无法适用于黑夜及佩戴口罩的场景下。

发明内容

本发明实施方式的目的在于提供一种模型训练、人脸识别方法、电子设备及存储介质，通过采用质量较高的红外图进行人脸识别模型的训练，从而提高人脸识别率。

为解决上述技术问题，本发明的实施方式提供了一种模型训练方法，包括：

获取人脸的红外图样本和所述红外图样本的标签数据，所述标签数据包括标签关键点坐标的第一二维高斯热图和标签关键点的遮挡状态；

将所述红外图样本输入至特征提取网络，得到不同尺寸的特征图；

将所述不同尺寸的特征图输入至特征融合网络，得到特征融合图；

将所述特征融合图输入至输出网络，得到预测数据，所述预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图；

基于所述标签数据和所述预测数据构建的第一损失函数对所述特征提取网络、所述特征融合网络和所述输出网络组成的联合网络模型进行训练，获得训练完成的所述联合网络模型。

本发明的实施方式还提供了一种人脸识别方法，包括：

采用如上所述的模型训练方法训练形成的联合网络模型对输入的人脸的红外图进行识别处理，得到预测数据；所述预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图；

将所述预测关键点坐标与所述预测关键点坐标偏移相叠加，得到所述红外图中的关键点坐标，并将所述预测关键点的遮挡状态作为所述红外图中的关键点的遮挡状态。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的模型训练方法，或者所述的人脸识别方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的模型训练方法，或者所述的人脸识别方法。

本发明实施方式相对于现有技术而言，将人脸的红外图样本和红外图样本的标签数据作训练数据集，其中标签数据包括标签关键点坐标的第一二维高斯热图和标签关键点的遮挡状态；然后依次将红外图样本输入至特征提取网络，得到不同尺寸的特征图；将不同尺寸的特征图输入至特征融合网络，得到特征融合图；将特征融合图输入至输出网络，得到预测数据，该预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图；最后，基于标签数据和预测数据构建的第一损失函数对特征提取网络、特征融合网络和输出网络组成的联合网络模型进行训练，从而获得训练完成的联合网络模型。由于该联合网络模型是基于高质量的人脸红外图训练而成，在进行人脸识别时，可以产生较高的匹配率并能覆盖无光照情景，从而提高人脸识别率。

附图说明

图1是根据本发明实施方式的模型训练方法的具体流程图；

图2是根据本发明实施方式的标签关键点位置的示意图；

图3是根据本发明实施方式的特征提取过程的具体流程图；

图4是根据本发明实施方式的特征融合过程的具体流程图；

图5是根据本发明实施方式的人脸识别方法的具体流程图；

图6是根据本发明实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的一实施方式涉及一种模型训练方法，如图1所示，本实施例提供的模型训练方法，包括如下步骤。

步骤101：获取人脸的红外图样本和红外图样本的标签数据，标签数据包括标签关键点坐标的第一二维高斯热图和标签关键点的遮挡状态。

具体地，可通过红外图像拍摄设备如红外相机、红外扫描仪等获取包含人脸的红外图作为训练样本。标注红外图样本中能够体现人脸五官特征的预设数量的关键点作为标签关键点，确定标签关键点在红外图上的坐标。针对每个标签关键点坐标生成对应的二维高斯热图，记为第一二维高斯热图。同时，标记每个标签关键点坐标的遮挡状态。将标签关键点对应的第一二维高斯热图和标签关键点的遮挡状态作为相应红外图样本的标签数据。

在一个例子中，可通过如下步骤获取红外图样本的标签数据。

步骤1：对红外图样本进行全覆盖标注，得到n个标签关键点。

具体地，可对红外图样本中的人脸区域采用50个顺序关键点的全覆盖标注方式确定标签关键点坐标（此时n为50）。相比于68个关键点、98个关键点或5个关键点的标注方式，本发明采用的标注方式覆盖脸部区域更全面、均匀，即合理的减少了算法的计算量又兼顾了遮挡区域覆盖的全面性。具体标签关键点坐标位置如图2所示。

步骤2：采用如下公式（1）对各标签关键点的坐标进行转换，形成n幅第一二维高斯热图。

………………………（1）

其中，（x，y）为所述第一二维高斯热图中的坐标值，（x _i，y _i）为第i个标签关键点的坐标，sigma为形状系数。

此外，标签关键点坐标的遮挡状态可采用序列长度为50的序列值进行标注，其中，序列值0，1分别表示该标签关键点坐标无遮挡与有遮挡。

利用这样的方式处理，可将单个红外图样本转化为n幅第一二维高斯热图，n个标签关键点的遮挡状态。将所有训练样本按批次转化合成为训练数据集，该训练数据集中包括：红外图样本、红外图样本对应的n幅第一二维高斯热图和n个标签关键点的遮挡状态（后两个数据作为红外图样本的标签数据）。

此外，为了丰富训练数据集中的训练样本，在本步骤之后，还可对训练样本进行数据增广。

在一个例子中，可对红外图样本和红外图样本的标签数据进行数据增广，并利用增广后的数据执行后续联合网络模型的训练过程；其中，数据增广的方式包括以下方式中的至少一种：图像亮度调整、图像对比度调整、高斯噪声处理、高斯模糊处理、随机裁剪和随机遮挡。

其中，所有数据增广方式应以遵循丰富训练样本，不破坏人脸轮廓和结构为原则。

接着，将训练数据集通过预先构建的联合网络模型进行训练学习，以得到用于人脸识别的联合网络模型。本实施例中的联合网络模型包括三部分网络结构：特征提取网络、特征融合网络和输出网络。以下通过步骤102~步骤104分别对这三部分网络结构的数据处理过程进行说明。

步骤102：将红外图样本输入至特征提取网络，得到不同尺寸的特征图。

具体地，特征提取网络可采用卷积神经网络，如轻量级的Mobilenet结构对红外图样本进行不同深度尺寸的特征图的提取。

为了进一步提高网络推理速度，可在执行本步骤之前，对红外图样本的图像尺寸进行归一化，获得第一特征图。例如将输入的红外图样本的特征尺寸归一化为112*112，同时网络深度也可以在Mobilenet结构的基础上限制在原来的1/4。然后，将第一特征图作为红外图样本输入至特征提取网络，并获取不同深度层输出的不同图像尺寸的第二特征图。

例如，当特征提取网络采用卷积神经网络时，可利用不同卷积深度的卷积层执行卷积处理得到不同卷积深度不同尺寸的特征图。例如对于初始尺寸为112*112的第一特征图，经不同卷积深度的卷积层的卷积处理后，可分别输出四个特征x1、x2、x3、x4的第二特征图：x1尺寸为28*28*8、x2尺寸为14*14*8、x3尺寸为7*7*24、x4尺寸为4*4*80。其中，尺寸的前两项为图像尺寸，最后一项为卷积深度。以x1尺寸为28*28*8为例，28*28为图像尺寸，8为卷积深度。这四组尺寸的第二特征图基本覆盖了局部和整体的红外图的特征，足以应对本实施例中的任务所需。

步骤103：将不同尺寸的特征图输入至特征融合网络，得到特征融合图。

具体地，特征融合网络可采用卷积神经网络。通过将上一步骤中得到的不同尺寸的特征图输入至特征融合网络进行融合，得到特征融合图。该特征融合图中涵盖了局部和整体的红外图的特征，通过这种特征重用和旁路设置，在一定程度上缓解了梯度消失和模型退化问题的产生。

在一个例子中，如图3所示，提供了一种特征融合的具体实现方法。假设待融合的第二特征图的数量为m，该特征融合方法包括如下步骤。

步骤1031：按图像尺寸从小到大的顺序对m个第二特征图进行排序，以排序中首个第二特征图作为当前特征图执行如下融合操作（融合操作包括步骤1032~1034）。

例如，将上述获取的四个特征的x1、x2、x3、x4的第二特征图按图像尺寸从小到大进行排序：x4尺寸4*4*80、x3尺寸7*7*24、x2尺寸14*14*8、x1尺寸28*28*8。并将其中图像尺寸最小的特征图x4尺寸4*4*80作为当前特征图进行如下融合处理。

步骤1032：对当前特征图进行反卷积，使当前特征图的图像尺寸与排序中下一个第二特征图的尺寸相同。

具体地，例如上述排序中与x4尺寸4*4*80相邻的下一个第二特征图的尺寸为x3尺寸7*7*24，因此，可将x4尺寸4*4*80通过反卷积得到7*7图像尺寸的特征图。具体操作为：将x4进行反卷积，步长为(2,2)，64个卷积核大小为(3,3)，不使用填充获得尺寸为7*7*64的特征图。

步骤1033：将经反卷积后的当前特征图与下一个第二特征图进行融合，得到中间融合图。

具体地，例如将上述经反卷积后得到的尺寸为7*7*64的特征图与排序中下一个第二特征图，即x3尺寸7*7*24的特征图进行图像融合得到中间融合图，该中间融合图中涵盖x4、x3的图像特征。

在一个例子中，为了较好实现不同卷积深度的特征图之间的融合，可以限定反卷积的输出卷积深度为第一卷积深度，例如均设置为64的卷积深度。相应地，在将经反卷积后的当前特征图与下一个第二特征图进行融合，得到中间融合图时，可通过如下步骤实现。

步骤1：将下一个第二特征图采用1*1卷积核进行卷积处理，得到卷积深度为第一卷积深度的中间特征图。

具体地，采用1*1卷积核进行卷积处理可以保持下一个第二特征图的图像尺寸不变的情况下，仅改变输出特征图的卷积深度。在本实施例中统一设置该卷积深度为上述第一卷积深度，从而使得待融合的当前特征图与下一个第二特征图具有相同的卷积深度，方便融合。

例如，将x3的特征图进行1*1卷积核，步长为1，输出64卷积深度的卷积处理，获得7*7*64的中间特征图。

步骤2：将经反卷积后的当前特征图与中间特征图进行融合，得到中间融合图。

具体地，例如，将经反卷积后得到的尺寸为7*7*64的特征图与采用1*1卷积核进行卷积处理后的下一个第二特征图的中间特征图（尺寸为7*7*64）进行融合，从而得到尺寸为7*7*64的中间融合图。

步骤1034：判断中间融合图中是否涵盖最后一个第二特征图；如果是，则执行步骤1035，将中间融合图作为特征融合图；如果否，则将中间融合图作为下一个当前特征图，继续执行融合操作。

具体地，在得到中间融合图后，先判断该中间融合图中是否涵盖最后一个第二特征图。如果判断结果为是，则表征所有第二特征图已全部完成相互融合，可将融合后的中间融合图确定为最终的特征融合图，特征融合过程结束；如果判断结果为否，则表征至少还有最后一个第二特征图没有完成融合，此时，可将当前得到的中间融合图作为下一个当前特征图，继续执行上述步骤1032~1034的融合操作。

例如，在上述得到尺寸为7*7*64的中间融合图后，可继续将7*7*64的中间融合作为下一个当前特征图与排序中的下一个第二特征图（x2尺寸14*14*8）的中间特征图（尺寸为14*14*64）进行特征融合，得到尺寸为14*14*64的中间融合图；将14*14*64的中间融合图作为下一个当前特征图与排序中的下一个第二特征图（x1尺寸28*28*8）的第二特征图的中间特征图（尺寸为28*28*64）进行特征融合，得到尺寸为28*28*64的中间融合图。将尺寸为28*28*64的中间融合图作为最终的特征融合图。

步骤104：将特征融合图输入至输出网络，得到预测数据，预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图。

具体地，将通过特征融合获得的特征融合图输入至输出网络进行学习训练，获得学习任务的三个关键结果，包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图。

其中，预测关键点坐标与预测关键点坐标偏移叠加后，可还原原始红外图中的关键点坐标，还原过程中还应考虑图像尺寸的变化。预测关键点的遮挡状态即为预测的原始红外图中的关键点的遮挡状态。

在一个例子中，标签关键点的数量为n；输出网络包含第一卷积子网络、第二卷积子网络和第三卷积子网络，且均采用1*1卷积核，依次对应的输出卷积深度为n、2n和n。相应地，如图4所示，将特征融合图输入至输出网络，得到预测数据包括如下步骤。

步骤1041：将特征融合图输入至第一卷积子网络，得到n个预测关键点坐标对应的n幅第二二维高斯热图。

例如，当标签数据包括的标签关键点数量为50时，可对上述获取的尺寸为28*28*64的特征融合图进行1*1卷积核，步长为1，输出50卷积深度的卷积处理，获得28*28*50的第二二维高斯热图。50幅第二二维高斯热图分别作为50个预测关键点坐标的学习结果。

步骤1042：将特征融合图输入至第二卷积子网络，得到n个预测关键点对应的2n幅预测关键点坐标偏移的特征图。

例如，当标签数据包括的标签关键点数量为50时，可对上述获取的尺寸为28*28*64的特征融合图进行1*1卷积核，步长为1，输出100卷积深度的卷积处理，获得28*28*100的预测关键点坐标偏移的特征图。100幅特征图分别作为50个预测关键点坐标在X方向和Y方向的坐标偏移的学习结果。

步骤1043：将特征融合图输入至第三卷积子网络，得到n个预测关键点对应的n幅预测关键点的遮挡状态特征图。

例如，当标签数据包括的标签关键点数量为50时，可对上述获取的尺寸为28*28*64的特征融合图进行1*1卷积核，步长为1，输出50卷积深度的卷积处理，获得28*28*50的预测关键点的遮挡状态特征图。50幅遮挡状态特征图分别作为50个预测关键点是否被遮挡的学习结果。

步骤105：基于标签数据和预测数据构建的第一损失函数对特征提取网络、特征融合网络和输出网络组成的联合网络模型进行训练，获得训练完成的联合网络模型。

具体地，本实施例中的第一损失函数是基于关键点坐标损失、关键点坐标偏移损失和关键点遮挡损失中的至少一项损失构建而成。以下将对各项损失进行详细说明。

关键点坐标损失L_hm通过如下公式计算：

………………………（2）

其中，a为平衡正负样本的比例系数，e为调节简单样本权重降低的速率因子，y为标签关键点坐标、y ^’为预测关键点坐标。

输出网络输出的第二二维高斯热图中关键点位置坐标为正样本，其他位置坐标都是负样本。以输出尺寸为28*28*64的第二二维高斯热图为例，每个关键点生成的热图正负样本比是1/27，是极度不均衡的。因此，本实施例采用了Focal loss来解决这种正负样本严重失衡的问题。a作为平衡正负样本的比例系数，其值可取0.25，e为调节简单样本权重降低的速率因子，其值可取2。如此，可使正负样本更均衡，且难分类样本的权重得到提高，易分类样本的权重被降低。

关键点坐标偏移损失SmoothL ₁ (x)通过如下公式计算：

………………………（3）

其中，x为预测关键点坐标偏移量。

采用Smooth L₁ loss计算损失，可以加快收敛速度，另外由于对离群点、异常值不敏感，造成的梯度变化相对更小。

关键点遮挡损失L通过如下公式计算：

………………………（4）

其中，y为标签关键点遮挡状态、y ^’为预测关键点遮挡状态。

遮挡损失属于二分类问题，只需要使用简单的交叉熵损失即可。

此外，为提高联合网络模型的人脸识别效果，在本实施例中的输出网络中还增加了针对人脸面部状态的两个学习任务：戴口罩状态和眼睛状态。

具体地，在标签数据中还包括标签面部状态：标签面部状态包括戴口罩状态和眼睛状态。其中，用两个序列长度的值表示左右眼的眼睛状态，0表示睁眼，1表示闭眼，2表示眼睛被遮挡；用一个长度的序列表示戴口罩状态，值0表示未佩戴口罩，1表示佩戴口罩。

相应地，上述输出网络中还包括两个全连接层；上述步骤102之后还可包括如下步骤。

步骤1：将不同尺寸的特征图中最小尺寸的特征图分别输入至两个全连接层中，得到预测面部状态，预测面部状态包括预测的戴口罩状态和眼睛状态。

其中，利用最小尺寸的特征图进行面部状态学习可以降低学习复杂度。

具体地，可通过将最小尺寸的特征图输入至一个全连接层，该全连接层的输出为戴口罩状态，来学习红外图中人脸戴口罩的面部状态。通过将最小尺寸的特征图输入至另一个全连接层，该全连接层的输出为眼睛状态，来学习红外图中人脸眼部的面部状态。

步骤2：基于标签面部状态和预测面部状态构建的第二损失函数对特征提取网络、特征融合网络和输出网络组成的联合网络模型进行训练，获得训练完成的联合网络模型。

其中，第二损失函数可基于戴口罩损失和眼睛遮挡损失和眼睛状态损失构建。

这三种损失均属于二分类问题，只需要使用简单的交叉熵损失即可，可参考公式（4），在此不做赘述。

与相关技术相比，本实施例将人脸的红外图样本和红外图样本的标签数据作训练数据集，其中标签数据包括标签关键点坐标的第一二维高斯热图和标签关键点的遮挡状态；然后依次将红外图样本输入至特征提取网络，得到不同尺寸的特征图；将不同尺寸的特征图输入至特征融合网络，得到特征融合图；将特征融合图输入至输出网络，得到预测数据，该预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图；最后，基于标签数据和预测数据构建的第一损失函数对特征提取网络、特征融合网络和输出网络组成的联合网络模型进行训练，从而获得训练完成的联合网络模型。由于该联合网络模型是基于高质量的人脸红外图训练而成，在进行人脸识别时，可以产生较高的匹配率并能覆盖无光照情景，从而提高人脸识别率。

此外，本实施例中，针对红外图的50个关键点进行遮挡状态学习，可以训练出的模型能够检测出人脸所有器官的遮挡状态，便于在各种人脸识别场景下给出用户引导；采用压缩输入尺寸，使用关键点偏移量的预测方式，可以极大的降低参数量从而减少计算，实现高实时性的推理速度及嵌入式平台人脸识别的质量评价的支持；针对训练数据，使用人脸遮挡物参与数据合成，并通过随机噪声和随机模糊对合成数据与真实数据间的相似性进行增强，提高泛化能力。

本发明的另一实施方式涉及一种人脸识别方法，如图5所示，该人脸识别方法包括如下步骤。

步骤201：采用模型训练方法训练形成的联合网络模型对输入的人脸的红外图进行识别处理，得到预测数据；所述预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图。

其中，该模型训练方法可以为上述图1、图3、图 4中任一所示的方法。基于这些方法得到的联合网络模型对输入的包含人脸的红外图进行识别处理，得到相应的预测数据。

步骤202：将预测关键点坐标与预测关键点坐标偏移相叠加，得到红外图中的关键点坐标，并将预测关键点的遮挡状态作为红外图中的关键点的遮挡状态。

具体地，在将预测关键点坐标与预测关键点坐标偏移相叠加时，由于关键点所在图像的图像尺寸不同，需考虑输出网络输出的预测关键点坐标与红外图中关键点坐标之间的换算关系。以输入联合网络模型的红外图的图像尺寸为112*112、联合网络模型输出的图像尺寸为28*28为例，一种较为简单的叠加方法，是将预测关键点坐标与预测关键点坐标偏移分别乘以4倍后，变为图像尺寸为112*112中的坐标值和偏移量，然后将二者进行相加，从而得到红外图中关键点的预测坐标值。

与相关技术相比，本实施例通过上述模型训练方法得到的联合网络模型对输入的包含人脸的红外图具有较好的图像识别性能，该性能体现在进行人脸识别时，可以产生较高的匹配率并能覆盖无光照情景，从而提高人脸识别率。

本发明的另一实施方式涉及一种电子设备，如图6所示，包括至少一个处理器302；以及，与至少一个处理器302通信连接的存储器301；其中，存储器301存储有可被至少一个处理器302执行的指令，指令被至少一个处理器302执行，以使至少一个处理器302能够执行上述任一方法实施例。

其中，存储器301和处理器302采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器302和存储器301的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器302处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器302。

处理器302负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器301可以被用于存储处理器302在执行操作时所使用的数据。

本发明的另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述红外图样本的标签数据包括：

对所述红外图样本进行全覆盖标注，得到n个所述标签关键点；

采用如下公式对各所述标签关键点的坐标进行转换，形成n幅所述第一二维高斯热图：

3.根据权利要求1所述的方法，其特征在于，所述获取人脸的红外图样本和所述红外图样本的标签数据之后，还包括：

对所述红外图样本和所述红外图样本的标签数据进行数据增广，并利用增广后的数据执行所述联合网络模型的训练过程；其中，所述数据增广的方式包括以下方式中的至少一种：

图像亮度调整、图像对比度调整、高斯噪声处理、高斯模糊处理、随机裁剪和随机遮挡。

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络为卷积神经网络，所述将所述红外图样本输入至特征提取网络，得到不同尺寸的特征图之前，包括：

对所述红外图样本的图像尺寸进行归一化，获得第一特征图；

所述将所述红外图样本输入至特征提取网络，得到不同尺寸的特征图，包括：

将所述第一特征图输入所述卷积神经网络，并获取不同深度层输出的不同图像尺寸的第二特征图。

5.根据权利要求4所述的方法，其特征在于，所述第二特征图的数量为m，所述特征融合网络为卷积神经网络；所述将所述不同尺寸的特征图输入至特征融合网络，得到特征融合图，包括：

按图像尺寸从小到大的顺序对m个所述第二特征图进行排序，以所述排序中首个所述第二特征图作为当前特征图执行如下融合操作：对所述当前特征图进行反卷积，使所述当前特征图的图像尺寸与所述排序中下一个第二特征图的尺寸相同；将经反卷积后的所述当前特征图与所述下一个第二特征图进行融合，得到中间融合图；判断所述中间融合图中是否涵盖最后一个所述第二特征图；

如果是，则将所述中间融合图作为所述特征融合图；如果否，则将所述中间融合图作为下一个所述当前特征图，继续执行所述融合操作。

6.根据权利要求5所述的方法，其特征在于，所述反卷积的卷积深度为第一卷积深度；所述将经反卷积后的所述当前特征图与所述下一个第二特征图进行融合，得到中间融合图包括：

将所述下一个第二特征图采用1*1卷积核进行卷积处理，得到卷积深度为所述第一卷积深度的中间特征图；

将经反卷积后的所述当前特征图与所述中间特征图进行融合，得到中间融合图。

7.根据权利要求1所述的方法，其特征在于，所述标签关键点的数量为n；所述输出网络包含第一卷积子网络、第二卷积子网络和第三卷积子网络，且均采用1*1卷积核，依次对应的输出卷积深度为n、2n和n；

所述将所述特征融合图输入至输出网络，得到预测数据包括：

将所述特征融合图输入至所述第一卷积子网络，得到n个预测关键点坐标对应的n幅第二二维高斯热图；

将所述特征融合图输入至所述第二卷积子网络，得到n个预测关键点对应的2n幅预测关键点坐标偏移的特征图；

将所述特征融合图输入至所述第三卷积子网络，得到n个预测关键点对应的n幅预测关键点的遮挡状态特征图。

8.根据权利要求4所述的方法，其特征在于，所述标签数据还包括标签面部状态：所述标签面部状态包括戴口罩状态和眼睛状态；所述输出网络包括两个全连接层；所述方法还包括：

将所述不同尺寸的特征图中最小尺寸的特征图分别输入至所述两个全连接层中，得到预测面部状态，所述预测面部状态包括预测的戴口罩状态和眼睛状态；

基于所述标签面部状态和所述预测面部状态构建的第二损失函数对所述特征提取网络、所述特征融合网络和所述输出网络组成的联合网络模型进行训练，获得训练完成的所述联合网络模型。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述第一损失函数基于关键点坐标损失、关键点坐标偏移损失和关键点遮挡损失中的至少一项损失构建。

10.根据权利要求9所述的方法，其特征在于，所述关键点坐标损失L_hm通过如下公式计算：

11.根据权利要求9所述的方法，其特征在于，所述关键点坐标偏移损失SmoothL ₁ (x)通过如下公式计算：

其中，x为预测关键点坐标偏移量。

12.根据权利要求9所述的方法，其特征在于，所述关键点遮挡损失L通过如下公式计算：

13.一种人脸识别方法，其特征在于，包括：

采用权利要求1-12中任一项所述的模型训练方法训练形成的联合网络模型对输入的人脸的红外图进行识别处理，得到预测数据；所述预测数据包括预测关键点坐标的第二二维高斯热图，预测关键点坐标偏移的特征图和预测关键点的遮挡状态特征图；

14.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至12中任一项所述的模型训练方法，或者如权利要求13中所述的人脸识别方法。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的模型训练方法，或者如权利要求13中所述的人脸识别方法。