CN113723368B

CN113723368B - 多场景兼容的人脸识别方法、装置、电子设备和存储介质

Info

Publication number: CN113723368B
Application number: CN202111275566.1A
Authority: CN
Inventors: 陈白洁; 王月平
Original assignee: Hangzhou Moredian Technology Co ltd
Current assignee: Hangzhou Moredian Technology Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-07-12
Anticipated expiration: 2041-10-29
Also published as: CN113723368A

Abstract

本申请涉及多场景兼容的人脸识别方法、装置、电子设备和存储介质，属于人脸识别技术领域，该方法包括：获取待识别人脸图片；分别通过平衡模型、口罩识别模型和肤色识别模型对待识别人脸图片提取第一特征、第二特征和第三特征；将第二特征和第三特征加权平均，得到第四特征；将第四特征和所述第一特征合并，得到合并的特征；将合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。通过本申请，能够对一般人脸、戴口罩的人脸和具有不同肤色的人脸进行准确、高效的识别。

Description

多场景兼容的人脸识别方法、装置、电子设备和存储介质

技术领域

本申请涉及人脸识别技术领域，特别是涉及多场景兼容的人脸识别方法、装置、电子设备和存储介质。

背景技术

目前，单一人脸识别模型往往不能够很好地应对多种多样的场景，比如在一般的人脸识别场景中，需要人为拿掉面前的遮挡物（例如口罩），才能对人脸进行准确的识别，若在一些场合的入口，例如地铁进站口或考勤登记门口等，由于被识别人需要作出清理面孔遮挡物的动作，通常会导致排队严重，入口的通过效率太低。

基于卷积神经网络的人脸识别技术，很大程度上依赖于训练集中的数据，只有在足够丰富的数据集下训练的模型，才能够应对多种多样的场景，但是，过多增加模型参数量会导致模型的稳定性较差，而在不过多增加模型参数量的前提下，识别的准确性很低。

发明内容

第一方面，本申请实施例提供了一种多场景兼容的人脸识别方法，所述方法包括：获取待识别人脸图片；分别通过平衡模型、口罩识别模型和肤色识别模型对所述待识别人脸图片提取第一特征、第二特征和第三特征；将所述第二特征和所述第三特征加权平均，得到第四特征；将所述第四特征和所述第一特征合并，得到合并的特征；将所述合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。

在其中一些实施例中，在所述获取待识别人脸图片之前，所述方法还包括：获取训练数据，其中，所述训练数据为经过对齐操作的人脸图片；利用所述训练数据对预先设计的平衡网络进行训练，当训练结束时，得到所述平衡模型，其中，所述平衡网络为EfficientNetv2-s，所述EfficientNetv2-s通过NAS搜索最优EfficientNetv2结构而得到。

在其中一些实施例中，在所述获取待识别人脸图片之前，所述方法还包括：从所述训练数据中选取部分人脸图片，并输入角度模型，得到人脸角度值；根据所述人脸角度值判断人脸方向，并结合3D口罩贴合方案，生成带口罩的人脸数据；将所述带口罩的人脸数据与所述训练数据合并，得到第一扩充训练集；利用所述第一扩充训练集训练预先设计的口罩网络，当训练结束时，得到所述口罩识别模型。

在其中一些实施例中，所述口罩网络的设计方式包括：固定所述平衡网络结构的前n层，其中，n是大于0的整数，且n＜m，m表示所述平衡网络结构的总共层数；在第n层之后添加SimAM模块，得到所述口罩网络。

在其中一些实施例中，在所述获取待识别人脸图片之前，所述方法还包括：从所述训练数据中选取部分人脸图片，随机调整R、G、B颜色空间值，生成不同肤色的人脸数据；将所述不同肤色的人脸数据与所述训练数据合并，得到第二扩充训练集；利用所述第二扩充训练集训练预先设计的肤色网络，当训练结束时，得到所述肤色识别模型。

在其中一些实施例中，所述肤色网络的设计方式包括：固定所述平衡网络结构的前n层，其中，n是大于0的整数，且n＜m，m表示所述平衡网络结构的总共层数；在第n层之后添加自注意力机制，得到所述肤色网络。

在其中一些实施例中，所述平衡模型、所述口罩识别模型和所述肤色识别模型中均包含DropBlock模块。

第二方面，本申请实施例提供一种多场景兼容的人脸识别装置，包括：

获取模块，用于获取待识别人脸图片；

提取模块，用于分别通过平衡模型、口罩识别模型和肤色识别模型对所述待识别人脸图片提取第一特征、第二特征和第三特征；

计算模块，用于将所述第二特征和所述第三特征加权平均，得到第四特征；将所述第四特征和所述第一特征合并，得到合并的特征；将所述合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。

第三方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以上述任一项所述的方法。

第四方面，本申请实施例提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项所述的方法。

根据上述内容，本申请实施例提供的多场景兼容的人脸识别方法包括：获取待识别人脸图片；分别通过平衡模型、口罩识别模型和肤色识别模型对待识别人脸图片提取第一特征、第二特征和第三特征；将第二特征和第三特征加权平均，得到第四特征；将第四特征和第一特征合并，得到合并的特征；将合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。本申请实施例融合了平衡模型、口罩识别模型和肤色识别模型，模型的稳定性高，并且，能够在多场景中对一般人脸、戴口罩的人脸和具有不同肤色的人脸进行准确的识别，特别是，应用在一些场合的入口时，被识别人员无需做出摘口罩动作，即使是不同肤色的人种，也能够高效、精准的进行人脸识别，不仅识别的准确率高，而且能够提高入口通行的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例所示的多场景兼容的人脸识别方法的流程图；

图2是根据本申请实施例的MBConv的结构示意图；

图3是根据本申请实施例的Fused-MBConv的结构示意图；

图4是根据本申请实施例的举例的多场景兼容的人脸识别方法的流程图；

图5是根据本申请实施例所示的多场景兼容的人脸识别装置的结构框图；

图6是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种多场景兼容的人脸识别方法，解决了相关技术中多场景的人脸识别准确度较低的问题。

图1是根据本申请实施例所示的多场景兼容的人脸识别方法的流程图，参照图1所示，该方法可以包括：

步骤S101：获取待识别人脸图片；

步骤S102：分别通过平衡模型、口罩识别模型和肤色识别模型对该待识别人脸图片提取第一特征、第二特征和第三特征；

步骤S103：将该第二特征和第三特征加权平均，得到第四特征；

步骤S104：将该第四特征和第一特征合并，得到合并的特征；

步骤S105：将该合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。

本申请实施例融合了平衡模型、口罩识别模型和肤色识别模型，模型的稳定性高，并且，能够在多场景中对一般人脸、戴口罩的人脸和具有不同肤色的人脸进行准确的识别，特别是，应用在一些场合的入口时，被识别人员无需做出摘口罩动作，即使是不同肤色的人种，也能够高效、精准的进行人脸识别，不仅识别的准确率高，而且能够提高入口通行的效率。

在其中一些实施例中，在步骤S101之前，获取训练数据，该训练数据为经过对齐操作的人脸图片，其中，对齐操作包括：首先通过关键点算法检测出人脸图片上的关键点，接着通过仿射变换，将人脸图片进行旋正。

利用上述训练数据对预先设计的平衡网络进行训练，当损失函数收敛时，训练结束，得到平衡模型，其中，该平衡网络为EfficientNetv2-s，该EfficientNetv2-s可以通过NAS（Neural Architecture Search：神经结构搜索）搜索最优EfficientNetv2结构而得到，本实施例中使用EfficientNetv2能够减小内存占用，减少参数量，加快训练速度。值得说明的是，平衡网络和平衡模型的结构是相同的，区别在于，平衡网络的参数是初始化参数，平衡网络在训练的过程中参数会不断更新，直到训练结束，参数停止更新，得到平衡模型，即平衡模型的参数是训练结束时得到的参数。

作为一个示例，搜索最优EfficientNetv2结构包括：以EfficientNetv2作为骨干网络，搜索空间为EfficientNetv2中基于阶段（stage）的空间，即，EfficientNetv2中基于stage的空间可以称为EfficientNetv2中基于某个阶段的空间；然后，通过采用以下两种方式降低搜索空间：(1)移除如pooling（池化）算子等不必要的搜索选项；(2)复用EfficientNetv2中的通道信息，得到上述的平衡网络。

作为一个示例，上述平衡网络和平衡模型可以包括MBConv、Fused-MBConv等卷积操作，卷积核尺寸、层数、扩展比例等。

为了对本申请实施例的平衡网络进行详细的说明，表1示意性的举出平衡网络的结构数据：

其中，Conv3x3代表卷积操作时使用3x3的卷积；Stride代表步长；Channels代表通道数；Layers代表层数；k代表卷积核大小，k3x3代表3x3的卷积核；SE代表使用SE关注模块，即Squeeze-and-excitation模块；Pooling代表池化操作；FC代表全连接操作；Fused-MBConv和MBConv后面的数字1、4、6代表膨胀系数（expansion ratio）。

作为一个示例，图2是根据本申请实施例的MBConv的结构示意图，图3是根据本申请实施例的Fused-MBConv的结构示意图，如图2和图3所示，conv1x1代表卷积操作时使用1x1的卷积核；depthwise conv3x3代表深度可分离卷积操作时使用3x3的卷积核。卷积核对图片进行卷积可以得到特征图，特征图的维度是W*H*C，这里的C（Channel）就是通道，可以说是特征图的个数，用W（Width）、H(Height)表示特征图的宽、高。

进一步地，从训练数据中选取部分人脸图片，例如选取10%的人脸图片，将该10%的人脸图片输入到角度（pose）模型中，得到人脸角度值。例如，角度模型给出人脸图片的三个角度值，分别为pitch（俯仰角）、roll（翻滚角）、yaw（偏航角）角度值。然后，根据人脸角度值判断人脸方向，并结合3D口罩贴合方案，生成带口罩的人脸数据，其中，3D口罩贴合方案可以采用insightface口罩贴合方案，该方案结合口罩图片和人脸图片，运行脚本即可生成戴口罩的人脸数据，进一步地，还可以通过添加位置（positions）参数，调整口罩的高度。因此，能够得到带口罩的人脸数据，然后，将带口罩的人脸数据与上述训练数据合并，得到第一扩充训练集。

作为一个示例，本申请实施例提供的角度模型的结构如表2所示：

表2是角度模型的结构数据

其中，Conv3x3代表卷积操作时使用3x3的卷积核；Conv1x1代表卷积操作时使用1x1的卷积核；FC代表全连接操作。

接着，利用上述第一扩充训练集训练预先设计的口罩网络，当损失函数收敛是，训练结束，得到口罩识别模型。值得说明的是，口罩网络和口罩识别模型的结构相同，区别在于，口罩网络的参数是初始化参数，口罩识别模型的参数是训练结束时得到的参数。

作为一个示例，在设计口罩网络时，固定平衡网络结构的前n层，其中，n是大于0的整数，且n＜m，m表示平衡网络结构的总共层数；在第n层之后添加SimAM（A Simple，Parameter-Free Attention Module for Convolutional Neural Networks）模块，得到口罩网络。需要说明的是，在对口罩网络进行训练时，只训练在固定网络n层后面的权重。

为了对本申请实施例的口罩网络进行详细的说明，此处，n取4，表3示意性的举出口罩网络的结构数据：

可以看出，口罩网络的整体结构与平衡网络结构相比，在中间添加了SimAM模块。

根据本申请实施例的平衡网络可以无需额外参数为特征图推导出3D注意力权值。具体的，SimAM模块将空间注意力机制与通道注意力机制结合，对每个神经元分配一个权值，包括如下步骤：

首先对每个神经元定义以下能量函数：

（公式1）

其中，t为神经元；e_t为神经元t对应的能量；

为输入的第i个神经元；向量y为所有神经元的输出；M为神经元的个数；

,

为卷积层的权重和偏置；y_t和y₀分别代表对应输出的标签，即真实值；

代表神经元t经过卷积层的输出值；

代表神经元

经过卷积层的输出值；

并且，

。

对公式1进行最小化，并添加正则项，得到以下的能量函数：

（公式2）

其中，

为系数，

,

可以表示如下：

令

，得到最终能量函数的公式为：

（公式3）

其中，u_t代表神经元t的平均能量值，M=H*W代表每个通道能量函数的个数；u与u_t的区别在于u是笼统的指任意一个神经元的平均能量值，而u_t是特指神经元t的平均能量值，

与u含义相同，此处

代表与u的值之间有一点误差；

代表第i个神经元。

值得说明的是，

表示任一个神经元的能量，

表示神经元t的能量，能量越低，神经元t与周围神经元的区别越大，重要性越高。因此，可以通过

得到神经元的重要性，从而给每个神经元赋予了权值，可以让口罩网络更加关注口罩信息，使得经过口罩网络训练出来的模型对戴口罩的图片有一定的兼容性。

进一步地，从训练数据中选取部分人脸图片，例如选取10%的人脸图片，随机调整R（红色）、G（绿色）、B（蓝色）颜色空间值，生成不同肤色的人脸数据；将不同肤色的人脸数据与上述训练数据合并，得到第二扩充训练集。然后，利用第二扩充训练集训练预先设计的肤色网络，当损失收敛时，训练结束，得到肤色识别模型。值得说明的是，肤色网络和肤色识别模型的结构相同，区别在于，肤色网络的参数是初始化参数，肤色识别模型的参数是训练结束时得到的参数。

在设计肤色网络时，固定平衡网络结构的前n层，其中，n是大于0的整数，且n＜m，m表示平衡网络结构的总共层数；在第n层之后添加自注意力机制（即self-attention模块），得到肤色网络。需要说明的是，对肤色网络进行训练时，只训练在固定网络n层后面的权重。

假定平衡网络第n层的输出特征为

（矩阵），其中N是特征图像素的个数，d是特征图的通道数，自注意力机制对特征图进行不同的线性变换，得到查询矩阵

，键矩阵

和值矩阵

，其中R为实数，

是特征图的通道数，整个自注意力机制可以表示为：

其中，

表示第i个像素和第j个像素之间的关系，softmax为激活函数，Fout 为第n层的最终输出特征。

为了对本申请实施例的肤色网络进行详细的说明，此处，n取4，表4示意性的举出口罩网络的结构数据：

表4是肤色网络的结构数据

可以看出，肤色网络的整体结构与平衡网络结构相比，在中间添加了self-attention模块。基于自注意力机制，肤色网络可以关注肤色信息，使得对肤色网络训练出来的肤色识别模型对不同肤色的人脸图片有一定的兼容性。

基于上述内容，由于平衡模型、口罩识别模型和肤色识别模型共享前n层权重，因此三个识别模型的总参数量减少了2*H个，其中，H为共享参数个数，进而使得本申请实施例的识别方法所需的参数少，推理时间较短，识别的速度更快，进而识别效率高。

进一步的，为了避免模型在训练时过拟合，分别在平衡网络、口罩网络和肤色网络中添加了DropBlock模块，因此，平衡模型、口罩识别模型和肤色识别模型中均包含DropBlock模块。由于模型在训练时避免过拟合，所以能够使得识别结果更加精确。

DropBlock是对DropOut的改进，原本的DropOut为随机丢弃像素点，而DropBlock为随机丢弃整个块。

作为一个示例，表5示意性的举出DropBlock模块的结构数据：

表5是DropBlock模块的结构数据

当Stage 1中Stride=2时，使用shortcut（相加）操作，否则不使用。

作为一个示例，对于网络结构某一层输出特征A，设置要删除（即丢弃）方块的大小（长、宽）为block_size，设置要删除激活单元的概率为

，表达式如下：

其中，feat_size为某一层输出特征A的大小，block_size为要删除方块的面积，keep_prob为可变参数，本申请实施例中keep_prob的值为0.75。

根据

，使用如下伯努利函数对生成的初始随机数口罩（mask）矩阵进行drop（丢弃），得到只有0、1值的口罩数据，伯努利函数表示如下：

其中，x指随机口罩数据的像素值，f(x)为0或1，p是在设定的试验次数中试验成功的概率。对得到的口罩数据进行maxpooling（最大池化）操作，得到最终参与计算的口罩特征，将输出特征A与参与计算的口罩特征相乘，得到网络结构某一层最终的输出特征。

进一步的，在上述各模型的训练中，学习率衰减方式采用余弦学习率衰变（Cosine Learning Rate Decay）。具体的，在训练中，将训练数据分为几个批次（batch），T为batch的总量，假设总batch_size=T，初始学习率为

，那么在每个batch的学习率为：

其中，该第二公式中，t为batch的序数。

进一步地，在各模型的训练中，仅对网络结构中的卷积层和全连接层的权重参数进行衰减，其它层不进行衰减，能够提升识别模型精度。

基于上文，本申请实施例能够得到平衡模型、口罩识别模型和肤色识别模型。图4是根据本申请实施例的举例的多场景兼容的人脸识别方法的流程图，如图4所示，输入任意一张待识别人脸图片，分别通过平衡模型、口罩识别模型和肤色识别模型提取特征，具体的，各模型按照上文公布的结构进行卷积、池化和全连接操作，然后分别输出第一特征、第二特征和第三特征，比如第一特征、第二特征和第三特征均为512维；那么将第二特征和第三特征加权平均，得到的第四特征也为512维；然后将第四特征和第一特征合并（即拼接），得到的合并的特征为1024维；而底库中的人脸图片的特征为1024维，所以可以将合并的特征与底库中的人脸图片的特征进行比对，具体的，计算该待识别图片的合并特征与底库中每一张图片特征的余弦相似度，比对出余弦相似度的最大值，最终该待识别图片的人脸即为底库中与其余弦相似度最大的图片对应人脸一致。在此可以举例说明，待识别人脸图片的合并特征与底库中甲的人脸图片特征余弦相似度最大，则该待识别人脸图片确定为甲的人脸图片。

综上，本申请实施例融合了平衡模型、口罩识别模型和肤色识别模型，模型的稳定性高，并且，能够在多场景中对一般人脸、戴口罩的人脸和具有不同肤色的人脸进行准确的识别，特别是，应用在一些场合的入口时，被识别人员无需做出摘口罩动作，即使是不同肤色的人种，也能够高效、精准的进行人脸识别，不仅识别的准确率高，而且能够提高入口通行的效率。

本申请的一个实施例中还提供了一种多场景兼容的人脸识别装置，图5是根据本申请实施例所示的多场景兼容的人脸识别装置的结构框图，如图5所示，该装置包括获取模块21、提取模块22和计算模块23：

获取模块21，用于获取待识别人脸图片；

提取模块22，用于分别通过平衡模型、口罩识别模型和肤色识别模型对待识别人脸图片提取第一特征、第二特征和第三特征；

计算模块23，用于将第二特征和第三特征加权平均，得到第四特征；将第四特征和第一特征合并，得到合并的特征；将合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的多场景兼容的人脸识别方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种多场景兼容的人脸识别方法。

本申请的一个实施例中还提供了一种电子设备，该电子设备可以是终端。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多场景兼容的人脸识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图6是根据本申请实施例的电子设备的内部结构示意图，如图6所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种多场景兼容的人脸识别方法，数据库用于存储数据。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多场景兼容的人脸识别方法，其特征在于，应用于入口通行的场景中，所述方法包括：

获取入口通行场合中的人脸图片作为待识别人脸图片；

分别通过平衡模型、口罩识别模型和肤色识别模型对所述待识别人脸图片提取第一特征、第二特征和第三特征，其中，所述平衡模型为EfficientNetv2-s，所述平衡模型、所述口罩识别模型和所述肤色识别模型共享前n层权重，n是大于0的整数，且n＜m，m表示所述平衡模型的总共层数，所述口罩识别模型的结构与所述平衡模型相比，在中间位置添加有SimAM模块；所述肤色识别模型的结构与所述平衡模型相比，在中间位置添加有自注意力机制，所述中间位置指第n层之后；

将所述第二特征和所述第三特征加权平均，得到第四特征；

将所述第四特征和所述第一特征合并，得到合并的特征；

将所述合并的特征与底库中的人脸图片的特征进行比对，并根据比对结果确定识别结果。

2.根据权利要求1所述的方法，其特征在于，在所述获取待识别人脸图片之前，所述方法还包括：

获取训练数据，其中，所述训练数据为经过对齐操作的人脸图片；

利用所述训练数据对预先设计的平衡网络进行训练，当训练结束时，得到所述平衡模型，其中，所述平衡网络为EfficientNetv2-s，所述EfficientNetv2-s通过NAS搜索最优EfficientNetv2结构而得到。

3.根据权利要求2所述的方法，其特征在于，在所述获取待识别人脸图片之前，所述方法还包括：

从所述训练数据中选取部分人脸图片，并输入角度模型，得到人脸角度值；

根据所述人脸角度值判断人脸方向，并结合3D口罩贴合方案，生成带口罩的人脸数据；

将所述带口罩的人脸数据与所述训练数据合并，得到第一扩充训练集；

利用所述第一扩充训练集训练预先设计的口罩网络，当训练结束时，得到所述口罩识别模型。

4.根据权利要求3所述的方法，其特征在于，所述口罩网络的设计方式包括：

固定所述平衡网络结构的前n层，其中，n是大于0的整数，且n＜m，m表示所述平衡网络结构的总共层数；

在第n层之后添加SimAM模块，得到所述口罩网络。

5.根据权利要求2所述的方法，其特征在于，在所述获取待识别人脸图片之前，所述方法还包括：

从所述训练数据中选取部分人脸图片，随机调整R、G、B颜色空间值，生成不同肤色的人脸数据；

将所述不同肤色的人脸数据与所述训练数据合并，得到第二扩充训练集；

利用所述第二扩充训练集训练预先设计的肤色网络，当训练结束时，得到所述肤色识别模型。

6.根据权利要求5所述的方法，其特征在于，所述肤色网络的设计方式包括：

固定所述平衡网络结构的前n层；

在第n层之后添加自注意力机制，得到所述肤色网络。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述平衡模型、所述口罩识别模型和所述肤色识别模型中均包含DropBlock模块。

8.一种多场景兼容的人脸识别装置，其特征在于，应用于入口通行的场景中，包括：

获取模块，用于获取入口通行场合中的人脸图片作为待识别人脸图片；

提取模块，用于分别通过平衡模型、口罩识别模型和肤色识别模型对所述待识别人脸图片提取第一特征、第二特征和第三特征，其中，所述平衡模型为EfficientNetv2-s，所述平衡模型、所述口罩识别模型和所述肤色识别模型共享前n层权重，n是大于0的整数，且n＜m，m表示所述平衡模型的总共层数，所述口罩识别模型的结构与所述平衡模型相比，在中间位置添加有SimAM模块；所述肤色识别模型的结构与所述平衡模型相比，在中间位置添加有自注意力机制，所述中间位置指第n层之后；

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的方法。