CN112597941B

CN112597941B - 一种人脸识别方法、装置及电子设备

Info

Publication number: CN112597941B
Application number: CN202011595010.6A
Authority: CN
Inventors: 张海涛; 张泽晗; 马华东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-01-06
Anticipated expiration: 2040-12-29
Also published as: CN112597941A

Abstract

本发明实施例提供了一种人脸识别方法、装置及电子设备，涉及计算机视觉技术领域，可以减小人脸识别方法的复杂度，提高识别效率。本发明实施例的技术方案包括：获取待识别图像，确定待识别图像中的人脸区域。将人脸区域的图像输入人脸识别模型，通过人脸识别模型中的预设倒残差块将输出的第一特征图输入混合注意力模块，通过混合注意力模块确定第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，将第二特征图输入下一个倒残差块。获取人脸识别模型输出的人脸区域的图像的人脸特征向量，然后基于人脸特征向量确定人脸区域的图像对应的人员的身份信息。

Description

一种人脸识别方法、装置及电子设备

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种人脸识别方法、装置及电子设备。

背景技术

随着人工智能技术的快速发展以及处理器性能的不断提升，人脸识别技术在生活中的应用越来越广泛，例如人脸识别技术可以应用在道路交通监控、门禁系统、手机刷脸解锁等场景。然而在实际应用场景中，人脸易被局部覆盖物或被他人遮挡，破坏了能够获取到的人脸信息的全面性和完整性，进而难以进行准确的人脸识别。

相关技术中，通常将有遮挡的人脸图像输入基于注意力机制的卷积神经网络(Convolutional Neural Networks，CNN)模型，通过CNN模型提取遮挡部分的边缘语义信息；再将有遮挡的人脸图像和边缘语义信息输入生成对抗网络，得到修补后的人脸图像；最后采用CNN模型对修补后的人脸图像进行识别。由于采用生成对抗网络相当于在人脸识别算法中引入额外的计算开销，导致人脸识别方法较为复杂，识别效率低。

发明内容

本发明实施例的目的在于提供一种人脸识别方法、装置及电子设备，以减小人脸识别方法的复杂度，提高识别效率。具体技术方案如下：

第一方面，本发明实施例提供了一种人脸识别方法，所述方法包括：

获取待识别图像；

确定所述待识别图像中的人脸区域；

将所述人脸区域的图像输入人脸识别模型，通过所述人脸识别模型中的预设倒残差块将输出的第一特征图输入混合注意力模块，通过所述混合注意力模块确定所述第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，将所述第二特征图输入下一个倒残差块；其中，所述人脸识别模型为基于遮挡训练集对预设识别网络训练后得到的模型，所述预设识别网络为引入混合注意力模块的MobileNet，所述遮挡训练集包括多张被局部遮挡的人脸图像以及每张人脸图像对应的人脸身份标识，所述第一特征图中的各通道对应的权重用于表示所述第一特征图各通道对于提取人脸特征向量的重要程度，所述第一特征图中的各位置对应的权重用于表示所述第一特征图各位置对于提取人脸特征向量的重要程度；

获取所述人脸识别模型输出的所述人脸区域的图像的人脸特征向量；

基于所述人脸特征向量确定所述人脸区域的图像对应的人员的身份信息。

可选的，所述混合注意力模块包括：通道注意力模块和多个空间注意力模块；通过所述混合注意力模块确定所述第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，包括：

通过所述通道注意力模块确定所述第一特征图中的各通道对应的权重，对所述第一特征图与所述第一特征图中的各通道对应的权重进行求和，得到通道特征图；

按照预设的分组规则，将所述通道特征图包括的通道划分为多组通道；

将所述通道特征图的每组通道分别输入一个空间注意力模块，通过所述空间注意力模块确定该组通道中的各位置对应的权重，并基于该组通道和该组通道中的各位置对应的权重，得到该组通道的空间特征图；

拼接各组通道的空间特征图，得到所述第二特征图。

可选的，所述通过所述通道注意力模块确定所述第一特征图中的各通道对应的权重，对所述第一特征图与所述第一特征图中的各通道对应的权重进行求和，得到通道特征图，包括：

通过所述通道注意力模块执行以下步骤：

对所述第一特征图依次进行点卷积、平均池化、维度转换和归一化处理，得到第一分支特征图；

将所述第一特征图进行平均池化和维度转换处理，得到第二分支特征图；

计算所述第一分支特征图与所述第二分支特征图的乘积，作为全局特征图；

对所述全局特征图依次进行点卷积和扩张处理后，得到所述第一特征图中的各通道对应的权重；

将所述第一特征图中的各通道对应的权重与所述第一特征图相加，得到所述通道特征图。

可选的，所述通过所述空间注意力模块确定该组通道中的各位置对应的权重，并基于该组通道和该组通道中的各位置对应的权重，得到该组通道的空间特征图，包括：

针对所述通道特征图的一组通道，通过一个空间注意力模块执行以下步骤：

对该组通道进行深度卷积处理，得到深度特征图；

将所述深度特征图分别进行最大池化和平均池化处理后相加，得到池化特征图；

将所述池化特征图分别进行点卷积、归一化和扩张处理，得到该组通道中的各位置对应的权重；

计算所述通道特征图与该组通道中的各位置对应的权重的乘积，再将计算结果与所述通道特征图相加，得到该组通道的空间特征图。

可选的，所述确定所述待识别图像中的人脸区域，包括：

将所述待识别图像输入人脸检测模型；

基于所述人脸检测模型输出的所述待识别图像中人脸区域的中心点和尺寸，确定所述人脸区域；

其中，所述人脸检测模型为基于所述遮挡训练集对目标检测网络训练后得到的模型，所述目标检测网络为：将目标检测算法SSD中的骨干网络设置为MobileNet中用于提取特征的网络层的网络。

可选的，所述人脸检测模型通过以下步骤识别所述待识别图像中人脸区域的中心点和尺寸：

将待识别图像输入所述骨干网络，得到所述骨干网络识别的特征图；

对所述骨干网络识别的特征图进行多次卷积，得到卷积后的特征图；

将卷积后的特征图进行特征金字塔处理，并将特征金字塔的处理结果依次进行目标检测和非极大值抑制处理，得到所述待识别图像中人脸区域的中心点和尺寸。

第二方面，本发明实施例提供了一种人脸识别装置，所述装置包括：

获取模块，用于获取待识别图像；

确定模块，用于确定所述获取模块获取的所述待识别图像中的人脸区域；

输入模块，用于将所述确定模块确定的所述人脸区域的图像输入人脸识别模型，通过所述人脸识别模型中的预设倒残差块将输出的第一特征图输入混合注意力模块，通过所述混合注意力模块确定所述第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，将所述第二特征图输入下一个倒残差块；其中，所述人脸识别模型为基于遮挡训练集对预设识别网络训练后得到的模型，所述预设识别网络为引入混合注意力模块的MobileNet，所述遮挡训练集包括多张被局部遮挡的人脸图像以及每张人脸图像对应的人脸身份标识，所述第一特征图中的各通道对应的权重用于表示所述第一特征图各通道对于提取人脸特征向量的重要程度，所述第一特征图中的各位置对应的权重用于表示所述第一特征图各位置对于提取人脸特征向量的重要程度；

所述获取模块，还用于获取所述人脸识别模型输出的所述人脸区域的图像的人脸特征向量；

所述确定模块，还用于基于所述获取模块获取的所述人脸特征向量确定所述人脸区域的图像对应的人员的身份信息。

可选的，所述混合注意力模块包括：通道注意力模块和多个空间注意力模块；所述输入模块，具体用于：

拼接各组通道的空间特征图，得到所述第二特征图。

可选的，所述输入模块，具体用于：

通过所述通道注意力模块执行以下步骤：

可选的，所述输入模块，具体用于：

对该组通道进行深度卷积处理，得到深度特征图；

可选的，所述确定模块，具体用于：

将所述待识别图像输入人脸检测模型；

可选的，所述确定模块，具体用于通过人脸检测模型执行：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一人脸识别方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人脸识别方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一人脸识别方法的步骤。

本发明实施例提供的人脸识别方法、装置及电子设备中，利用人脸识别模型识别待识别图像中人脸区域的图像的人脸特征向量，并基于人脸特征向量确定人员身份信息。由于人脸识别模型基于遮挡训练集训练获得，因此人脸识别模型能够识别有遮挡的人脸。而且人脸识别模型中的混合注意力模块能够确定由预设倒残差块输入的第一特征图中的各通道对应的权重以及各位置对应的权重，并基于第一特征图和第一特征图中的各通道对应的权重以及各位置对应的权重，得到第二特征图。由于第一特征图中的各通道对应的权重用于表示第一特征图各通道对于提取人脸特征向量的重要程度，且第一特征图中的各位置对应的权重用于表示第一特征图各位置对于提取人脸特征向量的重要程度，因此模型提取特征的过程中能够为提取的不同通道以及不同位置的特征赋予不同的权重，使得模型能够重点关注未遮挡区域，从而提升对有遮挡人脸图像的识别准确性。可见本发明实施例实现了端到端的识别，在人脸识别过程中不需要采用生成对抗模型，因此减小了人脸识别方法的复杂度，提高了识别效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种人脸识别方法流程图；

图2为本发明实施例提供的一种混合注意力模块的结构示意图；

图3为本发明实施例提供的一种通道注意力模块的结构示意图；

图4为本发明实施例提供的一种空间注意力模块的结构示意图；

图5为本发明实施例提供的一种标准卷积过程与空洞卷积过程示意图；

图6A为常规的目标检测模型结构示意图；

图6B为本发明实施例提供的一种人脸识别模型结构示意图；

图7为本发明实施例提供的一种目标检测过程与特征金字塔处理过程示意图；

图8为本发明实施例提供的另一种特征金字塔处理过程示意图；

图9为本发明实施例提供的一种身份识别的流程示意图；

图10为本发明实施例提供的一种人脸识别结果示意图；

图11为本发明实施例提供的另一种人脸识别结果示意图；

图12为本发明实施例提供的一种人脸识别装置的结构示意图；

图13为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在人脸识别技术中，人脸局部性遮挡问题一直是不可避免的关键课题，例如人本身佩戴的口罩、头巾、眼镜等遮挡物，以及环境中的植物、建筑物、他人等都可能影响获取完整的人脸图像。

目前有局部遮挡的人脸识别方法有：子空间回归方法、鲁棒误差编码方法和鲁棒特征提取方法。

子空间回归方法是将不同类别的人脸部分划分为不同的子空间，其中，遮挡部分是一个独立的子空间，有遮挡的人脸图像是未被遮挡的人脸部分与遮挡部分的叠加。将未被遮挡的人脸部分和遮挡部分各自回归到自身所属的子空间，从而进行人脸识别。子空间回归方法中最具代表性的方法是：稀疏表示分类方法和协同表示分类方法。子空间回归方法由于需要构建遮挡子空间，导致识别方法较为困难，不易实现。

鲁棒误差编码方法包括“加法模型”和“乘法模型”。其中，“加法模型”认为有遮挡图像y是无遮挡人脸图像y₀与由遮挡图像引发的误差e的合成体，即y＝y₀+e，算法目的是将误差e从y中分离出来。“乘法模型”则将有遮挡的人脸图像看成是无遮挡人脸图像与遮挡图像的拼接，并重构无遮挡人脸图像。

鲁棒特征提取方法是对人脸图像所包含的特征进行分解，分解后，可以降低特征之间的相互干扰，从而提供精细的特征。一幅人脸图像所包含的特征通常极为丰富，既包括颜色、亮度、纹理、方向等低阶特征，又也包括姿态、表情、年龄、人种等高阶特征。通过设计精细的特诊提取方法，尽管并没有对遮挡做任何先验性假设和显式处理，也能对有局部遮挡的人脸识别表现出很强的鲁棒性。

由于子空间回归方法不易实现，因此目前主流的有局部遮挡的人脸识别方法为鲁棒误差编码方法和鲁棒特征提取方法。基于这两种方法衍生出两类基本的研究方向，分别为：对遮挡区域的特征进行修复和设计、使用注意力机制识别没有被遮挡的人脸。

第一类研究方向一般是将有遮挡的人脸图像输入基于注意力机制的卷积神经网络(Convolutional Neural Networks，CNN)模型，提取遮挡图像的边缘语义信息；再将有遮挡的人脸图像和边缘语义信息输入生成对抗网络，得到修补后的人脸图像；最后采用CNN模型对修补后的人脸图像进行识别。但采用生成对抗网络往往导致模型难以收敛且引入额外的计算开销，相比于端到端的人脸识别更加复杂，且计算效率低。

第二类研究方向是设计和使用注意力机制去识别没有被遮挡的人脸。例如为人脸识别模型引入卷积块注意模型(Convolutional Block Attention Module，CBAM)结构或者压缩和激励网络(Squeeze-and-Excitation Networks，SENet)结构，以增强人脸识别模型对人脸非遮挡区域的关注度，但CBAM或者SENet结构并非为人脸识别专门设计，其计算开销较大，需要大量的计算资源的支持，而手机、平板电脑等移动设备由于轻便和易于携带的设计要求，一般运行内存较小，不能提供大量的计算资源，使得利用这种识别模型的人脸识别算法难以应用在移动设备中。

可以看出，与第一类研究方向相比，第二类研究方向不需要采用生成对抗模型，因此能够减小人脸识别方法的复杂度，提高识别效率。

本发明实施例与第二类研究方向相同，都是采用识别模型实现端到端识别。具体的，本发明实施例提供了一种人脸识别方法，应用于电子设备。其中电子设备可以是手机、计算机或者平板电脑等具备图像处理能力的设备。如图1所示，该方法包括如下步骤。

步骤101，获取待识别图像。

在本发明实施例中，待识别图像可以是照相机拍摄的照片，或者摄像机拍摄的一帧图像，或者还可以是其他图像，本发明实施例对待识别图像的来源不作具体限定。

步骤102，确定待识别图像中的人脸区域。

存在人脸的图像可以划分为人脸区域和除人脸区域以外的背景区域，其中，人脸区域可以是人脸图像的外接矩形区域。

步骤103，将人脸区域的图像输入人脸识别模型，通过人脸识别模型中的预设倒残差块将输出的第一特征图输入混合注意力模块，通过混合注意力模块确定第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，将第二特征图输入下一个倒残差块。

其中，人脸识别模型为基于遮挡训练集对预设识别网络训练后得到的模型，预设识别网络为引入混合注意力模块的MobileNet，遮挡训练集包括多张被局部遮挡的人脸图像以及每张人脸图像对应的人脸身份标识，第一特征图中的各通道对应的权重用于表示第一特征图各通道对于提取人脸特征向量的重要程度，第一特征图中的各位置对应的权重用于表示第一特征图各位置对于提取人脸特征向量的重要程度。

遮挡训练集中人脸图像对应的人脸身份标识用于表示人脸图像对应的人员的身份，人脸身份标识可以是预先对人脸图像设置的标签。遮挡训练集中还可以包括未被遮挡的人脸图像以及未被遮挡的人脸图像对应的人脸身份标识。

本发明实施例中人脸识别模型中的MobileNet可以为移动网络版本2(MobileNet-V2)。MobileNet-V2是移动网络版本1(MobileNet-V1)的升级版本。相比MobileNet-V1，MobileNet-V2除了保留了MobileNet-V1中的深度可分离卷积层之外，还增加了倒残差结构，即在深度可分离卷积层之前增加了一个卷积核大小为1x1的卷积层，新加入的卷积层可以实现通道扩张，使网络在更高维的空间进行特征提取，从而增强提取的特征的全局表征能力。新的卷积层与深度可分离卷积层共同组成倒残差块，倒残差块是MobileNet-V2的基本组成单元。

在MobileNet-V2中，多个倒残差块组成瓶颈块(bottleneck)，本发明实施例中的混合注意力模块可以插入到MobileNet-V2的瓶颈块之间或者插入瓶颈块内部，而不会改变输入混合注意力模块的特征图的尺寸。即在本发明实施例中，混合注意力模块位于MobileNet中两个相邻的倒残差块之间。

在本发明实施例中，在MobileNet-V2中插入的混合注意力模块数量可以为一个或多个，且插入的位置可以根据实际需要设置，本发明实施例不对混合注意力模块插入MobileNet-V2中的数量和位置作具体限定。因此本发明实施例中针对每一个混合注意力模块，预设倒残差块指的是：与该混合注意力模块相邻且在该混合注意力模块之前的倒残差块。

同时，针对每一个混合注意力模块，预设倒残差块输出的第一特征图为：从人脸识别模型的输入层一直到预设倒残差块，这其中的各网络层共同识别的结果。

可选的，由于更深的网络层提取的特征图具有更多的语义信息且更能够表征全局特征，因此可以将混合注意力模块插入MobileNet-V2中更深的网络层之间，即插入靠近模型输出的倒残差块之间。

步骤104，获取人脸识别模型输出的人脸区域的图像的人脸特征向量。

步骤105，基于人脸特征向量确定人脸区域的图像对应的人员的身份信息。

一种实施方式中，身份数据库中记载了多个人脸特征向量与身份信息之间的对应关系，可以计算步骤104得到的人脸特征向量与身份数据库中的人脸特征向量之间的相似度，并将相似度最高的人脸特征向量对应的身份信息，作为步骤105确定的人员的身份信息。

本发明实施例提供的人脸识别方法中，利用人脸识别模型识别待识别图像中人脸区域的图像的人脸特征向量，并基于人脸特征向量确定人员身份信息。由于人脸识别模型基于遮挡训练集训练获得，因此人脸识别模型能够识别有遮挡的人脸。而且人脸识别模型中的混合注意力模块能够确定由预设倒残差块输入的第一特征图中的各通道对应的权重以及各位置对应的权重，并基于第一特征图和第一特征图中的各通道对应的权重以及各位置对应的权重，得到第二特征图。由于第一特征图中的各通道对应的权重用于表示第一特征图各通道对于提取人脸特征向量的重要程度，且第一特征图中的各位置对应的权重用于表示第一特征图各位置对于提取人脸特征向量的重要程度，因此模型提取特征的过程中能够为提取的不同通道以及不同位置的特征赋予不同的权重，使得模型能够重点关注未遮挡区域，从而提升对有遮挡人脸图像的识别准确性。可见本发明实施例实现了端到端的识别，在人脸识别过程中不需要采用生成对抗模型，因此减小了人脸识别方法的复杂度，提高了识别效率。

在本发明实施例中，混合注意力模块包括：通道注意力模块和多个空间注意力模块。参见图2，图2中黑色的长方体表示特征图，其中，C和G分别表示特征图的通道数，g表示分组数，H表示特征图的高，W表示特征图的宽，包含C的圆圈表示拼接处理。参见图2，第一特征图经过通道注意力模块后，得到的特征图有C个通道，这C个通道被分为g组，每组包含G个通道，虚线框表示将一组通道输入空间注意力模块进行处理，共有g个虚线框，图2中仅示出2个，然后将经过g个空间注意力模块得到的特征图进行拼接，得到第二特征图。从图2中可以看出，经过混合注意力模块处理前后的特征图大小和通道数不变，均为C×H×W。

以下结合图2，对混合注意力模块确定第二特征图的步骤进行具体说明。

步骤一，通过通道注意力模块确定第一特征图中的各通道对应的权重，对第一特征图与第一特征图中的各通道对应的权重进行求和，得到通道特征图。

步骤二，按照预设的分组规则，将通道特征图包括的通道划分为多组通道。

如图2所示，通道注意力模块输出的通道特征图的通道数为C＝g×G，将通道特征图划分为g组，每组包括的通道数G相同，且大小H×W相同。

步骤三，将通道特征图的每组通道分别输入一个空间注意力模块，通过空间注意力模块确定该组通道中的各位置对应的权重，并基于该组通道和该组通道中的各位置对应的权重，得到该组通道的空间特征图。

在本发明实施例中，特征图的位置指的是特征图的三维空间位置。一组通道中各位置对应的权重为该组通道的空间注意力，可以表征空间中不同位置上的特征对于提取人脸特征向量的重要程度，依据权重能够对不同空间位置的特征进行强化或者抑制。

如图2所示，将每组通道输入一个空间注意力模块，得到一个空间特征图，利用g个空间注意力模块，共能得到g个空间特征图。

步骤四，拼接各组通道的空间特征图，得到第二特征图。

第二特征图如公式(1)所示：

其中，

为第二特征图，

表示第1组通道的空间特征图，

表示第2组通道的空间特征图，以此类推，

表示第g组通道的空间特征图，concat表示拼接处理。

可以看出，本发明实施例中的混合注意力模块能够识别特征图不同通道对应的权重，以及特征图不同位置对应的权重，赋予各通道和各位置权重后，能够重点关注包含信息量更多的通道和位置，减少通道间的信息冗余，让模型更加关注对未遮挡的人脸区域的特征学习，提升模型识别准确度。

在进行人脸特征提取时，口罩等遮挡物会导致丢失大量的脸部特征，而面部特征是离散分布的，每个脸部区域的特征所包含的信息量不同，未遮挡区域相比其他位置包含了更多的身份信息，在识别网络中引入注意力机制可以使网络重点关注人脸图像的细节特征，将原先的平均分配资源转为根据关注对象的重要程度进行重新分配，即对模型中不同部分赋予不同权重，从而从人脸图像中提取关键特征信息。

相关技术的第二类研究方向中，在人脸识别模型中引入的CBAM或者SENet注意力结构的计算开销较大，难以应用在移动设备中。

而本发明实施例提供的混合注意力模块是一种轻量级混合注意力模块(Lightweight Hybrid Attention Module，LHAM)，以下结合图3和图4进行具体说明。

通道注意力模块处理第一特征图的过程如图3所示，图3中黑色的长方体或长方形表示特征图，C表示特征图的通道数，H表示特征图的高，W表示特征图的宽，⊙表示点乘，

表示按位相加，按位相加指的是将矩阵中相同位置上的数值相加。箭头上方和下方的文字表示对特征图的处理。例如图3左下方的箭头上方的文字“PWConv”表示点卷积(PointwiseConv，PWConv)。

一种实施方式中，参见图3，通道注意力模块对第一特征图的处理包括以下步骤：

步骤1，对第一特征图依次进行点卷积(PWConv)、平均池化(average pooling，AvgPool)、维度转换(transpose)和归一化(Softmax)处理，得到第一分支特征图。

在图3中，PWConv括号中的表达式1×1表示点卷积的卷积核大小，AvgPool括号中的表达式2×2表示平均池化的过滤器大小，transpose括号中的表达式

或者

表示转换的维度。

第一分支特征图如公式(2)所示：

A_out＝Softmax(transpose(AvgPool^2×2(PWConv^1×1(F_in)))) (2)

其中，A_out为第一分支特征图，F_in为第一特征图。

在本发明实施例中，对第一特征图执行的点卷积处理用于对第一特征图的通道进行降维。例如，图3中在左下方的点卷积处理之前，特征图的通道数为C，该点卷积处理之后，特征图的通道数降为1。

平均池化处理用于压缩特征图的大小。例如，图3中左下方的平均池化处理卷积核大小为2×2，步长为2，在AvgPool之前，特征图大小为H×W，在AvgPool之后，特征图大小为

维度转换处理用于改变特征图的维度。

归一化处理用于将特征图的数值限定在一定范围内，例如[0，1]的范围，目的是使得各通道对应的权重的和为1。

步骤2，将第一特征图进行平均池化(AvgPool)和维度转换(transpose)处理，得到第二分支特征图。

如图3所示，经维度转换transpose

处理后，由于需要转换成

维度，使得得到的第二分支特征图为二维矩阵。

第二分支特征图如公式(3)所示：

其中，

为第二分支特征图，F_in为第一特征图。

在本发明实施例中步骤1和步骤2仅用于区分两个步骤，不用于限定两个步骤处理的先后顺序，步骤1和步骤2可以同时执行，也可以先后执行。

步骤3，计算第一分支特征图与第二分支特征图的乘积，作为全局特征图。

在本发明实施例中，第一特征图是三维矩阵，第二特征图是二维矩阵，第一分支特征图与第二分支特征图的乘积的计算方式为二维矩阵和三维矩阵的点乘。

在本发明实施例中，得到第一分支特征图或第二分支特征图之前经过的维度转换处理，是为了方便计算第一分支特征图与第二分支特征图的乘积。

步骤4，对全局特征图依次进行点卷积(PWConv)和扩张(Expand)处理后，得到第一特征图中的各通道对应的权重。

在本发明实施例的步骤4中，扩张处理指的是扩张特征图的大小。如图3所示，在Expand之前，特征图的通道数为C，大小为1×1，在Expand之后，特征图的通道数依然为C，大小为H×W。

步骤5，将第一特征图中的各通道对应的权重与第一特征图相加，得到通道特征图。

通道特征图如公式(4)所示：

其中，F_out为通道特征图，

为第二分支特征图，A_out为第一分支特征图，F_in为第一特征图，

表示按位相加。

从图3中可以看出，第一特征图中的各通道对应的权重的通道数C、高H和宽W均与第一特征图相同，即经过通道注意力模块处理前后的特征图大小和通道数不变。

相关技术中，SENet模块采用尺度变换的方法对通道的重要性进行重标定，但缺少关注通道之间的关系。

非本地网络(Non-local Networks，NLNet)中注意力模块在计算每个位置的注意力图时，都需要对特征图中所有位置进行加权平均，时间和空间复杂度都是位置数量的平方级别，如此重量级的模块难以集成到轻量级骨干网络中。

在卷积神经网络中，特征图的每个通道对应着不同的卷积核，过多的通道数会导致信息冗余，本发明实施例通过在网络中引入通道注意力模块可以为不同的通道赋予不同的权重，以突出更具辨识性的特征，并通过聚合特征图其他位置的信息来增强指定位置的特征，可以有效地利用全局特征图。

本发明实施例中的通道注意力模块，通过将点卷积和扩展处理后的全局特征图聚合到第一特征图的所有位置，来捕获通道之间的远程依赖关系。并对特征图执行平均池化处理，压缩特征图的大小，减少参数量，降低后续对特征图的计算耗时；而且在点乘计算后，利用点卷积替换传统的全连接层，达到特征变换的目的，由于1×1的点卷积计算量小，因此减少了通道注意力模块的计算量。

而且本发明实施例中的通道注意力模块通过为各通道共享全局注意力图，即共享全局特征图，来减少计算量，通道注意力模块的参数数量少且计算复杂度低，从而可以在轻量级骨干网络MobileNet-V2中应用。

空间注意力模块处理通道特征图中一组通道的过程如图4所示，图4中，黑色的长方体或长方形表示特征图，G表示特征图的通道数，H表示特征图的高，W表示特征图的宽，

表示按位相乘，按位相乘指的是将矩阵中相同位置上的数值相乘，

表示按位相加，箭头上方和下方的文字表示对特征图的处理。

在本发明实施例中，利用空间注意力模块是为了捕获特征图中跨通道的不同空间之间的非线性依赖关系。参见图4，针对通道特征图的一组通道，通过一个空间注意力模块执行以下步骤：

步骤I，对该组通道进行深度卷积(Depthwise Conv，DWConv)处理，得到深度特征图。

图4中，DWConv括号中的表达式1×1表示深度卷积的卷积核大小。

步骤II，将深度特征图分别进行最大池化(Max pooling，MaxPool)和平均池化(AvgPool)处理后相加，得到池化特征图。

图4中，MaxPool括号中的表达式3×3表示最大池化的过滤器大小，AvgPool括号中的表达式3×3表示平均池化的过滤器大小，AvgPool的步长为1，填充为1。

池化特征图如公式(5)所示：

其中，

为池化特征图，F′_in为通道特征图，

表示按位相加。

步骤IⅡ，将池化特征图分别进行点卷积(PWConv)、归一化(Softmax)和扩张(Expand)处理，得到该组通道中的各位置对应的权重。

一组通道中的各位置对应的权重如公式(6)所示：

其中，

为第i组通道中的各位置对应的权重，

为池化特征图。

在本发明实施例的步骤IⅡ中，扩张处理指的是扩张特征图的通道数。如图4所示，在Expand之前，特征图的通道数为1，大小为H×W，在Expand之后，特征图的通道数为G，大小为H×W。

步骤IV，计算通道特征图与该组通道中的各位置对应的权重的乘积，再将计算结果与通道特征图相加，得到该组通道的空间特征图。

一组通道的空间特征图如公式(7)所示：

其中，

为第i组通道的空间特征图，

为第i组通道中的各位置对应的权重，F′_in为通道特征图，

表示按位相乘，

表示按位相加。

从图4中可以看出，经过空间注意力模块处理前后的特征图大小和通道数不变，均为G×H×W。

本发明实施例为了能够适用于MobileNet-V2这种轻量级结构，将特征图划分为g个互斥的组，其中每个组包含G个通道的特征图，在计算空间特征图时，对于每个特征图子空间仅使用一个注意力图，即仅使用该组通道中的各位置对应的权重，可以大大降低计算量。

在本发明实施例中，g的取值对空间注意力模块的识别性能具有直接的影响。当g＝1时，只有一个分组，此时整个特征图的跨通道空间信息被单个注意力图捕获，而单个注意力图不足以捕捉整个特征空间中的复杂依赖关系，而且会导致预测性能的下降；当g＝C时，有C个分组，即为特征图的每个通道生成单独的注意力图，此时每个注意力图一个二维特征图，沿着通道维度无法学习，因此注意力图无法捕捉到跨通道的空间信息，生成注意力图的过程会退化为特征图本身的非线性转换。因此当1<g<C时，可以更好地捕获跨通道的空间信息，从而增强空间注意力的表达能力。

可选的，g的值可以根据实际情况设置。例如，可以将g的值设置为4或6。

在本发明实施例中，在有效地学习跨通道的空间信息的同时，将特征图映射划分为互斥的组不会产生任何额外的参数或开销，即存储和计算成本只取决于通道的数量，与所形成的组的数量无关。

可选的，在上述步骤103提取人脸特征之前，还可以对人脸区域进行人脸对齐，即将人脸图像旋转平移变换到一个标准人脸框中，再进行后续的识别，人脸对齐处理能够减少人的姿态、表情、遮挡等因素对人脸识别的影响。

本发明实施例利用空间变换网络(Spatial Transformer Networks，STN)实现人脸对齐。其中，STN是一个可学习的网络，用于进行空间操作，例如仿射变换等，将STN添加到人脸识别模型的前端，可以起到人脸对齐的作用，STN可以跟随人脸识别模型一同训练。

在本发明的一个实施例中，上述步骤102确定待识别图像中的人脸区域的方式包括：将待识别图像输入人脸检测模型，基于人脸检测模型输出的待识别图像中人脸区域的中心点和尺寸，确定人脸区域。

其中，人脸检测模型为基于遮挡训练集对目标检测网络训练后得到的模型，目标检测网络为：将目标检测算法(Single Shot MultiBox Detector，SSD)中的骨干网络设置为MobileNet中用于提取特征的网络层的网络。

可选的，目标检测算法中的MobileNet可以为MobileNet-V2，MobileNet-V2的网络结构表一所示。表一中的t为瓶颈块(bottleneck)中的膨胀系数，c为通道数，n为bottleneck中包含的倒残差块个数，s为卷积的步长。

其中，bottleneck由一个或多个倒残差块组成，每个倒残差块由卷积核为1×1的点卷积、卷积核为3×3的深度卷积以及卷积核为1×1的点卷积串联组成。

表一

输入的特征图的大小×通道数	操作	t	c	n	s
						224<sup>2</sup>×3	conv2d 3×3	-	32	1	2
112<sup>2</sup>×32	bottleneck	1	16	1	1
						112<sup>2</sup>×16	bottleneck	6	24	2	2
56<sup>2</sup>×24	bottleneck	6	32	3	2
						28<sup>2</sup>×32	bottleneck	6	64	4	2
14<sup>2</sup>×64	bottleneck	6	96	3	1
						14<sup>2</sup>×96	bottleneck	6	160	3	2
7<sup>2</sup>×160	bottleneck	6	320	1	1
						7<sup>2</sup>×320	conv2d 1×1	-	1280	1	1
7<sup>2</sup>×1280	avgpool 7×7	-	-	1	-
						1<sup>2</sup>×1280	conv2d 1×1	-	k	-	-

表一中conv2d表示卷积，conv2d后面的表达式3×3或者1×1表示卷积核大小。avgpool 7×7表示过滤器大小为7×7的平均池化。

每个倒残差块为一个网络层，从表一中可以看出，MobileNet-V2共有21个网络层，其中在平均池化层之前，共有两层卷积层和17层倒残差块，两层卷积层分别为MobileNet-V2的第一层和平均池化层的前一层。

MobileNet-V2中，第1层至第19层用于提取输入图像的特征，第20和21层用于对图像进行分类。本发明实施例将SSD中的骨干网络设置为MobileNet中用于提取特征的网络层，即将SSD中的骨干网络设置为MobileNet-V2的前19层。

传统的SDD算法中的骨干网络为VGG16网络，VGG16为牛津大学的视觉集合小组(Visual Geometry Group)提出的一种网络，其网络层数为16。VGG16网络的计算开销大，不适用于移动设备的人脸识别。

本发明实施例提供的人脸检测模型是基于改进后的MobileNet-V2-SSD算法，改进后的SSD的骨干网为MobileNet-V2中的网络层，由于MobileNet-V2的参数量和计算量较小，使得改进后的人脸检测模型更适用于移动设备的人脸识别。

在MobileNet-V2中，卷积操作采用尺寸为1×1或3×3的卷积核，虽然选用较小的卷积核尺寸可以减少计算量，但是在网络的前几层输入特征图分辨率较高的情况下，小尺寸卷积核的局部感受野小，捕捉到的有效特征少。而如果选择较大的卷积核尺寸以增大局部感受野，但网络的参数量和计算量也随之增大。

本发明实施例为了在不增加网络参数量和计算量的同时，扩大网络前预设数量的网络层的感受野，采用扩张率为2的空洞卷积代替网络前预设数量的网络层的标准卷积。

例如，图5左边的图是标准的卷积过程，图5左边的图下方的正方形为被卷积的特征图，特征图中间实线正方形表示输入的特征图，虚线部分表示为匹配卷积核尺寸对特征图补零的部分。图5左边的图上方的正方形为卷积核，卷积核大小为3×3。该卷积操作为将被卷积的特征图中3×3的特征卷积为1个特征点，例如将特征图左上方3×3的特征卷积为一个特征点，其感受野大小为3×3。

空洞卷积通过在卷积核中非零数值中间插入零值扩大该卷积核的感受野。图5右边的图是扩张率为2的空洞卷积过程，图5右边的图下方的正方形为被卷积的特征图，上方的正方形为卷积核，卷积核大小为3×3。该空洞卷积操作为等间隔地选择特征图中的采样点，并卷积为一个特征点，由于采样间隔为2，使得该空洞卷积的感受野大小为5×5。从图5可以看出，空洞卷积可以扩大卷积核的感受野，且不会增加卷积核的参数量。

可选的，扩大感受野的网络层数可以为3，即预设数量＝3。在预设数量为3时，对于MobileNet-V2的第1层，该层为卷积层，将卷积步长设置为1，并使用扩张率为2的空洞卷积核代替尺寸为3×3的标准卷积核。第1层原本卷积步长为2，输出的特征图维度为112×112×32；采用空洞卷积后，第1层输出的特征图维度为224×224×32。为了保证后续特征图尺寸与原网络一致，再针对将MobileNet-V2的第2层，该层为倒残差块，将第2层中的深度卷积步长设置为2。并针对MobileNet-V2的第2层和第3层，这两层为倒残差块，使用扩张率为2的空洞卷积核代替第2层和第3层原有的深度卷积层中的深度卷积核。

本发明实施例利用空洞卷积核在不增加参数量的前提下可增大卷积核感受野，提高MobileNet-V2的特征提取能力，提高了本发明实施例中的人脸检测模型的检测准确性。

图6A为相关技术中的VGG16-SSD网络结构，图6B为本发明实施例提供的MobileNet-V2-SSD网络结构。其中，图6A和图6B中，每个网络从上往下的第一个虚线框表示骨干网。实线直线和实线折线箭头表示特征图的传递方向，虚线曲线箭头表示包含关系。例如，由Conv8_1指向方框，表示Conv8_1这一卷积操作包括对输入的特征图进行卷积(conv)、批量归一化(Batch Normalization，bn)和线性整流函数(Rectified Linear Unit,ReLU)处理，其中卷积处理的卷积核大小为1×1，步长(Stride)为1。Conv表示卷积处理，Conva_b表示第a个卷积层的第b个卷积操作，例如，Conv8_1表示第8个卷积层的第1个卷积操作。Conv6(FC6)表示第6个卷积层6中用卷积操作实现全连接(Fully Connected，FC)功能，Conv7(FC7)表示第7个卷积层中用卷积操作实现FC功能。虚线框中的长方形表示卷积操作，这种长方形左侧的表达式表示卷积操作输出的特征图维度。虚线框中的操作需要串联，图6A和图6B中未示出。

SSD是一种性能较为出色的单阶段目标检测算法，其主要优点是计算速度快。从图6A中可以看出现有的VGG16-SSD网络采用VGG16作为提取特征的骨干网络，输入网络的图像依次经过VGG16、5个卷积层、目标检测(Detections)和极大值抑制(Non-MaximumSuppression，NMS)处理后输出。其中，5个卷积层指的是图6A中骨干网下方的卷积层6和卷积层7组成的一个卷积层，以及卷积层8、卷积层9、卷积层10和卷积层11。

VGG16-SSD中提取的多比例特征图为输入Detections的6个不同尺寸的特征图，分别来自于网络的不同网络层，使得网络能够检测多比例对象。对Detections输出的特征图进行Non-Maximum Suppression，即对Detections输出的重叠的检测结果，选择置信度最大的检测结果输出。其中，检测结果为人脸区域中心点和尺寸，检测结果重叠表示多组中心点和尺寸所表示的区域重叠。

如图6B所示，本发明实施例提供的MobileNet-V2-SSD对于输入的特征图依次经过优化的移动网络版本2(Optimized MobileNet-V2)、4个卷积层、特征金字塔网络(FeaturePyramid Networks，FPN)、Detections和Non-Maximum Suppression处理后输出。其中，Optimized MobileNet-V2为MobileNet-V2的前19个网络层，且这19个网络层中前3层采用空洞卷积替换标准卷积。4个卷积层指的是图6B骨干网下方的卷积层20、卷积层21、卷积层22和卷积层23。

从图6A和图6B中可以看出，本发明实施例提供的MobileNet-V2-SSD中，利用Optimized MobileNet-V2替换SSD中的VGG16，且在Detections之前加入FPN。本发明实施例提供的MobileNet-V2-SSD提取的多比例特征图为输入FPN的6个不同尺寸的特征图，分别来自于网络的不同网络层。MobileNet-V2-SSD对这6个特征图进行FPN处理后依次进行Detections和NMS处理后输出。

以下通过表二对比两种网络提取的多比例特征图的维度。

表二

其中，深度表示网络层提取的特征图的相对深度，越靠近网络输入的网络层提取的特征图深度越浅，越靠近网络输出的网络层提取的特征图深度越深。

从表二中可以看出，本发明实施例提供的MobileNet-V2-SSD提取的特征图尺寸小于VGG16-SSD提取的特征图尺寸，因此本发明实施例减少了人脸检测模型的计算量。

如表二所示，在提取深度相同时，MobileNet-V2网络的特征图检测范围接近VGG16网络的一半，即提取的特征图的大小接近VGG16网络提取的特征图大小的一半，导致MobileNet-V2网络的检测精度较低。另一方面，MobileNet-V2网络中提取的特征图尺寸还包括38×38，但是本发明实施例没有将该特征图输入FPN，是因为提取38×38特征图的网络层较浅，提取到的语义信息较少，特征提取不充分。

为了在不增加参数量的情况下提高检测精度，本发明实施例在SSD中增加FPN，对提取的多比例特征图进一步融合。

FPN是一种利用特征金字塔实现目标检测的算法，图7左边的图为SSD中的Detections的预测方式，图7右边的图为FPN的预测方式。其中，图7左边的图以及图7右边的图中左边最底层四边形为输入的一张特征图，其他的四边形为对输入的特征图提取的特征图。

如图7左边的图所示，Detections对原始特征图依次进行三次特征提取，得到三张特征图，并分别基于这三张特征图进行预测(predict)。

如图7右边的图所示，FPN对原始特征图依次进行三次特征提取，得到三张特征图。并对左边第一张特征图进行特征提取，得到右边第一张特征图；融合右边第一张特征图和左边第二张特征图，得到右边第二张特征图；融合右边第二张特征图和左边第三张特征图，得到右边第三张特征图。并分别基于右边三张特征图进行预测。

融合特征图的方式如图8所示，图8中两个对应的虚线矩形框表示将面积较小的虚线矩形框内的操作放大，放大后的操作如面积较大的虚线矩形框所示。放大是为了更清楚地展示融合操作。

融合时首先使用卷积核为1×1卷积(conv)操作统一两张特征图的通道数，再使用步长为2的上采样(2x up)统一两张特征图的大小，并将它们加在一起，得到融合的特征图。

可选的，在本发明实施例中，可以在FPN中添加倒残差块，即在图8中2x up之后加入倒残差块，倒残差块结构图为图6B右上角步长为1的倒残差块，加入倒残差块更有利于特征图融合过程中的信息传输。

本发明实施例在SSD算法中引入FPN以融合提取的多比例特征图，提高了人脸检测性能。

基于上述MobileNet-V2-SSD网络结构，本发明实施例中的人脸检测模型识别人脸区域的中心点和尺寸的过程包括：

步骤(一)，将待识别图像输入骨干网络，得到骨干网络识别的特征图。

步骤(二)，对骨干网络识别的特征图进行多次卷积，得到卷积后的特征图。

如图6B所示，将骨干网络识别的特征图依次经过卷积层20-23，得到卷积后的特征图。

在本发明实施例中，对骨干网识别的特征图依次经过多个卷积层的卷积处理后，各卷积层输出的特征图的尺寸不同。例如，图6B所示，卷积层20输出的特征图尺寸为5×5×512，卷积层21输出的特征图尺寸为3×3×256，卷积层22输出的特征图尺寸为2×2×256，卷积层23输出的特征图尺寸为1×1×256。可见卷积层20-23输出的特征图的尺寸各不相同。

步骤(三)，将卷积后的特征图进行特征金字塔处理，并将特征金字塔的处理结果依次进行目标检测和非极大值抑制处理，得到待识别图像中人脸区域的中心点和尺寸。

本发明实施例提供的MobileNet-V2-SSD由于骨干网络为轻量级网络结构，更加适用于应用在移动设备中。

本发明实施例可以应用在实时识别监控区域内的人员身份场景中，此时人员身份识别的过程如图9所示，包括如下步骤：

步骤(1)，运动检测模块检测拍摄图像中是否存在运动的对象；若存在运动的对象，则将包含运动的对象的图像发送到人脸检测模块和人脸跟踪模块。

一种实施方式中，运动检测模块在接收到拍摄的图像后，针对每一个图像，将该图像与之前接收到的图像进行对比，查找有运动的区域，得到运动强度图。

在本发明实施例中，可以将一个图像与上一帧图像做帧差，用0或1标记图像中每个像素的变化情况，1表示像素有变化，0表示像素无变化，0和1组成的二维矩阵称为运动强度图。通过运动强度图可以得到像素值变化较大的区域。将当前计算的运动强度图与历史计算的运动强度图加权相加，可以得到在一段时间内运动变化剧烈的区域。

在本发明实施例中，可以检测摄像机拍摄的视频，在移动设备上进行人脸识别时，由于摄像机可能在大量的时间拍摄的画面中没有人，但若系统一直处于检测状态，则导致系统进行大量的无意义计算，使得系统经常处于高负载状态，造成更多的资源浪费。因此本发明实施例通过低功耗的运动检测模块判断是否进入后续的检测和识别阶段。

本发明实施例通过运动检测可以大大降低移动设备在运行人脸识别系统时的平均功耗，同时减少人脸检测模型对系统带来的误检测。

步骤(2)，人脸检测模块接收到图像后，确定图像中的人脸区域，并将人脸区域的坐标信息、置信度和人脸图像更新到人脸容器中。

一种实施方式中，人脸检测模块接收运动监测模块发送的图像，采用本发明实施例提供的上述人脸检测方法，检测出图像中各人脸所在的人脸区域，通过矩形框的方式标出图像帧中的人脸框，即人脸区域所在位置的坐标以及长和宽。人脸检测模块将检测出的人脸框坐标信息和置信度更新到人脸容器中，并更新人脸容器中的人脸图像。

可选的，本发明实施例可以应用在人脸跟踪场景，例如识别火车站、汽车站等区域内的人脸，此时处于人脸跟踪状态，人脸检测模块每隔4帧检测一次，以获得图像帧中新加入的人脸，并根据重叠率判断是否与人脸容器中的已跟踪的人脸合并。

可选的，本发明实施例可以应用在人脸识别场景，例如识别门禁系统拍摄到的人脸，此时处于人脸识别状态，尺寸较小的人脸不被检测，使得人脸检测过程被简化，可以节省计算量。

步骤(3)，人脸跟踪模块根据人脸容器中的人脸区域的坐标信息，确定人脸检测模块发送的图像帧中的人脸区域，并进行跟踪，更新人脸容器中的人脸区域的坐标信息、置信度和人脸图像。若更新后的置信度大于预设阈值，则跟踪成功；若更新后的置信度不大于预设阈值，则跟踪失败，不再进行跟踪。

一种实施方式中，当人脸检测模块在人脸容器中新加入人脸时，初始化该人脸对应的一个人脸跟踪模块，由该人脸跟踪模块跟踪该人脸，并更新人脸容器中的该人脸的人脸区域的坐标信息、置信度和人脸图像。

可选的，若跟踪失败，可以将跟踪失败的人脸区域的坐标信息、置信度和人脸图像删除，以节约存储资源。

在本发明实施例中，人脸检测模块可以为相关滤波器，相关性在信号处理中可以衡量两个信号之间相似程度，两个信号越相似，它们之间的相关性越高。本发明实施例根据当前图像的信息和之前图像的信息训练出相关滤波器，使其在目标上的响应值最大，对新输入的图像进行相关性计算，得到置信度图，置信度图中得分最高的位置为预测的目标的位置。

步骤(4)，人脸特征提取模块在检测到人脸容器中存在新的人脸图像后，利用人脸识别模型识别人脸图像的人脸特征，得到人脸特征向量。

步骤(4)中的人脸识别模型为本发明实施例提取人脸特征的人脸识别模型。

步骤(5)，人脸对比模块根据身份数据库中存储的人脸特征向量与身份信息之间的对应关系，查找与步骤(4)得到人脸特征向量匹配的人脸特征向量对应的身份信息。

一种实施方式中，计算步骤(4)得到的人脸特征向量与身份数据库中存储的人脸特征向量之间的相似度，确定相似度最大的人脸特征向量，并将确定的人脸特征向量对应的身份信息，作为步骤(4)识别的人脸图像对应的身份信息。

本发明实施例提供的人脸识别方法不但能够应该在离线的场景中，还能够应用在实时识别的场景。而且利用轻量级的混合注意力模块重点关注对未遮挡的人脸区域的学习，在存在局部人脸遮挡的场景下能够实现快速准确的人脸检测和识别，同时保持较小参数量和计算量，方便在移动设备中的部署。

以下结合图10和图11对本发明实施例提供的人脸识别方法的识别效果进行分析：

本发明实施例在人脸检测模型以及人脸识别模型的训练和测试阶段使用的样本图像均来自武汉大学提出的真实世界遮挡人脸数据集(Real-World Masked FaceDataset，RMFD)。RMFD包括遮挡人脸检测数据集(Masked Face Detection Dataset，MFDD)和真实世界遮挡人脸识别数据集(Real－World Masked Face Recognition Dataset，RMFRD)。其中，MFDD中共包括24771张口罩遮挡人脸样本，其中一部分样本来自相关研究，另一部分样本从互联网中获取。RMFRD包括5千张口罩遮挡的人脸样本和9万张未遮挡人脸样本，且均从网络中获取。

本发明实施例提供的基于MobileNet-V2-SSD的人脸检测模型在RMFD上的F1分数为91.54％，检测速度为82.15FPS，模型尺寸22.9MB。其中，FPS为每秒传输帧数(Frames PerSecond)，MB为兆字节(Megabytes)。

本发明实施例提供的人脸识别方法的检测效果如图10所示，从不同角度拍摄到的人脸均能被识别。图10中人脸部分的方框表示识别出的人脸区域，方框上方的数字表示识别的置信度，图10左边方框对应的置信度为0.9，中间方框对应的置信度为0.8，右边方框对应的置信度为0.58。而且图10中人脸区域中的圆点表示识别和预测的面部特征所在位置。从图10中可以看出本发明实施例在不同的人脸角度下均能取得较好的识别成功率。

本发明实施例提供的人脸识别模型将混合注意力模块插入MobileNet-V2网络来进行口罩遮挡人脸特征识别。一般而言，更深的网络层提取的特征图具有更多的语义信息且更能够表征全局特征，因此，本发明实施例将混合注意力模块添加在MobileNet-V2网络中更深的网络层之间，使得网络能够更好地学习全局特征的交互作用。从表一中可以看出，MobileNet-V2网络从第2层到第18层具有倒残差模块，且具有配置相同的重复瓶颈块，因此，本发明实施例在MobileNet-V2网络的13-17层之间插入混合注意力模块，以有效地学习跨通道交互。实验显示，当混合注意力模块插入MobileNet-V2网络第16与17层之间时，分组数g选择8时，F1分数值取得最高值95.07％，检测速度为76FPS，模型尺寸5.68MB。

本发明实施例提供的人脸识别方法的识别效果如图11所示。图11中人脸部分的方框表示识别出的人脸区域，方框上方的数字表示识别的置信度，图11左边方框对应的置信度为0.87，中间方框对应的置信度为0.67，右边图像未被识别。由于人脸识别模型对于人脸中的眼部信息关注较多，因此当眼部能够完全被识别时可以取得较高的置信度，当对眼部进行遮挡时，置信度大幅下降，完全遮挡眼部等其余人脸区域时，拒绝识别。

基于相同的发明构思，对应于上述方法实施例，本发明实施例提供了一种人脸识别装置，如图12所示，该装置包括：获取模块1201、确定模块1202和输入模块1203；

获取模块1201，用于获取待识别图像；

确定模块1202，用于确定获取模块1201获取的待识别图像中的人脸区域；

输入模块1203，用于将确定模块1202确定的人脸区域的图像输入人脸识别模型，通过人脸识别模型中的预设倒残差块将输出的第一特征图输入混合注意力模块，通过混合注意力模块确定第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，将第二特征图输入下一个倒残差块；其中，人脸识别模型为基于遮挡训练集对预设识别网络训练后得到的模型，预设识别网络为引入混合注意力模块的MobileNet，遮挡训练集包括多张被局部遮挡的人脸图像以及每张人脸图像对应的人脸身份标识，第一特征图中的各通道对应的权重用于表示第一特征图各通道对于提取人脸特征向量的重要程度，第一特征图中的各位置对应的权重用于表示第一特征图各位置对于提取人脸特征向量的重要程度；

获取模块1201，还用于获取人脸识别模型输出的人脸区域的图像的人脸特征向量；

确定模块1202，还用于基于获取模块1201获取的人脸特征向量确定人脸区域的图像对应的人员的身份信息。

可选的，混合注意力模块包括：通道注意力模块和多个空间注意力模块；输入模块1203，具体用于：

通过通道注意力模块确定第一特征图中的各通道对应的权重，对第一特征图与第一特征图中的各通道对应的权重进行求和，得到通道特征图；

按照预设的分组规则，将通道特征图包括的通道划分为多组通道；

将通道特征图的每组通道分别输入一个空间注意力模块，通过空间注意力模块确定该组通道中的各位置对应的权重，并基于该组通道和该组通道中的各位置对应的权重，得到该组通道的空间特征图；

拼接各组通道的空间特征图，得到第二特征图。

可选的，输入模块1203，具体用于：

通过通道注意力模块执行以下步骤：

对第一特征图依次进行点卷积、平均池化、维度转换和归一化处理，得到第一分支特征图；

将第一特征图进行平均池化和维度转换处理，得到第二分支特征图；

计算第一分支特征图与第二分支特征图的乘积，作为全局特征图；

对全局特征图依次进行点卷积和扩张处理后，得到第一特征图中的各通道对应的权重；

将第一特征图中的各通道对应的权重与第一特征图相加，得到通道特征图。

可选的，输入模块1203，具体用于：

针对通道特征图的一组通道，通过一个空间注意力模块执行以下步骤：

对该组通道进行深度卷积处理，得到深度特征图；

将深度特征图分别进行最大池化和平均池化处理后相加，得到池化特征图；

将池化特征图分别进行点卷积、归一化和扩张处理，得到该组通道中的各位置对应的权重；

计算通道特征图与该组通道中的各位置对应的权重的乘积，再将计算结果与通道特征图相加，得到该组通道的空间特征图。

可选的，确定模块1202，具体用于：

将待识别图像输入人脸检测模型；

基于人脸检测模型输出的待识别图像中人脸区域的中心点和尺寸，确定人脸区域；

其中，人脸检测模型为基于遮挡训练集对目标检测网络训练后得到的模型，目标检测网络为：将目标检测算法SSD中的骨干网络设置为MobileNet中用于提取特征的网络层的网络。

可选的，确定模块1202，具体用于通过人脸检测模型执行：

将待识别图像输入骨干网络，得到骨干网络识别的特征图；

对骨干网络识别的特征图进行多次卷积，得到卷积后的特征图；

将卷积后的特征图进行特征金字塔处理，并将特征金字塔的处理结果依次进行目标检测和非极大值抑制处理，得到待识别图像中人脸区域的中心点和尺寸。

本发明实施例还提供了一种电子设备，如图13所示，包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器1303通过通信总线1304完成相互间的通信，

存储器1303，用于存放计算机程序；

处理器1301，用于执行存储器1303上所存放的程序时，实现上述方法实施例中的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人脸识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一人脸识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

获取待识别图像；

确定所述待识别图像中的人脸区域；

2.根据权利要求1所述的方法，其特征在于，所述混合注意力模块包括：通道注意力模块和多个空间注意力模块；通过所述混合注意力模块确定所述第一特征图中的各通道对应的权重以及各位置对应的权重，并基于各通道对应的权重以及各位置对应的权重得到第二特征图，包括：

拼接各组通道的空间特征图，得到所述第二特征图。

3.根据权利要求2所述的方法，其特征在于，所述通过所述通道注意力模块确定所述第一特征图中的各通道对应的权重，对所述第一特征图与所述第一特征图中的各通道对应的权重进行求和，得到通道特征图，包括：

通过所述通道注意力模块执行以下步骤：

4.根据权利要求2所述的方法，其特征在于，所述通过所述空间注意力模块确定该组通道中的各位置对应的权重，并基于该组通道和该组通道中的各位置对应的权重，得到该组通道的空间特征图，包括：

对该组通道进行深度卷积处理，得到深度特征图；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述待识别图像中的人脸区域，包括：

将所述待识别图像输入人脸检测模型；

6.根据权利要求5所述的方法，其特征在于，所述人脸检测模型通过以下步骤识别所述待识别图像中人脸区域的中心点和尺寸：

7.一种人脸识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像；

8.根据权利要求7所述的装置，其特征在于，所述混合注意力模块包括：通道注意力模块和多个空间注意力模块；所述输入模块，具体用于：

拼接各组通道的空间特征图，得到所述第二特征图。

9.根据权利要求8所述的装置，其特征在于，所述输入模块，具体用于：

通过所述通道注意力模块执行以下步骤：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一项所述的方法步骤。