CN116884074A

CN116884074A - 一种基于混合注意力机制的轻量级人脸识别方法

Info

Publication number: CN116884074A
Application number: CN202310915571.7A
Authority: CN
Inventors: 王伟胜; 李泽宁; 邹卓
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-13

Abstract

本发明涉及计算机视觉技术与人脸识别领域，具体涉及一种基于混合注意力机制的单图像轻量级人脸识别方法。具体表现为提出深度可分离卷积模块DSCM(Depthwise Separable Convolution Module)，替代FaceNet网络中的常规卷积操作，大幅减少参数量和计算量，然后引入混合注意力模块CBAM(Convolutional Block Attention Module)，会在空间上学习识别“重要”区域，并且在通道上自适应地重新校准输入特征的通道重要性，得到更准确的图像特征，进而提升人脸识别模型的性能，最终使得模型在速度和精度之间达到一种更好的平衡。

Description

一种基于混合注意力机制的轻量级人脸识别方法

技术领域

本发明涉及计算机视觉技术与人脸识别领域，具体涉及一种基于混合注意力机制的单图像轻量级人脸识别方法。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术。但是由于基于深度学习的人脸识别方法大多极为复杂，存在冗余的计算量以及庞大的参数量，需要拥有强大内存的图形处理器，严重依赖于设备的存储及运算能力，这就使得许多移动端以及嵌入式设备上的应用部署不切实际。

模型轻量化最直接的解决方法就是降低参数量和计算量，例如：Light Cnn提出了Max-Feature-Map激活函数，引入了全连接层的Maxout，使得Cnn更加紧凑，降低了计算代价；Mobile Face采用了快速下采样及瓶颈层用于降低参数量，最终在Lfw数据集上取得了99.7％的识别精度等等。

随着人脸识别应用的落地部署更加为人们所重视，精度不再是评价一个模型好坏的唯一指标，模型精度与速度之间的均衡反而显得尤其重要。不同于比赛刷榜，在工业界，那些取得了很高精度性能的大模型往往无法在嵌入式端部署，如何在计算资源受限，存储能力有限的设备上实现高精度与高实现速度的统一，是一个很大的挑战。

谷歌公司于2015年提出了基于深度学习的人脸识别系统—FaceNet。FaceNet是一个多用途的识别系统，可以同时用于人脸验证(是否是同一人)，识别(这个人是谁)和聚类(寻找类似的人)。在使用标准“人面数据库”进行测试时，FaceNet的识别精度可以达到近乎百分之百，在面的还有2.5亿张人脸的庞大数据库时，仍能保持86％的识别正确率。

本方法在FaceNet上设计了一种人脸识别算法。该算法在FaceNet中引入深度可分离卷积，利用深度可分离卷积模块DSCM(Depthwise Separable Convolution Module)替换网络中的常规卷积模块，实现轻量化的设计；利用混合注意力机制聚焦于局部信息,使网络学习图像中更为重要的特征,达到抑制其他不重要特征的目的,并且内部无大量卷积结构，少量池化层和特征融合操作，这种结构避免了卷积乘法带来的大量计算，使得其模块复杂度低，计算量小，使得网络进一步在速度和模型精度之间达到一种更好的平衡。

发明内容

针对现有的基于深度学习的人脸识别方法大多极为复杂，存在冗余的计算量以及庞大的参数量，模型精度又是网络训练的追求所在，现实的应用部署比较困难的问题。本发明提出一种基于混合注意力机制的轻量级人脸识别方法，改进在于：第一，在FaceNet的基础上引入深度可分离卷积模块DSCM(Depthwise Separable Convolution Module)，替代FaceNet网络中的常规卷积操作，大幅减少参数量和计算量，提升识别的运行速度；第二，引入混合注意力机制模块CBAM(Convolutional Block Attention Module)，CBAM会在空间和通道上学习识别“重要”区域，提升识别的准确率，在速度与准确率之间达到一种更好的平衡。

本发明提出的一种基于混合注意力机制的轻量级人脸识别方法，其核心在于，引入深度可分离卷积模块DSCM，替代FaceNet网络中的常规卷积操作，大幅减少参数量和计算量，然后混合注意力模块CBAM会在空间上学习识别“重要”区域，并且在通道上自适应地重新校准输入特征的通道重要性，得到更准确的图像特征，进而提升人脸识别模型的性能。

具体说明如下：

第一部分，深度可分离卷积模块DSCM：

普通卷积是使用一个固定大小的卷积核，在输入特征图的每个位置进行卷积计算。这种卷积操作的参数量较大，因为每个卷积核都需要学习多个权重值，且不同的卷积核之间没有共享权重。深度可分离卷积则分成了两个部分:深度卷积和逐点卷积。深度卷积是将输入特征图的每个通道单独进行卷积操作，即每个通道都有一个对应的卷积核，这样可以减少卷积核的参数量。逐点卷积是使用1x1的卷积核进行卷积计算，主要是用来将不同通道的特征进行组合，这种卷积操作的参数量较小，因为每个通道都共享一个卷积核，且卷积核的大小较小，最后再顺序加入标准化和激活函数构成DSCM。深度可分离卷积的优点在于参数量小，计算速度快，使得模型轻量化，但是表达能力和精度相对变弱；

第二部分，混合注意力模块CBAM：

骨干网络虽然替换成了深度可分离卷积模块，让速度得到了进一步提升，但是这样的分离操做使得网络忽略了通道的重要性，同时为了抑制区域的不重要部分，可以通过卷积运算混合通道和空间信息来提取重要特征。为了实现这一点，我们依次应用通道注意力模块和空间注意力模块来提取图像特征。这会使每个分支分别学习通道轴和空间轴上的“关注什么”和“关注哪里”，有效地帮助信息在网络内流动。进一步地，对于通道注意力模块，着重考虑如何为每个通道相关的特性产生不同的关注。在具体操作时，使用平均池化和最大池化操作聚合特征映射的空间信息，生成两个不同的空间上下文描述符，然后会被送到多层感知机，以产生通道注意力图，通道注意力图和输入特征图逐点相乘，得到下一空间注意力模块的输入，同样的，对于空间注意力模块，着重的考虑空间注意集中在信息部分的“何处”。在具体操作时，我们会使用平均池化和最大池化操作聚合特征图的通道信息，生成两个描述符，然后用一个标准的卷积层将它们连接和卷积，生成空间注意力图，将空间注意力图和输入特征图逐点相乘，得到经过通道增强和区域抑制的特征图，用于最后的激活和全连接。

本发明达到的有益效果为：

1.本方法通过引入深度可分离卷积，降低模型参数量和计算量，通过提出的深度可分离卷积模块，模型的推理速度可以得到很大的提升。

2.本方法通过引入CBAM(Convolutional Block Attention Module)注意力模块。将网络有效的融合通道注意力机制和空间注意力机制，能更好的学习到重要图像特征。

3.本方法提出的是一个端到端的网络结构，这样就可以更精确的提取有效图像特征，以此来提高模型的性能。

附图说明

图1基于混合注意力机制的轻量级人脸识别模型整体结构示意图。

图2深度可分离卷积模块的一般过程示意图。

图3用于融合通道注意力和空间注意力的CBAM模块网络结构示意图

图4通道注意模块网络结构示意图。

图5空间注意模块网络结构示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

在本发明中，我们提出了一种引入注意力模块的网络结构实现高精度的轻量级人脸识别方法。具体来说，为了使人脸识别模型在速度和精度之间达到一种更好的平衡，我们通过引入混合注意力机制来更好的学习图片细节信息，同时加入深度可分离卷积，设计一个深度可分离卷积模块，以此堆叠成骨干网络，来减少网络的计算量和参数量。

在本发明中，我们在三个标准的基准数据集：YouTube-Faces，CASIA-WebFace，Flickr-Faces-HQ上评估了所提出的框架。训练集来自LFW(Labeled Face in the Wild)数据集，该数据集包括来源于因特网的5749人的13233张人脸图像，其中有1680人有两张或以上图像。同时，采用准确率(Accuracy)，误识率(False Acceptance Rate，FAR)和拒识率(False Rejection Rate，FRR)，识别速度(Recognition Speed)作为人脸识别系统的性能指标。准确率是衡量人脸图像识别系统性能的核心指标之一，指示系统正确识别人脸图像的能力；误识率指的是将一个非授权的人脸错误地识别为授权用户的概率，而拒识率是将一个授权的人脸错误地拒绝识别的概率；识别速度是指人脸图像识别系统从接收输入图像到输出识别结果的时间，尽可能的提升识别速度才能提高用户体验和应用效率。

由于设备的原因，我们只能设置batchsize＝4，这也就是说在每个训练批次中，会一次性处理4张96*96的人脸图片。我们的模型由ADAM优化器进行训练，其中β1＝0.9，β2＝0.99，Q＝10^-8，初始学习速率lr设置为10^-4。同时，我们使用PyTorch来实现我们的模型。模型的整体结构如图1所示，最后的全连接层输出为128，即以128x1的向量来表示输入人脸图片的特征。

第一部分：深度可分离卷积模块DSCM：

为了解决常规卷积参数量和计算大的问题，本方法设计一个深度可分离卷积模块来实现模型轻量化。如图2所示，深度可分离卷积则分成了两个部分:深度卷积和逐点卷积。深度卷积是将输入特征图的每个通道单独进行卷积操作，即每个通道都有一个对应的卷积核，这样可以减少卷积核的参数量。逐点卷积是使用1x1的卷积核进行卷积计算，主要是用来将不同通道的特征进行组合，这种卷积操作的参数量较小，因为每个通道都共享一个卷积核，且卷积核的大小较小，最后再顺序加入标准化和激活函数构成DSCM，再以3个DSCM为一组，本方法以3组堆叠成骨干网络DSCMS。训练的损失函数依然采用的三元组损失，其公式表达如下：

L_{triplet}(A,P,N)＝max[d(A,P)-d(A,N)+m,0]

其中，A表示正实例，P代表正样本，N表示负样本，d是距离函数，m是设定值，在本方法中为0.1，一般用来控制正样本和负样本的距离的差距，当d(A,P)-d(A,N)<0时，损失函数就变成0，即允许噪声(Noise)的情况。

深度可分离卷积的优点在于参数量小，计算速度快，使得模型轻量化，但是表达能力和精度相对变弱，需要后续CBAM进一步的增强表达。

第二部分，混合注意力模块CBAM：

虽然深度可分离卷积可以提升速度，但表达能力和精度变弱。为了在速度和精度之间得到更好的平衡，使网络关注重要的特征，抑制不必要的特征，可以通过卷积运算混合跨通道和空间信息来提取重要特征。为了实现这一点，我们依次应用通道注意模块和空间注意模块，也就是利用CBAM的网络结构(如图3所示)。这会使每个分支分别学习通道轴和空间轴上的“关注什么”和“关注哪里”，有效地帮助信息在网络内流动。

进一步地，对于通道注意模块，如何为每个通道相关的特性产生不同的关注是关键步骤，其网络结构如图4所示。我们首先使用平均池化和最大池化操作聚合特征映射的空间信息，生成两个不同的空间上下文描述符，假设为：和/>分别表示平均池化图像特征和最大池化图像特征。然后，这两个描述符被发送到一个共享网络，其实就是一个多层感知机，以产生通道注意图M_c∈R^C×1×1。在共享网络应用之后，我们使用元素求和来合并输出的特征向量。那么，通道注意模块计算为:

其中，σ表示激活函数，W₀∈R^C/r×1×1，W₁∈R^C/r1×1和W₁是MLP的权重。

进一步的，对于空间注意模块，空间注意集中在信息部分的“何处”，其网络结构如图5所示。我们首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来以生成一个有效的特征描述符。沿着通道轴应用池化操作可以有效地突出显示信息区域。在连接的特征描述符上，我们应用卷积层生成空间注意图M_s∈R^HXW编码表示“何处”该强调或是抑制。也就是说，我们会使用平均池化和最大池化操作聚合特征图的通道信息，生成两个描述符，然后用一个标准的卷积层将它们连接和卷积，生成空间注意力图。那么，空间注意模块计算为:

其中，σ表示激活函数，表示滤波器大小为7×7的卷积操作。和/>分别表示跨通道的平均池特性和最大池特性，/>

这样一来，整个网络结构是：

F_m,b＝σ(Norm(M_c(M_s(DSCMS(F_m,b-1)))))

其中，F_m,b和F_m,b-1表示整个网络的输入与输出。DSCMS(.)表示由深度可分离卷积模块堆叠成的卷积网络，M_s(.)表示MAB中的空间注意力机制相关函数，M_c(.)表示MAB中的通道注意力机制相关函数,Norm(.)表示标准化相关函数，σ表示激活函数。以此利用所提出的基于混合注意力机制的轻量级人脸识别模型在速度和精度之间能保持良好的平衡。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于混合注意力机制的轻量级人脸识别方法：FaceNet人脸识别算法是目前较为主流的人脸识别算法，由Cnn网络和三元组损失组成，其运行速度快被广泛应用于工业界，本方法在FaceNet的基础上引入深度可分离卷积模块DSCM(Depthwise SeparableConvolution Module)，替代Cnn网络中的常规卷积操作，大幅减少参数量和计算量，提升识别的运行速度；再在Cnn网络后引入混合注意力机制模块CBAM(Convolutional BlockAttention Module)，CBAM会在空间和通道上学习识别“重要”区域，提升识别的准确率，在速度与准确率之间达到一种更好的平衡，进一步满足工业化的需求。

2.根据权利要求1所述的基于混合注意力机制的轻量级人脸识别方法，其特征在于：为了满足工业化对识别速度的要求，降低模型参数量，减少计算量是必须的，所以本方法应用深度可分离卷积(Depthwise Separable Convolution)用来提取特征Feature Map的话，相比常规的卷积操作，其参数数量和运算成本比较低，其结构由逐通道卷积和逐点卷积两个部分顺序结合起来，逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的Feature Map通道数和输入的通道数完全一样；逐点卷积的卷积核的尺寸为1×1×M，M为上一层的通道数，所以这里的卷积运算会将上一步的Map在深度方向上进行加权组合，生成新的Feature Map。总的来说，深度可分离卷积后再顺序加入标准化和激活函数构成DSCM，DSCM是堆叠成Cnn网络的基础单元。

3.根据权利要求1所述的基于混合注意力机制的轻量级人脸识别方法，其特征在于：为了使网络关注深度方向和区域上更重要的特征，本方法顺序结合通道注意力机制模块和空间注意力机制模块，即CBAM的网络结构，使得网络更加关注图像中对人脸特征起决定作用的像素区域而忽略无关紧要的区域，以及处理好特征图通道的分配关系，进一步提升网络识别准确率。

4.根据权利要求1所述的基于混合注意力机制的轻量级人脸识别方法，其特征在于：对于通道注意模块，如何处理特征图通道的分配关系是关键步骤，本方法先将输入特征图分别进行全局最大池化和全局平均池化，对特征映射基于两个维度压缩，获得两张不同维度的特征描述，假设为：和/>池化后的特征图共用一个多层感知器网络，先通过1x1卷积降维再1x1卷积升维，再将两张特征图叠加，经过Sigmoid激活函数归一化特征图的每个通道的权重，最后得到通道注意图M_c∈R^C×1×1，可以利用通道注意图和输入特征图相乘得到加以表示后的特征图，那么，通道注意模块计算为:

5.根据权利要求1所述的基于混合注意力机制的轻量级人脸识别方法，其特征在于：对于空间注意模块，空间注意集中在图像中对人脸特征起决定作用的像素区域，本方法首先将特征图分别经过基于通道维度的最大池化和平均池化，将输出的两张特征图在通道维度堆叠，然后使用1x1卷积调整通道数，最后经过Sigmoid函数归一化权重，得到空间注意图M_s∈R^HXW，该编码表示“何处”该强调或是抑制，也就是说，本方法会使用平均池化和最大池化操作聚合特征图的通道信息，生成两个描述符，然后用一个标准的卷积层将它们连接和卷积，生成空间注意力图，可以利用空间注意力图和输入特征图相乘得到加以表示后的特征图，那么，空间注意模块计算为：

6.根据权利要求1所述的基于混合注意力机制的轻量级人脸识别方法，其特征在于：总的来说，整个网络结构是：

F_m，b＝σ(Norm(M_c(M_s(DSCMS(F_m，b-1)))))

其中，F_m，b和F_m，b-1表示整个网络的输入与输出。DSCMS(.)表示由深度可分离卷积模块堆叠成的卷积网络，M_s(.)表示MAB中的空间注意力机制相关函数，M_c(.)表示MAB中的通道注意力机制相关函数,Norm(.)表示标准化相关函数，σ表示激活函数。