CN114550252B

CN114550252B - 一种基于注意力机制的人脸识别方法

Info

Publication number: CN114550252B
Application number: CN202210153141.1A
Authority: CN
Inventors: 王丹; 姚志; 付利华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Filing date: 2022-02-18
Publication date: 2024-07-12
Anticipated expiration: 2042-02-18

Abstract

一种基于注意力机制的人脸识别方法，属于计算机软件领域。针对现有的主流的人脸识别方法参数量大、资源占用多、运行效率较低的问题，首先构建了一个低参数量的卷积神经网络来保证保证计算过程的高效和低资源消耗。然后加入注意力机制捕获提取其中的跨通道信息，以优化卷积神经网络的整体性能。同时，注意力的引入并不增添多少额外的性能损失和资源消耗。本发明可以在保证高效、快速的进行人脸特征提取的基础上，进一步提升人脸识别的准确率，提升整体效率。

Description

一种基于注意力机制的人脸识别方法

技术领域

本发明属于计算机软件领域，尤其涉及一种基于注意力机制的人脸识别方法。

背景技术

人脸识别技术作为一种常见的生物识别技术，通过对采集到的人脸图像进行特征提取并与数据库中的人脸数据进行比对，从而获取到人脸图像的身份信息。

相比于其它常见的生物识别技术，如指纹、虹膜等，它具有如下特点：第一，低成本，通常人脸识别图像不需要复杂的采集过程，设备简单，利用已有的照片或者监控系统捕捉到的图像即可；第二，非强制性，不同于其他容易察觉的生物识别方法，人脸识别无需征得用户的同意，常常在用户未察觉时已经完成了人脸识别的检测，可以主动采集目标的相关特征，不易产生和用户间的冲突；第三，非接触性，人脸识别用户和检测设备无需接触便可完成身份信息的验证。由于人脸识别技术有着以上种种优点，因而被广泛应用于公共安全、金融、移动电子设备、娱乐行业与通信等诸多领域。例如，对于移动支付领域来说，传统的支付需要手动输入密码，密码和账号容易被忘记或者盗用，利用刷脸支付来验证消费者的身份则会方便很多，并且提高了支付的可靠性。各大银行也开始采用带有人脸识别功能的自助终端，使得客户办理业务更加方便快捷。在大型的超市已经设置了专门的人脸支付通道，实现了人与银行卡的“合二为一”，避免了手机没电或者遗失密码等问题的困扰。

近年来计算机硬件技术的快速发展为深度学习等领域的发展与流行提供了坚实的硬件基础支撑，许多以前受限于硬件性能的技术方法也摆脱了桎梏，并蓬勃发展。深度学习是包含于多级非线性变换连接的机器学习方法，受启发于动物视觉皮层组织，模拟生物神经元间的连接模式。随着深度学习模型不断发展成熟，由于其优越的性能，人们开始将神经网络应用到人脸识别领域，利用神经网络进行特征提取并识别。其中卷积神经网络是一种使用最为广泛的结构，具有局部连接、权值共享及池化操作等特性，可以有效地降低网络地复杂度，减少训练参数地数目，使模型保持一定的不变性，并具有强鲁棒性和容错能力，且易于训练和优化。Taigman等人提出了DeepFace，首先使用CNN代替了传统的手工特征提取方式来提取人脸特征；Google的团队提出了FaceNet，商汤科技的视觉团队提出了DeepID系列人脸方法，通过卷积神经网络提取合适的人脸特征。这些方法能在LFW数据集上都已经达到了很高的准确率，甚至超出了人眼识别的能力。但这些方法往往使用了参数量巨大的卷积神经网络，不仅在训练模型的时候需要花费大量的时间、大量的资源，而且在具体的场景应用时效率也不高，在性能低下的设备环境中往往需要过长的计算时间。

综上所述，本发明针对现有的流行的人脸识别方法运行效率低、占用资源大的问题，提出了一种基于注意力机制的人脸识别方法。首先，使用参数量低的卷积神经网络作为主体架构，保证计算过程的高效和低资源消耗。同时在此基础上，采用注意力机制在保证人脸特征提取无需花费过多额外资源的同时，进一步提高人脸识别的准确率。

发明内容

本发明的内容：提出了一种基于注意力机制的人脸识别方法，该方法不仅可以保证人脸识别过程的高效、快速，还能进一步的提高人脸识别的准确率，最终提高人脸识别的整体性能。

为达到以上发明目的，经过研究讨论和反复实践，本方法确定最终方案如下：

在数据预处理方面，本方法首先对人脸图像数据进行归一化，使得图像中每

个像素点的值都规约到[-1,1]这个区间，保证神经网络在训练时的稳定性。然后构建一个相比于现有人脸识别方法的参数量要更少的卷积神经网络结构，减少神经网络训练和使用所需要的资源。同时采用注意力机制捕获跨通道交互信息，加强获取到的关键特征信息，以优化卷积神经网络的整体性能，从而提高神经网络最终的准确率。

为实现上述目的，本发明采用如下的技术方案：

一种基于注意力机制的人脸识别方法，包括以下步骤：

步骤1.将输入图像数据进预处理：将输出图像的每个像素点的RGB通道的数据映射分布到[-1,1]区间，然后分别处理训练集和测试集。

步骤2.构建网络：使用Tensorflow2.3构建基于注意力机制的卷积神经网络，其中使用了深度可分离卷积来对人脸图像信息进行处理，代替普通的卷积操作，减少网络参数量，提升网络效率。然后使用注意力机制进一步增加关键特征信息的获取，提升最终准确率。

步骤3.训练模型：将步骤1中处理好的数据输入步骤2中构建的网络进行训练。

步骤4.将测试集中的图像数据输入到模型中，提取到最终的人脸

特征向量，然后依据人脸特征向量之间的余弦距离，得到人脸识别结果。

附图说明

图1基于注意力机制的人脸识别方法方案图

图2基于注意力机制的人脸识别方法网络结构图

图3注意力机制实现示意图

图4bottleneck结构图

具体实施方式

本发明针对现有主流的人脸识别方法资源需求大，运行效率低的问题，构建一个高效的卷积神经网络结构，并结合注意力机制进一步提升精度，提出了一种基于注意力机制的人脸识别方法。首先将输入的人脸图像数据进行归一化操作，将数据限制在一定的范围中，然后将数据集分为训练集和测试集，对于训练集的图像数据则要进行额外的旋转、翻转操作，以扩充数据集，提高泛化性。然后构建一个低参数量的卷积神经网络结构，用于保证网络的高效性。然后对卷积神经网络的特殊位置处，添加注意力机制结构，用来获取更多的关键特征信息，进一步加强网络的整体性能。最后进行训练得到模型，提取最终的人脸特征并获得识别结果。

图1可以分解为本发明的几个步骤。

步骤一：为了更好的提取人脸图像中的关键特征，需要对数据进行一些预处理。首先将输入图像中每个像素位置的RGB三种通道的数值都先减去127.5然后再除以128；由于像素值一般使用0～255的整形数值来表示颜色强度信息，因此最后得到的数据都被规约在(-1,1)这个区间。然后将数据集分为训练集和验证集两部分，训练集中的图像数据还要额外的进行随机旋转，随机翻转等操作，减少神经网络在训练的过程中出现的过拟合现象，提升网络的泛化能力。

步骤二：构建神经网络，具体网络结构如图2所示。

input表示输入的人脸图像数据，且该图像数据的维度为112x112x3，表示输入图像数据的分辨率为(112,112)大小，且包含RGB三个通道；output表示最终输出的数据。则该网络可分为几个主要的网络层L1～L7,其中:

1)L1：conv_block1主要包含一个普通卷积层，其中卷积核数目为3、过滤器个数为64，步长为1；主要用来对输入图像数据进行快速的降维，保留其中的关键信息，使得该层最终输出的数据维度为(56,56,64)；

2)L2：depthwise1主要包含一个深度可分离卷积层，用来将1)中产生的数据进行特征的提取，输出数据维度为(56,56,64)，与输入数据维度保持不变。然后添加注意力机制对输出数据提取跨通道的特征信息。

3)L3：该部分包括5个bottleneck，是神经网络的主体结构部分。bottleneck的结构如图4所示，包含两个普通卷积层和一个深度可分离卷积层，且普通卷积层的卷积核数目都为1，深度可分离卷积层的卷积核数目则为3，并在每个bottleneck尾部加入注意力机制。该部分中，bottleneck1的过滤器个数为64，步长为2；bottleneck2的过滤器个数为128，步长为2；bottleneck3的过滤器个数为128，步长为1；bottleneck4的过滤器个数为128，步长为2；bottleneck5的过滤器个数为128，步长为1；最终输出的数据维度为(7,7,128)。

4)L4：depthwise2也主要包含一个深度可分离卷积层，用来对3)中产生的数据做最后的特征提取，过滤器个数为512，卷积核大小为(7,7)，步长为1；，并同样在尾部加入注意力机制，进一步捕获关键通道特征。最终输出的数据维度为(7,7,512)。

5)L5：conv_block2，使用过滤器个数为128、卷积核大小为(1,1)、步长为1的普通卷积层来进行降维操作，而无需加入注意力机制，最终输出维度为(1,1,128)。

其中，注意力机制的实现如图3，具体表述为：

定义输入数据的维度为(H,W,C)，将输入进行全局平均池化层后得到维度为(1,1,C)的数据，然后通过一个卷积核大小为5的一维卷积层进行通道特征信息捕捉，并在通过sigmoid函数进行激活后得到维度仍然为(1,1,C)的通道特征。最终将计算出的C个通道特征加权分配到此层并联的C个过滤器上。

步骤三，使用Adcos作为损失函数层，对构建的网络所输出的数据计算损失，并使用梯度下降更新网络参数。使用收敛速度快的SGD优化器，初始学习率为0.1，批次大小为128。通过早停法优化网络，当网络在训练集上的损失不再下降的时候，停止训练，保存训练结果。

步骤四，使用训练出的模型计算得到测试集中图像的人脸特征向量。并使用十折交叉验证的方法计算测试集中人脸图像的特征向量之间的余弦距离，求得最终准确率。

本方法使用的训练数据集为CASIA-WebFace，训练数据集为LFW数据集；其中训练集中去除了与LFW有关的人脸图像数据。最终结果如下表：

可以看出:加入注意力机制的网络结构CNN-Attention比普通的网络结构CNN准确率要更高，但是参数量和模型空间资源大小却几乎没有变化。说明，注意力机制的参数的引入对神经网络模型参数量和模型磁盘空间占用量来说，几乎没有影响，但是准确率却得到了进一步的提升。使得本方法在保证神经网络模型参数量和空间资源占用量基本保持不变的情况，得到更高的准确率。

Claims

1.一种基于注意力机制的人脸识别方法，其特征在于，包括以下步骤：

步骤1. 将输入图像数据进行预处理：将输出图像的每个像素点的RGB通道的数据映射分布到（-1,1）区间，然后分别处理训练集和验证集；

步骤2.构建网络：构建基于注意力机制的卷积神经网络，其中使用了深度可分离卷积来对人脸图像信息进行处理，然后使用注意力机制进一步增加关键特征信息的获取，提升最终准确率；

步骤3. 训练模型：将步骤1中处理好的数据输入步骤2中构建的网络进行训练；

步骤4. 将测试集中的图像数据输入到模型中，提取到人脸特征向量，然后计算得到人脸识别结果；

步骤2具体为：

输入的人脸图像数据的维度为112x112x3；该网络分为网络层L1~L7；

1) L1：包含一个普通卷积层，其中卷积核数目为3、过滤器个数为64，步长为1；主要用来对输入图像数据进行快速的降维，保留其中的关键信息，使得该层最终输出的数据维度为（56,56,64）；

2) L2：包含一个深度可分离卷积层，用来将1）中产生的数据进行特征的提取，输出数据维度为（56,56,64），与输入数据维度保持不变；然后添加注意力机制对输出数据提取跨通道的特征信息；

3) L3：包括5个bottleneck，是神经网络的主体结构部分；bottleneck的结构包含两个普通卷积层和一个深度可分离卷积层，且普通卷积层的卷积核数目都为1，深度可分离卷积层的卷积核数目则为3，并在每个bottleneck尾部加入注意力机制；该部分中，bottleneck1的过滤器个数为64，步长为2；bottleneck2的过滤器个数为128，步长为2；bottleneck3的过滤器个数为128，步长为1；bottleneck4的过滤器个数为128，步长为2；bottleneck5的过滤器个数为128，步长为1；最终获得输出的数据维度为（7,7,128）；

4) L4：depthwise2也包含一个深度可分离卷积层，用来对3）中产生的数据做最后的特征提取，过滤器个数为512，卷积核大小为（7,7），步长为1，并同样在尾部加入注意力机制，进一步捕获关键通道特征；最终输出的数据维度为（7,7,512）；

5) L5：conv_block2，使用过滤器个数为128、卷积核大小为(1,1)、步长为1的普通卷积层来对4)的输出数据进行降维操作，而无需加入注意力机制，最终输出维度为（1,1,128）；

其中，注意力机制的实现过程具体表述为：

定义输入数据的维度为（H,W,C），将输入进行全局平均池化层后得到维度为（1,1,C）的数据，然后通过一个卷积核大小为5的一维卷积层进行通道特征信息捕捉，并在通过sigmoid函数进行激活后得到维度仍然为（1,1,C）的通道特征；将计算出的C个通道特征加权分配到此层并联的C个过滤器上；

步骤3具体为：使用Adcos作为损失函数层，对构建的网络所输出的数据计算损失，并使用梯度下降更新网络参数；使用收敛速度快的SGD优化器，初始学习率为0.1，批次大小为128；通过早停法优化网络，当网络在验证集上的损失不再下降的时候，停止训练，保存训练结果。

2.根据权利要求1所述的一种基于注意力机制的人脸识别方法，其特征在于，

步骤1具体为：首先将输入图像中每个像素位置的RGB三种通道的数值都先减去127.5然后再除以128，约束在（-1,1）区间；然后将数据集分为训练集和验证集两部分。