CN116311479A

CN116311479A - 一种用于汽车解锁的人脸识别方法、系统和存储介质

Info

Publication number: CN116311479A
Application number: CN202310547918.7A
Authority: CN
Inventors: 朱文忠; 刘峪; 包德帅; 何鑫; 尹鑫淼; 李�杰; 张智柯; 潘磊; 何海东
Original assignee: Sichuan University of Science and Engineering
Current assignee: Sichuan University of Science and Engineering
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-06-23
Anticipated expiration: 2043-05-16
Also published as: CN116311479B

Abstract

本发明公开了一种用于汽车解锁的人脸识别方法、系统和存储介质，属于人脸识别技术领域。人脸识别方法包括获得现场人脸图像，将现场人脸图像输入经过训练的识别算法模型，初始卷积层和OBG模块依次进行特征提取，标准化模块生成指代向量，计算指代向量与预设的样本向量之间的距离等步骤。本发明的OBG模块中的注意力单元可以利用原始输入信息来进行自我校准，有效降低了其他部分给注意力单元带来的干扰，使模型具有更强的鲁棒性。而且特征信息在模型中的传递方式更加丰富，模型能够更好地拟合多样化的实际场景中的图像信息，在实际应用环境中识别准确率更高。

Description

一种用于汽车解锁的人脸识别方法、系统和存储介质

技术领域

本发明属于人脸识别技术领域，具体地说，涉及一种用于汽车解锁的人脸识别方法、系统和存储介质。

背景技术

如今，众多车型上都已经安装了人脸识别系统，通过人脸信息不仅仅可以对用户的身份进行识别，完成车辆解锁，还能进行疲劳监测，提高行车安全性。但是，对于汽车这样移动的平台，其所处的环境千变万化，导致车内的光照条件具有很大的不确定性。虽然很多车企都宣称其人脸识别系统身份识别正确率超过99%，但在实际的应用场景下，受光照条件的影响，实际的识别效果基本都远低于宣传数据。因此，有必要对用于汽车的人脸识别方法进行改进，使其更加适应实际的应用场景。

发明内容

针对现有技术中上述的不足，本发明提供了一种用于汽车解锁的人脸识别方法、系统和存储介质，以提高实际场景下对车载摄像头采集到的现场人脸图像的识别准确性。

为了达到上述目的，本发明采用的解决方案是：一种用于汽车解锁的人脸识别方法，包括以下步骤：

步骤1、获得车载摄像头采集到的现场人脸图像，将现场人脸图像输入经过训练的识别算法模型，所述识别算法模型包括依次设置的初始卷积层、OBG模块和标准化模块；

其中，所述OBG模块的内部操作过程表示为如下数学模型：

；

其中，

表示输入所述OBG模块的特征图，/>

表示内置特征提取单元，/>

表示内置特征提取单元输出的一级特征图；/>

和/>

分别表示第一压缩单元和第二压缩单元，/>

表示第一压缩单元输出的第一二级特征图，/>

表示第二压缩单元输出的第二二级特征图；/>

和/>

分别表示第一注意力单元和第二注意力单元，/>

表示元素对应乘积运算，/>

和/>

分别表示第一三级特征图和第二三级特征图；/>

表示特征融合单元，

表示所述特征融合单元输出的四级特征图；

步骤2、通过所述初始卷积层对所述现场人脸图像进行特征提取后，输出得到浅像特征图；

步骤3、将所述浅像特征图输入所述OBG模块，经过运算后，所述OBG模块生成并输出深层特征图；

步骤4、将所述深层特征图输入标准化模块，然后所述标准化模块生成与所述现场人脸图像对应的指代向量；

步骤5、计算所述指代向量与预设的样本向量之间的距离，与所述指代向量距离最近、且距离小于预设阈值的样本向量所对应的身份，即为所述现场人脸图像的身份，完成识别。

进一步地，所述识别算法模型中设有五个首尾连接的所述OBG模块，所述浅像特征图作为第一个所述OBG模块的输入，所述深层特征图为第五个所述OBG模块输出的特征图。

进一步地，所述内置特征提取单元包括至少一个残差块。

进一步地，所述第一压缩单元包括依次设置的压缩卷积层和第一压缩激活层，所述压缩卷积层的步长为2；所述第二压缩单元包括依次设置的压缩池化层和第二压缩激活层，所述压缩池化层的步长为2。

进一步地，所述第一注意力单元与所述第二注意力单元内部运算过程相同，所述第一注意力单元和所述第二注意力单元内部运算过程均表示为如下数学模型：

；

其中，

表示第一二级特征图或第二二级特征图，/>

表示对特征图的各个图层分别做全局最大池化处理，/>

表示第一校准向量，/>

表示输入所述OBG模块的特征图，

表示第一校准激活函数，/>

表示第一校准激活函数输出的第二校准向量，/>

表示元素对应乘积运算，/>

表示第二校准激活函数，/>

表示所述第一注意力单元或所述第二注意力单元输出的第三校准向量。

OBG模块中，第一注意力单元输出的第三校准向量与第一二级特征图做元素对应乘积，实现对第一二级特征图进行校准，然后生成得到第一三级特征图。第二注意力单元输出的第三校准向量与第二二级特征图做元素对应乘积，实现对第二二级特征图进行校准，然后生成得到第二三级特征图。

进一步地，所述OBG模块中还设有第三注意力单元，所述第三注意力单元内部运算过程表示为如下数学模型：

；

其中，

表示第一注意力单元中生成的第二校准向量，/>

表示第二注意力单元中生成的第二校准向量，/>

表示拼接操作，/>

表示第三校准激活函数，/>

表示所述第三注意力单元输出的第四校准向量；所述第四校准向量用于与所述四级特征图做元素对应乘积，实现对所述四级特征图的校准。

进一步地，所述特征融合单元包括依次设置的拼接处理层、融合卷积层和融合激活层。

本发明还提供了一种用于汽车解锁的人脸识别系统，包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过加载所述计算机程序，用于执行如上所述的用于汽车解锁的人脸识别方法。

本发明还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的用于汽车解锁的人脸识别方法。

本发明的有益效果是：

（1）在众多影响车载人脸识别系统识别准确率的因素中，侧光和脸部部分遮挡导致的人脸图像不全是最常见的，也是导致现有的算法模型识别正确率偏低的主要原因，针对该情况，本发明在OBG模块中设置了压缩卷积层和压缩池化层，通过差异化的两种方式逐步缩减特征图高度和宽度方向的尺寸，极大地增强了模型对不同特征感知的灵活性，并利用第一注意力单元和第二注意力单元分别对第一压缩单元和第二压缩单元输出的特征图单独校准，多个OBG模块串联设置时，逐步缩减特征图高度和宽度方向尺寸的过程中，模型能够更加准确地区分遮挡物区域和人脸图像区域，并对人脸图像区域进行聚焦，与传统的特征提取模块相比，提取得到的特征中也就能够保留更多的有用特征信息（人脸图像部分的特征），反过来，对遮挡部分带来的干扰图像信息也能更好的抑制，从而提高最终的人脸识别正确率；

（2）现有技术中很多模型都使用了注意力模块作为一种校准机制，对不同的特征进行调节，以期望提高提取特征的效果，但是，注意力模块自身的作用也受到了模型其他部分的影响，很多注意力模块在模型中的表现并不稳定，有的甚至会经常出现负作用；在本发明中，将输入OBG模块的

特征图引入注意力单元中，使得OBG模块中的注意力单元可以利用原始输入信息来进行自我校准，有效降低了其他部分（内置特征提取单元、第一压缩单元和第二压缩单元）给注意力单元带来的干扰，使模型具有更强的鲁棒性；而且，将输入该OBG模块的/>

特征图引入注意力单元中，使得OBG前端的部分信息可以跳过内置特征提取单元、第一压缩单元和第二压缩单元向后传递，特征信息在模型中的传递方式更加丰富，模型能够更好地拟合多样化的实际场景中的图像信息，在实际应用环境中识别准确率更高；

（3）在OBG模块中设置第三注意力单元后，第一注意力单元和第二注意力单元中生成的第二校准向量不仅仅作为注意力模块的自我校准信息，同时也作为四级特征图的校准信息，该校准信息对OBG模块中的特征流形成立体多层次和渐进式的校准，实现了对特征流的全方位调控，当输入人脸图像存在部分遮挡（外界物体遮挡或光照不均匀引起的阴影遮挡）的情况下，在第一、第二和第三注意力单元的配合引导下，模型能够更加深刻和充分挖掘局部人脸图像信息，测试表明，在OBG模块中使用该结构后，有效提高了实际场景下的人脸识别准确性。

附图说明

图1为本发明的识别算法模型流程示意图；

图2为本发明的OBG模块内部运算流程示意图；

图3为本发明的第一注意力单元内部运算流程示意图；

图4为本发明的标准化模块内部运算流程示意图；

图5为对比例1的OBG模块内部运算流程示意图；

图6为对比例1的第一注意力单元内部运算流程示意图；

图7为对比例2的OBG模块内部运算流程示意图；

附图中：1-现场人脸图像，2-初始卷积层，3-OBG模块，31-内置特征提取单元，32-第一压缩单元，33-第二压缩单元，34-第一注意力单元，35-第二注意力单元，36-第三注意力单元，37-特征融合单元，4-标准化模块。

具体实施方式

实施例：

下面结合附图对本发明提供的人脸识别方法和算法模型内部运算过程进行较为详细的示例性说明。

图1展示了本发明提供的人脸识别算法模型的流程示意图，现场人脸图像1尺寸（高*宽*通道）以m*n*v表示。初始卷积层2的卷积核尺寸为3*3，其卷积运算时步长=1，初始卷积层2对现场人脸图像1进行卷积操作时，仅仅改变通道维度的尺寸，输出的浅像特征图尺寸为m*n*24。

OBG模块3的数量设置为五个，对于每个OBG模块3而言，其末端输出的四级特征图的高度和宽度分别是输入该模块的

特征图高度和宽度的一半，同一OBG模块3中四级特征图的通道尺寸则为/>

通道尺寸的两倍。因此，各个OBG模块3的输入和输出特征图尺寸如表1所示。

表1 各个OBG模块3输入和输出特征图尺寸

各个OBG模块3内部的结构和运算过程相同，如图2所示，以第一个OBG模块3为例，其内部的内置特征提取单元31中包括了一个残差块。该残差块为现有的常规技术，包括依次设置的第一3*3卷积层（步长=1）、第一ReLU激活层、第二3*3卷积层（步长=1）和第二ReLU激活层，残差块中设有残差连接，残差块前端的特征图通过残差连接与残差块后部的特征图相加后，作为整个残差块的输出。残差块内卷积层进行卷积操作前后，并不改变特征图的尺寸，因此输入和输出内置特征提取单元31的特征图尺寸均为m*n*24。在一些其他实施方式中，为了进一步提高模型的非线性拟合能力，内置特征提取单元31内可以设置2个或更多的残差块，多个残差块首尾顺次连接。

在本实施例中，第一压缩单元32包括依次设置的压缩卷积层（其卷积核尺寸=3*3，步长=2）和第一压缩激活层（ReLU函数），第二压缩单元33包括压缩池化层（其池化窗口尺寸=2*2，步长=2）和第二压缩激活层（ReLU函数）。第一压缩单元32和第二压缩单元33均用于将特征图高度和宽度方向的尺寸压缩为原来的一半。仍然以第一个OBG模块3为例，第一压缩单元32和第二压缩单元33输出特征图尺寸均为m/2*n/2*24。

第一注意力单元34与第二注意力单元35内部运算过程相同，如图3所示，以第一个OBG模块3中的第一注意力单元34为例，对第一二级特征图各个图层分别做全局最大池化处理后，得到的第一校准向量尺寸为1*1*24，类似地，对

特征图各个图层分别做全局最大池化处理后，同样得到尺寸为1*1*24的向量。两个向量相加并经过第一校准激活函数/>

（sigmoid函数）激活后，得到尺寸为1*1*24的第二校准向量。然后第一校准向量与第二校准向量做元素对应乘积，并经过第二校准激活函数/>

（sigmoid函数）激活后，生成得到尺寸为1*1*24的第三校准向量。然后第三校准向量与第一二级特征图做元素对应乘积运算，为第一二级特征图各个图层分配不同大小的权重参数，实现对第一二级特征图的校准，得到尺寸为m/2*n/2*24的第一三级特征图。

第一三级特征图和第二三级特征图同时作为特征融合单元37的输入，在本实施例中，特征融合单元37包括依次设置的拼接处理层、融合卷积层（卷积核尺寸=1*1，步长=1）和融合激活层（ReLU函数）。以第一个OBG模块3为例，特征融合单元37将第一三级特征图和第二三级特征图融合后得到尺寸为m/2*n/2*48四级特征图。

在本实施例中，OBG模块3中还设有第三注意力单元36，第一注意力单元34中生成的第二校准向量和第二注意力单元35中生成的第二校准向量共同作为第三注意力单元36的输入，两个第二校准向量经过拼接和第三校准激活函数

（tanh函数）激活后，生成得到尺寸为1*1*48的第四校准向量（以第一个OBG模块3为例）。第四校准向量与四级特征图做元素对应乘积，实现对所述四级特征图的校准，校准后的四级特征图作为OBG模块3最终的输出。

在本实施例中，如图4所示，标准化模块4包括标准压缩层、标准前馈层和标准激活层，标准压缩层为全局池化操作层，标准压缩层用于对深层特征图的各个图层做全局平均池化处理，然后生成得到尺寸为1*1*768的第一特征向量。标准前馈层采用现有的全连接层实现，为了与第一特征向量匹配，标准前馈层拥有768个输入节点，输出节点数为100。标准激活层采用ReLU函数实现，标准激活层激活后输出得到尺寸为1*1*100的指代向量。

下面对本实施例的算法模型训练和测试过程进行示例性说明。

收集实际场景下车载摄像头采集获得的人脸图像，并为所有人脸图像打上身份标签，制得训练集。训练集的图像中，一共来自56个不同的人脸，每个人脸都至少暴露在5个不同的场景中进行拍摄。同时收集了实际场景下车载摄像头采集获得的另外10个人脸的图像，并打上身份标签，制得验证集。验证集的每个人脸同样是在至少5个不同的场景中拍摄获得。从验证集中每个人脸所对应的图像中随机抽取其中的2张图像组建样本库，利用验证集剩余的图像组建测试集，测试集中的图像用来模拟实际应用场景中的现场人脸图像1。

利用训练集中的图像对本发明的识别算法模型进行训练，训练过程中学习率采用固定不变的方式，损失函数为三元损失函数。将样本库中的照片分别输入训练完成的识别算法模型，然后模型输出与样本库图像一一对应的向量，这些向量作为预设的样本向量。

将测试集中的图像分别输入训练好的算法模型，然后模型输出与测试集中图像对应的指代向量。分别计算各个指代向量与所有预设的样本向量之间的距离（欧氏距离），与指代向量距离最近、且距离小于预设阈值的样本向量所对应的身份，即为对应测试集图像的识别身份。通过对比测试集图像的识别身份与身份标签，就能得到模型的识别正确率。

测试结果表明，实施例1的算法模型的识别正确率为95.85%。采用相同的训练和测试过程后，现有的VGGFace2和SphereFace的识别正确率分别为74.16%和81.27%，均明显低于本发明提出的方法。

对比例1：

在实施例1的基础上，去掉所有OBG模块3中

特征图引入第一注意力单元34和第二注意力单元35，同时去掉所有的第三注意力单元36，并将第一注意力单元34和第二注意力单元35内部结构修改为图6所示的结构，修改后的OBG模块如图5所示。模型的其他部分与实施例1相同，训练和测试过程也与实施例1保持一致，测试结果显示，对比例1在上述测试集上的识别正确率为77.32%。

对比例2：

在实施例1的基础上，仅仅去掉所有OBG模块3中的第三注意力单元36，对比例2中OBG模块的结构如图7所示。模型的其他部分与实施例1相同，训练和测试过程也与实施例1保持一致，测试结果显示，对比例2在上述测试集上的识别正确率为90.40%。

对比实施例1和对比例2的识别结果，有效证明了第三注意力单元36具有突出的作用；对比对比例1和对比例2的识别结果，有效证明了

特征图引入第一注意力单元34和第二注意力单元35的重要作用。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。