CN114998958B

CN114998958B - 一种基于轻量化卷积神经网络的人脸识别方法

Info

Publication number: CN114998958B
Application number: CN202210510768.8A
Authority: CN
Inventors: 王志皓; 姜立标
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2024-04-16
Anticipated expiration: 2042-05-11
Also published as: CN114998958A

Abstract

本发明提供的一种基于轻量化卷积神经网络的人脸识别方法，包括：采集若干人脸图像，并分别标定每个人脸图像的特征点，存作人脸样本数据集；通过参考图像和人脸样本本数据集训练ERT模型，以得到人脸形状；定位好人脸的待测图像和人脸样本数据集均输入轻量化卷积神经网络AGCNet，分别得到待测图像的底层特征向量和人脸样本数据集中每个人脸样本的底层特征向量；将待测图像的底层特征向量依次和人脸样本的底层特征向量进行相似性度量判断，得到人脸识别结果。本发明能够减少识别模型的大小和参数计算量，并且具备较高的识别准确率。

Description

一种基于轻量化卷积神经网络的人脸识别方法

技术领域

本发明属于人脸识别领域，尤其涉及一种基于轻量化卷积神经网络的人脸识别方法。

背景技术

现有的人脸识别模型参数多，结构大，需要依靠强大的计算设备，以非常高的计算成本实现高准确率人脸识别，且模型无法移植到车载计算机等嵌入式系统，不能运用于车辆上人脸身份识别、人脸解锁，车辆防盗等领域。如传统卷积网络中识别效果最好的ResNet100模型参数量高达43.55MB，时间复杂度达到了3.402G，但识别准确率仅为88.26％，可见其并不适用于车载人脸识别系统。

现有的轻量级神经网络模型虽然能够移植到嵌入式系统，但是识别准确率和识别速度不如肉眼识别，无法满足实际场景需要。典型的轻量级神经网络如MobileFaceNet能够极大减少参数量和时间复杂度，达到了2.056MB和0.173G，但是识别准确率也降低到了86.33％，因此模型轻量化与识别准确率提高这两者之间存在着矛盾，限制了卷积神经网络在汽车上的应用。

李永等在中国发明公开专利CN112801262A中公开了“用于卷积神经网络的注意力权重模块和方法”，该技术方案主要使用随机采样方法采集图像空间特征，用全连接层收缩空间(通道)方向，得到只剩下通道(空间)方向的通道(空间)注意力模板，同时采用分组卷积减少计算量。该注意力模块用于常规卷积层、BN层参数和网络末端的线性层。但该方案存在以下缺陷：1.随机采样不能确保采集到图像的核心特征，学习效果不稳定，存在反复；2.注意力模块单独作用于某一特定层，导致注意力模块使用过多，网络分支多，增加计算机计算负担；3.分组卷积导致各组之间联系稀疏，割裂特征图通道间的联系，削弱深度学习效果。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于轻量化卷积神经网络的人脸识别方法，能够减少识别模型的大小和参数计算量，并且具备较高的识别准确率。

为了实现本发明目的，本发明提供的一种基于轻量化卷积神经网络的人脸识别方法，包括以下步骤：

采集若干人脸图像，并分别标定每个人脸图像的特征点，存作人脸样本数据集；

通过参考图像和人脸样本本数据集训练ERT模型，以得到人脸形状；

将待测图像输入训练好的ERT模型，定位待测图像中的人脸，并截取待测图像定位得到的人脸；

将截取的待测人脸和人脸样本数据集均输入轻量化卷积神经网络AGCNet，分别得到待测图像的底层特征向量和人脸样本数据集中每个人脸样本的底层特征向量，其中，轻量化卷积神经网络AGCNet的结构中包括多个残差注意力模块，残差注意力模块的步长不同，每个残差注意力模块均包括倒残差块和注意力模块，倒残差块和注意力模块的输入相同，倒残差块能够对特征图进行分组卷积和通道混洗，注意力模块能够挖掘深层特征；

将待测图像的底层特征向量依次和人脸样本的底层特征向量进行相似性度量判断，得到人脸识别结果。

与现有技术相比，本发明能够实现的技术效果至少如下：

1.本发明通过减少网络模块和使用组卷积来减少模型的大小和参数计算量，适合部署在实时应用以及移动和嵌入式设备中。

2.考虑到模型的简化会导致识别精度的下降，为了解决这一问题，使用了特殊的注意力模块的通道混洗操作，该操作随特定块的结构而变化。本发明的AGCNet可以在人脸识别任务中实现高性能。

3.该模型的识别时间比现有的轻量级卷积网络要短得多，保持了准确率，并且参数、触发器的数目要小得多。得到的模型大小小于1MB，计算复杂度小于300m，在基于图像数据集的测试中取得了最先进的结果，结构的精度相当于甚至优于现有的轻量级CNN结构，证明在车辆解锁过程中具有足够的实用性和可靠性。

4.本发明在现有模型轻量化后，再添加残差注意力模块AM以进一步挖掘对象的深层特征。注意力模块可以以较简单的结构灵活附加到每个倒残差块之上，以很小的容量最大化地增加重点区域的权值，把后续优化集中到最重要的部位。

5.背景技术中提到的CN112801262A，其注意力模块和卷积通道均分成两组分别进行卷积，一定程度上割裂了不同组之间的联系，会影响网络的表现能力，而本发明除了分组卷积，还引入通道混洗操作。本发明相对CN112801262A中的注意力模块，减少了注意力模块的应用数量，从而减少了网络的分支结构数量，根据已有结论，网络的分支结构数量越少，运行速度越快。因此本发明可以加快网络运行速度。

6.本发明通过引入分组卷积操作，一定程度上把分组处理后的卷积核重新打乱，后续分组处理时各通道之间的卷积核联系更为密切，从而确保网络表现能力不受影响。

7、本发明设计神经网络模型结构，初始时用随机数填充模型参数，后续再进行微调修正，模型的输入为人脸图片，输入经过多次计算机卷积操作后，变换输入特征的维度和数值大小，输出一组多维特征向量，该向量保存了人脸隐含特征，同一人图像输出的向量对组成的空间夹角弧度应尽可能小，不同人的人脸图像输出向量空间弧度则尽可能大。确定夹角弧度的识别阈值，并随机取两张人脸图片输出特征进行比对，若判断错误，则对上述模型参数微调更新，再取图片比对，循环往复多次，不断更新模型参数，直到比对结果满足准确率要求或者满足最大迭代次数。具有结构轻便、计算简单、可移植性强的优点，能确保模型精度不降低的前提下，最大程度地提高运算速度。

8、本发明采用池化方法浓缩特征图，能够综合各种维度的特征，比更加精确，在人脸识别任务中，人脸占据绝大部分图像，需要综合人脸各个细节特征才能准确表征，后续机器学习效果会较为稳定。因此相比随机采样的方式压缩特征图，本发明能够更好地适用于人脸识别任务。

9、本发明注意力模块由残差注意力模块的输入特征生成，能够更好地保留原有特征，生成的注意力模块应用在倒残差块的输出特征，能够减少网络结构分支，提高算法运算速度，并且没有改变倒残差块内部结构，能够更好发挥轻量化卷积神经网络的优点。

附图说明

图1是本发明实施例提供的一种基于轻化卷积神经网络的人脸识别方法的流程图。

图2是本发明实施例倒残差块block的示意图。

图3是本发明实施例中分组卷积与通道混洗示意图。

图4是本发明实施例中应用在倒残差块block(stride＝1)上的注意力模块结构图。

图5是本发明实施例中应用在倒残差块block(stride＝2)上的注意力模块结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

请参阅图1，本发明提出的AGCNet是一种轻量级的神经网络模型，应用于车载计算机设备以实现人脸识别。通过人脸检测算法(ERT模型)对图像进行处理，对齐并调整大小，框出人脸图像。然后，获得的人脸图像通过卷积神经网络将待测人脸图像和人脸样本数据集中的人脸样本图像转换为一维向量，然后计算两种向量之间的夹角。如果夹角小于一定范围，则确定为同一人。为了实现该方法，本发明在模型中使用分组卷积、通道混洗并相比于MobileFaceNet模型减少了倒残差卷积模块的使用来减少模型参数和计算量，并结合一系列注意模块来提高模型识别的准确性。

具体地，一种基于轻量化卷积神经网络的人脸识别方法，包括以下步骤：

步骤1：采集若干人脸图像，并分别标定每个人脸图像的特征点，存作人脸样本数据集。

在本发明的其中一些实施例中，人脸样本的数量为5到10个。人脸样本的数量根据使用需要确定，在其他实施例中，人脸样本的数量也可确定为其他数值。

步骤2：选取参考图像，将参考图像和人脸样本输入ERT模型，利用人脸样本训练ERT模型。

为了保证识别的速度和准确性，本发明中的ERT模型包括回归模型和与回归模型级联的决策树，回归模型用于对人脸的特征点进行初步定位，决策树用于基于初步定位来判定人脸特征点的位置，得到人脸形状。具体地，首先，通过回归函数(如级联线性回归、级联形状回归、支持向量回归等)确定数据集中的人脸图像的各特征点的平均位置，从而实现人脸初步定位，得到人脸样本的初始形状；有了初始形状后，选取生活化的人脸图像作为参考图像，后续不断扫描参考图像，并以人脸的初始形状为基准，得到第一个参考图像的特征点，参考图像的特征点将作为决策树的输入，由于参考图像不同，因此决策树的输入也不同，利用多级串联的决树计算回归模型中的残差，不断对人脸的初始形状进行修正，得到最终的人脸形状。并对决策树进行封装。

在本发明的其中一些实施例中，使用的决策二叉树算法是梯度提升决策树(GBDT)，GBDT是通过正向算法逐步构造的决策树加法模型，该模型由多层回归器组成，每一层的回归器由500棵决策二叉树组成，通过阈值将图片的特征点分离到不同的叶节点，该阈值在训练过程中不断微调修正。通过与原始图像的比较，得到了用于反向传播的残差。在对图像进行返回校正后，确定并对齐人脸位置，能够将图像中的人脸截取出来，可最大限度排除背景，减少无关信息的干扰，从而提高人脸检测的准确性。

具体地，在本发明的其中一些实施例中，决策树的具体工作过程为：

(1)梯度提升决策二叉树进行分裂，梯度提升决策二叉树分裂的规则是：首先建立特征池，特征池包含了初步选择的多个特征点的坐标。这些特征点在不同参考图像代表了不同的像素值。接着计算参考图像之间的像素差并根据随机产生的分裂阈值把图像分成两类，大于阈值的分到左子树的子空间，小于阈值则分到右子树的子空间，完成二叉树的分裂。之后的每一次分裂过程一样，直到全部参考图像都分到叶子节点的子空间为止。分裂规则如式所示：

代表第k级决策树第u层叶子节点的取值，I_u(a)是决策树第u层的样本，I_u(b)是决策树第u层的平均形状，τ为分裂阈值，/>为k级回归器r_k对图像I_u的预测结果，θ为特征池参数。

(2)完成分裂以后，每一个参考图像都会落入其中一个叶节点。这时开始计算每一个参考图像的当前形状与真实形状的差值，再将同一个叶节点的所有差值作平均，即为该叶节点保存的残差。在建立新的树之前，需要对原有的预测形状进行更新，对于加法模型，则是原形状与残差相加，每一步模型更新如下：

代表加法模型，/>代表第m层叶子节点，也就是叶节点保存的残差ε_nm，η_m为学习率，通常使0＜η_m＜1。

(3)经过反复迭代，模型趋于收敛或者超过规定的迭代次数后输出，将得到的加法模型作为每一级回归器，则：

其中，指模型第M次迭代后的结果，r_k是第k级回归器。

这样，通过把前一棵树的预测形状与残差相加作为后一棵树的输入，经过500次迭代后，预测形状趋于收敛，不断接近真实形状。下面介绍一下特征池参数的选取过程。

其中，为了训练好每棵树，各级回归器互相独立，故共有K个特征池，K＝k。每级的特征池参数随机生成，但是为了选择出最优分裂参数组成的特征池，生成的特征池参数要先经过最小平方误差法筛选。已知加法模型的每一步更新决策树目标残差为为预测结果与真实形状的差值，采用最小平方差法，设Q为某节点样本数量，μθ_,l及μ_θ,r分别为分裂后预测结果的残差(两者分到决策树不同叶子节点的结果，代表两种相反的结果)，则此随机生成的特征池参数θ对应的平方差为

其中,E(Q,θ)为左右节点中样本的拟合平方差之和，ε_p为第p棵决策树计算出的残差，μ_θ,s＝μ_θ,l或μ_θ,r，l,r分别为左右节点，_Qθ为确定特征池参数θ情况下的某节点样本数量，s为固定系数。

式中，E(Q,θ)为左右节点中样本的拟合平方差之和，则最优分裂参数可表示为

据上式知，当决策树目标残差等于分裂后预测结果的残差时，分裂参数最小。即分裂后预测结果等于左右子树各叶节点样本集的残差平均值时，分裂结果最优。节点最优分裂参数为：

Q_θ,l、Q_θ,r为确定特征池参数θ情况下决策树某一层的左右节点的样本数量。

因此，每次结点分裂，只需计算一边的子树参数，直到生成指定数目的叶结点。

当然，可以理解的是，在其他的实施例中，也可以采用其他类型的决策树与回归模型进行级联。

将传统的回归模型与决策二叉树相级联(在特征图像经过回归模型后直接传入决策二叉树)，提高了人脸检测的速度和准确性。测试时决策树最终输出的是对待测图像中的人脸准确定位后的截图作为后续人脸比较算法的人脸样本输入，并将截图大小统一放缩为112×96像素的三通道图像。

步骤3：将待测图像输入训练好的ERT模型，定位待测图像中的人脸，并截取待测图像定位得到的人脸；

在本发明的其中一些实施例中，采用摄像头实时采集待测人脸的图像。

步骤4：将截取的待测人脸和人脸样本数据集中的人脸样本图像均输入轻量化卷积神经网络AGCNet，分别得到待测图像的底层特征向量和人脸样本数据集中的人脸样本图像的底层特征向量；

所述轻量化卷积神经网络AGCNet的结构，包括第一通道扩增卷积层、第一逐通道卷积层、多个残差注意力模块AM、第二通道扩增卷积层、第二逐通道卷积层和通道混合卷积层，第一通道扩增卷积层为轻量化卷积神经网络AGCNet的第一层，卷积核大小为3×3，用于对输入图像进行空间压缩和通道扩增(输入图像经过卷积层后可改变通道数)，以尽可能减少计算量的同时挖掘图像深层特征，此时输入人脸图像尺寸为112×96×3；第一逐通道卷积层为轻量化卷积神经网络AGCNet的第二层，卷积核大小为3×3，进行逐通道卷积，用于对初步对图像提取特征，输入和输入出特征尺寸均为56×48×64，作为后续层的输入；残差注意力模块AM用于提取深层特征；第二通道扩增卷积层用于对每个图像的输出通道数进行统一，通过1×1卷积扩增通道数，输入尺寸为7×6×128；第二逐通道卷积层为7×6的逐通道卷积，把特征空间尺寸变为1×1；通道混合卷积层通过用1×1的卷积作通道信息的融合，以加强通道方向上的联系，最终生成一个多维空间向量。

在本发明的其中一些实施例中，残差注意力模块AM包括不同的类型，分别定义为残差注意力模块AM1、残差注意力模块AM2、残差注意力模块AM3、残差注意力模块AM4和残差注意力模块AM5，每个残差注意力模块AM均包括倒残差块和注意力模块。

优选地，在本发明的轻量化卷积神经网络AGCNet中的残差注意力模块AM包含两种不同类型的反向倒残差块，包括步长为1的倒残差块和步长为2的倒残差块。残差注意力模块AM的具体结构为：残差注意力模块AM1有一个，依次串接，放缩比均为2，一个残差注意力模块AM1的输入为前一个残差注意力模块AM1的输出，其中，第一个残差注意力模块AM1内部的空间卷积步长为2，其他3个残差注意力模块AM1的步长为1，结构如图2，具体地，当stride＝1时，经过1×1分组卷积增加特征图通道数，用激活函数保持非线性，经过通道混洗后，再经过3×3卷积提取特征，同样用激活函数保持非线性，最后用1×1卷积减少特征图通道数，此时为避免特征损失过多，不使用激活函数，生成与输入特征图尺寸相同的特征，使其能够与输入特征图直接相加，最后与输入特征图直接相加得到输出特征图，保证AGCNet模型有足够梯度进行反向传播更新参数；当stride＝2时，经过1×1分组卷积增加特征图通道数，用激活函数保持非线性，经过通道混洗后，再经过3×3卷积提取特征，同样用激活函数保持非线性，最后用1×1卷积减少特征图通道数。此时输出特征图与原特征图尺寸不一样，不能直接相加，输出尺寸变为28×24×64。接着是串接1个残差注意力模块AM2，输入尺寸为28×24×64，空间卷积步长为2；然后是5个残差注意力模块AM 3模块，输入尺寸为14×12×128；接着是1个残差注意力模块AM4串接，输入尺寸为14×12×128，空间卷积步长为2；然后是2个残差注意力模块AM5模块串接，输入尺寸为7×6×128，空间卷积步长为2。

如图2，其中，倒残差块中的第一个1×1分组卷积操作通过扩大特征通道数以改善后续3×3卷积效果，具体的扩大倍数为表1中t所示。分组卷积可以减少卷积计算量，分几组，计算量就是原来的几分之一,如一个特征图有16个通道，分为4组，则1到4,5到8，9到12,13到16这4组通道之间分别卷积，组与组之间互不影响。第二个1×1卷积进行降维操作，确保后续卷积操作顺利进行。

前述的分组卷积和通道混洗，分组卷积用于切分网络，以较少的参数扩展通道，然后通过通道混洗操作使输入和输出信道完全相关，从而改进了信息表示。当输出通道数为C＝g×n时，卷积层被分成g组。同时，卷积层的尺寸变成(B，C，H，W())，其中B是深度学习训练参数mini-batch，H，W分别是通道数和特征图的高度和宽度。然后指上一层卷积层输出的特征图像的通道被分割，卷积层被重塑为(B，g，n，H，W())；卷积层的形状被转换成(B，n，g，H，W())；展开向量，维度再次变成(B，C，H，W())，此时，根据组数，特征图中的每个通道都已混合。具体地，在本发明的其中一些实施例中，如图3所示，图中每层中矩形的面积表示通道数，图中第一行显示，特征图在通道方向上被分成了4组。第二行为分组卷积后的效果，不同组之间没有交流混合，第三行表示通道混洗的过程，将各通道随机均匀混合在一起。第四行表示混合后的特征图再进行一次分组卷积，此时各通道已充分混合，能够保证通道之间信息充分交流。

此外，本发明包含不同的注意模块来有目的地提高性能，结构如下：

(1)当块的卷积步长为1时，本发明采用通道注意机制来定位人脸的主要特征。通过全局池将特征压缩到空间维度上的一个像素点，以便将特征集中在同一通道中，然后通过1×1卷积在通道维度上激发，以细化通道维度上的特征，如图4所示，卷积步长为1时残差注意力模块AM中的注意力模块为通道注意力模块，包括全局池化操作、1×1卷积、激活函数保持非线性及1×1卷积，输入特征图在空间方向上经过全局池化后，1×1卷积增加通道数，挖掘深层通道特征，激活函数保持非线性，再用1×1卷积减少通道数，将该通道注意力模块其以卷积核的形式运用于图2所述输出特征图的卷积操作中，倒残差块的输出和注意力模块的输出相乘后作为该残差注意力模块AM的输出；

(2)当块的卷积步长为2时，模块中存在一个步长较大的卷积核，导致较大的特征丢失。为了解决这个问题，本发明考虑将注意力模块应用到步长为2的卷积层，这使得模型更加关注前一层的重要特征，以补偿大规模卷积造成的信息损失，如图5所示，此时的残差注意力模块AM中的注意力模块包括通道注意力子模块和空间注意力子模块，通道注意力子模块进行全局池化操作、1×1卷积、激活函数保持非线性、批归一化操作和激活函数保持非线性操作，图中所示，输入特征图在空间方向上经过全局池化，1×1卷积改变通道数，挖掘深层通道特征，激活函数保持非线性，进行批归一化，再加入激活函数保持非线性，得到通道注意力子模块，输入特征图在通道方向上经过全局平均池化和全局最大值池化，得到两个通道数为1的特征图，将二者加和取平均值，得到空间注意力子模块，将通道和空间注意力子模块先后以卷积核的形式运用于图5所述输出特征图的卷积操作中，即通道注意力子模块和倒残差块的输出相乘得到中间特征，中间特征和空间注意力子模块的输出相乘得到该残差注意力模块AM的最终输出。

表1轻量化卷积神经网络模型结构

表中，t为放缩倍数，c为输出通道数，q为模块数量，s为卷积步长，AM模块结构相同，不同之处在于表中参数不同。

本发明实现注意力模块的思路如下：首先，对输入特征进行压缩和合并，得到多维特征向量；然后，本发明将这些多维特征向量作为注意卷积核；最后，对输入的特征图像进行卷积。由于它包含来自原始输入属性图的大量信息，注意模块可以放大这些重要信息。

如果注意力模块的输入信息为X_in，则注意权重的计算公式可以表示为

Y＝f(WX_in+b)

其中，Y是生成的注意卷积核；W和b分别是对应于注意层的权重和偏移；X_in是输入特征；f是一个非线性激活函数，通常被视为一个Sigmoid损失函数，以确保输出分布在(0，1)范围内。

人脸图像生成的高维特征图中包含了大量的信息，大致可以分为通道信息和平面信息。为了放大原始特征图中的主要特征，稀释次要特征，使分离出来的和纯化出来的特征能够很好地耦合，本发明引入注意机制，从人脸特征图中充分提取隐藏信息。通道和空间方向通道的注意卷积核分别表示为：

Y_c＝f(W_cX_in+b_c)

Y_s＝f(W_sX_in+b_s)

其中，X_in表示输入特征图，W_c，W_s，b_c，b_s分别是通道和空间注意层的权重和偏移量。

在以前的工作中，注意力模块的注意力权重是由向量元素对应的点积逐个叠加而成的，这有点僵硬，而卷积是提取特征的常用方法。以注意权重作为卷积核，可以灵活地应用相同填充、有效填充和分割旋转等操作来放大和缩小特征图的大小，避免重要特征的过度压缩，有利于后续注意模块的连续挖掘。因此，注意力模块提取特征的过程如下：

h_c＝conv(Y_cW_in+b_c')

h_s＝conv(Y_sh_c+b_s')

其中，W_in是权重，b_c'，b_s'是提取过程中的通道通道注意力模块和空间注意力模块的偏移量，conv是卷积运算，h_c和h_s分别是通道注意力模块和空间注意力模块卷积层的输出，即注意筛选后的多维特征。最好先添加通道注意模块，然后再添加空间注意模块。因此，h_s是一个经过注意模块净化和耦合的多维特征向量。使用相同填充的注意力模块的常规卷积，它直接等效于点积乘法。

背景技术所提及中国发明公开专利CN112801262A中的注意力模块只有一种固定结构，依次应用于网络中的若干个单层，模块单一，表征能力有限。本发明采用两种不同结构的注意力模块，直接从整体上作用于不同的残差块，对该残差块整个实施注意力机制，能够从整体上提高网络的表现能力。

步骤5：将待测图像的底层特征向量和人脸样本的底层特征向量进行相似性度量判断，判断它们是否属于同一个人，得到人脸识别结果。

在本发明的其中一些实施例中，本步骤包括以下子步骤：

步骤51、使用损失函数来计算待测图像的底层特征向量和人脸样本的底层特征向量之间的角度；

步骤52：然后根据识别阈值来判断是否属于同一个人。

将每一个样本图像依次与待测图像配对，然后放入AGCNet模型，比对成功，则结束流程，否则取下一个样本图像与待测图像配对，放入模型继续比对，直到比对成功或者比对完所有样本。

在本发明的其中一些实施例中，采用ArcFace loss损失函数来计算角度。

ArcFace loss损失函数的公式为：

其中，

L表示ArcFace Loss损失函数，M为结果类别数，m是一个常数，称为角度边界，用以保证ArcFace Loss损失函数的单调性，λ表示公式(1)中的余弦值，s为扩展系数，y_i为第i个结果类别，由于结果只能有一个类别，因此该值取0或1，θ_j为输出向量的第j个值。

相似性度量判断中，可以根据损失函数的结果来微调识别阈值，但ArcFace Loss损失函数收敛速度较快，ArcFace Loss损失函数相对稳定，网络泛化能力强。当然，可以理解的是，在其他实施例中，也可采用softmax loss、AmSoftmax、SphereFace、CosineFace等任一损失函数。

在本发明的其中一些实施例中，采用基于正态分布的人脸识别判定方法来进行确定识别阈值。

在实际问题中，有许多变量可以近似认为是正态分布，从理论上讲，如果x是某随机试验结果的数量指标，实验结果受大量的、微不足道的、相互独立的随机因素共同影响，并且这些因素对实验本身影响效果“均匀的小”，则可以证明x近似服从正态分布。根据林德伯格-莱维的中心极限定理，在同一环境中随机选取多组样本时，这些样本序列必然为独立同分布的随机变量序列，具有有限的数学期望μ和方差σ，则这些样本序列服从中心极限定理。

根据中心极限定理，当样本容量很大时，无论独立同分布的随机变量序列服从何种分布，其部分和的分布都可以近似用正态分布来代替，由于部分和除以样本容量则为随机变量样本的均值，所以中心极限定理可以描述为，对于任意分布，只要随机变量之间相互独立，从这些随机变量中随机抽若干个值，然后求均值，并重复足够多的次数后，这些均值服从正态分布。

从中心极限定理可以看出，任意分布的样本均值都服从正态分布，对于本发明的阈值选取问题，该定理可描述为，将阈值区间平均分成a个小区间，每个小区间内选取b个阈值点，阈值点的数量根据实际应用场景选取，如可以选取10个阈值点，通过把阈值代入本发明所述AGCNet模型得到识别结果，并计算识别的准确率，再取均值后，每个小区间都有一个关于准确率的均值，这a个均值服从正态分布。为此，本发明把这a个均值近似看作符合正态分布的样本，设其总体的均值μ和方差σ未知，需要用样本反推总体参数。为使该参数尽可能贴合实际情况，本发明对全体阈值对应的准确率参数μ和σ进行置信度为0.95的参数区间估计，对求出的区间参数均选择最大值作为总体的正态分布参数，并以此作为总体的参数。最后根据3σ原则，数值分布在(μ—3σ,μ+3σ)中的概率为0.9974，把准确率μ+3σ作为人脸特征判定的最高准确率，此值为数据总体性质，具有普适性，在前述步骤中选取的a×b个样本中寻找准确率最接近μ+3σ的阈值点，取其均值作为最终确定的阈值。

下面通过具体的例子来说明如何获取识别阈值。

设在[0,1]内阈值对应的准确率，服从正态分布，μ和σ未知，把[0,1]分成10段，即a取10，根据取出的10个均值，可以确定，这10个准确率均值为

组数	1	2	3	4	5	6	7	8	9	10	平均
												准确率(％)	99	99	99	98.67	99.33	99.67	99.17	99.50	100	99.67	99.03

由于样本平均值为

其中n为样本容量，x_i为第_i个样本。

把样本代入可得

样本方差为

其中，x_i为第i个样本。

把样本代入可得

此处用样本方差代替总体方差σ，根据

对于给定的置信度1-α，有

计算可得整理可得μ的取值范围为

已知α为0.05，计算得t_0.975(9)＝2.2622，得到μ的置信度为0.95的置信区间为[0.9867，0.9939]，本发明取μ为0.9939。

对于求总体的方差，由抽样分布基本定理知：

令

/>

其中，S_n为样本的标准差，P为概率值，求出两个分位点和/>并经过整理得方差的区间估计为

计算得

得到方差的置信区间为[0.0000011685，0.0000082330]，本发明取方差为0.0000082330。

由上述步骤可得该阈值各段小区间对应的准确率均值X～N(μ,σ²)，服从正态分布，此时μ+3σ＝0.9939247，作为该数据集的最高准确率。从中可以看出，方差远远小于均值，因此本发明实施例只取均值μ作为算法的最高准确率并与10×30个先前已求出阈值对应的准确率做比较，取其中最接近的10个，最后把这10个准确率对应的阈值取均值，作为本发明其中一些实施例中的给定识别阈值应用于实际场景。

表4-2不同阈值分组数量对识别准确率的影响

本发明实施例通过定位人脸样本的人脸，可最大限度排除背景，减少无关信息的干扰，并选择待测人脸作为输入，然后将待测人脸图像和样本放入本发明的AGCNet，成为大小为512×1×1的特征向量，然后通过损失函数将输入和样本中的向量依次进行比较，如果两个特征的角度小于阈值，则将这两个特征看作是同一个人，否则认为这两个特征来自不同的人。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，包括以下步骤：

通过参考图像和人脸样本数据集训练ERT模型，以得到人脸形状；

将待测图像的底层特征向量依次和人脸样本的底层特征向量进行相似性度量判断，得到人脸识别结果；所述ERT模型包括回归模型和与回归模型级联的决策树，回归模型用于对人脸的特征点进行初步定位，决策树用于基于初步定位来判定人脸特征点的位置，得到人脸形状；所述决策树采用梯度提升决策树，所述梯度提升决策树的工作过程为：

梯度提升决策进行分裂，分裂规则如式所示：

式中，代表第k级决策树第u层叶子节点的取值，I_u(a)是决策树第u层的样本，I_u(b)是决策树第u层的平均形状，τ为分裂阈值，/>为k级回归器r_k对图像I_u的预测结果，θ为特征池参数；

完成分裂以后，每一个参考图像都会落入其中一个叶节点，计算每一个参考图像的当前形状与真实形状的差值，再将同一个叶节点的所有差值作平均，即为该叶节点保存的残差，在建立新的树之前，要对原有的预测形状进行更新，对于加法模型，则是原形状与残差相加，每一步模型更新如下：

式中，代表加法模型，/>代表第m层叶子节点，也就是叶节点保存的残差ε_nm，η_m为学习率；

经过反复迭代，模型趋于收敛或者超过规定的迭代次数后输出，将得到的加法模型作为每一级回归器，则：

其中，指模型第M次迭代后的结果，r_k是第k级回归器。

2.根据权利要求1所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，所述回归模型采用级联线性回归、级联形状回归和支持向量回归中任一种。

3.根据权利要求1所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，梯度提升决策树的级回归器互相独立，每级的特征池参数随机生成，已知加法模型的每一步更新决策树目标残差为为预测结果与真实形状的差值，采用最小平方差法，设Q为某节点样本数量，μ_θ,l及μ_θ,r分别为分裂后预测结果的残差，则此随机生成的特征池参数θ对应的平方差为

其中,E(Q,θ)为左右节点中样本的拟合平方差之和，ε_p为第p棵决策树计算出的残差，μ_θ,s＝μ_θ,l或μ_θ,r，l,r分别为左右节点，_Qθ为确定特征池参数θ情况下的某节点样本数量，s为固定系数；

当决策树目标残差等于分裂后预测结果的残差时，分裂参数最小；即分裂后预测结果等于左右子树各叶节点样本集的残差平均值时，分裂结果最优，节点最优分裂参数为：

4.根据权利要求1所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，轻量化卷积神经网络AGCNet的结构依次包括第一通道扩增卷积层、第一逐通道卷积层、所述多个残差注意力模块、第二通道扩增卷积层、第二逐通道卷积层和通道混合卷积层，第一通道扩增卷积层用于对输入图像进行空间压缩和通道扩增，第一逐通道卷积层用于对初步对图像提取特征，残差注意力模块用于提取深层特征，第二通道扩增卷积层用于对每个图像的输出通道数进行统一，第二逐通道卷积层用于把特征空间尺寸变为1×1，通道混合卷积层用于作通道信息的融合，以加强通道方向上的联系。

5.根据权利要求1所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，所述残差注意力模块包含两种不同类型的反向倒残差块，包括步长为1的倒残差块和步长为2的倒残差块，每个倒残差块均包括分组卷积操作、通道混洗、逐通道卷积和1×1卷积操作，其中，步长为1的倒残差块中，1×1卷积操作后得到的结果与输入特征图相加后作为该倒残差块的输出，步长为2的倒残差块中，1×1卷积操作后得到的结果为该倒残差块的输出。

6.根据权利要求1所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，在包含了步长为1的倒残差块的残差注意力模块中，其所设置的注意力模块为通道注意力模块，所述通道注意力模块对输入进行全局池化操作、1×1卷积、激活函数保持非线性及1×1卷积操作，在包含了步长为2的倒残差块的残差注意力模块中，其所设置的注意力模块包括通道注意力子模块和空间注意力子模块，通道注意力子模块对输入进行全局池化操作、1×1卷积、激活函数保持非线性、批归一化操作和激活函数保持非线性操作，空间注意力子模块对输入做全局平均池化和全局最大值池化并取平均值。

7.根据权利要求1-6任一所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，所述进行相似性度量判断，包括：使用损失函数来计算待测图像的底层特征向量和人脸样本的底层特征向量之间的角度，然后根据识别阈值来判断是否属于同一个人。

8.根据权利要求7所述的一种基于轻量化卷积神经网络的人脸识别方法，其特征在于，基于样本均值服从正态分布的方式来确定所述识别阈值：将阈值区间平均分成a个小区间，每个小区间内选取b个阈值点，在选取的a×b个样本中寻找准确率最接近μ+3σ的阈值点，取其均值作为最终确定的阈值，μ为均值，σ为方差。