CN112818850A

CN112818850A - 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法

Info

Publication number: CN112818850A
Application number: CN202110133292.6A
Authority: CN
Inventors: 黄俊阳; 丁长兴
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-18
Anticipated expiration: 2041-02-01
Also published as: CN112818850B

Abstract

本发明公开了一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，包括如下步骤：使用MTCNN工具进行人脸检测和关键点对齐；对每一张人脸图像，估计姿态信息；为每张人脸图像采样一张正脸图像作为基准图像，构成图像对输入设计好的渐进式神经网络中提取人脸特征对以及进行身份预测；使用上述特征对计算注意力加权均方误差损失函数，并结合分类的交叉熵损失函数训练神经网络；使用训练好的神经网络提取人脸特征并进行人脸验证。本发明构建了新的轻量级渐进式网络结构和基于注意力的损失函数，能够有效地在特征空间上将侧脸图像的特征进行摆正，从而解决人脸识别领域中姿态变动造成人脸识别性能下降的问题。

Description

基于渐进式神经网络和注意力机制的跨姿态人脸识别方法

技术领域

本发明涉及人脸识别技术领域，具体涉及一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法。

背景技术

人脸识别是一项关键的技术，在银行、电子商务、互联网金融、电子娱乐、教育、金融、证券等各领域都有着广泛的应用。然而，虽然目前的人脸识别技术已经达到了较为瞩目的识别精度，在处理大姿态下的人脸时，相比于处理姿态较小的人脸，大多数人脸验证算法识别的精度往往下降地非常明显。Senguptal等人在2016年IEEE WACV的会议文章中指出，在识别大姿态人脸时这些算法识别精度的下降幅度超过了10％。这意味着人脸姿态变动的影响已经成为了人脸识别领域中的一个重要挑战，而这个问题的解决将进一步提高人脸识别的安全可靠性，从而为人脸识别领域带来一个质的提高。

为了克服姿态变动对人脸识别的影响，研究人员作了种种探索。其中一个重要的方法就是收集包含更多不同姿态的人脸、姿态分布更加均衡的大型无约束人脸数据集，比如Ms-Celeb-1M，VGGFace2、YouTubeFace，这样训练出来的人脸识别模型能够对不同姿态下的人脸均有较强的适应能力和拟合能力。但是收集这样的大型数据集往往需要耗费巨大的人力与物力，耗时长久，而且由于现实生活中出现的侧脸图像比较少，这些数据集往往仍然是姿态不均衡的，包含的正脸图像的数量远远超过侧脸。另一个重要的方法是使用合成人脸图像的方法来将侧脸图像转换成正脸图像再通过人脸识别网络进行识别，比如Tran等人在2019年的IEEE TPAMI期刊文章中提出的DR-GAN的方法和Deng等人在2018年的IEEE CVPR会议文章中提出的UV-GAN的方法。这些方法存在的问题主要在于：一方面需要额外的开销来合成人脸图像，另一方面受限于目前GAN网络的拟合能力，生成的人脸图像仍然与现实中的人脸图像存在差异，当使用这样的生成图像来进行识别时就不可避免地引入了误差。还有一个重要的方法是为每种姿态的人脸分别训练一个人脸识别网络进行识别，在测试时根据输入人脸的姿态自适应地选择合适的网络，然后将不同网络的结果进行整合，比如Iacopo Masi等人在2019年的IEEE TPAMI期刊文章中提出的PAM的方法。虽然这样能够较为灵活地处理了不同姿态的人脸，但是多个深度神经网络的使用，无疑使得参数量和计算量成倍增加。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，本发明在普通的深度神经网络后面构建一个渐进式的特征摆正网络，直接在特征空间上进行人脸摆正而不是在图像空间上进行人脸摆正，以避免额外的开销与误差，而渐进式的网络结构能够灵活地对不同姿态的人脸分别进行处理而不需要为每种姿态的人脸安排不同的识别网络，同时，注意力加权均方误差函数的引入保证了特征摆正过程的有效性；采用轻量级的网络结构与基于注意力机制结合的方式，在特征空间上将侧脸图像的特征拉近正脸图像的特征，达到以轻便的网络实现大姿态人脸识别性能提升的效果。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，包括下述步骤：

对收集的人脸图像数据进行预处理，包括人脸检测、关键点检测、人脸对齐；

对经过预处理的人脸图像检测姿态角度；

根据人脸的姿态角度，为训练集中每张人脸图像选择一张正脸图像或最小姿态角度图像作为基准图像以组成用于训练的图像对；

构建基准神经网络，所述基准网络用于深度人脸特征的提取；

对构建的基准网络采用随机的方式进行初始化；

将训练集中的人脸图像随机分配到固定尺寸的batch中，馈入基准网络及分类器以获取预测的各类别的分数；

构建交叉熵损失函数，采用交叉熵损失函数对基准网络的预测结果和人脸图像类别的标签进行损失计算和梯度计算，并通过反向传播更新基准网络；

构建组成渐进式特征摆正网络的残差块的具体结构，并通过堆叠方式组成渐进式特征摆正网络；

构建残差块使用的软门限的计算方法；

对构建的渐进式特征摆正网络采用随机的方式进行初始化；

将训练集中的人脸图像和基准图像以图像对的形式随机分配到固定尺寸的batch中，馈入基准网络中，得到训练图像和基准图像的特征；

将训练图像的特征馈入渐进式特征摆正网络，形成摆正后的人脸特征；

根据基准图像的特征构建注意力特征向量；

根据摆正后的训练图像特征、基准图像的特征和注意力特征向量构建基于注意力的加权均方误差损失函数，结合交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准网络和渐进式特征摆正网络；

使用训练好的基准网络和渐进式特征摆正网络对待测任意人脸图像进行特征提取，并计算待测图像与比对图像特征之间的余弦相似度作为衡量。

作为优选的技术方案，所述对收集的人脸图像数据进行预处理，具体步骤包括：

使用MTCNN进行人脸boundingbox检测和人脸5个关键点检测，根据人脸图像与boundingbox采用TCDCN检测人脸的68关键点，然后根据检出的5个人脸关键点与标准对齐模板进行仿射变换以对齐人脸。

作为优选的技术方案，所述构建基准神经网络，采用ResNet-34网络作为基础网络，并采用C类的线性分类器代替原先的分类器，构建基于C个类别分类的深度神经网络；

所述对构建的基准网络采用随机的方式进行初始化，具体对基准网络的卷积层、BN层、线性层的权重和偏置采用MSRA权重初始化方法进行随机初始化，对其它部分则采用零值初始化的方法进行初始化。

作为优选的技术方案，所述构建组成渐进式特征摆正网络的残差块的具体结构，并通过堆叠方式组成渐进式特征摆正网络，具体采用Conv-BN-ReLU-Conv-BN变换与原先特征相加的基本残差结构，并且使用软门限系数逐元素与变换后的特征相加以控制变换的量，具体表示为：

f_i(x)＝f_i-1(x)+γ(θ_i,θ)·R_i(f_i-1(x))

其中，x表示处理的每一张侧脸图像，f_i(x)表示经过第i个残差块网络后提取的人脸特征，R_i表示第i个残差块网络对当前输入特征的变换，γ表示每个残差块网络的软门限系数。

作为优选的技术方案，所述构建残差块使用的软门限的计算方法，具体步骤包括：

给定每张图片的角度θ和每个残差块的对应转换角度θ_i(i＝1,2,3)，根据sigmoid函数计算软门限系数，对应每个残差块软门限系数计算方法如下：

其中i表示第i个残差块。

作为优选的技术方案，所述根据基准图像的特征构建注意力特征向量，具体步骤包括：

根据基准图像的特征构建注意力特征向量：将每张训练图像的基准图像输入基准网络Resnet-34中提取基准特征，对基准特征逐元素取绝对值，计算基准特征绝对值的最大值，将基准特征逐元素除以该最大值从而得到注意力特征向量，具体表示为：

其中，ψ(x_f)表示对基准图像提取的特征，sqrt、abs、max分别表示对特征向量的逐元素取平方根、取绝对值、取最大值。

作为优选的技术方案，所述根据摆正后的训练图像特征、基准图像的特征和注意力特征向量构建基于注意力的加权均方误差损失函数，具体步骤包括：

计算每张训练图像经过基准网络和渐进式特征摆正网络后的特征与基准图像经过基准网络后的特征之间每个元素的平方差，将构建好的注意力特征向量逐元素与特征的平方差进行相乘，然后按照均方误差损失函数计算基于注意力的加权均方误差损失函数，具体表示为：

其中，N表示训练过程中的批尺寸，i表示第i张图像，

表示训练集中第i张图像提取的特征，

表示相应的基准图像。

作为优选的技术方案，所述结合交叉熵损失函数进行损失计算和梯度计算，具体设置平衡参数，用于调节交叉熵损失函数和基于注意力的加权均方误差损失函数的比重，具体表示为：

L_total＝L_id+λL_apl

其中，L_id表示交叉熵损失函数，

分别为分类器中对应正确类别的权重和偏置量，

b_j分别表示其它类的权重和偏置量，C表示总共有C个类别，N表示训练过程中的批尺寸，i表示第i张图像，

表示训练集中第i张图像提取的特征，λ是两个损失函数的平衡参数。

作为优选的技术方案，所述基准网络和渐进式特征摆正网络的训练方法采用端到端的训练方式，批尺寸固定，采用随机裁剪、随机翻转、色彩变动、对比度干扰的数据增强方法，设置初始学习率，在迭代训练过程中使用学习率退火策略，并保存模型参数文件。

本发明还提供一种基于渐进式神经网络和注意力机制的跨姿态人脸识别系统，包括：

图像预处理模块、姿态角度检测模块、图像对构建模块、基准神经网络构建模块、初始化模块、类别预测分数获取模块、交叉熵损失函数构建模块、渐进式特征摆正网络构建模块、软门限机制构建模块、训练图像和基准图像的特征获取模块、摆正后的人脸特征获取模块、注意力特征向量构建模块、加权均方误差损失函数构建模块、训练模块和识别模块；

所述图像预处理模块用于对收集的人脸图像数据进行预处理，包括人脸检测、关键点检测、人脸对齐；

所述姿态角度检测模块用于对经过预处理的人脸图像检测姿态角度；

所述图像对构建模块用于根据人脸的姿态角度，为训练集中每张人脸图像选择一张正脸图像或最小姿态角度图像作为基准图像以组成用于训练的图像对；

所述基准神经网络构建模块用于构建基准神经网络，所述基准网络用于深度人脸特征的提取；

所述初始化模块用于对构建的基准网络及渐进式特征摆正网络采用随机的方式进行初始化；

所述类别预测分数获取模块用于将训练集中的人脸图像随机分配到固定尺寸的batch中，馈入基准网络及分类器以获取预测的各类别的分数；

所述交叉熵损失函数构建模块用于构建交叉熵损失函数，采用交叉熵损失函数对基准网络的预测结果和人脸图像类别的标签进行损失计算和梯度计算，并通过反向传播更新基准网络；

所述渐进式特征摆正网络构建模块用于构建组成渐进式特征摆正网络的残差块的具体结构，并通过堆叠方式组成渐进式特征摆正网络；

所述软门限机制构建模块用于构建残差块使用的软门限的计算方法；

所述训练图像和基准图像的特征获取模块用于将训练集中的人脸图像和基准图像以图像对的形式随机分配到固定尺寸的batch中，馈入基准网络中，得到训练图像和基准图像的特征；

所述摆正后的人脸特征获取模块用于将训练图像的特征馈入渐进式特征摆正网络，形成摆正后的人脸特征；

所述注意力特征向量构建模块用于根据基准图像的特征构建注意力特征向量；

所述加权均方误差损失函数构建模块用于根据摆正后的训练图像特征、基准图像的特征和注意力特征向量构建基于注意力的加权均方误差损失函数，

所述训练模块用于结合交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准网络和渐进式特征摆正网络；

所述识别模块用于使用训练好的基准网络和渐进式特征摆正网络对待测任意人脸图像进行特征提取，并计算待测图像与比对图像特征之间的余弦相似度作为衡量。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在普通的深度神经网络后面构建一个渐进式的特征摆正网络，直接在特征空间上进行人脸摆正而不是在图像空间上进行人脸摆正，以避免额外的开销与误差，而渐进式的网络结构能够灵活地对不同姿态的人脸分别进行处理而不需要为每种姿态的人脸安排不同的识别网络，同时，注意力加权均方误差函数的引入保证了特征摆正过程的有效性。

(2)本发明采用轻量级的网络结构与基于注意力机制结合的方式，在特征空间上将侧脸图像的特征拉近正脸图像的特征，达到以轻便的网络实现大姿态人脸识别性能提升的效果。

附图说明

图1为本发明基于渐进式神经网络和注意力机制的跨姿态人脸识别方法的流程示意图；

图2为本发明基准神经网络、渐进式神经网络、基于注意力机制的加权均方误差损失函数的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，包括下述步骤：

S1：人脸数据预处理：使用MTCNN工具检测人脸以及人脸5个关键点，并进行对齐；

在本实施例中，使用MTCNN进行人脸boundingbox检测和人脸5个关键点检测，根据人脸图像与boundingbox采用TCDCN检测人脸的68关键点，然后根据检出的5个人脸关键点与标准对齐模板进行仿射变换以对齐人脸。对于训练集，若无法检出关键点与boundingbox的人脸数据，直接予以滤除；对于测试集，则适当进行手工标注。

S2：检测训练集人脸数据的角度，即估计人脸的姿态信息；

在本实施例中，将处理好的人脸图像数据、人脸68关键点、人脸boundingbox输入预先训练好的姿态预测网络，预测出每张人脸图像的偏航角；

S3：重构训练集数据：根据估计的人脸的姿态信息，为人脸图像采样一张同一个身份的正脸图像或最小角度图像作为基准图像，构成神经网络输入的图像对；

具体步骤包括：

对每个特定身份的人脸，收集其姿态角度小于10°的所有图像和其姿态最小的图片分别组成候选集合和最小集合；

对人脸图像数据集的任意一张人脸图像，若对应的人脸身份的候选集合不为空，则从候选集合中随机采用一张作为该人脸图像的基准正脸图像，否则选择最小集合中相同身份的图像作为该人脸图像的基准图像；

将人脸图像数据集的所有图像与其基准图像构成图像对，预备对网络进行训练；

S4：构建基准神经网络，基准网络用于深度人脸特征的提取：以ResNet-34网络为基础结构进行调整，用一个C类的线性分类器代替原先的1000类的分类器，构建基于训练集C个类别分类的深度神经网络。

S5：初始化基准网络：对基准网络的卷积层、BN层、线性层的权重和偏置采用MSRA权重初始化方法进行随机初始化，对其他部分则采用零值初始化的方法进行初始化；

使用交叉熵损失函数初步训练基准神经网络，具体训练设置为：采用小尺寸批随机梯度下降的方法对网络的参数进行更新，批尺寸固定为200，初始学习率设置为0.1，总共训练25个epoch，在第5,10,15,20个epoch时分别使用学习率退火策略，将学习率下降为前次学习率的0.5,0.2,0.1,0.1，在每个epoch结束时保存训练的模型文件；

S6：构建渐进式特征摆正网络，包括如下步骤：

S61：构建组成渐进式特征摆正网络的残差块的具体结构，并通过堆叠方式组成渐进式特征摆正网络：采用Conv-BN-ReLU-Conv-BN变换与原先特征相加的基本残差结构，并且使用软门限系数逐元素与变换后的特征相加以控制变换的量，其中，所有特征变换的过程均不改变特征的维度。该过程可表示为：

f_i(x)＝f_i-1(x)+γ(θ_i,θ)·R_i(f_i-1(x))

其中，x表示处理的每一张侧脸图像，f_i(x)表示经过第i个残差块网络后提取的人脸特征，R_i表示第i个残差块网络对当前输入特征的变换，γ表示每个残差块网络的软门限系数；特别地，f₀(x)表示经过基本网络Resnet-34提取的人脸特征。

S62：构建残差块使用的软门限的计算方法：每一个残差块分别设置不同的门限系数，根据输入的人脸的姿态分别为每个残差块分配不同的门限系数以决定是否进行该残差块对应的特征变换和进行特征变换的量，若图片的角度小于或等于残差块对应的变换角度，则直接通过sortcut分支来保持原来的特征不变。

更进一步地，给定每张图片的角度θ和每个残差块的对应转换角度θ_i(i＝1,2,3)，根据sigmoid函数计算软门限系数，对应每个残差块软门限系数计算方法如下：

其中i表示第i个残差块；

在本实施例中，在计算软门限系数的步骤中，每个残差块对应的转换角度的获取方式是：

使用现有的全部人脸图像数据训练基本网络结构Resnet-34，使用训练好的Resnet-34对测试集数据进行特征提取，计算相同身份的图像的平均特征，将平均特征与相同身份的单张图像的特征计算余弦相似度，将相近角度下的人脸的预先相似度进行平均作为纵坐标，人脸角度作为横坐标绘制曲线图，观察不同角度的人脸图像特征与平均特征余弦距离的变化规律，归纳可能的角度分界点，设置每个残差块对应的变换角度的标准为20°、40°、60°；

S63：串联3个残差块构建渐进式特征摆正网络，该过程可表示为：

F(x)＝f₃(f₂(f₁(f₀(x)))

S7：如图2所示，构建基于注意力的加权均方误差损失函数，包括：

S71：根据基准图像的特征构建注意力特征向量：将每张训练图像的基准图像输入基准网络Resnet-34中提取基准特征，对基准特征逐元素取绝对值，计算基准特征绝对值的最大值，将基准特征逐元素除以该最大值从而得到注意力特征向量。

更进一步地，将ψ(x_f)表示对基准图像提取的特征，sqrt、abs、max分别表示对特征向量的逐元素取平方根，取绝对值，取最大值。则注意力特征向量的计算表达式为：

S72：结合均方误差函数和注意力特征向量构建基于注意力的加权均方误差损失函数：

计算每张训练图像经过基准网络和渐进式特征摆正网络后的特征与基准图像经过基准网络后的特征之间每个元素的平方差，将构建好的注意力特征向量逐元素与特征的平方差进行相乘，然后按照均方误差损失函数计算基于注意力的加权均方误差损失函数。

更具体地，将N表示训练过程中的批尺寸，i表示第i张图像，

表示训练集中第i张图像提取的特征，

表示相应的基准图像，则基于注意力的加权均方误差损失函数可按照如下公式计算为：

S8：结合交叉熵损失函数和基于注意力的加权均方误差损失函数，组成最终的训练损失函数；

其中，交叉熵损失函数表示为：

其中，

分别为分类器中对应正确类别的权重和偏置量，

分别表示其它类的权重和偏置量，C表示总共有C个类别；

则最终的训练损失函数为：

L_total＝L_id+λL_apl

其中，λ是两个损失函数的平衡参数，在本实施例中，λ设置为2.0，并采用随机梯度下降方法，根据上述损失函数同时对基准网络和渐进式特征摆正网络进行更新；

使用平衡参数λ来调节交叉熵损失函数和基于注意力的加权均方误差损失函数的比重，该平衡参数的构建方法为：设置一个30％训练集大小的验证集，对验证集进行训练集一样的处理，分别将平衡参数设置为0.001,0.01,0.1,1.0,10.0,100.0；使用训练集按照上面参数设置分别训练一个模型，在验证集上进行测试并且比较不同平衡参数的效果；缩小参数的范围，重复上述验证流程；最终确定最优平衡参数为2.0。

S9：将渐进式特征摆正网络添加到基准网络GAP层之后，同时训练两个网络，训练方法为：采用端到端的训练方式，批尺寸固定为200，采用随机裁剪、随机翻转、色彩变动、对比度干扰的数据增强方法以增强模型训练的鲁棒性，初始学习率设置为0.1，总共训练30个epoch，在第5,10,15,20个epoch时分别使用学习率退火策略，将学习率下降为前次学习率的0.5,0.2,0.1,0.1，每隔一个epoch保存一次中间的模型参数文件。

S10：使用训练好的基准网络和渐进式特征摆正网络进行测试：对测试的全部人脸图片进行与训练集人脸图片相同的预处理操作；检测测试集全部人脸图片的角度；将测试集中的测试图片(probe图片)和原型图片(gallery图片)分别通过训练好的基准网络和渐进式特征摆正网络得到512维的特征向量；计算测试图片和原型图片之间的余弦相似度以指示测试图片与原型图片的相似度；

具体地，将测试图片的特征向量表示为p，原型图片的特征向量表示为q，则按照如下公式计算它们的余弦相似度为：

最终，判断方法为：余弦相似度数值范围分布在-1和1之间，数值越接近1说明测试图片与原型图片越相似，数值越接近-1说明测试图片与原型图片越不相似。

为验证本发明方法的有效性，在CFP、CPLFW这两个个公开人脸数据集上进行了实验，进行了定量与定性分析。

如下表1所示，表1中包含Ms-Subset和Ms-Refined两部分数据集的训练结果，第一个模型表示基准模型，后面若干模型分别表示添加了MSE(均方误差损失函数)，Prog(渐进式特征摆正网络)，APL(基于注意力机制的加权损失函数)这些细节的实验结果，实验结果表明了各部分的有效性。

表1 CFP和CPLFW上自对比实验数据表

如表2、表3所示，本发明与当前最好效果的已发表方法在CFP、CPLFW上的结果进行了对比：

表2本发明与其他方法在CFP上的对比数据表

表3本发明与其他方法在CPLFW上的对比数据表

其中Baseline为基础模型，最后一栏为本发明的方法。总体来说，本发明的方法相比于其他方法具有更高的准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，其特征在于，包括下述步骤：

对经过预处理的人脸图像检测姿态角度；

对构建的基准网络采用随机的方式进行初始化；

构建残差块使用的软门限的计算方法；

对构建的渐进式特征摆正网络采用随机的方式进行初始化；

根据基准图像的特征构建注意力特征向量；

2.根据权利要求1所述的基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，其特征在于，所述对收集的人脸图像数据进行预处理，具体步骤包括：

3.根据权利要求1所述的基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，其特征在于，所述构建基准神经网络，采用ResNet-34网络作为基础网络，并采用C类的线性分类器代替原先的分类器，构建基于C个类别分类的深度神经网络；

4.根据权利要求1所述的基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，其特征在于，所述构建组成渐进式特征摆正网络的残差块的具体结构，并通过堆叠方式组成渐进式特征摆正网络，具体采用Conv-BN-ReLU-Conv-BN变换与原先特征相加的基本残差结构，并且使用软门限系数逐元素与变换后的特征相加以控制变换的量，具体表示为：

f_i(x)＝f_i-1(x)+γ(θ_i,θ)·R_i(f_i-1(x))

5.根据权利要求1所述的基于渐进式神经网络和注意力机制的跨姿态人脸识别方法，其特征在于，所述构建残差块使用的软门限的计算方法，具体步骤包括：