CN110674714A

CN110674714A - 基于迁移学习的人脸和人脸关键点联合检测方法

Info

Publication number: CN110674714A
Application number: CN201910867602.XA
Authority: CN
Inventors: 杨万扣; 葛涌涛; 郑文明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2020-01-10
Anticipated expiration: 2039-09-13
Also published as: CN110674714B

Abstract

本发明公开了一种快速人脸和人脸关键点联合检测方法，包括如下步骤：步骤1，构建教师网络和学生网络；步骤2，输入一批训练图像，进行数据增强；步骤3，根据自适应尺度匹配策略，划分正负锚点框样本；步骤4，挖掘正负样本，计算多任务损失函数，更新网络参数；步骤5，转至步骤2，直至训练收敛，得到教师网络模型；步骤6，重复步骤2到步骤5，利用教师网络模型，加入迁移学习损失函数，训练得到学生网络模型；步骤7，在测试阶段，输入测试图像到学生网络模型，得到检测结果。本发明可以同时得到人脸和关键点检测结果，加快了人脸识别预处理流程的速度。本发明提出的轻量网络推理速度快，能够部署在算力受限的嵌入式设备。

Description

基于迁移学习的人脸和人脸关键点联合检测方法

技术领域

本发明属于图像处理与模式识别技术领域，具体涉及到一种基于迁移学习的的人脸和人脸关键点联合检测方法，可以应用到视频监控，身份识别和人机交互等诸多领域。

背景技术

人脸检测是一种在任意图像中自动搜索人脸的位置和大小的技术，人脸关键点检测是一种在任意图像中自动搜索定义好的人脸特征点(如瞳孔，鼻子，嘴角等)的位置的技术。人脸检测和人脸关键点检测在计算机视觉、模式识别应用中占有很重要的地位，例如视频监控和门禁系统等。对于人脸识别来说，人脸检测和人脸关键点检测是必不可少的两个预处理步骤。

目前大多数人脸识别方法的流程都需要以人脸检测和人脸关键点的结果作为基础来进行人脸对齐，运用最为广泛的是MTCNN。但是随着人脸尺度的变小，MTCNN的检测性能会急剧下降。随着图图像中人脸的增多，MTCNN的检测耗时也会急剧增加。总的来说，设计嵌入式端人脸检测和人脸关键点检测网络的挑战主要有以下三个方面：首先，传统的检测方法中网络参数存在着很大冗余，这是不符合嵌入式设备功耗要求的，嵌入式端网络的主体结构要短小精干，这样才能保证网络的运算量和推理速度。其次，传统的锚点框与人脸标注框匹配的策略不够完善，有些尺度的人脸标注框不能匹配到足够多的锚点框，导致它们有着较低的召回率，覆盖的人脸尺度范围不够广泛。最后，在轻量网络框架下进行多任务学习会往往会带来一定的精度损失，因为轻量网络的参数冗余度小，网络容量不够大。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种轻量型人脸和人脸关键点联合检测方法，尺度覆盖范围足够大，并且与MTCNN相比，关键点检测精度更高。

该方法包括如下步骤：

步骤1，构建教师网络和学生网络的主体框架并设计锚点框的关联层以及大小；

步骤2，输入一批训练图像，运用数据増广技术，扩充训练样本，以增强模型泛化能力；

步骤3，根据自适应尺度匹配策略，把所有锚点框划分为正样本和负样本并匹配人脸关键点的标注；

步骤4，应用困难负样本挖掘方法，选出部分负样本，与所有的正样本一起，计算分类，回归，关键点和注意力损失函数，以更新网络参数，完成一次网络训练；

步骤5，转至步骤2，直至训练收敛，得到最终的教师网络模型；

步骤6，重复步骤2到步骤5，利用训练好的教师网络模型，加入迁移学习损失函数，训练得到学生网络模型；

步骤7，在测试阶段，把测试图像输入最终的学生网络模型，进行人脸和人脸关键点检测。

作为本发明的优选，步骤1中教师网络和学生网络的网络结构仅在每一层的通道数量上存在区别，教师网络每一层的通道数量设置为学生网络的4倍，教师网络和学生网络均采用了快速下采样策略。

作为本发明的优选，所述步骤2中具体的步骤为：

(2-1)随机旋转操作：如果一张图像中人脸尺度均大于48，则对其以图像中心为原点，在[-20°,20°]的角度范围内随机旋转；

(2-2)颜色抖动操作：分别以0.5的概率，随机地调整训练图像的亮度、对比度、饱和度；

(2-3)随机裁剪操作：在这张训练图像上，随机地裁剪出5张正方形子图像，其中1个是其最大的正方形子图像，另外4张正方形子图像的边长是训练图像短边的0.3～1.0倍，在这5张正方形子图像中，随机地选取1张作为最终的训练样本；

(2-4)水平翻转操作：对于这张选中的训练样本，以0.5的概率随机地进行水平翻转操作；

(2-5)尺度变换操作：把经过上述操作得到的训练样本，以0.5的概率缩放到640×640大小或1024×1024大小，送入网络用于训练。

作为本发明的优选，所述步骤3中基于多尺度自适应的锚点框匹配策略包括以下步骤：

(3-1)根据数据集中的人脸尺度分布情况，将人脸尺度划分为N组；

(3-2)根据标准的锚点框匹配策略，根据数据集中的人脸尺度分布确定网络各个输出层的检测尺度，各个输出层的阈值随着人脸尺度的增长而线性递增，阈值设置公式如下式所示，

其中，num_stride是网络输出层数，θ_min代表第一个尺度的阈值，θ_max代表最后一个尺度的阈值，一般num_stride＝5，θ_min＝0.35，θ_max＝0.5。

然后对人脸标注框和锚点框进行配对，

[a₁，a₂，a₃，...，a_N]

其中a_i包括锚点框的位置和大小，根据它们与该人脸标注框的交除并重叠比大小，进行降序排序得到：

[A₁，A₂，A₃，...，A_N]

最后，选取前N_p个锚点框，作为该人脸标注框匹配到的锚点框，其中N_p为可调参数，默认设为上述第一步中人脸标注框的平均匹配数量。

作为本发明的优选，所述步骤4的具体步骤为：

对于所有的负样本，计算出他们分类预测所带来的误差值，并根据误差值进行降序排序，选取前N_neg个负样本参与训练，使得：

N_neg＝3N_pos

其中N_pos为正样本的数量，经过困难负样本挖掘之后，正样本与负样本的数量比例为1∶3，两者有着比较平衡数量，用于计算如下的损失函数：

其中，i是mini-batch中一个锚点框的标号，p_i是i号锚点框被预测是人脸的概率，如果锚点框是正样本的话，训练标注

是1，如果锚点框是负样本的话，训练标注是0，t_i是一个4维的向量，参数化了预测人脸边界框的坐标，

是与正锚点框关联的t_i的标注，l^*是注意力损失中中心点到人脸标注框左侧的距离，t^*是注意力损失中中心点到人脸标注框上侧的距离，r^*是注意力损失中中心点到人脸标注框右侧的距离，b^*是注意力损失中中心点到人脸标注框下侧的距离，

是教师网络的分类输出，参数化方法为：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)

其中x，u，w和h分别表示框中心的坐标和它的宽长，x，x_a以及x^*分别代表人脸预测框、锚点框和人脸标注框，

表示关键点的标注，

表示人脸标注框左上角坐标，

表示人脸标注框右下角坐标；

损失函数中的分类损失L_cls项是基于两类分类(人脸vs.背景)的对数损失：

对于回归损失函数L_reg，采用鲁棒回归损失函数(smooth L₁)：

其中：

对于关键点回归损失函数，采用改进的L₁损失函数(Wing L₁)：

对于注意力损失函数，计算方式如下：

对centerness^*采用二类交叉熵损失函数训练；

对于知识蒸馏损失函数，采用自适应KL散度函数来度量教师网络和学生分类输出概率的相似性，其中，q是教师网络的分类输出概率，p是教师网络的分类输出概率：

对于迁移学习训练来说，采用了一种自适应的迁移损失函数ADL：

apt_weight＝(1-e^-(KL+βT(q)))^γ

T(q)＝-q(qlog(q)+(1-q)log(1-q))

L_distillation＝apt_weight·KL

四项损失函数分别被N_cls，N_reg和N_ldmk归一化，并由系数λ做加权平衡。其中：

N_cls＝N_neg+N_pos，N_reg＝N_pos，N_ldmk＝N_ldmkpos

其中正负样本比例为1∶3，因此加权系数λ₁默认设为4，以使L_cls和L_reg拥有大体相同水平的权重。λ₂默认设为1，λ₃默认设为1，λ₄默认设为1；

损失函数计算完成后，利用随机梯度下降法，反向传播误差，更新网络参数，完成一次训练。

有益效果：

本发明解决了人脸检测效率低，速度慢的技术问题。通过本发明的方法，可以利用单个轻量型学生网络同时得到鲁棒的人脸和关键点检测结果，加快了人脸识别预处理流程的速度。本发明提出的方法检测精度高，适应范围广，在网络参数量极小的情况下，仍然能够保证人脸检测和关键点精度，能够部署在计算力受限的嵌入式设备。

附图说明

图1为本发明所提供的基于多尺度锚点框的人脸检测方法的流程示意图；

图2为本发明所构建的多尺度人脸检测网络架构示意图。

图3为本发明所构建的注意力机制标注示意图。

图4为本发明所构建的迁移学习过程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明公开了一种轻量型人脸和人脸关键点联合检测方法，如图1所示，包括如下步骤：

步骤1，构建网络框架，设计锚点框的关联层和大小。通过一个步长为2的5×5卷积核和一个步长为2的3×3最大池化操作，保证了小尺度特征层的感受野和极大降低了网络的运算量。同时，为了让教师网络获得更高的推理精度，将教师网络每一层的卷积核通道数设置为学生网络的4倍。在本发明中，对5个锚点框关联层按照

的间隔，每层铺设3个宽高比为1的锚点框。具体设置如下表。

表1.特征图锚点设置

步骤2，输入一批训练图像，运用数据増广技术。

对于输入的每张训练图像，依次按照如下操作，进行数据的増广：

(1)随机旋转操作：如果一张图像中人脸尺度均大于48，则对其以图像中心为原点，在[-20°，20°]的角度范围内随机旋转。

(2)颜色抖动操作：分别以0.5的概率，随机地调整训练图像的亮度、对比度、饱和度等参数。

(3)随机裁剪操作：在这张训练图像上，随机地裁剪出5张正方形子图像。其中1个是其最大的正方形子图像，另外4张正方形子图像的边长是训练图像短边的0.3～1.0倍。在这5张正方形子图像中，随机地选取1张作为最终的训练样本。

(4)水平翻转操作：对于这张选中的训练样本，以0.5的概率随机地进行水平翻转操作。

(5)尺度变换操作：把经过上述操作得到的训练样本，以0.5的概率缩放到640×640大小或1024×1024大小，送入网络用于训练。

输入的每张训练图像依次经过上述5个操作，最终得到1张大小为640×640或1024×1024的训练样本。通过数据增广操作极大地丰富了训练样本，能够显著地提高模型的泛化能力。

步骤3，根据自适应尺度匹配策略，把锚点框分为正负样本并匹配正确的关键点样本。

为了解决现有的匹配策略下，小尺度人脸不能匹配到充足的锚点框这一问题，本发明提出尺度自适应锚点框匹配策略。该策略由两个步骤组成：第一步，根据数据集中的人脸尺度分布情况，将人脸尺度划分为N组，第二步，根据标准的锚点框匹配策略，根据数据集中的人脸尺度分布确定网络各个输出层的检测尺度，各个输出层的阈值随着人脸尺度的增长而线性递增，阈值设置公式如下式所示，

然后对人脸标注框和锚点框进行配对，

[a₁，a₂，a₃，...，a_N]

其中a_i包括锚点框的位置和大小。根据它们与该人脸标注框的交除并重叠比大小，进行降序排序得到：

[A₁，A₂，A₃，...，A_N]

最后，选取前N_p个锚点框，作为该人脸标注框匹配到的锚点框。其中N_p为可调参数，默认设为上述第一步中人脸标注框的平均匹配数量。

步骤5，困难负样本挖掘，计算损失函数，更新网络参数。

经过步骤4之后，所有的锚点框被分为正样本和负样本，但是负样本的数量远远大于正样本的数量。为了使训练过程更加稳定，收敛速度更加快，我们使用困难负样本挖掘技术，选出部分负样本参与训练。具体操作为：对于所有的负样本，计算出他们分类预测所带来的误差值，并根据误差值进行降序排序，选取前N_neg个负样本参与训练，使得：

N_neg＝3N_pos

其中N_pos为正样本的数量。经过困难负样本挖掘之后，正样本与负样本的数量比例为1∶3，两者有着比较平衡数量，用于计算如下的损失函数：

其中，i是mini-batch中一个锚点框的标号，p_i是i号锚点框被预测是人脸的概率。如果锚点框是正样本的话，训练标注是1，如果锚点框是负样本的话，训练标注

是0。t_i是一个4维的向量，参数化了预测人脸边界框的坐标，

是与正锚点框关联的t_i的标注。l^*是注意力损失中中心点到人脸标注框左侧的距离，t^*是注意力损失中中心点到人脸标注框上侧的距离，r^*是注意力损失中中心点到人脸标注框右侧的距离，b^*是注意力损失中中心点到人脸标注框下侧的距离。

是教师网络的分类输出。参数化方法为：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)

其中x，u，w和h分别表示框中心的坐标和它的宽长。x，x_a以及x^*分别代表人脸预测框、锚点框和人脸标注框。

表示关键点的标注，

表示人脸标注框左上角坐标，表示人脸标注框右下角坐标。

对于回归损失函数L_reg，我们采用鲁棒回归损失函数(smooth L₁)：

其中：

对于关键点回归损失函数，我们采用改进的L₁损失函数(Wing L₁)：

对于注意力损失函数，计算方式如下：

对centerness^*采用二类交叉熵损失函数训练。

对于知识蒸馏损失函数，我们采用自适应KL散度函数来度量教师网络和学生分类输出概率的相似性，其中，q是教师网络的分类输出概率，p是教师网络的分类输出概率：

对于迁移学习训练来说，人脸检测中的困难样本分为两类，一类是教师网络和学生网络输出概率间隔比较大的样本(hard-to-mimic)，另一类是教师网络输出不确定度比较大的样本(hard-to-learn)。如果不把这些样本和简单样本区分开来，那么在迁移学习的过程中，简单样本的损失将统治整个训练过程，这不利于有效地传递在教师网络和学生网络之间传递信息。因此，本发明采用了一种自适应的迁移损失函数ADL：

apt_weight＝(1-e^-(KL+βT(q)))^γ

T(q)＝-q(qlog(q)+(1-q)log(1-q))

L_distillation＝apt_weight·KL

N_cls＝N_neg+N_pos，N_reg＝N_pos，N_ldmk＝N_ldmkpos

其中正负样本比例为1∶3，因此加权系数λ₁默认设为4，以使L_cls和L_rea拥有大体相同水平的权重。λ₂默认设为1，λ₃默认设为1，λ₄默认设为1。

步骤6，转至步骤3，直至网络收敛，得到最终的网络模型。

步骤7，在测试阶段，把测试图像输入训练好的学生网络模型进行人脸检测，输出检测结果框。由于输出的检测框的数量非常多，首先通过置信度阈值T＝0.1，筛掉大部分的检测框，接着根据置信度选出前N_a＝500个检测框。然后使用非极大值抑制去除重复的检测框，并根据置信度选出前N_b＝250个检测框，即得到最终的检测结果。

本发明提出了一种基于迁移学习的的人脸和人脸关键点联合检测方法。该方法仅仅利用一个端到端的卷积神经网络实现了人脸和人脸关键点的联合检测，提高了人脸检测的精度，极大地降低了人脸识别预处理的耗时。在训练卷积神经网络时，需要匹配人脸标注框和锚点框，但如果对所有尺度采用同一个阈值来匹配人脸标注框，小尺度的人脸标注框不能匹配到足够多的锚点框，本发明提出了尺度自适应锚点框匹配策略，很好地解决了这个问题。此外，为了让网络的注意力更加集中在图像中的目标，本发明设计了基于注意力损失函数，让人脸检测网络在有人脸目标的区域拥有更高的响应。同时，本发明提出了基于迁移学习的人脸检测训练方法，通过设计一个轻量型的学生网络和重量型的教师网络，先单独训练教师网络，训练完成后，固定教师网络的权重，迁移教师网络的知识，提高了学生网络的预测精度。最终本发明实现了基于迁移学习的的人脸和人脸关键点联合检测方法，能精确地检测到各种尺度的人脸和人脸关键点。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。