CN112507996A

CN112507996A - 一种主样本注意力机制的人脸检测方法

Info

Publication number: CN112507996A
Application number: CN202110160332.6A
Authority: CN
Inventors: 闫超; 黄俊洁; 韩强
Original assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Current assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-03-16
Anticipated expiration: 2041-02-05
Also published as: CN112507996B

Abstract

本发明公开了一种主样本注意力机制的人脸检测方法，利用网络模型提取训练图像的特征图信息，然后由锚框筛选模块在特征图的每一特征点上利用预测坐标值偏移量生成预测锚框集合，并将预测锚框分为候选正样本和候选负样本，分别对候选正样本和候选负样本进行排序；使用损失函数计算损失值，所述损失函数分为类别分类损失函数和位置回归损失函数，并根据候选正样本和候选负样本的排名结果赋予重要程度不同的损失值权重，利用主样本注意力机制将权重偏向主样本。本发明在模型训练过程中强调主样本的重要性，抑制不重要样本对模型学习的影响，从而提升了模型的性能，具有较好的实用性。

Description

一种主样本注意力机制的人脸检测方法

技术领域

本发明属于人脸检测的技术领域，具体涉及一种主样本注意力机制的人脸检测方法。

背景技术

人脸检测技术是目标检测领域中重要研究之一，是人脸验证、表情识别、年龄识别、智能监控等应用的基础。人脸检测技术分为单阶段算法和两阶段算法，前者主要思路是预先设定固定尺寸的锚框生成候选区域，再对候选区域进行分类、位置回归，类似滑动窗口机制，模型训练更加稳定，定位精度更高，代表算法有R-CNN、Faster R-CNN，而后者去除了候选区域部分的计算，直接在特征图上回归得到目标的位置，这类算法检测速度更快，代表算法有YOLOV3、SSD。然而，单阶段或者两阶段的目标检测算法大多数都采用区域的方法，通常将候选区域的分类问题和定位问题分开处理的，但是在目标附近预测出的结果的类别应该具有更高的置信度，所以分类与定位应该是相关联的。

目前，目标检测领域比较关注如何有效地使用困难样本提高检测器的性能，衍生出许多实现这个想法的方法，比如在线难例挖掘算法（Online Hard Example Mining，OHEM）以及焦点损失函数（Focal Loss）。在线难例挖掘算法使用损失值来选取难例，难例指的是损失值较高的假阳性样本，该算法使模型训练时偏重学习这些难例样本，从而提高检测精度。而焦点损失函数改进了类别分类损失函数，重新给每种样本赋予不同的权重比例，加重困难样本的损失值占比，从而指导模型学习到困难样本，达到解决样本不平衡的问题。虽然这些采样策略一定程度上是有效的，但是处理过程中平等、独立地对待所有样本，并没有学习到样本之间的关系。

综上所述，现有的人脸检测方法存在两个问题：1）将分类和定位这两个问题分开处理；2）平等、独立地对待所有样本，忽略样本互相的影响关系。因此，本发明提出一种简单而有效的人脸检测方法，采用偏重关注主要样本的采样策略解决样本不均匀的问题，将分类和定位问题进行联合训练，大幅度提高检测精度，增加模型的检测性能。

发明内容

本发明的目的在于提供一种主样本注意力机制的人脸检测方法，旨在解决上述问题。

本发明主要通过以下技术方案实现：

一种主样本注意力机制的人脸检测方法，包括以下步骤：

步骤S100：收集自然场景中包含人脸的图像数据，构成训练集；

步骤S200：利用网络模型提取训练图像的特征图信息，然后由锚框筛选模块在特征图的每一特征点上利用预测坐标值偏移量生成预测锚框集合，并将预测锚框分为候选正样本和候选负样本，分别对候选正样本和候选负样本进行排序；

步骤S300：最后使用损失函数计算损失值，所述损失函数分为类别分类损失函数和位置回归损失函数，并根据候选正样本和候选负样本的排名结果赋予重要程度不同的损失值权重，利用主样本注意力机制将权重偏向主样本；优化损失值并设置相关超参数，迭代计算，直至损失值收敛；

所述损失函数的计算公式如下：

其中：

为类别分类损失函数，

为位置回归损失函数，

为类别分类损失函数计算的批处理大小，

为位置回归损失函数计算的批处理大小，

（s=1）表示只有正样本才进行位置回归损失值计算。

为了更好地实现本发明，进一步地，所述类别分类损失函数采用二元交叉熵损失函数，并根据样本在所处的集合中的排序设定损失值权重，为不同重要性的样本分配对应的损失权重，计算公式如下：

其中：

BCE为二元交叉熵损失函数，

是归一化之后的排序，

为集合中排名的最大值；

为预测锚框在所属集合中的排名；

为将集合的排名转化成的权重值；

β和γ分别为设定的调节权重值的参数；

将

归一化成

，

为真实类别标签，

为预测为某类的概率值，

公式（4）中的i为正样本，j为负样本，

若预测锚框与真实边界框之间的距离交并比值大于阈值，则真实类别标签

为1，否则

为0。

为了更好地实现本发明，进一步地，位置回归损失函数采用分类感知回归损失函数，将分类和定位回归构成正相关，同时优化分类和位置回归分支，计算预测锚框坐标偏移量与真实坐标偏移量之间的损失值，计算公式如下：

其中：

为通用的平滑L1损失函数，

为用调节因子计算之后的类别概率值，

n为类别概率值为

的样本总数量，

为根据类别概率值归一化之后得到的回归损失权重值，

为真实坐标偏移量，

为预测坐标偏移量；

为锚框的类别概率值，

b和k均为调节因子。

为了更好地实现本发明，进一步地，所述类别分类损失函数采用二元交叉熵损失函数，所述位置回归损失函数采用分类感知回归损失函数。

为了更好地实现本发明，进一步地，所述步骤S200包括以下步骤：

步骤S210：首先利用预测坐标偏移量和锚框尺寸计算得到预测锚框集合；

步骤S220：然后计算预测锚框与真实边界框之间的距离交并比，若预测锚框的距离交并比大于等于阈值则为候选正样本，若预测锚框的距离交并比小于阈值则为候选负样本；

步骤S230：通过距离交并比值对候选正样本进行排序得到预测正样本集合，利用非极大值抑制算法对候选负样本进行排序得到预测负样本集合。

为了更好地实现本发明，进一步地，所述步骤S220中的阈值为0.5。

为了更好地实现本发明，进一步地，所述步骤S200中的网络模型采用ResNet-20网络结构，所述网络模型的主干网络由从前至后依次设置的卷积层、批归一化层、激活函数层、残差块组成，所述残差块由从前至后依次设置的卷积层、批归一化层、激活函数层、特征相加层组成。

为了更好地实现本发明，进一步地，所述网络模型的主干网络设置有8个残差块。

为了更好地实现本发明，进一步地，所述的激活函数层采用参数修正线性单元层。

为了更好地实现本发明，进一步地，使用K-means算法在样本上聚类得到锚框的尺寸，计算锚框与真实边界框之间的坐标偏移量，称为真实坐标偏移量。

所述的主样本注意力机制是一种设定的样本采样和模型训练策略，是在训练时将模型参数权重倾向关注主要样本的一种学习机制，主要表现在使用样本排序设定分类损失权重，以及在分类感知回归损失函数中。

本发明采用主样本注意力机制解决样本不均匀的问题，将分类和定位问题进行联合训练，大幅度提高检测精度，增加模型的检测性能。本发明中的主样本是指对模型性能影响最多的主要样本。本发明提出的人脸检测方法采用主样本注意力机制训练人脸检测模型，偏重关注对模型性能影响最多的主要样本，为不同样本分配重要程度不同的损失权重值，是一种有效的学习策略，与此同时，将分类问题和定位问题相结合优化模型，使模型的定位能力更加精准，减少模型误检情况。

本发明的有益效果：

（1）本发明提出利用主样本注意力机制学习训练人脸检测模型，分别对候选正样本和候选负样本进行排序，并根据排名结果赋予重要程度不同的损失值权重，在模型训练过程中强调主样本的重要性，抑制不重要样本对模型学习的影响，从而提升了模型的性能。与此同时，将分类任务和定位人脸联合学习，大大提高了定位的精度性；

（2）本发明提出了使用距离交并比区分正负样本，能在预测锚框与真实边界框之间存在包含关系时更准确、更快地区分正负样本，并且使用距离交并比对正样本进行排序更加客观，排除使用传统交并比时出现的重合度不同但交并比值一样，导致定位模糊的情况。

附图说明

图1为本发明整体网络结构示意图；

图2为本发明的流程图；

图3为锚框筛选模块的流程图。

具体实施方式

实施例1：

一种主样本注意力机制的人脸检测方法，包括以下步骤：

所述损失函数的计算公式如下：

其中：

为类别分类损失函数，

为位置回归损失函数，

为类别分类损失函数计算的批处理大小，

为位置回归损失函数计算的批处理大小，

（s=1）表示只有正样本才进行位置回归损失值计算。

进一步地，如图2所示，收集自然场景中包含人脸的图像数据，构成训练集和测试集，根据聚类结果得到锚框尺寸，得到锚框与真实边界框之间的坐标偏移量。将训练集按批处理大小输入到网络模型中训练，利用网络的主干部分提取训练集的特征图信息，然后由锚框筛选模块在特征图的每一个特征点上利用预测坐标偏移量生成预测锚框集合，并将预测锚框分为候选正样本和候选负样本，再分别进行排序，得到预测正样本和预测负样本集合，最后使用损失函数进行损失值计算，利用优化策略优化参数，得到最优的模型。

进一步地，所述的优化策略是使用随机梯度下降法优化模型参数权重，其相关超参数有学习率、批处理大小、总迭代次数、L2惩罚项衰减率，分别设为0.001、128、50000、0.001。

本发明利用主样本注意力机制训练人脸检测模型，将模型权重倾向于正样本中最重要的样本，解决正负样本不均匀的问题，大大提高模型性能。

实施例2：

本实施例是在实施例1的基础上进行优化，所述类别分类损失函数采用二元交叉熵损失函数，并根据样本在所处的集合中的排序设定损失值权重，为不同重要性的样本分配对应的损失权重，计算公式如下：

其中：

是归一化之后的排序，

为集合中排名的最大值；

为预测锚框在所属集合中的排名；

为将集合的排名转化成的权重值；

β和γ分别为设定的调节权重值的参数；

将

归一化成

，

为真实类别标签，

为预测为某类的概率值，

公式（4）中的i为正样本，j为负样本，

为1，否则

为0。正负样本权重值计算和归一化计算方式一样。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，所述位置回归损失函数采用分类感知回归损失函数，将分类和定位回归构成正相关，同时优化分类和位置回归分支，计算预测锚框坐标偏移量与真实坐标偏移量之间的损失值，计算公式如下：

其中：

为通用的平滑L1损失函数，

为用调节因子计算之后的类别概率值，

n为类别概率值为

的样本总数量，

为根据类别概率值归一化之后得到的回归损失权重值，

为真实坐标偏移量，

为预测坐标偏移量；

为锚框的类别概率值，

b和k均为调节因子。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例是在实施例1-3任一个的基础上进行优化，如图3所示，所述步骤S200包括以下步骤：

进一步地，所述步骤S220中的阈值为0.5。

如图3所示，锚框筛选模块先利用预测坐标偏移量和锚框尺寸计算得到预测锚框，然后计算预测锚框和真实边界框之间的距离交并比，大于阈值的设为候选正样本，小于阈值的设为候选负样本。距离交并比计算公式如下：

其中交并比IOU的计算公式如下：

其中：

b为预测锚框B的中心点，

为真实边界框

的中心点，

为欧式距离计算公式，

C为B和

的最小外接矩形的对角线距离。

进一步地，阈值Dt=0.5。

利用距离交并比值对候选正样本进行排序，而负样本需先使用非极大抑制算法排序。最后生成候选正样本集合和候选负样本集合输出。

本发明提出利用主样本注意力机制学习训练人脸检测模型，分别对候选正样本和候选负样本进行排序，并根据排名结果赋予重要程度不同的损失值权重，在模型训练过程中强调主样本的重要性，抑制不重要样本对模型学习的影响，从而提升了模型的性能。与此同时，将分类任务和定位人脸联合学习，大大提高了定位的精度性。

本实施例的其他部分与上述实施例1-3任一个相同，故不再赘述。

实施例5：

本实施例是在实施例1-4任一个的基础上进行优化，如图1所示，所述步骤S200中的网络模型采用ResNet-20网络结构，所述网络模型的主干网络由从前至后依次设置的卷积层、批归一化层、激活函数层、残差块组成，所述残差块由从前至后依次设置的卷积层、批归一化层、激活函数层、特征相加层组成。图1中的C为卷积层、BN为批标准化层、PR为参数修正线性单元层、Res_block为残差块。

进一步地，所述网络模型的主干网络设置有8个残差块。

进一步地，所述的激活函数层采用参数修正线性单元层。

如图1所示，使用ResNet-20网络结构，从前至后将卷积层、批归一化层、激活函数层、特征相加层组成残差块；从前至后将卷积层、批归一化层、激活函数层、残差块按预先设定的组合方式构建成人脸检测模型的主干网络部分。

本实施例的其他部分与上述实施例1-4任一个相同，故不再赘述。

实施例6：

本实施例是在实施例1的基础上进行优化，使用K-means算法在样本上聚类得到锚框的尺寸，计算锚框与真实边界框之间的坐标偏移量，称为真实坐标偏移量。聚类得到的锚框尺寸为：

[68×24，64×30，72×34，80×38，84×40，88×43，96×47，100×50，106×58]。

本实施例的其他部分与上述实施例1相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。