CN113065402A

CN113065402A - 一种基于变形注意力机制的人脸检测方法

Info

Publication number: CN113065402A
Application number: CN202110245599.5A
Authority: CN
Inventors: 卢丽; 孙亚楠; 黄俊洁; 闫超
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-07-02
Anticipated expiration: 2041-03-05
Also published as: CN113065402B

Abstract

本发明公开了一种基于变形注意力机制的人脸检测方法，人脸检测模型包括依次连接的主干网络、候选区域建议网络和检测器网络，所述主干网络包括全局特征信息提取分支网络、卷积神经分支网络，先分别通过全局特征信息提取分支网络、卷积神经分支网络提取人脸图像全局的上下文特征、卷积局部深度特征，并融合得到人脸图像样本的深度特征信息；然后，通过候选区域建议网络生成候选区域检测框集合，通过感兴趣区域对齐层获取候选框对应的特征信息，最后进行目标分类定位。本发明将获取的人脸图像全局的上下文特征信息和卷积局部深度特征拼接融合输出，大大提高了在目标形态变化大的场景下表征的表达能力，具有较好的实用性。

Description

一种基于变形注意力机制的人脸检测方法

技术领域

本发明属于人脸检测的技术领域，具体涉及一种基于变形注意力机制的人脸检测方法。

背景技术

随着深度学习技术的快速发展，各种优异的目标检测算法如雨后春笋般兴起，其中人脸检测技术是目标检测算法较早落地的领域，是目标检测领域中比较重要的分支之一，人脸检测技术广泛应用于身份验证、安保系统、支付系统等应用，大大方便了人们的日常生活。

人脸检测技术主要用于定位图像中人脸的位置，是人脸识别技术的基础。人脸检测技术主要分为两个流派，分别是基于传统算法的检测方向和基于深度学习的检测方向。基于传统算法的检测方向因手工特征的泛化性差的缺陷，对不同场景下的检测产生较弱的性能。相反，基于深度学习的检测方向因为深度卷积特征具有丰富的语义性和较强的泛化性，而取得了令人满意的检测效果。

近几年出现的人脸检测技术大多数都是通用目标检测算法衍生出来的，不断地针对人脸这类的目标进行调优。通用目标检测算法从架构方向可以分为两阶段算法和单阶段，两阶段算法检测精度优于单阶段算法，单阶段算法检测速度优于两阶段算法。具有代表性的目标检测算法有FasterR-CNN、YOLO系列、SSD等，这些算法主要使用基于卷积神经分支网络构建的主干网络提取训练样本的特征信息，再用不同的生成方式获取候选框进行定位分类。

目前，已有的目标检测模型大多数都采用卷积层构成，因此，这些网络模型也存在卷积层计算带来的固有局限性，如在目标纹理、尺度变化较大的场景下会出现较弱的检测性能，造成较大的误检和漏检。

发明内容

本发明的目的在于提供一种基于变形注意力机制的人脸检测方法，旨在解决上述问题。本发明可以解决卷积网络结构带来的局限性。

本发明主要通过以下技术方案实现：

一种基于变形注意力机制的人脸检测方法，包括以下步骤：

步骤S1：收集任意分辨率的人脸图像并组成训练数据集，每张图像包含人脸位置的标注信息；

步骤S2：将训练数据输入人脸检测模型训练得到最优的网络模型；所述人脸检测模型包括依次连接的主干网络、候选区域建议网络和检测器网络，所述检测器网络包括感兴趣区域对齐层；先通过主干网络提取人脸图像的深度特征信息，然后，通过候选区域建议网络生成候选区域检测框集合，通过感兴趣区域对齐层获取候选框对应的特征信息，并固定大小，最后在进行目标分类、定位；

所述主干网络包括全局特征信息提取分支网络、卷积神经分支网络，所述全局特征信息提取分支网络用于提取人脸图像全局的上下文特征，所述卷积神经分支网络用于提取人脸图像的卷积局部深度特征；将人脸图像全局的上下文特征与人脸图像的卷积局部深度特征进行融合得到人脸图像样本的深度特征信息；

步骤S3：将目标人脸图片输入步骤S2中训练后的网络模型进行检测，并输出检测结果。

本发明混合使用卷积层和由变形注意力机制构成的全局特征层，利用卷积层提取具有丰富语义性的、平移不变性的特征信息，同时使用全局特征层提取全尺寸样本图像的上下文信息，最后将这两种特征拼接融合互补进行分类定位，在目标形态变化较大的场景下表现出令人满意的检测效果。

本发明通过搭建双分支的网络结构，将卷积局部特征信息和全局上下文信息结合进行目标定位和分类，并基于两阶段检测任务的结构完成整个人脸检测网络模型，大幅度的提高了检测模型的精度和性能。

为了更好地实现本发明，进一步地，所述步骤S2中，所述检测器网络由依次连接的感兴趣区域对齐层、全连接层、神经元失活层组成。

为了更好地实现本发明，进一步地，所述步骤S2中，所述候选区域建议网络按照预先设置的候选区域比例生成候选框；所述候选区域比例尺寸大小为[32×32,64×64,96×96]、且尺度比例为[0.5,1,2]。

为了更好地实现本发明，进一步地，所述步骤S2中，将图像分别输入全局特征信息提取分支网络、卷积神经分支网络，且全局特征信息提取分支网络、卷积神经分支网络的输出端分别与特征拼接层连接，通过特征拼接层将人脸图像全局的上下文特征与人脸图像的卷积局部深度特征进行融合。

为了更好地实现本发明，进一步地，所述卷积神经分支网络由从前至后依次设置的卷积层、批归一化层、激活函数层、残差基础模块构成。

为了更好地实现本发明，进一步地，所述残差基础模块采用跳跃连接结构搭建，且由从前至后依次设置的卷积层、批归一化层、激活函数层、压缩激活单元模块构成。

为了更好地实现本发明，进一步地，所述全局特征信息提取分支网络由从前至后依次设置的图像分块层、嵌入位置向量层、若干个多头自注意力模块以及全连接层、激活函数层、神经元失活层、特征重组层构成。网络分支末端添加的特征重组层作用是结合嵌入位置向量层添加的位置信息，重新将特征向量重新组装成特征图，保留定位信息。

为了更好地实现本发明，进一步地，所述多头自注意力模块由从前至后依次设置的特征相乘层、特征拼接层、全连接层、特征向量开方层、柔性最大值层封装得到。该模块的特性是处理完数据得到的是特征向量而不是特征图，结合检测任务的目的，需后续恢复成特征图。

为了更好地实现本发明，进一步地，所述步骤S2中，人脸检测模型采用类别损失函数和位置回归损失函数计算损失值，并通过优化损失值优化人脸检测模型；所述类别损失函数采用焦点损失函数，所述位置回归损失函数使用平滑L1损失函数；所述焦点损失函数中阿尔法参数设为0.8，伽马参数设为2.5。

为了更好地实现本发明，进一步地，所述步骤S2中，利用在ImageNet数据集上得到的预训练模型对全局特征信息提取分支网络的参数权重进行初始化，而卷积神经分支网络采用随机初始化的方式，在人脸检测模型训练前预先设置相关参数和优化器，所述相关参数包括学习率、动量参数，采用带动量参数的随机梯度下降法作为优化器，不断地迭代计算，直到损失值趋于零，得到性能最优的网络模型。所述学习率初始值设为0.01，动量参数设为0.9。

本发明的有益效果：

(1)本发明通过搭建全局特征信息提取分支网络和卷积神经分支网络，获取人脸图像全局的上下文特征信息和卷积局部深度特征，最后拼接融合输出，大大提高了在目标形态变化大的场景下表征的表达能力，提升后续任务的性能；

(2)本发明基于两阶段检测任务的结构搭建双分支的网络结构，完成整个人脸检测网络模型，大幅度的提高了人脸检测模型的精度和性能。

附图说明

图1为整体网络结构示意图。

图2为卷积网络分支结构示意图。

图3为残差基础模块结构示意图。

图4为全局特征信息提取网络分支结构示意图。

图5为多头自注意力模块结构示意图。

具体实施方式

实施例1：

一种基于变形注意力机制的人脸检测方法，包括以下步骤：

步骤S2：将训练数据输入人脸检测模型训练得到最优的网络模型；如图1所示，所述人脸检测模型包括依次连接的主干网络、候选区域建议网络和检测器网络，所述检测器网络包括感兴趣区域对齐层；先通过主干网络提取人脸图像样本的深度特征信息，然后，通过候选区域建议网络生成候选区域检测框集合，通过感兴趣区域对齐层获取候选框对应的特征信息，并固定大小，最后在进行目标分类、定位；所述主干网络包括全局特征信息提取分支网络、卷积神经分支网络，所述全局特征信息提取分支网络用于提取人脸图像全局的上下文特征，所述卷积神经分支网络用于提取人脸图像的卷积局部深度特征；将人脸图像全局的上下文特征与人脸图像的卷积局部深度特征进行融合得到人脸图像样本的深度特征信息；

实施例2：

本实施例是在实施例1的基础上进行优化，所述步骤S2中，如图1所示，所述检测器网络由依次连接的感兴趣区域对齐层、全连接层、神经元失活层组成。

进一步地，所述步骤S2中，将图像分别输入全局特征信息提取分支网络、卷积神经分支网络，且全局特征信息提取分支网络、卷积神经分支网络的输出端分别与特征拼接层连接，通过特征拼接层将人脸图像全局的上下文特征与人脸图像的卷积局部深度特征进行融合。

进一步地，如图2所示，所述卷积神经分支网络由从前至后依次设置的卷积层、批归一化层、激活函数层、残差基础模块构成。所述激活函数层采用参数修正线性单元层。

进一步地，如图3所示，所述残差基础模块采用跳跃连接结构搭建，且由从前至后依次设置的卷积层、批归一化层、激活函数层、压缩激活单元模块构成。

进一步地，如图4所示，所述全局特征信息提取分支网络由从前至后依次设置的图像分块层、嵌入位置向量层、若干个多头自注意力模块以及全连接层、激活函数层、神经元失活层、特征重组层构成。

进一步地，如图5所示，所述多头自注意力模块由从前至后依次设置的特征相乘层、特征拼接层、全连接层、特征向量开方层、柔性最大值层封装得到。

所述多头注意力机制模块由若干个第三集成模块以及特征拼接层、全连接层组成；若干个第三集成模块分别与特征拼接层连接，所述第三集成模块由从前至后设置的3个全连接层以及特征相乘层、特征向量开方层、柔性最大值层、特征相乘层构成，前2个全连接层分别输入特征相乘层处理，然后依次与特征向量开方层、柔性最大值层连接；最后与剩下的1个全连接层经过特征相乘层处理后输入特征拼接层。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，如图1所示，所述步骤S2中，人脸检测模型采用类别损失函数和位置回归损失函数计算损失值，并通过优化损失值优化人脸检测模型；所述类别损失函数采用焦点损失函数，所述位置回归损失函数使用平滑L1损失函数；所述焦点损失函数中阿尔法参数设为0.8，伽马参数设为2.5。

进一步地，所述步骤S2中，利用在ImageNet数据集上得到的预训练模型对全局特征信息提取分支网络的参数权重进行初始化，而卷积神经分支网络采用随机初始化的方式，在人脸检测模型训练前预先设置相关参数和优化器，所述相关参数包括学习率、动量参数，采用带动量参数的随机梯度下降法作为优化器，不断地迭代计算，直到损失值趋于零，得到性能最优的网络模型。

进一步地，所述步骤S2中，所述候选区域建议网络按照预先设置的候选区域比例生成候选框；所述候选区域比例尺寸大小为[32×32,64×64,96×96]、且尺度比例为[0.5,1,2]。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

一种基于变形注意力机制的人脸检测方法，收集任意分辨率的人脸图像组成训练数据集，并且每张图像包含人脸位置的标注信息。

搭建端到端的人脸检测模型，如图1所示，所述人脸检测模型包括主干部分网络、候选区域建议网络以及检测器网络，主干部分网络由两个分支网络构成，分别为卷积神经网络和全局特征信息提取网络。全局特征信息提取分支网络负责能获取人脸图像全局的上下文特征信息，而卷积神经分支网络负责提取人脸图像的卷积局部深度特征。然后通过特征拼接层将两种特征信息进行融合。检测器网络是由感兴趣区域对齐层、全连接层、神经元失活层组成，利用感兴趣区域对齐层获取候选框对应的特征信息，并固定大小，最后在进行目标分类、定位。

进一步地，如图2所示，卷积神经网络的结构是从前至后将卷积层、批归一化层、激活函数层、残差基础模块按照设计的网络层数量依次连接。

进一步地，如图3所示，所述残差基础模块利用跳跃连接的方式连接不同网络层得到的特征信息，在不增加额外的网络参数的情况下增宽网络结构，提高特征信息的表达能力，主要由卷积层、批归一化层、激活函数层、压缩激活单元模块构成。

进一步地，如图4所示，全局特征信息提取网络的结构是从前至后由图像分块层、嵌入位置向量层、数个多头自注意力模块、全连接层、激活函数层、神经元失活层、特征重组层按一定的顺序搭建。

进一步地，如图5所示，所述多头自注意力模块利用自注意力机制提取图像样本分块之间的关系及上下文信息，映射表达式如下：

MultiA(x₁，...，x_n)＝Dense(concat(Attention(x_i)，i＝0，...，n))

公式中Attention表示自注意力机制处理网络层的表达函数，

x表示输入的特征信息，

concat为特征拼接层表达函数，

Dense为全连接层的表达函数，

其中n为6，下角标i表示特征信息的索引，与图像分块数量保持一致。

进一步地，网络模型采用类别分类损失函数和位置回归损失函数计算损失值。类别分类损失函数用于计算预测概率值和类别真实标签之间的损失值，计算公式如下：

公式中

表示网络模型预测概率值，γ为伽马参数，用于调节不同重要程度的样本的损失，α为阿尔法参数，用于调节正样本的惩罚比例，y是类别真实标签，为人为标注信息。

位置回归损失函数用于计算预测位置坐标与人工标注的真实定位坐标之间的损失值，计算公式如下：

公式中t_i表示索引为i的真实定位坐标向量，

表示索引为i的预测位置坐标向量，t_i和t_i都为4维向量，包含检测框的中心点坐标、高、宽。

按照上述描述的网络结构和计算方式构建网络模型，并在训练时，利用在ImageNet数据集上得到的预训练模型对全局特征信息提取分支网络参数权重进行初始化，而卷积神经分支网络采用随机初始化的方式，在模型训练前预先选择最优的优化器优化权重参数，迭代计算，直到损失值趋于零，得到性能最优的网络模型。

综上所述，本发明设计的人脸检测方法搭建简洁，泛化性较强，在不同的场景下都表现出较好的检测性能。由实验可得，通过不同作用的网络层提取不同特性的特征信息，而且对不同的特征信息进行拼接融合可以大大提高特征信息的表达能力，增强模型的检测性能。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于变形注意力机制的人脸检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述步骤S2中，所述检测器网络由依次连接的感兴趣区域对齐层、全连接层、神经元失活层组成。

3.根据权利要求1或2所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述步骤S2中，将图像分别输入全局特征信息提取分支网络、卷积神经分支网络，且全局特征信息提取分支网络、卷积神经分支网络的输出端分别与特征拼接层连接，通过特征拼接层将人脸图像全局的上下文特征与人脸图像的卷积局部深度特征进行融合。

4.根据权利要求3所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述卷积神经分支网络由从前至后依次设置的卷积层、批归一化层、激活函数层、残差基础模块构成。

5.根据权利要求4所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述残差基础模块采用跳跃连接结构搭建，且由从前至后依次设置的卷积层、批归一化层、激活函数层、压缩激活单元模块构成。

6.根据权利要求3所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述全局特征信息提取分支网络由从前至后依次设置的图像分块层、嵌入位置向量层、若干个多头自注意力模块以及全连接层、激活函数层、神经元失活层、特征重组层构成。

7.根据权利要求6所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述多头自注意力模块由从前至后依次设置的特征相乘层、特征拼接层、全连接层、特征向量开方层、柔性最大值层封装得到。

8.根据权利要求1所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述步骤S2中，人脸检测模型采用类别损失函数和位置回归损失函数计算损失值，并通过优化损失值优化人脸检测模型；所述类别损失函数采用焦点损失函数，所述位置回归损失函数使用平滑L1损失函数。

9.根据权利要求8所述的一种基于变形注意力机制的人脸检测方法，其特征在于，所述步骤S2中，利用在ImageNet数据集上得到的预训练模型对全局特征信息提取分支网络的参数权重进行初始化，而卷积神经分支网络采用随机初始化的方式，在人脸检测模型训练前预先设置相关参数和优化器，所述相关参数包括学习率、动量参数，采用带动量参数的随机梯度下降法作为优化器，不断地迭代计算，直到损失值趋于零，得到性能最优的网络模型。