CN114973386A

CN114973386A - 一种深度挖掘混合特征的工地场景人脸目标检测方法

Info

Publication number: CN114973386A
Application number: CN202210913548.XA
Authority: CN
Inventors: 刘杰; 闫超; 胡二建; 赵浩然; 秦文娇
Original assignee: Chengdu Weihu Technology Co ltd
Current assignee: Chengdu Weihu Technology Co ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-08-30
Anticipated expiration: 2042-08-01
Also published as: CN114973386B

Abstract

本发明涉及人脸检测技术领域，公开了一种深度挖掘混合特征的工地场景人脸目标检测方法，包括以下步骤：步骤S1，将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集；步骤S2，构建网络模型，网络模型包括主干部分网络、候选区域建议网络、全局平等特征增强模块和前馈神经网络；步骤S3，采用类别损失函数和定位回归损失函数指导网络模型学习；步骤S4，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对训练集的训练，最后在实际场景下测试网络模型的性能。

Description

一种深度挖掘混合特征的工地场景人脸目标检测方法

技术领域

本发明涉及人脸检测技术领域，具体地说，是一种深度挖掘混合特征的工地场景人脸目标检测方法。

背景技术

随着深度学习技术的不断发展，许多人工智能产品已应用于人们日常生活的角角落落里。智能监控技术在疫情期间展示出令人满意的效果，与传统的人工巡视相比，智能监控技术表现出了非接触式、简便、高效的优势，因此被应用在智慧交通、智能安防等各个领域中。

人脸检测技术是智能监控技术中常用技术手段之一，用于定位图像中人脸，为后续人脸识别、属性识别等应用奠定基础，经过许多年的技术发展，人脸检测技术取得了非常令人满意的效果。近几年，主流的人脸检测技术在深度学习技术上不断衍生发展出来的，按是否提取候选建议区域分为单阶段人脸检测方法和二阶段人脸阶段方法，前者代表算法有YOLO、SSD等，后者代表算法有Faster R-CNN、Cascade R-CNN等，这些方法主要收集覆盖各个场景的人脸检测图像数据集，再通过卷积神经网络增强网络模型对目标特征的表达能力，并结合人工的先验知识提取面部外的特征作为辅助信息，提高网络模型对前景背景的区分能力，最后达到高精度检测性能。现有的人脸检测技术能在高清的场景下对主动配合的被测人员进行精准的检测，远远高于人眼视觉，取得了很好的检测识别精度。

在工地上使用人脸检测技术，可以智能地对施工人员进行识别认证，监管施工人员的行为，防止不相关人员进入工地，保证施工场地的安全。但是在工地场景下采集的图像中人脸目标像素占比更小，背景环境嘈杂，检测结果极易受环境噪声的影响，目前已有的人脸检测方法在这些充满噪声的工地场景下检测精度降低，且对人脸的表征能力出现退化现象，造成误检漏检现象，所以急需提出一种深度挖掘混合特征的工地场景人脸目标检测方法，通过挖掘图像包含的各种深度特征增强网络模型的表征能力，减弱噪声的干扰，从而增强网络模型的检测性能。

发明内容

本发明的目的在于提供一种深度挖掘混合特征的工地场景人脸目标检测方法，用于通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力，并且平等对待每个像素点的响应值，能得到更大范围的有用区域，从而减少场景噪声的干扰，大幅度提高网络模型的检测能力。

本发明通过下述技术方案实现：一种深度挖掘混合特征的工地场景人脸目标检测方法，包括以下步骤：

步骤S1，将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集；

步骤S2，构建网络模型，所述网络模型包括主干部分网络、候选区域建议网络、全局平等特征增强模块和前馈神经网络；

步骤S3，采用类别损失函数和定位回归损失函数指导网络模型学习；

步骤S4，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对训练集的训练，最后在实际场景下测试网络模型的性能。

本发明提出的人脸目标检测方法，通过深度挖掘多尺度特征和多种显性特征等混合特征增强模型的表达能力，利用平等响应热力图扩大模型的关注点的范围，增强模型的特征表达能力。由实验可得，本发明提出的人脸检测方法与已有的方法相比较，在工地场景下表现出更强的泛化性，对噪声的影响更不敏感，模型的检测能力更强。

为了更好地实现本发明，进一步地，所述步骤S2中构建网络模型的方法包括：

首先构建具有尺度层次性的主干网络部分，随后利用多尺度聚合模块将不同尺度的特征信息融合成统一的特征块，然后使用候选区域建议网络生成候选区域框，使用全局平等特征增强模块进一步增强特征的表达能力，最后经前馈神经网络处理后并行计算边界框回归和类别分类。

为了更好地实现本发明，进一步地，所述多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成；

多尺度聚合模块在高层特征图和低层特征图之间进行特征对齐聚合，学习尺度级别相邻的特征图之间差异变化，增强特征信息的空间细节，增强特征信息的定位能力。

为了更好地实现本发明，进一步地，所述步骤S2中的主干部分网络从前至后由卷积层、批归一化层、激活函数层和多尺度聚合模块构成，通过调整卷积层的步长控制下采样倍数，构建出尺度层次性，再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐，聚合不同尺度特征信息的语义信息，减弱语义差异造成的特征退化。

为了更好地实现本发明，进一步地，所述步骤S2中的全局平等特征增强模块包括由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层和特征相加层；

全局平等特征增强模块通过将激活函数层、掩码生成层和柔性最大值层结合提炼平等响应热力图，把网络模型关注力扩散到更多的像素上，平等地处理所有像素点，利用正注意力的像素响应点增强特征，得到更大范围的有用区域。

为了更好地实现本发明，进一步地，所述步骤S2中的前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成。

为了更好地实现本发明，进一步地，所述步骤S3中采用类别损失函数和定位回归损失函数指导网络模型学习的方法包括：

所述类别损失函数采用改进后的二元交叉熵损失函数，用于计算预测类别值与预测概率值之间的损失值；

所述定位回归损失函数采用改进后的平滑L1损失函数，计算候选区域与真实边界框之间的损失值。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明提出了一种多尺度聚合模块，在高层特征图和低层特征图之间进行特征对齐聚合，学习尺度级别相邻的特征图之间差异变化，增强特征信息的空间细节，增强特征信息的定位能力；

（2）本发明提出了一种全局平等特征增强模块，通过生成平等响应热力图可以扩展网络模型学习的关注范围，获取到更多区域的特征信息，提高区分前景背景的判断力，而且因增强了特征信息的表达能力，从而减弱了网络模型对噪声的敏感度，大大提高泛化性；

（3）本发明提出了一种人脸目标检测方法，通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力，并且使用各种特性网络模块提高网络模型处理细节信息的能力，从而提高网络模型在低分辨率、遮挡等环境复杂的工地场景下的检测性能。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法的整体网络结构示意图。

图2为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法中多尺度聚合模块结构示意图。

图3为本发明提供的一种深度挖掘混合特征的工地场景人脸目标检测方法中全局平等特征增强模块的结构示意图。

图4为本发明提供的使用了本发明中构建的网络模型后对人脸检测精度的效果图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，已有的人脸检测方法在工地场景中极易受环境噪声的影响，并且工地场景中采集的图像中人脸目标像素点占比小，增大了检测难度，通用的人脸检测方法在特征级上对人脸的表达出现了不足，造成检测精度降低，出现误检漏检现象。为了解决这个问题，本发明提出了一种用于工地场景下的人脸目标检测方法，通过深度挖掘多尺度特征和多种显性特征等混合特征增强网络模型的表达能力，并且平等对待每个像素点的响应值，能得到更大范围的有用区域，从而减少场景噪声的干扰，大幅度提高网络模型的检测能力。

实施例1：

本实施例的一种深度挖掘混合特征的工地场景人脸目标检测方法，如图1所示，本发明将工地场景下采集的包含人脸的图像数据和标注信息按标准格式构成训练集，并在实际场景下测试网络模型性能的过程包括：首先构建具有尺度层次性的主干网络部分，随后利用多尺度聚合模块将不同尺度的特征信息融合成统一的特征块，然后使用候选区域建议网络生成候选区域框，使用全局平等特征增强模块进一步增强特征的表达能力，最后经前馈神经网络处理后并行计算边界框回归和类别分类，然后采用两种损失函数指导网络模型学习，两种损失函数分别是类别损失函数和定位回归损失函数，预设迭代次数、学习率等相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对训练集的训练，最后在实际场景下测试网络模型性能。

需要说明的是，图1-图3中，C的含义为卷积层，Ca1、Cb1、Cb2、Cb3、Cc1、Cc2、Cc3、Cc4、C5也是卷积层；BN的含义为批归一化层，BN1、BN2、BN3、BN4也是批归一化层；PR的含义为参数修正线性单元层，PR1、PR2、PR3、PR4也是参数修正线性单元层。F2是第一级卷积特征，F3是第一级卷积特征，F4是第二级卷积特征，F5是第三级卷积特征。cls是类别分类损失，reg是定位回归损失，DC的含义为转置卷积层，DCN的含义为可变形卷积层，DCN1即可变形卷积层。softmax为softmax排列函数，soft是softmax的缩写，RELU是RELU激活函数，Mask是Mask矩阵。EF_Block1为全局平等特征增强模块RPN的含义为候选区域建议网络，MAM的含义为为多尺度聚合模块，FFN的含义为为前馈神经网络，Concat层的作用就是将两个及以上的特征图按照在channel或num维度上进行拼接。

图1为人脸检测方法的整体网络结构示意图。网络模型主要由主干部分网络、候选区域建议网络、全局平等特征增强模块、前馈神经网络组成。如图1所示，主干部分网络从前至后由卷积层、批归一化层、激活函数层、多尺度聚合模块构成，通过调整卷积层的步长控制下采样倍数，构建出尺度层次性。

如图1中所示，再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐，聚合不同尺度特征信息的语义信息，减弱语义差异造成的特征退化。

如图1所示，本发明将Backbone设置成梯形结构，通过下采样减小特征图的尺度，减少模型参数，并提高特征图的语义信息，通过F2、F3、F4、F5和多尺度聚合模块连接，F2、F3、F4、F5对应不同尺度的特征信息，尺度以2倍的比例依次递减，再由多尺度聚合模块和特征拼接层连接，卷积层、批归一化层和参数修正线性单元层设置在一起，并使用跳跃连接和依次连接组合的方式连接区域建议网络和全局平等增强模块，再由全局平等增强模块连接前馈神经网络后与全连接层连接。不同于将不同特性的网络结构并行构成的主干网络，本发明的主干网络只有深度卷积神经网络，本发明还使用了多尺度聚合模块穿插在不同级卷积特征层之间和不同的下游网络处理部分。

本发明组成网络结构的基础模块是深度学习领域的常见技术，但是本发明的每个模块是按照一定的规则构成，比如，利用卷积层构成不同尺度、不同语义特性的特征信息，但这些特征信息因主干网络部分的加深，尺度减小，语义性更为丰富，每一层级的特征信息或多或少都有缺陷，所以引入多尺度聚合模块进行特征对齐整合，提高主干部分输出的特征信息的表征能力，然后下游检测任务需要添加注意力机制进行增强学习，但是传统的注意力机制是偏重学习，即学习目标易区分的特征区域，而工厂场景背景复杂，这种偏重学习对环境极为敏感，容易出现不足的特征表达现象，所以本发明在下游任务中引入全局平等特征增强模块，增大网络模型的响应范围，一定程度上减少场景造成的干扰。综上所述，整体技术方案环环相扣，互相成就，是结合工地场景设计出的网络结构，不属于常见的技术方案。

如图4所示为使用了本发明中构建的网络模型后对人脸检测精度的效果图。

实施例2：

本实施例在实施例1的基础上做进一步优化，多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成。该模块主要是在高层特征图和低层特征图之间进行特征对齐聚合，学习尺度级别相邻的特征图之间差异变化，增强特征信息的空间细节，增强特征信息的定位能力

多尺度聚合模块结构示意图如图2所示，多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成，图2中

和

分别表示高层次特征和低层次特征，为了统一不同层次特征的尺度，所以在低层次特征分支添加转置卷积层进行上采样，再通过特征拼接层对特征信息融合，然后使用可变性卷积层在原特征信息上添加可学习的偏移量，达到特征对齐的目的，增强特征信息的空间细节，最后使用一层卷积层进行下采样，减少网络参数。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在实施例1-2任一项的基础上做进一步优化，主干网络提取特征之后，由候选区域建议网络粗糙地生成候选区域框集合，并提取候选区域框对应的特征信息，然后输入到全局平等特征增强模块进一步特征增强。候选区域建议网络用于粗糙生成候选区域框集合，为后续候选区域框细化提供扎实的基础。全局平等特征增强模块主要由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层以及特征相加层构成，通过将激活函数层、掩码生成层和柔性最大值层结合提炼平等响应热力图，能把模型关注力扩散到更多的像素上，平等地处理所有像素点，利用正注意力的像素响应点增强特征，能得到更大范围的有用区域，从而减少背景的干扰。

如图3所示，全局平等特征增强模块共有三个输入，f1为候选区域框对应的特征信息，作为查询特征，f2为主干网络最后一层卷积层输出的全局特征信息，作为关键特征，计算出相似性矩阵之后，分两路进行处理，一路是利用柔性最大值进行归一化，生成注意力热力图，另一路是先利用修正性线性单元层将可能产生负注意力的点进行过滤，再利用掩码生成层，增加部分像素点的权重值，处理公式如下：

；

；

公式中F为修正性线性单元层处理之后的特征矩阵，sort表示排序函数，asc表示以升序的方式进行排序，index表示返回排序之后数据的索引矩阵

的函数，为了将柔性最大值生成的注意力图扩展到更多的特征点上，用索引矩阵

处理得到扩展之后的矩阵

，

主要作用是增加其他特征点的注意力权重比例。因此，平等响应热力图生成映射公式如下：

；

公式中

为平等响应热力图，

是柔性最大值生成的注意力图。这样处理后，能把模型关注力扩散到更多的像素上，平等地处理所有像素点，得到更大范围的有用区域，从而减少背景的干扰。最后与全局特征f2结合得到更强表达能力的特征。如图1所示，利用全局平等特征增强模块对特征信息处理之后，需裁剪出候选区域框集合对应的特征信息传输到前馈神经网络中进行分类、回归操作。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3的基础上做进一步优化，网络模型搭建完成后，预设迭代次数、学习率等相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对训练集的训练，最后在实际场景下测试模型性能。其中，损失函数分为分别是类别损失函数和定位回归损失函数，类别损失函数采用改进之后的二元交叉熵损失函数，用于计算预测类别值与预测概率值之间的损失值，定位回归损失函数采用改进之后的平滑L1损失函数，计算候选区域与真实边界框之间的损失值。

改进之后的平滑L1损失函数公式为：

；

；

公式中improved_smoothL1是改进之后的平滑L1函数，

为改进之后的平滑L1损失函数，m表示改进之后的平滑L1函数的输入变量值，

为索引为i的预测边界框，

为索引为i的真实边界框。

改进之后的二元交叉熵损失函数为焦点损失函数，公式为：

；

；

公式中Focal_loss为焦点损失函数，

为每个样本上的焦点损失值之和，

表示预测类别的概率值，γ为伽马参数，用于调节不同重要程度的样本的损失，α为阿尔法参数，用于调节正样本的惩罚比例，y是类别真实标签。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4的基础上做进一步优化，前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成，在网络结构中作为检测器。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于所述步骤S2中构建网络模型的方法包括：

3.根据权利要求2所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，所述多尺度聚合模块由卷积层、批归一化层、激活函数层、偏移卷积层、转置卷积层、特征拼接层以及特征相加层构成；

4.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，所述步骤S2中的主干部分网络从前至后由卷积层、批归一化层、激活函数层和多尺度聚合模块构成，通过调整卷积层的步长控制下采样倍数，构建出尺度层次性，再由多尺度聚合模块将不同尺度的特征信息进行有效地对齐，聚合不同尺度特征信息的语义信息，减弱语义差异造成的特征退化。

5.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，所述步骤S2中的全局平等特征增强模块包括由卷积层、批归一化层、激活函数层、柔性最大值层、点乘层、特征相乘层、掩码生成层和特征相加层；

6.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，所述步骤S2中的前馈神经网络从前至后由感兴趣区域池化层、全连接层、神经元失活层构成。

7.根据权利要求1所述的一种深度挖掘混合特征的工地场景人脸目标检测方法，其特征在于，所述步骤S3中采用类别损失函数和定位回归损失函数指导网络模型学习的方法包括：