CN110363162B

CN110363162B - 一种聚焦关键区域的深度学习目标检测方法

Info

Publication number: CN110363162B
Application number: CN201910648037.8A
Authority: CN
Inventors: 李建强; 刘雅琦; 赵青; 白骏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2022-03-08
Anticipated expiration: 2039-07-18
Also published as: CN110363162A

Abstract

一种聚焦关键区域的深度学习目标检测方法，属于深度学习领域。该方法是在一种典型的深度检测网络基础上，提出了一种通过聚焦关键区域来自动检测图像中目标的方法。在很多情况下，所需检测的目标往往都处于特定的区域内，这些与目标息息相关的区域即是关键区域。由于关键区域是少量、局部且与目标存在因果关系，因此可以将目标的检测范围限定在这样的区域内。具体的是在Faster R‑CNN框架中，修改区域提议网络的损失函数，即根据提议区域与关键区域的位置关系对提议区域设置不同的惩罚权重，促使提议区域更接近于关键区域，从而提高了目标检测的准确度。

Description

一种聚焦关键区域的深度学习目标检测方法

技术领域：

本发明涉及深度学习领域，涉及图像中目标检测技术。

背景技术

随着深度神经网络的出现，计算机视觉在图像分类，目标检测，图像分割等方面的能利得到了显著的提高。其中，目标检测在图像分析中拥有着广大的应用空间。

目前主要有两类目标检测框架：一种是像Faster-RCNN和R-FCN这样的双发框架，另一种是像YOLO和SSD这样的单发框架。而Faster-RCNN这样的双发框架-先选取若干提议区域，然后对提议区域进行分类-提议区域的选取准确率直接影响了目标检测结果的准确率。在很多情况下，所需检测的目标往往都处于特定的区域内，这些与目标息息相关的区域即是关键区域。由于关键区域是少量、局部且与目标存在因果关系，因此可以将目标的检测范围限定在这样的区域内，从而提高检测的准确度。

发明内容：

本发明的目的是提供一种在图像中准确检测目标的方法。

为解决上述技术问题，本发明提供了一种聚焦关键区域的深度学习目标检测方法，包括如下步骤：

步骤S1，在模型训练阶段，首先用卷积神经网络对图像进行特征提取，得到低层特征图；

步骤S2，使用区域提议网络对低层特征图进行提议区域选取，得到类别为非背景的提议区域；

步骤S3，用轮廓检测技术得到关键区域轮廓，计算提议区域到关键区域的距离；

步骤S4，根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数，加大对偏离关键区域的提议区域的惩罚力度；

步骤S5，使用非极大值抑制移除重复预测的提议区域；

步骤S6，把提议区域和低层特征图输入到兴趣区域池化层，得到各个提议区域形状相同的特征；

步骤S7，把各个提议区域形状相同的特征图输入到全连接层，得到每个提议区域的类别和边界框；

步骤S8，在模型测试阶段，使用上述步骤训练好的网络来进行目标的检测。

进一步，步骤S1中在模型训练阶段，首先用卷积神经网络对图像进行特征提取，得到低层特征图包括：

采用VGG16的网络结构来提取输入图片的特征，输出的形状记为 1×c₁×h₁×w₁，c₁、h₁、w₁分别为特征图的通道数、高、宽；

进一步，步骤S2中使用区域提议网络对低层特征图进行提议区域选取，得到类别为非背景的提议区域包括：

使用填充为1的3×3卷积层对低层特征图进行通道数变换，并将输出通道数记为c₂。这样，低层特征图中的每个单元均得到一个长度为c₂的新特征。以特征图每个单元为中心，设置多个不同大小和宽高比的锚框。用3×3卷积层在锚框的基础上进行区域提议。

进一步，步骤S3中用轮廓检测技术得到关键区域轮廓，计算提议区域到关键区域的距离包括：

对于输入图像I，使用图像轮廓检测技术对其进行关键区域轮廓检测，得到轮廓集

其中n_CI为关键区域的个数，

为轮廓的点集，x_j和y_j分别为点集中每个点在原图中的x轴、y轴坐标，n_CIP为点集里点的数量。

对于区域提议网络提出的提议区域边界框

其中n_Bbox为提议区域的数量，

分别为提议区域边界框的左上角和右下角坐标，对于其中每个提议区域边界框Bbox_i首先计算其中心坐标距离各关键区域的最小距离

令原图I的长和宽为H_l和W_I，接下来将

进行归一化得到归一化最小距离

进一步，步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数，加大对偏离关键区域的提议区域的惩罚力度：

计算区域提议阶段预测为非背景的边界框的惩罚权重，对于距离关键区域较远的提议区域分配较高的惩罚权重，离关键区域近的提议区域分配较小的惩罚权重，这里我们使用高斯加权的方式使得权重的变化更加平缓，每个边界框的惩罚权重为：

其中e为自然常数，σ为所有边界框到关键区域的归一化最小距离的标准差。

最后，将各边界框的惩罚权重带入区域提议网络的损失函数中：

其中N_cls为小批量批次的样本数量，

为类别损失函数，

分别为第i个提议区域的预测为非背景的概率和真实标签，0代表背景，1代表非背景，N_reg为锚框的位置数量，

为锚框位置坐标预测的平滑L₁回归损失，t_i，

分别为边界框的预测坐标和真实坐标，λ为平衡分类损失和位置损失的系数。其中分类损失

为：

其中，round(p_i)指p_i的四舍五入值，即当前提议区域预测结果为非背景时，对其添加惩罚权重，预测为背景的提议区域不分配权重。

通过加大对不合理的、远离关键区域的提议区域的惩罚力度，使得网络的预测更倾向于关键区域，达到提升准确率的效果。

进一步，步骤S5中使用非极大值抑制移除重复预测的提议区域包括：

使用非极大值抑制，从预测类别为非背景的预测边界框中移除相似的结果。最终输出的预测边界框即兴趣区域池化层所需要的提议区域。

进一步，步骤S6中把提议区域和低层特征图输入到兴趣区域池化层，得到各个提议区域形状相同的特征包括：

网络生成了多个提议区域。这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征(提议区域个数记为n,高和宽均分别记为h₂和w₂，输出通道数记为c₂)以便于连结后输出。输出形状为n×c₂×h₂×w₂的特征图。

进一步，步骤S7中把各个提议区域形状相同的特征图输入到全连接层，得到每个提议区域的类别和边界框包括：

提议区域个数记为n，高和宽均分别记为h₂和w₂，输出通道数记为c₂；通过全连接层将输出形状变换为n×d，其中d＝c₂×h₂×w₂。

预测类别时，将全连接层的输出的形状再变换为n×q(q为类别个数)，并使用softmax函数回归。

预测边界框时，将全连接层的输出的形状变换为n×4。也就是说，我们为每个提议区域同时预测类别和边界框。

进一步，步骤S8中在模型测试阶段，使用上述步骤训练好的网络来进行目标的检测。包括：

使用聚焦关键区域的损失函数训练目标检测网络之后，在测试阶段，使用该网络来对目标的类别和位置进行检测。

本发明的有益效果是，根据目标与关键区域的相关性，通过加大对不合理的、远离关键区域的提议区域的惩罚力度，使得网络的预测结果聚焦在关键区域内，即只在关键区域这些局部范围内进行目标识别，而不是在全图检测，提高了检测准确率。

附图说明：

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种聚焦关键区域的深度学习目标检测方法的方法流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图1所示，本实施例1提供了一种聚焦关键区域的深度学习目标检测方法，包括如下步骤：

步骤S5，使用非极大值抑制移除重复预测的提议区域；

步骤S8，在模型测试阶段，使用上述步骤训练好的网络来对目标的类别和位置进行检测。

随着建筑工地里工人的人身安全问题越来越被重视，检测进入工地的人是否佩戴上了安全帽变得很有必要。近年来人脸识别算法越来越成熟，但它并不能检测出人是否佩戴了安全帽，而普通的以安全帽为目标的检测又不能判断安全帽是否被佩戴在人的头上。若是将人脸检测和安全帽检测靠某些人为设定的规则搭配在一起，来判断安全帽有没有被戴在人头上，在投入到复杂多变的现实场景中时，就不具有好的鲁棒性。

基于以上问题，本发明提供了一种聚焦关键区域的深度学习目标检测方法来检测建筑工人进入工地时是否佩戴了安全帽。本方法所检测的目标不再是安全帽，而是戴有安全帽的人类头部。关键区域则是现有的人脸识别算法提供的人脸轮廓，根据提议区域到关键区域的距离计算相应的惩罚权重代入新的损失函数，得到关键区域内的提议区域。实际应用时，利用传感器判断检测位置是否有人员，如果有则拍摄照片并利用检测器对图片进行检测，如果检测到目标，则表示符合安全标准，允许通过；否则拒绝通过。

针对上述问题，本实施例1中步骤S1在模型训练阶段，首先用卷积神经网络对图像进行特征提取，得到低层特征。从原始图像开始，输入是一堆原始像素值。深度学习模型中，图像可以逐级表示为特定位置和角度的边缘、由边缘组合得出的花纹、由多种花纹进一步汇合得到的特定部位的模式等。最终，模型能够较容易根据更高级的表示完成给定的任务，如识别图像中的物体。VGG16作为深度学习中的一种，将自动找出每一级表示数据的合适方式。

具体的，假设输入图像的高和宽分别为H_I和W_I，传入经过预训练的 VGG16后，从最后一层conv5_1输出的形状记为1×c₁×h₁×w₁，c₁、h₁、 w₁分别为特征图的通道数、高、宽。

进一步，步骤S2中使用区域提议网络对低层特征图进行提议区域选取，得到类别为非背景的提议区域：

使用填充为1的3×3卷积层变换卷积神经网络的输出，并将输出通道数记为c₂。这样，卷积神经网络为图像抽取的特征图中的每个单元均得到一个长度为c₂的新特征。以特征图每个单元为中心，生成多个不同大小和宽高比的锚框并标注它们。用锚框中心单元长度为c₂的特征分别预测该锚框的二元类别 (含目标还是背景)和边界框。

对于原图I，本实施例中使用的轮廓检测技术为现有的人脸识别算法，用它获取人脸边界框即关键区域，得到关键区域的边界框

其中n_Abox为人脸边界框的数量，

分别为第i个关键区域边界框的左上角和右下角的x轴、y 轴坐标。

对于区域提议网络提出的边界框

其中n_Bbox为边界框的数量，

分别为第i个边界框的左上角和右下角的x轴、y轴坐标，对于其中每个边界框Bbox_i首先计算其中心坐标距离各关键区域的中心坐标最小距离

其中j＝1，..，n_Abox，

令原图I的长和宽为H_I和W_I，接下来将

进行归一化得到归一化最小距离

进一步，步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数，加大对偏离关键区域的提议区域的惩罚力度包括：

计算区域提议阶段预测为非背景的边界框的惩罚权重，对于距离关键区域较远的提议区域分配较高的惩罚权重，离关键区域区域近的提议区域分配较小的惩罚权重，这里我们使用高斯加权的方式使得权重的变化更加平滑，每个边界框的惩罚权重为：

其中N_cls为小批量批次的样本数量，

为类别损失函数，

为锚框位置坐标预测的平滑L₁回归损失，

为：

网络生成了多个提议区域。这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征(提议区域个数记为n,高和宽均分别记为h₂和w₂)以便于连结后输出。输出形状为n×c₂×h₂×w₂的特征图。

通过全连接层将输出形状变换为n×d，其中d＝c₂×h₂×w₂。

预测类别时，将全连接层的输出的形状再变换为n×q(q为类别个数，这里q＝2)，并使用softmax函数回归。

预测边界框时，将全连接层的输出的形状变换为n×4。也就是说，我们为每个提议区域同时预测类别(戴有安全帽的人类头部或者背景)和边界框。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种聚焦关键区域的深度学习目标检测方法，其特征在于，包括如下步骤：

步骤S5，使用非极大值抑制移除重复预测的提议区域；

步骤S8，在模型测试阶段，使用上述步骤训练好的网络来对目标的类别和位置进行检测；

所述步骤S4中根据距离计算出惩罚权重并代入区域提议网络的交叉熵分类损失函数，加大对偏离关键区域的提议区域的惩罚力度：

计算区域提议阶段预测为非背景的边界框的惩罚权重，对于距离关键区域较远的提议区域分配较高的惩罚权重，离关键区域近的提议区域分配较小的惩罚权重，使用高斯加权的方式使得权重的变化更加平缓，每个边界框的惩罚权重为：

其中e为自然常数，σ为所有边界框到关键区域的归一化最小距离的标准差；归一化最小距离为

最后，将各边界框的惩罚权重带入区域提议网络的交叉熵分类损失函数中：

其中N_cls为小批量批次的样本数量，

为类别损失函数，p_i,

为锚框位置坐标预测的平滑L₁回归损失，t_i,

分别为边界框的预测坐标和真实坐标，λ为平衡分类损失和位置损失的系数；其中分类损失

为：

2.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，

所述步骤S1中在模型训练阶段，首先用卷积神经网络对图像进行特征提取，得到低层特征图包括：

采用VGG16网络来提取输入图片的特征，输出的形状记为1×c₁×h₁×w₁，c₁、h₁、w₁分别为特征图的通道数、高、宽。

3.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，

所述步骤S2中使用区域提议网络对低层特征图进行提议区域选取，得到类别为非背景的提议区域包括：

使用填充为1的3×3卷积层对低层特征图进行通道数变换，并将输出通道数记为c₂；这样，低层特征图中的每个单元均得到一个长度为c₂的新特征；以特征图每个单元为中心，设置多个不同大小和宽高比的锚框；用3×3卷积层在锚框的基础上进行区域提议。

4.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，所述步骤S3中用轮廓检测技术得到关键区域轮廓，计算提议区域到关键区域的距离包括：

其中n_CI为关键区域的个数，

为轮廓的点集，x_j和y_j分别为点集中每个点在原图中的x轴、y轴坐标，n_CIP为点集里点的数量；

对于区域提议网络提出的提议区域边界框

其中n_Bbox为提议区域的数量，

和

令原图I的长和宽为H_I和W_I，接下来将

进行归一化得到归一化最小距离

5.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，所述步骤S5中使用非极大值抑制移除重复预测的提议区域包括：

使用非极大值抑制，从预测类别为非背景的预测边界框中移除相似的结果；最终输出的预测边界框即兴趣区域池化层所需要的提议区域。

6.根据权利要求5所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，

所述步骤S6中把提议区域和低层特征图输入到兴趣区域池化层，得到各个提议区域形状相同的特征包括：

网络生成了多个提议区域；这些形状各异的提议区域在低层特征图上分别标出形状各异的兴趣区域；这些兴趣区域需要抽取出形状相同的特征以便于连结后输出；提议区域个数记为n，高和宽均分别记为h₂和w₂，输出通道数记为c₂；输出形状为n×c₂×h₂×w₂的特征图。

7.根据权利要求1所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，所述步骤S7中把各个提议区域形状相同的特征图输入到全连接层，得到每个提议区域的类别和边界框包括：

提议区域个数记为n，高和宽均分别记为h₂和w₂，输出通道数记为c₂；通过全连接层将输出形状变换为n×d，其中d＝c₂×h₂×w₂；

预测类别时，将全连接层的输出的形状再变换为n×q，并使用softmax函数回归；q为类别个数；

预测边界框时，将全连接层的输出的形状变换为n×4；也就是说，为每个提议区域同时预测类别和边界框。

8.根据权利要求7所述的一种聚焦关键区域的深度学习目标检测方法，其特征在于，所述步骤S8包括：