CN114639042A

CN114639042A - 基于改进CenterNet骨干网络的视频目标检测算法

Info

Publication number: CN114639042A
Application number: CN202210261866.2A
Authority: CN
Inventors: 孙崐; 甄伊凡; 张彬
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-17

Abstract

本发明公开了一种基于改进CenterNet骨干网络的视频目标检测算法，包括以下步骤：数据集采集；构建训练数据集；图像特征提取；图像特征融合；目标检测结果输出。本发明改进CenterNet骨干网络的目标检测算法包括利用ADS‑DLA34代替DLA34骨干网络。在ADS‑DLA34网络中，将软池化代替DLA34网络下采样的传统池化方式、可变形卷积代替上采样传统2D卷积、并在网络中结合注意力机制。使得改进之后的网络减少了目标特征信息的损失、增强对形变遮挡目标的学习能力、且网络更关注于图像中的关键信息，增强了模型特征提取融合的能力。从而以改进模型结构的角度，提高目标检测算法的性能，既保证了目标检测速度，又提高了目标检测精度，增强了不同领域下尤其是视频中目标物体的检测识别能力。

Description

基于改进CenterNet骨干网络的视频目标检测算法

技术领域

本发明涉及图像处理技术领域，具体涉及目标检测领域，尤其涉及一种改进CenterNet骨干网络DLA34的ADS-DLA34目标检测算法。

背景技术

目标检测作为计算机视觉中重要的研究领域，具有广泛的研究方向。其中在交通、监控视频中行人检测与跟踪是重要的研究方向之一。计算机视觉即是研究视觉感知的问题，对采集的图像或视频图像序列处理分析，以接收场景中的信息。计算机视觉主要包括目标检测、目标跟踪、图像处理、目标识别、姿态分析等方面。如在目标检测中，仅凭人类的双眼难以在一些拥挤的场景中对一些存在遮挡的行人进行检测跟踪，而且人工检测的成本比较高，速度较慢。随着智能技术的发展，通过计算机视觉中的方法可以补充和改善人类视觉能力的不足，从而帮助人类更好的完成各项任务。

近年来，深度学习技术发展迅速，其中卷积神经网络也被大量应用于目标检测和跟踪领域。基于卷积神经网络下的目标检测和跟踪算法在检测准确度和跟踪精度方面都优于传统的方法。但是目前仍然存在一些难点问题，例如在视频中行人目标检测时由于遮挡造成的形态变化，从而导致误检和漏检等情况；在目标特征提取时，特征信息提取不充分，进而影响目标检测精度。

随着深度学习技术的飞速发展，主流深度学习的目标检测算法分为两类：基于锚框(anchor-based)和基于无锚框(anchor-free)两类，anchor-based方法即是在输入图像上预设一些大小一定的矩形框,但是会存在一些问题，如预设的矩形框过多，计算量会加大从而导致速度变慢。

CenterNet是一种全新的基于anchor-free的深度神经网络识别算法，CenterNet根据检测框的中心点来检测物体，仅需要一个关键点定位对象，因此仅有一个分支，网络结构更加简单，减少训练和推理预测时间，从而提高了检测精度和速度。

发明内容

本发明的目的在于针对现有技术存在的一些问题，提供一种精度较高、速度较快的目标检测算法，以解决上述问题。

为实现上述目的，本发明采用改进CenterNet骨干网络DLA34的ADS-DLA34目标检测算法的技术方案包括以下步骤:

步骤S1：数据集采集,所述的采集数据集包含待检测目标的若干图像，本发明采集开源的数据集图像。

步骤S2：构建改进CenterNet骨干网络DLA34的ADS-DLA34训练数据集。

步骤S3：图像特征提取，所述的图像特征提取是ADS-DLA34网络采用小步进的下采样率实现不同层级之间目标特征的提取。

步骤S4：图像特征融合，所述的图像特征融合是DLA网络通过迭代深度聚合将不同阶段之间的特征融合，分层深度聚合将不同阶段之间的基本模块融合

步骤S5：目标检测结果输出，所述的检测结果输出就是经过特征提取特征融合后，通过注意力机制模块，输出带有特征权值的注意力特征图，在改进CenterNet骨干网络的最后加入三个网络层来输出目标检测预测结果。

在上述的方案中，所述步骤S2构建CenterNet网络的训练数据集开源的数据集图像，包括把数据集图像进行数据增强。数据增强包括随机翻转、随机缩放、裁剪和颜色抖动，还包括添加每一幅图像对应的标注信息。所述标注信息包括图片信息、对应标注的位置信息、类别信息。

在上述的方案中,所述步骤S3图像特征提取包括经过基层和第一层实现对输入图像的初步特征提取，经过初步特征提取后，其图像的输出尺寸与原图像一致。随后，将第一层的输出传入第二层中，经过下采样操作直至最后的第五层，采用小步进的下采样率实现不同层级之间目标特征的提取。ADS-DLA34网络中下采样操作包括将软池化代替下采样传统池化方式，并在采样过程中通过迭代深度聚合将不同阶段之间的特征融合，分层深度聚合将不同阶段之间的基本模块融合，实现语义和空间中的特征结合。

在上述的方案中,所述步骤S4图像特征融合在下采样和特征提取后，改进CenterNet骨干网络DLA34的ADS-DLA34采用多层级融合网络中的DLAUP模块实现网络的上采样，在上采样过程中用可变形卷积代替上采样传统2D卷积，扩大目标感受野，增强对形变遮挡目标的适应和学习能力。其次，采用IDAUP模块完成上采样中的多层级融合。

在上述的方案中,经过一系列上采样、下采样的操作后，输出特征图的尺寸与经过第二层的输出特征图尺寸相同。所述步骤S5目标检测结果输出在图像特征提取融合后，网络中结合注意力机制，通过改进CenterNet骨干网络ADS-DLA34加入三个分支来输出目标检测预测结果，分别为中心点热力图(Heatmap)、目标中心点偏置(Offset)和目标的宽、高(Weight&Height)。其中，Heatmap分支负责输出不同类别目标中心点的位置；Offset分支负责对Heatmap的输出进行精炼，提高定位准确度；Weight&Height分支负责预测以关键点为中心检测框的宽和高。三个分支的损失包括热力图损失，中心点偏置损失和中心点宽高损失，总的损失函数为L_det，公式为L_det＝L_k+λ_sizeL_size+λ_offL_off，其中L_K是热力图预测损失，L_off是中心点偏置损失，L_size是中心点宽高损失，其中λ_size、λ_off分别为各个不同损失函数的权重。

在上述的方案中，所述步骤S5输出目标检测预测结果对预测结果进行解码，解码即根据网络的输出获取直观的检测框信息。再进行编码，将检测框信息转化为网络输出的信息，便于损失函数的求解。此外还要对预测结果进行筛选，包括Heatmap预测作非极大值抑制处理的方法，通过3×3卷积进行最大池化，保留临域中最大的数值，其余置为0。

综上所述，本发明与现有的一些目标检测算法相比，其有益效果为：基于改进CenterNet骨干网络的视频目标检测算法，该方法采用无描框方法，对CenterNet骨干网络DLA34进行改进的ADS-DLA34算法。该方法用软池化代替DLA34网络传统池化方式，减少目标特征信息的损失；可变形卷积代替上采样传统2D卷积，增强网络对遮挡形变目标的学习能力，获取更大的感受野；最后在网络中结合注意力机制，使网络更关注于输入图像中的关键信息，减少对其他无关信息的关注度。进一步提升了目标检测的精度和速度，增强了数据集图像、监控视频中人物目标的检测识别能力，并提高了检测精度。

附图说明

图1为本发明中改进CenterNet骨干网络算法的目标检测流程图。

图2为本发明中改进CenterNet骨干网络DLA34的ADS-DLA34结构模型图。

图3为本发明中ADS-DLA34网络输入经过下采样聚合特征后，通过上采样的示意图。

图4为本发明中骨干网络ADS-DLA34的目标检测算法输出参数。

图5为本发明中目标检测预测结果过程图。

具体实施方案

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本实施例中，结合图1，提供了一种基于改进CenterNet骨干网络的视频目标检测算法，所述方法包括以下步骤：

步骤S2：构建改进CenterNet骨干网络DLA34的ADS-DLA34的训练数据集。

步骤S5：目标检测结果输出，所述的检测结果输出就是经过特征提取特征融合后，通过注意力机制模块，输出带有特征权值的注意力特征图，在改进CenterNet骨干网络的最后加入三个网络层来输出目标检测预测结果，并解码-训练-编码等过程，计算loss损失函数，用于模型更新。

进一步地，在本实施例中，所述步骤S2构建改进CenterNet骨干网络DLA34的ADS-DLA34的训练数据集包括把数据集图像进行数据增强。数据增强包括随机翻转、随机缩放、裁剪和颜色抖动，还包括添加每一幅图像对应的标注信息。所述标注信息包括图片信息、对应标注的位置信息、类别信息。由于采集的图像是开源图像，数据集的标注信息不用在手动标注。

进一步地，在本实施例中，所述步骤S3图像特征提取结合图2的ADS-DLA34网络结构，首先经过base_layer和level_1实现对输入图像F∈H×W的初步特征提取，其中H为输入图像的高，W为输入图像的宽。经过base_layer和level_1后，其输出尺寸与原图像一致。其次将level_1的输出传入level_2层中，先经过下采样操作，输出

然后将level_2传入level_3中，直至最后的level_5层。其中，F₃-F₅下采样输出的特征图尺寸为：

第一层的输出传入第二层中，经过下采样操作直至最后的第五层，采用小步进的下采样率实现不同层级之间目标特征的提取。下采样操作包括将软池化代替下采样传统池化方式，减少目标特征信息的损失。并在下采样过程中通过迭代深度聚合将不同阶段之间的特征融合，分层深度聚合将不同阶段之间的基本模块融合，实现语义和空间中的特征结合。

进一步地，在本实施例中，所述步骤S4图像特征融合，所述的图像特征融合是DLA网络通过迭代深度聚合将不同阶段之间的特征融合，分层深度聚合将不同阶段之间的基本模块融合。在下采样和特征提取后，改进CenterNet骨干网络DLA34的ADS-DLA34采用多层级融合网络中的DLAUP模块实现网络的上采样，在上采样过程中用可变形卷积代替上采样传统2D卷积，扩大目标感受野，增强对形变遮挡目标的适应和学习能力。其次，采用IDAUP模块完成上采样中的多层级融合，图3为输入经过下采样特征提取聚合后，通过上采样的示意图。

进一步地，在本实施例中,所述步骤S5目标检测结果输出在图像特征提取融合后,网络中结合注意力机制，通过改进CenterNet骨干网络ADS-DLA34加入三个分支来输出目标检测预测结果，结合图4，分别为中心点热力图(Heatmap)、目标中心点偏置(Offset)和目标的宽、高(Weight&Height)，为网络的输出参数。其中，Heatmap分支负责输出不同类别目标中心点的位置；Offset分支负责对Heatmap的输出进行精炼，提高定位准确度；Weight&Height分支负责预测以关键点为中心检测框的宽和高。三个分支的损失包括热力图损失，中心点偏置损失和中心点宽高损失，总的损失函数为L_det，公式为L_det＝L_k+λ_sizeL_size+λ_offL_off，其中L_K是热力图预测损失，L_off是中心点偏置损失，L_size是中心点宽高损失，其中λ_size、λ_off为各个不同损失函数的权重，分别为0.1、1。

其中是热力图预测的中心点之间的误差造成的损失：

其中N为图像中目标个数，

是热力图的估计，α和β是热力图损失函数的超参数。

其中，中心点偏置损失：

其中，p是检测框中心点的坐标，R是缩放倍数，

是中心点下采样后向下取整的坐标，中心点造成的误差为：

的是模型为每个目标的中心点预测的偏差。

其中，中心点宽高损失：

其中S_k为真实中心点宽和高，

为预测的宽高。

进一步地，在上述的方案中，所述步骤S5输出目标检测预测结果对预测结果进行进行解码，解码即根据网络的输出获取直观的检测框信息。此外还要对预测结果进行筛选，包括Heatmap预测作非极大值抑制处理的方法，通过3×3卷积进行最大池化，保留临域中最大的数值，其余置为0。根据Heatmap预测中的特征点，获取索引进一步获得预测框的尺寸。结合图5，对图中特征点进行解码操作，进行中心点偏移；然后利用中心点计算预测框的坐标，进而绘制预测框。再进行训练-编码过程，即将检测框信息转化为网络输出信息，便于损失函数的求解。获取真实目标框的中心点，根据预测框尺寸和真实框尺寸计算高斯圆半径R；将Heatmap特征图中真实框的中心值设置为1，然后以中心点为圆心，半径为R，最后获取Heatmap特征图。同样将真实框的偏移信息和宽高信息映射到Offset特征图和Height&Width特征图中。最后网络训练，根据得到的数据，计算loss损失函数，以便用于模型更新。

本发明采用无描框方法，基于对CenterNet骨干网络DLA34进行改进的视频目标检测算法。该方法在DLA34网络中将软池化代替下采样的传统池化方式、可变形卷积代替上采样传统2D卷积、在该网络中结合注意力机制，对CenterNet骨干网络DLA34网络改进后，增强了算法对目标检测能力，尤其是基于视频目标检测的特征提取能力，在保证检测速度的同时，提高了检测精度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明。对于本行业的技术人员应该了解，上述实施例和说明书中描述的只是说明本发明的原理。本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进CenterNet骨干网络的视频目标检测算法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于，所述步骤S2构建CenterNet网络的训练数据集开源的数据集图像，包括把数据集图像进行数据增强。数据增强包括随机翻转、随机缩放、裁剪和颜色抖动，还包括添加每一幅图像对应的标注信息。所述标注信息包括图片信息、对应标注的位置信息、类别信息。

3.根据权利要求1所述的改进CenterNet骨干网络视频目标检测算法，其特征在于，所述步骤S3图像特征提取网络是基于DLA34网络进行改进，包括经过基层和第一层实现对输入图像的初步特征提取，将第一层的输出传入第二层中，经过下采样操作直至最后的第五层，采用小步进的下采样率实现不同层级之间目标特征的提取。

4.根据权利要求3所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于，ADS-DLA34特征提取网络中下采样操作将软池化代替DLA34网络传统池化方式，并在采样过程中通过迭代深度聚合将不同阶段之间的特征融合，分层深度聚合将不同阶段之间的基本模块融合，实现语义和空间中的特征结合。

5.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于，所述步骤S4图像特征融合即在下采样和特征提取后，改进CenterNet骨干网络DLA34的ADS-DLA34采用多层级融合网络中的DLAUP模块实现网络的上采样，在上采样过程中用可变形卷积代替上采样传统2D卷积，并采用IDAUP模块完成上采样中的多层级融合。

6.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于，所述步骤S5目标检测结果输出在图像特征提取融合后，结合注意力机制，通过改进CenterNet骨干网络ADS-DLA34加入三个平行头来输出目标检测预测结果。输出三个分支分别为中心点热力图(Heatmap)、目标中心点偏置(Offset)和目标的宽、高(Weight&Height)。

7.根据权利要求6所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于三个分支的损失包括热力图损失，中心点偏置损失和中心点宽高损失，总的损失函数为L_det，公式为L_det＝L_k+λ_sizeL_size+λ_offL_off，其中L_K是热力图预测损失，L_off是中心点偏置损失，L_size是中心点宽高损失，其中λ_size、λ_off分别为各个不同损失函数的权重。

8.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法，其特征在于，所述步骤S5输出目标检测预测结果对预测结果进行筛选，还包括Heatmap预测作非极大值抑制处理的方法，通过3×3卷积进行最大池化，保留临域中最大的数值，其余置为0。