CN114494812A

CN114494812A - 一种基于改进CenterNet的图像小目标检测方法

Info

Publication number: CN114494812A
Application number: CN202210141099.1A
Authority: CN
Inventors: 杨科华; 谷依; 罗嘉明; 张曼
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-13
Anticipated expiration: 2042-02-16

Abstract

本发明公开了一种基于改进CenterNet的图像小目标检测方法，包括获取原始图像，对原始图像进行mosaic数据增强，增加原始图像中小目标的样本量；使用注意力机制增强后的骨干网络提取图像的特征；对骨干网络提取的图像的特征进行多感受野融合，使用可变形卷积上采样；对进行多感受野融合，使用可变形卷积上采样处理后的特征图进行预测，得到热力图，目标的宽、高和中心点坐标；从热力图提取出检测框，得到检测结果。本发明通过对训练数据的增强，增加小目标的样本量；通道注意力增强和空间注意力增强能够有效地区分小目标和背景信息；以及多重感受野融合和高分辨率特征图的结合，能够有效提升小目标检测精度。

Description

一种基于改进CenterNet的图像小目标检测方法

技术领域

本发明属于图像处理领域，具体涉及一种基于改进CenterNet的图像小目标检测方法。

背景技术

目标检测结合了目标定位与目标分类两大任务，被广泛应用于人脸识别，行人检测，自动驾驶，智能监控等计算机领域。近年来基于卷积网络的目标检测算法不断发展，按是否利用锚框产生候选框，分为基于锚框检测算法，如Faster R-CNN、Mask R-CNN等的twostage框架和YOLO、SSD、RetinaNet等的one stage框架；无锚框检测算法，如CornerNet、ExtremeNet、CenterNet、FCOS等。小目标是指图像中尺寸小于32×32像素的目标，由于其像素少的特点，主流目标检测算法对小目标的检测效果都比较差。

基于锚框的算法需要一组非常大的锚框,这是因为检测器被训练用以分类每个锚框是否与真实框尽可能的重叠,所以需要大量的框以确保与大多数的真实框最大程度的重叠.最终只有一小部分框与真实框重合,这会导致正负样本的不平衡,并减慢了训练的速度。由于小目标的像素信息少，和锚框的重叠部分更小，同时需要大量小尺寸的锚框，加剧对小目标的学习难度。

无锚框算法通常采用基于关键点来完成定位目标，避免了锚框难以匹配小目标的缺点，并且由于减少了大量锚框的匹配运算，加速了检测的速度。CenterNet作为无锚框检测算法，直接利用目标物体中心点的特征信息进行目标分类和边界回归，检测精度和实时性都取得了不错的结果。但是由于缺乏对小目标的专门设计，在下采样的过程中小目标的特征信息大量丢失，导致小目标的检测精度不够理想。

发明内容

本发明的目的在于提供一种基于改进CenterNet的图像小目标检测方法，该方法能够有效提升小目标检测精度。

本发明提供的这种基于改进CenterNet的图像小目标检测方法，包括如下步骤：

S1.获取原始图像，对原始图像进行mosaic数据增强，增加原始图像中小目标的样本量；

S2.使用注意力机制增强后的骨干网络提取图像的特征；

S3.对骨干网络提取的图像的特征进行多感受野融合，使用可变形卷积上采样；

S4.对进行多感受野融合，使用可变形卷积上采样处理后的特征图进行预测，得到热力图，目标的宽、高和中心点坐标；

S5.从热力图提取出检测框，得到检测结果。

所述的步骤S1，包括加载数据集，遍历数据集序列，若命中随机数，则进行mosaic扩充，否则直接加载图片和标签信息；从数据集中随机选取3张图像和当前图像增强为新的训练图像，初始化拼接图像的中心点坐标xc和yc，对四张图片进行翻转、缩放或色域变化操作，将四张图片分别填充到拼接图像的四个方向；更新原始图像的标注信息的在拼接图像中的坐标，返回拼接图像，类别信息，标注信息作为训练数据。

所述的步骤S2，包括对原始图像进行卷积得到特征图；将中间特征图依次通过通道和空间两个维度依次推断注意力图，然后将注意力图与输入特征图相乘进行自适应特征优化；通道注意力机制包括利用平均池化和最大池化来聚合特征映射的空间信息，生成被平均池化的特征

和被最大池化的特征

将被平均池化的特征

和被最大池化的特征

前向送入一个共享网络，压缩输入特征图的空间维数，逐元素求和合并，产生通道注意力图M_c∈R^C×1×1；共享网络包括多层感知机(MLP)，MLP包括一个隐藏层；隐藏层的激活大小设置为R^C/r×1×1，其中，R表示张量空间；C表示图像的通道数；c表示通道的含义；r表示缩减率；通道注意力机制表示为：

其中，σ(·)表示sigmoid函数，MLP的权重尺寸为W₀∈R^C×1×1和W₁∈R^C×1×1，R表示张量空间；C表示图像的通道数；W₀表示隐藏层的权重；W₁表示输出层的权重；AvgPool(·)表示平均池化，MaxPool(·)表示最大池化；

首先沿着通道轴进行平均池化操作和最大池化操作，生成两个2D图，两个2D图包括沿着通道被平均池化的特征

和沿着通道被最大池化的特征

R表示张量空间，H表示图像的高，W表示图像的宽，将两个2D图进行拼接，生成高效特征描述符，使用一个卷积层生成一个空间注意力图空间M_s(F)∈R^H×W；获取2通道的空间注意力图空间M_s(F)：

其中，σ(·)表示sigmoid函数；f^7×7表示一个卷积核尺寸为7×7的卷积操作；AvgPool(·)表示平均池化，MaxPool(·)表示最大池化；特征图通过四层残差模块下采样，降低分辨率。

所述的步骤S3，包括如下步骤：

A1.通过三个核为5×5，9×9，13×13的最大池化，拼接得到新的特征图，在特征图大小不变的情况下，进行多重感受野融合；

A2.通过三层可变形卷积对特征图进行上采样，普通卷积包括，以对于每个普通卷积的输出y(p₀)，p₀表示普通卷积采样中心点；都要从x上采样，向四周扩散，(-1,-1)表示x(p₀)的左上角，(1,1)表示x(p₀)的右下角；x(p₀)表示中心点的值；R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}，普通卷积的输出y(p₀)如下：

其中，p_n表示对R中所列位置的枚举；w表示卷积核的参数；x(p₀+p_n)表示中心点向四周扩散后的点的值；

可变形卷积加入偏移量，给每个采样点添加权重：

其中，y(p)表示可变形卷积的输出；p_n表示对R中所列位置的枚举；w_k表示第k个卷积核的参数；p表示可变形卷积采样中心点；p_k表示中心点向四周扩散的位移；Δp_k表示偏移量；x(p+p_k+Δp_k)表示各采样点的值；Δm_k表示权重系数；

A3.将反卷积的中间结果和骨干网络提取特征的中间特征进行结合，增强小目标的特征信息。

所述的步骤S4，包括如下步骤：

B1.对于Ground Truth的关键点，位置为p∈R²，计算得到低分辨率上对应的关键点

将关键点通过高斯函数

计算中心点周围的点权重，其中，x表示周围点x轴坐标；y表示周围点y轴坐标；c表示通道的含义；

表示中心点x轴坐标；

表示中心点y轴坐标；σ_p表示目标尺度-自适应的标准方差；将高斯核Y_xyc分散到热力图

上，H表示图像的高，W表示图像的宽，R表示张量空间，C表示图像的通道数；若对于同个关键点或同个类别c，有两个高斯函数发生重叠，选择元素级最大的，训练目标函数，像素级逻辑回归的焦点损失L_k为：

其中，N表示图像关键点个数；α和β表示焦点损失的超参数，x表示x轴坐标；y表示y轴坐标；z表示z轴坐标；Y_xyz表示高斯函数结果值；

表示热力图的预测值；log表示取对数，用于计算信息量；

B2.设骨干网络输出的偏置值为

R表示张量空间，H表示图像的高，W表示图像的宽，C表示通道值；采用L1损失训练骨干网络输出的偏置值

其中，L_offset表示目标偏移量的损失；N表示图像关键点个数；

表示骨干网络输出的偏置值；p表示目标框的中心点；R表示下采样倍数；

表示下采样之后的目标框的中心点，

表示偏差值；

B3.设第k个目标，类别为c_k的目标框的表示为

则中间点坐标为：

目标框的长和宽表示为：

表示第k个目标的目标框左下角的x坐标；

表示第k个目标的目标框左下角的y坐标；

表示第k个目标的目标框右上角的x坐标；

表示第k个目标的目标框右上角的y坐标；采用L1损失对目标框的长和宽进行训练：

其中，L_size表示目标尺寸的损失；N表示图像关键点个数；

表示卷积网络输出的结果，

R表示张量空间，H表示图像的高，W表示图像的宽，C表示图像的通道数；s_k表示目标框的长或宽；

B4.根据预设权重，获取整体损失函数：

L_det＝L_k+λ_sizeL_size+λ_offsetL_offset

其中，L_k表示像素级逻辑回归的焦点损失；L_size表示目标尺寸的损失；L_offset表示目标偏移量的损失；λ_size表示L_size的权重；λ_offset表示L_offset的权重。

所述的步骤S5，包括采用sigmoid函数将热力图归一化；使用3×3最大池化，得到热力图中，值比周围8个临近点都大的点；根据热力图的分数筛选出100个点和对应的类别；结合对应的宽、高和中心坐标，通过中心点坐标和目标的宽高计算出目标框的四个角点坐标，得到检测结果。

本发明提供的这种基于改进CenterNet的图像小目标检测方法，利用通过对训练数据的增强，增加小目标的样本量；通道注意力增强和空间注意力增强能够有效地区分小目标和背景信息；以及多重感受野融合和高分辨率特征图的结合，能够有效提升小目标检测精度。

附图说明

图1为本发明方法的流程示意图。

图2为本发明方法的网络结构示意图。

图3为本发明实施例的mosaic数据增强效果示意图。

图4-5为本发明实施例的检测效果示意图。

具体实施方式

如图1为本发明方法的流程示意图：如图2为本发明方法的网络结构示意图。本发明提供的这种基于改进CenterNet的图像小目标检测方法，包括如下步骤：

S2.使用注意力机制增强后的骨干网络提取图像的特征；

S5.从热力图提取出检测框，得到检测结果。

所述的步骤S1，包括加载数据集，遍历数据集序列，如果命中随机数则进行mosaic扩充，否则直接加载图片和标签信息，通过命中随机数能保证1/2的训练数据会进行mosaic增强，避免中大目标训练减少，降低整体精度；从数据集中随机选取3张图像和当前图像增强为新的训练图像，初始化拼接图像的中心点坐标xc和yc，对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作，将四张图片分别填充到拼接图像的四个方向；更新原始图像的标注信息的在拼接图像中的坐标，返回拼接图像，类别信息，标注信息作为训练数据。

所述的步骤S2，包括对原始图像进行卷积得到特征图；将中间特征图依次通过通道和空间两个维度依次推断注意力图，然后将注意力图与输入特征图相乘进行自适应特征优化。通道注意力机制是利用平均池化和最大池化来聚合特征映射的空间信息，生成两个不同的空间上下文描述符：被平均池化的特征

和被最大池化的特征

将被平均池化的特征

和被最大池化的特征

前向送入一个共享网络，压缩输入特征图的空间维数，逐元素求和合并，产生通道注意力图M_c∈R^C×1×1；共享网络包括多层感知机(MLP)，多层感知机包括一个隐藏层；为了减少参数开销，隐藏层的激活大小设置为R^C/r×1×1，其中，R表示张量空间；C表示图像的通道数；c表示通道的含义；r表示缩减率；通道注意力机制表示为：

其中，σ(·)表示sigmoid函数，sigmoid函数表示为

MLP的权重尺寸为W₀∈R^C×1×1和W₁∈R^C×1×1，R表示张量空间；C表示图像的通道数；W₀表示隐藏层的权重；W₁表示输出层的权重；MLP由被平均池化的特征

和被最大池化的特征

的输入共享，在经过ReLU激活函数处理之后为W₀，即池化特征在输入到MLP之前，需要经过ReLU函数进行处理。AvgPool(·)表示平均池化，MaxPool(·)表示最大池化。

利用特征的空间相互关系可以生存一个空间注意力图。为了计算空间注意力，首先沿着通道轴进行平均池化操作和最大池化操作，生成两个2D图，两个2D图包括沿着通道被平均池化的特征

和沿着通道被最大池化的特征

R表示张量空间，H表示图像的高，W表示图像的宽，将两个2D图进行拼接，生成高效特征描述符，使用一个卷积层生成一个空间注意力图空间M_s(F)∈R^H×W；注意力机制是对通道进行压缩，在通道维度分别进行了平均值池化和最大值池化，接着将提取到的特征图(通道数都为1)合并得到一个2通道的空间注意力图空间M_s(F)：

所述的步骤S3，包括如下步骤：

A1.通过三个核为5×5，9×9，13×13的最大池化，拼接得到新的特征图，在特征图大小不变的情况下，进行多重感受野融合，丰富了特征图的表达能力；

A2.通过三层可变形卷积对特征图进行上采样，可变形卷积的卷积位置可变形，并非在传统的N×N的网格上做卷积，能够准确地提取到所需特征(传统的卷积仅仅只能提取到矩形框的特征)。普通卷积，以3×3卷积为例对于每个普通卷积的输出y(p₀)，p₀表示普通卷积采样中心点；都要从x上采样9个位置，向四周扩散，(-1,-1)表示x(p₀)的左上角，(1,1)表示x(p₀)的右下角；x(p₀)表示中心点的值；R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}，普通卷积的输出y(p₀)如下：

其中，p_n表示对R中所列位置的枚举；w表示卷积核的参数；x(p₀+p_n)表示中心点向四周扩散的点的值；

可变形卷积在传统卷积上加入偏移量，让卷积变形为不规则卷积。为了避免可变形卷积可能引入无用的上下文区域来干扰特征提取，给每个采样点添加权重：

A3.将反卷积的中间结果和backbone(骨干网络)提取特征的中间特征进行结合，增强小目标因下采样而丢失的特征信息。

所述的步骤S4，包括如下步骤：

将关键点通过高斯函数

表示x轴中心点坐标；

表示y轴中心点坐标；σ_p表示与目标大小相关的标准差，在本实施例中为目标尺度-自适应的标准方差；将高斯核Y_xyc分散到热力图

其中，N表示图像关键点个数；α和β为焦点损失的超参数，在本实施例中α取2，β取4；x表示x轴坐标；y表示y轴坐标；z表示z轴坐标；Y_xyz表示高斯函数结果值；

表示热力图的预测值；log表示取对数，用于计算信息量。

B2.由于三个骨干网络输出的特征图的空间分辨率变为原来输入图像的四分之一。相当于输出特征图上一个像素点对应原始图像的4×4的区域，这会带来较大的误差，因此引入了偏置值和偏置的损失值。设骨干网络输出的偏置值为

R表示张量空间，H表示图像的高，W表示图像的宽，C表示图像的通道数；采用L1损失训练骨干网络输出的偏置值

表示下采样之后的目标框的中心点，

表示偏差值；

B3.设第k个目标，类别为c_k的目标框的表示为

则中间点坐标为：

目标框的长和宽表示为：

表示第k个目标的目标框左下角的x坐标；

表示第k个目标的目标框左下角的y坐标；

表示第k个目标的目标框右上角的x坐标；

其中，L_size表示目标尺寸的损失；N表示图像关键点个数；

表示卷积网络输出的结果，

B4.根据预设权重，获取整体损失函数：

L_det＝L_k+λ_sizeL_size+λ_offsetL_offset

在本实施例中：

本案例选择Pascal VOC数据集进行展示。该数据集包含11540张图片，20个类别，27450被标注的物体。假设某一用户希望在该数据集上训练出高精度且小目标识别率高的目标检测模型。

如图3为本发明实施例的mosaic数据增强效果示意图。步骤一、Pascal VOC数据集的图像都是尺寸512×512的图像，获取训练集的annotion文件，得到所有训练集的图像标注信息和id。对命中随机数的图像进行mosaic增强，从训练集中随机获取另外三张图片，进行缩放等操作，之后将四张图片拼接为新的图像。具体效果如图3所示。

步骤二、对图像卷积提取的特征进行通道注意力和空间注意力增强，通道注意力增强表达式为

空间注意力增强表达式为，

其中，σ(·)表示sigmoid函数，sigmoid函数表示为

MLP的权重尺寸为W₀∈R^C×1×1和W₁∈R^C×1×1。AvgPool(·)表示平均池化，MaxPool(·)表示最大池化。之后通过四次下采样，特征图的尺度从512×512压缩到64×64。再通过双维度注意力机制增强特征图的特征表现。

步骤三、对当前64×64的特征图分别进行5×5，9×9，13×13的最大池化，拼接得到新的特征图，在特征图大小不变的情况下，进行多重感受野融合，实现了局部特征和全局特征的融合，有利于检测图像中存在多种尺寸目标的情况。之后对64×64的特征图使用三层可变形卷积上采样，可变形卷积的输出为

其中，y(p)表示可变形卷积的输出；p_n表示对R中所列位置的枚举；w_k表示第k个卷积核的参数；p表示可变形卷积采样中心点；p_k表示中心点向四周扩散的位移；Δp_k表示偏移量；x(p+p_k+Δp_k)表示各采样点的值；Δm_k表示权重系数；得到256*256的特征图。同时为了补充下采样过程中小目标的特征信息损失，在上采样过程中和下采样产生的同分辨率中间特征图进行融合。

步骤四、由特征图获取热力图，目标的宽高和中心点坐标。针对这些设计了由heatmap loss，offset loss，size loss三部分组成的损失函数。

训练数据通过高斯核

的高斯函数转化为热力图，高斯函数能够让中心点之外的网格点也有较小的权重。其中，x表示x轴坐标；y表示y轴坐标；c表示通道的含义；

表示x轴中心点坐标；

表示y轴中心点坐标；σ_p表示与目标大小相关的标准差。由于下采样之后的特征图的空间分辨率变为原来输入图像的四分之一。相当于输出特征图上一个像素点对应原始图像的4×4的区域，这会带来较大的误差，因此引入了偏置值和偏置的损失值。损失函数使用L1损失函数。

目标框的定位表示为

则中间点坐标为：

目标框的长和宽表示为：

表示第k个目标的目标框左下角的x坐标；

表示第k个目标的目标框左下角的y坐标；

表示第k个目标的目标框右上角的x坐标；

表示第k个目标的目标框右上角的y坐标；采用L1损失对目标框进行训练：三个损失函数加权之后得到总的损失，L_det＝L_k+λ_sizeL_size+λ_offsetL_offset，其中，L_k表示像素级逻辑回归的焦点损失；L_size表示目标尺寸的损失；L_offset表示目标偏移量的损失；在本实施例中，λ_size表示L_size的权重，λ_size取0.1；λ_offset表示L_offset的权重，λ_offset取1。

如图4-5为本发明实施例的检测效果示意图。步骤五、由于结果得到的是热力图，和常规使用的检测框不同，需要将热力图转换为检测框。通过sigmoid函数将热力图归一化。之后通过3×3卷积筛选出值比周围8个点大的100个点作为关键点。结合对应的宽高和中心坐标，得到检测结果。检测结果如图4-5所示。通过观察，本发明能够准确识别自然场景图片下的小型目标，并且检测框定位精准，从图4的检测结果看，本发明能识别图像中所占像素非常小的船。从图5的检测结果看，本发明对复杂场景的小目标识别效果优秀，并且能在物体存在遮挡的情况下进行精确识别。

Claims

1.一种基于改进CenterNet的图像小目标检测方法，其特征在于包括如下步骤：

S2.使用注意力机制增强后的骨干网络提取图像的特征；

S5.从热力图提取出检测框，得到检测结果。

2.根据权利要求1所述的基于改进CenterNet的图像小目标检测方法，其特征在于所述的步骤S1，包括加载数据集，遍历数据集序列，若命中随机数，则进行mosaic扩充，否则直接加载图片和标签信息；从数据集中随机选取3张图像和当前图像增强为新的训练图像，初始化拼接图像的中心点坐标xc和yc，对四张图片进行翻转、缩放或色域变化操作，将四张图片分别填充到拼接图像的四个方向；更新原始图像的标注信息的在拼接图像中的坐标，返回拼接图像，类别信息，标注信息作为训练数据。

3.根据权利要求2所述的基于改进CenterNet的图像小目标检测方法，其特征在于所述的步骤S2，包括对原始图像进行卷积得到特征图；将中间特征图依次通过通道和空间两个维度依次推断注意力图，然后将注意力图与输入特征图相乘进行自适应特征优化；通道注意力机制包括利用平均池化和最大池化来聚合特征映射的空间信息，生成被平均池化的特征

和被最大池化的特征

将被平均池化的特征

和被最大池化的特征

前向送入一个共享网络，压缩输入特征图的空间维数，逐元素求和合并，产生通道注意力图M_c∈R^C×1×1；共享网络包括MLP，MLP包括一个隐藏层；隐藏层的激活大小设置为R^C/r×1×1，其中，R表示张量空间；C表示图像的通道数；c表示通道的含义；r表示缩减率；通道注意力机制表示为：

和沿着通道被最大池化的特征

4.根据权利要求3所述的基于改进CenterNet的图像小目标检测方法，其特征在于所述的步骤S3，包括如下步骤：

可变形卷积加入偏移量，给每个采样点添加权重：

5.根据权利要求4所述的基于改进CenterNet的图像小目标检测方法，其特征在于所述的步骤S4，包括如下步骤：

将关键点通过高斯函数

表示中心点x轴坐标；

表示热力图的预测值；log表示取对数，用于计算信息量；

B2.设骨干网络输出的偏置值为

表示下采样之后的目标框的中心点，

表示偏差值；

B3.设第k个目标，类别为c_k的目标框的表示为

则中间点坐标为：

目标框的长和宽表示为：

表示第k个目标的目标框左下角的x坐标；

表示第k个目标的目标框左下角的y坐标；

表示第k个目标的目标框右上角的x坐标；

其中，L_size表示目标尺寸的损失；N表示图像关键点个数；

表示卷积网络输出的结果，

B4.根据预设权重，获取整体损失函数：

L_det＝L_k+λ_sizeL_size+λ_offsetL_offset

6.根据权利要求5所述的基于改进CenterNet的图像小目标检测方法，其特征在于所述的步骤S5，包括采用sigmoid函数将热力图归一化；使用3×3最大池化，得到热力图中，值比周围8个临近点都大的点；根据热力图的分数筛选出100个点和对应的类别；结合对应的宽、高和中心坐标，通过中心点坐标和目标的宽高计算出目标框的四个角点坐标，得到检测结果。