CN113378905A

CN113378905A - 一种基于分布距离的小目标检测方法

Info

Publication number: CN113378905A
Application number: CN202110623154.6A
Authority: CN
Inventors: 杨文�; 王金旺; 徐畅; 夏桂松
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-10
Anticipated expiration: 2041-06-04
Also published as: CN113378905B

Abstract

本发明提供了一种基于分布距离的小目标检测方法。本发明构建小目标检测图像数据集；人工标注所述小目标检测数据集中每幅图像的目标标记框以及目标类别；构建基于分布距离的小目标检测网络，将小目标检测数据集作为输入数据，结合小目标检测训练集中的目标类型，构建基于分布距离的小目标检测网络损失函数，通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络，使用优化后的网络检测图片中的小目标。本发明在目标较小的时候，检测性能得到了提升。

Description

一种基于分布距离的小目标检测方法

技术领域

本发明属于图像处理技术领域，特别是涉及一种基于分布距离的小目标检测方法。

背景技术

目标检测是计算机视觉领域的一个重要研究方向，指的是对视觉传感器获取的图像中的目标进行分类和定位。随着深度学习和卷积神经网络的发展，目标检测的性能获得了前所未有的进步。小目标检测或者称之为小尺度目标检测，即小于32*32像素的目标的检测，是目标检测的一个分支，相关算法在遥感，辅助驾驶，灾难救援中有着广泛的应用。

然而，目前小目标检测仍然极具挑战，由于小目标像素少，特征少，易与背景混淆的特性，主流的目标检测算法在小目标检测任务上的性能依然远低于预期水平。小目标检测算法的局限性主要集中在以下方面：目标检测中最常用的度量预测框和标注框之间位置关系的指标，交并比(IoU),对于小目标在图像上的定位误差过于敏感的问题，即预测框微小的像素偏移将会导致IoU的急剧变化；对于基于锚框的两阶段目标检测算法，其一般使用候选区域生成网络(Region Proposal Network,RPN)生成目标的候选区域。在对RPN进行训练时，需要使用正负样本分配模块从预设的一系列具有不同尺寸和长宽比的锚框中挑选出正样本锚框和负样本锚框。具体来说，锚框的类别根据其与标注框之间IoU来决定，当IoU值大于给定正样本阈值时，该锚框是正样本，而当IoU值小于给定负样本阈值时，该锚框是负样本。然而，IoU对小目标的敏感性导致在正负样本分配过程中，很多正样本锚框都被错误的归类为负样本，也就是正负样本的质量不高，进而使得检测器的检测性能较低；对于损失函数，常用的L1 Loss，Smooth L1 Loss，IoU Loss等存在对小目标敏感以及小目标的损失占主导地位的问题；对于非极大值抑制(NMS)操作，IoU对小目标的敏感性导致NMS模块将某些正确的预测框视为冗余矩形框。

国内外提高小目标检测性能的方法主要分为以下几类：基于尺度特征的检测、基于上下文信息的检测、设计更好的训练策略等。其中主流的多尺度特征学习方法包括图像金字塔和特征金字塔。对于图像金字塔，其对输入图像进行缩放，构建一系列不同尺度的图像，并用于训练多个目标检测器。对于特征金字塔，其将卷积神经网络提取的深层特征和浅层特征进行融合，使得浅层特征在具有丰富定位信息的同时具有丰富的语义特征，可以在不带来太多额外开销的情况下显著提高小物体检测精度。基于上下文信息的检测方法主要有Hu等人提出的能够学习目标关系的检测网络，其利用目标的外观特征和几何特征建立能够反映目标间关联模式的关系网络，在一定程度上提高了小目标的检测性能。设计更好训练的策略的方法包括降低分配正负样本时的IoU门限、根据目标的统计特征自动划定IoU门限进而自动选择正样本和负样本的方法等。虽然这些方法一定程度上提高了小目标检测的性能，但是这些方法几乎全部使用IoU作为正负样本分配模块和非极大值抑制模块的度量指标，并没有从本质上解决小目标对IoU非常敏感导致检测器性能下降的问题。

发明内容

本发明的目的在于提供一种基于分布距离的小目标检测方法，该方法解决了IoU度量指标对小目标过于敏感的问题，提高了小目标检测算法的性能。

本发明提供体一种基于分布距离的小目标检测方法，其特征在于，包括以下具体步骤：

步骤1：构建小目标检测图像数据集；

步骤2：人工标注步骤1中所述小目标检测数据集中每幅图像的目标标记框以及目标类别；

步骤3：构建基于分布距离的小目标检测网络，将步骤2中所述小目标检测数据集作为输入数据，结合小目标检测训练集中的目标类型，构建基于分布距离的小目标检测网络损失函数，通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络；

作为优选，步骤1所述小目标检测图像数据集为：

{train_s(p，q)，s∈[1，S]，p∈[1，P]，q∈[1，Q]}

其中train_s(p，q)表示小目标图像数据集中第s幅图像第p行q列的像素信息，S表示小目标检测数据集中所有图像样本的数量，P为小目标检测数据集中每张图像的像素行数，Q为小目标检测数据集中每张图像的像素列数；

作为优选，步骤2中所述小目标检测数据集中每幅图像的目标标记框坐标为：

其中，S表示小目标检测数据集中所有图片的数量，K_s表示小目标检测图像数据集中第s幅图像中小目标标记框的总数；box_s，k表示小目标检测数据集中第s幅图像中第k个车厢故障标记框的坐标，

表示小目标检测数据集中第s幅中第k个目标标记框左上角的坐标，

表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的横坐标，

表示小目标检测数据集中第s幅图像中第k个目标标记框左上角的纵坐标；

表示小目标检测数据集中第s幅图像中第k个目标标记框的尺寸，w_s，k表示小目标检测数据集中第s幅图像中第k个目标标记框的宽度，h_s，k表示小目标检测数据集中第s幅图像中第k个目标标记框的高度；

步骤2所述小目标检测数据集中每幅图像的目标标记框类别信息为：

label_s，k，c，s∈[1，S]，k∈[1，K]，c∈[1，C]

其中，C为小目标检测数据集中目标类型的总数；label_s，k，c表示小目标检测数据集中第s幅图像的第k个目标标记框属于第c种目标类型；

步骤2所述小目标检测的训练集为：

{train_s(p，q)，(box_s，k，label_s，k，c)}

s∈[1，S]，p∈[1，P]，q∈[1，Q]，k∈[1，K_s]，c∈]1，Ｃ］

其中，train_s(p，q)表示基于分布距离的小目标检测网络训练集中第s幅图像第p行第q列的像素信息，box_s，k表示基于分布距离的小目标检测网络训练集中第s幅图像中第k个目标标记框的位置坐标，label_s，k，c表示基于分布距离的小目标检测网络训练集中第s幅图像第k个目标标记框属于第c种目标类型；S表示基于分布距离的小目标检测网络训练集中所有图像样本的数量，P为基于分布距离的小目标检测网络训练集中每幅图像的像素行数，N为基于分布距离的小目标检测网络训练集中每幅图像的像素列数，K_s表示基于分布距离的小目标检测网络训练集中第s幅图像中目标标记框的总数，C为基于分布距离的小目标检测网络训练集中的目标类型总数；

作为优选，步骤3中所述基于分布距离的小目标检测网络具体包括：具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络。

所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络之间均为串行级联。

所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络，网络输入为所述步骤2中的小目标检测训练集的单张图片train_s(p，q)，输出数据为{F₁(P₁×Q₁×C₁)，F₂(P₂×Q₂×C₂)，...，F_L(P_L×Q_L×C_L)}共L种不同尺度的特征图，其中P_i，Q_i，C_i分别是第i层特征图的宽度，高度和通道数。

所述基于分布距离的候选区域生成网络的搭建步骤如下：该网络的输入为{F₁(P₁×Q₁×C₁)，F₂(P₂×Q₂×C₂)，...，F_L(P_L×Q_L×C_L)}共L种不同尺度的特征图。首先在特征金字塔第一层F₁上以各像素点为中心密集的铺设具有3种长宽比(a，b，c)且面积均为S₁的基础锚框，锚框集合记为A₁，接着在其他各层F_i上铺设锚框A_i，各层上的锚框边长与基础锚框边长的比值与特征图采样倍率

一致。为了训练候选区域生成网络中的分类和回归分支，需要将生成的锚框分为正样本和负样本送入后续网络参与训练。当锚框符合以下两种情况其中之一时，将正样本标签分配给此锚框：

该锚框与某标注框的归一化高斯Wasserstein距离的值是所有锚框中最大的；

该锚框与某标注框的归一化高斯Wasserstein距离值大于人为设定的正样本阈值α_p；

如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值α_n，则将负样本标签分配给该锚框。如果一个锚框既没有分配到正样本标签也没有分配到负样本标签，则该锚框不参与训练。为了更加清晰的说明基于分布距离的正负样本分配算法，其伪代码如图2所示。首先输入标注框集合G，特征金子塔层级L,第i层特征图中的锚框集合A_i，所有锚框集合A，正样本阈值α_p，负样本阈值α_n。接着，将存放正样本和负样本的集合P、N初始化为空集。然后，对于输入图片中的每一个标注框g，在L层特征金字塔上的每一层，计算标注框g与锚框A_i之间的NWD并将该值存入集合D_g，计算D_g中最大值所对应的锚框索引m，将{A_im}加入正样本集合P。并且，对于锚框集合A_i中的锚框a，判断a和标注框g之间的NWD值是否大于正样本阈值α_p，如果大于α_p则将a加入正样本集合P；判断a和标注框g之间的NWD是否小于负样本阈值α_n，如果小于α_n则将a加入负样本集合N。在遍历所有特征金字塔层级，遍历所有标注框后，输出正样本集合P和负样本集合N。

在使用正负样本对网络进行训练后，网络可以预测出图像中大量目标的候选区域矩形框集合B，对应的矩形框的得分集合S，然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框。具体的，针对网络输出的某一类别c的矩形框集合

对应的矩形框的得分集合

选择预测得分最大的矩形框

并原始得分，然后计算

和其它矩形框

的归一化高斯Wasserstein距离值，如果该值大于0.5，说明矩形框

与

的相似度过高，

的得分设为0，如果该值不大于0.5，则保留原始得分；这样一轮后，再选择剩下矩形框的中得分最大的那个框并保留，然后计算该框和其它矩形框的归一化高斯Wasserstein距离，重复以上过程直到遍历完B中的每一个矩形框，输出经非极大值抑制后保留的矩形框集合B，以及矩形框的分数集合S；

所述Fast R-CNN网络，将候选区域生成网络生成的矩形框集合B进行RoI池化操作，提取矩形框对应区域的特征，紧接着使用该特征对矩形框进行分类和回归，对网络权重进行优化；

具体的，所述步骤3中归一化高斯Wasserstein距离值的计算公式为：

其中，NWD表示归一化高斯Wasserstein距离，C为一个归一化常量，用于消除距离的量纲，可以设置为数据集的平均绝对尺度，W₂(N_a，N_b)²表示二元高斯分布N_a和N_b之间的2阶Wasserstein距离，二元高斯分布N_s，k使用矩形框

的参数进行建模，其中二元高斯分布的期望为R的中心点坐标(cx_s，k，cy_s，k)，中心点坐标的计算公式为：

其中，

为矩形边框的左上角点的横坐标和纵坐标，w_s，k，h_s，k分别指该边界框的宽度和高度。

协方差为矩形框的宽度和高度的一半即(w_s，k/2，h_s，k/2)，由此可得W₂(N_a，N_b)²的计算公式为：

其中，(cx_a，cy_a，w_a，h_a)和(cx_b，cy_b，w_b，cy_b)分别表示矩形框A和B的位置参数。

具体的，所述步骤3中基于分布距离的候选区域生成网络，其分类损失函数为交叉熵损失函数：

其中，y是目标的类别，p是相应类别的置信度。基于分布距离的候选区域生成网络的回归损失函数为归一化高斯Wasserstein距离损失函数，其计算公式为：

其中，W₂(N_i，N_s，k)²表示二元高斯分布N_i和N_s，k之间的2阶Wasserstein距离,其计算公式为：

其中，a_i＝(cx_i，cy_i，w_i，h_i)和box_s，k＝(cx_s，k，cy_s，k，w_s，k，h_s，k)分别表示锚框和标注框的位置。

所述基于分布距离的候选区域生成网络损失函数为分类与回归损失函数之和：

具体的，所述步骤3中Fast R-CNN网络损失函数保留原网络损失函数。

步骤4：将待识别的图像输入优化后的基于分布距离的小目标检测网络中，经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、FastR-CNN网络，再经非极大值抑制操作后得到最终识别结果：

{pbox_m，n，pclass_m，n，c}，m∈[1，M]，n∈[1，N_m]，c∈[1，C]

其中，l表示待识别图像上的左，t表示待识别图像上的上，r表示待识别图像上的右，b表示待识别图像上的下，M表示待识别的图片数量，N_m表示待识别的第m张图片中的预测框数量，C表示目标类别数量；pbox_m，n表示第m个待识别图像中第n个预测框的坐标，

表示第m个待识别图像中第n个预测框预测框左上角的横坐标，

表示第m个待识别图像中第n个预测框预测框左上角的纵坐标；pw_m，n表示第m个待识别图像中第n个预测框预测框的宽度，ph_m，n表示第m个待识别图像中第n个预测框的高度，pclass_m，n，c表示第m个待识别图像中第n个预测框属于类别c的置信度pclass_m，n，c∈[0，1]。

本发明提供一种基于分布距离的小目标检测方法，在目标较小的时候，检测性能得到了提升。

附图说明

图1：为本方法的网络结构图；

图2：为基于分布距离的正负样本分配算法的伪代码图；

图3：为基于分布距离的非极大值抑制算法的伪代码图；

图4：为本方法与其他目标检测算法的检测对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

交并比(IoU)因其简便的表达形式与归一化的值域，被广泛的应用在各种目标检测算法中以度量预测框和标注框之间的位置关系。但是当目标较小(小于32*32像素)时，IoU存在敏感的问题，预测框微小的像素偏移会导致IoU的急剧变化，进而恶化目标检测网络各个部分的性能。因此，本发明提出使用归一化高斯Wasserstein距离(NWD)度量预测框和标注框之间的位置关系，该测度具有尺度不变性，并设计了基于分布距离的候选区域生成网络，提高正负样本的分配质量；设计了基于分布距离的非极大值抑制方法，提高了小目标非极大值抑制的质量；设计了基于分布距离的损失函数，引导网络更好的回归，共同提高了小目标检测的准确率。所以，本发明提出一种基于分布距离的小目标检测方法。

下面结合附图对本发明作详细说明。

实施例一

该方法具体包括以下步骤：

步骤1：构建小目标检测图像数据集，该数据集为：

{train_s(p，q)，s∈[1，S]，p∈[1，P]，q∈[1，Q]}

步骤2中所述小目标检测数据集中每幅图像的目标标记框坐标为：

label_s，k，c，s∈[1，S]，k∈[1，K]，c∈[1，C]

步骤2所述小目标检测的训练集为：

{train_s(p，q)，(box_s，k，label_s，k，c)}

s∈[1，S]，p∈[1，P]，q∈[1，Q]，k∈[1，K_s]，c∈[1，C]

步骤3：基于MMDetection目标检测代码框架搭建小目标检测网络模型，将步骤2中所述小目标检测数据集作为输入数据，结合小目标检测训练集中的目标类型，构建基于分布距离的小目标检测网络损失函数，通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络；；

步骤4：在NVIDIA RTX 3090 GPU上，使用训练集对基于分布距离的小目标检测网络模型进行训练，具体的，模型使用随机梯度优化器(SGD)，训练12个epoch，权重衰减为0.0001，批大小为4，初始学习率设置为0.005并在第8个和第11个epoch衰减；

具体的，如图1所示，为本发明的算法网络结构图，所述步骤3中，基于分布距离的小目标检测网络模型搭建的步骤为：

具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络。

对应的矩形框的得分集合

选择预测得分最大的矩形框

并原始得分，然后计算

和其它矩形框

与

的相似度过高，

其中，

步骤5：将待识别的图像输入优化后的基于分布距离的小目标检测网络中，经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络，再经非极大值抑制操作后得到最终识别结果：

{pbox_m，n，pclass_m，n，c}，m∈[1，M]，n∈[1，N_m]，c∈[1，C]

最终得到的模型性能如下表所示，对比试验以平均准确率AP(AveragePrecision)，AP₅₀，AP_vt，AP_t，AP_s作为评价标准，其中AP₅₀是指测试时IoU阈值设为0.5时计算得的AP，AP_vt指目标大于等于2×2像素并小于8×8像素时的平均准确率，AP_t指目标大于等于8×8像素并小于16×16像素时的平均准确率，AP_s指目标大于等于16×16像素并小于32×32像素时的平均准确率。

表1模型性能对比结果

由上表可以看出，在基准算法Faster R-CNN的RPN网络中应用NWD进行正负样本分配时，AP指标提升了5.3％，在此基础上，将NWD应用于非极大值抑制模块后，AP指标提升了0.1％，当进一步将NWD应用于损失函数后，AP指标进一步提升了0.3％。总体来说，将NWD应用于RPN的各个模块后，AP指标绝对提升了5.7％，相对提升了51.8％，显著提升了小目标检测精度。

为了直观的区分不同算法对小目标的检测效果，抽取部分算法同张图片的检测效果进行对比分析，如图4所示，左图为基准算法的检测效果，右图为本发明的检测效果，可以看出，本发明的检测效果优于基准算法的检测效果。

应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或同等替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围内。

Claims

1.一种基于分布距离的小目标检测方法，其特征在于，包括以下步骤：

步骤1：构建小目标检测图像数据集；

步骤4：将待识别的图像输入优化后的基于分布距离的小目标检测网络中，输出检测结果。

2.根据权利要求1所述的基于分布距离的小目标检测方法，其特征在于，

步骤1所述小目标检测图像数据集为：

{train_s(p，q)，s∈[1，S]，p∈[1，P]，q∈[1，Q]}

其中train_s(p，q)表示小目标图像数据集中第s幅图像第p行q列的像素信息，S表示小目标检测数据集中所有图像样本的数量，P为小目标检测数据集中每张图像的像素行数，Q为小目标检测数据集中每张图像的像素列数。

3.根据权利要求1所述的基于分布距离的小目标检测方法，其特征在于，

label_s，k，c，s∈[1，S]，k∈[1，K]，c∈[1，C]

步骤2所述小目标检测的训练集为：

{train_s(p，q)，(box_s，k，label_s，k，c)}

s∈[1，S]，p∈[1，P]，q∈[1，Q]，k∈[1，K_s]，c∈[1，C]

其中，train_s(p，q)表示基于分布距离的小目标检测网络训练集中第s幅图像第p行第q列的像素信息，box_s，k表示基于分布距离的小目标检测网络训练集中第s幅图像中第k个目标标记框的位置坐标，label_s，k，c表示基于分布距离的小目标检测网络训练集中第s幅图像第k个目标标记框属于第c种目标类型；S表示基于分布距离的小目标检测网络训练集中所有图像样本的数量，P为基于分布距离的小目标检测网络训练集中每幅图像的像素行数，N为基于分布距离的小目标检测网络训练集中每幅图像的像素列数，K_s表示基于分布距离的小目标检测网络训练集中第s幅图像中目标标记框的总数，C为基于分布距离的小目标检测网络训练集中的目标类型总数。

4.根据权利要求1所述的基于分布距离的小目标检测方法，其特征在于，

步骤3中所述基于分布距离的小目标检测网络具体包括：具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络；

所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络之间均为串行级联；

所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络，网络输入为所述步骤2中的小目标检测训练集的单张图片train_s(p，q)，输出数据为{F₁(P₁×Q₁×C₁)，F₂(P₂×Q₂×C₂)，...，F_L(P_L×Q_L×C_L)}共L种不同尺度的特征图，其中P_i，Q_i，C_i分别是第i层特征图的宽度，高度和通道数；

所述基于分布距离的候选区域生成网络的搭建步骤如下：该网络的输入为{F₁(P₁×Q₁×C₁)，F₂(P₂×Q₂×C₂)，...，F_L(P_L×Q_L×C_L)}共L种不同尺度的特征图；

首先在特征金字塔第一层F₁上以各像素点为中心密集的铺设具有3种长宽比(a，b，c)且面积均为S₁的基础锚框，锚框集合记为A₁，接着在其他各层F_i上铺设锚框A_i，各层上的锚框边长与基础锚框边长的比值与特征图采样倍率

一致；

为了训练候选区域生成网络中的分类和回归分支，需要将生成的锚框分为正样本和负样本送入后续网络参与训练；当锚框符合以下两种情况其中之一时，将正样本标签分配给此锚框：

如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值α_n，则将负样本标签分配给该锚框；如果一个锚框既没有分配到正样本标签也没有分配到负样本标签，则该锚框不参与训练；为了更加清晰的说明基于分布距离的正负样本分配算法，其伪代码如图2所示；首先输入标注框集合G，特征金子塔层级L,第i层特征图中的锚框集合A_i，所有锚框集合A，正样本阈值α_p，负样本阈值α_n；接着，将存放正样本和负样本的集合P、N初始化为空集；然后，对于输入图片中的每一个标注框g，在L层特征金字塔上的每一层，计算标注框g与锚框A_i之间的NWD并将该值存入集合D_g，计算D_g中最大值所对应的锚框索引m，将{A_im}加入正样本集合P；并且，对于锚框集合A_i中的锚框a，判断a和标注框g之间的NWD值是否大于正样本阈值α_p，如果大于α_p则将a加入正样本集合P；判断a和标注框g之间的NWD是否小于负样本阈值α_n，如果小于α_n则将a加入负样本集合N；在遍历所有特征金字塔层级，遍历所有标注框后，输出正样本集合P和负样本集合N；

在使用正负样本对网络进行训练后，网络可以预测出图像中大量目标的候选区域矩形框集合B，对应的矩形框的得分集合S，然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框；具体的，针对网络输出的某一类别c的矩形框集合