CN116758409A

CN116758409A - 一种基于单锚框采样的遥感图像目标检测方法

Info

Publication number: CN116758409A
Application number: CN202210210124.7A
Authority: CN
Inventors: 熊书琪; 吴晓红; 卿粼波; 曾王明; 崔珂璠; 李自强; 王正勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-15

Abstract

本发明公开了一种基于单锚框采样的遥感图像目标检测方法，涉及计算机视觉和人工智能领域。方法包括：(1)首先，特征图被分割为N×N的网格，并计算每个网格的坐标。然后，一个网格的单位长度为半径生成一个采样框，当某个网格的格点落入采样框中，则该格点是负责预测当前标签的正样本，在每个正样本铺设一种比例的锚框；(2)进一步地计算每个类别的实例标签坐标距离对应采样框四个边界的距离，再将得到的距离用过误差转化公式得到一个惩罚值；(3)进一步地在骨干网络中引入视觉变压器，来加强特征的表达能力，提高网络的整体检测精度。本发明能够有效地提高在遥感图像中的检测精度，在目标检测等领域具有开阔的应用前景。

Description

一种基于单锚框采样的遥感图像目标检测方法

技术领域

本发明涉及一种基于单锚框采样的遥感图像目标检测方法，属于计算机视觉领域。

背景技术

目标检测是计算机视觉任务的基石，在自然场景中取得了较好的检测性能。目标检测主要针对分类和回归两个任务，目的是为了知道检测的目标是什么，以及该目标处于图片的相对位置。自然场景中的目标检测主要是基于MS COCO，PASVAL VOC数据集进行研究，其涵盖了生活中常见的80中类别，属于基于水平框的检测算法。但近年来随着目标检测的发展，基于遥感图像的目标检测成为了研究热点，遥感图像因其成像特点，具有高分辨率，覆盖范围广，目标清晰等特点，适合进行数据监测。在军事、国防等安全领域有着重要的价值。

目前，遥感目标检测主要分为一阶段检测方法和二阶段检测方法。具体地，一阶段检测方法通常会在图像上预设大量的锚点，然后通过聚类的方法来进行预设不同比例的先验锚框，并对每个锚框的坐标和类别进行多次细化，最后将筛选的锚框作为检测结果；二阶段方法在对锚框的细化程度上高于一阶段方法，因此后者的检测精度一般会比前者更加精确，但计算效率上后者会更低。在真实遥感场景中，其目标的分布和一般的自然场景有所不同。遥感图像中涵盖的类别多且类别间的实例数量不一致，并且物体的排列时而稀疏，时而密集，目标方向多变，这给检测任务带来了巨大的挑战性。通常的水平检测器需要预设多种不同比例的锚框在每个正样本上，而不同场景则需要重新去计算锚框的大小，泛化性不强且复杂度较高，同时如果获取正样本采样策略设计不当，会出现个别类别检测精度很低。因此自然场景下的目标检测算法难以在遥感图像中取得较好的效果。

发明内容

为了解决现有技术的不足，一种基于单锚框采样的遥感图像目标检测方法，目的在于提出一种新的采样策略以及惩罚机制来缓解遥感图像中因类别间实例差异过大导致的样本不平衡性问题并降低模型的复杂度，并减少密集排列场景中出现的检测框重叠二义性，即同一个正样本可能会匹配到多个不同的实例。

本发明采用以下技术方案：一种基于单锚框采样的遥感图像目标检测方法，该方法包括以下步骤：

(1)首先，特征图被分割为N×N的网格，并计算每个网格的坐标(g_x,g_y)。然后，以r＝1(一个网格的单位长度)为半径生成一个采样框，当某个网格的格点(g_x,g_y)落入采样框中，则该格点是负责预测当前标签的正样本，最后在每个正样本上铺设一种比例的锚框；

(2)在(1)所述采样策略的基础上，进一步地计算每个类别的实例标签坐标(c_x,c_y)距离对应采样框四个边界的距离，再将得到的距离用过误差转化公式得到一个惩罚值；

(3)在(1)(2)所述的基础上，进一步地在骨干网络中引入视觉变压器，来加强特征的表达能力，提高网络的整体检测精度；

与现有技术相比，本发明的有益效果在：

1、本发明设计了一种使用单个锚框的采样策略，这种采样方式能够让每个正样本的数量是稳定的，且能够保证每个实例有与之对应的正样本，增加了检测器的鲁棒性。同时，该采样方法仅需要铺设单个锚框，相比于传统目标检测算法需要铺设三种比例锚框的方法更具有灵活性，参数量更少；

2、本发明设计了一种在单锚框采样基础上的惩罚策略，这种策略会根据采样时正样本坐标距离真实标签坐标的远近来惩罚不同的正样本，目的是为了让靠近真实标签的正样本损失值大，远离的正样本损失小。进一步地加强正样本辨认真实标签位置的能力，减少预测时检测框二义性的现象。这种方法不引入额外的超参数，训练时间成本低，效果明显。

3、本发明引入了视觉变压器机制，将整个网络的特征提取能力加强，这种注意力机制形式的变压器能够较好地丰富目标的特征，并不引入额外的复杂度。

附图说明

图1为本发明单锚框采样原理图；

图2为本发明惩罚机制原理图；

图3位本发明视觉变压器整体网络框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于单锚框采样策略的遥感图像目标检测方法，包括以下部分：

(3)在骨干网络中引入视觉变压器模块，并接受金字塔网络结构的输出作为该模块的输入，然后进行特征图并送入网络的预测头中。

详细阐述如下：

1.关于整个单锚框采样原理及回归函数定义，具体说明如下：

首先，特征图被分割为N×N的网格，并计算每个网格的坐标(g_x,g_y)。然后，以r＝1(一个网格的单位长度)为半径生成一个采样框，当某个网格的格点(g_x,g_y)落入采样框中，则该格点是负责预测当前标签的正样本，最后在每个正样本上铺设一种比例的锚框，在进行采样阶段时，当前标签的周围网格的格点所生成的锚框，能够最大程度上与当前标签进行匹配并得到高质量的正样本，并且正样本的数量是稳定的，不需要额外设置和采样相关的超参数。

当位置(g_x,g_y)在网格范围中，该位置被视为一个正样本，并且该位置的类别标签obj＝1(即前景类)，否则，它是一个负样本且obj＝0(即背景类)。除了前景背景的区分，该正样本还对应一个五维向量t＝(t_x,t_y,t_w,t_h,t_θ)作为训练的回归参数，综上所述，当位置(g_x,g_y)为正样本的格点中心时，回归时的坐标函数定义为公式1：

其中，σ表示sigmoid()函数，值域为[0,1]；(t_x,t_y,t_w,t_h,t_θ)为网络预测的五个坐标偏移量；(g_x,g_y)为当前网格格点坐标；(p_w,p_h)为标签的宽和高；最后通过预测的偏移量来计算实际中心点的坐标和宽高(b_x,b_y,b_w,b_h)。

2.关于惩罚机制的原理，具体说明如下：

如图2所示，以上述中描述的单锚框采样方法为基础，其采样半径radius设置为1。首先以真实标签的坐标(x,y)为中心、radius为半径构成一个采样矩形框，并计算当前矩形框的左上角坐标(target_l,target_t)和右下角坐标(target_r,target_b)。然后计算出正样本对应的网格坐标(pos_grid_x,pos_grid_y)距离采样矩形框边界的上，下，左，右四个距离，即(top^*，bottom^*，left^*，right^*)。最后在通过以上参数计算最后的惩罚值，

计算真实标签gt生成的矩形框坐标被描述为公式2：

正样本网格坐标到gt矩形框边界的四个距离被描述为公式3：

最终，正样本与真实标签值间的惩罚值计算形式被描述为公式4：

其中Relu表示激活函数，从而保证整个结果为正值，若结果为负值且不经过激活函数则反向传播时会出现梯度爆炸的现象。惩罚值的取值范围属于[0,1]之间，最后对整个结果去根号是为了衰减下降的速度。

由于在采样阶段同一个正样本很有可能会匹配到多个标签实例，这种现象在密集排列的物体中尤为明显。因此当每个真实标签实例的正样本越靠近对应标签时，其损失贡献度越大，反之越小。以这种不需要引入额外的复杂度和超参数，并且能够适应不同场景的目标检测任务，在缓解重叠二义性现象时，提高了整个网络的鲁棒性。

3.关于视觉变压器模块，具体说明如下：

视觉变压器将将二维图像对象重构为一系列的二维图像补丁其中(H,W)是原始图像的分辨率，C表示图像的通道数，P表示每个图像补丁的分辨率，最后N＝HW/P²表示整个图像的有效序列长度，该序列长度可以作为其他变压器的输入进行叠加处理。例如一张分辨率为300×300的图像，将其分割为一系列的100×100的图像补丁序列，那么最终的有效序列长度N＝300×300/100²＝9，视觉变压器的计算方式描述为公式5：

其中MSA表示多头注意力机制。MLP表示多层感知机，由Layer Normalization，全连接层和激活层组成。LN表示层次正则化Layer Normalization，分别对通道，空间做归一化处理。

进一步地，多头注意力机制计算描述为公式6：

其中投影参数分别表示和h表示需要并行的注意力头部数量。d_k＝d_v＝d_model/h。

注意力Attention的计算表达式被描述为公式7：

其中(Q,K,V)分别表示查询值(Query)，键(Key)和值(Value)的向量。softmax为归一化函数。d_k为超参数因子。矩阵运算通常分为点积运算和加法运算，加性注意力机制使用具有单个隐藏层的前馈网络计算兼容性函数，变压器表明了点积注意力在理论上复杂度与加性注意力相似，但实践中点积注意力的空间效率更高，并且复杂度更低。

为了验证本发明方法的有效性，本发明使用具有挑战性的遥感图像数据集DOTA-v1.5版本进行训练和测试。选取深度学习中主流的遥感图像目标检测算法对比方法，具体结果为：

方法1：CHEN等人提出的方法，参考文献“CHEN K,PANG J,WANG J,et al.Hybridtask cascade for instance segmentation；proceedings of the Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,F,2019[C].”

方法2：DING等人提出的方法，参考文献“DING J,XUE N,LONG Y,et al.Learningroi transformer for oriented object detection in aerial images；proceedings ofthe Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,F,2019[C].”

方法3：YANG等人提出的方法，参考文献“YANG X,YAN J,MING Q,etal.Rethinking rotated object detection with gaussian wasserstein distanceloss；proceedings of the International Conference on Machine Learning,F,2021[C].PMLR.”

方法4：YANG等人提出的方法，参考文献“YANG X,YANG X,YANG J,et al.Learninghigh-precision bounding box for rotated object detection via kullback-leiblerdivergence[J].Advances in Neural Information Processing Systems,2021,34.”

方法5：He等人提出的方法，参考文献“He K,Gkioxari G,Dollár P,et al.Maskr-cnn[C]//Proceedings of the IEEE international conference on computervision.2017:2961-2969.”

如表1所示，本发明提出的方法以mAP₅₀作为评价指标在DOTA-v1.5数据集中，与主流SOTA算法比较来看，本方法的检测精度有较大的优势。

表1与主流算法在DOTA-v1.5的测试结果(％)

最后应说明的是:以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施技术方案的范围。

Claims

1.一种基于单锚框采样的遥感图像目标检测方法，其特征在于，包括以下步骤：

(1)首先，特征图被分割为N×N的网格，并计算每个网格的坐标(g_x,g_y)，然后，以r＝1(一个网格的单位长度)为半径生成一个采样框，当某个网格的格点(g_x,g_y)落入采样框中，则该格点是负责预测当前标签的正样本，最后在每个正样本上铺设一种比例的锚框；

(3)在(1)(2)所述的基础上，进一步地在骨干网络中引入视觉变压器，来加强特征的表达能力，提高网络的整体检测精度。

2.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法，其特征在于，所述步骤(1)中具体原理如下：

首先，一副输入图像经过卷积层后得到特征图，并将特征图被分割为N×N的网格，并计算每个网格的坐标(g_x,g_y)，然后，以r＝1(一个网格的单位长度)为半径生成一个采样框，当某个网格的格点(g_x,g_y)落入采样框中，则该格点是负责预测当前标签的正样本，最后在每个正样本上铺设一种比例的锚框，在进行采样阶段时，当前标签的周围网格的格点所生成的锚框，能够最大程度上与当前标签进行匹配并得到高质量的正样本，并且正样本的数量是稳定的，不需要额外设置和采样相关的超参数；

若某个正样本位置(g_x,g_y)在网格范围中，该位置被视为一个正样本，并且该位置的类别标签obj＝1(即前景类)，否则，它是一个负样本且obj＝0(即背景类)；除了前景背景的区分，该正样本还对应一个五维向量t＝(t_x,t_y,t_w,t_h,t_θ)作为训练的回归参数，综上所述，回归时的坐标函数如公式1所示：

其中σ表示sigmoid函数；(t_x,t_y,t_w,t_h)分别表示网络预测的四个偏移量；(g_x,g_y)表示网格坐标；(p_w,p_h)分别表示真实标签的宽和高；(b_x,b_y,b_w,b_h)则表示网络最后预测的实际坐标。

3.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法，其特征在于，所述步骤(2)中在步骤(1)的基础上进一步增加了惩罚机制，该模块网络结构为：

首先以真实标签的坐标(x,y)为中心，radius为半径构成一个采样矩形框，并计算当前矩形框的左上角坐标(target_l,target_t)和右下角坐标(target_r,target_b)；然后计算出正样本对应的网格坐标(pos_grid_x,pos_grid_y)距离采样矩形框边界的上，下，左，右四个距离，即(top^*，bottom^*，left^*，right^*)；最后在通过以上参数计算最后的惩罚值，

计算真实标签gt生成的矩形框坐标如公式2所示：

正样本网格坐标到gt矩形框边界的四个距离计算方式如公式3所示：

最终，正样本与真实标签值间的惩罚值的计算方式如公式4所示：

其中Relu表示激活函数，从而保证整个结果为正值，若结果为负值且不经过激活函数则反向传播时会出现梯度爆炸的现象。

4.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法，其特征在于，所述步骤(3)中在原始网络中额外引入基于注意力机制的视觉变压器，将网络中下采样的最后一层作为视觉变压器的输入，经过视觉变压器的特征作为输出并送入网络的上采样，所述步骤(3)中的视觉变压器模块如下：

视觉变压器将将二维图像对象重构为一系列的二维图像补丁/>其中(H,W)是原始图像的分辨率，C表示图像的通道数，P表示每个图像补丁的分辨率，最后N＝HW/P²表示整个图像的有效序列长度，该序列长度可以作为其他变压器的输入进行叠加处理；例如一张分辨率为300×300的图像，将其分割为一系列的100×100的图像补丁序列，那么最终的有效序列长度N＝300×300/100²＝9，视觉变压器的计算方式如公式5所示：

其中MSA表示多头注意力机制；MLP表示多层感知机，由Layer Normalization，全连接层和激活层组成；LN表示层次正则化Layer Normalization，分别对通道，空间做归一化处理；

进一步地，多头注意力机制计算描述如公式6所示：

其中投影参数分别表示和h表示需要并行的注意力头部数量；d_k＝d_v＝d_model/h；

注意力Attention的计算如公式7所示：

其中(Q,K,V)分别表示查询值(Query)，键(Key)和值(Value)的向量；softmax为归一化函数；d_k为超参数因子；矩阵运算通常使用点积运算和加法性运算，加性注意力机制使用具有单个隐藏层的前馈网络计算兼容性函数，实践中点积注意力的空间效率更高，并且复杂度更低，因此视觉变压器使用点积运算来高低其复杂度。