CN116758409A - 一种基于单锚框采样的遥感图像目标检测方法 - Google Patents
一种基于单锚框采样的遥感图像目标检测方法 Download PDFInfo
- Publication number
- CN116758409A CN116758409A CN202210210124.7A CN202210210124A CN116758409A CN 116758409 A CN116758409 A CN 116758409A CN 202210210124 A CN202210210124 A CN 202210210124A CN 116758409 A CN116758409 A CN 116758409A
- Authority
- CN
- China
- Prior art keywords
- sampling
- grid
- coordinates
- frame
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 5
- 230000000996 additive effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004880 explosion Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单锚框采样的遥感图像目标检测方法,涉及计算机视觉和人工智能领域。方法包括:(1)首先,特征图被分割为N×N的网格,并计算每个网格的坐标。然后,一个网格的单位长度为半径生成一个采样框,当某个网格的格点落入采样框中,则该格点是负责预测当前标签的正样本,在每个正样本铺设一种比例的锚框;(2)进一步地计算每个类别的实例标签坐标距离对应采样框四个边界的距离,再将得到的距离用过误差转化公式得到一个惩罚值;(3)进一步地在骨干网络中引入视觉变压器,来加强特征的表达能力,提高网络的整体检测精度。本发明能够有效地提高在遥感图像中的检测精度,在目标检测等领域具有开阔的应用前景。
Description
技术领域
本发明涉及一种基于单锚框采样的遥感图像目标检测方法,属于计算机视觉领域。
背景技术
目标检测是计算机视觉任务的基石,在自然场景中取得了较好的检测性能。目标检测主要针对分类和回归两个任务,目的是为了知道检测的目标是什么,以及该目标处于图片的相对位置。自然场景中的目标检测主要是基于MS COCO,PASVAL VOC数据集进行研究,其涵盖了生活中常见的80中类别,属于基于水平框的检测算法。但近年来随着目标检测的发展,基于遥感图像的目标检测成为了研究热点,遥感图像因其成像特点,具有高分辨率,覆盖范围广,目标清晰等特点,适合进行数据监测。在军事、国防等安全领域有着重要的价值。
目前,遥感目标检测主要分为一阶段检测方法和二阶段检测方法。具体地,一阶段检测方法通常会在图像上预设大量的锚点,然后通过聚类的方法来进行预设不同比例的先验锚框,并对每个锚框的坐标和类别进行多次细化,最后将筛选的锚框作为检测结果;二阶段方法在对锚框的细化程度上高于一阶段方法,因此后者的检测精度一般会比前者更加精确,但计算效率上后者会更低。在真实遥感场景中,其目标的分布和一般的自然场景有所不同。遥感图像中涵盖的类别多且类别间的实例数量不一致,并且物体的排列时而稀疏,时而密集,目标方向多变,这给检测任务带来了巨大的挑战性。通常的水平检测器需要预设多种不同比例的锚框在每个正样本上,而不同场景则需要重新去计算锚框的大小,泛化性不强且复杂度较高,同时如果获取正样本采样策略设计不当,会出现个别类别检测精度很低。因此自然场景下的目标检测算法难以在遥感图像中取得较好的效果。
发明内容
为了解决现有技术的不足,一种基于单锚框采样的遥感图像目标检测方法,目的在于提出一种新的采样策略以及惩罚机制来缓解遥感图像中因类别间实例差异过大导致的样本不平衡性问题并降低模型的复杂度,并减少密集排列场景中出现的检测框重叠二义性,即同一个正样本可能会匹配到多个不同的实例。
本发明采用以下技术方案:一种基于单锚框采样的遥感图像目标检测方法,该方法包括以下步骤:
(1)首先,特征图被分割为N×N的网格,并计算每个网格的坐标(gx,gy)。然后,以r=1(一个网格的单位长度)为半径生成一个采样框,当某个网格的格点(gx,gy)落入采样框中,则该格点是负责预测当前标签的正样本,最后在每个正样本上铺设一种比例的锚框;
(2)在(1)所述采样策略的基础上,进一步地计算每个类别的实例标签坐标(cx,cy)距离对应采样框四个边界的距离,再将得到的距离用过误差转化公式得到一个惩罚值;
(3)在(1)(2)所述的基础上,进一步地在骨干网络中引入视觉变压器,来加强特征的表达能力,提高网络的整体检测精度;
与现有技术相比,本发明的有益效果在:
1、本发明设计了一种使用单个锚框的采样策略,这种采样方式能够让每个正样本的数量是稳定的,且能够保证每个实例有与之对应的正样本,增加了检测器的鲁棒性。同时,该采样方法仅需要铺设单个锚框,相比于传统目标检测算法需要铺设三种比例锚框的方法更具有灵活性,参数量更少;
2、本发明设计了一种在单锚框采样基础上的惩罚策略,这种策略会根据采样时正样本坐标距离真实标签坐标的远近来惩罚不同的正样本,目的是为了让靠近真实标签的正样本损失值大,远离的正样本损失小。进一步地加强正样本辨认真实标签位置的能力,减少预测时检测框二义性的现象。这种方法不引入额外的超参数,训练时间成本低,效果明显。
3、本发明引入了视觉变压器机制,将整个网络的特征提取能力加强,这种注意力机制形式的变压器能够较好地丰富目标的特征,并不引入额外的复杂度。
附图说明
图1为本发明单锚框采样原理图;
图2为本发明惩罚机制原理图;
图3位本发明视觉变压器整体网络框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。应当理解,此处所描述具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于单锚框采样策略的遥感图像目标检测方法,包括以下部分:
(1)首先,特征图被分割为N×N的网格,并计算每个网格的坐标(gx,gy)。然后,以r=1(一个网格的单位长度)为半径生成一个采样框,当某个网格的格点(gx,gy)落入采样框中,则该格点是负责预测当前标签的正样本,最后在每个正样本上铺设一种比例的锚框;
(2)在(1)所述采样策略的基础上,进一步地计算每个类别的实例标签坐标(cx,cy)距离对应采样框四个边界的距离,再将得到的距离用过误差转化公式得到一个惩罚值;
(3)在骨干网络中引入视觉变压器模块,并接受金字塔网络结构的输出作为该模块的输入,然后进行特征图并送入网络的预测头中。
详细阐述如下:
1.关于整个单锚框采样原理及回归函数定义,具体说明如下:
首先,特征图被分割为N×N的网格,并计算每个网格的坐标(gx,gy)。然后,以r=1(一个网格的单位长度)为半径生成一个采样框,当某个网格的格点(gx,gy)落入采样框中,则该格点是负责预测当前标签的正样本,最后在每个正样本上铺设一种比例的锚框,在进行采样阶段时,当前标签的周围网格的格点所生成的锚框,能够最大程度上与当前标签进行匹配并得到高质量的正样本,并且正样本的数量是稳定的,不需要额外设置和采样相关的超参数。
当位置(gx,gy)在网格范围中,该位置被视为一个正样本,并且该位置的类别标签obj=1(即前景类),否则,它是一个负样本且obj=0(即背景类)。除了前景背景的区分,该正样本还对应一个五维向量t=(tx,ty,tw,th,tθ)作为训练的回归参数,综上所述,当位置(gx,gy)为正样本的格点中心时,回归时的坐标函数定义为公式1:
其中,σ表示sigmoid()函数,值域为[0,1];(tx,ty,tw,th,tθ)为网络预测的五个坐标偏移量;(gx,gy)为当前网格格点坐标;(pw,ph)为标签的宽和高;最后通过预测的偏移量来计算实际中心点的坐标和宽高(bx,by,bw,bh)。
2.关于惩罚机制的原理,具体说明如下:
如图2所示,以上述中描述的单锚框采样方法为基础,其采样半径radius设置为1。首先以真实标签的坐标(x,y)为中心、radius为半径构成一个采样矩形框,并计算当前矩形框的左上角坐标(targetl,targett)和右下角坐标(targetr,targetb)。然后计算出正样本对应的网格坐标(pos_grid_x,pos_grid_y)距离采样矩形框边界的上,下,左,右四个距离,即(top*,bottom*,left*,right*)。最后在通过以上参数计算最后的惩罚值,
计算真实标签gt生成的矩形框坐标被描述为公式2:
正样本网格坐标到gt矩形框边界的四个距离被描述为公式3:
最终,正样本与真实标签值间的惩罚值计算形式被描述为公式4:
其中Relu表示激活函数,从而保证整个结果为正值,若结果为负值且不经过激活函数则反向传播时会出现梯度爆炸的现象。惩罚值的取值范围属于[0,1]之间,最后对整个结果去根号是为了衰减下降的速度。
由于在采样阶段同一个正样本很有可能会匹配到多个标签实例,这种现象在密集排列的物体中尤为明显。因此当每个真实标签实例的正样本越靠近对应标签时,其损失贡献度越大,反之越小。以这种不需要引入额外的复杂度和超参数,并且能够适应不同场景的目标检测任务,在缓解重叠二义性现象时,提高了整个网络的鲁棒性。
3.关于视觉变压器模块,具体说明如下:
视觉变压器将将二维图像对象重构为一系列的二维图像补丁其中(H,W)是原始图像的分辨率,C表示图像的通道数,P表示每个图像补丁的分辨率,最后N=HW/P2表示整个图像的有效序列长度,该序列长度可以作为其他变压器的输入进行叠加处理。例如一张分辨率为300×300的图像,将其分割为一系列的100×100的图像补丁序列,那么最终的有效序列长度N=300×300/1002=9,视觉变压器的计算方式描述为公式5:
其中MSA表示多头注意力机制。MLP表示多层感知机,由Layer Normalization,全连接层和激活层组成。LN表示层次正则化Layer Normalization,分别对通道,空间做归一化处理。
进一步地,多头注意力机制计算描述为公式6:
其中投影参数分别表示和h表示需要并行的注意力头部数量。dk=dv=dmodel/h。
注意力Attention的计算表达式被描述为公式7:
其中(Q,K,V)分别表示查询值(Query),键(Key)和值(Value)的向量。softmax为归一化函数。dk为超参数因子。矩阵运算通常分为点积运算和加法运算,加性注意力机制使用具有单个隐藏层的前馈网络计算兼容性函数,变压器表明了点积注意力在理论上复杂度与加性注意力相似,但实践中点积注意力的空间效率更高,并且复杂度更低。
为了验证本发明方法的有效性,本发明使用具有挑战性的遥感图像数据集DOTA-v1.5版本进行训练和测试。选取深度学习中主流的遥感图像目标检测算法对比方法,具体结果为:
方法1:CHEN等人提出的方法,参考文献“CHEN K,PANG J,WANG J,et al.Hybridtask cascade for instance segmentation;proceedings of the Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,F,2019[C].”
方法2:DING等人提出的方法,参考文献“DING J,XUE N,LONG Y,et al.Learningroi transformer for oriented object detection in aerial images;proceedings ofthe Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,F,2019[C].”
方法3:YANG等人提出的方法,参考文献“YANG X,YAN J,MING Q,etal.Rethinking rotated object detection with gaussian wasserstein distanceloss;proceedings of the International Conference on Machine Learning,F,2021[C].PMLR.”
方法4:YANG等人提出的方法,参考文献“YANG X,YANG X,YANG J,et al.Learninghigh-precision bounding box for rotated object detection via kullback-leiblerdivergence[J].Advances in Neural Information Processing Systems,2021,34.”
方法5:He等人提出的方法,参考文献“He K,Gkioxari G,Dollár P,et al.Maskr-cnn[C]//Proceedings of the IEEE international conference on computervision.2017:2961-2969.”
如表1所示,本发明提出的方法以mAP50作为评价指标在DOTA-v1.5数据集中,与主流SOTA算法比较来看,本方法的检测精度有较大的优势。
表1与主流算法在DOTA-v1.5的测试结果(%)
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施技术方案的范围。
Claims (4)
1.一种基于单锚框采样的遥感图像目标检测方法,其特征在于,包括以下步骤:
(1)首先,特征图被分割为N×N的网格,并计算每个网格的坐标(gx,gy),然后,以r=1(一个网格的单位长度)为半径生成一个采样框,当某个网格的格点(gx,gy)落入采样框中,则该格点是负责预测当前标签的正样本,最后在每个正样本上铺设一种比例的锚框;
(2)在(1)所述采样策略的基础上,进一步地计算每个类别的实例标签坐标(cx,cy)距离对应采样框四个边界的距离,再将得到的距离用过误差转化公式得到一个惩罚值;
(3)在(1)(2)所述的基础上,进一步地在骨干网络中引入视觉变压器,来加强特征的表达能力,提高网络的整体检测精度。
2.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法,其特征在于,所述步骤(1)中具体原理如下:
首先,一副输入图像经过卷积层后得到特征图,并将特征图被分割为N×N的网格,并计算每个网格的坐标(gx,gy),然后,以r=1(一个网格的单位长度)为半径生成一个采样框,当某个网格的格点(gx,gy)落入采样框中,则该格点是负责预测当前标签的正样本,最后在每个正样本上铺设一种比例的锚框,在进行采样阶段时,当前标签的周围网格的格点所生成的锚框,能够最大程度上与当前标签进行匹配并得到高质量的正样本,并且正样本的数量是稳定的,不需要额外设置和采样相关的超参数;
若某个正样本位置(gx,gy)在网格范围中,该位置被视为一个正样本,并且该位置的类别标签obj=1(即前景类),否则,它是一个负样本且obj=0(即背景类);除了前景背景的区分,该正样本还对应一个五维向量t=(tx,ty,tw,th,tθ)作为训练的回归参数,综上所述,回归时的坐标函数如公式1所示:
其中σ表示sigmoid函数;(tx,ty,tw,th)分别表示网络预测的四个偏移量;(gx,gy)表示网格坐标;(pw,ph)分别表示真实标签的宽和高;(bx,by,bw,bh)则表示网络最后预测的实际坐标。
3.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法,其特征在于,所述步骤(2)中在步骤(1)的基础上进一步增加了惩罚机制,该模块网络结构为:
首先以真实标签的坐标(x,y)为中心,radius为半径构成一个采样矩形框,并计算当前矩形框的左上角坐标(targetl,targett)和右下角坐标(targetr,targetb);然后计算出正样本对应的网格坐标(pos_grid_x,pos_grid_y)距离采样矩形框边界的上,下,左,右四个距离,即(top*,bottom*,left*,right*);最后在通过以上参数计算最后的惩罚值,
计算真实标签gt生成的矩形框坐标如公式2所示:
正样本网格坐标到gt矩形框边界的四个距离计算方式如公式3所示:
最终,正样本与真实标签值间的惩罚值的计算方式如公式4所示:
其中Relu表示激活函数,从而保证整个结果为正值,若结果为负值且不经过激活函数则反向传播时会出现梯度爆炸的现象。
4.根据权利要求1所述的一种基于单锚框采样的遥感图像目标检测方法,其特征在于,所述步骤(3)中在原始网络中额外引入基于注意力机制的视觉变压器,将网络中下采样的最后一层作为视觉变压器的输入,经过视觉变压器的特征作为输出并送入网络的上采样,所述步骤(3)中的视觉变压器模块如下:
视觉变压器将将二维图像对象重构为一系列的二维图像补丁/>其中(H,W)是原始图像的分辨率,C表示图像的通道数,P表示每个图像补丁的分辨率,最后N=HW/P2表示整个图像的有效序列长度,该序列长度可以作为其他变压器的输入进行叠加处理;例如一张分辨率为300×300的图像,将其分割为一系列的100×100的图像补丁序列,那么最终的有效序列长度N=300×300/1002=9,视觉变压器的计算方式如公式5所示:
其中MSA表示多头注意力机制;MLP表示多层感知机,由Layer Normalization,全连接层和激活层组成;LN表示层次正则化Layer Normalization,分别对通道,空间做归一化处理;
进一步地,多头注意力机制计算描述如公式6所示:
其中投影参数分别表示和h表示需要并行的注意力头部数量;dk=dv=dmodel/h;
注意力Attention的计算如公式7所示:
其中(Q,K,V)分别表示查询值(Query),键(Key)和值(Value)的向量;softmax为归一化函数;dk为超参数因子;矩阵运算通常使用点积运算和加法性运算,加性注意力机制使用具有单个隐藏层的前馈网络计算兼容性函数,实践中点积注意力的空间效率更高,并且复杂度更低,因此视觉变压器使用点积运算来高低其复杂度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210210124.7A CN116758409A (zh) | 2022-03-03 | 2022-03-03 | 一种基于单锚框采样的遥感图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210210124.7A CN116758409A (zh) | 2022-03-03 | 2022-03-03 | 一种基于单锚框采样的遥感图像目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758409A true CN116758409A (zh) | 2023-09-15 |
Family
ID=87959563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210210124.7A Pending CN116758409A (zh) | 2022-03-03 | 2022-03-03 | 一种基于单锚框采样的遥感图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758409A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
-
2022
- 2022-03-03 CN CN202210210124.7A patent/CN116758409A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351240A (zh) * | 2023-10-12 | 2024-01-05 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
CN117351240B (zh) * | 2023-10-12 | 2024-04-09 | 北京卓视智通科技有限责任公司 | 一种正样本采样方法、系统、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shi et al. | Orientation-aware vehicle detection in aerial images via an anchor-free object detection approach | |
CN107481279A (zh) | 一种单目视频深度图计算方法 | |
Cai et al. | MHA-Net: Multipath Hybrid Attention Network for building footprint extraction from high-resolution remote sensing imagery | |
Liu et al. | An improved YOLOv5 method for small object detection in UAV capture scenes | |
Lu et al. | A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection | |
Zhou et al. | TS4Net: Two-stage sample selective strategy for rotating object detection | |
Hu et al. | LCDNet: Light-weighted cloud detection network for high-resolution remote sensing images | |
Song et al. | A joint siamese attention-aware network for vehicle object tracking in satellite videos | |
CN115239882A (zh) | 一种基于弱光图像增强的农作物三维重建方法 | |
CN117115359B (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN116758409A (zh) | 一种基于单锚框采样的遥感图像目标检测方法 | |
Chen et al. | Coupled Global–Local object detection for large VHR aerial images | |
Ni et al. | Dual relation knowledge distillation for object detection | |
CN117456136A (zh) | 一种基于多模态视觉识别的数字孪生场景智能生成方法 | |
Ouyang et al. | Aerial target detection based on the improved YOLOv3 algorithm | |
CN104104911A (zh) | 全景图像生成过程中的时间戳消除和重置方法及系统 | |
Lei et al. | Automatic identification of street trees with improved RandLA-Net and accurate calculation of shading area with density-based iterative α-shape | |
Wang et al. | 3D object detection algorithm for panoramic images with multi-scale convolutional neural network | |
CN116152633A (zh) | 一种基于空间特征表示的目标检测网络的检测方法和系统 | |
Tan et al. | Automobile component recognition based on deep learning network with coarse-fine-grained feature fusion | |
Chen et al. | Alfpn: adaptive learning feature pyramid network for small object detection | |
Liu et al. | OAB-YOLOv5: One-Anchor-Based YOLOv5 for Rotated Object Detection in Remote Sensing Images | |
Huang et al. | Remote sensing data detection based on multiscale fusion and attention mechanism | |
Hou et al. | A novel UAV aerial vehicle detection method based on attention mechanism and multi-scale feature cross fusion | |
Zhang et al. | ROSD: refined oriented staged detector for object detection in aerial image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |