CN113326763A - 一种基于边界框一致性的遥感目标检测方法 - Google Patents
一种基于边界框一致性的遥感目标检测方法 Download PDFInfo
- Publication number
- CN113326763A CN113326763A CN202110582368.3A CN202110582368A CN113326763A CN 113326763 A CN113326763 A CN 113326763A CN 202110582368 A CN202110582368 A CN 202110582368A CN 113326763 A CN113326763 A CN 113326763A
- Authority
- CN
- China
- Prior art keywords
- box
- information
- prediction
- consistency
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000010586 diagram Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 31
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于边界框一致性的遥感目标检测方法,包括使用ResNet101 Conv1‑5网络模型作为base网络,基于ResNet101 Conv1‑5网络模型通过双线性插值法将深层样本向上采样到与浅层样本相同大小,并对图像进行细化,进而基于ResNet101 Conv1‑5网络模型输出热点图、偏移量、预测框信息、方向信息,最终通过热点图、偏移量信息、预测框信息、方向信息生成完成对遥感图像中的任意角度的旋转目标检测问题。本发明设计了一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合,能够更加紧密的包围对象提高了回归效果及检测速度。
Description
技术领域
本发明涉及遥感图像目标检测领域,具体涉及一种基于边界框一致性的遥感目标检测方法。
背景技术
目前遥感目标检测方法一般是由水平目标检测器扩展而来,而航空图像中目标检测的许多最新进展都得益于R-CNN框架,这些方法通过使用水平边界框作为感兴趣区域,然后依靠区域特征进行类别识别,例如,R2CNN使用区域建议网络(RPN)生成文本的水平边界框(HBB),并结合不同尺度的集合ROI特征来回归定向边界框(OBB)的参数。R2PN将边界框方向参数引入到RPN网络中,形成了旋转的RPN网络。RP-FasterR-CNN框架是在中针对小目标检测开发的。R2PN还利用旋转的ROI池来优化box参数。R-DFPN采用特征金字塔网络(FPN)结合多尺度特征,提高检测性能。基于DFPN网络主干,Yang等人进一步提出了一种适用于two-stage的边界框回归自适应ROI对齐方法。RoI变换器学习从HBBs到OBBs的空间变换,然后提取旋转不变特征。ICN在采用R-DFPN之前,提出了一种增强语义特征的图像级联网络。RRD使用主动旋转滤波器对旋转信息进行编码。YongchaoXu等人提出滑动水平边界框的顶点以捕捉定向边界框。所有的这些方法都是anchor-base模型的,而且用于探测任意方向的物体。同时,也有一些方法通常是针对特定的对象类别而定制的,如车辆、船舶、飞机等。
对于边界框回归的损失,现如今使用的损失函数包括均方误差(MSE,L2loss,目标和预测变量之间的平方距离之和),平均绝对误差(MAE,Llloss,目标和预测变量之间的绝对差之和),分位数损失(MAE的扩展,预测一个区间而不是仅仅预测点),Huberloss(基本上是绝对误差,当误差很小时,它变成二次方)和LogCosh损失(预测误差的双曲余弦的对数)。
例如smoothllloss,主要是优化各个坐标之间的各自最小误差,而并不是全局的重叠面积,所以如果检测具有较大宽高比的图像时,并不能很好的回归远离中心坐标的部分,所以该loss对于一些较大宽高比的目标并不敏感。例如Intersection over Union(IoU)loss,可以反映预测检测框与真实检测框的检测效果,并且具有尺度不变性,但是并不能准确的反映两者的重合度。即便是解决了该问题的GIoU(能够在预测框与目标框不重叠时,仍然可以为预测框提供移动方向)以及表现更为良好的CIoU(充分的考虑了矩形框的三个重要的几何度量,重叠面积、中心点距离和长宽比),但是两者之间的角度差却并没有进行回归计算。所以IoU系列的回归loss在对水平矩形框(HBB)的回归具有较好的效果,但是在对遥感图像旋转目标检测时,由于航空图像中目标的方向具有高度的多样性,所以回归效果并不好。
发明内容
本发明为有效解决现有遥感目标检测方法在对遥感图像进行目标检测时回归效果较差的问题,提供了一种基于边界框一致性的遥感目标检测方法,设计一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合,能够更加紧密的包围对象提高了回归效果及检测速度。
为了实现上述目的,本发明提出了一种基于边界框一致性的遥感目标检测方法,所述方法包括以下步骤:
步骤1:使用ResNet101 Conv1-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothL1loss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
进一步地,步骤2具体包括:
步骤2.1:通过公式(1)得到热点图:
Heatmap=K×H/s×W/s (1);
其中,H和W分别是图像的高度和宽度,通道数K为类别数,每个通道对应一个类别,且每个通道的映射通过一个sigmoid函数进行传递;
步骤2.2:将特定的中心点预测热图值作为目标检测的置信度,使用focalloss函数进行训练,如公式(2)所示:
其中q和p分别表示图像的真实热图值和预测热图值,i为特征图上像素位置的索引,N是实例的数目,α和β是控制每个像素权重的超参数。
进一步地,其特征在于,步骤3具体包括:
步骤3.1:通过公式(3)得到偏移量信息:
Offset=2×H/s×W/s (3):
其中,通道数为点的两个坐标x,y的偏移量;
步骤3.2:利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置;
步骤3.3:确保中心点为整数,利用SmoothLlloss函数优化最小化浮点数中心点与整数中心点之间的偏移量,如公式(4)~(5)所示:
其中,o和t分别表示预测框和真实框的偏移量,k表示实例;
SmoothLlloss函数表示为:
进一步地,步骤4具体包括:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s (6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数回归中心点的预测框信息参数;
步骤4.3:引入宽高比的一致性参数,对宽高信息进行优化,如公式(7)所示:
Lv=γ×V (7);
其中,γ为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数γ如公式(9)所示:
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
步骤4.4:为了提高预测框与真实框重合效果,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
进一步地,步骤5具体包括:
步骤5.1:通过公式(12)得到预测框分类信息:
Reg=1×H/s×W/s (12);
将边界框分为水平框和旋转框,并进行分别处理,其中通道数代表边界框属于水平边界框或者旋转边界框。
步骤5.2:通过binary cross-entropy loss函数来回归预测框的分类信息参数,如公式(13)所示:
其中,y和z分别是预测框的和真实框的类别,N为实例的总数。通过上述技术方案,本发明的有益效果为:
1.本发明提出了一种应用于目标检测模的新的损失函数,通过预测框边界框的角度和宽高比信息,进一步优化缩小真实框和预测框的角度和宽高比一致性差距,从而达到预测框与真实框更加接近的效果。
2.本发明将所提出的角度损失函数与深度目标检测模型相结合,设计了一种新的遥感目标检测方法。通过角度的一致性问题缩小预测框与真实框之间的角度差异,同时引入宽高比一致性用于更快更好的优化预测框,使得收敛速度更快,性能更好。
附图说明
图1为本发明一种基于边界框一致性的遥感目标检测方法的流程图;
图2为本发明一种基于边界框斜率的遥感目标检测方法的网络结构图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种基于边界框一致性的遥感目标检测方法,包括以下步骤:
步骤1:使用ResNet101 Convl-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothLlloss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
在本实施例的步骤1的上采样过程中,网络输出的特征尺寸大小相比于输入小s倍(本发明实验中比例s设置为4);
网络的输出由四个分支组成,包括热点图、偏移量、预测框信息、方向信息;四个分支流首先经过3×3的卷积层后得到X(C×H/s×W/s),其中通道数C为类别数(本发明实验C为256),之后再经过不同的分支流得到不同的输出。假设输入的RGB图像为I(3×H×W),H和W是图像的高度和宽度。
实施例2
基于实施例1,对步骤2进行优化,得到热点图Heatmap,具体的:
步骤2.1:通过公式(1)得到热点图:
Heatmap=K×H/s×W/s (1);
其中,H和W是图像的高度和宽度,通道数K为类别数,每个通道对应一个类别,且每个通道的映射通过一个sigmoid函数传递;
步骤2.2:将特定的中心点预测热图值作为目标检测的置信度,使用和calloss函数进行训练,如公式(2)所示:
其中q和p分别表示图像的真实热图值和预测热图值,i为特征图上像素位置的索引,N是实例的数目,α和β是控制每个像素权重的超参数。
实施例3
基于实施例1,对步骤3进行优化,得到偏移量信息Offset,但从输入图像向下缩放后输出热图会生成一个浮点数,为了最小化浮点数中心点与整数中心点之间的偏移量,使用SmoothLlloss进行优化,具体的:
步骤3.1:通过公式(3)得到偏移量信息:
Offset=2×H/s×W/s (3):
其中,通道数为点的两个坐标x,y的偏移量;
步骤3.2:利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置;
步骤3.3:确保中心点为整数,利用SmoothLlloss函数优化最小化浮点数中心点与整数中心点之间的偏移量,如公式(4)~(5)所示:
其中,o和t分别表示预测框和真实框的偏移量,k表示实例;
SmoothLlloss函数表示为:
实施例4
基于实施例1,为了获取预测框信息对步骤4进行优化,具体的:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s (6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数来回归中心点的预测框信息参数;
因为预测框的坐标信息是以关键点为原点的坐标系,所以预测框与真实框一般都有重叠部分,实际中,边界框的宽高比的一致性也是一个重要的几何因素,为了在目标框有重叠甚至包含的情况下使回归更准确、更快,在使用SmoothL1loss来回归参数同时,引入宽高比的一致性参数来加速预测框的回归,如公式(7)所示:
Lv=α×V (7);
其中,α为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数α如公式(9)所示:
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
IoU能够为预测框的回归提供方向,相对于非重叠的情况,有重叠并且重叠部分在回归中的优先级较高;
IoU可以很好的反映预测框与真实框的检测效果,并且具有尺度不变性,引入宽高比Lv函数之后的虽然能够更加准确、快速的回归,但是能否回归一个较好的预测框是另一个问题所在,而任何一个小角度的变化都会对训练的总损失有很大的影响,而且会导致预测框与真实框之间的IoU值很大;
为了让预测框与真实框更加重合,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
使用角度θ的loss函数来让预测框和真实框的斜率具有一致性,从而优化预测框的方向。
实施例5
基于实施例1,对步骤5进行优化,将边界框分为水平框和旋转框,并分别进行处理,具体的:
基于上述多个实施例,对步骤5进行优化,具体的:
步骤5.1:通过公式(12)得到预测框分类信息:
Reg=1×H/s×W/s (12);
将边界框分为水平框和旋转框,并进行分别处理,其中通道数代表边界框属于水平边界框或者旋转边界框。
步骤5.2:通过binary cross-entropy loss函数来回归预测框的分类信息参数,如公式(13)所示:
其中,y和z分别是预测框的和真实框的类别,N为实例的总数。分类的目的是因为水平框的向量会处象限边界处,四个向量需要位于四个象限,就难以区分向量类型,这样的分类策略可以很容易的处理一些水平框。输出映射最终由sigmoid函数处理。
为证明本方法的效果进行以下实验:
1.实验环境:
硬件设备:CPU为Intel(R)Core(TM)i9-10900K CPU@3.70GHz,内存大小为32GB,GPU型号为NVIDIAGeforceRTX3090。
软件平台:Python版本为3.83,CUDA版本为11.1,使用PyTorch版本为17.0的深度学习框架进行模型结构搭建。
2.实验数据集:
为衡量本发明的最终结果,选取DOTA-v1.0和HRSC2016两个遥感图像数据集进行研究,DOTA数据集共包含2806张遥感图像(图片尺寸从800*800到4000*4000),一共188.282个实例,分为15个类别:飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池。每个实例都由一个四边形边界框标注,顶点按顺时针顺序排列。官方使用1/2的图像作为训练集,1/6作为验证集,1/3作为测试集。测试集没有公开,需要上传至服务器。HRSC2016数据集用于舰船检测,含1070张图片和2976个实例,使用旋转框标注。使用其中的626张图片进行训练,444张图片用于测试。
3.实验设置:
设置BatchSize大小为14,设置学习率为0.0002,每次实验执行100个epoch,采用自适应矩估计(Adam)优化训练参数。
实验结果如表1~2所示,在公开数据集上的mAP达到了最好的性能。其中SSD作为单级探测器的代表行算法,虽然具有很快的运行速度,但其精度低于两级探测器。RDFPN从FasterR-CNN中学习角度参数。R2PN和R2CNN最初用于文本场景检测。结果是由第三方重新实现的用于DOTA数据集检测的版本。R2CNN在RPN的输出处汇集了多种尺寸的区域方案。RoI变换器、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。ICN采用图像级联网络来丰富R-DFPN前的特征。RRD采用活化旋转滤波器来提升性能。ROITrans通过学习空间变换将水平感兴趣区域转换为定向感兴趣区域。在消融实验中,角度loss能够将mAP提高0.6%(89.22%-88.6%)。宽高比loss能够将mAP提高0.2%(88.88%-88.6%)。角度loss与宽高比loss相结合能够将mAP提高1.2%(89.45%-88.6%)。
表1与DOTA-v1.0中最先进的方法进行比较
Models | Backbone | P1 | Bd | Br | Gft | Sv | Lv | Sh | Tc | Bc | St | Sbf | Ra | Ha | Sp | He | mAP |
SSD | VGG16 | 39.8 | 9.1 | 0.6 | 13.2 | 0.3 | 0.4 | 1.1 | 16.2 | 27.6 | 9.2 | 27.2 | 9.1 | 3 | 1.1 | 1 | 10.6 |
FR-O | ResNet101 | 79.1 | 69.1 | 17.2 | 63.5 | 34.2 | 37.2 | 36.2 | 89.2 | 69.6 | 59 | 49 | 52.5 | 46.7 | 44.8 | 46.3 | 52.9 |
RefineDet | ResNet101 | 80.7 | 44.2 | 27.5 | 32.8 | 61.2 | 76.1 | 78.8 | 90.7 | 69.9 | 73.9 | 24.9 | 31.9 | 55.8 | 51.4 | 26.8 | 55.1 |
R-DFPN | ResNet101 | 80.9 | 65.8 | 33.8 | 58.9 | 55.8 | 50.9 | 54.8 | 90.3 | 66.3 | 68.7 | 48.7 | 51.8 | 55.1 | 51.3 | 35.9 | 57.9 |
CenterNet | ResNet101 | 81 | 64 | 22.6 | 56.6 | 38.6 | 64 | 64.9 | 90.8 | 78 | 72.5 | 44 | 41.1 | 55.5 | 55 | 57.4 | 59.1 |
R2CNN | ResNet101 | 80.9 | 65.7 | 35.3 | 67.4 | 59.9 | 50.9 | 55.8 | 90.7 | 66.9 | 72.4 | 55.1 | 52.2 | 55.1 | 53.4 | 48.2 | 60.7 |
ICN | dResNet101 | 81.4 | 74.3 | 47.7 | 70.3 | 64.9 | 67.8 | 70 | 90.8 | 79.1 | 78.2 | 53.6 | 62.9 | 67 | 64.2 | 50.2 | 68.2 |
RoI-Transformer | ResNet101 | 88.64 | 78.52 | 43.44 | 75.92 | 68.81 | 73.68 | 83.59 | 90.74 | 77.27 | 81.46 | 58.39 | 53.54 | 62.83 | 58.93 | 47.67 | 69.56 |
P-RSDet | ResNet101 | 88.58 | 77.84 | 50.44 | 69.29 | 71.1 | 75.79 | 78.66 | 90.88 | 80.1 | 81.71 | 57.92 | 63.03 | 66.3 | 69.77 | 63.13 | 72.3 |
BBAVectors | ResNet101. | 88.35 | 79.96 | 50.69 | 62.18 | 78.73 | 78.98 | 87.94 | 90.85 | 83.58 | 84.35 | 54.13 | 60.24 | 65.22 | 64.28 | 55.7 | 72.32 |
Our method | ResNet101 | 88.72 | 84.31 | 52.47 | 68.12 | 75.87 | 74.73 | 86.59 | 90.86 | 84.56 | 84.31 | 48.28 | 62.14 | 64.62 | 64.23 | 57.38 | 72.48 |
表2与HRSC2016中最先进的方法进行比较
Method | mAP |
CP | 55.7 |
BL2 | 69.6 |
RC1 | 75.7 |
RC2 | 75.7 |
RRPN | 79.6 |
RetinaNet-H | 82.8 |
RRD | 84.3 |
ROI Trans. | 86.2 |
BBAVectors | 88.6 |
RetinaNet-R | 89.1 |
Our Method | 89.4 |
以上所述之实施例,只是本发明的较佳实施例而已,并非限制本发明的实施范围,故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明申请专利范围内。
Claims (5)
1.一种基于边界框一致性的遥感目标检测方法,其特征在于,所述方法包括:
步骤1:使用ResNet101 Conv1-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothL1loss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
4.根据权利要求1所述的一种基于边界框一致性的遥感目标检测方法,其特征在于,步骤4具体包括:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s (6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数回归中心点的预测框信息参数;
步骤4.3:引入宽高比的一致性参数,对宽高信息进行优化,如公式(7)所示:
Lv=γ×V (7);
其中,γ为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数γ如公式(9)所示:
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
步骤4.4:为了提高预测框与真实框重合效果,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582368.3A CN113326763B (zh) | 2021-05-25 | 2021-05-25 | 一种基于边界框一致性的遥感目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582368.3A CN113326763B (zh) | 2021-05-25 | 2021-05-25 | 一种基于边界框一致性的遥感目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326763A true CN113326763A (zh) | 2021-08-31 |
CN113326763B CN113326763B (zh) | 2023-04-18 |
Family
ID=77421557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110582368.3A Active CN113326763B (zh) | 2021-05-25 | 2021-05-25 | 一种基于边界框一致性的遥感目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326763B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902980A (zh) * | 2021-11-24 | 2022-01-07 | 河南大学 | 基于内容感知的遥感目标检测方法 |
CN113920126A (zh) * | 2021-10-11 | 2022-01-11 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的测量方法及测量装置 |
CN114399628A (zh) * | 2021-12-21 | 2022-04-26 | 四川大学 | 复杂空间环境下的绝缘子高效检测系统 |
CN114419520A (zh) * | 2022-03-28 | 2022-04-29 | 南京智谱科技有限公司 | 视频级目标检测模型的训练方法及装置、设备、存储介质 |
CN116681983A (zh) * | 2023-06-02 | 2023-09-01 | 中国矿业大学 | 一种基于深度学习的狭长目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583321A (zh) * | 2018-11-09 | 2019-04-05 | 同济大学 | 一种基于深度学习的结构化道路中小物体的检测方法 |
CN111091095A (zh) * | 2019-12-19 | 2020-05-01 | 华中科技大学 | 一种遥感图像中船只目标的检测方法 |
CN112395975A (zh) * | 2020-11-17 | 2021-02-23 | 南京泓图人工智能技术研究院有限公司 | 一种基于旋转区域生成网络的遥感图像目标检测方法 |
US20210056293A1 (en) * | 2019-08-19 | 2021-02-25 | Zhuhai Eeasy Technology Co., Ltd. | Face detection method |
-
2021
- 2021-05-25 CN CN202110582368.3A patent/CN113326763B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583321A (zh) * | 2018-11-09 | 2019-04-05 | 同济大学 | 一种基于深度学习的结构化道路中小物体的检测方法 |
US20210056293A1 (en) * | 2019-08-19 | 2021-02-25 | Zhuhai Eeasy Technology Co., Ltd. | Face detection method |
CN111091095A (zh) * | 2019-12-19 | 2020-05-01 | 华中科技大学 | 一种遥感图像中船只目标的检测方法 |
CN112395975A (zh) * | 2020-11-17 | 2021-02-23 | 南京泓图人工智能技术研究院有限公司 | 一种基于旋转区域生成网络的遥感图像目标检测方法 |
Non-Patent Citations (2)
Title |
---|
SHIKHA DUBEY,AND ETC: "3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos", 《2019 INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND INFORMATION SCIENCES (ICCAIS)》 * |
陈慧元等: "基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法", 《雷达学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920126A (zh) * | 2021-10-11 | 2022-01-11 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的测量方法及测量装置 |
CN113920126B (zh) * | 2021-10-11 | 2022-07-22 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的测量方法及测量装置 |
CN113902980A (zh) * | 2021-11-24 | 2022-01-07 | 河南大学 | 基于内容感知的遥感目标检测方法 |
CN113902980B (zh) * | 2021-11-24 | 2024-02-20 | 河南大学 | 基于内容感知的遥感目标检测方法 |
CN114399628A (zh) * | 2021-12-21 | 2022-04-26 | 四川大学 | 复杂空间环境下的绝缘子高效检测系统 |
CN114399628B (zh) * | 2021-12-21 | 2024-03-08 | 四川大学 | 复杂空间环境下的绝缘子高效检测系统 |
CN114419520A (zh) * | 2022-03-28 | 2022-04-29 | 南京智谱科技有限公司 | 视频级目标检测模型的训练方法及装置、设备、存储介质 |
CN116681983A (zh) * | 2023-06-02 | 2023-09-01 | 中国矿业大学 | 一种基于深度学习的狭长目标检测方法 |
CN116681983B (zh) * | 2023-06-02 | 2024-06-11 | 中国矿业大学 | 一种基于深度学习的狭长目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326763B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326763B (zh) | 一种基于边界框一致性的遥感目标检测方法 | |
WO2023015743A1 (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
CN110633661A (zh) | 一种融合语义分割的遥感图像目标检测方法 | |
US11341722B2 (en) | Computer vision method and system | |
CN112084869B (zh) | 一种基于紧致四边形表示的建筑物目标检测方法 | |
CN109712071B (zh) | 基于航迹约束的无人机图像拼接与定位方法 | |
CN113850129A (zh) | 一种旋转等变的空间局部注意力遥感图像目标检测方法 | |
CN113191296A (zh) | 一种基于yolov5的任意朝向目标五参数检测方法 | |
CN112883934A (zh) | 一种基于注意力机制的sar图像道路分割方法 | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN114897676A (zh) | 一种无人机遥感多光谱图像拼接方法、设备及介质 | |
Wan et al. | Drone image stitching using local mesh-based bundle adjustment and shape-preserving transform | |
Chen et al. | Oriented object detection by searching corner points in remote sensing imagery | |
CN115546273A (zh) | 一种面向室内鱼眼图像的场景结构深度估计方法 | |
CN115546638A (zh) | 基于暹罗级联差分神经网络的变化检测方法 | |
CN116343034A (zh) | 一种遥感图像的变化检测方法、系统、电子设备及介质 | |
CN116310899A (zh) | 基于YOLOv5改进的目标检测方法及装置、训练方法 | |
CN114821192A (zh) | 一种结合语义信息的遥感影像高程预测方法 | |
US20220164986A1 (en) | Rotation equivariant orientation estimation for omnidirectional localization | |
CN113706636A (zh) | 一种用于篡改图像识别的方法与装置 | |
CN113902980B (zh) | 基于内容感知的遥感目标检测方法 | |
CN112749670B (zh) | 一种多源遥感图像的逐像素分类方法、介质及设备 | |
CN118397257B (zh) | Sar图像舰船目标检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |