CN113326763B - 一种基于边界框一致性的遥感目标检测方法 - Google Patents

一种基于边界框一致性的遥感目标检测方法 Download PDF

Info

Publication number
CN113326763B
CN113326763B CN202110582368.3A CN202110582368A CN113326763B CN 113326763 B CN113326763 B CN 113326763B CN 202110582368 A CN202110582368 A CN 202110582368A CN 113326763 B CN113326763 B CN 113326763B
Authority
CN
China
Prior art keywords
box
information
prediction
function
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110582368.3A
Other languages
English (en)
Other versions
CN113326763A (zh
Inventor
朱小柯
王毓斐
陈小潘
郑珊珊
李昌龙
张冀统
叶鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202110582368.3A priority Critical patent/CN113326763B/zh
Publication of CN113326763A publication Critical patent/CN113326763A/zh
Application granted granted Critical
Publication of CN113326763B publication Critical patent/CN113326763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于边界框一致性的遥感目标检测方法,包括使用ResNet101 Conv1‑5网络模型作为base网络,基于ResNet101 Conv1‑5网络模型通过双线性插值法将深层样本向上采样到与浅层样本相同大小,并对图像进行细化,进而基于ResNet101 Conv1‑5网络模型输出热点图、偏移量、预测框信息、方向信息,最终通过热点图、偏移量信息、预测框信息、方向信息生成完成对遥感图像中的任意角度的旋转目标检测问题。本发明设计了一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合,能够更加紧密的包围对象提高了回归效果及检测速度。

Description

一种基于边界框一致性的遥感目标检测方法
技术领域
本发明涉及遥感图像目标检测领域,具体涉及一种基于边界框一致性的遥感目标检测方法。
背景技术
目前遥感目标检测方法一般是由水平目标检测器扩展而来,而航空图像中目标检测的许多最新进展都得益于R-CNN框架,这些方法通过使用水平边界框作为感兴趣区域,然后依靠区域特征进行类别识别,例如,R2CNN使用区域建议网络(RPN)生成文本的水平边界框(HBB),并结合不同尺度的集合ROI特征来回归定向边界框(OBB)的参数。R2PN将边界框方向参数引入到RPN网络中,形成了旋转的RPN网络。RP-FasterR-CNN框架是在中针对小目标检测开发的。R2PN还利用旋转的ROI池来优化box参数。R-DFPN采用特征金字塔网络(FPN)结合多尺度特征,提高检测性能。基于DFPN网络主干,Yang等人进一步提出了一种适用于two-stage的边界框回归自适应ROI对齐方法。RoI变换器学习从HBBs到OBBs的空间变换,然后提取旋转不变特征。ICN在采用R-DFPN之前,提出了一种增强语义特征的图像级联网络。RRD使用主动旋转滤波器对旋转信息进行编码。YongchaoXu等人提出滑动水平边界框的顶点以捕捉定向边界框。所有的这些方法都是anchor-base模型的,而且用于探测任意方向的物体。同时,也有一些方法通常是针对特定的对象类别而定制的,如车辆、船舶、飞机等。
对于边界框回归的损失,现如今使用的损失函数包括均方误差(MSE,L2loss,目标和预测变量之间的平方距离之和),平均绝对误差(MAE,Llloss,目标和预测变量之间的绝对差之和),分位数损失(MAE的扩展,预测一个区间而不是仅仅预测点),Huberloss(基本上是绝对误差,当误差很小时,它变成二次方)和LogCosh损失(预测误差的双曲余弦的对数)。
例如smoothllloss,主要是优化各个坐标之间的各自最小误差,而并不是全局的重叠面积,所以如果检测具有较大宽高比的图像时,并不能很好的回归远离中心坐标的部分,所以该loss对于一些较大宽高比的目标并不敏感。例如Intersection over Union(IoU)loss,可以反映预测检测框与真实检测框的检测效果,并且具有尺度不变性,但是并不能准确的反映两者的重合度。即便是解决了该问题的GIoU(能够在预测框与目标框不重叠时,仍然可以为预测框提供移动方向)以及表现更为良好的CIoU(充分的考虑了矩形框的三个重要的几何度量,重叠面积、中心点距离和长宽比),但是两者之间的角度差却并没有进行回归计算。所以IoU系列的回归loss在对水平矩形框(HBB)的回归具有较好的效果,但是在对遥感图像旋转目标检测时,由于航空图像中目标的方向具有高度的多样性,所以回归效果并不好。
发明内容
本发明为有效解决现有遥感目标检测方法在对遥感图像进行目标检测时回归效果较差的问题,提供了一种基于边界框一致性的遥感目标检测方法,设计一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合,能够更加紧密的包围对象提高了回归效果及检测速度。
为了实现上述目的,本发明提出了一种基于边界框一致性的遥感目标检测方法,所述方法包括以下步骤:
步骤1:使用ResNet101 Conv1-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothL1loss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
进一步地,步骤2具体包括:
步骤2.1:通过公式(1)得到热点图:
Heatmap=K×H/s×W/s  (1);
其中,H和W分别是图像的高度和宽度,通道数K为类别数,每个通道对应一个类别,且每个通道的映射通过一个sigmoid函数进行传递;
步骤2.2:将特定的中心点预测热图值作为目标检测的置信度,使用focalloss函数进行训练,如公式(2)所示:
Figure BDA0003082867920000031
其中q和p分别表示图像的真实热图值和预测热图值,i为特征图上像素位置的索引,N是实例的数目,α和β是控制每个像素权重的超参数。
进一步地,其特征在于,步骤3具体包括:
步骤3.1:通过公式(3)得到偏移量信息:
Offset=2×H/s×W/s  (3):
其中,通道数为点的两个坐标x,y的偏移量;
步骤3.2:利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置;
步骤3.3:确保中心点为整数,利用SmoothLlloss函数优化最小化浮点数中心点与整数中心点之间的偏移量,如公式(4)~(5)所示:
Figure BDA0003082867920000032
其中,o和t分别表示预测框和真实框的偏移量,k表示实例;
SmoothLlloss函数表示为:
Figure BDA0003082867920000041
进一步地,步骤4具体包括:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s  (6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数回归中心点的预测框信息参数;
步骤4.3:引入宽高比的一致性参数,对宽高信息进行优化,如公式(7)所示:
Lv=γ×V  (7);
其中,γ为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
Figure BDA0003082867920000042
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数γ如公式(9)所示:
Figure BDA0003082867920000043
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
Figure BDA0003082867920000044
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
步骤4.4:为了提高预测框与真实框重合效果,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
Figure BDA0003082867920000051
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
进一步地,步骤5具体包括:
步骤5.1:通过公式(12)得到预测框分类信息:
Reg=1×H/s×W/s  (12);
将边界框分为水平框和旋转框,并进行分别处理,其中通道数代表边界框属于水平边界框或者旋转边界框。
步骤5.2:通过binary cross-entropy loss函数来回归预测框的分类信息参数,如公式(13)所示:
Figure BDA0003082867920000052
其中,y和z分别是预测框的和真实框的类别,N为实例的总数。通过上述技术方案,本发明的有益效果为:
1.本发明提出了一种应用于目标检测模的新的损失函数,通过预测框边界框的角度和宽高比信息,进一步优化缩小真实框和预测框的角度和宽高比一致性差距,从而达到预测框与真实框更加接近的效果。
2.本发明将所提出的角度损失函数与深度目标检测模型相结合,设计了一种新的遥感目标检测方法。通过角度的一致性问题缩小预测框与真实框之间的角度差异,同时引入宽高比一致性用于更快更好的优化预测框,使得收敛速度更快,性能更好。
附图说明
图1为本发明一种基于边界框一致性的遥感目标检测方法的流程图;
图2为本发明一种基于边界框斜率的遥感目标检测方法的网络结构图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种基于边界框一致性的遥感目标检测方法,包括以下步骤:
步骤1:使用ResNet101 Convl-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothLlloss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
在本实施例的步骤1的上采样过程中,网络输出的特征尺寸大小相比于输入小s倍(本发明实验中比例s设置为4);
网络的输出由四个分支组成,包括热点图、偏移量、预测框信息、方向信息;四个分支流首先经过3×3的卷积层后得到X(C×H/s×W/s),其中通道数C为类别数(本发明实验C为256),之后再经过不同的分支流得到不同的输出。假设输入的RGB图像为I(3×H×W),H和W是图像的高度和宽度。
实施例2
基于实施例1,对步骤2进行优化,得到热点图Heatmap,具体的:
步骤2.1:通过公式(1)得到热点图:
Heatmap=K×H/s×W/s  (1);
其中,H和W是图像的高度和宽度,通道数K为类别数,每个通道对应一个类别,且每个通道的映射通过一个sigmoid函数传递;
步骤2.2:将特定的中心点预测热图值作为目标检测的置信度,使用和calloss函数进行训练,如公式(2)所示:
Figure BDA0003082867920000071
其中q和p分别表示图像的真实热图值和预测热图值,i为特征图上像素位置的索引,N是实例的数目,α和β是控制每个像素权重的超参数。
实施例3
基于实施例1,对步骤3进行优化,得到偏移量信息Offset,但从输入图像向下缩放后输出热图会生成一个浮点数,为了最小化浮点数中心点与整数中心点之间的偏移量,使用SmoothLlloss进行优化,具体的:
步骤3.1:通过公式(3)得到偏移量信息:
Offset=2×H/s×W/s  (3):
其中,通道数为点的两个坐标x,y的偏移量;
步骤3.2:利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置;
步骤3.3:确保中心点为整数,利用SmoothLlloss函数优化最小化浮点数中心点与整数中心点之间的偏移量,如公式(4)~(5)所示:
Figure BDA0003082867920000072
其中,o和t分别表示预测框和真实框的偏移量,k表示实例;
SmoothLlloss函数表示为:
Figure BDA0003082867920000073
实施例4
基于实施例1,为了获取预测框信息对步骤4进行优化,具体的:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s  (6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数来回归中心点的预测框信息参数;
因为预测框的坐标信息是以关键点为原点的坐标系,所以预测框与真实框一般都有重叠部分,实际中,边界框的宽高比的一致性也是一个重要的几何因素,为了在目标框有重叠甚至包含的情况下使回归更准确、更快,在使用SmoothL1loss来回归参数同时,引入宽高比的一致性参数来加速预测框的回归,如公式(7)所示:
Lv=α×V  (7);
其中,α为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
Figure BDA0003082867920000081
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数α如公式(9)所示:
Figure BDA0003082867920000082
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
Figure BDA0003082867920000083
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
IoU能够为预测框的回归提供方向,相对于非重叠的情况,有重叠并且重叠部分在回归中的优先级较高;
IoU可以很好的反映预测框与真实框的检测效果,并且具有尺度不变性,引入宽高比Lv函数之后的虽然能够更加准确、快速的回归,但是能否回归一个较好的预测框是另一个问题所在,而任何一个小角度的变化都会对训练的总损失有很大的影响,而且会导致预测框与真实框之间的IoU值很大;
为了让预测框与真实框更加重合,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
Figure BDA0003082867920000091
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
使用角度θ的loss函数来让预测框和真实框的斜率具有一致性,从而优化预测框的方向。
实施例5
基于实施例1,对步骤5进行优化,将边界框分为水平框和旋转框,并分别进行处理,具体的:
基于上述多个实施例,对步骤5进行优化,具体的:
步骤5.1:通过公式(12)得到预测框分类信息:
Reg=1×H/s×W/s  (12);
将边界框分为水平框和旋转框,并进行分别处理,其中通道数代表边界框属于水平边界框或者旋转边界框。
步骤5.2:通过binary cross-entropy loss函数来回归预测框的分类信息参数,如公式(13)所示:
Figure BDA0003082867920000092
其中,y和z分别是预测框的和真实框的类别,N为实例的总数。分类的目的是因为水平框的向量会处象限边界处,四个向量需要位于四个象限,就难以区分向量类型,这样的分类策略可以很容易的处理一些水平框。输出映射最终由sigmoid函数处理。
为证明本方法的效果进行以下实验:
1.实验环境:
硬件设备:CPU为Intel(R)Core(TM)i9-10900K CPU@3.70GHz,内存大小为32GB,GPU型号为NVIDIAGeforceRTX3090。
软件平台:Python版本为3.83,CUDA版本为11.1,使用PyTorch版本为17.0的深度学习框架进行模型结构搭建。
2.实验数据集:
为衡量本发明的最终结果,选取DOTA-v1.0和HRSC2016两个遥感图像数据集进行研究,DOTA数据集共包含2806张遥感图像(图片尺寸从800*800到4000*4000),一共188.282个实例,分为15个类别:飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池。每个实例都由一个四边形边界框标注,顶点按顺时针顺序排列。官方使用1/2的图像作为训练集,1/6作为验证集,1/3作为测试集。测试集没有公开,需要上传至服务器。HRSC2016数据集用于舰船检测,含1070张图片和2976个实例,使用旋转框标注。使用其中的626张图片进行训练,444张图片用于测试。
3.实验设置:
设置BatchSize大小为14,设置学习率为0.0002,每次实验执行100个epoch,采用自适应矩估计(Adam)优化训练参数。
实验结果如表1~2所示,在公开数据集上的mAP达到了最好的性能。其中SSD作为单级探测器的代表行算法,虽然具有很快的运行速度,但其精度低于两级探测器。RDFPN从FasterR-CNN中学习角度参数。R2PN和R2CNN最初用于文本场景检测。结果是由第三方重新实现的用于DOTA数据集检测的版本。R2CNN在RPN的输出处汇集了多种尺寸的区域方案。RoI变换器、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。ICN采用图像级联网络来丰富R-DFPN前的特征。RRD采用活化旋转滤波器来提升性能。ROITrans通过学习空间变换将水平感兴趣区域转换为定向感兴趣区域。在消融实验中,角度loss能够将mAP提高0.6%(89.22%-88.6%)。宽高比loss能够将mAP提高0.2%(88.88%-88.6%)。角度loss与宽高比loss相结合能够将mAP提高1.2%(89.45%-88.6%)。
表1与DOTA-v1.0中最先进的方法进行比较
Models Backbone P1 Bd Br Gft Sv Lv Sh Tc Bc St Sbf Ra Ha Sp He mAP
SSD VGG16 39.8 9.1 0.6 13.2 0.3 0.4 1.1 16.2 27.6 9.2 27.2 9.1 3 1.1 1 10.6
FR-O ResNet101 79.1 69.1 17.2 63.5 34.2 37.2 36.2 89.2 69.6 59 49 52.5 46.7 44.8 46.3 52.9
RefineDet ResNet101 80.7 44.2 27.5 32.8 61.2 76.1 78.8 90.7 69.9 73.9 24.9 31.9 55.8 51.4 26.8 55.1
R-DFPN ResNet101 80.9 65.8 33.8 58.9 55.8 50.9 54.8 90.3 66.3 68.7 48.7 51.8 55.1 51.3 35.9 57.9
CenterNet ResNet101 81 64 22.6 56.6 38.6 64 64.9 90.8 78 72.5 44 41.1 55.5 55 57.4 59.1
R2CNN ResNet101 80.9 65.7 35.3 67.4 59.9 50.9 55.8 90.7 66.9 72.4 55.1 52.2 55.1 53.4 48.2 60.7
ICN dResNet101 81.4 74.3 47.7 70.3 64.9 67.8 70 90.8 79.1 78.2 53.6 62.9 67 64.2 50.2 68.2
RoI-Transformer ResNet101 88.64 78.52 43.44 75.92 68.81 73.68 83.59 90.74 77.27 81.46 58.39 53.54 62.83 58.93 47.67 69.56
P-RSDet ResNet101 88.58 77.84 50.44 69.29 71.1 75.79 78.66 90.88 80.1 81.71 57.92 63.03 66.3 69.77 63.13 72.3
BBAVectors ResNet101. 88.35 79.96 50.69 62.18 78.73 78.98 87.94 90.85 83.58 84.35 54.13 60.24 65.22 64.28 55.7 72.32
Our method ResNet101 88.72 84.31 52.47 68.12 75.87 74.73 86.59 90.86 84.56 84.31 48.28 62.14 64.62 64.23 57.38 72.48
表2与HRSC2016中最先进的方法进行比较
Method mAP
CP 55.7
BL2 69.6
RC1 75.7
RC2 75.7
RRPN 79.6
RetinaNet-H 82.8
RRD 84.3
ROI Trans. 86.2
BBAVectors 88.6
RetinaNet-R 89.1
Our Method 89.4
以上所述之实施例,只是本发明的较佳实施例而已,并非限制本发明的实施范围,故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明申请专利范围内。

Claims (5)

1.一种基于边界框一致性的遥感目标检测方法,其特征在于,所述方法包括:
步骤1:使用ResNet101 Conv1-5网络模型作为base网络,并对特征图进行上采样;
通过双线性插值法将深层样本向上采样到与浅层样本相同大小,使用3×3的卷积层进行细化,使用1×1的卷积层精细图像特征;
隐藏层采用批标准化处理,并使用ReLU函数激活;
步骤2:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图,并通过focalloss函数对其进行训练;
步骤3:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息,并使用SmoothL1loss函数进行优化;
步骤4:基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息,使用SmoothL1loss函数回归中心点的预测框信息参数;
引入宽高比的一致性参数对预测框中的宽高比信息进行优化;
同时通过引入角度的一致性参数对预测框中的角度信息进行优化;
步骤5:基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息,利用binary cross-entropy loss函数对方向信息进行优化;
步骤6:通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据所述预测边界框的坐标信息在原图中进行定位展示。
2.根据权利要求1所述的一种基于边界框一致性的遥感目标检测方法,其特征在于,步骤2具体包括:
步骤2.1:通过公式(1)得到热点图:
Heatmap=K×H/s×W/s    (1);
其中,H和W分别是图像的高度和宽度,通道数K为类别数,每个通道对应一个类别,且每个通道的映射通过一个sigmoid函数进行传递;
步骤2.2:将特定的中心点预测热图值作为目标检测的置信度,使用focalloss函数进行训练,如公式(2)所示:
Figure FDA0004072890040000021
其中q和p分别表示图像的真实热图值和预测热图值,i为特征图上像素位置的索引,N是实例的数目,α和β是控制每个像素权重的超参数。
3.根据权利要求2所述的一种基于边界框一致性的遥感目标检测方法,其特征在于,步骤3具体包括:
步骤3.1:通过公式(3)得到偏移量信息:
Offset=2×H/s×W/s(3);
其中,通道数为点的两个坐标x,y的偏移量;
步骤3.2:利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置;
步骤3.3:确保中心点为整数,利用SmoothL1loss函数优化最小化浮点数中心点与整数中心点之间的偏移量,如公式(4)~(5)所示:
Figure FDA0004072890040000022
其中,o和t分别表示预测框和真实框的偏移量,k表示实例;
SmoothL1loss函数表示为:
Figure FDA0004072890040000023
4.根据权利要求1所述的一种基于边界框一致性的遥感目标检测方法,其特征在于,步骤4具体包括:
步骤4.1:通过公式(6)得到预测框信息:
Box=10×H/s×W/s(6);
其中,10个通道分别为2×4矢量和2个外部尺寸参数,4个矢量为t;r;b;l,分别代表预测框上、右、下和左向量的坐标信息,并且这四个矢量分布在笛卡尔坐标系的四个象限中,两个外部尺寸参数为we和he,分别是最小外接矩形的宽度和高度;
步骤4.2:使用SmoothL1loss函数回归中心点的预测框信息参数;
步骤4.3:引入宽高比的一致性参数,对宽高信息进行优化,如公式(7)所示:
Lv=γ×V(7);
其中,γ为一个正的平衡参数,为预测框的回归提供方向,V为宽高比的一致性的差距;
V如公式(8)所示:
Figure FDA0004072890040000031
其中,wgt,hgt为真实框的宽和高,w,h为预测框的宽和高;
平衡参数γ如公式(9)所示:
Figure FDA0004072890040000032
其中,IoU为交并比,是目标检测中常用指标,IoU如公式(10)表示:
Figure FDA0004072890040000033
其中A和B分别代表目标框和预测框,IoU为预测框的回归提供方向;
步骤4.4:为了提高预测框与真实框重合效果,对角度θ进行优化,角度θ的loss函数如公式(11)表示:
Figure FDA0004072890040000034
其中,(rx1,ry1)和(rx2,ry2)分别代表真实框和预测框的右向量坐标,(lx1,ly1)和(lx2,ly2)分别代表真实框和预测框的左向量坐标。
5.根据权利要求1所述的一种基于边界框一致性的遥感目标检测方法,其特征在于,步骤5具体包括:
步骤5.1:通过公式(12)得到预测框分类信息:
Reg=1×H/s×W/s(12);
将边界框分为水平框和旋转框,并进行分别处理,其中通道数代表边界框属于水平边界框或旋转边界框;
步骤5.2:通过binary cross-entropyloss函数来回归预测框的分类信息参数,如公式(13)所示:
Figure FDA0004072890040000041
其中,y和z分别是预测框的和真实框的类别,N为实例的总数。
CN202110582368.3A 2021-05-25 2021-05-25 一种基于边界框一致性的遥感目标检测方法 Active CN113326763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110582368.3A CN113326763B (zh) 2021-05-25 2021-05-25 一种基于边界框一致性的遥感目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110582368.3A CN113326763B (zh) 2021-05-25 2021-05-25 一种基于边界框一致性的遥感目标检测方法

Publications (2)

Publication Number Publication Date
CN113326763A CN113326763A (zh) 2021-08-31
CN113326763B true CN113326763B (zh) 2023-04-18

Family

ID=77421557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110582368.3A Active CN113326763B (zh) 2021-05-25 2021-05-25 一种基于边界框一致性的遥感目标检测方法

Country Status (1)

Country Link
CN (1) CN113326763B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578577A (zh) * 2021-10-11 2023-01-06 深圳硅基智能科技有限公司 基于紧框标的眼底图像的识别装置及识别方法
CN113902980B (zh) * 2021-11-24 2024-02-20 河南大学 基于内容感知的遥感目标检测方法
CN114399628B (zh) * 2021-12-21 2024-03-08 四川大学 复杂空间环境下的绝缘子高效检测系统
CN114419520B (zh) * 2022-03-28 2022-07-05 南京智谱科技有限公司 视频级目标检测模型的训练方法及装置、设备、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091095A (zh) * 2019-12-19 2020-05-01 华中科技大学 一种遥感图像中船只目标的检测方法
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583321A (zh) * 2018-11-09 2019-04-05 同济大学 一种基于深度学习的结构化道路中小物体的检测方法
CN110263774B (zh) * 2019-08-19 2019-11-22 珠海亿智电子科技有限公司 一种人脸检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091095A (zh) * 2019-12-19 2020-05-01 华中科技大学 一种遥感图像中船只目标的检测方法
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法

Also Published As

Publication number Publication date
CN113326763A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113326763B (zh) 一种基于边界框一致性的遥感目标检测方法
TWI762860B (zh) 目標檢測及目標檢測網路的訓練方法、裝置、設備及儲存媒體
Wang et al. Learning center probability map for detecting objects in aerial images
CN106023086B (zh) 一种基于orb特征匹配的航拍影像及地理数据拼接方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
WO2023015743A1 (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN110633661A (zh) 一种融合语义分割的遥感图像目标检测方法
CN102169587B (zh) 图像处理设备和方法
US20210012567A1 (en) Computer vision method and system
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
US11715186B2 (en) Multi-image-based image enhancement method and device
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113850129A (zh) 一种旋转等变的空间局部注意力遥感图像目标检测方法
CN113177592B (zh) 一种图像分割方法、装置、计算机设备及存储介质
CN114140623A (zh) 一种图像特征点提取方法及系统
Chen et al. Oriented object detection by searching corner points in remote sensing imagery
Wan et al. Drone image stitching using local mesh-based bundle adjustment and shape-preserving transform
CN114897676A (zh) 一种无人机遥感多光谱图像拼接方法、设备及介质
Rui et al. Research on fast natural aerial image mosaic
CN116310899A (zh) 基于YOLOv5改进的目标检测方法及装置、训练方法
CN114821192A (zh) 一种结合语义信息的遥感影像高程预测方法
CN115546638A (zh) 基于暹罗级联差分神经网络的变化检测方法
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
CN113902980B (zh) 基于内容感知的遥感目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant