CN113326763A

CN113326763A - 一种基于边界框一致性的遥感目标检测方法

Info

Publication number: CN113326763A
Application number: CN202110582368.3A
Authority: CN
Inventors: 朱小柯; 王毓斐; 陈小潘; 郑珊珊; 李昌龙; 张冀统; 叶鹏飞
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-31
Anticipated expiration: 2041-05-25
Also published as: CN113326763B

Abstract

本发明涉及一种基于边界框一致性的遥感目标检测方法，包括使用ResNet101 Conv1‑5网络模型作为base网络，基于ResNet101 Conv1‑5网络模型通过双线性插值法将深层样本向上采样到与浅层样本相同大小，并对图像进行细化，进而基于ResNet101 Conv1‑5网络模型输出热点图、偏移量、预测框信息、方向信息，最终通过热点图、偏移量信息、预测框信息、方向信息生成完成对遥感图像中的任意角度的旋转目标检测问题。本发明设计了一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合，能够更加紧密的包围对象提高了回归效果及检测速度。

Description

一种基于边界框一致性的遥感目标检测方法

技术领域

本发明涉及遥感图像目标检测领域，具体涉及一种基于边界框一致性的遥感目标检测方法。

背景技术

目前遥感目标检测方法一般是由水平目标检测器扩展而来，而航空图像中目标检测的许多最新进展都得益于R-CNN框架，这些方法通过使用水平边界框作为感兴趣区域，然后依靠区域特征进行类别识别，例如，R2CNN使用区域建议网络(RPN)生成文本的水平边界框(HBB)，并结合不同尺度的集合ROI特征来回归定向边界框(OBB)的参数。R2PN将边界框方向参数引入到RPN网络中，形成了旋转的RPN网络。RP-FasterR-CNN框架是在中针对小目标检测开发的。R2PN还利用旋转的ROI池来优化box参数。R-DFPN采用特征金字塔网络(FPN)结合多尺度特征，提高检测性能。基于DFPN网络主干，Yang等人进一步提出了一种适用于two-stage的边界框回归自适应ROI对齐方法。RoI变换器学习从HBBs到OBBs的空间变换，然后提取旋转不变特征。ICN在采用R-DFPN之前，提出了一种增强语义特征的图像级联网络。RRD使用主动旋转滤波器对旋转信息进行编码。YongchaoXu等人提出滑动水平边界框的顶点以捕捉定向边界框。所有的这些方法都是anchor-base模型的，而且用于探测任意方向的物体。同时，也有一些方法通常是针对特定的对象类别而定制的，如车辆、船舶、飞机等。

对于边界框回归的损失，现如今使用的损失函数包括均方误差(MSE，L2loss，目标和预测变量之间的平方距离之和)，平均绝对误差(MAE，Llloss，目标和预测变量之间的绝对差之和)，分位数损失(MAE的扩展，预测一个区间而不是仅仅预测点)，Huberloss(基本上是绝对误差，当误差很小时，它变成二次方)和LogCosh损失(预测误差的双曲余弦的对数)。

例如smoothllloss，主要是优化各个坐标之间的各自最小误差，而并不是全局的重叠面积，所以如果检测具有较大宽高比的图像时，并不能很好的回归远离中心坐标的部分，所以该loss对于一些较大宽高比的目标并不敏感。例如Intersection over Union(IoU)loss，可以反映预测检测框与真实检测框的检测效果，并且具有尺度不变性，但是并不能准确的反映两者的重合度。即便是解决了该问题的GIoU(能够在预测框与目标框不重叠时，仍然可以为预测框提供移动方向)以及表现更为良好的CIoU(充分的考虑了矩形框的三个重要的几何度量，重叠面积、中心点距离和长宽比)，但是两者之间的角度差却并没有进行回归计算。所以IoU系列的回归loss在对水平矩形框(HBB)的回归具有较好的效果，但是在对遥感图像旋转目标检测时，由于航空图像中目标的方向具有高度的多样性，所以回归效果并不好。

发明内容

本发明为有效解决现有遥感目标检测方法在对遥感图像进行目标检测时回归效果较差的问题，提供了一种基于边界框一致性的遥感目标检测方法，设计一种新的角度与宽高比一致性损失函数与深度目标检测模型相结合，能够更加紧密的包围对象提高了回归效果及检测速度。

为了实现上述目的，本发明提出了一种基于边界框一致性的遥感目标检测方法，所述方法包括以下步骤：

步骤1：使用ResNet101 Conv1-5网络模型作为base网络，并对特征图进行上采样；

通过双线性插值法将深层样本向上采样到与浅层样本相同大小，使用3×3的卷积层进行细化，使用1×1的卷积层精细图像特征；

隐藏层采用批标准化处理，并使用ReLU函数激活；

步骤2：基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图，并通过focalloss函数对其进行训练；

步骤3：基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取偏移量信息，并使用SmoothL1loss函数进行优化；

步骤4：基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息，使用SmoothL1loss函数回归中心点的预测框信息参数；

引入宽高比的一致性参数对预测框中的宽高比信息进行优化；

同时通过引入角度的一致性参数对预测框中的角度信息进行优化；

步骤5：基于ResNet101 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息，利用binary cross-entropy loss函数对方向信息进行优化；

步骤6：通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框，根据所述预测边界框的坐标信息在原图中进行定位展示。

进一步地，步骤2具体包括：

步骤2.1：通过公式(1)得到热点图：

Heatmap＝K×H/s×W/s (1)；

其中，H和W分别是图像的高度和宽度，通道数K为类别数，每个通道对应一个类别，且每个通道的映射通过一个sigmoid函数进行传递；

步骤2.2：将特定的中心点预测热图值作为目标检测的置信度，使用focalloss函数进行训练，如公式(2)所示：

其中q和p分别表示图像的真实热图值和预测热图值，i为特征图上像素位置的索引，N是实例的数目，α和β是控制每个像素权重的超参数。

进一步地，其特征在于，步骤3具体包括：

步骤3.1：通过公式(3)得到偏移量信息：

Offset＝2×H/s×W/s (3)：

其中，通道数为点的两个坐标x，y的偏移量；

步骤3.2：利用偏移量信息从预测的热图信息P中提取峰值点作为目标的中心点位置；

步骤3.3：确保中心点为整数，利用SmoothLlloss函数优化最小化浮点数中心点与整数中心点之间的偏移量，如公式(4)～(5)所示：

其中，o和t分别表示预测框和真实框的偏移量，k表示实例；

SmoothLlloss函数表示为：

进一步地，步骤4具体包括：

步骤4.1：通过公式(6)得到预测框信息：

Box＝10×H/s×W/s (6)；

其中，10个通道分别为2×4矢量和2个外部尺寸参数，4个矢量为t；r；b；l，分别代表预测框上、右、下和左向量的坐标信息，并且这四个矢量分布在笛卡尔坐标系的四个象限中，两个外部尺寸参数为w_e和h_e，分别是最小外接矩形的宽度和高度；

步骤4.2：使用SmoothL1loss函数回归中心点的预测框信息参数；

步骤4.3：引入宽高比的一致性参数，对宽高信息进行优化，如公式(7)所示：

L_v＝γ×V (7)；

其中，γ为一个正的平衡参数，为预测框的回归提供方向，V为宽高比的一致性的差距；

V如公式(8)所示：

其中，w^gt，h^gt为真实框的宽和高，w，h为预测框的宽和高；

平衡参数γ如公式(9)所示：

其中，IoU为交并比，是目标检测中常用指标，IoU如公式(10)表示：

其中A和B分别代表目标框和预测框，IoU为预测框的回归提供方向；

步骤4.4：为了提高预测框与真实框重合效果，对角度θ进行优化，角度θ的loss函数如公式(11)表示：

其中，(r_x1，r_y1)和(r_x2，r_y2)分别代表真实框和预测框的右向量坐标，(l_x1，l_y1)和(l_x2，l_y2)分别代表真实框和预测框的左向量坐标。

进一步地，步骤5具体包括：

步骤5.1：通过公式(12)得到预测框分类信息：

Reg＝1×H/s×W/s (12)；

将边界框分为水平框和旋转框，并进行分别处理，其中通道数代表边界框属于水平边界框或者旋转边界框。

步骤5.2：通过binary cross-entropy loss函数来回归预测框的分类信息参数，如公式(13)所示：

其中，y和z分别是预测框的和真实框的类别，N为实例的总数。通过上述技术方案，本发明的有益效果为：

1.本发明提出了一种应用于目标检测模的新的损失函数，通过预测框边界框的角度和宽高比信息，进一步优化缩小真实框和预测框的角度和宽高比一致性差距，从而达到预测框与真实框更加接近的效果。

2.本发明将所提出的角度损失函数与深度目标检测模型相结合，设计了一种新的遥感目标检测方法。通过角度的一致性问题缩小预测框与真实框之间的角度差异，同时引入宽高比一致性用于更快更好的优化预测框，使得收敛速度更快，性能更好。

附图说明

图1为本发明一种基于边界框一致性的遥感目标检测方法的流程图；

图2为本发明一种基于边界框斜率的遥感目标检测方法的网络结构图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于边界框一致性的遥感目标检测方法，包括以下步骤：

步骤1：使用ResNet101 Convl-5网络模型作为base网络，并对特征图进行上采样；

隐藏层采用批标准化处理，并使用ReLU函数激活；

步骤2：基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层获取热点图，并通过focalloss函数对其进行训练；

步骤4：基于ResNet101 Conv1-5网络模型的输出特征图先后使用2层3×3的卷积层得到预测框信息，使用SmoothLlloss函数回归中心点的预测框信息参数；

步骤5：基于ResNetl01 Conv1-5网络模型的输出特征图先后使用3×3和1×1的卷积层得到方向信息，利用binary cross-entropy loss函数对方向信息进行优化；

在本实施例的步骤1的上采样过程中，网络输出的特征尺寸大小相比于输入小s倍(本发明实验中比例s设置为4)；

网络的输出由四个分支组成，包括热点图、偏移量、预测框信息、方向信息；四个分支流首先经过3×3的卷积层后得到X(C×H/s×W/s)，其中通道数C为类别数(本发明实验C为256)，之后再经过不同的分支流得到不同的输出。假设输入的RGB图像为I(3×H×W)，H和W是图像的高度和宽度。

实施例2

基于实施例1，对步骤2进行优化，得到热点图Heatmap，具体的：

步骤2.1：通过公式(1)得到热点图：

Heatmap＝K×H/s×W/s (1)；

其中，H和W是图像的高度和宽度，通道数K为类别数，每个通道对应一个类别，且每个通道的映射通过一个sigmoid函数传递；

步骤2.2：将特定的中心点预测热图值作为目标检测的置信度，使用和calloss函数进行训练，如公式(2)所示：

实施例3

基于实施例1，对步骤3进行优化，得到偏移量信息Offset，但从输入图像向下缩放后输出热图会生成一个浮点数，为了最小化浮点数中心点与整数中心点之间的偏移量，使用SmoothLlloss进行优化，具体的：

步骤3.1：通过公式(3)得到偏移量信息：

Offset＝2×H/s×W/s (3)：

其中，通道数为点的两个坐标x，y的偏移量；

其中，o和t分别表示预测框和真实框的偏移量，k表示实例；

SmoothLlloss函数表示为：

实施例4

基于实施例1，为了获取预测框信息对步骤4进行优化，具体的：

步骤4.1：通过公式(6)得到预测框信息：

Box＝10×H/s×W/s (6)；

步骤4.2：使用SmoothL1loss函数来回归中心点的预测框信息参数；

因为预测框的坐标信息是以关键点为原点的坐标系，所以预测框与真实框一般都有重叠部分，实际中，边界框的宽高比的一致性也是一个重要的几何因素，为了在目标框有重叠甚至包含的情况下使回归更准确、更快，在使用SmoothL1loss来回归参数同时，引入宽高比的一致性参数来加速预测框的回归，如公式(7)所示：

L_v＝α×V (7)；

其中，α为一个正的平衡参数，为预测框的回归提供方向，V为宽高比的一致性的差距；

V如公式(8)所示：

其中，w^gt，h^gt为真实框的宽和高，w，h为预测框的宽和高；

平衡参数α如公式(9)所示：

IoU能够为预测框的回归提供方向，相对于非重叠的情况，有重叠并且重叠部分在回归中的优先级较高；

IoU可以很好的反映预测框与真实框的检测效果，并且具有尺度不变性，引入宽高比L_v函数之后的虽然能够更加准确、快速的回归，但是能否回归一个较好的预测框是另一个问题所在，而任何一个小角度的变化都会对训练的总损失有很大的影响，而且会导致预测框与真实框之间的IoU值很大；

为了让预测框与真实框更加重合，对角度θ进行优化，角度θ的loss函数如公式(11)表示：

使用角度θ的loss函数来让预测框和真实框的斜率具有一致性，从而优化预测框的方向。

实施例5

基于实施例1，对步骤5进行优化，将边界框分为水平框和旋转框，并分别进行处理，具体的：

基于上述多个实施例，对步骤5进行优化，具体的：

步骤5.1：通过公式(12)得到预测框分类信息：

Reg＝1×H/s×W/s (12)；

其中，y和z分别是预测框的和真实框的类别，N为实例的总数。分类的目的是因为水平框的向量会处象限边界处，四个向量需要位于四个象限，就难以区分向量类型，这样的分类策略可以很容易的处理一些水平框。输出映射最终由sigmoid函数处理。

为证明本方法的效果进行以下实验：

1.实验环境：

硬件设备：CPU为Intel(R)Core(TM)i9-10900K CPU@3.70GHz，内存大小为32GB，GPU型号为NVIDIAGeforceRTX3090。

软件平台：Python版本为3.83，CUDA版本为11.1，使用PyTorch版本为17.0的深度学习框架进行模型结构搭建。

2.实验数据集：

为衡量本发明的最终结果，选取DOTA-v1.0和HRSC2016两个遥感图像数据集进行研究，DOTA数据集共包含2806张遥感图像(图片尺寸从800*800到4000*4000)，一共188.282个实例，分为15个类别：飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池。每个实例都由一个四边形边界框标注，顶点按顺时针顺序排列。官方使用1/2的图像作为训练集，1/6作为验证集，1/3作为测试集。测试集没有公开，需要上传至服务器。HRSC2016数据集用于舰船检测，含1070张图片和2976个实例，使用旋转框标注。使用其中的626张图片进行训练，444张图片用于测试。

3.实验设置：

设置BatchSize大小为14，设置学习率为0.0002，每次实验执行100个epoch，采用自适应矩估计(Adam)优化训练参数。

实验结果如表1～2所示，在公开数据集上的mAP达到了最好的性能。其中SSD作为单级探测器的代表行算法，虽然具有很快的运行速度，但其精度低于两级探测器。RDFPN从FasterR-CNN中学习角度参数。R2PN和R2CNN最初用于文本场景检测。结果是由第三方重新实现的用于DOTA数据集检测的版本。R2CNN在RPN的输出处汇集了多种尺寸的区域方案。RoI变换器、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。ICN采用图像级联网络来丰富R-DFPN前的特征。RRD采用活化旋转滤波器来提升性能。ROITrans通过学习空间变换将水平感兴趣区域转换为定向感兴趣区域。在消融实验中，角度loss能够将mAP提高0.6％(89.22％-88.6％)。宽高比loss能够将mAP提高0.2％(88.88％-88.6％)。角度loss与宽高比loss相结合能够将mAP提高1.2％(89.45％-88.6％)。

表1与DOTA-v1.0中最先进的方法进行比较

Models	Backbone	P1	Bd	Br	Gft	Sv	Lv	Sh	Tc	Bc	St	Sbf	Ra	Ha	Sp	He	mAP
																		SSD	VGG16	39.8	9.1	0.6	13.2	0.3	0.4	1.1	16.2	27.6	9.2	27.2	9.1	3	1.1	1	10.6
FR-O	ResNet101	79.1	69.1	17.2	63.5	34.2	37.2	36.2	89.2	69.6	59	49	52.5	46.7	44.8	46.3	52.9
																		RefineDet	ResNet101	80.7	44.2	27.5	32.8	61.2	76.1	78.8	90.7	69.9	73.9	24.9	31.9	55.8	51.4	26.8	55.1
R-DFPN	ResNet101	80.9	65.8	33.8	58.9	55.8	50.9	54.8	90.3	66.3	68.7	48.7	51.8	55.1	51.3	35.9	57.9
																		CenterNet	ResNet101	81	64	22.6	56.6	38.6	64	64.9	90.8	78	72.5	44	41.1	55.5	55	57.4	59.1
R2CNN	ResNet101	80.9	65.7	35.3	67.4	59.9	50.9	55.8	90.7	66.9	72.4	55.1	52.2	55.1	53.4	48.2	60.7
																		ICN	dResNet101	81.4	74.3	47.7	70.3	64.9	67.8	70	90.8	79.1	78.2	53.6	62.9	67	64.2	50.2	68.2
RoI-Transformer	ResNet101	88.64	78.52	43.44	75.92	68.81	73.68	83.59	90.74	77.27	81.46	58.39	53.54	62.83	58.93	47.67	69.56
																		P-RSDet	ResNet101	88.58	77.84	50.44	69.29	71.1	75.79	78.66	90.88	80.1	81.71	57.92	63.03	66.3	69.77	63.13	72.3
BBAVectors	ResNet101.	88.35	79.96	50.69	62.18	78.73	78.98	87.94	90.85	83.58	84.35	54.13	60.24	65.22	64.28	55.7	72.32
																		Our method	ResNet101	88.72	84.31	52.47	68.12	75.87	74.73	86.59	90.86	84.56	84.31	48.28	62.14	64.62	64.23	57.38	72.48

表2与HRSC2016中最先进的方法进行比较

Method	mAP
		CP	55.7
BL2	69.6
		RC1	75.7
RC2	75.7
		RRPN	79.6
RetinaNet-H	82.8
		RRD	84.3
ROI Trans.	86.2
		BBAVectors	88.6
RetinaNet-R	89.1
		Our Method	89.4

以上所述之实施例，只是本发明的较佳实施例而已，并非限制本发明的实施范围，故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰，均应包括于本发明申请专利范围内。