CN113378686B

CN113378686B - 一种基于目标中心点估计的两阶段遥感目标检测方法

Info

Publication number: CN113378686B
Application number: CN202110630900.4A
Authority: CN
Inventors: 季顺平; 余大文
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-04-15
Anticipated expiration: 2041-06-07
Also published as: CN113378686A

Abstract

本发明涉及一种基于目标中心点估计的两阶段遥感目标检测方法。利用遥感影像以及感兴趣类别目标的标注文件构建样本库，对基于目标中心点估计的两阶段遥感目标检测网络进行训练，学习遥感影像上感兴趣类别目标的特征。利用训练好的网络模型对新的遥感影像进行目标检测，能够实现遥感影像上感兴趣目标的自动类别判定和边界框定位。在本发明方法中，区域建议网络依据遥感影像上目标的空间位置分布特征进行构建，直接生成多类别的目标候选框。与先生成密集的目标候选框再利用非极大值抑制方法从中选出最好的候选框，进行后续目标识别和边界框修正的方法相比，具有更高的效率和精度，更加适用于遥感影像的目标检测任务。

Description

一种基于目标中心点估计的两阶段遥感目标检测方法

技术领域

本发明涉及一种基于目标中心点估计的两阶段遥感目标检测方法，实现了光学遥感影像中感兴趣目标的自动影像定位和识别，可用于城市环境监测、土地利用规划、森林火灾监测、交通流量管理等领域。

背景技术

影像目标检测是计算机视觉和摄影测量中的一个基本任务，它在城市资源环境监测、土地利用规划、森林火灾监测、交通流量管理、地物目标变化检测等方面都具有极为重要的作用。从早期基于手工设计特征和滑动窗口寻找潜在目标的传统算法，到如今占据统治地位的基于深度学习的目标检测方法，从影像中自动识别和定位感兴趣目标的精度和自动化水平已经得到了很大的提升。与近景图像中目标的特点不同，遥感图像中的目标具有更大的尺度和方向(形状)多样性，由于获取影像的传感器类型、成像分辨率、成像条件(光照、大气干扰)的差异，以及目标所处的背景环境的干扰，遥感影像中的目标检测具有很大的挑战性。已有的遥感目标检测算法多从计算机视觉领域的相关研究发展而来，并更多地考虑目标的多尺度特性、方向特性、识别过程中可利用的上下文信息等。但是，在这些已有算法中，遥感图像中目标的位置分布特性却几乎还未被考虑。与自然近景图像中目标的分布不同，遥感影像中，同一类别的目标几乎不存在重叠，因此计算机视觉领域目标检测算法中设计的基于密集锚框机制生成目标候选框的策略，以及后续用于剔除重复候选框的非极大值抑制操作，对于遥感目标检测算法来说，是不必要的，它们甚至会损害目标检测器的精度。考虑到现有的遥感目标检测算法都直接使用了这些策略，设计一种新型的针对于遥感目标位置分布特性的目标检测网络框架是很有必要的。根据遥感影像上目标的实际特点，进行网络结构设计和框架搭建，提高遥感影像上感兴趣目标的自动识别和精确定位(影像上的像素坐标位置)至关重要。

发明内容

本发明针对现有遥感目标检测方法尚未考虑遥感图像中目标的位置分布特性的缺点，提出了一种基于目标中心点估计的两阶段遥感目标检测方法，能够可靠和完整地在遥感影像上定位出目标的边界框并识别出目标所属的类别。

实现本发明目的采用的技术方案是：步骤1，构建基于目标中心点估计的两阶段目标检测网络(Centroid-Inference based Region Convolution Neural Network,CI-RCNN)，该网络用于学习遥感影像上感兴趣目标的特征，并建立学习到的特征与目标输出(类别和坐标信息)间的映射关系；步骤2，利用光学遥感影像数据和目标标注矢量文件构建样本库，利用困难样本挖掘技术、样本库和深度学习平台环境训练网络模型。通过加载训练好的网络模型权重对新的遥感影像进行预测，可实现遥感影像上感兴趣目标的精确影像定位与类别判定。

进一步的，步骤1所述基于目标中心点估计的两阶段目标检测网络包括注意力辅助的特征提取(features extraction)、基于中心点推荐的区域建议网络(Centroid-Inference based Region Proposal Network,CI-RPN)、可变形卷积层(deformableconvolution Layer)、交并比预测和边框回归(Intersection over Uniou(IoU)prediction and bounding box regression)，共4个部分。特征提取部分的基础网络可使用当前流行的残差网络(Residual Network,ResNet)，堆叠沙漏网络(HourglassNet)，深层聚合网络(Deep Layer Aggregation,DLA)等。将基础网络提取出的特征图输入一个设计的尺度注意力模块，用于提升网络模型对于不同尺度大小目标的检测能力。

进一步的，所述的尺度注意力模块包含三个子模块：多尺度特征提取子模块，空间-通道池化子模块，注意力图生成子模块。多尺度特征提取子模块包含三个串联的卷积层，第一层为一个卷积核大小为3×3的卷积操作(convolution)和一个修正线性单元(Rectified Linear Unit,ReLU)，用于将输入特征图的通道数量缩减为原始输入的1/4；第二层由4个卷积核大小不同的卷积操作(convolution)+修正线性单元(Rectified LinearUnit,ReLU)并联组成，卷积核大小分别为1×1，3×3，5×5，7×7；将第二层4个卷积层的输出沿着通道方向串联后输入到第三层中，第三层也由一个3×3的卷积操作(convolution)和一个修正线性单元(Rectified Linear Unit,ReLU)组成，用于融合提取出的多尺度特征。然后，多尺度特征提取子模块的输出被输入到空间-通道池化子模块中，空间-通道池化子模块包含并行的沿着空间方向上的全局池化操作和沿着通道方向上的全局池化操作(global pooling)，将两个池化模块的输出扩展到相同的维度后，进行逐点相乘操作，再输入到注意力图生成子模块中，产生注意力权重图。注意力图生成子模块包含两个串联的卷积核大小为3×3的卷积操作(convolution)，第一个卷积后接上一个修正线性单元(Rectified Linear Unit,ReLU)，第二个卷积后接上一个sigmoid激活操作，进一步融合特征和给出归一化后的注意力权重图。利用注意力权重图残差结构对特征提取基础网络提取出的特征图进行调整，注意力权重图与原始特征图(即输入特征图)逐点相乘的结果再与原始特征图逐点相加，生成注意力增强后的特征图，用于作为后续的基于中心点推荐的区域建议网络部分的输入。

进一步的，所述的基于中心点推荐的区域建议网络包括三个并行的预测器：中心预测器，尺度预测器，偏移预测器。中心预测器，尺度预测器，偏移预测器都由一个3×3的卷积操作(convolution)+一个修正线性单元(Rectified Linear Unit,ReLU)和一个1×1的卷积操作(convolution)+一个修正线性单元(Rectified Linear Unit,ReLU)组成。在中心预测器输出的特征图上，第i类目标的中心在第i通道的特征图上具有最强的响应值；尺度预测器则预测当前位置目标的宽度和高度属性；偏移预测器给出目标中心点可能存在的子像素的偏移量。取中心点预测器输出特征图所有通道上的前N个峰值点，以及它们对应的尺度和中心点偏移选项，可恢复出N个目标的候选框。将这N个候选框的坐标映射到注意力增强后的特征图上，裁剪出对应区域的特征图，再将这些特征图重采样至相同的尺寸大小(即ROI Align操作)，获得所有候选目标区域的特征图，作为后续部分的输入。

进一步的，所述的可变形卷积层部分由三组可变形卷积(deformableconvolution)+修正线性单元(Rectified Linear Unit,ReLU)组成。可变形卷积(deformable convolution)的卷积核大小为3×3。可变形卷积层进一步提取候选目标区域范围内的特征。

进一步的，所述的交并比预测和边框回归部分由三个全连接层(fully connectedlayer)组成，且在第三个全连接层处分为2个分支。其中，交并比预测分支负责预测网络预测出的目标候选框和真实的目标边界框之间的交并比，若不相交(候选框中不包含感兴趣的目标)，则这一分支输出结果的理想值为0。边框回归分支则用于预测网络模型给出的目标边界框与真实目标真实边界框之间的偏移修正量，用于进一步精化网络预测出的目标边界框，使其更贴合目标真是的边界位置。

进一步的，步骤2的具体实现包括如下子步骤，

步骤2.1，将遥感影像上所有感兴趣的目标，用水平边界包容盒的形式标注出来，记录下类别信息，生成标注文件。将原始大尺度的遥感影像裁剪为网络模型支持的标准大小，即1024×1024像素，同时裁剪对应的标注文件，并转换为通用的JOSN标注格式。裁剪时，需要保留一定的重叠度，以保证所有的影像目标都要至少完整地在训练数据中出现一次，对于在裁剪后的影像上仅覆盖原始目标小部分的区域，使用黑色(全零值)填充，并去掉其标注信息。

步骤2.2，训练两阶段目标检测网络；将步骤2.1中生成的裁剪影像块和对应的标注文件作为训练数据，使用困难样本挖掘技术和设计的损失函数迭代训练神经元网络直到模型收敛。

步骤2.3，给定待检测的新遥感影像，以一定的步长重叠裁剪原始大尺度遥感影像并输入到已加载训练权重的网络模型中，得到每个裁剪影像上的检测结果。同样的，步长的设置应保证待检测的目标能够至少一次完整地出现在裁剪后的影像中。将所有检测结果的坐标映射回原始遥感影像上，再通过全局非极大值抑制方法进行去除重复的检测和保留最优结果，得到可靠和完整的目标边界框坐标以及这些目标所属的类别。

进一步的，步骤2.2中所述的边框回归部分使用的损失函数为特殊设计的联合损失函数，它的表达形式为

Loss＝SmoothL₁+L_CIoU

其中

Smooth L₁ Loss中x表示预测值与真实值之间的差异。CIoU Loss中ρ²(b^pt,b^gt)表示预测框与真实框中心点之间的欧氏距离，c为包含预测框和真实框的最小外界矩形的对角线距离，且有

IoU表示预测框与真实框之间的交并比(即两者交集与并集的商)，w^gt和h^gt表示真实框的宽度和高度，w^pt和h^pt表示预测框的宽度和高度。

交并比预测分支使用的损失函数为Smooth L1 Loss。

进一步的，使用的困难样本挖掘技术是基于Top K Loss的策略。对于网络模型预测出的K个候选目标，将它们在交并比预测分支和边框回归分支的损失值相加和排序，取损失值最大的前50％进行反向传播和参数优化。

进一步的，所述的全局非极大值抑制方法将网络模型预测的交并比分数作为判别预测结果好坏的依据，首先确定出交并比分数最高的预测框，然后将与交并比分数最高的预测框重叠程度较大的预测框的交并比分数进行衰减，最后通过设置阈值去除这些多余的检测框。最后，网络输出最终保留的目标的边界框坐标和这些目标所属的类别。

本发明具有如下优点：1)不需要复杂的手工设计特征的过程，通过简单的、端到端的可训练模型，完成遥感影像上感兴趣目标的自动定位和识别。2)可复用性强，可以在附加数据上继续进行模型的训练，可以用于连续在线学习，可持续不断迭代优化。3)具有可扩展性，训练好的神经元网络模型经过调整，可应用于其他用途，如基于遥感影像的变化检测，基于遥感影像的目标跟踪，基于遥感影像的目标分类、基于遥感影像的图像检索等。4)鲁棒性强，网络模型是根据遥感影像中目标的特点而设计，综合考虑了目标的尺度特性、方向特性、位置分布特性等，对于遥感影像上各种类型的物体也都可以取得很好的检测结果。

附图说明

图1是本发明提出的基于目标中心点估计的两阶段目标检测网络结构示意图。

图2是本发明提出的尺度注意力模块结构示意图，其中(a)为多尺度特征提取子模块，(b)为空间-通道池化子模块，(c)为注意力图生成子模块。

图3是本发明提出的基于中心点推荐的区域建议网络结构示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步的具体说明。

本发明实施例提供提出了一种基于目标中心点估计的两阶段遥感目标检测方法，包括如下步骤：

步骤1，构建基于目标中心点估计的两阶段目标检测网络(Centroid-Inferencebased Region Convolution Neural Network,CI-RCNN)，该网络用于学习遥感影像上感兴趣目标的特征，并建立学习到的特征与目标输出(类别和坐标信息)间的映射关系。

基于目标中心点估计的两阶段目标检测网络包括注意力辅助的特征提取(features extraction)、基于中心点推荐的区域建议网络(Centroid-Inference basedRegion Proposal Network,CI-RPN)、可变形卷积层(deformable convolution Layer)、交并比预测和边框回归(Intersection over Uniou(IoU)prediction and bounding boxregression)，共4个部分。特征提取部分的基础网络可使用当前流行的残差网络(ResidualNetwork,ResNet)，堆叠沙漏网络(HourglassNet)，深层聚合网络(Deep LayerAggregation,DLA)等。将基础网络提取出的特征图输入一个设计的尺度注意力模块，用于提升网络模型对于不同尺度大小目标的检测能力。

尺度注意力模块包含三个子模块：多尺度特征提取子模块，空间-通道池化子模块，注意力图生成子模块。多尺度特征提取子模块包含三个串联的卷积层，第一层为一个卷积核大小为3×3的卷积操作(convolution)和一个修正线性单元(Rectified LinearUnit,ReLU)，用于将输入特征图的通道数量缩减为原始输入的1/4；第二层由4个卷积核大小不同的卷积操作(convolution)+修正线性单元(Rectified Linear Unit,ReLU)并联组成，卷积核大小分别为1×1，3×3，5×5，7×7；将第二层4个卷积层的输出沿着通道方向串联后输入到第三层中，第三层也由一个3×3的卷积操作(convolution)和一个修正线性单元(Rectified Linear Unit,ReLU)组成，用于融合提取出的多尺度特征。然后，多尺度特征提取子模块的输出被输入到空间-通道池化子模块中，空间-通道池化子模块包含并行的沿着空间方向上的全局池化操作和沿着通道方向上的全局池化操作(global pooling)，将两个池化模块的输出扩展到相同的维度后，进行逐点相乘操作，再输入到注意力图生成子模块中，产生注意力权重图。注意力图生成子模块包含两个串联的卷积核大小为3×3的卷积操作(convolution)，第一个卷积后接上一个修正线性单元(Rectified Linear Unit,ReLU)，第二个卷积后接上一个sigmoid激活操作，进一步融合特征和给出归一化后的注意力权重图。利用注意力权重图残差结构对特征提取基础网络提取出的特征图进行调整，注意力权重图与原始特征图逐点相乘的结果再与原始特征图逐点相加，生成注意力增强后的特征图，用于作为后续的基于中心点推荐的区域建议网络部分的输入。

基于中心点推荐的区域建议网络包括三个并行的预测器：中心预测器，尺度预测器，偏移预测器。中心预测器，尺度预测器，偏移预测器都由一个3×3的卷积操作(convolution)+一个修正线性单元(Rectified Linear Unit,ReLU)和一个1×1的卷积操作(convolution)+一个修正线性单元(Rectified Linear Unit,ReLU)组成。在中心预测器输出的特征图上，第i类目标的中心在第i通道的特征图上具有最强的响应值；尺度预测器则预测当前位置目标的宽度和高度属性；偏移预测器给出目标中心点可能存在的子像素的偏移量。取中心点预测器输出特征图所有通道上的前N个峰值点，以及它们对应的尺度和中心点偏移选项，可恢复出N个目标的候选框。将这N个候选框的坐标映射到注意力增强后的特征图上，裁剪出对应区域的特征图，再将这些特征图重采样至相同的尺寸大小(即ROIAlign操作)，获得所有候选目标区域的特征图，作为后续部分的输入。

可变形卷积层部分由三组可变形卷积(deformable convolution)+修正线性单元(Rectified Linear Unit,ReLU)组成。可变形卷积(deformable convolution)的卷积核大小为3×3。可变形卷积层进一步提取候选目标区域范围内的特征。

交并比预测和边框回归部分由三个全连接层(fully connected layer)组成，且在第三个全连接层处分为2个分支。其中，交并比预测分支负责预测网络预测出的目标候选框和真实的目标边界框之间的交并比，若不相交(候选框中不包含感兴趣的目标)，则这一分支输出结果的理想值为0。边框回归分支则用于预测网络模型给出的目标边界框与真实目标真实边界框之间的偏移修正量，用于进一步精化网络预测出的目标边界框，使其更贴合目标真是的边界位置。

步骤2，利用光学遥感影像数据和目标标注矢量文件构建样本库，利用困难样本挖掘技术、样本库和深度学习平台环境训练网络模型。通过加载训练好的网络模型权重对新的遥感影像进行预测，可实现遥感影像上感兴趣目标的精确影像定位与类别判定。

步骤2.2，训练两阶段目标检测网络。将步骤2.1中生成的裁剪影像块和对应的标注文件作为训练数据，使用困难样本挖掘技术和设计的损失函数迭代训练神经元网络直到模型收敛。

边框回归部分使用的损失函数为特殊设计的联合损失函数，它的表达形式为

Loss＝SmoothL₁+L_CIoU

其中

交并比预测分支使用的损失函数为Smooth L1 Loss。使用的困难样本挖掘技术是基于Top K Loss的策略。对于网络模型预测出的K个候选目标，将它们在交并比预测分支和边框回归分支的损失值相加和排序，取损失值最大的前50％进行反向传播和参数优化。

步骤2.3，给定待检测的新遥感影像，以一定的步长重叠裁剪原始大尺度遥感影像并输入到已加载训练权重的网络模型中，得到每个裁剪影像上的检测结果。同样的，步长的设置应保证待检测的目标能够至少一次完整地出现在裁剪后的影像中。将所有检测结果的坐标映射回原始遥感影像上，再通过全局非极大值抑制方法进行去除重复的检测和保留最优结果，得到可靠和完整的目标边界框坐标以及这些目标所属的类别。其中，全局非极大值抑制方法将网络模型预测的交并比分数作为判别预测结果好坏的依据，首先确定出交并比分数最高的预测框，然后将与交并比分数最高的预测框重叠程度较大的预测框的交并比分数进行衰减，最后通过设置阈值去除这些多余的检测框。最后，网络输出最终保留的目标的边界框坐标和这些目标所属的类别。

实施例：

首先按照本发明方法构建基于目标中心点估计的两阶段目标检测网络(Centroid-Inference based Region Convolution Neural Network,CI-RCNN)。然后获取训练样本数据，使用样本数据训练网络模型。实施例中使用的样本数据为宁波市电塔遥感影像数据，包含228张训练影像和76张测试影像，影像尺寸约6000×6000像素，其中所有的电塔标注都经过人工目视检查。我们将训练集中的原始影像以512像素为步长，裁剪成1024×1024像素大小的影像块，输入到网络模型中进行迭代训练，直到模型收敛得到最优权重文件。模型训练完成后，将待检测的测试遥感影像输入训练好的网络模型中，进行目标检测，即可得到影像上电塔目标的边界包容盒。

为了验证本发明方法的有效性和先进性，我们将提出的方法与其他最新的目标检测算法进行对比。包括在各种目标检测任务中表现突出的Faster R-CNN，PANet，RetinaNet，YOLOv4，和CenterNet目标检测算法。所有的方法在相同的硬件环境(一台装有NVIDIA GeForce GTX 1080 Ti GPU、Intel i5-8400 CPU，Windows操作系统的个人电脑)上，使用相同的训练数据进行模型训练。所有方法的预测结果依据COCO评价测度进行定量评估,并记录在表1中。从表1的平均精度均值(mean Average Precision,mAP)主指标来看，本发明方法的效果优于其它几种先进的目标检测方法。AP₇₅指标上，(以检测结果与真实目标边界框之间的交并比大于等于75％作为阈值，统计正确检测的实例)我们的方法与其他已有方法相比具有更大的优势。与这些已有的方法对比，证明了本发明的方法具有更好的鲁棒性并能够得到更加准确的目标边界框识别和定位结果。因此，本发明的方法具有较好的工程实用价值。

表1本发明方法与其它先进的目标检测方法精度比较

本文中所描述的具体实施仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于，包括如下步骤：

步骤1，构建基于目标中心点估计的两阶段目标检测网络CI-RCNN，该网络用于学习遥感影像上感兴趣目标的特征；

所述基于目标中心点估计的两阶段目标检测网络包括第一个阶段中的注意力辅助的特征提取网络，基于中心点推荐的区域建议网络，第二阶段中的可变形卷积层，交并比预测和边框回归共4个部分；

所述的注意力辅助的特征提取网络包括一个基础网络和一个尺度注意力模块；所述尺度注意力模块包含三个子模块：多尺度特征提取子模块，空间-通道池化子模块，注意力图生成子模块；多尺度特征提取子模块包含三个串联的卷积层，第一层为一个卷积核大小为3×3的卷积操作和一个修正线性单元，用于将输入特征图的通道数量缩减为原始输入的1/4；第二层由4个卷积核大小不同的卷积操作+修正线性单元并联组成，卷积核大小分别为1×1，3×3，5×5，7×7；将第二层4个卷积层的输出沿着通道方向串联后输入到第三层中，第三层也由一个3×3的卷积操作和一个修正线性单元组成，用于融合提取出的多尺度特征；空间-通道池化子模块包含并行的沿着空间方向上的全局池化操作和沿着通道方向上的全局池化操作，将两个池化操作的输出扩展到相同的维度后，进行逐点相乘操作，再输入到注意力图生成子模块中，产生注意力权重图；注意力图生成子模块包含两个串联的卷积核大小为3×3的卷积操作，第一个卷积后接上一个修正线性单元，第二个卷积后接上一个sigmoid激活操作，进一步融合特征和给出归一化后的注意力权重图；将注意力权重图与输入特征图逐点相乘的结果再与输入特征图逐点相加，生成注意力增强后的特征图，用于作为后续的基于中心点推荐的区域建议网络部分的输入；

所述的基于中心点推荐的区域建议网络包括三个并行的预测器：中心预测器，尺度预测器，偏移预测器，中心预测器，尺度预测器，偏移预测器都由一个3×3的卷积操作+一个修正线性单元和一个1×1的卷积操作+一个修正线性单元组成；在中心预测器输出的特征图上，第i类目标的中心在第i通道的特征图上具有最强的响应值；尺度预测器则预测当前位置目标的宽度和高度属性；偏移预测器给出目标中心点可能存在的子像素的偏移量，取中心点预测器输出特征图所有通道上的前N个峰值点，以及它们对应的尺度和中心点偏移选项，可恢复出N个目标的候选框；将这N个候选框的坐标映射到注意力增强后的特征图上，裁剪出对应区域的特征图，再将这些特征图重采样至相同的尺寸大小，即ROI Align操作，获得所有候选目标区域的特征图，作为后续部分的输入；

步骤2，利用光学遥感影像数据和目标标注矢量文件构建样本库，利用该样本库、困难样本挖掘技术和深度学习平台环境训练CI-RCNN网络模型；通过加载训练好的CI-RCNN网络模型权重对新的遥感影像进行预测，实现遥感影像上感兴趣目标的精确定位与类别判定。

2.根据权利要求1所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：所述的可变形卷积层部分由三组可变形卷积加修正线性单元组成；可变形卷积的卷积核大小为3×3，可变形卷积层进一步提取候选目标区域范围内的特征。

3.根据权利要求1所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：所述的交并比预测和边框回归部分由三个全连接层组成，且在第三个全连接层处分为2个分支：交并比预测分支和边框回归分支；其中，交并比预测分支负责预测网络预测出的目标候选框和真实的目标边界框之间的交并比，若不相交，即候选框中不包含感兴趣的目标，则这一分支输出结果的理想值为0；边框回归分支则用于预测网络模型给出的目标边界框与真实目标真实边界框之间的偏移修正量，用于进一步精化网络预测出的目标边界框，使其更贴合目标真是的边界位置。

4.根据权利要求1所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：步骤2的具体实现包括如下子步骤，

步骤2.1，将遥感影像上所有感兴趣的目标，用水平边界包容盒的形式标注出来，记录下类别信息，生成标注文件；将原始大尺度的遥感影像裁剪为网络模型支持的标准大小，同时裁剪对应的标注文件，并转换为通用的JOSN标注格式；裁剪时，需要保留一定的重叠度，以保证所有的影像目标都要至少完整地在训练数据中出现一次，对于在裁剪后的影像上仅覆盖原始目标小部分的区域，使用黑色，即全零值填充，并去掉其标注信息；

步骤2.2，训练两阶段目标检测网络，将步骤2.1中生成的裁剪影像块和对应的标注文件作为训练数据，使用困难样本挖掘技术和设计的损失函数迭代训练神经元网络直到模型收敛；

步骤2.3，给定待检测的新遥感影像，以一定的步长重叠裁剪原始大尺度遥感影像并输入到已加载训练权重的网络模型中，得到每个裁剪影像上的检测结果；同样的，步长的设置应保证待检测的目标能够至少一次完整地出现在裁剪后的影像中；将所有检测结果的坐标映射回原始遥感影像上，再通过全局非极大值抑制方法进行去除重复的检测和保留最优结果，得到可靠和完整的目标边界框坐标以及这些目标所属的类别。

5.根据权利要求3所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：边框回归分支使用的损失函数为特殊设计的联合损失函数，它的表达形式为：

Loss_box＝SmoothL₁+L_CIoU

其中

Smooth L₁中x表示预测值与真实值之间的差异，L_CIoU中ρ²(b^pt，b^gt)表示预测框与真实框中心点之间的欧氏距离，c为包含预测框和真实框的最小外界矩形的对角线距离，且有

IoU表示预测框与真实框之间的交并比，w^gt和h^gt表示真实框的宽度和高度，w^pt和h^pt表示预测框的宽度和高度；

交并比预测分支使用的损失函数为Smooth L1 Loss。

6.根据权利要求1所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：所述困难样本挖掘技术是基于Top K Loss的策略，对于网络模型预测出的K个候选目标，将它们在交并比预测分支和边框回归分支的损失值相加和排序，取损失值最大的前P％进行反向传播和参数优化。

7.根据权利要求4所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：所述全局非极大值抑制方法将网络模型预测的交并比分数作为判别预测结果好坏的依据，确定出交并比分数最高的预测框，然后将与交并比分数最高的预测框重叠程度较大的预测框的交并比分数进行衰减，最后通过设置阈值去除这些多余的检测框；最后，网络输出最终保留的目标的边界框坐标和这些目标所属的类别。

8.根据权利要求1所述的一种基于目标中心点估计的两阶段遥感目标检测方法，其特征在于：所述基础网络为残差网络或堆叠沙漏网络或深层聚合网络。