CN114299011A

CN114299011A - 一种基于深度学习的遥感目标四边形框快速检测方法

Info

Publication number: CN114299011A
Application number: CN202111617324.6A
Authority: CN
Inventors: 戴国骏; 金仁操; 支浩仕; 张桦; 吴以凡; 周文晖; 黄金来
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-08

Abstract

本发明公开了一种基于深度学习的遥感目标四边形框快速检测方法，本发明方法预测结果精准，对目标进行四边形框的回归，精准描述了目标的轮廓；对于图像特征的提取，使用了融合多层特征的深度神经网络，有利与小目标众多的遥感场景的目标检测；优化训练过程，在正负样本分配的过程中采用SimOTA策略，提高了模型对不同大小目标的均衡预测能力；对结果进行阈值过滤，筛选掉干扰目标，提高识别精度；检测速度快，达到了实时检测的水平，有实际应用的价值。

Description

一种基于深度学习的遥感目标四边形框快速检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的遥感目标四边形框快速检测方法。

背景技术

遥感(Remote sensing)是指非接触的，远距离的探测技术。通过不与对象接触获取信息，并对信息进行分析从而得到对象的有关信息的一门科学和技术。由于遥感能够提供大尺度，动态的观测，且不受地理位置、天气和人为条件的限制，在不同的时空尺度下不断的提供多种地面信息，在资源探测、测绘制图、军事指挥、环境监测、城市规划等领域被广泛地应用，起着举足轻重的作用。例如利用遥感图像进行城市规划、天气的监测与预报、自然灾害的灾情评估等应用已经融入于人们的日常生活。

高分辨率光学遥感图像目标检测(Object Detection in Aerial Images)是海量遥感图像数据分析的关键技术，在搜救、侦察、国土规划、地质灾害监测等军民领域具有重要的应用价值。尤其在精确绘制城市的二维或三维地图、自然灾害(例如地震、海啸、洪水、火灾等)造成的损毁情况检测及目标的变化检测中变得迫切需要。近年来基于深度学习的目标检测算法在自然图像识别任务上有了突破性进展，但由于存在遥感成像视角的特殊性，致使深度学习技术直接应用于遥感图像目标检测面临着目标方向多变的严峻挑战。

早期的基于手工设计特征的算法,由于特征设计复杂且效果欠佳,渐渐被基于深度学习的方法所取代。然而现有的基于深度学习的遥感图像目标检测算法多采用多阶段算法，速度相对较慢面对对实时性要求较高的项目如军事侦察，武器制导等，仍有较大缺陷。按检测框形式划分，现有遥感目标的检测大致可以分成水平检测和旋转检测两种。旋转框较之水平框对物体方位的定位更加精确，但是面对较为不规则物体时回归的框仍不能准确描述物体的轮廓。

随着空间技术发展，尤其是地理信息系统和全球定位系统技术的发展及相互渗透。遥感目标检测方向得到了越来越大的重视，技术手段也得到了显著的发展，应用也更加广泛，相应的，以下几个问题也越来越突出：

(1)某些遥感目标检测任务对实时性要求较高。在军事侦察，灾情监测等应用方向上对检测的速度有较高的要求。采用现有的遥感图像目标检测算法不能满足这些任务上的需求。

(2)遥感图像目标检测对物体方位精度的要求高。现有的基于深度学习的遥感图像目标检测算法大多检测物体的水平框或者旋转矩形框，不能准确地描述物体的轮廓

发明内容

本发明为了满足遥感目标检测对实时性精确性的要求，实现物体的方位快速精准地回归，提出了一种基于深度学习的遥感目标四边形框快速检测方法。

为了实现这一目的，本发明的技术方案，包括以下步骤：

步骤1、收集卫星遥感图像，待检测的物体类别进行四边形框的标注，建立卫星遥感图像目标检测数据集。

步骤2、利用卫星遥感图像目标检测数据集对设计好的遥感目标四边形框快速检测模型进行训练。

步骤3、将模型部署到相应的设备上，对采集到的卫星遥感图像进行实时的检测。

上述步骤1中，建立卫星遥感图像目标检测数据集，具体实施步骤如下：

1-1.数据采集，首先收集包含待预测物体的卫星遥感图片，并使收集到的图像中的待预测物体种类的数量尽量地均衡。

1-2.数据标注，对收集到的图像使用rolabelImg进行人工四边形框标注，标出想要预测的物体。

1-3.数据预处理，对标注好的大像素高分辨率图像，切割成可输入模型的大小为640x640的图片，并相应调整标注文件。

1-4.数据集划分和数据保存，标注完的结果保存为.txt文件，保存的关键信息包括目标框顺时针排列的四个端点的坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)和目标类别id。以1：9比例划分测试集和训练集并把所有图片的绝对地址逐行分别保存到不同.txt文件中。其中测试集充当验证集。

所述的步骤2中利用卫星遥感图像目标检测数据集对遥感目标四边形框快速检测模型进行训练，需要进行多轮训练，训练次数根据实际情况设定，具体实现如下：

遥感目标四边形框快速检测模型基于YOLOX模型改进而来；

2-1.数据载入，数据增强(Pipeline)。在数据载入的过程中加载的annotation为目标框顺时针排列的四个端点的坐标和目标类别id。如果要保证训练出的模型有足够的泛化性，就需要保证有足够多的数据来进行训练，当只有有限的数据或者为了达到一个更好的泛化性，需要对有限的数据进行数据增强。所述的数据增强方法包括随机仿射变换、色彩抖动、对比度变换、噪声扰动、Mosaic数据增强。在每一轮训练的数据载入时，加载的图片会打乱后，再进行上述的数据增强，然后输入到模型进行训练，每轮训练时采用的数据增强参数不同。

2-2.网络主体(Backbone)。遥感目标四边形框快速检测模型使用CSP-darknet作为Backbone进行提取特征。训练集数据首先经过Focus模块，即通过分割进行下采样得到原图二分之一大小的输入，后分别经过多个CBS，CSP，SPP模块，完成特征的提取。

2-3.特征融合(Neck)。遥感目标四边形框快速检测模型采用与YOLOX相同的FPN结构进行特征融合，FPN自上向下，将高层的特征信息，通过上采样的方式进行传递融合，得到三个通道尺度分别为20x20,40x40,80x80大小的特征图，进行后续的目标预测。

2-4.网络输出(Head)。遥感目标四边形框快速检测模型在每个通道通过解偶方式的输出大小分别为HxHxC,HxHx1,HxHx4的预测张量，分别表示目标的类别，目标的前景背景预测，目标的水平框表示，其中HxH表示特征图大小,取值分别为20x20,40x40,80x80,C表示物体的种类，其中目标的水平框表示的四个参数分别表示框相对与锚框的中心点和长宽,最终得到8400个预测目标。改进的遥感目标四边形框快速检测模型，输出的目标框参数为目标框相对于锚框的仿射矩阵的6个参数,a,b,c,d,e,f，通过与对应的锚框的四个顶点坐标作矩阵乘法所得到的四点坐标即是四边形框的四个顶点坐标。

2-5.正负样本分配。遥感目标四边形框快速检测模型先根据锚中心点和目标框的坐标相对位置的进行初筛，然后采用YOLOX的SimOTA策略进行正负样本分配。

首先对每个锚框，寻找目标框中心点落在锚框范围内的所有目标框。再对每个目标框以目标框中心点为基准，设置边长为4的正方形，挑选在正方形内的所有锚框。同时满足上述两个条件的锚框目标框对即为初筛结果。根据初筛结果，提取网络预测的候选检测框位置、前景背景目标分数和类别分数，结合目标框计算Loss函数。对于每个目标框，挑选10个IOU最大的候选框。最后根据总Loss最小的原则给每个目标框分配预测框。

2-6.损失函数(Loss)。遥感目标四边形框快速检测模型损失函数由前景背景损失、分类损失和框回归损失三部分组成，其中前景背景损失和分类损失采用交叉熵损失，框回归损失采用仿射矩阵参数的L1损失。

交叉熵损失计算公式如下所示：

其中参数的含义如下：

M:类别的数量；

y_ic:符号函数(0或1)，如果样本i的真实类别等于c取1，否则取0；

p_ic:观测样本i属于类别c的预测概率；

仿射参数的L1损失计算公式如下：

其中，参数定义如下：

N：目标框总数；

M_i：分配给第i个目标框的预测框总数；

x_ij：目标框i的第j个预测框的六个参数；

目标框i的六个参数；

总Loss计算如下：

Loss＝λ_objLoss_obj+λ_clsLoss_cls+λ_boxLoss_box

其中，参数定义如下：

Loss_obj：前景背景损失；

λ_obj：前景背景损失权重；

Loss_cls：分类损失；

λ_cls：分类损失权重；

λ_box：框回归损失权重；

2-7.模型验证。在每一轮模型训练结束后，对验证集的图片进行测试，验证模型的训练效果。

2-8.在设定的训练轮数结束后，选取验证结果最好的模型权重作为后续部署用的参数。

所述的步骤3中将模型部署到相应的设备上，对采集到的卫星遥感图像进行实时的检测，实现如下：

3-1.部署∶

将训练好的遥感目标四边形框快速检测模型转换到相应部署框架的格式，部署到相应的设备上。

3-2.检测：

将遥感设备实时采集的图像，输入到遥感目标四边形框快速检测模型进行预测。对于每一个预测框有一个置信度，预设置信度高于0.3为一个疑似目标，并进行NMS(Non-Maximum Suppression)过滤，即当两个预测框交并比大于一个阈值时，则认为两个预测框标定的是同一个目标，对同一个目标一般存在多个预测框，在这些预测框中选取置信度最高的框作为最后的结果。输出其坐标信息和类别信息。

本发明相对于现有技术具有如下的优点及效果：

1、预测结果精准，对目标进行四边形框的回归，精准描述了目标的轮廓；

2、对于图像特征的提取，使用了融合多层特征的深度神经网络，有利与小目标众多的遥感场景的目标检测；

3、优化训练过程，在正负样本分配的过程中采用SimOTA策略，提高了模型对不同大小目标的均衡预测能力；

4、对结果进行阈值过滤，筛选掉干扰目标，提高识别精度。

5、检测速度快，达到了实时检测的水平，有实际应用的价值。

附图说明

图1本发明整体的流程图；

图2数据集标注的示意图；

图3大尺寸图像的切割示意图；

图4本深度学习模型训练流程图；

图5本模型整体的网络结构图；

图6锚框生成四边形框的仿射矩阵示意图；

图7两个四边形IOU示意图；

图8模型部署到具体设备的流程图；

图9本模型在公开数据集上检测效果图；

图10类似模型检测指标的对比图。

具体实施方法

如图1所示，为了实现这一目的，本发明的技术方案，包括以下步骤：

1-1.数据采集，首先收集包含待预测物体的卫星遥感图片，并使收集到的图像中的待预测物体种类的数量尽量地均衡，本发明数据来源为开源的DOTA数据集，数据集大，包含物体丰富。

1-2.数据标注，对收集到的图像使用rolabelImg进行人工四边形框标注，标出想要预测的物体,如图2所示。

1-3.数据预处理，对标注好的大像素高分辨率图像，切割成可输入模型的大小为640x640的图片，并相应调整标注文件，如图3所示。

1-4.数据集划分和数据保存，标注完的结果保存为.txt文件，保存的关键信息包括目标框顺时针排列的四个端点的坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)和目标类别id。以1：9比例划分测试集和训练集并把所有图片的绝对地址逐行分别保存到不同.txt文件中。其中测试集可同时充当验证集。

所述的步骤2中利用卫星遥感图像目标检测数据集对遥感目标四边形框快速检测模型进行训练，如图4所示，需要进行多轮训练，训练轮数根据实际情况设定，具体实现如下：

遥感目标四边形框快速检测模型基于YOLOX模型改进而来，其结构如图5所示。YOLOX在YOLOv3-spp基础上通过增加解偶头、SimOTA进行正负样本分配等策略改进而来。作为至今最优秀的单阶段目标检测模型之一，在相同参数量下公开数据集上的测试结果表明,不仅速度有竞争力，更达到了检测效果SOTA(State of the Art)。

2-2.网络主体(Backbone)。遥感目标四边形框快速检测模型使用CSP-darknet作为Backbone进行提取特征。训练集数据首先经过Focus模块，即通过分割进行下采样得到原图二分之一大小的输入，再依次经过CBS模块，CSP1_1模块，CBS模块，CSP1_3模块得到一阶段特征，再经过CBS模块，CSP1_3模块得到二阶段特征，最后经过CBS模块，SPP模块，CSP2_1模块最终完成所有特征的提取。

2-4.网络输出(Head)。遥感目标四边形框快速检测模型在每个通道通过解偶方式的输出大小分别为HxHxC,HxHx1,HxHx4的预测张量，分别表示目标的类别，目标的前景背景预测，目标的水平框表示，其中HxH表示特征图大小,取值分别为20x20,40x40,80x80,C表示物体的种类，其中目标的水平框表示的四个参数分别表示框相对与锚框的中心点和长宽,最终得到8400个预测目标。改进的遥感目标四边形框快速检测模型，输出的目标框参数为目标框相对于锚框的仿射矩阵的6个参数,a,b,c,d,e,f，如图6所示，通过与对应的锚框的四个顶点坐标作矩阵乘法所得到的四点坐标即是四边形框的四个顶点坐标。

首先对每个锚框，寻找目标框中心点落在锚框范围内的所有目标框。再对每个目标框以目标框中心点为基准，设置边长为4的正方形，挑选在正方形内的所有锚框。同时满足上述两个条件的锚框目标框对即为初筛结果。根据初筛结果，提取网络预测的候选检测框位置、前景背景目标分数和类别分数，结合目标框计算Loss函数。对于每个目标框，挑选10个IOU最大的候选框。四边形IOU计算方式如图7所示，其中S2为两个四边形的重叠面积，S1+S2+S3为两个四边形的并集面积。最后根据总Loss最小的原则给每个目标框分配预测框。

交叉熵损失计算公式如下所示：

其中参数的含义如下：

M:类别的数量；

p_ic:观测样本i属于类别c的预测概率；

仿射参数的L1loss计算公式如下：

其中，参数定义如下：

N:目标框总数；

M_i：分配给第i个目标框的预测框总数；

x_ij：目标框i的第j个预测框的六个参数；

目标框i的六个参数；

总Loss计算如下：

Loss＝λ_objLoss_obj+λ_clsLoss_cls+λ_boxLoss_box

其中，参数定义如下：

Loss_obj：前景背景损失；

λ_obj：前景背景损失权重；

Loss_cls：分类损失；

λ_cls：分类损失权重；

λ_box：框回归损失权重；

所述的步骤3中将模型部署到相应的设备上，对采集到的卫星遥感图像进行实时的检测，具体流程如图8所示，实现如下：

3-1.部署：将训练好的遥感目标四边形框快速检测模型转换到相应部署框架的格式，部署到相应的设备上。

3-2.检测：将遥感设备实时采集的图像，输入到遥感目标四边形框快速检测模型进行预测。对于每一个预测框有一个置信度，预设置信度高于0.3为一个疑似目标，并进行NMS(Non-Maximum Suppression)过滤，即当两个预测框交并比大于一个阈值时，则认为两个预测框标定的是同一个目标，对同一个目标一般存在多个预测框，在这些预测框中选取置信度最高的框作为最后的结果。输出其坐标信息和类别信息。

该实施例的效果可以通过以下实验进一步说明：

本发明的实验环境和条件如下：

CPU：Core i7 i7-8700K Hexa-core 3.70GHz

GPU：NVIDIA GeForce RTX 30708G

内存：32G

软件环境：CUDA11.2 torch1.9.1

操作系统：Ubuntu 16.04LTS

实验所用图像数据与训练所用的图像来自于公开数据集DOTA。为了比较模型的精度和速度，和工程上常用的几个改进于YOLO系列的旋转矩形框检测模型YOLOv5-KLD,YOLOv5-GWD,YOLOv5_DOTA_OBB(CSL),yolov3-polygon,rotate-yolov4等进行比较。将DOTA数据集中的验证集切成640x640大小。

实验结果用五组参数来进行衡量，公式如下：

对于模型的性能评价主要有两个方面，识别准确性和识别效率，本发明中用交并比mIOU、精度P、召回率R和F1分数评价模型的识别准确性，用帧率fps来评价模型的识别效率。

其中：T_P为真正例，即预测为1真实值也为1的样本，F_P为假正例，即预测为1真实值为0的样本，F_N为假负例，即预测为0而真实值为1的样本。交并比IOU是模型产生的预测框DT(Detection Result)与原标记框GT(Ground Truth)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。本文使用了帧率fps评价算法处理速度的指标，n是处理图像的总量，T为所耗的总时间，结果为算法每秒处理的图像数量，其单位为帧每秒(f/s)。

精度：

交并比：

帧率:

各模型检测指标如表1所示，从表1可以看到本模型相较于同类型的模型，在AP指标相近的情况下达到了更高的回归精确度,证明了本方法的有效性。图10为类似模型检测指标的对比图。

表1

Model	mAP/％	mIOU/％	帧率f/s
				本模型	72.348	76.699	34.652
YOLOv5-KLD	72.628	75.266	32.969
				YOLOv5-GWD	74.953	73.424	31.235
YOLOv5_DOTA_OBB(CSL)	72.532	74.653	33.763
				YOLOv3-polygon	62.953	64.424	27.108
rotate-YOLOv4	66.846	70.564	30.512

模型识别结果如图9所示。

Claims

1.一种基于深度学习的遥感目标四边形框快速检测方法，其特征在于，包括以下步骤：

步骤1、收集卫星遥感图像，待检测的物体类别进行四边形框的标注，建立卫星遥感图像目标检测数据集；

步骤2、利用卫星遥感图像目标检测数据集对设计好的遥感目标四边形框快速检测模型进行训练；

2.根据权利要求1所述的一种基于深度学习的遥感目标四边形框快速检测方法，其特征在于，步骤1具体实施步骤如下：

1-1.数据采集，首先收集包含待预测物体的卫星遥感图片，并使收集到的图像中的待预测物体种类的数量尽量地均衡；

1-2.数据标注，对收集到的图像使用rolabel Img进行人工四边形框标注，标出想要预测的物体；

1-3.数据预处理，对标注好的大像素高分辨率图像，切割成可输入模型的大小为640x640的图片，并相应调整标注文件；

1-4.数据集划分和数据保存，标注完的结果保存为.txt文件，保存的关键信息包括目标框顺时针排列的四个端点的坐标(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)和目标类别id；以1∶9比例划分测试集和训练集并把所有图片的绝对地址逐行分别保存到不同.txt文件中；其中测试集充当验证集。

3.根据权利要求2所述的一种基于深度学习的遥感目标四边形框快速检测方法，其特征在于，步骤2中利用卫星遥感图像目标检测数据集对遥感目标四边形框快速检测模型进行训练，需要进行多轮训练，训练次数根据实际情况设定，具体实现如下：

遥感目标四边形框快速检测模型基于YOLOX模型改进而来；

2-1.数据载入，数据增强；在数据载入的过程中加载的annotation为目标框顺时针排列的四个端点的坐标和目标类别id；如果要保证训练出的模型有足够的泛化性，就需要保证有足够多的数据来进行训练，当只有有限的数据或者为了达到一个更好的泛化性，需要对有限的数据进行数据增强；所述的数据增强方法包括随机仿射变换、色彩抖动、对比度变换、噪声扰动、Mosaic数据增强；在每一轮训练的数据载入时，加载的图片会打乱后，再进行上述的数据增强，然后输入到模型进行训练，每轮训练时采用的数据增强参数不同；

2-2.网络主体遥感目标四边形框快速检测模型使用CSP-darknet作为Backbone进行提取特征；训练集数据首先经过Focus模块，即通过分割进行下采样得到原图二分之一大小的输入，后分别经过多个CBS，CSP，SPP模块，完成特征的提取；

2-3.特征融合；遥感目标四边形框快速检测模型采用与YOLOX相同的FPN结构进行特征融合，FPN自上向下，将高层的特征信息，通过上采样的方式进行传递融合，得到三个通道尺度分别为20x20，40x40，80x80大小的特征图，进行后续的目标预测；

2-4.网络输出；遥感目标四边形框快速检测模型在每个通道通过解偶方式的输出大小分别为HxHxC，HxHx1，HxHx4的预测张量，分别表示目标的类别，目标的前景背景预测，目标的水平框表示，其中HxH表示特征图大小，取值分别为20x20，40x40，80x80，C表示物体的种类，其中目标的水平框表示的四个参数分别表示框相对与锚框的中心点和长宽，最终得到8400个预测目标；改进的遥感目标四边形框快速检测模型，输出的目标框参数为目标框相对于锚框的仿射矩阵的6个参数，a，b，c，d，e，f，通过与对应的锚框的四个顶点坐标作矩阵乘法所得到的四点坐标即是四边形框的四个顶点坐标；

2-5.正负样本分配；遥感目标四边形框快速检测模型先根据锚中心点和目标框的坐标相对位置的进行初筛，然后采用YOLOX的SimOTA策略进行正负样本分配；

首先对每个锚框，寻找目标框中心点落在锚框范围内的所有目标框；再对每个目标框以目标框中心点为基准，设置边长为4的正方形，挑选在正方形内的所有锚框；同时满足上述两个条件的锚框目标框对即为初筛结果；根据初筛结果，提取网络预测的候选检测框位置、前景背景目标分数和类别分数，结合目标框计算Loss函数；对于每个目标框，挑选10个IOU最大的候选框；最后根据总Loss最小的原则给每个目标框分配预测框；

2-6.损失函数(Loss)；遥感目标四边形框快速检测模型损失函数由前景背景损失、分类损失和框回归损失三部分组成，其中前景背景损失和分类损失采用交叉熵损失，框回归损失采用仿射矩阵参数的L1损失；

交叉熵损失计算公式如下所示：

其中参数的含义如下：

M：类别的数量；

y_ic：符号函数(0或1)，如果样本i的真实类别等于c取1，否则取0；

p_ic：观测样本i属于类别c的预测概率；

仿射参数的L1损失计算公式如下：

其中，参数定义如下：

N：目标框总数；

M_i：分配给第i个目标框的预测框总数；

x_ij：目标框i的第j个预测框的六个参数；

目标框i的六个参数；

总Loss计算如下：

Loss＝λ_objLoss_obj+λ_clsLoss_cls+λ_boxLoss_box

其中，参数定义如下：

Loss_obj：前景背景损失；

λ_obj：前景背景损失权重；

Loss_cls：分类损失；

λ_cls：分类损失权重；

λ_box：框回归损失权重；

2-7.模型验证；在每一轮模型训练结束后，对验证集的图片进行测试，验证模型的训练效果；

4.根据权利要求3所述的一种基于深度学习的遥感目标四边形框快速检测方法，其特征在于，步骤3中将模型部署到相应的设备上，对采集到的卫星遥感图像进行实时的检测，实现如下：

3-1.部署：

将训练好的遥感目标四边形框快速检测模型转换到相应部署框架的格式，部署到相应的设备上；

3-2.检测：

将遥感设备实时采集的图像，输入到遥感目标四边形框快速检测模型进行预测；对于每一个预测框有一个置信度，预设置信度高于0.3为一个疑似目标，并进行NMS(Non-Maximum Suppression)过滤，即当两个预测框交并比大于一个阈值时，则认为两个预测框标定的是同一个目标，对同一个目标一般存在多个预测框，在这些预测框中选取置信度最高的框作为最后的结果；输出其坐标信息和类别信息。