CN114694021B

CN114694021B - 面向大尺寸遥感影像的物体检测识别方法

Info

Publication number: CN114694021B
Application number: CN202210243140.6A
Authority: CN
Inventors: 岳文振; 尹璐; 傅雨泽; 李阳; 孟钢; 李晓斌; 田菁
Original assignee: Beijing Institute of Remote Sensing Information
Current assignee: Beijing Institute of Remote Sensing Information
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2024-06-21
Anticipated expiration: 2042-03-11
Also published as: CN114694021A

Abstract

本发明提供一种面向大尺寸遥感影像的物体检测识别方法与装置，所述识别方法包括：进行网络训练：构建样本总数不低于100的样本集，并对样本集进行影像预处理、影像切割与样本增广；网络设计：网络通过定制化的卷积结构对输入图像层层提取信息，并对最后关键特征层进行卷积或反卷积，使各卷积层尺寸统一；设计特征图在网格内设置多个锚点；对于每个锚点，设置k个不同大小的锚框；并设计损失函数。本发明所述技术方案应用于遥感影像的物体检测识别，具有检测性能优异、运算效率高等优点，具有较高的推广应用价值；所述检测识别网络兼容倾斜框物体的检测识别方法，解决了倾斜物体的检测问题；所述检测识别网络可推广应用于自然图像。

Description

面向大尺寸遥感影像的物体检测识别方法

技术领域

本发明涉及遥感影像的智能处理技术领域，特别是一种大尺寸遥感影像的物体检测识别方法。

背景技术

随着商业航天的发展和技术的不断进步，遥感影像的获取越来越容易，成本越来越低，数据量越来越大，在国土资源勘查、环境检测与保护、城市规划、农作物估产、防灾减灾和空间科学试验等领域发挥越来越广泛的作用。近年来，尤其是2012年以来，人工智能和深度学习在大数据和高算力设备的基础上取得突飞猛进的发展。目前，人工智能技术在遥感图像领域的应用越来越深入，越来越广泛，典型的有物体检测识别、农田区域分割、建筑三维建模、薄云雾去除、超分辨处理等。

目前，相比于对自然图像，大尺寸遥感影像物体检测识别方法的研究相对较少。现有技术存在以下问题：1)大部分现有技术基于公开训练集进行算法训练，对遥感影像数据集生成方法的讨论欠缺，没有给出包括训练集生成在内的遥感影像物体检测识别全流程方法；2)对倾斜物体(非正框标注)的检测识别的技术较少；3)相比于one-step检测识别网络，基于two-step的神经网络推理效率相对较低。

发明内容

本发明的目的在于提供

面向大尺寸遥感影像的物体检测识别方法与装置，如图1所示，其示出大尺寸遥感影像物体检测识别方法的全部流程；本实施例所述物体检测识别方法共包括两部分，即网络训练和网络推理，具体地，包括：

步骤S1.进行网络训练，为网络提供性能优良、运算高效的神经网络；具体地包括：

步骤S11.样本集构建：建立在足够数量、精细标注的遥感影像数据的基础上，一般要求同一种类的样本总数不低于100。根据包含的同一种类物体的总样本数、物体识别和获取难易程度难度等因素综合确定遥感影像的数据；样本集的构建主要包含三步：影像预处理、影像切割与样本增广、样本集构建。

步骤S111.影像预处理，是指对原始遥感影像进行一定程度的操作，进行亮度和对比度的自适应调节等。

不是所有的影像度需要预处理操作；预处理直接影响影像风格的统一程度，影响网络训练的难易程度。

步骤S112.影像切割与样本增广，将大尺寸影像切割成符合使用要求大小的切片，在裁剪的过程中，保留一定的重叠区域，防止对尺寸较大物体的遗漏。

切片的尺寸根据影像的分辨率、物体尺寸和计算设备性能等因素综合确定，单个切片可以容纳尺寸最大的样本。

优选地，在影像切割和样本增广的过程中，标注信息要做相应修改。

在切片样本生成后，便可进行样本集构建。一般按照6:4或者7:3的比例，分成训练集和验证集。

样本集构建时应保留一定比例的含目标切片和纯背景切片，以降低网络检测的虚警率。

优选地，构建多个包含不同目标/纯背景比例的样本集，以备在网络训练中使用。

步骤S12网络设计，其具体包括：

步骤S121设计网络结构

步骤S1211.网络通过定制化的卷积结构对输入图像层层提取信息，并对最后关键特征层进行卷积(convolution)或反卷积(De-convolution)操作，使各卷积层尺寸统一；

步骤S1212.将统一尺寸后的各卷积层级联起来形成综合特征层；

步骤S1213.利用定制化卷积结构将综合特征层的通道数降至B×(4+C)(正框)或B×(5+C)(倾斜框)；其中，B表示特征层每个网格(Grid Cell)中预测框的个数，C表示包含背景在内的类别数，其等于目标类别总数+1，网络输出的三维矩阵包含目标信息，网络训练和学习该三维矩阵；

所述网络结构通过综合网络实现对多尺度的适应性，提升检测性能。

步骤S122设计特征图

即特征图的一个像素对应原始输入图像的G×G大小的区域；在网格内设置多个锚点(anchor point)，各锚点均匀分布在网格(grid cell)内。

优选地，设置多个锚点有助于提高目标检测精度，减少定位误差。

对于每个锚点，设置ankor_box(简记为k)个不同大小的锚框。锚框的个数k可根据待检测目标尺寸选取。

锚框尺寸(即宽和高)通过对目标尺寸聚类或者经验信息获得。

合适的锚框可以加快网络训练速度，锚框大小越接近真实目标大小，网络越容易训练。

锚框的作用是为目标框提供参照，目标框的真实位置可以用目标框与锚框的偏移程度来表征，将网络预测的目标框称为预测框；

步骤S123设计损失函数

将预测框分为三类：

1)与真实目标(Ground Truth)的交并比(IoU)大于0.5的预测框视作目标框，记网络检测的目标框总数为N；

2)与真实目标的交并比(IoU)小于0.4的预测框视作背景框(即无目标)，记背景框总数为M；

3)与真实目标的交并比(IoU)介于0.4与0.5之间的预测框不参与损失函数计算；

将背景框大小计入损失函数，目的是尽可能压缩背景框的大小，即使类别判断错误仍可以因尺寸过小在检测结果中滤除，从而降低虚警率。

步骤S13进行网络训练

在样本集构建和网络设计完成后，便可进行网络训练。

网络训练过程中，求解器可采用sgdm法或Adam方法。

训练迭代次数根据训练集大小而定，将训练集完整迭代1遍视为1个epoch(epoch指使用训练集的全部数据对模型进行一次完整训练，被称之“一代训练”)，一个较为鲁棒的选择为30epochs。

此外，在不同的样本集上进行多次训练：首先在目标切片占比高的样本集上进行初次训练，然后在目标切片占比低的样本集上进行增量训练，有助于降低网络检测结果的虚警率。

优选地，在不同的样本集上进行至少两次训练。

步骤S2.进行网络推理。

其直接以大尺寸遥感影像为输入，以整幅影像的检测结果为输出，包含影像预处理、影像切割、利用网络检测识别、检测结果后处理、图像拼接与结果输出等部分。

遥感影像检测识别能力主要取决于检测识别网络性能的优劣。

本发明的创新点主要体现在网络设计部分：具体包括：

步骤S21.影像预处理

影像预处理是指对原始遥感影像进行一定程度的操作，以方便后续步骤的进行。

对于16bit的TIFF图，需要转换为8bit的JPEG图，并进行亮度和对比度的自适应调节等。合理的预处理方法可以使影像风格统一，有助于网络的训练和推理工作。

网络训练前，样本集构建也需要影像预处理操作，两处预处理应采用相同的方法。

步骤S22.影像切割

影像切割是将大尺寸影像切割成合适大小(比如512*512)的切片，以满足检测识别网络的输入条件。在裁剪的过程中，应保留一定的重叠区域，防止对尺寸较大目标的遗漏。与网络训练阶段不同，无需进行旋转、平移、对比度调节等样本增广操作。切片的大小根据影像分辨率和目标尺寸综合确定。假设影像分辨率为0.5米，目标尺寸最长达400米，则切片可以设定为1024*1024，更小的切片尺寸可能无法容纳一个完整的实例。

步骤S23.物体检测识别

根据训练好的神经网络，将切片输入到该网络中，该网络便可以输出包含物体特征信息的三维矩阵，对该矩阵进行解译，即可得到该切片的物体位置和种类信息。

步骤S24.检测结果后处理(切片)

网络直接输出的结果，往往包含很多重复的物体信息，需要进行非最大值抑制(NMS)和不合理目标框去除。

非最大值抑制指的是，对于IoU大于一定阈值的多个目标框只选择置信度最高的，将其他目标框去除。一些目标框的尺寸大小或者长宽比例明显超出正常范围，也应予剔除。此外，存在先验信息时，如某些物体不可能出现在某位置，此种情况下也应将在该位置检测出的目标剔除。

步骤S25.图像拼接与检测结果输出

不同切片检测出的信息有可能出现冗余，利用所述NMS方法将冗余的目标框去除。在将切片的检测结果进行拼接时，应根据切片大小和重叠区域进行检测结果还原，最终得到原始影像的检测结果文件。

本发明用于遥感影像的物体检测识别、快速筛选、早期发现等场景。主要涉及大尺寸遥感影像物体检测识别方法研究，给出基于one-step的新型倾斜物体检测识别方法，及遥感图像样本集的构建方法，本发明所述新型遥感影像检测识别网络，可适用于倾斜框标注的物体的检测和识别。

本发明所提供的端到端的遥感影像物体检测识别方法性能优良，运算效率较高，具备一定的推广应用前景。

附图说明

图1是本发明所述面向大尺寸遥感影像的物体检测识别方法的一优选实施例的全流程示意图；

图2是图1所示实施例中的遥感影像检测识别网络；

图3是图1、图2所示实施例中定制化卷积结构的示意图；

图4是图1所示实施例中的特征图设计(正框)示意图；

图5是图1所示实施例中的特征图设计(倾斜框)示意图；

图6是图1所示实施例中采用的识别软件的界面示意图；

图7是图1所示实施例中的检测结果示意图；

图8是图1所示实施例中的另一检测结果示意图。

具体实施方式

以下结合附图对本发明的具体实施方式作出详细说明。

本实施例提供面向大尺寸遥感影像的物体检测识别方法，如图1所示，其示出大尺寸遥感影像物体检测识别方法的全部流程；本实施例所述物体检测识别方法共包括两部分：

步骤1.进行网络训练；

其包括样本集构建、检测识别网络设计、网络训练等部分，为网络提供性能优良、运算高效的神经网络；

步骤2.进行网络推理。

遥感影像检测识别能力主要取决于检测识别网络性能的优劣。本发明的创新点主要体现在网络设计部分。

所述步骤1进一步地包括：

步骤11.样本集构建：根据包含的同一种类物体的总样本数、物体识别和获取难易程度难度等因素综合确定遥感影像的数据，主要包括：影像预处理、影像切割与样本增广。

本实施例中，同一种类的样本总数为100，根据包含的同一种类物体的总样本数、物体识别和获取难易程度难度等因素综合确定遥感影像的数据；并进行影像预处理、影像切割与样本增广，从而完成样本集构建。

步骤111.进行影像预处理，将16bit的TIFF图转换为8bit的JPEG图，亮度和对比度的自适应调节等。

步骤112.影像切割与样本增广，将大尺寸影像切割成合适大小；例如，本实施例中，选取尺寸为512*512的切片，在裁剪的过程中，应保留一定的重叠区域，防止对尺寸较大物体的遗漏。

本实施例中，为了增强样本集的鲁棒性，加入切片平移、旋转、对比度调节等操作。

切片的尺寸应当根据影像的分辨率、物体尺寸和计算设备性能等因素综合确定。

在影像切割和样本增广的过程中，标注信息也要做相应修改。

在切片样本生成后，进行样本集构建，保留一定比例的含目标切片和纯背景切片，背景切片有助于降低网络检测的虚警率。

步骤12网络设计

网络设计主要包括三部分：设计网络结构、特征图和损失函数。

步骤121设计网络结构

图2示出本实施例提出的遥感影像检测识别网络，如图3所示为图2中定制化卷积结构的详情。

步骤1211.网络通过定制化的卷积结构对输入图像层层提取信息，并对最后关键特征层进行卷积(convolution)或反卷积(De-convolution)操作，使各卷积层尺寸统一为S×S；

步骤1212.将统一尺寸后的各卷积层级联起来形成综合特征层；

步骤1213.利用定制化卷积结构将综合特征层的通道数降至B×(4+C)(正框)或B×(5+C)(倾斜框)，并形成网络输出的三维矩阵；其中，B表示特征层每个网格(Grid Cell)中预测框的个数，C表示包含背景在内的类别数，其等于目标类别总数+1，所述网络输出的三维矩阵包含目标信息，网络训练和学习该三维矩阵；

步骤122设计特征图

特征图(feature map)与锚框(anchor box)的设计如图4和图5所示；其中，特征图中的一个元素称作一个网格(grid cell)，对应原始输入图像中G×G大小的影响域，即特征图的一个像素对应原始输入图像的G×G大小的区域。与现有技术中底方法不同的是，本实施中在网格内设置多个锚点(anchor point)，各锚点均匀分布在网格(grid cell)内，如图4和图5。设置多个锚点有助于提高目标检测精度，减少定位误差。

对于每个锚点，设置ankor_box(简记为k)个不同大小的锚框。作为示例，图4在每个锚点处画出了4种不同尺寸的锚框，锚框的个数k可根据待检测目标尺寸选取。锚框尺寸(即宽和高)通过对目标尺寸聚类或者经验信息获得。选择合适的锚框可以加快网络训练速度，锚框大小越接近真实目标大小，网络越容易训练。

如果设置9个锚点、k个锚框尺寸，那么特征图中的一个元素对应B＝9k个锚框，特征图中的全部元素共对应S²B＝9S²k个锚框。

锚框的作用是为目标框提供参照，目标框的真实位置可以用目标框与锚框的偏移程度来表征，用5元组(t_x,t_y,t_w,t_h,t_θ)表示预测框相对于锚框的偏移，其中t_x,和t_y,t_w,t_h,t_θ分别表示预测框与锚框在中心点横坐标、中心点纵坐标、宽度、高度和方向上的偏移。

如果是无旋转框，则无t_θ；各参数关系如式(1)所示：

其中，tanh(·)为双曲正切函数，(b_x,b_y,b_w,b_h,b_θ)分别表示预测框的绝对中心点横坐标、绝对中心点纵坐标、预测框宽度、预测框高度、预测框旋转角度，(x_i,y_i,w_i,h_i,θ_i)分别表示锚框的中心点横坐标与纵坐标、宽度、高度、旋转角度。具体位置关系见图4和图5。利用(t_x,t_y,t_w,t_h,t_θ)而不是直接用(b_x,b_y,b_w,b_h,b_θ)表示预测框位置，有以下优点：

1)(t_x,t_y,t_w,t_h,t_θ)的数值可正可负，均值接近0，网络结构更容易收敛；

2)(t_x,t_y,t_w,t_h,t_θ)更能反映出尺寸更小的目标尺寸对宽度、高度变动更敏感的特点，而(b_x,b_y,b_w,b_h,b_θ)则不能反映出这种特点。

步骤123设计损失函数

损失函数的设计直接影响网络性能，优秀的损失函数可以大大提高网络的检测识别能力。本方案通过优化损失函数设计进一步提升物体检测性能。

本实施例中，将预测框分为三类：

损失函数定义为：

其中，L_obj,loc()为目标框定位损失函数，为背景框尺寸抑制函数，L_cls为分类损失函数，/>分别表示真实目标和预测框的5元组(中心点横坐标、中心点纵坐标、宽度、高度、角度)，c_i,/>分别为目标真实类别和网络(经过softmax操作后)将目标框判为正确类别的概率，λ_obj为目标位置权重，λ_noobj为背景框尺寸抑制权重。

优选地，本实施例中，提供一种L_obj,loc、L_cls损失函数设计方案：

其中，γ∈(1,2)为位置指数权重，可以取1.5；为种类c_i权重，对于重要种类或训练样本较少的类别，可以适当选取较大的数，比如2，对于非重要种类或训练样本较多的类别，可以适当选取较小的数，比如1；λ_c为类别指数权重，可以取2。其他参数的含义同公式(2)。

步骤13网络训练

在样本集构建和网络设计完成后，便可进行网络训练。网络训练过程中，求解器可采用sgdm法或Adam方法。

步骤2网络推理，即遥感影像的检测识别过程，其包括：

步骤21.影像预处理

对于16bit的TIFF图转换为8bit的JPEG图，并进行亮度和对比度的自适应调节。合理的预处理方法可以使影像风格统一，有助于网络的训练和推理工作。

步骤22.影像切割

影像切割切片的大小根据影像分辨率和目标尺寸综合确定。假设影像分辨率为0.5米，目标尺寸最长达400米，则切片可以设定为1024*1024，更小的切片尺寸可能无法容纳一个完整的实例。

步骤23.物体检测识别

根据前面训练好的神经网络，将切片输入到该网络中，该网络便可以输出包含物体特征信息的三维矩阵，参见图2.对该矩阵进行解译，即可得到该切片的物体位置和种类信息。

步骤24.检测结果后处理(切片)

步骤25.图像拼接与检测结果输出

基于本发明中的技术手段，开发的遥感影像检测识别软件，具备图像切割与增强、数据集生成、网络结构设计、网络训练和检测识别(网络推理)等功能，软件界面如图6所示。

利用该软件，在DOTA数据集上验证本发明技术方案的有效性；图7和图8给出了检测结果示意图，均检测出所有感兴趣物体且无虚警。

此外，在内部数据集上的测试结果显示，对于特征更为微弱的SAR遥感影像，对于20类精细化标注的样本集，可以实现召回率93％、虚警率8％的检测性能；在NVIDIA TITANXP单卡的配置下，1024*1024的切片处理时间为0.09s。

本实施例所述技术方案的有益效果包括：

1、应用于遥感影像的物体检测识别，具有检测性能优异、运算效率高等优点，具有较高的推广应用价值；

2、所述检测识别网络兼容倾斜框物体的检测识别方法，解决了倾斜物体的检测问题；

3、所述检测识别网络可推广应用于自然图像。

以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.面向大尺寸遥感影像的物体检测识别方法，其特征在于，包括：

步骤S1，进行网络训练，其包括：

步骤S11，构建样本集，并对样本集进行影像预处理、影像切割与样本增广；

步骤S12，设计网络，其包括：

步骤S121，设计网络结构

步骤S1211，网络通过定制化的卷积结构对输入图像层层提取信息，并对最后关键特征层进行卷积或反卷积，使各卷积层尺寸统一；

步骤S1212，将统一尺寸后的各卷积层级联起来形成综合特征层；

步骤S1213，利用定制化的卷积结构将综合特征层的通道数降至B×(4+C)，即正框，或B×(5+C)，即倾斜框；其中，B表示特征层每个网格中预测框的个数，C表示包含背景在内的类别数，其等于目标类别总数+1，网络输出的三维矩阵包含目标信息，网络训练和学习该三维矩阵；

步骤S122，设计特征图

在网格内设置多个锚点，各锚点均匀分布在网格内；对于每个锚点，设置k个不同大小的锚框；

步骤S123，设计损失函数；

步骤S13，网络训练：根据训练集大小确定训练迭代次数；在不同的样本集上进行至少两次训练；

步骤S2，进行网络推理。

2.如权利要求1所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，进行网络训练时，训练迭代次数根据训练集大小确定，将训练集完整迭代1遍视为1个“一代训练”；在不同的样本集上进行多次训练：

首先在目标切片占比高的样本集上进行初次训练，然后在目标切片占比低的样本集上进行增量训练。

3.如权利要求1或2所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，设计损失函数时将预测框分为三类，即：

第一类，与真实目标的交并比大于0.5的预测框视作目标框，记网络检测的目标框总数为N；

第二类，与真实目标的交并比小于0.4的预测框视作背景框，即无目标，记背景框总数为M；

第三类，与真实目标的交并比介于0.4与0.5之间的预测框不参与损失函数计算；

将背景框大小计入损失函数。

4.如权利要求1或2所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，影像切割与样本增广时，将大尺寸影像切割成符合使用要求的切片，在裁剪的过程中，保留预定大小的重叠区域。

5.如权利要求4所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，单个所述切片能够容纳尺寸最大的样本。

6.如权利要求4所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，在影像切割和样本增广的过程中，对标注信息做相应修改。

7.如权利要求5或6所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，在切片样本生成后，按照6:4或者7:3的比例，分成训练集和验证集，以完成样本构建。

8.如权利要求7所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，样本集构建时保留既定比例的含目标切片和纯背景切片，以降低网络检测的虚警率。

9.如权利要求1或2或5-8中任一项所述的面向大尺寸遥感影像的物体检测识别方法，其特征在于，构建多个包含不同目标/纯背景比例的样本集。