CN113468993B

CN113468993B - 一种基于深度学习的遥感图像目标检测方法

Info

Publication number: CN113468993B
Application number: CN202110687924.3A
Authority: CN
Inventors: 雷建军; 王梦园; 彭勃; 张轩宇; 于传波; 郭亭佚
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-08-26
Anticipated expiration: 2041-06-21
Also published as: CN113468993A

Abstract

本发明公开了一种基于深度学习的遥感图像目标检测方法，方法包括：以遥感图像作为输入，使用特征金字塔网络提取不同尺度的特征图；构建自底向上的细粒度增强模块，用于底层特征向上传递、与上层特征逐层融合，实现自底向上加强细粒度信息、优化目标定位；在细粒度信息的基础上获取检测框位置的初步预测，确定初步预测框的位置；使用卷积网络搭建预测头，将不同尺度的对齐特征送入并行的分类支路和回归支路进行预测；构建具有角度周期约束的方向敏感回归损失函数，对回归损失进行修正，获得更接近真实框的预测值，进而构建网络优化的总体损失，训练基于深度学习的遥感图像目标检测网络。本发明通过利用底层特征富含的细粒度信息“自底向上”地增强上层特征，提高了定位准确度。

Description

一种基于深度学习的遥感图像目标检测方法

技术领域

本发明涉及目标检测、计算机视觉领域，尤其涉及一种基于深度学习的遥感图像目标检测方法。

背景技术

随着遥感平台和传感器技术的不断进步发展，利用星载、机载等载荷平台可以获得大量高空间分辨率的遥感图像。遥感图像富含丰富的空间及地面信息，是对地探测的重要数据来源，被广泛应用于军用和民用领域。光学遥感图像中的目标检测旨在分类和定位给定航空或卫星图像中包含的一个或多个感兴趣目标，其检测结果通常由包含检测目标的检测框和该目标的类别判断得分组成。

由于视点变化、背景复杂、光照、阴影等因素的影响，区别于自然图像，遥感图像具备目标体积较小、分布密集、角度多变，以及背景与目标之间的区分度较小的特点，增加了遥感图像目标检测的难度。由于遥感图像俯视拍摄的特殊性，在检测目标时需要额外关注目标的方向信息，这使得自然图像目标检测难以有效地适用于遥感图像。

传统的遥感图像目标检测方法通过提取手工设计特征来对图像进行检测框预测。例如，Li等人提出了一种基于脊波变换和修正的平行光束拉东变换的直路边缘检测方法。但是这类方法所采用的特征无法表达目标的抽象语义特征，导致其检测性能受到限制。近年来，人们开始关注基于深度学习的目标检测方法。这类方法的基本步骤为：首先提取一组能够表征目标的特征，然后使用所提特征进行类别和位置的预测。针对遥感图像中目标方向任意旋转的问题，许多方法使用旋转框代替水平框检测，以使得检测结果兼具目标的方向信息。如Ding等人设计感兴趣区域(Region of Interest,ROI)Transformer，通过全连接学习将水平RoI转化为旋转RoI。Han等人通过设计对齐卷积层缓解了旋转框预测中分类和回归的不一致问题。然而，上述方法没有充分利用细粒度信息来增强目标的位置信息，导致遥感图像目标检测的定位精度受到限制。此外，旋转角度的预测对于水平框到旋转框的转换至关重要，上述方法没有考虑到旋转角度回归的特殊性，使用与水平框检测中常用的回归损失函数来约束旋转角度的预测，易对网络角度预测造成一定程度的误导。

因此，充分利用底层特征所富含的细粒度信息，并加强对于旋转角度回归的关注在遥感图像目标检测中具有重要的研究意义。

发明内容

考虑到细粒度信息对于检测框的准确定位具有较大的帮助、以及确定旋转角度对于水平框到旋转框转换至关重要，本发明提出了一种基于深度学习的遥感图像目标检测方法，通过利用底层特征富含的细粒度信息“自底向上”地增强上层特征，进而提高定位准确度，详见下文描述：

一种基于深度学习的遥感图像目标检测方法，所述方法包括：

以遥感图像作为输入，使用特征金字塔网络提取不同尺度的特征图；

构建自底向上的细粒度增强模块，用于底层特征向上传递、与上层特征逐层融合，实现自底向上加强细粒度信息、优化目标定位；

在细粒度信息的基础上获取检测框位置的初步预测，确定初步预测框的位置；使用卷积网络搭建预测头，将不同尺度的对齐特征送入并行的分类支路和回归支路进行预测；

构建具有角度周期约束的方向敏感回归损失函数，对Smooth_l1 loss回归损失进行修正，获得更接近真实框的预测值，进而构建网络优化的总体损失，训练基于深度学习的遥感图像目标检测网络。

其中，所述自底向上的细粒度增强模块具体为：

在第i层，以更低一层的增强后特征

和对应尺寸的FPN特征F_i作为输入，输出该层细粒度增强特征

通过卷积对

进行下采样以适应F_i尺寸；

通过逐像素相加进行初步的特征融合，通过使用注意力模块来学习两种特征的最佳融合权重，实现最终的特征融合。

进一步地，所述细粒度增强模块表示如下：

其中，C_a[·]表示兼顾了全局注意力和局部注意力的注意力学习模块，

表示逐像素点相加，τ[·]表示一个步长为2的3×3卷积，用于降低较底层特征

的分辨率，

表示逐像素点相乘；

通过迭代使用细粒度增强模块，得到细粒度增强特征

在一种实施方式中，所述具有角度周期约束的方向敏感回归损失函数为：

其中，θ表示预测框旋转角度，θ_gt是真值旋转角度，j和j_gt分别表示旋转框预测参数和其对应的真实值，k表示权重系数。

本发明提供的技术方案的有益效果是：

1、本发明充分利用了底层特征的细粒度信息，并考虑了旋转角度的约束，实现了遥感图像旋转框检测的较好性能；

2、考虑到底层特征具备更丰富的细粒度信息，且细粒度信息对于检测框的准确定位具有较大的帮助价值，本发明设计了细粒度增强模块，利用底层特征富含的细粒度信息“自底向上”地增强上层特征，进而提高定位准确度；

3、考虑到确定旋转角度对于水平框到旋转框的转换至关重要，且角度具有周期性的特点，本发明设计基于角度周期性约束的回归损失函数以保证旋转角度的准确预测，从而获得较好的检测效果。

附图说明

图1为一种基于深度学习的遥感图像目标检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

一、获取多尺度特征图

为了达到对于不同尺寸目标的有效检测，本方法以遥感图像作为输入，使用特征金字塔网络(Feature Pyramid Network，FPN)提取不同尺度的特征F∈X^h×w×c，其中h×w表示特征图的尺寸，c表示特征图通道，X表示特征空间。在所提取不同尺度特征中，底层特征尺寸较大，感受野较小，用于检测小目标；顶层特征尺寸较小，感受野较大，用于检测大目标。本方法中所用于检测的特征图尺寸分别为128×128，64×64，32×32，16×16，8×8。

二、构建自底向上的细粒度增强模块

考虑到底层特征具备更加丰富的细粒度信息，有助于更加精确地定位目标，本方法构建了自底向上的细粒度增强模块，用于将富含细粒度信息的底层特征向上传递、与上层特征逐层融合，达到自底向上加强细粒度信息、优化目标定位的效果。

具体来说，特征金字塔输出的特征表示为{F₀,F₁,F₂,F₃,F₄}，其中从F₀到F₄，特征图的尺寸通过二倍下采样依次递减。所提出自底向上的细粒度增强模块输出的细粒度增强特征表示为

其中，最底层的增强特征

由F₀直接传递得到，其他层增强特征

则通过搭建自底向上的特征传递路径、迭代地堆叠细粒度增强模块而得到。

在第i层，所设计的细粒度增强模块以更低一层的增强后特征

和对应尺寸的FPN特征F_i作为输入，输出该层细粒度增强特征

首先，通过卷积对

进行下采样以适应F_i尺寸。然后通过逐像素相加进行初步的特征融合。最后通过使用注意力模块来学习两种特征的最佳融合权重，从而实现最终的特征融合。上述细粒度增强模块的过程可表示如下：

的分辨率，

表示逐像素点相乘。

通过迭代使用细粒度增强模块，可以得到细粒度增强特征

在此基础上进行第三部分的旋转框初步预测和特征对齐。

三、构建细粒度增强的特征对齐模块

为了在细粒度增强的特征基础上得到检测框位置的初步预测，构建了一个初步预测支路，该支路由两层3×3卷积构成，卷积的步长均设置为1。输出通道设置为5，分别表征预测框中心点x轴坐标、y轴坐标、框长、框宽以及框的旋转角度。通过这5个参量即可确定初步预测框的位置。

在得到初步预测框的位置坐标后，在每个预测框中均匀选择9个采样点，采样点的坐标位置通过该预测框坐标计算得到。基于所得的采样坐标，使用对齐卷积对各个尺度特征图进行卷积操作。对于特征图上的每一个像素点p，对齐卷积后的输出可由下式计算得到：

其中，X表示对齐卷积的输入特征图，Y表示对齐卷积的输出特征图，R表示p点对应初步检测框所算得的采样点坐标，W表示采样权重，r表示遍历R中的每一个采样点。

所使用对齐卷积与传统的卷积核大小为3×3的2D卷积的区别在于对齐卷积的采样点位置根据该点的初步预测框动态变化。目的是通过对齐卷积的操作，使用初步预测框的位置信息来指导卷积的采样，达到特征采样与检测框位置的对齐统一。

四、构建检测预测头

遥感图像目标检测的任务是输出恰好包围所关注目标的检测框坐标以及类别得分。本方法使用卷积网络进行最终的预测头设计。对于不同尺度的对齐特征，送入并行的分类支路和回归支路进行预测，两支路均由两层3×3卷积构成。

其中，分类支路输出通道数为C，C代表数据集所包含的类别总数，输出结果为每个检测框属于各个类别的概率值，概率值最大的类别则为该框对应的预测类别。回归支路的输出通道数为5，输出结果代表相对于初步预测框，每个最终预测框的中心点x轴坐标、y轴坐标、长、宽以及旋转角度的偏移量。分类结果和回归结果联合即为最终的检测结果。

五、设计方向敏感的回归损失

在检测头的回归分支中，用五个参数{x,y,w,h,θ}表示任意旋转角度的矩形框，参数分别代表旋转框中心点x轴坐标、y轴坐标、宽度、高度和旋转角度。通过设置适当的回归损失函数，可以引导网络在训练过程中获得更接近真实框的预测值。

目前的方法大多采用Smooth_l1 loss来约束五个不同的参数，而没有考虑旋转角度的特殊性。其中，Smooth_l1 loss计算过程如下：

其中，L表示预测框参数，L_gt表示真实框参数。

本方法对常见的Smooth_l1 loss回归损失进行修正，设计了一个具有角度周期约束的方向敏感回归损失函数。

其中，优化后的回归损失函数如下：

其中，θ表示预测框旋转角度，θ_gt是真值旋转角度，j和j_gt分别表示其他旋转框预测参数和其对应的真实值，k表示权重系数，本发明实施例中k设置为4。

考虑到旋转角度具有周期性的特点，旋转框回归的目标不是预测框角度和真实框角度完全一致，而是预测框和真实框保持平行即可。因此，设计smooth_l1[sin(θ-θ_gt)]项进行旋转角度的约束，可以避免对于一些较为准确的预测框带来过大的损失惩罚的情况，引导网络更准确地进行角度预测。

六、构建网络优化的总体损失

考虑到检测任务包括：分类和回归两个子任务，本方法使用不同的损失函数分别约束。其中，分类损失使用Focal loss进行约束：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (5)

其中，p表示预测样本属于正确类别的概率，范围为0-1，y表示真实标签，γ和α_t表示调制系数。在本发明实施例中，γ设置为2.0，α_t设置为0.25。

网络训练时总的损失函数为分类损失与回归损失的联合表示：

其中，N_pos为所有正样本框(即属于真实目标框)的数目，N_neg为所有负样本框(即不属于真实目标框)的数目，L_cls为所有样本框的分类损失，L_reg为所有正样本框的回归损失。

七、训练基于深度学习的遥感图像目标检测网络

本发明实施例提出的基于深度学习的遥感图像目标检测网络结构包括：遥感图像多尺度特征提取、自底向上的细粒度增强模块、细粒度增强的特征对齐模块、检测预测头。通过约束损失函数端到端地训练整体网络，直到收敛。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。