CN111667030A

CN111667030A - 基于深度神经网络实现遥感图像目标检测的方法、系统及其存储介质

Info

Publication number: CN111667030A
Application number: CN202010667395.6A
Authority: CN
Inventors: 朱煜; 嵇玮玮; 方观寿; 韩飞; 孙彦龙; 凌小峰
Original assignee: East China University of Science and Technology; Shanghai Aerospace Electronic Communication Equipment Research Institute
Current assignee: East China University of Science and Technology; Shanghai Aerospace Electronic Communication Equipment Research Institute
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-09-15
Anticipated expiration: 2040-07-13
Also published as: CN111667030B

Abstract

本发明涉及一种基于深度神经网络实现遥感图像目标检测的方法、系统及其存储介质，以实现遥感图像水平和旋转排列目标的检测。其中，该方法设计锚点框生成模块，由不同位置的特征信息自适应生成锚点框，降低预设锚点框的差异对于检测精度的影响；针对遥感图像中存在较多小目标的特点，提出一种改进的特征金字塔结构，采用转置卷积方法融合深浅层特征信息；针对遥感图像背景复杂等难点，采用扩大感受野模块，提取更多特征信息，提高复杂背景下小目标的检测精度；采用SmoothL_n函数作为回归损失，进一步提升算法性能；针对旋转排列目标，引入角度因子的回归实现旋转框检测。此外为方便用户使用，本发明设计遥感图像目标检测系统，具有水平框、旋转框检测以及结果统计的功能。

Description

基于深度神经网络实现遥感图像目标检测的方法、系统及其存储介质

技术领域

本发明属于遥感图像处理的技术领域，涉及图像处理中的目标检测与识别，具体是指一种基于深度神经网络实现遥感图像目标检测的方法、系统及其计算机可读存储介质。

背景技术

遥感图像广泛应用于环境监测、资源调查、农业产值测算、城市建设规划及军事部署等领域，对于国防和社会经济发展具有重要的意义，因此受到国内外众多学者和机构关注与研究。目标检测作为遥感图像处理的应用之一，通过获取特定目标类别和位置信息，在民用领域和军用领域内有着十分重要的用途。同时利用确定的目标种类和位置，对进一步信息处理决策也具有一定的辅助作用。

当前基于深度学习的目标检测算法在自然场景图像中取得了巨大成功，然而由于遥感图像与自然场景图像存在较大差异，因此将常见的目标检测算法直接应用于遥感图像会存在许多问题，例如小目标漏检情况严重、密集排列检测较差等。而且遥感图像中有些目标排列方向任意，仅仅采用水平框检测会导致边界框包含过多冗余背景，针对这类问题，旋转框检测可以发挥较好的作用。

同时，现有技术中的大多数锚点式方法的检测检测效果受预设锚点框超参数影响较大，因此若设置不合适容易出现漏检较多等问题，而非锚点式方法在处理遥感图像中的密集场景时，容易出现匹配错误，从而造成了精度的损失。

发明内容

本发明的目的是克服现有技术的缺点，提供一种针对遥感图像中的目标能够较好地实现水平框和旋转框检测、并且嵌入所设计的交互界面中、能够构成一个完整的遥感目标检测系统的基于深度神经网络实现遥感图像目标检测的方法、系统及其存储介质。

为了实现上述目的，本发明的基于深度神经网络实现遥感图像目标检测的方法、系统及其计算机可读存储介质如下：

该基于深度神经网络实现遥感图像目标检测的方法，其主要特点是，所述方法包括以下步骤：

(1)构建锚点框生成网络模块，由不同位置的特征信息自适应生成锚点框；

(2)利用改进的特征金字塔结构，采用转置卷积算法融合深浅层特征信息，实现遥感图像目标的检测；

(3)对于所述的特征金字塔输出的特征图，采用扩大感受野模块，提取更多特征信息，提高复杂背景下目标的检测精度；

(4)构建网络损失函数，其中的回归损失函数均采用SmoothL_n函数，进一步提升遥感图像目标检测性能；

(5)配置角度因子回归，实现对旋转目标的检测；

(6)构建遥感图像目标检测系统，其中包括操作界面模块、模型选择模块、检测模式设置模块、阈值设置模块、图像目标检测模块和信息记录模块，实现水平框检测、旋转框检测以及计算结果统计处理。

该基于深度神经网络实现遥感图像目标检测的方法中的步骤(1)中的构建锚点框生成网络模块，具体包括以下步骤：

(11)构建生成锚点框网络结构；

(12)配置可变形卷积V2结构。

该基于深度神经网络实现遥感图像目标检测的方法中的构建生成锚点框网络结构，具体包括以下步骤：

(111)为所选特征图中的每个像素点预设一个相同大小的锚点框；

(112)采用两个卷积核为3×3大小的卷积，其中第一个通道数为1，第二个通道数为2，分别作用于所选特征图后得到第一分支和第二分支，其中所述的第一分支对应于所述的第一通道数，所述的第二分支对应于所述的第二通道数，所述的第一分支作为分类分支，所述的第二分支作为回归分支；所述的分类分支采用Focal Loss作为分类损失函数，所述的回归分支采用SmoothL_n函数作为损失函数；

(113)通过所述的分类分支筛选出可能成为目标框中心位置的像素，并通过所述的回归分支回归所述的锚点框的宽和高。

该基于深度神经网络实现遥感图像目标检测的方法中的配置可变形卷积V2结构，具体为：

将所述的生成锚点框网络结构中的分类分支特征图作为可变形卷积V2结构的“调置”分支，并将所述的回归分支的特征图作为可变形卷积V2结构的“偏置”分支；

其中，网络预测层的反向传播不经过所述的可变形卷积V2结构的“调置”分支和“偏置”分支，且所述的“调置”分支和“偏置”分支的训练仅由所述的生成锚点框结构的损失函数所决定。

该基于深度神经网络实现遥感图像目标检测的方法中的步骤(2)中的转置卷积算法的核大小为4×4，步长为2。

该基于深度神经网络实现遥感图像目标检测的方法中的步骤(5)中所述的配置角度因子回归，具体包括以下步骤：

(51)对所选特征图中每个像素点预设7种长宽比例的水平锚点框；

(52)通过所述的生成锚点框结构中的回归分支回归锚点框的宽、高和旋转角度；

(53)从所述的生成锚点框结构中仅选择特征图中每个像素点置信度最大的旋转锚点框，并进入对应的可变形卷积V2结构和后续网络预测中；

(54)由上述步骤(53)中最大置信度所对应的特征图决定可变形卷积V2结构的“偏置”分支。

该基于深度神经网络实现遥感图像目标检测的方法中的步骤(6)中所述的操作界面模块通过QT制作并构建，且该操作界面模块运行于Windows、Linux或者Mac OS操作系统中。

该基于深度神经网络实现遥感图像目标检测的系统，其主要特点是，所述的系统包括用于存储程序的存储器以及用于执行所述的程序的处理器，以实现上述的基于深度神经网络实现遥感图像目标检测的方法。

该计算机可读存储介质，其主要特点是，包括程序，所述的程序可被处理器执行以完成上述的基于深度神经网络实现遥感图像目标检测的方法。

采用了本发明的基于深度神经网络实现遥感图像目标检测的方法、系统及其计算机可读存储介质，可以实现遥感图像水平和旋转排列目标的检测，其中设计锚点框生成模块，由不同位置的特征信息自适应生成锚点框，降低预设锚点框的差异对于检测精度的影响；针对遥感图像中存在较多小目标的特点，提出了一种改进的特征金字塔结构，采用转置卷积方法融合深浅层特征信息；针对遥感图像背景复杂等难点，采用扩大感受野模块，提取更多特征信息，提高复杂背景下小目标的检测精度；采用SmoothL_n函数作为回归损失，进一步提升算法性能。针对旋转排列目标，引入角度因子的回归实现旋转框检测；此外为方便用户使用，本发明设计遥感图像目标检测系统，包含操作界面、模型选择、检测模式设置、阈值设置、图像目标检测和信息记录等模块，可以实现水平框检测、旋转框检测以及计算结果统计的功能；本方法(输入图像尺寸为512)和系统的检测网络在NVIDIA GTX 1080Ti的机器上的FPS为24，符合实时检测的使用需求。

附图说明

图1为本发明的基于深度神经网络实现遥感图像目标检测的方法的处理过程示意图。

图2为本发明的基于深度神经网络实现遥感图像目标检测的方法的锚点框生成网络模块的结构示意图。

图3为本发明的基于深度神经网络实现遥感图像目标检测的方法的可变形卷积V2的原理示意图。

图4为本发明的基于深度神经网络实现遥感图像目标检测的方法的深浅层融合的结构示意图。

图5为本发明的基于深度神经网络实现遥感图像目标检测的方法的扩大感受野的结构示意图。

图6为本发明的基于深度神经网络实现遥感图像目标检测的方法的可视化结果示意图。

图7(a)、7(b)为本发明的基于深度神经网络实现遥感图像目标检测的方法所构建生成的系统界面示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

该基于深度神经网络实现遥感图像目标检测的方法，其中，所述方法包括以下步骤：

(1)构建锚点框生成网络模块，由不同位置的特征信息自适应生成锚点框；其中的构建锚点框生成网络模块，具体包括以下步骤：

(11)构建生成锚点框网络结构；具体包括以下步骤：

(113)通过所述的分类分支筛选出可能成为目标框中心位置的像素，并通过所述的回归分支回归所述的锚点框的宽和高；

(12)配置可变形卷积V2结构，具体为：

其中，网络预测层的反向传播不经过所述的可变形卷积V2结构的“调置”分支和“偏置”分支，且所述的“调置”分支和“偏置”分支的训练仅由所述的生成锚点框结构的损失函数所决定；

(2)利用改进的特征金字塔结构，采用转置卷积算法融合深浅层特征信息，实现遥感图像目标的检测；其中的转置卷积算法的核大小为4×4，步长为2；

(5)配置角度因子回归，实现对旋转目标的检测；其中，所述的配置角度因子回归，具体包括以下步骤：

(54)由上述步骤(53)中最大置信度所对应的特征图决定可变形卷积V2结构的“偏置”分支；

(6)构建遥感图像目标检测系统，其中包括操作界面模块、模型选择模块、检测模式设置模块、阈值设置模块、图像目标检测模块和信息记录模块，实现水平框检测、旋转框检测以及计算结果统计处理；其中，所述的操作界面模块通过QT制作并构建，且该操作界面模块运行于Windows、Linux或者Mac OS操作系统中。

该基于深度神经网络实现遥感图像目标检测的系统，其中，所述的系统包括用于存储程序的存储器以及用于执行所述的程序的处理器，以实现上述的基于深度神经网络实现遥感图像目标检测的方法。

该计算机可读存储介质，其中，包括程序，所述的程序可被处理器执行以完成上述的基于深度神经网络实现遥感图像目标检测的方法。

在实际使用当中，作为本发明的优选实施方式，该基于深度神经网络实现遥感图像目标检测的方法，包括以下步骤：

(1)设计锚点框生成网络模块，由不同位置的特征信息自适应生成锚点框，降低预设锚点框的差异对于算法检测精度的影响；

(2)利用改进的特征金字塔结构，采用转置卷积方法融合深浅层特征信息，实现遥感目标的检测；

(3)对于特征金字塔输出的特征图，采用扩大感受野模块，提取更多特征信息，提高复杂背景下目标的检测精度。

(4)设计网络损失函数，其中的回归损失函数均采用SmoothL_n函数，进一步提升遥感目标检测的性能；

(5)引入角度因子回归，实现对旋转目标的检测；

(6)设计遥感图像目标检测系统，包含操作界面、模型选择、检测模式设置、阈值设置、图像目标检测和信息记录等模块，可以实现水平框检测、旋转框检测以及计算结果统计的功能。

在上述实例中，所述的步骤(1)中所述的锚点框生成网络的结构具体包括以下结构：

(11)生成锚点框网络结构；

(12)可变形卷积V2结构；

在上述实例中，所述的步骤(11)中所述的生成锚点框网络结构具体包括以下步骤：

(111)以SSD检测网络为基础目标检测网络，所选特征图中的每个像素点预设一个相同大小的锚点框；

(112)采用两个卷积核为3×3大小的卷积，其中一个通道数为1，另一个通道数为2，分别作用于所选特征图后得到两个分支，前一个分支作为分类分支，后一个分支作为回归分支。分类分支采用Focal Loss作为分类损失函数，回归分支采用SmoothL_n函数作为损失函数；

(113)分类分支经过sigmoid层，转化为概率值，然后筛选出可能成为目标框中心位置的像素，回归分支仅仅回归锚点框的宽和高；

其中，选取4层特征图，大小分别为输入尺寸的1/8、1/16、1/32和1/64。尺寸较大的特征图负责小目标的预测，尺寸较小的特征图负责大目标的预测。回归分支的损失函数计算为：

设t_i表示预测值，

表示目标值，w、h分别表示宽度、高度

在上述实例中，所述的步骤(12)中所述的可变形卷积V2结构具体包括以下步骤：

(121)生成锚点框结构中的分类分支特征图作为可变形卷积V2的“调置”，回归分支的特征图作为可变形卷积V2的“偏置”；

(122)网络预测层的反向传播不经过可变形卷积V2的“调置”和“偏置”两个分支，这两个分支的训练仅仅由生成锚点框结构的损失函数决定；

其中，步骤(12)中的可变形卷积V2计算步骤为：

假设一个采样点数为n的卷积核，w(·)表示第n个位置对应的卷积参数值，p_n表示第n个位置的预设偏移量。比如：n＝9，所以p_n∈{(-1，-1)，(-1，0)，...，(1，1)定义了一个3×3，空洞率为1的卷积核。p为当前像素点的坐标位置(x，y)，z(·)表示为该位置的像素值，f(·)表示该位置卷积后的输出。Δm_k的值处于0～1之间，用于调节目标的区域，即为“调置”。通过网络学习得到的坐标偏移量Δp_n，改变卷积参数对应相乘的像素点位置，即为“偏置”。因此卷积核大小为3×3大小的可变形卷积V2求解为：

由于调整之后的位置为浮点数，而在特征图中不存在浮点数位置的像素值，因此采用双线性插值，即：

G(q，p)＝g(qx，px)·g(q_y，p_y)；

g(a，b)＝max(0，1-|a-b|)；

上式中，G(.，.)表示双线性插值核，它是一个2维的数据。p表示任意一个要计算的位置(偏移之后的位置)，p_x，p_y分别表示x和y坐标数值；q是枚举特征图中所有的像素点位置的一个变量。q_x，q_y分别表示特征图中x和y坐标。

然后采用加权求和操作得到该位置的像素值：

z(p)＝∑_qG(q，p)·z(q)；

在上述实例中，所述的步骤(2)中采用的转置卷积为核大小为4×4，步长为2。

在上述实例中，所述的步骤(4)中采用的SmoothL_n函数为：

SmoothL_n＝(|x|+1)ln(|x|+1)-|x|；

在上述实例中，所述的步骤(5)中所述的引入角度因子回归具体包括以下步骤：

(51)所选特征图中每个像素点预设7种长宽比例的水平锚点框；

(52)生成锚点框结构中的回归分支回归锚点框的宽、高和旋转角度；

(53)生成锚点框结构中仅仅选择特征图中每个像素点置信度最大的旋转锚点框，进入对应的可变形卷积V2和后续网络预测中；

(54)可变形卷积V2的“偏置”由(53)中最大置信度对应的特征图决定；

其中，旋转框检测回归分支的损失函数计算为：

设t_i表示预测值，

表示目标值，w、h、θ分别表示宽度、高度、角度

在上述实例中，所述的步骤(6)中所述的交互界面采用QT制作，运行在包括Windows、Linux和Mac OS操作系统。

下面结合附图及具体实施例详细介绍，本发明的基于深度神经网络的遥感图像目标检测方法。

基于深度神经网络的遥感图像目标检测方法的结构如图1所示：

将遥感图像调整到一定尺寸，输入网络层中。首先通过基础网络(VGG、ResNet网络等)，选择尺寸大小分别为输入尺寸的1/8、1/16、1/32和1/64的4层特征图进入锚点框生成模块，由“GA”模块进行训练生成锚点框。同时，这4层特征图进行深浅层特征融合，进入下一阶段。融合后的4层特征图分别进入扩大感受野模块，然后得到的特征图再进入可变形卷积V2，同时“GA”模块的分类和回归分支的特征图进入可变形卷积V2，最终调整后的特征图进入网络预测阶段。改进后的网络不但可以在遥感数据集上取得较好的检测效果，同时能够在NVIDIA GTX 1080Ti的机器上达到实时检测。需要注意的是，旋转框检测任务需要采用旋转公式得到旋转框：

其中，θ为旋转角度，(c_x，c_y)为旋转固定点的坐标，(x，y)为旋转前的点坐标，(x′，y′)为旋转后的点坐标。

基于深度神经网络的遥感图像目标检测方法的锚点框生成模块的结构如图2所示，模块由两部分构成——“GA”和“DCM”(即可变形卷积V2)，采用两个卷积核为3×3大小的卷积，其中一个通道数为1，另一个通道数为2，分别作用于所选特征图后得到两个分支，前一个分支作为分类分支，后一个分支作为回归分支。分类分支采用Focal Loss作为分类损失函数，回归分支采用SmoothL_n函数作为损失函数。分类分支经过sigmoid层，转化为概率值，然后筛选出可能成为目标框中心位置的像素，回归分支仅仅回归锚点框的宽和高，筛选且调整后的锚点框参与后续网络预测阶段。“GA”中的分类分支特征图作为可变形卷积V2的“调置”，回归分支的特征图作为可变形卷积V2的“偏置”。值得注意的是，网络预测层的反向传播不经过可变形卷积V2的“调置”和“偏置”两个分支。

基于深度神经网络的遥感图像目标检测方法的可变形卷积V2的结构如图3所示，“偏置”分支经过1×1大小的卷积层，进入像素调整模块。该结构具体实现步骤为：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

g(a，b)＝max(0，1-|a-b|)

然后采用加权求和操作得到该位置的像素值：

基于深度神经网络的遥感图像目标检测方法的深浅层融合的结构如图4所示，后一层的特征图经过核大小为4×4，步长为2的转置卷积，然后与该层经过核大小为3×3卷积层的特征图相加，最后再经过核大小为3×3卷积层。

基于深度神经网络的遥感图像目标检测方法的扩大感受野模块结构如图5所示。输入的特征图分别经由五个分支，每个分支都包含一系列卷积层，其中三个分支的包含空洞卷积，空洞系数分别为3、5、7，空洞卷积层和卷积层参数量不变，通过选取像素点的调整扩大感受野。模块中四个分支的输出特征层采取通道融合，再经由1×1的卷积，最后与另一个分支相加获得新的特征图。

基于深度神经网络的遥感图像目标检测方法的检测可视化结果如图6所示。其中图中的第一行的图为遥感图像水平框检测结果图，其中小车、船舶、港口分别由青色、蓝色、白色标示。图中的第二行的图为遥感图像旋转框检测结果图，图中包含小型车辆、大型车辆、船舶、港口。

基于深度神经网络的遥感图像目标检测方法的系统界面如图7(a)和图7(b)所示。其中图7(a)为水平框检测，图7(b)为旋转框检测。本发明的系统可以运行在Windows、Linux和Mac OS操作系统，GPU为NVIDIA GTX 1080Ti。系统界面主要由九个部分构成：菜单栏、工具栏、目录区、阈值区、模式区、显示区、信息区、输出区和统计区。下面将对界面的功能进行详细介绍：

菜单栏：“File”中包含文件打开、文件夹打开以及结果存储；“operation”中包含程序运行、模型选择和复位；

工具栏：图标依次为文件打开、文件夹打开、结果存储、程序运行和模型选择。可以读入的文件后缀名为.bmp、.jpg、.png、.gif，因此选择读入文件夹后只会显示这些后缀名的文件。对于存储仅仅在程序运行后才有效，存储运行后的图像以及含有类别和输出边界框信息的.txt文件；

目录区：对于读入的文件或者文件夹显示名称，而且可以通过在目录区双击选择切换；

阈值区：设置阈值，在程序运行后，输出置信度大于该阈值的边界框；

模式区：本系统的检测主要分为两个模式，正框(水平框)检测和斜框(旋转框)检测，每次只能选择一种模式进行检测；

显示区：对于原图像或者运行后图像进行显示，在该区域内滑动可以上下选择文件；

信息区：显示当前选择文件的路径以及程序运行情况；

输出区：程序运行后，显示当前图像输出框的类别和边界框坐标；

统计区：显示运行的系统、GPU情况以及输出类别的统计。

采用了上述的基于深度神经网络实现遥感图像目标检测的方法、系统及其计算机可读存储介质，可以实现遥感图像水平和旋转排列目标的检测，其中设计锚点框生成模块，由不同位置的特征信息自适应生成锚点框，降低预设锚点框的差异对于检测精度的影响；针对遥感图像中存在较多小目标的特点，提出了一种改进的特征金字塔结构，采用转置卷积方法融合深浅层特征信息；针对遥感图像背景复杂等难点，采用扩大感受野模块，提取更多特征信息，提高复杂背景下小目标的检测精度；采用SmoothL_n函数作为回归损失，进一步提升算法性能。针对旋转排列目标，引入角度因子的回归实现旋转框检测；此外为方便用户使用，本发明设计遥感图像目标检测系统，包含操作界面、模型选择、检测模式设置、阈值设置、图像目标检测和信息记录等模块，可以实现水平框检测、旋转框检测以及计算结果统计的功能；本方法(输入图像尺寸为512)和系统的检测网络在NVIDIA GTX 1080Ti的机器上的FPS为24，符合实时检测的使用需求。

在此说明书中，本发明已参照特定的实例作了描述。但是，很显然，利用其他目标检测基础网络仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述方法包括以下步骤：

(5)配置角度因子回归，实现对旋转目标的检测；

2.根据权利要求1所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的步骤(1)中的构建锚点框生成网络模块，具体包括以下步骤：

(11)构建生成锚点框网络结构；

(12)配置可变形卷积V2结构。

3.根据权利要求2所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的构建生成锚点框网络结构，具体包括以下步骤：

4.根据权利要求2所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的配置可变形卷积V2结构，具体为：

5.根据权利要求1所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的步骤(2)中的转置卷积算法的核大小为4×4，步长为2。

6.根据权利要求1所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的步骤(5)中所述的配置角度因子回归，具体包括以下步骤：

7.根据权利要求1所述的基于深度神经网络实现遥感图像目标检测的方法，其特征在于，所述的步骤(6)中所述的操作界面模块通过QT制作并构建，且该操作界面模块运行于Windows、Linux或者Mac OS操作系统中。

8.一种基于深度神经网络实现遥感图像目标检测的系统，其特征在于，所述的系统包括用于存储程序的存储器以及用于执行所述的程序的处理器，以实现权利要求1至7中任一项所述的基于深度神经网络实现遥感图像目标检测的方法。

9.一种计算机可读存储介质，其特征在于，包括程序，所述的程序可被处理器执行以完成权利要求1至7中任一项所述的基于深度神经网络实现遥感图像目标检测的方法。