CN110084195B

CN110084195B - 基于卷积神经网络的遥感图像目标检测方法

Info

Publication number: CN110084195B
Application number: CN201910346043.8A
Authority: CN
Inventors: 马文萍; 郭琼琼; 武越; 杨启帆; 赵暐
Original assignee: Xidian University
Current assignee: Xi'an Aomin Guozhong Information Technology Co.,Ltd.
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2022-12-06
Anticipated expiration: 2039-04-26
Also published as: CN110084195A

Abstract

本发明公开了一种基于卷积神经网络的遥感图像目标检测方法，主要解决现有技术不能很好地识别外观歧义的遥感目标，和不能获取足够目标语义信息的问题。其实现步骤是：1.采集遥感图像构建数据集，并将数据集划分为训练集和测试集；2.构建网络模型，该模型包含特征提取子网络，RPN候选框生成网络，上下文信息融合子网络以及多区域特征融合子网络；3.用训练集训练模型，直至训练的迭代次数等于预设的终止次数；4.将测试图像输入到训练好的模型中，得到目标检测的结果。本发明能强化特征的表达能力，丰富目标的语义信息，使目标更具有辨识性，提高了检测的精度，可用于资源勘探、灾害监测和城市规划的遥感图像目标检测。

Description

基于卷积神经网络的遥感图像目标检测方法

技术领域

本发明属于图像处理技术领域，特别涉及一种光学遥感图像目标检测方法，可用于资源勘探、灾害监测、城市规划、军事侦察和精准打击。

背景技术

随着遥感卫星技术飞速发展，一大批多分辨率、多传感器的遥感卫星涌现，生成了大量卫星遥感图像数据，具有重要的研宄及应用价值。

遥感图像目标检测是确定给定遥感图像中是否包含感兴趣类别的一个或多个物体，并且将每个预测物体定位在图像中的过程。作为遥感图像分析领域的一个基本问题，遥感系统中的目标检测发挥着重要作用，有着广泛的应用，如环境监测，地质灾害检测，军事侦察，地理信息系统GIS更新，精准农业，城市规划等。

目前，传统的遥感图像目标检测算法主要分为：基于模板匹配的方法、基于先验知识的方法，基于图像分析的方法OBIA，以及基于传统机器学习的方法。基于模板匹配方法的主要思想在于设计不同的模板去识别特定的目标，该类算法虽然在某些应用中颇有成效，但要求模板非常精确，其对目标的形状和密度变化非常敏感，算法的稳定性和鲁棒性较差。基于先验知识的方法的缺点在于先验知识和检测规则定义是过于主观的。基于图像分析的方法主要分为两个步骤：图像分割以及目标分类。首先，遥感图像被分割成各个区域，然后对其区域进行分类，判断其是否含有目标。该类算法对分割区域的定义含有大量主观信息，不具有普适性。基于传统机器学习的遥感图像目标检测算法相对于基于模板匹配方法和基于图像分析方法具有更好的准确性、稳定性以及普适性，但是该方法所采用的中层语义特征是对低层特征进行统计，仅能有效地表达不同纹理、边缘等特征的分布，但无法表达具有抽象语义的目标特征。

近年来，随着深度学习技术的发展，许多以卷积神经网络为核心的方法被成功应用到图像识别领域。相较于传统的遥感图像目标检测方法，基于卷积神经网络的方法更具有稳定性和普适性，且由于卷积神经网络能捕获目标的高层特征，获取更多关于目标的语义信息，该类方法可以得到更好的目标检测结果。西北工业大学程塨教授发表的一篇名为“Learning Rotation-Invariant Convolutional Neural Networks for ObjectDetection in VHR Optical Remote Sensing Images”的论文中就运用了卷积神经网络对遥感图像进行目标检测。这篇论文中学习了一个旋转不变层以检测旋转变化的遥感目标。然而，该方法没有解决外观相似但却属于不同类的遥感目标之间的错检问题，不能很好地识别外观歧义的遥感目标，且缺乏对目标空间结构信息的深入挖掘，不能获取足够的目标语义信息。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于卷积神经网络的遥感图像目标检测方法，以提高目标的辨识性，获取更多的目标语义信息，提升目标检测性能。

本发明的技术思路是：通过融合局部上下文信息，加强目标特征的表达能力，提高目标的辨识性；通过融合目标多个部分的区域特征，深入挖掘目标的空间结构信息，获取更多的目标语义信息，提升目标检测性能。

根据上述思路，本发明的实现步骤包括如下：

(1)从公开遥感图像数据中获得数据集，并将图像数据集按3:1的比例划分为训练集和测试集；

(2)构建网络模型：

(2a)由13个卷积层和4个最大池化层，构成网络模型的前半部分；

(2b)由上下文信息融合子网络和多区域特征融合子网络构成网络的后半部分：

(2b1)设置由2个RoIAlign池化层，4个全连接层，1个门控循环单元GRU构成的上下文信息融合子网络；

(2b2)设置由6个RoIAlign池化层，1个卷积层conv，3个全连接层构成的多区域特征融合子网络；

(2c)将网络的前半部分与网络的后半部分通过RPN候选框生成网络连接，得到网络模型。

(3)训练网络模型：

(3a)从训练集中随机选取一张图像进行训练，通过网络的前半部分，得到特征图F5；

(3b)用RPN候选框生成网络对特征图F5进行处理，生成目标候选框；

(3c)将目标候选框放大，获得1.8倍的目标候选框；通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理，得到该子网络的分类结果和回归结果；

(3d)将目标候选框缩小和裁剪，获得5种目标区域框，其包括0.7倍的目标候选框、目标候选框的左半部分、目标候选框的右半部分、目标候选框的上半部分和目标候选框的下半部分；通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理，得到该子网络的分类结果和回归结果；

(3e)将(3c)和(3d)中的分类结果求和取平均，通过softmax函数，得到每一个目标候选框的分类标记；再将(3c)和(3d)中的回归结果求和取平均，得到每一个目标候选框的位置坐标；

(3f)通过随机梯度下降算法优化整个网络模型的损失函数，迭代训练30000次后，得到训练好的卷积神经网络模型；

(4)将测试集图像输入到训练好的模型，对模型进行测试，得到每一类的平均精度AP值与所有类的平均精度均值mAP。

本发明与现有技术相比，具有以下优点：

第一，本发明提出了一个上下文信息融合子网络，与现有技术相比，该模型融合局部上下文信息，加强目标特征的表达能力，使目标更具有辨识性，从而减少外观相似但却属于不同类的遥感目标之间的错检，提高了检测精度。

第二，本发明提出了一个多区域特征融合子网络，与现有技术相比，该模型对目标的空间结构信息进行了深入的挖掘，展现了目标特征的多样性，丰富了目标的语义信息，提高了检测精度。

附图说明

图1是本发明的实现总流程图；

图2是本发明中构建网络模型的子流程图；

图3是本发明部分图像的检测效果图。

具体实施方式

下面结合附图和具体实施，对本发明作进一步详细描述。

参照图1，本实例的实现步骤如下：

步骤1，采集遥感图像构建数据集。

从公开的遥感图像数据集NWPU VHR-10-v2中采集遥感图像，所采集的遥感图像包括飞机，船，存储罐，棒球场，网球场，篮球场，操场，港口，桥梁和车辆；

将采集的这些遥感图像划分为训练集和测试集，本实验训练集中的图片数占数据集图片数的75％，测试集中的图片数占数据集图片数的25％，每类数据集中图片的大小均为400×400像素。

步骤2，构建网络模型。

参照图2，本步骤的具体实现如下：

(2.1)由13个卷积层和4个最大池化层，构成网络模型的前半部分；

网络模型的前半部分是特征提取子网络，其结构与现有VGG16网络结构中从卷积层conv1_1到卷积层conv5_3的部分相同，该特征提取子网络的17层结构及参数设置为：

第1层卷积层c1，卷积核的个数为64，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第2层卷积层c2，卷积核的个数为64，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第3层最大池化层p1，池化核大小为2×2，步长为2；

第4层卷积层c3，卷积核的个数为128，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第5层卷积层c4，卷积核的个数为128，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第6层最大池化层p2，池化核大小为2×2，步长为2；

第7层卷积层c5，卷积核的个数为256，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第8层卷积层c6，卷积核的个数为256，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第9层卷积层c7，卷积核的个数为256，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第10层最大池化层p3，池化核大小为2×2，步长为2；

第11层卷积层c8，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第12层卷积层c9，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第13层卷积层c10，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第14层最大池化层p4，池化核大小为2×2，步长为2；

第15层卷积层c11，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第16层卷积层c12，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第17层卷积层c13，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

(2.2)由上下文信息融合子网络和多区域特征融合子网络构成网络的后半部分：

(2.2.1)设置由2个RoIAlign池化层，4个全连接层，1个门控循环单元GRU构成的上下文信息融合子网络，该子网络的结构包括如下三个部分：

第一部分包含两条并列的支路：第一条支路是由第一个RoIAlign池化层R1与第一全连接层FC1连接组成；第二条支路是由第二个RoIAlign池化层R2与第二全连接层FC2连接组成；

第二部分包含一个门控循环单元GRU层，该门控循环单元GRU层连接在第一部分结构的后面，即第一个全连接层FC1连接门控循环单元GRU的初始隐藏状态端，第二全连接层FC2连接门控循环单元GRU的输入端；

第三部分包含两个并列的第三全连接层FC3和第四全连接层FC4，该部分连接在第二部分的后面，即门控循环单元GRU的输出端分别连接第三个全连接层FC3和第四个全连接层FC4；

所述第一RoIAlign池化层R1和第二RoIAlign池化层R2的池化核大小均为7×7，采样率均为2；第一全连接层FC1和第二全连接层FC2的节点个数均为4096，激活函数均为relu函数；

所述门控循环单元GRU层，其隐藏单元的个数为4096；

所述第三全连接层FC3的节点个数为10；

所述第四全连接层FC4的节点个数为40；

(2.2.2)设置由6个RoIAlign池化层，1个卷积层conv，3个全连接层构成的多区域特征融合子网络；该子网络共有4层结构，其中：

第1层包含6个并列的RoIAlign池化层R3～R8，每个池化核大小都为7×7，采样率都为2；这6个并列RoIAlign池化层的输出结果级联，级联后的结果作为第2层的输入；

第2层卷积层conv，其卷积核的个数为512，卷积核的大小为1×1，步长为1，激活函数为relu函数；

第3层全连接层FC5，其节点个数为4096，激活函数为relu函数；

第4层包含两个并列的全连接层FC6和FC7，其节点个数分别为10和40；

(2.3)将网络的前半部分与网络的后半部分通过RPN候选框生成网络连接，得到网络模型；

所述RPN候选框生成网络，共有2层，其结构参数如下：

第1层卷积层con1，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数；

第2层包含两个并列的卷积层con2和卷积层con3：第一个卷积层con2，卷积核的个数为18，卷积核的大小为1×1，步长为1；第二个卷积层con3，卷积核的个数为36，卷积核的大小为1×1，步长为1。

步骤3，训练网络模型。

(3.1)从训练集中随机选取一张图像进行训练，通过网络模型的前半部分，即特征提取子网络，得到特征图F5；

(3.2)用RPN候选框生成网络对特征图F5进行处理，生成目标候选框；

(3.3)将目标候选框放大，获得1.8倍的目标候选框；

(3.4)通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理，得到该子网络的分类结果和回归结果：

(3.4.1)将特征图F5和目标候选框输入到上下文信息融合子网络中，通过该子网络中的RoIAlign池化层，得到目标候选框的特征图，该特征图通过第一个全连接层，得到全连接层的输出特征，并将其作为门控循环单元GRU的初始隐藏状态；

(3.4.2)将特征图F5和1.8倍的目标候选框输入到上下文信息融合子网络中，通过该子网络中的另一个RoIAlign池化层，得到1.8倍目标候选框的特征图，该特征图通过第二个全连接层，得到全连接层的输出特征，并将其作为门控循环单元GRU的输入；

(3.4.3)将门控循环单元GRU的输出特征分别输入到第三个全连接层和第四个全连接层，得到上下文信息融合子网络的分类结果和回归结果；

(3.5)将目标候选框缩小和裁剪，获得5种目标区域框，其包括0.7倍的目标候选框、目标候选框的左半部分、目标候选框的右半部分、目标候选框的上半部分和目标候选框的下半部分；

(3.6)通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理，得到该子网络的分类结果和回归结果：

(3.6.1)将特征图F5和目标候选框输入到多区域特征融合子网络中，通过该子网络中的第一个RoIAlign池化层，得到目标候选框的特征图；

(3.6.2)将特征图F5和0.7倍的目标候选框输入到多区域特征融合子网络中，通过该子网络中的第二个RoIAlign池化层，得到0.7倍目标候选框的特征图；

(3.6.3)将特征图F5和目标候选框的左半部分输入到多区域特征融合子网络中，通过该子网络中的第三个RoIAlign池化层，得到目标候选框左半部分的特征图；

(3.6.4)将特征图F5和目标候选框的右半部分输入到多区域特征融合子网络中，通过该子网络中的第四个RoIAlign池化层，得到目标候选框右半部分的特征图；

(3.6.5)将特征图F5和目标候选框的上半部分输入到多区域特征融合子网络中，通过该子网络中的第五个RoIAlign池化层，得到目标候选框上半部分的特征图；

(3.6.6)将特征图F5和目标候选框的下半部分输入到多区域特征融合子网络中，通过该子网络中的第六个RoIAlign池化层，得到目标候选框下半部分的特征图；

(3.6.7)将上面得到的6种特征图级联，输入到卷积层conv中，得到降维后的特征图，将该特征图输入到第一个全连接层，得到全连接层的输出特征，之后将该输出特征分别输入到第二个全连接层和第三个全连接层，得到多区域特征融合子网络的分类结果和回归结果；

(3.7)将(3.4)和(3.6)中的分类结果求和取平均，通过softmax函数，得到每一个目标候选框的分类标记；再将(3.4)和(3.6)中的回归结果求和取平均，得到每一个目标候选框的位置坐标；

(3.8)通过随机梯度下降算法优化整个网络模型的损失函数，迭代训练30000次后，得到训练好的卷积神经网络模型。

步骤4，测试模型，获得检测结果。

将测试集图像输入到训练好的模型中，输出图像中所有目标的类别和位置框，并输出每一类的平均精度AP值和所有类的平均精度均值mAP。

以下结合仿真实验，对本发明的仿真效果作进一步说明：

1.仿真环境：

本发明使用的训练机器主要是一台CPU型号为Intel Xeon E5-2630v4，GPU型号为NVIDIA GeForce GTX 1080的服务器。操作系统是Ubuntu16.04系统，深度学习平台为TensorFlow 1.3.0，使用的编程语言为python2.7。

2.评价指标：

本实验中采用的评价指标是每一类的平均精度AP值与所有类的平均精度均值mAP，平均精度AP值与平均精度均值mAP越大，表示算法的性能越好，检测的精度越高。

3.仿真内容与结果：

在上述仿真环境下，采用数据集NWPU VHR-10-v2对本发明中构造的网络模型进行训练和测试后，将数据集中的所有图像输入到训练好的卷积神经网络模型中，输出图像中所有目标的类别和位置框，部分图像的检测效果如图3。其中图3(a)为船的检测效果图，图3(b)为桥梁的检测效果图，图3(c)为港口的检测效果图。

从图3可知，本发明能很好地检测出遥感图像中的目标。

将模型测试时输出的平均精度AP值和平均精度均值mAP分别与现有方法进行比较，比较结果如表1：

表1.本发明与现有技术评价指标结果比较表

	本发明	现有技术
			飞机	1.0000	0.8871
船	0.9142	0.7834
			存储罐	0.9755	0.8633
棒球场	0.9656	0.8909
			网球场	0.9467	0.4233
篮球场	0.9637	0.5685
			操场	1.0000	0.8772
港口	0.9218	0.6747
			桥梁	0.7746	0.6231
车辆	0.8982	0.7201
			mAP	0.9355	0.7311

从表1可知，本发明得到的所有类的平均精度均值mAP高于现有方法，并且每个类别的平均精度AP值均高于现有技术，说明本发明中上下文信息子网络使特征的表达能力更强，多区域特征融合子网络深入挖掘了目标结构信息，丰富了目标的语义信息，从而提高了检测精度。

Claims

1.一种基于卷积神经网络的遥感图像目标检测方法,其特征在于，包括如下：

(2)构建网络模型：

(3)训练网络模型：

2.根据权利要求1所述的方法，其特征在于：(2a)中的模型前半部分，结构参数如下：

第3层最大池化层p1，池化核大小为2×2，步长为2；

第6层最大池化层p2，池化核大小为2×2，步长为2；

第10层最大池化层p3，池化核大小为2×2，步长为2；

第14层最大池化层p4，池化核大小为2×2，步长为2；

第17层卷积层c13，卷积核的个数为512，卷积核的大小为3×3，步长为1，激活函数为relu函数。

3.根据权利要求1所述的方法，其特征在于：(2b1)中的上下文信息融合子网络，其结构包括如下三个部分：

第一部分包含两条并列的支路：第一条支路是由第一个RoIAlign池化层R1与第一个全连接层FC1连接组成；第二条支路是由第二个RoIAlign池化层R2与第二个全连接层FC2连接组成；

第二部分包含一个门控循环单元GRU层；

第三部分包含两个并列的第三个全连接层FC3和第四个全连接层FC4；

所述第一个RoIAlign池化层R1和第二个RoIAlign池化层R2的池化核大小均为7×7，采样率均为2；第一个全连接层FC1和第二个全连接层FC2的节点个数均为4096，激活函数均为relu函数；

所述门控循环单元GRU层，其隐藏单元的个数为4096；

所述第三个全连接层FC3的节点个数为10；

所述第四个全连接层FC4的节点个数为40。

4.根据权利要求1所述的方法，其特征在于：(2b2)中的多区域特征融合子网络，设有4层结构，其中：

第1层包含6个并列的RoIAlign池化层，每个池化核大小都为7×7，采样率都为2；

第3层全连接层FC5，其节点个数为4096，激活函数为relu函数；

第4层包含两个并列的全连接层FC6和FC7，其节点个数分别为10和40。

5.根据权利要求1所述的方法，其特征在于：(2c)中的RPN候选框生成网络，结构参数如下：

6.根据权利要求1所述的方法，其特征在于：(3c)中通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理，实现步骤如下：

(3c1)将特征图F5和目标候选框输入到上下文信息融合子网络中，通过该子网络中的RoIAlign池化层，得到目标候选框的特征图，该特征图通过第一个全连接层，得到全连接层的输出特征，并将其作为门控循环单元GRU的初始隐藏状态；

(3c2)将特征图F5和1.8倍的目标候选框输入到上下文信息融合子网络中，通过该子网络中的另一个RoIAlign池化层，得到1.8倍目标候选框的特征图，该特征图通过第二个全连接层，得到全连接层的输出特征，并将其作为门控循环单元GRU的输入；

(3c3)将门控循环单元GRU的输出特征分别输入到第三个全连接层和第四个全连接层，得到上下文信息融合子网络的分类结果和回归结果。

7.根据权利要求1所述的方法，其特征在于：(3d)中通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理，实现步骤如下：

(3d1)将特征图F5和目标候选框输入到多区域特征融合子网络中，通过该子网络中的第一个RoIAlign池化层，得到目标候选框的特征图；

(3d2)将特征图F5和0.7倍的目标候选框输入到多区域特征融合子网络中，通过该子网络中的第二个RoIAlign池化层，得到0.7倍目标候选框的特征图；

(3d3)将特征图F5和目标候选框的左半部分输入到多区域特征融合子网络中，通过该子网络中的第三个RoIAlign池化层，得到目标候选框左半部分的特征图；

(3d4)将特征图F5和目标候选框的右半部分输入到多区域特征融合子网络中，通过该子网络中的第四个RoIAlign池化层，得到目标候选框右半部分的特征图；

(3d5)将特征图F5和目标候选框的上半部分输入到多区域特征融合子网络中，通过该子网络中的第五个RoIAlign池化层，得到目标候选框上半部分的特征图；

(3d6)将特征图F5和目标候选框的下半部分输入到多区域特征融合子网络中，通过该子网络中的第六个RoIAlign池化层，得到目标候选框下半部分的特征图；

(3d7)将上面得到的6种特征图级联，输入到卷积层conv中，得到降维后的特征图，将该特征图输入到第一个全连接层，得到全连接层的输出特征，之后将该输出特征分别输入到第二个全连接层和第三个全连接层，得到多区域特征融合子网络的分类结果和回归结果。