CN108830172A

CN108830172A - 基于深度残差网络与sv编码的飞机遥感图像检测方法

Info

Publication number: CN108830172A
Application number: CN201810511422.3A
Authority: CN
Inventors: 杨嘉琛; 满家宝
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-11-16

Abstract

本发明涉及一种基于深度残差网络与SV编码的飞机遥感图像检测方法，包括下列步骤：建立基于caffe神经网络的检测框架，保留ResNet中的conv1,conv2_x,conv3_x和conv4_x，丢弃conv5_x，为了将多个级别的feature map整合到相同的尺寸，对shallower特性进行分类，使用最大池化层来映射；采用利用HOG描述器进行特征描述，使用SV编码对原始HOG特征进行编码，以获得高维稀疏向量；进行模型权重初始化与初步训练，得到模型a；收集飞机遥感图像，利用标注工具标出飞机所在位置，完成训练集与测试集；利用训练集训练模型a，微调模型权重，得到最终检测模型b。

Description

基于深度残差网络与SV编码的飞机遥感图像检测方法

技术领域

本发明属于计算机视觉领域，涉及目标检测识别算法在飞机遥感图像检测上的应用。

背景技术

随着遥感技术的发展，飞机遥感影像探测已成为一个具有吸引力的研究课题，在动态机场监测和军事侦察等各种应用中发挥着至关重要的作用。虽然在自然图像中物体检测的任务已经取得了显著的进展，但由于复杂背景、噪声和光照等因素的不同，在遥感图像中，很少有研究能有效地解决飞机探测的难题。

传统的遥感图像目标检测体系结构是基于人工设计的特征。Sun等人(2011)提出了一种基于空间稀疏编码bag-of-words(BOW)(SSCBOW)模型的检测框架。Zhang等人(2013)通过编码旋转部件和物体的特征来探测飞机。Shi等人(2014)利用异常探测器和局部形状特征探测高分辨率光学图像中的舰船。Zhao等人(2017)采用了一种名为聚合通道特征(ACF)的信道特性，采用了快速特征金字塔算法来检测遥感图像中的飞机。不幸的是，很少有传统的方法可以在实际系统中使用，因为很难通过人工识别从复杂多样的背景中探测飞机的特性。

最近，深度学习模型，特别是卷积神经网络(CNN)，在许多挑战任务中都取得了巨大的成功，包括在自然图像中的目标检测。基于区域的卷积神经网络(R-CNN)(Girshicketal.2014)率先探索CNN的目标检测。它首先使用选择性搜索(VanDeSandeetal.2011)生成区域建议，然后使用CNN捕获每个区域提议的目标特征。fastR-CNN(Girshick2015)提出在一个训练阶段使用多任务损失训练网络。Ren等人(Ren etal.2015)提出了一种创新的模型，称为faster R-CNN，其架构将区域建议和检测合并到一个统一的网络中。这项工作提供了一个名为区域建议网络(RPN)的网络，该网络与检测网络共享全图像卷积特性，从而实现了几乎不含成本的区域建议。在(He etal.2016)中，他们证明使用深度残差网络(ResNet)可以进一步提高基于基线的R-CNN系统的性能。值得注意的是，ResNet包含所谓的残差映射，这使得深层结构更易于训练。近年来，深度学习模型也证明了其在遥感图像中对目标检测的优越性。Diao等人(2016)提出了一种基于显著性先验和深度信念网络(DBN)的目标检测框架。邹市明(2016)提出了一种新的船舶检测方法SVD网络(SVDNet)，该方法是基于最近流行的CNN模型和奇异值失代偿算法设计的。在(Longetal.2017)中，提出了一种基于CNN模型的特征提取策略，其深度层可以描述遥感图像中的物体。

发明内容

本发明的目的是提供一种更为精确，识别率更高的飞机遥感图像检测方法。技术方案如下：

一种基于深度残差网络与SV编码的飞机遥感图像检测方法，包括下列步骤：

(1)建立基于caffe神经网络的检测框架，保留ResNet中的conv1,conv2_x,conv3_x和conv4_x，丢弃conv5_x，为了将多个级别的featuremap整合到相同的尺寸，对shallower特性进行分类，使用最大池化层来映射，应用局部响应规范化(LRN)方法在多级特征图上增强其生成性；

(2)采用利用HOG描述器进行特征描述，使用SV编码对原始HOG特征进行编码，以获得高维稀疏向量；

(3)基于ImageNet图片集进行模型权重初始化与初步训练，得到模型a；

(4)收集飞机遥感图像，利用标注工具标出飞机所在位置，完成训练集与测试集；

(5)利用训练集训练模型a，微调模型权重，训练时采用约10-3的学习速率，进行端到端迭代训练，得到最终检测模型b。

附图说明

图1检测框架

图2检测结果比对

图3使用该方法得到的部分检测结果

具体实施方式

本发明利用CNN对远程飞机进行探测遥感图像。由于遥感图像中存在的各种干扰，一个深层卷积神经网络功能可能比传统的人工检测更适合用于检测脸部用的特性而设计的。然而，直接采用上述的深度学习理论于遥感图像中，进行飞机探测模型，并不能产生很优秀的检测效果。一方面，遥感影像中的飞机总是很小，因此，深度CNN架构的卷积特性映射的粗糙性可能会出现降低飞机定位精度。另一方面，训练有效的深度学习模型需要大量的标签数据。但是,与自然图像目标检测不同，有效数据量的飞机检测遥感影像是有限的。

本发明的基于深度残差网络和方向梯度直方图与超向量编码(SV-encoding)的飞机遥感图像检测方法的实质性特点在于为飞机的设计提供一个多层次的卷积特征描述，通过使用一个改进的ResNet和HOG与SV编码网络，增强飞机遥感图像识别率。为进一步提高精度，本发明使用k-means调整RPN中anchor的形状适用于飞机的尺寸。实验结果表明，该方法在遥感影像上的飞机探测方面具有一定的应用效果，性能优于目前的人工检测方法。

如图1所示，本发明在遥感图像中构建了一个基于深度残差网络和SV编码的HOG用以作为飞机探测器。首先，将整个输入图像作为输入，通过改进版ResNet网络同时输出多个卷积层的特征图。下一步，采用RPN生成一套区域方案通过在多尺度卷积特征图上滑动自定义anchor。最后，本发明从每个区域提取了具有SV编码的HOG特征，并对其进行了辅助卷积功能，对每个区域的建议进行分类和调整。

从理论上讲，更深层次的神经网络有更大的能力来完成复杂的任务，但是他们很难训练。为了减轻深层网络的训练，本发明将改进版ResNet应用于faster r-cnn(Ren etal.2015)，根据检测结果可知，此方法为更有效的目标检测方法。

在本发明涉及的数据集中，飞机在遥感影像通常是低分辨率的。另一方面，通过研究可以发现，标准的ResNet网络很难有效地检测小目标。困难来自于标准的ResNet的最后一层的输出粗糙提供有效的特征图。这意味着最后一个特征的一小部分映射对应于一个大的接受域。例如，一个具有大小的目标48个像素的输入图像在经历了所有卷积层后将变成3个像素卷积ResNet层。这种现象导致对于小物体的检测时目标定位不准确问题更加突出。因此,只利用CNN最后一层的单尺度特征图编码不足以飞机定位的信息特征。

为了解决这个问题，本发明提出了两种策略来优化网络。首先，本发明配置一个更少层的ResNet来减少它的深度。本发明保留在标准的ResNet中的conv1,conv2_x,conv3_x和conv4_x，而所有层的conv5_x和被丢弃。该策略有效地提高了特征映射的分辨率并且隐式地编码更好的位置信息。除了深度之外，本发明还可以观察到在网络的末端只有一个单一尺度的卷积特征图。另一方面，本发明结合了较低层次的特征，将conv2_x和conv3_x与conv4_x的输出的特征图结合，增强其丰富性。conv1的feature map被忽略，因为它包含了较少量的语义信息。在ResNet的体系结构中，conv3_1、conv4_1和conv5_1完成了子采样，步幅为2。因此，多级特征映射有不同的分辨率。为了将多个级别的feature map整合到相同的尺寸，本发明会对shallower特性进行分类，在它们上使用一个最大池化层来映射。

在调整特征映射到一致大小后，本发明应用局部响应规范化(LRN)(Krizhevsky,Sutskever，和Hinton 2012)在多级特征图上增强其生成性，此法可进一步提高系统的精确性和鲁棒性。LRN是由方程定义的

x和y表示空间位置N是这一层的核数。表示一个神经元的活动，通过应用i内核计算(x,y)坐标，是响应标准化的活动。对特征图进行求和由n个相邻的内核映射在相同的位置生成。k，α和β的集合常量参数，其值通常是固定的。最后，所有的功能图都是连接到一个特征数据集。

大量的研究表明，CNN的深度架构对复杂模型具有极强的学习能力。它们可以提取不变量和多级不具有先验知识的特征，具有较低的层次和自动化程度描述面向的边缘和更高层次的描述形状。显然,CNN-based特征提取器可以很容易地击败人工特征提取器。但是，只有以大量高质量的标签数据为基础时，这些优秀性能才能逐步显现。不同于自然图像物体检测，飞机检测中很难得到理想的大量遥感影像中的有效数据，故产生了显著的性能下降。基于此，本发明构造了一个混合特征描述包含多层次的卷积特性和人为设计的特性。具体地说，本发明使用的是在被使用时表现良好的HOG遥感影像检测(Qi等，2015)。HOG描述符可以捕获对象的轮廓信息，简单快速地计算图像的梯度。自区域生成网络后，本发明将每个区域的大小调整为100像素，然后计算它们的HOG描述符。正如实验证明的那样，HOG描述符可以有效地补充CNN特点和提高检测的准确性。

为了使HOG描述器更高效，本发明使用SV编码(Zhou et.2010)对原始HOG特征进行编码，以获得高维稀疏向量。

实际检测精度与召回率如图2如所示，由此可见，本发明中采用的检测策略所得测量结果高于现有最高检测结果，尤其是对于小目标飞机检测效果显著增强：

初步使用ImageNet进行测试与模型权重修正后，我们全面评估该方法在遥感图像数据集的测试影响。并利用自有数据微调模型权重。训练时采用约10^-3的学习速率，进行约3*10⁵次端到端迭代训练。使用该方法得到的部分检测结果如图3。

概况而言，本发明的检测步骤如下：

1按图1所示搭建检测框架，此检测基于caffe神经网络框架；

2基于ImageNet图片集进行模型权重初始化与初步训练，得到模型a；

3利用网络爬虫程序大量收集飞机遥感图像，约数千张，利用标注工具标出飞机所在位置，完成训练集与测试集制作，训练集与测试集比例约为7:3；

4利用自制数据集训练模型a，微调模型权重，训练时采用约10-3的学习速率，进行约3*105次端到端迭代训练，得到最终检测模型b；

5得到训练模型b后，利用实际图片进行飞机图像检测，得出检测结果，分析检测精度、召回率等参数，最终达到既定检测准确率要求。

Claims

1.一种基于深度残差网络与SV编码的飞机遥感图像检测方法，包括下列步骤：

(1)建立基于caffe神经网络的检测框架，保留ResNet中的conv1,conv2_x,conv3_x和conv4_x，丢弃conv5_x，为了将多个级别的feature map整合到相同的尺寸，对shallower特性进行分类，使用最大池化层来映射，应用局部响应规范化(LRN)方法在多级特征图上增强其生成性；