CN106778835A

CN106778835A - 融合场景信息和深度特征的遥感图像机场目标识别方法

Info

Publication number: CN106778835A
Application number: CN201611070929.7A
Authority: CN
Inventors: 肖志峰; 宫平; 宫一平; 龙洋
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31
Anticipated expiration: 2036-11-29
Also published as: CN106778835B

Abstract

本发明提供一种融合场景信息和深度特征的遥感图像机场目标识别方法，包括根据预设的若干种尺寸，分别采用滑窗的方式在图像上生成机场的目标候选框；构建深度卷积神经网络特征提取器，对每一个目标候选框都增加相应内部窗口和上下文窗口，实现对候选框区域影像的自身特征、内部特征以及上下文特征的学习和提取，组合得到融合描述特征；基于SVM支持向量机进行目标候选框的类别判定，得到目标候选框的类别属性和属于这个类别的概率；进行目标候选框的定位精处理，得到遥感图像机场目标识别结果。应用本发明能够在高分辨率遥感影像中快速准确的识别出机场的位置和大小，该方法适合于各种光照条件，各种复杂背景下的遥感图像机场识别研究。

Description

融合场景信息和深度特征的遥感图像机场目标识别方法

技术领域

本发明属于目标自动识别技术领域，特别是涉及一种针对复杂遥感影像中机场目标的自动识别方法。

背景技术

机场作为一种重要的交通工具和军用设施，在各个领域尤其是基础信息、航空安全、国防建设领域具有非常重要的作用，因此快速准确的从海量遥感影像中对机场进行识别定位具有非常重要的意义。传统的遥感图像目标检测方法一般分为三个步骤：一是区域搜索，二是特征提取，三是分类器判定。方法上主要有两大类，一种是基于图像的灰度特征，通过图像分割或视觉显著机制等确定机场的疑似区域，然后通过提取疑似区域的某种特征，用分类器进行类别判定，得到该区域的最终判定结果；另一种是基于机场跑道的结构特征，通过Hough变换等直线检测手段提取出机场的边缘信息，然后再通过直线拟合、区域增长等方法得到机场最终的位置和轮廓。基于灰度的方法受限于影像的灰度分布及光照等条件，很容易产生过分割、显著性不强等问题，而基于机场结构的方法过分依赖先验知识。上述传统方法普遍采用人工设计特定特征的方法，而这些特征往往依赖于丰富的经验，而可能忽略掉某些重要的特征信息。

发明内容

针对现有机场目标自动识别技术存在的问题，本发明基于深度卷积神经网络方法，提供了一种基于场景上下文和深度融合特征的遥感图像机场目标自动识别方法，该方法能够从复杂遥感影像中较快较好的识别出机场目标。

本发明的技术方案是一种融合场景信息和深度特征的遥感图像机场目标识别方法，包括以下步骤：

1)根据预设的若干种尺寸，分别采用滑窗的方式在图像上生成机场的目标候选框；

2)构建深度卷积神经网络特征提取器，对步骤1)所得到的每一个目标候选框都增加相应内部窗口和上下文窗口，实现对候选框区域影像的自身特征、内部特征以及上下文特征的学习和提取，将这三种特征进行组合作为该目标候选框最终的融合描述特征；所述深度卷积神经网络特征提取器包括在GooleNet模型的最后一层全链接层之前增加全链接层模块，所述全链接层模块包括一层N维的全链接层、一层激活函数层和一层模型平均层，其中N为预设的特征表达维数；

3)根据融合描述特征，基于SVM支持向量机进行目标候选框的类别判定，得到目标候选框的类别属性和属于这个类别的概率；

4)根据步骤3)所得结果进行目标候选框的定位精处理，得到遥感图像机场目标识别结果。

而且，N＝64。

而且，对目标候选框增加相应内部窗口和上下文窗口，实现方式为，设某原始的目标候选框宽为Width、长为Height，内部窗口宽为Width/2、长为Height/2，上下文窗口宽为2Width、长为2Height。

而且，所述SVM支持向量机采用LIBSVM。

而且，步骤4)的实现包括以下两步，

第一步，利用非极大值抑制解决候选框冗余的问题，包括从得分最高的框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过预设比值B的框舍弃，得到一组筛选后的框，然后依次进行同样处理，直到遍历完成，得到两两之间重叠面积都小于预设比值B的框的集合；

第二步，进行回归处理，首先将框与框之间有交集的分到一组，分组之后对每组分别进行框回归计算，回归后的框的坐标由以下公式给出，

式中，该组内有n个窗口，a_k表示第k个窗口被判定为机场的得分概率，和分别表示第k个窗口在图像中的左上点坐标和右下角坐标，通过计算回归之后的左上角点和右下角点得到每一个目标所对应的目标候选框，作为目标的最终位置信息。

本发明的特点：设计了一种更加有效的GoogleNet-DR模型对机场不同的形态、不同的背景条件以及不同的光照条件进行学习，并综合利用候选框区域的自身、内部以及上下文三个尺度的特征对候选区域进行综合特征表达，有效地避免了单纯依靠某一特征导致错误判别候选框类别的情况，从而提高特征的可区分性；在SVM的训练过程中，引入HardNegative Mining方法进行SVM的训练，不同于以往的按比例随机挑选正负样本的训练策略，该方法能够让分类器自动进行难分负样本的再学习，从而优化SVM分类效果，提高分类器的检测精度。本发明所提出的基于场景上下文和深度融合特征的遥感图像机场目标自动识别方法，能够在高分辨率遥感影像中快速准确的识别出机场的位置和大小，该方法适合于各种光照条件，各种复杂背景下的遥感图像机场识别研究。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例GoogleNet-DR模型示意图；

图3是本发明实施例融合描述特征示意图。

图4是本发明实施例内部窗口和上下文窗口示意图。

图5是本发明实施例目标候选框回归处理示意图。

具体实施方式

为了更好地理解本发明的技术方案，下面结合附图和实施例对本发明做进一步的详细说明。

随着神经网络，尤其是深度卷积神经网络的进一步发展，其较强的特征自学习能力和检测效果逐渐崭露头角。卷积神经网络将特征抽取与分类相结合，目前已经广泛应用于语音识别、图像处理、自然语言处理等众多领域，本技术利用深度卷积神经网络作为特征提取器，联合支持向量机对图像类别进行判定，在进行框回归算法后能够准确的从遥感图像中识别机场目标。

本发明基于深度卷积神经网络的特征自学习能力，提供了一种基于场景上下文和深度融合特征的遥感图像机场目标自动识别方法，分为四个过程：候选框提取、深度特征及上下文特征提取、分类器分类及候选框优化处理。首先，利用滑窗的方法在图像上生成一些目标候选框作为潜在机场疑似区域，然后利用预先设计好的卷积降维网络对目标候选框窗口区域进行自身、内部以及上下文三个尺度的影像特征提取，将这三个尺度的特征组合成一个特征作为该窗口区域的最终描述特征，然后利用事先训练好的支持向量机根据窗口区域的特征向量进行类别判定，输出候选框的最终类别标签，最后利用非极大值抑制和框回归算法对类别判定为机场区域的目标候选框进行定位精处理，得到影像内机场目标的最终位置和范围。

实施例流程如图1所示，具体包括以下的步骤：

1)利用滑窗的方法在图像上生成一些目标候选框，依据机场在本实验所用遥感图像(天地图15级分辨率)中所占的像素大小，将滑动窗口的长和宽都设置为300，500，700和900共4个尺度，以适应不同大小、不同形态的机场，相邻两个窗口的重叠像素大小为200，这样每一张影像上都会有16种不同尺寸的滑动窗口，即300×500、300×500、300×700和300×900，500×300、500×500、500×700和500×900，700×300、700×500、700×700和700×900，900×300、900×500、900×700和900×900。滑窗的大小、数目取决于机场在影像中所占像素大小，应用时可根据实际情况调整。

2)构建深度卷积神经网络特征提取器，实现对候选框区域影像的自身特征、内部特征以及上下文特征的学习和提取：本发明提出的深度卷积神经网络特征提取器称为GoogleNet-DR(GoogleNet Dimensional Reduction)模型，GoogleNet-DR模型的设计及目标候选框内三个尺度特征的提取。参见图2，原始的GooleNet模型由卷积层、池化层、局部响应归一化层、Inception模块和全链接层(维度等于类别数)构成，其中Inception模块是由1x1,3x3,5x5及池化层堆叠而成。本设计通过修改原有的网络结构，设计了一个更加适用于本案列的GoogleNet-DR模型，具体方法是在原始模型的基础上增加了一层64维的全链接层(此层维度为预设的特征表达维数N，优选地为64，有利于后向传播，同时能较好地进行特征表达)、一层激活函数层和一层模型平均层，将这三层作为一个整体，添加至最后一层全链接层之前，并统称为64维全链接层模块。

降维模型设计好后，对步骤1)所得到的每一个目标候选框(实施例有16种尺寸滑动窗口的遍历结果)都增加两种尺寸的窗口：内部窗口和上下文窗口。内部窗口和上下文窗口的边长大小分别是原窗口的二分之一和两倍，窗口中心为原窗口中心，参见图4，设某原始的目标候选框相应滑动窗口宽为Width、长为Height，内部窗口宽为Width/2、长为Height/2，上下文窗口宽为2Width、长为2Height。然后根据这三种窗口对影像候选区进行区域本身、区域内部以及场景上下文三种尺度信息的学习和提取。

学习中利用已经在公开的ImageNet数据集上训练好的GoogleNet模型对该降维模型进行参数初始化(新增的全链接层的参数初始化为0)，学习样本来自训练影像上预先标记的候选框(具体实施时可以由本领域技术人员预先标记)，通过对影像三种信息的学习得到基于三个尺度信息的三个GoogleNet-DR模型，所得的GoogleNet-DR模型能够很好的对影像的特征进行提取。最后利用训练好的GoogleNet-DR模型，对步骤1)利用滑窗算法得到的目标候选框，进行区域自身特征、区域内部特征以及场景上下文特征的提取，并将这三个尺度的特征进行组合作为该区域的最终描述特征，即192维融合特征，参见图3，影像(区域本身)、影像(区域内部)、影像(场景上下文)分别经GoogleNet-DR模型所得的描述特征，经深度特征串联后，将通过SVM分类器获得每个类别属性相应得分。

3)SVM支持向量机的训练及目标候选框的类别判定。

实施例中所用的训练数据和测试数据来自谷歌地图数据和天地图数据，分辨率在4米左右。利用设计好的GoogleNet-DR模型在训练数据上进行机场特征和非机场特征的提取，作为SVM训练的正负样本，每个样本都是192维训练数据。

实施例中所用的支持向量机为LIBSVM，在进行LIBSVM训练的过程中，首先分别从正负训练样本中随机的各选取1600个样本作为初始化训练样本，用于初始化一个分类器，剩下的所有样本作为测试样本，然后初始化的分类器对所有测试样本进行检测，从中选出类别判定错误的负样本作为难分样本添加到初始负样本中再次进行分类器的学习和训练，重复训练分类器直至难分样本数量为0或迭代次数达到设定阈值(例如30)。分类器训练好后，将上一步得到的用深度卷积降维网络提取的候选区域的192维特征输入到分类器中进行类别判定，分类器会为每一个候选框分配一个类别属性和属于这个类别的概率。具体实施时，如果预先根据样本训练完成了支持向量机，对于检测图像执行步骤1)～步骤2)后的处理后，直接利用已经训练好的支持向量机分类，即可进入4)获得相应定位结果。

4)目标候选框的定位精处理。由于步骤1)滑窗算法所得的目标候选框并不能够精确表达所有机场的大小、范围，因此需要在最后进行候选框的回归精处理操作。主要包括两部分：

第一步利用非极大值抑制解决候选框冗余的问题，具体方法是从得分最高的框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过预设比值B(本领域技术人员可自行预设，优选地采用0.7)的框舍弃，得到一组筛选后的框，然后用同样的方法对剩下的框进行非极大值操作，包括从得分最高的第二个框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过B的框舍弃，依次根据得分排列取得分最高的第三个框…直到遍历到集合中倒数第二个框，与最后一个框比较后停止。最后得到两两之间重叠面积都小于B的框的集合。

第二步是框回归算法，去掉冗余的框之后，往往还存在多个框对应一个目标的问题，因此要对多个框进行回归处理，首先将框与框之间有交集的分到一组，分组之后对每组分别进行框回归计算，回归后的框的坐标由以下公式给出，

式中，该组内有n个窗口(框)，a_k表示第k个窗口被判定为机场的得分概率，和分别表示第k个窗口在图像中的左上点坐标和右下角坐标，通过计算回归之后的左上角点和右下角点得到每一个目标所对应的目标候选框，即目标的最终位置信息。

以图5为例，图中共有六个窗口，先根据相交情况分为两组，第一组框的得分为0.9，0.8，0.7，第二组框的得分为0.9，0.9，0.7，然后对每一组分别计算回归后的以为例，表示第一组框通过回归计算得到的第一个框的左上角坐标，表示第二组框通过回归计算得到的第二个框的左上角坐标。

具体实施时，以上流程可采用计算机软件技术实现自行运行。

以上内容是结合实施例对本发明说做的进一步详细说明，不能认定本发明的具体实施只限于这些说明。本领域的技术人员应该理解，在不脱离由所附权利要求书限定的情况下，可以在细节上进行各种修改，都应当视为属于本发明的保护范围。

Claims

1.一种融合场景信息和深度特征的遥感图像机场目标识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述融合场景信息和深度特征的遥感图像机场目标识别方法，其特征在于：N＝64。

3.根据权利要求1所述融合场景信息和深度特征的遥感图像机场目标识别方法，其特征在于：对目标候选框增加相应内部窗口和上下文窗口，实现方式为，设某原始的目标候选框宽为Width、长为Height，内部窗口宽为Width/2、长为Height/2，上下文窗口宽为2Width、长为2Height。

4.根据权利要求1所述融合场景信息和深度特征的遥感图像机场目标识别方法，其特征在于：所述SVM支持向量机采用LIBSVM。

5.根据权利要求1或2或3或4所述融合场景信息和深度特征的遥感图像机场目标识别方法，其特征在于：步骤4)的实现包括以下两步，

\begin{matrix} x_{i}^{L} = Σ_{k = 1}^{n} \frac{a_{k}}{a_{1} + a_{2} + ... + a_{n}} x_{k}^{L} & x_{i}^{R} = Σ_{k = 1}^{n} \frac{a_{k}}{a_{1} + a_{2} + ... + a_{n}} x_{k}^{R} \end{matrix}

\begin{matrix} Y_{i}^{T} = Σ_{k = 1}^{n} \frac{a_{k}}{a_{1} + a_{2} + ... + a_{n}} Y_{k}^{T} & Y_{i}^{B} = Σ_{k = 1}^{n} \frac{a_{k}}{a_{1} + a_{2} + ... + a_{n}} Y_{k}^{B} \end{matrix}