CN110633661A

CN110633661A - 一种融合语义分割的遥感图像目标检测方法

Info

Publication number: CN110633661A
Application number: CN201910820020.6A
Authority: CN
Inventors: 崔振; 虞政麟; 李承政; 许春燕; 张桐; 杨健
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2019-12-31

Abstract

本发明公开了一种融合语义分割的遥感图像目标检测方法，构建改进的特征金字塔网络，提取遥感图像的多层金字塔特征；对金字塔特征进行语义分割，获取目标边界框级别的掩码和语义特征；构建图片笛卡尔直角坐标系，根据提取的金字塔特征和生成的边界框级别的掩码生成与图片坐标轴平行的候选框；根据候选框坐标、多层金字塔特征、语义特征和归一化后的原始图像确定边界框特征，再进行回归和softmax操作得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息。本发明提高了遥感图像小目标检测的准确率。

Description

一种融合语义分割的遥感图像目标检测方法

技术领域

本发明涉及图像处理技术，具体涉及一种融合语义分割的遥感图像目标检测方法。

背景技术

遥感图像上的目标检测已成功应用在城市道路建设、自然灾害管理等方面。但是因为姿态和高度的差异性，遥感卫星在获取的图像中，目标往往具有尺度多样性、排列方向随意性、背景复杂度高等特性，这给传统的目标检测算法带来了很大的挑战性，所以我们需要对传统的目标检测算法进行改进，使其能满足遥感图像的特性。

目前，已有许多针对遥感图像特性而改进的方法，例如何恺明等人提出了特征金字塔网络，主要解决目标的尺度多样性的问题，但由于遥感图像背景复杂度高，所以金字塔网络产生的特征会受到噪声的影响而效果减弱；李敏等人提出了基于大小场景整合的遥感小目标检测算法，通过蝇视觉的LF-SF整合机理，抑制了复杂的背景纹理特征，但对于图像的尺度多样性考虑不足，因而生成的结果也不够好。

发明内容

本发明的目的在于提供一种融合语义分割的遥感图像目标检测方法，来检测出遥感图像上目标的位置和类别信息。

实现本发明目的的技术解决方案为：一种融合语义分割的遥感图像目标检测方法，包括以下步骤：

步骤1、构建改进的特征金字塔网络，提取遥感图像的多层金字塔特征；

步骤2、对金字塔特征进行语义分割，获取目标边界框级别的掩码和语义特征；

步骤3、构建图片笛卡尔直角坐标系，根据提取的金字塔特征和生成的边界框级别的掩码生成与图片坐标轴平行的候选框；

步骤4、根据候选框坐标、多层金字塔特征、语义特征和归一化后的原始图像确定边界框特征，再进行回归和softmax操作得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息。

本发明与现有技术相比，其显著优点为：考虑了遥感图像下目标的尺度多样性、方向任意性以及背景复杂度高等特性，对传统目标检测方式中的FPN、RPN、ROI Pooling进行改进，提高了遥感图像上小目标检测的准确率。

附图说明

图1为本发明融合语义分割的遥感图像目标检测方法的流程图。

图2为本发明改进的特征金字塔网络的示意图。

图3为本发明语义分割模型的示意图。

图4为本发明基于多级融合的ROI模块的示意图。

具体实施方式

下面结合附图和具体实施例，进一步说明本发明方案。

如图1所示，一种融合语义分割的遥感图像目标检测方法，包括如下步骤：

步骤1、构建改进的特征金字塔网络，提取遥感图像的金字塔特征；

改进的特征金字塔网络为6层，如图2所示，其在传统的特征金字塔网络(FPN)中，增加1x1的卷积层和四分支增强模块，所述四分支增强模块由多个不同尺寸的卷积核构成，用来获得不同尺度的特征。改进的特征金字塔网络中，首先使用1x1的卷积层，将编码层输出的编码特征转变为256个通道的特征；然后采取多分支增强模块，将256个通道分成4个分支网络，每个网络有64个通道，通过各自通道的卷积核变换后，将所有特征组合得到1个有256个通道的特征图；再用经上采样后的解码器对有256个通道的特征图解码，即可得到多层金字塔(FPN)特征。

语义分割过程如图3所示，首先通过采用上采样和下采样的方法将多层FPN目标特征都标准化成相同的空间尺寸大小(即P₂层的空间尺寸)，融合后通过空洞空间金字塔池化(ASPP)模块生成语义表征，再利用通道为1和256的1x1卷积层，分别产生边界框级别的掩码以及语义特征。本发明使用的ASPP模块中，采用4个并行的卷积层，分别为普通的1x1卷积层和空洞率为24/48/72的3x3卷积层。此外，考虑到遥感图像目标检测中小物体较多，本发明的层级下采样比率为4。

步骤3、根据提取的金字塔特征和生成的边界框级别的掩码，产生与坐标轴平行的候选框坐标；

将生成的掩码只下采样到P₃～P₆层，得到采样后的掩码，然后把它们分别与对应层的金字塔特征点乘，得到点乘后的特征向量，然后把它输入区域候选网络(RPN)中，分别通过回归和softmax操作，可以得到多个与坐标轴平行的候选框坐标，以及前景和背景的值(根据所框内容判断是不是目标，是则为前景，反之则为背景，前景为正，背景为负)，将多个候选框按正负比为1:3的比例送入后续网络(代表前景或者背景的候选框都要输入后续网络，此正负比的设置是为了使步骤4回归和softmax操作更精确)。本发明使用的坐标轴为笛卡尔直角坐标系，以输入图片的左上角顶点为原点，水平方向和竖直方向为坐标轴，下面所提坐标轴都是这个。

步骤4、根据候选框坐标、多层金字塔特征、语义特征和归一化后的原始图像确定边界框特征，再进行回归和softmax操作得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息；

将上述正负比为1:3的多个候选框坐标映射在多层金字塔特征、语义特征和归一化后的原始图像上，得到在这些特征映射上的候选框坐标，再通过池化操作，得到大小固定的候选框，再通过全连接层，与给定的权重进行矩阵相乘，得到边界框特征，然后分别进行回归和softmax操作，就可分别得到与坐标轴平行/旋转的边界框的位置信息以及物体的类别信息；

如图4所示，一方面，通过ROI Pooling操作，具体表述为将多层FPN特征和语义特征相加起来，形成一个特征映射(此处的特征映射通道数为256)，将上述正负比为1:3的多个水平区域候选框坐标映射在上面(映射的规则为将候选框的坐标除以“输入图片与FPN多层特征和语义特征相加得到的特征映射的比值”)，得到在该特征映射上的候选框坐标，将这些坐标通过池化操作，得到大小固定的候选框，将它输入全连接层，与给定的权重A进行矩阵相乘，获得一个池化特征F₁(经过全连接层，特征的通道数由原来的256个变成1024个)；另一方面，同样通过ROI Pooling操作，具体表述为将原始图像归一化，形成一个特征映射(此处的特征映射通道数为3)，将上述正负比为1:3的多个水平区域候选框坐标映射在上面(映射的规则为将候选框的坐标除以“输入图片与归一化后的原始图像的比值”)，得到在此特征映射上的候选框坐标，将这些坐标通过池化操作，得到另外一些大小固定的候选框，将它输入到另一个全连接层，与给定的权重B进行矩阵相乘，获得池化特征F₂(经过全连接层，特征的通道数由原来的3个变成1024个)。将这两个池化特征相加再通过第三个全连接层，与给定的权重C进行矩阵相乘，得到边界框特征F₃(经过全连接层，特征的通道数保持1024个不变)，然后将该边界框特征一方面进行回归操作得到与坐标轴平行/旋转的边界框的位置信息；另一方面进行softmax操作得到物体的类别信息。(文中所述的权重A、B、C，每一类都有很多权重，A、B、C为了区分3个全连接层使用的权重不一样)

实施例

为了验证本发明方案的有效性，进行如下仿真实验。

本实验采用DOTA-v1.0作为数据集，其中1/2用作训练，1/3用作验证，1/6用作测试，测试性能涉及OBB(旋转边界框)和HBB(水平边界框)两种任务，评估标准采用PASCALVOC的基准。本实验使用预训练模型ResNet101来初始化网络，在1块Tesla P40 GPU上用batch_size＝2来训练模型，一共12个epoch，学习率设为0.0025，权重衰减率设为0.0001，动量设为0.9。因为原有数据集中图片尺寸不一样，给检测带来了很大挑战性，所以在实验中每512个像素步长分割图片，每张图片尺寸为1024x1024个像素。本次实验使用训练集训练，在验证集上测试。

首先，加载网络提供的ResNet101预训练模型参数作为初始化，训练基础卷积神经网络，再通过改进后的特征金字塔网络得出特征向量，在传统的特征金字塔网络中，首先使用1x1的卷积层，将编码层输出的编码特征转变为256个通道的特征；然后采取多分支增强模块，具体表述为将256个通道分成4个分支网络，每个网络有64个通道，通过各自通道的卷积核变换后，将所有特征组合得到1个有256个通道的特征图；再用经上采样后的解码器对有256个通道的特征图解码，即可得到多层改进的FPN目标特征。

然后，根据提取的金字塔特征，通过语义分割模块来获取目标的边界框级别的掩码和语义特征，首先通过采用上采样和下采样的方法将多层FPN的特征都标准化成相同的空间尺寸大小(如P₂层的空间尺寸)，融合后通过空洞空间金字塔池化(ASPP)的模块生成语义表征，再利用通道为1和256的1x1卷积层，分别产生边界框级别的掩码以及语义特征，本发明使用的ASPP模块中，采用4个并行的卷积层，分别为普通的1x1卷积层和空洞率为24/48/72的3x3卷积层。此外，考虑到遥感图像目标检测中小物体较多，本发明的层级下采样比率为4。

接着，将生成的掩码只下采样到P₃～P₆层，得到采样后的掩码，然后把它们分别与对应层的金字塔特征点乘，得到点乘后的特征向量，然后把它输入区域候选网络(RPN)中，分别通过回归和softmax操作，可以分别得到多个与坐标轴平行的候选框坐标，以及前景和背景的值(根据所框内容判断是不是目标，是则为前景，反之则为背景，前景为正，背景为负)，将多个候选框按正负比为1:3的比例送入后续网络(代表前景或者背景的候选框都要输入后续网络，此正负比的设置是为了使步骤4回归和softmax操作更精确)。本发明使用的坐标轴为笛卡尔直角坐标系，以输入图片的左上角顶点为原点，水平方向和竖直方向为坐标轴，下面所提坐标轴都是这个。

最后，一方面，通过ROI Pooling操作，具体表述为将FPN多层特征和语义特征相加起来，形成一个特征映射(此处的特征映射通道数为256)，将上述正负比为1:3的多个水平区域候选框坐标映射在上面(映射的规则为将候选框的坐标除以“输入图片与FPN多层特征和语义特征相加得到的特征映射的比值”)，得到在该特征映射上的候选框坐标，将这些坐标通过池化操作，得到大小固定的候选框，将它输入全连接层，与给定的权重A进行矩阵相乘，获得一个池化特征F₁(经过全连接层，特征的通道数由原来的256个变成1024个)；另一方面，同样通过ROI Pooling操作，具体表述为将原始图像归一化，形成一个特征映射(此处的特征映射通道数为3)，将上述正负比为1:3的多个水平区域候选框坐标映射在上面(映射的规则为将候选框的坐标除以“输入图片与归一化后的原始图像的比值”)，得到在此特征映射上的候选框坐标，将这些坐标通过池化操作，得到另外一些大小固定的候选框，将它输入到另一个全连接层，与给定的权重B进行矩阵相乘，获得池化特征F₂(经过全连接层，特征的通道数由原来的3个变成1024个)。将这两个池化特征相加再通过第三个全连接层，与给定的权重C进行矩阵相乘，得到边界框特征F₃(经过全连接层，特征的通道数保持1024个不变)，然后将该边界框特征一方面进行回归操作得到与坐标轴平行/旋转的边界框的位置信息；另一方面进行softmax操作得到物体的类别信息。(文中所述的权重A、B、C，每一类都有很多权重，A、B、C为了区分3个全连接层使用的权重不一样)

受限于遥感图像中目标尺度多样性、排列方向随意性、背景复杂度高的情况，卷积神经网络的目标检测准确率无法进一步提升，通过本发明介绍的三种改进方式，可以减少甚至克服一些复杂情况带给遥感图像上小目标检测的阻碍，提高目标预测的准确率。

综上所述，本发明更好的考虑了遥感图像下目标的尺度多样性、方向任意性以及背景复杂度高等特性，提高了遥感图像下小目标检测的准确率。

表1 DOTA-v1.0验证集上HBB结果表

mAP(％)	Plane	BD	Bridge	GTF	SV	LV	Ship	TC
									75.99	90.20	80.35	56.68	77.31	50.01	80.54	86.62	90.82
	BC	ST	SBF	RA	Harbor	SP	HC
										71.04	88.38	75.92	72.88	82.34	65.64	71.12

表2 DOTA-v1.0验证集上OBB结果表

mAP(％)	Plane	BD	Bridge	GTF	SV	LV	Ship	TC
									73.00	90.20	80.79	49.35	77.23	49.40	71.33	85.24	90.82
	BC	ST	SBF	RA	Harbor	SP	HC
										69.77	88.29	75.68	73.26	75.12	65.81	52.76

Claims

1.一种融合语义分割的遥感图像目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤1中，改进的特征金字塔网络为6层，在传统的特征金字塔网络中增加1x1的卷积层和四分支增强模块，所述四分支增强模块由多个不同尺寸的卷积核构成，用来获得不同尺度的特征，提取特征时，首先使用1x1的卷积层，将编码层输出的编码特征转变为256个通道的特征；然后采取多分支增强模块，将256个通道分成4个分支网络，每个网络有64个通道，通过各自通道的卷积核变换后，将所有特征组合得到1个有256个通道的特征图；再用经上采样后的解码器对有256个通道的特征图解码，即得多层金字塔特征。

3.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤2中，获取目标边界框级别的掩码和语义特征的具体方法为：

首先通过采用上采样和下采样的方法将多层金字塔特征都标准化成相同的空间尺寸大小，即P₂层的空间尺寸，融合后通过空洞空间金字塔池化模块生成语义表征，再利用通道为1和256的1x1卷积层，分别产生边界框级别的掩码以及语义特征。

4.根据权利要求3所述的融合语义分割的遥感图像目标检测方法，其特征在于，所述空洞空间金字塔池化模块采用4个并行的卷积层，分别为普通的1x1卷积层和空洞率为24/48/72的3x3卷积层。

5.根据权利要求3所述的融合语义分割的遥感图像目标检测方法，其特征在于，层级下采样比率为4。

6.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤3中，以输入图片的左上角顶点为原点，水平方向和竖直方向为坐标轴，构建图片笛卡尔直角坐标系。

7.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤3中，生成与图片坐标轴平行的候选框的具体方法为：

将生成的掩码只下采样到P₃～P₆层，得到采样后的掩码，然后把它们分别与对应层的金字塔特征点乘，得到点乘后的特征向量，然后把它输入区域候选网络中，分别进行回归和softmax操作，得到多个与坐标轴平行的候选框坐标，以及前景和背景的值。

8.根据权利要求1所述的融合语义分割的遥感图像目标检测方法，其特征在于，步骤4中，生成与坐标轴平行/旋转的边界框的位置信息和物体类别信息的具体方法为：

将多层FPN特征和语义特征相加起来，形成一个特征映射，此处的特征映射通道数为256，将水平区域候选框坐标映射在上面，映射的规则为将候选框的坐标除以“输入图片与FPN多层特征和语义特征相加得到的特征映射的比值，得到在该特征映射上的候选框坐标，将这些坐标通过池化操作，得到大小固定的候选框，将它输入全连接层，与给定的权重A进行矩阵相乘，获得一个池化特征F₁，经过全连接层，特征的通道数由原来的256个变成1024个；

将原始图像归一化，形成一个特征映射，此处的特征映射通道数为3，将上述正负比为1:3的多个水平区域候选框坐标映射在上面，映射的规则为将候选框的坐标除以“输入图片与归一化后的原始图像的比值”，得到在此特征映射上的候选框坐标，将这些坐标通过池化操作，得到另外一些大小固定的候选框，将它输入到另一个全连接层，与给定的权重B进行矩阵相乘，获得池化特征F₂，经过全连接层，特征的通道数由原来的3个变成1024个；

将这两个池化特征相加再通过第三个全连接层，与给定的权重C进行矩阵相乘，得到边界框特征F₃，经过全连接层，特征的通道数保持1024个不变，然后将该边界框特征一方面进行回归操作得到与坐标轴平行/旋转的边界框的位置信息；另一方面进行softmax操作得到物体的类别信息。