CN112784779A

CN112784779A - 一种基于特征金字塔多级特征融合的遥感影像场景分类方法

Info

Publication number: CN112784779A
Application number: CN202110116730.8A
Authority: CN
Inventors: 潘俊; 舒奇迪; 胡佳睿
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-11

Abstract

本发明提出一种基于特征金字塔多级特征融合的遥感影像场景分类方法。首先将图像输入到ResNet网络中，提取出不同深度的图像特征；然后经过特征金字塔网络中自上而下的路径，在保留高级语义信息的同时，通过横向连接补充图像的细节纹理信息，并得到四个不同级别的特征图；接着，使用注意力模块使各级图像关注重点特征抑制非必要特征，进一步增强特征的表达能力；最后，经过一个特征融合模块，综合所有特征对图像类别进行最终判断。本发明提供一种端到端的场景分类方法，只需输入一幅单一尺度图像即可得到多级特征图，通过对深层特征图的继承及与浅层特征图的横向连接，多级特征既包含细节信息又包含语义信息，从而缓解特征图中细节丢失的问题。

Description

一种基于特征金字塔多级特征融合的遥感影像场景分类方法

技术领域

本发明属于遥感影像场景分类领域，涉及一种基于特征金字塔多级特征融合的场景分类方法。

背景技术

场景分类是遥感图像理解中具有挑战性的任务之一，其目的是自动为每幅遥感图像分配一个语义标签，以确定其所属的场景类别。遥感场景分类在城市规划、环境监测、军事任务等领域有着广泛的应用。因此，对遥感影像场景分类方法进行研究具有重要意义。

一般来说，场景分类任务包括两个步骤：特征提取和标签分类。场景分类方法根据提取的特征可分为两类：基于手工特征的方法和基于语义特征的方法。基于手工特征的方法对图像处理的专业知识要求较高，在具有复杂空间分布的场景中，手工特征的表达能力会受到限制；随着深度学习的迅速发展，基于语义特征的方法(如卷积神经网络，CNN)在性能上显示出了传统方法无法比拟的优越性，它能够有效地提取与图像类别高度相关的高层抽象语义信息。

在遥感场景分类任务中，鉴别特征的提取至关重要。鉴别特征是指图像中可以判断一幅图像所属正确类别的特征。相对于自然图像而言，遥感影像的背景更加复杂。同一类别的图像中，除了相似的鉴别特征以外，还包含不同类别不同分布的地物背景，增加了分类判断的难度。在现有基于语义特征的场景分类方法中，有研究直接将CNN中的单一深层特征作为类别判断的依据，随着网络层数的加深，特征的感受野增大，全局语义信息增强，但也伴随着细节的模糊。这些丢失的细节包含了丰富的鉴别信息，同样有助于判断图像的类别，应当充分利用起来，因此，在网络中提取单一层次的特征不足以准确地获取每幅图像的鉴别特征。网络中的多级别特征对于提高分类精度具有很大的潜力。最简单的方式是直接将不同深度的卷积层作为多级特征，然而浅层特征缺乏高级语义信息；有研究将多尺度图像金字塔输入卷积神经网络，通过将原始图像缩放成不同尺寸的方式，获得多级图像特征；另一种思路是对于单一尺度的图像，构建多个具有不同感受野的卷积神经网络，由此同样可以获得多级特征，但是上述两种方法都大大增加了计算量的开销。

发明内容

本发明的目的在于针对现有技术的缺点和不足，提出了一种基于特征金字塔多级特征融合的遥感影像场景分类方法。首先将图像输入到ResNet网络中，提取出不同深度的图像特征；然后经过特征金字塔网络中自上而下的路径，在保留高级语义信息的同时，通过横向连接补充图像的细节纹理信息，并得到四个不同级别的特征图；接着，使用注意力模块使各级图像关注重点特征抑制非必要特征，进一步增强特征的表达能力；最后，经过一个特征融合模块，让各个级别的特征自主学习权重，综合所有特征对图像类别进行最终判断。

该方法利用卷积神经网络结合特征金字塔提取出多级别特征，在保证提取的图像特征具有高级语义的同时，一定程度上解决了细节纹理信息丢失的问题。

本发明采用如下技术方案：

一种基于特征金字塔多级特征融合的遥感影像场景分类方法，包括以下步骤：

步骤1，将已知标签类别的遥感影像作为输入，使用经过预训练的ResNet网络初步提取特征，由此得到不同卷积深度的特征图；

步骤2，以步骤1中不同卷积深度的特征图为基础，使用特征金字塔网络获取多级特征；

步骤3，在获得多级特征之后，添加注意力模块，所述注意力模块包含两个部分：通道注意力和空间注意力；

将步骤2中获取的不同级别特征分别输入注意力模块，由此得到增强的多级特征；

步骤4，将增强的多级特征经过一个特征融合模块，综合所有特征对遥感影像的类别作最终判断，输出对应图像的标签。

进一步的，步骤1中使用ResNet初步提取特征，具体为：

首先，将经过预训练的ResNet去除最后的全连接层，将图像缩放到适当的尺寸作为输入，由于ResNet由四个串行的卷积块构成，因此得到四个不同深度的特征图，由浅到深特征图的尺寸依次为：56×56、28×28、14×14和7×7，其中，浅层特征图包含更多的细节纹理信息，但是不具备高级语义；深层特征图包含更为抽象的高级语义信息，但是分辨率的降低会导致细节的损失。

进一步的，步骤2中使用特征金字塔网络获取多级别特征，具体为；

将步骤1中最后一层输出，即7×7尺寸的特征图，直接被视为一个特征的分支，记作M1；定义一个基本卷积单元，由连续三组重复的卷积核尺寸依次为1×1和3×3的卷积层构成，M1经过基本卷积单元后得到下一级的特征图M2，M2的尺寸同样为7×7；然后将M2上采样至14×14，与ResNet50网络中对应分辨率的特征进行横向连接，经过一个基本卷积单元后得到特征图M3，由于经过了一个上采样，M3的尺寸为14×14；同理，对M3执行同样的操作，依次经过上采样、横向连接和基本卷积单元，可以得到尺寸为28×28的特征图M4；由此，通过步骤2得到四个级别的特征图M1、M2、M3和M4，尺寸分别为7×7、7×7、14×14和28×28。

进一步的，步骤3中通道注意力的结构如下；

在通道注意力结构中，输入一个C×H×W的特征F，其中，C、H、W分别表示特征图的通道数、高度和宽度，首先进行空间的全局平均池化和全局最大池化操作，得到两个C×1×1的通道描述，然后，将两个通道描述分别输入到一个两层的神经网络，第一层神经元个数为C/r，r为缩放的系数，使用ReLU作为激活函数，第二层神经元个数为C，其中，这个两层神经网络是权值共享的；接着，将得到的两个特征相加后经过Sigmoid函数得到通道权重系数Mc，最后将原始特征F与权重系数Mc相乘即可得到通道增强的新特征F'。

进一步的，步骤3中空间注意力的结构如下；

在空间注意力结构中，将经过通道注意力模块得到的特征F'作为输入，对各输入特征在通道维度上进行最大池化和平均池化操作，得到两个1×H×W的空间描述，将其在通道方向上进行连接，依次经过一个卷积核为7×7的卷积层和Sigmoid函数得到空间权重系数Ms，最后，将特征F'与空间权重系数Ms相乘即可得到空间增强的新特征。

进一步的，步骤4中特征融合模块的结构如下；

在特征融合模块中，使用全局平均池化增强特征图和场景类型之间的对应关系，同时减少训练参数并缓解过度拟合问题；首先，四个不同级别的特征M1'、M2'、M3'和M4'分别经过全局平均池化层，得到四个尺寸为C×1×1的特征；然后在通道方向上进行连接，得到尺寸为4C×1×1的特征，将其作为输入，依次经过一个多层感知机和Sigmoid函数，得到每个特征通道的权重，将全局平均池化的结果与通道权重相乘；最后，通过全连接层将通道数设置为与类别相等，由此得到图像属于各个类别的得分，预测的结果对应为得分最高的类别。

与现有技术相比，本发明具有如下特点：

本发明适用于遥感影像场景分类，与已有方法相比，本发明提供了一种端到端的场景分类方法，只需输入一幅单尺度图像即可得到多级别特征图。通过对深层特征图的继承以及与浅层特征图的横向连接，多级特征既包含细节信息又包含语义信息，从而缓解了特征图中细节丢失的问题。

附图说明

图1：为本发明方法整体框架图；

图2：为本发明实施例的通道注意力模块；

图3：为本发明实施例的空间注意力模块；

图4：为本发明实施例的特征融合模块；

图5：为本发明实施例分类结果的混淆矩阵。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1表示的是一种基于特征金字塔多级特征融合的遥感影像场景分类方法流程图，以下针对实施例流程中的各步骤，对本发明方法做进一步详细描述。

本发明使用python语言基于Pytorch深度学习框架实现，本发明具体选取的是具有红、绿、蓝三个波段的高分辨率遥感影像。

下面结合图1至图4介绍本发明的具体实施方式：

步骤1，将遥感影像作为输入，使用ResNet50初步提取卷积特征。由此可以得到四个不同深度的特征图，其中，深层特征图的语义信息更加丰富，但是损失了部分图像细节信息；浅层特征图包含丰富的细节信息，但缺乏高级抽象语义。

步骤1中所述使用ResNet50初步提取特征，具体为：

将遥感影像缩放到224×224尺寸，输入到在ImageNet数据集中预训练的ResNet50网络中，经过预训练后的网络更容易收敛，图像先后经过四个串行的卷积块，可以得到四层特征，由浅到深特征图的尺寸依次为：56×56、28×28、14×14和7×7，其中，浅层特征图包含更多的细节纹理信息，但是不具备高级语义；深层特征图包含更为抽象的高级语义信息，但是分辨率的降低会导致细节的损失。

步骤2，以步骤1中不同深度的特征图为基础，使用特征金字塔网络获取多级特征，得到的多级特征既包含有高级语义信息又包含图像的细节信息，同时，不同级别特征图之间关注的重点存在差异。

步骤2中所述特征金字塔网络具体为：

将步骤1中最后一层输出(即7×7尺寸的特征图)直接被视为一个特征的分支，记作M1；定义一个基本卷积单元，由连续三组重复的卷积核尺寸依次为1×1和3×3的卷积层构成，M1经过基本卷积单元后得到下一级的特征图M2，M2的尺寸同样为7×7；然后将M2上采样至14×14，与ResNet50网络中对应分辨率的特征进行横向连接，经过一个基本卷积单元后得到特征图M3，由于经过了一个上采样，M3的尺寸为14×14；同理，对M3执行同样的操作，依次经过上采样、横向连接和基本卷积单元，可以得到尺寸为28×28的特征图M4。由此，通过步骤2可以得到四个级别的特征图M1、M2、M3和M4，尺寸分别为7×7、7×7、14×14和28×28，提取的四个不同级别特征图具有以下三个特点：(1)包含高级语义信息，因为都经过了ResNet50中的多层卷积；(2)对于每一级别的特征，由于经过了与浅层特征的横向连接，特征中的细节信息得到增强；(3)对于不同级别的特征之间，在特征金字塔网络的自上而下路径中，下层的特征图继承了上层特征图的语义和细节信息。同时，又能通过连接ResNet50网络中的浅层特征图来补充丰富的细节信息。

步骤3，在提取的多级特征之后，添加注意力模块，在关注重要特征的同时抑制不必要特征，进一步增强特征表达能力。

步骤3中所述添加注意力模块以增强特征表达能力具体为：

注意力模块包含两个部分：通道注意力和空间注意力。通道注意力关注对结果贡献较大的特征通道上，空间注意力关注特征的关键区域。

在通道注意力结构中，如图2所示，输入一个C×H×W的特征F，其中，C、H、W分别表示特征图的通道数、高度和宽度，首先进行空间的全局平均池化和全局最大池化操作，可以得到两个C×1×1的通道描述，然后，将两个通道描述分别输入到一个两层的神经网络，第一层神经元个数为C/r，r为缩放的系数，使用ReLU作为激活函数，第二层神经元个数为C，其中，这个两层神经网络是权值共享的；接着，将得到的两个特征相加后经过Sigmoid函数得到通道权重系数Mc，最后将原始特征F与权重系数Mc相乘即可得到通道增强的新特征F'。

在空间注意力结构中，如图3所示，将经过通道注意力模块得到的特征F'(C×H×W)作为输入，对各输入特征在通道维度上进行最大池化和平均池化操作，得到两个1×H×W的空间描述，将其在通道方向上进行连接，依次经过一个卷积核为7×7的卷积层和Sigmoid函数得到空间权重系数Ms。最后，将原始特征F'与空间权重系数Ms相乘即可得到空间增强的新特征。

将通道注意力和空间注意力按顺序组合在一起，将不同级别的四个特征分别输入注意力模块，由此得到增强的多级特征，如图1中M1'、M2'、M3'和M4'所示。

步骤4，将增强的多级特征经过一个特征融合模块，综合所有特征对遥感影像的类别作最终判断。

步骤4中所述使用特征融合模块融合多级特征并做出类别判断具体为：

在特征融合模块中，如图4所示，使用全局平均池化增强特征图和场景类型之间的对应关系，同时减少训练参数并缓解过度拟合问题。首先，四个不同级别的特征M1'、M2'、M3'和M4'分别经过全局平均池化层，得到四个尺寸为C×1×1的特征；然后在通道方向上进行连接，得到尺寸为4C×1×1的特征，将其作为输入，依次经过一个多层感知机和Sigmoid函数，得到每个特征通道的权重，将全局平均池化的结果与通道权重相乘；最后，通过全连接层将通道数设置为与类别相等，由此可以得到图像属于各个类别的得分，预测的结果对应为得分最高的类别。

该描述方法已经在公开数据集AID上进行了评估测试，可验证该方法的有效性。遥感影像场景分类数据集AID包含30个场景类别。图5展示了各场景类别的分类结果(Airport＝飞机场、Bare＝裸地、Base＝棒球场、Beach＝海滩、Bridge＝桥梁、Center＝中心、Church＝教堂、Commer＝商业区、D Res＝密集住宅区、Desert＝沙漠、Farm＝耕地、Forest＝森林、Indust＝工业区、Meadow＝草地、M Res＝中型住宅区、Mount＝山脉、Park＝公园、Parking＝停车场、Play G＝操场、Pond＝湖泊、Port＝港口、Rail S＝火车站、Resort＝度假区、River＝河流、School＝学校、S Res＝稀疏住宅区、Square＝广场、Stadium＝体育场、STank＝存储罐、Viaduct＝高架桥)，表1给出了实施例的遥感影像场景分类的测试精度以及与几种基于语义特征场景分类方法的对比。

表1.本发明实施例与其它遥感影像场景分类方法的整体精度对比。

分类方法	分类精度
		基于单一深层特征的方法	0.8964
基于不同深度特征的方法	0.9215
		本发明基于特征金字塔多级特征融合的方法	0.9663

由表1可见，第一种基于单一深层特征方法的分类精度明显低于后两种基于多级特征的分类方法，验证了多级特征在场景分类任务中的有效性；另外，本发明基于特征金字塔多级特征融合的方法取得了0.9663的分类精度，相较于提取不同深度特征的方法，本发明方法在保证高级语义的基础上，补充了丰富的图像细节信息，能够更好地提取鉴别特征，获得了更优的场景分类精度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于：步骤1中使用ResNet初步提取特征，具体为：

3.根据权利要求2所述的基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于：步骤2中使用特征金字塔网络获取多级别特征，具体为；

4.根据权利要求1所述的基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于：步骤3中通道注意力的结构如下；

5.根据权利要求1所述的基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于：步骤3中空间注意力的结构如下；

6.根据权利要求1所述的基于特征金字塔多级特征融合的遥感影像场景分类方法，其特征在于：步骤4中特征融合模块的结构如下；