CN110414377A

CN110414377A - 一种基于尺度注意力网络的遥感图像场景分类方法

Info

Publication number: CN110414377A
Application number: CN201910614535.0A
Authority: CN
Inventors: 边小勇; 费雄君; 穆楠; 张晓龙; 邓春华
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-05
Anticipated expiration: 2039-07-09
Also published as: CN110414377B

Abstract

本发明公开了一种基于尺度注意力网络的遥感图像场景分类方法，首先，将场景数据集按比例随机划分为训练集和测试集；接着，对数据集进行预处理，包括图像缩放和归一化；同时，将数据集输入到注意力模块中进行显著性检测，产生注意力图；然后，利用预训练模型初始化尺度注意力网络参数，并使用训练集和注意力图微调尺度注意力网络，保存训练好的网络模型；最后，使用微调后的尺度注意力网络预测待分类图像场景的类别。该基于尺度注意力网络的遥感图像场景分类方法，通过多次利用多尺度注意力图给特征图加权，又通过提取多尺度图像特征并融合，产生了判别力增强的特征表示，在遥感图像场景分类上取得了更好的效果。

Description

一种基于尺度注意力网络的遥感图像场景分类方法

技术领域

本发明涉及深度学习中的图像场景分类技术领域，具体涉及一种基于尺度注意力网络的遥感图像场景分类方法。

背景技术

近年来，随着地表场景的高分辨率遥感图像数据的增加，高分辨率遥感图像场景分类成为一个广泛关注的研究方向，并且通过学习特征表示来预测高分辨率遥感图像场景的语义标签具有挑战性。然而，高分辨率遥感图像场景分类的困难在于：这些图像场景在同一类别中具有不同的大小，颜色，姿态，空间位置，而属于不同类别的图像场景在许多方面彼此相似。

最近的研究结果表明，深度学习方法在遥感图像场景分类领域取得了快速的发展，并且使用预训练模型的神经网络比以往的手工特征和编码方法具有更好的性能。虽然深度学习方法有助于从图像中学习高级语义特征，但如何设计高效的网络模型尽可能地表示丰富变化的场景，并将它们区分开来值得进一步研究。目前注意力机制越来越多地应用于图像分割、目标匹配和场景分类等领域。它可以为输入特征的每个部分分配不同的权重，提取更重要的信息，使模型做出更准确的判断，同时不会增加额外开销。因此，如何将注意力机制嵌入到卷积神经网络的不同层中，并提取不同尺度的特征来提高遥感图像场景分类效果，具有重要的理论价值和实践意义，将有助于促进网络学习强大的深度特征表示。

目前采用卷积神经网络来进行场景分类的方法有很多，结果表明，卷积神经网络比手工特征和编码方法具有更好的性能。Q.Wang,S.Liu,J.Chanussot andX.Li等人发表的《重复注意力非常高分辨率遥感图像的场景分类》，国际地理科学与遥感学报，vol.57，no.2,pp.1155-1167,2019(《Scene classificationwithrecurrent attention ofVHRremote sensing images》(IEEE Trans.Geoscience Remote Sensing,vol.57,no.2,pp.1155-1167,Feb.2019.))中利用多个长短期记忆模型对3个典型遥感图像场景进行多注意力区域特征提取及分类，由于注意力模型主要关注对象类型的场景并不能充分学习到自然场景的特征信息，因此模型的判别能力仍显不足。S.Woo,J.Park,J.Lee and I.Kweon等人发表的《CBAM:卷积块注意力模块》(CBAM:Convolutional block attention module(arXiv:1807.06521,2018))中提出了卷积块光谱-空间维注意力模块，推断出注意力映射并相乘为自适应特征细化的输入特征映射进行特征增强的图像场景分类，虽然这种方法能使网络学习到可见光图像的特征而使得分类的效果更优，但没有看到在遥感图像场景分类上的性能报道。此外，“一种融合深度特征和显著性特征的遥感图像场景分类方法”(CN109165682A)公开了一种图像场景分类方法，该方法使用卷积神经网络提取原图和显著图的特征，并通过并行特征融合策略融合两种特征，为最后的支持向量机分类提供了原始图像的全局信息和突出性信息，但该方法需要额外训练用于提取显著图特征的卷积神经网络，增加了网络训练成本和计算量。

由此可知，现有技术中的方法存在分类精度不高的技术问题。

发明内容

有鉴于此，本发明提供了一种基于尺度注意力网络的遥感图像场景分类方法，用以解决或者至少部分解决现有技术中的方法存在的分类精度不高的技术问题。

为了解决上述技术问题，本发明提供了一种基于尺度注意力网络的遥感图像场景分类方法，包括：

步骤S1：将场景数据集按预设比例划分为训练集和测试集；

步骤S2：对场景数据集中的图像进行预处理；

步骤S3：将预处理后的数据集输入到注意力模块中进行显著性检测，产生注意力图；

步骤S4：利用预训练模型初始化尺度注意力网络的参数，并采用训练集和注意力图微调尺度注意力网络，保存训练好的尺度注意力网络；

步骤S5：采用微调后的尺度注意力网络对待分类图像场景的类别进行预测，获得预测结果，将其作为分类结果。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：将数据集中图像的尺寸缩放至网络要求的输入大小；

步骤S2.2：采用公式(1)对缩放后的图像I进行归一化处理：

式(1)中u，std分别表示图像I的均值和标准差。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：将进行预处理后的图像输入到注意力模块，执行超像素分割，超像素表示为{s_i}，i＝1,…N；

步骤S3.2：从图像中提取注意力特征：包括颜色特征，纹理特征，方向特征和梯度特征；

步骤S3.3：根据一维熵筛选注意力特征，得到m个最优特征，表示为{F_k}，k＝1,…m；其中，一维熵由以下公式计算：

式(3)中P_I表示灰度值为I的像素的比例；

步骤S3.4：基于全局区域对比度和空间关系计算每一个超像素s_i的显著性分数Sal(s_i)，生成初始注意力图，表示为S₀，超像素s_i的显著性分数由以下公式计算：

其中，c(s_i)由以下公式计算：

dis(s_i,s_j)由以下公式计算：

上式中，

c(s_i)为超像素(x_i,y_i)与图像中心坐标(x',y')之间的距离，

[l ab]表示CIELAB颜色空间像素的三个颜色分量，

s_i,s_j分别表示第i,j个超像素，

(x_i,y_i),(x_j,yj)分别表示超像素s_i,s_j的空间坐标，

Z为相邻超像素的空间距离，

β为固定常数，取值范围[1,40]，

dis(s_i,s_j)表示超像素之间的颜色-空间加权距离；

步骤S3.5：使用最大类间方差(Otsu)阈值将注意力图S_k-1，k≥1分割为显著和非显著区域，即图像的前景种子(FS)和背景种子(BS)；

步骤S3.6：基于注意力图的前景种子和背景种子重新计算每一个超像素s_i的显著性分数Sal'(s_i)，生成优化后的注意力图S_k，k≥1，超像素的显著性分数由以下公式计算：

其中，前景种子的显著性分数计算公式为：

背景种子的显著性分数计算公式为：

上式中，Sal_FS(·)和Sal_BS(·)分别表示前景和背景的显著性分数；

步骤S3.7：计算优化后的注意力图S_k的损失函数L(k)，并重复步骤S3.5和S3.6，最小化L(k)的值，得到对应的最优注意力图S_k；其中，损失函数值由以下公式计算：

L(k)＝L₁(k)+L₂(k) (9)

其中，L₁(k)由以下公式计算：

L₁(k)＝(S_k-S_k-1)² (10)

L₂(k)由以下公式计算：

其中,k≥1,s_i,s_j∈S_k,1≤i,j≤j。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：采用预训练模型初始化尺度注意力网络参数；

步骤S4.2：设置卷积神经网络超参数；

步骤S4.3：采用训练集和对应的注意力图，对尺度注意力网络进行多次训练，保存训练好的尺度注意力网络。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：对待分类图像场景进行预处理，包括调整大小和归一化，得到预处理后的图像；

步骤S5.2：将预处理后的图像输入到注意力模块中进行处理，得到注意力图S；

步骤S5.3：调整预处理后的图像的大小到不同尺度，得到多尺度图像{I'_k}，k＝1…n；

步骤S5.4：采用步骤S4得到的最优模型初始化尺度注意力网络参数；

步骤S5.5：将I'_k，k＝1…n输入到尺度注意力网络中提取特征{F_k}，k＝1…n，同时在特征提取过程中使用注意力图S与卷积层2_x、卷积层3_x、卷积层4_x、卷积层5_x输出的特征F_ki作乘积，公式如下：

式(2)中F_ki表示第k种尺度第i层特征，S表示输入图像I对应注意力图，

R(·)表示将图像调整到与F_ki同样大小；

步骤S5.6：对多尺度特征{F_k}，k＝1…n使用平均池化，然后串联，得到最终的融合特征F；

步骤S5.7：使用全连接层和SoftMax分类器预测融合特征F的类别。

在一种实施方式中，上述步骤S3.1所述的注意力模块包括以下部分：超像素分割、注意力特征提取、计算初始注意力图、注意力图优化和最终注意力图生成。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明采用基于尺度注意力网络的遥感图像场景分类方法。首先，利用本发明中的注意力模块处理输入图像产生注意力图，并在学习阶段多次使用注意力图作权重图与特征图进行乘积，有助于突出特征图的关键部位，学习到与图像类别最相关的特征；其次，以深度卷积神经网络为基本框架构建尺度注意力网络并训练，继承了残差网络具有很强的特征提取能力以及上下文信息抽象能力的特点；最后，将输入图像调整到多个尺度大小输入到网络中提取多尺度特征并融合、分类，具有提高遥感图像场景分类效果的特点。

因此，本发明通过使用卷积神经网络提取特征，使用注意力图突出特征图的关键部位，并使用多尺度输入图像提取了包含图像尺度信息的特征用于分类，进一步提高了遥感图像场景分类的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中基于尺度注意力网络的遥感图像场景分类方法流程图；

图2为本发明中基于尺度注意力网络的遥感图像场景分类学习和分类过程的流程图；

图3为本发明中产生注意力图的注意力模块流程图；

图4为本发明中尺度注意力网络结构图；

图5为本发明中多尺度特征融合示意图；

图6(a)和图6(b)为本发明中数据集原图及经过注意力模块处理后的注意力图；

图7为本发明中尺度注意力网络的残差块结构图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在的分类精度不高的技术问题提供一种基于尺度注意力网络的遥感图像场景分类方法，该方法使用多尺度框架获取不同尺度的特征，同时使用注意力机制突出主要特征，抑制次要特征，产生了判别力增强的特征表示，进一步提高了遥感图像场景分类的精度。从而达到提高预测准确性的技术效果。

为了实现上述技术效果，本发明的主要构思如下：

首先，将场景数据集按比例随机划分为训练集和测试集；接着，对数据集进行预处理，包括图像缩放和归一化；与此同时，将数据集输入到注意力模块中进行显著性检测，产生注意力图；然后，利用预训练模型初始化尺度注意力网络参数，并使用训练集和注意力图微调尺度注意力网络，保存训练好的网络模型；最后，使用微调后的尺度注意力网络预测待分类图像场景的类别。

通过本发明的基于尺度注意力网络的遥感图像场景分类方法，可以通过多次利用多尺度注意力图给特征图加权，又通过提取多尺度图像特征并融合，产生了判别力增强的特征表示，在遥感图像场景分类上取得了更好的效果。

为实现上述目的，先将本发明采用的技术方案中所涉及到的标记统一说明如下：

CNN表示卷积神经网络；

Fc表示卷积神经网络全连接层；

Conv表示卷积神经网络卷积层；

BN表示卷积神经网络批归一化；

ReLU表示卷积神经网络中的激活函数。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于尺度注意力网络的遥感图像场景分类方法，请参见图1，该方法包括：

步骤S1：将场景数据集按预设比例划分为训练集和测试集。

具体来说，场景数据集是指是某一个开源的图像场景数据集，该场景数据集中包含多个类别，每个类别包括多个图像。预设比例可以根据需要进行设置，例如1:9、2:8、3:7等等。

具体示例中选定遥感图像场景分类数据集NWPU-RESISC45，该数据集有31450张图像，包括45个类别，图像像素为256×256，随机选取6300张作为训练集，余下部分作为测试集。

步骤S2：对场景数据集中的图像进行预处理。

具体来说，对场景数据集中的图像进行预处理，就是将场景数据集中的图像的格式和尺寸调整成CNN网络可以处理的形式。

在一种实施方式中，步骤S2具体包括：

步骤S2.2：采用公式(1)对缩放后的图像I进行归一化处理：

式(1)中u，std分别表示图像I的均值和标准差。

在具体实施时，步骤S2.1可以将图像的尺寸缩放至224×224。

步骤S3：将预处理后的数据集输入到注意力模块中进行显著性检测，产生注意力图。

在一种实施方式中，步骤S3具体包括：

式(3)中P_I表示灰度值为I的像素的比例；

其中，c(s_i)由以下公式计算：

dis(s_i,s_j)由以下公式计算：

上式中，

c(s_i)为超像素(x_i,y_i)与图像中心坐标(x',y')之间的距离，

[l a b]表示CIELAB颜色空间像素的三个颜色分量，

s_i,s_j分别表示第i,j个超像素，

(x_i,y_i),(x_j,y_j)分别表示超像素s_i,s_j的空间坐标，

Z为相邻超像素的空间距离，

β为固定常数，取值范围[1,40]，

dis(s_i,s_j)表示超像素之间的颜色-空间加权距离；

其中，前景种子的显著性分数计算公式为：

背景种子的显著性分数计算公式为：

L(k)＝L₁(k)+L₂(k) (9)

其中，L₁(k)由以下公式计算：

L₁(k)＝(S_k-S_k-1)² (10)

L₂(k)由以下公式计算：

其中,k≥1,s_i,s_j∈S_k,1≤i,j≤j。

具体来说，步骤S3.3是根据S3.2中的4种特征选取m个特征的，实际上步骤S3.2中具体而言会有常数个特征，然后利用公式(2)计算它们的entropy值，再降序排列选择前多少个特征，一般化地表示为m个，例如可以是9、10等等。

其中，步骤S3.4中初始注意力图的生成过程如下：图像是由计算到的多个超像素组成的，公式(3)计算出每个超像素的一个显著性与否的分数，其值范围在0～1之间，最后将计算到的显著性分数赋予相应的超像素块，然后就得到一张初始注意力图，公式(3)表示由超像素的特征集Fk(·)、超像素之间的距离dis(·,·)和距离系数c(·)累积求出的超像素s_i的显著性分数，β一般取10。

步骤S3.5所述的最大类间方差(Otsu)阈值即对注意力图中的所有像素都假定为阈值，然后根据此值将图像分为前景和背景，遍历所有像素值计算类内方差，最小的类内方差对应的阈值即为最优阈值。

其中，步骤S3.6中优化后的注意力图的生成过程如下：前面步骤S3.4得到初始注意力图，之后对超像素的显著性分数重新计算、提纯，使用了公式(6)，新产生的注意力图与其实际情况更吻合。需要说明的是，前景和背景种子(seed)，也就是这个重新计算超像素显著性分数的方法在处理时所选择的某个超像素，它们分别用作前景(例如图像中的飞机)，背景(例如图像中的跑道)。

注意力模块如图3所示；以原图数据集中Airplane类的一个图像为例，原始图像如图6(a)所示，经注意力模块处理后的注意力图如图6(b)所示。注意力图仅作为一个模块嵌入到图4的相应位置。

步骤S4：利用预训练模型初始化尺度注意力网络的参数，并采用训练集和注意力图微调尺度注意力网络，保存训练好的尺度注意力网络。

其中步骤4主要是对尺度注意力网络模型进行训练。预训练模型就是一个学习好的网上公开的卷积神经网络(CNN)模型。

具体地，步骤S4具体包括：

步骤S4.1：采用预训练模型初始化尺度注意力网络参数；

步骤S4.2：设置卷积神经网络超参数；

具体来说，神经网络超参数包括训练次数、学习率、动量因子、权值衰减、批处理大小，将训练次数设置为60、学习率设置为0.002、动量因子设置为0.9、权值衰减设置为0.0005、批处理大小设置为16。训练过程中要用训练集和注意力图，如步骤S4.3所述，它们来自于步骤S2中的预处理后的图像，以及步骤S3中的最优注意力图。

上述步骤S4.1中所述的尺度注意力网络包括：

(1)输入图像经过一个卷积核为7×7的卷积层；

(2)设定16个残差块，每个残差块包含3个卷积核为3×3的卷积层，卷积层1_x、卷积层3_x、卷积层4_x、卷积层5_x分别包含3、4、6、3个残差块；

(3)设定一个输出为1000类别的全连接层和一个输出为选定数据集类别数的全连接层；

(4)SoftMax分类。

请参见图4，为本发明中尺度注意力网络结构图，图7为本发明中尺度注意力网络的残差块结构图。

其中，步骤S5是利用步骤S4中训练好的模型进行遥感图像场景分类。

现有技术中“基于深度卷积神经网络和多核学习的遥感图像场景分类方法”使用卷积神经网络提取图像的深度特征，并使用多核学习将深度特征映射到高维空间，使其自适应融合并使用“多核学习—支持向量机”分类器进行分类的方法，具有更好的分类效果，但该方法提取的深度特征没有考虑图像场景语义类别的关键区域信息，因此存在混淆特征使得分类性能仍然不高。此外，还有“基于多尺度特征卷积神经网络的图像场景分类方法”、公开的是一种图像场景分类方法，该方法通过构建多尺度特征提取模块并将其嵌入到卷积神经网络中，再提取多个位置的特征并且两两前后连接形成多尺度的基本特征，相比普通卷积神经网络有更好的特征提取能力，但该方法仍然是一个简单结构的CNN网络，而且使用过多的池化层反而会降低特征的判别能力。

总体来说，如图2所示，为本发明中基于尺度注意力网络的遥感图像场景分类学习和分类过程的流程图。本发明采用基于尺度注意力网络的遥感图像场景分类方法。首先，利用本发明中的注意力模块处理输入图像产生注意力图，并在学习阶段多次使用注意力图作权重图与特征图进行乘积，有助于突出特征图的关键部位，学习到与图像类别最相关的特征；其次，以深度卷积神经网络ResNet50为基本框架构建尺度注意力网络并训练，继承了残差网络具有很强的特征提取能力以及上下文信息抽象能力的特点；最后，将输入图像调整到多个尺度大小输入到网络中提取多尺度特征并融合、分类，具有提高遥感图像场景分类效果的特点。因此，本发明通过使用卷积神经网络提取特征，使用注意力图突出特征图的关键部位，并使用多尺度输入图像提取了包含图像尺度信息的特征用于分类，进一步提高了遥感图像场景分类的精度。

本发明提供的基于尺度注意力网络的场景分类方法选用的深度学习框架为Pytorch。第四步的训练过程中，采用TeslaV100GPU卡进行加速，训练次数设置为60次，确保网络损失值基本平稳，保证得到的模型的可靠性。

在一种实施方式中，步骤S5具体包括：

R(·)表示将图像调整到与F_ki同样大小；

具体来说，本实例中，步骤S5.3中使用的输入图像尺度大小为224×224和315×315；步骤S5.6中，多尺度融合示意图如图5所示，平均池化层处理后的多尺度特征的特征向量维度均为1×2048，融合后的特征向量维度均为1×4096。

在一种实施方式中，请参见图3，注意力模块包括以下部分：超像素分割、注意力特征提取、计算初始注意力图、注意力图优化和最终注意力图生成。

为了验证本文提出算法的优势，针对NWPU-RESISC45数据集对算法做分析和对比，并将结果列入表1。

表1不同算法的分类精度比较

其中，IOR4+VGG-VD16算法参见Wang等发表的论文《IORN：一种有效的遥感图像场景分类框架》(IEEE地理科学与遥感快报,vol.15,no.11,pp.1695-1699,2018.)；由表1可知，本文提出的基于注意力机制和多尺度图像特征提取的尺度注意力网络能够有效的增强卷积神经网络的学习效果，通过同其他算法对比，可以发现本实例算法与目前的先进的算法相比精度更高，证明了本方法的优越性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于尺度注意力网络的遥感图像场景分类方法，其特征在于，包括：

步骤S1：将场景数据集按预设比例划分为训练集和测试集；

步骤S2：对场景数据集中的图像进行预处理；

2.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

步骤S2.2：采用公式(1)对缩放后的图像I进行归一化处理：

式(1)中u，std分别表示图像I的均值和标准差。

3.如权利要求1所述的方法，其特征在于，步骤S3具体包括：

式(3)中P_I表示灰度值为I的像素的比例；

其中，c(s_i)由以下公式计算：

dis(s_i,s_j)由以下公式计算：

上式中，

c(s_i)为超像素(x_i,y_i)与图像中心坐标(x',y')之间的距离，

[lab]表示CIELAB颜色空间像素的三个颜色分量，

s_i,s_j分别表示第i,j个超像素，

(x_i,y_i),(x_j,y_j)分别表示超像素s_i,s_j的空间坐标，

Z为相邻超像素的空间距离，

β为固定常数，取值范围[1,40]，

dis(s_i,s_j)表示超像素之间的颜色-空间加权距离；

其中，前景种子的显著性分数计算公式为：

背景种子的显著性分数计算公式为：

L(k)＝L₁(k)+L₂(k) (9)

其中，L₁(k)由以下公式计算：

L₁(k)＝(S_k-S_k-1)² (10)

L₂(k)由以下公式计算：

其中，k≥1,s_i,s_j∈S_k,1≤i,j≤j。

4.如权利要求1所述的方法，其特征在于，步骤S4具体包括：

步骤S4.1：采用预训练模型初始化尺度注意力网络参数；

步骤S4.2：设置卷积神经网络超参数；

5.如权利要求1所述的方法，其特征在于，步骤S5具体包括：

R(·)表示将图像调整到与F_ki同样大小；

6.如权利要求3所述的方法，其特征在于，上述步骤S3.1所述的注意力模块包括以下部分：超像素分割、注意力特征提取、计算初始注意力图、注意力图优化和最终注意力图生成。