CN116630704A

CN116630704A - 一种基于注意力增强和密集多尺度的地物分类网络模型

Info

Publication number: CN116630704A
Application number: CN202310588681.7A
Authority: CN
Inventors: 罗欣; 韦祖棋; 赖广龄; 金宇伟; 郑进军; 许文波; 贾海涛; 常乐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-22

Abstract

本发明公开了一种基于注意力增强和密集多尺度的地物分类网络模型，旨在解决由“同谱异物”和“同物异谱”现象导致的遥感图像分割结果不够精细的问题。该方法在DeepLabv3+网络的基础上，为了更好地处理遥感图像，对其编码器和解码器阶段的不足进行了模型结构的改进。在编码器阶段，本发明设计了一种注意力增强的密集空洞金字塔池化来替换原有的空洞空间金字塔池化结构，同时，在全局特征中引入双注意机制可以帮助遥感图像在特征表示能力和空间定位精度之间取得平衡。在编码器阶段采用了密集连接的方式利用图像的多级特征图对图像进行上采样。

Description

一种基于注意力增强和密集多尺度的地物分类网络模型

技术领域

本发明属于计算机图像处理领域，是基于深度学习的方法来实现遥感图像地物分类。

背景技术

近几十年来，遥感图像地物覆盖分类技术已经取得了重大的发展成果，并在实际应用中产生了广泛的积极影响，成为遥感技术应用的重要领域。然而，随着遥感数据的大规模获取和高分辨率观测技术的不断提升，面临着数据量和数据类型的多样性急剧增加的挑战，这不仅对遥感图像地物覆盖分类方法的应用提出了更高的要求，也为遥感技术的发展带来了更大的挑战。虽然在深度学习技术的推动下，遥感图像地物覆盖分类方法已经较为成熟。但由于遥感图像中地物的种类和数量非常多，涵盖了城市、农业、森林、草地、水体等多个类别。而且，地物的形态和纹理也非常复杂，存在不同的尺度和方向，这使得分类变得更加困难。此外，遥感图像通常是大规模数据，需要进行分块处理，这可能导致分块边界上的地物分类出现错误。因此，由于上述问题，导致基于深度学习的网络模型对高分辨率遥感图像进行地物识别的分割效果不佳，精细化程度还亟待提高。目前，DeepLabv3+是一种基于编解码架构的深度语义分割模型，在图像的语义分割表现出了优越的性能。DeepLabv3+提出了空洞空间金子塔(Atrous-convolution Space Pyramid Pooling,ASPP)结构，该方法可以增加卷积神经网络(Convolutional Neural Networks,CNN)的感受野，从而可以更好地理解图像的上下文信息。为了进一步提高模型的效率和准确性，DeepLabv3+采用了全局池化操作，可以减少模型参数的数量，同时也能够更好地捕捉图像的全局信息。在解码器阶段，DeepLabv3+通过上采样和跳跃连接的方式，将浅层信息与深层信息相结合，从而进一步提高语义分割的准确性。高分辨率是遥感图像的主要特点，对其进行利用深度学习技术高精度地进行地物分离，需要CNN具有足够大的感受野，DeepLabv3+中的ASPP结构中的空洞卷积可以使用足够大的扩张率扩大感受野，然而随着扩张率增大到24时，会对空洞卷积产生负面影响，乃至丧失自身的建模能力。同时,在编码器阶段，DeepLabv3+没有充分利用编码器生成的多级特征图，直接将特征图的双线性上采样进行四倍后与一个低分辨率特征图进行融合，不利于高分辨率遥感图像像素级信息的获取。因此，本发明针对这些问题对网络进行改进。

发明内容

为了克服上述现有技术的不足，本发明公开了一种基于注意力增强和密集多尺度的地物分类网络模型。本发明在DeepLabv3+的基础上，对其编码器和解码器阶段的不足进行了模型结构的改进。在编码器阶段，本文设计了一种注意力增强的密集空洞金字塔池化(Densely connected Atrous Spatial Pyramid Pooling with Squeeze andExcitation，DenseASPP-SE)来替换原有的空洞空间金字塔池化结构，同时，在全局特征中引入双注意机制(Dual Attention Mechanism,DAM)可以帮助遥感图像在特征表示能力和空间定位精度之间取得平衡。在编码器阶段采用了密集连接的方式利用图像的多级特征图对图像进行上采样。本发明的技术路线如图1所示。

本发明采用的技术步骤如下：

步骤1：将RGB三通道格式的影像利用ResNet-101进行特征提取，以确保网络的信息捕获能力；

步骤2：随后通过DenseASPP-SE模块来获得更大的感受野，同时可以更加准确地区分不同地物类别之间的细节。DenseASPP-SE由一个密集连接的空洞空间池化层(Denselyconnected Atrous Spatial Pyramid Pooling,DenseASPP)和一个全局特征增强层组成，之后对其的输出进行特征聚合进行通道压缩，如图2所示；

步骤3：之后在全局特征后引入DAM，能够有效地提取遥感图像中的有用信息，DAM的实现主要是将DenseASPP-SE的输出特征分别通过通道注意力机制(Channel AttentionMechanism,CAM)和空间注意力机制(Spatial attention mechanisms,SAM)进行特征细化，CAM通过对每个通道的特征进行加权，使得重要的通道特征被加强，不重要的通道特征被抑制。SAM则通过对每个像素点的特征进行加权，使得重要的像素点对应的特征被加强，不重要的像素点对应的特征被抑制。将经过CAM和SAM处理后的特征进行聚合后进行通道压缩，再次通过CAM进行通道特征的细化，如图3所示；

步骤4：在解码器中，将主干网络第四阶段的输出与主干网络的第三阶段的输出进行特征融合形成特征图F1，主干网络第四阶段的输出与DAM的输出特征图F3进行特征融合后形成F2，之后将特征图F2、F3的分辨率上采样至与特征图F1的分辨率同等大小后进行特征聚合，最终进行语义信息的判别，实现遥感图像的地物分类。

进一步，所述步骤2的具体方法为：

步骤2.1：将步骤1提取的特征信息X通过DenseASPP-SE模块，分别通过DenseASPP和全局特征增强层两个模块；

步骤2.2：在DenseASPP中，输入特征向量X首先进行膨胀率为3的空洞卷积操作，得到特征图Y₁，随后Y₁与X进行级联后通过膨胀率为6的空洞卷积层后得到Y₂，然后Y₁、Y₂与X进行级联后通过膨胀率为12的空洞卷积层后得到Y₃，之后Y₁、Y₂、Y₃与X进行级联后通过膨胀率为18的空洞卷积层后得到Y₄；

步骤2.3：在全局特征层中，通过激励和压缩操作进行特征细化得到加权特征图Y₅；

步骤2.4：将特征图Y₁、Y₂、Y₃、Y₄、Y₅进行特征聚合后通过1×1的卷积层进行通道压缩得到特征图Y。

进一步，所述步骤3的具体方法为：

步骤3.1：将步骤2得到的特征图Y首先分别通过DAM模块中的SAM和CAM；

步骤3.2：如图4所示，在SAM中，输入特征图为其中C是通道数，H、W分别为特征图的高度、宽度。应用三次相同结构的卷积，创建了三个新的特征，即查询向量、键向量和值向量，即用向量Q、K和V表示，维度C×H×W，这三个是相同的值、键和查询向量。为了得到相似度矩阵，首先计算第i个键和第j个查询，然后将V和K修改为C×N，N的维度是H×W，通过Softmax层，得到归一化后的空间注意力权重/>

步骤3.2：对于输入特征图Y，通过将空间位置信息和注意力权重S₁相乘得到空间注意力加权并乘以尺度参数α，然后与输入特征图Y进行逐元素求和，得到空间特征细化后的特征图；

步骤3.3：如图5所示，在CAM模块中，对于输入特征图CAM首先将输入的特征Y按大小C×H×W进行重塑，使其大小为C×N，其中N的维度为H×W。然后对X进行转置，得到大小为N×N的通道注意模块，使用Softmax函数，得到空间注意力权重/>

步骤3.4：输入特征图X，通过将每个通道上的元素与对应通道的注意力权重相乘，得到通道注意力加权特征图

步骤3.5：将空间特征细化后的特征图与通道特征细化后的特征图沿通道进行拼接后进行通道压缩，再使用通道注意力机制得到细化后的特征图F₃。

进一步，所述步骤4的具体方法为：

步骤4.1：如图6所示，将Stage4的输出特征图的分辨率上采样至Stage3的输出特征图的分辨率同等大小后进行特征聚合，那个聚合后的特征图通过两个具有BN层和ReLU激活函数的3×3卷积层来细化，得到特征图F₁；

步骤4.2：将步骤3的输出特征图的分辨率上采样至Stage4的输出特征图的分辨率同等大小后进行特征聚合，那个聚合后的特征图通过两个具有BN层和ReLU激活函数的3×3卷积层来细化，得到特征图F₂；

步骤4.3：将F₃进行4倍上采样，F₂进行2倍上采样后与F₁沿通道拼接后通过具有BN层和ReLU激活函数的1×1卷积层来细化，最终进行语义信息的判别，实现遥感地物的分类。

与现有技术相比，本发明的有益效果是：

(1)本发明设计了一种DenseASPP-SE模块来代替DeepLabv3+的ASPP结构，以此来增大CNN对高分辨率遥感图像的感受野，更好地理解图像的上下文场景信息；

(2)本发明在全局特征后引入DAM可以帮助本章的地物分类模型在特征表示能力和空间定位精度之间取得平衡，实现对遥感图像目标区域更精细的分类；

(3)本发明在解码器阶段采用密集连接的方式利用图像的多级特征图对图像进行上采样，充分利用图像的多尺度信息，提高图像的地物分类的精度。

附图说明

图1为本发明基于注意力增强和密集多尺度的地物分类网络模型的网络结构

图2为DenseASPP-SE网结构

图3为本发明的双重注意力机制模块结构

图4为本发明的空间注意力机制流程

图5为本发明的通道注意力机制流程

图6为本发明的特征融合模块

具体实施步骤

下面结合附图对本发明进一步说明。

本发明设计了一种基于注意力增强和密集多尺度的地物分类网络模型。在DeepLabv3+网络的基础上，设计了一种注意力增强的密集空洞金字塔池化来替换原有的空洞空间金字塔池化结构，同时，在其后引入双注意机制。在编码器阶段采用了密集连接的方式利用图像的多级特征图对图像进行上采样，如图1所示，为本发明的网络结构。

首先使用ResNet-101作为骨干网络对语义信息进行编码，建立特征提取模块。

然后输入一个密集连接的空洞空间池化层和一个全局特征增强层组成，并对其的输出进行特征聚合进行通道压缩的DenseASPP-SE模块，如图2所示，以此来增大CNN对高分辨率遥感图像的感受野，更好地理解图像的上下文场景信息。

然后，使用DAM来进一步提高特征图的表示能力。如图3所示，将输入特征分别经过SAM和CAM进行处理，如图4所示，SAM则通过对每个像素点的特征进行加权，使得重要的像素点对应的特征被加强，不重要的像素点对应的特征被抑制，如图5所示，CAM通过对每个通道的特征进行加权，使得重要的通道特征被加强，不重要的通道特征被抑制。将细化后的特征沿通道拼接后进行通道压缩，再次通过CAM进行通道特征的细化，强化通道特征信息。

最后进行特征融合。如图6所示，该模块首先采用双线性插值将高级特征的分辨率上采样到与低级特征图的分辨率同等大小，接着，通过具有BN层和ReLU激活函数的3×3卷积层来细化上采样的高级特征图。然后，将主干网络第四阶段的输出与主干网络的第三阶段的输出进行特征融合形成特征图F1，主干网络第四阶段的输出与DAM的输出特征图F3进行特征融合后形成F2，通过特征聚合操作将细化的高级特征图与低级特征图拼接起来，得到融合特征图。最后，通过带有BN层和ReLU激活函数的1×1的卷积层来获得特征融合模块的最终输出特征图。

Claims

1.一种基于注意力增强和密集多尺度的地物分类网络模型，其特征在于，包括以下步骤：

本发明采用的技术步骤如下：

步骤2：随后通过DenseASPP-SE模块来获得更大的感受野，同时可以更加准确地区分不同地物类别之间的细节；DenseASPP-SE由一个密集连接的空洞空间池化层(Denselyconnected Atrous Spatial Pyramid Pooling,DenseASPP)和一个全局特征增强层组成，之后对其的输出进行特征聚合进行通道压缩；

步骤2.4：将特征图Y₁、Y₂、Y₃、Y₄、Y₅进行特征聚合后通过1×1的卷积层进行通道压缩得到特征图Y；

步骤3：之后在全局特征后引入DAM，能够有效地提取遥感图像中的有用信息，DAM的实现主要是将DenseASPP-SE的输出特征分别通过通道注意力机制(Channel AttentionMechanism,CAM)和空间注意力机制(Spatial attention mechanisms,SAM)进行特征细化，CAM通过对每个通道的特征进行加权，使得重要的通道特征被加强，不重要的通道特征被抑制；SAM则通过对每个像素点的特征进行加权，使得重要的像素点对应的特征被加强，不重要的像素点对应的特征被抑制；将经过CAM和SAM处理后的特征进行聚合后进行通道压缩，再次通过CAM进行通道特征的细化；

步骤3.2：在SAM中，输入特征图为，其中C是通道数，H、W分别为特征图的高度、宽度；应用三次相同结构的卷积，创建了三个新的特征，即查询向量、键向量和值向量，即用向量Q、K和V表示，维度C×H×W，这三个是相同的值、键和查询向量；为了得到相似度矩阵，首先计算第i个键和第j个查询，然后将V和K修改为C×N，N的维度是H×W，通过Softmax层，得到归一化后的空间注意力权重；

步骤3.2：对于输入特征图Y，通过将空间位置信息和注意力权重S1相乘得到空间注意力加权并乘以尺度参数α，然后与输入特征图Y进行逐元素求和，得到空间特征细化后的特征图；

步骤3.3：在CAM模块中，对于输入特征图，CAM首先将输入的特征Y按大小C×H×W进行重塑，使其大小为C×N，其中N的维度为H×W；然后对X进行转置，得到大小为N×N的通道注意模块，使用Softmax函数，得到空间注意力权重；

步骤3.4：输入特征图X，通过将每个通道上的元素与对应通道的注意力权重相乘，得到通道注意力加权特征图；

步骤3.5：将空间特征细化后的特征图与通道特征细化后的特征图沿通道进行拼接后进行通道压缩，再使用通道注意力机制得到细化后的特征图F3；

步骤4：在解码器中，将主干网络第四阶段的输出与主干网络的第三阶段的输出进行特征融合形成特征图F1，主干网络第四阶段的输出与DAM的输出特征图F3进行特征融合后形成F2，之后将特征图F2、F3的分辨率上采样至与特征图F1的分辨率同等大小后进行特征聚合，最终进行语义信息的判别，实现遥感图像的地物分类；

步骤4.1：将Stage4的输出特征图的分辨率上采样至Stage3的输出特征图的分辨率同等大小后进行特征聚合，那个聚合后的特征图通过两个具有BN层和ReLU激活函数的3×3卷积层来细化，得到特征图F₁；

2.如权利要求1所述方法，其特征在于，步骤2中的DenseASPP-SE利用空洞率分别为3、6、12、18的空洞卷积以及压缩和激励机制来扩大网络的感受野。

3.如权利要求1所述方法，其特征在于，步骤3中利用双重注意力机制来细化图像的空间特征与通道特征。

4.如权利要求1所述方法，其特征在于，步骤4采用双线性插值将高级特征的分辨率上采样到与低级特征图的分辨率同等大小，接着，通过具有BN层和ReLU激活函数的3×3卷积层来细化上采样的高级特征图；然后，该模块通过特征聚合操作将细化的高级特征图与低级特征图拼接起来，得到融合特征图；最后，通过带有BN层和ReLU激活函数的1×1的卷积层来获得最终输出特征图。