CN113591633A

CN113591633A - 基于动态自注意力Transformer的面向对象土地利用信息解译方法

Info

Publication number: CN113591633A
Application number: CN202110810082.6A
Authority: CN
Inventors: 崔巍; 夏聪; 王锦; 郝元洁; 李解; 吴伟杰; 王梓溦
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-07-18
Filing date: 2021-07-18
Publication date: 2021-11-02
Anticipated expiration: 2041-07-18
Also published as: CN113591633B

Abstract

本发明提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法，包括如下步骤：数据获取；数据预处理；建立分类体系；对象掩码制作；人工标注；样本制作；数据集切分；构建网络模型；超参数设置；数据增强；模型训练；验证分析。本发明的目的是提供一种面向对象的地震灾后土地利用信息解译的方法，设计出了基于动态自注意力机制的视觉Transformer，可在减少Transformer计算复杂度的同时充分利用其优异的全局感知能力，负责扩大感受野、建立上下文依赖和全局建模，以实现高分遥感影像的土地利用信息的解译。

Description

基于动态自注意力Transformer的面向对象土地利用信息解译方法

技术领域

本发明涉及面向对象的遥感影像语义分割技术领域，尤其涉及一种基于动态自注意力Transformer的面向对象土地利用信息解译方法。

背景技术

近年来随着深度学习方法的迅速发展，各项计算机视觉任务(如图像分类、语义分割、目标检测)的性能得到显著的提升，极大推动了遥感影像解译技术的扩展，特别在高分辨遥感影像领域。

现有的基于深度学习的遥感影像语义分割网络(如FCN、UNet、DeepLab等)主要为全卷积架构，卷积神经网络虽然能够学习图像中丰富的局部空间特征，如边缘和纹理，但也存在着缺乏上下文长期依赖、感受野受限等一些弊端。但近年由于来Transformer优异的全局感知能力，逐渐在自然语言处理、计算机视觉等多项任务中完成对卷积神经网络超越。Transformer最初应用在自然语言处理邻域，该方法主要应用了自注意力(Self-Attention，SA)机制，能捕捕获句子中单词之间的全局交互，而不同于卷积神经网络的局部感知。鉴于Transformer在自然语言处理邻域的优异表现，该方法逐渐被迁移到计算机视觉任务中。但由于Transformer的SA机制，Transformer的内存消耗量与计算量与输入影像大小呈二次方的关系，极大限制了Transformer在计算机视觉领域的应用。

综合上述分析可知，现有的方法存在计算复杂度高且信息解译效果不佳的问题。

发明内容

本发明提出一种基于动态自注意力Transformer的面向对象土地利用信息解译方法，用于解决或者至少部分解决现有技术中存在的计算复杂度高且信息解译效果不佳的技术问题。

为了解决上述技术问题，本发明提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法，包括：

S1：获取地震灾区所在区域的矢量边界以及高分辨率遥感影像，根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本图，并划分得到训练集；

S2：构建基于动态自注意力Transformer的面向对象土地利用信息解译模型，其中，该信息解译模型包括Backbone模块、Neck模块以及Head模块，Backbone模块为卷积神经网络特征提取模块，用于提取影像的纹理和边界，为三维局部特征；Neck模块为视觉Transformer特征提取模块，基于动态自注意力机制构建视觉Transformer，用于建立视觉特征的全局信息和长期依赖；Head模块为图Transformer节点聚合模块，通过构建图Transformer以聚合图节点并生成对象类别预测结果，对象类别预测结果作为面向对象土地利用信息解译结果；

S3：利用划分得到的训练集对信息解译模型进行训练，并进行超参数的设置，将得到的最优模型作为训练好的信息解译模型；

S4：利用训练好的信息解译模型对面向对象土地利用信息进行解译。

在一种实施方式中，步骤S1中根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本，包括：

对获取的矢量边界以及高分辨率遥感影像，进行预处理；

根据灾区高分辨率遥感影像的目视解译结果以及国家相关土地利用分类标准，建立研究区域土地分类体系；

对预处理后的高分辨率遥感影像进行超像素分割，生成对象掩码；

根据建立好的研究区域土地分类体系，对高分辨率遥感影像以及对应的对象掩码进行人工标注，生成研究区域GT；

根据研究区域土地类型分布情况与网络模型需要，选取最佳切割尺度，将大幅高分辨率遥感影像拆分成不重叠的样本图，并生成样本图对应的对象掩码、对象类别以及GT。

在一种实施方式中，所述方法还包括：按照预设比例对样本图进行划分，得到训练集、验证集和测试集。

在一种实施方式中，步骤S2中Backbone模块包括两个卷积层、一个池化层、两个卷积层和一个池化层。

在一种实施方式中，步骤S2中Neck模块的计算过程包括；

将Backbone模块的三维局部特征在空间维度进行展开，转换成为二维序列；

将二维序列输入构建的视觉Transformer中，对二维序列进行升序排序，得到新的序列；

对新的序列进行线性变换得到视觉Transformer自注意力机制的查询向量，分别进行一维卷积得到视觉Transformer自注意力机制的被查向量和内容向量；

对视觉Transformer自注意力机制的查询向量、被查向量和内容向量进行注意力与残差操作、归一化处理后得到信息聚合结果；

对信息聚合结果进行前馈神经网络计算与残差操作、归一化处理，得到归一化后的信息聚合结果；

将归一化后的信息聚合结果重新调整为原来的位置。

在一种实施方式中，步骤S3中Head模块的计算过程包括；

将对象平均特征作为输入，分别经过三次线性变化后得到图Transformer自注意力机制的查询向量、被查向量以及内容向量，其中每个对象为一个节点；

对图Transformer自注意力机制的查询向量、被查向量以及内容向量进行注意力与残差操作，进行各节点特征信息的聚合，得到聚合节点信息；

对聚合后的节点信息进行前馈神经网络计算与残差操作、归一化处理，得到归一化后的聚合节点信息；

对归一化处理后的聚合节点信息进行线性变换和规范化处理，将特征维度转化为分类类别数，得到节点的分类概率。

在一种实施方式中，在步骤S1之后，所述方法还包括：对样本图中包含的遥感影像的各波段进行归一化，以及在训练集中对样本影像和对象掩码进行随机翻转、随机旋转操作。

在一种实施方式中，所述方法还包括：在训练过程中对信息解译模型在训练集上验证各项评价指标分析模型的精度和泛化能力；在测试集中进行模型预测，与真实GT进行对比。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于动态自注意力Transformer的面向对象土地利用信息解译方法，构建了基于动态自注意力Transformer的面向对象土地利用信息解译模型，该模型包括Backbone模块、Neck模块以及Head模块，Neck模块基于动态自注意力机制构建视觉Transformer，可以建立视觉特征的全局信息和长期依赖，并对三维视觉特征在空间维展开，成二维序列，作排序处理，打乱原有的空间位置，使得具有相似特征的像素点排列在一起。二维序列将被分为若干个不重叠组，各组组内像素点则被聚合成一个点，由于组内像素点的特征基本相似，用该点的特征可近似代表着组内各像素点的特征，从而减少自注意力的计算复杂度。在图Transformer中，由于超像素块的数量规模不大，则直接利用SA机制，构建图Transformer。本发明可充分利用Transformer优异的全局感知能力，负责扩大感受野、建立上下文依赖和全局建模，以实现高分遥感影像的土地利用信息的解译，改善解译的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为具体实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的流程图；

图2为本发明实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的处理过程示意图；

图3为本发明实施例中超像素分割尺度示意图；

图4为本发明实施例中Backbone模块的结构示意图；

图5为本发明实施例中Neck模块中视觉Transformer的架构示意图；

图6为本发明实施例中Head模块中图Transformer的架构示意图；

图7为本发明实施例中数据增强示意图；

图8为本发明实施例采用的模型进行信息解译预测示意图。

具体实施方式

本发明的目的是提供一种面向对象的地震灾后土地利用信息解译的方法，设计出了基于动态自注意力机制的视觉Transformer，可在减少Transformer计算复杂度的同时充分利用其优异的全局感知能力，负责扩大感受野、建立上下文依赖和全局建模，以实现高分遥感影像的土地利用信息的解译。

为实现上述目的，本发明设计出了基于动态自注意力机制的视觉Transformer和图Transformer。在基于动态自注意力机制的视觉Transformer中，对三维视觉特征在空间维展开，成二维序列，作排序处理，打乱原有的空间位置，使得具有相似特征的像素点排列在一起。二维序列将被分为若干个不重叠组，各组组内像素点则被聚合成一个点，由于组内像素点的特征基本相似，用该点的特征可近似代表着组内各像素点的特征，以此来减少自注意力的计算复杂度。在图Transformer中，由于超像素块的数量规模不大，则直接利用SA机制，构建图Transformer。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法，包括：

具体实施过程中，可以在Python语言中基于PyTorch深度学习框架构建基于动态自注意力Transformer的面向对象土地利用信息解译模型。该模型可分为Backbone、Neck、Head三大模块。具体的处理过程如图2所示。Backbone为卷积神经网络特征提取模块，负责提取影像的纹理、边界等局部特征，可将输入大小为3×H×W(其中3为可见光波段数，H为长度，W为宽度)的原始遥感影像的维度扩展到c维，长宽下降为原有的

即大小为

的局部特征；Neck为视觉Transformer特征提取模块，负责建立视觉特征的全局信息和长期依赖，由于该模块应用了动态自注意力(Dynamic Self-Attention，DSA)机制构建Transformer，能够进行长期依赖与上下文全局建模，生成大小与输入局部特征相同的全局特征；为保持长宽一致，将大小为n×H×W(其中n为对象个数)的对象掩码进行4倍下采样到

然后复制c次成

全局特征则复制n次成

两者进行逐点相乘，生成大小为

节点视觉特征，为消除冗余特征对节点视觉特征进行全局平均池化，生成大小为n×c的对象平均特征；Head模块为图Transformer节点聚合模块，负责聚合图节点并生成对象类别预测结果，将每个对象为节点，为n个节点进行分类；最后结合对象节点分类结果与对象掩码，生成像素级预测结果，即信息解译结果。

步骤S3的训练过程中，超参数设置包括：在优化器上，设置优化器类型、学习率大小、学习率衰减器类型等超参数；在数据上，设置batch size、是否数据增强、是否随机化等超参数；在训练上，设置GPU个数、迭代次数、评价指标类型等参数，以保证网络的平稳收敛与优异性能。根据设置完成超参数，利用Pytorch Lightning工具对模型进行训练，保存网络训练过程中损失值、评价指标结果变化情况及最优模型权重。

对获取的矢量边界以及高分辨率遥感影像，进行预处理；

具体实施过程中，将获取到的矢量边界以及高分辨率遥感影像导入相关专业遥感软件进行预处理，包括镶嵌、掩码、几何校正、大气校正等操作。

在制作对象掩码时，可以将预处理后的高分辨率遥感影像导入超像素分割软件，选择合适的超像素分割尺度，生成对象掩码。

将高分辨率遥感影像以及对应对象掩码导入相关专业遥感软件，按照建立好的研究区域土地分类体系，逐对象进行人工标注，生成研究区域GT。原始影像(image)经过超像素分割处理后得到对象掩码(object)，例如一个原始影像进行超像素分割后得到了对象1、对象2、对象3三个对象掩码，然后对三个对象掩码进行人工标注，例如将对象1、对象3分为水体，对象2分为草地，即可获得原始影像对应的GT(GT为原始影像人工标注分类结果)。

具体实施时，影像处理预处理过程可以在ENVI软件中完成，超像素分割过程可以在Super SIAT软件中完成，人工标注过程可以在ArcMap软件中完成。原始影像可分为多个对象，对象使用对象掩码来表示，对象类别为对象掩码对应的地物类型。

其中，预设比例可以根据实际情况设置，例如可以按照7：2：1的比例划分得到训练集、验证集和测试集。

具体实施过程中，该模块卷积神经网络特征提取模块，负责提取影像的纹理、边界等局部特征。Backbone模块为常规的卷积+池化+卷积+池化架构，如图4所示，所示，其中卷积层为输出维度，K为卷积核大小，S为卷积层步距，P为填充大小，池化层为最大值池化，K’为窗口大小，S’为池化层步距。经过该模型，可从原始影像X∈R^3×H×W中提取出局部特征

(在本发明的应用案例中，c为64，H为224，W为224)。

在一种实施方式中，步骤S2中Neck模块的计算过程包括；

将归一化后的信息聚合结果重新调整为原来的位置。

具体实施过程中，Neck模块为视觉Transformer特征提取模块，负责建立视觉特征的全局信息和长期依赖。Neck模块具体结构如图5所示，为基于DSA机制构建的Transformer，在动态调整特征图的语义信息的同时大大降低了自注意力机制的计算复杂度与内存消耗。在Neck模块中，会将来自Backbone模块的三维局部特征F∈R^c×h×w(其中

)在空间维度进行展开，转换成为二维序列S∈R^l×c(其中l＝h×w)，作为DSA-Transformer的输入。

在DSA-Transformer中，为达到动态调整语义信息的目的，会先对二维序列S进行升序排序处理：将S中每个元素s_i∈R^c进行重新排列，得到新序列S′＝[s₁,s₂,…,s_l]^T(其中∑s₁<∑s₂<…<∑s_l)。为减少SA计算量与内存消耗，如公式1所示，DSA-Transformer采用一维卷积(Conv1D)的方式计算出K与V(卷积核大小与步长相同，设为p)，但Q的计算方式与SA一致，直接对S′进行线性变化。

Q,K,V＝S′W_q,Cov1D_k(S′),Conv1D_v(S′) (公式1)

公式1中Q，K，V分别表示query(查询向量)、key(被查向量或者键向量)、value(内容向量或者值向量)，W_q为可训练参数矩阵，S′与W_q做矩阵乘法可得到Q，Conv1D为一维卷积操作，对S′进行Cov1D_k卷积可得到K，对S′进行Conv1D_v卷积可得到V。

得到Q∈R^l×c、

后，如式2，对Q、K、V进行Attention与残差操作，完成各元素特征信息的聚合，其中LN为层归一化(Layer Norm)。

Sofimax为归一化处理，LN为归一化层，S″表示对S′中的元素进行信息聚合的结果(即聚合节点信息)。

随后，如公式3所示，进行FFN(前馈神经网络计算)与残差操作，其中W₁∈R^c×4c，B₁∈R^4c，W₂∈R^4c×c，B₂∈R^c，皆为可训练参数；GELU为激活函数。

S″′＝LN(GELU(S″W₁+B₁)W₂+B₂+S″) (公式3)

W₁、B₁、W₂、B₂皆为可训练参数矩阵，GELU为激活函数，S″′表示归一化后的聚合节点信息。W₁、W₂为神经网络线性层的权重矩阵，负责对输入进行线性变换，B₁、B₂为神经网络线性层的偏置，负责控制神经元激活状态。W₁、B₁、W₂、B₂加上非线性激活激活函数GELU，构成了两层神经网络。

为保存空间位置的一致性，最后将S″′∈R^l×c中元素重新调整回原有的位置，并且维度变换为三维全局特征F′∈R^c×h×w。

图5中，Sort表示将S中每个元素s_i∈R^c进行重新排列，desort为将S″′∈R^l×c中元素重新调整回原有的位置。Linear为线性层，表示公式1中Q＝S′W_q，Conv1D为一维卷积表示公式1中K＝Cov1D_k(S′)，V＝，Conv1D_v(S′)。MatMul为矩阵乘法，scaling为缩放比例，代表除以某一值，Softmax为归一化操作，Add为加法操作，Norm为层归一化(Layer Norm)，FFN为前馈神经网络，代表公式3。

在一种实施方式中，步骤S2中Head模块的计算过程包括；

具体实施过程中，该模块为节点聚合模块，负责聚合图节点并生成节点类别预测结果，结构如图6所示。该模块接收对象平均特征N∈R^n×c，其中n为对象个数，c为特征维度，将每个对象为一个节点。如公式4所示，N分别经过三次线性变化后得到Q^h，K^h，V^h，其中，

皆为可训练参数

基于得到的图Transformer自注意力机制的查询向量、被查向量以及内容向量Q^h，K^h，V^h，如式5，对其进行Attention与残差操作，完成各节点特征信息的聚合，得到聚合节点信息N′，其中LN为层归一化。

随后，如式6进行FFN与残差操作，其中

皆为可训练参数；GELU为激活函数，N″表示归一化后的聚合节点信息：

为获得节点的分类概率Y，如式7进行线性变化与归一化操作，将特征维度转化为分类类别数，其中W₃∈R^c×m，B₃∈R^m(m为土地利用分类数，在本发明应用案例中，其值为11)，最终得到模型输出结果。

Y＝Softmax(N″W₃+B₃) (公式7)

为了更清楚地说明本发明的技术方案，下面通过具体的示例对本发明的方法进行详细介绍。如图1所示，为具体实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的流程图，包括如下步骤：

步骤S1，数据获取：获取研究区域的矢量边界以及高分辨率遥感影像。本实例选取的研究地区为四川省汶川县，该地区位于北纬30°28′41″-30°32′29″，东经114°22′42″-114°28′11″区间范围内，获取汶川县地区2008年7月地震灾后高分二号卫星传感器遥感影像，为可见光波段，影像空间分辨率为1m。

步骤S2，数据预处理：将研究区域的矢量边界以及高分辨率遥感影像导入到ENVI遥感图像处理平台软件中，对影像进行镶嵌、掩码、几何校正、大气校正等预处理。

步骤S3，建立分类体系：根据汶川县地区高分辨率遥感影像的目视解译结果，可初步判断出该地区典型的土地利用类型。后参考国标《土地利用现状分类》(GB/T 21010-2017)，将汶川县地区土地利用类型划分为11个类别，具体分类类型如表格1所示。

表格1土地分类体系

步骤S4，对象掩码制作：将预处理后的高分辨率遥感影像导入超像素分割软件Super SIAT中，选择合适的超像素分割尺度。分割尺度如图3所示，从左往右依次为原始影像、小尺度分割、中尺度分割、大尺度分割。按照合适的尺度进行分割处理，成对象掩码。

步骤S5，人工标注：将高分辨率遥感影像以及对应对象掩码导入ESRI ArcMap软件中，将对象掩码进行矢量化操作转化成SHP图层，在对象掩码SHP图层中参照高分辨率遥感影像底图，人工标注出对应土地分类类型。完成人工标注后，将对象掩码SHP图层转化成栅格图层，即高分辨率遥感影像对应的GT。

步骤S6，样本制作：根据研究区域土地类型分布情况与网络模型需要，将大幅高分辨率遥感影像拆分成不重叠、长为224个像素、宽为224个像素的小样本遥感图，并生成样本遥感图对应的对象掩码、对象类别以及GT，共1500份样本集。

步骤S7，数据集切分：按照7：2：1的比例，将样本影像、对象掩码、对象类别、GT划分为训练集、验证集、测试集，各1050、300、150份，分别应用于模型训练、验证与测试。

步骤S8，构建网络模型：在Python语言中基于PyTorch深度学习框架构建网络Backbone、Neck、Head三大模块。

步骤S9，超参数设置：在优化器上，设置优化器类型为Adam、学习率为0.0004、学习率衰减器固定步长衰减；在数据上，设置batch size为1、使用数据增强、使用随机化；在训练上，设置GPU个数2、迭代次数为256、评价指标类型为准确率、混淆矩阵与平均交并比，以保证网络的平稳收敛与优异性能。

步骤S10，数据增强：为增加模型的泛化能力，对样本影像各波段进行归一化(如式8所示)：

其中x_i为影像第i波段的像素值，

为影像第i波段像素值的平均值，σ_i为影像第i波段像素值的标准差，x′_i为归一化后的第i波段的值。

此外，在训练集中对样本影像和对象掩码就行随机翻转、随机旋转等操作。随机翻转包括随机水平翻转(如图7的(b)部分所示，其中图7的(a)部分为原始影像)与随机垂直翻转(如图7的(c)部分所示)，随机旋转包括逆时针随机旋转90°(如图7的(d)部分所示)、180°(如图7的(e)部分所示)、270°(如图7的(f)部分所示)。

步骤S11，模型训练：根据设置完成好超参数构建模型及训练过程，利用PytorchLightning工具对模型进行训练，保存网络训练过程中损失值、评价指标结果变化情况及最优模型权重。

12.验证分析：在训练过程中对模型在训练集、验证上各项评价指标分析模型精度和泛化能力，选取在验证集表现最佳的一轮模型(混淆矩阵如表格2所示)进行参数保存。

表格2混淆矩阵

由表格2可知，该模型在验证集准确率为89.10％，平均交并比为74.84％。各类的准确率、交并比如表格3表格所示，其中水体的分类精度为最高(准确率96.92％，交并比93.39％)，道路、城镇房屋、农村房屋、农田的准确率可达90％以上、交并比82％以上，但天然草地的分类精度最低，准确率为58.95％，交并比为47.10％，由可知天然草地大部分被错分成农田，两者不能很好的进行区分。

表格3类别精度

将保存完成好的PyTorch PTH格式模型转化成ONNX格式，以方便进行高性能、跨平台推理。在测试集中进行模型推理，预测地物影像分类类别，与真实GT进行、UNet++模型(一种面向像素语义分割模型)推理结果进行对比。如图8所示，可以看出，本发明所提出的方法，能够消除面向像素语义分割模型所产生的椒盐现象，并且能够大幅度提升预测精度。

综上所述，本专利所提出的模型的效果优异。相较于全卷积语义分模型，本模型在模型效果有显著性的提升，并且可以大幅降低模型计算量与内存消耗，可达到实际实用水平，对于地震灾后地区土地利用信息解译分析提供了科学有效的方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于动态自注意力Transformer的面向对象土地利用信息解译方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1中根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本，包括：

对获取的矢量边界以及高分辨率遥感影像，进行预处理；

3.如权利要求2所述的方法，其特征在于，所述方法还包括：按照预设比例对样本图进行划分，得到训练集、验证集和测试集。

4.如权利要求1所述的方法，其特征在于，步骤S2中Backbone模块包括两个卷积层、一个池化层、两个卷积层和一个池化层。

5.如权利要1所述的方法，其特征在于，步骤S2中Neck模块的计算过程包括；

将归一化后的信息聚合结果重新调整为原来的位置。

6.如权利要1所述的方法，其特征在于，步骤S3中Head模块的计算过程包括；

7.如权利要2所述的方法，其特征在于，在步骤S1之后，所述方法还包括：对样本图中包含的遥感影像的各波段进行归一化，以及在训练集中对样本影像和对象掩码进行随机翻转、随机旋转操作。

8.如权利要3所述的方法，其特征在于，所述方法还包括：在训练过程中对信息解译模型在训练集上验证各项评价指标分析模型的精度和泛化能力；在测试集中进行模型预测，与真实GT进行对比。