CN113591633B - 基于动态自注意力Transformer的面向对象土地利用信息解译方法 - Google Patents

基于动态自注意力Transformer的面向对象土地利用信息解译方法 Download PDF

Info

Publication number
CN113591633B
CN113591633B CN202110810082.6A CN202110810082A CN113591633B CN 113591633 B CN113591633 B CN 113591633B CN 202110810082 A CN202110810082 A CN 202110810082A CN 113591633 B CN113591633 B CN 113591633B
Authority
CN
China
Prior art keywords
transducer
information
vector
remote sensing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110810082.6A
Other languages
English (en)
Other versions
CN113591633A (zh
Inventor
崔巍
夏聪
王锦
郝元洁
李解
吴伟杰
王梓溦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110810082.6A priority Critical patent/CN113591633B/zh
Publication of CN113591633A publication Critical patent/CN113591633A/zh
Application granted granted Critical
Publication of CN113591633B publication Critical patent/CN113591633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法,包括如下步骤:数据获取;数据预处理;建立分类体系;对象掩码制作;人工标注;样本制作;数据集切分;构建网络模型;超参数设置;数据增强;模型训练;验证分析。本发明的目的是提供一种面向对象的地震灾后土地利用信息解译的方法,设计出了基于动态自注意力机制的视觉Transformer,可在减少Transformer计算复杂度的同时充分利用其优异的全局感知能力,负责扩大感受野、建立上下文依赖和全局建模,以实现高分遥感影像的土地利用信息的解译。

Description

基于动态自注意力Transformer的面向对象土地利用信息解 译方法
技术领域
本发明涉及面向对象的遥感影像语义分割技术领域,尤其涉及一种基于动态自注意力Transformer的面向对象土地利用信息解译方法。
背景技术
近年来随着深度学习方法的迅速发展,各项计算机视觉任务(如图像分类、语义分割、目标检测)的性能得到显著的提升,极大推动了遥感影像解译技术的扩展,特别在高分辨遥感影像领域。
现有的基于深度学习的遥感影像语义分割网络(如FCN、UNet、DeepLab等)主要为全卷积架构,卷积神经网络虽然能够学习图像中丰富的局部空间特征,如边缘和纹理,但也存在着缺乏上下文长期依赖、感受野受限等一些弊端。但近年由于来Transformer优异的全局感知能力,逐渐在自然语言处理、计算机视觉等多项任务中完成对卷积神经网络超越。Transformer最初应用在自然语言处理邻域,该方法主要应用了自注意力(Self-Attention,SA)机制,能捕捕获句子中单词之间的全局交互,而不同于卷积神经网络的局部感知。鉴于Transformer在自然语言处理邻域的优异表现,该方法逐渐被迁移到计算机视觉任务中。但由于Transformer的SA机制,Transformer的内存消耗量与计算量与输入影像大小呈二次方的关系,极大限制了Transformer在计算机视觉领域的应用。
综合上述分析可知,现有的方法存在计算复杂度高且信息解译效果不佳的问题。
发明内容
本发明提出一种基于动态自注意力Transformer的面向对象土地利用信息解译方法,用于解决或者至少部分解决现有技术中存在的计算复杂度高且信息解译效果不佳的技术问题。
为了解决上述技术问题,本发明提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法,包括:
S1:获取地震灾区所在区域的矢量边界以及高分辨率遥感影像,根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本图,并划分得到训练集;
S2:构建基于动态自注意力Transformer的面向对象土地利用信息解译模型,其中,该信息解译模型包括Backbone模块、Neck模块以及Head模块,Backbone模块为卷积神经网络特征提取模块,用于提取影像的纹理和边界,为三维局部特征;Neck模块为视觉Transformer特征提取模块,基于动态自注意力机制构建视觉Transformer,用于建立视觉特征的全局信息和长期依赖;Head模块为图Transformer节点聚合模块,通过构建图Transformer以聚合图节点并生成对象类别预测结果,对象类别预测结果作为面向对象土地利用信息解译结果;
S3:利用划分得到的训练集对信息解译模型进行训练,并进行超参数的设置,将得到的最优模型作为训练好的信息解译模型;
S4:利用训练好的信息解译模型对面向对象土地利用信息进行解译。
在一种实施方式中,步骤S1中根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本,包括:
对获取的矢量边界以及高分辨率遥感影像,进行预处理;
根据灾区高分辨率遥感影像的目视解译结果以及国家相关土地利用分类标准,建立研究区域土地分类体系;
对预处理后的高分辨率遥感影像进行超像素分割,生成对象掩码;
根据建立好的研究区域土地分类体系,对高分辨率遥感影像以及对应的对象掩码进行人工标注,生成研究区域GT;
根据研究区域土地类型分布情况与网络模型需要,选取最佳切割尺度,将大幅高分辨率遥感影像拆分成不重叠的样本图,并生成样本图对应的对象掩码、对象类别以及GT。
在一种实施方式中,所述方法还包括:按照预设比例对样本图进行划分,得到训练集、验证集和测试集。
在一种实施方式中,步骤S2中Backbone模块包括两个卷积层、一个池化层、两个卷积层和一个池化层。
在一种实施方式中,步骤S2中Neck模块的计算过程包括;
将Backbone模块的三维局部特征在空间维度进行展开,转换成为二维序列;
将二维序列输入构建的视觉Transformer中,对二维序列进行升序排序,得到新的序列;
对新的序列进行线性变换得到视觉Transformer自注意力机制的查询向量,分别进行一维卷积得到视觉Transformer自注意力机制的被查向量和内容向量;
对视觉Transformer自注意力机制的查询向量、被查向量和内容向量进行注意力与残差操作、归一化处理后得到信息聚合结果;
对信息聚合结果进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的信息聚合结果;
将归一化后的信息聚合结果重新调整为原来的位置。
在一种实施方式中,步骤S3中Head模块的计算过程包括;
将对象平均特征作为输入,分别经过三次线性变化后得到图Transformer自注意力机制的查询向量、被查向量以及内容向量,其中每个对象为一个节点;
对图Transformer自注意力机制的查询向量、被查向量以及内容向量进行注意力与残差操作,进行各节点特征信息的聚合,得到聚合节点信息;
对聚合后的节点信息进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的聚合节点信息;
对归一化处理后的聚合节点信息进行线性变换和规范化处理,将特征维度转化为分类类别数,得到节点的分类概率。
在一种实施方式中,在步骤S1之后,所述方法还包括:对样本图中包含的遥感影像的各波段进行归一化,以及在训练集中对样本影像和对象掩码进行随机翻转、随机旋转操作。
在一种实施方式中,所述方法还包括:在训练过程中对信息解译模型在训练集上验证各项评价指标分析模型的精度和泛化能力;在测试集中进行模型预测,与真实GT进行对比。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于动态自注意力Transformer的面向对象土地利用信息解译方法,构建了基于动态自注意力Transformer的面向对象土地利用信息解译模型,该模型包括Backbone模块、Neck模块以及Head模块,Neck模块基于动态自注意力机制构建视觉Transformer,可以建立视觉特征的全局信息和长期依赖,并对三维视觉特征在空间维展开,成二维序列,作排序处理,打乱原有的空间位置,使得具有相似特征的像素点排列在一起。二维序列将被分为若干个不重叠组,各组组内像素点则被聚合成一个点,由于组内像素点的特征基本相似,用该点的特征可近似代表着组内各像素点的特征,从而减少自注意力的计算复杂度。在图Transformer中,由于超像素块的数量规模不大,则直接利用SA机制,构建图Transformer。本发明可充分利用Transformer优异的全局感知能力,负责扩大感受野、建立上下文依赖和全局建模,以实现高分遥感影像的土地利用信息的解译,改善解译的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为具体实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的流程图;
图2为本发明实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的处理过程示意图;
图3为本发明实施例中超像素分割尺度示意图;
图4为本发明实施例中Backbone模块的结构示意图;
图5为本发明实施例中Neck模块中视觉Transformer的架构示意图;
图6为本发明实施例中Head模块中图Transformer的架构示意图;
图7为本发明实施例中数据增强示意图;
图8为本发明实施例采用的模型进行信息解译预测示意图。
具体实施方式
本发明的目的是提供一种面向对象的地震灾后土地利用信息解译的方法,设计出了基于动态自注意力机制的视觉Transformer,可在减少Transformer计算复杂度的同时充分利用其优异的全局感知能力,负责扩大感受野、建立上下文依赖和全局建模,以实现高分遥感影像的土地利用信息的解译。
为实现上述目的,本发明设计出了基于动态自注意力机制的视觉Transformer和图Transformer。在基于动态自注意力机制的视觉Transformer中,对三维视觉特征在空间维展开,成二维序列,作排序处理,打乱原有的空间位置,使得具有相似特征的像素点排列在一起。二维序列将被分为若干个不重叠组,各组组内像素点则被聚合成一个点,由于组内像素点的特征基本相似,用该点的特征可近似代表着组内各像素点的特征,以此来减少自注意力的计算复杂度。在图Transformer中,由于超像素块的数量规模不大,则直接利用SA机制,构建图Transformer。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于动态自注意力Transformer的面向对象土地利用信息解译方法,包括:
S1:获取地震灾区所在区域的矢量边界以及高分辨率遥感影像,根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本图,并划分得到训练集;
S2:构建基于动态自注意力Transformer的面向对象土地利用信息解译模型,其中,该信息解译模型包括Backbone模块、Neck模块以及Head模块,Backbone模块为卷积神经网络特征提取模块,用于提取影像的纹理和边界,为三维局部特征;Neck模块为视觉Transformer特征提取模块,基于动态自注意力机制构建视觉Transformer,用于建立视觉特征的全局信息和长期依赖;Head模块为图Transformer节点聚合模块,通过构建图Transformer以聚合图节点并生成对象类别预测结果,对象类别预测结果作为面向对象土地利用信息解译结果;
S3:利用划分得到的训练集对信息解译模型进行训练,并进行超参数的设置,将得到的最优模型作为训练好的信息解译模型;
S4:利用训练好的信息解译模型对面向对象土地利用信息进行解译。
具体实施过程中,可以在Python语言中基于PyTorch深度学习框架构建基于动态自注意力Transformer的面向对象土地利用信息解译模型。该模型可分为Backbone、Neck、Head三大模块。具体的处理过程如图2所示。Backbone为卷积神经网络特征提取模块,负责提取影像的纹理、边界等局部特征,可将输入大小为3×H×W(其中3为可见光波段数,H为长度,W为宽度)的原始遥感影像的维度扩展到c维,长宽下降为原有的即大小为/>的局部特征;Neck为视觉Transformer特征提取模块,负责建立视觉特征的全局信息和长期依赖,由于该模块应用了动态自注意力(Dynamic Self-Attention,DSA)机制构建Transformer,能够进行长期依赖与上下文全局建模,生成大小与输入局部特征相同的全局特征;为保持长宽一致,将大小为n×H×W(其中n为对象个数)的对象掩码进行4倍下采样到然后复制c次成/>全局特征则复制n次成/>两者进行逐点相乘,生成大小为/>节点视觉特征,为消除冗余特征对节点视觉特征进行全局平均池化,生成大小为n×c的对象平均特征;Head模块为图Transformer节点聚合模块,负责聚合图节点并生成对象类别预测结果,将每个对象为节点,为n个节点进行分类;最后结合对象节点分类结果与对象掩码,生成像素级预测结果,即信息解译结果。
步骤S3的训练过程中,超参数设置包括:在优化器上,设置优化器类型、学习率大小、学习率衰减器类型等超参数;在数据上,设置batch size、是否数据增强、是否随机化等超参数;在训练上,设置GPU个数、迭代次数、评价指标类型等参数,以保证网络的平稳收敛与优异性能。根据设置完成超参数,利用Pytorch Lightning工具对模型进行训练,保存网络训练过程中损失值、评价指标结果变化情况及最优模型权重。
在一种实施方式中,步骤S1中根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本,包括:
对获取的矢量边界以及高分辨率遥感影像,进行预处理;
根据灾区高分辨率遥感影像的目视解译结果以及国家相关土地利用分类标准,建立研究区域土地分类体系;
对预处理后的高分辨率遥感影像进行超像素分割,生成对象掩码;
根据建立好的研究区域土地分类体系,对高分辨率遥感影像以及对应的对象掩码进行人工标注,生成研究区域GT;
根据研究区域土地类型分布情况与网络模型需要,选取最佳切割尺度,将大幅高分辨率遥感影像拆分成不重叠的样本图,并生成样本图对应的对象掩码、对象类别以及GT。
具体实施过程中,将获取到的矢量边界以及高分辨率遥感影像导入相关专业遥感软件进行预处理,包括镶嵌、掩码、几何校正、大气校正等操作。
在制作对象掩码时,可以将预处理后的高分辨率遥感影像导入超像素分割软件,选择合适的超像素分割尺度,生成对象掩码。
将高分辨率遥感影像以及对应对象掩码导入相关专业遥感软件,按照建立好的研究区域土地分类体系,逐对象进行人工标注,生成研究区域GT。原始影像(image)经过超像素分割处理后得到对象掩码(object),例如一个原始影像进行超像素分割后得到了对象1、对象2、对象3三个对象掩码,然后对三个对象掩码进行人工标注,例如将对象1、对象3分为水体,对象2分为草地,即可获得原始影像对应的GT(GT为原始影像人工标注分类结果)。
具体实施时,影像处理预处理过程可以在ENVI软件中完成,超像素分割过程可以在Super SIAT软件中完成,人工标注过程可以在ArcMap软件中完成。原始影像可分为多个对象,对象使用对象掩码来表示,对象类别为对象掩码对应的地物类型。
在一种实施方式中,所述方法还包括:按照预设比例对样本图进行划分,得到训练集、验证集和测试集。
其中,预设比例可以根据实际情况设置,例如可以按照7:2:1的比例划分得到训练集、验证集和测试集。
在一种实施方式中,步骤S2中Backbone模块包括两个卷积层、一个池化层、两个卷积层和一个池化层。
具体实施过程中,该模块卷积神经网络特征提取模块,负责提取影像的纹理、边界等局部特征。Backbone模块为常规的卷积+池化+卷积+池化架构,如图4所示,所示,其中卷积层为输出维度,K为卷积核大小,S为卷积层步距,P为填充大小,池化层为最大值池化,K’为窗口大小,S’为池化层步距。经过该模型,可从原始影像X∈R3×H×W中提取出局部特征(在本发明的应用案例中,c为64,H为224,W为224)。
在一种实施方式中,步骤S2中Neck模块的计算过程包括;
将Backbone模块的三维局部特征在空间维度进行展开,转换成为二维序列;
将二维序列输入构建的视觉Transformer中,对二维序列进行升序排序,得到新的序列;
对新的序列进行线性变换得到视觉Transformer自注意力机制的查询向量,分别进行一维卷积得到视觉Transformer自注意力机制的被查向量和内容向量;
对视觉Transformer自注意力机制的查询向量、被查向量和内容向量进行注意力与残差操作、归一化处理后得到信息聚合结果;
对信息聚合结果进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的信息聚合结果;
将归一化后的信息聚合结果重新调整为原来的位置。
具体实施过程中,Neck模块为视觉Transformer特征提取模块,负责建立视觉特征的全局信息和长期依赖。Neck模块具体结构如图5所示,为基于DSA机制构建的Transformer,在动态调整特征图的语义信息的同时大大降低了自注意力机制的计算复杂度与内存消耗。在Neck模块中,会将来自Backbone模块的三维局部特征F∈Rc×h×w(其中)在空间维度进行展开,转换成为二维序列S∈Rl×c(其中l=h×w),作为DSA-Transformer的输入。
在DSA-Transformer中,为达到动态调整语义信息的目的,会先对二维序列S进行升序排序处理:将S中每个元素si∈Rc进行重新排列,得到新序列S′=[s1,s2,…,sl]T(其中∑s1<∑s2<…<∑sl)。为减少SA计算量与内存消耗,如公式1所示,DSA-Transformer采用一维卷积(Conv1D)的方式计算出K与V(卷积核大小与步长相同,设为p),但Q的计算方式与SA一致,直接对S′进行线性变化。
Q,K,V=S′Wq,Cov1Dk(S′),Conv1Dv(S′) (公式1)
公式1中Q,K,V分别表示query(查询向量)、key(被查向量或者键向量)、value(内容向量或者值向量),Wq为可训练参数矩阵,S′与Wq做矩阵乘法可得到Q,Conv1D为一维卷积操作,对S′进行Cov1Dk卷积可得到K,对S′进行Conv1Dv卷积可得到V。
得到Q∈Rl×c后,如式2,对Q、K、V进行Attention与残差操作,完成各元素特征信息的聚合,其中LN为层归一化(Layer Norm)。
Sofimax为归一化处理,LN为归一化层,S″表示对S′中的元素进行信息聚合的结果(即聚合节点信息)。
随后,如公式3所示,进行FFN(前馈神经网络计算)与残差操作,其中W1∈Rc×4c,B1∈R4c,W2∈R4c×c,B2∈Rc,皆为可训练参数;GELU为激活函数。
S″′=LN(GELU(S″W1+B1)W2+B2+S″) (公式3)
W1、B1、W2、B2皆为可训练参数矩阵,GELU为激活函数,S″′表示归一化后的聚合节点信息。W1、W2为神经网络线性层的权重矩阵,负责对输入进行线性变换,B1、B2为神经网络线性层的偏置,负责控制神经元激活状态。W1、B1、W2、B2加上非线性激活激活函数GELU,构成了两层神经网络。
为保存空间位置的一致性,最后将S″′∈Rl×c中元素重新调整回原有的位置,并且维度变换为三维全局特征F′∈Rc×h×w
图5中,Sort表示将S中每个元素si∈Rc进行重新排列,desort为将S″′∈Rl×c中元素重新调整回原有的位置。Linear为线性层,表示公式1中Q=S′Wq,Conv1D为一维卷积表示公式1中K=Cov1Dk(S′),V=,Conv1Dv(S′)。MatMul为矩阵乘法,scaling为缩放比例,代表除以某一值,Softmax为归一化操作,Add为加法操作,Norm为层归一化(Layer Norm),FFN为前馈神经网络,代表公式3。
在一种实施方式中,步骤S2中Head模块的计算过程包括;
将对象平均特征作为输入,分别经过三次线性变化后得到图Transformer自注意力机制的查询向量、被查向量以及内容向量,其中每个对象为一个节点;
对图Transformer自注意力机制的查询向量、被查向量以及内容向量进行注意力与残差操作,进行各节点特征信息的聚合,得到聚合节点信息;
对聚合后的节点信息进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的聚合节点信息;
对归一化处理后的聚合节点信息进行线性变换和规范化处理,将特征维度转化为分类类别数,得到节点的分类概率。
具体实施过程中,该模块为节点聚合模块,负责聚合图节点并生成节点类别预测结果,结构如图6所示。该模块接收对象平均特征N∈Rn×c,其中n为对象个数,c为特征维度,将每个对象为一个节点。如公式4所示,N分别经过三次线性变化后得到Qh,Kh,Vh,其中,皆为可训练参数
基于得到的图Transformer自注意力机制的查询向量、被查向量以及内容向量Qh,Kh,Vh,如式5,对其进行Attention与残差操作,完成各节点特征信息的聚合,得到聚合节点信息N′,其中LN为层归一化。
随后,如式6进行FFN与残差操作,其中 皆为可训练参数;GELU为激活函数,N″表示归一化后的聚合节点信息:
为获得节点的分类概率Y,如式7进行线性变化与归一化操作,将特征维度转化为分类类别数,其中W3∈Rc×m,B3∈Rm(m为土地利用分类数,在本发明应用案例中,其值为11),最终得到模型输出结果。
Y=Softmax(N″W3+B3) (公式7)
在一种实施方式中,在步骤S1之后,所述方法还包括:对样本图中包含的遥感影像的各波段进行归一化,以及在训练集中对样本影像和对象掩码进行随机翻转、随机旋转操作。
在一种实施方式中,所述方法还包括:在训练过程中对信息解译模型在训练集上验证各项评价指标分析模型的精度和泛化能力;在测试集中进行模型预测,与真实GT进行对比。
为了更清楚地说明本发明的技术方案,下面通过具体的示例对本发明的方法进行详细介绍。如图1所示,为具体实施例中基于动态自注意力Transformer的面向对象土地利用信息解译方法的流程图,包括如下步骤:
步骤S1,数据获取:获取研究区域的矢量边界以及高分辨率遥感影像。本实例选取的研究地区为四川省汶川县,该地区位于北纬30°28′41″-30°32′29″,东经114°22′42″-114°28′11″区间范围内,获取汶川县地区2008年7月地震灾后高分二号卫星传感器遥感影像,为可见光波段,影像空间分辨率为1m。
步骤S2,数据预处理:将研究区域的矢量边界以及高分辨率遥感影像导入到ENVI遥感图像处理平台软件中,对影像进行镶嵌、掩码、几何校正、大气校正等预处理。
步骤S3,建立分类体系:根据汶川县地区高分辨率遥感影像的目视解译结果,可初步判断出该地区典型的土地利用类型。后参考国标《土地利用现状分类》(GB/T 21010-2017),将汶川县地区土地利用类型划分为11个类别,具体分类类型如表格1所示。
表格1土地分类体系
步骤S4,对象掩码制作:将预处理后的高分辨率遥感影像导入超像素分割软件Super SIAT中,选择合适的超像素分割尺度。分割尺度如图3所示,从左往右依次为原始影像、小尺度分割、中尺度分割、大尺度分割。按照合适的尺度进行分割处理,成对象掩码。
步骤S5,人工标注:将高分辨率遥感影像以及对应对象掩码导入ESRI ArcMap软件中,将对象掩码进行矢量化操作转化成SHP图层,在对象掩码SHP图层中参照高分辨率遥感影像底图,人工标注出对应土地分类类型。完成人工标注后,将对象掩码SHP图层转化成栅格图层,即高分辨率遥感影像对应的GT。
步骤S6,样本制作:根据研究区域土地类型分布情况与网络模型需要,将大幅高分辨率遥感影像拆分成不重叠、长为224个像素、宽为224个像素的小样本遥感图,并生成样本遥感图对应的对象掩码、对象类别以及GT,共1500份样本集。
步骤S7,数据集切分:按照7:2:1的比例,将样本影像、对象掩码、对象类别、GT划分为训练集、验证集、测试集,各1050、300、150份,分别应用于模型训练、验证与测试。
步骤S8,构建网络模型:在Python语言中基于PyTorch深度学习框架构建网络Backbone、Neck、Head三大模块。
步骤S9,超参数设置:在优化器上,设置优化器类型为Adam、学习率为0.0004、学习率衰减器固定步长衰减;在数据上,设置batch size为1、使用数据增强、使用随机化;在训练上,设置GPU个数2、迭代次数为256、评价指标类型为准确率、混淆矩阵与平均交并比,以保证网络的平稳收敛与优异性能。
步骤S10,数据增强:为增加模型的泛化能力,对样本影像各波段进行归一化(如式8所示):
其中xi为影像第i波段的像素值,为影像第i波段像素值的平均值,σi为影像第i波段像素值的标准差,x′i为归一化后的第i波段的值。
此外,在训练集中对样本影像和对象掩码就行随机翻转、随机旋转等操作。随机翻转包括随机水平翻转(如图7的(b)部分所示,其中图7的(a)部分为原始影像)与随机垂直翻转(如图7的(c)部分所示),随机旋转包括逆时针随机旋转90°(如图7的(d)部分所示)、180°(如图7的(e)部分所示)、270°(如图7的(f)部分所示)。
步骤S11,模型训练:根据设置完成好超参数构建模型及训练过程,利用PytorchLightning工具对模型进行训练,保存网络训练过程中损失值、评价指标结果变化情况及最优模型权重。
12.验证分析:在训练过程中对模型在训练集、验证上各项评价指标分析模型精度和泛化能力,选取在验证集表现最佳的一轮模型(混淆矩阵如表格2所示)进行参数保存。
表格2混淆矩阵
由表格2可知,该模型在验证集准确率为89.10%,平均交并比为74.84%。各类的准确率、交并比如表格3表格所示,其中水体的分类精度为最高(准确率96.92%,交并比93.39%),道路、城镇房屋、农村房屋、农田的准确率可达90%以上、交并比82%以上,但天然草地的分类精度最低,准确率为58.95%,交并比为47.10%,由可知天然草地大部分被错分成农田,两者不能很好的进行区分。
表格3类别精度
将保存完成好的PyTorch PTH格式模型转化成ONNX格式,以方便进行高性能、跨平台推理。在测试集中进行模型推理,预测地物影像分类类别,与真实GT进行、UNet++模型(一种面向像素语义分割模型)推理结果进行对比。如图8所示,可以看出,本发明所提出的方法,能够消除面向像素语义分割模型所产生的椒盐现象,并且能够大幅度提升预测精度。
综上所述,本专利所提出的模型的效果优异。相较于全卷积语义分模型,本模型在模型效果有显著性的提升,并且可以大幅降低模型计算量与内存消耗,可达到实际实用水平,对于地震灾后地区土地利用信息解译分析提供了科学有效的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.基于动态自注意力Transformer的面向对象土地利用信息解译方法,其特征在于,包括:
S1:获取地震灾区所在区域的矢量边界以及高分辨率遥感影像,根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本图,并划分得到训练集;
S2:构建基于动态自注意力Transformer的面向对象土地利用信息解译模型,其中,该信息解译模型包括Backbone模块、Neck模块以及Head模块,Backbone模块为卷积神经网络特征提取模块,用于提取影像的纹理和边界,为三维局部特征;Neck模块为视觉Transformer特征提取模块,基于动态自注意力机制构建视觉Transformer,用于建立视觉特征的全局信息和长期依赖;Head模块为图Transformer节点聚合模块,通过构建图Transformer以聚合图节点并生成对象类别预测结果,对象类别预测结果作为面向对象土地利用信息解译结果;
S3:利用划分得到的训练集对信息解译模型进行训练,并进行超参数的设置,将得到的最优模型作为训练好的信息解译模型;
S4:利用训练好的信息解译模型对面向对象土地利用信息进行解译;
其中,步骤S2中Neck模块的计算过程包括;
将Backbone模块的三维局部特征在空间维度进行展开,转换成为二维序列;
将二维序列输入构建的视觉Transformer中,对二维序列进行升序排序,得到新的序列;
对新的序列进行线性变换得到视觉Transformer自注意力机制的查询向量,分别进行一维卷积得到视觉Transformer自注意力机制的被查向量和内容向量;
对视觉Transformer自注意力机制的查询向量、被查向量和内容向量进行注意力与残差操作、归一化处理后得到信息聚合结果;
对信息聚合结果进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的信息聚合结果;
将归一化后的信息聚合结果重新调整为原来的位置。
2.如权利要求1所述的方法,其特征在于,步骤S1中根据地震灾区所在区域的矢量边界以及高分辨率遥感影像获得样本,包括:
对获取的矢量边界以及高分辨率遥感影像,进行预处理;
根据灾区高分辨率遥感影像的目视解译结果以及国家相关土地利用分类标准,建立研究区域土地分类体系;
对预处理后的高分辨率遥感影像进行超像素分割,生成对象掩码;
根据建立好的研究区域土地分类体系,对高分辨率遥感影像以及对应的对象掩码进行人工标注,生成研究区域GT,其中,所述GT为对原始影像进行人工标注后的分类结果;
根据研究区域土地类型分布情况与网络模型需要,选取最佳切割尺度,将大幅高分辨率遥感影像拆分成不重叠的样本图,并生成样本图对应的对象掩码、对象类别以及GT。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:按照预设比例对样本图进行划分,得到训练集、验证集和测试集。
4.如权利要求1所述的方法,其特征在于,步骤S2中Backbone模块包括两个卷积层、一个池化层、两个卷积层和一个池化层。
5.如权利要求1所述的方法,其特征在于,步骤S3中Head模块的计算过程包括;
将对象平均特征作为输入,分别经过三次线性变化后得到图Transformer自注意力机制的查询向量、被查向量以及内容向量,其中每个对象为一个节点;
对图Transformer自注意力机制的查询向量、被查向量以及内容向量进行注意力与残差操作,进行各节点特征信息的聚合,得到聚合节点信息;
对聚合后的节点信息进行前馈神经网络计算与残差操作、归一化处理,得到归一化后的聚合节点信息;
对归一化处理后的聚合节点信息进行线性变换和规范化处理,将特征维度转化为分类类别数,得到节点的分类概率。
6.如权利要求2所述的方法,其特征在于,在步骤S1之后,所述方法还包括:对样本图中包含的遥感影像的各波段进行归一化,以及在训练集中对样本影像和对象掩码进行随机翻转、随机旋转操作。
7.如权利要求3所述的方法,其特征在于,所述方法还包括:在训练过程中对信息解译模型在训练集上验证各项评价指标分析模型的精度和泛化能力;在测试集中进行模型预测,与真实GT进行对比。
CN202110810082.6A 2021-07-18 2021-07-18 基于动态自注意力Transformer的面向对象土地利用信息解译方法 Active CN113591633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110810082.6A CN113591633B (zh) 2021-07-18 2021-07-18 基于动态自注意力Transformer的面向对象土地利用信息解译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110810082.6A CN113591633B (zh) 2021-07-18 2021-07-18 基于动态自注意力Transformer的面向对象土地利用信息解译方法

Publications (2)

Publication Number Publication Date
CN113591633A CN113591633A (zh) 2021-11-02
CN113591633B true CN113591633B (zh) 2024-04-30

Family

ID=78247904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110810082.6A Active CN113591633B (zh) 2021-07-18 2021-07-18 基于动态自注意力Transformer的面向对象土地利用信息解译方法

Country Status (1)

Country Link
CN (1) CN113591633B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246175B (zh) * 2023-05-05 2023-07-14 西昌学院 土地利用信息生成方法、电子设备和计算机可读介质
CN117496361B (zh) * 2024-01-02 2024-03-19 中国科学院空天信息创新研究院 面向遥感解译应用的训练推理一体机
CN117689044A (zh) * 2024-02-01 2024-03-12 厦门大学 一种适用于视觉自注意力模型的量化方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110490081A (zh) * 2019-07-22 2019-11-22 武汉理工大学 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN111767801A (zh) * 2020-06-03 2020-10-13 中国地质大学(武汉) 一种基于深度学习的遥感影像水域自动提取方法及系统
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112711661A (zh) * 2020-12-30 2021-04-27 润联智慧科技(西安)有限公司 跨语言自动摘要生成方法、装置、计算机设备及存储介质
CN112818999A (zh) * 2021-02-10 2021-05-18 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
CN112862690A (zh) * 2021-03-09 2021-05-28 湖北工业大学 一种基于Transformers的低分辨率图像超分辨方法及系统
CN113095321A (zh) * 2021-04-22 2021-07-09 武汉菲舍控制技术有限公司 一种带式输送机的滚轮轴承测温及故障预警方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110490081A (zh) * 2019-07-22 2019-11-22 武汉理工大学 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN111767801A (zh) * 2020-06-03 2020-10-13 中国地质大学(武汉) 一种基于深度学习的遥感影像水域自动提取方法及系统
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112711661A (zh) * 2020-12-30 2021-04-27 润联智慧科技(西安)有限公司 跨语言自动摘要生成方法、装置、计算机设备及存储介质
CN112818999A (zh) * 2021-02-10 2021-05-18 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
CN112862690A (zh) * 2021-03-09 2021-05-28 湖北工业大学 一种基于Transformers的低分辨率图像超分辨方法及系统
CN113095321A (zh) * 2021-04-22 2021-07-09 武汉菲舍控制技术有限公司 一种带式输送机的滚轮轴承测温及故障预警方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Knowledge and Geo-Object Based Graph Convolutional Network for Remote Sensing Semantic Segmentation;Wei Cui 等;《sensors》;20210602;第1-33页 *
基于注意力机制和神经网络结构搜索的目标检测方法研究;刘高亮;《中国优秀硕士学位论文全文数据库 信息科技辑》(第5期);第1-51页 *
高分一号遥感影像地质灾害信息提取方法研究;李启源;王明常;王凤艳;谭洋;卢立吉;;《测绘与空间地理信息》;20160225;第39卷(第2期);第17-20页 *

Also Published As

Publication number Publication date
CN113591633A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113591633B (zh) 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN111612066B (zh) 基于深度融合的卷积神经网络的遥感图像分类方法
CN108596248B (zh) 一种基于改进深度卷积神经网络的遥感影像分类方法
Zhao et al. Transfer learning with fully pretrained deep convolution networks for land-use classification
Yan et al. Graph convolutional autoencoder model for the shape coding and cognition of buildings in maps
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN113128134A (zh) 一种矿区生态环境演变驱动因子权重量化分析方法
CN109117894B (zh) 一种基于全卷积神经网络的大尺度遥感图像楼房分类方法
Du et al. Segmentation and sampling method for complex polyline generalization based on a generative adversarial network
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
Cheng et al. Building simplification using backpropagation neural networks: a combination of cartographers' expertise and raster-based local perception
CN116258976A (zh) 一种分层次Transformer的高分辨率遥感图像语义分割方法及系统
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
He et al. Remote sensing image super-resolution using deep–shallow cascaded convolutional neural networks
CN107967454B (zh) 顾及空间邻域关系的双路卷积神经网络遥感分类方法
Han et al. Enhancing remote sensing image super-resolution with efficient hybrid conditional diffusion model
CN116740344A (zh) 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置
Zaytar et al. Satellite image inpainting with deep generative adversarial neural networks
Jiao et al. A Novel Data Augmentation Method to Enhance the Training Dataset for Road Extraction from Historical Maps
CN116188993A (zh) 一种基于多任务学习的遥感图像耕地地块分割方法
Xu et al. Research on recognition of landslides with remote sensing images based on extreme learning machine
Chen et al. Recognition of the landslide disasters with extreme learning machine
Chen et al. Remote sensing image monitoring and recognition technology for the conservation of rare wild animals
Wang et al. Quantitative Evaluation of Plant and Modern Urban Landscape Spatial Scale Based on Multiscale Convolutional Neural Network
Li et al. Bisupervised network with pyramid pooling module for land cover classification of satellite remote sensing imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant