CN111582102B - 基于多模态端到端网络的遥感数据精细化分类方法及装置 - Google Patents

基于多模态端到端网络的遥感数据精细化分类方法及装置 Download PDF

Info

Publication number
CN111582102B
CN111582102B CN202010350102.1A CN202010350102A CN111582102B CN 111582102 B CN111582102 B CN 111582102B CN 202010350102 A CN202010350102 A CN 202010350102A CN 111582102 B CN111582102 B CN 111582102B
Authority
CN
China
Prior art keywords
layer
feature
feature map
layers
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010350102.1A
Other languages
English (en)
Other versions
CN111582102A (zh
Inventor
孙显
付琨
闫志远
张晓安
刁文辉
曹志颖
李霁豪
卢宛萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202010350102.1A priority Critical patent/CN111582102B/zh
Publication of CN111582102A publication Critical patent/CN111582102A/zh
Application granted granted Critical
Publication of CN111582102B publication Critical patent/CN111582102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于多模态端到端网络的遥感数据精细化分类方法及装置,包括:获取切片对应的不同尺寸缩放图;将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果;本发明提供的技术方案,主要致力于设计一种通用的端到端多源数据地物要素分类方法,其中预先建立的地物要素分类模型可以有效获取深度特征弥补光学特征的不足,提升阴影覆盖区域和光学特征相似区域的地物要素分类性能。

Description

基于多模态端到端网络的遥感数据精细化分类方法及装置
技术领域
本发明涉及遥感图像解译领域,具体涉及基于多模态端到端网络的遥感数据精细化分类方法及装置。
背景技术
遥感场景地物要素分类是遥感影像解译中重要的环节,旨在为遥感影像中每个像素点分配一个类别标签,最终形成各个分割区域互不相交的密集地物要素分类图。相比于图像级分类和目标及检测任务,地物要素分类任务能够在像素级别对遥感影像进行理解,获取除了类别、位置以外更精细的目标信息,并在环境治理、气象监测、土地规划、军事侦测、城市管理和灾害防治等诸多领域中发挥着重要的作用。随着深度学习在自然图像场景中的研究不断取得突破成就,特别是以全卷积神经网络为代表的卷积神经网络方法取得了卓越的效果,地物要素分类技术取得了长足的进步,越来越多的工作致力于进一步提升地物要素分类效果。
仅依赖可见光影像进行地物要素分类,分类结果会受到光照条件的干扰。因此,需要引入多源数据弥补光学特征的不足。现有的方法主要有以下几种:1)输入融合,在输入端直接融合多源数据;2)特征融合,在模型中间环节融合多源特征图3)集成学习,融合多个网络分类结果4)后处理融合,以后处理的方式融合多源数据特征。上述方法都存在各自的局限,方法1)简单粗暴的融合方式容易造成分类性能下降;方法2)通常利用相同特征学习模块学习不同数据,未考虑多源数据差异,造成网络参数冗余;方法3)利用多个模型,规模庞大,训练缓慢;方法4)是一种非端到端的训练方式,训练复杂,难以保证获得最优解。
此外,已有方法通常直接将自然场景地物要素分类方法移植到遥感场景,忽略了遥感场景和自然场景的差异,多尺度语义信息的提取和空间信息细节细化均不能满足遥感场景影像大图幅,背景复杂,目标尺度多等图像特性。
发明内容
针对现有技术的不足,本发明的目的是致力于设计一种通用的端到端多源数据地物要素分类方法,其中预先建立的地物要素分类模型可以有效获取深度特征弥补光学特征的不足,提升阴影覆盖区域和光学特征相似区域的地物要素分类性能。
本发明的目的是采用下述技术方案实现的:
本发明提供了基于多模态端到端网络的遥感数据精细化分类方法,其改进之处在于,所述方法包括:
对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果。
优选的,所述对遥感数据进行滑动窗切片的过程中包括:滑动窗重叠的像素为切片尺寸的0.5倍,切片尺寸为513×513像素。
优选的,所述不同尺寸包括:256×256、513×513和769×769,所述预设尺寸为513×513。
优选的,所述预先建立的地物要素分类模型的建立过程包括:
步骤1.将遥感数据集中包含红绿蓝三个图像通道的可见光数据和同一场景下的单通道DSM数据进行合并,并将合并后的四通道数据划分为训练集、验证集和测试集;
步骤2.对所述训练集和验证集进行精细化像素级人工标注;
步骤3.对训练集数据进行数据增强处理;
步骤4.将训练集数据载入网络并进行随机滑动切片,切片大小为513×513像素;
步骤5.将训练集数据中的可见光数据输入至光学特征学习模块,提取可见光特征,将DSM数据输入至深度特征学习模块,提取DSM特征;
步骤6.将所述可见光特征和DSM特征输入多尺度语义融合模块得到多尺度融合特征;
步骤7.获取所述光学特征学习模块中各阶段的输出特征,并基于所述各阶段的输出特征与所述多尺度融合特征进行多阶跳连空间细化处理,获得两个特征预测图;
步骤8.使用多路融合目标函数分别对所述两个预测特征图以及其对应人工标注图进行评估,其中,所述多路融合目标函数为两个交叉熵损失函数的加权和,权重分别为1和0.5;
步骤9.采用BP反向传播算法对步骤5-7组成的网络模型进行训练,其中,利用随机梯度下降优化算法不断更新步骤5-7组成的网络模型的参数;
步骤10.重复步骤4-9的过程,训练100轮,每5轮利用验证集验证一次步骤5-7组成的网络模型的精度,选取精度最高的模型作为所述预先建立的地物要素分类模型。
进一步的,所述步骤3包括:对训练集数据依次按照概率0.5进行水平和垂直方向的随机翻转,角度-20度到20度,步距1度的图像随机旋转操作,90度、180度、270度的固定角度随机旋转操作,以及图像尺寸0.25到4倍随机缩放操作。
进一步的,所述光学特征学习模块由Resnet101网络中4个的特征提取阶段的结构组成,其中,最后一个特征提取阶段的结构中最后两层网络的带孔率分别为3和5,最后一个特征提取阶段的结构最后增加一个积核大小为1×1,通道数为2048,步长为1的卷积层;
所述深度特征学习模块由9层卷积层组成,其中,前8层为特征提取层,均包含对应卷积、Relu激活和BN层,前8层可分为四组,每组两个3×3卷积层通道数目分别为64,128,256,512,每组第一个卷积层步长设为1,第二个卷积层步长设为2,最后一层为通道级适配层,包含一个卷积核大小为1×1,通道数为2048,步长为1的卷积层。
进一步的,所述多尺度语义融合模块包括:依次连接的第一合并连接层、第一3×3卷积层和第二3×3卷积层,所述第二3×3卷积层的输出端分别接入六组多尺度语义提取层,所述六组多尺度语义提取层的输出层接入第二合并连接层,所述第二合并连接层的输出端接入一个卷积核大小为1×1,通道数为256,步长为1的卷积层;
其中,所述第一合并连接层用于将所述可见光特征和DSM特征进行合并连接;所述第一3×3卷积层和第二3×3卷积层的通道数目分别为2048和1024,且每个卷积层后均接入Relu激活层和BN层;所述六组多尺度语义提取层中的第一组多尺度语义提取层为卷积核大小为1×1,通道数为256的卷积层;所述六组多尺度语义提取层中的第二组多尺度语义提取层包含卷积核大小为1×1,通道数为256的卷积层以及全局平均池化层;所述六组多尺度语义提取层中的第三组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为1,3;所述六组多尺度语义提取层中的第四组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为3,5;所述六组多尺度语义提取层中的第五组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为5,9;所述六组多尺度语义提取层中的第六组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为9,17;所述第二合并连接层用于将所述六组多尺度语义提取层的输出特征进行合并连接。
进一步的,所述步骤7包括:
获取所述光学特征学习模块中4个的特征提取阶段的结构的输出特征;
将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征进行二次线性差值上采样得到第一特征图,将所述光学特征学习模块中第2个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述光学特征学习模块中第2个特征提取阶段的结构的输出特征的通道数的卷积层得到第二特征图,合并所述第一特征图和第二特征图,得到2阶低层融合特征图;
将所述2阶低层融合特征图进行二次线性差值上采样得到第三特征图,将所述光学特征学习模块中第1个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述2阶低层融合特征的通道数的卷积层得到第四特征图,合并所述第三特征图和第四特征图,得到1阶低层融合特征图;
将所述1阶低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为64的卷积层,得到一个特征预测图。
将所述多尺度融合特征进行二次线性差值上采样得到3阶高层特征图,将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述多尺度融合特征的通道数的卷积得到3阶低层特征图,合并所述3阶高层特征图和3阶低层特征图得到细化后的3阶高低层融合特征图;
将所述3阶高低层融合特征图进行二次线性差值上采样得到2阶高层特征图,将所述2阶低层融合特征图经过卷积核大小为1×1,通道数等于所述3阶高低层融合特征图的通道数的卷积得到2阶低层特征图,合并所述2阶高层特征图和2阶低层特征图得到细化后的2阶高低层融合特征图;
将所述2阶高低层融合特征图进行二次线性差值上采样得到1阶高层特征图,将所述1阶低层融合特征图经过卷积核大小为1×1,通道数等于所述2阶高低层融合特征图的通道数的卷积得到1阶低层特征图,合并所述1阶高层特征图和1阶低层特征图得到细化后的1阶高低层融合特征图;
将所述1阶高低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为预设类别数的卷积层,得到另一个特征预测图;
进一步的,所述预设类别数为6。
基于同一思路本发明还提供了基于多模态端到端网络的遥感数据精细化分类装置,其改进之处在于,所述装置包括:
预处理模块,用于对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
分类模块,用于将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
缩放模块,用于将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
拼接模块,用于将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果。
与最接近的现有技术相比,本发明具有的有益效果:
本发明提供的技术方案,获取切片对应的不同尺寸缩放图;将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果,相比输入融合的方法,对多源数据进行各自特征的预提取,有效提取了语义特征,减少噪声干扰;相比于特征融合双路提取网络的方法,本发明的预先建立的地物要素分类模型根据不同数据源分别设计了特征学习模块,减少了参数量和冗余特征;相比于集成学习的方式,本发明大大减少了模型规模和参数量,提高算法推理速度;相比于后处理融合方法,本发明端到端的结构简化了训练流程,缩短了训练周期。
进一步的,本发明提出的预先建立的地物要素分类模型中的深度特征学习模块能够有效提取DSM数据高程特征,改善光学特征在阴影区域和颜色纹理相似区域的分类区分度。所述深度特征学习模块结构简单,可移植性高,无需在大规模数据集上进行参数的预训练。
本发明提出的预先建立的地物要素分类模型中的多尺度语义融合模块相比于已有的方法提高了上下文信息感受范围,增加了上下文信息尺度,更适用于目标尺度多变的遥感场景,级联带孔卷积的方式同时可以有效防止栅格效应的产生。
本发明提出的预先建立的地物要素分类模型中的多阶跳连空间细化模块相比于已有简单U型上采样网络引入了多阶特征进行复合U型上采样,有益于反向传播过程中梯度在低层网络的流动,增加了网络空间信息的表达能力。
附图说明
图1是本发明提供的基于多模态端到端网络的遥感数据精细化分类方法流程图;
图2是本发明实施例中深度特征学习模块结构示意图;
图3是本发明实施例中多尺度语义融合模块结构示意图;
图4是本发明实施例中多阶跳连空间细化模块结构示意图;
图5是本发明提供的基于多模态端到端网络的遥感数据精细化分类装置结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有技术中所存在的多源数据特征融合以及遥感场景语义空间信息提取等问题,本发明提供了基于多模态端到端网络的遥感数据精细化分类方法,如图1所示,所述方法包括:
101对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
102将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
103将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
104将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果。
具体的,所述对遥感数据进行滑动窗切片的过程中包括:滑动窗重叠的像素为切片尺寸的0.5倍,切片尺寸为513×513像素。
其中,所述不同尺寸包括:256×256、513×513和769×769,所述预设尺寸为513×513。
本发明提供的最优实施例中,所述预先建立的地物要素分类模型的建立过程包括:
步骤1.将遥感数据集中包含红绿蓝三个图像通道的可见光数据和同一场景下的单通道DSM数据进行合并,并将合并后的四通道数据划分为训练集、验证集和测试集;
步骤2.对所述训练集和验证集进行精细化像素级人工标注;
步骤3.对训练集数据进行数据增强处理;
步骤4.将训练集数据载入网络并进行随机滑动切片,切片大小为513×513像素;
步骤5.将训练集数据中的可见光数据输入至光学特征学习模块,提取可见光特征,将DSM数据输入至深度特征学习模块,提取DSM特征;
步骤6.将所述可见光特征和DSM特征输入多尺度语义融合模块得到多尺度融合特征;
步骤7.获取所述光学特征学习模块中各阶段的输出特征,并基于所述各阶段的输出特征与所述多尺度融合特征进行多阶跳连空间细化处理,获得两个特征预测图;
步骤8.使用多路融合目标函数分别对所述两个预测特征图以及其对应人工标注图进行评估,其中,所述多路融合目标函数为两个交叉熵损失函数的加权和,权重分别为1和0.5;
步骤9.采用BP反向传播算法对步骤5-7组成的网络模型进行训练,其中,利用随机梯度下降优化算法不断更新步骤5-7组成的网络模型的参数;
步骤10.重复步骤4-9的过程,训练100轮,每5轮利用验证集验证一次步骤5-7组成的网络模型的精度,选取精度最高的模型作为所述预先建立的地物要素分类模型。
进一步的,所述步骤3包括:对训练集数据依次按照概率0.5进行水平和垂直方向的随机翻转,角度-20度到20度,步距1度的图像随机旋转操作,90度、180度、270度的固定角度随机旋转操作,以及图像尺寸0.25到4倍随机缩放操作。
进一步的,所述光学特征学习模块由Resnet101网络中4个的特征提取阶段的结构组成,其中,最后一个特征提取阶段的结构中最后两层网络的带孔率分别为3和5,最后一个特征提取阶段的结构最后增加一个积核大小为1×1,通道数为2048,步长为1的卷积层;
如图2所示,所述深度特征学习模块由9层卷积层组成,其中,前8层为特征提取层,均包含对应卷积、Relu激活和BN层,前8层可分为四组,每组两个3×3卷积层通道数目分别为64,128,256,512,每组第一个卷积层步长设为1,第二个卷积层步长设为2,最后一层为通道级适配层,包含一个卷积核大小为1×1,通道数为2048,步长为1的卷积层。
本发明提出的深度特征学习模块能够有效提取DSM数据高程特征,改善光学特征在阴影区域和颜色纹理相似区域的分类区分度。所述深度特征学习模块结构简单,可移植性高,无需在大规模数据集上进行参数的预训练。
如图3所示,所述多尺度语义融合模块包括:依次连接的第一合并连接层、第一3×3卷积层和第二3×3卷积层,所述第二3×3卷积层的输出端分别接入六组多尺度语义提取层,所述六组多尺度语义提取层的输出层接入第二合并连接层,所述第二合并连接层的输出端接入一个卷积核大小为1×1,通道数为256,步长为1的卷积层;
其中,所述第一合并连接层用于将所述可见光特征和DSM特征进行合并连接;所述第一3×3卷积层和第二3×3卷积层的通道数目分别为2048和1024,且每个卷积层后均接入Relu激活层和BN层;所述六组多尺度语义提取层中的第一组多尺度语义提取层为卷积核大小为1×1,通道数为256的卷积层;所述六组多尺度语义提取层中的第二组多尺度语义提取层包含卷积核大小为1×1,通道数为256的卷积层以及全局平均池化层;所述六组多尺度语义提取层中的第三组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为1,3;所述六组多尺度语义提取层中的第四组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为3,5;所述六组多尺度语义提取层中的第五组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为5,9;所述六组多尺度语义提取层中的第六组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为9,17;所述第二合并连接层用于将所述六组多尺度语义提取层的输出特征进行合并连接。
本发明提出的多尺度语义融合模块相比于已有的方法提高了上下文信息感受范围,增加了上下文信息尺度,更适用于目标尺度多变的遥感场景,级联带孔卷积的方式同时可以有效防止栅格效应的产生。
进一步的,所述步骤7包括:
获取所述光学特征学习模块中4个的特征提取阶段的结构的输出特征;
将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征进行二次线性差值上采样得到第一特征图,将所述光学特征学习模块中第2个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述光学特征学习模块中第2个特征提取阶段的结构的输出特征的通道数的卷积层得到第二特征图,合并所述第一特征图和第二特征图,得到2阶低层融合特征图;
将所述2阶低层融合特征图进行二次线性差值上采样得到第三特征图,将所述光学特征学习模块中第1个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述2阶低层融合特征的通道数的卷积层得到第四特征图,合并所述第三特征图和第四特征图,得到1阶低层融合特征图;
将所述1阶低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为64的卷积层,得到一个特征预测图。
将所述多尺度融合特征进行二次线性差值上采样得到3阶高层特征图,将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述多尺度融合特征的通道数的卷积得到3阶低层特征图,合并所述3阶高层特征图和3阶低层特征图得到细化后的3阶高低层融合特征图;
将所述3阶高低层融合特征图进行二次线性差值上采样得到2阶高层特征图,将所述2阶低层融合特征图经过卷积核大小为1×1,通道数等于所述3阶高低层融合特征图的通道数的卷积得到2阶低层特征图,合并所述2阶高层特征图和2阶低层特征图得到细化后的2阶高低层融合特征图;
将所述2阶高低层融合特征图进行二次线性差值上采样得到1阶高层特征图,将所述1阶低层融合特征图经过卷积核大小为1×1,通道数等于所述2阶高低层融合特征图的通道数的卷积得到1阶低层特征图,合并所述1阶高层特征图和1阶低层特征图得到细化后的1阶高低层融合特征图;
将所述1阶高低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为预设类别数的卷积层,得到另一个特征预测图;
其中,所述预设类别数为6;
如图4所示,多阶跳连空间细化处理过程仅引入可见光数据特征进行空间细化,并在可见光8倍降采样后特征和高层多尺度特征分别进行逐层2倍上采样,同时在上采样过程中引入对应降采样倍率的低层可见光特征。
本发明提出的多阶跳连空间细化模块相比于已有简单U型上采样网络引入了多阶特征进行复合U型上采样,有益于反向传播过程中梯度在低层网络的流动,增加了网络空间信息的表达能力。
基于同一思路本发明还提供了基于多模态端到端网络的遥感数据精细化分类装置,如图5所示,所述装置包括:
预处理模块,用于对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
分类模块,用于将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
缩放模块,用于将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
拼接模块,用于将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果。
具体的,所述对遥感数据进行滑动窗切片的过程中包括:滑动窗重叠的像素为切片尺寸的0.5倍,切片尺寸为513×513像素。
其中,所述不同尺寸包括:256×256、513×513和769×769,所述预设尺寸为513×513。
所述预先建立的地物要素分类模型的建立过程包括:
步骤1.将遥感数据集中包含红绿蓝三个图像通道的可见光数据和同一场景下的单通道DSM数据进行合并,并将合并后的四通道数据划分为训练集、验证集和测试集;
步骤2.对所述训练集和验证集进行精细化像素级人工标注;
步骤3.对训练集数据进行数据增强处理;
步骤4.将训练集数据载入网络并进行随机滑动切片,切片大小为513×513像素;
步骤5.将训练集数据中的可见光数据输入至光学特征学习模块,提取可见光特征,将DSM数据输入至深度特征学习模块,提取DSM特征;
步骤6.将所述可见光特征和DSM特征输入多尺度语义融合模块得到多尺度融合特征;
步骤7.获取所述光学特征学习模块中各阶段的输出特征,并基于所述各阶段的输出特征与所述多尺度融合特征进行多阶跳连空间细化处理,获得两个特征预测图;
步骤8.使用多路融合目标函数分别对所述两个预测特征图以及其对应人工标注图进行评估,其中,所述多路融合目标函数为两个交叉熵损失函数的加权和,权重分别为1和0.5;
步骤9.采用BP反向传播算法对步骤5-7组成的网络模型进行训练,其中,利用随机梯度下降优化算法不断更新步骤5-7组成的网络模型的参数;
步骤10.重复步骤4-9的过程,训练100轮,每5轮利用验证集验证一次步骤5-7组成的网络模型的精度,选取精度最高的模型作为所述预先建立的地物要素分类模型。
所述步骤3包括:对训练集数据依次按照概率0.5进行水平和垂直方向的随机翻转,角度-20度到20度,步距1度的图像随机旋转操作,90度、180度、270度的固定角度随机旋转操作,以及图像尺寸0.25到4倍随机缩放操作。
所述光学特征学习模块由Resnet101网络中4个的特征提取阶段的结构组成,其中,最后一个特征提取阶段的结构中最后两层网络的带孔率分别为3和5,最后一个特征提取阶段的结构最后增加一个积核大小为1×1,通道数为2048,步长为1的卷积层;
所述深度特征学习模块由9层卷积层组成,其中,前8层为特征提取层,均包含对应卷积、Relu激活和BN层,前8层可分为四组,每组两个3×3卷积层通道数目分别为64,128,256,512,每组第一个卷积层步长设为1,第二个卷积层步长设为2,最后一层为通道级适配层,包含一个卷积核大小为1×1,通道数为2048,步长为1的卷积层。
所述多尺度语义融合模块包括:依次连接的第一合并连接层、第一3×3卷积层和第二3×3卷积层,所述第二3×3卷积层的输出端分别接入六组多尺度语义提取层,所述六组多尺度语义提取层的输出层接入第二合并连接层,所述第二合并连接层的输出端接入一个卷积核大小为1×1,通道数为256,步长为1的卷积层;
其中,所述第一合并连接层用于将所述可见光特征和DSM特征进行合并连接;所述第一3×3卷积层和第二3×3卷积层的通道数目分别为2048和1024,且每个卷积层后均接入Relu激活层和BN层;所述六组多尺度语义提取层中的第一组多尺度语义提取层为卷积核大小为1×1,通道数为256的卷积层;所述六组多尺度语义提取层中的第二组多尺度语义提取层包含卷积核大小为1×1,通道数为256的卷积层以及全局平均池化层;所述六组多尺度语义提取层中的第三组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为1,3;所述六组多尺度语义提取层中的第四组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为3,5;所述六组多尺度语义提取层中的第五组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为5,9;所述六组多尺度语义提取层中的第六组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为9,17;所述第二合并连接层用于将所述六组多尺度语义提取层的输出特征进行合并连接。
所述步骤7包括:
获取所述光学特征学习模块中4个的特征提取阶段的结构的输出特征;
将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征进行二次线性差值上采样得到第一特征图,将所述光学特征学习模块中第2个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述光学特征学习模块中第2个特征提取阶段的结构的输出特征的通道数的卷积层得到第二特征图,合并所述第一特征图和第二特征图,得到2阶低层融合特征图;
将所述2阶低层融合特征图进行二次线性差值上采样得到第三特征图,将所述光学特征学习模块中第1个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述2阶低层融合特征的通道数的卷积层得到第四特征图,合并所述第三特征图和第四特征图,得到1阶低层融合特征图;
将所述1阶低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为64的卷积层,得到一个特征预测图。
将所述多尺度融合特征进行二次线性差值上采样得到3阶高层特征图,将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述多尺度融合特征的通道数的卷积得到3阶低层特征图,合并所述3阶高层特征图和3阶低层特征图得到细化后的3阶高低层融合特征图;
将所述3阶高低层融合特征图进行二次线性差值上采样得到2阶高层特征图,将所述2阶低层融合特征图经过卷积核大小为1×1,通道数等于所述3阶高低层融合特征图的通道数的卷积得到2阶低层特征图,合并所述2阶高层特征图和2阶低层特征图得到细化后的2阶高低层融合特征图;
将所述2阶高低层融合特征图进行二次线性差值上采样得到1阶高层特征图,将所述1阶低层融合特征图经过卷积核大小为1×1,通道数等于所述2阶高低层融合特征图的通道数的卷积得到1阶低层特征图,合并所述1阶高层特征图和1阶低层特征图得到细化后的1阶高低层融合特征图;
将所述1阶高低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为预设类别数的卷积层,得到另一个特征预测图;
其中,所述预设类别数为6。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (9)

1.基于多模态端到端网络的遥感数据精细化分类方法,其特征在于,所述方法包括:
对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果;
所述预先建立的地物要素分类模型的建立过程包括:
步骤1.将遥感数据集中包含红绿蓝三个图像通道的可见光数据和同一场景下的单通道DSM数据进行合并,并将合并后的四通道数据划分为训练集、验证集和测试集;
步骤2.对所述训练集和验证集进行精细化像素级人工标注;
步骤3.对训练集数据进行数据增强处理;
步骤4.将训练集数据载入网络并进行随机滑动切片,切片大小为513×513像素;
步骤5.将训练集数据中的可见光数据输入至光学特征学习模块,提取可见光特征,将DSM数据输入至深度特征学习模块,提取DSM特征;
步骤6.将所述可见光特征和DSM特征输入多尺度语义融合模块得到多尺度融合特征;
步骤7.获取所述光学特征学习模块中各阶段的输出特征,并基于所述各阶段的输出特征与所述多尺度融合特征进行多阶跳连空间细化处理,获得两个特征预测图;
步骤8.使用多路融合目标函数分别对所述两个特征预测图以及其对应人工标注图进行评估,其中,所述多路融合目标函数为两个交叉熵损失函数的加权和,权重分别为1和0.5;
步骤9.采用BP反向传播算法对步骤5-7组成的网络模型进行训练,其中,利用随机梯度下降优化算法不断更新步骤5-7组成的网络模型的参数;
步骤10.重复步骤4-9的过程,训练100轮,每5轮利用验证集验证一次步骤5-7组成的网络模型的精度,选取精度最高的模型作为所述预先建立的地物要素分类模型。
2.如权利要求1所述的方法,其特征在于,所述对遥感数据进行滑动窗切片的过程中包括:滑动窗重叠的像素为切片尺寸的0.5倍,切片尺寸为513×513像素。
3.如权利要求1所述的方法,其特征在于,所述不同尺寸包括:256×256、513×513和769×769,所述预设尺寸为513×513。
4.如权利要求1所述的方法,其特征在于,所述步骤3包括:对训练集数据依次按照概率0.5进行水平和垂直方向的随机翻转,角度-20度到20度,步距1度的图像随机旋转操作,90度、180度、270度的固定角度随机旋转操作,以及图像尺寸0.25到4倍随机缩放操作。
5.如权利要求1所述的方法,其特征在于,所述光学特征学习模块由Resnet101网络中4个的特征提取阶段的结构组成,其中,最后一个特征提取阶段的结构中最后两层网络的带孔率分别为3和5,最后一个特征提取阶段的结构最后增加一个积核大小为1×1,通道数为2048,步长为1的卷积层;
所述深度特征学习模块由9层卷积层组成,其中,前8层为特征提取层,均包含对应卷积、Relu激活和BN层,前8层可分为四组,每组两个3×3卷积层通道数目分别为64,128,256,512,每组第一个卷积层步长设为1,第二个卷积层步长设为2,最后一层为通道级适配层,包含一个卷积核大小为1×1,通道数为2048,步长为1的卷积层。
6.如权利要求1所述的方法,其特征在于,所述多尺度语义融合模块包括:依次连接的第一合并连接层、第一3×3卷积层和第二3×3卷积层,所述第二3×3卷积层的输出端分别接入六组多尺度语义提取层,所述六组多尺度语义提取层的输出层接入第二合并连接层,所述第二合并连接层的输出端接入一个卷积核大小为1×1,通道数为256,步长为1的卷积层;
其中,所述第一合并连接层用于将所述可见光特征和DSM特征进行合并连接;所述第一3×3卷积层和第二3×3卷积层的通道数目分别为2048和1024,且每个卷积层后均接入Relu激活层和BN层;所述六组多尺度语义提取层中的第一组多尺度语义提取层为卷积核大小为1×1,通道数为256的卷积层;所述六组多尺度语义提取层中的第二组多尺度语义提取层包含卷积核大小为1×1,通道数为256的卷积层以及全局平均池化层;所述六组多尺度语义提取层中的第三组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为1,3;所述六组多尺度语义提取层中的第四组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为3,5;所述六组多尺度语义提取层中的第五组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为5,9;所述六组多尺度语义提取层中的第六组多尺度语义提取层包含两个卷积层,卷积核大小为1×1,通道数为256,带孔率分别为9,17;所述第二合并连接层用于将所述六组多尺度语义提取层的输出特征进行合并连接。
7.如权利要求5所述的方法,其特征在于,所述步骤7包括:
获取所述光学特征学习模块中4个的特征提取阶段的结构的输出特征;
将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征进行二次线性差值上采样得到第一特征图,将所述光学特征学习模块中第2个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述光学特征学习模块中第2个特征提取阶段的结构的输出特征的通道数的卷积层得到第二特征图,合并所述第一特征图和第二特征图,得到2阶低层融合特征图;
将所述2阶低层融合特征图进行二次线性差值上采样得到第三特征图,将所述光学特征学习模块中第1个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述2阶低层融合特征的通道数的卷积层得到第四特征图,合并所述第三特征图和第四特征图,得到1阶低层融合特征图;
将所述1阶低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为64的卷积层,得到一个特征预测图;
将所述多尺度融合特征进行二次线性差值上采样得到3阶高层特征图,将所述光学特征学习模块中第3个特征提取阶段的结构的输出特征经过卷积核大小为1×1,通道数等于所述多尺度融合特征的通道数的卷积得到3阶低层特征图,合并所述3阶高层特征图和3阶低层特征图得到细化后的3阶高低层融合特征图;
将所述3阶高低层融合特征图进行二次线性差值上采样得到2阶高层特征图,将所述2阶低层融合特征图经过卷积核大小为1×1,通道数等于所述3阶高低层融合特征图的通道数的卷积得到2阶低层特征图,合并所述2阶高层特征图和2阶低层特征图得到细化后的2阶高低层融合特征图;
将所述2阶高低层融合特征图进行二次线性差值上采样得到1阶高层特征图,将所述1阶低层融合特征图经过卷积核大小为1×1,通道数等于所述2阶高低层融合特征图的通道数的卷积得到1阶低层特征图,合并所述1阶高层特征图和1阶低层特征图得到细化后的1阶高低层融合特征图;
将所述1阶高低层融合特征图上采样到513*513大小,输入两个卷积核大小为1×1,通道数为预设类别数的卷积层,得到另一个特征预测图。
8.如权利要求7所述的方法,其特征在于,所述预设类别数为6。
9.基于多模态端到端网络的遥感数据精细化分类装置,其特征在于,所述装置包括:
预处理模块,用于对遥感数据进行滑动窗切片,并对切片进行不同尺寸的缩放,获取切片对应的不同尺寸缩放图;
分类模块,用于将切片对应的不同尺寸缩放图分别输入至预先建立的地物要素分类模型,获取预先建立的地物要素分类模型输出的切片对应的不同尺寸缩放图的分类结果;
缩放模块,用于将切片对应的不同尺寸缩放图的分类结果均缩放至预设尺寸并求均值,获取切片的分类结果;
拼接模块,用于将各切片的分类结果进行拼接,获取遥感数据的地物要素分类结果。
CN202010350102.1A 2020-04-28 2020-04-28 基于多模态端到端网络的遥感数据精细化分类方法及装置 Active CN111582102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350102.1A CN111582102B (zh) 2020-04-28 2020-04-28 基于多模态端到端网络的遥感数据精细化分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350102.1A CN111582102B (zh) 2020-04-28 2020-04-28 基于多模态端到端网络的遥感数据精细化分类方法及装置

Publications (2)

Publication Number Publication Date
CN111582102A CN111582102A (zh) 2020-08-25
CN111582102B true CN111582102B (zh) 2020-12-29

Family

ID=72113134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350102.1A Active CN111582102B (zh) 2020-04-28 2020-04-28 基于多模态端到端网络的遥感数据精细化分类方法及装置

Country Status (1)

Country Link
CN (1) CN111582102B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949413B (zh) * 2021-02-04 2021-11-02 北京大学 基于街景图片的城市景观要素分类及地方性度量方法
CN112991263B (zh) * 2021-02-06 2022-07-22 杭州迪英加科技有限公司 用于提升pd-l1免疫组化病理切片tps计算准确度的方法及设备
CN113887515A (zh) * 2021-10-28 2022-01-04 中国自然资源航空物探遥感中心 一种基于卷积神经网络的遥感滑坡识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110781325A (zh) * 2019-10-21 2020-02-11 武汉大学 一种高分辨率遥感数据格网精细化管理模型及其构建方法
CN110781775A (zh) * 2019-10-10 2020-02-11 武汉大学 一种多尺度特征支持的遥感影像水体信息精确分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109001780B (zh) * 2018-06-22 2022-10-28 航天恒星科技有限公司 一种自适应的sar卫星海面舰船目标在轨检测方法
CN109544579A (zh) * 2018-11-01 2019-03-29 上海理工大学 一种利用无人机进行灾后损毁建筑物评估的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110781775A (zh) * 2019-10-10 2020-02-11 武汉大学 一种多尺度特征支持的遥感影像水体信息精确分割方法
CN110781325A (zh) * 2019-10-21 2020-02-11 武汉大学 一种高分辨率遥感数据格网精细化管理模型及其构建方法

Also Published As

Publication number Publication date
CN111582102A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582102B (zh) 基于多模态端到端网络的遥感数据精细化分类方法及装置
CN111723732B (zh) 一种光学遥感图像变化检测方法、存储介质及计算设备
CN112084923B (zh) 一种遥感图像语义分割方法、存储介质及计算设备
CN109784283B (zh) 基于场景识别任务下的遥感图像目标提取方法
CN112861729B (zh) 一种基于伪深度图引导的实时深度补全方法
CN111914924B (zh) 一种快速舰船目标检测方法、存储介质及计算设备
CN117078943B (zh) 融合多尺度特征和双注意力机制的遥感影像道路分割方法
CN113469074B (zh) 基于孪生注意力融合网络的遥感图像变化检测方法及系统
CN109410144A (zh) 一种基于深度学习的端到端图像去雾处理方法
Dotel et al. Disaster assessment from satellite imagery by analysing topographical features using deep learning
CN113569672A (zh) 轻量级目标检测与故障识别方法、装置及系统
CN112734739A (zh) 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法
CN115661505A (zh) 一种语义感知的图像阴影检测方法
CN116206104A (zh) 用于工业外观缺陷检测的人工智能分割分类算法
CN110633633B (zh) 一种基于自适应阈值的遥感影像道路提取方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN111179272A (zh) 一种面向道路场景的快速语义分割方法
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN117036941A (zh) 一种基于孪生Unet模型的建筑物变化检测方法及系统
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN116665040A (zh) 基于注意力机制的多尺度输入输出的建筑物变化检测方法
CN116596851A (zh) 一种基于知识蒸馏和异常模拟的工业瑕疵检测方法
CN114414090B (zh) 基于遥感影像和多层感知的地表温度预测方法及系统
CN112348042B (zh) 一种基于改进YOLOv3的红外目标检测方法
CN112488015B (zh) 面向智慧工地的目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant