CN110796105A - 一种基于多模态数据融合的遥感图像语义分割方法 - Google Patents

一种基于多模态数据融合的遥感图像语义分割方法 Download PDF

Info

Publication number
CN110796105A
CN110796105A CN201911064946.3A CN201911064946A CN110796105A CN 110796105 A CN110796105 A CN 110796105A CN 201911064946 A CN201911064946 A CN 201911064946A CN 110796105 A CN110796105 A CN 110796105A
Authority
CN
China
Prior art keywords
semantic segmentation
remote sensing
double
function
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911064946.3A
Other languages
English (en)
Inventor
周勇
杨劲松
赵佳琦
夏士雄
姚睿
刘兵
杜文亮
王秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201911064946.3A priority Critical patent/CN110796105A/zh
Publication of CN110796105A publication Critical patent/CN110796105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态数据融合的遥感图像语义分割方法,属于计算机视觉领域。具体实现:1)使用遥感图像多模态数据集,包括遥感图像及对应的深度图构建双流的语义分割网络:2)分别对输入图像提取不同尺度的特征,将获取的特征进行多层的特征融合;3)使用注意力机制对网络解码器部分的输入特征与编码器特征进行丰富语义信息的提取,关注相似的像素点。本发明利用多模态的遥感数据集,结合双流网络结构,融合提取的特征,并使用注意力机制关注融合特征与解码特征,从而优化模型性能。

Description

一种基于多模态数据融合的遥感图像语义分割方法
技术领域
本发明涉及遥感图像处理技术,尤其涉及一种基于多模态数据融合的遥感图像语义分割方法。
背景技术
遥感是一种非接触、远距离的探测技术。一般来说,它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展,特别是近年来高分辨率遥感影像的出现,这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大,影像内容提供的信息也越来越丰富。
图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素,所以这个任务通常被称为密集预测。值得注意的是,与之前的赋值不同,语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同),其中每个像素被分类为一个特定的类。
目前,语义分割是计算机视觉的关键问题之一。在宏观意义上,语义分割是一项高层次的工作,它为场景理解铺平了道路。作为计算机视觉的核心问题,场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术,解决了这些问题。尽管这些方法普遍存在,但深度学习的革命已经在相关领域发生了巨大的变化。因此,许多计算机视觉问题,包括语义分割,开始使用深度结构来解决,通常是卷积神经网络cnn,这比传统方法更准确和高效。
随着传感器技术的飞速发展,人们对利用深度信息进行语义分割产生了浓厚的兴趣。深度数据变得广泛,因为它很容易被捕获。毫无疑问,深度信息可以改善分割,因为它捕获的几何信息不是通过颜色通道获得的。在中,深度数据作为除了rgb通道作为输入之外的第四个通道添加到网络中。这种直接的分割方法提高了分割性能。
尽管深度数据有助于从场景中分离对象,但它的语义信息比颜色少得多。此外,深度和颜色通道之间的相关性很小,这促使更好的方法使用深度来增强语义分割。
此外,现有的基于遥感图像的语义分割仍存在以下问题:
(1)遥感数据集中各类图像在角度、颜色、大小等方面存在显著差异,类间也存在实质性的相似性。例如,遥感图像类别之间的边缘区分是不可见的,比如树木和建筑物的阴影会产生遮挡问题。而遥感图像中存在着大量的建筑物、树木等小目标。从现有的深度学习模型中学习鲁棒特征表示提出了新的挑战,这是提高遥感图像语义分割精度的关键。
(2)随着传感器技术的发展,遥感图像的其他数据采集在语义分割中没有得到充分的利用。
(3)现有的语义分割方法在大范围遥感图像小目标特征提取方面存在一些不足。这使得有效提取遥感图像中小目标的特征信息成为可能。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多模态数据融合的遥感图像语义分割方法,该方法基于RGB图和深度图的双流语义分割网络,提取不同尺度的深度图特征,融合深度特征和RGB特征,使用注意力关注相似的像素,以优化网络的分割性能。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多模态数据融合的遥感图像语义分割方法,包括如下步骤:
(1)构建双流语义分割网络,包括如下步骤:
(11)构建双流语义分割网络的特征提取器;
(12)引入多层特征融合;
(13)构建双流语义分割的解码器,并引入注意力机制,形成双流语义分割网络;
(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:
(21)构建数据集;
(22)进行双流语义分割网络训练;
(3)运行双流语义分割网络。
优选的,所述步骤(11),具体包括如下:
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
优选的,所述步骤(12),具体包括如下:
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1;
(122)进行第一次特征融合R1=D1+F1;
(123)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;
(124)进行第二次特征融合R2=D2+F2;
(125)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;
(126)进行第三次特征融合R3=D3+F3;
(127)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;
(128)进行第四次特征融合R4=D4+F4;
(129)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;
(130)进行第五次特征融合R5=D5+F5。
优选的,所述步骤(13),具体包括如下:
(131)将步骤(130)得到的融合特征R5进行反卷积得到U5;
(132)计算注意力机制A4=f(R4,U5)=ω3(relu(ω1(R4)+ω2(U5)))×U5,其中:ω1、ω2和ω3为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5;
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4;
(135)将步骤(128)中得到的Y4进行反卷积得到U4;
(136)计算注意力机制A3=f(R3,U4)=ω3(relu(ω1(R3)+ω2(U4)))×U4;
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4;
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3;
(139)将步骤(126)中得到的Y3进行反卷积得到U3;
(140)计算注意力机制A2=f(R2,U3)=ω3(relu(ω1(R2)+ω2(U3)))×U3;
(141)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3;
(142)使用upconv(·)函数计算C2,得到维度减半的张量Y2;
(143)将步骤(124)中得到的Y2进行反卷积得到U2;
(144)计算注意力机制A1=f(R1,U2)=ω3(relu(ω1(R1)+ω2(U2)))×U2;
(145)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2;
(146)使用upconv(·)函数计算C1,得到维度减半的张量Y1。
优选的,所述步骤(21),具体包括如下:
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成训练集样本集。
优选的,所述步骤(22),具体包括如下:
(221)训练集样本包括裁剪后的相对应的深度图、RGB图和标签图;
(222)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1;
(223)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(224)使用亚当优化算法(Adam优化算法)减小步骤(223)得到的误差,计算当前双流语义分割网络的MIoU指标;
(225)更新双流语义分割网络的卷积权重参数,返回步骤(222),直至达到设定循环次数;
(226)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
优选的,所述步骤(134)中,upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。
优选的,所述步骤(223)中,损失函数为优化的子模损失函数(即LovaszSoftmax函数,基于Lovasz扩展的子模集合函数),具体为:
Figure BDA0002259023740000051
Figure BDA0002259023740000052
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数(Jaccard相似系数),ΔJc表示杰卡德损失(Jaccardloss),
Figure BDA0002259023740000054
表示使用mi(c)构造ΔJc的代替函数。
优选的,所述步骤(22)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure BDA0002259023740000053
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
有益效果:本发明提供的基于多模态数据融合的遥感图像语义分割方法,可以有效利用采集到的遥感图像其他模态数据,将单模态的RGB图像语义分割与深度图相结合,利用深度图的特征来约束优化RGB图像的图像,可以解决遥感图像类与类的边缘区分不明显问题;引入的注意力机制可以有效注意遥感图像中小目标的相似像素点从而优化分割性能。
附图说明
图1为本发明的网络结构图;
图2为本发明的步骤图。
具体实施方式
下面结合附图对本发明的技术方案作更进一步的说明。
参照图1,本发明的具体步骤如下:
步骤一、搭建双流语义分割网络
(11)构建双流语义分割网络的特征提取器
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
(12)引入多层特征融合
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1;
(122)进行第一次特征融合R1=D1+F1;
(123)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;
(124)进行第二次特征融合R2=D2+F2;
(125)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;
(126)进行第三次特征融合R3=D3+F3;
(127)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;
(128)进行第四次特征融合R4=D4+F4;
(129)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;
(130)进行第五次特征融合R5=D5+F5。
(13)构建双流语义分割的解码器,并引入注意力机制,形成双流语义分割网络
(131)将步骤(130)得到的融合特征R5进行反卷积得到U5;
(132)计算注意力机制A4=f(R4,U5)=ω3(relu(ω1(R4)+ω2(U5)))×U5,其中:ω1、ω2和ω3为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5;
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4;
(135)将步骤(128)中得到的Y4进行反卷积得到U4;
(136)计算注意力机制A3=f(R3,U4)=ω3(relu(ω1(R3)+ω2(U4)))×U4;
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4;
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3;
(139)将步骤(126)中得到的Y3进行反卷积得到U3;
(140)计算注意力机制A2=f(R2,U3)=ω3(relu(ω1(R2)+ω2(U3)))×U3;
(141)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3;
(142)使用upconv(·)函数计算C2,得到维度减半的张量Y2;
(143)将步骤(124)中得到的Y2进行反卷积得到U2;
(144)计算注意力机制A1=f(R1,U2)=ω3(relu(ω1(R1)+ω2(U2)))×U2;
(145)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2;
(146)使用upconv(·)函数计算C1,得到维度减半的张量Y1。
步骤二、构建数据集并进行双流语义分割网络训练
(21)构建数据集;
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成训练集样本集。
(22)进行双流语义分割网络训练;
(221)训练集样本包括裁剪后的相对应的深度图、RGB图和标签图;
(222)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1;
(223)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(224)使用亚当优化算法(Adam优化算法)减小步骤(223)得到的误差,计算当前双流语义分割网络的MIoU指标;
(225)更新双流语义分割网络的卷积权重参数,返回步骤(222),直至达到设定循环次数;
(226)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
所述步骤(223)中,损失函数为优化的子模损失函数(即LovaszSoftmax函数,基于Lovasz扩展的子模集合函数),具体为:
Figure BDA0002259023740000082
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数(Jaccard相似系数),ΔJc表示杰卡德损失(Jaccardloss),
Figure BDA0002259023740000084
表示使用mi(c)构造ΔJc的代替函数。
所述步骤(22)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure BDA0002259023740000083
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
步骤三、运行双流语义分割网络。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于多模态数据融合的遥感图像语义分割方法,其特征在于:包括如下步骤:
(1)构建双流语义分割网络,包括如下步骤:
(11)构建双流语义分割网络的特征提取器;
(12)引入多层特征融合;
(13)构建双流语义分割的解码器,并引入注意力机制,形成双流语义分割网络;
(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:
(21)构建数据集;
(22)进行双流语义分割网络训练;
(3)运行双流语义分割网络。
2.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(11),具体包括如下:
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。
3.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(12),具体包括如下:
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1;
(122)进行第一次特征融合R1=D1+F1;
(123)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;
(124)进行第二次特征融合R2=D2+F2;
(125)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;
(126)进行第三次特征融合R3=D3+F3;
(127)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;
(128)进行第四次特征融合R4=D4+F4;
(129)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;
(130)进行第五次特征融合R5=D5+F5。
4.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(13),具体包括如下:
(131)将步骤(130)得到的融合特征R5进行反卷积得到U5;
(132)计算注意力机制A4=f(R4,U5)=ω3(relu(ω1(R4)+ω2(U5)))×U5,其中:ω1、ω2和ω3为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5;
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4;
(135)将步骤(128)中得到的Y4进行反卷积得到U4;
(136)计算注意力机制A3=f(R3,U4)=ω3(relu(ω1(R3)+ω2(U4)))×U4;
(137)使用张量拼接函数concatenate(·)叠加A3和U4,得到C3=A3+U4;
(138)使用upconv(·)函数计算C3,得到维度减半的张量Y3;
(139)将步骤(126)中得到的Y3进行反卷积得到U3;
(140)计算注意力机制A2=f(R2,U3)=ω3(relu(ω1(R2)+ω2(U3)))×U3;
(141)使用张量拼接函数concatenate(·)叠加A2和U3,得到C2=A2+U3;
(142)使用upconv(·)函数计算C2,得到维度减半的张量Y2;
(143)将步骤(124)中得到的Y2进行反卷积得到U2;
(144)计算注意力机制A1=f(R1,U2)=ω3(relu(ω1(R1)+ω2(U2)))×U2;
(145)使用张量拼接函数concatenate(·)叠加A1和U2,得到C1=A1+U2;
(146)使用upconv(·)函数计算C1,得到维度减半的张量Y1。
5.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(21),具体包括如下:
(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像,形成训练集样本集。
6.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(22),具体包括如下:
(221)训练集样本包括裁剪后的相对应的深度图、RGB图和标签图;
(222)将对应的深度图和RGB图输入双流语义分割网络,输出特征张量Y1;
(223)使用损失函数来计算特征张量Y1与对应的标签图的误差;
(224)使用亚当优化算法减小步骤(223)得到的误差,计算当前双流语义分割网络的MIoU指标;
(225)更新双流语义分割网络的卷积权重参数,返回步骤(222),直至达到设定循环次数;
(226)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。
7.根据权利要求4所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(134)中,upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。
8.根据权利要求6所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(223)中,损失函数为优化的子模损失函数,具体为:
Figure FDA0002259023730000031
Figure FDA0002259023730000032
其中:fi(c)表示像素点i属于类别c的概率,yi *为标签图上像素点i的真实值,|C|为类别总数;Jc为杰卡德相似系数,ΔJc表示杰卡德损失,
Figure FDA0002259023730000033
表示使用mi(c)构造ΔJc的代替函数。
9.根据权利要求6所述的基于多模态数据融合的遥感图像语义分割方法,其特征在于:所述步骤(22)中,MIoU指标为平均交并比,即计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值集合和预测值集合:
Figure FDA0002259023730000041
其中:k≥2表示类别总数;
pij表示真实值属于类别i预测值属于类别j的像素点的数量;
pii表示真实值属于类别i预测值属于类别i的像素点的数量;
pji表示真实值属于类别j预测值属于类别i的像素点的数量;
pjj表示真实值属于类别j预测值属于类别j的像素点的数量。
CN201911064946.3A 2019-11-04 2019-11-04 一种基于多模态数据融合的遥感图像语义分割方法 Pending CN110796105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911064946.3A CN110796105A (zh) 2019-11-04 2019-11-04 一种基于多模态数据融合的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911064946.3A CN110796105A (zh) 2019-11-04 2019-11-04 一种基于多模态数据融合的遥感图像语义分割方法

Publications (1)

Publication Number Publication Date
CN110796105A true CN110796105A (zh) 2020-02-14

Family

ID=69442538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911064946.3A Pending CN110796105A (zh) 2019-11-04 2019-11-04 一种基于多模态数据融合的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110796105A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111489370A (zh) * 2020-03-29 2020-08-04 复旦大学 基于深度学习的遥感图像的分割方法
CN111667486A (zh) * 2020-04-29 2020-09-15 杭州深睿博联科技有限公司 一种基于深度学习的多模态融合胰腺分割方法和系统
CN111783782A (zh) * 2020-05-29 2020-10-16 河海大学 融合改进UNet和SegNet的遥感图像语义分割方法
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN111860517A (zh) * 2020-06-28 2020-10-30 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN112163374A (zh) * 2020-09-27 2021-01-01 中国地质调查局发展研究中心 一种多模态数据中间层融合全连接地质图预测模型的处理方法
CN115580564A (zh) * 2022-11-09 2023-01-06 深圳桥通物联科技有限公司 一种物联网通信网关动态调用装置
CN115861824A (zh) * 2023-02-23 2023-03-28 汕头大学 基于改进Transformer的遥感图像识别方法
CN116644205A (zh) * 2023-07-27 2023-08-25 北京元图科技发展有限公司 一种地理信息数据处理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109685842A (zh) * 2018-12-14 2019-04-26 电子科技大学 一种基于多尺度网络的稀疏深度稠密化方法
US20190213563A1 (en) * 2017-04-11 2019-07-11 Alibaba Group Holding Limited Image-based vehicle maintenance plan
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213563A1 (en) * 2017-04-11 2019-07-11 Alibaba Group Holding Limited Image-based vehicle maintenance plan
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109685842A (zh) * 2018-12-14 2019-04-26 电子科技大学 一种基于多尺度网络的稀疏深度稠密化方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田萱: "《基于深度学习的图像语义分割技术》", 31 May 2019 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111340814B (zh) * 2020-03-03 2024-04-09 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111489370B (zh) * 2020-03-29 2022-09-16 复旦大学 基于深度学习的遥感图像的分割方法
CN111489370A (zh) * 2020-03-29 2020-08-04 复旦大学 基于深度学习的遥感图像的分割方法
CN111667486A (zh) * 2020-04-29 2020-09-15 杭州深睿博联科技有限公司 一种基于深度学习的多模态融合胰腺分割方法和系统
CN111667486B (zh) * 2020-04-29 2023-11-17 杭州深睿博联科技有限公司 一种基于深度学习的多模态融合胰腺分割方法和系统
CN111783782A (zh) * 2020-05-29 2020-10-16 河海大学 融合改进UNet和SegNet的遥感图像语义分割方法
CN111783782B (zh) * 2020-05-29 2022-08-05 河海大学 融合改进UNet和SegNet的遥感图像语义分割方法
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN111860517B (zh) * 2020-06-28 2023-07-25 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN111860517A (zh) * 2020-06-28 2020-10-30 广东石油化工学院 一种基于分散注意力网络的小样本下语义分割方法
CN112163374A (zh) * 2020-09-27 2021-01-01 中国地质调查局发展研究中心 一种多模态数据中间层融合全连接地质图预测模型的处理方法
CN112163374B (zh) * 2020-09-27 2024-02-20 中国地质调查局自然资源综合调查指挥中心 一种多模态数据中间层融合全连接地质图预测模型的处理方法
CN115580564A (zh) * 2022-11-09 2023-01-06 深圳桥通物联科技有限公司 一种物联网通信网关动态调用装置
CN115580564B (zh) * 2022-11-09 2023-04-18 深圳桥通物联科技有限公司 一种物联网通信网关动态调用装置
CN115861824A (zh) * 2023-02-23 2023-03-28 汕头大学 基于改进Transformer的遥感图像识别方法
CN115861824B (zh) * 2023-02-23 2023-06-06 汕头大学 基于改进Transformer的遥感图像识别方法
CN116644205A (zh) * 2023-07-27 2023-08-25 北京元图科技发展有限公司 一种地理信息数据处理系统及方法
CN116644205B (zh) * 2023-07-27 2023-10-31 北京元图科技发展有限公司 一种地理信息数据处理系统及方法

Similar Documents

Publication Publication Date Title
CN110796105A (zh) 一种基于多模态数据融合的遥感图像语义分割方法
CN110929696A (zh) 一种基于多模态注意与自适应融合的遥感图像语义分割方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN108804530B (zh) 对图像的区域加字幕
CN111080645A (zh) 基于生成式对抗网络的遥感图像半监督语义分割方法
CN113657388B (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN111046462A (zh) 一种室外建筑设计用图纸展示系统及方法
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
CN111125397B (zh) 一种基于卷积神经网络的布料图像检索方法
CN112819837B (zh) 一种基于多源异构遥感影像的语义分割方法
CN112418235B (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN114170422A (zh) 一种煤矿井下图像语义分割方法
Xin et al. Digitalization system of ancient architecture decoration art based on neural network and image features
Artopoulos et al. An artificial neural network framework for classifying the style of cypriot hybrid examples of built heritage in 3D
CN117237623A (zh) 一种无人机遥感图像语义分割方法及系统
Ma et al. MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data
Touzani et al. A machine learning approach to estimate windows-to-wall ratio using drone imagery
CN115393735A (zh) 基于改进U-Net的遥感影像建筑物提取方法
CN115578436A (zh) 一种基于多级特征并行交互融合的单目深度预测方法
Li et al. Classification of the qilou (arcade building) using a robust image processing framework based on the Faster R-CNN with ResNet50

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214

RJ01 Rejection of invention patent application after publication