CN110796105A

CN110796105A - 一种基于多模态数据融合的遥感图像语义分割方法

Info

Publication number: CN110796105A
Application number: CN201911064946.3A
Authority: CN
Inventors: 周勇; 杨劲松; 赵佳琦; 夏士雄; 姚睿; 刘兵; 杜文亮; 王秋
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-14

Abstract

本发明公开了一种基于多模态数据融合的遥感图像语义分割方法，属于计算机视觉领域。具体实现：1)使用遥感图像多模态数据集，包括遥感图像及对应的深度图构建双流的语义分割网络：2)分别对输入图像提取不同尺度的特征，将获取的特征进行多层的特征融合；3)使用注意力机制对网络解码器部分的输入特征与编码器特征进行丰富语义信息的提取，关注相似的像素点。本发明利用多模态的遥感数据集，结合双流网络结构，融合提取的特征，并使用注意力机制关注融合特征与解码特征，从而优化模型性能。

Description

一种基于多模态数据融合的遥感图像语义分割方法

技术领域

本发明涉及遥感图像处理技术，尤其涉及一种基于多模态数据融合的遥感图像语义分割方法。

背景技术

遥感是一种非接触、远距离的探测技术。一般来说，它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展，特别是近年来高分辨率遥感影像的出现，这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大，影像内容提供的信息也越来越丰富。

图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素，所以这个任务通常被称为密集预测。值得注意的是，与之前的赋值不同，语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同)，其中每个像素被分类为一个特定的类。

目前，语义分割是计算机视觉的关键问题之一。在宏观意义上，语义分割是一项高层次的工作，它为场景理解铺平了道路。作为计算机视觉的核心问题，场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术，解决了这些问题。尽管这些方法普遍存在，但深度学习的革命已经在相关领域发生了巨大的变化。因此，许多计算机视觉问题，包括语义分割，开始使用深度结构来解决，通常是卷积神经网络cnn，这比传统方法更准确和高效。

随着传感器技术的飞速发展，人们对利用深度信息进行语义分割产生了浓厚的兴趣。深度数据变得广泛，因为它很容易被捕获。毫无疑问，深度信息可以改善分割，因为它捕获的几何信息不是通过颜色通道获得的。在中，深度数据作为除了rgb通道作为输入之外的第四个通道添加到网络中。这种直接的分割方法提高了分割性能。

尽管深度数据有助于从场景中分离对象，但它的语义信息比颜色少得多。此外，深度和颜色通道之间的相关性很小，这促使更好的方法使用深度来增强语义分割。

此外，现有的基于遥感图像的语义分割仍存在以下问题：

(1)遥感数据集中各类图像在角度、颜色、大小等方面存在显著差异，类间也存在实质性的相似性。例如，遥感图像类别之间的边缘区分是不可见的，比如树木和建筑物的阴影会产生遮挡问题。而遥感图像中存在着大量的建筑物、树木等小目标。从现有的深度学习模型中学习鲁棒特征表示提出了新的挑战，这是提高遥感图像语义分割精度的关键。

(2)随着传感器技术的发展，遥感图像的其他数据采集在语义分割中没有得到充分的利用。

(3)现有的语义分割方法在大范围遥感图像小目标特征提取方面存在一些不足。这使得有效提取遥感图像中小目标的特征信息成为可能。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于多模态数据融合的遥感图像语义分割方法，该方法基于RGB图和深度图的双流语义分割网络，提取不同尺度的深度图特征，融合深度特征和RGB特征，使用注意力关注相似的像素，以优化网络的分割性能。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于多模态数据融合的遥感图像语义分割方法，包括如下步骤：

(1)构建双流语义分割网络，包括如下步骤：

(11)构建双流语义分割网络的特征提取器；

(12)引入多层特征融合；

(13)构建双流语义分割的解码器，并引入注意力机制，形成双流语义分割网络；

(2)构建数据集并进行双流语义分割网络训练，包括如下步骤：

(21)构建数据集；

(22)进行双流语义分割网络训练；

(3)运行双流语义分割网络。

优选的，所述步骤(11)，具体包括如下：

(111)删除卷积神经网络结构中的全连接层，形成一个通过卷积将输入张量转化成小尺度张量的编码器，采用该编码器对输入的RGB图进行编码，将对RGB图进行编码的编码器称为RGB图通道；

(112)复制一个与步骤(111)相同的编码器，采用该编码器对深度图进行编码，将对深度图进行编码的编码器称为深度图通道。

优选的，所述步骤(12)，具体包括如下：

(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1；

(122)进行第一次特征融合R1＝D1+F1；

(123)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2，其中，D2是由D1经过池化卷积得到，F2是由R1经过池化卷积得到；

(124)进行第二次特征融合R2＝D2+F2；

(125)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3，其中，D3是由D2经过池化卷积得到，F3是由R2经过池化卷积得到；

(126)进行第三次特征融合R3＝D3+F3；

(127)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4，其中，D4是由D3经过池化卷积得到，F4是由R3经过池化卷积得到；

(128)进行第四次特征融合R4＝D4+F4；

(129)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5，其中，D5是由D4经过池化卷积得到，F5是由R4经过池化卷积得到；

(130)进行第五次特征融合R5＝D5+F5。

优选的，所述步骤(13)，具体包括如下：

(131)将步骤(130)得到的融合特征R5进行反卷积得到U5；

(132)计算注意力机制A4＝f(R4,U5)＝ω₃(relu(ω₁(R4)+ω₂(U5)))×U5，其中：ω₁、ω₂和ω₃为权重矩阵，relu(·)为激活函数；

(133)使用张量拼接函数concatenate(·)叠加A4和U5，得到C4＝A4+U5；

(134)使用upconv(·)函数计算C4，得到维度减半的张量Y4；

(135)将步骤(128)中得到的Y4进行反卷积得到U4；

(136)计算注意力机制A3＝f(R3,U4)＝ω₃(relu(ω₁(R3)+ω₂(U4)))×U4；

(137)使用张量拼接函数concatenate(·)叠加A3和U4，得到C3＝A3+U4；

(138)使用upconv(·)函数计算C3，得到维度减半的张量Y3；

(139)将步骤(126)中得到的Y3进行反卷积得到U3；

(140)计算注意力机制A2＝f(R2,U3)＝ω₃(relu(ω₁(R2)+ω₂(U3)))×U3；

(141)使用张量拼接函数concatenate(·)叠加A2和U3，得到C2＝A2+U3；

(142)使用upconv(·)函数计算C2，得到维度减半的张量Y2；

(143)将步骤(124)中得到的Y2进行反卷积得到U2；

(144)计算注意力机制A1＝f(R1,U2)＝ω₃(relu(ω₁(R1)+ω₂(U2)))×U2；

(145)使用张量拼接函数concatenate(·)叠加A1和U2，得到C1＝A1+U2；

(146)使用upconv(·)函数计算C1，得到维度减半的张量Y1。

优选的，所述步骤(21)，具体包括如下：

(211)将原始数据集中的深度图、RGB图和标签图均裁剪成512*512的图像，形成训练集样本集。

优选的，所述步骤(22)，具体包括如下：

(221)训练集样本包括裁剪后的相对应的深度图、RGB图和标签图；

(222)将对应的深度图和RGB图输入双流语义分割网络，输出特征张量Y1；

(223)使用损失函数来计算特征张量Y1与对应的标签图的误差；

(224)使用亚当优化算法(Adam优化算法)减小步骤(223)得到的误差，计算当前双流语义分割网络的MIoU指标；

(225)更新双流语义分割网络的卷积权重参数，返回步骤(222)，直至达到设定循环次数；

(226)取MIoU指标最高时对应的双流语义分割网络的为最优双流语义分割网络。

优选的，所述步骤(134)中，upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。

优选的，所述步骤(223)中，损失函数为优化的子模损失函数(即LovaszSoftmax函数，基于Lovasz扩展的子模集合函数)，具体为：

其中：f_i(c)表示像素点i属于类别c的概率，y_i ^*为标签图上像素点i的真实值，|C|为类别总数；J_c为杰卡德相似系数(Jaccard相似系数)，ΔJ_c表示杰卡德损失(Jaccardloss)，

表示使用m_i(c)构造ΔJ_c的代替函数。

优选的，所述步骤(22)中，MIoU指标为平均交并比，即计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值集合和预测值集合：

其中：k≥2表示类别总数；

p_ij表示真实值属于类别i预测值属于类别j的像素点的数量；

p_ii表示真实值属于类别i预测值属于类别i的像素点的数量；

p_ji表示真实值属于类别j预测值属于类别i的像素点的数量；

p_jj表示真实值属于类别j预测值属于类别j的像素点的数量。

有益效果：本发明提供的基于多模态数据融合的遥感图像语义分割方法，可以有效利用采集到的遥感图像其他模态数据，将单模态的RGB图像语义分割与深度图相结合，利用深度图的特征来约束优化RGB图像的图像，可以解决遥感图像类与类的边缘区分不明显问题；引入的注意力机制可以有效注意遥感图像中小目标的相似像素点从而优化分割性能。

附图说明

图1为本发明的网络结构图；

图2为本发明的步骤图。

具体实施方式

下面结合附图对本发明的技术方案作更进一步的说明。

参照图1，本发明的具体步骤如下：

步骤一、搭建双流语义分割网络

(11)构建双流语义分割网络的特征提取器

(12)引入多层特征融合

(122)进行第一次特征融合R1＝D1+F1；

(124)进行第二次特征融合R2＝D2+F2；

(126)进行第三次特征融合R3＝D3+F3；

(128)进行第四次特征融合R4＝D4+F4；

(130)进行第五次特征融合R5＝D5+F5。

(13)构建双流语义分割的解码器，并引入注意力机制，形成双流语义分割网络

(131)将步骤(130)得到的融合特征R5进行反卷积得到U5；

(133)使用张量拼接函数concatenate(·)叠加A4和U5，得到C4＝A4+U5；

(134)使用upconv(·)函数计算C4，得到维度减半的张量Y4；

(135)将步骤(128)中得到的Y4进行反卷积得到U4；

(137)使用张量拼接函数concatenate(·)叠加A3和U4，得到C3＝A3+U4；

(138)使用upconv(·)函数计算C3，得到维度减半的张量Y3；

(139)将步骤(126)中得到的Y3进行反卷积得到U3；

(141)使用张量拼接函数concatenate(·)叠加A2和U3，得到C2＝A2+U3；

(142)使用upconv(·)函数计算C2，得到维度减半的张量Y2；

(143)将步骤(124)中得到的Y2进行反卷积得到U2；

(145)使用张量拼接函数concatenate(·)叠加A1和U2，得到C1＝A1+U2；

(146)使用upconv(·)函数计算C1，得到维度减半的张量Y1。

步骤二、构建数据集并进行双流语义分割网络训练

(21)构建数据集；

(22)进行双流语义分割网络训练；

(223)使用损失函数来计算特征张量Y1与对应的标签图的误差；

所述步骤(223)中，损失函数为优化的子模损失函数(即LovaszSoftmax函数，基于Lovasz扩展的子模集合函数)，具体为：

表示使用m_i(c)构造ΔJ_c的代替函数。

所述步骤(22)中，MIoU指标为平均交并比，即计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值集合和预测值集合：

其中：k≥2表示类别总数；

p_ij表示真实值属于类别i预测值属于类别j的像素点的数量；

p_ii表示真实值属于类别i预测值属于类别i的像素点的数量；

p_ji表示真实值属于类别j预测值属于类别i的像素点的数量；

p_jj表示真实值属于类别j预测值属于类别j的像素点的数量。

步骤三、运行双流语义分割网络。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态数据融合的遥感图像语义分割方法，其特征在于：包括如下步骤：

(1)构建双流语义分割网络，包括如下步骤：

(11)构建双流语义分割网络的特征提取器；

(12)引入多层特征融合；

(21)构建数据集；

(22)进行双流语义分割网络训练；

(3)运行双流语义分割网络。

2.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(11)，具体包括如下：

3.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(12)，具体包括如下：

(122)进行第一次特征融合R1＝D1+F1；

(124)进行第二次特征融合R2＝D2+F2；

(126)进行第三次特征融合R3＝D3+F3；

(128)进行第四次特征融合R4＝D4+F4；

(130)进行第五次特征融合R5＝D5+F5。

4.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(13)，具体包括如下：

(131)将步骤(130)得到的融合特征R5进行反卷积得到U5；

(133)使用张量拼接函数concatenate(·)叠加A4和U5，得到C4＝A4+U5；

(134)使用upconv(·)函数计算C4，得到维度减半的张量Y4；

(135)将步骤(128)中得到的Y4进行反卷积得到U4；

(137)使用张量拼接函数concatenate(·)叠加A3和U4，得到C3＝A3+U4；

(138)使用upconv(·)函数计算C3，得到维度减半的张量Y3；

(139)将步骤(126)中得到的Y3进行反卷积得到U3；

(141)使用张量拼接函数concatenate(·)叠加A2和U3，得到C2＝A2+U3；

(142)使用upconv(·)函数计算C2，得到维度减半的张量Y2；

(143)将步骤(124)中得到的Y2进行反卷积得到U2；

(145)使用张量拼接函数concatenate(·)叠加A1和U2，得到C1＝A1+U2；

(146)使用upconv(·)函数计算C1，得到维度减半的张量Y1。

5.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(21)，具体包括如下：

6.根据权利要求1所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(22)，具体包括如下：

(223)使用损失函数来计算特征张量Y1与对应的标签图的误差；

(224)使用亚当优化算法减小步骤(223)得到的误差，计算当前双流语义分割网络的MIoU指标；

7.根据权利要求4所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(134)中，upconv(·)函数包含依次运行的张量拼接函数concatenate(·)、归一化函数batch norm(·)和激活函数relu(·)。

8.根据权利要求6所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(223)中，损失函数为优化的子模损失函数，具体为：

其中：f_i(c)表示像素点i属于类别c的概率，y_i ^*为标签图上像素点i的真实值，|C|为类别总数；J_c为杰卡德相似系数，ΔJ_c表示杰卡德损失，

表示使用m_i(c)构造ΔJ_c的代替函数。

9.根据权利要求6所述的基于多模态数据融合的遥感图像语义分割方法，其特征在于：所述步骤(22)中，MIoU指标为平均交并比，即计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值集合和预测值集合：

其中：k≥2表示类别总数；

p_ij表示真实值属于类别i预测值属于类别j的像素点的数量；

p_ii表示真实值属于类别i预测值属于类别i的像素点的数量；

p_ji表示真实值属于类别j预测值属于类别i的像素点的数量；

p_jj表示真实值属于类别j预测值属于类别j的像素点的数量。