CN117237623A

CN117237623A - 一种无人机遥感图像语义分割方法及系统

Info

Publication number: CN117237623A
Application number: CN202310983553.2A
Authority: CN
Inventors: 丛润民; 张伟; 宋然; 仇梓峰; 陈宇; 李晓磊; 陈韬亦
Original assignee: Shandong University; CETC 54 Research Institute
Current assignee: Shandong University; CETC 54 Research Institute
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-12-15
Anticipated expiration: 2043-08-04
Also published as: CN117237623B

Abstract

本发明提出了一种无人机遥感图像语义分割方法及系统，采用不同的编码器CNN编码器和Transformer编码器对无人机遥感图像进行特征提取，通过图嵌入损失函数监督引导不同编码器所提取特征的融合过程，能够确保自适应地将两个不同编码器对所预测更为重要的信息融合起来，提高后续无人机遥感图像语义分割的准确性。

Description

一种无人机遥感图像语义分割方法及系统

技术领域

本发明属于图像语义分割领域，尤其涉及一种无人机遥感图像语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

无人机遥感图像语义分割的目的是对无人机采集得到的遥感图像进行像素级内容解读，获得具有像素级语义类别标注的结果。遥感影像的语义分割在城市规划、智慧城市、医疗卫生、地理信息系统建设等方面有广泛的应用。由于语义分割任务相对来说较为复杂，卷积神经网络的快速发展则为其提供了技术支持，特别是全卷积网络在其中发挥了重要作用。其中，被计算机视觉领域广泛应用的编码器-解码器结构同样也在分割任务上表现出了优异性能，并逐渐成为语义分割神经网络中流行的基线架构。在此结构中，编码器用于提取出通用语义特征，而解码器用于融合高层次语义和低层次空间信息，并尽可能将高层的低分辨率尺寸精细地恢复为输入图像的大尺寸。然而，由于遥感图像中地面物体的特殊性即规模小、相似度高、可能存在相互遮挡等会给遥感图像的语义分割带来了新的挑战。很多基于卷积神经网络的模型在特征提取过程中进行特征降采样以减少计算量，这很容易导致小尺度特征被丢弃。此外如上面所述，具有不同语义类别的地面物体可能具有相似的尺寸、材料和光谱特征，难以区分，遮挡问题也通常会导致语义的模糊性。因此，更多的全局信息和精细的空间特征被要求作为语义推理的线索。最近，Transformer的成功为全局关系的建模开辟了新的研究思路。

遥感图像的语义分割的难点大致分为三类：(1)不同类别相似形状，鸟瞰视角某种程度可以算作二维视角，这会导致很多三维视角差别很大的物体在俯视视角展现出极为相似的特征；(2)不同类别相似材质，对于需要依靠材质区分的类别(建筑、不透水层、草地等)，不同类别之间材质的穿插对于正确检测类别是极为不利的；(3)不同高度相互遮挡，由于观测视角的原因，虽然俯瞰视角已经可以最大程度避免物体的相互遮挡，但类似情况仍然存在。因此，如何提高无人机遥感图像语义分割的准确性是目前本领域技术人员需要解决的技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种无人机遥感图像语义分割方法及系统，采用不同的编码器CNN编码器和Transformer编码器对无人机遥感图像进行特征提取，通过图嵌入损失函数监督引导不同编码器所提取特征的融合过程，能够确保自适应地将两个不同编码器对所预测更为重要的信息融合起来，提高后续无人机遥感图像语义分割的准确性。

为实现上述目的，本发明的第一个方面提供：一种无人机遥感图像语义分割方法，包括：

步骤1：获取无人机遥感图像，利用CNN编码器和Transformer编码器特征提取阶段分别对所获取的无人机遥感图像进行特征提取，得到第一特征图和第二特征图；

步骤2：将第一特征图和第二特征图构建图结构，获取图结构的邻接矩阵，根据所述邻接矩阵构建图嵌入损失函数；

步骤3：利用图嵌入损失函数引导对应的第一特征图和第二特征图的特征融合，得到融合特征，并将所得到的融合特征输入至CNN编码器下一特征提取阶段；

步骤4：重复步骤2-步骤3，直至CNN编码器最后特征提取阶段输出最终的融合特征，将CNN编码器特征提取阶段所输出的融合特征基于解码器得到无人机遥感图像语义分割结果。

本发明的第二个方面提供一种无人机遥感图像语义分割系统，包括：

获取模块：获取无人机遥感图像，利用CNN编码器和Transformer编码器特征提取阶段分别对所获取的无人机遥感图像进行特征提取，得到第一特征图和第二特征图；

图构建模块：将第一特征图和第二特征图构建图结构，获取图结构的邻接矩阵，根据所述邻接矩阵构建图嵌入损失函数；

融合模块：利用图嵌入损失函数引导对应的第一特征图和第二特征图的特征融合，得到融合特征，并将所得到的融合特征输入至CNN编码器下一特征提取阶段；

语义分割模块：将CNN编码器特征提取阶段所输出的融合特征基于解码器得到无人机遥感图像语义分割结果。

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种无人机遥感图像语义分割方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行一种无人机遥感图像语义分割方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，采用不同的编码器CNN编码器和Transformer编码器对无人机遥感图像进行特征提取，充分利用了CNN编码器和Transformer编码器在特征图提取上两者的优点，对于不同编码器所提取的特征图同构构建图结构，引入图嵌入损失函数，通过图嵌入损失函数监督引导不同编码器所提取特征的融合过程，能够确保自适应地将两个不同编码器对所预测更为重要的信息融合起来，基于融合后的特征用于无人机遥感图像的语义分割，对于遥感图像上密集和小规模的物体上分割效果也良好，提高无人机遥感图像语义分割的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中双编码器语义分割网络结构示意图；

图2为本发明实施例一中可视化示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种无人机遥感图像语义分割方法，包括：

为了缓解卷积神经网络在全局建模方面的缺陷，本实施例提出了一种无人机遥感图像语义分割方法，采用多源图引导的双编码器语义分割网络，它通过多源图引导特征融合的方式利用金字塔视觉Transformer(PVT)来辅助UNet。如前所述，UNet是一个基于卷积神经网络的U型解码器－编码器网络，它通过跳连接层实现了编码器和解码器的特征融合。整体结构如图1所示，其中UNet中的编码器作为主编码器，金字塔视觉Transformer作为辅助编码器，形成了一个并行的双编码器结构。本实施例通过一个设计的多源图引导特征融合模块建立一个从辅助编码器到主编码器的单向信息流，这也是本实施例方法的关键组成部分。

对于给定的遥感图像X∈R^H×W×3，视觉Transformer将图像数据划分为不重叠的块，以类比于自然语言处理中的序列数据的“tokens”。金字塔视觉Transformer使用细粒度图像块作为输入来学习高分辨率表示，从而克服传统Transformer的困难，其中每个块4×4像素，这对于密集预测任务如本实施例要解决的语义分割任务来说至关重要。其次，引入渐进收缩金字塔，随着网络的加深，减少Transformer序列长度，显著降低计算成本，以及采用空间降低注意力层进一步减少学习高阶时的资源消耗。由于金字塔视觉Transformer的金字塔特性与U型网络中的多级特征刚好一一对应，所以选用金字塔视觉Transformer当作卷积神经网络主编码器的辅助编码器是十分适合的。

金字塔视觉Transformer辅助编码器有四个特征提取阶段，每个阶段的输出被定义为S_n，其中n∈{1,2,3,4}。每一层分别对应一个不同尺度的特征图，四层结构共享相同的架构，每层的结构中包含了Patch Emdedding层和Transformer编码层。第n阶段的输出分辨率为(H/(2ⁿ⁺¹))×(W/(2ⁿ⁺¹))，尺寸为2^n-1C₁。

主编码器为U-Net形式，同样有四个阶段，原始遥感图像X首先被送入ResNet50，分别得到四个阶段的特征。第n个残差块的输出特征图可以表示为在主编码器中，C₂＝128。然后，主编码器输出特征A_n和辅助编码器相应阶段的输出特征S_n被送入多源图引导特征融合模块，融合结果被返回给主编码器。作为主编码器和辅助编码器之间的桥梁，多源图引导特征融合模块面对两个不同来源的图像时，首先通过卷积层将其进行融合，再通过图嵌入损失函数对其融合过程进行监督引导。经过上述四个编码阶段后得到特征F∈R^{(H/32))×(W/32)×1024}，再使其经过一个卷积层并输入到解码器之中。

在解码器阶段，首先将其输入到2×2的反卷积层来扩大分辨率。借鉴UNet，本实施例利用跳连接层来串联编码器和解码器的特征，同时通过3×3卷积层来减少通道的数量。每个卷积层都伴随着一个批处理归一化层和一个ReLU层。重复上述过程四次。特征F逐渐扩展为F′∈R^{(H/2))×(W/2)×64}。最后将特征F′再通过一个3×3卷积层并对其进行线性插值上采样，得到最终的预测分割图。

与卷积神经网络骨干网络使用不同的卷积步骤来获得多尺度的特征图不同，金字塔视觉Transformer使用渐进式收缩策略，通过补丁嵌入层来控制特征图的尺度。在这里，本实施方法把第i阶段的图像块大小表示为P_i。在第i阶段的开始，首先将输入的特征图均匀地划分为/>个图像块，然后每个图像块被压平并投影到一个C_i维的嵌入编码。经过线性投影后，编码后图像块的形状可以看成是(H_i-1/P_i)×(W_i-1/P_i)×C_i，其中高度和宽度都比输入值小P_i倍。这样，金字塔视觉Transformer就可以在每个阶段灵活地调整特征图的比例，使得为Transformer构建一个特征金字塔成为可能。

具体的，第i阶段的Transformer编码器有L_i个编码器层，每个层由一个注意层和一个前馈层组成。由于金字塔视觉Transformer需要处理高分辨率的特征图，其提出了一个空间还原注意力(Spatial Reduction Attention，SRA)层来取代编码器中的传统多头注意力(Multi-Head Attention，MHA)层。空间还原注意力与多头注意力类似，空间还原注意力层接收一个查询Q、一个密钥K和一个值V作为输入，并输出一个提炼后的特征。不同的是，空间还原注意力层在关注操作之前减少了K和V的空间尺度，这在很大程度上减少了计算开销与内存开销。

空间还原注意力层在第i阶段的细节可以用公式表述如下：

其中，Concat(·)是级联操作。以及/>是线性投影参数。N_i是阶段i中注意力层的头数，因此，每个头的尺寸即d_head等于C_i/N_i。SR(·)是减少输入序列即K或V的空间维度的操作，公式如下：

SR(x)＝Norm(Reshape(x,R_i)W^S) (3)

其中，表示一个输入序列，R_i表示阶段i中注意层的减少比例。Reshape(x,R_i)是将输入序列x重塑为大小为/>的序列的操作，是将输入序列的二维空间缩小为C_i的线性投影。Norm(·)指的是层归一化。

与最初的Transformer一样，注意力运算Attention(·)的计算方式是：

通过上述公式可以发现，多头注意操作的计算成本和内存成本是空间还原注意力的倍，所以空间还原注意力层可以用有限的资源处理更大的输入特征图或者序列。

本实施采用两种编码方式来从原始数据中提取信息，分别是基于卷积神经网络的主编码器和基于金字塔视觉Transformer的辅助编码器。正是由于两种截然不同的特征信息提取方式，使得如何合理的融合多源数据成为关键，同时这也是利用好Transformer的关键。卷积神经网络因其自身固有的一系列优良特性，使它们很自然地适用于多种计算机视觉任务，这种特性为卷积神经网络引入了归纳偏置，使之能够适应不同大小的输入图片的尺寸。视觉Transformer则可以通过自注意力操作实现输入自适应、远程依赖，旨在提取视觉场景的全局理解和高阶空间交互。其通过建立网络各模块之间的交互机制，使得编码器、解码器和自注意力融合模块之间存在不同层次特征图的融合，这有助于捕获目标内部和目标之间的远程上下文信息。但相反，视觉Transformer无法利用图像本身具有的尺度、平移不变性和特征局部性等图像固有的先验知识，而必须使用比较大规模的数据集学习高质量的中间表示。

为了解决上述问题，本实施中提出了一个用于特征提取和融合的多源图引导的特征聚合模块。在特征聚合模块中，利用多源数据的相关性来指导特征融合过程。

在本实施例中，首先，从主编码器特征和辅助编码器特征中构建一个多源图。同时，将主编码器特征和辅助编码器特征输入到一个卷积块中用于特征融合。最后，在基于多源图的损失函数的指导下，一个统一的融合特征从特征聚合模块中输出，用于编码器的下一特征提取阶段的输入。

具体的，多源图是通过融合不同数据源的权重矩阵建立的，这保证了卷积神经网络和Transformer的互补信息能够同时被考虑到。在多源图的基础上，利用拉普拉斯嵌入(Laplacian Embedding，LE)和t分布随机邻居嵌入(t-distributed Stochastic NeighborEmbedding，t-SNE)来进行特征学习和降维。拉普拉斯嵌入技术确保原图像中相互接近的像素在特征空间中相互接近，保留了局部关系，而t-SNE则保留了像素之间的局部相似性。该模块的输出是一个包含多源数据相关性的统一特征。

多源图引导的特征聚合模块的输入是来自两种提取特征方式的多源数据，输出是统一的融合特征。具体来说，该模块分为两个部分，第一部分是将主编码器输出特征A_n和辅助编码器输出特征S_n被送入一个特征融合单元，然后在该单元中进行特征融合和提取，从而得到融合特征。第二部分为了利用卷积神经网络和Transformer之间的互补信息和相关性，通过融合A_n和S_n的权重矩阵计算出多源图的邻接矩阵，之后引入了一系列基于图嵌入的损失函数，从图嵌入的角度约束第一部分的特征融合单元。

具体的，为了显示多源图和基于图嵌入的损失的潜在能力，一个简单的特征融合单元被用于融合来自两个编码器的特征。这是由于是多源图和基于图嵌入的损失在特征融合中起主要作用，而卷积融合单元不是研究的重点。因此，本实施例选择了一个浅层和稳健的结构用于特征融合。具体来说，特征融合单元首先将主编码器输出特征A_n和辅助编码器输出特征S_n进行级联拼接操作，并将拼接后的特征经过两个卷积层和一个批处理规范化层。值得注意的是，批处理规范化层是在卷积层之后，对于多源图来说没有批处理规范化操作。除此之外采用了一个矩形线性函数单元作为激活函数，最终得到融合特征T_n。上述过程可以用公式表述如下：

其中，concat(·)表示沿通道轴的特征串联，表示两层卷积核为3×3大小的卷积层，σ(·)表示ReLU激活函数。

具体的，为了有效地融合多源特征之间的信息，采用了图结构来表示模块输入特征。与卷积神经网络相比，由于卷积核的大小限制了其的全局信息提取能力，图结构在表示所有顶点之间的关系方面具有更强的能力。通过将每个像素视为一个顶点，特征即可以被转换成一个图，顶点之间的边可以通过像素之间的相似度来计算。当有两个源的特征时，可以通过融合每个来源的图来建立一个多源图。

接下来将具体说明多源图的构建过程：根据多源数据A_n和S_n，可以构建一个无向图G＝(V,E)，其中V和E分别代表顶点和边。图中的每个顶点对应于A_n和S_n中的每一个像素。代表图边缘连接的邻接矩阵取决于A_n中的权重矩阵和S_n中的其中，n表示像素的数量。对于A_n，本实施例对边缘的权重进行了定义：

其中，代表第i个像素和第j个像素之间的权重，DIST(·,·)表示欧式距离计算函数。

同样地，对于S_n，有如下公式：

为了融合主编码器特征A_n和辅助编码器特征S_n的信息，融合后的多源邻接矩阵定义为：

其中，m和n是A_n和S_n权重矩阵的参数。同时，KNN代表采用了k-近邻策略。建立多源图是为了扩大A_n和S_n的类别之间的差异。更具体地说，例如，考虑到像素x_i和x_j具有相似的材料如草和树，它们在卷积神经网络的距离可能很小，因为从局部来看这两者有着极为相似的表征，但在Transformer中的距离可能很大，因为通过Transformer的全局视野来看，树往往具有一个特定的尺寸范围，而草类别却有着不规则的分布，且草地内部的颜色纹理分布的更加均匀。通过在邻接矩阵中引入这两个类别之间的差异被扩大了，与单独使用相比，它能使得每个像素更正确的被分类。

上述建立了包含多源数据相关性的多源图时，采用了图嵌入技术来生成损失函数。为了保留多源图中的局部邻域信息，采用了拉普拉斯嵌入。考虑到拉普拉斯嵌入在应用于视觉图像特征时有一定的局限性，如没有考虑到像素之间的自然空间相关性，因此采用了结合t分布式随机邻居嵌入和拉普拉斯嵌入的图嵌入技术。

多源图引导的特征聚合模块的总体损失函数包括两个部分：

Loss＝kL_Laplacian+L_t-SNE (9)

上述公式中L_Laplacian是传统的拉普拉斯损失，L_t-SNE是t分布式随机邻居嵌入损失。

下面将对损失函数进行详细解释：

(1)拉普拉斯嵌入

为了保留多模态图中的自然聚类，拉普拉斯嵌入被引入作为特征提取的第一个损失函数。

根据所建立的多源图，拉普拉斯矩阵可通过以下方式计算：

L＝D-A (10)

其中，D是对角线度矩阵，由D_ii＝∑_jA_ij，考虑到A中的值越大代表顶点的距离越近，值越小代表越远的距离，A_ij表示矩阵A的(i,j)位置的值。

然后将L_Laplacian最小化，以进一步约束距离较小的顶点：

L_Laplacian＝2Y^TLY (11)

其中，Y在这里代表特征融合单元的输出，等同于T_n。

(2)t分布式随机邻居嵌入：为了利用两种编码器特征中包含的信息，引入了t-SNE与LE的结合，因为它能够保留像素之间的局部相似性并拉伸样本间的距离。假设X＝{x_i}∈Rⁿ是的输入特征即A_n和S_n的所有像素，那么有x_j是x_i的邻居的概率被t-SNE定义为：

其中，方差σ_i是对x_i周围样本密度的松散解释，更小的σ_i值被用于数据空间更密集的部分。

为了拉伸样本间的距离以进行降维，引入了可以充分利用X中样本间的距离压缩因子(CF)。引入后，公式(13)中的就可以取代公式(12)中的p_j∣i，从而作为t-SNE的优化：

与公式(12)类似，可以得到融合特征Y＝{y_i}∈Rⁿ的t分布q_j∣i：

q_j∣i＝exp(-||y_i-y_j||²)/∑_k≠iexp(-||y_i-y_k||²) (14)

通过最小化和q_j∣i之间的Kullback-Leibler(KL)散度，得到的t-SNE损失函数为：

图2显示了本发明方法的语义分割结果。可以看出，本实施例方法减少了分割错误，特别是对于具有高相似度的地面物体，比如在第三行中，其他方法由于其相似的材料而错误地将“建筑”识别为“不透水表面”，而本实施例方法则做出了相对准确的判断。此外，第二行的例子显示，本实施例方法在密集和小规模的地面物体上表现良好，符合预期。

实施例二

本实施例的目的是提供一种无人机遥感图像语义分割系统，包括：

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种无人机遥感图像语义分割方法，其特征在于，包括：

2.如权利要求1所述的一种无人机遥感图像语义分割方法，其特征在于，在所述步骤2中，具体包括：

根据第一特征图像素之间的权重，构建第一特征图的权重矩阵；

根据第二特征图像素之间的权重，构建第二特征图的权重矩阵；

基于k-邻近策略根据第一特征图的权重矩阵和第二特征图的权重矩阵，得到图结构的邻接矩阵；

根据邻接矩阵结合t分布式随机邻居嵌入和拉普拉斯嵌入，构建图嵌入损失函数。

3.如权利要求2所述的一种无人机遥感图像语义分割方法，其特征在于，采用欧式距离计算第一特征图或第二特征图像素之间的权重。

4.如权利要求1所述的一种无人机遥感图像语义分割方法，其特征在于，在所述步骤3中，具体为：

将对应尺度的第一特征图和第二特征图进行级联拼接操作；

将级联拼接后的特征经过卷积层得到融合特征。

5.如权利要求1所述的一种无人机遥感图像语义分割方法，其特征在于，在所述步骤4中，将CNN编码器每个特征提取阶段输出的融合特征基于解码器得到无人机遥感图像语义分割结果，具体为：基于U-NET形式，利用跳跃连接串联CNN编码器的每个特征提取阶段和解码器。

6.如权利要求1所述的一种无人机遥感图像语义分割方法，其特征在于，所述Transformer编码器中采用空间还原注意力进行特征的提取。

7.一种无人机遥感图像语义分割系统，其特征在于，包括：

8.如权利要求7所述的一种无人机遥感图像语义分割系统，其特征在于，在所述图构建模块中，具体包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的一种无人机遥感图像语义分割方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的一种无人机遥感图像语义分割方法。