CN112508031A

CN112508031A - 一种从虚拟到现实的无监督遥感图像语义分割方法及模型

Info

Publication number: CN112508031A
Application number: CN202011527658.XA
Authority: CN
Inventors: 赵丹培; 李嘉懿; 苑博; 史振威; 姜志国; 张浩鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-16
Anticipated expiration: 2040-12-22
Also published as: CN112508031B

Abstract

本发明公开了一种从虚拟到现实的无监督遥感图像语义分割方法，包括以下步骤：S1.将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至语义分割模型，得到训练后的语义分割模型；S2.将待测的真实遥感图像输入至训练后的语义分割模型中完成真实遥感图像的语义分割；还公开了一种从虚拟到现实的无监督遥感图像语义分割模型，包括：伪遥感图像生成模型和语义分割模型；其中语义分割模型包括编码器、中间融合层、空洞卷积层和解码器。本发明用于实现利用游戏图像来进行风格迁移，且使用迁移后的图像进行语义分割网络训练，通过训练后的语义分割网络进行真实遥感图像的语义分割。

Description

一种从虚拟到现实的无监督遥感图像语义分割方法及模型

技术领域

本发明涉及数字图像处理技术领域，更具体的说是涉及一种从虚拟到现实的无监督遥感图像语义分割方法及模型。

背景技术

图像语义分割技术是进行图像分析与图像理解的基础，具有重要的研究价值与应用前景。该类算法的基本目标是将图像中的每个像素值都进行其所属语义类别的判断。

深度学习作为机器学习的一个分支，在近几年发展十分迅速，且目前在许多计算机视觉领域都能取得很好的效果，然而现有的语义分割模型多数是针对于自然图像所做的，但是由于遥感图像背景复杂、前景与背景对比度差、目标本身特征往往更加复杂等特点，这些模型直接用于遥感图像上效果较差。而且现有的模型基本都是有监督的，对于遥感图像的无监督语义分割的研究相对较少，但遥感图像语义分割数据集由于其标注需要专业人员且费时费力，现有的遥感图像语义分割标准数据库较少，针对于遥感图像的无监督语义分割很有必要。

因此，如何提供一种从虚拟到现实的无监督遥感图像语义分割方法及模型是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种从虚拟到现实的无监督遥感图像语义分割方法及模型，目的在于实现利用游戏图像来进行风格迁移，且使用迁移后的图像进行语义分割网络训练，通过训练后的语义分割网络进行真实遥感图像的语义分割。

为了实现上述目的，本发明采用如下技术方案：

一种从虚拟到现实的无监督遥感图像语义分割方法，包括以下步骤：

S1.将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至所述语义分割模型，得到训练后的语义分割模型；

S2.将待测的真实遥感图像输入至训练后的所述语义分割模型中完成真实遥感图像的语义分割；

其中，真实遥感图像的语义分割的具体方法包括：

S21.对待测的真实遥感图像通过卷积分别对细节特征和语义特征进行提取；

S22.将提取到的语义特征结果和细节特征结果进行融合得到第一融合结果；同时将语义特征结果进行空洞卷积；将空洞卷积后的语义特征结果进行反卷积；

S23.将所述第一融合结果与对应的反卷积过程中特征层进行融合，以及将细节特征提取过程中的特征层与对应的反卷积过程中特征层分别进行融合，输出真实遥感图像的语义分割结果。

优选的，S1的具体内容包括：

对游戏图像进行特征提取，得到由游戏图像迁移后得到的伪遥感图像；对生成的伪遥感图像进行风格判别，同时通过预设语义分割模型对伪遥感图像进行语义分割，并对所述游戏图像语义分割模型得到的语义分割结果进行判别；

其中，风格判别的过程中不断训练进行参数更新，预设语义分割模型预先通过游戏图像进行语义分割训练。

优选的，S21的具体内容包括：

根据输入的待测的真实遥感图像进行细节特征提取，并将提取到的细节特征进行三次卷积，同时采用MobileNet作为主干网络对输入的待测真实遥感图像进行语义特征提取。

优选的，S22中获取第一融合结果的具体内容包括：

(1)分别对所述细节特征结果和所述语义特征结果进行卷积操作，得到细节特征处理结果和语义特征处理结果；

(2)分别对所述细节特征结果下采样，对所述语义特征结果上采样；

(3)将下采样后的细节特征结果与所述语义特征处理结果进行融合；将上采样后的语义特征结果与所述细节特征处理结果进行融合，并将所得到的两个融合结果进行进一步融合，得到所述第一融合结果。

优选的，步骤(1)的具体内容包括：对所述细节特征结果和所述语义特征结果均通过3×3卷积器和1×1卷积器，得到细节特征处理结果和语义特征处理结果；

步骤(2)的具体内容包括：将所述细节特征处理结果通过3×3卷积器和3×3池化层进行下采样；将所述语义特征处理结果通过3×3卷积器和4×4上采样层进行上采样。

一种从虚拟到现实的无监督遥感图像语义分割模型，包括：伪遥感图像生成模型和语义分割模型；所述伪遥感图像生成模型与所述语义分割模型相连，用于将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至所述语义分割模型，实现所述语义分割模型的训练；

所述语义分割模型，包括编码器、中间融合层、空洞卷积层和解码器；

所述编码器包括细节特征提取模块和语义特征提取模块，所述细节特征提取模块和所述语义特征提取模块分别通过卷积对细节特征和语义特征进行提取；

所述中间融合层与所述细节特征提取模块和所述语义特征提取模块分别相连，用于将提取到的语义特征结果和细节特征结果进行融合，得到第一融合结果；

所述空洞卷积层与所述语义特征提取模块相连，用于将所述语义特征提取模块提取到的语义特征结果进行空洞卷积；

所述解码器与所述空洞卷积层相连，用于将空洞卷积后的语义特征结果进行反卷积，将所述第一融合结果与对应的反卷积过程中特征层进行融合，以及将细节特征提取过程中的特征层与对应的反卷积过程中特征层分别进行融合，输出真实遥感图像的语义分割结果。

优选的，所述伪遥感图像生成模型包括生成器、预设语义分割模型、风格判别器和语义判别器；

所述生成器用于对游戏图像进行特征提取，得到由游戏图像迁移后得到的伪遥感图像；

所述预设语义分割模型用于对伪遥感图像进行语义分割；

所述风格判别器用于对所述生成器生成的伪遥感图像或真实遥感图像进行风格判别；

所述语义判别器用于对所述游戏图像语义分割模型得到的语义分割结果进行判别；

其中，所述预设语义分割模型预先通过游戏图像进行语义分割训练。

优选的，所述细节特征提取模块为可变形卷积网络，包括三层卷积层；所述语义特征提取模块采用MobileNet作为主干网络。

优选的，所述中间融合层包括细节特征处理单元、语义特征处理单元、细节特征下采样单元、语义特征上采样单元和融合单元；

所述细节特征处理单元和所述语义特征处理单元分别用于对所述细节特征结果和所述语义特征结果进行上采样和池化，分别得到细节特征处理结果和语义特征处理结果；

所述细节特征下采样单元和所述语义特征上采样单元分别用于对所述细节特征结果下采样以及对所述语义特征结果上采样；

所述融合单元将下采样后的细节特征结果与所述语义特征处理结果进行融合，将上采样后的语义特征结果与所述细节特征处理结果进行融合，并将所得到的两个融合结果进行进一步融合。

优选的，所述细节特征处理单元和所述语义特征处理单元均通过3×3卷积器和1×1卷积器实现上采样和池化；

所述细节特征下采样单元包括3×3卷积器和3×3池化层；

所述语义特征上采样单元包括3×3卷积器和4×4上采样层。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种从虚拟到现实的无监督遥感图像语义分割方法及模型，该方法及模型通过游戏图像来进行风格迁移，使用迁移后生成的伪遥感图像进行语义分割网络训练，从而可以实现遥感图像的语义分割，解决了现有技术中存在的语义分割模型多数是针对自然图像较少针对遥感图像的问题，而且，本发明中的语义分割模型对细节特征和语义特征分别进行提取，有效提高道路的最终分割精度，保留高分辨率的细节特征，空洞卷积层能有效扩大感受野并获得更好的语义特征，由于在本模型中细节特征已经单独进行提取了，所以在语义特征部分不使用过于复杂的网络，也减小了了网络过拟合的可能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割方法的整体流程示意图；

图2附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割方法的S2的流程示意图；

图3附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型的整体结构示意图；

图4附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型中语义分割模型的结构示意图；

图5附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型中中间融合层的结构示意图；

图6附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型中伪遥感图像生成模型的结构示意图；

图7附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型的网络结构约束图；

图8附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型中游戏图像生成伪遥感图像结果示意图；

图9附图为本发明提供的一种从虚拟到现实的无监督遥感图像语义分割模型的最终分割结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种从虚拟到现实的无监督遥感图像语义分割方法，如图1-2所示，包括以下步骤：

S1.将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至语义分割模型，得到训练后的语义分割模型；

S2.将待测的真实遥感图像输入至训练后的语义分割模型中完成真实遥感图像的语义分割；

其中，真实遥感图像的语义分割的具体方法包括：

S23.将第一融合结果与对应的反卷积过程中特征层进行融合，以及将细节特征提取过程中的特征层与对应的反卷积过程中特征层分别进行融合，输出真实遥感图像的语义分割结果。

为了进一步实施上述技术方案，S1的具体内容包括：

对游戏图像进行特征提取，得到由游戏图像迁移后得到的伪遥感图像；对生成的伪遥感图像进行风格判别，同时通过预设语义分割模型对伪遥感图像进行语义分割，并对游戏图像语义分割模型得到的语义分割结果进行判别；

为了进一步实施上述技术方案，S21的具体内容包括：

为了进一步实施上述技术方案，S22中获取第一融合结果的具体内容包括：

(1)分别对细节特征结果和语义特征结果进行卷积操作，得到细节特征处理结果和语义特征处理结果；

(2)分别对细节特征结果下采样，对语义特征结果上采样；

(3)将下采样后的细节特征结果与语义特征处理结果进行融合；将上采样后的语义特征结果与细节特征处理结果进行融合，并将所得到的两个融合结果进行进一步融合，得到第一融合结果。

为了进一步实施上述技术方案，步骤(1)的具体内容包括：对细节特征结果和语义特征结果均通过3×3卷积器和1×1卷积器，得到细节特征处理结果和语义特征处理结果；

步骤(2)的具体内容包括：将细节特征处理结果通过3×3卷积器和3×3池化层进行下采样；将语义特征处理结果通过3×3卷积器和4×4上采样层进行上采样。

一种从虚拟到现实的无监督遥感图像语义分割模型，包括：伪遥感图像生成模型和语义分割模型；伪遥感图像生成模型与语义分割模型相连，用于将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至语义分割模型，实现语义分割模型的训练；

语义分割模型，包括编码器、中间融合层、空洞卷积层和解码器；

编码器包括细节特征提取模块和语义特征提取模块，细节特征提取模块和语义特征提取模块分别通过卷积对细节特征和语义特征进行提取；

中间融合层与细节特征提取模块和语义特征提取模块分别相连，用于将提取到的语义特征结果和细节特征结果进行融合，得到第一融合结果；

空洞卷积层与语义特征提取模块相连，用于将语义特征提取模块提取到的语义特征结果进行空洞卷积；

解码器与空洞卷积层相连，用于将空洞卷积后的语义特征结果进行反卷积，将第一融合结果与对应的反卷积过程中特征层进行融合，以及将细节特征提取过程中的特征层与对应的反卷积过程中特征层分别进行融合，输出真实遥感图像的语义分割结果。

为了进一步实施上述技术方案，伪遥感图像生成模型包括生成器、预设语义分割模型、风格判别器和语义判别器；

生成器用于对游戏图像进行特征提取，得到由游戏图像迁移后得到的伪遥感图像；

预设语义分割模型用于对伪遥感图像进行语义分割；

风格判别器用于对生成器生成的伪遥感图像或真实遥感图像进行风格判别；

语义判别器用于对游戏图像语义分割模型得到的语义分割结果进行判别；

其中，预设语义分割模型预先通过游戏图像进行语义分割训练。

为了进一步实施上述技术方案，细节特征提取模块为可变形卷积网络，包括三层卷积层；语义特征提取模块采用MobileNet作为主干网络。

为了进一步实施上述技术方案，中间融合层包括细节特征处理单元、语义特征处理单元、细节特征下采样单元、语义特征上采样单元和融合单元；

细节特征处理单元和语义特征处理单元分别用于对细节特征结果和语义特征结果进行上采样和池化，分别得到细节特征处理结果和语义特征处理结果；

细节特征下采样单元和语义特征上采样单元分别用于对细节特征结果下采样以及对语义特征结果上采样；

融合单元将下采样后的细节特征结果与语义特征处理结果进行融合，将上采样后的语义特征结果与细节特征处理结果进行融合，并将所得到的两个融合结果进行进一步融合。

为了进一步实施上述技术方案，细节特征处理单元和语义特征处理单元均通过3×3卷积器和1×1卷积器进行权重的自适应调整；

细节特征下采样单元包括3×3卷积器和3×3池化层；

语义特征上采样单元包括3×3卷积器和4×4上采样层。

下面将结合模型图进一步说明上述技术方案：

图3为模型的整体结构示意图，根据图4可以看出语义分割模型整体采取了U型网络结构，在解码器的不同层都会和编码器中相对应的特征层进行融合，以保证网络多尺度信息的获取。在编码器中含有两路分支，这两路分支分别提取丰富的细节特征和高层的语义特征。其中针对于细节特征提取模块，本实施例中仅使用了三层卷积层，主要是为了能提高道路的最终分割精度，保留高分辨率的细节特征。为了更好地对细节特征进行提取，这个分支整体使用了可变形卷积层。语义特征提取模块针对高层的语义特征进行提取，使用了MobileNet作为主干网络，并添加了空洞卷积层，以求能有更大的感受野并获得更好的语义特征。由于在本模型中细节特征已经单独进行提取了，所以在语义特征部分不使用过于复杂的网络，也减小了了网络过拟合的可能性。

中间融合层的网络结构如图5所示，这里针对细节特征和语义特征分别进行卷积、上采样、池化来进行融合而非直接相加是由于网络结构决定的。在一般的语义分割网络结构中，都只有一路分支，而本实施例采取了两路分支即两个模块的结构。这两个模块是互不影响的，它们并不能获取相互之间的信息，但细节特征和语义特征在特征的表示上应该是互补呈现的，所以添加了一个融合的过程。该融合过程将语义特征结果上采样指导细节特征，细节特征下采样指导语义特征，二者再融合。这样可以从两个支路都获取到信息，而添加的这些卷积层随着网络的训练进行学习，使其可以从两者中提取得到正确有效的信息。

基于迁移学习的遥感风格图像生成结构如图6所示，在图中仅画了单边结构。可以从图中看出，网络中使用了两个判别器风格判别器与语义判别器来对生成器结果进行判别。其中风格判别器是风格迁移网络中通常会使用的部分，直接对生成器的图片结果进行判别。如图中风格判别器部分的图像所示意，这部分的目的是使得生成器具有风格迁移的能力。风格判别器的输入图片为真实的遥感图与游戏图迁移后生成的遥感图，本部分在数据集构建中不停地训练进行参数更新。语义判别器部分针对生成图像通过语义分割网络后得到的语义分割结果进行判别，这部分的语义分割网络的参数是固定的，由预先使用游戏图像进行语义分割生成模型训练得来的，故在训练迁移学习的网络中不进行参数更新。语义判别器中使用交叉熵损失函数而非判别器损失函数，其中损失函数进行对比的两部分为原游戏图像进行语义分割的结果以及风格迁移过后的图像用语义分割网络进行测试的结果。如图中所示，语义判别器的主要目的是：在对应图像风格迁移的过程中确保图像所得到的语义分割结果不变，也即图像中的道路的语义信息可以不发生变化。

在训练过程中，由于没有游戏图像到遥感图像的一一对应数据进行学习，所以使用了两种约束方式对网络进行监督学习，网络结构约束图如图7所示，其中虚线代表约束。图中的f表示几何变换，G表示生成器。(1)CycleGAN模型中的循环网络约束，及一幅图像经过两次风格迁移后应与原图一样。(2)几何约束，一张图片经过几何变换(旋转、翻转、缩放等)后的风格迁移图像应与其风格迁移后经过几何变换的图像一致。

为了证明该模型的有效性，最终使用Massachusetts Road Dataset遥感图像数据集进行测试来进行结果分析。由于生成对抗网络结构的显存占用较大，所以使用了TeslaV100来进行训练，该卡为32G显存。在训练过程中使用了GTAV中的游戏数据，包括其游戏地图和游戏标注图。遥感图像数据仅使用图像而不使用对应的语义分割标注。

使用游戏图进行的迁移结果如图8所示，从图中可以看出，经过迁移后的图像保留了游戏图像中的内容，但是风格变为与遥感图像更为接近。

最终在Massachusetts Road Dataset遥感图像数据集上的无监督结果如图9所示。在训练过程中仅使用了游戏的语义分割标注与遥感图像原图即可，实现了无监督。可以从图中看出，使用本发明，可以成功利用游戏中的图像数据实现无监督的遥感图像语义分割。在无监督的情况下，将道路区域大部分正确分割出来，且虚警较少。

综上，本发明提出的一种针对遥感图像的语义分割的算法模型，为了符合遥感图像地物复杂的特点，分割模型整体使用了U型网络结构，使语义分割网络中的解码器获取编码器中多个尺度的特征图。为了增强分割模型的特征提取与表达能力，设计了细节特征与语义特征两个模块：一个模块提取丰富的细节特征，另一个模块获得更大的感受野，能够更好地提取语义特征。

本发明提出的该通过迁移学习进行无监督的遥感图像语义分割方法，在迁移学习中引入了语义判别器，确保其在迁移过程中语义分割结果的不变性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种从虚拟到现实的无监督遥感图像语义分割方法，其特征在于，包括以下步骤：

其中，真实遥感图像的语义分割的具体方法包括：

2.根据权利要求1所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，S1的具体内容包括：

3.根据权利要求1所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，S21的具体内容包括：

4.根据权利要求1所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，S22中获取第一融合结果的具体内容包括：

5.根据权利要求4所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，步骤(1)的具体内容包括：对所述细节特征结果和所述语义特征结果均通过3×3卷积器和1×1卷积器，得到细节特征处理结果和语义特征处理结果；

6.一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，包括：伪遥感图像生成模型和语义分割模型；所述伪遥感图像生成模型与所述语义分割模型相连，用于将游戏图像转换为伪遥感图像，利用游戏的语义分割数据生成伪遥感图像语义分割数据，并将伪遥感图像语义分割数据发送至所述语义分割模型，实现所述语义分割模型的训练；

7.根据权利要求6所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，所述伪遥感图像生成模型包括生成器、预设语义分割模型、风格判别器和语义判别器；

所述预设语义分割模型用于对伪遥感图像进行语义分割；

8.根据权利要求6所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，所述细节特征提取模块为可变形卷积网络，包括三层卷积层；所述语义特征提取模块采用MobileNet作为主干网络。

9.根据权利要求6所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，所述中间融合层包括细节特征处理单元、语义特征处理单元、细节特征下采样单元、语义特征上采样单元和融合单元；

10.根据权利要求9所述的一种从虚拟到现实的无监督遥感图像语义分割模型，其特征在于，所述细节特征处理单元和所述语义特征处理单元均通过3×3卷积器和1×1卷积器实现上采样和池化；

所述细节特征下采样单元包括3×3卷积器和3×3池化层；

所述语义特征上采样单元包括3×3卷积器和4×4上采样层。