CN113191285A

CN113191285A - 基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统

Info

Publication number: CN113191285A
Application number: CN202110500108.7A
Authority: CN
Inventors: 杨公平; 刘一锟; 孙启玉; 邓青; 李红超; 郭伟
Original assignee: Shandong Fengshi Information Technology Co ltd; Shandong University
Current assignee: Shandong Fengshi Information Technology Co ltd; Shandong University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-30
Anticipated expiration: 2041-05-08
Also published as: CN113191285B

Abstract

本发明公开一种基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统，包括：获取包含类别标签的河湖遥感图像，构建训练集；对训练集采用卷积神经网络进行多层特征图的提取；对提取的最后一层特征图采用Transformer的编码器提取注意力特征，对注意力特征采用Transformer的解码器得到自注意力特征图；对自注意力特征图与第一层特征图进行拼接后训练图像分割模型；基于训练后的图像分割模型得到待测河湖遥感图像中目标的类别分割结果。将Transformer引入到遥感图像分割领域，用自注意力机制代替卷积操作，扩大运算时的感受野面积，由于没有下采样和上采样操作，不会造成图像尺度的变化，解决目标丢失问题，克服现有深度学习分割方法在遥感图像分割领域的不足。

Description

基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统

技术领域

本发明涉及卷积神经网络和遥感图像技术领域，特别是涉及一种基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

河湖“四乱”是指河湖周边的“乱建、乱占、乱采、乱堆”现象，随着经济的发展，城镇化进程不断加快，河湖“四乱”问题在很多城市的河湖周边区域屡禁不止，严重影响了城市河湖的生态环境和附近居民的生活质量。河湖“四乱”的整治已经成为城市河湖监管工作的主要内容。

目前，基于高分辨率遥感影像的违章提取方法主要依靠人工目视解译，工作量较大，耗时耗力，难以满足河湖违章信息的快速提取，影响河湖监管和评估工作的及时性和高效性。随着国家高分辨率对地观测系统的持续推进和卫星遥感技术的发展，卫星遥感数据日益丰富，可以充分满足深度学习对数据量的需求。

目前已有的用于河湖“四乱”监测的方法都是基于卷积神经网络的语义分割方法，对遥感图像进行多次下采样和上采样后，利用多个卷积层进行预测。由于遥感数据一般是由卫星或无人机采集得到的，而河湖周边的“四乱”现象一般覆盖面积不大，经过多次下采样后可能会造成目标的丢失，从而影响分割的精度，所以在不影响分割精度、避免目标丢失的前提下，从遥感图像中识别出小面积的河湖“四乱”现象是一个极具挑战性的问题。

发明内容

为了解决上述问题，本发明提出了一种基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统，将Transformer引入到遥感图像分割领域，用自注意力机制代替卷积操作，扩大运算时的感受野面积，由于没有下采样和上采样操作，不会造成图像尺度的变化，解决目标丢失问题，克服现有深度学习分割方法在遥感图像分割领域的不足。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于卷积神经网络和Transformer的河湖遥感图像分割方法，包括：

获取包含类别标签的河湖遥感图像，构建训练集；

对训练集采用卷积神经网络进行多层特征图的提取；

对提取的最后一层特征图采用Transformer编码器提取注意力特征，对注意力特征采用Transformer解码器得到自注意力特征图；

对自注意力特征图与第一层特征图进行拼接后训练图像分割模型；

基于训练后的图像分割模型得到待测河湖遥感图像中目标的类别分割结果。

第二方面，本发明提供一种基于卷积神经网络和Transformer的河湖遥感图像分割系统，包括：

数据获取模块，被配置为获取包含类别标签的河湖遥感图像，构建训练集；

特征图提取模块，被配置为对训练集采用卷积神经网络进行多层特征图的提取；

Transformer模块，被配置为对提取的最后一层特征图采用Transformer编码器提取注意力特征，对注意力特征采用Transformer解码器得到自注意力特征图；

模型训练模块，被配置为对自注意力特征图与第一层特征图进行拼接后训练图像分割模型；

图像分割模块，被配置为基于训练后的图像分割模型得到待测河湖遥感图像中目标的类别分割结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提供一种基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统，用于通过遥感图像对河湖周边乱建、乱占、乱采、乱堆现象的进行监测，克服了现有深度学习分割方法在遥感图像分割领域的不足，对环境变化更加鲁棒，并且进一步提高了分割的速度和精度。

本发明将Transformer引入到遥感图像分割领域，用自注意力机制代替卷积操作，扩大运算时的感受野面积，提升网络的性能且减少运算量和参数量；由于没有下采样和上采样操作，所以不会造成图像尺度的变化，可以有效解决分割时目标丢失的问题，在复杂的遥感图像上也能取得很好的效果，且不受天气变化和光照反射的影响。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于卷积神经网络和Transformer的河湖遥感图像分割方法流程图；

图2为本发明实施例1提供的基于卷积神经网络和Transformer的河湖遥感图像分割方法框架图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1-2所示，本实施例提供一种基于卷积神经网络和Transformer的河湖遥感图像分割方法，包括：

S1：获取包含类别标签的河湖遥感图像，构建训练集；

S2：对训练集进行预处理；

S3：对预处理后的训练集采用卷积神经网络进行多层特征图的提取；

S4：对提取的最后一层特征图采用Transformer编码器提取注意力特征，对注意力特征采用Transformer解码器得到自注意力特征图；

S5：对自注意力特征图与第一层特征图进行拼接后训练图像分割模型；

S6：基于训练后的图像分割模型得到待测河湖遥感图像中目标的类别分割结果。

在所述步骤S1中，从原始遥感图像中随机裁剪出包含河湖“四乱”的图片，对裁剪出的图片进行目视解译，勾画出水体所在区域，形成包含类别标签数据的数据集，用于模型训练时损失值的计算，并按照7：3的比例随机划分训练集和测试集。

在所述步骤S2中，预处理过程包括：将训练集图片和标签的尺寸全部缩放为1024*768；将缩放好的图片进行裁剪，得到尺寸为256*256的正方形图块；随机选取50％的图块进行左右上下随机翻转；计算所有图块RGB三个通道的均值和标准差，以进行输入图块的标准化。

在所述步骤S3中，对预处理后的训练集进行特征提取的过程包括：本实施例采用残差网络ResNet-50V1c作为特征提取网络，ResNet-50利用输入与输出构建残差函数，使得参数更容易优化，使网络层数加深的同时避免过拟合。ResNet-50V1c相比于ResNet-50，引入空洞卷积，能够增大卷积操作的感受野，更加适用于图像分割任务。

故，本实施例将尺寸为256*256的遥感图块输入到ResNet-50V1c中，得到四层特征图，尺寸分别为64*64*256、64*64*512、32*32*1024、32*32*2048。

在所述步骤S4中，将最后一层即第四层特征图输入至Transformer编码器中，所述Transformer编码器包括自注意力模块和多层感知器，本实施例设置一个尺寸为1*2048的可学习的向量为类别标记，用于学习类别，一个尺寸为1025*2048的向量为位置标记，用于记录位置关系；

因为第四层特征具有更加丰富的语义信息，所以将第四层特征输入至Transformer编码器中后，将其变形为1024*2048的向量，然后与类别标记拼接，再与位置标记相加，最终得到尺寸为1025*2048的向量；

然后该向量经过一个全连接层后得到三个向量：Q、K、V，最后经过自注意力模块得到注意力特征，即先计算Q和K的相似度，得到K对应V的权重后对V进行加权；

自注意力算法框架如下：

其中，Attention(Q,K,V)为自注意力机制的输出结果，d_k为K的维度，T表示转置，softmax()为softmax激活函数。

多层感知器是一种前向结构的人工神经网络，包含两层线性连接层和一层Relu激活函数，可以被看作是一个有向图，由多个的节点层所组成，每一层都全连接到下一层；将注意力特征输入到多层感知器得到Transformer编码器的结果。

在所述步骤S4中，将编码得到的注意力特征输入至Transformer解码器中；Transformer解码器的结构与编码器类似，由自注意力模块和多层感知器组成；将编码器的输出送入全连接层后得到三个向量，将三个向量送入自注意力模块后，再输入到多层感知器中，即得到Transformer提取到的特征图。

在所述步骤S5中，由于特征提取网络得到的第一层特征图具有更好的位置信息，所以本实施例中将解码器得到的特征图与特征提取网络得到的第一层特征图进行拼接；

具体地，Transformer得到的特征图尺寸为1024*1024，所以首先将该特征图进行变形，变形至32*32*1024的尺寸，然后经过一层上采样层，得到尺寸为64*64*1024的特征图，将该特征图与尺寸为64*64*256的第一层特征图拼接，拼接后经过一层卷积核尺寸为1的卷积层后得到尺寸为64*64*64的特征图。

在所述步骤S5中，利用拼接后的特征图训练图像分割模型的过程包括：将拼接后的特征图输入至预测器中进行预测，得到包含背景、房子、棚子、坑塘和采砂场等五种类别的预测图，将预测图与对应的标签进行比对，采用交叉熵损失函数计算损失值，进行一次反向传播，加速图像分割模型的训练。

在本实施例中，预测器包含一层卷积核尺寸为1的卷积层。

在本实施例中，模型训练使用SGD优化器，动量为0.9，开始训练时，学习率采用预热的方法逐渐增大至0.01，损失函数采用交叉熵损失，类别数为5，分别代表背景、房子、棚子、坑塘和采砂场；将批次大小设置为4，即训练时四张图片算作一次迭代，共四万次迭代，每次迭代完成后分别输出损失；每当训练集全部迭代一次后进行一次测试，输出测试精度，以便进行神经网络训练程度的预测；四万次迭代后即得到训练好的图像分割模型；随机选择一张待测河湖遥感图像，基于训练好的图像分割模型，即可得到分割效果图。

实施例2

本实施例提供一种基于卷积神经网络和Transformer的河湖遥感图像分割系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，包括：

获取包含类别标签的河湖遥感图像，构建训练集；

对训练集采用卷积神经网络进行多层特征图的提取；

2.如权利要求1所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，对训练集进行预处理，所述预处理过程包括：将训练集和类别标签进行尺寸缩放，尺寸缩放后进行裁剪，得到正方形图块，根据正方形图块RGB通道的均值和标准差，进行图块标准化。

3.如权利要求1所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，采用残差网络ResNet-50V1c作为特征提取网络对训练集进行多层特征图的提取，得到四层特征图。

4.如权利要求1所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，所述Transformer编码器中设置用于学习类别的类别标记和用于记录位置的位置标记，将最后一层特征图进行尺寸变形后与类别标记拼接，再与位置标记相加，将得到的向量输入至全连接层，得到三个向量。

5.如权利要求4所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，基于全连接层的三个向量通过自注意力模块得到注意力特征，包括：计算向量Q和向量K的相似度，得到向量K对应向量V的权重后对向量V进行加权。

6.如权利要求1所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，所述Transformer编码器还包括多层感知器，多层感知器包含两层线性连接层和一层Relu激活函数，将注意力特征输入到多层感知器得到Transformer编码器的结果。

7.如权利要求1所述的基于卷积神经网络和Transformer的河湖遥感图像分割方法，其特征在于，自注意力特征图与第一层特征图进行拼接的过程包括：对自注意力特征图进行尺寸变形，经一层上采样后与第一层特征图拼接，拼接后经一层卷积核尺寸为1的卷积层得到用于训练的特征图。

8.一种基于卷积神经网络和Transformer的河湖遥感图像分割系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。