CN115861818A

CN115861818A - 基于注意力机制联合卷积神经网络的细小水体提取方法

Info

Publication number: CN115861818A
Application number: CN202211671509.XA
Authority: CN
Inventors: 许丽佳; 冯澳; 石小仕; 唐座亮; 王玉超; 伍志军; 杨宇平; 赵永鹏; 黄鹏; 邹志勇
Original assignee: Sichuan Agricultural University
Current assignee: Sichuan Agricultural University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-28

Abstract

本发明公开了基于注意力机制联合卷积神经网络的细小水体提取方法，属于水资源信息采集和分析技术领域；包括对原始遥感图像数据进行假彩色处理和生成‑判别对抗处理，通过多尺度输入得到待提取图像数据；输入卷积联合Transformer网络后，进行多次特征提取，得到具有多级特征的特征图，随后将特征图分割并得到多个特定大小的图像块嵌入；最后在decoder中使用卷积操作和上采样操作，将来自不同层的特征进行自底向上的逐层融合，得到处理后的特征图，转换输出后得到完成预测的细小水体提取图；本发明用少量的CNN层数，使特征提取的感受野变得更为丰富，保证了遥感图像中细小水体特征的保留，并经过实验表明，本发明方法在细小水体提取方面的效果显著。

Description

基于注意力机制联合卷积神经网络的细小水体提取方法

技术领域

本发明属于水资源信息采集和分析技术领域，应用于对细小水体的提取过程中，具体为基于注意力机制联合卷积神经网络的细小水体提取方法。

背景技术

在水资源信息采集和分析领域中，从遥感图像中提取水体信息，具有重要的地位；近年来，随着各种高分辨率遥感卫星的数量增加，如何利用遥感图像检测范围广、成像周期短和信息量丰富的特点，从而快速获取地表水资源分布情况，已成为相关研究的重点。

传统的遥感水体提取方法，特点在于增强水体信息的同时，抑制干扰信息，强化水体与非水体的差异来实现水体提取；因此，传统方法受制于城市与山体阴影等不同区域的限制，往往需要使用多种方式方法的结合，才能更精确的获取水体信息。

随着人工智能的发展，深度学习神经网络等高兴技术已成为自动化水信息提取和智能监测的主要策略思路之一；目前的研究中，神经网络的水体提取方法，仍然存在各种问题，最主要的表现在于，难以在保证整体提取效果的情况下，提高对细小水体的提取精度，而这些细小水体同样是水资源信息采集和分析过程中必不可少的重要信息。因此，基于深度学习神经网络在自动化水信息提取和智能监测的过程中，如何更好的完成细小水体提取任务，是仍未解决的重点问题。

发明内容

为了解决背景技术中提到的问题，准确高效的完成细小水体提取任务，本发明提出了一种基于注意力机制联合卷积神经网络的细小水体提取方法；通过卷积联合Transformer网络(CUT-net)，用少量的CNN层数，使特征提取的感受野变得更为丰富，从而保证了遥感图像中细小水体特征的保留；通过GAN的数据增强算法，保留水体特征并同时强化细小水体特征；通过多尺度的输入策略，确保水体细节提取的有效性；经过大量实验测试后，本发明的方法可以提高水体提取任务的精度，并且在细小水体提取任务中的效果十分显著。

本发明采用了以下技术方案来实现目的：

基于注意力机制联合卷积神经网络的细小水体提取方法，包括：

获取原始遥感图像数据，对原始遥感图像数据进行预处理，得到待提取图像数据；

以CNN网络和视觉Transformer网络为基础，通过组合形成encoder结构，构建得到卷积联合Transformer网络，并将待提取图像数据输入至卷积联合Transformer网络；

卷积联合Transformer网络对输入的待提取图像数据，进行多次特征提取，得到具有多级特征的特征图，随后通过Transformer将特征图分割为固定大小的图像块，转换为二维向量，最终得到多个特定大小的图像块嵌入；

构建decoder，decoder中使用卷积操作和上采样操作，将来自不同层的特征进行自底向上的逐层融合，从而对图像块嵌入进行特征融合及输出处理，得到处理后的特征图，对处理后的特征图中的每一个像素进行分类，转换输出后得到完成预测的细小水体提取图。

进一步的，所述对原始遥感图像数据进行预处理，具体包括：对原始遥感图像数据依次进行假彩色处理和生成对抗网络GAN处理，从而得到待提取图像数据。

进一步的，所述假彩色处理的过程为：将原始遥感图像数据的绿波段、红波段和红外波段分别赋给RGB参数中的蓝色、绿色和红色波段，从而得到经过假彩色处理的图像数据。

进一步的，所述生成对抗网络GAN处理的过程为：训练生成对抗网络，所述生成对抗网络用于增强普通水体和细小水体的特征，包括生成网络和判别网络；所述生成网络包括15个卷积层，所述判别网络包括8个卷积层；每个卷积层都采用批标准化与ParametricReLU；将经过假彩色处理的图像数据输入生成对抗网络并获得输出后，从而得到待提取图像数据。

由于原始数据尺寸通常过大，直接输入势必会增加算力负担，考验训练成本。此外，若输入数据过大，在模型训连过程中一些重要的图像细节信息容易丢失。输入的图像过小，对于包含复杂信息的遥感图像而言，其包含的目标物会难以被发现进而产生大量误差。过大或过小的图像都会对最终的结果产生负面影响，所以多尺度的输入策略显得尤为重要。

进一步的，在对原始遥感图像数据进行预处理前，还进行数据多尺度输入处理，通过对原始遥感图像数据进行随机切割、旋转和添加噪声点处理，将对应的每张图片扩展为包括多张不同尺寸大小图片的子图片集；原始遥感图像数据在经过数据多尺度输入处理后，所得到的子图片集的图片尺寸大小包括128×128、256×256、512×512和1024×1024。

进一步的，对不同尺寸大小的子图片集中的多张图片分别进行预测并得到提取结果后，对小尺寸的结果通过具有重叠步长窗口滑动的方式拼接成一张结果，对大尺寸的结果则采用切割的方式，最终得到不同尺寸数量相对应的多张细小水体提取图。

对卷积联合Transformer网络的实现说明，由于CNN感受野有限，使其难以捕获整张图片的全局信息；视觉Transformer由于能够捕获一张图片的全局信息，因此在许多视觉任务中超越许多CNN结构。虽然在理论上Transformer比CNN能取得更好的效果，但实际上因为计算全局注意力导致训练过程中产生了巨大的计算损失，耗费大量的GPU内存资源和运行时间。Transformer归纳偏置(inductive bias)的能力较为欠缺，特别是在结构较为简单的网络中，特征图越大，计算复杂度会越高。CNN感受野有限导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系。但CNN归纳偏置的能力又能很好的解决Transformer中局部特征提取较难，训练资源浪费较多的问题。

进一步的，所述将待提取图像数据输入至卷积联合Transformer网络时，首先对待提取图像数据进行1×1的卷积，得到与待提取图像尺寸相同的向量后，再通过卷积联合Transformer网络进行多次特征提取及融合多级特征。

进一步的，所述卷积联合Transformer网络进行多次特征提取及融合多级特征的过程具体为：第一层卷积网络利用256个3×3大小的卷积并设置padding＝same，对待提取图像数据进行第一次特征提取，经过relu函数映射后保留第一级特征并直接输出，与原始特征对应像素直接相加，再传入第二层卷积网络；第二层卷积提取采用与第一层同样个数和大小的卷积核，得到的第二级特征也与第一级特征和原始特征对应像素相加，从而得到具有三级特征的特征图，经过relu激活后传入到Transformer中。

进一步的，在decoder中，对输入不同层Transformer处理后的Patch encoding采用不同的下采样率处理，从而分别得到尺寸为(H/2,W/2)，(H/4,W/4)，(H/8,W/8)，(H/16,W/16)的特征图；同时，decoder中将来自不同层的特征进行自底向上的逐层融合过程为：每次2倍上采样之后，特征图的尺寸减半，并与上一层特征输出进行拼接得到新的特征；在每层融合特征层之后进行一个3×3的卷积操作；在最后将顶层特征图以及三层融合后的输出层特征分别按通道维度进行拼接级联，采用4倍双线性上采样操作，最终得到输出维度为H×W×C的特征图；对最后得到的特征图中的每一个像素进行分类，分类类别与目标分类个数相关，转换输出后得到完成预测的细小水体提取图。

综上所述，由于采用了本技术方案，本发明的有益效果如下：

本发明所公开的基于CNN和Transformer的卷积联合Transformer网络，用少量的CNN层数，使特征提取的感受野变得更为丰富，从而保证了遥感图像中细小水体特征的保留；同时，在对原始遥感图像数据的预处理过程中，通过基于生成对抗网络GAN的数据增强算法，对遥感图像进行重建，保留普通水体特征并强化了细小水体特征；再配合多尺度的输入策略，从而进一步确保了对于水体细节提取的有效性。

与多种传统的遥感水体提取方式相比，本发明的方法可以提高水体提取的精度，在细小水体提取方面的效果也十分显著，预测精度能达到95.63％，并仍然有提升空间，且最后得到的细小水体提取图的水体提取边缘平滑准确。

附图说明

图1为本发明的方法流程示意图；

图2为视觉Transformer网络的思想结构示意图；

图3为进行了假彩色处理后的遥感图像示意图；

图4为生成对抗网络GAN的网络结构示意图；

图5为不同数据处理方式下的图像效果示意图；

图6为多尺度的输入策略的示意图；

图7为卷积联合Transformer网络的结构示意图；

图8为CNN网络和Transformer网络组合形成的encoder结构示意图；

图9为decoder的结构示意图；

图10为不同网络方法对细小水体提取任务的提取结果对比示意图；

图11为使用本方法对特定样本进行提取后的结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以按各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为基于注意力机制联合卷积神经网络的细小水体提取方法，包括：

在对本实施例的方法做详细具体的介绍前，首先对相关概念做解释说明，以便于更好的理解本实施例中所运用的深度学习网络原理。首先对Transformer进行说明。

Transformer没有使用传统的CNN，而是用注意力(Attention)机制来捕捉图像上的感受野。整个网络结构完全是由注意力机制组成的。Transformer的思想可参看图2的示意。Transformer将图像按照固定的patch划分，再对不同的patch进行Embedding操作。Transformer模块要求的输入为二维向量，故需对三维图片进行Embedding操作。将每个patch对应的二维token同预先设定的分类token拼接，传入到N个Encoder中进一步训练，最后经由MLP Head层得到分类结果。Encoder中包含了最重要的Multi-Head Attention，MLPHead中包含了Linear及Dropout操作。

接着对生成对抗网络(Generative Adversarial Networks，GAN)进行说明。

生成对抗网络包含有两个模型，一个是生成模型(generative model)，一个是判别模型(discriminative model)。其中生成模型是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。判别模型是一个判别网络，判别一张图片是不是“真实的”。它的输入是x，x代表一张图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，而输出为0，就代表不可能是真实的图片。通过互相对抗进行学习提高模型的生成与判别能力，其目标函数如下：

式中，z为随机噪声，x表示真实数据，θ和ω分别表示G和D的参数。

接着对假彩色处理进行说明，彩色是图像增强的处理方法之一，是将多谱段黑白图像变为彩色图像的处理技术。利用光学方法合成假彩色是将黑白透明图片放入配有特定的红、绿、蓝三色滤光片的光学系统内，投影到同一屏幕上，使图像精确重合，形成彩色图像。若采用数字处理合成是则令三图像的像元亮度值变换为红、绿、蓝三基色的彩色编码去控制彩色显示设备，形成彩色图像，其颜色组合可以是任意的。

以下对本实施例的方法过程及细节进行详细介绍。

本实施例中，进行细小水体提取任务所用的数据集，是由高分辨率多光谱成像卫星进行采集获得的，卫星携带有一枚多光谱成像仪(MSI)，覆盖13个光谱波段，幅宽达290千米，由于需评估验证细小水体提取任务的有效性，本实施例所采集的原始遥感图像数据将包含大量普通水体及细小水体，通过采集获取后，将遥感图像分别作为训练数据和测试数据，空间分辨率为10m。如图3所示即为进行了假彩色处理后的遥感图像示意，同时，利用labelme数据标注软件，对细小水体进行人工标注，保证数据的科学性。

对原始遥感图像数据采用的标准假彩色处理，将遥感数据的绿波段、红波段、红外波段分别赋给RGB参数中的蓝色、绿色和红色波段，即可完成。

接下来，由于在大尺度的遥感空间中，细小水体所占的比例极小，导致其难以被检测，本实施例通过实现超分辨率，训练了一个生成对抗网络GAN，用于强化普通水体和细小水体的特征，生成对抗网络GAN的网络结构如图4所示。

如图4所示，在生成网络部分，共包括5个blocks，每个blocks区域中包括两个卷积层Conv，在blocks区域外也具有卷积层，生成网络部分的卷积层总共有15个；在blocks区域外的第一个与最后一个卷积层包含了大小为9×9，个数为64的卷积核，并且步长为1。其余的卷积层包含了大小为3×3，个数为64的卷积核。每个卷积层都采用了批标准化与Parametric ReLU。在判别网络部分，则共包含8个卷积层，3×3过滤内核，从64个内核增加到512个，增加了2倍。经过假彩色处理和生成对抗网络GAN处理的图像如图5所示。

在本实施例中，由于采用的原始数据大小为10240×10240，如此大的数据直接输入势必会增加算力负担，考验训练成本。同时，若输入数据过大，在模型训练过程中，一些重要的图像细节信息容易丢失。虽然本实施例中采用的遥感数据空间分辨率为10m，但在图像中一些较为狭窄的城市水道在影像感知中最小只有1至10个像素宽度。若输入数据过小，对于包含复杂信息的遥感图像而言，其包含的目标物会难以被发现进而产生大量误差。因此，过大或过小的图像都会对最终的结果产生负面影响，所以本实施例采用了多尺度的输入策略，这是用于改善负面影响的重要手段。

通过将原始遥感图像数据处理并得到大小为2048×2048的数据后，再进行随机切割、旋转和添加噪声点，从而将每张图片扩展为包含不同大小子图片的子图片集，所得到的子图片集的图片尺寸大小包括128×128、256×256、512×512和1024×1024，可参看图6的示意。

表1不同尺寸的图像数量表

Image size	Number
		128*128	4096
256*256	1024
		512*512	256
1024*1024	64

如图6所示，对于小尺寸的预测结果，可通过具有重叠步长窗口滑动的方式拼接成一张大图，对大尺寸的图像则采用切割的方式，来实现多尺度的输入策略。得到不同尺寸的数量相对应的n张预测图，也可以通过滑动缝合做到对一张大图的水体提取。最终包含的多尺度图像数量如表1所示。

接下来对卷积联合Transformer网络做具体介绍，首先为实现原理特点。由于CNN感受野有限，使其难以捕获整张图片的全局信息。视觉Transformer由于能够捕获一张图片的全局信息，因此在许多视觉任务中超越许多CNN结构。虽然在理论上，Transformer比CNN能取得更好的效果，但实际上因为计算全局注意力导致训练过程中产生了巨大的计算损失，耗费了大量的GPU内存资源和运行时间。Transformer归纳偏置(inductive bias)的能力较为欠缺，特别是在结构较为简单的网络中，特征图越大，计算复杂度会越高。CNN感受野有限导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系。但CNN归纳偏置的能力又能很好的解决Transformer中局部特征提取较难，训练资源浪费较多的问题。因此本实施例中的卷积联合Transformer网络发挥并结合了二者的特点，在细小水体提取任务中表现优异。卷积联合Transformer网络的结构如图7所示。

在输入端多尺度输入大小为256×256的待提取图像数据，并对其划分patch。输入的前4层为Conv model，首先对输入图像进行1×1的卷积，保留其原始特征并将其展平为二维向量。得到与原图像尺寸相同的向量后，进行融合多级特征的卷积提取过程，以CNN网络和Transformer网络组合形成的encoder结构为主，encoder结构可参看图8的示意。

本实施例中，利用256个3×3大小的卷积并设置padding＝same，对输入图像进行第一次特征提取，经过relu函数映射后保留第一级特征并直接输出，与原始特征对应像素直接相加，再传入下一层卷积网络。第二层卷积提取采用同样个数和大小的卷积核，保证输入与输出尺寸相同。第二层卷积得到的第二级特征图也与之前两层特征图相加，得到具有三级特征的特征图，经过relu激活后传入到Transformer中。

Transformer将输入特征图分割为固定大小的patch，并转换为一个二维向量。三次特征提取具有的感受野并不算大，但通过Transformer全局获取其特征并传入搭建的N层Encoder Block结构后，所获得的感受野就相当于原始CNN网络中几十层的效果；初始输入图像尺寸为256×256×3，被切分并展平为通道数为3、尺是32、个数为(256×256)/(32×32)＝64的图像块，即Patch，每个图像块均有32×32×3＝3072个像素。馈入线性投影层后，将通道数由3降维为1，得到个数为64、大小为1024的图像块嵌入。

经过上述内容后，CNN与Transformer保证了特征提取部分的有效性，但还需对decoder进行设计才能进一步保证提取准确度。本实施例设计了一个简洁的decoder，具体结构如图9所示。

本实施例中，对输入不同层Transformer处理后的Patch encoding采用不同的下采样率处理，分别得到尺寸为(H/2,W/2)，(H/4,W/4)，(H/8,W/8)，(H/16,W/16)的特征图。在Decoder中为了使计算量和参数量较小以便方法高效的运行，只采用了卷积操作和上采样操作。为了使特征得到增强，将来自不同层的特征进行自底向上的逐层融合(element-wiseaddtion)。每次2倍上采样之后特征的尺寸减半，并与上一层特征输出进行拼接得到新的特征。在每层融合特征层之后进行一个3×3的卷积操作。在最后将顶层特征图以及三层融合后的输出层特征分别按通道维度进行拼接级联，采用4倍双线性上采样操作，最终得到输出维度为H×W×C的特征图。对最后的特征图中的每一个像素进行分类，分类类别与目标分类个数有关，转换输出后得到最终的预测结果图，即完成预测的细小水体提取图。

实施例2

在实施例1的基础上，本实施例以评价指标来衡量基于注意力机制联合卷积神经网络的细小水体提取方法的效果，具体过程如下。

以PA、召回率Recall和IoU值作为评价指标。其中PA代表像素准确率，反映预测类别正确的像素数量占总像素的比例。IoU值为交叉比是衡量图像分割精度，对每个类别计算IOU值，IOU值越高，一般意味着分类和预测效果越好。召回率用于计算正确分类的水体像素与图像中标记为水体的像素总数之比。各评价指标的计算公式分别如下。

评价指标计算公式中，T_P代表被正确分类的水体像素数，T_N表示被正确分类的非水体像素数，F_P是被误分类为水体的非水体像素数，F_N代表被误分类为非水体的水体像素数。

为了验证本实施例中方法的适用性，在验证数据方面选择包含大量普通水体且包括细小水体的图像用作测试数据，并对本实施例的方法及多种传统技术方法进行测试后，得到的测试结果如图10所示。图10中最右侧一列结果OURS为本实施例中的方法的提取结果。

图10中的a行表明，与其他方法相比，本实施例的方法获得了更完整、更平滑的水体边缘细节。b、c、d行同时是包含了普通水体与大量细小水体的测试数据，从测试结果综合来看，本实施例的方法表现更好，能在保证对普通大小水体提取的同时准确识别出细小水体。e行显示，本实施例的方法能很好的区分水体边界与城市范围，从而提升水体分割效果，在城市内部进行有无水体判断。而在对于水体中包含船只与其余地物的b、f行测试数据中，相比于其他方法，本方法能准确的分理出非水体的目标物，保证了水体提取的准确性。从b行可以发现，在极小的河流提取任务中，本实施例的方法能更好的提取到遥感图像的空间信息。

从图10中a、c、f行的3张NDWI的测试结果图来看，在针对河流、及河流分支这种包含较大单一水体信息的图像时，NDWI能提取出大致的水体范围。但涉及到水体边缘连接城市的情况及提取城市中的水体的情况是，效果较差。从图10中b、d、e行的3张测试数据在NDWI的方法下的水体提取结果来看，NDWI对于小水体的分布不能进行连续且准确的提取。此外在水体边缘靠近城市时，提取结果则不时NDWI容易把城市建筑部分误判为水体，影响提取精度。

FCN又被称为全卷积神经网络Fully Convolutional Networks，采用了全卷积层的特征提取结构。从图10中FCN的d、e、f行的提取效果来看，FCN得到的结果不够精确，对于水体边缘的划分也不够清晰，缺少对细节的处理能力。从图10中提取结果a、d、e行来看，在进行较大水体提取时，DeepLabV3能较为准确的对水体信息进行提取，对于水体中包含其余的地物的情况也能较好的识别，但对较小的水体几乎不能准确识别。在对图10提取结果b、c、f行中具有较小水体分支进行识别时，虽然能较为连续的对水体进行提取，但其中包含的地物不能准确区分。

SegNet的网络结构是基于自编码器设计的，利用上采样的方式对低级特征图进行处理。虽然对水体进行提取效果要好于上述模型，但是仍不够精细。对于图10中a、b、d、e行的测试结果，缺少了对细小水体部分的提取，并且对水中存在的船只等不能准确的提取出来。c与f行的测试结果表明，SegNet模型在平滑划分水体边缘具有一定的能力，但还不够精确。U-Net是对比模型中效果表现最好的，能够平滑的划分水体边缘并且也有一定的识别水中其余目标的能力。美中不足的是在关于细小水体的提取任务上表现得不如本实施例的方法所使用的模型网络。

综合测试结果可以看出，本实施例的方法在微小水体的提取上改进明显。此外，利用本实施例的方法所进行的细小水体提取任务，所有水体提取的完整性和边缘细化能力也优于几个对比网络模型所使用的方法。

为了定量的证明本实施例的方法所采用策略的有效性，接下来展示了各种模型的评价指标。并重新选取了一些没有参与训练的遥感图像区域，并将其合并到最终的测试集中，得到最终的模型方法性能对比，如表2所示。可以看出，本实施例的方法在PA、mIOU和召回率上的数值都高于其他模型方法，从而验证了所提出的方法能够提高遥感图像中水体提取的精度。

表中结果可以看到，采用了GAN进行强化特征之后的数据在各项指标上均高于原始数据。但并不是所有模型提升幅度都相同，其中FCN在使用GAN前后PA只增加了大约0.3。而在U-net中，前后不同的数据让PA增加了接近1.7。对于原本对小目标特征提取能力较差的模型，通过强化小特征的方式并不能显著的增加其能力。而对于Unet以及本实施例方法所提出的卷积联合Transformer网络模型(CUTnet模型)而言，由于本身其对小目标特征的提取都具有一定的能力，当小目标特征被强化时，会更进一步促进其对小目标的提取，显著增加提取效果。原始数据与处理后数据的预测图如图11所示，图11中，a列为原始遥感图像，包含微小水体；b列为现有方法的提取结果；c列为数据处理生成的遥感图像；d列为本实施例的方法的提取结果。因此，当类似深度神经网络用于某些领域的分类或预测时，如植被的提取和划分，可以构建对抗网络来进一步增强数据特征。

表2各类模型的评价指标

Model	GAN	PA(％)	IOU(％)	Recall(％)
					NDWI	×	73.46	78.35	72.59
FCN	×	88.82	87.57	87.44
					PSPNet	×	85.36	86.63	85.16
DeepLabV3	×	90.11	89.02	88.67
					SegNet	×	91.88	90.80	91.15
U-Net	×	93.13	92.41	92.38
					OURS	×	94.17	92.53	93.60
PSPNet	√	85.92	87.36	86.49
					DeepLabv3+	√	91.30	91.05	92.59
U-Net	√	94.77	93.67	94.76
					SegNet	√	93.37	92.39	94.54
FCN	√	89.15	88.31	87.73
					OURS	√	95.63	95.86	94.87

由于地面物体和被覆盖的地面物体的大小大多相似，随着网络训练迭代次数的增加，会造成与训练数据的过度拟合或网络的不收敛，使得网络区分相似物体的能力较弱。此外单一尺度的输入，导致网络的泛化能力较弱，对于水体的边界划分显得较为粗糙。采用单输入尺度、多尺度特征很好的解决了这些问题。通过改进输入图像的结构，利用插值算法将不同尺度的图像还原成统一的输入，采用多输入尺度、多尺度特征的方法提取水体。这种方法的优点在于利用插值算法扩大相邻像素之间的特征差异。相比于单一尺度，采用多尺度输入训练后的模型在水体边界划分中更为精准，能够很好的注意到水体边缘的细节。在相似地物上，采用多尺度输入训练后的模型识别能力更强，能够主要到较小细节上的区别。通过上述各实验，也证明了多尺度输入的有效性，有助于增强网络的细节注意力以及增强模型的泛化能力。

综上，本实施例的方法通过提出并构建卷积联合Transformer网络，利用了CNN具有的局部相关性和平移不变性，与Transformer可以捕获捕获长距离依赖关系的能力，使只有几层的卷积网络就能获得相当于几十层卷积的感受野效果。

此外，在对数据进行假彩色处理的基础上，用GAN网络对遥感图像重建和小水体特征增强，有利于提高小水体提取精度。另外，在有限的数据上丰富了训练集的多样性，制定了实现多尺度输入的策略，减弱了相似地物对水体提取的影响，以及对水体边缘尽可能做到平稳划分。经过评价指标和实验证明后，本实施例的方法能对大尺度遥感空间中的水体进行准确提取，并且在城市建筑等环境下的细小水体提取也具有一定的有效性。

Claims

1.基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于，所述对原始遥感图像数据进行预处理，具体包括：对原始遥感图像数据依次进行假彩色处理和生成对抗网络GAN处理，从而得到待提取图像数据。

3.根据权利要求2所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于，所述假彩色处理的过程为：将原始遥感图像数据的绿波段、红波段和红外波段分别赋给RGB参数中的蓝色、绿色和红色波段，从而得到经过假彩色处理的图像数据。

4.根据权利要求3所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于，所述生成对抗网络GAN处理的过程为：训练生成对抗网络，所述生成对抗网络用于增强普通水体和细小水体的特征，包括生成网络和判别网络；所述生成网络包括15个卷积层，所述判别网络包括8个卷积层；每个卷积层都采用批标准化与Parametric ReLU；将经过假彩色处理的图像数据输入生成对抗网络并获得输出后，从而得到待提取图像数据。

5.根据权利要求2所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于：在对原始遥感图像数据进行预处理前，还进行数据多尺度输入处理，通过对原始遥感图像数据进行随机切割、旋转和添加噪声点处理，将对应的每张图片扩展为包括多张不同尺寸大小图片的子图片集；原始遥感图像数据在经过数据多尺度输入处理后，所得到的子图片集的图片尺寸大小包括128×128、256×256、512×512和1024×1024。

6.根据权利要求5所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于：对不同尺寸大小的子图片集中的多张图片分别进行预测并得到提取结果后，对小尺寸的结果通过具有重叠步长窗口滑动的方式拼接成一张结果，对大尺寸的结果则采用切割的方式，最终得到不同尺寸数量相对应的多张细小水体提取图。

7.根据权利要求1所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于：所述将待提取图像数据输入至卷积联合Transformer网络时，首先对待提取图像数据进行1×1的卷积，得到与待提取图像尺寸相同的向量后，再通过卷积联合Transformer网络进行多次特征提取及融合多级特征。

8.根据权利要求7所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于，所述卷积联合Transformer网络进行多次特征提取及融合多级特征的过程具体为：第一层卷积网络利用256个3×3大小的卷积并设置padding＝same，对待提取图像数据进行第一次特征提取，经过relu函数映射后保留第一级特征并直接输出，与原始特征对应像素直接相加，再传入第二层卷积网络；第二层卷积提取采用与第一层同样个数和大小的卷积核，得到的第二级特征也与第一级特征和原始特征对应像素相加，从而得到具有三级特征的特征图，经过relu激活后传入到Transformer中。

9.根据权利要求8所述的基于注意力机制联合卷积神经网络的细小水体提取方法，其特征在于：在decoder中，对输入不同层Transformer处理后的Patch encoding采用不同的下采样率处理，从而分别得到尺寸为(H/2,W/2)，(H/4,W/4)，(H/8,W/8)，(H/16,W/16)的特征图；同时，decoder中将来自不同层的特征进行自底向上的逐层融合过程为：每次2倍上采样之后，特征图的尺寸减半，并与上一层特征输出进行拼接得到新的特征；在每层融合特征层之后进行一个3×3的卷积操作；在最后将顶层特征图以及三层融合后的输出层特征分别按通道维度进行拼接级联，采用4倍双线性上采样操作，最终得到输出维度为H×W×C的特征图；对最后得到的特征图中的每一个像素进行分类，分类类别与目标分类个数相关，转换输出后得到完成预测的细小水体提取图。