CN115601549A

CN115601549A - 基于可变形卷积和自注意力模型的河湖遥感图像分割方法

Info

Publication number: CN115601549A
Application number: CN202211564824.2A
Authority: CN
Inventors: 孙启玉; 刘玉峰; 孙平
Original assignee: Shandong Fengshi Information Technology Co ltd
Current assignee: Shandong Fengshi Information Technology Co ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-01-13
Anticipated expiration: 2042-12-07
Also published as: CN115601549B

Abstract

本发明涉及基于可变形卷积和自注意力模型的河湖遥感图像分割方法，属于遥感图像处理技术领域。方法包括：对获取的河湖遥感图像进行类别标注，划分数据集，图像预处理；用卷积神经网络构建的编码器结构进行多层次图像特征的提取；输入Transformer层捕获全局语义信息；利用跳跃连接进行特征图在通道上拼接，多级特征融合；利用边界细化分支网络进一步细化；计算混合损失函数进行模型监督训练。本发明一方面可充分结合CNN提取局部特征和Transformer提取全局信息的优势并利用跳跃连接实现多级特征的融合来取得更准确的结果；另一方面能提高边界特征、小物体、不规则物体特征提取的准确性，还能减少计算量。

Description

基于可变形卷积和自注意力模型的河湖遥感图像分割方法

技术领域

本发明涉及一种遥感图像分割方法，特别涉及一种基于可变形卷积和自注意力模型的河湖遥感图像分割方法，属于卷积神经网络（CNN）、Transformer机制和遥感图像处理技术领域。

背景技术

长期以来，一些地方围湖、非法养殖、占用水域等行为造成河湖面积缩小、水质恶化、破坏生态环境等突出问题，河湖功能严重退化。目前卫星遥感技术正朝着高时间分辨率、高空间分辨率和高光谱分辨率方向发展。遥感影像数据量不断增加，如何快速、高效地提取江湖监管信息成为难题。

以深度学习为代表的人工智能技术，将成为河湖遥感监管的支撑技术，取代传统的视觉判读和图像分类技术。随着遥感和图像处理技术的快速发展，应用遥感技术进行河湖监管已经成为研究热点。尽管基于深度学习的图像分割方法在自然场景领域已经有广泛的研究和应用，但由于遥感图像的成像场景多样化、背景组成复杂、物体的尺度变化较大等特点，其实际的应用具有很大局限性。

在现有的分割方法中，大部分并未针对遥感图像的特点做针对性的改进，网络模型没有学习到重要的特征细节信息，导致在最终结果中存在较多分类错误以及边界错误等问题。

例如基于U型编码器-解码器的方法通过融合多尺度的特征图，输出的特征可以保留详细的局部信息，但大多数方法仅在下采样和上采样路径之间直接建立多个跳跃连接，没有对其进行进一步的处理。对于高分辨率河湖遥感图像，模型提取的低层次的特征图包含更多详细的特征，如物体的内部结构、纹理和颜色特征等，直接通过跳跃连接将其融入到解码器的特征图中可能会带来更多的干扰信息，导致模型预测的不准确性；对河湖遥感图像中广泛存在的不规则物体的特征提取更是一个极大的挑战。

由于CNN模型缺乏对长距离空间依赖性的提取能力，导致模型性能降低。尽管Transformer具有强大的特征提取能力，但是现有的基于Transformer的模型具有巨大的参数数量，需要大量的内存和计算资源，并且计算量会随着图像的尺寸成二次增长，导致难以直接应用于高分辨率的遥感图像的密集预测任务。此外，大多数方法并未考虑到Transformer在提取局部特征方面的局限性，这极有可能导致边缘定位精度的不足，小物体的分割不准确等问题。

发明内容

本发明的目的是针对现有分割方法语义分割准确性不够、广泛存在边界预测错误、物体分割不完整、小物体可能被遗漏等问题，而提供一种基于可变形卷积和自注意力模型的河湖遥感图像分割方法，一方面可以充分结合CNN提取局部特征和Transformer提取全局信息的优势并利用跳跃连接实现多级特征的融合来取得更准确的结果；另一方面又能提高边界特征、小物体、不规则物体特征提取的准确性，还能减少计算量。

本发明采取的技术方案为：

基于可变形卷积和自注意力模型的河湖遥感图像分割方法，包括步骤：

S1. 对获取的河湖遥感图像进行类别标注，划分数据集，并图像预处理；

S2. 用卷积神经网络构建的编码器结构进行多层次图像特征的提取；

S3. 将编码器结构最后一层输出的特征图输入Transformer层捕获全局语义信息，进一步提取深层的图像特征；

S4. 对经Transformer层提取后的特征图进行解码器结构的上采样，上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接，解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接，多层拼接和解码器结构的连续上采样操作实现多级特征融合，恢复细节信息；

S5.利用边界细化分支网络对分割结果进一步细化，修正边界部分预测错误问题；

S6. 计算混合损失函数进行模型监督训练，基于最后得到的图像分割模型获得待测河湖遥感图像中目标的类别分割结果。

上述基于可变形卷积和自注意力模型的河湖遥感图像分割方法中，步骤S1所述的预处理为将图像数据增强，然后将图像随机裁剪为固定的256×256的大小，并标准化处理。

上述步骤S2使用Resnet-50为特征提取网络构建编码器结构进行多层次图像特征的提取，得到四层特征图。

上述步骤S3 所述的Transformer层由堆叠的Transformer块组成，每个Transformer块由一个多头自我注意模块（MSA）和一个多层感知器（MLP）组成。编码器结构最后一层输出的特征图通过扁平化操作得到X _o，并将可学习的位置嵌入E _pos添加到一维特征中，最后输入序列可表示为Z _o=X _o + E _pos。Transformer块将输入的特征图转换为序列数据，通过MSA模块有效建立图像中的长距离依赖关系，输出的结果由MLP模块进一步处理得到具有更强表示能力的全局特征。Transformer层提取的全局特征（全局信息特征）采用Reshape操作将一维序列转换为特征图用于后续的解码器上采样。

上述步骤S4所述的每个跳跃连接中间添加了一个可变形的空间模块（DeformableSpatial Module）来进一步提取不规则形状区域的特征。每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成；其中两个3×3的卷积用于调整编码器输出特征图的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。可变形卷积操作可以表示为

其中，

为常规采样网格，x为输入特征图，y为输出特征图，w为卷积运算的权重。P_o表示输出特征图的位置， P_n列举了

中的位置。

代表学习到的空间位置偏移量。

上述步骤S5所述的边界细化分支网络采用了堆叠3个卷积层从原始图像中提取低层次的空间信息，然后采用了一个边界头和一个方向头从特征图中提取边界信息。边界头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数。然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图。方向头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。细化过程是将方向图转换为大小为H×W×2的偏移图（表示每个像素X、Y方向的偏移量，只有边界的像素有偏移量，其他的像素偏移量为0），预测结果中位于边界部分的像素值根据在偏移图中对应位置的偏移量进行位移，即用内部的像素来代替边界不可靠的预测，以生成细化的预测图。

步骤S6所述的混合损失函数的计算公式为：

其中，L_CE、L_dir分别是预测图和方向图的交叉熵损失函数，L_bound为边界图的二值交叉熵损失函数，设置

，

，

。

本发明的另一目的是提供一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法中的步骤。

本发明还提供一种基于可变形卷积和自注意力模型的河湖遥感图像分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法。

本发明的有益效果是：

（1）本发明将Transformer层添加到了编码器与解码器的中间，利用CNN式解码器逐步恢复图像分辨率，既可以极大地减少内存和计算资源使其能够应用于高分辨率的河湖遥感图像，还能有效地改善CNN缺乏长距离依赖建模的能力，从而增强模型的识别能力；

（2）设置跳跃连接，通过解码器的逐步上采样操作和跳跃连接实现多级特征的融合，将可变形卷积添加到了每个跳跃连接中，进一步提取不规则物体的特征，能有效避免直接融入低层次特征图带来的干扰信息，提高融入多层次特征图的有效性；

（3）边界细化分支通过学习方向图来修正预测结果中位于边界的像素，有效地改善了边界预测错误问题，提高边界定位的准确性，从而提高河湖遥感图像中物体的分割精度，为河湖监管工作提供技术保障；

（4）利用混合损失函数训练有利于模型收敛，最终提升河湖遥感图像的分割精度。

本发明充分利用CNN提取局部特征和Transformer提取全局信息的优势，解决了单一的基于纯CNN模型存在的缺乏对长距离空间依赖性的提取能力，导致模型性能降低问题，和基于纯Transformer模型的对局部特征提取有限、导致边缘定位精度的不足、小物体的分割不准确等问题。本发明方法从图像的局部提取特征和捕获全局依赖，并重点关注不规则物体的特征提取，因此能获取到更为精细的语义分割结果，适用于不同场景中的遥感图像。

附图说明

图1为本发明方法的流程图；

图2为本发明方法的模型网络结构示意图；

图3为本发明边界细化分支网络结构示意图；

图4为本发明Transformer 块的结构示意图；

图5为本发明DSM结构示意图。

图6为本发明实施例边界细化过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

实施例1

基于可变形卷积和自注意力模型的河湖遥感图像分割方法，如图1所示，包括步骤如下：

S1. 对获取的河湖遥感图像进行类别标注，划分数据集，并图像预处理：

对获取的河湖遥感图像进行详细的标注，包括水体、建筑、树木、耕地等类别，得到训练和测试所用的标签数据。按照数据集划分的常用方案，对所有的图像以7：3的比例随机划分数据集，分别得到训练集和测试集。

通常获取的遥感图像的分辨率很大，对于大多数硬件资源来说是不可接受的，因此对于获取的遥感图像样本数据进行裁剪，采用的策略为以256的步长，将原始图片裁剪为256×256无重叠的图片。所用的数据增强方法为随机缩放（缩放比例为[0.5,0.75,1,1.25,1.5,1.75,2.0]）、水平翻转，然后将图像随机裁剪为固定的256×256的大小用作输入，不足256大小的以0补充。随后对训练图像进行标准化处理以送入网络进行训练。

S2. 用卷积神经网络构建的编码器结构进行多层次图像特征的提取：

如图2所示，使用Resnet-50为特征提取网络构分割网络模型的编码器结构，并使用了timm库公开提供的在ImageNet数据集上训练得到的权重对模型参数进行初始化以获取更好的结果。如Resnet-50包含五个阶段，第一个阶段包含1个卷积核为7×7，步长为2的卷积层，1个BatchNorm层和ReLU激活函数，以及1个用于降采样的MaxPooling层，该阶段输出特征图的尺寸为

。后四个阶段都由Bottleneck组成，结构较为相似，其中第二阶段包含3个Bottleneck，剩下的三个阶段分别包括4个、6个、3个Bottleneck。本发明将Resnet-50最后两个阶段输出的步长被设置为8以保留更多的空间信息，因此遥感图像数据经过特征提取网络后的在每个阶段输出特征图的尺寸分别为

、

、

以及

，其中H和W分别代表输入原始图像的高度和宽度。

S3. 将编码器结构最后一层输出的特征图输入Transformer层捕获全局语义信息，进一步提取深层的图像特征：

由于卷积操作中卷积核的感受野有限，CNN很难对长距离的依赖关系进行建模，导致模型无法学习到全局的语义信息，而这对于语义分割等密集预测任务来说是至关重要的。Transformer是处理序列到序列任务的模型，能够捕获到序列中任意位置的关系，在全局建模方面更为强大，拥有更强的特征表示能力，更适合于克服复杂环境中遥感图像分割的困难。在编码器-解码器中间添加了Transformer层，在捕获全局语义信息的同时不会需要太多的内存和计算成本。

首先，编码器结构最后一层输出的特征图，尺寸为

，通过扁平化操作得到X _o，维度是

。随后，用一个线性层将其投射到一个D维的嵌入空间，该维度在整个Transformer块中保持不变。为了减少计算量，本发明中D的值为512。为了保留提取特征的空间信息，可学习的位置嵌入E _pos被添加到一维特征中，以提供特征在序列中的相对或绝对位置信息。位置嵌入与扁平化的特征具有相同的维度即（

），最终输入序列可表示为Z _o=X _o + E _pos。

Transformer层由堆叠的Transformer块组成，如图4所示，每个Transformer块由一个多头自我注意模块（MSA）和一个多层感知器（MLP）组成，根据

其中Norm（）表示层归一化，MLP（）包括两个具有GELU激活函数的线性层，

是中间块的标识符，L是Transformer块的数量。

一个MSA模块是由n个平行的自我注意（SA）头组成，它学习查询Q和相应的键（K）和值（V）表示之间的映射，计算方法为：

其中Q，K，V是从序列Z中线性映射得到，d = D/n是一个比例系数。

MSA定义为：

W _msa是一个可训练的权重。

Transformer块将输入的特征图转换为序列数据，通过MSA模块有效建立图像中的长距离依赖关系，输出的结果由MLP模块进一步处理得到具有更强表示能力的全局特征。

为了Transformer提取的全局信息用于后续的解码器上采样，采用了Reshape操作将一维序列转换为特征图，大小为（

）。

S4. 对经Transformer层提取后的特征图进行解码器结构的上采样，上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接，解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接，多层拼接和解码器结构的连续上采样操作实现多级特征融合，恢复细节信息：

CNN的降采样操作丢失了空间细节，通过跳跃连接和解码器的连续上采样操作，可以实现多级特征的融合，恢复更精确的分割边缘。由于河湖岸边的物体（如建筑物、耕地、树木等）通常表现出不规则的形状，而且同种物体间具有较大的差异，即不同的物体在不同类别之间和同一类别之间以不同的尺度和不规则形状呈现，因此精确识别和分割出相应物体是非常具有挑战性的。为了在遥感图像分割中取得更好的性能，捕获细粒度和形状感知的局部细节是非常有必要的。卷积神经网络（CNN）虽然在提取图像特征方面表现优异，但是由于其固定的几何结构，在模拟不规则形状方面受到很严重的限制。为了解决该问题，本发明在相同大小特征图间的跳跃连接中间添加了一个可变形的空间模块（Deformable SpatialModule）来进一步提取不规则形状区域的特征。

如图5所示，每个DSM由2个3×3的卷积、一个可变形卷积和残差连接组成。其中两个3×3的卷积用于调整编码器输出特征图的的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。可变形卷积操作可以表示为

其中，

为常规采样网格，x为输入特征图，y为输出特征图，w为卷积运算的权重。P_o表示输出特征图的位置，P_n列举了

中的位置。

代表学习到的空间位置偏移量。

可变形卷积的每个位置都对应于一个空间偏移，这样采样可以适用于不规则的位置，而不是常规的网络。因此，每个跳跃连接的DSM能够有效地从编码器特征中学习到分割目标的各种变换，从而解决遥感图像中广泛存在的多尺度和不规则物体带来的巨大挑战，达到精确分割的目的。

本发明在具有相同大小的编码器和解码器输出的特征图之间建立了3个跳跃连接，以保持局部细节，加强多尺度特征的交流。每个解码器阶段上采样输出的特征图和对应跳跃连接中DSM输出的特征图在通道上拼接，然后通过两个卷积层，即3×3卷积 -> BN ->ReLU（每次拼接完成后都有这步）进一步提取融合后的图像特征并缩减通道为拼接特征图的1/2，输出的特征图上采样后作为下一层解码器的输入。

S5.利用边界细化分支网络对分割结果进一步细化，修正边界部分预测错误问题：

边界预测错误是大多数分割方法应用于遥感图像中经常出现的问题，为了减少错误，本发明添加了细化分支用于修正边界部分的预测错误。如图3所示，采用了堆叠3个卷积层从原始图像中提取低层次的空间信息。3个卷积层的步长都为2，输出的通道数分别为64，128，256，因此最后输出的特征图尺寸为

。采用了一个边界头和一个方向头从该特征图中提取边界信息。具体来说，边界头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数，输出通道为256。然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图。

方向头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数，输出通道为256，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。m代表将整个方向的范围[0°，360°]划分为m个分区，这里选取m=8，表示8个方向。

边界图乘方向图（两个图的实际形式是矩阵，这里的乘法指的是矩阵乘法），确保损失只应用于边界像素。边界图采用的损失二值交叉熵损失函数，方向图采用的损失为交叉熵损失函数，分别表示为L_bound和L_dir。细化过程是将方向图转换为大小为H×W×2的偏移图（表示每个像素X、Y方向的偏移量，只有边界的像素有偏移量，其他的像素偏移量为0），预测结果中位于边界部分的像素值根据在偏移图中对应位置的偏移量进行位移，即用内部的像素来代替边界不可靠的预测，以生成细化的预测图。过程如图6示例：图中1、2表示两种不同类别，方向图中0表示该像素不是位于边界，预测不需要修正；因为只有位于两个类别相邻处，也就是边界的像素容易预测错误，细化过程是根据方向图中边界像素偏移量，检测在预测图中该像素是否预测正确，不正确就将其修改为正确的像素，即指向的内部像素；偏移量在图中用箭头表示，共8个方向，如（1，1）表示右上角，（-1，-1）表示左下角。

S6. 计算混合损失函数进行模型监督训练，基于最后得到的图像分割模型获得待测河湖遥感图像中目标的类别分割结果：

本发明采用了混合损失函数监督网络进行训练，分别对训练过程中输出的预测图、边界图、方向图进行监督。边界图和方向图的真实标签是通过传统距离变换（欧几里得距离）生成，最终的损失函数是

L_CE、L_dir对应预测图和方向图的交叉熵损失函数，L_bound对应边界图的二值交叉熵损失函数，设置

，

，

。

模型在训练过程中使用SGD优化器，动量为0.9，初始学习率设置为0.01，批次大小设置为8。根据数据集的大小可以灵活设置迭代次数，本发明设置迭代次数为120000次，保留在验证集上最好的模型，用以最终的测试。

实施例2

本实施例提供了实现本发明的硬件设备：

一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如实施例1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法中的步骤。

一种基于可变形卷积和自注意力模型的河湖遥感图像分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，包括步骤：

2.根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S1所述的预处理为将图像数据增强，然后将图像随机裁剪为固定的256×256的大小，并标准化处理。

3.根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S2使用Resnet-50为特征提取网络构建编码器结构进行多层次图像特征的提取，得到四层特征图。

4. 根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S3 所述的Transformer层由堆叠的Transformer块组成，每个Transformer块由一个多头自我注意模块和一个多层感知器组成。

5. 根据权利要求4所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S3 所述的Transformer块将输入的特征图转换为序列数据，通过MSA模块有效建立图像中的长距离依赖关系，输出的结果由MLP模块进一步处理得到具有更强表示能力的全局特征。

6.根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S4所述的每个跳跃连接中间添加一个可变形的空间模块DSM，每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成；其中两个3×3的卷积用于调整编码器输出特征图的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。

7. 根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S5所述的边界细化分支网络采用了堆叠3个卷积层从原始图像中提取低层次的空间信息，然后采用了一个边界头和一个方向头从特征图中提取边界信息；边界头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数，然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图；方向头包含1个1×1 卷积、1个BatchNorm层和1个ReLU激活函数，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。

8.根据权利要求1所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法，其特征是，步骤S6所述的混合损失函数的计算公式为：

，

，

。

9.一种存储设备，其为计算机可读存储设备，其特征是，所述的计算机可读存储设备上存储有计算机程序用于实现如权利要求1-8任一项所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法中的步骤。

10.一种基于可变形卷积和自注意力模型的河湖遥感图像分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于可变形卷积和自注意力模型的河湖遥感图像分割方法。