CN112883934A

CN112883934A - 一种基于注意力机制的sar图像道路分割方法

Info

Publication number: CN112883934A
Application number: CN202110355557.7A
Authority: CN
Inventors: 孙增国; 耿惠; 陈昱莅; 刘明; 吴迪
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-06-01

Abstract

本发明公开了一种基于注意力机制的SAR图像道路分割方法，涉及图像处理技术领域，所述方法包括：构建包含卷积块注意力模型和Mask RCNN网络的分割网络模型；利用SAR道路数据集对步骤S1中构建的分割网络模型进行训练；将待分割的SAR图像输入到训练后的分割网络模型中对道路进行分割。本发明的SAR图像道路分割方法克服了现有技术的不足，提升了目标分割性能，实现从源图像中提取更多有用信息，降低斑点干扰的影响，避免漏检和误检等情况的发生。

Description

一种基于注意力机制的SAR图像道路分割方法

技术领域

本发明涉图像处理技术领域，具体涉及一种基于注意力机制的SAR图像道路分割方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar, SAR)是一种高分辨率的相干成像雷达，不仅具有全天时、全天候工作能力，而且特征信号丰富，包含幅度、相位和极化等多种信息。因此，从SAR图像中分割道路日益受到重视。SAR成像机理复杂，极易形成乘性相干斑噪声，这使得适用于光学遥感图像的加性噪声模型边缘检测算子在SAR图像中不再适用，并且斑点的存在也严重影响了对SAR图像的解译。

近年来，针对SAR图像的特点，提出了很多方法，比如动态规划、MRF、 Snakes模型等。大多方法的基本原理都是先进行局部边缘检测，然后再执行全局道路连接。这些传统算法的处理过程都较为复杂，步骤繁多，且严重依赖特定模型以及特定假设条件，适应性稳定性普遍不强。此外，传统方法仅能对道路目标进行识别检测，没有实现分割功能。

随着深度学习的发展，陆续出现了不少以分割为目的的网络模型，比如FCN、U-Net、Mask RCNN等。由于SAR图像表征不直观，存在斑点的影响，且目标与背景之间的区别不是很明显，对其进行处理难度较大，因此利用深度学习分割SAR图像中道路的研究较少，并且目前用于该方向的方法中所涉及的神经网络提出较早，其分割的精度以及收敛速度都存在不足。

发明内容

为了解决上述问题，本发明提供一种基于注意力机制的SAR图像道路分割方法，包括：

S1：构建分割网络模型，所述分割网络模型包括卷积块注意力模型和Mask RCNN网络，所述卷积注意力模型包括串联连接的通道注意力模块和空间注意力模块；

S2：利用SAR道路数据集对步骤S1中构建的分割网络模型进行训练；

S3：将待分割的SAR图像输入到经步骤S2训练后的分割网络模型中对道路进行分割。

进一步地，本发明一个实施例中，所述分割网络模型构建过程包括：

S11：将图像输入到骨干网络中，通过ResNet网络提取图像特征得到第一特征图F；

S12：通过FPN网络将步骤S11得到的第一特征图F进行融合；

S13：将步骤S12中融合后的第一特征图输入卷积块注意力模型中，通过通道注意力模块进行特征提取，获得第二特征图

,将所述第二特征图

输入空间注意力模块再次进行特征提取，获得第三特征图

；

S14：将所述第三特征图

输入区域建议网络中，并转换成一组含有分数的矩形框作为道路建议区域[region_num,(x1,y1,x2,y2)]，其中region_num代表包含道路区域的数量，(x1,y1,x2,y2)代表区域坐标；

S15：将步骤S14所述道路建议区域输入到ROIAlign中，输出一组固定大小的特征张量；

S16：将步骤S15中获得的特征张量，分别输入到三个不同的分支中，其中两个分支经过全连接层进行分类和边界框回归，另一个分支经过全卷积层生成道路掩码。

进一步地，本发明一个实施例中，步骤S13中通过通道注意力模块对第一特征图进行特征提取并获得第二特征图

的具体过程为：将融合后的大小为H*W*C的第一特征图F通过全局最大池化和全局平均池化得到两个1*1*C大小的通道描述，然后将得到的两个通道描述输入共享参数的两层神经网络中获得两个特征值，对两个特征值做加和处理后送入Sigmoid激活函数中得到第一权重系数

，其计算公式见式（1），最后将第一权重系数

和第一特征图F相乘得到第二特征图

。所述两层神经网络中第一层网络的神经元个数为C/r，采用的激活函数为ReLU，第二层神经元个数为C。

（1）

其中，Sigmoid为激活函数，MaxPool表述最大池化，AvgPool表述平均池化，MLP为两层神经网络。

进一步地，本发明一个实施例中，所述空间注意力模块进行第二特征图特征提取并获得第三特征图

的具体过程为：将第二特征图

进行平均池化和最大池化操作后得到两个H*W*1的通道描述，然后拼接这两个通道描述，再进行7*7的卷积操作后送入Sigmoid激活函数，得到第二权重系数

，其计算公式见式（2），最后将第二权重系数

和第二特征图

相乘得到第三特征图

；

（2）

其中，Sigmoid为激活函数，MaxPool表述最大池化，AvgPool表述平均池，

表示7*7的卷积。

进一步地，本发明一个实施例中，所述分割网络模型构建过程还包括：ROIAlign解决了道路建议区域上的像素位置与第三特征图

上像素位置不匹配问题，其具体过程为：对每个道路建议区域进行分割，在分割后的子区域中采样像素点，对每个像素点进行双线性插值得到对应像素值，再采用最大池化选取最大的像素值作为该子区域的像素值。

进一步地，本发明一个实施例中，所述步骤S2中对分割网络模型训练时采用多任务损失函数，学习不断下降的损失函数的值，直至获得最优解，损失函数公式见式（3）：

（3）

其中，

为预测框的分类损失，

为预测框的回归损失，

为掩码分割损失。

本发明的有益效果：

本发明的SAR图像道路分割方法克服了现有技术的不足，提升目标分割性能，实现从源图像中提取更多有用信息，降低斑点干扰的影响，避免漏检和误检等情况的发生。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的基于注意力机制的SAR图像道路分割方法流程图；

图2为本发明实施例Mask RCNN网络结构图；

图3为本发明实施例的卷积块注意力模型整体结构图；

图4为本发明实施例的通道注意力模型结构图；

图5为本发明实施例的空间注意力模型结构图；

图6为本发明实施例的改进的Mask RCNN网络模型结构图；

图7为本发明实施例测试原图；

图8为本发明实施例的基于传统Mask RCNN的分割方法的测试结果图；

图9为本发明实施例的基于本发明所提出的分割方法的测试结果图；

图10为本发明实施例的数据集的构建流程图；

图11为本发明实施例的道路标注详细信息，(a)为道路图像示例，(b)为标注后的道路图像，(c)标注后生成的json文件。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例

本发明实施例步骤S2、S3采用的SAR道路数据来自23景中国陕西地区高分三号SAR图像，由10026张大小均为512*512像素的道路样本组成，其中训练数据集展70%，验证数据集占20%，测试数据集占10%。数据集中图像的成像模式包括聚束、超精细条带、精细条带1、精细条带2四种，分辨率涵盖1m，3m，5m，10m。此外，数据集中的道路形状包含三岔路、十字路、弯曲路等，道路背景包含农田、乡村、城镇等，一定程度上能有效避免深度学习算法在道路分割上出现过拟合现象。

数据集的构建过程如图10所示

1）原始23景GF-3 SAR图像的大小约为13200*24300。在原始SAR图像中选择包含道路的子图。选择要求为道路边缘清晰可见，背景复杂性适中，涉及不同成像模式。

2）使用合适的图像裁剪软件将选取的SAR图像裁剪成统一大小。裁剪软件需确保裁减后的图像不会失真，且其裁减功能不受输入图像的分辨率和大小的影响。裁剪后的切片不仅包含各种形状的道路，还包含农田，河流，城镇，桥梁等相关信息，满足了实际道路分割的需求。

3）由专人用LabelMe标注工具对道路进行分割标注，标注后每张道路图像都对应一个json文件，例如图11（c）。json文件中包含对应图像文件名、图像像素大小、目标类别名称以及目标位置等信息。图11中由上到下依次用矩形框分别标出了标注样本的类别（label）、标注点的位置（points）以及标注类型（shape_type）。标注样本的类别统一为“road”；标注点的位置为一系列标注点的坐标组成的数组；标注形状类型统一为polygon，是指由一系列相连的x,y坐标定义的闭合形状。在标注过程中，首先用工具打开切片图像，寻找到清晰的道路之后，再用一系列点将道路边缘标注。如图11(b)中有七个标注点，分别记为①②③④⑤⑥⑦。以图像左上角点为坐标原点，横向为X轴，纵向为Y轴，每一个标注点的坐标值为它在图像中实际像素的位置，例如图11(b)中的标注点①的位置对应图11(c)中的“points”的第一个点所示值即为[14.555555555555543,325.55555555555554]。

最后，整个数据集随机分为训练数据集（70％），验证数据集（20％）和测试数据集（10％）。分配详细信息见表1。

表1 训练集、验证集和测试集详细信息

参考图1至6一种基于注意力机制的SAR图像道路分割方法，包括：

其具体过程为：

S11：将图像输入到骨干网络中，通过ResNet网络提取图像的低级特征和高级特征，形成5个不同大小和维度的第一特征图F；

S12：通过FPN网络将步骤S11得到的5个第一特征图F由高到低依次进行融合，达到充分利用图像特征的目的；

S13：将步骤S12中融合后的5个第一特征图输入卷积块注意力模型中，通过通道注意力模块找出融合后的第一特征图中需要被重点关注的待分割区域，获得第二特征图

，

其具体过程为：将融合后的大小为H*W*C的第一特征图通过全局最大池化和全局平均池化得到两个1*1*C大小的通道描述，然后将得到的两个通道描述输入共享参数的两层神经网络中获得两个特征值，做加和处理后送入Sigmoid激活函数中得到第一权重系数

，其计算公式见式（1），最后将第一权重系数

和第一特征图F相乘得到第二特征图

（1）

然后将第二特征图

输入空间注意力模块再次进行特征提取，获得第三特征图

；

其具体过程为：将第二特征图

进行平均池化和最大池化操作后得到两个H*W*1的通道描述，然后拼接这两个H*W*1的通道描述，再进行7*7的卷积操作后送入Sigmoid激活函数，得到第二权重系数

，其计算公式见式（2），最后将第二权重系数

和第二特征图

相乘得到第三特征图

；

（2）

表示7*7的卷积。

这时输入图像将从512×512大小的向量转换成[x,y,channels]形状的特征图，其中x,y代表特征坐标，channels代表通道数；

S14：将第三特征图

ROIAlign通过双线性插值方法ROIAlign解决了道路建议区域上的像素位置与第三特征图

上像素位置不匹配问题，具体解决过程为：对每个道路建议区域进行分割，再在分割后的子区域中采样像素点（一般为4个），对每个像素点进行双线性插值得到对应的像素值，最后采用最大池化选取最大的像素值作为该子区域的像素值。其中双线性插值法的计算过程如下：

S151：在x方向进行线性插值，得到：

其中，

四个点为待插值点周围的像素点，且函数

在这四个点的值已知。

S152：在y方向进行线性插值，得到：

其中，P点为待插值的点。

S153：结合上式可得到点

处的值

处，

经ROIAlign方法处理后，特征图将被池化为固定大小，采用的反向传播公式如下：

其中，

代表池化前特征图上的像素点，

为其他的点，

是前向传播时计算出来的采样点的坐标位置，在池化前的特征图中，每一个与

横纵坐标距离均小于1的点都应该接受与此对应的点

回传的梯度，

表示两点之间的距离，

和

表示

与

横纵坐标的差值，这里作为双线性插值的系数乘在原始的梯度上，

表示与

对应的第

个候选区域的第

个点。

S16：将步骤S15中获得的特征张量，分别输入到三个不同的分支中，其中两个分支经过全连接层进行分类和边界框回归，另一个分支经过全卷积层生成道路掩码。掩码分支的输入也由ROIAlign产生，但其尺寸大小不同于分类和回归分支的尺寸。

其中，训练时采用多任务损失函数，学习不断下降的损失函数的值，直至获得最优解，损失函数公式见式（3）：

（3）

其中，

为预测框的分类损失，使用交叉熵损失函数计算；

为预测框的回归损失，使用Smooth L1 Loss函数计算，

为掩码分割损失，使用二值Sigmoid交叉熵损失函数。

实验例

为了验证本发明的方法对SAR图像道路的分割效果，我们选用了3500张经过标记的512*512像素SAR图像作为训练集，将其分为3批进行训练，分别为500张、1000张和2000张，以训练1000张图像为例，观察了模型的loss值变化趋势，发现该模型可以较快的实现收敛。同时我们选取4张图片作为测试图，测试原图及基于传统Mask RCNN算法和基于本发明所提算法的测试结果分别如附图7、8、9所示，可以看出，本发明方法的鲁棒性较强，并且在斑点的影响下本方法仍能很好的分割出道路目标，分割精度很高，通过掩膜标记出道路目标的具体轮廓，方便观察，无需人为二次加工处理。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。