CN110852176A

CN110852176A - 一种基于Mask-RCNN的高分三号SAR图像道路检测方法

Info

Publication number: CN110852176A
Application number: CN201910986317.XA
Authority: CN
Inventors: 孙增国; 贾白; 赵明敏; 耿惠; 赵国栋
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-28

Abstract

本发明属于图像处理技术领域，具体涉及一种基于Mask‑RCNN的高分三号SAR图像道路检测方法，其包括以下步骤：S1：对样本SAR图像裁剪；S2：标记S1裁剪的子图图像、并生成JSON格式文件作为训练集；S3：根据Mask‑RCNN理论模型，构建神经网络模型；S4：将S2训练集喂入S3构建的神经网络模型中，进行训练；S5：将待检测的SAR图像输入经过S4训练后的神经网络模型中，即可自动生成图像中道路信息。本方法图像中的噪声对其影响较小，道路背景对道路提取的干扰可控，检测道路的精度高，本方法有很强的扩展性，模型一经训练便可在多尺度图像上快速收敛，另外在提取道路时具有更强的鲁棒性，在识别道路目标的同时给其覆盖掩模，直观准确，无需人为二次加工处理。

Description

一种基于Mask-RCNN的高分三号SAR图像道路检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于Mask-RCNN的高分三号SAR图像道路检测方法。

背景技术

高分三号卫星是中国高分专项工程的一颗遥感卫星，是世界上成像模式最多的合成孔径雷达(SAR)卫星。卫星成像幅宽大，与高空间分辨率优势相结合，既能实现大范围普查，也能详查特定区域，可满足不同用户对不同目标成像的需求。

高分三号卫星的分辨率可以达到1米，是世界上分辨率最高的C频段、多极化卫星。同时卫星获取的微波图像性能高，不仅可以得到目标的几何信息，还可以支持用户的高定量化反演应用；其中，道路信息是地物信息中非常重要的一环，如何高效快速地提取道路信息，能够实现高精度的道路识别与提取就显得尤为重要。而传统的道路提取方法，如利用简单的卷积神经网络检测道路，利用半自动化的地理软件如ArcGIS检测道路，存在着识别精度低，收敛慢，鲁棒性差，不能很好地适用于SAR图像道路检测。

有鉴于此，本发明人提出了一种基于Mask—RCNN的高分三号SAR图像道路检测方法，本方法经过反复实验，能够解决上述问题。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于Mask-RCNN的高分三号SAR图像道路检测方法，该检测方法过程简单，检测精度高，鲁棒性好，具有良好的扩展性，且模型参数一经训练可重复使用，使用少量样本即可快速收敛。

本发明要解决的技术问题通过以下技术方案实现：本发明提供一种基于Mask-RCNN的高分三号SAR图像道路检测方法，该检测方法包括以下步骤：

S1：对样本SAR图像裁剪

将样品SAR图像裁剪成若干个512*512大小的子图图像，所述子图图像允许部分区域重叠；

S2：标记S1裁剪的子图图像、并生成JSON格式文件作为训练集

使用图像标注工具labelme开源软件标记S1裁剪的子图图像，用首尾相接的闭合线条选中子图图像中的道路，同时将标记好的子图图像利用labelme开源软件生成JSON格式文件，最后将标记后的子图图像和JSON格式文件作为训练集；

S3：根据Mask-RCNN理论模型，构建神经网络模型

根据Mask-RCNN理论模型，构建的神经网络模型依次包括输入层、图像道路特征提取与道路建议区域确定层(C1)、道路目标框体形成层(C2)和输出层，其中：

C1：图像道路特征提取与道路建议区域确定层又分为两子层C1-1和C1-2

C1-1：使用特征金字塔网络(FPN)，用于高级特征提取，配合使用ResNet网络，用于低级的特征提取，经过该阶段网络的前向传播，子图图像从512*512的向量被转换成形状为[x,y,channels]的特征图，其中x，y代表特征坐标，channels代表通道数；

C1-2：使用区域建议网络(RPN)，扫描所述C1-1转换成的特征图，得到道路建议区域[region_num,(x1,y1,x2,y2)],其中region_num代表区域数量，(x1,y1,x2,y2)代表区域坐标，并将其传递到神经网络的下一个层；

C2：道路目标框体形成层

在满足神经网络道路判别器规格的前提条件下，引入建议区域对准(RoIAlign)方法，对所述C1-2得到的道路建议区域进行不同点采样，并记录位置信息，最后形成道路目标框体，所述建议区域对准(RoIAlign)方法采用建议区域池化的反向传播公式如下：

其中：x_i代表池化前特征图上的像素点，i为其他的点，Xi^*(r,j)是一个浮点数的坐标位置(前向传播时计算出来的采样点)，在池化前的特征图中，每一个与Xi^*(r,j)横纵坐标均小于1的点都应该接受与此对应的点y_rj回传的梯度，d(i,Xi^*(r,j))表示两点之间的距离，Δh和Δw表示x_i与Xi^*(r,j)横纵坐标的差值，这里作为双线性内插的系数乘在原始的梯度上，y_rj表示与Xi^*(r,j)对应的第r个候选区域的第j个点；

S4：将S2训练集喂入S3构建的神经网络模型中，进行训练；

S5：将待检测的SAR图像输入经过S4训练后的神经网络模型中，即可自动生成图像中道路信息。

进一步地，道路目标框体形成层(C2)结构由两个卷积层构成；

所述道路目标框体形成层(C2)输入参数为道路建议区域[region_num,(x1,y1,x2,y2)]，特征图[x,y,channels]，输出为对准后的区域[region_num,(x1,y1,x2,y2)]，激活函数均为为Relu函数。

进一步地，S3在构建神经网络模型中还包括道路掩模覆盖层(C3)，道路掩模覆盖层(C3)与道路目标框体形成层(C2)并行，用于对检测到的道路目标进行道路掩模覆盖；

道路掩模覆盖层(C3)结构为：若底层由特征金字塔网络(FPN)构成，则所述道路掩模覆盖层(C3)由1个反卷积层和3个卷积层构成，若底层ResNet网络构成，则所述道路掩模覆盖层(C3)由2个卷积层构成；

所述道路掩模覆盖层(C3)输入参数为图像道路特征提取与道路建议区域确定层(C1)输出的区域[region_num,(x1,y1,x2,y2)],特征图[x,y,channels]，输出为道路掩模，损失函数均采用二元交叉熵函数(binary cross-entropy)；

若底层由特征金字塔网络(FPN)构成时，激活函数采用softmax函数，若底层ResNet网络构成时，激活函数采用Relu函数。

进一步地，S3在构建神经网络模型时，总的损失函数为：

L＝Lbox+Lmask

其中：L为总的误差，Lbox为道路分割误差，Lmask为道路检测误差。

与现有技术相比，本发明具有如下有益效果：

1.本发明方法在构建神经网络模型中，其中包括图像道路特征提取与道路建议区域确定层(C1)、道路目标框体形成层(C2)、道路掩模覆盖层(C3)，其中在图像道路特征提取时，由于道路特征的复杂性和道路形态的多样性，采用特征金字塔网络(FPN)用于高级特征提取(如交叉路)，配合使用ResNet网络用于较为低级的特征提取(如道路边缘)，能够确保提取后的道路特征精度，此种方式可将图像中的噪声、道路背景对道路提取的干扰降到最低，另外由于设置道路目标框体形成层(C2)，可以结合C1提取的道路信息和原图做对准，避免因为底层的抽象特征提取出来之后位置信息会丢失，影响道路目标框体的精度，另外设置道路掩模覆盖层(C3)，在识别道路目标的同时给其覆盖掩模，直观准确，无需人为二次加工处理。

2.经过多次实验，采用本发明方法在道路语义分割交并比(IOU)值设定提高的同时，平均准确率(AP)值不存在断崖式下降，说明其具有很强的鲁棒性。

3.本发明方法构建的神经网络模型一经训练便可在多尺度图像上快速收敛，经实验采用本方法在一台英伟达2080ti型号GPU上对五百张大小为512*512的SAR图像，进行40轮次训练的时间仅约为1小时，有效验证其收敛速度快，另外本发明方法有很强的扩展性，如果后期需要扩展SAR图像的尺度(如由5米精度SAR图像道路检测扩展到10米精度SAR图像道路检测)，使用少量样本即可。

4.本发明方法在神经网络模型构建时，采用并行架构，即道路目标框体形成层(C2)和道路掩模覆盖层(C3)并行，目的是提升训练速度，并消除目标框体形成和道路掩模覆盖之间的影响。

5.本发明方法在神经网络训练子图规格的选取上，采用512*512像素子图图像，利用正方形特征扩展了数据集，512*512像素子图图像尺度相对较小，有利于GPU快速训练，在一个英伟达2080tiGPU上可并行训练4到5张，有效提升训练速度。

附图说明

图1为本发明SAR图像道路检测方法步骤流程图；

图2为根据Mask-RCNN理论模型构建的神经网络模型概要图；

图3为FPN网络掩模分枝示意图；

图4为ResNet网络掩模分枝示意图；

图5为ResNet网络的网络单元结构图；

图6为经实验验证的交并比(IOU)与平均准确率(AP)坐标图；

图7为采用本方法道路检测批量实例测试效果图。

具体实施方式

为使本发明所解决的技术问题、技术方案及有益效果更加清晰，以下结合附图及实施例，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明，详细说明如下。

发明人通过大量实验论证，做出了本发明道路检测方法，以下结合实施例和附图对本发明的特征和性能作进一步的详细描述。

实施例：如附图1所示，一种基于Mask-RCNN的高分三号SAR图像道路检测方法，其包括以下步骤：

S1：对样本SAR图像裁剪

将样品SAR图像裁剪成若干个512*512大小的子图图像，允许子图图像部分重叠；将样本图像裁剪为512*512大小的子图图像有以下两个优点：一、因为裁剪的子图图像的长宽相等，即子图图像为正方形，经过90°旋转后长宽与原图像一致，利用该特性，可以对原有数据集进行扩充，以达到更好的训练效果；二、512*512像素子图图像尺度相对较小，有利于GPU快速训练，在一个英伟达2080tiGPU上可并行训练4到5张，大大提升了其训练速度。

S2：标记S1裁剪的子图图像、并生成JSON格式文件作为训练集

使用图像标注labelme开源软件标记S1裁剪的子图图像，标注的方法为：用首尾相接的闭合线条选中子图图像中的道路，同时将标记好的子图图像利用labelme开源软件生成JSON格式文件，最后将标记后的子图图像和JSON格式文件作为训练集；本发明方法属于机器学习中的有监督学习，所以在模型训练之前，需要人工标注训练样本，构造训练集，为后续学习提供训练数据。

S3：根据Mask-RCNN理论模型，构建神经网络模型

如附图2所示，根据Mask-RCNN理论模型，我们构建的神经网络模型包括输入层、图像道路特征提取与道路建议区域确定层(C1)、道路目标框体形成层(C2)和输出层，其中：

C1-1：使用特征金字塔网络(FPN)，如附图3所示，用于高级特征提取(如交叉路)，配合使用ResNet网络，如附图4所示，用于低级的特征提取(如道路边缘)，使用上述两种网络配合，可以在多个尺度上更好地提取道路特征，提高检测提取精度；经过该阶段网络的前向传播，子图图像从512*512的向量被转换成形状为[x,y,channels]的特征图，其中x，y代表特征坐标，channels代表通道；其中，所述特征图一般为二维的32*32，图片中共提取2048个特征；

如附图5所示，为ResNet网络的网络单元结构图，他有二层，如下表达式，其中σ代表非线性函数Relu

F＝W₂σ(W₁X)

然后通过一个shortcut，和第二个Relu，获得输出y

y＝F(X,{W_i})+X

其中：x表示输入，F(x)表示残差块在第二层激活函数之前的输出，W₁和W₂表示第一层和第二层的权重，σ表示Relu激活函数，W_i表示权重集合；

C1-2：使用区域建议网络(RPN)，扫描所述C1-1转换成的特征图，得到道路建议区域[region_num,(x1,y1,x2,y2)],其中region_num代表区域数量，(x1,y1,x2,y2)代表区域坐标，并将其传递到神经网络的下一个层；使用区域建议网络(RPN)可以有效地复用提取的特征，大大减少了GPU的运算负担，使得模型训练速度进一步提升，使用区域建议网络(RPN)的预测，可以很好地选出包含道路信息的区域，并对其位置和尺寸进行精调，如果有多个期望道路区域互相重叠，我们将保留拥有最高前景分数的道路区域，并舍弃余下的(非极大值抑制)，得到优化的道路建议区域。

C2：道路目标框体形成层

在满足神经网络道路判别器规格的前提条件下，引入建议区域对准(RoIAlign)方法，对所述C1-2得到的道路建议区域进行不同点采样，并记录位置信息，最后形成道路目标框体，确保神经网络的精度；

该层的具体结构及参数为：该层由两个卷积层构成，输入参数为道路建议区域[region_num,(x1,y1,x2,y2)]，特征图[x,y,channels]，输出为对准后的区域[region_num,(x1,y1,x2,y2)]，激活函数均为为Relu函数；

在传统建议区域池化(RoI pooling)中出现了两次的取整，虽然在道路建议区域上取整只是小数级别的误差，但是当把道路建议区域还原到原图上时就会出现很大的偏差，

误差公式如下：

error＝poolingloss*Primitive image element

其中error为误差，poolingloss为池化损失，Primitive image element为原图像素；

对于分类和物体检测来说这可能不是一个很大的误差，但是对于实例分割而言，这是一个非常大的偏差，如果框体出现没对齐的情况，在视觉上是很明显，RoIAlign解决了目标框体形成不准确的问题，具体对照如下：

常规的建议区域池化的反向传播公式如下：

其中，x_i代表池化前特征图上的像素点，y_rj代表池化后的第r个候选区域的第j个点；i^*(r,j)代表点y_rj像素值的来源(最大池化的时候选出的最大像素值所在点的坐标)，由上式可以看出，只有当池化后某一个点的像素值在池化过程中采用了当前点x_i的像素值(即满足i＝i^*(r,j))，才在x_i处回传梯度；

类比于常规的建议区域池化，我们给出的建议区域对准的反向传播需要作出稍许修改：首先，在建议区域对准方法中，Xi^*(r,j)是一个浮点数的坐标位置(前向传播时计算出来的采样点)，在池化前的特征图中，每一个与Xi^*(r,j)横纵坐标均小于1的点都应该接受与此对应的点y_rj回传的梯度，故RoIAlign的反向传播公式如下:

其中：x_i代表池化前特征图上的像素点，i为其他的点，Xi^*(r,j)是一个浮点数的坐标位置(前向传播时计算出来的采样点)，在池化前的特征图中，每一个与Xi^*(r,j)横纵坐标均小于1的点都应该接受与此对应的点y_rj回传的梯度，d(i,Xi^*(r,j))表示两点之间的距离，Δh和Δw表示x_i与Xi^*(r,j)横纵坐标的差值，这里作为双线性内插的系数乘在原始的梯度上，y_rj表示与Xi^*(r,j)对应的第r个候选区域的第j个点。

C2层目的在于：底层的抽象特征提取出来之后往往位置信息会丢失，如果没有C2层的话，最后框体标注精确性得不到保证，C2层可以结合C1的信息，并且和原图做对准，提高了道路的精确性。

优选的，在构建神经网络模型中还包括道路掩模覆盖层(C3)，道路掩模覆盖层(C3)与道路目标框体形成层(C2)并行，用于对检测到的道路目标进行道路掩模覆盖；

如附图3、图4，C3层是是并行于道路目标框体形成层(C2)的一个分枝层，传统的神经网络在卷积操作时同时会忽略像素点原来的位置特征，这是进行卷积时不可避免的，所以结合Mask-RCNN理论在特征金字塔网络顶端引出一条分枝直接进行掩模生成。

具体地，道路掩模覆盖层(C3)结构为：若底层由特征金字塔网络(FPN)构成，则所述道路掩模覆盖层(C3)由1个反卷积层和3个卷积层构成，若底层ResNet网络构成，则所述道路掩模覆盖层(C3)由2个卷积层构成；

道路掩模覆盖层(C3)输入参数为图像道路特征提取与道路建议区域确定层(C1)输出的区域[region_num,(x1,y1,x2,y2)],特征图[x,y,channels]，输出为道路掩模，损失函数均采用二元交叉熵函数(binary cross-entropy)；若底层由特征金字塔网络(FPN)构成时，激活函数采用softmax函数，若底层resnet网络构成时，激活函数采用Relu函数；

在上述构建神经网络时，总的损失函数为：

L＝Lbox+Lmask

S4：将S2训练集喂入S3构建的神经网络模型中，进行训练

经过实验，采用本方法在一台英伟达2080ti型号GPU上对五百张大小为512*512的SAR图像，进行40轮次训练的时间仅约为1小时，其证明收敛速度相当快。

S5：将待检测的SAR图像输入经过S4训练后的神经网络模型中，即可自动生成图像中道路信息；其中生成后的道路信息将会被框选并并覆盖以掩模，可以直观准确的看到，无需人为二次加工处理。

经过大批量实验，采用本发明方法在平均水平下的准确率如附图6所示，其中交并比(IOU)为横轴，平均准确率(AP)为纵轴，在IOU为0.2位置时，AP值高达98.53％，在IOU为0.5的位置，AP值高达85.28％，即使在IOU为0.9的位置时，AP值仍可保持在61.71％，在IOU提高的同时，AP值不存在断崖式下降。由此可知，本发明道路检测方法有较高的准确度和较强的鲁棒性。

具体应用：为了验证本发明方法对高分三号SAR图像道路检测的效果，我们选用了350张经过标记的512*512像素SAR图像作为训练集，将其分为7批，每批次50张进行训练。同时我们选取4张图片作为测试，在每一批次训练过后，对这4张图片进行一次测试，测试结果及对比图如附图7所示，由图7可知，本发明方法在提取道路时具有很强的鲁棒性，图像中的噪声对本方法影响较小，道路背景对道路提取的干扰可控，检测道路的精度非常高，本方法在识别道路目标的同时，给道路覆盖掩模，可直观准确看到，无需人为二次加工处理。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于Mask-RCNN的高分三号SAR图像道路检测方法，其特征在于，包括以下步骤：

S1：对样本SAR图像裁剪

S2：标记S1裁剪的子图图像、并生成JSON格式文件作为训练集

S3：根据Mask-RCNN理论模型，构建神经网络模型

根据Mask-RCNN理论模型，构建的神经网络模型包括输入层、图像道路特征提取与道路建议区域确定层(C1)、道路目标框体形成层(C2)和输出层，其中：

C1-1：使用特征金字塔网络(FPN)，用于高级特征提取，配合使用ResNet网络，用于低级的特征提取，经过该阶段网络的前向传播，子图图像从512*512的向量被转换成形状为[x,y,channels]的特征图，其中x，y代表特征坐标，channels代表通道；

C1-2：使用区域建议网络(RPN)，扫描所述C1-1转换成的特征图，得到道路建议区域[region_num,(x1,y1,x2,y2)]，其中region_num代表区域数量，(x1,y1,x2,y2)代表区域坐标，并将其传递到神经网络的下一个层；

C2：道路目标框体形成层

S4：将S2训练集喂入S3构建的神经网络模型中，进行训练；

2.根据权利要求1所述的一种基于Mask-RCNN的高分三号SAR图像道路检测方法，其特征在于：所述道路目标框体形成层(C2)结构由两个卷积层构成；

3.根据权利要求2所述的一种基于Mask-RCNN的高分三号SAR图像道路检测方法，其特征在于：所述S3在构建神经网络模型中还包括道路掩模覆盖层(C3)，所述道路掩模覆盖层(C3)与所述道路目标框体形成层(C2)并行，用于对检测到的道路目标进行道路掩模覆盖；

所述道路掩模覆盖层(C3)结构为：若底层由特征金字塔网络(FPN)构成，则所述道路掩模覆盖层(C3)由1个反卷积层和3个卷积层构成，若底层ResNet网络构成，则所述道路掩模覆盖层(C3)由2个卷积层构成；

4.根据权利要求1-3任意一项所述的一种基于Mask-RCNN的高分三号SAR图像道路检测方法，其特征在于：所述S3在构建神经网络模型时，总的损失函数为：

L＝Lbox+Lmask