CN113052180A

CN113052180A - 融合语义流场的编解码网络港口影像分割方法

Info

Publication number: CN113052180A
Application number: CN202110326425.1A
Authority: CN
Inventors: 郭海涛; 卢俊; 高慧; 林雨准; 龚志辉; 余东行; 袁洲; 牛艺婷; 饶子昱; 王家琪
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-03-23
Filing date: 2021-03-26
Publication date: 2021-06-29

Abstract

本发明涉及融合语义流场的编解码网络港口影像分割方法，属于图像分割技术领域，该方法包括将待分割图像输入至训练好的融合语义流场的编解码网络，将港口影像分割为海、陆以及舰船三种类别；编解码网络包括依次连接的编码层、空洞卷积层和解码层，编码层包括N层依次连接的卷积模块，解码层包括N层依次连接的反卷积模块，各反卷积模块中均设置有流对齐模块，各流对齐模块的输入与编码层中相应层级的卷积模块进行跳跃相连。本发明利用流对齐模块，通过预测特征图间的语义流场，监督上采样过程，以提高特征信息传递的有效性，并利用空洞卷积层获取影像的多尺度信息，使其更加适合港口影像分割任务，从而得到平滑、完整的分割结果，分割精度较高。

Description

融合语义流场的编解码网络港口影像分割方法

技术领域

本发明属于图像分割技术领域，具体涉及融合语义流场的编解码网络港口影像分割方法。

背景技术

随着遥感技术的快速发展，利用遥感影像进行海陆分割和海洋近岸目标检测逐渐成为当前研究的热点，在海岸线提取、海域交通管制、军事监测等方面具有重要的应用。然而，遥感影像港口区域的影像特征复杂，存在海浪、云层、阴影等诸多干扰因素，存在码头与舰船边界模糊不清的情况，导致港口影像分割中容易产生像素分类错误和边界模糊定位等问题，因此，准确的海陆分割和鲁棒的舰船检测具有挑战性。

传统海陆影像分割方法主要包括阈值分割法、区域生长法、活动轮廓模型法、基于马尔科夫随机场法等，这些利用影像的单一特征进行提取的方法，虽然在简单场景下可获得较高的分割精度，但易受到噪声干扰，出现海陆边界分割不准确或者错误分类的情况；另外遥感影像中舰船等海洋近岸目标类型多样、尺寸不一，导致传统检测方法鲁棒性较差，且在复杂场景中难以得到准确的检测结果。

近年来，已有学者将深度学习中的语义分割技术应用于港口影像海陆分割中，例如采用 SegNet、U-Net、Deeplabv3+、DenseASPP等语义分割网络，这些网络一般均包括编码结构、解码结构，其中解码结构通过上采样操作恢复特征图分辨率，双线性插值、转置卷积等没有考虑特征图像素间的关系，特征在编码过程中经残差网络多次池化后造成的特征信息丢失，加大了高低层特征图间的语义差异，造成特征融合时产生大量无效信息的传递，同时使得计算时间和所需的硬件资源大幅增加，影响分割精度。

发明内容

本发明的目的是提供融合语义流场的编解码网络港口影像分割方法，用于解决现有技术中港口影像分割精度低的问题。

基于上述目的，一种融合语义流场的编解码网络港口影像分割方法的技术方案如下：

将待分割图像输入至加载最优训练权重的融合语义流场的编解码网络，将港口影像分割为海、陆以及舰船三种类别；

所述融合语义流场的编解码网络的最优训练权重是通过训练样本及样本标签进行训练得到的，并且，所述融合语义流场的编解码网络包括依次连接的编码层、空洞卷积层和解码层，其中，编码层包括N层依次连接的卷积模块，N>2；解码层包括N层依次连接的反卷积模块，每个反卷积模块中均设置有一个流对齐模块，各流对齐模块的输入与编码层中相应层级的卷积模块进行跳跃相连。

上述技术方案的有益效果是：

本发明将港口影像中海、陆及舰船置于同一语义分割框架内，提出了融合语义流场的编码-解码网络(SFD-LinkNet)，该网络利用流对齐模块，通过预测特征图间的语义流场，监督上采样过程，以提高特征信息传递的有效性，并利用空洞卷积层获取影像的多尺度信息，使其更加适合港口影像分割任务，从而得到平滑、完整的分割结果，分割精度较高。

进一步的，为了保证编码效果，所述的编码层采用ResNet34网络，包括一层卷积核为 7×7的卷积操作，以及由残差模块分别叠加3、4、6、3次组成的Conv1、Conv2、Conv3、Conv4模块。

进一步的，为提高高层语义信息的传递有效性，所述的解码层包括四个依次连接的反卷积模块Deconv1、Deconv2、Deconv3、Deconv4，每个反卷积模块包含两个大小为3×3的卷积核、Relu激活函数以及上采样过程，每次上采样过程中均加入一个流对齐模块；

第一个FAM模块的两个输入分别为空洞卷积层输出的特征图、编码层的Conv4模块，第一个FAM模块的输出作为第二个FAM模块的输入；同理，第二个FAM模块的两个输入分别为第一个FAM模块输出的特征图、编码层的Conv3模块，第二个FAM模块的输出作为第三个FAM模块的输入；以此类推，直到第四个FAM模块的输出，经过4×4的转置卷积层，输出图像分割结果。

进一步的，为提高图像分割效果，在训练编解码网络之前，得到训练样本及样本标签的过程包括：

获取原始影像及样本标签，对原始影像及其样本标签以设定像素值进行裁剪，得到若干张切片，并采用数据增强方式对各切片进行处理，扩充训练数据，得到最终参与网络训练的训练样本及样本标签。

具体的，所述的数据增强方式包括：随机旋转、水平翻转和垂直翻转。

进一步的，为维持特征图分辨率的同时扩大感受野，所述的空洞卷积层包括：空洞率设置分别为1、2、4的三个卷积模块，将三个卷积模块串行连接，并通过跳跃连接将各卷积层并联，从而向解码层输出特征图。

附图说明

图1是本发明实施例中的编解码网络港口影像分割方法流程图；

图2是本发明实施例中的融合语义流场的编解码网络结构图；

图3是本发明实施例中的空洞卷积层示意图；

图4-1、图4-2和图4-3分别为空洞率依次为1、2、4的空洞卷积原理图；

图5是本发明实施例中的FAM模块的结构图；

图6-1～图6-4为本发明实施例中获取的数据集中部分样本的训练数据示意图；

图6-5～图6-8为与图6-1～图6-4一一对应的样本标签示意图；

图7-a1～图7-a5为本发明实施例中一组五张的原始影像图；

图7-b1～图7-b5为与图7-a1～图7-a5中该五张原始影像一一对应的标签示意图；

图7-c1～图7-c5为U-Net网络对图7-a1～图7-a5中影像图的预测结果图；

图7-d1～图7-d5为Deeplabv3++网络对图7-a1～图7-a5中影像图的预测结果图；

图7-e1～图7-e5为D-LinkNet网络对图7-a1～图7-a5中影像图的预测结果图；

图7-f1～图7-f5为SFD-LinkNet网络对图7-a1～图7-a5中影像图的预测结果图；

图8-a1～图8-a5为本发明实施例中的另一组五张原始影像图；

图8-b1～图8-b5为与图8-a1～图8-a5中五张原始影像一一对应的标签示意图；

图8-c1～图8-c5为U-Net网络对图8-a1～图8-a5中影像图的预测结果图；

图8-d1～图8-d5为Deeplabv3++网络对图8-a1～图8-a5中影像图的预测结果图；

图8-e1～图8-e5为D-LinkNet网络对图8-a1～图8-a5中影像图的预测结果图；

图8-f1～图8-f5为SFD-LinkNet网络对图8-a1～图8-a5中影像图的预测结果图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明。

本实施例提出一种融合语义流场的编解码网络港口影像分割方法，流程如图1所示，具体包以下步骤：

将待分割图像输入至训练好的融合语义流场的编解码网络，也称SFD-LinkNet(Semantic Flow Dilated Convolution LinkNet)网络，将港口影像分割为海、陆以及舰船三种类别。其中，SFD-LinkNet网络如图2所示，该SFD-LinkNet网络的结构包括编码层、空洞卷积层和解码层，下面分别对各层进行具体阐述：

(1)编码层

编码层用于输入待分割图像，进行特征编码，编码后的特征图输出至空洞卷积层。具体的，由于深度学习技术所带来算法性能的提升，需基于大量训练样本提供的数据支持，而港口影像分割的数据集有限，因此，本步骤选用ImageNet数据集上预训练的ResNet34作为编码网络，包括一层卷积核为7×7的卷积操作，以及由残差模块(即图2中的残差模块)分别叠加3、4、6、3次组成的Conv1、Conv2、Conv3、Conv4模块，构成四个卷积模块，最终，通过对输入图像进行一系列卷积和池化操作，逐层扩大感受野以得到目标的深层语义信息。

(2)空洞卷积层

本步骤中，分别将空洞率设置为1、2、4的卷积模块串行连接，如图3所示，各层感受野依次变为3×3、7×7、15×15，原始影像经过编码层的ResNet34处理，使特征图分辨率下采样至16×16×512，因此15×15的感受野能够覆盖最后一层特征图，通过跳跃连接将各卷积层并联(如图3所示)，从而使得网络能够获得影像的多尺度信息。

本步骤中，空洞卷积引入了空洞率这一参数，如图4-1、图4-2和图4-3所示的空洞率依次为1、2、4的空洞卷积原理图，通过在卷积核权重之间插入若干零值，从而在维持特征图分辨率的同时扩大感受野，在语义分割领域得到广泛应用。

由于精确的语义分割往往需要来自不同尺度和较大区域的上下文信息，来消除局部区域造成的歧义，考虑到港口影像中码头、舰船等各自类别中的目标尺寸差异较大，因此在编码网络提取特征图后加入空洞卷积层，将经过空洞卷积层处理后的特征图输出至解码层。

(3)解码层

该解码层包括四个结构相同的反卷积模块Deconv1、Deconv2、Deconv3、Deconv4，四个反卷积模块依次连接，每个反卷积模块包含两个大小为3×3的卷积核、Relu激活函数以及上采样过程，也就是，解码层包括四次上采样过程，其中每次上采样过程中，均加入了轻量化的流对齐模块(Flow Alignment Module，FAM模块)，各FAM模块的输入与编码层中相应层级的残差模块(即卷积模块)进行跳跃相连。

如图2所示，第一个FAM模块的两个输入分别为空洞卷积层输出的特征图、编码层的 Conv4模块，第一个FAM模块的输出作为第二个FAM模块的输入；同理，第二个FAM模块的两个输入分别为第一个FAM模块输出的特征图、编码层的Conv3模块，第二个FAM 模块的输出作为第三个FAM模块的输入；以此类推，直到第四个FAM模块的输出，经过 4×4的转置卷积层，输出图像分割结果。

本步骤中，FAM模块以编码-解码结构中相邻层次、不同分辨率大小的特征图作为输入，并在每次上采样后与相应编码结构的特征图进行融合，经过四次上采样以及一个转置卷积层后将特征图分辨率恢复为输入大小。所达到的效果是，通过在不同层次特征图间建立一种语义联系，更好的监督低分辨率特征图的上采样过程，提高特征信息传递的有效性。

本步骤中，FAM模块的结构如图5所示，流对齐模块将来自不同层次的特征图A、B作为输入，其中

表示编码层中的特征图；

表示空洞卷积层输出的特征图或解码层中的特征图；特征图分辨率H₁＝2·H₂，W₁＝2·W₂，1×1的卷积用于调整输入特征图通道数保持一致。

借鉴FlowNet中通过卷积神经网络拟合光流的思想，首先通过双线性插值将特征图B上采样至A的大小，然后按照通道维度堆叠的方式对两特征图进行融合。由于特征提取网络经过多次下采样后特征图分辨率较小，3×3卷积的感受野足以覆盖像素间的长距离信息，因此最后将融合后的特征图输入到卷积核大小为3×3的子网络，该子网络的输出即为预测的语义流场Δ，其中

具体操作如式(1)所示：

Δ＝conv(cat(A,B)) (1)

式中，cat表示融合运算，conv表示3×3的卷积运算。

语义流场Δ生成后，其空间格网Ω上每一点p可以通过p+Δ(p)映射到低分辨率特征图B 上一点

因此确定了特征图B中任一点

在空间格网的位置。由于特征图B与语义流场之间存在分辨率差异，其对应关系如式(2)所示：

利用可微双线性采样机制对

点的四个最邻近像素(左上、左下、右上、右下)进行线性插值，恢复特征图分辨率。最后将经过Warp操作的特征图与特征图A进行融合，作为FAM模块的输出。

确定出上述SFD-LinkNet网络的结构后，利用训练数据及样本标签对该网络进行训练，以确定SFD-LinkNet网络关于港口影像分割任务的最优参数。

为验证本方法的有效性，进行了方法的验证实验，实验进行了以下准备，包括以下步骤：

(一)获取训练的数据集及数据预处理

将网络上采集自Google Earth的200张影像作为原始数据集，覆盖了世界各地的多个港口，影像分辨率约为1m，影像尺寸在1000至3000像素之间，该数据集中部分样本的训练数据如图6-1～图6-4所示，对应的样本标签如图6-5～图6-8所示，其中黑色、红色、蓝色像素分别代表海域、陆地以及舰船类别。实验以7:3的比例随机划分数据集得到140张训练影像和60张验证影像。

视野在海陆分割任务中起着重要作用，不同于建筑物、道路等地物提取任务，港口影像中海、陆各自集中分布，当输入网络的切片视野较小，只覆盖海域、陆域，或者只包含舰船、码头的部分区域时，网络无法利用影像的全局信息，容易造成分割结果不连续的现象。另外，遥感影像覆盖范围广，语义分割等密集预测任务对计算资源要求较高，因此需要将大幅遥感影像切分成若干瓦片，逐一进行预测再拼接还原，每个切片边缘区域的像素可利用的信息较少，预测的置信度相较于中心区域也会有所降低。

由于计算机内存有限，需要对原始影像及其样本标签以512×512像素大小进行裁剪，得到337张切片，并采用随机旋转、水平翻转、垂直翻转等数据增强方式，扩充训练数据得到 2359张切片。

此外，通过视野增强的方法，缓解海陆分割任务中由于影像切片带来的上述视野不足的问题，该方法包括：首先在数据处理阶段，对原始影像以80像素的重叠度进行裁剪；其次利用滑动窗口的方式对原始影像以同样像素的重叠度进行预测，并对重叠区域结果进行加权平均，改善影像切片边缘的分割结果。

(二)参数设置

实验均在相同的环境中进行，各训练参数保持一致，其中损失函数选择常用于语义分割任务的交叉熵损失函数(Cross Entropy Loss)，初始学习率lr_base设为0.0001，采用poly学习率调整策略，学习率lr的计算公式如下：

式中，epoch为当前迭代次数，EPOCH为总迭代次数，设置为50，衰减指数power设置为0.9。实验选择Adam优化器，为了保持各网络参数保持一致，实验中批大小(batch size)设置为4，实验采用Windows下的Pytorch机器学习框架，硬件环境为CPU Inter(R)XeonE2176G,GPU GTX 2080Ti，11G显存。

(三)设置好参数后，利用训练样本进行网络训练，得到训练好的SFD-LinkNet网络。为了验证SFD-LinkNet网络的图像分割有效性，将其与U-Net、Deeplabv3+、D-LinkNet进行对比，图7(指图7-a1～图7-f5的集合图)展示了各网络在无数据增强下测试集的部分预测结果，其中，图7-a1～图7-a5为五张原始影像，图7-b1～图7-b5为该五张原始影像的标签，图7-c1～图7-c5为U-Net网络的预测结果图，图7-d1～图7-d5为Deeplabv3++网络的预测结果图，图7-e1～图7-e5为D-LinkNet网络的预测结果图，图7-f1～图7-f5为SFD-LinkNet网络的预测结果图。

图8(也指集合图)展示了各网络在数据增强下测试集的部分预测结果，具体的，图8- a1～图8-a5为另一组的五张原始影像，图8-b1～图8-b5为该五张原始影像的标签，图8-c1～图8-c5为U-Net网络的预测结果图，图8-d1～图8-d5为Deeplabv3++网络的预测结果图，图8-e1～图8-e5为D-LinkNet网络的预测结果图，图8-f1～图8-f5为SFD-LinkNet网络的预测结果图。

从图7和图8可以看出，U-Net、Deeplabv3+、D-LinkNet三种网络检测结果中均存在大量像素错分的情况，其中，U-Net网络卷积层较浅，在少量训练数据下学习到的海陆特征较少，造成分割结果杂乱的现象，无法满足港口影像分割任务的需要。Deeplabv3+、D-LinkNet网络使用了预训练的编码网络，加快了网络收敛速度，分割结果较U-Net也更为准确。然而，码头附近经常会停靠有舰船和一些小物体，纹理特征与陆地区域相似，极大地干扰了海陆边界分割像素的准确性，Deeplabv3+网络缺乏足够的上下文信息，不能很好的处理码头与舰船边界的细节信息，产生边界像素错分和舰船分割不完整的现象；D-LinkNet网络利用空洞卷积层扩大感受野，在处理边界细节信息上表现较好，但是对于纹理复杂、尺寸差异较大的舰船目标，容易造成分割不完整的情况。

而本发明提出的SFD-LinkNet网络能够对港口影像中海、陆以及舰船类别进行正确分类，得到连通性较好的分割结果。此外，从图8-f1～图8-f5中可以看出，当训练数据和预测过程中使用视野增强后，避免了影像切片带来的边缘分割不连续的现象，得到了更加完整、准确的分割结果。

为了对各网络分割结果进行定量评价，需设置评价标准，本发明采用F1分数(F1Score) 和交并比(IOU，Intersection Over Union)作为总体评价指标，评估网络在数据集上的性能。其中，F1分数是精确率(Precision)和召回率(Recall)的调和均值，IOU表示目标实际位置与预测位置的交集与并集的比值，计算公式如下：

其中TP(True Positive)表示正类被判定为正类；FP(False Positive)表示负类被判定为正类； FN(False Negative)表示负类被判定为负类；TN(True Negative)表示负类被判定为负类。

因此，按照上述公式，统计无数据增强的测试数据集分别采用U-Net、Deeplabv3+和D- LinkNet、SFD-LinkNet网络(本发明的方法)的影像分割评价结果，如表1所示。

表1无数据增强各网络分割结果对比(％)

由表1可见，本文网络平均F1分数相较于U-Net、Deeplabv3+和D-LinkNet分别提高了 6.44％、4.11％、0.41％，平均交并比分别提高了7.93％、5.35％、0.8％，在各评价指标上均取得了最优的结果。另外，由表1可以看出，对于单个类别的评价指标，海、陆类别提高幅度较小，主要原因是海域、陆域面积较大，像素的部分变化对整体精度影响较小，而舰船目标像素相对较少，使得不同网络的分割结果波动较大。

按照上述公式，统计数据增强、视野增强后各网络的在测试数据集上的评价结果，如表 2所示。

表2数据处理后各网络分割结果对比(％)

表2统计了利用数据增强扩充训练样本后，各网络在同一实验环境下对测试数据集分割结果的各项评价指标，与表1对比可知，训练样本经过数据增强后各网络预测结果的评价指标均得到了大幅提升。本文方法与其他分割网络相比，得到了最好的分割结果，其中，D- LinkNet平均F1分数为94.57％，平均交并比为90.25％，达到了次优值，SFD-LinkNet相较于D-LinkNet平均F1分数提高了0.8％，平均交并比提高了1.3％，证明了本文方法对港口影像分割的有效性。另外，利用视野增强的方法对SFD-LinkNet进行训练和预测时，平均F1 分数和平均交并比分别提高了1.05％、1.77％，说明在大幅影像上进行海陆分割和舰船检测时，利用视野增强的手段进行有重叠的切片裁剪、预测可以有效的提高分割性能。

本发明考虑到语义分割旨在对输入图像中的每个像素准确预测出一个具有语义的标签，因此不仅需要获取目标的特征信息，还需要对图像进行原尺寸的恢复。语义分割网络从输入到输出一般会经过多个下采样层，其中靠近输入端的低层特征包含更多的细节信息，但是由于经过的卷积层较少，语义类别预测较差；靠近输出端的高层特征具有更强的语义信息，但是分辨率较低，细节丢失严重。

因此，本发明在编码-解码结构通过加入跳跃连接，逐层融合高低层特征图，使得空间信息和语义信息得到有效利用，成为广泛应用的语义分割架构。考虑到高低层特征图之间存在语义差异，进一步引入流对齐模块，通过预测相邻特征图间的语义流场，使高层语义信息得到有效地传递，从而提升语义分割的性能。

综上，以编码-解码结构为基础，融合流对齐模块构建了SFD-LinkNet网络，提出了一个新的编码-解码网络SFD-LinkNet，对遥感影像港口中海、陆以及舰船类别进行分割。SFD-LinkNet通过在解码阶段融合流对齐模块，提高了高低级特征层之间信息传递的有效性，并结合空洞卷积层获取影像的多尺度信息，减少结果中的错分像素，提高分割结果的空间一致性。此外，通过实验验证了在训练样本有限的情况下，数据增强和视野增强能够提高分割结果的准确性，得到更加平滑、精确的分割结果。

本实施例中，编码网络采用了ResNet34，用于在其卷积模块与流对齐模块进行跳跃连接，作为其他实现方式，还可以采用其他结构的编码网络，网络层级的数量与解码网络相同，用解码网络各层级的流对齐模块与编码网络中对应层级的卷积模块跳跃连接即可。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.融合语义流场的编解码网络港口影像分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合语义流场的编解码网络港口影像分割方法，其特征在于，所述的编码层采用ResNet34网络，包括一层卷积核为7×7的卷积操作，以及由残差模块分别叠加3、4、6、3次组成的Conv1、Conv2、Conv3、Conv4模块。

3.根据权利要求2所述的融合语义流场的编解码网络港口影像分割方法，其特征在于，所述的解码层包括四个依次连接的反卷积模块Deconv1、Deconv2、Deconv3、Deconv4，每个反卷积模块包含两个大小为3×3的卷积核、Relu激活函数以及上采样过程，每次上采样过程中均加入一个流对齐模块；

4.根据权利要求1-3任一项所述的融合语义流场的编解码网络港口影像分割方法，其特征在于，在训练编解码网络之前，得到训练样本及样本标签的过程包括：

5.根据权利要求4所述的融合语义流场的编解码网络港口影像分割方法，其特征在于，所述的数据增强方式包括：随机旋转、水平翻转和垂直翻转。

6.根据权利要求1所述的融合语义流场的编解码网络港口影像分割方法，其特征在于，所述的空洞卷积层包括：空洞率设置分别为1、2、4的三个卷积模块，将三个卷积模块串行连接，并通过跳跃连接将各卷积层并联，从而向解码层输出特征图。