CN115170803A

CN115170803A - 一种基于e-solo的城市街景实例分割方法

Info

Publication number: CN115170803A
Application number: CN202210858451.3A
Authority: CN
Inventors: 李成严; 车子轩; 郑企森
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-11

Abstract

本发明提出一种基于E‑SOLO的城市街景实例分割方法；针对城市街景环境中存在的小目标分割问题，使用ECA‑PSConv模块对特征进行处理，该模块能够在增强有效特征的同时抑制无用特征，降低算法编‑解码过程造成的特征映射损失，同时可以对不同尺度的特征进行提取，提高检测分割精度；针对城市街景环境中存在的实例遮挡问题，使用MAE模块进行数据增强处理，增强后的训练图像在尽量避免因添加噪声所带来的负面影响的同时更贴近真实的源数据分布以提高数据集的表征能力；本发明较好的解决了城市街景环境下存在的车辆行人流动及摄像头距离较远等因素导致的实例目标较小和实例遮挡两个问题，提升了对小目标实例和遮挡实例的检测分割精度。

Description

一种基于E-SOLO的城市街景实例分割方法

技术领域

城市街景检测与分割是智能交通的核心研究领域，与目标检测、语义分割相比，城市街景实例分割是一项更为复杂的任务，它不仅要求像素级的分割，而且需要预测每个实例的位置。本发明属于深度学习下的实例分割领域，针对城市街景环境中存在的车辆、行人等小目标和遮挡等因素干扰，提出一种基于 E-SOLO的城市街景实例分割方法。

背景技术

实例分割模型中包含目标检测分支和分割分支，目标检测模型主要分为单阶段模型和两阶段模型。两阶段目标检测模型在准确性方面具有优势，但较大的模型权重致使实时性方面效果较差。单阶段目标检测从早期基于锚框 (anchor-base)的检测模型YOLO和RetinaNet等，发展到无锚框(anchor-free)的检测模型Center Net和FCOS等，由于不需要预先生成锚框，目标检测速度得到了进一步的提高。因此基于单阶段目标检测的实例分割模型更加适用于城市街景实时分割。

目前主流的实例分割方法可以归为三类：自上而下(top-down)的方法，首先进行目标检测，然后在检测框内进行语义分割，该方法过于依赖目标检测的准确率；自下而上(bottom-up)的方法，首先对像素进行语义分割，然后再通过聚类、度量学习等手段区分不同的实例，该方法一般泛化能力较弱；直接得到实例分割结果的方法，通过直接分割实例掩码摆脱了锚框的限制。SOLO算法是一种无锚框的单阶段实例分割算法，通过量化中心点位置和物体大小对实例中的每个像素分配类别。该模型凭借全图卷积、网络结构一体化、不裁剪特征图等特性，在分割速度上能够满足城市街景环境下对实例分割算法性能的要求。

发明内容

在对城市街景环境下的车辆行人进行分割时，存在因流动及摄像头距离较远等因素导致的实例目标较小和实例遮挡两个主要问题。同时由于SOLO算法的特征提取部分采用简单的Resnet+FPN(Feature Pyramid Networks)结构，对小目标特征提取不充分；在检测目标时缺少两阶段范式的ROI-Align操作，致使无法准确获取目标区域，对遮挡目标的分割精度上存在一定的局限性。为解决以上问题，本发明公开了一种基于改进的城市街景实例分割方法—— E-SOLO(Efficient SOLO)，能够提高对小目标和遮挡目标的实例分割精度。

为此，本发明提供了如下技术方案：

一种基于E-SOLO的城市街景实例分割方法，具体过程包括如下步骤：

S1、设计MAE数据增强模块；

S2、应用ECA-PSConv特征处理模块；

S3、构建E-SOLO实例分割方法；

S4、模型训练；

S5、模型测试。

进一步地，将城市街景图像分割成尺寸相同的图像块并标记其位置信息，打散顺序后取集合的一部分作为可见区域输入到编码器，经过一系列transformer 单元处理后获得编码块，丢失的区域采用同一个mask embedding向量与编码结果结合并还原到初试图像序列作为解码器的输入。解码器部分预测每个图片浮点型的像素值，最后一层是全连接层，将输出整形映射以形成重建的增强图像。

进一步地，感知内核通过一维卷积捕获局部特征实现组间和组内的跨通道互通。同时使用残差网络中的跳跃连接思想，将原始特征图与ECA模块处理后的特征图进行拼接，在保持特征图信息完整的基础上，实现了对特征图不同通道权值的设置。最后经激活函数获得对应通道的权重，对原始特征重新校准作为下一层的输入。PSConv卷积中输入与输出通道通过全局连接，区别在于不同通道的卷积计算时卷积核存在区别。针对单个卷积层使用多种膨胀率，将它们分配到每个滤波器的单个卷积核中，膨胀率沿滤波器的输入和输出通道的轴线周期性变化得以在广泛的范围内聚合特征。紧凑多尺度卷积在一个卷积核内部设置多种膨胀率以提取不同尺度的信息；对于同一个通道中的所有卷积核其膨胀率随着输入和输出通道数循环变化，实现更细粒度的多尺度特征探索。

进一步地，以原始SOLO为基础，MAE数据增强模块通过非对称编码-解码架构对原始图像进行处理，编码器在可见区域进行操作，解码器在像素空间中重建丢失的区域，增强后的训练图像在尽量避免因添加噪声所带来的负面影响的同时更贴近真实的源数据分布以提高数据集的表征能力。其次在特征提取网络之后施加ECA-PSConv特征处理模块，该模块能够在增强有效特征的同时抑制无用特征，降低算法编-解码过程造成的特征映射损失，同时可以对不同尺度的特征进行提取，提高检测分割精度。通过增强网络通道间的相关性和对卷积核更细粒度的利用，改进后的特征提取网络可以在获得含有更多细节信息特征图的同时兼顾深层特征所具有的丰富语义信息。

进一步地，设置模型训练轮数、动量参数、衰减系数、初始学习率，根据验证损失适当调整学习率的大小，根据验证损失得到最优秀的训练模型。

进一步地，利用实时城市街景视频流对模型进行测试，将按帧获取视频流的图片传入训练好的模型，模型对车辆、行人进行分割，输出其位置坐标、置信度和分割掩码。

相比于现有技术，本发明具有如下有益效果：

本发明在解决对城市街景环境下的车辆行人进行分割时存在因流动及摄像头距离较远等因素导致的实例目标较小和实例遮挡两个主要问题。设计 ECA-PSConv模块对特征进行处理，能够增强算法的表征能力，实现更细粒度的多尺度特征探索。设计MAE数据增强方法进行数据预处理，提升模型性能的同时最大限度地避免因添加噪声和歧义所带来的负面影响。与其他发明相比，本发明提出的一种基于E-SOLO的城市街景实例分割方法在基本不影响分割速度的同时提升对城市街景环境下小目标和遮挡目标的分割精度。

附图说明

图1为本发明的流程示意图；

图2为MAE数据增强原理图；

图3为ECA注意力感知原理图；

图4为PSConv特征融合原理图；

图5为实例分割效果对比图。

具体实施方式

下面结合1-5附图对本发明的技术方案做进一步的说明。

如图1所示，本发明提出一种基于E-SOLO的城市街景实例分割方法：该方法包括以下步骤：

S1、设计MAE数据增强模块；

S2、应用ECA-PSConv特征处理模块；

S3、构建E-SOLO实例分割方法；

S4、模型训练；

S5、模型测试。

步骤S1中，非对称自编-解码器只接受未被掩码的序列作为输入，编码器部分负责对可见区域特征提取，解码器专注于图像的重建，如图2所示。首先将城市街景图像分割成尺寸相同的图像块并标记其位置信息，打散顺序后取集合的一部分作为可见区域输入到编码器，经过一系列transformer单元处理后获得编码块，丢失的区域采用同一个maskembedding向量与编码结果结合并还原到初试图像序列作为解码器的输入。解码器部分预测每个图片浮点型的像素值，最后一层是全连接层，将输出整形映射以形成重建的图像。损失函数仅计算像素空间中重建图像和原始图像之间的均方误差，如公式(1)所示，J为损失函数， m为维度，

和y⁽ⁱ⁾分别代表预测值和真实值。

步骤S2中，主要分为ECA注意力感知部分和PSConv特征融合部分。ECA 注意力感知部分如图3所示，H和W分别代表特征图的长和宽，k为自适应内核尺寸，C为通道维数。该部分使用平均池化(average pool)能够能够保留城市街景的背景信息，使用最大池化(maxpool)能够提取城市街景中的纹理信息，这两种池化方式在简化特征图的同时保留了原始图片的大部分信息。感知内核通过一维卷积捕获局部特征实现组间和组内的跨通道互通。同时使用残差网络中的跳跃连接(skip connection)思想，将原始特征图与ECA处理后的特征图进行拼接，在保持特征图信息完整的基础上，实现了对特征图不同通道权值的设置。最后经激活函数获得对应通道的权重，对原始特征重新校准作为下一层的输入。

PSConv特征融合部分如图4所示，图中H和W分别为城市街景图片特征图的高度和宽度，卷积核尺寸为K×K，

表示卷积核，

表示输入的特征，

表示特征的输出。该部分输入与输出通道通过全局连接，针对单个卷积层使用多种膨胀率，巧妙地将它们分配到每个滤波器的单个卷积核中，膨胀率沿滤波器的输入和输出通道的轴线周期性变化得以在广泛的范围内聚合特征。紧凑多尺度卷积在一个卷积核内部设置多种膨胀率以提取不同尺度的信息；对于同一个通道中的所有卷积核其膨胀率随着输入和输出通道数循环变化，实现更细粒度的多尺度特征探索。

步骤S3中，以原始SOLO为基础，MAE数据增强模块通过非对称编码-解码架构对原始图像进行处理，编码器在可见区域进行操作，解码器在像素空间中重建丢失的区域，增强后的训练图像在尽量避免因添加噪声所带来的负面影响的同时更贴近真实的源数据分布以提高数据集的表征能力。其次在特征提取网络之后施加ECA-PSConv特征处理模块，该模块能够在增强有效特征的同时抑制无用特征，降低算法编-解码过程造成的特征映射损失，同时可以对不同尺度的特征进行提取，提高检测分割精度。通过增强网络通道间的相关性和对卷积核更细粒度的利用，改进后的特征提取网络可以在获得含有更多细节信息特征图的同时兼顾深层特征所具有的丰富语义信息。

步骤S4中，模型训练采用单张显卡，显卡每次处理1幅图像，根据显卡数量设置初始学习率为0.000625。其余部分网络模型训练参数设定如下：优化算法采用随机梯度下降法，动量因子为0.9，权重衰减因子设置为0.0001；模型训练36epoch，每轮训练的前500次迭代中学习率逐渐线性增长，当迭代训练至第 27轮和第33轮时降低学习率以加速模型收敛过程。

步骤S5中，模型测试使用Cityscapes数据集，数据集由50个不同城市的街景组成，包括5000张细粒度标注图片和20000张粗粒度标注图片。根据实际应用场景，实验选用car、bus、pedestrian、rider、truck包括背景共6个类别，筛选出3970张图片构建城市街景数据集。随机抽取数据集的80％作为训练集，10％作为验证集，剩余的作为测试集，测试结果对比如图5所示。

综上所述，本发明所提出的方法在城市街景环境下的分割精度要优于其他方法。

上面是对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限制和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于E-SOLO的城市街景实例分割方法，当对城市街景环境中的行人和车辆等进行检测时，存在车辆行人流动及摄像头距离较远等因素导致的实例目标较小和实例遮挡两个问题；同时，由于SOLO算法的特征提取部分采用简单的Resnet+FPN结构，对小目标特征提取不充分；在检测目标时缺少两阶段范式的ROI-Align操作，致使无法准确获取目标区域，对遮挡目标的分割存在一定的局限；对此我们提出了一种改进的实例分割网络——E-SOLO(Efficient SOLO)分割方法，改善对城市街景环境下小目标和遮挡目标的分割效果，具体过程包括如下步骤：

S1、设计MAE数据增强模块；

S2、应用ECA-PSConv特征处理模块；

S3、构建E-SOLO实例分割方法；

S4、模型训练；

S5、模型测试。

2.根据权利要求1所述，一种基于E-SOLO的城市街景实例分割方法，其特征在于，所述步骤S1中，就是将城市街景图像分割成尺寸相同的图像块并标记其位置信息，打散顺序后取集合的一部分作为可见区域输入到编码器，经过一系列transformer单元处理后获得编码块，丢失的区域采用同一个mask embedding向量与编码结果结合并还原到初试图像序列作为解码器的输入；解码器部分预测每个图片浮点型的像素值，最后一层是全连接层，将输出整形映射以形成重建的增强图像。

3.根据权利要求1所述，一种基于E-SOLO的城市街景实例分割方法，其特征在于，所述步骤S2中，感知内核通过一维卷积捕获局部特征实现组间和组内的跨通道互通；同时使用残差网络中的跳跃连接思想，将原始特征图与ECA模块处理后的特征图进行拼接，在保持特征图信息完整的基础上，实现了对特征图不同通道权值的设置；最后经激活函数获得对应通道的权重，对原始特征重新校准作为下一层的输入；PSConv卷积中输入与输出通道通过全局连接，区别在于不同通道的卷积计算时卷积核存在区别；针对单个卷积层使用多种膨胀率，将它们分配到每个滤波器的单个卷积核中，膨胀率沿滤波器的输入和输出通道的轴线周期性变化得以在广泛的范围内聚合特征；紧凑多尺度卷积在一个卷积核内部设置多种膨胀率以提取不同尺度的信息；对于同一个通道中的所有卷积核其膨胀率随着输入和输出通道数循环变化，实现更细粒度的多尺度特征探索。

4.根据权利要求1所述，一种基于E-SOLO的城市街景实例分割方法，其特征在于，所述步骤S3中，就是以原始SOLO为基础，MAE数据增强模块通过非对称编码-解码架构对原始图像进行处理，编码器在可见区域进行操作，解码器在像素空间中重建丢失的区域，增强后的训练图像在尽量避免因添加噪声所带来的负面影响的同时更贴近真实的源数据分布以提高数据集的表征能力；其次在特征提取网络之后施加ECA-PSConv特征处理模块，该模块能够在增强有效特征的同时抑制无用特征，降低算法编-解码过程造成的特征映射损失，同时可以对不同尺度的特征进行提取，提高检测分割精度；通过增强网络通道间的相关性和对卷积核更细粒度的利用，改进后的特征提取网络可以在获得含有更多细节信息特征图的同时兼顾深层特征所具有的丰富语义信息。

5.根据权利要求1所述，一种基于E-SOLO的城市街景实例分割方法，其特征在于，所述步骤S4中，就是设置模型训练轮数、动量参数、衰减系数、初始学习率，根据验证损失适当调整学习率的大小，根据验证损失得到最优秀的训练模型。

6.根据权利要求1所述，一种基于E-SOLO的城市街景实例分割方法，其特征在于，所述步骤S5中，就是利用实时城市街景视频流对模型进行测试，将按帧获取视频流的图片传入训练好的模型，模型对车辆、行人进行分割，输出其位置坐标、置信度和分割掩码。