CN113920411A

CN113920411A - 基于改进SOLOv2的校园场景图像分割方法

Info

Publication number: CN113920411A
Application number: CN202111177879.3A
Authority: CN
Inventors: 蒋涛; 罗鸿明; 谢昱锐; 吴思东; 袁建英; 胡泽; 王月红; 崔亚男; 段翠萍; 罗辉
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-11
Anticipated expiration: 2041-10-09
Also published as: CN113920411B

Abstract

本发明公开了一种基于改进SOLOv2的校园场景图像分割方法，包括：步骤1：对待检测图像进行主干网络特征提取以得到对应的多层特征信息；步骤2：将多层特征信息送入到改进后的特征金子塔中进行细化并融合；步骤3：将融合后的信息送入到Head头部进行分析，通过两个并行的子通道，进行类别信息分析和mask实例分割；步骤4：通过矩阵非极大值抑制保留最高置信度的掩码信息以及类别信息，步骤5：将mask特征图映射回原图像上，输出带有特征mask掩码的图像。本发明提供一种基于改进SOLOv2的校园场景图像分割方法，能有效提升了对密集人群情况下的分割精度和召回率，且在面对目标遮挡和物体残缺的情况下，本发明算法的性能明显优先于其他算法。

Description

基于改进SOLOv2的校园场景图像分割方法

技术领域

本发明涉及一种基于视觉的校园道路场景的图像目标特征识别领域。更具体地说，本发明涉及一种用用于校园道路场景这种会存在密集物体和遮挡物体情况下的基于改进SOLOv2(实例分割)的校园场景图像分割方法。

背景技术

校园场景作为一种较为特别的道路交通场景，相比于城市交通场景而言，拥有行人密集、道路宽度更窄，学生出行成群等特点。如今无人驾驶技术已经逐步渗透到人们的生活当中，用于校园道路场景下的无人接驳车自动驾驶技术也成为了当下高校的研究热点。

在无人接驳车环境感知部分，通常通过摄像头对道路环境信息进行采集，通过相应算法对图像中的所需特征物体，例如行人、车辆、自行车等进行像素级的分割，并按照每个独立的物体打上彩色掩码，以获得各个目标物体的掩码信息，而现有的方法而言主要存在未考虑在场景中出现人群密集、存在大量物体遮挡、目标残缺的情况，故对于遮挡、残缺的目标无法进行分割识别的缺点。

以基于深度卷积神经网络的室外场景多目标分割方法为例，主要包括以下步骤：1)特征提取步骤：深度网络将原始输入图像通过多个卷积层加上池化层的组合得到4个不同尺度的特征谱；卷积操作通过点卷积加深度卷积组合实现；2)特征融合步骤：把特征提取步骤里面的两个不同尺度的特征做融合操作；先将较小尺度的特征谱反卷积恢复到较大尺寸的特征谱的尺寸，再将两个输入谱上相同位置上的元素按照对应位置的滤波器系数进行加权求和得到融合特征谱；3)多尺度池化步骤：对融合特征谱使用4个不同尺度的池化操作，不同尺度的池化后在每个特征谱上接上一个卷积操作，然后分别用双线性插值的方式恢复到输入的融合特征谱的尺寸大小，最终将4个特征谱进行连接，得到池化输出特征谱；4)上采样步骤：上采样网络由两个卷积层和数据变换层组成，确定要恢复的原始图像的高宽与两个卷积层后输出特征谱高宽相差n倍，则把输出谱按照每n2个通道中同一位置的像素点重新在一个图像中排列成n*n的区域，两个卷积层后输出特征谱经数据变换层得到恢复到原图像尺寸的特征谱。其存在的缺点就在于：

1、上采样和下采样过程中使用的1*1卷积变换通道的方式过于直接和粗暴，容易导致深层次的语义信息丢失；

2、当面临图像中存在物体数量较多，出现大量遮挡时，就会出现难以有效进行融合的问题；

3、当场景中目标物体出现密集、遮挡、残缺时，特征物体的上下文语义信息将会相差很大，易造成融合时出现较大语义鸿沟，难以保证分割精度，以及有效的检测效果。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

为了实现根据本发明的这些目的和其它优点，提供了一种基于改进SOLOv2的校园场景图像分割方法，包括：

步骤1：对待检测图像进行主干网络特征提取以得到对应的多层特征信息；

步骤2：将多层特征信息送入到改进后的特征金子塔中进行细化并融合；

步骤3：将融合后的信息送入到Head头部进行分析，通过两个并行的子通道，进行类别信息分析和mask实例分割；

步骤4：将所得到大量冗余预测信息进行矩阵非极大值抑制，根据置信度从高到底排列保留最高置信度的掩码信息以及类别信息，将保留下来的类别信息以及mask通道所得的特征进行融合，以得到对应的mask特征图，

步骤5：将mask特征图映射回原图像上，输出带有特征mask掩码的图像。

优选的是，在步骤一中，所述主干网络被配置为采用带有内卷算子involution的深度残差网络；

其中，在深度残差网络中，待检测图像通过空间域特征置换层获取需要专注的目标信息，再引入通道域注意力机制对神经网络进一步细化，以保留小目标信息；

在特征提取过程中，用Mish激活函数替换掉部分Relu函数，获得自上而下且尺寸不同的C2，C3，C4，C5四层特征图。

优选的是，在步骤一中，所述待检测图像的宽高比配置为1600*800；

在四层特征图中各层图像尺寸被配置为依次减半，其中，C2为低层语义特征图，C5为高层语义特征图。

优选的是，在步骤二中，所述特征金字塔部分是接在主干网络后面的neck组织，通过将最后一层的特征图引出一个额外的分支，进行特征细化，并加在特征金字塔的最上层进行融合；同时对其他三层提取到的特征信息进行进一步的细化和融合并进行语义信息归并后输出细化融合后的四种尺寸大小不同的特征信息P2、P3、P4、P5。

优选的是，在步骤二中，所述P2、P3、P4、P5的获取方法被配置为包括:

将四层特征图C2，C3，C4，C5分别进行1*1的卷积降维，通过变换其通道数得到对应的M2，M3，M4，M5；

经过残差特征增强后的C5与对齐通道后的M5经过融合得到P5；

经过2倍以上采样的P5、P4、P3，与对齐通道后的M4、M3、M2，分别通过3*3卷积得到对应的P4、P3、P2。

优选的是，所述步骤二中，还包括对P2、P3、P4、P5进行自适应空间融合；

其中，所述自适应空间融合的步骤被配置为包括：

将P2、P3、P4、P5采用Concat函数进行融合后，依次通过1*1卷积降维、3*3卷积、sigomid函数归一化以得到新特征图；

将新特征图与原图进行权重聚合以输出最终的预测结果。

优选的是，对C5进行残差特征增强的方法是通过另起一条支路，对P5依次进行自适应池化操作、1*1卷积降维、上采样以及自适应空间融合以得到。

优选的是，在步骤三中，将四层特征图的融合结果输入到Head部分进行预测以及分割工作，通过在图像上划分一定数目的网格，当图像上目标物体的质心落入到所划分的某个网格之中时，该网格就会对其进行预测；

其中，在两个并行通道进行预测时，物体的类别信息通过类别预测分支kernelbranch以得到，物体的mask信息通过mask特征分割分支feature branch以得到，进而获取到包括大量冗余预测信息的2000种置信度不同的特征信息。

本发明至少包括以下有益效果：本发明采用注意力机制的手段和involution(内卷算子)进一步关注细节信息，将神经网络进一步细化提取到的目标特征，保留小目标信息。并将各层的特征信息消除语义差距之后进行有效融合，获取到目标的深层次语义信息，使用Mish激活函数替换一部分的relu函数，防止关键的网络的权重信息被丢弃，使权重更为平滑，进一步的确定分割目标的类型，使得本发明将实例分割算法应用在了校园道路场景下时，相对于现有技术来说，其有效提升了对密集人群情况下的分割精度(+4.12％)和召回率(+7.09％)，且在面对目标遮挡和物体残缺的情况下，本发明算法的性能明显优先于其他算法。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明主干特征提取网络图；

图2为本发明空间域转换机制的处理流程示意图；

图3为本发明通道注意力机制的处理流程示意图；

图4为本发明特征金字塔结构的处理流程示意图；

图5为本发明自适应空间融合结构的处理流程示意图；

图6为本发明残差特征增强部分的处理流程示意图；

图7为本发明特征预测部分的处理流程示意图；

图8为待分割的原图；

图9为现有技术对原图进行标记的效果图；

图10为本发明对原图进行标记的效果图；

图11为图9的左部放大示意图；

图12为图9的左部放大示意图。

图13为图10的左部放大示意图；

图14为图10的左部放大示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

现有方法未考虑网络处理上下文信息的紧密性问题，导致提取出来的特征信息丢失。基于此，本发明在这两点上进行了针对性处理，且不需要使用RPN(区域建议网络)候选区域，也不需要anchor(候选框)进行回归，仅只用了一阶段逐像素回归的方法，最终通过如下网络结构，作出了改善并完成了更优的实例分割结果。

本发明提供了一种基于深度神经网络的用于校园道路场景使用的实例分割方法，目的在于校园场景下无人车在低速环境下对周围环境进行实时视觉感知。具体来说本发明包含以下步骤：

步骤1.将等待检测的图像数据(图片或者视频流)，以1600*800的宽高比输入到带有involution(内卷算子)的深度残差网络之中进行特征提取工作，并输出由大到小四层尺度的特征信息图。

步骤2：将从步骤1中获得的四层特征信息送入到改进后的特征金字塔中，将最后一层的特征图引出一个额外的分支，进行特征细化，并加在特征金字塔的最上层进行融合。同时对其他三层提取到的特征信息进行进一步的细化和融合并进行语义信息归并，再输出细化融合后的四种尺寸大小不同的特征信息。

步骤3：将步骤2获取的四层特征层融合结果送入到Head头部，进行解码，解码通道分为两个并行的子通道，一个通道是对物体的类别进行分类，另一个通道是对物体的mask进行逐像素回归。

步骤4：获取到置信度不同的2000种mask(掩码)信息，根据超参数正负样本设置的阈值通过矩阵非极大值抑制的手段，筛出掉较低置信度的多余mask信息，保留最优的结果信息。

步骤5：将保留下来的类别信息以及mask通道所得的特征进行融合后得到特征mask。不同类别中不同的实例用不同的颜色打上mask掩码。并且用文字对应到相应的类别名称。

步骤6：最终输出对应物体的在原图像上的mask信息以及所对应的物体类别信息。

实施例：

本发明设计了一种基于RGB图像和深度残差网络的校园场景实例分割技术。主要包含了以下步骤：

步骤1：首先将待分割的原始图像以宽高比为1600*800的大小输入到如图1(在图1的网络结构中，最下层的长条表达的是原始图像；而上层的image层表达的是将原始图像以宽高比为1600*800的大小调整后，其尺寸大小与原始图像相比较具有差异性；位于image层上以及最顶层的空间域特征置换层、通道域注意力机制表达的是对现有网络结构的改进，而中间的空白层表达是现有网络结构中未做改变的层)的主干特征提取网络之中，主干部分采用带involution(内卷)算子的rednet50网络，首先经过如图2空间域特征置换层，获得所需要专注的目标信息，再引入如图3的通道域注意力机制，进一步的提升对这两类物体的分割精度，使用Mish激活函数，替换掉一部分的Relu函数，进行特征提取，以获得自上而下的四层尺寸不同的Feature map(特征图)。

具体来说，在步骤1中是将等待检测的图像数据(图片或者视频流)，以1600*800的宽高比输入到带有involution(内卷算子)的深度残差网络之中进行特征提取工作，在提取过程中，分别输出C2，C3，C4，C5四层特征图。从C2～C5，图像尺寸依次减半。C2为低层语义特征图，C5为高层语义特征图。其中involution算子拥有空间差异性和通道不变性。其算子本身与convolution呈现相反的特征，Involution在通道上共享内卷算子核(kernel)，在空间维度方面，其使用了空间特异的核来进行更为灵活的建模与分布。其外在表现而言，它自身比卷积操作更为高效，更为轻量。在形式上比自注意力机制(self-attention)更加的简洁明了。

步骤2：将获取到的四层特征图，送入到如图4的经改进后的特征金字塔部分，特征金字塔部分作为接在主干网络后面的neck组织，能够将多层特征信息进行融合，并输出更为准确的多尺度特征信息，本发明针对此问题，对特征金字塔部分的每一层feature map(特征图)都进行了一次特征映射，然后所得的特征图进行回归并按类别划分。与原始图像的真实值进行loss计算，最后与网络本身的损失函数进行一个加权。通过此方法来减轻尺不同尺度的语义信息之间的鸿沟。此外，本发明考虑到主干网络的最后一层在特征融合之间是未丢失语义信息的，故在此位置另起一条支路，先通过一个如图5的自适应池化的操作，然后接1*1卷积降维，再上采样，然后得到输出的新特征图，将新获得的feature map与特征金字塔部分提取的P5特征图进行一个相加。最终通过特征金字塔部分逐层自适应融合特征，进一步输出细化后的feature map。

具体来说，步骤二是将从步骤一中的特征提取网络获得了自上而下四层特征图(feature map)C2，C3，C4，C5进行1*1卷积降维，变换其通道数，得到M2，M3，M4，M5；将经过如图6的残差特征增强得C5与M5对齐通道数并融合之后得到P5，P5进行2倍上采样之后，与经过1*1卷积之后的M4对齐通道数之后再次经过3*3卷积，得到P4。将P4进行2倍上采样，与经过1*1卷积之后的M3对齐通道数之后再次经过3*3卷积，得到P2。同样的操作，将M2和P3融合得到P2。最后将P5，P4，P3，P2进行自适应空间融合。其中自适应空间融合的步骤为首先将其Concat之后，进行1*1卷积降维，再经过3*3卷积，然后经过sigomid函数归一化得到新的特征图，再与原图进行权重聚合；输出给最终得预测结果。

步骤3：将四层特征图融合后的结果输入到Head部分进行如图7的预测以及分割工作，通过在图像上划分一定数目的网格，当图像上目标物体的质心落入到所划分的某个网格之中时，该网格就会对其进行预测，然后分别送入其kernel branch(类别预测分支)和feature branch(mask特征分割分支)。在两个并行通道中，kernel barnch负责预测物体的类别信息，feature branch负责预测物体mask信息。获取到2000种置信度不同的特征信息。

步骤4：将冗余的信息进行矩阵非极大值抑制工作，保留置信度最高的结果，得到最终的mask(掩码)信息和类别信息，将其映射到原始图像上，输出带有彩色mask信息以及类别信息的图像。

如图8-14，以同样的待处理图像采用本发明以及现有技术进行效果对比，可知在校园道路场景这种会存在密集物体和遮挡物体的情况下，本发明相对于现有技术而言，在面对目标遮挡，和物体残缺的情况下，其分割精度和召回率可以得到显著提升。

以上方案只是一种较佳实例的说明，但并不局限于此。在实施本发明时，可以根据使用者需求进行适当的替换和/或修改。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于改进SOLOv2的校园场景图像分割方法，其特征在于，包括：

2.如权利要求1所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，在步骤一中，所述主干网络被配置为采用带有内卷算子involution的深度残差网络；

3.如权利要求2所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，在步骤一中，所述待检测图像的宽高比配置为1600*800；

4.如权利要求1所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，在步骤二中，所述特征金字塔部分是接在主干网络后面的neck组织，通过将最后一层的特征图引出一个额外的分支，进行特征细化，并加在特征金字塔的最上层进行融合；同时对其他三层提取到的特征信息进行进一步的细化和融合并进行语义信息归并后输出细化融合后的四种尺寸大小不同的特征信息P2、P3、P4、P5。

5.如权利要求4所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，在步骤二中，所述P2、P3、P4、P5的获取方法被配置为包括:

经过残差特征增强后的C5与对齐通道后的M5经过融合得到P5；

6.如权利要求5所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，所述步骤二中，还包括对P2、P3、P4、P5进行自适应空间融合；

其中，所述自适应空间融合的步骤被配置为包括：

将新特征图与原图进行权重聚合以输出最终的预测结果。

7.如权利要求5所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，对C5进行残差特征增强的方法是通过另起一条支路，对P5依次进行自适应池化操作、1*1卷积降维、上采样以及自适应空间融合以得到。

8.如权利要求1所述的基于改进SOLOv2的校园场景图像分割方法，其特征在于，在步骤三中，将四层特征图的融合结果输入到Head部分进行预测以及分割工作，通过在图像上划分一定数目的网格，当图像上目标物体的质心落入到所划分的某个网格之中时，该网格就会对其进行预测；

其中，在两个并行通道进行预测时，物体的类别信息通过类别预测分支kernel branch以得到，物体的mask信息通过mask特征分割分支feature branch以得到，进而获取到包括大量冗余预测信息的2000种置信度不同的特征信息。