CN111553921A

CN111553921A - 一种基于通道信息共享残差模块的实时语义分割方法

Info

Publication number: CN111553921A
Application number: CN202010103230.6A
Authority: CN
Inventors: 胡建国; 蔡佳辉; 王金鹏; 陈嘉敏; 林佳玲
Original assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Current assignee: Guangzhou Intelligent City Development Institute; Sun Yat Sen University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-08-18
Anticipated expiration: 2040-02-19
Also published as: CN111553921B

Abstract

本发明涉及计算机视觉领域，公开了一种基于通道信息共享残差模块的实时语义分割方法，其包括步骤：将特征图X通过二维通道信息共享残差模块经通道分裂进行分组操作，分成X1和X2两组；将分组X1连续经过两个不带空洞卷积的3*1和1*3的卷积核进行卷积操作，再经过带空洞卷积的3*1和1*3卷积核进行卷积操作，得到输出Y1；将输出Y1和输入X2进行拼接，再进行一系列带空洞卷积和不带空洞卷积的3*1和1*3的卷积核进行卷积操作，输出Y2；拼接Y1和Y2后，将各通道洗牌打乱；将实时语义分割网络中的编码器学习到的语义特征映射到高分辨率的特征图上，获得密集预测。该方法可对输入的特征图进行实时精确地分割，有效降低了整个网络的参数量，提高了计算效率，提高了特征图的实时分割精度。

Description

一种基于通道信息共享残差模块的实时语义分割方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于通道信息共享残差模块的实时语义分割方法，具有鲁棒性强、计算效率高的特点。

背景技术

语义分割一直是计算机视觉领域的热门方向，其应用领域广泛，例如增强现实，自动驾驶，计算摄影学，人机交互，图像搜索引擎等。语义分割的目的是给图片中的每个像素进行分类，使每个像素都被标注上对应区域的类别，属于密集预测，因此需要耗费大量的计算资源。为了将语义分割算法应用到移动设备上，减轻对计算资源的依赖，近几年越来越多的学者致力于构建实时化语义分割算法。

语义分割一直是计算机视觉领域一个具有挑战性的方向。一张图片里面往往会有多种种类的物品，例如Cityspaces数据集的图片，是在汽车上采集的汽车窗外的街景图片，图片里面都各种高楼大厦，行人，路灯等，分割目标物的种类很多，尺寸大小不一，所以要对其进行语义分割，是一项很有挑战性的任务。实时语义分割除了面临传统语义分割的挑战之外，还需要提高分割速度，满足实时性要求。总之，目前的实时语义分割技术主要存在的不足之处有：

第一，实时性不足。许多实时语义分割网络为了满足一定的分割精度，建立的网络结构复杂，训练速度和分割的速度慢，训练成本高。

第二，分割精度低。为了满足实时性的要求，一些轻量型语义分割网络牺牲了分割的精度从而来提高分割的速度，很难做到精度和速度两方面同时提升。

为了解决上述问题，本发明提出一种基于通道信息共享残差块的实时语义分割方法。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于通道信息共享残差模块的实时语义分割方法。

一种基于通道信息共享残差模块的实时语义分割方法，其包括以下步骤：

S1、将特征图X通过二维通道信息共享残差模块经通道分裂进行分组操作，分成两组，分别为X1和X2；

S2、将第一个分组X1连续经过两个不带空洞卷积的3*1和1*3的卷积核进行卷积操作，再经过带空洞卷积的3*1和1*3卷积核进行卷积操作，得到第一组分组的输出Y1；

S3、将输出Y1和第二分组的输入X2进行拼接，再进行一系列带空洞卷积和不带空洞卷积的3*1和1*3的卷积核进行卷积操作，输出Y2；

S4、拼接Y1和Y2后，将各通道洗牌打乱；

S5、将实时语义分割网络中的编码器学习到的语义特征映射到高分辨率的特征图上，获得密集预测。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，在所述步骤S1中，所述二维通道信息共享残差模块的表达式为：

X1＝X[:,:C/2,:,:]；

X2＝X[:,C/2:,:,:]；

Y1＝f_1-d1(f₁(X1))；

其中，C为输入特征的通道数，f₁(·)为3×1和1×3卷核的卷积操作和一系列的ReLU、批量归一化BN操作，f_1-d1(·)为指扩张率为d1的3×1和1×3卷积核的空洞卷积操作和一系列的ReLU、批量归一化BN操作，f₂(·)为1×3和3×1卷核的卷积操作和一系列的ReLU、批量归一化BN操作，f_2-d2(·)为指扩张率为d2 的1×3和3×1卷积核的空洞卷积操作和一系列的ReLU、批量归一化BN操作，

为指特征通道的拼接操作，shuffle(·)为输入的特征通道洗牌操作，括号中为通道数。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，在所述实时语义分割网络的编码阶段过程中，特征图提取得到的语义信息丰富度与降采样模块的操作次数正相关。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，所述实时语义分割网络中的编码器的APN模块采用LEDNet网络中的解码器部分,用于融合编码器提取的不同尺度的信息以及更精确地结合特征图上下左右邻域的信息。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，在所述实时语义分割网络的编码阶段沿着特征图的特征提取输出方向，依次包括第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8、 APN模块和上采样模块，其中解码阶段为第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8，解码阶段为APN模块和上采样模块。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，所述第一下采样模块D、第二下采样模块D、第三下采样模块D的下采样率均为 2，所述第一通道信息共享残差块M*3为连续3个扩张率为1的通道信息共享残差模块，所述第二通道信息共享残差块M*2为连续2个扩张率为1的通道信息共享残差模块，所述第三通道信息共享残差块M*8为连续8个扩张率分别为1、2、5、9、2、5、9、17的通道信息共享残差模块。

优选地，在上述的基于通道信息共享残差模块的实时语义分割方法中，所述上采样模块的上采样率均为8。

本发明的有益效果：本发明的方法可以对图片进行多类别和密集预测的效果，通过二维通道信息共享残差模块和实时语义分割网络可以对输入的特征图进行实时精确的分割，通道信息共享残差模块有效降低了整个网络的参数量，提高了计算效率，同时该二维通道信息共享残差模块使用分组卷积共享神经网络通道信息，提高了特征图的实时分割精度，具有鲁棒性强、精确度高、计算效率高的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的流程示意图；

图2为本发明实施例的实时语义分割网络的结构示意图；

图3为本发明实施例的实时语义分割网络组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提出的一种基于通道信息共享残差模块的实时语义分割方法，其包括以下步骤：

S4、拼接Y1和Y2后，将各通道洗牌打乱；

具体地，在本发明的优选实施例中，在步骤S1中，该二维通道信息共享残差模块的表达式为：

X1＝X[:,:C/2,:,:]；

X2＝X[:,C/2:,:,:]；

Y1＝f_1-d1(f₁(X1))；

具体地，在本发明的优选实施例中，如图2所示，在实时语义分割网络的编码阶段过程中，特征图提取得到的语义信息丰富度与降采样模块的操作次数正相关。该实时语义分割网络中的编码器的APN模块采用LEDNet网络中的解码器部分,用于融合编码器提取的不同尺度的信息以及更精确地结合特征图上下左右邻域的信息。在实时语义分割网络的编码阶段沿着特征图的特征提取输出方向，依次包括第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8、APN模块和上采样模块，其中解码阶段为第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8，解码阶段为APN模块和上采样模块。

具体地，在本发明的优选实施例中，如图3所示，第一下采样模块D、第二下采样模块D、第三下采样模块D的下采样率均为2。第一通道信息共享残差块M*3为连续3个扩张率为1的通道信息共享残差模块，第二通道信息共享残差块M*2为连续2个扩张率为1的通道信息共享残差模块，第三通道信息共享残差块M*8为连续8个扩张率分别为1、2、5、9、2、5、9、17的通道信息共享残差模块，上采样模块的上采样率均为8。

具体地，在本发明的优选实施例中，该二维通道信息共享残差模块主要有以下优点：

第一，通过引入通道分裂(split)和洗牌(shuffle)这两个操作来实现通道共享模块的分裂变换和合并。若残差块没有进行卷积分组和合并操作，假设分裂和合并中间只有一层卷积操作且输入输出的通道相等，则总的参数量是 C×D₁×D₂×F，其中C是输入通道数，F是输出通道数，D₁×D₂是卷积核的尺寸大小，而进行分裂和合并组合操作之后所需的参数量为C/2×D₁×D₂×F/2，减少为原来的1/4，在通道数比较多的情况下，通过残差块进行卷积分组和合并操作，则计算复杂度会大大降低，引入该模块有利于构造轻量级的网络。

第二，在残差网络中，残差模块由两个3×3的卷积核操作构成，本发明中的残差模块在分为两支路后，分别采用3×1和1×3的卷积操作，相当于用1×3和 3×1的卷积核来实现一个3×3卷积核的功能。这种做法将原来的2维权重

(假设卷积核的尺寸是d×d)分解成一维权重

参数量比原来减少33％，提高了计算效率。在模块中每一个支路后面两个1×3和3×1卷积核采用的是空洞卷积，可以采用不同扩张率的空洞卷积，从而有利于不同尺寸的目标物分割。

第三，该二维通道信息共享残差模块采用的分组卷积思想，将输入分成两组，这在一定程度上会切断两组特征图的信息交流，所以将第一个分组的输出与第二个分组的输入拼接作为第二支路的输入，可以增强两个分组之间的信息交流，有利于提高分割精度。

实时语义分割网络分为编码阶段和解码阶段，在编码阶段过程中，随着下采样模块的操作，特征图提取得到更深的语义信息，在第三次下采样之后，采取不同扩张率的通道信息共享残差模块是为了从小到大逐渐增大整个卷积网络的接受野，使得该实时语义分割网络能够处理不同尺寸的目标物。因为在编码过程中，特征图的分辨率减小到原来图像的1/8，一部分空间信息损失，故通过对原始输入图像进行端到端的语义分割，需要将特征图恢复到原来输入图像的大小，解码器的任务就是将编码器学习到的语义特征映射到高分辨率的特征图上，从而获得密集预测。在本发明中，解码器APN模块直接采用的是LEDNet网络中的解码器部分，该APN模块能够融合编码器提取的不同尺度的信息，更精确地结合特征图上下左右邻域的信息，而且引入的计算预算小。

综上所述，本发明的方法可以对图片进行多类别和密集预测的效果，通过二维通道信息共享残差模块和实时语义分割网络可以对输入的特征图进行实时精确的分割，通道信息共享残差模块有效降低了整个网络的参数量，提高了计算效率，同时该二维通道信息共享残差模块使用分组卷积共享神经网络通道信息，提高了特征图的实时分割精度，具有鲁棒性强、精确度高、计算效率高的优点。

以上对本发明实施例所提供的一种基于通道信息共享残差模块的实时语义分割方法进行了详细介绍，具体实时方式中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于通道信息共享残差模块的实时语义分割方法，其特征在于，包括以下步骤：

S4、拼接Y1和Y2后，将各通道洗牌打乱；

2.根据权利要求1所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，在所述步骤S1中，所述二维通道信息共享残差模块的表达式为：

X1＝X[:,:C/2,:,:]；

X2＝X[:,C/2:,:,:]；

Y1＝f_1-d1(f₁(X1))；

其中，C为输入特征的通道数，f₁(·)为3×1和1×3卷核的卷积操作和一系列的ReLU、批量归一化BN操作，f_1-d1(·)为指扩张率为d1的3×1和1×3卷积核的空洞卷积操作和一系列的ReLU、批量归一化BN操作，f₂(·)为1×3和3×1卷核的卷积操作和一系列的ReLU、批量归一化BN操作，f_2-d2(·)为指扩张率为d2的1×3和3×1卷积核的空洞卷积操作和一系列的ReLU、批量归一化BN操作，

3.根据权利要求1或2所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，在所述实时语义分割网络的编码阶段过程中，特征图提取得到的语义信息丰富度与降采样模块的操作次数正相关。

4.根据权利要求1所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，所述实时语义分割网络中的编码器的APN模块采用LEDNet网络中的解码器部分,用于融合编码器提取的不同尺度的信息以及更精确地结合特征图上下左右邻域的信息。

5.根据权利要求4所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，在所述实时语义分割网络的编码阶段沿着特征图的特征提取输出方向，依次包括第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8、APN模块和上采样模块，其中解码阶段为第一下采样模块D、第一通道信息共享残差块M*3、第二下采样模块D、第二通道信息共享残差块M*2、第三下采样模块D、第三通道信息共享残差块M*8，解码阶段为APN模块和上采样模块。

6.根据权利要求5所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，所述第一下采样模块D、第二下采样模块D、第三下采样模块D的下采样率均为2，所述第一通道信息共享残差块M*3为连续3个扩张率为1的通道信息共享残差模块，所述第二通道信息共享残差块M*2为连续2个扩张率为1的通道信息共享残差模块，所述第三通道信息共享残差块M*8为连续8个扩张率分别为1、2、5、9、2、5、9、17的通道信息共享残差模块。

7.根据权利要求5所述的基于通道信息共享残差模块的实时语义分割方法，其特征在于，所述上采样模块的上采样率均为8。