CN109670506B

CN109670506B - 基于克罗内克卷积的场景分割方法和系统

Info

Publication number: CN109670506B
Application number: CN201811309245.7A
Authority: CN
Inventors: 唐胜; 伍天意; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2021-04-06
Anticipated expiration: 2038-11-05
Also published as: CN109670506A

Abstract

本发明涉及一种基于克罗内克卷积的场景分割方法，包括：构建具有残差结构的克罗内克卷积层；以该克罗内克卷积层和标准卷积层构建特征提取子网络，以原始图像为输入，通过该特征提取子网络输出抽象特征图；以该克罗内克卷积层构建树形特征聚合模块，以该抽象特征图为输入，通过该树形特征聚合模块输出聚合特征图；以该聚合特征图为输入，通过该场景分割子网络输出该原始图像的场景分割结果。

Description

基于克罗内克卷积的场景分割方法和系统

技术领域

本方法属于机器学习和计算机视觉领域，特别是涉及一种基于克罗内克卷积和树形结构特征聚合模块的场景分割方法和系统。

背景技术

场景分割是计算机视觉领域非常重要并且极具挑战的任务，并且在生产和生活中具有广泛的应用价值，如无人驾驶、机器人导航、视频编辑等。场景分割的目标是对场景图像中的每个像素点分配其所属类别。最近，基于全卷积网络的场景分割方法取得显著的进步。然而，现在的主流方法都是通过迁移分类网络过来，通过去除最大池化层和全连接层，以及增加反卷积层以生成分割结果。但是分类与分割之间还是有很大区别，比如经典的分类网络会对原始输入下采样32倍，这样有助于提取到更适合用来分类的特征，但这种网络模型忽视了位置信息，恰恰相反的是，分割则需要很精准的位置信息，具体到像素级的位置信息。当前有研究者提出膨胀卷积在一定程度上解决了这个问题，它可以增加滤波器的感受野同时保持特征图的分辨率，并且取得了比较好的分割性能。但膨胀卷积有个缺点，其膨胀系数比较大的情况下，它会损失了许多局部细节信息。特别地，并且当膨胀因子接近特征图的尺寸时，一个3×3卷积退化成1×1卷积。

此外，对于场景分割网络，场景当中的物体经常是有多个尺度呈现，还有个特点是场景的层次化结构，比如对于Cityscapes数据集，一般来说，在图像中心位置通常是远处的车子，其尺度较小；而在图像两侧区域通常是近处的车子，其尺度较大。为了解决上述两个问题，很多现有的方法都是通过在基本特征提取子网络使用膨胀卷积，然后利用跨层特征融合去分割多尺度物体。但膨胀卷积忽视的局部细节信息和简单的跨层融合分割多尺度物体在一定程度上阻碍了分割性能。

发明内容

针对上述问题，本发明提出一种基于克罗内克卷积的场景分割方法，包括：构建具有残差结构的克罗内克卷积层；以该克罗内克卷积层和标准卷积层构建特征提取子网络；以原始图像为输入，通过该特征提取子网络输出抽象特征图；以该克罗内克卷积层构建树形特征聚合模块；以该抽象特征图为输入，通过该树形特征聚合模块输出聚合特征图；以该克罗内克卷积层构建场景分割子网络；以该聚合特征图为输入，通过该场景分割子网络输出该原始图像的场景分割结果。

进一步地，该克罗内克卷积层的形式化表示为

其中K(c₁，c₂)为标准卷积核，c₁、c₂为该克罗内克卷积层的通道索引，c₁∈[1，C_A]，c₁∈[1，C_B]，C_A为输入K(c₁，c₂)的特征图的通道数，C_B为K(c₁，c₂)输出的特征图的通道数，F为二维的扩展矩阵，满足当K(c₁，c₂)为k×k时，使K¹(c₁，c₂)被扩展为(2k+1)r₁×(2k+1)r₁；k为标准卷积的核大小，r₁为该克罗内克卷积层的扩张因子，r₂为该克罗内克卷积层的共享因子，c₁、c₂、C_A、C_B、k、r₁、r₂为正整数。

进一步地，该特征提取子网络包括5个阶段，阶段1包括3层级联的3×3标准卷积层，阶段2包括多个级联的第一瓶颈模块，阶段3包括多个级联的该第一瓶颈模块，阶段4包括多个级联的第二瓶颈模块，阶段5包括多个级联的该第二瓶颈模块；其中该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层；该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。

进一步地，该树形特征聚合模块包括级联的聚合层，该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数，并以每一层聚合层的输出作为下一层聚合层的输入；该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并，得到该聚合特征图。

进一步地，该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。

本发明还公开了一种基于克罗内克卷积的场景分割系统，包括：

克罗内克卷积层构建模块，用于构建具有残差结构的克罗内克卷积层；

特征提取子网络，用于输入原始图像以输出抽象特征图，其中该征提取子网络包括该克罗内克卷积层和标准卷积层；

树形特征聚合模块，用于输入该抽象特征图以输出聚合特征图，其中该树形特征聚合模块包括多层该克罗内克卷积层；

场景分割子网络，用于输入该聚合特征图以输出该原始图像的场景分割结果，其中该场景分割子网络包括多层该克罗内克卷积层。

附图说明

图1为本发明基于克罗内克卷积的场景分割方法整体框架图。

图2A是现有技术的膨胀卷积示意图；

图2B是本发明的克罗内克卷积示意图；

图3为本发明提出的特征提取子网络结构示意图；

图4为本发明提出的树形结构特征聚合模块示意图；

图5、6是本发明的场景分割方法与现有技术的性能比较图。

图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。

图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。

图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的基于克罗内克卷积(Kronecker Convolution)的场景分割方法和系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

本发明的基于克罗内克卷积的场景分割方法和系统，包括对原始图像利用克罗内克卷积进行特征学习，将得到的特征输入到树形结构特征聚合模块学习层次化的上下文信息，然后将得到特征和上下文信息输入到场景分割子网络，得到原始图像的场景分割结果。本发明提出了一种用于特征抽取的克罗内克卷积，可以在不增加额外参数的情况下增加滤波器的感受野，并且能够捕捉局部信息，同时获得更高的分割精度。此外，本发明还提出了树形结构特征聚合模块去分割多尺度物体和捕捉层次化的上下文信息，这极大地提高了现有基于全卷积的场景分割模型的性能。

克罗内克积是张量积的特殊形式，具体为两个任意大小的矩阵间的运算。克罗内克卷积核的形式化表达为：

其中K(c₁，c2)是标准的卷积核，c₁∈[1，C_A]，c₁∈[1，C_B]。这里C_A和C_B分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r₂×r₂大小的全1矩阵与右下角为(r₁-r₂)×(r₁-r₂)大小的零矩阵的组合，假设标准的卷积核是k×k，则克罗内克卷积核被扩展成(2k+1)r₁×(2k+1)r₁；其中r₁和r₂是本发明提出的克罗内克卷积层的两个超参数，r₁为克罗内克卷积层的扩张因子，r₂为克罗内克卷积层的共享因子，c₁、c₂、C_A、C_B、k、r₁、r₂为正整数，

表示进行克罗内克积运算。

假设标准卷积在输入特征图对应的卷积块的中心坐标是(p^t，q^t)，输入特征图Yt对应的采样点(x_ijuv，y_ijuv)为：

x_ijuv＝p^t+ir₁+u，y_ijuv＝q^t+jr₁+v

其中，i，j∈[-k，k]∩Z，u，v∈[0，r₂-1]∩Z；

对应的克罗内克卷积运算的形式化为：

其中，

i、j、u、v是输入特征图Yt的空间位置索引，Bt为输出特征图，

为输入特征图Y^t的特征向量，

为克罗内克卷积核参数，b为偏置向量，

为C_A维空间。

图1为本发明基于克罗内克卷积的场景分割方法整体框架图。如图1所示，具体来说，本发明的基于克罗内克卷积的场景分割方法包括：

步骤S1，构建克罗内克卷积层；

本发明提出一种新的卷积方式，克罗内克卷积，用于扩大标准卷积的感受野，同时不增加其参数数量。此外，本发明提出的克罗内克卷积与整个场景分割网络是兼容的，可以插入到场景分割网络中形成一个完整的结构，并进行端对端的训练，这里端对端是一个专有名词，指的是在场景分割网络的结构中从原始图像输入到最终的输出结果可以使用一个统一的场景分割网络实现，不需要分成多个阶段进行训练。

图2A是现有技术的膨胀卷积示意图，图2B是本发明的克罗内克卷积示意图。图2A显示了3×3的膨胀卷积，f为膨胀卷积的膨胀因子；如图2B所示，克罗内克卷积核的形式化表达为：

其中K(c₁，c₂)是标准的卷积核，c₁∈[1，C_A]，c₁∈[1，C_B]。这里C_A和C_B分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r₂×r₂大小的全1矩阵与右下角为(r1-r2)×(r₁-r₂)大小的零矩阵的组合，假设标准的卷积核是k×k，则克罗内克卷积核被扩展成(2k+1)r₁×(2k+1)r₁；其中r₁和r₂是本发明提出的克罗内克卷积层的两个超参数，r₁为克罗内克卷积层的扩张因子，r₂为克罗内克卷积层的共享因子，c₁、c₂、C_A、C_B、k、r₁、r₂为正整数；

步骤S2，通过特征提取子网络，输入原始RGB图像I，输出抽象特征图f_l；

图3为本发明提出的特征提取子网络结构示意图。如图3所示，本发明的场景分割方法中，特征提取子网络包括5个阶段，每个阶段都包括多个标准卷积层，或多个标准卷积和多个克罗内克卷积；值得注意的是，在特征提取子网络的高阶段，其特征图的通道非常大，典型情况，对于特征提取子网络在阶段4的特征通道数为1024，在阶段5的特征通道数为2048。如果直接使用克罗内克卷积对这些特征进行再学习，这些数量巨大的参数中包含了大量的冗余，同时也会降低整个场景分割网络的分割速度，增加运算复杂度。为了解决这个问题，本发明将克罗内克卷积加入到一种带“瓶颈”的结构中，这种带“瓶颈”的结构可以称之为瓶颈模块，瓶颈模块的开头和结尾，分别是标准的1x1卷积层，瓶颈模块开头的1x1卷积层用于降低降低输入特征图的通道数，而瓶颈模块结尾的1x1卷积层用于恢复输出特征图的通道数；瓶颈模块可以极大的减少特征提取子网络的参数数量。

本发明的场景分割网络中，特征提取子网络的阶段1包括依次排列的3个标准的3×3卷积层；阶段2～阶段5包括多个瓶颈模块，其中阶段2和阶段3采用一种瓶颈模块，称之为第一瓶颈模块，第一瓶颈模块包括2个标准的1×1卷积层和1个标准的3×3卷积层，阶段4和阶段5采用另一种瓶颈模块，称之为第二瓶颈模块，第二瓶颈模块包括2个标准的1×1卷积层和1个克罗内克卷积层；将原始RGB图像I作为阶段1的输入，获得阶段1输出的图像特征图1(feature map1)，并将图像特征图1(feature map1)作为阶段2的输入，以此类推，以阶段2输出的图像特征图2(feature map2)、阶段3输出的图像特征图3(feature map3)和阶段4输出的图像特征图4(feature map4)作为输入，分别获取阶段3输出的图像特征图3(feature map3)、阶段4输出的图像特征图4(feature map4)和阶段5输出的图像特征图5(feature map5)，并以图像特征图5为抽象特征图f_l；

步骤S3，通过树形结构特征聚合模块，输入抽象特征图f_l，输出聚合特征图f_c；

目前大部分的场景分割框架都基于全卷积神经网络框架，该框架主要包括两个串联的子网络，即特征提取子网络和场景分割子网络；当给定原始场景图像I，通过场景分割网络N，获取原始场景图像I的场景分割结果J，可以将场景分割网络N分解为特征提取子网络N_fea和场景分割子网络N_seg，因此场景分割网络N可以表示为：J＝N_seg(N_fea(I))；其中N_fea(I)代表从特征提取子网络得到的抽象特征图f_l，这些特征图中包含了从原始场景图像I中学习得到的语义概念和空间位置信息。

本发明的场景分割方法，在特征提取子网络和场景分割子网络之间加入了树形结构特征聚合模块。图4为本发明提出的树形结构特征聚合模块结构示意图。如图4所示，树形特征聚合模块包括多层级联的聚合层，聚合层包括克罗内克卷积层、批归一化层和ReLU激活函数，并以每一层聚合层的输出作为下一层聚合层的输入；该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并，得到该聚合特征图树形结构特征聚合模块包括多个克罗内克卷积层，采用级联递归的方式。本发明的树形结构特征聚合模块具有如下扩展规则：

通过树形结构特征聚合模块的第1层聚合层f₁(·)，输入上一子网络输出的特征图x，输出第1层聚合层f₁(x)的上下文信息特征图x₁，其中f₁(·)包括克罗内克卷积层、批归一化层和ReLU激活函数；通过树形结构特征聚合模块的第2层聚合层f₂(·)，以x₁作为输入，输出第2层聚合层f₂(x₁)的上下文信息特征图x₂；以此类推，以第n-1层聚合层f_n-1(·)输出的上下文信息特征图x_n-1为第n层聚合层f_n-1(·)的输入，输出第n层聚合层f_n(x_n-1)的上下文信息特征图x_n；以x、x₁、……、x_n作为输入，通过级联层g，得到树形结构特征聚合模块的最终输出H_n(x)；具体到本发明的的场景分割方法，将特征提取子网络输出的抽象特征图f_l作为输入，通过树形结构特征聚合模块，最终输出聚合特征图f_c。

步骤S4，通过场景分割子网络，输入聚合特征图f_c，获得输入原始RGB图像I的预测场景分割结果J；

场景分割子网络包括多层标准的3×3卷积层和一层标准的1×1卷积层。

特征提取子网络，用于输入原始RGB图像I输出抽象特征图f_l；

树形特征聚合模块，用于输入抽象特征图f_l以输出聚合特征图f_c；

场景分割子网络，用于输入该聚合特征图f_c以输出该原始图像I的场景分割结果J。

为使本发明的上述特征和效果能阐述的更加明确，下文特列举相关实验对本发明的场景分割方法进行进一步说明。

一、数据集

本发明的相关实验采用PASCALVOC 2012语义分割数据集、Cityscapes数据集和PASCAL-Context数据集。

PASCALVOC 2012语义分割数据集包含20类前景物体和1个背景类；原始数据集包含1464张训练图片、1449张验证图片和1456张测试图片，扩展的训练集增强到10582张图片，本发明利用其中21类物体的平均的像素级的交并比(mean IoU)进行评估；

Cityscapes数据集包含来自50个不同城市的街道场景。这个数据集被分成三个子集，其中训练集包括2975张图片，验证集包括500张图片，测试集包括1525张图片。本发明利用数据集中高质量的19类像素集进行标注。性能采用所有类的交并比的平均值；

PASCAL-Context数据集包括训练集和验证集，训练集包括4998张图像，验证集包括5105张图像，PASCAL-Context数据集为整个场景提供了详细的语义标注，本发明的场景分割方法，采用了其中最常见的59类和1个背景类。

二、克罗内克卷积有效性实验验证：

如图5所示，本发明提出的克罗内克卷积比起对应的膨胀卷积性能分别高出0.8％，1.7％，0.7％，1.5％，1.6％，膨胀系数从4到12。这些结果表面本发明提出的克罗内克卷积比起膨胀卷积性能更好。

三、树形特征聚合模块有效性实验验证：

TFA_S是TFA中配置一个比较小的因子(r₁，r₂)＝{(6，3)，(10，7)，(20，15)}

TFA_L是TFA中配置一个比较大的因子(r₁，r₂)＝{(10，7)，(20，15)，(30，25)}

如图6所示，可以知道KC+TFA_S相对于基准模型有6.87％的提升，相对于Baseline+TFA_S有1.06的提升；而KC+TFA_L相对于基准模型有6.87％的提升，相对于Baseline+TFA_L有1.59％的提示。这说明我们提出的克罗内克卷积和树形特征聚合模块都可以改善分割质量，而且本发明提出的树形聚合模块有很强的泛化能力。

四、与其他方法比较：

这一部分是本发明的场景分割方法与其他先进方法进行对比的实验结果。

图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。

如图7、图8和图9所示，可以看出，本发明的场景分割方法在PASCAL VOC 2012数据集、Cityscapes数据集和PASCAL-Context数据集这三个权威的语义分割数据集上都取得了非常好的性能，这也进一步验证了本发明的有效性。

Claims

1.一种基于克罗内克卷积的场景分割方法，其特征在于，包括：

构建具有残差结构的克罗内克卷积层，该克罗内克卷积层的形式化表示为

其中K(c₁，c₂)为标准卷积核，c₁、c₂为该克罗内克卷积层的通道索引，c₁∈[1，C_A]，c₁∈[1，C_B]，C_A为输入K(c₁，c₂)的特征图的通道数，C_B为K(c₁，c₂)输出的特征图的通道数，F为二维的扩展矩阵，该扩展矩阵是右上角为r₂×r₂大小的全1矩阵与右下角为(r₁-r₂)×(r₁-r₂)大小的零矩阵的组合，满足当K(c₁，c₂)为k×k时，使K¹(c₁，c₂)被扩展为(2k+1)r₁×(2k+1)r₁；k为标准卷积的核大小，r₁为该克罗内克卷积层的扩张因子，r₂为该克罗内克卷积层的共享因子，c₁、c₂、C_A、C_B、k、r₁、r₂为正整数；

以该克罗内克卷积层和标准卷积层构建特征提取子网络；以原始图像为输入，通过该特征提取子网络输出抽象特征图；

以该克罗内克卷积层构建树形特征聚合模块；以该抽象特征图为输入，通过该树形特征聚合模块输出聚合特征图；

以该聚合特征图为输入，通过场景分割子网络输出该原始图像的场景分割结果。

2.如权利要求1所述的场景分割方法，其特征在于，该特征提取子网络包括5个阶段，阶段1包括3层级联的3×3标准卷积层，阶段2包括多个级联的第一瓶颈模块，阶段3包括多个级联的该第一瓶颈模块，阶段4包括多个级联的第二瓶颈模块，阶段5包括多个级联的该第二瓶颈模块；其中

该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层；

该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。

3.如权利要求1所述的场景分割方法，其特征在于，该树形特征聚合模块包括级联的聚合层，该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数，并以每一层聚合层的输出作为下一层聚合层的输入；该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并，得到该聚合特征图。

4.如权利要求1所述的场景分割方法，其特征在于，该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。

5.一种基于克罗内克卷积的场景分割系统，其特征在于，包括：

克罗内克卷积层构建模块，用于构建具有残差结构的克罗内克卷积层，该克罗内克卷积层的形式化表示为

特征提取子网络，用于输入原始图像以输出抽象特征图，其中该特征提取子网络包括该克罗内克卷积层和标准卷积层；

6.如权利要求5所述的场景分割系统，其特征在于，该特征提取子网络包括5个子模块，子模块1包括3层级联的3×3标准卷积层，子模块2包括多个级联的第一瓶颈模块，子模块3包括多个级联的该第一瓶颈模块，子模块4包括多个级联的第二瓶颈模块，子模块5包括多个级联的该第二瓶颈模块；其中

7.如权利要求5所述的场景分割系统，其特征在于，该树形特征聚合模块包括级联的聚合层，该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数，并以每一层聚合层的输出作为下一层聚合层的输入；该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并，得到该聚合特征图。

8.如权利要求5所述的场景分割系统，其特征在于，该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。