CN114972753A

CN114972753A - 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统

Info

Publication number: CN114972753A
Application number: CN202210548515.XA
Authority: CN
Inventors: 李展; 姚庚奇; 钟晓键; 吕吉雅; 赵祎明
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-30

Abstract

本发明涉及基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统，其方法包括步骤：S1、获取图像，对图像进行预处理，得到输入图像；S2、构建语义分割网络，语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块；S3、对语义分割网络进行训练，得到训练后的语义分割网络；S4、利用训练后的语义分割网络对输入图像进行处理，得到语义分割结果图。本发明引入了多尺度上下文并行聚合模块，在提高少量参数量的前提下均衡地提升了单向架构在大多数类别上的分割精度，在降低尽量少的分割精度的情况下，提高了语义分割网络整体的推断效率，还引入了辅助分支损失函数提升语义分割网络训练时的收敛速度，并且该分支不影响推断过程的推断速度。

Description

基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统。

背景技术

计算机视觉作为深度学习技术落地到现实生活中的重要应用领域之一，主要关注于如何区分一幅图像所表示的物体类别，即图像分类，或是如何分类并定位出处于同一幅图像内的多个目标，即目标识别。而随着图像数据量的大规模增长和应用复杂性的不断提高，人们要求计算机不仅能够从高层次上理解一幅图像表示了什么物体，还要能够站在低层次的角度理解每个像素分别对应了什么类别，这给计算机视觉研究提出了新的挑战。得益于硬件计算能力的飞速提高，对图像的像素级分析已经成为可能，基于深度学习技术的语义分割算法也应运而生。

通俗来说，语义分割指的是在给定一幅图像的条件下，为每个像素点赋予一个类别标签，使得属于同一个类别的像素聚类为一个独立的语义实体的过程。作为图像分割的一个子领域，可以从数学的角度将语义分割视为一类边缘分割的图像处理技术，也可以从统计学的角度将其视为一种聚类方法。但相比基于Sobel算子等传统图像处理方法的边缘检测而言，后者仅仅利用了一阶导数或二阶梯度等数学信息对像素值发生跃迁或渐变的区域进行识别，而前者在此基础上还对像素之间的信息关联进行了上下文建模，使得分割结果呈现语义化的特征，从而能够适应于现实语境下的应用场景。

现有的神经网络结构大多聚焦于如何通过加深网络层数来提高准确率，以及如何在网络深度较大的前提下对其进行有效训练，而已有的轻量级网络大多以图像分类任务作为性能指标的评估标准。由于语义分割的像素级输出非常适合作为其他下游任务的前处理步骤，所以分割模型常常需要被部署到移动端或嵌入式设备端。受制于这些端侧设备有限的计算能力与功耗瓶颈，高精度的语义分割模型很难有效落地，而通过牺牲少量精度来大幅提升计算效率的轻量级模型却能大放异彩。

发明内容

为解决现有技术所存在的技术问题，本发明提出一种基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统，引入了多尺度上下文并行聚合模块，在提高少量参数量的前提下较为均衡地提升了单向架构在大多数类别上的分割精度，提出了一种适用于编码器-解码器架构的深度可分离解码器，在降低尽量少的分割精度的情况下，大幅提高了语义分割网络整体的推断效率，此外，还引入了辅助分支损失函数用于提升语义分割网络训练时的收敛速度，并且该分支不影响推断过程的推断速度。

本发明方法采用以下技术方案来实现：基于上下文信息聚合和辅助学习的轻量级语义分割方法，包括以下步骤：

S1、获取图像，对图像进行预处理，得到输入图像；

S2、构建语义分割网络，语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块；

S3、对语义分割网络进行训练，得到训练后的语义分割网络；

S4、利用训练后的语义分割网络对输入图像进行处理，得到语义分割结果图；

步骤S3中对语义分割网络进行训练的具体过程如下：

S31、通过对输入的训练图像进行预处理得到输入图像和真实标记图像；

S32、通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像；

S33、通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算，得到交叉熵损失；

S34、通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算，得到加权的第一辅助分支损失，通过特征融合输出的特征图输入第二辅助分支进行损失函数计算，得到加权的第二辅助分支损失；

S35、根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数，得到总损失函数；

S36、通过总损失函数对语义分割网络模型进行优化。

本发明系统采用以下技术方案来实现：基于上下文信息聚合和辅助学习的轻量级语义分割系统，包括：

图像获取模块：用于获取图像，对图像进行预处理，得到输入图像；

语义分割网络构建模块：用于构建语义分割网络，语义分割网络包含上下文信息聚合模块和两阶段可分离卷积模块；

语义分割网络训练模块：用于对语义分割网络进行训练，得到训练后的语义分割网络；

语义分割结果图获取模块：利用训练后的语义分割网络对输入图像进行处理，得到语义分割结果图；

语义分割网络训练模块的具体训练过程如下：

通过对输入的训练图像进行预处理得到输入图像和真实标记图像；

通过使用语义分割网络对输入图像进行特征提取和处理得到输入图像的语义分割图像；

通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算，得到交叉熵损失；

通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算，得到加权的第一辅助分支损失，通过特征融合输出的特征图输入第二辅助分支进行损失函数计算，得到加权的第二辅助分支损失；

根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数，得到总损失函数；

通过总损失函数对语义分割网络模型进行优化。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过对Fast-SCNN轻量级语义分割网络进行改进，结合交叉熵损失和新建的第一辅助分支网络和第二辅助分支网络计算第一辅助分支损失和第二辅助分支损失，并以交叉熵损失加上权重辅助分支损失共同监督语义分割网络的训练和学习过程，保留了特征提取的优势，有效提升了单向架构网络在训练阶段的收敛速度，避免梯度消失。

2、本发明基于金字塔池化结构SPP提出了一种基于多尺度池化的上下文并行聚合模块，在几乎不损失推理效率的前提下提高了语义分割网络模型在特征提取阶段对特征图上下文信息的整合能力，提高了网络的推断性能。

3、本发明基于深度可分离卷积提出了一种适用于编码器-解码器架构的深度可分离解码器模型，在牺牲了少量分割精度的前提下大幅提高了语义分割网络模型整体的推理效率。

附图说明

图1是本发明的方法流程图；

图2是语义分割网络训练流程图；

图3是基于多尺度的上下文信息聚合模块示意图；

图4是深度可分离解码器模块结构示意图；

图5是辅助分支损失的网络结构示意图；

图6是本发明的系统结构框图；

图7(a)是输入图片示意图；

图7(b)是输出的语义图像示意图；

图7(c)是真实的标记图GT示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于上下文信息聚合和辅助学习的轻量级语义分割方法，包括以下步骤：

S1、获取图像，对图像进行预处理，得到输入图像；

S4、利用训练后的语义分割网络对输入图像进行处理，得到语义分割结果图。

本实施例中，步骤S1中对图像进行预处理的具体过程如下：

S11、将Cityscapes数据集的训练集用于训练，验证集作为测试集，Cityscapes数据集由道路、交通灯、卡车等19个类别组成；

S12、对获取的图像进行图像增强操作，并将处理后的图像缩放为512*1024的图块得到输入图像，且对图像的真实标记图进行除归一化和填充的操作外相同的增强操作得到和输入图像相同大小的GT图；

S13、对所有训练图像进行图像增强，介于0.5和2.0之间倍数的随机放缩操作、最大不超过75％的随机裁剪操作、随机翻转操作、归一化操作，以及图像填充操作。

如图2所示，本实施例中，采用Fast-SCNN网络构建语义分割网络，引入上下文信息聚合模块和两阶段深度可分离解码器；并引入如图5所示的辅助分支，辅助分支将在训练完成后抛弃；其中，在下采样卷积层引入第一辅助损失分支，在特征融合模块引入第二辅助损失分支。

如图2所示，本实施例中，步骤S3中对语义分割网络进行训练的具体过程如下：

S31、通过对输入的训练图像进行预处理得到输入图像和真实标记图像。

具体地，对于语义分割网络来说，输入图像经过下采样特征提取，如图3所示，经过上下文信息聚合，特征融合和如图4所示的深度可分离解码器后会得到和输入图像大小一致的语义图。

S33、通过交叉熵损失函数对语义分割图像和真实标记图像GT进行损失计算，得到交叉熵损失；具体计算公式如下：

其中，M表示类别数；y为one-hot变量，即元素只取0、1，若与样本类别相同则取1，否则取0；log是以e为底的对数，p表示预测样本属于c的概率。

S34、通过将下采样卷积层输出的特征图输入第一辅助分支进行加权辅助损失函数计算，得到加权的第一辅助分支损失，通过特征融合输出的特征图输入第二辅助分支进行损失函数计算，得到加权的第二辅助分支损失，辅助分支损失网络结构示意图如图5所示；

具体地，如图2所示，输入图像经过下采样卷积层得到中间特征图F₁，经过上下文信息聚合模块后得到中间特征图F₂，将F₁和F₂输入图2中得到第一辅助分支损失L_{aux_1}和第二辅助分支损失L_{aux_2}；加权辅助分支具体为：使用一个自适应平均池化层和一个卷积核为1的卷积层调整中间特征图的分辨率和通道数，使用全连接层编码分类信息，然后使用Softmax激活函数输出概率向量，从而计算辅助损失，在完成网络训练后，该辅助损失分支将被删除，不影响网络推断速度。

S35、根据交叉熵损失函数、第一加权辅助分支损失函数和第二加权辅助分支损失函数，得到总损失函数，具体公式如下：

其中，L_Cross _Entropy _Loss表示交叉熵损失，N_aux表示辅助分支损失的数量，w_i表示第i个辅助分支损失的权重，L_{aux_i}表示第i个辅助分支损失的值，其中w₁＝w₂＝1。

S36、通过总损失函数对语义分割网络模型进行优化；具体地，通过梯度下降方法，使用随机梯度下降配合值为0.9的动量策略作为优化算法，使用L2权重衰减，设定批次大小为4，使用幂次为0.9的多项式学习率调整策略对学习率进行更新。

本实施例中，训练迭代次数设为16万次，每次训练一个样本即Batchsize设置为4，训练集样本数DataLoader的值为训练集中所含图片的张数，在Cityscapes数据集中训练集为2975张，测试机为500张。训练时对所有图片缩放为512*1024的输入图像，设置保存模型的间隔迭代次数为5000，批处理生成期间要使用的CPU线程数设为8，总损失函数公式中的所有辅助分支的权重参数设置为1。

本发明通过对提出多尺度上下文信息聚合模块，在几乎不损失推理效率的前提下提高了多种架构网络在多个类别上的分割精度，基于已有的深度可分离卷积提出了一种适用于编码器-解码器架构的深度可分离解码器，在牺牲少量分割精度的前提下大幅提高了模型整体的推理效率；最后引入了基于加权辅助分支的损失函数用于促进网络的收敛速度，防止梯度下降和梯度爆炸。

为了验证上下文信息聚合模块和深度可分离卷积解码器的作用，本发明基于Fast-SCNN，BiSeNet和FANet三个网络，其中Fast-SCNN为本发明的基准模型，分别引入了以上两个模块并且评估了模型引入模块前后的性能。引入上下文信息聚合模块后，语义分割网络的各项指标如平均交并比(mIoU),平均精度(mPA)或者精度(PA)都有提高，结果如表1所示；而对比于使用深度可分离卷积解码器的过程中，本发明对使用前和使用后的语义分割网络的推理效率进行了对比，从参数量(Params)，计算浮点数(FLOPs)和推断速度(fps)上进行比较，结果如表2所示。在表1和表2中，分别用后缀MS-CPA和DSD表示上下文信息聚合模块和深度可分离卷积解码器。从表1和表2可以看出，引入上下文信息聚合模块提升了网络在分割上的精度，两阶段深度可分离卷积解码器则提升了网络的推断速率。

表1：语义分割评价指标结果表

语义分割方法	mIoU/％	mPA/％	PA/％
				FANet	70.28	80.29	95.01
FANet-MS-CPA	71.88	81.82	95.03
				BiSeNet	65.39	75.08	94.38
BiSeNet-MS-CPA	66.18	75.29	94.44
				Fast-SCNN	55.87	63.62	93.65
Fast-SCNN-MS-CPA(Ours)	59.32	67.81	93.79

表2：语义分割推理速率结果表

语义分割方法	Params/M	FLOPs/G	Speed/fps
				FANet	13.08	56.97	15.43
FANet-DSD	12.56	39.88	15.80
				BiSeNetV2	3.34	98.61	9.46
BiSeNetV2-DSD	2.29	64.30	10.84
				Fast-SCNN	1.39	15.82	19.10
Fast-SCNN-DSD(Ours)	1.13	7.31	19.48

如图6所示，基于相同的发明构思，本发明提出基于上下文信息聚合和辅助学习的轻量级语义分割系统，包括：

语义分割结果图获取模块：利用训练后的语义分割网络对输入图像进行处理，得到语义分割结果图。

本实施例中，语义分割网络训练模块的具体训练过程如下：

通过总损失函数对语义分割网络模型进行优化。

本实施例中，语义分割网络模型的输入图如图7(a)所示，输出的语义图如图7(b)所示，真实标记图如图7(c)所示。由此可见，语义分割网络采用辅助分支进行辅助损失函数计算，能有效地避免梯度消失和梯度爆炸问题，此外，辅助分支只会在训练过程中起作用，在推断过程中不会影响语义分割网络的推断速度。每个残差块将卷积输出特征与原先的特征相加，通过在特征处理前的特征图进行跳跃连接，将浅层的特征传递给后续的深度网络，使得网络更加便于优化。

引入多尺度上下文信息聚合模块和深度可分离解码器模块的语义分割网络可以更加有效的提取上下文信息以及提高推断的速率，也可以通过增加辅助损失函数分支或调整辅助分支函数的比重提高训练效率，使得网络的训练和输出达到预期效果，提升网络的推断精度和推断速度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，包括以下步骤：

S1、获取图像，对图像进行预处理，得到输入图像；

步骤S3中对语义分割网络进行训练的具体过程如下：

S36、通过总损失函数对语义分割网络模型进行优化。

2.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S1中对图像进行预处理的具体过程如下：

S11、将Cityscapes数据集的训练集用于训练，验证集作为测试集，Cityscapes数据集由道路、交通灯、卡车19个类别组成；

3.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S2中采用Fast-SCNN网络构建语义分割网络，引入上下文信息聚合模块和两阶段深度可分离解码器；并引入辅助分支，在下采样卷积层引入第一辅助损失分支，在特征融合模块引入第二辅助损失分支。

4.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S33中交叉熵损失的计算公式如下：

其中，M表示类别数；y为one-hot变量；log是以e为底的对数；p表示预测样本属于c的概率。

5.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S34中加权辅助分支具体为：使用一个自适应平均池化层和一个卷积核为1的卷积层调整中间特征图的分辨率和通道数，使用全连接层编码分类信息，再使用Softmax激活函数输出概率向量，计算辅助损失，在完成网络训练后，删除该辅助损失分支。

6.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S35中总损失函数的具体公式如下：

其中，L_{CrossEntropyLoss}表示交叉熵损失，N_aux表示辅助分支损失的数量，w_i表示第i个辅助分支损失的权重，L_{aux_i}表示第i个辅助分支损失的值，其中，w₁＝w₂＝1。

7.根据权利要求1所述的基于上下文信息聚合和辅助学习的轻量级语义分割方法，其特征在于，步骤S36中对语义分割网络模型进行优化的具体过程如下：通过梯度下降方法，使用随机梯度下降配合值为0.9的动量策略作为优化算法，使用L2权重衰减，设定批次大小为4，使用幂次为0.9的多项式学习率调整策略对学习率进行更新。

8.基于上下文信息聚合和辅助学习的轻量级语义分割系统，其特征在于，包括：

语义分割网络训练模块的具体训练过程如下：

通过总损失函数对语义分割网络模型进行优化。