CN111723812A

CN111723812A - 一种基于序列知识蒸馏的实时语义分割方法

Info

Publication number: CN111723812A
Application number: CN202010504654.3A
Authority: CN
Inventors: 王振宁; 曾尔曼; 许金泉; 王溢
Original assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Current assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-29
Anticipated expiration: 2040-06-05
Also published as: CN111723812B

Abstract

本发明公开一种基于序列知识蒸馏的实时语义分割方法，包括如下步骤：步骤1，获取室外街景图像；步骤2，将采集的室外街景图像送入序列预测网络，得到语义分割结果；所述序列预测网络采用Xception网络作为主干网络，用于提取图像特征；序列预测网络中的编解码器包含若干编码模块和若干解码模块，每个模块都针对输入的图像输出一个预测结果，且前一个模块的预测结果作为下一个模块预测结果输入的一部分，从而充分利用现有网络，提升网络性能，且在梯度更新时优化前向网络的参数，进而优化先前的预测结果。此种语义分割方法可在只增加少量计算量的同时，充分降低网络传输过程中造成的信息损失，从而进一步提升网络精度。

Description

一种基于序列知识蒸馏的实时语义分割方法

技术领域

本发明属于图像分割技术领域，特别涉及一种基于序列知识蒸馏的实时语义分割方法。

背景技术

近年来，尽管深度学习在语义分割领域取得了极大的进展，例如Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:3431-3440.、Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//InternationalConference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241.、Badrinarayanan V,Kendall A,CipollaR.Segnet:A deep convolutional encoder-decoder architecture for imagesegmentation[J].IEEE transactions on pattern analysis and machineintelligence,2017,39(12):2481-2495.、Chen L C,Papandreou G,Kokkinos I,etal.Semantic image segmentation with deep convolutional nets and fullyconnected crfs[J].arXiv preprint arXiv:1412.7062,2014.、Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfs[J].IEEE transactions onpattern analysis and machine intelligence,2017,40(4):834-848.等，但这些方法大都只考虑精度，而无法实际应用。而一些快速语义分割的工作，却只得到较低的精度。

针对传统的语义分割网络模型大、未考虑到速度和无法在实际场景中使用的问题，拟提出序列知识蒸馏的框架来实现实时语义分割。之前的一些语义分割工作，只在解码阶段添加监督信息，从而忽略网络编码层的潜能。在边缘检测上已有人提出在encode阶段添加监督信息，然而这些方法直接将每个模块的预测结果直接上采样至原分辨率大小，级联后再通过卷积层输出最后的预测结果，该方法对语义分割而言并非有效，且极其耗时。

现有的知识蒸馏方法只在最后一个预测结果上来蒸馏Teacher网络或监督图像的知识信息，未能充分挖掘网络的潜能。有鉴与此，有必要提供一种基于序列知识蒸馏的实时语义分割方法来解决上述问题。

发明内容

本发明的目的，在于提供一种基于序列知识蒸馏的实时语义分割方法，其可在只增加少量计算量的同时，充分降低网络传输过程中造成的信息损失，从而进一步提升网络精度。

为了达成上述目的，本发明的解决方案是：

一种基于序列知识蒸馏的实时语义分割方法，包括如下步骤：

步骤1，获取室外街景图像；

步骤2，将采集的室外街景图像送入序列预测网络，得到语义分割结果；

所述序列预测网络采用Xception网络作为主干网络，用于提取图像特征；序列预测网络中的编解码器包含若干编码模块和若干解码模块，每个模块都针对输入的图像输出一个预测结果，且前一个模块的预测结果作为下一个模块预测结果输入的一部分，从而充分利用现有网络，提升网络性能，且在梯度更新时优化前向网络的参数，进而优化先前的预测结果。

上述步骤1中，采用RGB摄像头获取室外街景图像。

上述步骤2中，Xception网络提取图像特征的具体方法是：对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征，其中，n表示训练集中的类别的个数，h和w分别代表输入图像的长和宽的大小。

上述步骤2中，对于所有编码模块和解码模块，其输出的预测结果是大小为h_i×w_i×n维的图像特征，i表示第i个模块，h_i和w_i分别代表第i个模块的长和宽。

上述步骤2中，编码模块设计有两种，第一种编码模块包括一个3×3的深度可分离卷积、一个步长等于2的3×3卷积和一个1×1卷积，第二种编码模块包括一个3×3的深度可分离卷积、一个步长等于1的1×1卷积和一个1×1卷积；解码模块设计有一种，包括一个步长为2的3×3反卷积、一个3×3的深度可分离卷积和一个3×3卷积。

上述步骤2中，在构建训练集时，采用带注释的图像以及未经标记的图像进行训练，若图像存在标记信息，则使用标记图像作为监督信息进行训练；若图像不存在标记信息，则使用Teacher网络的最后的预测结果作为Student网络的监督信息。

上述步骤2中，在对存在标记信息和不存在标记信息的图像进行学习时，其框架总体损失函数表示为：

其中，λ是用来平衡标注图像和未标注图像之间的权重，取值0或1，取0时表示使用不存在标记信息的图像作为小网络的Ground truth；L_labeled表示标注图像的损失函数，L_unlabeled表示未标注图像的损失函数。

上述步骤2中，对于每个编码模块或解码模块，均包含3种知识蒸馏方案：

像素知识蒸馏，使用交叉熵损失函数，从存在标记信息的图像或者Teacher网络的预测结果上蒸馏像素级别的类别知识；

边缘知识蒸馏，使用空间边缘损失函数，从存在标记信息的图像或者Teacher网络的预测结果上蒸馏多个尺度的空间边缘知识；以及，

整体知识蒸馏，使用对抗网络，从存在标记信息的图像或者Teacher网络的预测结果蒸馏整体的知识。

采用上述方案后，本发明具有以下改进：

(1)本发明提出一种序列预测网络(SPNet)，该网络基于端到端的编解码器架构，用于实现高精度的实时语义分割，其中，编码模块用于解决下采样和通道减少时信息丢失的问题，解码模块用于上采样时来恢复空间位置信息和边缘信息；

(2)本发明充分利用大量未标记的图像，结合序列预测网络，在每一个模块上使用了3种知识蒸馏的方法，分别是像素知识蒸馏、空间边缘知识蒸馏和整体知识蒸馏，在只增加一些额外计算量的同时，极大地提高语义分割的准确性。

附图说明

图1是本发明提供的基于序列知识蒸馏的实时语义分割网络结构；

其中，虚线箭头表示级联操作，点划线箭头表示梯度反向传播；CEL表示交叉熵损失，SEL表示空间边缘损失，WGAN表示GAN损失函数，Ground Truth表示标注图像，teachernetwork表示教师网络；L_labeled表示标注图像的损失函数，L_unlabeled表示未标注图像的损失函数；

图2是基于序列知识蒸馏的实时语义分割模块图；

其中，(a)和(b)是编码模块，分别称为SPNet_EnC1和SPNet_EnC2；(c)是解码模块，称为SPNet_DeC3；(a)用于图像降采样过程，(c)用于图像重建过程；

其中，DS-COV表示深度可分离卷积，Max-pooling表示最大池化，Upsample表示上采样，Skip connection表示跳跃连接；

图3是在知识蒸馏的方法，从下到上分别是像素级知识蒸馏，空间边缘知识蒸馏和整体知识蒸馏；

其中，pixel-wise distillation表示像素级知识蒸馏，Spatial-edgedistillation表示空间知识蒸馏，Holisticdistillation表示整体知识蒸馏，Discriminator Network表示对抗网络，Wassertein loss是对抗网络的损失，Spatial-edge loss表示空间损失，crossentropyloss表示交叉熵损失函数，Side feature map表示中间层的图像特征，Final feature map表示神经网络最后一层特征，soremap表示argmax后的分数图像，不同分数值表示不同类别；虚线箭头表示输出不同的中间层特征；

图4是在水平方向和垂直方向上三个像素点内计算空间约束；

图5是本发明应用于在Cityscape的分割结果；

其中，Image表示输入RGB图像，Groundtruth表示标注图像，ICNet和DABNet是对比方法的名称。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

本发明提供一种基于序列知识蒸馏的实时语义分割方法，主要利用序列预测网络对采集的室外街景图像进行语义分割，所述序列预测网络主要包含如下内容：

1)如图1所示，本发明利用Xception作为主干网络来设计SPNet，通过使用三种设计来有效缓解现有实时网络中传播时产生的信息丢失问题：

首先提出了一个预测促进的方法来优化整个网络的参数，使用上一模块网络的预测结果来指导下一个模块的预测，下一个预测结果在梯度更新时则进一步优化上一模块的参数，从而改善了先前的预测样的设置使模型能够捕获从底层网络向高层网络传播的上下文信息，这将直接优化最后的输出结果；

其次，本发明将类似CRF的空间先验整合到CNN网络中。为实现这一目标，本发明提出了一种新颖的空间边缘损失(SEL)，该方法可惩罚CNN网络预测的空间偏移损失，并避免CRF离线推理的高昂代价；

第三，我们将知识蒸馏的方法整合到我们的网络中，以进一步利用未标记的数据来提高网络的性能。

与现有的CNN语义分割框架相比，本发明做了以下调整来提升网络的精度。首先使用Xception作为骨干网络，对通道数量和步长进行调整，以实现速度和精度之间的更佳平衡。其次，我们使用跳跃连接从底层特征来恢复边界信息。与U-Net不同，我们在反卷积之前将底层特征和高层特征级联，从而提供了更丰富的特征来提升准确性。和DenseNet使用同时多个块中的特征不同，我们使用了一种上一个模块的预测结果来提高当前模块的准确性，并仅在相邻模块之间传递此跨模块结构信息。接着，我们介绍了空间边缘损失，并将其应用于多个分辨率的预测层，从而模拟了CRF的空间先验训练过程。这种设计使模型可以针对不同感受野的预测结果进行空间约束。最后，我们将知识蒸馏整合到我们的方法中，在缺少标注图像同时，将大网络学到的知识传递给小网络，让小网络的性能逼近大网络的性能。得益于提出的SPNet网络和空间边缘损失，我们可以进一步挖掘多尺度轻量级网络的像素知识、空间知识和整体知识。

2)设计编解码器。如图2所示，本发明SPNet中主要包含三种卷积，两种编码模块和一种解码模块，其中，(a)和(b)是编码模块，(c)是解码模块。

图2(a)显示了SPNet_EnC1的设计，该模块中主要包括3个卷积，一个3×3的深度可分离卷积，一个步长等于2的3×3卷积和一个1×1卷积，其中，1×1卷积用于控制输出通道的数量，图2(a)中的C表示当前数据库的类别数量，步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半，而使用3×3卷积的目的是在图像特征分辨率减小时降低信息的丢失。在通过深度可分离卷积后，得到当前模块的中间层特征，将上一模块的预测结果与当前模块的中间层特征级联，并使用1×1卷积，输出当前模块的预测结果，并引入GroundTruth，使用Softmax交叉熵损失函数，计算当前预测结果的前向网络的损失。本模块的预测结果不仅用于降低在图像分辨率和通道发生变化时候造成的损失，并且前一个预测结果也将作为后一个预测结果输入的一部分，用于指导后一个模块的预测。具体做法是，将当前模块的预测结果与当前模块的中间层级联，并通过步长为2的3×3卷积，得到当前模块的输出。因输出图像特征的分辨率减半，所以，本发明使用一个3×3的Max-pooling将当前模块预测结果的分辨率减半。

图2(b)显示了SPNet_EnC2的设计，该模块在结构上与SPNet_EnC1大致相似，同样是编码器部分的模块，不同的是SPNet_EnC1用于处理图像分辨率减小的模块，SPNet_EnC2用于处理图像分辨率的模块。故SPNet_EnC2与SPNet_EnC1在设计上有2处不同之处，其一是SPNet_EnC2使用步长为1的1×1卷积替换掉步长为2的3×3卷积，该方法可极大降低网络的计算量，其二是把当前模块的预测结果用来指导下一模块的预测，因为该模块输入输出图像分辨率大小一致。

图2(c)显示了SPNet_DeC3的设计，该模块将图像特征从低分辨率重建至高分辨率，但由于在高分辨图像上计算量激增，为均衡速度和精度，只将从解码器得到的图像特征从原图像的1/32重建至原图像的1/4，再上采样至原图像大小。SPNet_DeC3主要包括一个步长为2的3×3反卷积，一个3×3的深度可分离卷积和一个3×3卷积，其中，步长为2的3×3反卷积用于恢复图像分辨率，深度可分离卷积用于学习更精确的类别信息。Skip connect获取底层的空间位置信息，来恢复重建结果的空间位置信息。在通过一个步长为2的3×3反卷积和一个深度可分离卷积后，得到当前模块的中间层特征，并将底层特征与当前模块的中间层特征级联，再通过一个3×3卷积，得到当前模块的预测结果。其中，底层特征是编码器中与具有相同分辨率的最后一层特征，底层特征用于提供当前分辨率的空间位置信息，当前模块的中间层特征用于提供更精确的类别信息。最后将底层特征与当前模块的中间层特征级联，直接作为下一模块的输入。

3)序列知识蒸馏方法：因为语义分割任务的标注数据极为耗时，这意味着分割任务的标签训练集数量有限。除了各种作者提供的带注释的图像之外，我们还可以从互联网上获取大量未经标记的图像以进行训练。在这里，我们Teacher-Student学习框架进一步利用那些未标记的RGB图像来改善Student网络的性能。在此框架中，我们Teacher网络获得的分割结果作为Student网络的伪label信息，然后在这些未标记图像上继续训练我们的Student网络。因此，整个网络有两种学习模式，一种是对带有精细注释的全标记图像进行学习，另一种是对教师网络生成标注较差的未标记图像进行学习。两种学习模式都可以集成到同一框架中。更具体地说，带有标记数据和未标记数据的框架总体损失函数可以表示为：

其中，λ是用来平衡标注图像和未标注图像之间的权重，λ取值0或1，取0时表示使用未标注图像作为小网络的Ground truth。L_labeled表示标注图像的损失函数，L_unlabeled表示未标注图像的损失函数。

如图3所示，本发明共使用三种蒸馏方案，从下到上分别是像素级知识蒸馏，空间边缘知识蒸馏和整体知识蒸馏，有标注和无标注的图像使用同一套损失。

像素级知识蒸馏方案使用交叉熵损失函数，在预测图像和标注图像间的进行点对点的单像素级优化，公式如下：

其中，p和q分别代表预测图像和标注图像，t代表第t个模块，k表示类别数量，H和W表示图像的宽和高，H_t、W_t表示第t个模块的宽和高。

和

表示p和q在第t个模块上，第k个通道上的值。对

和

在k个通道上的值做argmax操作(返回最大值的位置)，可得到

和

空间知识蒸馏方案使用空间边缘损失来优化相邻像素间的关系，如图4所示，本发明拟对每个点在水平和垂直方向上的相邻三个像素之间的边缘关系进行约束，公式如下：

表示水平方向和垂直方向的边缘图像，r表示相邻r个像素计算边缘图像。相邻点的label值如果相等，则属于非边缘，如果不相等，则为边缘值，再将预测图像和标注图像之间的多个尺度的空间边缘图像加权计算损失，公式如下：

其中，φ_s用来加权不同距离间的空间边缘损失，距离越大，φ_s越小。

分别表示水平方向和垂直方向第s个特征图像像素点的数量。

整体知识蒸馏方案使用WGAN损失，最初提出的GAN通过最小化Jensen Shannon(JS)散度来约束最小和最大目标，这通常会导致在训练生成器时出现不稳定的梯度。为解决此问题，WGAN使用Wasserstein距离来测量对抗网络中两个分布之间的差异。Wasserstein距离定义为使模型分布收敛到实际分布最小成本，解决了神经网络训练中梯度消失或爆炸的问题，如下所示：

其中，

是期望算子，I是输入RGB的图像，S_t和T_t是Student网络和Teacher网络在t个模块的预测结果，Teacher网络的最后预测结果直接通过双线性差值resize到和预测结果同一分辨率上，如果存在标注图像的时候，则直接使用标注图像。D_t是第t模块中的对抗网络，将S_t和T_t投影为整体得分。D_t仅包含五个卷积层，并且加入attention的方法来增加感受野的大小。在此过程中，我们提取了知识以评估Student网络和Teacher网络的分割图像质量。我们的方法在cityscape上验证集的精度如图5所示，目前已达到时下较为领先的水平。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于序列知识蒸馏的实时语义分割方法，其特征在于包括如下步骤：

步骤1，获取室外街景图像；

所述序列预测网络采用Xception网络作为主干网络，用于提取图像特征；序列预测网络中的编解码器包含若干编码模块和若干解码模块，每个模块都针对输入的图像输出一个预测结果，且前一个模块的预测结果作为下一个模块预测结果输入的一部分。

2.如权利要求1所述的方法，其特征在于：所述步骤1中，采用RGB摄像头获取室外街景图像。

3.如权利要求1所述的方法，其特征在于：所述步骤2中，Xception网络提取图像特征的具体方法是：对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征，其中，n表示训练集中的类别的个数，h和w分别代表输入图像的长和宽的大小。

4.如权利要求1所述的方法，其特征在于：所述步骤2中，对于所有编码模块和解码模块，其输出的预测结果是大小为h_i×w_i×n维的图像特征，i表示第i个模块，h_i和w_i分别代表第i个模块的长和宽。

5.如权利要求1所述的方法，其特征在于：所述步骤2中，编码模块设计有两种，第一种编码模块包括一个3×3的深度可分离卷积、一个步长等于2的3×3卷积和一个1×1卷积，第二种编码模块包括一个3×3的深度可分离卷积、一个步长等于1的1×1卷积和一个1×1卷积；解码模块设计有一种，包括一个步长为2的3×3反卷积、一个3×3的深度可分离卷积和一个3×3卷积。

6.如权利要求1所述的方法，其特征在于：所述步骤2中，在构建训练集时，采用带注释的图像以及未经标记的图像进行训练，若图像存在标记信息，则使用标记图像作为监督信息进行训练；若图像不存在标记信息，则使用Teacher网络的最后的预测结果作为Student网络的监督信息。

7.如权利要求6所述的方法，其特征在于：所述步骤2中，在对存在标记信息和不存在标记信息的图像进行学习时，其框架总体损失函数表示为：

8.如权利要求7所述的方法，其特征在于：所述步骤2中，对于每个编码模块或解码模块，均包含3种知识蒸馏方案：