CN109087303B

CN109087303B - 基于迁移学习提升语义分割模型效果的框架

Info

Publication number: CN109087303B
Application number: CN201810929169.3A
Authority: CN
Inventors: 谢佳锋; 胡建芳; 钟逸; 朱海昇; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2022-04-01
Anticipated expiration: 2038-08-15
Also published as: CN109087303A

Abstract

本发明公开了一种基于迁移学习提升语义分割模型效果的框架，包括下述内容：1)将迁移学习引入到语义分割领域，使得快速语义分割网络可以通过教师模型提升学生模型分割效果；2)提出一致性映射度量教师和学生模型的轮廓和纹路信息，并通过构造一致性损失函数来使得快速语义分割在细节处分割得更好；3)利用老师模型和条件随机场(CRF)模型为无标签数据生成辅助标签，并把数据加入到训练集，提升模型的泛化能力和分割效果。本发明在不引入额外模型参数，降低模型速度的情况下，提升了快速语义分割模型的准确率。

Description

基于迁移学习提升语义分割模型效果的框架

技术领域

本发明属于语义分割的技术领域，具体涉及一种基于迁移学习提升语义分割模型效果的框架。

背景技术

图像语义分割是计算机视觉领域的一项基础且重要的研究，它要求模型识别出图像中每个像素点属于哪一种语义类别。图像语义分割有很多方面的应用，例如自动驾驶(Automatic driving)及辅助机器人(Auxiliary robot)等等。图像语义分割也是视频语义分割的基础，通过将视频帧视为单个图像，可以将问题转化为图像的语义分割，从而在时间维度上进一步建模。

目前已有的工作主要可以分为两类：精度导向的语义分割和速度导向的语义分割。精度导向的语义分割模型效果比较好，但速度往往很慢，不能满足实际需求。相对地，速度导向的语义分割模型虽然可以达到比较快的分割速度，但往往精度不够。具体分析如下：

1)面向精度的语义分割：对于这类方法的研究覆盖率大多数语义分割领域的文献，其主要的目标是在公开的分割数据集中显著地提高分割的准确率。我们将从三个方面介绍提升分割效果的方法。第一个方面，性能的提升主要源自于作为分割网络的局部特征提取器的预训模型的辉煌进展，这方面进展的核心是通过训练更深或更复杂的网络在大规模的数据集上获得更好的模型。第二个方面，很多的研究者致力于发明新的计算层来有效地将上下文信息编码到局部特征映射。这个研究方向在提升预测标签映射的视觉质量效果和促进分割准确率方面起到了很大的作用。第三个方面的研究专注于通过学习一个深度的解码网络或者运用一个解耦的后处理模块例如利用CRF模型来恢复分割的空间细节信息从而提高分割的视觉效果和分割的准确率。

2)面向速度的语义分割：这一类方法的主要目标是研究出一个快速的分割模型，使得分割模型可以被应用真实的实时场景(例如自动驾驶，室内机器人等)。其中ENet模型利用一个轻量级的局部特征提取网络，使得模型可以实时地处理标准大小(500x500)的图片。ICNet模型则是通过降采样大模型输入的图片来达到一个能提高模型处理速度的效果。

上述第1)种方法主要通过提高更深或更复杂的更好的局部特征提取器，增加新的计算层来联合上下文信息，新的解码网络和后处理模块来来恢复分割的空间细节信息，以上三个方面来提高模型的分割准确率。所以这样的模型有较好的图像语义分割效果，但是大部分的模型都比较大或者复杂，导致其处理图片的速度很慢，难以满足实际场景的使用需求。

为了解决分割速度问题，上述第2)种方法致力于研发出快速的图像语义分割模型，主要通过轻量级的局部特征提取网络等方式来提升网络的处理速度。但随着而来付出的代价是分割效果的下降。相对于第1)种方法，第2)种方法在分割的准确率上差不少，这也是快速语义分割网络的主要缺点。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于迁移学习提升语义分割模型效果的框架，来提升快速语义分割网络的分割效果。

为了达到上述目的，本发明采用以下技术方案：

本发明基于迁移学习提升语义分割模型效果的框架，包括下述步骤：

构建一个新的语义分割模型基础框架，所述语义分割模型基础框架由两个不同的网络组成，分别为老师网络和学生网络，所述老师网络为学生网路提供有益于分割的知识指导，使得学生网路能学到老师网络的知识来帮助其拥有更好的分割效果，所述学生网络用于在保证其分割的速度的同时从老师网络提供的知识中学习到有益于其分割效果的知识；

通过目标函数将老师网络和学生网络连接起来，所述目标函数是由基于逻辑分布变换出来的信息形式构造的，该目标函数的具体内容如下：

用S和T来分别表示公式中的学生网络和老师网络：

L＝L_s+r(S,T)

上述公式中，L_s是交叉熵损失函数，其实由图片的标签与学生网络的概率分布之间求交叉熵得到的损失函数；r(S,T)代表的是老师网络与学生网络之间的知识偏差，其作为一个正则化项来正则化学生网络的学习过程，通过r(S,T)这一项，学生网络和老师网络被连接起来，并且通过最小化L目标函数可以把老师网络的知识传递到学生网络；

把r(S,T)函数定义为：

r(S,T)＝αL_p(S,T)+βL_c(S,T)

L_p(S,T)是老师网络与学生网络之间的概率分布损失函数，定义为

函数中的I表示batch size的数量，G表示图片的像素集合，P_S(x),P_T(x)分别是学生和老师网络在图片区域每个像素点的概率分布输出，这个损失函数的定义是学生网络的输出概率分布跟老师网络的概率分布是相似的，这个函数可以捕抓到不同分割输出的零阶知识；

为了补充L_P损失函数捕捉到的零阶知识，L_C函数被用于捕获学生网络和老师网络输出的一阶知识，定义L_C函数为：

其中函数中的I表示batch size的数量，G表示图片的像素集合，一致性矩阵C(x)定义为

B(x)意味着像素x的8个临近的像素，I(x)是对应网络像素点的逻辑分布输出；

利用网络结构中的老师网络对无标签数据进行标签预测生成伪标签，并把生成标签数据加入模型的训练集中，再通过框架训练提升学生网络的分割效果。

作为优选的技术方案，所述老师网络为网络深度很深且结构复杂的分割网络；

所述学生网络为网络深度较浅且结构简单的分割网络。

作为优选的技术方案，老师网络和学生网络均有逻辑分布输出结果，对网络的逻辑分布做了两种变换来用于传递不同维度的知识信息：一种是对网络输出的逻辑分布结果进行归一化得到其对应的概率分布结果，另一种是对网络输出的逻辑分布结果进行临近像素逻辑分布的一致性计算得到一致性矩阵。

作为优选的技术方案，所述把生成标签数据加入模型的训练集中，再通过框架训练提升学生网络的分割效果具体为：

把无标签的图像输入到老师网络得到的分割结果作为无标签图像的真实类标，然后把这些带预测标签的图片加入到原有的训练数据集中进行老师-学生模型框架的训练；于是总共有两个老师-学生学习过程，一个是进行在手工标注的训练集拥有精确的标注结果，另个进行在无标签数据拥有老师网络生成的带噪声的预测结果；以上的两个学习过成可以联合起来一起学习，特别的是，用标注和未标注数据进行的老师-学生学习过程的目标函数将是：

L＝L_LabeledData+λL_{unlabeledData}

上述函数中L_LabeledData是老师-学生学习过程在精确标签训练数据集上得到的损失函数，L_{unlabeledData}代表的是老师-学生学习过程在无标签训练数据集上得到的损失函数；这里还通过一个超参λ来控制两个不同数据集的老师-学生学习过程的平衡，最终我们通过最小化目标损失函数L，来使得使用无标签数据的老师-学生学习过程达到提升学生网络的效果。

本发明与现有技术相比，具有如下优点和有益效果：

1、在图像语义分割任务中，现有技术多是通过提高更深或更复杂的更好的局部特征提取器，增加新的计算层来联合上下文信息，新的解码网络和后处理模块来来恢复分割的空间细节信息，这三个方面来提高模型的分割准确率但是这样的方法会导致模型的运行速度很慢完全不能满足实际场景的应用。本发明的优势在利用现有快速语义分割的优势，在不引入额外模型参数，降低模型速度的情况下，提升了快速语义分割模型的准确率。

2、本发明在保证学生网络在分割效率能提升的情况下，从高阶的知识构建和收集更多的无标签训练数据来提升网络模型的训练，使得语义分割更加精确。

3、本发明的模型框架可以推广到各种不同的快速语义分割网络，具有一定的普适性。

附图说明

图1是本发明的模型框架图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明通过利用背景技术中提到的第1)和第2)两种方法，提出一个新的语义分割模型框架来提升快速语义分割网络的准确率，本发明方案主要包括：

1)第1)种方法中分割效果好但模型较大且复杂的语义分割网络作为老师网络，而将第2)种方法中运行速度快且分割效果较差的语义分割网络作为学生网络，构成一个新的老师-学生语义分割模型框架。

2)提出一对互补的0-阶知识损失函数和1-阶知识损失函数将老师网络的知识信息迁移到学生网络，从而提升学生网络的分割准确率。

3)通过利用第1)种方法中的模型，对无标签的数据进行分割标签预测，并将预测的标签作为图片的伪标签将图片加入训练集中，通过这种便捷有效的方式来扩充模型的训练集，从而提升模型的泛化能力。

通过在公开的Pascal Context，Cityscape与Pascal VOC等数据集上验证本发明的技术方案，证明本发明具有很好的分割效果。

如图1所示，本发明基于迁移学习提升语义分割模型效果的框架，包括下述内容：

(1)构造出了一个新的语义分割模型基础框架；

所述的语义分割模型基础框架由两个不同的网络组成，分别是老师网络和学生网络(分别是图1中的上部分网络和下部分网络)。其中老师网络是一个很深的网络且拥有复杂的框架结构，所以这个老师网络有很好的分割效果，但是由于网络很深且结构复杂导致其分割的速度非常的慢。另外在本发明的框架中学生网络是一个网络深度较浅且结构较简单的分割网络，所以其分割图像的速度很快。本发明提出的这个新的老师-学生学习模型框架旨在于借助老师网络的知识指引来提高学生网络的学习过程。老师网络的功能是为学生网路提供有益于分割的知识指导，使得学生网路能学到老师网络的知识来帮助其拥有更好的分割效果。学生网络的功能是在保证其分割的速度的同时从老师网络提供的知识中学习到有益于其分割效果的知识。连接的部分是通过目标函数将老师网络和学生网络连接起来。

(2)通过老师和学生网络的逻辑分布输出构造的两个网络的连接模块，提出了互补的零阶和一阶目标函数；下面具体介绍老师网络是通过什么样的连接方式和提供什么样的知识来帮助和促进学生网络的学习过程。

通过图1可知，老师网络和学生网络均有逻辑分布输出结果，本发明对网络的逻辑分布做了两种变换来用于传递不同维度的知识信息：一种是对网络输出的逻辑分布结果进行归一化得到其对应的概率分布结果，另一种是对网络输出的逻辑分布结果进行临近像素逻辑分布的一致性计算得到一致性矩阵。以上这两种维度的信息可以用在老师网络指导学生网络的学习过程。为了从老师网络迁移足够信息量的知识来促进一个更具鲁棒性的学生网络的学习过程，本发明为老师-学生学习过程提供了一个目标函数，此目标函数便是由上述的两个基于逻辑分布变换出来的信息形式构造的，接下来我们将对目标函数进行详细的介绍。首先我们将用S和T来分别代替表示公式中的学生网络和老师网络：

L＝L_s+r(S,T)

公式中的L_s是一般的分割网络都会用的交叉熵损失函数，其实由图片的标签与学生网络的概率分布之间求交叉熵得到的损失函数。r(S,T)代表的是老师网络与学生网络之间的知识偏差，其作为一个正则化项来正则化我们学生网络的学习过程。通过r(S,T)这一项，学生网络和老师网络被连接起来了，并且通过最小化L目标函数可以把老师网络的知识传递到学生网络。

这里把r(S,T)函数定义为：

r(S,T)＝αL_p(S,T)+βL_c(S,T)

L_p(S,T)是老师网络与学生网络之间的概率分布损失函数，定义为：

函数中的ps(x),pt(x)分别是学生和老师网络在图片区域每个像素点的概率分布输出。这个损失函数的定义是学生网络的输出概率分布跟老师网络的概率分布是相似的。这个函数可以捕抓到不同分割输出的零阶知识。

为了补充Lp损失函数捕捉到的零阶知识，L_C函数被用于捕获学生和老师网络输出的一阶知识。本发明制定L_C函数为

其中函数中的I表示batch size的数量，G表示一张图片的像素集合，一致性矩阵C(x)定义为

B(x)意味着像素x的8个临近的像素，I(x)是对应网络像素点的逻辑分布输出。

上述步骤的目的是确保学生和老师网络获得的分割边缘和纹理信息能够进一步接近，通过这种方式老师网络将为正则化学生网络的学习提供一阶的知识。

总的来说，以上的两个损失函数项(L_P，L_C从不同方面限制学生网络的学习，它们互补地来提升较浅的学生网络的学习过程。

本发明的方案对于分割具有以下特点：

1.他可以在不引入额外计算量的情况下，提升学生分割网络。

2.零阶和一阶知识从老师网络中被迁移到学生网络训练的过程中。

(3)利用无标签数据扩充模型的训练集；

本发明通过利用网络结构中的老师网络对无标签数据进行标签预测生成伪标签，并把生成标签数据加入模型的训练集中，再通过框架训练提升学生网络的分割效果。其解决的问题主要是因为目前分割数据集精细标签好的训练集大都在几千张图像左右，仍不能满足深度模型对数据的需求，所以我们想通过利用互联网收集大量未标签的图像来用于网络的训练。然而对这些无标签的数据进行手工标注是不现实的，因为每张分割图片的标注都是在像素级别的，这对人力和时间花费是相当的高。

本发明的老师-学生学习框架是通过下述方式扩展到无标签数据集并进一步提升学生网络的学习效果：

在本发明的框架中，把无标签的图像输入到老师网络得到的分割结果作为无标签图像的真实类标，然后把这些带预测标签的图片加入到原有的训练数据集中进行老师-学生模型框架的训练。于是总共有两个老师-学生学习过程，一个是进行在手工标注的训练集拥有精确的标注结果，另个进行在无标签数据拥有老师网络生成的带噪声的预测结果。以上的两个学习过成可以联合起来一起学习。特别的是，用标注和未标注数据进行的老师-学生学习过程的目标函数将是：

L＝L_LabeledData+λL_{unlabeledData}

上述函数中L_LabeledData是老师-学生学习过程在精确标签训练数据集上得到的损失函数，L_{unlabeledData}代表的是老师-学生学习过程在无标签训练数据集上得到的损失函数；这里还通过一个超参λ来控制两个不同数据集的老师-学生学习过程的平衡，最终我们通过最小化目标损失函数L，来使得使用无标签数据的老师-学生学习过程达到提升学生网络的效果。下面结合一个具体实验对本发明做进一步的验证：

上述(1)中提到了一个新的语义模型框架，把state-of-the-art分割架构DeepLab-v2作为老师和学生网络的架构。DeepLab-v2架构是一个具有两个连续的功能组件的堆栈：一个是作为局部特征提取器的预训练好的卷积网络；另一个是用于上下文内容聚合的带孔空间金字塔池化网络。总的来说，基于DeepLab-v2架构的模型分割能力跟特征骨架网络有很大的关系。于是在我们的实验中，用一个具有高能力的特征骨架网络ResNet-101作为实例化的老师网络，同时在学生网络中用一个最新的高效快速的网络MobileNet。并采用训练好的Resnet-101-DeepLab-v2模型参数赋值给老师网络，用在ImageNet 1k数据集上预训练好的MobileNet初始化MolileNet-Deeplab-v2的特征骨架网络，完成两个网络的构建。

接着是构造两个网络的连接模块，为学生模型提供对应的零阶和一阶损失函数。首先基于两个网络的逻辑分布，先对其做归一化得到了两个网络分割的概率分布ps和pt，通过对两个概率分布求平方差距离得到概率损失函数。接着对两个模型的逻辑输出求每个像素与相邻8像素之间的逻辑分布的一致性矩阵cs和ct，再对两个网络的一致性矩阵求平方差距离得到另一致性损失函数。这两个损失函数与模型本身的交叉熵损失函数合起来构成整个框架的损失函数。通过最优化这个目标函数，可以把老师网络的知识用于提供学生网络的学习过程，从而提升学生分割的结果。

最后加入无标签数据来扩张模型的训练集，利用上述训练好的模型参数初始化的老师模型，对无标签的数据进行标签预测，之后再对输出的结果进行CRF处理得到更精确的图片的分割预测结果。将此带有伪标签的图片加入到训练数据集中，进一步训练模型，可以提高模型的分割效果。

运行的流程如下：

给定一张图片，本发明进行语义分割的流程如下：

a)图片经过原RGB三通道图片转化为BGR三通道图片，接着对应通道减去均值；

b)将经过通道转换和减均值的图片输入语义分割网络，得到对应的缩小了8倍的图片预测逻辑输出结果；

c)接着将缩小8倍的图片预测逻辑输出结果变换为原来大小的图片预测逻辑输出结果；

d)最后对得到的与原图大小一致的图片预测逻辑输出结果进行归一化，并通过取概率分布最大的类为改像素的类别得到图片最终的分割结果。

通过本发明的技术方案，利用现有快速语义分割的优势，在保证分割速度不变的情况下，提升语义分割网络的分割准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于迁移学习提升语义分割模型效果的框架，其特征在于，包括下述步骤：

用S和T来分别表示公式中的学生网络和老师网络：

L＝L_s+r(S,T)

上述公式中，L_s是交叉熵损失函数，其实际是由图片的标签与学生网络的概率分布之间求交叉熵得到的损失函数；r(S,T)代表的是老师网络与学生网络之间的知识偏差，其作为一个正则化项来正则化学生网络的学习过程，通过r(S,T)这一项，学生网络和老师网络被连接起来，并且通过最小化L目标函数可以把老师网络的知识传递到学生网络；

把r(S,T)函数定义为：

r(S,T)＝αL_p(S,T)+βL_c(S,T)

函数中的I表示batch size的数量，G表示图片的像素集合，P_S(x),P_T(x)分别是学生和老师网络在图片区域每个像素点的概率分布输出，这个损失函数的定义是学生网络的输出概率分布跟老师网络的概率分布是相似的，这个函数可以捕捉到不同分割输出的零阶知识；

为了补充L_P损失函数捕捉到的零阶知识，L_C函数被用于捕捉学生网络和老师网络输出的一阶知识，定义L_C函数为：

2.根据权利要求1所述基于迁移学习提升语义分割模型效果的框架，其特征在于，老师网络和学生网络均有逻辑分布输出结果，对网络的逻辑分布做了两种变换来用于传递不同维度的知识信息：一种是对网络输出的逻辑分布结果进行归一化得到其对应的概率分布结果，另一种是对网络输出的逻辑分布结果进行临近像素逻辑分布的一致性计算得到一致性矩阵。

3.根据权利要求1所述基于迁移学习提升语义分割模型效果的框架，其特征在于，所述把生成标签数据加入模型的训练集中，再通过框架训练提升学生网络的分割效果具体为：

把无标签的图像输入到老师网络得到的分割结果作为无标签图像的真实类标，然后把这些带预测标签的图片加入到原有的训练数据集中进行老师-学生模型框架的训练；于是总共有两个老师-学生学习过程，一个是进行在手工标注的训练集拥有精确的标注结果，另一个进行在无标签数据拥有老师网络生成的带噪声的预测结果；以上的两个学习过程联合起来一起学习，用标注和未标注数据进行的老师-学生学习过程的目标函数将是：

L＝L_LabeledData+λL_{unlabeledData}