CN110807462A

CN110807462A - 一种针对语义分割模型的上下文不敏感的训练方法

Info

Publication number: CN110807462A
Application number: CN201910858848.0A
Authority: CN
Inventors: 陈怡峰; 李颂元; 李玺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-02-18
Anticipated expiration: 2039-09-11
Also published as: CN110807462B

Abstract

本发明公开了一种针对语义分割模型的上下文不敏感的训练方法，用于对视频的语义分割算法进行大幅加速。具体包括如下步骤：1)获取用于训练语义分割的多组图像数据集，并定义算法目标；2)使用基于全卷积网络结构的模型在该数据集上进行学习；3)使用类擦去样本生成器产生新的训练样本；4)使用步骤2)得到的网络参数，在原始数据集和步骤3)生成的新样本上结合一致性约束进行优化，得到对上下文不敏感的模型。本发明挖掘语义分割的场景理解能力，所训练的模型在数据擦除、数据干扰和风格迁移等条件下具有更好的泛化能力。

Description

一种针对语义分割模型的上下文不敏感的训练方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种针对语义分割模型的上下文不敏感的训练方法。

背景技术

语义分割是将图像中的每个像素点都划分到一个语义标签的计算机视觉任务。目前业界领先的语义分割技术都是基于全卷积神经网络(FCN)的变体，这些技术方法大多利用上下文信息来获得更好的分割结果。例如PSPNet在FCN的基础上加入全局金字塔池化技术以增加上下文信息。DeepLab系列算法尝试了多种不同的带孔卷积架构以获取多尺度的上下文信息。其结果是，当前的语义分割技术对上下文信息十分敏感。

然而，这种对上下文敏感的策略会导致模型泛化能力不强，并且不能真正让模型对场景的理解具有类人的能力。对上下文敏感的模型实际上学习的是训练数据集上的语义标记的一种联合概率分布，一旦遇到模型不熟悉的场景，模型的性能将大幅下降。同时，人类在理解某个像素的语义类别时，很大程度上不受周围的像素的语义类别的影响。为获得更好的场景理解能力，我们就需要一种对上下文不敏感的语义分割方法。

发明内容

为解决上述问题，本发明的目的在于提供一种针对语义分割模型的上下文不敏感的训练方法。该方法可以用于训练基于深度学习的语义分割模型。这一方法包含两个子模块，分别是类擦去样本生成器和一致性损失约束。类擦去样本生成器可以帮助模型解耦语义类别间的认知关系。而一致性损失约束可以帮助模型提取到上下文不敏感的特征。在此框架下训练的模型，相较原始模型具有上下文不敏感的特点，进而有更强的泛化能力。

为实现上述目的，本发明的技术方案为：

一种针对语义分割模型的上下文不敏感的训练方法，其包括以下步骤：

S1.获取用于训练语义分割的多组图像数据集，并定义算法目标；

S2.使用基于全卷积网络结构的模型在该数据集上进行学习；

S3.使用类擦去样本生成器产生新的训练样本；

S4.使用S2得到的网络参数，在原始数据集和S3生成的新样本上结合一致性损失约束进行模型优化，得到对上下文不敏感的模型。

基于上述方案，各步骤可以通过如下方式实现：

步骤S1中，对于所述的用于语义分割的多个图像数据集中的一幅图片I，定义算法目标为：检测图片I内的每个像素所属的语义类别。

步骤S2中，使用基于全卷积网络结构的模型在该数据集上进行学习具体包括：

S21.基于全卷积的网络结构的模型φ对输出图片I提取特征；

S22.使用1×1卷积，对提取的特征进行语义类别的预测；

S23.使用交叉熵损失，根据预测类别和原始标签L来优化模型φ，其中原始标签L中含有图片I中各像素所属的真实语义类别。

步骤S3中，所述的类擦去样本生成器用于生成部分类别被擦去的图片和标签作为训练数据来训练模型，其参数包含照片填充单元i_e，标签填充单元c_e和最大擦去的类别数目m，其输入为原始图片I和原始标签L；类擦去样本生成器中生成新的三元组训练样本{I′,L′,M}的方法如下：

S31.在标签L中统计其包含的类别，记为集合K；

S32.设置r为参数m和集合K的势的较小值；

S33.在集合K中随机选取r类组成擦除类集合K_e；

S34.令I′为一个初始值与I一样的数组，对I′的每个位置，若L中对应位置的标签属于K_e，则将该位置的值置为i_e；

S35.令L′为一个初始值与L一样的数组，对L′的每个位置，若L中对应位置的标签属于K_e，则将该位置的值置为c_e；

S36.令M是一个与L相同长宽的全零数组，对其每个位置，若L中对应位置的标签属于K_e，则置为1。

步骤S4中，所述的一致性损失约束为一个结合类擦去样本生成器使用的损失约束；对于原始图片I和经过类擦除的图片I′，一致性损失约束要求模型φ在未被擦去的位置，即M值等于0处，提取的特征尽可能地相似；一致性损失约束L_c形式为：

用于监督模型训练的损失L由三项组成：

L＝L_ce(φ(I′),L′)+αL_ce(φ(I),L)+βL_c

其中L_ce(φ(I),L)是输入I时的模型预测类别与标签L的交叉熵损失，L_ce(φ(I′),L′)是输入I′时的模型预测类别与标签L′的交叉熵损失；α和β为权重系数；在计算L_ce(φ(I′),L′)时，对应位置为标签填充单元c_e的损失被忽略，且模型φ对于输入需先做一个减去照片填充单元i_e的归一化操作，使被填充i_e的位置实际在神经元连接处的值为0。

本发明能够挖掘语义分割的场景理解能力，所训练的模型在数据擦除、数据干扰和风格迁移等条件下具有更好的泛化能力。

附图说明

图1为本发明的流程示意图；

图2从左至右分别为原图，标记，部分抹去的图片，原始模型的预测和实施例的预测。

图3从左至右分别为汽车，公交，杆子，卡车和人类别对应的有效感受野。

图4从左至右分别为原始图片，风格迁移后的图片，标签，实施例的预测，原始模型的预测。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种针对语义分割模型的上下文不敏感的训练方法，包括以下步骤：

S1.获取用于训练语义分割的多组图像数据集，在这里选用的数据集为Cityscapes[]，其包含2975张训练照片和500张验证照片。对于用于语义分割的多个图像数据集中的一幅图片I，定义算法目标为：检测图片I内的每个像素所属的语义类别。每张图片I对应的原始标签L中记载了I内的每个像素的真实语义类别。

S2.使用基于全卷积网络结构的模型在该数据集上进行学习，具体步骤包括：

S21.使用基于ResNet50的特征金字塔(FPN)网络结构的模型φ对对输出图片I提取特征；

S22.使用1×1卷积，对提取的特征进行语义类别的预测；

S3.使用类擦去样本生成器产生新的训练样本。

其中，类擦去样本生成器用于生成部分类别被擦去的图片和标签作为训练数据来训练模型，其参数包含照片填充单元i_e，标签填充单元c_e和最大擦去的类别数目m，其输入为原始图片I和原始标签L。在本实施例中，超参数m设置为1，i_e设置为[123,116,10]，c_e设置为-1。

类擦去样本生成器中生成新的三元组训练样本{I′,L′,M}的方法如下：

S31.在标签L中统计其包含的类别，记为集合K；

S32.设置r为参数m和集合K的势的较小值；

S33.在集合K中随机选取r类组成擦除类集合K_e；

由此，类擦去样本生成器通过上述步骤可以生成新的形式为{I′,L′,M}的三元组样本，这一样本被用来训练模型。通过这样的训练数据，模型可以将类别K_e和其余类别K\K_e的理解解耦，即使不需要类别K_e对应的信息，也能够正确识别类别K\K_e。

其中，一致性损失约束为一个结合类擦去样本生成器使用的损失约束；对于原始图片I和经过类擦除的图片I′，一致性损失约束要求模型φ在未被擦去的位置，即M值等于0处，提取的特征尽可能地相似；一致性损失约束L_c形式为：

用于监督模型训练的损失L由三项组成：

L＝L_ce(φ(I′),L′)+αL_ce(φ(I),L)+βL_c

其中L_ce(φ(I),L)是输入I时的模型预测类别与标签L的交叉熵损失，L_ce(φ(I′),L′)是输入I′时的模型预测类别与标签L′的交叉熵损失；α和β为权重系数，本实施例中α,β设置为1。

另外，在计算L_ce(φ(I′),L′)时，对应位置为标签填充单元c_e的损失被忽略，即不关心抹去类别的预测结果。而且在计算L_ce(φ(I′),L′)时模型φ对于输入需先做一个减去照片填充单元i_e的归一化操作，使被填充i_e的位置实际在神经元连接处的值为0，即可视作为擦除操作。使用该方法训练得到的模型具有上下文不敏感的特点。参考图3，对其进行可视化可以发现，使用本方法训练的模型的对某一类别的有效感受野相较之前收缩到了这个类别本身的区域，说明模型具有对上下文不敏感的特点。这一特点使得模型具有了更强的泛化能力。结合图2、图4，参考表1对于训练得到的模型，它不仅能在原始数据集上维持相近的精度，还在输入被抹去时表现出更佳的性能。参考表2，它可以在环境被风格迁移时具有更佳鲁邦的表现。参考表3，在模型从未见过的Apolloscape数据集相同类别上测试性能，我们的模型的整体IoU可以提升大约2％，证明其具有更强的泛化能力。

表1

	FIoU(％)	BIoU(％)	mIoU(％)
				Baseline	58.2	69.3	71.8
Our model	76.5	76.5	71.4

表1表明我们的模型相比原始模型(Baseline)在FIoU(抹去全部背景测试前景)，BIoU(抹去全部前景测试背景)上得到了极大的提升。同时，它也能和原始模型差不多好低理解正常未抹去的场景。

表2

迁移程度/mIoU	Our Model(％)	Baseline(％)
			0.25	68.5	67.9
0.5	64.2	63.2
			0.75	60.5	58.7
1.0	57.5	55.1

表2表明在对经过背景风格迁移的照片进行理解时，我们的模型相比起原始模型分割效果更佳，且随着迁移力度增加，性能的提升更加明显。

表3

	mIoU	IoUF	IoU
				Baseline	38.9	34.3	55.1
Our model	40.7	37.0	57.0

通过以上技术方案，本发明实施例基于深度学习技术发展了一种针对语义分割模型的上下文不敏感的训练方法。本发明可以使得模型具有上下文不敏感的特性，进而拥有更强的泛化能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对语义分割模型的上下文不敏感的训练方法，其特征在于，包括以下步骤：

S2.使用基于全卷积网络结构的模型在该数据集上进行学习；

S3.使用类擦去样本生成器产生新的训练样本；

2.如权利要求1所述的针对语义分割模型的上下文不敏感的训练方法，其特征在于，步骤S1中，对于所述的用于语义分割的多个图像数据集中的一幅图片I，定义算法目标为：检测图片I内的每个像素所属的语义类别。

3.如权利要求1所述的针对语义分割模型的上下文不敏感的训练方法，其特征在于，步骤S2中，使用基于全卷积网络结构的模型在该数据集上进行学习具体包括：

S21.基于全卷积的网络结构的模型φ对输出图片I提取特征；

S22.使用1×1卷积，对提取的特征进行语义类别的预测；

4.如权利要求1所述的针对语义分割模型的上下文不敏感的训练方法，其特征在于，步骤S3中，所述的类擦去样本生成器用于生成部分类别被擦去的图片和标签作为训练数据来训练模型，其参数包含照片填充单元i_e，标签填充单元c_e和最大擦去的类别数目m，其输入为原始图片I和原始标签L；类擦去样本生成器中生成新的三元组训练样本{I′,L′,M}的方法如下：

S31.在标签L中统计其包含的类别，记为集合K；

S32.设置r为参数m和集合K的势的较小值；

S33.在集合K中随机选取r类组成擦除类集合K_e；

5.如权利要求1所述的针对语义分割模型的上下文不敏感的训练方法，其特征在于，步骤S4中，所述的一致性损失约束为一个结合类擦去样本生成器使用的损失约束；对于原始图片I和经过类擦除的图片I′，一致性损失约束要求模型φ在未被擦去的位置，即M值等于0处，提取的特征尽可能地相似；一致性损失约束L_c形式为：

用于监督模型训练的损失L由三项组成：

L＝L_ce(φ(I′),L′)+αL_ce(φ(I),L)+βL_c