CN110569709A

CN110569709A - 一种基于知识重组的场景解析方法

Info

Publication number: CN110569709A
Application number: CN201910638381.9A
Authority: CN
Inventors: 宋明黎; 叶静雯; 季意昕
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-12-13

Abstract

基于知识重组的场景解析方法，包含以下步骤：首先初始化学徒网络，使其和教师网络有相同的网络结构；然后利用教师网络上关于场景图像中分割和深度估计的知识逐层训练学徒网络；接着确定分割，深度估计在训练完毕的学徒网络上的分流点；最后从分流点处连接上学徒网络和教师网络，并针对图像分割和深度估计的单个任务进行网络微调。通过上述步骤，本发明可以充分利用教师网络的知识并且训练出在所有室内场景解析任务中的性能都能超越教师的多任务学徒网络。

Description

一种基于知识重组的场景解析方法

技术领域

本发明涉及计算机视觉和模式识别领域，具体涉及的是图像的场景解析中包含的图像分割和深度估计等方面。针对图像的场景解析任务(包含分割，深度估计和法向量)，提出了一种基于知识重组的场景解析方法使得场景解析中包含的多任务集成在单个网络中。

背景技术

图像的场景解析包括图像的分割，图像深度估计，图像法向量估计等多种任务。随着深度学习的发展，这些场景解析的任务都能用通用的深度网络训练，并且都获得了很好的效果。然而，这些越来越好的效果，通常都是使用大量的标注数据在集群上训练了几天甚至几周得到的。在很多实际的情况下，使用一个或两个GPU对单个网络进行训练是十分不切实际的，更不用说我们往往没有大量符合我们的需求的标注数据来训练目标网络。例如若训练一个场景图像分割的网络，需要输入图像的每个像素点都标有对应的类别，这样的标注难度很大。

目前上述难题在一定程度上得到了缓解，这是由于开发人员在线发布了许多训练完毕的深层模型，从而使用户可以直接下载这些预训练的模型，直接将这些模型部署到自己的任务中，例如开源的用于场景分割的网络SegNet。网上存在很多训练完毕的网络，为了更好的利用这些已经训练好的模型，研究人员已经进行了一系列的工作来研究如何重用预先培训完毕的深度模型。例如使用知识蒸馏来计算学徒网络和教师网络之间软目标的loss，从而训练得到一个很小的学生模型。

在现实生活中，一个学生可以分别向不同的老师学习多门功课。同样在网络的训练中，经过多个教师网络的指导，学徒网络可以有能力同时进行多个任务。通过知识重组的策略，学徒网络的野心不仅仅局限于单纯地学习，而是想要逆袭成大师。学徒在接受教师网络的指导时，对学到的知识有消化吸收的能力，他能将知识融会贯通并且互补。但是首先需要明确的是，教师网络的知识在这里被定义为其中间层的特征。训练学徒网络充分利用了每一层的特征也就是之前提过的知识，通过逐层训练来指导学徒网络。在指导学徒网络时，输入一张无标注的场景图像至学徒网络和所有的教师网络中。在特征提取阶段，学徒网络的编码器提取的特征同时包含两个教师网络的信息。而在解码阶段，学徒网络每一层的特征都能够重新复原回相应的教师网络的特征。在这种模式下，我们无需标注数据，只需要单个场景解析任务下的教师网络就能训练出针对于场景中多任务的学徒网络。

发明内容

本发明要克服上述的场景技术的难点，提出了一种基于知识重组的场景解析方法。

整体的架构是场景解析学徒网络上的每个任务公用一个编码器，在解码器处进行了分流，确保在合适的位置分流能够获取指定任务最佳的效果，将场景解析中不同的子任务进行了一定的分层。通过知识重组，学徒网络利用场景解析教师网络的知识进行监督学习，不再需要额外的标注数据。

基于知识重组的场景解析方法，采用多教师单学徒的训练模式，具体包含以下步骤：

步骤A，预训练教师网络，用对应的场景分割数据集和深度估计数据集训练对应的教师网络，这里以两个教师训练一个学徒网络为例，首先预训练所需的教师网络，SegNet和DepthNet两个教师网络分别进行场景图像分割，深度估计的任务。

其中利用了交叉熵来计算SegNet中的损失：

DepthNet中的损失函数定义如下：

TeacherNet的预测的分割图S和深度图D在这里作为groundtruth对学徒网络的分割和深度估计任务进行监督。

步骤B，利用无标注的场景图像来训练学徒网络TargetNet，使得TargetNet可以同时进行室内场景图象分割和深度估计的任务。TargetNet的初始化结构和教师网络的结构相同，使用知识驱动的逐模块训练模式来训练Target Net，令场景解析中的各项任务互补互助。首先将Target Net划分为N个模块，将TargetNet的每个block从1到N进行编号。训练TargetNet时从第一个block开始，一直训练到第N个block，直到第N个block可以输出与输入图像相对应的深度图和分割图。在逐block的训练模式中训练block n时具体为：

步骤B1，固定TargetNet中block 1到n-1的参数，同时向教师网络TeacherNet和学徒网络TargetNet输入无标注的场景图像，分别获取TeacherNet在block n中有关深度的特征和有关分割的特征F_s ⁿ作为知识进行学徒网络的监督，和初始化的TargetNet在第n个block的待学习的特征

步骤B2，对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channel coding模块，从而对特征进行转换。经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为Channel coding由一个最大池化层，和两个全连接层组成。

步骤B3，计算转换后的特征与教师网络中相应的F_s ⁿ计算相似性。

计算相似性时，替换教师网络中第n个block的特征为响应block的学徒网络的对应的特征。也就是用场景分割转换模块获得的特征替换SegNet中的F_s ⁿ，则在SegNet的最后一层获得新的场景图像分割预测图用转换后的特征替换DepthNet中的则获得新的场景深度图则可计算损失函数为：

其中参数λ₁和λ₂为人为设定，但是在每一个block的训练时都是固定的。最小化这个损失函数，更新TargetNet block n和相连的两个channel coding的参数。

步骤C，利用在步骤B3得到的一系列loss值选择场景分割和场景深度估计的最佳分流点的block。具体操作为记录下TargetNet逐block训练时每个子任务的收敛loss值，分别为针对图像分割任务的和针对图像深度估计的则用其分别计算分割任务的分流点p_seg和深度估计分流点p_depth：

分别标定为p_seg和p_depth，从分流点处用该block对应改场景解析子任务的channelcoding模块连接上TargetNet和teacher网络。针对场景分割任务，选择TargetNet中编号为1到p_seg的block，连接上SegNet中编号从p_seg+1到N的block。针对场景深度估计任务，选择TargetNet中编号为1到p_depth的block，连接上DepthNet中编号从p_depth+1到N的block。

步骤D，移除TargetNet中不需要的block，也就是移除block编号从max(p_depth，p_seg)+1到N的部分。对最后得到的多分枝的TargetNet进行fine-tune，所需的最终的分割图和深度图分别从TargetNet的不同分支获得。

本发明可以充分利用教师网络的知识，并且训练出在所有室内场景解析任务中的性能都能超越教师的多任务学徒网络。

本发明的优点是：能够在图像的场景解析缺乏具有完备标注的场景数据、甚至没有任何标注的场景数据集的情况下，完成训练室内场景解析多任务的网络，获得小规模的目标网络从而降低运行目标网络对服务器的内存要求，并能降低训练目标网络对服务器的占时比例，提高图像的场景解析的质量，获得的分割图和深度图的准确率更高；能够同时解决室内场景解析中包含的多项任务，包括室内图像分割，室内图像深度估计和室内图像法向量估计等任务，提高室内场景解析任务在单个目标模型上的集成度。

附图说明

图1是本发明的channel coding模块的结构图

图2是本发明方法的流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

基于知识重组的室内图像场景解析方法，采用多教师单学徒的训练模式，训练出目标网络能同时应对室内场景分割，室内场景深度估计和法向量估计等多项任务，具体包含以下步骤：

步骤A，预训练教师网络，用对应的数据集训练对应的教师网络，这里以两个教师训练一个学徒网络为例，首先预训练所需的教师网络，SegNet和DepthNet两个教师网络分别进行场景图像分割，深度估计的任务。

步骤B2，对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channel coding模块，从而对特征进行转换。经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为如图1所示。

步骤B3，计算转换后的特征与教师网络中相应的F_s ⁿ计算相似性，最小化两者之间的差异，以此作为损失函数，更新TargetNet block n和相连的两个channelcoding的参数。

步骤C，选择场景分割和深度估计分流点block，分别标定为p_seg和p_depth，从分流点处用该block对应该任务的channel coding模块连接上TargetNet和teacher。例如针对分割任务，选择TargetNet中编号为1到p_seg的block，连接上SegNet中编号从p_seg+1到N的block。

步骤D，移除TargetNet中不需要的block，对最后得到的多分枝的TargetNet进行fine-tune，所需的最终的分割图和深度图分别从TargetNet的不同分支获得。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于知识重组的室内图像场景解析方法，采用多教师单学徒的训练模式，训练出目标网络能同时应对室内场景分割，室内场景深度估计和法向量估计等多项任务，具体包含以下步骤：

步骤A，预训练教师网络，用对应的场景分割数据集和深度估计数据集训练对应的教师网络，首先预训练所需的教师网络，SegNet和DepthNet两个教师网络分别进行场景图像分割，深度估计的任务；

其中利用了交叉熵来计算SegNet中的损失：

DepthNet中的损失函数定义如下：

TeacherNet的预测的分割图S和深度图D在这里作为groundtruth对学徒网络的分割和深度估计任务进行监督；

步骤B，利用无标注的场景图像来训练学徒网络TargetNet，使得TargetNet可以同时进行室内场景图象分割和深度估计的任务；TargetNet的初始化结构和教师网络的结构相同，使用知识驱动的逐模块训练模式来训练Target Net，令场景解析中的各项任务互补互助；首先将Target Net划分为N个模块，将TargetNet的每个block从1到N进行编号；训练TargetNet时从第一个block开始，一直训练到第N个block，直到第N个block可以输出与输入图像相对应的深度图和分割图；在逐block的训练模式中训练block n时具体为：

步骤B1，固定TargetNet中block1到n-1的参数，同时向教师网络TeacherNet和学徒网络TargetNet输入无标注的场景图像，分别获取TeacherNet在block n中有关深度的特征和有关分割的特征F_s ⁿ作为知识进行学徒网络的监督，和初始化的TargetNet在第n个block的待学习的特征

步骤B2，对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channelcoding模块，从而对特征进行转换；经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为Channel coding由一个最大池化层，和两个全连接层组成；

步骤B3，计算转换后的特征与教师网络中相应的F_s ⁿ计算相似性；

计算相似性时，替换教师网络中第n个block的特征为响应block的学徒网络的对应的特征；也就是用场景分割转换模块获得的特征替换SegNet中的F_s ⁿ，则在SegNet的最后一层获得新的场景图像分割预测图用转换后的特征替换DepthNet中的则获得新的场景深度图则可计算损失函数为：

其中参数λ₁和λ₂为人为设定，但是在每一个block的训练时都是固定的；最小化这个损失函数，更新TargetNet block n和相连的两个channel coding的参数；

步骤C，利用在步骤B3得到的一系列loss值选择场景分割和场景深度估计的最佳分流点的block；具体操作为记录下TargetNet逐block训练时每个子任务的收敛loss值，分别为针对图像分割任务的loss和针对图像深度估计的则用其分别计算分割任务的分流点p_seg和深度估计分流点p_depth：

分别标定为p_seg和p_depth，从分流点处用该block对应改场景解析子任务的channelcoding模块连接上TargetNet和teacher网络；针对场景分割任务，选择TargetNet中编号为1到p_seg的block，连接上SegNet中编号从p_seg+1到N的block；针对场景深度估计任务，选择TargetNet中编号为1到p_depth的block，连接上DepthNet中编号从p_depth+1到N的block；

步骤D，移除TargetNet中不需要的block，也就是移除block编号从max(p_depth，p_seg)+1到N的部分；对最后得到的多分枝的TargetNet进行fine-tune，所需的最终的分割图和深度图分别从TargetNet的不同分支获得。