CN110569709A - 一种基于知识重组的场景解析方法 - Google Patents
一种基于知识重组的场景解析方法 Download PDFInfo
- Publication number
- CN110569709A CN110569709A CN201910638381.9A CN201910638381A CN110569709A CN 110569709 A CN110569709 A CN 110569709A CN 201910638381 A CN201910638381 A CN 201910638381A CN 110569709 A CN110569709 A CN 110569709A
- Authority
- CN
- China
- Prior art keywords
- network
- targetnet
- block
- scene
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于知识重组的场景解析方法,包含以下步骤:首先初始化学徒网络,使其和教师网络有相同的网络结构;然后利用教师网络上关于场景图像中分割和深度估计的知识逐层训练学徒网络;接着确定分割,深度估计在训练完毕的学徒网络上的分流点;最后从分流点处连接上学徒网络和教师网络,并针对图像分割和深度估计的单个任务进行网络微调。通过上述步骤,本发明可以充分利用教师网络的知识并且训练出在所有室内场景解析任务中的性能都能超越教师的多任务学徒网络。
Description
技术领域
本发明涉及计算机视觉和模式识别领域,具体涉及的是图像的场景解析中包含的图像分割和深度估计等方面。针对图像的场景解析任务(包含分割,深度估计和法向量),提出了一种基于知识重组的场景解析方法使得场景解析中包含的多任务集成在单个网络中。
背景技术
图像的场景解析包括图像的分割,图像深度估计,图像法向量估计等多种任务。随着深度学习的发展,这些场景解析的任务都能用通用的深度网络训练,并且都获得了很好的效果。然而,这些越来越好的效果,通常都是使用大量的标注数据在集群上训练了几天甚至几周得到的。在很多实际的情况下,使用一个或两个GPU对单个网络进行训练是十分不切实际的,更不用说我们往往没有大量符合我们的需求的标注数据来训练目标网络。例如若训练一个场景图像分割的网络,需要输入图像的每个像素点都标有对应的类别,这样的标注难度很大。
目前上述难题在一定程度上得到了缓解,这是由于开发人员在线发布了许多训练完毕的深层模型,从而使用户可以直接下载这些预训练的模型,直接将这些模型部署到自己的任务中,例如开源的用于场景分割的网络SegNet。网上存在很多训练完毕的网络,为了更好的利用这些已经训练好的模型,研究人员已经进行了一系列的工作来研究如何重用预先培训完毕的深度模型。例如使用知识蒸馏来计算学徒网络和教师网络之间软目标的loss,从而训练得到一个很小的学生模型。
在现实生活中,一个学生可以分别向不同的老师学习多门功课。同样在网络的训练中,经过多个教师网络的指导,学徒网络可以有能力同时进行多个任务。通过知识重组的策略,学徒网络的野心不仅仅局限于单纯地学习,而是想要逆袭成大师。学徒在接受教师网络的指导时,对学到的知识有消化吸收的能力,他能将知识融会贯通并且互补。但是首先需要明确的是,教师网络的知识在这里被定义为其中间层的特征。训练学徒网络充分利用了每一层的特征也就是之前提过的知识,通过逐层训练来指导学徒网络。在指导学徒网络时,输入一张无标注的场景图像至学徒网络和所有的教师网络中。在特征提取阶段,学徒网络的编码器提取的特征同时包含两个教师网络的信息。而在解码阶段,学徒网络每一层的特征都能够重新复原回相应的教师网络的特征。在这种模式下,我们无需标注数据,只需要单个场景解析任务下的教师网络就能训练出针对于场景中多任务的学徒网络。
发明内容
本发明要克服上述的场景技术的难点,提出了一种基于知识重组的场景解析方法。
整体的架构是场景解析学徒网络上的每个任务公用一个编码器,在解码器处进行了分流,确保在合适的位置分流能够获取指定任务最佳的效果,将场景解析中不同的子任务进行了一定的分层。通过知识重组,学徒网络利用场景解析教师网络的知识进行监督学习,不再需要额外的标注数据。
基于知识重组的场景解析方法,采用多教师单学徒的训练模式,具体包含以下步骤:
步骤A,预训练教师网络,用对应的场景分割数据集和深度估计数据集训练对应的教师网络,这里以两个教师训练一个学徒网络为例,首先预训练所需的教师网络,SegNet和DepthNet两个教师网络分别进行场景图像分割,深度估计的任务。
其中利用了交叉熵来计算SegNet中的损失:
DepthNet中的损失函数定义如下:
TeacherNet的预测的分割图S和深度图D在这里作为groundtruth对学徒网络的分割和深度估计任务进行监督。
步骤B,利用无标注的场景图像来训练学徒网络TargetNet,使得TargetNet可以同时进行室内场景图象分割和深度估计的任务。TargetNet的初始化结构和教师网络的结构相同,使用知识驱动的逐模块训练模式来训练Target Net,令场景解析中的各项任务互补互助。首先将Target Net划分为N个模块,将TargetNet的每个block从1到N进行编号。训练TargetNet时从第一个block开始,一直训练到第N个block,直到第N个block可以输出与输入图像相对应的深度图和分割图。在逐block的训练模式中训练block n时具体为:
步骤B1,固定TargetNet中block 1到n-1的参数,同时向教师网络TeacherNet和学徒网络TargetNet输入无标注的场景图像,分别获取TeacherNet在block n中有关深度的特征和有关分割的特征Fs n作为知识进行学徒网络的监督,和初始化的TargetNet在第n个block的待学习的特征
步骤B2,对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channel coding模块,从而对特征进行转换。经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为Channel coding由一个最大池化层,和两个全连接层组成。
步骤B3,计算转换后的特征与教师网络中相应的Fs n计算相似性。
计算相似性时,替换教师网络中第n个block的特征为响应block的学徒网络的对应的特征。也就是用场景分割转换模块获得的特征替换SegNet中的Fs n,则在SegNet的最后一层获得新的场景图像分割预测图用转换后的特征替换DepthNet中的则获得新的场景深度图则可计算损失函数为:
其中参数λ1和λ2为人为设定,但是在每一个block的训练时都是固定的。最小化这个损失函数,更新TargetNet block n和相连的两个channel coding的参数。
步骤C,利用在步骤B3得到的一系列loss值选择场景分割和场景深度估计的最佳分流点的block。具体操作为记录下TargetNet逐block训练时每个子任务的收敛loss值,分别为针对图像分割任务的和针对图像深度估计的则用其分别计算分割任务的分流点pseg和深度估计分流点pdepth:
分别标定为pseg和pdepth,从分流点处用该block对应改场景解析子任务的channelcoding模块连接上TargetNet和teacher网络。针对场景分割任务,选择TargetNet中编号为1到pseg的block,连接上SegNet中编号从pseg+1到N的block。针对场景深度估计任务,选择TargetNet中编号为1到pdepth的block,连接上DepthNet中编号从pdepth+1到N的block。
步骤D,移除TargetNet中不需要的block,也就是移除block编号从max(pdepth,pseg)+1到N的部分。对最后得到的多分枝的TargetNet进行fine-tune,所需的最终的分割图和深度图分别从TargetNet的不同分支获得。
本发明可以充分利用教师网络的知识,并且训练出在所有室内场景解析任务中的性能都能超越教师的多任务学徒网络。
本发明的优点是:能够在图像的场景解析缺乏具有完备标注的场景数据、甚至没有任何标注的场景数据集的情况下,完成训练室内场景解析多任务的网络,获得小规模的目标网络从而降低运行目标网络对服务器的内存要求,并能降低训练目标网络对服务器的占时比例,提高图像的场景解析的质量,获得的分割图和深度图的准确率更高;能够同时解决室内场景解析中包含的多项任务,包括室内图像分割,室内图像深度估计和室内图像法向量估计等任务,提高室内场景解析任务在单个目标模型上的集成度。
附图说明
图1是本发明的channel coding模块的结构图
图2是本发明方法的流程图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
基于知识重组的室内图像场景解析方法,采用多教师单学徒的训练模式,训练出目标网络能同时应对室内场景分割,室内场景深度估计和法向量估计等多项任务,具体包含以下步骤:
步骤A,预训练教师网络,用对应的数据集训练对应的教师网络,这里以两个教师训练一个学徒网络为例,首先预训练所需的教师网络,SegNet和DepthNet两个教师网络分别进行场景图像分割,深度估计的任务。
步骤B,利用无标注的场景图像来训练学徒网络TargetNet,使得TargetNet可以同时进行室内场景图象分割和深度估计的任务。TargetNet的初始化结构和教师网络的结构相同,使用知识驱动的逐模块训练模式来训练Target Net,令场景解析中的各项任务互补互助。首先将Target Net划分为N个模块,将TargetNet的每个block从1到N进行编号。训练TargetNet时从第一个block开始,一直训练到第N个block,直到第N个block可以输出与输入图像相对应的深度图和分割图。在逐block的训练模式中训练block n时具体为:
步骤B1,固定TargetNet中block 1到n-1的参数,同时向教师网络TeacherNet和学徒网络TargetNet输入无标注的场景图像,分别获取TeacherNet在block n中有关深度的特征和有关分割的特征Fs n作为知识进行学徒网络的监督,和初始化的TargetNet在第n个block的待学习的特征
步骤B2,对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channel coding模块,从而对特征进行转换。经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为如图1所示。
步骤B3,计算转换后的特征与教师网络中相应的Fs n计算相似性,最小化两者之间的差异,以此作为损失函数,更新TargetNet block n和相连的两个channelcoding的参数。
步骤C,选择场景分割和深度估计分流点block,分别标定为pseg和pdepth,从分流点处用该block对应该任务的channel coding模块连接上TargetNet和teacher。例如针对分割任务,选择TargetNet中编号为1到pseg的block,连接上SegNet中编号从pseg+1到N的block。
步骤D,移除TargetNet中不需要的block,对最后得到的多分枝的TargetNet进行fine-tune,所需的最终的分割图和深度图分别从TargetNet的不同分支获得。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.基于知识重组的室内图像场景解析方法,采用多教师单学徒的训练模式,训练出目标网络能同时应对室内场景分割,室内场景深度估计和法向量估计等多项任务,具体包含以下步骤:
步骤A,预训练教师网络,用对应的场景分割数据集和深度估计数据集训练对应的教师网络,首先预训练所需的教师网络,SegNet和DepthNet两个教师网络分别进行场景图像分割,深度估计的任务;
其中利用了交叉熵来计算SegNet中的损失:
DepthNet中的损失函数定义如下:
TeacherNet的预测的分割图S和深度图D在这里作为groundtruth对学徒网络的分割和深度估计任务进行监督;
步骤B,利用无标注的场景图像来训练学徒网络TargetNet,使得TargetNet可以同时进行室内场景图象分割和深度估计的任务;TargetNet的初始化结构和教师网络的结构相同,使用知识驱动的逐模块训练模式来训练Target Net,令场景解析中的各项任务互补互助;首先将Target Net划分为N个模块,将TargetNet的每个block从1到N进行编号;训练TargetNet时从第一个block开始,一直训练到第N个block,直到第N个block可以输出与输入图像相对应的深度图和分割图;在逐block的训练模式中训练block n时具体为:
步骤B1,固定TargetNet中block1到n-1的参数,同时向教师网络TeacherNet和学徒网络TargetNet输入无标注的场景图像,分别获取TeacherNet在block n中有关深度的特征和有关分割的特征Fs n作为知识进行学徒网络的监督,和初始化的TargetNet在第n个block的待学习的特征
步骤B2,对TargetNet中的每个block分别对应场景分割和场景深度估计任务搭建两个channelcoding模块,从而对特征进行转换;经过SegNet关联的channel coding模块提取出有关分割的特征为经过DepthNet关联的channel coding模块提取有关深度的特征为Channel coding由一个最大池化层,和两个全连接层组成;
步骤B3,计算转换后的特征与教师网络中相应的Fs n计算相似性;
计算相似性时,替换教师网络中第n个block的特征为响应block的学徒网络的对应的特征;也就是用场景分割转换模块获得的特征替换SegNet中的Fs n,则在SegNet的最后一层获得新的场景图像分割预测图用转换后的特征替换DepthNet中的则获得新的场景深度图则可计算损失函数为:
其中参数λ1和λ2为人为设定,但是在每一个block的训练时都是固定的;最小化这个损失函数,更新TargetNet block n和相连的两个channel coding的参数;
步骤C,利用在步骤B3得到的一系列loss值选择场景分割和场景深度估计的最佳分流点的block;具体操作为记录下TargetNet逐block训练时每个子任务的收敛loss值,分别为针对图像分割任务的loss和针对图像深度估计的则用其分别计算分割任务的分流点pseg和深度估计分流点pdepth:
分别标定为pseg和pdepth,从分流点处用该block对应改场景解析子任务的channelcoding模块连接上TargetNet和teacher网络;针对场景分割任务,选择TargetNet中编号为1到pseg的block,连接上SegNet中编号从pseg+1到N的block;针对场景深度估计任务,选择TargetNet中编号为1到pdepth的block,连接上DepthNet中编号从pdepth+1到N的block;
步骤D,移除TargetNet中不需要的block,也就是移除block编号从max(pdepth,pseg)+1到N的部分;对最后得到的多分枝的TargetNet进行fine-tune,所需的最终的分割图和深度图分别从TargetNet的不同分支获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910638381.9A CN110569709A (zh) | 2019-07-16 | 2019-07-16 | 一种基于知识重组的场景解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910638381.9A CN110569709A (zh) | 2019-07-16 | 2019-07-16 | 一种基于知识重组的场景解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110569709A true CN110569709A (zh) | 2019-12-13 |
Family
ID=68773031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910638381.9A Withdrawn CN110569709A (zh) | 2019-07-16 | 2019-07-16 | 一种基于知识重组的场景解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569709A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401406A (zh) * | 2020-02-21 | 2020-07-10 | 华为技术有限公司 | 一种神经网络训练方法、视频帧处理方法以及相关设备 |
CN113239958A (zh) * | 2021-04-09 | 2021-08-10 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及存储介质 |
CN113470099A (zh) * | 2021-07-09 | 2021-10-01 | 北京的卢深视科技有限公司 | 深度成像的方法、电子设备及存储介质 |
CN114581946A (zh) * | 2022-02-25 | 2022-06-03 | 江西师范大学 | 人群计数方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN109614968A (zh) * | 2018-10-10 | 2019-04-12 | 浙江大学 | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 |
CN109919300A (zh) * | 2019-02-25 | 2019-06-21 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
-
2019
- 2019-07-16 CN CN201910638381.9A patent/CN110569709A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
CN107622244A (zh) * | 2017-09-25 | 2018-01-23 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN109614968A (zh) * | 2018-10-10 | 2019-04-12 | 浙江大学 | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 |
CN109919300A (zh) * | 2019-02-25 | 2019-06-21 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
JINGWEN YE等: ""Student Becoming the Master: Knowledge Amalgamation for Joint Scene Parsing, Depth Estimation, and More"", 《ARXIV:1904.10167V1 [CS.CV] 23 APR 2019》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401406A (zh) * | 2020-02-21 | 2020-07-10 | 华为技术有限公司 | 一种神经网络训练方法、视频帧处理方法以及相关设备 |
CN111401406B (zh) * | 2020-02-21 | 2023-07-18 | 华为技术有限公司 | 一种神经网络训练方法、视频帧处理方法以及相关设备 |
CN113239958A (zh) * | 2021-04-09 | 2021-08-10 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及存储介质 |
CN113470099A (zh) * | 2021-07-09 | 2021-10-01 | 北京的卢深视科技有限公司 | 深度成像的方法、电子设备及存储介质 |
CN113470099B (zh) * | 2021-07-09 | 2022-03-25 | 北京的卢深视科技有限公司 | 深度成像的方法、电子设备及存储介质 |
CN114581946A (zh) * | 2022-02-25 | 2022-06-03 | 江西师范大学 | 人群计数方法、装置、存储介质及电子设备 |
CN114581946B (zh) * | 2022-02-25 | 2023-06-13 | 江西师范大学 | 人群计数方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569709A (zh) | 一种基于知识重组的场景解析方法 | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109598184B (zh) | 一种多分割任务的处理方法和装置 | |
CN110364049B (zh) | 一种具有偏离度自动反馈数据闭环纠偏控制的专业技能实训辅助教学系统及辅助教学方法 | |
CN110766038B (zh) | 无监督式的地貌分类模型训练和地貌图构建方法 | |
CN110135562B (zh) | 基于特征空间变化的蒸馏学习方法、系统、装置 | |
CN111476835B (zh) | 多视角图像一致性的无监督深度预测方法、系统、装置 | |
CN109885671A (zh) | 基于多任务学习的问答方法 | |
CN110097084A (zh) | 通过投射特征训练多任务学生网络的知识融合方法 | |
CN117056452B (zh) | 知识点学习路径构建方法、装置、设备以及存储介质 | |
CN108877355A (zh) | 一种数学建模教学系统 | |
CN110210035A (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN111582101B (zh) | 一种基于轻量化蒸馏网络的遥感图像目标检测方法及系统 | |
CN113569852A (zh) | 语义分割模型的训练方法、装置、电子设备及存储介质 | |
CN115830165A (zh) | 基于对抗生成网络的国画绘制过程生成方法、装置和设备 | |
CN113554355B (zh) | 基于人工智能的道路工程施工管理方法与系统 | |
CN118194966A (zh) | 具身智能体训练系统及方法 | |
CN104205807A (zh) | 图像处理设备、方法以及程序 | |
CN113792626A (zh) | 一种基于教师非言语行为的教学过程评价方法 | |
CN117455011A (zh) | 一种多模态交通大模型设计方法及多模态交通大模型 | |
CN117611938A (zh) | 多模态模型训练方法、装置、设备及存储介质 | |
CN103544500B (zh) | 多用户自然场景标记排序方法 | |
CN116227582A (zh) | 掩码自编码器的知识蒸馏方法、装置、设备及存储介质 | |
CN112906293B (zh) | 一种基于复习机制的机器教学方法及系统 | |
CN110580830A (zh) | 以数字可视化虚拟现实技术应用于跨学科学习的教学系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191213 |
|
WW01 | Invention patent application withdrawn after publication |