CN115222953A - 一种基于多任务学习的弱监督图像语义理解方法 - Google Patents

一种基于多任务学习的弱监督图像语义理解方法 Download PDF

Info

Publication number
CN115222953A
CN115222953A CN202210626443.6A CN202210626443A CN115222953A CN 115222953 A CN115222953 A CN 115222953A CN 202210626443 A CN202210626443 A CN 202210626443A CN 115222953 A CN115222953 A CN 115222953A
Authority
CN
China
Prior art keywords
task
feature
mapping
function
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210626443.6A
Other languages
English (en)
Inventor
许春燕
张书敏
崔振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210626443.6A priority Critical patent/CN115222953A/zh
Publication of CN115222953A publication Critical patent/CN115222953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务学习的弱监督图像语义理解方法,包括以下步骤:获取任务缺失图像,构建多层级任务共享编码器,逐层提取高级语义信息,输入相应的解码器分支;构建公共空间‑任务空间特征映射模块,通过不对齐任务融合模块与任务交互映射模块,映射更新各子任务特征;构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征;构建任务自适应的弱监督图像语义理解框架,建立模型损失函数,将任务缺失的图像数据输入模型,获得语义分割、深度估计、表面法线估计等多任务预测结果。本发明根据任务标签不对齐的数据信息,通过公共空间与任务空间的映射交互,充分融合了不对齐任务特征,迭代生成高质量的多任务预测结果,能够有效处理任务缺失的弱监督问题,同时提高了各任务预测准确率。

Description

一种基于多任务学习的弱监督图像语义理解方法
技术领域
本发明属于像素级图像语义理解领域,更具体地,涉及一种基于多任务学习的弱监督图像语义理解方法。
背景技术
真实场景中的复杂图像像素级可视化分析任务,通常能够分解为一组相关的任务,如语义分割、深度估计、表面法线估计等。传统方法通常对每个任务单独建立模型,然后将多个模型结果合成为最终结果。在深度学习的迅猛发展下,像素级图像理解领域在效率和准确率上大幅提高。由于多任务的像素级图像信息在边缘、纹理、深度等特征上是互补的,因此部分工作通过建立统一的多任务学习框架,挖掘任务间的关联性与互补性,同时完成多项任务诉求,提高图像语义理解的精度与效率。
然而,这些方法很大程度上依赖于带有精确标注的大规模训练,当面临子任务繁多的复杂情况,每张图片任务标签繁多,大幅提高了标注成本并降低模型效率。针对弱监督图像语义理解问题,在单任务上已经出现了较多方法,如基于图片级标记的分类模型与分割模型、生成对抗模型等。但是多任务学习中子任务种类繁多,不同数据的子任务缺失情况也不尽相同,如何恰当地设计多任务学习模型以对应任务不对齐的弱监督问题,是像素级图像多任务学习的一个难点。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于多任务学习的弱监督图像语义理解方法,其基于公共空间与任务空间的特征映射交互,对多任务特征迭代更新,通过任务自适应学习解决了弱监督像素级语义理解中多任务不对齐的问题。
为实现上述目的,本发明提供了一种基于多任务学习的像素级图像语义理解方法,包括以下步骤:
步骤一,获取源图像与任务缺失标签,构建多层级的任务共享编码器,提取高级语义信息并输入相应解码器分支,包括下述子步骤:
(1.1)将彩色图像输入共享的多任务特征编码器,该多任务特征编码器包含多层级的特征提取与池化操作;
(1.2)编码器的I个层级分别生成不同尺度的编码器特征
Figure BDA0003677812430000011
Figure BDA0003677812430000021
该特征不特定于任务,仅与原图像相关,是原图像不同尺度的特征抽象表示;
(1.3)基于步骤(1.1)和(1.2)的结果,将各层级特征通过直接连接与跨层连接相结合,输入到各解码器分支中,解码器的每个分支对应一个不对齐子任务。子任务分支从共享编码器得到的特征表示为
Figure BDA0003677812430000022
Figure BDA0003677812430000023
其中,i表示该任务分支中的层级数,M是该数据集所有图像包含的子任务总数,任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。
步骤二,构建公共空间-任务空间特征映射模块,通过融合映射公共空间更新各子任务特征,包括下述子步骤:
(2.1)根据步骤一生成的子任务分支,构建不对齐任务融合模块,将多个子任务特征空间进行融合。定义子任务空间到公共空间的映射函数为
Figure BDA0003677812430000029
两特征交互函数为f,不对齐任务特征依次应用f函数,得到总体融合函数σ,可以写作:
Figure BDA0003677812430000024
其中,当m为2时,σ仅需两任务交互;当m为1时,σ直接取
Figure BDA0003677812430000025
的值即可。
(2.2)根据(2.1)提取的融合特征,映射至多任务共享的公共空间,形成公共特征融合空间O(i),表示为:
Figure BDA0003677812430000026
其中,
Figure BDA0003677812430000027
函数通过不对齐任务融合与空间映射得到,表示为:
Figure BDA0003677812430000028
其中,g是包含一般的激活函数的非线性映射函数。公共空间O(i)将任务融合的互补特征应用于每个子任务的模式加强,实现任务间的模式传播。
(2.3)构建任务交互映射模块,将公共空间O(i)重新映射到各子任务空间中。O(i)包含该图像所有任务的特征融合信息,对m个不对齐任务分支,将O(i)按一定规则映射回原任务空间。具体地,使用网络模型学习的策略,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征表示为:
Figure BDA0003677812430000031
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,表示任务t的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,包括下述子步骤:
(3.1)将公共空间O(i)映射到子任务空间的特征
Figure BDA0003677812430000032
并在每一层级与任务内特征
Figure BDA0003677812430000033
进一步合并,经过卷积变换后,更新子任务特征为
Figure BDA0003677812430000034
过程写作:
Figure BDA0003677812430000035
其中,δ为网络模型训练的卷积函数,
Figure BDA0003677812430000036
表示求和方式融合,结果生成第i层级解码器的特征输出;
(3.2)将m个解码器分支第i层的输出特征
Figure BDA0003677812430000037
再继续输入解码器第i+1层,从而建立任务自适应特征更新模块。迭代过程表示为:
Figure BDA0003677812430000038
Figure BDA0003677812430000039
步骤四,构建任务自适应的图像语义理解框架,建立特定于任务的模型损失函数,模型经过训练获得语义分割、深度估计、表面法线估计等多类像素级图像语义预测结果。包括以下子步骤:
(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块,构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部分,特征映射模块与特征更新模块作为框架的中间解码器部分,最后送入多任务独立的预测分类器,生成最终预测结果:
Figure BDA00036778124300000310
其中,γt表示解码器第t个任务分支最后一层的预测函数,实施中采用卷积函数的形式。
(4.2)根据任务自适应的图像语义理解框架,为实际训练的每个子任务设计特定任务的损失函数,建立框架的总体损失函数。
设子任务M为深度估计、语义分割、表面法线估计三类,即m=1,2,3时,对三种子任务Tseg,Tdep,Tnor分别指定损失函数。设训练数据包含X张任务不对齐的彩色图像,对其中第x张图片,若其拥有语义分割任务标签Yseg,则形成语义分割任务分支,生成预测结果
Figure BDA0003677812430000041
此时采用交叉熵损失Ls,ζs为交叉熵损失函数:
Figure BDA0003677812430000042
若其有深度估计任务标签Ydep,则形成深度估计任务分支,生成预测结果
Figure BDA0003677812430000043
此时计算损失Ld,ζd为berHu损失函数:
Figure BDA0003677812430000044
若其有表面法线估计任务标签Ynor,则形成表面法线估计任务分支,生成预测结果
Figure BDA0003677812430000045
此时计算损失Ln,ζn为L1损失函数:
Figure BDA0003677812430000046
由此,对训练数据中的第x张图像输入,总损失函数ζ(x)表示为:
Figure BDA0003677812430000047
其中,μx为1×3的不对齐任务权值矩阵,该二值矩阵当任务缺失,该列数值为0,否则为1。当不对齐任务数为m时,μx权值矩阵将扩展到1×m大小。对训练数据的X张图像输入,总体训练损失函数ζ为:
Figure BDA0003677812430000048
(4.3)将任务缺失的图像数据输入模型框架进行训练,训练分为初始和微调两个阶段,网络模型采用SGD优化器进行梯度优化。为了增加训练数据的多样性,还采用了缩放、翻转、裁剪和旋转四种数据增强方法。训练至模型收敛后,在测试阶段,将彩色图像输入训练好的弱监督多任务学习模型,获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。
步骤(1.3)具体为,对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)将作为最一般的特征表示直接连接到其后的各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,从而弥补图像在编码器池化过程中的细节损失。
步骤(2.1)具体为,将不对齐任务特征
Figure BDA0003677812430000051
通过映射变换到相同的空间表示。
Figure BDA0003677812430000052
的函数形式需对任意m成立,因此采用特征依次交互的方式融合公共特征。
特征交互函数f为包含非线性映射函数的融合卷积网络,先从不对齐任务中选取两任务交互,生成初步交互特征后,再将其余不对齐任务特征依次与交互特征应用f函数,得到融合后特征
Figure BDA0003677812430000053
σ是交互函数f的迭代,并继承原特征尺度大小。当M取任意值时,都能以该方式融合不对齐任务特征。
步骤(3.2)具体为,在解码器层级i=1,2,...I中,任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射,生成公共特征融合空间O(i)并映射至原任务空间,融合生成新任务特征
Figure BDA0003677812430000054
迭代更新下一层级。
该模块对任意值不对齐任务m成立,对每张图片的随机丢失的多任务标签有自适应性,从而形成任务自适应的特征迭代更新。伴随着特征尺度逐级恢复,公共空间与不对齐任务的交互在多个尺度逐级进行。
步骤(4.1)具体为,底层特征共享编码器逐层提取图像的高级语义信息,输入相应的解码器分支;所述特征映射与特征更新的解码器部分,自适应地将不对齐的任务特征
Figure BDA0003677812430000055
映射到公共特征融合空间O(i)中,并映射回原任务空间更新生成
Figure BDA0003677812430000056
并使用跨层连接在从粗到细地挖掘各任务的潜在特征,形成多层级的迭代更新;所述顶层独立预测分类器,通过解码器顶层中各任务预测函数卷积层,在多个任务分支中独立生成最终预测结果。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
1)本发明模型不受任务缺失约束,能够处理任务不对齐的弱监督数据,挖掘各类任务训练样本包含的监督信息,从而降低对多任务标注数据数量和质量的要求;
2)本发明通过多个任务空间的映射,汲取其他任务信息以促进目标任务的学习,模型拟合受不同任务的约束,能够减少过拟合,避免陷入局部最优;
3)本发明建立基于公共空间-任务空间映射机制的任务自适应迭代模型,通过公共空间融合不对齐任务特征并映射更新,在多种任务上都能取得较优性能,同时降低模型复杂度,避免重复训练和预测,在实时预测上优势明显。
附图说明
图1为本发明中基于多任务学习的弱监督图像语义理解框架的示意图。
图2为本发明中步骤二的细化流程图。
图3为本发明中步骤四的效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明以若干公开的多任务数据集为素材,运行环境是Cuda10-Python3。
如图1所示,本发明基于多任务学习的弱监督图像语义理解方法包括以下步骤:
步骤一,获取源图像与不对齐的多任务标签,构建多层级的任务共享编码器,逐层提取图像的高级语义信息,输入相应的解码器分支,包括下述子步骤:
(1.1)对于输入模型的图片和不对齐的任务标签,首先将彩色图像输入一个共享的多任务特征编码器。该多任务特征编码器包含多层级的特征提取与池化操作,I表示该编码器的总层级数,则每层级特征表示的尺度不断缩减;
(1.2)编码器的I个层级分别生成不同尺度的编码器特征
Figure BDA0003677812430000061
Figure BDA0003677812430000062
该编码器特征不特定于任务,仅与原图像相关,是原图像不同尺度的特征抽象表示;
(1.3)基于步骤(1.1)和(1.2)的结果,将编码器生成各层级特征通过直接连接与跨层连接相结合,输入到其后的各个解码器分支中,解码器的每个分支对应一个子任务。
具体而言,多任务共享编码器随层级的加深而输出尺度缩减的特征表示,即Hi<Hi-1,Wi<Wi-1。对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)将作为最一般的特征表示直接连接到其后的各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,从而弥补图像在编码器池化过程中的细节损失。
当图像共有m个子任务标签,子任务分支从共享编码器得到的特征表示为
Figure BDA0003677812430000071
其中,M是该数据集所有图像包含的子任务总数,任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。在像素级图像语义理解实际应用中,解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等,m个子任务之间差别较大,由此需对输入图像随机的m个不同的子任务构建自适应的解码器模型。
步骤二,构建公共空间-任务空间特征映射模块,通过不对齐任务融合模块与任务交互映射模块,使公共空间映射更新各子任务特征;
如图2所示,各解码器分支共同构建单层级公共空间-任务空间特征映射模块,具体包括如下子步骤:
(2.1)针对步骤一生成的m个子任务分支,构建不对齐任务融合模块,将多个子任务分支的特征表示空间进行融合;
此时,m个子任务分支的特征为
Figure BDA0003677812430000072
其中i表示该任务分支中的层级数。不同子任务分支提取的特征图通常在不同的空间中,其数据分布具有差异性。为了融合不同子任务的特征信息,将特征
Figure BDA0003677812430000073
通过映射变换到相同的空间表示。定义映射函数为
Figure BDA0003677812430000074
其输入是特定于单张图片单层级的m个任务特征。由于在不对齐的任务融合中,m的值不固定,因此
Figure BDA0003677812430000075
的函数形式需对任意m成立,以有效完成任意个多任务特征融合。具体来说,将采用特征依次交互的方式融合公共特征。
在第i层解码器分支,不对齐任务特征分别为
Figure BDA0003677812430000076
首先定义特征交互函数f为包含非线性映射函数的融合卷积网络,从不对齐任务中选取两任务交互,生成初步交互特征,挖掘两两任务间的互补性,并继承原特征尺度大小。随后,将其余不对齐任务特征依次与交互特征应用f函数,得到融合后特征
Figure BDA0003677812430000077
σ是交互函数f的迭代,可以写作:
Figure BDA0003677812430000078
其中,当m为2时,σ仅需两任务交互;当m为1时,σ直接取
Figure BDA0003677812430000079
的值即可。由此,当M取任意值时,都能使用该方式融合不对齐任务特征。
(2.2)使用不对齐任务融合模块提取的融合特征,映射到多任务共享的公共特征空间,形成公共特征融合空间O(i),表示为:
Figure BDA0003677812430000081
其中,
Figure BDA0003677812430000082
函数通过不对齐任务融合与空间映射得到,表示为:
Figure BDA0003677812430000083
其中,g是包含一般的激活函数的非线性映射函数。
Figure BDA0003677812430000084
函数通过迭代融合与空间映射的方式,将不同子任务空间投射到共享的公共空间中,从而使公共空间的抓取到图像的多角度深层次特征与高级语义表示。公共空间O(i)之后将与每个子任务特征交互映射,从而将任务融合的互补特征应用于每个子任务的模式加强,实现任务间的模式传播。
(2.3)基于(2.2)生成的公共特征融合空间O(i),构建任务交互映射模块,将公共空间的融合特征重新映射到各子任务空间中;
不对齐任务融合特征在隐式公共空间中映射为O(i),即其包含了该图像所有目标任务的特征融合信息。为挖掘特征互补性,相互促进特征学习,对于m个不对齐任务分支,将公共空间O(i)按一定规则映射回原任务空间,由于公共空间特征已经融合了其他任务的互补性特征,从而能够更新加强该任务空间的特征表示。具体地,使用网络模型学习的策略,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征表示为:
Figure BDA0003677812430000085
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,表示t任务的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,具体包括以下子步骤:
(3.1)基于公共空间-任务空间特征映射模块,将公共空间的映射特征与任务空间特征进一步合并,经过卷积变换后,生成第i层级解码器的特征输出;
使用公共空间O(i)映射到子任务空间的特征
Figure BDA0003677812430000086
在每一层级与任务内特征
Figure BDA0003677812430000087
进一步合并,经过卷积变换后,更新子任务特征为
Figure BDA0003677812430000088
写作:
Figure BDA0003677812430000091
其中,δ为网络模型训练的卷积函数,
Figure BDA0003677812430000092
表示求和方式融合。
(3.2)将m个解码器分支第i层的输出特征
Figure BDA0003677812430000093
再继续输入解码器第i+1层,从而建立任务自适应特征更新模块。迭代过程表示为:
Figure BDA0003677812430000094
Figure BDA0003677812430000095
在解码器层级i=1,2,...I中,任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射,生成公共特征融合空间O(i)并映射至原任务空间,融合生成新任务特征
Figure BDA0003677812430000096
迭代更新下一层级。该模块对任意不对齐任务m成立,对每张图片的随机丢失的多任务标签有自适应性,从而形成任务自适应的特征迭代更新。
具体而言,公共空间由任意个不对齐子任务映射产生,随后为每个不对齐的子任务提供共享的特征表示以及对应权值。伴随着特征尺度逐级恢复,公共空间与不对齐任务的交互在多个尺度逐级进行。空间的映射减少了多个特征两两交互的复杂性,直观简便地将融合特征投射到各子任务空间中,从而减少了任务之间的交互时间,简化了共享模型结构。
步骤四,构建任务自适应的图像语义理解框架,建立模型损失函数,将任务缺失的图像数据输入模型,获得语义分割、深度估计、表面法线估计等多类像素级预测结果。包括以下子步骤:
(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块,构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部分,特征映射模块与特征更新模块作为框架的中间解码器部分,最后送入多任务独立的预测分类器。
其中,底层特征共享编码器逐层提取图像的高级语义信息,输入相应的解码器分支;所述特征映射与特征更新的解码器部分,自适应地将不对齐的任务特征
Figure BDA0003677812430000097
映射到公共特征融合空间O(i)中,并映射回原任务空间更新生成
Figure BDA0003677812430000098
并使用跨层连接在从粗到细地挖掘各任务的潜在特征,形成多层级的迭代更新;所述顶层独立预测分类器,通过解码器顶层中各任务预测函数卷积层,在多个任务分支中独立生成最终预测结果:
Figure BDA0003677812430000101
其中,γt表示解码器第t个任务分支最后一层的预测函数,实施中采用卷积函数的形式。
(4.2)根据任务自适应的图像语义理解框架,为实际训练的每个子任务设计特定任务的损失函数,建立框架的总体损失函数。
所述总体损失函数由特定于任务T1,T2,...Tm的损失函数组成。在像素级图像语义理解实际应用中,解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等,子任务之间差别较大,因此为不同的语义分割任务设置特定于任务的损失函数。本步骤将针对最为广泛的应用情况,子任务M具体为深度估计、语义分割、表面法线估计三类,即m=1,2,3时,对三种子任务Tseg,Tdep,Tnor分别指定损失函数。
设训练数据包含X张任务不对齐的彩色图像,对其中第x张图片,依次计算其不对齐子任务的损失并合成总损失。若第x张图片拥有语义分割任务标签Yseg,则形成语义分割任务分支,通过分类器生成预测结果为
Figure BDA0003677812430000102
此时采用交叉熵损失Ls。其中,ζs为交叉熵损失函数:
Figure BDA0003677812430000103
若该训练图像有深度估计任务标签Ydep,则形成深度估计任务分支,通过分类器生成预测结果为
Figure BDA0003677812430000104
此时计算损失Ld。其中,ζd为berHu损失函数:
Figure BDA0003677812430000105
若该训练图像有表面法线估计任务标签Ynor,则形成表面法线估计任务分支,通过分类器生成预测结果为
Figure BDA0003677812430000106
此时计算损失Ln。其中,ζn为L1损失函数:
Figure BDA0003677812430000107
由此,对训练数据中的第x张图像输入,总损失函数ζ(x)可以表示为:
Figure BDA0003677812430000108
其中,μx为1×3的不对齐任务权值矩阵,以任务编号为列编号,当任务不缺失,该列数值为1,当任务缺失,该列数值为0。该矩阵在图像输入时自适应生成,当不对齐任务数为m时,μx权值矩阵将扩展到1×m大小。由此,训练数据中共X张图像输入,总体训练损失函数ζ可以表示为:
Figure BDA0003677812430000111
(4.3)将任务缺失的图像数据输入模型框架进行训练,训练分为初始和微调两个阶段,网络模型采用SGD优化器进行梯度优化。
以下训练方法与参数设置仅针对实施例含三种不对齐子任务深度估计、语义分割、表面法线估计的情况,当子任务数量与性质发生改变,其训练参数设置需对应调整:初始阶段的学习率针对预训练网络和其他网络层分别设置为1e-4与0.01,并在微调阶段衰减到1e-5与0.01。动量参数和权值衰减参数分别设置为0.9和1e-4。此外,为了增加训练数据的多样性,还采用了缩放、翻转、裁剪和旋转四种数据增强方法。
训练至模型收敛后,在测试阶段,将彩色图像输入训练好的弱监督多任务学习模型,获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。
本发明利用公共空间-任务空间的映射交互使不对齐的任务在同一模型框架中迭代学习,完成了弱监督像素级多任务学习任务,并提高了各任务的性能。不对齐的多任务数据往往导致模型无法适配,而任务缺失的输入图像体量大、标注成本小。本发明利用任务缺失数据建立弱监督学习框架,挖掘任务间的潜在共性和互补性,以公共空间映射机制辅助单任务的学习,框架采用底层共享编码器、中间层特征映射解码器、顶层预测分类器的结构,以ResNet等卷积神经网络为骨干,构建任务自适应的弱监督多任务学习框架来进行语义分割、深度估计和表面法线估计等不对齐任务的联合学习。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多任务学习的弱监督图像语义理解方法,其特征在于,包括以下步骤:
步骤一,获取任务缺失图像,构建多层级任务共享编码器,特征输入相应解码器分支,包括下述子步骤:
(1.1)将彩色图像输入共享的多任务特征编码器,包含多层级的特征提取与池化操作;
(1.2)编码器的I个层级分别生成不同尺度的编码器特征
Figure FDA0003677812420000011
Figure FDA0003677812420000012
(1.3)将各层级特征直接连接与跨层连接相结合,输入到各不对齐子任务的解码器分支中,各分支特征表示为
Figure FDA0003677812420000013
其中,i表示该任务分支中的层级数,M是该数据集所有图像包含的子任务总数,任意一张图像包含其中随机m个。
步骤二,构建公共空间-任务空间特征映射模块,映射更新各子任务特征,包括下述子步骤:
(2.1)构建不对齐任务融合模块,融合多个子任务特征空间。子任务空间到公共空间的映射函数为
Figure FDA0003677812420000014
两特征交互函数为f,多任务特征依次应用f函数,则总体融合函数σ为:
Figure FDA0003677812420000015
其中,当m为2时,σ仅需两任务交互;当m为1时,σ直接取
Figure FDA0003677812420000016
值。
(2.2)将融合特征映射至共享公共空间,形成公共特征融合空间O(i),表示为:
Figure FDA0003677812420000017
其中,
Figure FDA0003677812420000018
函数通过不对齐任务融合与空间映射得到,表示为:
Figure FDA0003677812420000019
其中,g是包含一般的激活函数的非线性映射函数。
(2.3)构建任务交互映射模块,将公共空间O(i)映射到各子任务空间。使用网络模型学习的策略,对m个不对齐任务分支,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征为:
Figure FDA0003677812420000021
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,是特定任务t的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,包括下述子步骤:
(3.1)将公共空间映射到子任务空间特征
Figure FDA0003677812420000022
在每一层级与任务内特征进一步合并,经卷积变换后,更新子任务特征为
Figure FDA0003677812420000023
表示为:
Figure FDA0003677812420000024
其中,δ为网络模型训练的卷积函数,
Figure FDA0003677812420000025
为求和方式融合,生成第i层级解码器的特征输出。
(3.2)将m个解码器分支第i层的输出特征继续输入解码器第i+1层,建立任务自适应特征更新模块。迭代过程表示为:
Figure FDA0003677812420000026
Figure FDA0003677812420000027
步骤四,构建任务自适应的图像语义理解框架,建立模型损失函数,训练后获得语义分割、深度估计、表面法线估计等多任务预测结果,包括以下子步骤:
(4.1)构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部,特征映射模块与特征更新模块作为中间解码器部分,最后送入多任务独立的预测分类器,生成最终预测结果为:
Figure FDA0003677812420000028
其中,γt表示解码器第t个任务分支最后一层的预测函数,采用卷积函数的形式。
(4.2)根据总体框架为参与训练的每个子任务建立特定任务的损失函数,形成总体损失函数;
(4.3)将任务缺失的图像数据输入模型训练,训练分为初始和微调两个阶段,采用SGD优化器进行梯度优化。训练至模型收敛后,将彩色图像输入训练好的弱监督多任务学习模型,获得语义分割、深度估计、表面法线估计等多个任务的预测结果。
2.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(1.3)具体为,对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)作为一般特征表示,直接连接到其后各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,弥补图像在编码器池化过程中的细节损失。
3.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(2.1)具体为,不对齐任务特征
Figure FDA0003677812420000031
通过映射变换到相同的空间表示,
Figure FDA0003677812420000032
采用特征依次交互的方式融合公共特征,特征交互函数f为包含非线性映射函数的融合卷积网络。
先从不对齐任务中选取两任务交互,生成初步交互特征后,再将其余不对齐任务特征依次与交互特征应用f函数,得到融合后特征
Figure FDA0003677812420000033
其中,σ是交互函数f的迭代,并继承原特征尺度大小。
4.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(3.2)具体为,在解码器层级i=1,2,...I中,任务自适应特征更新模块在每一层级结合公共空间-任务空间特征映射,生成公共特征融合空间O(i)并映射至原任务空间,融合生成新任务特征
Figure FDA0003677812420000034
迭代更新下一层级。
该模块对任意值不对齐任务m成立,对每张图片的随机丢失的多任务标签有自适应性,从而形成任务自适应的特征迭代更新。伴随着特征尺度逐级恢复,公共空间与不对齐任务的交互在多个尺度逐级进行。
5.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(4.1)具体为,底层特征共享编码器逐层提取图像的高级语义信息,输入相应的解码器分支;所述特征映射与特征更新的解码器部分,自适应地将不对齐的任务特征
Figure FDA0003677812420000035
映射到公共特征融合空间O(i)中,并映射回原任务空间更新生成
Figure FDA0003677812420000036
并使用跨层连接在从粗到细地挖掘各任务的潜在特征,形成多层级的迭代更新;所述顶层独立预测分类器,通过解码器顶层中各任务预测函数卷积层,在多个任务分支中独立生成最终预测结果。
6.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(4.2)具体为,根据总体框架为参与训练的每个子任务建立特定任务的损失函数,合成总体损失函数。当子任务M为深度估计、语义分割、表面法线估计三类,即m=1,2,3时,对三种子任务Tseg,Tdep,Tnor分别指定损失函数Ls,Ld,Ln
训练数据包含X张任务不对齐的彩色图像,对其中第x张图片,总损失函数ζ(x)表示为:
Figure FDA0003677812420000041
其中,μx为1×3的不对齐任务权值矩阵,该二值矩阵当任务缺失,该列数值为0,否则为1。当不对齐任务数为m时,μx权值矩阵将扩展到1×m大小。对训练数据的X张图像输入,总体训练损失函数ζ为:
Figure FDA0003677812420000042
7.根据权利要求6所述的特定任务损失函数,其特征在于,对训练数据中第x张图片,若其拥有语义分割任务标签Yseg,则形成语义分割任务分支,生成预测结果
Figure FDA0003677812420000043
ζs为交叉熵损失函数,损失Ls为:
Figure FDA0003677812420000044
若其有深度估计任务标签Ydep,则形成深度估计任务分支,生成预测结果
Figure FDA0003677812420000045
ζd为berHu损失函数,损失Ld为:
Figure FDA0003677812420000046
若其有表面法线估计任务标签Ynor,则形成表面法线估计任务分支,生成预测结果
Figure FDA0003677812420000047
ζn为L1损失函数,损失Ln为:
Figure FDA0003677812420000048
CN202210626443.6A 2022-06-02 2022-06-02 一种基于多任务学习的弱监督图像语义理解方法 Pending CN115222953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210626443.6A CN115222953A (zh) 2022-06-02 2022-06-02 一种基于多任务学习的弱监督图像语义理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210626443.6A CN115222953A (zh) 2022-06-02 2022-06-02 一种基于多任务学习的弱监督图像语义理解方法

Publications (1)

Publication Number Publication Date
CN115222953A true CN115222953A (zh) 2022-10-21

Family

ID=83608078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210626443.6A Pending CN115222953A (zh) 2022-06-02 2022-06-02 一种基于多任务学习的弱监督图像语义理解方法

Country Status (1)

Country Link
CN (1) CN115222953A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912629A (zh) * 2023-09-04 2023-10-20 小舟科技有限公司 基于多任务学习的通用图像文字描述生成方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912629A (zh) * 2023-09-04 2023-10-20 小舟科技有限公司 基于多任务学习的通用图像文字描述生成方法及相关装置
CN116912629B (zh) * 2023-09-04 2023-12-29 小舟科技有限公司 基于多任务学习的通用图像文字描述生成方法及相关装置

Similar Documents

Publication Publication Date Title
CN107833183B (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
US9558268B2 (en) Method for semantically labeling an image of a scene using recursive context propagation
CN110097609B (zh) 一种基于样本域的精细化绣花纹理迁移方法
CN110033054B (zh) 基于协同笔画优化的个性化手写体迁移方法和系统
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN110070517B (zh) 基于退化成像机理和生成对抗机制的模糊图像合成方法
CN112529806A (zh) 基于生成对抗网络信息最大化的sar图像数据增强方法
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
US20240202878A1 (en) Image Transformation Using Interpretable Transformation Parameters
CN114581356B (zh) 基于风格迁移数据增广的图像增强模型泛化方法
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
Chang et al. L-CoDer: Language-based colorization with color-object decoupling transformer
US20240037822A1 (en) Prompt-to-prompt image editing with cross-attention control
CN115222953A (zh) 一种基于多任务学习的弱监督图像语义理解方法
CN114742014B (zh) 基于关联注意力的少样本文字风格迁移方法
Li et al. Line drawing guided progressive inpainting of mural damages
CN116580184A (zh) 一种基于YOLOv7的轻量化模型
Tavares et al. Classification of UML diagrams to support software engineering education
Jo et al. Generative artificial intelligence and building design: early photorealistic render visualization of façades using local identity-trained models
Guo Design and development of an intelligent rendering system for new year's paintings color based on b/s architecture
Coletti et al. Troubleshooting deep-learner training data problems using an evolutionary algorithm on Summit
CN114419195A (zh) 一种基于关系嵌入的图像合成的方法、装置及存储介质
SENEM et al. Using Deep Learning To Generate Front And Backyards In Landscape Architecture
Verma et al. Enhancing Image Translation with Conditional Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination