CN115222953A - 一种基于多任务学习的弱监督图像语义理解方法 - Google Patents
一种基于多任务学习的弱监督图像语义理解方法 Download PDFInfo
- Publication number
- CN115222953A CN115222953A CN202210626443.6A CN202210626443A CN115222953A CN 115222953 A CN115222953 A CN 115222953A CN 202210626443 A CN202210626443 A CN 202210626443A CN 115222953 A CN115222953 A CN 115222953A
- Authority
- CN
- China
- Prior art keywords
- task
- feature
- mapping
- function
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 84
- 238000013507 mapping Methods 0.000 claims abstract description 83
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 230000003993 interaction Effects 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 32
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000010521 absorption reaction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务学习的弱监督图像语义理解方法,包括以下步骤:获取任务缺失图像,构建多层级任务共享编码器,逐层提取高级语义信息,输入相应的解码器分支;构建公共空间‑任务空间特征映射模块,通过不对齐任务融合模块与任务交互映射模块,映射更新各子任务特征;构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征;构建任务自适应的弱监督图像语义理解框架,建立模型损失函数,将任务缺失的图像数据输入模型,获得语义分割、深度估计、表面法线估计等多任务预测结果。本发明根据任务标签不对齐的数据信息,通过公共空间与任务空间的映射交互,充分融合了不对齐任务特征,迭代生成高质量的多任务预测结果,能够有效处理任务缺失的弱监督问题,同时提高了各任务预测准确率。
Description
技术领域
本发明属于像素级图像语义理解领域,更具体地,涉及一种基于多任务学习的弱监督图像语义理解方法。
背景技术
真实场景中的复杂图像像素级可视化分析任务,通常能够分解为一组相关的任务,如语义分割、深度估计、表面法线估计等。传统方法通常对每个任务单独建立模型,然后将多个模型结果合成为最终结果。在深度学习的迅猛发展下,像素级图像理解领域在效率和准确率上大幅提高。由于多任务的像素级图像信息在边缘、纹理、深度等特征上是互补的,因此部分工作通过建立统一的多任务学习框架,挖掘任务间的关联性与互补性,同时完成多项任务诉求,提高图像语义理解的精度与效率。
然而,这些方法很大程度上依赖于带有精确标注的大规模训练,当面临子任务繁多的复杂情况,每张图片任务标签繁多,大幅提高了标注成本并降低模型效率。针对弱监督图像语义理解问题,在单任务上已经出现了较多方法,如基于图片级标记的分类模型与分割模型、生成对抗模型等。但是多任务学习中子任务种类繁多,不同数据的子任务缺失情况也不尽相同,如何恰当地设计多任务学习模型以对应任务不对齐的弱监督问题,是像素级图像多任务学习的一个难点。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于多任务学习的弱监督图像语义理解方法,其基于公共空间与任务空间的特征映射交互,对多任务特征迭代更新,通过任务自适应学习解决了弱监督像素级语义理解中多任务不对齐的问题。
为实现上述目的,本发明提供了一种基于多任务学习的像素级图像语义理解方法,包括以下步骤:
步骤一,获取源图像与任务缺失标签,构建多层级的任务共享编码器,提取高级语义信息并输入相应解码器分支,包括下述子步骤:
(1.1)将彩色图像输入共享的多任务特征编码器,该多任务特征编码器包含多层级的特征提取与池化操作;
(1.3)基于步骤(1.1)和(1.2)的结果,将各层级特征通过直接连接与跨层连接相结合,输入到各解码器分支中,解码器的每个分支对应一个不对齐子任务。子任务分支从共享编码器得到的特征表示为 其中,i表示该任务分支中的层级数,M是该数据集所有图像包含的子任务总数,任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。
步骤二,构建公共空间-任务空间特征映射模块,通过融合映射公共空间更新各子任务特征,包括下述子步骤:
(2.1)根据步骤一生成的子任务分支,构建不对齐任务融合模块,将多个子任务特征空间进行融合。定义子任务空间到公共空间的映射函数为两特征交互函数为f,不对齐任务特征依次应用f函数,得到总体融合函数σ,可以写作:
(2.2)根据(2.1)提取的融合特征,映射至多任务共享的公共空间,形成公共特征融合空间O(i),表示为:
其中,g是包含一般的激活函数的非线性映射函数。公共空间O(i)将任务融合的互补特征应用于每个子任务的模式加强,实现任务间的模式传播。
(2.3)构建任务交互映射模块,将公共空间O(i)重新映射到各子任务空间中。O(i)包含该图像所有任务的特征融合信息,对m个不对齐任务分支,将O(i)按一定规则映射回原任务空间。具体地,使用网络模型学习的策略,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征表示为:
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,表示任务t的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,包括下述子步骤:
步骤四,构建任务自适应的图像语义理解框架,建立特定于任务的模型损失函数,模型经过训练获得语义分割、深度估计、表面法线估计等多类像素级图像语义预测结果。包括以下子步骤:
(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块,构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部分,特征映射模块与特征更新模块作为框架的中间解码器部分,最后送入多任务独立的预测分类器,生成最终预测结果:
其中,γt表示解码器第t个任务分支最后一层的预测函数,实施中采用卷积函数的形式。
(4.2)根据任务自适应的图像语义理解框架,为实际训练的每个子任务设计特定任务的损失函数,建立框架的总体损失函数。
设子任务M为深度估计、语义分割、表面法线估计三类,即m=1,2,3时,对三种子任务Tseg,Tdep,Tnor分别指定损失函数。设训练数据包含X张任务不对齐的彩色图像,对其中第x张图片,若其拥有语义分割任务标签Yseg,则形成语义分割任务分支,生成预测结果此时采用交叉熵损失Ls,ζs为交叉熵损失函数:
由此,对训练数据中的第x张图像输入,总损失函数ζ(x)表示为:
其中,μx为1×3的不对齐任务权值矩阵,该二值矩阵当任务缺失,该列数值为0,否则为1。当不对齐任务数为m时,μx权值矩阵将扩展到1×m大小。对训练数据的X张图像输入,总体训练损失函数ζ为:
(4.3)将任务缺失的图像数据输入模型框架进行训练,训练分为初始和微调两个阶段,网络模型采用SGD优化器进行梯度优化。为了增加训练数据的多样性,还采用了缩放、翻转、裁剪和旋转四种数据增强方法。训练至模型收敛后,在测试阶段,将彩色图像输入训练好的弱监督多任务学习模型,获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。
步骤(1.3)具体为,对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)将作为最一般的特征表示直接连接到其后的各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,从而弥补图像在编码器池化过程中的细节损失。
特征交互函数f为包含非线性映射函数的融合卷积网络,先从不对齐任务中选取两任务交互,生成初步交互特征后,再将其余不对齐任务特征依次与交互特征应用f函数,得到融合后特征σ是交互函数f的迭代,并继承原特征尺度大小。当M取任意值时,都能以该方式融合不对齐任务特征。
步骤(3.2)具体为,在解码器层级i=1,2,...I中,任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射,生成公共特征融合空间O(i)并映射至原任务空间,融合生成新任务特征迭代更新下一层级。
该模块对任意值不对齐任务m成立,对每张图片的随机丢失的多任务标签有自适应性,从而形成任务自适应的特征迭代更新。伴随着特征尺度逐级恢复,公共空间与不对齐任务的交互在多个尺度逐级进行。
步骤(4.1)具体为,底层特征共享编码器逐层提取图像的高级语义信息,输入相应的解码器分支;所述特征映射与特征更新的解码器部分,自适应地将不对齐的任务特征映射到公共特征融合空间O(i)中,并映射回原任务空间更新生成并使用跨层连接在从粗到细地挖掘各任务的潜在特征,形成多层级的迭代更新;所述顶层独立预测分类器,通过解码器顶层中各任务预测函数卷积层,在多个任务分支中独立生成最终预测结果。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
1)本发明模型不受任务缺失约束,能够处理任务不对齐的弱监督数据,挖掘各类任务训练样本包含的监督信息,从而降低对多任务标注数据数量和质量的要求;
2)本发明通过多个任务空间的映射,汲取其他任务信息以促进目标任务的学习,模型拟合受不同任务的约束,能够减少过拟合,避免陷入局部最优;
3)本发明建立基于公共空间-任务空间映射机制的任务自适应迭代模型,通过公共空间融合不对齐任务特征并映射更新,在多种任务上都能取得较优性能,同时降低模型复杂度,避免重复训练和预测,在实时预测上优势明显。
附图说明
图1为本发明中基于多任务学习的弱监督图像语义理解框架的示意图。
图2为本发明中步骤二的细化流程图。
图3为本发明中步骤四的效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明以若干公开的多任务数据集为素材,运行环境是Cuda10-Python3。
如图1所示,本发明基于多任务学习的弱监督图像语义理解方法包括以下步骤:
步骤一,获取源图像与不对齐的多任务标签,构建多层级的任务共享编码器,逐层提取图像的高级语义信息,输入相应的解码器分支,包括下述子步骤:
(1.1)对于输入模型的图片和不对齐的任务标签,首先将彩色图像输入一个共享的多任务特征编码器。该多任务特征编码器包含多层级的特征提取与池化操作,I表示该编码器的总层级数,则每层级特征表示的尺度不断缩减;
(1.3)基于步骤(1.1)和(1.2)的结果,将编码器生成各层级特征通过直接连接与跨层连接相结合,输入到其后的各个解码器分支中,解码器的每个分支对应一个子任务。
具体而言,多任务共享编码器随层级的加深而输出尺度缩减的特征表示,即Hi<Hi-1,Wi<Wi-1。对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)将作为最一般的特征表示直接连接到其后的各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,从而弥补图像在编码器池化过程中的细节损失。
当图像共有m个子任务标签,子任务分支从共享编码器得到的特征表示为其中,M是该数据集所有图像包含的子任务总数,任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。在像素级图像语义理解实际应用中,解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等,m个子任务之间差别较大,由此需对输入图像随机的m个不同的子任务构建自适应的解码器模型。
步骤二,构建公共空间-任务空间特征映射模块,通过不对齐任务融合模块与任务交互映射模块,使公共空间映射更新各子任务特征;
如图2所示,各解码器分支共同构建单层级公共空间-任务空间特征映射模块,具体包括如下子步骤:
(2.1)针对步骤一生成的m个子任务分支,构建不对齐任务融合模块,将多个子任务分支的特征表示空间进行融合;
此时,m个子任务分支的特征为其中i表示该任务分支中的层级数。不同子任务分支提取的特征图通常在不同的空间中,其数据分布具有差异性。为了融合不同子任务的特征信息,将特征通过映射变换到相同的空间表示。定义映射函数为其输入是特定于单张图片单层级的m个任务特征。由于在不对齐的任务融合中,m的值不固定,因此的函数形式需对任意m成立,以有效完成任意个多任务特征融合。具体来说,将采用特征依次交互的方式融合公共特征。
在第i层解码器分支,不对齐任务特征分别为首先定义特征交互函数f为包含非线性映射函数的融合卷积网络,从不对齐任务中选取两任务交互,生成初步交互特征,挖掘两两任务间的互补性,并继承原特征尺度大小。随后,将其余不对齐任务特征依次与交互特征应用f函数,得到融合后特征σ是交互函数f的迭代,可以写作:
(2.2)使用不对齐任务融合模块提取的融合特征,映射到多任务共享的公共特征空间,形成公共特征融合空间O(i),表示为:
其中,g是包含一般的激活函数的非线性映射函数。函数通过迭代融合与空间映射的方式,将不同子任务空间投射到共享的公共空间中,从而使公共空间的抓取到图像的多角度深层次特征与高级语义表示。公共空间O(i)之后将与每个子任务特征交互映射,从而将任务融合的互补特征应用于每个子任务的模式加强,实现任务间的模式传播。
(2.3)基于(2.2)生成的公共特征融合空间O(i),构建任务交互映射模块,将公共空间的融合特征重新映射到各子任务空间中;
不对齐任务融合特征在隐式公共空间中映射为O(i),即其包含了该图像所有目标任务的特征融合信息。为挖掘特征互补性,相互促进特征学习,对于m个不对齐任务分支,将公共空间O(i)按一定规则映射回原任务空间,由于公共空间特征已经融合了其他任务的互补性特征,从而能够更新加强该任务空间的特征表示。具体地,使用网络模型学习的策略,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征表示为:
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,表示t任务的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,具体包括以下子步骤:
(3.1)基于公共空间-任务空间特征映射模块,将公共空间的映射特征与任务空间特征进一步合并,经过卷积变换后,生成第i层级解码器的特征输出;
在解码器层级i=1,2,...I中,任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射,生成公共特征融合空间O(i)并映射至原任务空间,融合生成新任务特征迭代更新下一层级。该模块对任意不对齐任务m成立,对每张图片的随机丢失的多任务标签有自适应性,从而形成任务自适应的特征迭代更新。
具体而言,公共空间由任意个不对齐子任务映射产生,随后为每个不对齐的子任务提供共享的特征表示以及对应权值。伴随着特征尺度逐级恢复,公共空间与不对齐任务的交互在多个尺度逐级进行。空间的映射减少了多个特征两两交互的复杂性,直观简便地将融合特征投射到各子任务空间中,从而减少了任务之间的交互时间,简化了共享模型结构。
步骤四,构建任务自适应的图像语义理解框架,建立模型损失函数,将任务缺失的图像数据输入模型,获得语义分割、深度估计、表面法线估计等多类像素级预测结果。包括以下子步骤:
(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块,构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部分,特征映射模块与特征更新模块作为框架的中间解码器部分,最后送入多任务独立的预测分类器。
其中,底层特征共享编码器逐层提取图像的高级语义信息,输入相应的解码器分支;所述特征映射与特征更新的解码器部分,自适应地将不对齐的任务特征映射到公共特征融合空间O(i)中,并映射回原任务空间更新生成并使用跨层连接在从粗到细地挖掘各任务的潜在特征,形成多层级的迭代更新;所述顶层独立预测分类器,通过解码器顶层中各任务预测函数卷积层,在多个任务分支中独立生成最终预测结果:
其中,γt表示解码器第t个任务分支最后一层的预测函数,实施中采用卷积函数的形式。
(4.2)根据任务自适应的图像语义理解框架,为实际训练的每个子任务设计特定任务的损失函数,建立框架的总体损失函数。
所述总体损失函数由特定于任务T1,T2,...Tm的损失函数组成。在像素级图像语义理解实际应用中,解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等,子任务之间差别较大,因此为不同的语义分割任务设置特定于任务的损失函数。本步骤将针对最为广泛的应用情况,子任务M具体为深度估计、语义分割、表面法线估计三类,即m=1,2,3时,对三种子任务Tseg,Tdep,Tnor分别指定损失函数。
设训练数据包含X张任务不对齐的彩色图像,对其中第x张图片,依次计算其不对齐子任务的损失并合成总损失。若第x张图片拥有语义分割任务标签Yseg,则形成语义分割任务分支,通过分类器生成预测结果为此时采用交叉熵损失Ls。其中,ζs为交叉熵损失函数:
由此,对训练数据中的第x张图像输入,总损失函数ζ(x)可以表示为:
其中,μx为1×3的不对齐任务权值矩阵,以任务编号为列编号,当任务不缺失,该列数值为1,当任务缺失,该列数值为0。该矩阵在图像输入时自适应生成,当不对齐任务数为m时,μx权值矩阵将扩展到1×m大小。由此,训练数据中共X张图像输入,总体训练损失函数ζ可以表示为:
(4.3)将任务缺失的图像数据输入模型框架进行训练,训练分为初始和微调两个阶段,网络模型采用SGD优化器进行梯度优化。
以下训练方法与参数设置仅针对实施例含三种不对齐子任务深度估计、语义分割、表面法线估计的情况,当子任务数量与性质发生改变,其训练参数设置需对应调整:初始阶段的学习率针对预训练网络和其他网络层分别设置为1e-4与0.01,并在微调阶段衰减到1e-5与0.01。动量参数和权值衰减参数分别设置为0.9和1e-4。此外,为了增加训练数据的多样性,还采用了缩放、翻转、裁剪和旋转四种数据增强方法。
训练至模型收敛后,在测试阶段,将彩色图像输入训练好的弱监督多任务学习模型,获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。
本发明利用公共空间-任务空间的映射交互使不对齐的任务在同一模型框架中迭代学习,完成了弱监督像素级多任务学习任务,并提高了各任务的性能。不对齐的多任务数据往往导致模型无法适配,而任务缺失的输入图像体量大、标注成本小。本发明利用任务缺失数据建立弱监督学习框架,挖掘任务间的潜在共性和互补性,以公共空间映射机制辅助单任务的学习,框架采用底层共享编码器、中间层特征映射解码器、顶层预测分类器的结构,以ResNet等卷积神经网络为骨干,构建任务自适应的弱监督多任务学习框架来进行语义分割、深度估计和表面法线估计等不对齐任务的联合学习。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多任务学习的弱监督图像语义理解方法,其特征在于,包括以下步骤:
步骤一,获取任务缺失图像,构建多层级任务共享编码器,特征输入相应解码器分支,包括下述子步骤:
(1.1)将彩色图像输入共享的多任务特征编码器,包含多层级的特征提取与池化操作;
(1.3)将各层级特征直接连接与跨层连接相结合,输入到各不对齐子任务的解码器分支中,各分支特征表示为其中,i表示该任务分支中的层级数,M是该数据集所有图像包含的子任务总数,任意一张图像包含其中随机m个。
步骤二,构建公共空间-任务空间特征映射模块,映射更新各子任务特征,包括下述子步骤:
(2.2)将融合特征映射至共享公共空间,形成公共特征融合空间O(i),表示为:
其中,g是包含一般的激活函数的非线性映射函数。
(2.3)构建任务交互映射模块,将公共空间O(i)映射到各子任务空间。使用网络模型学习的策略,对m个不对齐任务分支,定义公共空间到特定子任务空间的映射函数为θt,则映射后特征为:
其中,θt为网络模型学习的非线性映射函数,λt为网络超参数,是特定任务t的特征映射吸收系数。
步骤三,构建任务自适应特征更新模块,多层级迭代更新不对齐任务特征,包括下述子步骤:
(3.2)将m个解码器分支第i层的输出特征继续输入解码器第i+1层,建立任务自适应特征更新模块。迭代过程表示为:
步骤四,构建任务自适应的图像语义理解框架,建立模型损失函数,训练后获得语义分割、深度估计、表面法线估计等多任务预测结果,包括以下子步骤:
(4.1)构建任务自适应的图像语义理解框架,其中多层级的任务特征共享网络作为底层编码器部,特征映射模块与特征更新模块作为中间解码器部分,最后送入多任务独立的预测分类器,生成最终预测结果为:
其中,γt表示解码器第t个任务分支最后一层的预测函数,采用卷积函数的形式。
(4.2)根据总体框架为参与训练的每个子任务建立特定任务的损失函数,形成总体损失函数;
(4.3)将任务缺失的图像数据输入模型训练,训练分为初始和微调两个阶段,采用SGD优化器进行梯度优化。训练至模型收敛后,将彩色图像输入训练好的弱监督多任务学习模型,获得语义分割、深度估计、表面法线估计等多个任务的预测结果。
2.根据权利要求1所述的多任务弱监督图像语义理解方法,其特征在于,步骤(1.3)具体为,对于各层级生成的不同尺度特征,最深层的最小尺度特征S(I)作为一般特征表示,直接连接到其后各子任务分支;同时逐层提取的高级语义信息S(i),i=1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接,弥补图像在编码器池化过程中的细节损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626443.6A CN115222953A (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务学习的弱监督图像语义理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626443.6A CN115222953A (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务学习的弱监督图像语义理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222953A true CN115222953A (zh) | 2022-10-21 |
Family
ID=83608078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210626443.6A Pending CN115222953A (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务学习的弱监督图像语义理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222953A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912629A (zh) * | 2023-09-04 | 2023-10-20 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
-
2022
- 2022-06-02 CN CN202210626443.6A patent/CN115222953A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912629A (zh) * | 2023-09-04 | 2023-10-20 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
CN116912629B (zh) * | 2023-09-04 | 2023-12-29 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833183B (zh) | 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
US9558268B2 (en) | Method for semantically labeling an image of a scene using recursive context propagation | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN110033054B (zh) | 基于协同笔画优化的个性化手写体迁移方法和系统 | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN110070517B (zh) | 基于退化成像机理和生成对抗机制的模糊图像合成方法 | |
CN112529806A (zh) | 基于生成对抗网络信息最大化的sar图像数据增强方法 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
US20240202878A1 (en) | Image Transformation Using Interpretable Transformation Parameters | |
CN114581356B (zh) | 基于风格迁移数据增广的图像增强模型泛化方法 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
Chang et al. | L-CoDer: Language-based colorization with color-object decoupling transformer | |
US20240037822A1 (en) | Prompt-to-prompt image editing with cross-attention control | |
CN115222953A (zh) | 一种基于多任务学习的弱监督图像语义理解方法 | |
CN114742014B (zh) | 基于关联注意力的少样本文字风格迁移方法 | |
Li et al. | Line drawing guided progressive inpainting of mural damages | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
Tavares et al. | Classification of UML diagrams to support software engineering education | |
Jo et al. | Generative artificial intelligence and building design: early photorealistic render visualization of façades using local identity-trained models | |
Guo | Design and development of an intelligent rendering system for new year's paintings color based on b/s architecture | |
Coletti et al. | Troubleshooting deep-learner training data problems using an evolutionary algorithm on Summit | |
CN114419195A (zh) | 一种基于关系嵌入的图像合成的方法、装置及存储介质 | |
SENEM et al. | Using Deep Learning To Generate Front And Backyards In Landscape Architecture | |
Verma et al. | Enhancing Image Translation with Conditional Generative Adversarial Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |