CN115222953A

CN115222953A - 一种基于多任务学习的弱监督图像语义理解方法

Info

Publication number: CN115222953A
Application number: CN202210626443.6A
Authority: CN
Inventors: 许春燕; 张书敏; 崔振
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-21

Abstract

本发明公开了一种基于多任务学习的弱监督图像语义理解方法，包括以下步骤：获取任务缺失图像，构建多层级任务共享编码器，逐层提取高级语义信息，输入相应的解码器分支；构建公共空间‑任务空间特征映射模块，通过不对齐任务融合模块与任务交互映射模块，映射更新各子任务特征；构建任务自适应特征更新模块，多层级迭代更新不对齐任务特征；构建任务自适应的弱监督图像语义理解框架，建立模型损失函数，将任务缺失的图像数据输入模型，获得语义分割、深度估计、表面法线估计等多任务预测结果。本发明根据任务标签不对齐的数据信息，通过公共空间与任务空间的映射交互，充分融合了不对齐任务特征，迭代生成高质量的多任务预测结果，能够有效处理任务缺失的弱监督问题，同时提高了各任务预测准确率。

Description

一种基于多任务学习的弱监督图像语义理解方法

技术领域

本发明属于像素级图像语义理解领域，更具体地，涉及一种基于多任务学习的弱监督图像语义理解方法。

背景技术

真实场景中的复杂图像像素级可视化分析任务，通常能够分解为一组相关的任务，如语义分割、深度估计、表面法线估计等。传统方法通常对每个任务单独建立模型，然后将多个模型结果合成为最终结果。在深度学习的迅猛发展下，像素级图像理解领域在效率和准确率上大幅提高。由于多任务的像素级图像信息在边缘、纹理、深度等特征上是互补的，因此部分工作通过建立统一的多任务学习框架，挖掘任务间的关联性与互补性，同时完成多项任务诉求，提高图像语义理解的精度与效率。

然而，这些方法很大程度上依赖于带有精确标注的大规模训练，当面临子任务繁多的复杂情况，每张图片任务标签繁多，大幅提高了标注成本并降低模型效率。针对弱监督图像语义理解问题，在单任务上已经出现了较多方法，如基于图片级标记的分类模型与分割模型、生成对抗模型等。但是多任务学习中子任务种类繁多，不同数据的子任务缺失情况也不尽相同，如何恰当地设计多任务学习模型以对应任务不对齐的弱监督问题，是像素级图像多任务学习的一个难点。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于多任务学习的弱监督图像语义理解方法，其基于公共空间与任务空间的特征映射交互，对多任务特征迭代更新，通过任务自适应学习解决了弱监督像素级语义理解中多任务不对齐的问题。

为实现上述目的，本发明提供了一种基于多任务学习的像素级图像语义理解方法，包括以下步骤：

步骤一，获取源图像与任务缺失标签，构建多层级的任务共享编码器，提取高级语义信息并输入相应解码器分支，包括下述子步骤：

(1.1)将彩色图像输入共享的多任务特征编码器，该多任务特征编码器包含多层级的特征提取与池化操作；

(1.2)编码器的I个层级分别生成不同尺度的编码器特征

该特征不特定于任务，仅与原图像相关，是原图像不同尺度的特征抽象表示；

(1.3)基于步骤(1.1)和(1.2)的结果，将各层级特征通过直接连接与跨层连接相结合，输入到各解码器分支中，解码器的每个分支对应一个不对齐子任务。子任务分支从共享编码器得到的特征表示为

其中，i表示该任务分支中的层级数，M是该数据集所有图像包含的子任务总数，任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。

步骤二，构建公共空间-任务空间特征映射模块，通过融合映射公共空间更新各子任务特征，包括下述子步骤：

(2.1)根据步骤一生成的子任务分支，构建不对齐任务融合模块，将多个子任务特征空间进行融合。定义子任务空间到公共空间的映射函数为

两特征交互函数为f，不对齐任务特征依次应用f函数，得到总体融合函数σ，可以写作：

其中，当m为2时，σ仅需两任务交互；当m为1时，σ直接取

的值即可。

(2.2)根据(2.1)提取的融合特征，映射至多任务共享的公共空间，形成公共特征融合空间O⁽ⁱ⁾，表示为：

其中，

函数通过不对齐任务融合与空间映射得到，表示为：

其中，g是包含一般的激活函数的非线性映射函数。公共空间O⁽ⁱ⁾将任务融合的互补特征应用于每个子任务的模式加强，实现任务间的模式传播。

(2.3)构建任务交互映射模块，将公共空间O⁽ⁱ⁾重新映射到各子任务空间中。O⁽ⁱ⁾包含该图像所有任务的特征融合信息，对m个不对齐任务分支，将O⁽ⁱ⁾按一定规则映射回原任务空间。具体地，使用网络模型学习的策略，定义公共空间到特定子任务空间的映射函数为θ_t，则映射后特征表示为：

其中，θ_t为网络模型学习的非线性映射函数，λ_t为网络超参数，表示任务t的特征映射吸收系数。

步骤三，构建任务自适应特征更新模块，多层级迭代更新不对齐任务特征，包括下述子步骤：

(3.1)将公共空间O⁽ⁱ⁾映射到子任务空间的特征

并在每一层级与任务内特征

进一步合并，经过卷积变换后，更新子任务特征为

过程写作：

其中，δ为网络模型训练的卷积函数，

表示求和方式融合，结果生成第i层级解码器的特征输出；

(3.2)将m个解码器分支第i层的输出特征

再继续输入解码器第i+1层，从而建立任务自适应特征更新模块。迭代过程表示为：

步骤四，构建任务自适应的图像语义理解框架，建立特定于任务的模型损失函数，模型经过训练获得语义分割、深度估计、表面法线估计等多类像素级图像语义预测结果。包括以下子步骤：

(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块，构建任务自适应的图像语义理解框架，其中多层级的任务特征共享网络作为底层编码器部分，特征映射模块与特征更新模块作为框架的中间解码器部分，最后送入多任务独立的预测分类器，生成最终预测结果：

其中，γ_t表示解码器第t个任务分支最后一层的预测函数，实施中采用卷积函数的形式。

(4.2)根据任务自适应的图像语义理解框架，为实际训练的每个子任务设计特定任务的损失函数，建立框架的总体损失函数。

设子任务M为深度估计、语义分割、表面法线估计三类，即m＝1,2,3时，对三种子任务T_seg,T_dep,T_nor分别指定损失函数。设训练数据包含X张任务不对齐的彩色图像，对其中第x张图片，若其拥有语义分割任务标签Y_seg，则形成语义分割任务分支，生成预测结果

此时采用交叉熵损失L_s，ζ_s为交叉熵损失函数：

若其有深度估计任务标签Y_dep，则形成深度估计任务分支，生成预测结果

此时计算损失L_d，ζ_d为berHu损失函数：

若其有表面法线估计任务标签Y_nor，则形成表面法线估计任务分支，生成预测结果

此时计算损失L_n，ζ_n为L1损失函数：

由此，对训练数据中的第x张图像输入，总损失函数ζ^(x)表示为：

其中，μ_x为1×3的不对齐任务权值矩阵，该二值矩阵当任务缺失，该列数值为0，否则为1。当不对齐任务数为m时，μ_x权值矩阵将扩展到1×m大小。对训练数据的X张图像输入，总体训练损失函数ζ为：

(4.3)将任务缺失的图像数据输入模型框架进行训练，训练分为初始和微调两个阶段，网络模型采用SGD优化器进行梯度优化。为了增加训练数据的多样性，还采用了缩放、翻转、裁剪和旋转四种数据增强方法。训练至模型收敛后，在测试阶段，将彩色图像输入训练好的弱监督多任务学习模型，获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。

步骤(1.3)具体为，对于各层级生成的不同尺度特征，最深层的最小尺度特征S^(I)将作为最一般的特征表示直接连接到其后的各子任务分支；同时逐层提取的高级语义信息S⁽ⁱ⁾,i＝1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接，从而弥补图像在编码器池化过程中的细节损失。

步骤(2.1)具体为，将不对齐任务特征

通过映射变换到相同的空间表示。

的函数形式需对任意m成立，因此采用特征依次交互的方式融合公共特征。

特征交互函数f为包含非线性映射函数的融合卷积网络，先从不对齐任务中选取两任务交互，生成初步交互特征后，再将其余不对齐任务特征依次与交互特征应用f函数，得到融合后特征

σ是交互函数f的迭代，并继承原特征尺度大小。当M取任意值时，都能以该方式融合不对齐任务特征。

步骤(3.2)具体为，在解码器层级i＝1,2,...I中，任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射，生成公共特征融合空间O⁽ⁱ⁾并映射至原任务空间，融合生成新任务特征

迭代更新下一层级。

该模块对任意值不对齐任务m成立，对每张图片的随机丢失的多任务标签有自适应性，从而形成任务自适应的特征迭代更新。伴随着特征尺度逐级恢复，公共空间与不对齐任务的交互在多个尺度逐级进行。

步骤(4.1)具体为，底层特征共享编码器逐层提取图像的高级语义信息，输入相应的解码器分支；所述特征映射与特征更新的解码器部分，自适应地将不对齐的任务特征

映射到公共特征融合空间O⁽ⁱ⁾中，并映射回原任务空间更新生成

并使用跨层连接在从粗到细地挖掘各任务的潜在特征，形成多层级的迭代更新；所述顶层独立预测分类器，通过解码器顶层中各任务预测函数卷积层，在多个任务分支中独立生成最终预测结果。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下的有益效果：

1)本发明模型不受任务缺失约束，能够处理任务不对齐的弱监督数据，挖掘各类任务训练样本包含的监督信息，从而降低对多任务标注数据数量和质量的要求；

2)本发明通过多个任务空间的映射，汲取其他任务信息以促进目标任务的学习，模型拟合受不同任务的约束，能够减少过拟合，避免陷入局部最优；

3)本发明建立基于公共空间-任务空间映射机制的任务自适应迭代模型，通过公共空间融合不对齐任务特征并映射更新，在多种任务上都能取得较优性能，同时降低模型复杂度，避免重复训练和预测，在实时预测上优势明显。

附图说明

图1为本发明中基于多任务学习的弱监督图像语义理解框架的示意图。

图2为本发明中步骤二的细化流程图。

图3为本发明中步骤四的效果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明以若干公开的多任务数据集为素材，运行环境是Cuda10-Python3。

如图1所示，本发明基于多任务学习的弱监督图像语义理解方法包括以下步骤：

步骤一，获取源图像与不对齐的多任务标签，构建多层级的任务共享编码器，逐层提取图像的高级语义信息，输入相应的解码器分支，包括下述子步骤：

(1.1)对于输入模型的图片和不对齐的任务标签，首先将彩色图像输入一个共享的多任务特征编码器。该多任务特征编码器包含多层级的特征提取与池化操作，I表示该编码器的总层级数，则每层级特征表示的尺度不断缩减；

(1.2)编码器的I个层级分别生成不同尺度的编码器特征

该编码器特征不特定于任务，仅与原图像相关，是原图像不同尺度的特征抽象表示；

(1.3)基于步骤(1.1)和(1.2)的结果，将编码器生成各层级特征通过直接连接与跨层连接相结合，输入到其后的各个解码器分支中，解码器的每个分支对应一个子任务。

具体而言，多任务共享编码器随层级的加深而输出尺度缩减的特征表示，即H_i<H_i-1,W_i<W_i-1。对于各层级生成的不同尺度特征，最深层的最小尺度特征S^(I)将作为最一般的特征表示直接连接到其后的各子任务分支；同时逐层提取的高级语义信息S⁽ⁱ⁾,i＝1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接，从而弥补图像在编码器池化过程中的细节损失。

当图像共有m个子任务标签，子任务分支从共享编码器得到的特征表示为

其中，M是该数据集所有图像包含的子任务总数，任意一张图像包含的不对齐任务为其中随机的m个(该值由每张图像任务缺失情况决定)。在像素级图像语义理解实际应用中，解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等，m个子任务之间差别较大，由此需对输入图像随机的m个不同的子任务构建自适应的解码器模型。

步骤二，构建公共空间-任务空间特征映射模块，通过不对齐任务融合模块与任务交互映射模块，使公共空间映射更新各子任务特征；

如图2所示，各解码器分支共同构建单层级公共空间-任务空间特征映射模块，具体包括如下子步骤：

(2.1)针对步骤一生成的m个子任务分支，构建不对齐任务融合模块，将多个子任务分支的特征表示空间进行融合；

此时，m个子任务分支的特征为

其中i表示该任务分支中的层级数。不同子任务分支提取的特征图通常在不同的空间中，其数据分布具有差异性。为了融合不同子任务的特征信息，将特征

通过映射变换到相同的空间表示。定义映射函数为

其输入是特定于单张图片单层级的m个任务特征。由于在不对齐的任务融合中，m的值不固定，因此

的函数形式需对任意m成立，以有效完成任意个多任务特征融合。具体来说，将采用特征依次交互的方式融合公共特征。

在第i层解码器分支，不对齐任务特征分别为

首先定义特征交互函数f为包含非线性映射函数的融合卷积网络，从不对齐任务中选取两任务交互，生成初步交互特征，挖掘两两任务间的互补性，并继承原特征尺度大小。随后，将其余不对齐任务特征依次与交互特征应用f函数，得到融合后特征

σ是交互函数f的迭代，可以写作：

其中，当m为2时，σ仅需两任务交互；当m为1时，σ直接取

的值即可。由此，当M取任意值时，都能使用该方式融合不对齐任务特征。

(2.2)使用不对齐任务融合模块提取的融合特征，映射到多任务共享的公共特征空间，形成公共特征融合空间O⁽ⁱ⁾，表示为：

其中，

函数通过不对齐任务融合与空间映射得到，表示为：

其中，g是包含一般的激活函数的非线性映射函数。

函数通过迭代融合与空间映射的方式，将不同子任务空间投射到共享的公共空间中，从而使公共空间的抓取到图像的多角度深层次特征与高级语义表示。公共空间O⁽ⁱ⁾之后将与每个子任务特征交互映射，从而将任务融合的互补特征应用于每个子任务的模式加强，实现任务间的模式传播。

(2.3)基于(2.2)生成的公共特征融合空间O⁽ⁱ⁾，构建任务交互映射模块，将公共空间的融合特征重新映射到各子任务空间中；

不对齐任务融合特征在隐式公共空间中映射为O⁽ⁱ⁾，即其包含了该图像所有目标任务的特征融合信息。为挖掘特征互补性，相互促进特征学习，对于m个不对齐任务分支，将公共空间O⁽ⁱ⁾按一定规则映射回原任务空间，由于公共空间特征已经融合了其他任务的互补性特征，从而能够更新加强该任务空间的特征表示。具体地，使用网络模型学习的策略，定义公共空间到特定子任务空间的映射函数为θ_t，则映射后特征表示为：

其中，θ_t为网络模型学习的非线性映射函数，λ_t为网络超参数，表示t任务的特征映射吸收系数。

步骤三，构建任务自适应特征更新模块，多层级迭代更新不对齐任务特征，具体包括以下子步骤：

(3.1)基于公共空间-任务空间特征映射模块，将公共空间的映射特征与任务空间特征进一步合并，经过卷积变换后，生成第i层级解码器的特征输出；

使用公共空间O⁽ⁱ⁾映射到子任务空间的特征

在每一层级与任务内特征

进一步合并，经过卷积变换后，更新子任务特征为

写作：

其中，δ为网络模型训练的卷积函数，

表示求和方式融合。

(3.2)将m个解码器分支第i层的输出特征

在解码器层级i＝1,2,...I中，任务自适应特征更新模块将在每一层级结合公共空间-任务空间特征映射，生成公共特征融合空间O⁽ⁱ⁾并映射至原任务空间，融合生成新任务特征

迭代更新下一层级。该模块对任意不对齐任务m成立，对每张图片的随机丢失的多任务标签有自适应性，从而形成任务自适应的特征迭代更新。

具体而言，公共空间由任意个不对齐子任务映射产生，随后为每个不对齐的子任务提供共享的特征表示以及对应权值。伴随着特征尺度逐级恢复，公共空间与不对齐任务的交互在多个尺度逐级进行。空间的映射减少了多个特征两两交互的复杂性，直观简便地将融合特征投射到各子任务空间中，从而减少了任务之间的交互时间，简化了共享模型结构。

步骤四，构建任务自适应的图像语义理解框架，建立模型损失函数，将任务缺失的图像数据输入模型，获得语义分割、深度估计、表面法线估计等多类像素级预测结果。包括以下子步骤：

(4.1)基于公共空间-任务空间特征映射模块与任务自适应特征更新模块，构建任务自适应的图像语义理解框架，其中多层级的任务特征共享网络作为底层编码器部分，特征映射模块与特征更新模块作为框架的中间解码器部分，最后送入多任务独立的预测分类器。

其中，底层特征共享编码器逐层提取图像的高级语义信息，输入相应的解码器分支；所述特征映射与特征更新的解码器部分，自适应地将不对齐的任务特征

并使用跨层连接在从粗到细地挖掘各任务的潜在特征，形成多层级的迭代更新；所述顶层独立预测分类器，通过解码器顶层中各任务预测函数卷积层，在多个任务分支中独立生成最终预测结果：

所述总体损失函数由特定于任务T₁,T₂,...T_m的损失函数组成。在像素级图像语义理解实际应用中，解码器分支对应的子任务包括但不限于深度估计、语义分割、表面法线估计等，子任务之间差别较大，因此为不同的语义分割任务设置特定于任务的损失函数。本步骤将针对最为广泛的应用情况，子任务M具体为深度估计、语义分割、表面法线估计三类，即m＝1,2,3时，对三种子任务T_seg,T_dep,T_nor分别指定损失函数。

设训练数据包含X张任务不对齐的彩色图像，对其中第x张图片，依次计算其不对齐子任务的损失并合成总损失。若第x张图片拥有语义分割任务标签Y_seg，则形成语义分割任务分支，通过分类器生成预测结果为

此时采用交叉熵损失L_s。其中，ζ_s为交叉熵损失函数：

若该训练图像有深度估计任务标签Y_dep，则形成深度估计任务分支，通过分类器生成预测结果为

此时计算损失L_d。其中，ζ_d为berHu损失函数：

若该训练图像有表面法线估计任务标签Y_nor，则形成表面法线估计任务分支，通过分类器生成预测结果为

此时计算损失L_n。其中，ζ_n为L1损失函数：

由此，对训练数据中的第x张图像输入，总损失函数ζ^(x)可以表示为：

其中，μ_x为1×3的不对齐任务权值矩阵，以任务编号为列编号，当任务不缺失，该列数值为1，当任务缺失，该列数值为0。该矩阵在图像输入时自适应生成，当不对齐任务数为m时，μ_x权值矩阵将扩展到1×m大小。由此，训练数据中共X张图像输入，总体训练损失函数ζ可以表示为：

(4.3)将任务缺失的图像数据输入模型框架进行训练，训练分为初始和微调两个阶段，网络模型采用SGD优化器进行梯度优化。

以下训练方法与参数设置仅针对实施例含三种不对齐子任务深度估计、语义分割、表面法线估计的情况，当子任务数量与性质发生改变，其训练参数设置需对应调整：初始阶段的学习率针对预训练网络和其他网络层分别设置为1e-4与0.01，并在微调阶段衰减到1e-5与0.01。动量参数和权值衰减参数分别设置为0.9和1e-4。此外，为了增加训练数据的多样性，还采用了缩放、翻转、裁剪和旋转四种数据增强方法。

训练至模型收敛后，在测试阶段，将彩色图像输入训练好的弱监督多任务学习模型，获得该图像在语义分割、深度估计、表面法线估计等多个任务上的预测结果。

本发明利用公共空间-任务空间的映射交互使不对齐的任务在同一模型框架中迭代学习，完成了弱监督像素级多任务学习任务，并提高了各任务的性能。不对齐的多任务数据往往导致模型无法适配，而任务缺失的输入图像体量大、标注成本小。本发明利用任务缺失数据建立弱监督学习框架，挖掘任务间的潜在共性和互补性，以公共空间映射机制辅助单任务的学习，框架采用底层共享编码器、中间层特征映射解码器、顶层预测分类器的结构，以ResNet等卷积神经网络为骨干，构建任务自适应的弱监督多任务学习框架来进行语义分割、深度估计和表面法线估计等不对齐任务的联合学习。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务学习的弱监督图像语义理解方法，其特征在于，包括以下步骤：

步骤一，获取任务缺失图像，构建多层级任务共享编码器，特征输入相应解码器分支，包括下述子步骤：

(1.1)将彩色图像输入共享的多任务特征编码器，包含多层级的特征提取与池化操作；

(1.2)编码器的I个层级分别生成不同尺度的编码器特征

(1.3)将各层级特征直接连接与跨层连接相结合，输入到各不对齐子任务的解码器分支中，各分支特征表示为

其中，i表示该任务分支中的层级数，M是该数据集所有图像包含的子任务总数，任意一张图像包含其中随机m个。

步骤二，构建公共空间-任务空间特征映射模块，映射更新各子任务特征，包括下述子步骤：

(2.1)构建不对齐任务融合模块，融合多个子任务特征空间。子任务空间到公共空间的映射函数为

两特征交互函数为f，多任务特征依次应用f函数，则总体融合函数σ为：

其中，当m为2时，σ仅需两任务交互；当m为1时，σ直接取

值。

(2.2)将融合特征映射至共享公共空间，形成公共特征融合空间O⁽ⁱ⁾，表示为：

其中，

函数通过不对齐任务融合与空间映射得到，表示为：

其中，g是包含一般的激活函数的非线性映射函数。

(2.3)构建任务交互映射模块，将公共空间O⁽ⁱ⁾映射到各子任务空间。使用网络模型学习的策略，对m个不对齐任务分支，定义公共空间到特定子任务空间的映射函数为θ_t，则映射后特征为：

其中，θ_t为网络模型学习的非线性映射函数，λ_t为网络超参数，是特定任务t的特征映射吸收系数。

(3.1)将公共空间映射到子任务空间特征

在每一层级与任务内特征进一步合并，经卷积变换后，更新子任务特征为

表示为：

其中，δ为网络模型训练的卷积函数，

为求和方式融合，生成第i层级解码器的特征输出。

(3.2)将m个解码器分支第i层的输出特征继续输入解码器第i+1层，建立任务自适应特征更新模块。迭代过程表示为：

步骤四，构建任务自适应的图像语义理解框架，建立模型损失函数，训练后获得语义分割、深度估计、表面法线估计等多任务预测结果，包括以下子步骤：

(4.1)构建任务自适应的图像语义理解框架，其中多层级的任务特征共享网络作为底层编码器部，特征映射模块与特征更新模块作为中间解码器部分，最后送入多任务独立的预测分类器，生成最终预测结果为：

其中，γ_t表示解码器第t个任务分支最后一层的预测函数，采用卷积函数的形式。

(4.2)根据总体框架为参与训练的每个子任务建立特定任务的损失函数，形成总体损失函数；

(4.3)将任务缺失的图像数据输入模型训练，训练分为初始和微调两个阶段，采用SGD优化器进行梯度优化。训练至模型收敛后，将彩色图像输入训练好的弱监督多任务学习模型，获得语义分割、深度估计、表面法线估计等多个任务的预测结果。

2.根据权利要求1所述的多任务弱监督图像语义理解方法，其特征在于，步骤(1.3)具体为，对于各层级生成的不同尺度特征，最深层的最小尺度特征S^(I)作为一般特征表示，直接连接到其后各子任务分支；同时逐层提取的高级语义信息S⁽ⁱ⁾,i＝1,2,...I将对应地与多层级解码器中尺度相同的层级作跨层连接，弥补图像在编码器池化过程中的细节损失。

3.根据权利要求1所述的多任务弱监督图像语义理解方法，其特征在于，步骤(2.1)具体为，不对齐任务特征

通过映射变换到相同的空间表示，

采用特征依次交互的方式融合公共特征，特征交互函数f为包含非线性映射函数的融合卷积网络。

先从不对齐任务中选取两任务交互，生成初步交互特征后，再将其余不对齐任务特征依次与交互特征应用f函数，得到融合后特征

其中，σ是交互函数f的迭代，并继承原特征尺度大小。

4.根据权利要求1所述的多任务弱监督图像语义理解方法，其特征在于，步骤(3.2)具体为，在解码器层级i＝1,2,...I中，任务自适应特征更新模块在每一层级结合公共空间-任务空间特征映射，生成公共特征融合空间O⁽ⁱ⁾并映射至原任务空间，融合生成新任务特征

迭代更新下一层级。

5.根据权利要求1所述的多任务弱监督图像语义理解方法，其特征在于，步骤(4.1)具体为，底层特征共享编码器逐层提取图像的高级语义信息，输入相应的解码器分支；所述特征映射与特征更新的解码器部分，自适应地将不对齐的任务特征

6.根据权利要求1所述的多任务弱监督图像语义理解方法，其特征在于，步骤(4.2)具体为，根据总体框架为参与训练的每个子任务建立特定任务的损失函数，合成总体损失函数。当子任务M为深度估计、语义分割、表面法线估计三类，即m＝1,2,3时，对三种子任务T_seg,T_dep,T_nor分别指定损失函数L_s,L_d,L_n。

训练数据包含X张任务不对齐的彩色图像，对其中第x张图片，总损失函数ζ^(x)表示为：

7.根据权利要求6所述的特定任务损失函数，其特征在于，对训练数据中第x张图片，若其拥有语义分割任务标签Y_seg，则形成语义分割任务分支，生成预测结果

ζ_s为交叉熵损失函数，损失L_s为：

ζ_d为berHu损失函数，损失L_d为：

ζ_n为L1损失函数，损失L_n为：