CN114819091B

CN114819091B - 基于自适应任务权重的多任务网络模型训练方法及系统

Info

Publication number: CN114819091B
Application number: CN202210492786.8A
Authority: CN
Inventors: 张传刚; 杨冰; 那巍
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-04-16
Anticipated expiration: 2042-05-07
Also published as: CN114819091A

Abstract

本发明涉及基于自适应任务权重的多任务网络模型训练方法及系统。本发明通过一个特定于任务的策略学习共享模式，该策略自主选择在多任务网络中执行哪些层，并且能够同时搜索与任务较匹配的权重，以更好地训练模型。本发明基于ResNet重构了多任务网络模型，训练过程中根据数据集中的图像有效地优化了学习策略，提高了任务指标的同时克服了多任务模型的单一性。本发明基于概率论极大似然估计推导了适用于回归和分类任务的多任务损失函数，其能够在训练过程中自动调节任务权重以更好地提升模型性能，克服了任务权重不灵活的问题。

Description

基于自适应任务权重的多任务网络模型训练方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于自适应任务权重的多任务网络模型训练方法及系统。

背景技术

场景理解任务是计算机视觉领域中的一个重要问题，涉及不同单位和尺度的各种回归和分类任务的联合学习，其中包括描述不同场景部分身份的语义标签和描述物理几何形状的表面法线。这些经常表示为像素图，其中包含每个像素的值或标签，比如一张图在每个像素包含物体的语义标签或者表面法向量的向量坐标。

多任务学习(Multi-task Learning,MTL)是一种同时学习多个任务的方法，其能够使用从每个任务中学习到的共享知识帮助其他任务学习，相比单任务学习更有效，可以更好地提高模型的性能。

当前多任务学习的研究中存在着两个严重的问题：(1)大多数现有的多任务学习方法皆是采用硬参数共享和软参数共享机制以实现特征共享，在这两种机制中，每个任务的模型均是固定的，然而在社会生活中，存在着各种各样的任务，当然也就需要不同的共享模式，仅仅依靠固定机制难以满足实际需求；(2)由于存在多个任务，因此任务之间的平衡尤其重要，现有研究大多采用加权线性和进行简单处理，即手工选取每个任务的权重，显然这是很不灵活的，若选取了不恰当的权重将导致不同任务的学习效果较为悬殊。

发明内容

本发明的一个目的是针对现有技术的不足，提供了一种基于自适应任务权重的多任务网络模型训练方法，将数据组合在一起以提高泛化性能，并利用有监督模式训练模型，提升了语义分割和表面法线估计的指标。

一种基于自适应任务权重的多任务网络模型训练方法，包括以下步骤：

步骤(1)、构建多任务网络模型；其中多任务网络模型包括多个任务的网络模型；每个任务的网络模型包括ResNet主干网络、特定任务层；特定任务层由1个ASPP(AtrousSpatial Pyramid Pooling)层组成，每个ASPP层包括四个并行的分类模块；每个任务的输出是由四个分类模块的结果进行相加；

步骤(2)、对多任务网络模型进行预训练；具体是

2-1利用学习策略对每个任务的网络模型进行自适应学习；

所述学习策略具体如下：

给定一组相关的任务，假设其集合为T＝{T₁,T₂,…,T_K}，对任务T_k模型中主干网络的每一残差块l赋予决策变量u_l,k，该决策变量u_l,k∈{0,1}，当u_l,k＝0时对任务k跳过第l层，当u_l,k＝1时对任务k选择第l层；

由于决策变量u_l,k是离散不可微的，因此可将通过Gumbel Softmax采样方法使其连续化；假设任务k选择第l个残差块的概率为α_l,k，那么关于ResNet主干网络残差块l的策略分布即为π_l,k＝[1-α_l,k,α_l,k]，利用其得到选择或跳过决策：

其中j∈{0,1}，分别对应跳过和选择决策；G_l,k＝-log(-logU_l,k)，U_l,k采样于标准(0,1)均匀分布；

利用重参数化技巧消除argmax操作：

其中τ为一个大于零的参数，它控制着函数v_l,k的平滑程度；当τ趋近于0时，v_l,k无限接近于π_l,k，当τ大于0时，v_l,k是一个平滑的曲线，可以通过梯度下降法对其进行优化；

2-2对每个任务的网络模型构建对应的任务损失；具体如下：

1)回归任务损失

假设给定网络模型输入为x，网络权重为W，输出为f^W(x)；将高斯分布作为回归任务的概率模型，模型输出作为均值，即：

p(y₁|f^W(x))＝N(f^W(x),σ₁ ²) (3)

其中N(f^W(x),σ₁ ²)表示均值为f^W(x)，标准差为σ₁的正态分布，y₁为回归任务的原始标签值，p(y₁|f^W(x))表示以模型输出f^W(x)为条件，正态分布取到y₁的概率，σ₁为回归任务的观测噪声标量；

对上式(3)两边取对数可得：

因此回归任务损失即为：

其中表示一种回归任务的损失；

2)分类任务损失

利用Softmax函数获取网络模型的输出概率，并按照σ₂ ²对其进行缩放，可得：

其中y₂为分类任务的原始标签值，其中σ₂为一个正的标量，可解释为玻尔兹曼分布，在其中被称为温度，这个标量是可以学习的，它决定了这个分布的平滑程度；同理，对上述公式取对数可得：

其中c表示一种分类结果，表示分类任务的输出向量，其中的元素代表每种分类结果的概率，/>表示第c’种分类结果的概率；/>是模型输出向量f^W(x)中的元素；因此可得分类任务损失/>即为：

其中作为分类任务的交叉熵损失，当σ₂趋近于1时，/>因此将分式替换为σ₂便于后面计算；

3)利用回归任务损失和分类任务损失构建联合损失

假设y₁，y₂为回归和分类任务的原始标签值，综上可得联合损失即为：

2-3对每个任务的网络模型构建辅助任务损失

(1)稀疏损失：通过最小化某个残差块被选择的概率的对数使任务选择更少的块，以减少模型参数；

其中α_l,k为任务k选择第l个残差块的概率；

(2)共享损失：最小化多个任务选择某个残差块的概率的相对差值，鼓励任务在底层网络进行更多的共享；

其中L表示残差块总数，l表示第l个残差块，和/>表示任务k₁和k₂选择第l块的概率；l越小，概率相对差值的权重越大；

2-4对所有任务的网络模型构建多任务总损失

其中ω_sp和ω_sh分别为稀疏损失和共享损失对应的权重，为一组常量；对于上述σ₁和σ₂，实际训练中采用σ²替换σ，同理等价替换为/>

步骤(4)、对多任务网络模型进行再训练：

获取预训练过程中多任务网络模型的最优任务权重，并获取每个任务的最优学习策略；利用最优学习策略构建每个任务的最优网络模型，然后在最优任务权重下进行再训练。

作为优选，ASPP层中分类模块由3层卷积层、ReLU层和Dropout层组成，每个分类模块的第一个卷积层的padding和dilations不同，分别为6，12，18和24。

作为优选，ResNet主干网络采用ResNet-18。

本发明的另一个目的是提供自适应任务权重的多任务网络模型训练系统，包括：

模型构建模块，用于构建多任务网络模型；

预训练模块，对多任务网络模型进行自适应学习和计算多任务总损失，获取最优任务权重和每个任务的最优学习策略；

再训练模块，利用最优学习策略构建每个任务的最优网络模型，然后在最优任务权重下进行再训练。

本发明采用以上技术方案与现有技术相比，有益效果为：

(1)本发明基于ResNet重构了多任务网络模型，训练过程中根据数据集中的图像有效地优化了学习策略，提高了任务指标的同时克服了多任务模型的单一性。

(2)本发明基于概率论极大似然估计推导了适用于回归和分类任务的多任务损失函数，其能够在训练过程中自动调节任务权重以更好地提升模型性能，克服了任务权重不灵活的问题。

附图说明

图1为多任务网络模型的主干网络架构图。

具体实施方式

以下结合附图对本发明作进一步说明。

本发明方法适用于图像的语义分割和表面法线估计的两个任务分类场景，其具体是：

1.选取数据集并进行预处理

NYU v2是一个由室内场景RGB图像构成的数据集，其中语义分割共有40类，如床、橱柜、衣服、书籍等，使用标准的训练/验证分割后，训练集有795张图像，验证集有654张图像。此外，该数据集还具有通过深度标记预计算的像素级表面法线真实度。

2.构建多任务模型

多任务网络模型包括多个任务的网络模型；每个任务的网络模型包括ResNet主干网络、特定任务层；

本模型选取ResNet-18作为主干网络，特定任务层由ASPP(Atrous SpatialPyramid Pooling)层组成，每个ASPP有四个并行的分类模块，每个模块由3层卷积层、ReLU层和Dropout层组成，每个模块的区别在于第一个卷积层的padding和dilations不同，分别为6，12，18和24，目的在于改变感受野，从而通过多个不同速率的并行滤波器学习多尺度特征，

3.利用训练集对模型进行训练

1)预训练

将训练集中的图片以batch_size＝16输入到模型中，并调整图片大小为224×224。预训练共有iters＝20000次迭代，其中4000次“预热”阶段，即共享任务的所有残差块预热网络权重，为策略学习做准备，其余16000次用于策略训练，利用模型训练得出的多任务损失反向传播优化网络权重和学习策略，而任务权重训练存在于整个阶段。为了得到二维离散决策变量，训练时将τ初始化为5，采用模拟退火算法将其不断降至0。关于策略学习，本发明采用一种课程学习的方法对整个决策空间进行优化，对于当前epoch＝l，模型仅仅学习到最后l个残差块的策略分布，随着epoch的增加，逐步学习剩余块的策略分布。在此过程中，选用的算法及参数如下：

网络权重：

(1)预热阶段：Adam算法，lr＝0.001，betas＝(0.5,0.999)，weight_decay＝0.0001。

(2)策略训练阶段：SGD算法，lr＝0.001，momentum＝0.9，weight_decay＝1e-4。

学习率衰减采用StepLR算法，其中step_size＝4000，gamma＝0.5。

学习策略：Adam算法，lr＝0.01，weight_decay＝5e-4。模拟退火算法中init_temperature＝5.0，temperature_decay＝0.965。

多任务权重：SGD算法，lr＝0.0003，momentum＝0.9。

损失权重：ω_sp＝0.05，ω_sh＝0.05。

2)再训练

截取预训练过程中效果最优时的模型，从最佳策略中选取一个选择或跳跃决策，形成一个新的多任务网络，并利用最佳任务权重在整个训练集上进行再训练，优化网络权重，此阶段选用的算法及参数如下：

网络权重：Adam算法，lr＝0.001，betas＝(0.5,0.999)，weight_decay＝0.0001。学习率衰减采用StepLR算法，其中step_size＝4000，gamma＝0.5。

4.利用训练好的模型对测试集进行语义分割和表面法线估计

为了评估本模型的性能，选取的指标如下：

(1)语义分割：实值和预测值两个集合的交集和并集之比(MeanIntersectionOverUnion)和像素精度(PixelAccuracy)。

(2)表面法线估计：所有像素的预测与真实值之间差值的均值(Mean)和中值(Median)角度距离，在11.25°，22.5°和30°内，预测值与真实像素的百分比(越高越好)。

经过充分训练后，得到再训练过程中拟合效果最佳的模型，将测试集中的图像调整为256×512大小输入到该模型中，预测指标如下：

mIoU：26.3％，PixelAcc：58.3％，Mean：16.8％，Median：13.2％，11.25°：43.6％，22.5°：71.8％，30°：83.2。

下面对现有方法和本发明针对NYUv2数据集上2任务学习做性能分析比较：

表1 NYU v2数据集上2任务学习

表1给出了在NYU v2数据集上学习2任务的预测结果，其中单任务模型每次只学习一个任务，并且每个任务的网络都是特定独立的，即所有任务共享低层网络，而在高层产生分支生成特定于任务的网络，STAN将注意力机制附加在单任务网络上，除此之外，本发明也与目前较优的几个多任务学习方法和该领域较优的模型进行了比较，包括十字绣网络(CVPR’16)、GeoNet网络(CVPR’18)、(ICCV’15)和AdaShare(CVPR’20)。

相比于AdaShare，本发明方法在五个指标上依次提高了0.3％，0.1％，0.2％，0.6％，0.2％。相比于单任务网络，多任务网络学习的性能大大增加，能够更好地利用任务之间的关系。与传统的固定模型相比，本发明方法能够学习到较适合任务的网络模型，从而更好地提升各项指标。此外，与之前的自适应共享方法AdaShare相比，本发明在仅增加了一组任务权重参数的情况下，效果达到了更优，由此说明任务权重具有很重要的地位，仅靠人工调整难以解决某些复杂问题。

Claims

1.一种适用于图像的语义分割和表面法线估计的两个任务分类方法，其特征在于包括以下步骤：

步骤(1)、选取数据集并进行预处理

获取由室内场景RGB图像构成的数据集NYU v2，包括语义分割图像和像素级表面法线真实度；

步骤(2)、构建多任务网络模型；其中多任务网络模型包括多个任务的网络模型；每个任务的网络模型包括ResNet主干网络、特定任务层；特定任务层由1个ASPP层组成，每个ASPP层包括四个并行的分类模块；每个任务的输出是由四个分类模块的结果进行相加；

步骤(3)、对多任务网络模型进行预训练；具体是

3-1利用学习策略对每个任务的网络模型进行自适应学习；

所述学习策略具体如下：

给定一组相关的任务，假设其集合为T＝{T₁,T₂,…,T_K}，对任务Tk模型中主干网络的每一残差块l赋予决策变量u_l,k，该决策变量u_l,k∈{0,1}，当u_l,k＝0时对任务k跳过第l层，当u_l,k＝1时对任务k选择第l层；

由于决策变量u_l,k是离散不可微的，因此可将通过GumbelSoftmax采样方法使其连续化；假设任务k选择第l个残差块的概率为α_l,k，那么关于ResNet主干网络残差块l的策略分布即为π_l,k＝[1-α_l,k,α_l,k]，利用其得到选择或跳过决策：

利用重参数化技巧消除argmax操作：

3-2对每个任务的网络模型构建对应的任务损失；具体如下：

1)回归任务损失

p(y₁|f^W(x))＝N(f^W(x),σ₁ ²) (3)

对上式(3)两边取对数可得：

因此回归任务损失即为：

其中表示一种回归任务的损失；

2)分类任务损失

其中c表示一种分类结果，表示分类任务的输出向量，其中的元素代表每种分类结果的概率，/>表示第c′种分类结果的概率；/>是模型输出向量f^W(x)中的元素；因此可得分类任务损失/>即为：

其中作为分类任务的交叉熵损失，当σ₂趋近于1时，

3)利用回归任务损失和分类任务损失构建联合损失

3-3对每个任务的网络模型构建辅助任务损失

(1)稀疏损失：

其中α_l,k为任务k选择第l个残差块的概率；

(2)共享损失：

其中L表示残差块总数，l表示第l个残差块，和/>表示任务k₁和k₂选择第l块的概率；

3-4对所有任务的网络模型构建多任务总损失

其中ω_sp和ω_sh分别为稀疏损失和共享损失对应的权重；

步骤(4)、对多任务网络模型进行再训练：

获取预训练过程中多任务网络模型的最优任务权重，并获取每个任务的最优学习策略；利用最优学习策略构建每个任务的最优网络模型，然后在最优任务权重下进行再训练；

步骤(5)、利用训练好的多任务网络模型进行语义分割和表面法线估计。

2.如权利要求1所述的方法，其特征在于每个任务的网络模型中每个分类模块由3层卷积层、ReLU层和Dropout层组成，每个分类模块的第一个卷积层的padding和dilations不同。

3.如权利要求2所述的方法，其特征在于每个任务的网络模型中分类模块的第一个卷积层的padding和dilations分别为6，12，18和24。

4.如权利要求1所述的方法，其特征在于ResNet主干网络采用ResNet-18。