CN115794357A

CN115794357A - 一种自动搭建多任务网络的装置及方法

Info

Publication number: CN115794357A
Application number: CN202310060785.0A
Authority: CN
Inventors: 卫建华; 陈哲; 昝志慧; 李�杰; 张瑞; 李渊
Original assignee: Shanxi Qingzhong Technology Co ltd
Current assignee: Shanxi Qingzhong Technology Co ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-03-14
Anticipated expiration: 2043-01-16
Also published as: CN115794357B

Abstract

本发明提供了一种自动搭建多任务网络的装置及方法，属于计算机技术的深度学习技术领域；解决了现有多任务网络存在的负迁移的问题；包括如下步骤：搭建多分支网络：先设置神经网络的所有可能的分支结构，即神经网络的搜索空间，根据神经网络的搜索空间搜寻分支网络中使用相同的基本块的几个任务，判断几个任务之间的相似度，根据任务之间的相似度对不同的任务进行合并或分离，最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络；采用位置向量确定不同任务使用基本块的情况；在相似度高的任务之间的底层参数根据任务的不同，按照不同的权重，送入不同任务的分支中；本发明应用于深度学习。

Description

一种自动搭建多任务网络的装置及方法

技术领域

本发明提供了一种自动搭建多任务网络的装置及方法，属于计算机技术的深度学习技术领域。

背景技术

卷积神经网络是一类包含卷积、池化、激活函数计算并且具有一定深度结构的神经网络，是深度学习领域的代表算法之一。目前已经被大量研究实例证实，在目标分类、定位、检测领域有强劲的表现，并以多层次的特征学习与丰富的特征表达能力，在目标分类领域取得了突破进展。

最近几年，图像分类领域诞生了一个又一个经典网络模型，GoogLeNet提出Inception模块，将网络变宽，从而从另一个方向增强了网络的特征提取能力；ResNet提出残差结构，有效的缓解了梯度消失和网络退化等问题，神经网络从而可以达到上百层的深度；DensenNet提出密集连接概念，将网络之前每个层的输入都连接到之后的所有层，从而达到了高效的特征复用，同时也减缓了梯度消失等问题。在目标分类领域，已有许多学者将上述模型应用于图像分类，但其构建的模型大多是单任务模型，每次只能进行一个任务，而在现实生活中一张图片通常需要同时进行多个任务的判断。在这种情况下，通常需要训练多个单任务模型，对每一个任务进行分类计算，因此导致计算量庞大，检测速度慢。

目前，针对一张图片中有多个任务的情况，已存在多种多任务神经网络框架，多任务学习（MTL）是一种综合学习方法，通过同时训练几个任务并在任务间共享一些参数来实现。在多任务网络中，多个任务共享一个结构，可以利用不同任务的信息。当所有任务的损失趋于平缓时，这个结构就相当于融合了所有任务的信息。一般来说，多任务网络比单任务网络有更强的泛化能力，但是多任务网络硬参数共享技术也有缺点：分支发生的时间点通常是在网络的最后一层。这种情况会损害性能，因为任务的次优分组会导致不相关的任务之间共享信息，即所谓的负迁移。分支多任务网络则可以根据任务相似度，将相似度低的任务进行分离，避免网络的负迁移。但是现有的分支多任务网络要么是依靠专家经验和人类的直觉来判断哪些任务是相关的，并决定网络中的哪些层是共享的，这种方式依赖大量的领域知识和重复实验；要么是利用神经结构搜索技术来建立网络提出，这种方式则需要大量的计算资源。

发明内容

本发明为了解决现有多任务网络存在的负迁移的问题，提出了一种自动搭建多任务网络的装置及方法。

为了解决上述技术问题，本发明采用的技术方案为：一种自动搭建多任务网络的装置，包括多GPU的服务器，所述服务器配备了四个处理器和显卡、显存，所述服务器上搭载有用于自动搭建多任务网络算法的计算机程序，所述处理器用于执行上述算法的计算机程序，其中自动搭建多任务网络算法包括多分支网络生成模块、Gumbel-Softmax Sampling模块、Res-Flow模块，所述多分支网络生成模块通过先设置神经网络的所有可能的分支结构，即神经网络的搜索空间，在搜寻分支网络的过程中，在任务相似度高时在任务之间共享参数，在任务相似度低时进行分离，使不同的任务具有不同的参数，最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络；

所述Gumbel-Softmax Sampling模块用于将离散分布的位置向量进行参数更新学习；

所述Res-Flow模块用于将多分支网络的相似度高的任务的底层共享参数按照不同的权重送入不同任务的分支中。

一种自动搭建多任务网络的方法，包括如下步骤：

S1：搭建多分支网络：先设置神经网络的所有可能的分支结构，即神经网络的搜索空间，根据神经网络的搜索空间搜寻分支网络中使用相同的基本块的几个任务，判断几个任务之间的相似度，根据任务之间的相似度对不同的任务进行合并或分离，最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络，并采用位置向量确定不同任务使用基本块的情况；

S2：在相似度高的任务之间的底层参数根据任务的不同，按照不同的权重，送入不同任务的分支中。

所述分支网络的搭建过程在开始时，使每个任务在每个层中各自使用一个基本块；

经过训练后，得到不同任务在网络中的分布情况，将不同任务的分布情况转换为位置矩阵；如果两个任务在某一层的位置向量相同，则认为它们相似度较高，能够使用同一个基本块，而如果两个任务在某一层的位置向量不同，则将两个任务根据所在层的位置进行分离。

采用Gumbel-Softmax来确定不同任务使用基本块的情况，通过每个任务的梯度直接学习非归一化对数概率掩码，之后使用argmax函数离散化非归一化对数概率掩码以确定最终的一位有效编码。

所述步骤S2采用残差连接结构建立恒等映射，使深层网络能够直接利用浅层网络的特征，根据不同任务对浅层网络的需要，为基本块的输出增加一个根据任务不同而变化的权重，网络在训练过程中，利用损失反向传播调整各个任务在每个残差块中的恒等映射的权重，每个任务根据自身的需要自动地调整浅层网络特征的比重。

所述步骤S1中的神经网络采用改进后的ResNet50作为骨干网络，改进后的ResNet50共包含5个Basic Block，分别为Block0、Block1、Block2、Block3、Block4，其中Block0部分由3个串联的3×3卷积层组成，Block1、Block2、Block3、Block4分别由3、4、6、3个相同的Layer组成，每个Layer包含1×1卷积层、第一批量归一化层、第一修正线性单元层、3×3卷积层、第二批量归一化层、第二修正线性单元层、1×1卷积层、第三批量归一化层、第三修正线性单元层。

每个任务根据自身的需要自动地调整浅层网络特征的比重的计算公式为：

；

上式中：y_i表示第i个块的输出，f（）表示残差函数，

表示任务task在的第i个残差块的恒等映射的权重，

表示任务task在第i+1个残差块的输出，

表示任务task在第i个残差块的输出，

表示对任务task在第i+1个残差块的输出进行残差计算。

本发明相对于现有技术具备的有益效果为：本发明提出了一种自动搭建多任务网络的装置和方法，提出的搜索空间直接包含了所有可能的分支结构，该算法不使用暴力算法或者贪婪算法确定网络中分支的位置，大大减少了神经结构搜索时所需的计算资源。同时由于在共享的底层网络中，即使不同的任务间具有较高的相似度，所需的特征也不可能完全相同。因此本发明在分支多任务网络的基础上，提出一种可以根据任务自行调整底层特征权重的Res-Flow方法，对于某些特定的任务，可以使底层共享网络的浅层特征输出“流通”到特定任务分支中。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明装置的结构示意图；

图2为本发明的方法流程图；

图3为本发明神经网络搜索空间的结构示意图；

图4为本发明多分支网络构建的流程图；

图5为本发明Res-Flow方法中残差块的权重矩阵示意图。

具体实施方式

本发明提供了一种自动搭建多任务网络的装置，如图1所示，包括多GPU的服务器，所述服务器配备了四个处理器和显卡、显存，所述服务器上搭载有用于自动搭建多任务网络算法的计算机程序，所述处理器用于执行上述算法的计算机程序，其中自动搭建多任务网络算法包括多分支网络生成模块、Gumbel-Softmax Sampling模块、Res-Flow 模块，所述多分支网络生成模块通过先设置神经网络的所有可能的分支结构，即神经网络的搜索空间，在搜寻分支网络的过程中，在任务相似度高时在任务之间共享参数，在任务相似度低时进行分离，使不同的任务具有不同的参数，最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络；

所述Res-Flow 模块用于将多分支网络的相似度高的任务的底层共享参数按照不同的权重送入不同任务的分支中。

本发明的装置部署在一个多GPU的服务器上，该服务器配备了四个内核数为16的英特尔至强E5-2683 V4处理器，内存大小为512GB；配备了8块英伟达GTX2080的显卡（GPU），共88GB显存。服务器运行在CentOS 7.7.1908的操作系统上。使用的编程语言为Python，涉及的深度学习平台是Pytorch。

本发明还提出了一种自动搭建多任务网络的方法，其流程如图2所示，主要采用如下模块实现：

模块1：多分支网络生成模块

为了解决任务的次优分组会导致不相关的任务之间共享信息和构建多分支网络需要依赖专家经验和大量计算资源的问题，提出了一个多分支任务网络生成方法。

本发明的多分支网络生成模块主要通过先设置神经网络的所有可能的分支结构，即神经网络的搜索空间。在搜寻分支网络的过程中，如果某几个任务使用相同的基本块，则可以认为这几个任务在这个基本块上具有较高的相似度，在网络中该基本块所包含的层在这几个任务上是可以共享的。相反，如果多个任务使用了不同的基本块，则这些任务在此基本块上的相似程度较低，不能共享信息，需要在此基本块上对任务进行分离，避免网络负迁移。最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络。

本发明的多分支网络生成模块使用经过修改后的ResNet50作为骨干网络，修改后的ResNet50共包含5个Basic Block。Block0部分由3个串联的3×3卷积层组成，Block1、Block2、Block3、Block4分别由3、4、6、3个相同的Layer组成，每个Layer包含1×1卷积层、批量归一化层（Batch Normalization，BN）、修正线性单元层（Rectified Linear Unit，ReLu）、3×3卷积层、批量归一化层、修正线性单元层、1×1卷积层、批量归一化层、修正线性单元层，具体的网络结构如表1所示：

表1 多分支网络生成模块的网络结构。

假设使用具有L个基本块的ResNet网络，任务个数为N，神经网络搜索空间的结构可以提出为如图3所示的结构，图3表示了网络的所有可能的分支结构。在搜寻分支网络的过程中，如果某几个任务使用相同的基本块，则可以认为这几个任务在这个基本块上就有较高的相似度，在网络中该基本块所包含的层在这几个任务上是可以共享的。相反，如果多个任务使用了不同的基本块，则这几个任务在此基本块上的相似程度较低，不能共享信息，需要在此基本块上对任务进行分离，避免网络负迁移。

本发明的多分支网络的搭建过程如图4所示。在开始时，使每个任务在每个层中各自使用一个基本块，任务分布情况如图4(a)所示。经过训练后，可以得到不同任务在网络中的分布情况，如图4(b)所示。将图4(b)中任务的分布情况转换为图4(c)所示的位置矩阵，其中某个任务使用基本块的情况可以用位置向量

表示，其中

表示任务task在第i个层中的位置向量，0表示没有使用基本块，1表示使用了这个基本块。如果两个任务在该层的位置向量相同，则认为它们相似度较高，可以使用同一个基本块，而如果不同，则应该在所在层的位置进行分离，以避免网络的负迁移。同时因为这些位置向量是离散分布的，不是可微的，因此本发明使用了Gumbel-Softmax技巧将其替代为相应的Gumbel-Softmax分布的可微样本，以便于网络训练过程中进行梯度更新。

模块2：Gumbel-Softmax Sampling模块

在模块1中，需要用位置向量来确定不同任务使用基本块的情况，但位置向量是离散的，是不可导的，网络无法通过反向传播进行参数更新学习，因此需要Gumbel-Softmax方法来解决。Gumbel-Softmax是一种可以将离散分布的原始不可微样本替换为相应的Gumbel-Softmax分布的可微样本。

本发明采用公式

表示第l个基本块中，任务task的分布向量，其中

表示在第l个基本块中，任务task选择第i个基本块执行的概率。可以使用前人提出的梯度估计器将离散分布放宽为连续且可微的：

；

上式中T表示模块1中所有可能情况的个数，

是随机噪声，

是温度参数，如果τ非常大，则无论

值如何，采样分布几乎是均匀的，这样做的好处是反向传播中产生的梯度是平滑的。上述函数，称为Gumbel-Softmax，该函数使本发明的多分支网络能够通过每个任务task的梯度直接学习非归一化对数概率掩码

。之后，使用argmax离散化

以获得确定最终的一位有效编码。

模块3：Res-Flow 模块

根据上述的模块1，可以根据任务的相似程度将网络搭建为多分支结构的网络，这种结构在任务相似度高时在任务之间共享参数，在任务相似度低时进行分离，使不同的任务具有不同的参数。但即使对相似度高的任务而言，其所需的底层共享的参数也不完全相同。因此，本发明提出了一种Res-Flow方法，将底层的参数根据任务的不同，按照不同的权重，送入不同任务的分支中。

残差连接广泛应用于近些年的神经网络中，并在不同的任务中取得了成功。这种残差连接结构能够建立恒等映射，使得深层网络能够直接利用浅层网络的特征，其可以用公式表示为：

；

其中y_i表示第i个块的输出，f_i表示残差函数，表示学习到的残差。可以根据不同任务对浅层网络特征的需要，为y_i增加一个根据任务不同而变化的权重，可以用公式表示为：

；

其中

表示任务task在的第i个残差块的恒等映射的权重。所有任务在网络中的权重可以用如图5的矩阵表示，网络在训练过程中，利用损失反向传播调整各个任务在每个残差块中的恒等映射的权重，这样每个任务可以根据自身的需要自动地调整浅层网络特征的比重，同时也不会损害其他任务的性能。

本发明解决了现有技术中以下技术问题：1.多任务网络通常为所有任务提供同一张特征图，从而导致多任务网络存在负迁移的问题。导致负迁移的原因可能包括：（1）任务的次优分组会导致不相关的任务之间共享信息。（2）不同的任务需要不同阶段的特征图，有些任务需要低阶图像特征，而有些任务需要高阶图像特征。2.现有的多分支多任务网络要么依靠专家经验要么依赖大量的计算资源进行网络提出，如何使多分支多任务网络结构提出的过程摆脱对专家经验和计算资源的依赖。为了解决以上问题，本发明提出了一种神经结构搜索算法，其搜索空间直接包含了所有可能的分支结构，该算法不使用暴力算法或者贪婪算法确定网络中分支的位置，大大减少了神经结构搜索时所需的计算资源。同时由于在共享的底层网络中，即使不同的任务间具有较高的相似度，所需的特征也不可能完全相同。在分支多任务网络的基础上，提出一种可以根据任务自行调整底层特征权重的Res-Flow方法，对于某些特定的任务，可以使底层共享网络的浅层特征输出“流通”到特定任务分支中。

关于本发明具体结构需要说明的是，本发明采用的各部件模块相互之间的连接关系是确定的、可实现的，除实施例中特殊说明的以外，其特定的连接关系可以带来相应的技术效果，并基于不依赖相应软件程序执行的前提下，解决本发明提出的技术问题，本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及，由上述技术特征带来的常规使用方法、可预期技术效果，除具体说明的以外，均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容，或属于本领域常规技术、公知常识等现有技术，无需赘述，使得本案提供的技术方案是清楚、完整、可实现的，并能根据该技术手段重现或获得相应的实体产品。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1. 一种自动搭建多任务网络的装置，其特征在于：包括多GPU的服务器，所述服务器配备了四个处理器和显卡、显存，所述服务器上搭载有用于自动搭建多任务网络算法的计算机程序，所述处理器用于执行上述算法的计算机程序，其中自动搭建多任务网络算法包括多分支网络生成模块、Gumbel-Softmax Sampling模块、Res-Flow模块，所述多分支网络生成模块通过先设置神经网络的所有可能的分支结构，即神经网络的搜索空间，在搜寻分支网络的过程中，在任务相似度高时在任务之间共享参数，在任务相似度低时进行分离，使不同的任务具有不同的参数，最后通过合并位置向量得到的每个基本块上的任务分布矩阵，根据任务分布矩阵生成最终的分支多任务网络；

2.一种自动搭建多任务网络的方法，其特征在于：包括如下步骤：

3.根据权利要求2所述的一种自动搭建多任务网络的方法，其特征在于：所述分支网络的搭建过程在开始时，使每个任务在每个层中各自使用一个基本块；

4.根据权利要求3所述的一种自动搭建多任务网络的方法，其特征在于：采用Gumbel-Softmax来确定不同任务使用基本块的情况，通过每个任务的梯度直接学习非归一化对数概率掩码，之后使用argmax函数离散化非归一化对数概率掩码以确定最终的一位有效编码。

5.根据权利要求2所述的一种自动搭建多任务网络的方法，其特征在于：所述步骤S2采用残差连接结构建立恒等映射，使深层网络能够直接利用浅层网络的特征，根据不同任务对浅层网络的需要，为基本块的输出增加一个根据任务不同而变化的权重，网络在训练过程中，利用损失反向传播调整各个任务在每个残差块中的恒等映射的权重，每个任务根据自身的需要自动地调整浅层网络特征的比重。

6.根据权利要求2所述的一种自动搭建多任务网络的方法，其特征在于：所述步骤S1中的神经网络采用改进后的ResNet50作为骨干网络，改进后的ResNet50共包含5个BasicBlock，分别为Block0、Block1、Block2、Block3、Block4，其中Block0部分由3个串联的3×3卷积层组成，Block1、Block2、Block3、Block4分别由3、4、6、3个相同的Layer组成，每个Layer包含1×1卷积层、第一批量归一化层、第一修正线性单元层、3×3卷积层、第二批量归一化层、第二修正线性单元层、1×1卷积层、第三批量归一化层、第三修正线性单元层。

7.根据权利要求5所述的一种自动搭建多任务网络的方法，其特征在于：每个任务根据自身的需要自动地调整浅层网络特征的比重的计算公式为：

；

上式中：y_i表示第i个块的输出，f（）表示残差函数，

表示任务task在的第i个残差块的恒等映射的权重，

表示任务task在第i+1个残差块的输出，

表示任务task在第i个残差块的输出，

表示对任务task在第i+1个残差块的输出进行残差计算。