CN110796166A

CN110796166A - 一种基于注意力机制的多任务图像处理方法

Info

Publication number: CN110796166A
Application number: CN201910912554.1A
Authority: CN
Inventors: 吕珂杰; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-02-14
Anticipated expiration: 2039-09-25
Also published as: CN110796166B

Abstract

本发明公开了一种基于注意力机制的多任务图像处理方法，用于为给定场景图像同时生成多种图像理解结果，如按照语义对图像进行准确的分割、预测图像中场景表面法线的方向等。具体包括如下步骤：获取用于训练多任务深度学习模型的图像数据集，并定义算法目标；分别构建所需要解决的各个任务的单任务深度学习模型；利用若干共享模块连接各单任务模型，从而构建多任务深度学习模型；使用所述模型生成对于输入图像的多种图像理解结果。本发明适用于真实图像场景的多任务深度学习，面对各类不同任务组合以及各种复杂情况具有较佳的效果和鲁棒性。

Description

一种基于注意力机制的多任务图像处理方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于注意力机制的多任务图像处理方法。

背景技术

在现今社会，随着计算能力的提高以及卷积神经网络等深度学习技术在计算机视觉领域的广泛应用，诸多图像理解任务的性能都有了显著的进步，如语义分割、目标检测、表面发现估计以及属性预测等等。目前许多计算机视觉领域的研究都局限于解决单个图像理解任务，从而使得现有的深度学习模型多为单任务深度学习模型。然而，不同的图像理解任务之间往往存在一定的关联性。以语义分割和表面法线估计任务为例，对一幅图像进行语义分割后所得到结果的边界往往也是对该图像进行表面法线估计后所获得结果的边界。类似的，在属性预测任务当中，不同的属性之间也存在着一定的关联性，比如说拥有“化浓妆”属性的对象会有较大的可能性拥有“女性”属性，而拥有“络腮胡”属性的对象几乎肯定拥有“男性”属性。单任务深度学习仅仅关注单个任务，因此忽视了不同任务之间固有的关联性。与之相反，多任务深度学习同时学习多个任务，并且将提取得到的表征在各任务之间进行一定程度的共享，从而能够充分利用各任务之间的相关性，并且获得泛化能力更强的模型。

现有的多任务深度学习模型大多选择在不同任务间共用卷积神经网络中“较浅”的网络层以实现表征共享，并通过互相独立的“较深”的网络层来产生特定于任务的输出。然而，能够取得最佳性能的多任务卷积神经网络的结构取决于具体的任务组合。因此，给定一组新的任务，我们无法直接判断出网络中的哪些层是需要共享的，哪些层是需要互相独立的。为了能够达到最佳的性能，我们必须训练所有可能的网络结构，然后利用交叉验证从中选取达到最佳性能的网络结构。显然，采取这种方法会显著增加训练模型的成本。此外，卷积神经网络的隐含层特征中存在大量冗余的内容，而现有的多任务深度学习方法在共享特征之前缺乏对特征的预筛选处理，从而限制了模型性能的进一步提升。

发明内容

为解决上述问题，本发明的目的在于提供一种基于注意力机制的多任务图像处理方法，为给定场景图像同时生成多种图像理解结果。本方法利用若干共享模块连接各单任务子网络，并在各任务之间实现了表征的共享。通过学习共享模块中的参数，本方法能够自适应地学习出合适的表征共享方式，从而避免了训练所有可能网络结构所带来的巨大计算开销。此外，本方法通过注意力机制对共享模块的输入特征进行了预筛选，从而保留了有效特征而剔除了冗余特征。

为实现上述目的，本发明的技术方案为：

一种基于注意力机制的多任务图像处理方法，包括以下步骤：

S1、获取用于训练多任务深度学习模型的图像数据集，并定义算法目标；

S2、分别构建所需要解决的各个任务的单任务深度学习模型并进行预训练；

S3、利用若干共享模块连接各单任务模型，从而构建多任务深度学习模型并进行训练；

S4、使用训练好的多任务深度学习模型生成对于输入图像的多种图像理解结果。

进一步的，步骤S1中，所述的图像数据集包括图像X_train以及与各任务相对应的人工标注Y_train＝{Y_train-1,Y_train-2,…,Y_train-K},Y_train-k代表任务k所对应的人工标注，K代表任务总数；

定义算法目标为：给定输入图像X，同时完成若干相关的图像理解任务。

进一步的，步骤S2具体包括：

S21、针对需要解决的K个相关任务，建立相应的单任务深度卷积神经网络M_single＝{M_single-1,M_single-2,…,M_single-K}，网络M_single-k的输入是一幅图像X，输出则为任务k所对应的图像理解目标

S22、针对需要解决的K个相关任务，分别定义各自的损失函数；

S23、使用带动量的随机梯度下降和反向传播算法预训练各任务所对应的单任务神经网络。

进一步的，步骤S3具体包括：

S31、利用若干共享模块连接各单任务模型，所述共享模块采用某两个单任务神经网络M_single-i和M_single-j第l层隐藏层特征f_li和f_lj作为输入，其输出O_li和O_lj则分别作为M_single-i和M_single-j第l+1层隐藏层的输入；

S32、在共享模块中，分别采用两个通道维度的注意力模块A₁和A₂对输入f_li和f_lj进行预筛选，注意力模块对输入特征f的预筛选过程可表示为：

其中

表示全局池化处理，

和分别表示ReLU和sigmoid非线性函数，W₁、b₁、W₂和b₂分别表示两个全连接层的权重和偏置，表示以sigmoid函数的输出作为各对应通道上权重对输入特征f进行重标定；

S33、对输入f_li和f_lj进行预筛选后，共享模块在通道维度上将筛选后的特征f’_li和f’_lj拼接在一起，得到特征f’_l；

S34、对于拼接后的特征f’_l，共享模块采用瓶颈层对其进行进一步的处理，可表示为映射

其中C表示特征f’_l的通道数，@后面的值表示对应卷积层的输出通道数；

S35、共享模块通过跳跃式连接结构分别将输入特征f_li和f_lj与瓶颈层输出O_l相加，从而得到共享模块的输出O_li和O_lj，可表示为：

O_li＝f_li+O_l 公式(2)

O_lj＝f_lj+O_l 公式(3)

S36、对于多任务深度学习模型中单任务子网络部分的参数，分别采用对应的预训练参数进行初始化；对于多任务深度学习模型中共享模块部分的参数，则采用随机初始化；

S37、使用带动量的随机梯度下降和反向传播算法训练整个多任务神经网络。

进一步的，步骤S4中，使用所述模型生成对于输入图像的多种图像理解结果具体包括：将场景图像X输入训练好的神经网络，各单任务子网络的输出即对应任务所要求的图像理解结果。

本发明的基于注意力机制的多任务图像处理方法，相比于现有的多任务图像处理方法，具有以下有益效果：

首先，本发明利用若干共享模块连接各单任务子网络，在各任务之间实现表征的共享。通过学习共享模块中的参数，本发明能够自适应地学习出合适的表征共享方式，从而简化了多任务深度学习模型的设计过程。

其次，本发明通过引入注意力机制，在共享特征之前对特征进行预筛选，保留有效特征并剔除冗余特征，从而进一步增强了模型的性能。

本发明的基于注意力机制的多任务图像处理方法在智能机器人和无人驾驶等系统里具有良好的应用价值，能够有效提高图像理解任务的性能。例如，在智能机器人系统里，本发明的多任务图像处理方法可以同时解决语义分割和表面法线估计任务，并通过充分利用任务之间的相关信息来进一步提升算法有效性和鲁棒性，从而使得智能机器人系统能够对场景进行更为准确的理解。

附图说明

图1为本发明的基于注意力机制的多任务图像处理方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，基于注意力机制的多任务图像处理方法，包括以下步骤：

首先，获取用于训练多任务深度学习模型的图像数据集。其中，用于训练多任务深度学习模型的图像数据集，包括图像X_train以及与各任务相对应的人工标注Y_train＝{Y_train-1,Y_train-2,…,Y_train-K},Y_train-k代表任务k所对应的人工标注，K代表任务总数；

其次，分别构建所需要解决的各个任务的单任务深度学习模型。具体的，其包括如下步骤：

第一步，针对需要解决的K个相关任务，建立相应的单任务深度卷积神经网络M_single＝{M_single-1,M_single-2,…,M_single-K}，网络M_single-k的输入是一幅图像X，输出则为任务k所对应的图像理解目标

第二步，针对需要解决的K个相关任务，分别定义各自的损失函数。以表面法线估计任务为例，其损失函数采用下式进行计算：

其中，

和

分别表示图像X中像素点i处归一化后的表面法线预测值和标注值，n表示图像X中像素点的总数；

第三步，使用带动量的随机梯度下降和反向传播算法预训练各任务所对应的单任务神经网络，动量值采用0.9。

之后，利用若干共享模块连接各单任务模型，从而构建多任务深度学习模型。具体包括：

第一步，利用若干共享模块连接各单任务模型，从而建立多任务深度学习模型。共享模块采用某两个单任务神经网络M_single-i和M_single-j第l层隐藏层特征f_li和f_lj作为输入，其输出O_li和O_lj则分别作为M_single-i和M_single-j第l+1层隐藏层的输入；

第二步，在共享模块中，首先分别采用两个通道维度的注意力模块A₁和A₂对输入f_li和f_lj进行预筛选，以滤除输入中冗余的内容。注意力模块对输入特征f的预筛选过程可表示为：

其中

表示全局池化处理，

和

分别表示ReLU和sigmoid非线性函数，W₁、b₁、W₂和b₂分别表示两个全连接层的权重和偏置，

表示以sigmoid函数的输出作为各对应通道上权重对输入特征f进行重标定；

第三步，对输入f_li和f_lj进行预筛选后，共享模块在通道维度上将筛选后的特征f’_li和f’_lj拼接在一起，得到特征f’_l；

第四步，对于拼接后的特征f’_l，共享模块采用瓶颈层对其进行进一步的处理，可表示为映射

(ReLU层和BatchNormalization层已省略)，其中C表示特征f’_l的通道数，@后面的值表示对应卷积层的输出通道数。

第五步，为弥补瓶颈层中降维操作带来的信息损失，共享模块通过跳跃式连接结构分别将输入特征f_li和f_lj与瓶颈层输出O_l相加，从而得到共享模块的输出O_li和O_lj，可表示为：

O_li＝f_li+O_l 公式(3)

O_lj＝f_li+O_l 公式(4)

第六步，对于多任务深度学习模型中单任务子网络部分的参数，分别采用对应的预训练参数进行初始化；对于多任务深度学习模型中共享模块部分的参数，则采用随机初始化；

第七步，使用带动量的随机梯度下降和反向传播算法训练整个多任务神经网络，动量值采用0.9。

最后，使用所述模型生成对于输入图像的多种图像理解结果。具体包括：将场景图像X输入训练好的神经网络，各单任务子网络的输出即对应任务所要求的图像理解结果。

上述实施例中，本发明的多任务图像处理方法首先针对要解决的各项任务对各单任务网络进行预训练。在此基础上，使用若干共享模块连接各单任务子网络，在各任务之间实现表征的共享，并且利用注意力机制在共享特征之前对特征进行预筛选。最后，利用训练好的模型为给定场景图像同时生成多种图像理解结果。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种多任务图像处理方法。本发明通过引入共享模块，将表征共享方式的选择问题转化为共享模块中参数的学习问题，从而使得模型能够自适应地学习出合理的表征共享方式，从而产生更为准确的图像理解结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的多任务图像处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于注意力机制的多任务图像处理方法，其特征在于，步骤S1中，所述的图像数据集包括图像X_train以及与各任务相对应的人工标注Y_train＝{Y_train-1,Y_train-2,…,Y_train-K},Y_train-k代表任务k所对应的人工标注，K代表任务总数；

3.如权利要求2所述的基于注意力机制的多任务图像处理方法，其特征在于，步骤S2具体包括：

4.如权利要求3所述的基于注意力机制的多任务图像处理方法，其特征在于，步骤S3具体包括：

其中

表示全局池化处理，

和

O_li＝f_li+O_l 公式(2)

O_lj＝f_lj+O_l 公式(3)

5.如权利要求4所述的基于注意力机制的多任务图像处理方法，其特征在于，步骤S4中，使用所述模型生成对于输入图像的多种图像理解结果具体包括：将场景图像X输入训练好的神经网络，各单任务子网络的输出即对应任务所要求的图像理解结果。