CN113554156B

CN113554156B - 基于注意力机制与可变形卷积的多任务图像处理方法

Info

Publication number: CN113554156B
Application number: CN202111104069.5A
Authority: CN
Inventors: 黄磊; 刘怡彤; 魏志强; 魏冠群
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-01-11
Anticipated expiration: 2041-09-22
Also published as: CN113554156A

Abstract

本发明公开了基于注意力机制与可变形卷积的多任务学习模型构建方法，包括：构建共享特征提取网络、构建子任务特征提取网络、优化任务损失函数权重，本发明将注意力机制和可变形卷积结合起来提取特定任务特征，同时对多尺度的特征进行学习来定位具有区分性特征的区域；在损失函数优化方面，设计了损失函数权重按时更新的策略，为困难任务的损失函数加权，减小简单任务权重，实现各任务在训练过程中的动态平衡。

Description

基于注意力机制与可变形卷积的多任务图像处理方法

技术领域

本发明属于图像处理技术领域，特别涉及基于注意力机制与可变形卷积的多任务图像处理方法。

背景技术

多任务学习在学习一个问题的同时，可以通过使用共享表示来获得其他问题的知识。现有的多任务学习网络模型主要分为三类，第一类是硬参数共享，该种共享方式适合用来处理相关性强的任务，硬参数共享将多个任务的特征表示嵌入到相同的语义空间中，然后针对每个任务使用特定于任务的层为每个任务提取特定于任务的特征。第二类是软参数共享，它为每个任务学习一个网络，但是每个任务的网络都可以访问其他任务对应的网络中的信息。软参数共享机制非常灵活，不需要关注各个任务之间的相关性。第三类是分层共享，分层共享在网络的较低层中执行简单的任务，而在较高层中处理困难任务。分层共享比硬参数共享更灵活，并且相比于软参数共享需要更少的参数。

不论是哪种共享方式，在提取共享特征和子任务特征时，大多采用多层普通卷积堆叠的方式。不可否认，普通卷积具有一定的特征提取能力，但是也有一定的局限性。一方面，针对不同的任务，譬如多分类任务，不同的数据集对于最后的分类步骤有较多贡献的特征具有较大差异，普通卷积的简单堆叠并不能针对性地提取出这些区分性区域，与此同时，这些区分性特征的尺度也具有一定的差异。另一方面，普通卷积的几何结构都是固定的，对输入特征图的固定位置进行采样，并且在同一层卷积中，所有的激活单元的感受野是一样的，但不同位置可能对应着不同尺度或形变的物体。同时多任务学习中各个任务对于几何形变的敏感程度有所差异，譬如，当同时处理语义分割和目标检测任进行的精细分割，而目标检测任务物体形变学习程度的要求则相对较小。普通卷积的简单堆叠并不能有效学习到这些针对不同任务有所差异的形变规律。

如何对不同难度，不同特征空间的子任务在训练过程中进行平衡，而不致使简单任务占据主导地位是多任务学习的另一挑战。在多任务损失函数优化方面，我们希望模型的训练对所有任务都有效，但是各任务的训练难度，收敛速度均有所差异，如果凭借经验为每个任务的损失分配固定的权重会导致简单任务训练效果好时复杂任务性能较差，不利于模型的训练。现有的一些方法开始试图探索损失函数权重自适应调整的方法，但计算过程较为复杂。

发明内容

针对现有技术存在的不足，本发明提供基于注意力机制与可变形卷积的多任务图像处理方法，将注意力机制和可变形卷积结合起来提取特定任务特征，同时对多尺度的特征进行学习来定位具有区分性特征的区域；在损失函数优化方面，设计了损失函数权重按时更新的策略，为困难任务的损失函数加权，减小简单任务权重，实现各任务在训练过程中的动态平衡。

为了解决上述技术问题，本发明采用的技术方案是：

基于注意力机制与可变形卷积的多任务图像处理方法，包括以下步骤：

步骤0：获取图像数据；

步骤1：构建共享特征提取网络，用于为不同任务提取公共的特征表达；

步骤2：构建子任务特征提取网络，用于提取不同的任务特征：

所述子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成，所述注意力模块包括通道注意力模块和空间注意力模块；

其中，在提取特征时，选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征；

步骤3：通过ASPP模块生成不同尺度的特征图，表示为

每个特征图都有不同的感受野，作为注意力模块的输入特征图；

步骤4：依次通过注意力模块的通道注意力和空间注意力处理特征，获得最终对任务起关键作用的不同尺度的特征图；

步骤5：使用步骤4得到的这些特定于任务的特征计算最终的任务结果；

步骤6：优化任务损失函数权重，定期更新：对所有任务的难易程度进行排序，并为困难任务的损失函数加权、分配更高的权重，减小简单任务权重。

进一步的，所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv，设共享特征提取网络共包含L层共享特征层，第j层提取到的共享特征表示为：

其中D表示一个DO-Conv单元，包含DO-Conv层、池化层和归一化层；

经过步骤1，共享特征提取网络提取到了不同层次特征，后续步骤中，各个子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征，并使用这些特定于任务的特征计算最终的任务结果。

进一步的，步骤2中，可变形卷积层首先通过一个平行的标准卷积单元计算偏移量，学习到目标在水平方向与竖直方向的位置变化；之后以此偏移输出为指导，对原固定采样点进行水平、竖直方向上的位置调整，得到最终的采样点位置，通过可变形卷积层，能够根据子任务的内容特点对目标的形变规律进行学习，得到了针对不同任务的具有一定形变规律的特征；

对于子任务i，第j个特征提取模块的输入特征

通过可变形卷积层处理后，得到的特征表示为

其中Δ表示可变形卷积操作。

进一步的，步骤3中，ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成，扩张率分别为1、6、12、18，

在平行的空洞卷积层之后，由一个卷积核大小为1×1，步长为1的卷积层将不同尺度的特征图拼接在一起；最终得到的特征表示为：

其中

表示经过不同扩张率的空洞卷积得到的特征图，σ代表1×1卷积操作。

进一步的，步骤4中，

首先，通过通道注意力模块在通道维度对输入的特征图

进行处理，生成通道注意力特征，即M_c；

其次，将M_c和输入特征图

进行对应元素点乘操作，生成空间注意力模块需要的输入特征

表示通道注意力模块的一系列操作，e表示对应元素点乘操作；

然后，使用空间注意力模块处理特征，将通道注意力模块输出的特征图

作为本模块的输入特征图，生成空间注意力特征，即M_s；

最后，将M_s和空间注意力模块的输入特征进行对应元素点乘操作，得到最终生成的特征

表示空间注意力的一系列操作，e表示对应元素点乘操作。

进一步的，步骤6中，具体包括以下步骤：

步骤(1)，子任务损失函数权重初始化：定义多任务学习的优化目标L_total＝αL₁+βL₂+...γL₅，其中L₁，L₂，L₅分别表示子任务的损失函数值，α，β，γ分别对应损失函数当前迭代轮数的权重；在权重初始化阶段为各个任务分配相同的权重；设共有K个任务，每个任务损失函数的权重在训练初始时设置为1/K，对网络进行优化；

步骤(2)，任务难易程度判定：在训练过程中，每经过五个迭代，计算每个子任务的损失函数变化率

l_i表示任务i的当前的损失函数值，e代表迭代轮数；每隔五轮，对所有任务的损失函数变化率进行排序，选出当前迭代次数最易训练的任务和最难训练的任务，最易和最难训练任务损失函数变化率分别表示为max(ΔS₁,ΔS₂,....ΔS_k)和min(ΔS₁,ΔS₂,....ΔS_k)；

步骤(3)，最难最易任务损失函数权重更新：通过步骤(2)，得到了当前轮数最易和最难训练的任务，设定任务1为最难训练的任务，任务5为最易训练的任务，即ΔS₁＜...＜ΔS₂＜ΔS₅，引入变量

对最易最难任务的损失函数进行调整：设置任务1损失函数权重为α'＝nα，任务5损失函数权重为γ'＝γ/n，新一轮的损失函数优化目标重新更新为L_total＝α'L₁+β'L₂+...γ'L₅；

步骤(4)，迭代步骤(1)-(3)，随着模型的训练，每五个迭代计算最难训练和最易训练的任务，对各任务权重进行更新。

本发明还提供基于注意力机制与可变形卷积的多任务图像处理系统，包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络；所述共享特征提取网络包含L层共享特征层，提取不同层次特征，所述子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成，ASPP模块在可变形卷积层之后、注意力模块前，所述注意力模块包括通道注意力和空间注意力模块；各子任务特征提取模块从共享特征提取网络的不同网络层提取特定于任务的特征，并使用这些特定于任务的特征计算最终的任务结果。

与现有技术相比，本发明优点在于：

(1)针对多任务学习网络模型中缺少对各任务不同形变规律学习的问题，以及缺少机制对各任务关键性区分区域进行定位的问题，本发明将注意力机制与可变形卷积结合起来，二者相互辅助来提取特征。针对每一个特定任务网络的特征提取模块(即子任务特征提取模块)，首先使用可变形卷积提取特征，可变形卷积为每一个卷积采样点学习一个额外偏移量，可以根据图像内容进行自适应变化，而不局限于规则区域，这可以使各子任务网络根据任务特点学习到本任务的形变规律。可变形卷积在提取到目标区域特征的同时有一定概率受到背景噪声的影响，由此关注到背景中的部分干扰信息。然后使用注意力机制来处理可变形卷积得到的特征，从而关注到对于最终任务起关键作用的区分性区域。通过一系列的可变形-注意力模块与不同层的共享特征相连，可以更精确提取到针对每个任务的区分性特征。

(2)针对多任务网络结构中特定任务特征提取时，普通卷积的简单堆叠无法捕获到不同尺度区分性特征的问题，本发明将通道注意力机制和空间注意力机制引入到多任务学习领域，同时引入空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling，ASPP)来捕获图像多尺度信息。首先，针对每一个可变形卷积层从共享特征层提取到的特征，同时使用空间注意力和通道注意力从这些特征中定位到具有区分性的区域。为了使注意力模块能关注到不同尺度的区分性特征，本发明在注意力前使用空洞空间卷积池化金字塔，空洞空间卷积池化金字塔提供不同的特征映射，每个特征映射具有不同的尺度，以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文，这种在不同膨胀率之间的密集连接使得模型可以获得更大的感受野以及更多的信息，从而提高各任务精度。

(3)针对多任务网络模型在训练时各子任务不平衡的问题，本发明提出权重定期更新策略，能够促进较难训练的任务而抑制易训练的任务。首先每隔五轮训练，计算各任务的损失函数变化率，并对其进行排序，选出最难与最易训练的任务，按损失函数变化率的比例对困难任务损失函数的权重进行加权，同时减小简单任务损失函数的权重。重复上述步骤，通过这种最难最易任务损失函数权重定期更新，使各任务处于相对均衡的状态。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于注意力机制与可变形卷积的多任务学习模型的框架机构图；

图2为本发明实施例的最难最易任务损失函数权重优化策略示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

结合图1所示模型的架构图，本实施例基于注意力机制与可变形卷积的多任务图像处理方法，包括以下步骤：

步骤0：获取图像数据。

步骤1：构建共享特征提取网络。

共享特征提取网络的作用是为不同任务提取公共的特征表达。以软参数共享方式为例，子任务网络需要从共享特征网络的不同网络层中提取特定于任务的特征。通常根据各子任务类型选择不同的共享特征提取网络。譬如多分类任务可选择ResNet系列网络作为共享特征提取网络，而对于语义分割、深度估计和表面法线估计任务更适合选择SegNet。

同时为了提升网络模型的特征提取能力，使用深度过度参数化卷积层(DepthwiseOver-parameterized Convolutional Layer，DO-Conv)替换共享特征提取网络中的普通卷积层，该方式不增加网络层数，在测试阶段，DO-Conv被折叠为常规卷积，从而使计算量精确地等于卷积层的计算量，而不会导致过参数化。

设共享特征提取网络共包含L层共享特征层，第j层提取到的共享特征表示为：

其中D表示一个DO-Conv单元，包含DO-Conv层、池化层和归一化层。

经过步骤1，共享特征提取网络提取到了不同层次特征。接下来，各个子任务特征提取模块从共享特征提取网络的不同网络层中提取特定于任务的特征，并使用这些特定于任务的特征计算最终的任务结果。下面依次介绍：

步骤2：构建子任务特征提取网络，用于提取不同的任务特征。

子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成，所述注意力模块包括通道注意力模块和空间注意力模块。

其中，在提取特征时，选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征。

可变形卷积层首先通过一个平行的标准卷积单元计算偏移量，学习到目标在水平方向与竖直方向的位置变化；之后以此偏移输出为指导，对原固定采样点进行水平、竖直方向上的位置调整，得到最终的采样点位置。通过可变形卷积层，实现了卷积操作由固定采样到不规则采样的变化，且偏移量的学习不需要任何额外监督信息，可以通过反向传播进行端到端的训练。可变形卷积增强了网络空间建模能力，能够根据子任务的内容特点对目标的形变规律进行学习，得到了针对不同任务的具有一定形变规律的特征。

对于子任务i，第j个特征提取模块的输入特征

通过可变形卷积层处理后，得到的特征表示为

其中Δ表示可变形卷积操作。

经过步骤2，得到了针对不同任务的具有一定形变规律的特征。

步骤3：通过ASPP模块生成不同尺度的特征图，作为注意力模块的输入特征图。

为了进一步丰富特征表达，使模型关注到不同粒度和尺度的特征，将空洞空间金字塔池化(Atrous Spatial Pyramid Pooling，ASPP)模块插入在可变形卷积层之后、注意力模块前。通过ASPP模块生成不同尺度的特征图，每个特征图都有不同的感受野。

ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成，扩张率分别为1、6、12、18，

其中

经过步骤3，得到了不同尺度的特征图，每个特征图都有不同的感受野。

步骤4：依次通过注意力模块的通道注意力和空间注意力处理特征，获得最终对任务起关键作用的不同尺度的特征图。

在ASPP模块之后，使用通道注意力模块和空间注意力模块使子任务特征提取网络被引导专注于有意义的特征以获得准确的结果。具体的，

首先，使用通道注意力模块在通道维度对特征进行处理，将输入的特征图

分别经过全局最大池化和全局平均池化，得到两个大小为1×1×C的特征图，接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为C/r(r为减少率)，激活函数为ReLU，第二层神经元个数为C，这个两层的神经网络是共享的。而后，将MLP输出的特征进行基于对应元素的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征，即M_c。

其次，将M_c和输入特征图

表示通道注意力模块的一系列操作，e表示对应元素点乘操作。

作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化，得到两个H×W×1的特征图，然后将这两个特征图进行通道拼接。然后经过一个7×7卷积操作，降维成单个通道，即H×W×1。再经过sigmoid生成空间注意力特征，即M_s。

表示空间注意力的一系列操作，e表示对应元素点乘操作。

步骤5：使用步骤4得到的这些特定于任务的特征计算最终的任务结果。

结合图2所示的损失函数权重优化策略示意图，具体包括以下步骤：

步骤(1)，子任务损失函数权重初始化：

定义多任务学习的优化目标L_total＝αL₁+βL₂+...γL₅，其中L₁，L₂，L₅分别表示子任务的损失函数值，α，β，γ分别对应损失函数当前迭代轮数的权重。以多分类任务为例，在权重初始化阶段为各个任务分配相同的权重；设共有K个任务，每个任务损失函数的权重在训练初始时设置为1/K，对网络进行优化。

步骤(2)，任务难易程度判定：

在训练过程中，每经过五个迭代，计算每个子任务的损失函数变化率

l_i表示任务i的当前的损失函数值，e代表迭代轮数。本实施例每五轮对损失函数进行一次调整，因此e均为5的倍数。如果ΔS较小，说明该任务的损失变化较慢，较之其他任务更难训练，需要对其分配更高的权重。因此，每隔五轮，对所有任务的损失函数变化率进行排序，选出当前迭代次数最易训练的任务和最难训练的任务，以便对它们的权重进行调整，最易和最难训练任务损失函数变化率分别表示为max(ΔS₁,ΔS₂,....ΔS_k)和min(ΔS₁,ΔS₂,....ΔS_k)。

步骤(3)，最难最易任务损失函数权重更新：

通过步骤(2)，得到了当前轮数最易和最难训练的任务，为方便表示，本实施例设定任务1为最难训练的任务，任务5为最易训练的任务，即ΔS₁＜...＜ΔS₂＜ΔS₅，为了防止网络训练被简单任务所主导，需要对任务5进行抑制，同时为任务1设置更高的权重，因此引入变量

对最易最难任务的损失函数进行调整：设置任务1损失函数权重为α'＝nα，任务5损失函数权重为γ'＝γ/n，新一轮的损失函数优化目标重新更新为L_total＝α'L₁+β'L₂+...γ'L₅。

作为本发明另一个实施例，提供基于注意力机制与可变形卷积的多任务图像处理系统，包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络；所述共享特征提取网络包含L层共享特征层，提取不同层次特征，所述子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成，ASPP模块在可变形卷积层之后、注意力模块前，所述注意力模块包括通道注意力和空间注意力模块；各子任务特征提取模块从共享特征提取网络的不同网络层(即各个共享特征层)提取特定于任务的特征，并使用这些特定于任务的特征计算最终的任务结果。

本发明与现有技术相比主要有以下优点：

已有的多任务学习网络模型，大多采用普通卷积简单堆叠的方式来提取各任务特征，普通卷积固有的局限性限制了网络模型的特征提取能力。多任务学习对多个任务进行训练，目标物体可能存在的几何形变对不同任务具有不同程度的影响，同时现有的网络模型缺少一个机制来保证各任务的关键区域被关注。本发明将可变形卷积与注意力机制进行结合，通过可变形卷积为当前采样点增加偏移量，学习到数据集在不同任务的形变规律。由于仅使用可变形卷积可能会关注到背景噪声，因此本发明借助注意力机制，使模型自适应的关注到当前任务的关键区域，在此之前利用空洞空间金字塔池化融合不同尺度的特征以使不同粒度的区分性特征得到关注。通过一系列可变形-注意力模块的顺次连接构成了多任务学习网络中的子任务特征提取网络，自适应地提取特定于任务的特征，促进了多任务学习网络性能的提升。

在多任务损失函数优化设计上，大部分方法引入复杂计算来更新权重参数，增加模型训练的计算量。本发明的方法使用损失权重定时更新的方法，在训练过程中，每隔几个迭代计算各任务损失函数的变化率，通过对困难任务的损失函数进行加权，以及相应比例减小简单任务权重的方法，达到各任务平衡训练的目标，这种设计方法计算简单并且不会引入过多参数。我们提出的一种基于可变形卷积与注意力机制的多任务学习模型，通过在多任务网络结构和多任务损失函数优化两方面的创新设计，显著提升了多任务学习模型的性能。

综上所述，本发明对多任务学习现有的网络模型结构进行改进，将注意力机制和可变形卷积结合起来提取特定任务特征，同时对多尺度的特征进行学习来定位具有区分性特征的区域。在损失函数优化方面，设计了损失函数权重按时更新的策略，为困难任务的损失函数加权，减小简单任务权重，实现各任务在训练过程中的动态平衡。针对多任务学习中特定任务特征提取时普通卷积提取特征能力受限问题，子任务训练过程中优化不平衡问题，本发明有显著改善，可用于目标识别任务、图像分割任务和图像深度估计任务等之间的多任务学习，提高多任务学习模型的性能。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于注意力机制与可变形卷积的多任务图像处理方法，其特征在于，包括以下步骤：

步骤0：获取图像数据；

所述子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、空洞空间卷积池化金字塔模块和注意力模块构成，所述注意力模块包括通道注意力模块和空间注意力模块；

可变形卷积层首先通过一个平行的标准卷积单元计算偏移量，学习到目标在水平方向与竖直方向的位置变化；之后以此偏移输出为指导，对原固定采样点进行水平、竖直方向上的位置调整，得到最终的采样点位置，通过可变形卷积层，能够根据子任务的内容特点对目标的形变规律进行学习，得到了针对不同任务的具有一定形变规律的特征；

对于子任务i，第j个特征提取模块的输入特征

通过可变形卷积层处理后，得到的特征表示为

其中Δ表示可变形卷积操作；

步骤3：通过空洞空间卷积池化金字塔模块生成不同尺度的特征图，表示为

空洞空间卷积池化金字塔模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成，扩张率分别为1、6、12、18，

其中

表示经过不同扩张率的空洞卷积得到的特征图，σ代表1×1卷积操作；

首先，通过通道注意力模块在通道维度对输入的特征图

进行处理，生成通道注意力特征，即M_c；

其次，将M_c和输入特征图

作为本模块的输入特征图，生成空间注意力特征，即M_s；

表示空间注意力的一系列操作，e表示对应元素点乘操作；

2.根据权利要求1所述的基于注意力机制与可变形卷积的多任务图像处理方法，其特征在于，所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv，设共享特征提取网络共包含L层共享特征层，第j层提取到的共享特征表示为：

3.根据权利要求1所述的基于注意力机制与可变形卷积的多任务图像处理方法，其特征在于，步骤6中，具体包括以下步骤：

4.一种实现权利要求3所述的基于注意力机制与可变形卷积的多任务图像处理方法的基于注意力机制与可变形卷积的多任务图像处理系统，其特征在于，包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络；所述共享特征提取网络包含L层共享特征层，提取不同层次特征，所述子任务特征提取网络包括提取不同任务的子任务特征提取模块，每个子任务特征提取模块由可变形卷积层、空洞空间卷积池化金字塔模块和注意力模块构成，空洞空间卷积池化金字塔模块在可变形卷积层之后、注意力模块前，所述注意力模块包括通道注意力和空间注意力模块；各子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征，并使用这些特定于任务的特征计算最终的任务结果。