CN113554156B - 基于注意力机制与可变形卷积的多任务图像处理方法 - Google Patents

基于注意力机制与可变形卷积的多任务图像处理方法 Download PDF

Info

Publication number
CN113554156B
CN113554156B CN202111104069.5A CN202111104069A CN113554156B CN 113554156 B CN113554156 B CN 113554156B CN 202111104069 A CN202111104069 A CN 202111104069A CN 113554156 B CN113554156 B CN 113554156B
Authority
CN
China
Prior art keywords
task
features
feature extraction
module
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111104069.5A
Other languages
English (en)
Other versions
CN113554156A (zh
Inventor
黄磊
刘怡彤
魏志强
魏冠群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202111104069.5A priority Critical patent/CN113554156B/zh
Publication of CN113554156A publication Critical patent/CN113554156A/zh
Application granted granted Critical
Publication of CN113554156B publication Critical patent/CN113554156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力机制与可变形卷积的多任务学习模型构建方法,包括:构建共享特征提取网络、构建子任务特征提取网络、优化任务损失函数权重,本发明将注意力机制和可变形卷积结合起来提取特定任务特征,同时对多尺度的特征进行学习来定位具有区分性特征的区域;在损失函数优化方面,设计了损失函数权重按时更新的策略,为困难任务的损失函数加权,减小简单任务权重,实现各任务在训练过程中的动态平衡。

Description

基于注意力机制与可变形卷积的多任务图像处理方法
技术领域
本发明属于图像处理技术领域,特别涉及基于注意力机制与可变形卷积的多任务图像处理方法。
背景技术
多任务学习在学习一个问题的同时,可以通过使用共享表示来获得其他问题的知识。现有的多任务学习网络模型主要分为三类,第一类是硬参数共享,该种共享方式适合用来处理相关性强的任务,硬参数共享将多个任务的特征表示嵌入到相同的语义空间中,然后针对每个任务使用特定于任务的层为每个任务提取特定于任务的特征。第二类是软参数共享,它为每个任务学习一个网络,但是每个任务的网络都可以访问其他任务对应的网络中的信息。软参数共享机制非常灵活,不需要关注各个任务之间的相关性。第三类是分层共享,分层共享在网络的较低层中执行简单的任务,而在较高层中处理困难任务。分层共享比硬参数共享更灵活,并且相比于软参数共享需要更少的参数。
不论是哪种共享方式,在提取共享特征和子任务特征时,大多采用多层普通卷积堆叠的方式。不可否认,普通卷积具有一定的特征提取能力,但是也有一定的局限性。一方面,针对不同的任务,譬如多分类任务,不同的数据集对于最后的分类步骤有较多贡献的特征具有较大差异,普通卷积的简单堆叠并不能针对性地提取出这些区分性区域,与此同时,这些区分性特征的尺度也具有一定的差异。另一方面,普通卷积的几何结构都是固定的,对输入特征图的固定位置进行采样,并且在同一层卷积中,所有的激活单元的感受野是一样的,但不同位置可能对应着不同尺度或形变的物体。同时多任务学习中各个任务对于几何形变的敏感程度有所差异,譬如,当同时处理语义分割和目标检测任进行的精细分割,而目标检测任务物体形变学习程度的要求则相对较小。普通卷积的简单堆叠并不能有效学习到这些针对不同任务有所差异的形变规律。
如何对不同难度,不同特征空间的子任务在训练过程中进行平衡,而不致使简单任务占据主导地位是多任务学习的另一挑战。在多任务损失函数优化方面,我们希望模型的训练对所有任务都有效,但是各任务的训练难度,收敛速度均有所差异,如果凭借经验为每个任务的损失分配固定的权重会导致简单任务训练效果好时复杂任务性能较差,不利于模型的训练。现有的一些方法开始试图探索损失函数权重自适应调整的方法,但计算过程较为复杂。
发明内容
针对现有技术存在的不足,本发明提供基于注意力机制与可变形卷积的多任务图像处理方法,将注意力机制和可变形卷积结合起来提取特定任务特征,同时对多尺度的特征进行学习来定位具有区分性特征的区域;在损失函数优化方面,设计了损失函数权重按时更新的策略,为困难任务的损失函数加权,减小简单任务权重,实现各任务在训练过程中的动态平衡。
为了解决上述技术问题,本发明采用的技术方案是:
基于注意力机制与可变形卷积的多任务图像处理方法,包括以下步骤:
步骤0:获取图像数据;
步骤1:构建共享特征提取网络,用于为不同任务提取公共的特征表达;
步骤2:构建子任务特征提取网络,用于提取不同的任务特征:
所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块;
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征;
步骤3:通过ASPP模块生成不同尺度的特征图,表示为
Figure GDA0003345727610000021
每个特征图都有不同的感受野,作为注意力模块的输入特征图;
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图;
步骤5:使用步骤4得到的这些特定于任务的特征计算最终的任务结果;
步骤6:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
进一步的,所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv,设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure GDA0003345727610000031
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层;
经过步骤1,共享特征提取网络提取到了不同层次特征,后续步骤中,各个子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
进一步的,步骤2中,可变形卷积层首先通过一个平行的标准卷积单元计算偏移量,学习到目标在水平方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置,通过可变形卷积层,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征;
对于子任务i,第j个特征提取模块的输入特征
Figure GDA0003345727610000032
通过可变形卷积层处理后,得到的特征表示为
Figure GDA0003345727610000033
其中Δ表示可变形卷积操作。
进一步的,步骤3中,ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure GDA0003345727610000034
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure GDA0003345727610000035
其中
Figure GDA0003345727610000036
表示经过不同扩张率的空洞卷积得到的特征图,σ代表1×1卷积操作。
进一步的,步骤4中,
首先,通过通道注意力模块在通道维度对输入的特征图
Figure GDA0003345727610000037
进行处理,生成通道注意力特征,即M_c;
其次,将M_c和输入特征图
Figure GDA0003345727610000038
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure GDA0003345727610000039
表示通道注意力模块的一系列操作,e表示对应元素点乘操作;
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure GDA0003345727610000041
作为本模块的输入特征图,生成空间注意力特征,即M_s;
最后,将M_s和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure GDA0003345727610000042
表示空间注意力的一系列操作,e表示对应元素点乘操作。
进一步的,步骤6中,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:定义多任务学习的优化目标Ltotal=αL1+βL2+...γL5,其中L1,L2,L5分别表示子任务的损失函数值,α,β,γ分别对应损失函数当前迭代轮数的权重;在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化;
步骤(2),任务难易程度判定:在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure GDA0003345727610000043
li表示任务i的当前的损失函数值,e代表迭代轮数;每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,最易和最难训练任务损失函数变化率分别表示为max(ΔS1,ΔS2,....ΔSk)和min(ΔS1,ΔS2,....ΔSk);
步骤(3),最难最易任务损失函数权重更新:通过步骤(2),得到了当前轮数最易和最难训练的任务,设定任务1为最难训练的任务,任务5为最易训练的任务,即ΔS1<...<ΔS2<ΔS5,引入变量
Figure GDA0003345727610000044
对最易最难任务的损失函数进行调整:设置任务1损失函数权重为α'=nα,任务5损失函数权重为γ'=γ/n,新一轮的损失函数优化目标重新更新为Ltotal=α'L1+β'L2+...γ'L5
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
本发明还提供基于注意力机制与可变形卷积的多任务图像处理系统,包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,ASPP模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的不同网络层提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
与现有技术相比,本发明优点在于:
(1)针对多任务学习网络模型中缺少对各任务不同形变规律学习的问题,以及缺少机制对各任务关键性区分区域进行定位的问题,本发明将注意力机制与可变形卷积结合起来,二者相互辅助来提取特征。针对每一个特定任务网络的特征提取模块(即子任务特征提取模块),首先使用可变形卷积提取特征,可变形卷积为每一个卷积采样点学习一个额外偏移量,可以根据图像内容进行自适应变化,而不局限于规则区域,这可以使各子任务网络根据任务特点学习到本任务的形变规律。可变形卷积在提取到目标区域特征的同时有一定概率受到背景噪声的影响,由此关注到背景中的部分干扰信息。然后使用注意力机制来处理可变形卷积得到的特征,从而关注到对于最终任务起关键作用的区分性区域。通过一系列的可变形-注意力模块与不同层的共享特征相连,可以更精确提取到针对每个任务的区分性特征。
(2)针对多任务网络结构中特定任务特征提取时,普通卷积的简单堆叠无法捕获到不同尺度区分性特征的问题,本发明将通道注意力机制和空间注意力机制引入到多任务学习领域,同时引入空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)来捕获图像多尺度信息。首先,针对每一个可变形卷积层从共享特征层提取到的特征,同时使用空间注意力和通道注意力从这些特征中定位到具有区分性的区域。为了使注意力模块能关注到不同尺度的区分性特征,本发明在注意力前使用空洞空间卷积池化金字塔,空洞空间卷积池化金字塔提供不同的特征映射,每个特征映射具有不同的尺度,以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文,这种在不同膨胀率之间的密集连接使得模型可以获得更大的感受野以及更多的信息,从而提高各任务精度。
(3)针对多任务网络模型在训练时各子任务不平衡的问题,本发明提出权重定期更新策略,能够促进较难训练的任务而抑制易训练的任务。首先每隔五轮训练,计算各任务的损失函数变化率,并对其进行排序,选出最难与最易训练的任务,按损失函数变化率的比例对困难任务损失函数的权重进行加权,同时减小简单任务损失函数的权重。重复上述步骤,通过这种最难最易任务损失函数权重定期更新,使各任务处于相对均衡的状态。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于注意力机制与可变形卷积的多任务学习模型的框架机构图;
图2为本发明实施例的最难最易任务损失函数权重优化策略示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
结合图1所示模型的架构图,本实施例基于注意力机制与可变形卷积的多任务图像处理方法,包括以下步骤:
步骤0:获取图像数据。
步骤1:构建共享特征提取网络。
共享特征提取网络的作用是为不同任务提取公共的特征表达。以软参数共享方式为例,子任务网络需要从共享特征网络的不同网络层中提取特定于任务的特征。通常根据各子任务类型选择不同的共享特征提取网络。譬如多分类任务可选择ResNet系列网络作为共享特征提取网络,而对于语义分割、深度估计和表面法线估计任务更适合选择SegNet。
同时为了提升网络模型的特征提取能力,使用深度过度参数化卷积层(DepthwiseOver-parameterized Convolutional Layer,DO-Conv)替换共享特征提取网络中的普通卷积层,该方式不增加网络层数,在测试阶段,DO-Conv被折叠为常规卷积,从而使计算量精确地等于卷积层的计算量,而不会导致过参数化。
设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure GDA0003345727610000061
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层。
经过步骤1,共享特征提取网络提取到了不同层次特征。接下来,各个子任务特征提取模块从共享特征提取网络的不同网络层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。下面依次介绍:
步骤2:构建子任务特征提取网络,用于提取不同的任务特征。
子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块。
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征。
可变形卷积层首先通过一个平行的标准卷积单元计算偏移量,学习到目标在水平方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置。通过可变形卷积层,实现了卷积操作由固定采样到不规则采样的变化,且偏移量的学习不需要任何额外监督信息,可以通过反向传播进行端到端的训练。可变形卷积增强了网络空间建模能力,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征。
对于子任务i,第j个特征提取模块的输入特征
Figure GDA0003345727610000071
通过可变形卷积层处理后,得到的特征表示为
Figure GDA0003345727610000072
其中Δ表示可变形卷积操作。
经过步骤2,得到了针对不同任务的具有一定形变规律的特征。
步骤3:通过ASPP模块生成不同尺度的特征图,作为注意力模块的输入特征图。
为了进一步丰富特征表达,使模型关注到不同粒度和尺度的特征,将空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块插入在可变形卷积层之后、注意力模块前。通过ASPP模块生成不同尺度的特征图,每个特征图都有不同的感受野。
ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure GDA0003345727610000081
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure GDA0003345727610000082
其中
Figure GDA0003345727610000083
表示经过不同扩张率的空洞卷积得到的特征图,σ代表1×1卷积操作。
经过步骤3,得到了不同尺度的特征图,每个特征图都有不同的感受野。
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图。
在ASPP模块之后,使用通道注意力模块和空间注意力模块使子任务特征提取网络被引导专注于有意义的特征以获得准确的结果。具体的,
首先,使用通道注意力模块在通道维度对特征进行处理,将输入的特征图
Figure GDA0003345727610000084
分别经过全局最大池化和全局平均池化,得到两个大小为1×1×C的特征图,接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为C/r(r为减少率),激活函数为ReLU,第二层神经元个数为C,这个两层的神经网络是共享的。而后,将MLP输出的特征进行基于对应元素的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征,即M_c。
其次,将M_c和输入特征图
Figure GDA0003345727610000085
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure GDA0003345727610000086
表示通道注意力模块的一系列操作,e表示对应元素点乘操作。
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure GDA0003345727610000087
作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化,得到两个H×W×1的特征图,然后将这两个特征图进行通道拼接。然后经过一个7×7卷积操作,降维成单个通道,即H×W×1。再经过sigmoid生成空间注意力特征,即M_s。
最后,将M_s和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure GDA0003345727610000091
表示空间注意力的一系列操作,e表示对应元素点乘操作。
步骤5:使用步骤4得到的这些特定于任务的特征计算最终的任务结果。
步骤6:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
结合图2所示的损失函数权重优化策略示意图,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:
定义多任务学习的优化目标Ltotal=αL1+βL2+...γL5,其中L1,L2,L5分别表示子任务的损失函数值,α,β,γ分别对应损失函数当前迭代轮数的权重。以多分类任务为例,在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化。
步骤(2),任务难易程度判定:
在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure GDA0003345727610000092
li表示任务i的当前的损失函数值,e代表迭代轮数。本实施例每五轮对损失函数进行一次调整,因此e均为5的倍数。如果ΔS较小,说明该任务的损失变化较慢,较之其他任务更难训练,需要对其分配更高的权重。因此,每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,以便对它们的权重进行调整,最易和最难训练任务损失函数变化率分别表示为max(ΔS1,ΔS2,....ΔSk)和min(ΔS1,ΔS2,....ΔSk)。
步骤(3),最难最易任务损失函数权重更新:
通过步骤(2),得到了当前轮数最易和最难训练的任务,为方便表示,本实施例设定任务1为最难训练的任务,任务5为最易训练的任务,即ΔS1<...<ΔS2<ΔS5,为了防止网络训练被简单任务所主导,需要对任务5进行抑制,同时为任务1设置更高的权重,因此引入变量
Figure GDA0003345727610000093
对最易最难任务的损失函数进行调整:设置任务1损失函数权重为α'=nα,任务5损失函数权重为γ'=γ/n,新一轮的损失函数优化目标重新更新为Ltotal=α'L1+β'L2+...γ'L5
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
作为本发明另一个实施例,提供基于注意力机制与可变形卷积的多任务图像处理系统,包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,ASPP模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的不同网络层(即各个共享特征层)提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
本发明与现有技术相比主要有以下优点:
已有的多任务学习网络模型,大多采用普通卷积简单堆叠的方式来提取各任务特征,普通卷积固有的局限性限制了网络模型的特征提取能力。多任务学习对多个任务进行训练,目标物体可能存在的几何形变对不同任务具有不同程度的影响,同时现有的网络模型缺少一个机制来保证各任务的关键区域被关注。本发明将可变形卷积与注意力机制进行结合,通过可变形卷积为当前采样点增加偏移量,学习到数据集在不同任务的形变规律。由于仅使用可变形卷积可能会关注到背景噪声,因此本发明借助注意力机制,使模型自适应的关注到当前任务的关键区域,在此之前利用空洞空间金字塔池化融合不同尺度的特征以使不同粒度的区分性特征得到关注。通过一系列可变形-注意力模块的顺次连接构成了多任务学习网络中的子任务特征提取网络,自适应地提取特定于任务的特征,促进了多任务学习网络性能的提升。
在多任务损失函数优化设计上,大部分方法引入复杂计算来更新权重参数,增加模型训练的计算量。本发明的方法使用损失权重定时更新的方法,在训练过程中,每隔几个迭代计算各任务损失函数的变化率,通过对困难任务的损失函数进行加权,以及相应比例减小简单任务权重的方法,达到各任务平衡训练的目标,这种设计方法计算简单并且不会引入过多参数。我们提出的一种基于可变形卷积与注意力机制的多任务学习模型,通过在多任务网络结构和多任务损失函数优化两方面的创新设计,显著提升了多任务学习模型的性能。
综上所述,本发明对多任务学习现有的网络模型结构进行改进,将注意力机制和可变形卷积结合起来提取特定任务特征,同时对多尺度的特征进行学习来定位具有区分性特征的区域。在损失函数优化方面,设计了损失函数权重按时更新的策略,为困难任务的损失函数加权,减小简单任务权重,实现各任务在训练过程中的动态平衡。针对多任务学习中特定任务特征提取时普通卷积提取特征能力受限问题,子任务训练过程中优化不平衡问题,本发明有显著改善,可用于目标识别任务、图像分割任务和图像深度估计任务等之间的多任务学习,提高多任务学习模型的性能。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (4)

1.基于注意力机制与可变形卷积的多任务图像处理方法,其特征在于,包括以下步骤:
步骤0:获取图像数据;
步骤1:构建共享特征提取网络,用于为不同任务提取公共的特征表达;
步骤2:构建子任务特征提取网络,用于提取不同的任务特征:
所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、空洞空间卷积池化金字塔模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块;
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征;
可变形卷积层首先通过一个平行的标准卷积单元计算偏移量,学习到目标在水平方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置,通过可变形卷积层,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征;
对于子任务i,第j个特征提取模块的输入特征
Figure FDA0003385788500000011
通过可变形卷积层处理后,得到的特征表示为
Figure FDA0003385788500000012
其中Δ表示可变形卷积操作;
步骤3:通过空洞空间卷积池化金字塔模块生成不同尺度的特征图,表示为
Figure FDA0003385788500000013
每个特征图都有不同的感受野,作为注意力模块的输入特征图;
空洞空间卷积池化金字塔模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure FDA0003385788500000014
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure FDA0003385788500000015
其中
Figure FDA0003385788500000016
表示经过不同扩张率的空洞卷积得到的特征图,σ代表1×1卷积操作;
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图;
首先,通过通道注意力模块在通道维度对输入的特征图
Figure FDA0003385788500000021
进行处理,生成通道注意力特征,即M_c;
其次,将M_c和输入特征图
Figure FDA0003385788500000022
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure FDA0003385788500000023
Figure FDA0003385788500000024
表示通道注意力模块的一系列操作,e表示对应元素点乘操作;
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure FDA0003385788500000025
作为本模块的输入特征图,生成空间注意力特征,即M_s;
最后,将M_s和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure FDA0003385788500000026
Figure FDA0003385788500000027
表示空间注意力的一系列操作,e表示对应元素点乘操作;
步骤5:使用步骤4得到的这些特定于任务的特征计算最终的任务结果;
步骤6:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
2.根据权利要求1所述的基于注意力机制与可变形卷积的多任务图像处理方法,其特征在于,所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv,设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure FDA0003385788500000028
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层;
经过步骤1,共享特征提取网络提取到了不同层次特征,后续步骤中,各个子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
3.根据权利要求1所述的基于注意力机制与可变形卷积的多任务图像处理方法,其特征在于,步骤6中,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:定义多任务学习的优化目标Ltotal=αL1+βL2+...γL5,其中L1,L2,L5分别表示子任务的损失函数值,α,β,γ分别对应损失函数当前迭代轮数的权重;在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化;
步骤(2),任务难易程度判定:在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure FDA0003385788500000031
li表示任务i的当前的损失函数值,e代表迭代轮数;每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,最易和最难训练任务损失函数变化率分别表示为max(ΔS1,ΔS2,....ΔSk)和min(ΔS1,ΔS2,....ΔSk);
步骤(3),最难最易任务损失函数权重更新:通过步骤(2),得到了当前轮数最易和最难训练的任务,设定任务1为最难训练的任务,任务5为最易训练的任务,即ΔS1<...<ΔS2<ΔS5,引入变量
Figure FDA0003385788500000032
对最易最难任务的损失函数进行调整:设置任务1损失函数权重为α'=nα,任务5损失函数权重为γ'=γ/n,新一轮的损失函数优化目标重新更新为Ltotal=α'L1+β'L2+...γ'L5
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
4.一种实现权利要求3所述的基于注意力机制与可变形卷积的多任务图像处理方法的基于注意力机制与可变形卷积的多任务图像处理系统,其特征在于,包括用于获取图像数据的图像数据获取模块、为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、空洞空间卷积池化金字塔模块和注意力模块构成,空洞空间卷积池化金字塔模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
CN202111104069.5A 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法 Active CN113554156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111104069.5A CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111104069.5A CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Publications (2)

Publication Number Publication Date
CN113554156A CN113554156A (zh) 2021-10-26
CN113554156B true CN113554156B (zh) 2022-01-11

Family

ID=78134543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111104069.5A Active CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Country Status (1)

Country Link
CN (1) CN113554156B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868966B (zh) * 2021-12-02 2022-03-18 浙江大学 一种生物质锅炉省煤器结构参数优化设计方法
CN114037024A (zh) * 2022-01-07 2022-02-11 心鉴智控(深圳)科技有限公司 一种基于多任务神经网络数据识别系统及方法
CN115100428B (zh) * 2022-07-01 2024-08-23 天津大学 一种利用上下文感知的目标检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
US11037035B2 (en) * 2019-06-04 2021-06-15 Beijing Institute Of Technology Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111340189B (zh) * 2020-02-21 2023-11-24 之江实验室 一种空间金字塔图卷积网络实现方法
CN111898617B (zh) * 2020-06-29 2022-07-26 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统
CN112084868B (zh) * 2020-08-10 2022-12-23 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
CN112132258B (zh) * 2020-08-26 2022-06-24 中国海洋大学 一种基于可变形卷积的多任务图像处理方法
CN111967480A (zh) * 2020-09-07 2020-11-20 上海海事大学 基于权重共享的多尺度自注意力目标检测方法
CN112801029B (zh) * 2021-02-09 2024-05-28 北京工业大学 基于注意力机制的多任务学习方法
CN113034380B (zh) * 2021-02-09 2022-06-10 浙江大学 基于改进可变形卷积校正的视频时空超分辨率方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法

Also Published As

Publication number Publication date
CN113554156A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN113554156B (zh) 基于注意力机制与可变形卷积的多任务图像处理方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN113628294A (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN109858506B (zh) 一种面向卷积神经网络分类结果的可视化算法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN108596327B (zh) 一种基于深度学习的地震速度谱人工智能拾取方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN112580694B (zh) 基于联合注意力机制的小样本图像目标识别方法及系统
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN113902131B (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
CN113537365B (zh) 一种基于信息熵动态赋权的多任务学习自适应平衡方法
CN111222847A (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN115359366A (zh) 基于参数优化的遥感图像目标检测方法
CN114004333A (zh) 一种基于多假类生成对抗网络的过采样方法
CN111260056B (zh) 一种网络模型蒸馏方法及装置
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
CN113156473B (zh) 信息融合定位系统卫星信号环境的自适应判别方法
CN117671261A (zh) 面向遥感图像的无源域噪声感知域自适应分割方法
CN117437467A (zh) 模型训练方法、装置、电子设备及存储介质
CN116665300A (zh) 基于时空自适应特征融合图卷积网络的骨架动作识别方法
CN112818982B (zh) 基于深度特征自相关性激活的农业害虫图像检测方法
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
CN113011446A (zh) 一种基于多源异构数据学习的智能目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant