CN108647684A

CN108647684A - 一种基于引导注意力推理网络的弱监督语义分割方法

Info

Publication number: CN108647684A
Application number: CN201810407408.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-10-12

Abstract

本发明中提出的一种基于引导注意力推理网络的弱监督语义分割方法，其主要内容包括：对网络注意力的自我引导、整合额外的监督，其过程为，引导注意力推理网络具有分类流和注意力挖掘两个网络流，分类流有助于识别类的区域，注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中，使注意力图变得更加完整、准确，通过这两种损失函数可以联合生成和训练注意力图；引入引导注意力推理网络的扩展，在弱监督的学习框架中无缝集成额外的监督，从而控制注意力图学习过程。本发明基于一个端到端的框架，可以在训练阶段直接将特定任务的监督应用于注意力图上，且可以减少弱监督和额外监督之间的差距，提高了其泛化性能。

Description

一种基于引导注意力推理网络的弱监督语义分割方法

技术领域

本发明涉及语义分割领域，尤其是涉及了一种基于引导注意力推理网络的弱监督语义分割方法。

背景技术

随着互联网的普及和多媒体技术的飞速发展，以图像为代表的多媒体信息呈现爆炸式增长的趋势，给图像的储存、管理和检索带了巨大的挑战。因此，如何实现对海量图像数据进行有效的识别、分类和管理成为了亟待解决的问题。图像语义分割是图像处理与分析的关键环节，也是计算机视觉领域中一个经典的研究分支。通过图像语义分割技术，可以对图像中的主要目标进行分割和识别，从而实现对图像信息的处理和分析。在医学领域，通过图像语义分割技术可以使计算机自动分割出病灶，进行后续的图像处理步骤，协助医生进行诊断和治疗。在交通领域，图像语义分割技术可以结合车载摄像头，对实时场景中的行人、树木、交通指示牌、障碍物等进行识别和分割，从而辅助驾驶员进行路况分析。在军事领域，图像语义分割技术可以对无人机等拍摄的图片等进行分割处理，帮助侦察员快速获取目标位置的相关情况。现有的语义分割方法无法完全将目标与背景分开，造成目标分割模糊和不准确的问题。

本发明提出了一种基于引导注意力推理网络的弱监督语义分割方法，引导注意力推理网络具有分类流和注意力挖掘两个网络流，分类流有助于识别类的区域，注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中，使注意力图变得更加完整、准确，通过这两种损失函数可以联合生成和训练注意力图；引入引导注意力推理网络的扩展，在弱监督的学习框架中无缝集成额外的监督，从而控制注意力图学习过程。本发明基于一个端到端的框架，可以在训练阶段直接将特定任务的监督应用于注意力图上，且可以减少弱监督和额外监督之间的差距，提高了其泛化性能。

发明内容

针对目标分割模糊和不准确的问题，本发明的目的在于提供一种基于引导注意力推理网络的弱监督语义分割方法，引导注意力推理网络具有分类流和注意力挖掘两个网络流，分类流有助于识别类的区域，注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中，使注意力图变得更加完整、准确，通过这两种损失函数可以联合生成和训练注意力图；引入引导注意力推理网络的扩展，在弱监督的学习框架中无缝集成额外的监督，从而控制注意力图学习过程。

为解决上述问题，本发明提供一种基于引导注意力推理网络的弱监督语义分割方法，其主要内容包括：

(一)对网络注意力的自我引导；

(二)整合额外的监督。

其中，所述的引导注意力推理网络(GAIN)，由于注意力映射反映了支持网络预测的输入图像上的区域，因此提出GAIN，其目的是在针对感兴趣的任务训练网络时监督注意力图。

其中，所述的对网络注意力的自我引导，GAIN以正则化的引导方式直接在注意力图上形成约束；GAIN具有两个网络流：分类流S_cl和注意力挖掘S_am，它们彼此共享参数；S_cl流的约束旨在找出有助于识别类的区域；S_am确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中；通过这种方式，注意力图变得更加完整、准确，并针对分割任务进行量身定制；这里的关键是可以通过两种损失函数联合生成和训练注意力图。

进一步地，所述的注意力挖掘，设计公式(1)中称为注意力挖掘损失的损失函数：

其中，s^c(I^*c)表示类c的I^*c的预测分数；n是该图像I的标定真实类别标签的数量；

最终的自我引导损失L_self是分类损失L_cl和L_am的总和，即L_self＝L_cl+αL_am；

其中，L_cl用于多标签和多类别分类，这里使用了多标签软边缘损失；备选损失函数可用于特定任务；α是加权参数，实验中α＝1；

在自我引导下，网络学习扩大输入图像的焦点区域，有助于尽可能地识别目标类别，从而使注意力映射适合于感兴趣的任务，即语义分割。

进一步地，所述的注意力图，可以在每个推理中获得与输入样本相对应的注意力图，从而在训练统计中变得可训练；在分类流S_cl中，对于给定的图像I，令f_l,k为第l层中单元k的激活；对于来自标定真实数据标签的每个类别c，计算关于f_l,k的激活图的相应于类别c的得分s^c的梯度；这些梯度回流将通过全局平均池化层获得神经元重要性权重

进一步地，所述的类别，使用可训练的注意力图A^c来生成一个软掩码以应用于原始输入图像；I^*c代表超出网络当前注意力c类的区域，I^*c＝I-(T(A^c)⊙I)；

其中，⊙表示数组元素依次相乘；T(A^c)是基于阈值操作的掩码函数；为了使其可导，使用S型函数作为公式(2)中定义的近似值：

其中，σ是元素都等于σ的阈值矩阵；ω是尺度参数，当大于σ时，确保T(A^c)_i,j大约等于1，否则为0；

I^*c用作流S_am的输入以获得类别预测分数；由于目标是引导网络专注于感兴趣类别的所有部分，因此强制I^*c尽可能少地包含属于目标类的特征，即注意力图区域上的高响应区域之外的区域应不包括可触发网络识别类别c的对象的单个像素；从损失函数的角度来看，它试图最小化I^*c对c类的预测分数。

进一步地，所述的权重，代表支持c类预测的激活图f_l,k的重要性，然后使用权重矩阵w^c作为内核，并在激活图矩阵f_l上应用二维卷积以集成所有激活图，然后进行修正线性单元(ReLU)操作以获得注意力图A^c；注意力图可以在线训练，A^c上的约束会影响网络的学习；其中，l是来自最后卷积层的表示，其特征具有在高级语义和详细空间信息之间的最佳折衷；注意力图具有与卷积特征映射相同的大小。

其中，所述的整合额外的监督，除了让网络自己探索注意力图的引导之外，还可以通过使用少量额外的监督来控制注意力图学习过程来告诉网络中它们应该关注图像的哪些部分，以便定制感兴趣的任务；基于这种对注意力图进行额外监督的想法，引入GAIN的扩展：GAIN_ext，可以在弱监督的学习框架中无缝集成额外的监督；使用自我引导GAIN框架来改进弱监督语义分割任务；还可以应用GAIN_ext来引导网络学习对数据集偏差具有鲁棒性的特征；当测试数据和训练数据来自不同的分布时，可提高其普遍性。

进一步地，所述的弱监督语义分割任务，仍然使用弱监督的语义分割任务作为示例应用程序来解释GAIN_ext；GAIN_ext在训练阶段生成可训练注意力图的方式与自我引导GAIN相同；除了L_cl和L_am之外，根据给定的外部监督来设计另一个损失L_e：

其中，H^c表示额外的监督，例如例子中的像素级分割掩码；还可以添加一个外部流S_e，并且这三个流共享所有参数。

进一步地，所述的外部流，流S_e的输入图像包括图像级标签和像素级分割掩模；可以通过流S_e只使用非常少量的像素级标签，以利用GAIN_ext获得性能改进；流S_cl的输入包括仅具有图像级标签的训练集中的所有图像；

GAIN_ext的最终损失函数L_ext定义如下：

L_ext＝L_cl+αL_am+ωL_e (4)

其中，ω是权重参数，实验中ω＝10；可以通过修改GAIN_ext以适应其他任务；一旦获得与网络最终输出相对应的激活图f_l,k，就可以使用L_e来引导网络将重点放在对感兴趣任务关键的区域。

附图说明

图1是本发明一种基于引导注意力推理网络的弱监督语义分割方法的系统流程图。

图2是本发明一种基于引导注意力推理网络的弱监督语义分割方法的分割实例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于引导注意力推理网络的弱监督语义分割方法的系统流程图。主要包括对网络注意力的自我引导和整合额外的监督。

由于注意力映射反映了支持网络预测的输入图像上的区域，因此提出引导注意力推理网络，其目的是在针对感兴趣的任务训练网络时监督注意力图。

GAIN以正则化的引导方式直接在注意力图上形成约束；GAIN具有两个网络流：分类流S_cl和注意力挖掘S_am，它们彼此共享参数；S_cl流的约束旨在找出有助于识别类的区域；S_am确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中；通过这种方式，注意力图变得更加完整、准确，并针对分割任务进行量身定制；这里的关键是可以通过两种损失函数联合生成和训练注意力图。

设计公式(1)中称为注意力挖掘损失的损失函数：

可以在每个推理中获得与输入样本相对应的注意力图，从而在训练统计中变得可训练；在分类流S_cl中，对于给定的图像I，令f_l,k为第l层中单元k的激活；对于来自标定真实数据标签的每个类别c，计算关于f_l,k的激活图的相应于类别c的得分s^c的梯度；这些梯度回流将通过全局平均池化层获得神经元重要性权重

使用可训练的注意力图A^c来生成一个软掩码以应用于原始输入图像；I^*c代表超出网络当前注意力c类的区域，I^*c＝I-(T(A^c)⊙I)；

代表支持c类预测的激活图f_l,k的重要性，然后使用权重矩阵w^c作为内核，并在激活图矩阵f_l上应用二维卷积以集成所有激活图，然后进行修正线性单元(ReLU)操作以获得注意力图A^c；注意力图可以在线训练，A^c上的约束会影响网络的学习；其中，l是来自最后卷积层的表示，其特征具有在高级语义和详细空间信息之间的最佳折衷；注意力图具有与卷积特征映射相同的大小。

除了让网络自己探索注意力图的引导之外，还可以通过使用少量额外的监督来控制注意力图学习过程来告诉网络中它们应该关注图像的哪些部分，以便定制感兴趣的任务；基于这种对注意力图进行额外监督的想法，引入GAIN的扩展：GAIN_ext，可以在弱监督的学习框架中无缝集成额外的监督；使用自我引导GAIN框架来改进弱监督语义分割任务；还可以应用GAIN_ext来引导网络学习对数据集偏差具有鲁棒性的特征；当测试数据和训练数据来自不同的分布时，可提高其普遍性。

仍然使用弱监督的语义分割任务作为示例应用程序来解释GAIN_ext；GAIN_ext在训练阶段生成可训练注意力图的方式与自我引导GAIN相同；除了L_cl和L_am之外，根据给定的外部监督来设计另一个损失L_e：

流S_e的输入图像包括图像级标签和像素级分割掩模；可以通过流S_e只使用非常少量的像素级标签，以利用GAIN_ext获得性能改进；流S_cl的输入包括仅具有图像级标签的训练集中的所有图像；

GAIN_ext的最终损失函数L_ext定义如下：

L_ext＝L_cl+αL_am+ωL_e (4)

图2是本发明一种基于引导注意力推理网络的弱监督语义分割方法的分割实例图。图中比较了输入图像、梯度类激活映射(Grad-CAM)分割结果、引导注意力推理网络(GAIN)分割结果和引导注意力推理网络的扩展GAIN_ext分割结果。GAIN涵盖了与Grad-CAM相比更多的感兴趣区域，而GAIN_ext涵盖的感兴趣区域比其它结果更加完整和准确，例如图2左栏第二行中的船只与海洋、右栏第二行中的汽车与道路。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于引导注意力推理网络的弱监督语义分割方法，其特征在于，主要包括对网络注意力的自我引导(一)；整合额外的监督(二)。

2.基于权利要求书1所述的引导注意力推理网络(GAIN)，其特征在于，由于注意力映射反映了支持网络预测的输入图像上的区域，因此提出GAIN，其目的是在针对感兴趣的任务训练网络时监督注意力图。

3.基于权利要求书1所述的对网络注意力的自我引导(一)，其特征在于，GAIN以正则化的引导方式直接在注意力图上形成约束；GAIN具有两个网络流：分类流S_cl和注意力挖掘S_am，它们彼此共享参数；S_cl流的约束旨在找出有助于识别类的区域；S_am确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中；通过这种方式，注意力图变得更加完整、准确，并针对分割任务进行量身定制；这里的关键是可以通过两种损失函数联合生成和训练注意力图。

4.基于权利要求书3所述的注意力挖掘，其特征在于，设计公式(1)中称为注意力挖掘损失的损失函数：

5.基于权利要求书3所述的注意力图，其特征在于，可以在每个推理中获得与输入样本相对应的注意力图，从而在训练统计中变得可训练；在分类流S_cl中，对于给定的图像I，令f_l,k为第l层中单元k的激活；对于来自标定真实数据标签的每个类别c，计算关于f_l,k的激活图的相应于类别c的得分s^c的梯度；这些梯度回流将通过全局平均池化层获得神经元重要性权重

6.基于权利要求书5所述的类别，其特征在于，使用可训练的注意力图A^c来生成一个软掩码以应用于原始输入图像；I^*c代表超出网络当前注意力c类的区域，I^*c＝I-(T(A^c)⊙I)；

7.基于权利要求书5所述的权重，其特征在于，代表支持c类预测的激活图f_l,k的重要性，然后使用权重矩阵w^c作为内核，并在激活图矩阵f_l上应用二维卷积以集成所有激活图，然后进行修正线性单元(ReLU)操作以获得注意力图A^c；注意力图可以在线训练，A^c上的约束会影响网络的学习；其中，l是来自最后卷积层的表示，其特征具有在高级语义和详细空间信息之间的最佳折衷；注意力图具有与卷积特征映射相同的大小。

8.基于权利要求书1所述的整合额外的监督(二)，其特征在于，除了让网络自己探索注意力图的引导之外，还可以通过使用少量额外的监督来控制注意力图学习过程来告诉网络中它们应该关注图像的哪些部分，以便定制感兴趣的任务；基于这种对注意力图进行额外监督的想法，引入GAIN的扩展：GAIN_ext，可以在弱监督的学习框架中无缝集成额外的监督；使用自我引导GAIN框架来改进弱监督语义分割任务；还可以应用GAIN_ext来引导网络学习对数据集偏差具有鲁棒性的特征；当测试数据和训练数据来自不同的分布时，可提高其普遍性。

9.基于权利要求书8所述的弱监督语义分割任务，其特征在于，仍然使用弱监督的语义分割任务作为示例应用程序来解释GAIN_ext；GAIN_ext在训练阶段生成可训练注意力图的方式与自我引导GAIN相同；除了L_cl和L_am之外，根据给定的外部监督来设计另一个损失L_e：

10.基于权利要求书9所述的外部流，其特征在于，流S_e的输入图像包括图像级标签和像素级分割掩模；可以通过流S_e只使用非常少量的像素级标签，以利用GAIN_ext获得性能改进；流S_cl的输入包括仅具有图像级标签的训练集中的所有图像；

GAIN_ext的最终损失函数L_ext定义如下：

L_ext＝L_cl+αL_am+ωL_e (4)