CN110458221B - 基于在线注意力累积的挖掘目标物体区域的方法 - Google Patents
基于在线注意力累积的挖掘目标物体区域的方法 Download PDFInfo
- Publication number
- CN110458221B CN110458221B CN201910715341.XA CN201910715341A CN110458221B CN 110458221 B CN110458221 B CN 110458221B CN 201910715341 A CN201910715341 A CN 201910715341A CN 110458221 B CN110458221 B CN 110458221B
- Authority
- CN
- China
- Prior art keywords
- attention
- target object
- loss function
- map
- accumulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于在线注意力累积的挖掘目标物体区域的方法。该方法的目的是以弱监督的方式高效地找到图像的目标物体区域,这种区域可以为弱监督语义分割任务提供监督。基于训练过程中注意力不停地在目标物体上变化的观察,该方法在训练过程中为每一个目标物体维护了一张存储图。通过不断的将每一次迭代中生成的注意力图融合到存储图中,这个在线注意力累积过程可以将注意力在目标物体上出现过的所有位置记录下来,帮助找到整个目标物体区域。另外,该方法在更新存储图的过程中,通过改进的交叉熵损失函数对存储图中学习到的知识进行监督,从而得到更加完整的物体区域。
Description
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于在线注意力累积的挖掘目标物体区域的方法。
背景技术
受益于大规模的像素级训练数据和先进的卷积神经网络(CNN)体系结构,完全监督的语义分割方法近年来取得了很大的进展。然而,构建一个大规模的像素精确数据集是非常昂贵的,需要大量的人力和时间成本。为了节省人力,研究人员倾向于使用弱监督来学习语义分割,例如边界框、点和图像级别的标注都属于弱监督信息。由于分类模型能够得到特定类别的注意力区域,因此其被广泛应用于弱监督语义分割任务中。视觉注意力的初始目的是揭示分类网络的内在机制,在许多研究领域取得了显著的成就。迄今为止,为了得到高质量的注意力图,已经提出了一些突出的工作。Karen Simonyan等人于2014年在“DeepInside Convolutional Networks:Visualising Image Classification Models andSaliency Maps”中提出使用误差回传的方式来显示类别相关的区域。Bolei Zhou于2016年在“Learning Deep Features for Discriminative Localization”中提出借助了全局池化层来可视化神经网络的类别激活图(CAM)。Jianming Zhang等人于2016年在“Top-downNeural Attentionby Excitation Backprop”提出了一种称为激励反向传播的自顶向下的方法,该方法通过一个概率优胜者的方法将信号自顶向下的在网络中传播,以生成特定类别的注意力图。基于Bolei Zhou提出的类别激活图,Ramprasaath R.Selvaraju等人提出了Grad-CAM,它通过将梯度流到最终卷积层以生成粗糙的注意力图,从而为任何目标概念(如图像分类、VQA和图像解释)生成视觉解释的技术。
近年来,与上述解释网络的方法不同的是,一些工作通过生成能够定位更加完整的目标物体区域的注意力图来提供更多的像素级语义信息用于监督语义分割任务,从而实现弱监督语义分割。由于很多方法的提出,基于图像级别标注的弱监督语义分割取得了很大的进展。这种弱监督语义分割的主流方法是将注意力图作为初始种子来训练语义分割网。例如Alexander在“Seed,Expand and Constrain:Three Principles for Weakly-Supervised Image Segmentation”中引入了三种损失函数分别是种子、扩张和边界约束损失函数来扩展初始种子区域并同时训练分割模型。然而这类方法的性能受到限制,因为目标物体的注意力区域很小,不能覆盖整个物体。近年来,研究人员提出了一系列基于分类网络的方法来扩大目标物体上的注意力区域。Yunchao Wei等人在“Object Region MiningwithAdversarial Erasing:A Simple Classification to Semantic SegmentationApproach”中提出了使用对抗擦除策略去挖掘更多的目标物体区域,然而,这种学习方式需要多个训练步骤来训练多个分类模型。Kunpeng Li等人在“Tell Me Where to Look:GuidedAttention Inference Network”中进一步改进了这种对抗擦除策略,他们通过自我指导的方式使注意力关注在整个目标物体上。Yunchao Wei受到空洞卷积的启发,在“Revisiting Dilated Convolution:A SimpleApproach for Weakly-and Semi-Supervised Semantic Segmentation”提出使用多个空洞卷积层来扩大注意力的感受范围。
发明内容
本发明的目的是解决现有方法挖掘目标物体区域质量低的技术问题,提供一种基于在线注意力累积的挖掘目标物体区域的方法,本发明基于图像级别的标注,通过分类网络的注意力机制得到更高质量的目标物体区域。
本发明的技术方案:
一种基于在线注意力累积的挖掘目标物体区域的方法,该方法包含如下步骤:
a.使用图像级别的标注训练分类网络,在训练过程中为每一个目标物体维护一个存储图,通过不断融合新的迭代过程中生成的注意力图来更新存储图,通过存储图记录注意力出现的目标物体的位置;所述融合的方式采用最大值融合方式或平均融合方式;
b.在分类网络的训练过程中,对于那些在训练过程中注意力没有出现的位置,用对应目标物体存储图作为监督信息,使用改进的交叉熵损失函数作为监督来使注意力关注更多的区域,从而进一步提高存储图的质量;
步骤b中用于监督的损失函数是修改后的交叉熵损失函数,该损失函数分为两部分,一部分为前景交叉熵损失函数,该部分可以使注意力挖掘更多没有发现的目标物体区域,另一部分为背景交叉熵损失函数,该部分可以抑制注意力出现在背景区域。
本发明的有益效果为:
本发明方法能够对于只有图像级别标注的训练数据得到粗糙的像素级别的标注,通过在线累积的方法,可以将训练过程中注意力出现的位置都保存下来形成更加完整的目标物体区域,进一步,本方法使用了反馈损失函数去挖掘在训练过程中从未出现过的区域,这个损失函数能够使注意力关注到更广的区域。本发明方法生成的注意力图可以很好的应用在弱监督语义分割任务中。
附图说明
图1为训练过程中不同迭代时间的注意力图。
图2为基于在线注意力累积的挖掘目标物体区域的方法示意图。
图3为基于在线注意力累积和反馈损失函数的挖掘目标物体区域的方法示意图。
图4为不同方法生成的注意力图的比较图。
图5为本发明方法的弱监督语义分割效果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,(a)表示原始图像,(b)、(c)、(d)分别代表迭代时间从少到多的注意力图,(e)表示将(b)、(c)、(d)的注意力图采用最大值方式进行融合得到的注意力图。
参考图1、图2和图3,表示为基于在线注意力累积的挖掘目标物体区域的方法示意图,图中表示的步骤为:
a.如图2所示,使用图像级别的标注训练一个基于VGG16架构的分类网络,该分类网络使用全局池化层得到分类概率,本方法使用最后的卷积层生成类别相关的注意力图。在训练过程中为所有目标类别维护一个存储图,如图2中显示器类别,在训练过程中会为该类别维护一个注意力区域,图中亮度代表注意力的强弱。该存储图可以用来把注意力出现的不同位置保留下来构成更加完整的目标物体区域,通过不断的将新生成的注意力图融合到存储图中来更新存储图,如图2所示,在不同的迭代阶段,注意力区域是不同的,在每次迭代生成新的注意力图后,将新生成的注意力图融合到该类别的存储图中。该融合方式为对二者取最大值或平均值,在训练开始阶段不存储注意力图,因为这个阶段注意力图不够准确。
b.如图3所示,在维护存储图的过程中,对于那些在训练过程中注意力没有出现的位置,本方法使用了改进的交叉熵损失函数来挖掘那些不可见区域,进一步提高存储图的质量。该损失函数是改进的交叉熵损失函数L,分为前景交叉熵损失函数和背景交叉熵损失函数两部分,对于目标类别c,计算方式为
网络中增加另一个分支,将该监督加到对应的卷积层上,这个卷积层得到的类别相关的注意力图可以进一步更新存储图。
图4中是四种方法生成的存储图的对比,(a)表示原始图像,(b)表示原始网络生成的类别激活(CAM),(c)表示基于在线累积方法的存储图、(d)表示基于在线累积方法和改进的反馈损失函数生成的存储图、(e)表示基于在线累积方法和普通交叉熵损失函数生成的存储图。
图5中是基于两种方法生成的存储图训练分割网络得到的分割结果的对比,(a)表示原始图像,(b)表示分割的真实标注,(c)表示使用基于在线累积方法的存储图进行训练分割网络得到的分割结果,(d)表示使用基于在线累积方法和改进的反馈损失函数生成的存储图来训练分割网络得到的分割结果。
Claims (3)
1.一种基于在线注意力累积的挖掘目标物体区域的方法,其特征在于,该方法包含如下步骤:
a.在训练过程中为每一个目标物体维护一个存储图,通过不断融合新的迭代过程中生成的注意力图来更新存储图,通过存储图记录注意力出现的目标物体的位置;
b.在训练过程中,用维护的对应目标物体存储图作为监督信息,使用改进的交叉熵损失函数作为另一个分支的损失函数,对另一个分支进行监督,即使用损失函数让另一个分支学习该监督信息,随后将通过该分支得到的注意力图对存储图进行更新,使注意力关注更多的区域,进而进一步提高挖掘的目标物体区域的质量;
2.根据权利要求1所述的基于在线注意力累积的挖掘目标物体区域的方法,其特征在于:步骤a所述融合的方式是采用最大值融合方式或平均融合方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715341.XA CN110458221B (zh) | 2019-08-05 | 2019-08-05 | 基于在线注意力累积的挖掘目标物体区域的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715341.XA CN110458221B (zh) | 2019-08-05 | 2019-08-05 | 基于在线注意力累积的挖掘目标物体区域的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458221A CN110458221A (zh) | 2019-11-15 |
CN110458221B true CN110458221B (zh) | 2021-03-16 |
Family
ID=68484714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910715341.XA Active CN110458221B (zh) | 2019-08-05 | 2019-08-05 | 基于在线注意力累积的挖掘目标物体区域的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458221B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7371466B2 (ja) | 2019-12-03 | 2023-10-31 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
GB202017369D0 (en) * | 2020-11-02 | 2020-12-16 | Tomtom Global Content Bv | Neural network models for semantic image segmentation |
CN113657560B (zh) * | 2021-10-20 | 2022-04-15 | 南京理工大学 | 基于节点分类的弱监督图像语义分割方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345763A (zh) * | 2013-06-25 | 2013-10-09 | 西安理工大学 | 一种基于多尺度可变块的运动注意力计算方法 |
WO2018106783A1 (en) * | 2016-12-06 | 2018-06-14 | Siemens Energy, Inc. | Weakly supervised anomaly detection and segmentation in images |
WO2018170401A1 (en) * | 2017-03-16 | 2018-09-20 | Siemens Aktiengesellschaft | Visual localization in images using weakly supervised neural network |
CN108647684A (zh) * | 2018-05-02 | 2018-10-12 | 深圳市唯特视科技有限公司 | 一种基于引导注意力推理网络的弱监督语义分割方法 |
CN109598722A (zh) * | 2018-12-10 | 2019-04-09 | 杭州帝视科技有限公司 | 基于递归神经网络的图像分析方法 |
WO2019089192A1 (en) * | 2017-11-03 | 2019-05-09 | Siemens Aktiengesellschaft | Weakly-supervised semantic segmentation with self-guidance |
CN109934241A (zh) * | 2019-03-28 | 2019-06-25 | 南开大学 | 可集成到神经网络架构中的图像多尺度信息提取方法及应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4989599B2 (ja) * | 2008-09-25 | 2012-08-01 | 三菱電機インフォメーションシステムズ株式会社 | 注目箇所地図作成装置、注目箇所地図作成方法、注目箇所地図作成プログラム |
CN108985334B (zh) * | 2018-06-15 | 2022-04-12 | 拓元(广州)智慧科技有限公司 | 基于自监督过程改进主动学习的通用物体检测系统及方法 |
-
2019
- 2019-08-05 CN CN201910715341.XA patent/CN110458221B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345763A (zh) * | 2013-06-25 | 2013-10-09 | 西安理工大学 | 一种基于多尺度可变块的运动注意力计算方法 |
WO2018106783A1 (en) * | 2016-12-06 | 2018-06-14 | Siemens Energy, Inc. | Weakly supervised anomaly detection and segmentation in images |
WO2018170401A1 (en) * | 2017-03-16 | 2018-09-20 | Siemens Aktiengesellschaft | Visual localization in images using weakly supervised neural network |
WO2019089192A1 (en) * | 2017-11-03 | 2019-05-09 | Siemens Aktiengesellschaft | Weakly-supervised semantic segmentation with self-guidance |
CN108647684A (zh) * | 2018-05-02 | 2018-10-12 | 深圳市唯特视科技有限公司 | 一种基于引导注意力推理网络的弱监督语义分割方法 |
CN109598722A (zh) * | 2018-12-10 | 2019-04-09 | 杭州帝视科技有限公司 | 基于递归神经网络的图像分析方法 |
CN109934241A (zh) * | 2019-03-28 | 2019-06-25 | 南开大学 | 可集成到神经网络架构中的图像多尺度信息提取方法及应用 |
Non-Patent Citations (2)
Title |
---|
《Learning Pixel-level Semantic Affinity with Image-level Supervision forWeakly Supervised Semantic Segmentation》;Jiwoon Ahn et al;;《arXiv:1803.10464v2》;20180409;第1-14页; * |
《Self-Erasing Network for Integral Object Attention》;Qibin Hou et al;;《32nd Conference on Neural Information Processing Systems》;20181231;第1-11页; * |
Also Published As
Publication number | Publication date |
---|---|
CN110458221A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458221B (zh) | 基于在线注意力累积的挖掘目标物体区域的方法 | |
Liu et al. | 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds | |
Shi et al. | Self-supervised discovering of interpretable features for reinforcement learning | |
CN107909153A (zh) | 基于条件生成对抗网络的模型化策略搜索学习方法 | |
CN112950645B (zh) | 一种基于多任务深度学习的图像语义分割方法 | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN111489365B (zh) | 神经网络的训练方法、图像处理方法及装置 | |
CN110310206A (zh) | 用于更新风险控制模型的方法和系统 | |
CN111000492B (zh) | 基于知识图谱的智能扫地机行为决策方法及智能扫地机 | |
CN103778407A (zh) | 一种迁移学习框架下基于条件随机场的手势识别算法 | |
CN112949929B (zh) | 一种基于协同嵌入增强题目表示的知识追踪方法及系统 | |
CN111274438A (zh) | 一种语言描述引导的视频时序定位方法 | |
CN112347838A (zh) | 道路地图融合 | |
Ning et al. | Deep Spatial/temporal-level feature engineering for Tennis-based action recognition | |
Wu et al. | Vision-language navigation: a survey and taxonomy | |
Ling et al. | A Deep Reinforcement Learning Based Real-Time Solution Policy for the Traveling Salesman Problem | |
Axenie et al. | Fuzzy modelling and inference for physics-aware road vehicle driver behaviour model calibration | |
CN111523361A (zh) | 一种人体行为识别方法 | |
Guo et al. | Semantic image segmentation based on SegNetWithCRFs | |
Shi et al. | A novel model based on deep learning for Pedestrian detection and Trajectory prediction | |
CN113487653B (zh) | 一种基于轨迹预测的自适应图跟踪方法 | |
CN115719478A (zh) | 一种独立于无关信息的加速强化学习的端到端自动驾驶方法 | |
Yang et al. | Overcoming Catastrophic Forgetting for Semantic Segmentation Via Incremental Learning | |
CN110930519A (zh) | 基于环境理解的语义orb-slam感知方法及装置 | |
Yang et al. | Multi-grained interpre table network for image recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |