CN108594321A - 一种基于数据增强的弱监督目标定位方法 - Google Patents

一种基于数据增强的弱监督目标定位方法 Download PDF

Info

Publication number
CN108594321A
CN108594321A CN201810407386.6A CN201810407386A CN108594321A CN 108594321 A CN108594321 A CN 108594321A CN 201810407386 A CN201810407386 A CN 201810407386A CN 108594321 A CN108594321 A CN 108594321A
Authority
CN
China
Prior art keywords
network
target
sorter
baseline
weakly supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810407386.6A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810407386.6A priority Critical patent/CN108594321A/zh
Publication of CN108594321A publication Critical patent/CN108594321A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V8/00Prospecting or detecting by optical means
    • G01V8/10Detecting, e.g. by using light barriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于数据增强的弱监督目标定位方法,其主要内容包括:基准网络的构建、目标的定位和性能的优化,其过程为,对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(CAM)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。本发明解决了以往的目标定位方法只专注于目标对象最具鉴别性的部分的问题,能够对目标对象弱鉴别性的部分进行分类定位,同时能提高弱监督目标定位技术的准确度。

Description

一种基于数据增强的弱监督目标定位方法
技术领域
本发明涉及图像识别领域,尤其是涉及了一种基于数据增强的弱监督目标定位方法。
背景技术
目标定位的目的是确定一个目标在图像中的位置,目前最先进的目标定位技术利用的是全监督学习的算法,需要大量的注释,而弱监督的方法不依赖于注释,因此是一个实用的替代方法,易于扩展到新的对象类。目标定位技术可以应用于许多领域,比如遥感领域,输入遥感图像后可以自动定位建筑物或人物在遥感图像中的位置,从而确定所在地点;也可以应用在医疗领域,根据医学X光图像或显微图像分析各种病变;在军事领域,目标定位可以用于定位敌方的位置。然而,以往的目标定位方法只专注于目标对象最具鉴别性的部分,而忽略了弱鉴别性的部分。
本发明中提出了一种基于数据增强的弱监督目标定位方法。对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(CAM)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。本发明能够对目标对象弱鉴别性的部分进行分类定位,同时能提高弱监督目标定位技术的准确度。
发明内容
针对以往的目标定位方法只专注于目标对象最具鉴别性的部分,而忽略了弱鉴别性的部分的问题,本发明的目的在于提供一种基于数据增强的弱监督目标定位方法,对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(CAM)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。
为解决上述问题,本发明提供一种基于数据增强的弱监督目标定位方法,其主要内容包括:
(一)基准网络的构建;
(二)目标的定位;
(三)性能的优化。
其中,所述的基准网络的构建,是指先利用预激活残差网络实现分类网络的作用,作为基准网络,其中预激活残差网络是残差网络的一个改进版本。
进一步地,所述的分类网络,预激活剩余网络作为分类网络时,要对输入层的大小进行细微的修改,然后用一个网络数据集来训练分类网络,使用动量优化器对分类网络进行1500个周期的训练,其中将动量设置为0.9,初始学习速率设置为0.1,每250个周期将学习速率降低10,权重的衰减是10-4;用Tensorflow(第二代人工智能学习系统)来实现代码,在每次迭代中,网格大小[0×0,4×4,8×8,16×16]被随机地应用于输入图像。
其中,所述的目标的定位,是指先应用类激活映射(CAM)算法生成热图,然后,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。
进一步地,所述的CAM算法,是指在卷积神经网络(CNN)的最后一个卷积层之后,用一个全局平均池(GAP)层取代了原来的全连接层,这种优化方法方案适用于任何类型的CNN网络;利用GAP层,能将特征图的空间信息可视化,然后,通过聚合高层的激活图与GAP层和softmax层之间的权重来生成热图。
其中,所述的性能的优化,主要包括数据增强、批处理规模和网络深度对性能的优化。
进一步地,所述的数据增强,是指引入谷歌网络调整(GR)算法来解决对较弱鉴别性的部分的定位问题;捉迷藏(HnS)算法是隐藏特定区域,而GR是在训练时只提供特定区域的信息给CNN网络,尽管这两种方法的目的都是在边界框中包含更弱鉴别性的部分,但是GR更加先进,因为它增加了具有更小的有效区域的图像。
进一步地,所述的谷歌网络调整(GR)算法,是指随机地裁剪出8%到100%的输入图像,纵横比在0.75和1.33之间,然后将裁剪后的图像大小调整为原始输入图像大小。
进一步地,所述的批处理规模,指通过减小批处理规模,提高弱监督目标定位技术的准确度。
进一步地,所述的网络深度,指增加网络深度,并利用一个恒等映射使梯度不随网络深度的增加而消失,从而提高弱监督目标定位技术的准确度。
附图说明
图1是本发明一种基于数据增强的弱监督目标定位方法的系统流程图。
图2是本发明一种基于数据增强的弱监督目标定位方法的方法对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于数据增强的弱监督目标定位方法的系统流程图。主要包括基准网络的构建,目标的定位和性能的优化。
其中,基准网络的构建是指先利用预激活残差网络实现分类网络的作用,作为基准网络,其中预激活残差网络是残差网络的一个改进版本。
进一步地,所述的分类网络,预激活剩余网络作为分类网络时,要对输入层的大小进行细微的修改,然后用一个网络数据集来训练分类网络,使用动量优化器对分类网络进行1500个周期的训练,其中将动量设置为0.9,初始学习速率设置为0.1,每250个周期将学习速率降低10,权重的衰减是10-4;用Tensorflow(第二代人工智能学习系统)来实现代码,在每次迭代中,网格大小[0×0,4×4,8×8,16×16]被随机地应用于输入图像。
其中,所述的目标的定位,是指先应用类激活映射(CAM)算法生成热图,然后,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。
进一步地,所述的CAM算法,是指在卷积神经网络(CNN)的最后一个卷积层之后,用一个全局平均池(GAP)层取代了原来的全连接层,这种优化方法方案适用于任何类型的CNN网络;利用GAP层,能将特征图的空间信息可视化,然后,通过聚合高层的激活图与GAP层和softmax层之间的权重来生成热图。
其中,所述的性能的优化,主要包括数据增强、批处理规模和网络深度对性能的优化。
进一步地,所述的批处理规模,指通过减小批处理规模,提高弱监督目标定位技术的准确度。
进一步地,所述的网络深度,指增加网络深度,并利用一个恒等映射使梯度不随网络深度的增加而消失,从而提高弱监督目标定位技术的准确度。
图2是本发明一种基于数据增强的弱监督目标定位方法的方法对比图。
捉迷藏(HnS)算法和谷歌网络调整(GR)算法都是数据增强的方法,用于解决对较弱鉴别性的部分的定位问题;捉迷藏(HnS)算法是隐藏特定区域,而GR是在训练时只提供特定区域的信息给CNN网络,尽管这两种方法的目的都是在边界框中包含更弱鉴别性的部分,但是GR更加先进,因为它增加了具有更小的有效区域的图像。
其中,谷歌网络调整(GR)算法,是指随机地裁剪出8%到100%的输入图像,纵横比在0.75和1.33之间,然后将裁剪后的图像大小调整为原始输入图像大小。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于数据增强的弱监督目标定位方法,其特征在于,主要包括基准网络的构建(一);目标的定位(二);性能的优化(三)。
2.基于权利要求书1所述的基准网络的构建(一),其特征在于,先利用预激活残差网络实现分类网络的作用,作为基准网络,其中预激活残差网络是残差网络的一个改进版本。
3.基于权利要求书2所述的分类网络,其特征在于,预激活剩余网络作为分类网络时,要对输入层的大小进行细微的修改,然后用一个网络数据集来训练分类网络,使用动量优化器对分类网络进行1500个周期的训练,其中将动量设置为0.9,初始学习速率设置为0.1,每250个周期将学习速率降低10,权重的衰减是10-4;用Tensorflow(第二代人工智能学习系统)来实现代码,在每次迭代中,网格大小[0×0,4×4,8×8,16×16]被随机地应用于输入图像。
4.基于权利要求书1所述的目标的定位(二),其特征在于,先应用类激活映射(CAM)算法生成热图,然后,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。
5.基于权利要求书4所述的CAM算法,其特征在于,在卷积神经网络(CNN)的最后一个卷积层之后,用一个全局平均池(GAP)层取代了原来的全连接层,这种优化方法方案适用于任何类型的CNN网络;利用GAP层,能将特征图的空间信息可视化,然后,通过聚合高层的激活图与GAP层和softmax层之间的权重来生成热图。
6.基于权利要求书1所述的性能的优化(三),其特征在于,主要包括数据增强、批处理规模和网络深度对性能的优化。
7.基于权利要求书6所述的数据增强,其特征在于,引入谷歌网络调整(GR)算法来解决对较弱鉴别性的部分的定位问题;捉迷藏(HnS)算法是隐藏特定区域,而GR是在训练时只提供特定区域的信息给CNN网络,尽管这两种方法的目的都是在边界框中包含更弱鉴别性的部分,但是GR更加先进,因为它增加了具有更小的有效区域的图像。
8.基于权利要求书7所述的谷歌网络调整(GR)算法,其特征在于,随机地裁剪出8%到100%的输入图像,纵横比在0.75和1.33之间,然后将裁剪后的图像大小调整为原始输入图像大小。
9.基于权利要求书6所述的批处理规模,其特征在于,通过减小批处理规模,提高弱监督目标定位技术的准确度。
10.基于权利要求书6所述的网络深度,其特征在于,增加网络深度,并利用一个恒等映射使梯度不随网络深度的增加而消失,从而提高弱监督目标定位技术的准确度。
CN201810407386.6A 2018-05-02 2018-05-02 一种基于数据增强的弱监督目标定位方法 Withdrawn CN108594321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810407386.6A CN108594321A (zh) 2018-05-02 2018-05-02 一种基于数据增强的弱监督目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810407386.6A CN108594321A (zh) 2018-05-02 2018-05-02 一种基于数据增强的弱监督目标定位方法

Publications (1)

Publication Number Publication Date
CN108594321A true CN108594321A (zh) 2018-09-28

Family

ID=63619419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810407386.6A Withdrawn CN108594321A (zh) 2018-05-02 2018-05-02 一种基于数据增强的弱监督目标定位方法

Country Status (1)

Country Link
CN (1) CN108594321A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410204A (zh) * 2018-10-31 2019-03-01 电子科技大学 一种基于cam的皮质白内障图像处理及增强方法
CN110147904A (zh) * 2019-04-23 2019-08-20 深圳先进技术研究院 一种城市聚集事件预测与定位方法及装置
CN110287970A (zh) * 2019-06-25 2019-09-27 电子科技大学 一种基于cam与掩盖的弱监督物体定位方法
CN110910366A (zh) * 2019-11-18 2020-03-24 湖北工业大学 基于3d cam的大脑核磁共振异常图像的可视化方法
JP2020187426A (ja) * 2019-05-10 2020-11-19 京セラドキュメントソリューションズ株式会社 画像処理装置および画像処理方法
CN112686256A (zh) * 2021-01-05 2021-04-20 中山大学 一种无需训练且无监督的目标协同定位方法、系统及装置
JP2022096188A (ja) * 2020-12-17 2022-06-29 株式会社クボタ 検査装置及び検査方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNSUK CHOE等: ""IMPROVED TECHNIQUES FOR WEAKLY-SUPERVISED OBJECT LOCALIZATION"", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1802.07888V1》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410204A (zh) * 2018-10-31 2019-03-01 电子科技大学 一种基于cam的皮质白内障图像处理及增强方法
CN110147904A (zh) * 2019-04-23 2019-08-20 深圳先进技术研究院 一种城市聚集事件预测与定位方法及装置
CN110147904B (zh) * 2019-04-23 2021-06-18 深圳先进技术研究院 一种城市聚集事件预测与定位方法及装置
JP2020187426A (ja) * 2019-05-10 2020-11-19 京セラドキュメントソリューションズ株式会社 画像処理装置および画像処理方法
JP7419668B2 (ja) 2019-05-10 2024-01-23 京セラドキュメントソリューションズ株式会社 画像処理装置および画像処理方法
CN110287970B (zh) * 2019-06-25 2021-07-27 电子科技大学 一种基于cam与掩盖的弱监督物体定位方法
CN110287970A (zh) * 2019-06-25 2019-09-27 电子科技大学 一种基于cam与掩盖的弱监督物体定位方法
CN110910366A (zh) * 2019-11-18 2020-03-24 湖北工业大学 基于3d cam的大脑核磁共振异常图像的可视化方法
CN110910366B (zh) * 2019-11-18 2023-10-24 湖北工业大学 基于3d cam的大脑核磁共振异常图像的可视化方法
JP2022096188A (ja) * 2020-12-17 2022-06-29 株式会社クボタ 検査装置及び検査方法
JP7101236B2 (ja) 2020-12-17 2022-07-14 株式会社クボタ 検査装置及び検査方法
CN112686256B (zh) * 2021-01-05 2023-10-20 中山大学 一种无需训练且无监督的目标协同定位方法、系统及装置
CN112686256A (zh) * 2021-01-05 2021-04-20 中山大学 一种无需训练且无监督的目标协同定位方法、系统及装置

Similar Documents

Publication Publication Date Title
CN108594321A (zh) 一种基于数据增强的弱监督目标定位方法
CN105718952B (zh) 使用深度学习网络对断层医学影像进行病灶分类的系统
CN104636707B (zh) 自动检测香烟的方法
CN108052984B (zh) 计数方法及装置
CN108399406A (zh) 基于深度学习的弱监督显著性物体检测的方法及系统
CN104850865B (zh) 一种多特征迁移学习的实时压缩跟踪方法
CN109191455A (zh) 一种基于ssd卷积网络的大田作物病虫害检测方法
CN110084131A (zh) 一种基于深度卷积网络的半监督行人检测方法
Li et al. A method of cross-layer fusion multi-object detection and recognition based on improved faster R-CNN model in complex traffic environment
US20200193607A1 (en) Object shape regression using wasserstein distance
CN111445488B (zh) 一种弱监督学习自动识别和分割盐体的方法
CN108734120A (zh) 标注图像的方法、装置、设备和计算机可读存储介质
CN110533695A (zh) 一种基于ds证据理论的轨迹预测装置及方法
CN109029363A (zh) 一种基于深度学习的目标测距方法
CN110378997A (zh) 一种基于orb-slam2的动态场景建图与定位方法
JP2018534712A (ja) 単一ビューオブジェクト再構成のためのファイングレインデータセットにおける教師なしマッチング
CN105426882B (zh) 一种人脸图像中快速定位人眼的方法
CN103971091B (zh) 飞机机号自动识别方法
CN110163836A (zh) 基于深度学习用于高空巡检下的挖掘机检测方法
CN108241854A (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN103942535B (zh) 多目标跟踪方法及装置
US20200117952A1 (en) Target object position prediction and motion tracking
CN114846524A (zh) 使用机器学习和解剖向量进行医学图像分析
CN106803084A (zh) 一种基于端到端循环网络的面部特征点定位方法
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180928