CN115082657A - 基于软擦除的弱监督目标定位算法 - Google Patents

基于软擦除的弱监督目标定位算法 Download PDF

Info

Publication number
CN115082657A
CN115082657A CN202210390945.3A CN202210390945A CN115082657A CN 115082657 A CN115082657 A CN 115082657A CN 202210390945 A CN202210390945 A CN 202210390945A CN 115082657 A CN115082657 A CN 115082657A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
calculating
soft
erasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210390945.3A
Other languages
English (en)
Inventor
高英
谢欣言
黎羿江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210390945.3A priority Critical patent/CN115082657A/zh
Publication of CN115082657A publication Critical patent/CN115082657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于软擦除的弱监督目标定位算法,包括如下步骤:步骤S1、对图像进行归一化处理至像素范围为0至1;步骤S2、修改预训练的卷积神经网络的网络结构;步骤S3、计算获得软擦除图Me;步骤S4、得到预测分类;步骤S5、计算交叉熵损失L;步骤S6、基于误差反向传播算法对卷积神经网络进行训练;步骤S7、在测试阶段,使用步骤S6中训练完成的卷积神经网络;步骤S8、通过F中每个通道对正确类别的贡献程度计算出类别激活图;步骤S9:对步骤S8中的类别激活图进行阈值分割,获得目标的定位框。该基于软擦除的弱监督目标定位算法解决现有技术中类别激活图式目标检测方法仅能得到物体的一个部分不能将整个物体定位出来的问题。

Description

基于软擦除的弱监督目标定位算法
技术领域
本发明涉及图像处理中目标检测领域,具体涉及一种基于软擦除的弱监督目标定位算 法。
背景技术
目标检测和目标定位广泛地应用在各种领域之中,如对于人物,车辆,物品和工业产 品、缺陷等的检测与定位。深度学习与大量数据和计算量使得目标检测和定位发展迅速, 并在各个领域展现出色的效果。但是作为一个密集型的预测问题,目标检测和定位在训练 过程中所需大量数据以及标注难以获取,获取成本过大,需要大量人力、专家经验以及较 长的时间。
在样本获取高难度的情况下,现有算法往往只能基于少量数据进行训练,无法达到理 想效果。
现有技术方案提出在类别激活图上进行阈值分割的方法从而达到仅需要分类标签即 可完成目标检测与定位。类别激活图(Class Activation Map),又称类别激活映射图,类别 热力图、显著性图等,代表输入原图上对应位置对深度神经网络预测的贡献。因此在类别 激活图上,值越高对应图中位置对分类预测贡献越大,因此越有可能是目标前景,通过设 置一个阈值,将高于阈值的部分当作目标,用一个框框住,即可得到目标的检测框。为了 得到类别激活图,只需要通过类别标签训练一个神经网络,并对通过梯度大小或者参数值 大小计算得到类别激活图。尽管类别激活图可以获得物体的定位框,但是基于类别训练出 来的卷积神经网络得到的类别激活图仅关注在物体的显著部分(例如鸟的翅膀,狗的脑袋) 而不能关注整个物体,因此由类别激活图进行阈值分割得到的定位框往往只包含了物体的 一部分,因此定位效果欠佳。
现有技术存在以下缺点:1)缺乏目标位置标签情况下的目标检测与定位:现有目标 检测与目标定位方法均需要大量目标位置标签进行训练,但是目标定位与目标检测作为密 集预测任务,需要大量人力与时间进行标注,而标注一个分类标签的时间与难度则大大小 于标注物体位置,因此如何利用大量分类标签训练一个目标检测器是专利解决的一个问 题。2)无法定位完整物体:现有方法采用对分类卷积神经网络的类别激活图进行阈值分 割,由于基于类别训练出来的卷积神经网络的到的类别激活图仅关注在物体的显著部分 (例如鸟的翅膀,狗的脑袋)而不能关注整个物体,因此由类别激活图进行阈值分割得到的定位框往往只包含了物体的一部分,而不能将整个物体定位出来,因此定位效果欠佳。
发明内容
本发明要提供一种基于软擦除的弱监督目标定位算法,解决现有技术中类别激活图式 目标检测方法仅能得到物体的一个部分不能将整个物体定位出来的问题。
为实现上述目的,本发明采用了如下的技术方案:
本发明公开了一种基于软擦除的弱监督目标定位算法,包括如下步骤:
步骤S1、对图像进行归一化处理至像素范围为0至1,得到初始图像数据;
步骤S2、修改预训练的卷积神经网络的网络结构:将预训练的卷积神经网络的末端更 换为全局平均池化层与全连接层;
步骤S3、计算获得软擦除图Me:S31、使用步骤S2中的卷积神经网络提取初始图像数据的特征,取出卷积神经网络中第l层的中间特征图Fl;S32、计算中间特征图Fl在通 道维度上的均值,经过Sigmoid函数运算,得到重要性图Im;S33、接着设定擦除阈值γ, 继而由公式一计算获得软擦除图Me
Figure BDA0003595524980000021
步骤S4:将步骤S3得到的软擦除图Me与中间特征图Fl做点对点相乘运算,并将结果传入卷积神经网络的第l+1层继续进行前向传播,得到预测分类;
步骤S5、计算交叉熵损失L:分别对步骤S4的预测分类与初始图像数据的真实分类计算交叉熵损失L,如公式二所示;
Figure RE-GDA0003782896670000022
其中,后y、
Figure BDA0003595524980000023
分别代表真实分类与预测分类;
步骤S6、基于误差反向传播算法对卷积神经网络进行训练:基于步骤S5中的交叉熵 损失L,使用梯度下降法对卷积神经网络中的参数求偏导数值,以偏导数值与学习率的乘 积更新卷积神经网络参数,反复迭代至卷积神经网络的交叉熵损失不再显著降低;
步骤S7、在测试阶段,使用步骤S6中训练完成的卷积神经网络,对测试图像做分类: 归一化处理测试图像,将图像输入卷积神经网络,进行完整的一次前向传播,过程中跳过 软擦除图的计算与使用;
步骤S8、在步骤S7中,设输入全局平均池化层的特征图为F,包含n个通道(f1~fn),经由全局平均池化层得到V=(v1~vn),其中F的通道与V中的特征值一一对应;特征V 对真实分类y的贡献由全连接层中的相关权重wy体现,如公式三所示,其中W为全连接 层的权重参数;接着如公式四所示,通过F中每个通道对正确类别的贡献程度计算出类别 激活图;
wy=W (公式三)
Figure BDA0003595524980000031
步骤S9:对步骤S8中的类别激活图进行阈值分割,阈值在0至1的范围内选取,将大于等于阈值的像素置为1,反之置为0,并用一个最小矩形框框住所有值为1的像素点, 该矩形框即目标的定位框。
相比于现有技术,本发明具有如下有益效果:
1)能够在只有分类标签的情况下,完成目标检测与定位。
2)能够协助模型发现易被忽略的目标局部,有效增大目标在类别激活图中的激活范 围,进而在定位时覆盖更完整的目标,实现更加准确的目标定位。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明 的研究和实践而为本领域的技术人员所理解。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与作用更加清楚及易于了解,下 面结合具体实施方式对本发明作进一步阐述:
本发明公开了一种基于软擦除的弱监督目标定位算法,包括如下步骤:
步骤S1、对图像进行归一化处理至像素范围为0至1,得到初始图像数据;
步骤S2、修改预训练的卷积神经网络的网络结构:将预训练的卷积神经网络的末端更 换为全局平均池化层与全连接层;该步骤方便后续定位目标;
步骤S3、计算获得软擦除图Me:S31、使用步骤S2中的卷积神经网络提取初始图像数据的特征,取出卷积神经网络中第l层的中间特征图Fl;S32、计算中间特征图Fl在通 道维度上的均值,经过Sigmoid函数运算,得到重要性图Im;S33、接着设定擦除阈值γ, 继而由公式一计算获得软擦除图Me
Figure BDA0003595524980000041
步骤S4:将步骤S3得到的软擦除图Me与中间特征图Fl做点对点相乘运算,并将结果传入卷积神经网络的第l+1层继续进行前向传播,得到预测分类;
步骤S5、计算交叉熵损失L:分别对步骤S4的预测分类与初始图像数据的真实分类计算交叉熵损失L,如公式二所示;
Figure RE-GDA0003782896670000042
其中,后y、
Figure BDA0003595524980000043
分别代表真实分类与预测分类;
步骤S6、基于误差反向传播算法对卷积神经网络进行训练:基于步骤S5中的交叉熵 损失L,使用梯度下降法对卷积神经网络中的参数求偏导数值,以偏导数值与学习率(学习率一般取值为0.001)的乘积更新卷积神经网络参数,反复迭代至卷积神经网络的交叉熵损失不再显著降低;
步骤S7、在测试阶段,使用步骤S6中训练完成的卷积神经网络,对测试图像做分类: 归一化处理测试图像,将图像输入卷积神经网络,进行完整的一次前向传播,过程中跳过 软擦除图的计算与使用;
步骤S8、在步骤S7中,设输入全局平均池化层的特征图为F,包含n个通道(f1~fn),经由全局平均池化层得到V=(v1~vn),其中F的通道与V中的特征值一一对应;特征V 对真实分类y的贡献由全连接层中的相关权重wy体现,如公式三所示,其中W为全连接 层的权重参数;接着如公式四所示,通过F中每个通道对正确类别的贡献程度计算出类别 激活图;
wy=W (公式三)
Figure BDA0003595524980000044
步骤S9:对步骤S8中的类别激活图进行阈值分割,阈值在0至1的范围内选取,将大于等于阈值的像素置为1,反之置为0,并用一个最小矩形框框住所有值为1的像素点, 该矩形框即目标的定位框。从而使得预测定位框与目标真实定位框的重叠度值尽可能大, 使得目标定位更加精确。
γ设为0.5。可根据实际数据集进行微调γ的值。
最小二乘法的代数方法是对目标参数求偏导,令偏导数=0,进而求出目标参数的解。 在梯度下降法中则是通过迭代学习使目标参数的偏导逐渐趋于0达到求解的目的。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实 施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方 案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明 的权利要求范围当中。

Claims (2)

1.基于软擦除的弱监督目标定位算法,其特征在于,包括如下步骤:
步骤S1、对图像进行归一化处理至像素范围为0至1,得到初始图像数据;
步骤S2、修改预训练的卷积神经网络的网络结构:将预训练的卷积神经网络的末端更换为全局平均池化层与全连接层;
步骤S3、计算获得软擦除图Me:S31、使用步骤S2中的卷积神经网络提取初始图像数据的特征,取出卷积神经网络中第l层的中间特征图Fl;S32、计算中间特征图Fl在通道维度上的均值,经过Sigmoid函数运算,得到重要性图Im;S33、接着设定擦除阈值γ,继而由公式一计算获得软擦除图Me
Figure RE-FDA0003782896660000011
步骤S4:将步骤S3得到的软擦除图Me与中间特征图Fl做点对点相乘运算,并将结果传入卷积神经网络的第l+1层继续进行前向传播,得到预测分类;
步骤S5、计算交叉熵损失L:分别对步骤S4的预测分类与初始图像数据的真实分类计算交叉熵损失L,如公式二所示;
Figure RE-FDA0003782896660000012
其中,后y、
Figure RE-FDA0003782896660000013
分别代表真实分类与预测分类;
步骤S6、基于误差反向传播算法对卷积神经网络进行训练:基于步骤S5中的交叉熵损失L,使用梯度下降法对卷积神经网络中的参数求偏导数值,以偏导数值与学习率的乘积更新卷积神经网络参数,反复迭代至卷积神经网络的交叉熵损失不再显著降低;
步骤S7、在测试阶段,使用步骤S6中训练完成的卷积神经网络,对测试图像做分类:归一化处理测试图像,将图像输入卷积神经网络,进行完整的一次前向传播,过程中跳过软擦除图的计算与使用;
步骤S8、在步骤S7中,设输入全局平均池化层的特征图为F,包含n个通道(f1~fn),经由全局平均池化层得到V=(v1~vn),其中F的通道与V中的特征值一一对应;特征V对真实分类y的贡献由全连接层中的相关权重wy体现,如公式三所示,其中W为全连接层的权重参数;接着如公式四所示,通过F中每个通道对正确类别的贡献程度计算出类别激活图;
wy=W(公式三)
Figure RE-FDA0003782896660000021
步骤S9:对步骤S8中的类别激活图进行阈值分割,阈值在0至1的范围内选取,将大于等于阈值的像素置为1,反之置为0,并用一个最小矩形框框住所有值为1的像素点,该矩形框即目标的定位框。
2.根据权利要求1所述的基于软擦除的弱监督目标定位算法,其特征在于,γ设为0.5。
CN202210390945.3A 2022-04-14 2022-04-14 基于软擦除的弱监督目标定位算法 Pending CN115082657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390945.3A CN115082657A (zh) 2022-04-14 2022-04-14 基于软擦除的弱监督目标定位算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390945.3A CN115082657A (zh) 2022-04-14 2022-04-14 基于软擦除的弱监督目标定位算法

Publications (1)

Publication Number Publication Date
CN115082657A true CN115082657A (zh) 2022-09-20

Family

ID=83247745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390945.3A Pending CN115082657A (zh) 2022-04-14 2022-04-14 基于软擦除的弱监督目标定位算法

Country Status (1)

Country Link
CN (1) CN115082657A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144209A1 (en) * 2016-11-22 2018-05-24 Lunit Inc. Object recognition method and apparatus based on weakly supervised learning
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN110717534A (zh) * 2019-09-30 2020-01-21 中国科学院大学 一种基于网络监督的目标分类和定位方法
CN110929744A (zh) * 2018-09-20 2020-03-27 成都图必优科技有限公司 一种基于层次联合卷积网络特征弱监督图像语义分割方法
CN112329680A (zh) * 2020-11-13 2021-02-05 重庆邮电大学 基于类激活图的半监督遥感影像目标检测和分割方法
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144209A1 (en) * 2016-11-22 2018-05-24 Lunit Inc. Object recognition method and apparatus based on weakly supervised learning
CN110929744A (zh) * 2018-09-20 2020-03-27 成都图必优科技有限公司 一种基于层次联合卷积网络特征弱监督图像语义分割方法
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN110717534A (zh) * 2019-09-30 2020-01-21 中国科学院大学 一种基于网络监督的目标分类和定位方法
CN112329680A (zh) * 2020-11-13 2021-02-05 重庆邮电大学 基于类激活图的半监督遥感影像目标检测和分割方法
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾颖霞;郎丛妍;冯松鹤;: "基于类别相关的领域自适应交通图像语义分割方法", 计算机研究与发展, no. 04, 14 April 2020 (2020-04-14), pages 210 - 221 *

Similar Documents

Publication Publication Date Title
CN108537102B (zh) 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN109255364B (zh) 一种基于深度卷积生成对抗网络的场景识别方法
US10699170B2 (en) Apparatuses and methods for semantic image labeling
Chen et al. Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform
CN106875406B (zh) 图像引导的视频语义对象分割方法及装置
CN108681752B (zh) 一种基于深度学习的图像场景标注方法
CN106845374B (zh) 基于深度学习的行人检测方法及检测装置
CN105825200B (zh) 基于字典学习和结构稀疏表示的高光谱异常目标检测方法
US8379994B2 (en) Digital image analysis utilizing multiple human labels
CN112348849B (zh) 一种孪生网络视频目标跟踪方法及装置
EP3690741A2 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN104463249B (zh) 一种基于弱监督学习框架的遥感图像机场检测方法
CN111680655A (zh) 一种面向无人机航拍影像的视频目标检测方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN110245587B (zh) 一种基于贝叶斯迁移学习的光学遥感图像目标检测方法
Vandenhende et al. A three-player gan: generating hard samples to improve classification networks
CN113139594B (zh) 一种机载图像无人机目标自适应检测方法
CN103605984A (zh) 基于超图学习的室内场景分类方法
CN111325750A (zh) 一种基于多尺度融合u型链神经网络的医学图像分割方法
CN111680705A (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN115937254B (zh) 一种基于半监督学习的多空中飞行目标跟踪方法和系统
CN114863348A (zh) 基于自监督的视频目标分割方法
CN114998202A (zh) 一种半监督深度学习缺陷检测方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination