CN113139431B - 基于深监督学习的图像显著性目标检测方法 - Google Patents

基于深监督学习的图像显著性目标检测方法 Download PDF

Info

Publication number
CN113139431B
CN113139431B CN202110312130.9A CN202110312130A CN113139431B CN 113139431 B CN113139431 B CN 113139431B CN 202110312130 A CN202110312130 A CN 202110312130A CN 113139431 B CN113139431 B CN 113139431B
Authority
CN
China
Prior art keywords
image
network
saliency
characteristic
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110312130.9A
Other languages
English (en)
Other versions
CN113139431A (zh
Inventor
张善卿
孟一恒
李黎
陆剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110312130.9A priority Critical patent/CN113139431B/zh
Publication of CN113139431A publication Critical patent/CN113139431A/zh
Application granted granted Critical
Publication of CN113139431B publication Critical patent/CN113139431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深监督学习的图像显著性目标检测方法,首先,修改VGG‑16网络以适应显著性检测任务,去除网络的最后一层池化层和所有全联接层,利用修改后的VGG‑16网络来提取图像的多尺度特征信息,递归融合多尺度特征,得到显著性图像;为了加强图像的边界,将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,递归指导每一层的显著性特征图像,优化边界信息,增强最后的显著性图像效果。本发明解决了现有技术多尺度显著性检测存在的边界模糊等问题。

Description

基于深监督学习的图像显著性目标检测方法
技术领域
本发明属于图像显著性目标检测领域,尤其涉及一种基于深监督学习的图像显著性目标检测方法。
背景技术
显著性目标检测的目的是用算法定位图像中最明显和最吸引眼球的区域(即人眼感兴趣区域),体现人眼中图像各区域的重视程度,识别图像的主体,减少场景的复杂度,研究人员致力于开发模拟人类注意过程的计算模型来预测图像显著性目标,它可以作为许多计算机视觉任务的预处理步骤,如场景分类,图像分割,视频压缩,信息隐藏等,在图像处理领域具有至关重要的作用。
在过去的二十年里,人们已经提出了大量的方法来检测图像中的显著目标。受人类视觉注意机制的启发,早期的经典显著对象检测模型主要利用启发式先验信息来建模或者将显著性检测定义为二元分割模型,但除了少数试图分割感兴趣对象的模型,大多数的方法都是基于低层次手工制作的特征,这些低级的特征(颜色,亮度,对比度,纹理)主要依赖于手工制作,很难捕捉到对象及周围环境的高级语义特征,因此,这些方法并不能很好地从杂乱复杂的背景中区分检测到显著性目标,而且很难适应新的场景,泛化能力较差。
近年来,全卷机神经网络(Fully Convolutional Neural Network,FCN)在显著性检测任务中表现出了很好的效果。FCN具有保存空间信息的能力,在像素级别操作,实现点对点学习和端对端训练的策略。VGG,ResNet等基于FCN的网络相继被提出用于显著性检测。VGG网络体系结构较小,参数较少,基于VGG网络的显著性目标检测模型适合作为各大视觉任务的预处理过程,可同时因为轻小的网络,VGG很难提取到深层次的语义信息;ResNet网络与VGG网络相比性能更好,但网络架构很大,过于消耗计算资源。其它的显著性检测模型大多通过依次叠加卷积层和最大池化层来生成深层特征,这些模型主要关注从最后的卷积层提取到的高级特征的非线性组合,缺乏目标边缘等低级视觉信息,在具有透明物体的场景、前景和背景之间的对比度相似,以及复杂的背景等情况下很难检测显著物体。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于深监督学习的图像显著性目标检测方法。本发明利用深度监督学习,多尺度细化显著性图像边界,多尺度监督显著性预测结果,优化图像边界信息。
本发明的目的是通过以下技术方案来实现的:一种基于深监督学习的图像显著性目标检测方法,步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层;
步骤2:将训练图像送入步骤1修改的网络,利用4个下采样层,提取5个不同尺度下的特征图像;
步骤3:递归融合步骤2得到的特征图像,预测得到多级显著性特征图像;
步骤4:将显著性特征的真值图像依次下采样到步骤3得到的多级特征同样的大小;
步骤5:利用步骤3预测的各级显著性特征图,与对应大小的步骤4得到的背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数;
步骤6:利用损失函数进行端对端的训练,优化显著性图像;
步骤7:将待检测图像输入步骤6训练后的网络,经过步骤2~3的处理,得到对应的最终预测图。
进一步地,步骤1具体实现如下:
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。
进一步地,步骤2具体实现如下:
将待测图像S送入改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像经过池化层后长宽都为上一层特征图像的一半。
进一步地,步骤3具体实现如下:
对多级特征图像进行进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图:
进一步地,步骤4具体实现如下:
根据步骤3,可以得到4个不同尺度的特定级预测图P2~P5,与1个最终预测图P1,其中P2~P5依次为上一层一半的大小;将真值图像T1依次下采样到与预测图P2~P5相同的大小,得到T2~T5
进一步地,步骤5具体实现如下:
利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数;
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率;
最终,所有预测的联合损失函数为
本发明的有益效果是:本发明针对图像显著性目标检测存在的特征图像边界模糊,高亮区域不均匀等问题,采用深监督的方法,以此来改善高级特征经过层层卷积网络后丧失物体丰富低级语义信息的问题。将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,联合各级损失函数,端对端训练;得到边界清晰高亮区域均匀的显著性特征图像。
附图说明
图1为算法流程图;
图2为VGG-16网络结构图;
图4为待检测图像示意图;
图5为待检测图像的显著性图像示意图;
图3为使用算法的显著性图像与未使用的对比图。
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。
本发明一种基于深监督学习的图像显著性目标检测方法,解决了市面上多尺度显著性检测存在的边界模糊等问题。首先,修改VGG-16网络以适应显著性检测任务,去除网络的最后一层池化层和所有全联接层,利用修改后的VGG-16网络来提取图像的多尺度特征信息,递归融合多尺度特征,得到显著性图像。为了加强图像的边界,将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,递归指导每一层的显著性特征图像,优化边界信息,增强最后的显著性图像效果。
如图1所示,本发明具体步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层。
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。修改后的VGG-16网络如图2所示,可用来提取5个不同尺度和深度的特征信息。
步骤2:将训练图像送入网络,利用4个下采样层,提取5个不同尺度下的特征图像。
将RGB训练图像S(本实施例中设置大小为256*256*3)送入步骤1改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像Si经过池化层后长宽都为上一层特征图像Si-1的一半,i=1~5。
步骤3:递归融合特征图像,得到预测的显著性特征图像。
对步骤2得到的多级特征图像S1~S5进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图Pi
其中,Up(Pi+1)为对Pi+1上采样;P1为最终预测图,大小为256*256*2;P2~P5为4个不同尺度的特定级预测图,Pi依次为上一层Pi-1一半的大小。
步骤4:将真值图像依次下采样到多级特征同样的大小。
将图像S对应的显著性图像的真值图像T1(256*256*2)依次下采样到与预测图P2~P5相同的大小,得到T2~T5
步骤5:利用各级显著性特征图,与背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数。
利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数。
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率。
最终,所有预测的联合损失函数为
步骤6:利用损失函数进行端对端的训练步骤1改进后的VGG-16网络的权重参数,优化显著性特征图像;得到最后检测到的显著性特征图像与之前没有使用本发明算法的效果对比如图3所示。
步骤7:将待检测图像输入步骤6训练后的改进VGG-16网络,经过步骤2~3的处理,得到对应的最终预测图P1。如图4所示的待检测图像提取到如图5所示的显著性特征图像。

Claims (4)

1.一种基于深监督学习的图像显著性目标检测方法,其特征在于,步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层;
步骤2:将训练图像送入步骤1修改的网络,利用4个下采样层,提取5个不同尺度下的特征图像;
步骤3:递归融合步骤2得到的特征图像,预测得到多级显著性特征图像;
步骤4:将显著性特征的真值图像依次下采样到步骤3得到的多级特征同样的大小;包括:根据步骤3,得到4个不同尺度的特定级预测图P2~P5,与1个最终预测图P1,其中P2~P5依次为上一层一半的大小;将真值图像T1依次下采样到与预测图P2~P5相同的大小,得到T2~T5
步骤5:利用步骤3预测的各级显著性特征图,与对应大小的步骤4得到的背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数;包括:利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数;
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率;
最终,所有预测的联合损失函数为
步骤6:利用损失函数进行端对端的训练,优化显著性图像;
步骤7:将待检测图像输入步骤6训练后的网络,经过步骤2~3的处理,得到对应的最终预测图。
2.根据权利要求1所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤1具体实现如下:
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。
3.根据权利要求2所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤2具体实现如下:
将待测图像S送入改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像经过池化层后长宽都为上一层特征图像的一半。
4.根据权利要求3所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤3具体实现如下:
对多级特征图像进行进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图:
CN202110312130.9A 2021-03-24 2021-03-24 基于深监督学习的图像显著性目标检测方法 Active CN113139431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110312130.9A CN113139431B (zh) 2021-03-24 2021-03-24 基于深监督学习的图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110312130.9A CN113139431B (zh) 2021-03-24 2021-03-24 基于深监督学习的图像显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113139431A CN113139431A (zh) 2021-07-20
CN113139431B true CN113139431B (zh) 2024-05-03

Family

ID=76810031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110312130.9A Active CN113139431B (zh) 2021-03-24 2021-03-24 基于深监督学习的图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113139431B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780305B (zh) * 2021-08-10 2024-03-12 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法
CN115471831B (zh) * 2021-10-15 2024-01-23 中国矿业大学 一种基于文本增强学习的图像显著性检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784183A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于级联卷积网络和光流的视频显著性目标检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784183A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于级联卷积网络和光流的视频显著性目标检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于密集连接的层次化显著性物体检测网络;左保川;王一旭;张晴;;应用技术学报(第03期);全文 *

Also Published As

Publication number Publication date
CN113139431A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112597815B (zh) 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法
CN107609512A (zh) 一种基于神经网络的视频人脸捕捉方法
CN111695640B (zh) 地基云图识别模型训练方法及地基云图识别方法
CN112598713A (zh) 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法
CN113139431B (zh) 基于深监督学习的图像显著性目标检测方法
CN112541508A (zh) 果实分割识别方法及系统、果实采摘机器人
CN112614136B (zh) 一种红外小目标实时实例分割方法及装置
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111626090B (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN109766823A (zh) 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法
CN113139501B (zh) 一种联合局部区域检测与多级特征抓取的行人多属性识别方法
CN115131880A (zh) 一种多尺度注意力融合的双重监督人脸活体检测方法
CN110599459A (zh) 基于深度学习的地下管网风险评估云系统
CN112435257A (zh) 一种多光谱成像的烟雾检测方法及系统
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
Widyantara et al. Gamma correction-based image enhancement and canny edge detection for shoreline extraction from coastal imagery
CN115700737A (zh) 一种基于视频监控的溢油检测方法
CN111160213B (zh) 基于深度学习的非法上下客检测方法、系统及存储介质
CN115147450B (zh) 基于运动帧差图像的移动目标检测方法及检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant