CN113139431B - 基于深监督学习的图像显著性目标检测方法 - Google Patents
基于深监督学习的图像显著性目标检测方法 Download PDFInfo
- Publication number
- CN113139431B CN113139431B CN202110312130.9A CN202110312130A CN113139431B CN 113139431 B CN113139431 B CN 113139431B CN 202110312130 A CN202110312130 A CN 202110312130A CN 113139431 B CN113139431 B CN 113139431B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- saliency
- characteristic
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深监督学习的图像显著性目标检测方法,首先,修改VGG‑16网络以适应显著性检测任务,去除网络的最后一层池化层和所有全联接层,利用修改后的VGG‑16网络来提取图像的多尺度特征信息,递归融合多尺度特征,得到显著性图像;为了加强图像的边界,将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,递归指导每一层的显著性特征图像,优化边界信息,增强最后的显著性图像效果。本发明解决了现有技术多尺度显著性检测存在的边界模糊等问题。
Description
技术领域
本发明属于图像显著性目标检测领域,尤其涉及一种基于深监督学习的图像显著性目标检测方法。
背景技术
显著性目标检测的目的是用算法定位图像中最明显和最吸引眼球的区域(即人眼感兴趣区域),体现人眼中图像各区域的重视程度,识别图像的主体,减少场景的复杂度,研究人员致力于开发模拟人类注意过程的计算模型来预测图像显著性目标,它可以作为许多计算机视觉任务的预处理步骤,如场景分类,图像分割,视频压缩,信息隐藏等,在图像处理领域具有至关重要的作用。
在过去的二十年里,人们已经提出了大量的方法来检测图像中的显著目标。受人类视觉注意机制的启发,早期的经典显著对象检测模型主要利用启发式先验信息来建模或者将显著性检测定义为二元分割模型,但除了少数试图分割感兴趣对象的模型,大多数的方法都是基于低层次手工制作的特征,这些低级的特征(颜色,亮度,对比度,纹理)主要依赖于手工制作,很难捕捉到对象及周围环境的高级语义特征,因此,这些方法并不能很好地从杂乱复杂的背景中区分检测到显著性目标,而且很难适应新的场景,泛化能力较差。
近年来,全卷机神经网络(Fully Convolutional Neural Network,FCN)在显著性检测任务中表现出了很好的效果。FCN具有保存空间信息的能力,在像素级别操作,实现点对点学习和端对端训练的策略。VGG,ResNet等基于FCN的网络相继被提出用于显著性检测。VGG网络体系结构较小,参数较少,基于VGG网络的显著性目标检测模型适合作为各大视觉任务的预处理过程,可同时因为轻小的网络,VGG很难提取到深层次的语义信息;ResNet网络与VGG网络相比性能更好,但网络架构很大,过于消耗计算资源。其它的显著性检测模型大多通过依次叠加卷积层和最大池化层来生成深层特征,这些模型主要关注从最后的卷积层提取到的高级特征的非线性组合,缺乏目标边缘等低级视觉信息,在具有透明物体的场景、前景和背景之间的对比度相似,以及复杂的背景等情况下很难检测显著物体。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于深监督学习的图像显著性目标检测方法。本发明利用深度监督学习,多尺度细化显著性图像边界,多尺度监督显著性预测结果,优化图像边界信息。
本发明的目的是通过以下技术方案来实现的:一种基于深监督学习的图像显著性目标检测方法,步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层;
步骤2:将训练图像送入步骤1修改的网络,利用4个下采样层,提取5个不同尺度下的特征图像;
步骤3:递归融合步骤2得到的特征图像,预测得到多级显著性特征图像;
步骤4:将显著性特征的真值图像依次下采样到步骤3得到的多级特征同样的大小;
步骤5:利用步骤3预测的各级显著性特征图,与对应大小的步骤4得到的背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数;
步骤6:利用损失函数进行端对端的训练,优化显著性图像;
步骤7:将待检测图像输入步骤6训练后的网络,经过步骤2~3的处理,得到对应的最终预测图。
进一步地,步骤1具体实现如下:
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。
进一步地,步骤2具体实现如下:
将待测图像S送入改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像经过池化层后长宽都为上一层特征图像的一半。
进一步地,步骤3具体实现如下:
对多级特征图像进行进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图:
进一步地,步骤4具体实现如下:
根据步骤3,可以得到4个不同尺度的特定级预测图P2~P5,与1个最终预测图P1,其中P2~P5依次为上一层一半的大小;将真值图像T1依次下采样到与预测图P2~P5相同的大小,得到T2~T5。
进一步地,步骤5具体实现如下:
利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数;
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率;
最终,所有预测的联合损失函数为
本发明的有益效果是:本发明针对图像显著性目标检测存在的特征图像边界模糊,高亮区域不均匀等问题,采用深监督的方法,以此来改善高级特征经过层层卷积网络后丧失物体丰富低级语义信息的问题。将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,联合各级损失函数,端对端训练;得到边界清晰高亮区域均匀的显著性特征图像。
附图说明
图1为算法流程图;
图2为VGG-16网络结构图;
图4为待检测图像示意图;
图5为待检测图像的显著性图像示意图;
图3为使用算法的显著性图像与未使用的对比图。
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。
本发明一种基于深监督学习的图像显著性目标检测方法,解决了市面上多尺度显著性检测存在的边界模糊等问题。首先,修改VGG-16网络以适应显著性检测任务,去除网络的最后一层池化层和所有全联接层,利用修改后的VGG-16网络来提取图像的多尺度特征信息,递归融合多尺度特征,得到显著性图像。为了加强图像的边界,将真值图像依次下采样到特征图像同样的大小,来自像素级的信息监督每一层的显著性图像预测,促进预测中的互补效应,递归指导每一层的显著性特征图像,优化边界信息,增强最后的显著性图像效果。
如图1所示,本发明具体步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层。
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。修改后的VGG-16网络如图2所示,可用来提取5个不同尺度和深度的特征信息。
步骤2:将训练图像送入网络,利用4个下采样层,提取5个不同尺度下的特征图像。
将RGB训练图像S(本实施例中设置大小为256*256*3)送入步骤1改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像Si经过池化层后长宽都为上一层特征图像Si-1的一半,i=1~5。
步骤3:递归融合特征图像,得到预测的显著性特征图像。
对步骤2得到的多级特征图像S1~S5进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图Pi:
其中,Up(Pi+1)为对Pi+1上采样;P1为最终预测图,大小为256*256*2;P2~P5为4个不同尺度的特定级预测图,Pi依次为上一层Pi-1一半的大小。
步骤4:将真值图像依次下采样到多级特征同样的大小。
将图像S对应的显著性图像的真值图像T1(256*256*2)依次下采样到与预测图P2~P5相同的大小,得到T2~T5。
步骤5:利用各级显著性特征图,与背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数。
利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数。
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率。
最终,所有预测的联合损失函数为
步骤6:利用损失函数进行端对端的训练步骤1改进后的VGG-16网络的权重参数,优化显著性特征图像;得到最后检测到的显著性特征图像与之前没有使用本发明算法的效果对比如图3所示。
步骤7:将待检测图像输入步骤6训练后的改进VGG-16网络,经过步骤2~3的处理,得到对应的最终预测图P1。如图4所示的待检测图像提取到如图5所示的显著性特征图像。
Claims (4)
1.一种基于深监督学习的图像显著性目标检测方法,其特征在于,步骤如下:
步骤1:修改VGG-16网络,去除VGG-16网络的最后一层池化层和所有的全连接层;
步骤2:将训练图像送入步骤1修改的网络,利用4个下采样层,提取5个不同尺度下的特征图像;
步骤3:递归融合步骤2得到的特征图像,预测得到多级显著性特征图像;
步骤4:将显著性特征的真值图像依次下采样到步骤3得到的多级特征同样的大小;包括:根据步骤3,得到4个不同尺度的特定级预测图P2~P5,与1个最终预测图P1,其中P2~P5依次为上一层一半的大小;将真值图像T1依次下采样到与预测图P2~P5相同的大小,得到T2~T5;
步骤5:利用步骤3预测的各级显著性特征图,与对应大小的步骤4得到的背景真值图之间的交叉熵损失,联合各级损失函数,得到最终的损失函数;包括:利用真值图像T1~T5与显著性特征图P1~P5之间的交叉熵损失函数,联合各级损失函数,得到最终的损失函数;
其中各级损失函数分别是:
其中,li,x,y∈{0,1}为真值图像Ti像素点(x,y)的标签,Pi,x,y分别表示各层次显著性特征图Pi像素点(x,y)属于前景的概率;
最终,所有预测的联合损失函数为
步骤6:利用损失函数进行端对端的训练,优化显著性图像;
步骤7:将待检测图像输入步骤6训练后的网络,经过步骤2~3的处理,得到对应的最终预测图。
2.根据权利要求1所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤1具体实现如下:
对VGG-16网络做了两处修改来适应显著性检测任务:去除VGG-16网络的最后一层池化层,以保留最后一个卷积层的特征信息;此外,去除VGG-16网络中所有的全连接层,以防止特征经过全连接层丢失特征的空间信息。
3.根据权利要求2所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤2具体实现如下:
将待测图像S送入改进后的VGG-16网络,经过卷积,信息过滤,提取到5个不同尺度和深度的特征图像,分别为S1~S5,由浅到深每层特征图像经过池化层后长宽都为上一层特征图像的一半。
4.根据权利要求3所述基于深监督学习的图像显著性目标检测方法,其特征在于,步骤3具体实现如下:
对多级特征图像进行进行递归融合,每一层的特征图像与上一层的特征图像融合,生成本层次的新预测图:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312130.9A CN113139431B (zh) | 2021-03-24 | 2021-03-24 | 基于深监督学习的图像显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312130.9A CN113139431B (zh) | 2021-03-24 | 2021-03-24 | 基于深监督学习的图像显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139431A CN113139431A (zh) | 2021-07-20 |
CN113139431B true CN113139431B (zh) | 2024-05-03 |
Family
ID=76810031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110312130.9A Active CN113139431B (zh) | 2021-03-24 | 2021-03-24 | 基于深监督学习的图像显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139431B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780305B (zh) * | 2021-08-10 | 2024-03-12 | 西安电子科技大学 | 一种基于两种线索交互的显著性目标检测方法 |
CN115471831B (zh) * | 2021-10-15 | 2024-01-23 | 中国矿业大学 | 一种基于文本增强学习的图像显著性检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN110598609A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于显著性引导的弱监督目标检测方法 |
-
2021
- 2021-03-24 CN CN202110312130.9A patent/CN113139431B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN110598609A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于显著性引导的弱监督目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于密集连接的层次化显著性物体检测网络;左保川;王一旭;张晴;;应用技术学报(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139431A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot | |
Luo et al. | Fire smoke detection algorithm based on motion characteristic and convolutional neural networks | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN112597815B (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
CN107609512A (zh) | 一种基于神经网络的视频人脸捕捉方法 | |
CN111695640B (zh) | 地基云图识别模型训练方法及地基云图识别方法 | |
CN112598713A (zh) | 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法 | |
CN113139431B (zh) | 基于深监督学习的图像显著性目标检测方法 | |
CN112541508A (zh) | 果实分割识别方法及系统、果实采摘机器人 | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111626090B (zh) | 一种基于深度帧差卷积神经网络的运动目标检测方法 | |
CN109766823A (zh) | 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法 | |
CN113139501B (zh) | 一种联合局部区域检测与多级特征抓取的行人多属性识别方法 | |
CN115131880A (zh) | 一种多尺度注意力融合的双重监督人脸活体检测方法 | |
CN110599459A (zh) | 基于深度学习的地下管网风险评估云系统 | |
CN112435257A (zh) | 一种多光谱成像的烟雾检测方法及系统 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
Widyantara et al. | Gamma correction-based image enhancement and canny edge detection for shoreline extraction from coastal imagery | |
CN115700737A (zh) | 一种基于视频监控的溢油检测方法 | |
CN111160213B (zh) | 基于深度学习的非法上下客检测方法、系统及存储介质 | |
CN115147450B (zh) | 基于运动帧差图像的移动目标检测方法及检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |