CN112927209B - 一种基于cnn的显著性检测系统和方法 - Google Patents
一种基于cnn的显著性检测系统和方法 Download PDFInfo
- Publication number
- CN112927209B CN112927209B CN202110246524.9A CN202110246524A CN112927209B CN 112927209 B CN112927209 B CN 112927209B CN 202110246524 A CN202110246524 A CN 202110246524A CN 112927209 B CN112927209 B CN 112927209B
- Authority
- CN
- China
- Prior art keywords
- feature
- level
- convolution
- feature map
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims 6
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 235000019587 texture Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于CNN的显著性检测系统和方法,系统包括特征融合模块、低级特征注意力模块和高级特征注意力模块;低级特征注意力模块用于获取的具有低级多粒度特征的特征图;尺度增强融合模块用于获得具有高级多粒度的特征图;高级特征注意力模块用于对具有高级多粒度的特征图中有关联性的特征图提供权重,获得关联有高级语义信息的特征图;特征融合模块用于对特征图进行特征融合,得到最终的显著性检测图。解决了现有技术中需要人工设计特征提取算法,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失的问题,本发明对图像中显著性目标轮廓部分处理地更加细致,预测出来的显著性目标具有更清晰的轮廓。
Description
技术领域
本发明涉及图片处理技术领域,具体涉及一种基于CNN的显著性检测系统和方法。
背景技术
相比工业时代,互联网时代的一个重要特征是数据的指数式爆发增长,而图像数据是人类从客观世界获取信息的一个高效来源。图像显著性检测是图像处理和计算机视觉中的基本任务之一,其目标是模拟人类视觉注意系统,在自然场景中快速定位到人类感兴趣的物体,并分割这些物体从而得到显著性目标区域,后续处理中,可以把计算资源分配至此区域,从而节省计算资源,同时显著性检测在图像检索、目标检测等领域中具有重要的应用价值。早期的显著性检测方法为了减少场景理解的复杂度,会从当前场景中选出一个子集,这个子集主要是一系列“注意焦点”,注意焦点按照标签图中显著性降序的顺序在图像中进行搜索,通过竞争神经网络,选择出最后胜出的像素点,再以该像素点为圆心作圆,即得到显著目标。近年来,随着半导体行业、计算机硬件的发展,算力瓶颈已被打破,因此,深度学习迎来了一波快速发展期,基于深度学习的显著性检测方法推动了显著性检测的新一轮潮流,许多基于深度学习的显著性方法取得了令人印象深刻的效果。
《CN107103326A-一种基于超像素聚类的协同显著性检测方法》中将原始图像数据组构建成三层的高斯金字塔,使用基于内容感知的超像素分割方法,根据图像的大小动态设定超像素块的数目N,对每层图像进行分割得到弱显著图。每个超像素块的特征表征为以下三个度量:暗通道值、中线先验权重和颜色特征。接着使用K-Means聚类方法对图像中所有的超像素块进行聚类从而得到K个类,通过对比度测度、重复度测度以及位置测度来描述协同显著性,根据3个测度的乘积得到每个尺度上的弱协同显著图。最后将弱显著图与弱协同显著图进行融合,最终得到融合后的协同显著图。此方法的计算复杂度不高,在简单场景下能达到良好的效果,但是在复杂场景下,尤其是背景与显著性目标在颜色、纹理上相似时,K-Means聚类方法的聚类效果会变差,从而导致弱协同显著性图像的质量降低,故此时不能排除复杂背景的干扰。
《CN109712105B-一种结合彩色和深度信息的图像显著目标检测方法》注意到,在彩色图像中,目标物体与周围物体在距离上存在着差异,此时图像的深度信息也是一个具有判别性的重要线索,因此将图像的彩色信息和深度信息进行融合,使其相互补充进行显著性目标检测,可以获得有效的显著性目标。但此方法忽略了图像的语义信息,并且,在网络结构中,没有对彩色信息和深度信息的高级特征和低级特征进行融合,在一定程度上导致了有用信息的丢失。
发明内容
本发明所要解决的技术问题是:现有技术需要人工设计特征提取算法,不能排除复杂背景的干扰,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失,本发明提供了解决上述问题的一种基于CNN的显著性检测系统和方法。
本发明通过下述技术方案实现:
基于CNN的显著性检测系统,包括特征融合模块、多个上下文特征注意力模块和多个尺度增强融合模块,所述上下文特征注意力模块包括低级特征注意力模块和高级特征注意力模块;
所述低级特征注意力模块用于对CNN输出的底层特征图进行卷积、归一化处理,获取的具有低级多粒度特征的特征图,并将所述具有低级多粒度特征的特征图发送给所述特征融合模块;
所述尺度增强融合模块用于对CNN输出的高层特征图进行扩张卷积,并将扩张卷积后的特征图与常规卷积的特征图做残差,获得具有高级多粒度的特征图,并将所述具有高级多粒度的特征图发送给所述高级特征注意力模块;
所述高级特征注意力模块用于对具有高级多粒度的特征图中有关联性的特征图提供权重,获得关联有高级语义信息的特征图,并将所述关联有高级语义信息的特征图发送给所述特征融合模块;
所述特征融合模块将所述具有低级多粒度特征的特征图和所述关联有高级语义信息的特征图进行特征融合,得到最终的显著性检测图。
为了让最终的显著性检测输出图融入底层的多粒度信息,将所述底层特征图输入所述低级特征注意力模块,获得图像中的低级多粒度特征,所述低级特征注意力模块(LA)的卷积核大小更大,且使用Concat来更加区分不同的特征图,达到关注图像中的物体而非边界的效果,所述低级特征注意力模块与所述高级特征注意力模块不同的是,LA关联的是一张特征图中像素与像素之间的对应关系。因为显著性检测更关注图像中某一个具体的物体,需要使用更大的感受野,而不是像边缘检测一样关注局部的边缘像素点,所以所述尺度增强融合模块采用更大的膨胀率,而且为了更加区分不同的特征图,所述尺度增强融合模块采用Concat,而非Add,所述尺度增强融合模块对高层特征图进行扩张卷积,获取高级特征中的多粒度特征,然后将扩张卷积后的特征图与常规卷积的特征图做残差,以防止过拟合和更新过程中的梯度消失问题,增加信息流的流动,高层特征图经过所述尺度增强融合模块处理后,具有高级特征的多粒度特征。为了关联具有较高语义的显著性检测特征图,对所述尺度增强融合模块输出的特征图采用所述高级特征注意力模块进行处理,所述高级特征注意力模块为关联性的特征图提供权重,筛选出关联性更高的特征图,从而更高效的提取显著性的目标轮廓。所述特征融合模块将所述具有低级多粒度特征的特征图和所述关联有高级语义信息的特征图进行特征融合,避免了有用信息的丢失。
本发明使用低级特征注意力模块、高级特征注意力模块和特征图融合模块结合的方法去解决现有显著性检测方法中需要人工设计特征提取算法,不能排除复杂背景的干扰,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失的问题。
具体的,所述尺度增强融合模块用公式表示为:
其中,f表示输入特征图,f∈RH×W×C,其中H和W表示特征图的高和宽,C表示输入特征图的数量,x0=S0(f),S0表示常规卷积,其卷积核大小设置为1x1,Si表示具有不同扩张系数的卷积,不同扩张系数卷积与常规卷积的特征图做残差操作,N表示扩张卷积的个数。
具体的,所述N设置为3,所述尺度增强融合模块最终输出表示为:
SEM(f)=([x0,x1,x2,x3])
其中,[]表示对矩阵在指定维度上进行拼接操作。
具体的,令fh∈RH×W×C表示具有C个数量的高层特征图,对于高层特征图用公式表示为首先,所述高级特征注意力模块对fh进行一个全局平均池化,得到一个包含全局感受野信息的向量v∈RC,之后,所述高级特征注意力模块对fh采用两个全连接层来获取不同特征图之间的关联信息,该过程表示为:
HA=F(v,W)=(fc2(σ(fc1(v,W1)),W))
具体的,令fl∈RW×H×C表示为具有数量C的底层特征图,所述低级特征注意力模块对fl执行两个不同大小尺寸的卷积,获得底层特征的多粒度关联信息,并采用sigmoid激活函数将已经编码的底层特征图归一化处理,将其映射到[0,1]之间,所述低级特征注意力模块用公式表示为:
L1=conv1(conv2(HA(fl)))
L2=conv1(conv2(HA(fl)))
其中HA(f)表示高级特征注意力模块,conv1和conv2分别代表k x 1和1 x k卷积层,所述低级特征注意力模块最后的输出表示为:
LA(fl,LA(f))=fl*F(HA(f))=fl*Sigmoid(L1+L2)。
一种基于CNN的显著性检测方法,包括以下步骤:
训练阶段:
网络模型参数初始化;
将图像数据集输入参数初始化后的网络模型中,所述网络模型对所述数据集进行多层卷积处理,输出特征图;
对第二层卷积输出的底层特征图进行上采样,将上采样后的特征图与第一层卷积输出的底层特征图进行拼接,对拼接后的特征图进行两个不同尺寸的卷积、归一化处理,得到具有低级多粒度特征的第一特征图;
对第三层卷积输出的高层特征图和第四层卷积输出的高层特征图分别使用不同的扩张系数进行扩张卷积;
将扩张卷积后的第三层卷积输出的高层特征图与第三层卷积输出的高层特征图做残差,再依次加权、卷积和上采样后,得到第二特征图;
将扩张卷积后的第四层卷积输出的特征图与第四层卷积输出的高层特征图做残差,再依次加权、卷积和上采样后,得到第三特征图;
所述第一特征图分别与所述第二特征图和第三特征图进行拼接后,得到两个初次拼接特征图;再将所述两个初次拼接图进行相互拼接,并合成为一张特征图;通过损失函数对合成的特征图进行监督训练,输出最终的显著性检测图,得到训练好的网络模型;
预测阶段:
使用训练好的网络模型对待检测的图像进行显著性检测。
本发明的工作原理:
训练阶段:
将所述网络模型第一层、第二层输出的低层特征图输入到所述低级特征注意力模块中,所述低级特征注意力模块对输入的低层特征图进行两个不同尺寸的卷积、归一化处理后,得到具有低级多粒度特征的第一特征图;
将所述网络模型第三层、第四层输出的高层特征图输入到所述尺度增强融合模块中,所述尺度增强融合模块使用不同的扩张系数对输入的高层特征图进行扩张卷积,并将不同扩张系数的扩张卷积与常规卷积做残差,为高级特征提供更大的感受野,获得具有高级多粒度的特征图;
将所述具有高级多粒度的特征图输入到所述高级特征注意力模块,所述高级特征注意力模块为关联性的具有高级多粒度的特征图提供权重,得到关联有高级语义信息的特征图;对高级特征注意力模块输出的关联有高级语义信息的特征图进行上采样处理,得到第二特征图、第三特征图;
所述特征融合模块将所述第一特征图分别与所述第二特征图和所述第三特征图进行拼接后,得到两个初次拼接特征图;再将所述两个初次拼接图进行相互拼接,并合成为一张特征图,得到既包含丰富前景信息的底层特征,还包含高级语义特征的特征图,为了便于执行损失函数的计算,通过反卷积逐渐放大特征融合模块的输出显著性检测图像的分辨率,最终将检测特征图恢复至之前输入图像的分辨率大小,然后进行损失函数和模型参数的反向传播,训练结束,得到训练好的网络模型,保存参数文件;
预测阶段:
输入一张真实的自然图像到训练好的网络模型中,调用保存的参数文件,得到显著性检测预测图像。
底层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差,本网络模型将高层特征与底层特征高效融合,排除了背景干扰,不需要人工设计特征提取算法,能够自动地学习图像中的显著性目标特征,能更加精确地定位到图像中的显著性目标,且本发明对图像显著性目标的轮廓部分处理得更加细致,预测出来的显著性图像具有更清晰的轮廓。
优选的,网络模型参数初始化时,BatchSize设置32,采用SGD损失函数,初始学习率设置为0.01,每20个epoch权重衰减0.1,训练Epoch的数量设置为150。
为了使网络模型更加关注目标图像中的物体,优选的,所述损失函数定义为:
其中,G表示真实的标注图像,P是模型的输出预测图像,m表示真实图像中的像素总和。
优选的,所述网络模型以ResNet50网络为骨干网络,移除最后的全连接层和池化层。
因为显著性检测更关注图像中某一个具体的物体,需要使用更大的感受野,而不是像边缘检测一样关注局部的边缘像素点,所以所述尺度增强融合模块采用更大的膨胀率,优选的,所述尺度增强融合模块使用扩张系数分别为3,5,7的扩张卷积核对输入的高层特征图进行扩张卷积。
本发明具有如下的优点和有益效果:
本发明一种基于CNN的显著性检测系统和方法,克服了现有技术中需要人工设计特征提取算法,不能排除复杂背景的干扰,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失的问题,本发明可以自动地学习到图像中的边缘特征,将高层特征与底层特征高效融合,得到既包含丰富前景信息的底层特征,还包含高级语义特征的特征图,本发明对图像中显著性目标轮廓部分处理地更加细致,预测出来的显著性目标具有更清晰的轮廓。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的系统结构关系图。
图2为本发明的实验结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
现有技术需要人工设计特征提取算法,不能排除复杂背景的干扰,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失,本实施例提供了解决上述问题的一种基于CNN的显著性检测系统。
如图1所示,基于CNN的显著性检测系统,包括特征融合模块、多个上下文特征注意力模块和多个尺度增强融合模块,上下文特征注意力模块包括低级特征注意力模块和高级特征注意力模块;
低级特征注意力模块用于对CNN输出的底层特征图进行卷积、归一化处理,获取的具有低级多粒度特征的特征图,并将具有低级多粒度特征的特征图发送给特征融合模块;
尺度增强融合模块用于对CNN输出的高层特征图进行扩张卷积,并将扩张卷积后的特征图与常规卷积的特征图做残差,获得具有高级多粒度的特征图,并将具有高级多粒度的特征图发送给高级特征注意力模块;
高级特征注意力模块用于对具有高级多粒度的特征图中有关联性的特征图提供权重,获得关联有高级语义信息的特征图,并将关联有高级语义信息的特征图发送给特征融合模块;
特征融合模块将具有低级多粒度特征的特征图和关联有高级语义信息的特征图进行特征融合,得到最终的显著性检测图。
为了让最终的显著性检测输出图融入底层的多粒度信息,将底层特征图(LA)输入低级特征注意力模块,获得图像中的低级多粒度特征,与高级特征注意力模块不同的是,LA关联的是一张特征图中像素与像素之间的对应关系。尺度增强融合模块对高层特征图进行扩张卷积,获取高级特征中的多粒度特征,然后将扩张卷积后的特征图与常规卷积的特征图做残差,以防止过拟合和更新过程中的梯度消失问题,增加信息流的流动,高层特征图经过尺度增强融合模块处理后,具有高级特征的多粒度特征。为了关联具有较高语义的显著性检测特征图,对尺度增强融合模块输出的特征图采用高级特征注意力模块进行处理,高级特征注意力模块为关联性的特征图提供权重,筛选出关联性更高的特征图,从而更高效的提取显著性的目标轮廓。特征融合模块将具有低级多粒度特征的特征图和关联有高级语义信息的特征图进行特征融合,避免了有用信息的丢失。
本实施例使用低级特征注意力模块、高级特征注意力模块和特征图融合模块结合的方法去解决现有显著性检测方法中需要人工设计特征提取算法,不能排除复杂背景的干扰,没有对彩色信息和深度信息的高级特征和低级特征进行融合,导致有用信息丢失的问题。
本实施例中:
尺度增强融合模块用公式表示为:
其中,f表示输入特征图,f∈RH×W×C,其中H和W表示特征图的高和宽,C表示输入特征图的数量,x0=S0(f),S0表示常规卷积,其卷积核大小设置为1x1,Si表示具有不同扩张系数的卷积,不同扩张系数卷积与常规卷积的特征图做残差操作,N表示扩张卷积的个数。
本实施例中N设置为3,尺度增强融合模块最终输出表示为:
SEM(f)=([x0,x1,x2,x3])
其中,[]表示对矩阵在指定维度上进行拼接操作。
令fh∈RH×W×C表示具有C个数量的高层特征图,对于高层特征图用公式表示为首先,高级特征注意力模块对fh进行一个全局平均池化,得到一个包含全局感受野信息的向量v∈RC,之后,高级特征注意力模块对fh采用两个全连接层来获取不同特征图之间的关联信息,该过程表示为:
HA=F(v,W)=(fc2(σ(fc1(v,W1)),W))
令fl∈RW×H×C表示为具有数量C的底层特征图,低级特征注意力模块对fl执行两个不同大小尺寸的卷积,获得底层特征的多粒度关联信息,并采用sigmoid激活函数将已经编码的底层特征图归一化处理,将其映射到[0,1]之间,低级特征注意力模块用公式表示为:
L1=conv1(conv2(HA(fl)))
L2=conv1(conv2(HA(fl)))
其中HA(f)表示高级特征注意力模块,conv1和conv2分别代表k x 1和1 x k卷积层,所述低级特征注意力模块最后的输出表示为:
LA(fl,LA(f))=fl*F(HA(f))=fl*Sigmoid(L1+L2)。
本实施例使用的网络是以ResNet50网络为骨干网络,移除最后的全连接层和池化层,该网络包括多个上下文特征注意力模块和尺度增强融合模块。上下文特征注意力模块包括低级特征注意力模块和高级特征注意力模块。
实施例2
本实施例是基于实施例1显著性检测系统的一种显著性检测方法,本实施例使用的网络是以ResNet50网络为骨干网络,移除最后的全连接层和池化层。
一种基于CNN的显著性检测方法,包括以下步骤:
训练阶段:
网络模型参数初始化,BatchSize设置32,采用SGD损失函数,初始学习率设置为0.01,每20个epoch权重衰减0.1,训练Epoch的数量设置为150;
将图像数据集统一裁剪相同尺寸,输入到参数初始化后的网络模型中,网络模型对数据集进行多层卷积处理,输出特征图;
对ResNet50骨干网络第二层卷积输出的底层特征图进行上采样,将上采样后的特征图与ResNet50骨干网络第一层卷积输出的底层特征图进行拼接,对拼接后的特征图进行两个不同尺寸的卷积、归一化处理,得到具有低级多粒度特征的第一特征图;
对ResNet50骨干网络第三层卷积输出的高层特征图和第四层卷积输出的高层特征图分别使用不同的扩张系数进行扩张卷积;
将扩张卷积后的第三层卷积输出的高层特征图与第三层卷积输出的高层特征图做残差,再依次加权、卷积和上采样后,得到第二特征图;
将扩张卷积后的第四层卷积输出的特征图与第四层卷积输出的高层特征图做残差,再依次加权、卷积和上采样后,得到第三特征图;
第一特征图分别与第二特征图和第三特征图进行拼接后,得到两个初次拼接特征图;再将两个初次拼接图进行相互拼接,并合成为一张特征图;通过损失函数对合成的特征图进行监督训练,输出最终的显著性检测图,得到训练好的网络模型;
预测阶段:
使用训练好的网络模型对待检测的图像进行显著性检测。
本实施例的工作原理:
训练阶段:
将ResNet50骨干网络第一层、第二层输出的低层特征图输入到低级特征注意力模块中,低级特征注意力模块对输入的低层特征图进行两个不同尺寸的卷积、归一化处理后,得到具有低级多粒度特征的第一特征图;
将ResNet50骨干网络第三层、第四层输出的高层特征图输入到尺度增强融合模块中,尺度增强融合模块使用扩张系数分别为3,5,7的扩张卷积核对输入的高层特征图进行扩张卷积,并将不同扩张系数的扩张卷积与常规卷积做残差,为高级特征提供更大的感受野,获得具有高级多粒度的特征图;
将具有高级多粒度的特征图输入到高级特征注意力模块,高级特征注意力模块为关联性的具有高级多粒度的特征图提供权重,得到关联有高级语义信息的特征图;对高级特征注意力模块输出的关联有高级语义信息的特征图进行上采样处理,得到第二特征图、第三特征图;
特征融合模块将第一特征图分别与所述第二特征图和所述第三特征图进行拼接后,得到两个初次拼接特征图;再将两个初次拼接图进行相互拼接,并合成为一张特征图,得到既包含丰富前景信息的底层特征,还包含高级语义特征的特征图,为了便于执行损失函数的计算,通过反卷积逐渐放大特征融合模块的输出显著性检测图像的分辨率,最终将检测特征图恢复至之前输入图像的分辨率大小,然后进行损失函数和模型参数的反向传播,训练结束,得到训练好的网络模型,保存参数文件;
预测阶段:
输入一张真实的自然图像到训练好的网络模型中,调用保存的参数文件,得到显著性检测预测图像。
底层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如图2所示,本网络模型将高层特征与底层特征高效融合,排除了背景干扰,不需要人工设计特征提取算法,能够自动地学习图像中的显著性特征,且本实施例对图像中显著性目标轮廓部分处理地更加细致,预测出来的显著性图目标具有更清晰的轮廓。
本实施例中:
损失函数定义为:
其中,G表示真实的标注图像,P是模型的输出预测图像,m表示真实图像中的像素总和。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于CNN的显著性检测系统,其特征在于,包括特征融合模块、多个上下文特征注意力模块和多个尺度增强融合模块,所述上下文特征注意力模块包括低级特征注意力模块和高级特征注意力模块;
所述低级特征注意力模块用于对CNN输出的底级特征图进行不同尺寸的卷积、归一化处理,获取的具有低级多粒度特征的特征图,并将所述具有低级多粒度特征的特征图发送给所述特征融合模块;
所述尺度增强融合模块用于对CNN输出的高级特征图进行扩张卷积,并将扩张卷积后的特征图与常规卷积的特征图做残差,获得具有高级多粒度的特征图,并将所述具有高级多粒度的特征图发送给所述高级特征注意力模块;
所述尺度增强融合模块用公式表示为:
其中,f表示输入特征图,f∈RH×W×C,其中H和W表示特征图的高和宽,C表示输入特征图的数量,x0=S0(f),S0表示常规卷积,x0表示常规卷积的输出,所述常规卷积指CNN对输入的图像数据集所做的卷积,其卷积核大小设置为1x1,Si表示具有不同扩张系数的卷积,不同扩张系数卷积与常规卷积的特征图做残差操作,N表示扩张卷积的个数,xi表示第i个扩张卷积的输出;
所述高级特征注意力模块用于对具有高级多粒度的特征图中有关联性的特征图提供权重,获得关联有高级语义信息的特征图,并将所述关联有高级语义信息的特征图发送给所述特征融合模块;
所述特征融合模块将所述具有低级多粒度特征的特征图和所述关联有高级语义信息的特征图进行特征融合,得到最终的显著性检测图。
2.根据权利要求1所述的基于CNN的显著性检测系统,其特征在于,所述N设置为3,所述尺度增强融合模块最终输出表示为:
SEM(f)=([x0,x1,x2,x3])
其中,[]表示对矩阵在指定维度上进行拼接操作。
3.根据权利要求1所述的基于CNN的显著性检测系统,其特征在于,令fh∈RH×W×C表示具有C个数量的高层特征图,对于高层特征图用公式表示为首先,所述高级特征注意力模块对fh进行全局平均池化,得到包含全局感受野信息的向量v∈RC,之后,所述高级特征注意力模块对fh采用两个全连接层来获取不同特征图之间的关联信息,获取不同特征图之间的关联信息的过程表示为:
HA=F(v,Wn)=(fc2(σ(fc1(v,W1)),W2))
其中,Wn表示各个通道的权重,W1表示第一个全连接层各个通道的权重,W2表示第二个全连接层各个通道的权重;σ表示ReLu激活函数,fc1,fc2表示两个全连接层,v表示f经过全局平均池化后的向量,最终的输出表示为所述高级特征注意力模块定义为:
4.根据权利要求1所述的基于CNN的显著性检测系统,其特征在于,令fl∈RW×H×C表示为具有数量C的底层特征图,所述低级特征注意力模块对fl执行两个不同大小尺寸的卷积,获得底层特征的多粒度关联信息,并采用sigmoid激活函数将已经编码的底层特征图归一化处理,将其映射到[0,1]之间,所述低级特征注意力模块用公式表示为:
L1=conv1(conv2(HA(fl)))
L2=conv1(conv2(HA(fl)))
其中HA(f)表示高级特征注意力模块,conv1和conv2分别代表kx1和1xk卷积层,所述低级特征注意力模块最后的输出表示为:
LA(fl,LA(f))=fl*F(HA(f))=fl*Sigmoid(L1+L2)。
5.一种基于CNN的显著性检测方法,其特征在于,基于权利要求1-4任一所述的基于CNN的显著性检测系统,包括以下步骤:
训练阶段:
网络模型参数初始化;
将图像数据集输入参数初始化后的网络模型中,所述网络模型对所述数据集进行多层卷积处理,输出特征图;
对第二层卷积输出的特征图进行上采样,将上采样后的特征图与第一层卷积输出的特征图进行拼接,对拼接后的特征图进行两个不同尺寸的卷积、归一化处理,得到具有低级多粒度特征的第一特征图;
对第三层卷积输出的特征图和第四层卷积输出的特征图分别使用不同的扩张系数进行扩张卷积;
将扩张卷积后的第三层卷积输出的特征图与第三层卷积做残差,再依次加权、卷积和上采样后,得到第二特征图;
将扩张卷积后的第四层卷积输出的特征图与第四层卷积做残差,再依次加权、卷积和上采样后,得到第三特征图;
所述第一特征图分别与所述第二特征图和第三特征图进行拼接后,得到两个初次拼接特征图;再将所述两个初次拼接特征图进行相互拼接,并合成为一张特征图;通过损失函数对合成的特征图进行监督训练,输出最终的显著性检测图,得到训练好的网络模型;
预测阶段:
使用训练好的网络模型对待检测的图像进行显著性检测。
6.根据权利要求5所述的一种基于CNN的显著性检测方法,其特征在于,网络模型参数初始化时,BatchSize设置32,采用SGD损失函数,初始学习率设置为0.01,每20个epoch权重衰减0.1,训练Epoch的数量设置为150。
8.根据权利要求5所述的一种基于CNN的显著性检测方法,其特征在于,所述网络模型以ResNet50网络为骨干网络,移除最后的全连接层和池化层。
9.根据权利要求5所述的一种基于CNN的显著性检测方法,其特征在于,所述尺度增强融合模块使用扩张系数分别为3,5,7的扩张卷积核对输入的高层特征图进行扩张卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246524.9A CN112927209B (zh) | 2021-03-05 | 2021-03-05 | 一种基于cnn的显著性检测系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246524.9A CN112927209B (zh) | 2021-03-05 | 2021-03-05 | 一种基于cnn的显著性检测系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927209A CN112927209A (zh) | 2021-06-08 |
CN112927209B true CN112927209B (zh) | 2022-02-11 |
Family
ID=76173494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110246524.9A Active CN112927209B (zh) | 2021-03-05 | 2021-03-05 | 一种基于cnn的显著性检测系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927209B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435578B (zh) * | 2021-06-25 | 2022-04-05 | 重庆邮电大学 | 基于互注意力的特征图编码方法、装置及电子设备 |
CN113536978B (zh) * | 2021-06-28 | 2023-08-18 | 杭州电子科技大学 | 一种基于显著性的伪装目标检测方法 |
CN113643305B (zh) * | 2021-08-10 | 2023-08-25 | 珠海复旦创新研究院 | 一种基于深度网络上下文提升的人像检测与分割方法 |
CN114067107B (zh) * | 2022-01-13 | 2022-04-29 | 中国海洋大学 | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011121563A1 (en) * | 2010-04-01 | 2011-10-06 | Koninklijke Philips Electronics N.V. | Detecting saliency in an image |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN111275076A (zh) * | 2020-01-13 | 2020-06-12 | 南京理工大学 | 基于特征选择和特征融合的图像显著性检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242181B (zh) * | 2020-01-03 | 2023-09-29 | 大连民族大学 | 基于图像语义和细节的rgb-d显著性物体检测器 |
CN111681252B (zh) * | 2020-05-30 | 2022-05-03 | 重庆邮电大学 | 一种基于多路径注意力融合的医学图像自动分割方法 |
-
2021
- 2021-03-05 CN CN202110246524.9A patent/CN112927209B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011121563A1 (en) * | 2010-04-01 | 2011-10-06 | Koninklijke Philips Electronics N.V. | Detecting saliency in an image |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN111275076A (zh) * | 2020-01-13 | 2020-06-12 | 南京理工大学 | 基于特征选择和特征融合的图像显著性检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
Non-Patent Citations (2)
Title |
---|
Exploring New Backbone and Attention Module for Semantic Segmentation in Street Scenes;LEI FAN 等;《IEEE Access》;20181112;第71566-71580页 * |
多尺度通道注意力融合网络的小目标检测算法;李文涛 等;《计算机科学与探索》;20210204;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112927209A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927209B (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
WO2019075130A1 (en) | IMAGE PROCESSING DEVICE AND METHOD | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN112288011A (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN111967464B (zh) | 一种基于深度学习的弱监督目标定位方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN111696110A (zh) | 场景分割方法及系统 | |
CN113159236A (zh) | 基于多尺度变换的多聚焦图像融合方法及装置 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN117351487A (zh) | 一种邻近区域与边缘信息融合的医学图像分割方法、系统 | |
CN112926667A (zh) | 深度融合边缘与高层特征的显著性目标检测方法及装置 | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN116630763A (zh) | 一种基于多尺度上下文感知的多聚焦图像融合方法 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN115471718A (zh) | 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 | |
CN112927250B (zh) | 一种基于多粒度注意力分层网络的边缘检测系统和方法 | |
CN112732967B (zh) | 图像自动标注方法、系统及电子设备 | |
CN114841887A (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
CN115311550A (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN114863570A (zh) | 视频动作识别模型的训练、识别方法、装置以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |