CN113191373A - 一种基于中心先验与U-Net网络相结合的显著性检测方法 - Google Patents

一种基于中心先验与U-Net网络相结合的显著性检测方法 Download PDF

Info

Publication number
CN113191373A
CN113191373A CN202110512226.XA CN202110512226A CN113191373A CN 113191373 A CN113191373 A CN 113191373A CN 202110512226 A CN202110512226 A CN 202110512226A CN 113191373 A CN113191373 A CN 113191373A
Authority
CN
China
Prior art keywords
layer
information
decoding
network
probability map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110512226.XA
Other languages
English (en)
Other versions
CN113191373B (zh
Inventor
蹇木伟
鲁祥伟
王芮
崔超然
林培光
董良
董波
黄振
何为凯
陈振学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi University
Shandong University of Finance and Economics
Original Assignee
Linyi University
Shandong University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linyi University, Shandong University of Finance and Economics filed Critical Linyi University
Priority to CN202110512226.XA priority Critical patent/CN113191373B/zh
Publication of CN113191373A publication Critical patent/CN113191373A/zh
Application granted granted Critical
Publication of CN113191373B publication Critical patent/CN113191373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了基于中心先验与U‑Net网络相结合的显著性检测方法,S1:利用U‑net编码器对对输入图像提取特征,通过卷积和池化的方式得到输入图像的高级特征信息;S2:背景噪声抑制优化模块的设计,并对高层特征信息进行优化,根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图;S3:网络的解码部分对信息进行五层解码,在上采样解码的过程中采用跨层传播的方式并构建了信息传播模块;S4:自适应损失函数机制维持网络结构的稳定;S5:最后通过sigmoid激活函数生成最终的显著性概率图。通过本发明的技术方案,本发明针对显著性检测领域中的背景抑制问题,将传统的中心先验思想与深度学习框架U‑Net相结合,提出了一种基于中心先验的显著性检测方法。

Description

一种基于中心先验与U-Net网络相结合的显著性检测方法
技术领域
本发明涉及人工智能技术领域,具体而言,特别涉及一种基于中心先验与U-Net网络相结合的显著性检测方法。
背景技术
显著性目标检测指的是模拟人眼的视觉特点,从图像中筛选出人类最感兴趣区域的一种技术。在计算机视觉领域,显著性目标检测是很多计算机视觉研究,如图像压缩、场景分类、目标跟踪等的基础工作,因此它对于计算机视觉领域的研究有着重要意义。
在1998年Itti等人将显著性目标检测这一概念提出后,显著性目标检测就一直备受关注,但是受限于较弱的学习能力,传统方法不能很好地模拟人眼的注意力机制。进入深度学习时代后,卷积神经网络在图像分类领域取得了不俗成绩,例如:VGG、ResNet等,同时人们发现将这些卷积神经网络作为显著性目标检测的骨干网络能够有效地提升检测效果,显著性目标检测也再次为人们所关注。以卷积神经网络为主体构建的显著性目标检测模型极大地提升了检测水准,促进了显著性目标检测领域的发展。
U-Net就是一个典型的卷积神经网络。U-Net在医学图像分割方面取得了极大的成功。它通过编码器和解码器对图像信息处理,同时通过跳跃连接的方式将编码和解码后的数据进行融合,实现了对背景噪声的过滤。但是用于显著性目标检测的自然图像要更加复杂,在显著性目标检测的自然图像中,背景中的物体往往具有很强的迷惑性,比如对比度差异很大的像素块、显著性物体的倒影等,因此背景和显著性物体的分割需要更加强力的手段来解决。
以上述挑战为出发点,本发明提出了一个基于中心先验知识的编码解码网络。根据研究表明,中心先验现象在自然图像中普遍存在,人类对处于图像中心位置的物体会更加感兴趣,距离图像中心越近,物体目标越显著。同时在编码解码的U-Net网络中,编码器最终输出的高层特征信息最具可靠性,因此我们将最终在网络底部编码出的特征信息作为构建中心先验概率图的依据,同时利用中心先验概率图构建对应的背景抑制模块,并通过信息传播模块将中心先验的影响力覆盖到整个网络。在后续的工作中我们发现由于大量底部特征信息和解码出的信息进行融合容易造成网络结构的不稳定,使得最终效果差异过大。因此我们又设计分支网络模块和协调各个分支网络之间关系的自适应参数,保证了底层网络在信息特征提取上的稳定性。
发明内容
为了弥补现有技术的不足,本发明针对自然图像在复杂背景下显著性检测效果明显下降的问题,采用图像分割领域应用比较广泛的U-Net模型与中心先验知识相结合的方式来改进这一问题。本发明提供了一种基于中心先验与U-Net网络相结合的显著性检测方法。
本发明是通过如下技术方案实现的:一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,具体包括以下步骤:
S1:利用U-net编码器对对输入图像提取特征,U-net编码器对图像进行编码处理,通过卷积和池化的方式得到输入图像的高级特征信息;
S2:背景噪声抑制优化模块的设计,并对编码器最后输出的高层特征信息进行优化,根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图;
S3:网络解码部分对信息进行解码,网络的解码部分对信息进行五层解码,在上采样解码的过程中采用跨层传播的方式并构建了信息传播模块;
S4:自适应损失函数机制维持网络结构的稳定:根据多分支上采样网络结构所构成的多个损失函数设计其对应的自适应损失函数机制,根据其损失函数的波动情况来设计对应参数,如果波动比较大,就增大其损失函数所占比例;
S5:最后通过sigmoid激活函数生成最终的显著性概率图。
作为优选方案,步骤S1的具体步骤如下:
S1-1:输入图像通过python中的Rezise函数将尺寸统一为224×224×3(宽×高×通道数)
S1-2:然后通过5层的编码提取高层特征信息,得到14×14×512(w×h×c)的高层特征信息,所谓的编码其实就是通过池化卷积进行下采样的过程:
第一层编码:224×224×3到224×224×64,卷积操作:将通道数由3扩展为64;
第二层编码:224×224×64到112×112×128,先使用MaxPool函数来最大池化:将宽和高的尺寸由224×224降为112×112,再使用卷积操作将通道数由64扩展为128;
第三层到第五层编码参考第二层;112×112×128(第三层编码)56×56×256(第四层编码)28×28×512(第五层编码)14×14×512。
作为优选方案,步骤S2的具体步骤如下:
S2-1:根据python中的torch库里的mean函数(求平均)将14×14×512的通道数由512平均化为1个通道。
S2-2:根据S2-1得到的14×14×1的信息利用公式1来求其显著性物体在该概率图上的中心点;
Figure BDA0003060727780000031
式中:W,H分别代表宽和高;G(x,y)代表在以宽高为x,y的坐标系上该坐标被判定为显著性物体的概率;(x,y)代表这里的坐标;(W,H)代表最大尺寸坐标;lceter代表中心点坐标;
S2-3:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径,在这个半径内的中心先验概率图的概率为1,超过了这个区域,概率的计算方式为S2-4中的公式(3);
Figure BDA0003060727780000032
式中:W*H:概率图的面积;c:常数0.5;
S2-4:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径;
Figure BDA0003060727780000033
式中:Si∈(SLU,SLD,SRU,SRD);
SLU代表以Step2中公式1求得的中心点为中心的概率图的左上区域的面积;
SLD代表以Step2中公式1求得的中心点为中心的概率图的左下区域的面积;
SRU代表以Step2中公式1求得的中心点为中心的概率图的右上区域的面积;
SRD代表以Step2中公式1求得的中心点为中心的概率图的右下区域的面积;
Si(x,y)代表这里(x,y)所处的位置的面积;
p(x,y)代表中心先验概率图中的概率,离中心区域越远,p(x,y)越小;
S2-5:通过中心先验概率图与高级语义信息(14×14×114×14×512)进行点乘的方式对底层网络编码后生成的信息进行处理。
作为优选方案,步骤S3的具体步骤如下:
S3-1:网络的解码部分对信息进行五层解码,通过先上采样、级联、后卷积的方式逐层解码;
第一层解码:第五层编码后并中心化处理和上采样后的信息级联第四层编码后的信息进行卷积得到第一层解码信息,
即:(14×14×512)第五层编码信息中心化后的信息->(上采样)(28×28×512)第五层信息
(28×28×512)第五层信息+(28×28×512)第四层信息->(级联)(28×28×1024);
(28×28×1024)->(卷积)(28×28×256)第一层解码信息
第二层解码:第一层解码信息上采样后级联第三层编码后的信息进行卷积得到第二层解码信息,
即:(28×28×256)第一层解码信息->(上采样)(56×56×256)第一层解码信息
(56×56×256)第一层解码信息+(56×56×256)第四层编码后信息->(级联)(56×56×512);
(56×56×512)->(卷积)(56×56×128)第二层解码信息
第三层到第五层的解码过程和第二层的过程相同;
S3-2:在解码过程中,第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中;中心化的数据通过平均化通道信息的方式减少通道数,并在减少通道后上采样到对应层数的宽高尺寸,在级联该层原始数据后将数据卷积为原始数据相同的通道数。
作为优选方案,步骤S4的具体步骤如下:
自适应损失函数机制的调节过程如下:
S4-1:设计该网络损失函数的计算公式,通过公式中的参数:λ0、λ1、λ2、λ3来调节各分支网络模块的损失函数在总损失函数中所占比例。公式如下
loss=λ0*loss1+λ1*loss2+λ2*loss3+λ3*loss4
λ0=0.25,λ1=0.25,λ2=0.25,λ3=0.25 (4)
参数初始值都设定为0.25,loss1,loss2,loss3,loss4分别代表了主解码网络和其他3各分支解码网络部分。
S4-2:根据网络波动情况在每一个周期(20个迭代)结束时更新参数。
Figure BDA0003060727780000051
λi=0.125+Δλi (6)
根据每个解码网络一个周期内20个迭代内前10次loss平均值减去后10次loss平均值得到△lossi,再根据公式(5)得到对应的△λi,根据公式(6)调节对应的λi并更新原有参数。
本发明由于采用了以上技术方案,与现有技术相比使其具有以下有益效果:本发明针对显著性检测领域中的背景抑制问题,将传统的中心先验思想与深度学习框架U-Net相结合,提出了一种基于中心先验的显著性检测方法。该方法首先利用基于中心先验思想设计的背景抑制模块对网络高层特征的提取进行优化,然后利用信息传播模块通过跨层传播的方式将优化后的高层特征与低层特征进行高效融合,最后添加分支网络模块提升了网络的稳定性,改善了U-Net网络在复杂背景图像上检测效果不佳的问题。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的流程图;
图2为本公开具体实施时整体网络框架的模型示意图;
图3为本公开具体整体网络框架模型中的信息传播模块。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图3对本发明的实施例的基于中心先验与U-Net网络相结合的显著性检测方法进行具体说明。
如图1所示,本发明提出了本发明是通过如下技术方案实现的:一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,具体包括以下步骤:
S1:利用U-net编码器对对输入图像提取特征,U-net编码器对图像进行编码处理,通过卷积和池化的方式得到输入图像的高级特征信息;具体步骤如下:
S1-1:如图2所示,输入图像通过python中的Rezise函数将尺寸统一为224×224×3(方便接下来的卷积和池化操作)(宽×高×通道数)
S1-2:然后通过5层的编码提取高层特征信息,得到14×14×512(w×h×c)的高层特征信息,所谓的编码其实就是通过池化卷积进行下采样的过程:
第一层编码:224×224×3到224×224×64,卷积操作:将通道数由3扩展为64;
第二层编码:224×224×64到112×112×128,先使用MaxPool函数来最大池化:将宽和高的尺寸由224×224降为112×112,再使用卷积操作将通道数由64扩展为128;
第三层到第五层编码参考第二层;112×112×128(第三层编码)56×56×256(第四层编码)28×28×512(第五层编码)14×14×512。
S2:背景噪声抑制优化模块的设计,并对编码器最后输出的高层特征信息进行优化,根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图;具体步骤如下:
S2-1:根据python中的torch库里的mean函数(求平均)将14×14×512的通道数由512平均化为1个通道。
S2-2:根据S2-1得到的14×14×1的信息利用公式1来求其显著性物体在该概率图上的中心点;
Figure BDA0003060727780000061
式中:W,H分别代表宽和高;G(x,y)代表在以宽高为x,y的坐标系上该坐标被判定为显著性物体的概率;(x,y)代表这里的坐标;(W,H)代表最大尺寸坐标;lceter代表中心点坐标;
S2-3:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径,在这个半径内的中心先验概率图的概率为1,超过了这个区域,概率的计算方式为S2-4中的公式(3);
Figure BDA0003060727780000071
式中:W*H:概率图的面积;c:常数0.5;
S2-4:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径;
Figure BDA0003060727780000072
式中:Si∈(SLU,SLD,SRU,SRD);
SLU代表以Step2中公式1求得的中心点为中心的概率图的左上区域的面积;
SLD代表以Step2中公式1求得的中心点为中心的概率图的左下区域的面积;
SRU代表以Step2中公式1求得的中心点为中心的概率图的右上区域的面积;
SRD代表以Step2中公式1求得的中心点为中心的概率图的右下区域的面积;
Si(x,y)代表这里(x,y)所处的位置的面积;
p(x,y)代表中心先验概率图中的概率,离中心区域越远,p(x,y)越小;
S2-5:通过中心先验概率图与高级语义信息(14×14×114×14×512)进行点乘的方式对底层网络编码后生成的信息进行处理。
S3:网络解码部分对信息进行解码,网络的解码部分对信息进行五层解码,为防止底层信息在向上传递的过程中被消耗,扩大背景抑制模块的影响力,在上采样解码的过程中采用跨层传播的方式并为之专门构建了信息传播模块,如图3所示具体步骤如下:
S3-1:网络的解码部分对信息进行五层解码,通过先上采样、级联、后卷积的方式逐层解码;
第一层解码:第五层编码后并中心化处理和上采样后的信息级联第四层编码后的信息进行卷积得到第一层解码信息,
即:(14×14×512)第五层编码信息中心化后的信息->(上采样)(28×28×512)第五层信息
(28×28×512)第五层信息+(28×28×512)第四层信息->(级联)(28×28×1024);
(28×28×1024)->(卷积)(28×28×256)第一层解码信息
第二层解码:第一层解码信息上采样后级联第三层编码后的信息进行卷积得到第二层解码信息,
即:(28×28×256)第一层解码信息->(上采样)(56×56×256)第一层解码信息
(56×56×256)第一层解码信息+(56×56×256)第四层编码后信息->(级联)(56×56×512);
(56×56×512)->(卷积)(56×56×128)第二层解码信息
第三层到第五层的解码过程和第二层的过程相同;
S3-2:在解码过程中,图2中第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中,如图3所示:中心化的数据通过平均化通道信息的方式减少通道数,并在减少通道后上采样到对应层数的宽高尺寸,在级联该层原始数据后将数据卷积为原始数据相同的通道数。;
S4:自适应损失函数机制维持网络结构的稳定:在该网络中,底部特征信息的稳定性尤其重要,因为整个网络的设计理念的基础都是基于底部网络中心先验概率图的构建,因此在网络解码的过程中,专门构建了多分支解码网络模块,通过神经网络的反向传播机制,保证了底部高层特征信息的稳定性,但是多分支解码网络模块的存在也影响原本网络结构的稳定性,针对这一问题,专门设计了自适应损失函数机制来维持网络结构的稳定。根据多分支上采样网络结构所构成的多个损失函数设计其对应的自适应损失函数机制,根据其损失函数的波动情况来设计对应参数,如果波动比较大,就增大其损失函数所占比例;以达到增强网络结构稳定性的目的;具体步骤如下:
自适应损失函数机制的调节过程如下:
S4-1:设计该网络损失函数的计算公式,通过公式中的参数:λ0、λ1、λ2、λ3来调节各分支网络模块的损失函数在总损失函数中所占比例。公式如下
loss=λ0*loss1+λ1*loss2+λ2*loss3+λ3*loss4
λ0=0.25,λ1=0.25,λ2=0.25,λ3=0.25 (4)
参数初始值都设定为0.25,loss1,loss2,loss3,loss4分别代表了主解码网络和其他3各分支解码网络部分。
S4-2:根据网络波动情况在每一个周期(20个迭代)结束时更新参数。
Figure BDA0003060727780000091
λi=0.125+Δλi (6)
根据每个解码网络一个周期内20个迭代内前10次loss平均值减去后10次loss平均值得到△lossi,再根据公式(5)得到对应的△λi,根据公式(6)调节对应的λi并更新原有参数。
S5:最后通过sigmoid激活函数生成最终的显著性概率图。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,具体包括以下步骤:
S1:利用U-net编码器对对输入图像提取特征,U-net编码器对图像进行编码处理,通过卷积和池化的方式得到输入图像的高级特征信息;
S2:背景噪声抑制优化模块的设计,并对编码器最后输出的高层特征信息进行优化,根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图;
S3:网络解码部分对信息进行解码,网络的解码部分对信息进行五层解码,在上采样解码的过程中采用跨层传播的方式并构建了信息传播模块;
S4:自适应损失函数机制维持网络结构的稳定:根据多分支上采样网络结构所构成的多个损失函数设计其对应的自适应损失函数机制,根据其损失函数的波动情况来设计对应参数,如果波动比较大,就增大其损失函数所占比例;
S5:最后通过sigmoid激活函数生成最终的显著性概率图。
2.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S1的具体步骤如下:
S1-1:输入图像通过python中的Rezise函数将尺寸统一为224×224×3(宽×高×通道数)
S1-2:然后通过5层的编码提取高层特征信息,得到14×14×512(w×h×c)的高层特征信息,所谓的编码其实就是通过池化卷积进行下采样的过程:
第一层编码:224×224×3到224×224×64,卷积操作:将通道数由3扩展为64;
第二层编码:224×224×64到112×112×128,先使用MaxPool函数来最大池化:将宽和高的尺寸由224×224降为112×112,再使用卷积操作将通道数由64扩展为128;
第三层到第五层编码参考第二层;112×112×128(第三层编码)56×56×256(第四层编码)28×28×512(第五层编码)14×14×512。
3.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S2的具体步骤如下:
S2-1:根据python中的torch库里的mean函数(求平均)将14×14×512的通道数由512平均化为1个通道;
S2-2:根据S2-1得到的14×14×1的信息利用公式1来求其显著性物体在该概率图上的中心点;
Figure FDA0003060727770000021
式中:W,H分别代表宽和高;G(x,y)代表在以宽高为x,y的坐标系上该坐标被判定为显著性物体的概率;(x,y)代表这里的坐标;(W,H)代表最大尺寸坐标;lceter代表中心点坐标;
S2-3:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径,在这个半径内的中心先验概率图的概率为1,超过了这个区域,概率的计算方式为S2-4中的公式(3);
Figure FDA0003060727770000022
式中:W*H:概率图的面积;c:常数0.5;
S2-4:根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径;
Figure FDA0003060727770000023
式中:Si∈(SLU,SLD,SRU,SRD);
SLU代表以Step2中公式1求得的中心点为中心的概率图的左上区域的面积;
SLD代表以Step2中公式1求得的中心点为中心的概率图的左下区域的面积;
SRU代表以Step2中公式1求得的中心点为中心的概率图的右上区域的面积;
SRD代表以Step2中公式1求得的中心点为中心的概率图的右下区域的面积;
Si(x,y)代表这里(x,y)所处的位置的面积;
p(x,y)代表中心先验概率图中的概率,离中心区域越远,p(x,y)越小;
S2-5:通过中心先验概率图与高级语义信息(14×14×114×14×512)进行点乘的方式对底层网络编码后生成的信息进行处理。
4.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S3的具体步骤如下:
S3-1:网络的解码部分对信息进行五层解码,通过先上采样、级联、后卷积的方式逐层解码;
第一层解码:第五层编码后并中心化处理和上采样后的信息级联第四层编码后的信息进行卷积得到第一层解码信息,
即:(14×14×512)第五层编码信息中心化后的信息->(上采样)(28×28×512)第五层信息
(28×28×512)第五层信息+(28×28×512)第四层信息->(级联)(28×28×1024);
(28×28×1024)->(卷积)(28×28×256)第一层解码信息
第二层解码:第一层解码信息上采样后级联第三层编码后的信息进行卷积得到第二层解码信息,
即:(28×28×256)第一层解码信息->(上采样)(56×56×256)第一层解码信息
(56×56×256)第一层解码信息+(56×56×256)第四层编码后信息->(级联)(56×56×512);
(56×56×512)->(卷积)(56×56×128)第二层解码信息
第三层到第五层的解码过程和第二层的过程相同;
S3-2:在解码过程中,第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中,中心化的数据通过平均化通道信息的方式减少通道数,并在减少通道后上采样到对应层数的宽高尺寸,在级联该层原始数据后将数据卷积为原始数据相同的通道数。
5.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S4的具体步骤如下:
自适应损失函数机制的调节过程如下:
S4-1:设计该网络损失函数的计算公式,通过公式中的参数:λ0、λ1、λ2、λ3来调节各分支网络模块的损失函数在总损失函数中所占比例,公式如下loss=λ0*loss1+λ1*loss2+λ2*loss3+λ3*loss4
λ0=0.25,λ1=0.25,λ2=0.25,λ3=0.25 (4)
参数初始值都设定为0.25,loss1,loss2,loss3,loss4分别代表了主解码网络和其他3各分支解码网络部分;
S4-2:根据网络波动情况在每一个周期(20个迭代)结束时更新参数,
Figure FDA0003060727770000031
λi=0.125+Δλi (6)
根据每个解码网络一个周期内20个迭代内前10次loss平均值减去后10次loss平均值得到△lossi,再根据公式(5)得到对应的△λi,根据公式(6)调节对应的λi并更新原有参数。
CN202110512226.XA 2021-05-11 2021-05-11 一种基于中心先验与U-Net网络相结合的显著性检测方法 Active CN113191373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110512226.XA CN113191373B (zh) 2021-05-11 2021-05-11 一种基于中心先验与U-Net网络相结合的显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110512226.XA CN113191373B (zh) 2021-05-11 2021-05-11 一种基于中心先验与U-Net网络相结合的显著性检测方法

Publications (2)

Publication Number Publication Date
CN113191373A true CN113191373A (zh) 2021-07-30
CN113191373B CN113191373B (zh) 2023-05-05

Family

ID=76981184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110512226.XA Active CN113191373B (zh) 2021-05-11 2021-05-11 一种基于中心先验与U-Net网络相结合的显著性检测方法

Country Status (1)

Country Link
CN (1) CN113191373B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110929735A (zh) * 2019-10-17 2020-03-27 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110929735A (zh) * 2019-10-17 2020-03-27 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周帅骏: "基于先验信息融合的显著性目标检测算法及其应用研究", 中国优秀硕士学位论文全文数据库 信息科技辑 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法
CN115937647B (zh) * 2023-01-31 2023-05-19 西南石油大学 一种多特征融合的图像显著性检测方法

Also Published As

Publication number Publication date
CN113191373B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
Gao et al. Implicit diffusion models for continuous super-resolution
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN112101410B (zh) 一种基于多模态特征融合的图像像素语义分割方法及系统
CN111915619A (zh) 一种双特征提取与融合的全卷积网络语义分割方法
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
US12056841B2 (en) Method for image shape transformation based on generative adversarial network
CN114529940B (zh) 基于姿态引导的人体图像生成方法
CN111862294A (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
WO2024152809A1 (zh) 图像去雨网络、图像去雨网络的训练方法及设备
CN112884893A (zh) 基于非对称卷积网络和注意力机制的跨视角图像生成方法
CN115410264A (zh) 用于提高视频中面部表情识别准确率的网络模型及方法
CN113191373A (zh) 一种基于中心先验与U-Net网络相结合的显著性检测方法
CN113989140B (zh) 一种基于自注意力机制的循环特征推理的图像修复方法
CN116486080A (zh) 一种基于深度学习的轻量化图像语义分割方法
CN115830575A (zh) 一种基于Transformer与跨维度注意力的交通标志检测方法
CN111901610B (zh) 一种基于多层编码器的并行图像描述方法
CN117522882A (zh) 一种基于几何特征聚合和自适应融合的点云分割方法
CN112837212A (zh) 一种基于流形对齐的图像任意风格迁移方法
CN116563343A (zh) 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法
CN117173063A (zh) 基于梯度变换先验的红外与可见光视觉信息融合方法
CN116451398A (zh) 一种基于条件扩散模型的城市路网布局设计方法
Khan et al. A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data
CN116843893A (zh) 一种基于注意力机制多尺度卷积神经网络的三维图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant