CN112329800B - 一种基于全局信息引导残差注意力的显著性目标检测方法 - Google Patents

一种基于全局信息引导残差注意力的显著性目标检测方法 Download PDF

Info

Publication number
CN112329800B
CN112329800B CN202011408397.XA CN202011408397A CN112329800B CN 112329800 B CN112329800 B CN 112329800B CN 202011408397 A CN202011408397 A CN 202011408397A CN 112329800 B CN112329800 B CN 112329800B
Authority
CN
China
Prior art keywords
module
convolution
scale
information
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011408397.XA
Other languages
English (en)
Other versions
CN112329800A (zh
Inventor
王俊
赵正云
杨青朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202011408397.XA priority Critical patent/CN112329800B/zh
Publication of CN112329800A publication Critical patent/CN112329800A/zh
Application granted granted Critical
Publication of CN112329800B publication Critical patent/CN112329800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation

Abstract

本发明提供了一种基于全局信息引导残差注意力的显著性目标检测方法,通过将图像输入到主干网络提取特征;设计全局信息互补模块获取丰富的全局信息并引导整体网络;通过多尺度并行卷积提取多尺度信息;通过特征融合模块融合全局信息和多尺度信息;通过残差注意力模块增强显著性目标特征,经过多级监督最终输出显著性结果。本发明不仅能够从ResNet‑50主干网络提取图像特征,并且提出的全局信息互补模块能够将主干网络中低层次细节信息与高层次丰富语义信息融合到一起,且设计的残差注意力模块能够将图像特征中更大的权重集中在前景显著性区域中,过滤掉无用的背景信息,与现有的显著性检测方法相比具有良好的性能。

Description

一种基于全局信息引导残差注意力的显著性目标检测方法
技术领域
本发明涉及图像处理领域,具体而言,涉及了一种基于全局信息引导残差注意力的显著性目标检测方法。
背景技术
显著性目标检测是识别图像中最能引起人类注意的目标或区域的任务,几十年来一直是计算机视觉的研究热点,它通常作为一个预处理步骤来支持后续的各种高级计算机视觉任务,如目标跟踪、语义分割和目标检测等。
在早期,传统的显著性检测方法通常是将图像分割成多个超像素进行预处理,采用启发式线索,并设计手工制作的低层特征,如颜色、纹理和形状,以生成显著性图。然而,手工构建的特征往往无法检测到复杂场景中的高层语义信息,从而限制了它们在杂乱场景中定位整个显著目标区域的能力,不能适用于实际问题。近年来,深度卷积神经网络(CNNs)在各种视觉任务中表现出强大的特征提取能力和学习能力。因为CNNs能够捕获到高水平的语义特征信息,研究人员将其引入到显著性目标检测任务中,以产生更精确的检测结果。
目前,最有效的显著性检测方法是基于全卷积网络(FCNs)和注意力机制,主要通过增加网络结构的深度,合理利用上下文信息来提升精度,通过注意力机制来自适应提取显著对象周围的有用信息。2019年,Zhao等人(T.Zhao,X.Wu,Pyramid feature attentionnetwork for saliency detection,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2019,pp.3085-3094.)设计了一个基于FCNs的注意力机制网络来捕获丰富的上下文特征,在高级特征映射后采用通道注意力和低层特征映射后采用空间注意力,然后将两者的输出特征融合一起来检测显著性目标。2020年,Li等人(J.Li,Z.Pan,Q.Liu,Z.Wang,Stacked u-shape network with channel-wiseattention for salient object detection,IEEE Transactions on Multimedia,earlyaccess,2020,doi:10.1109/TMM.2020.2997192.)采用多级注意级联反馈模块捕获跨层次的互补信息,将语义较高的特征反馈给先前的特征,对其进行细化,以获得更好的显著性目标预测结果。
尽管基于FCNs和注意力机制的显著性检测方法与传统的显著性检测方法相比有了很大的进步,但它们的预测在获得具有均匀显著区域和精确边界的显著性映射方面仍然存在不足。所存在的问题主要有:特征提取过程中,低层特征包含丰富的细节信息,高层特征包含全局语义信息,互补这些信息有利于获得显著的目标,但无法将这些不同的功能特征整合到一个统一的模块中获取全局信息;注意力机制可以聚焦于显著的目标,但经过注意力机制处理后会丢失部分输入信息。
发明内容
为了解决背景技术中所存在的问题,本发明提出了一种基于全局信息引导残差注意力的显著性目标检测方法。
一种基于全局信息引导残差注意力的显著性目标检测方法,包括:
步骤1、基于跨层连接方式的U-Net网络,首先将图像输入到ResNet-50主干网络中并提取出五个阶段的图像特征,分别为Res1、Res2、Res3、Res4和Res5;
步骤2、将Res2与Res5的特征输入到全局信息互补模块中并获取丰富的全局信息;将ResNet-50中三个卷积块生成的特征图Res2、Res3和Res4通过多尺度并行卷积模块提取多尺度特征信息;再将全局信息互补模块生成的全局特征信息和多尺度并行卷积模块生成的多尺度特征信息通过特征融合模块进行融合;
步骤3、将全局信息互补模块生成的一个特征图和融合模块生成的三个特征图分别输入到残差注意力模块中,并生成三个层级的显著性特征图,经过多级监督最终输出显著性结果。
基于上述,全局信息互补模块分为多尺度融合和通道注意力融合两部分,多尺度融合是将Res2和Res5这两个不同尺度的输出特征在空间维度上进行融合,多尺度融合后再进行通道注意力融合。
基于上述,多尺度融合过程使用步长为2、卷积核大小为3×3的卷积层将第二层Res2输出特征进行下采样,同时采用双线性插值方法将Res5的输出特征进行上采样,使得两个特征在进行处理后尺度大小相同,再在通道维度上进行合并,公式如下
Uc=down(δ(Trans(C(2);θ));C(0))+up(δ(Trans(C(5);θ));C(0))
其中,Trans(*;θ)是参数θ的卷积层,其目的是改变特征的通道数,δ表示Relu激活函数,down表示下采样操作,其目的是将样本*下采样到与C(0)相同的大小,up是双线性插值运算,其目的是将样本*上采样到与C(0)相同的大小,其中C(0)大小为64×64。
基于上述,通道注意力融合过程是先通过全局平均池化操作将融合后的特征提取出包含各通道全局信息的全局特征向量,全局特征向量包含了所有通道的全局信息,然后利用两个全连接操作对全局池化层得到的特征向量进行缩放,在每个全连接层后面分别加入了Relu运算和sigmoid运算,再将两个全连接操作得到的权重与输入的特征进行相乘连接,然后将得到的结果下采样到与编码过程最高层特征图尺度大小一样的特征,得到整个融合互补模块的输出特征fg,公式如下
Figure BDA0002814945270000041
Us=δ(ω1σ(ω2g))
fg=down(Fscale(Uc,Us);C(5))
其中,W、H和C分别为特征图的长、宽和通道数,fc为特征图中每个格点的值,ω1和ω2为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作,down(*;C(5))下采样操作,其目的是将样本*下采样到与Res5特征相同的大小。
基于上述,在多尺度并行卷积模块中,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数,然后采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure BDA0002814945270000042
来获取不同尺度大小的特征信息,得到4个输出特征
Figure BDA0002814945270000043
其中输出特征
Figure BDA0002814945270000044
和输入特征P具有相同大小的空间分辨率,然后再将P与
Figure BDA0002814945270000045
进行相加融合,最终在融合特征上进行1×1卷积操作得到输出特征X,将输出特征X的通道数和输入特征P的通道数保持一致,操作如下
Figure BDA0002814945270000046
Figure BDA0002814945270000047
其中
Figure BDA0002814945270000048
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,sum(*,*)表示元素间的求和运算。
基于上述,特征融合模块中的输入包括三部分,分别为来自上一层输出的高级特征
Figure BDA0002814945270000049
由多尺度并行卷积模块生成的多尺度信息的特征
Figure BDA00028149452700000410
和由全局信息互补模块生成的高低层融合互补特征fg,融合过程描述为
Figure BDA00028149452700000411
Figure BDA00028149452700000412
fe t=8up(8down(fa t))
Figure BDA0002814945270000051
Figure BDA0002814945270000052
fh t+1=conv1(concat(fa t,fb t,fd t,fe t))
其中,up是通过双线性插值进行的上采样操作,8up表示上采样空间分辨率为原来的8倍,down是通过平均池化进行的下采样操作,8down表示下采样空间分辨率为原来的1/8,conv1表示卷积核大小为1×1的卷积操作,t是阶段索引。
基于上述,残差注意力模块包括残差通道注意力模块和残差空间注意力模块,将四个不同分辨率和不同通道数的多尺度特征(fh 1、fh 2、fh 3、fh 4)作为残差注意力模块的输入特征。
基于上述,采用空间注意力模块对于空间分辨率高通道数少的两个特征(fh 3、fh 4)进行处理,过程描述为
Figure BDA0002814945270000053
Fs=σ(concat(conv2(conv1(Y)),conv1(conv2(Y)))
N3=conv4(Fscale(Y,Fs)+Y)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,conv1表示卷积核大小为1×1的卷积层,conv2表示卷积核大小为1×k的卷积层,conv3表示卷积核大小为k×1的卷积层,k取值为9,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,σ表示sigmoid操作。
基于上述,在残差通道注意力模块中对空间分辨率低通道数多的两个特征(fh 1、fh 2)进行处理,过程描述为
Figure BDA0002814945270000054
Fc=σ(Fc2(δ(Fc1(Fga(X))))
N1=conv4(Fscale(X,Fc)+X)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,Fga表示全局平均池化操作,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,δ表示Relu操作,σ表示sigmoid操作。
基于上述,将残差空间注意力模块处理得到的特征Y2经过下采样,并将残差通道注意力模块处理得到的特征X2经过上采样之后,进行concat,得到Z,并将Z通过卷积核大小为3×3的conv4处理,得到空间大小为128×128×1的显著性特征图N2,过程描述为
N2=conv4(concat(up(X2),down(Y2)))
其中,up表示利用双线性插值法进行的上采样操作,down表示利用平均池化进行的下采样操作,concat表示串联操作,conv4表示卷积核大小为3×3的卷积层。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明不仅能够从ResNet-50主干网络提取图像特征,并且提出的全局信息互补模块能够将主干网络中低层次细节信息与高层次丰富语义信息融合到一起,且设计的残差注意力模块能够将图像特征中更大的权重集中在前景显著性区域中,过滤掉无用的背景信息,与现有的显著性检测方法相比具有良好的性能。
附图说明
图1为本发明的总体网络框图。
图2为本发明的全局信息互补模块。
图3为本发明的特征融合模块。
图4为本发明的残差注意力模块。
图5为本发明的主观视觉效果对比图。
图6为本发明的PR曲线对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方案进一步的操作说明如下:
1)在步骤1中,所提出的整体网络是在对称的编解码器U型架构上改进的,主干网络ResNet-50包含49个卷积层和1个全连接层,我们丢弃全连接层,只使用卷积层来提取特征,并将输入图像大小统一调整为256×256。
2)在步骤2中,首先设计了一个全局信息互补模块将ResNet-50主干网络生成的Res2层和Res5层进行融合,卷积神经网络在特征提取中提供了良好的性能,在编码阶段经过多层卷积操作提取过程中,不同尺度的特征信息都有着重要的意义,其中较低层高分辨率的特征包含着丰富的局部位置信息,有助于显著性目标关键点的检测,而高层低分辨率的特征包含着整个目标的全局语义信息,但经过下采样,分辨率降低,对细节的感知能力较差,缺少局部位置细节信息,直接将高低层特征求和会忽略不同阶段之间的差异性,并不能充分利用两种特征图的信息。因此,在编码过程中引入高低尺度互补融合模块将第二层Res2输出的高分辨率表征信息和高层Res5输出的丰富语义特征信息在通道维度上融合后引入通道注意力模块,使得最高层特征既具有全局性推理信息也具有高分辨率局部信息,由于第一层高分辨率特征包含太多的背景噪音,因此没有选择用第一层特征与最高层特征进行融合。然后设计了多尺度并行卷积模块应用于ResNet-50主干网络生成的Res2、Res3和Res4三个特征上,用于捕获多尺度特征信息,并将其结果输送到融合模块中。本发明设计了三个结构类似的融合模块,每个融合模块的输入来自三个不同层次的特征,分别为来自上一层输出的高级特征
Figure BDA0002814945270000081
由多尺度并行卷积模块生成的多尺度信息的特征
Figure BDA0002814945270000082
和由全局信息互补模块生成的高低层融合互补特征fg。通过融合模块可以保留特征中的多尺度细节信息和全局语义信息。
3)在步骤3中,设计了一个残差注意力模块,对全局信息互补模块生成的一个特征图
Figure BDA0002814945270000083
和融合模块生成的三个特征图
Figure BDA0002814945270000084
Figure BDA0002814945270000085
进行加权处理,达到增强显著性目标特征抑制背景的效果。根据四个不同层次特征的特点,我们将使用残差通道注意力和残差空间注意力分别进行处理,我们采用残差空间注意力模块对于空间分辨率高通道数少的两个特征(fh 3、fh 4)进行处理,将注意力更多地集中在前景显著性区域中,过滤掉无用的空间背景信息;采用残差通道注意力对空间分辨率低通道数多的两个特征(fh 1、fh 2)进行处理,将更大的权重分配给对显著性区域表现出高响应的通道。经过残差注意力模块处理之后输出三个不同空间分辨率大小的1通道显著性特征图N1、N2和N3。通过残差注意力模块强调有用特征信息和过滤掉不太有用特征信息,使得特征提取效果更好。最后,在最终输出的三层显著性特征图分别用一个二值化交叉熵损失来优化输出预测。损失函数表示为:
Figure BDA0002814945270000086
其中,H和W分别表示图像的高度和宽度,(x,y)表示图像像素(x,y)的基本真实标签,px,y表示在图像像素位置(x,y)中成为显著对象的相应概率。
此外,还通过连接操作集成了多尺度的卷积特征图
Nfuse=conv(concat(N1,N2,N3))
其中,Nfuse表示综合特征映射,conv表示卷积层,concat表示串联操作,融合后的特征使用ground truth监督,损失函数和
Figure BDA0002814945270000087
一样。
全部损失过程使用多级交叉熵损失函数来监督多层网络,其中包括特征图N1,N2,N3的3个损失函数以及Nfuse的1个损失函数。全程损失函数定义如下:
Figure BDA0002814945270000091
其中,
Figure BDA0002814945270000092
表示不同的损失,
Figure BDA0002814945270000093
表示综合特征映射的损失。
具体的,如图1所示,本发明提供了一种基于全局信息引导残差注意力的显著性检测方法,该方法的操作如下:
a.该方法的特征提取部分采用ResNet-50网络,共包括五个阶段Res1、Res2、Res3、Res4和Res5,分别对应的空间分辨率为256×256×64、128×128×128、64×64×256、32×32×512和16×16×1024;
b.在图2中的全局信息互补模块分为多尺度融合和通道注意力融合两部分,第一部分是Res2输出层的特征和Res5输出层的特征这两个尺度的特征在通道维度上的融合,融合特征的不同通道具有不同的特征权重,因此在融合之后引入第二阶段模块——通道注意力模块,目的是让模型充分能够学习到不同通道中的信息。
多尺度融合过程使用步长为2、卷积核大小为3×3的卷积层将第二层Res2输出特征进行下采样,同时采用双线性插值方法将Res5的输出特征进行上采样,使得两个特征在进行处理后尺度大小相同,然后在通道维度上进行合并,公式所示:
Uc=down(δ(Trans(C(2);θ));C(0))+up(δ(Trans(C(5);θ));C(0))
其中,Trans(*;θ)是参数θ的卷积层,其目的是改变特征的通道数,δ表示Relu激活函数,down表示下采样操作,其目的是将样本*下采样到与C(0)相同的大小,up是双线性插值运算,其目的是将样本*上采样到与C(0)相同的大小,其中C(0)大小为64×64。
通道注意力融合过程:首先通过全局平均池化操作将融合后的特征提取出包含各通道全局信息的全局特征向量,全局特征向量包含了所有通道的全局信息,然后利用两个全连接操作对全局池化层得到的特征向量进行缩放,在每个全连接层后面分别加入了Relu运算和sigmoid运算,最后,将两个全连接操作得到的权重与输入的特征进行相乘连接,然后将得到的结果下采样到与编码过程最高层特征图尺度大小一样的特征,得到整个融合互补模块的输出特征fg。如式所示:
Figure BDA0002814945270000101
Us=δ(ω1σ(ω2g))
fg=down(Fscale(Uc,Us);C(5))
其中,W、H和C分别为特征图的长、宽和通道数,fc为特征图中每个格点的值,ω1和ω2为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作,down(*;C(5))为下采样操作,其目的是将样本*下采样到与Res5特征相同的大小。
c.图1中的多尺度并行卷积模块中,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数,然后采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure BDA0002814945270000102
来获取不同尺度大小的特征信息,得到4个输出特征
Figure BDA0002814945270000103
其中输出特征
Figure BDA0002814945270000104
和输入特征P具有相同大小的空间分辨率,然后再将P与
Figure BDA0002814945270000105
进行相加融合,最终在融合特征上进行1×1卷积操作得到输出特征X,将输出特征X的通道数和输入特征P的通道数保持一致。公式所示:
Figure BDA0002814945270000106
Figure BDA0002814945270000107
其中,
Figure BDA0002814945270000108
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,sum(*,*)表示元素间的求和运算。
d.图3所示设计的特征融合模块中的输入包括三部分,分别为来自上一层输出的高级特征
Figure BDA0002814945270000111
由多尺度并行卷积模块生成的多尺度信息的特征
Figure BDA0002814945270000112
和由全局信息互补模块生成的高低层融合互补特征fg。首先将特征fg通过双线性插值法上采样到与特征
Figure BDA0002814945270000113
具有相同大小的空间分辨率,然后再用卷积核大小为1×1的conv1将其通道数压缩为与特征
Figure BDA0002814945270000114
通道数一致,将所得到的特征与特征
Figure BDA0002814945270000115
进行乘法运算,得到新的特征f1 t。同样将上一层输出的高级特征
Figure BDA0002814945270000117
经过双线性插值法上采样和卷积核大小为1×1的conv1处理,得到与特征f1 t空间分辨率和通道数一致的特征。将所得的特征和特征f1 t进行乘法运算,输出新的特征
Figure BDA0002814945270000118
为了进一步获取多尺度信息,我们将特征
Figure BDA0002814945270000119
做进一步聚合处理,先将
Figure BDA00028149452700001110
经过三个不同下采样率的平均池化操作进行映射,然后再经过分别使用双线性插值法上采样到与
Figure BDA00028149452700001111
空间分辨率大小相同的特征fb t、fd t和fe t,之后将特征
Figure BDA00028149452700001112
与所得到的特征fb t、fd t和fe t进行合并,最后通过卷积核大小为1×1的conv1使得通道数大小与特征
Figure BDA00028149452700001113
通道数大小一致,最终获得输出特征fh t+1。上述过程可以描述为:
Figure BDA00028149452700001114
Figure BDA00028149452700001115
fe t=8up(8down(fa t))
Figure BDA00028149452700001116
Figure BDA00028149452700001117
fh t+1=conv1(concat(fa t,fb t,fd t,fe t))
其中,up是通过双线性插值进行的上采样操作,8up表示上采样空间分辨率为原来的8倍,down是通过平均池化进行的下采样操作,8down表示下采样空间分辨率为原来的1/8,conv1表示卷积核大小为1×1的卷积操作,t是阶段索引。
e.在图4的残差注意力模块中,将四个不同分辨率和不同通道数的多尺度特征(fh 1、fh 2、fh 3、fh 4)作为输入特征,采用空间注意力模块对于空间分辨率高通道数少的两个特征(fh 3、fh 4)进行处理,采用通道注意力对空间分辨率低通道数多的两个特征(fh 1、fh 2)进行处理。
在残差空间注意力模块中,首先将fh 3和fh 4通过上线性插值法上采样到相同的空间分辨率大小(256×256)并融合得到Y,然后采用1×k和k×1并联的卷积层捕获高分辨率的空间关注点。然后,通过sigmoid运算将空间特征图进行归一化处理映射到[0,1],得到特征Fs,将特征Fs与输入特征Y通过相乘操作得到特征Y1,随后通过残差连接将输入特征Y与特征Y1进行相加融合得到特征Y2,最终将Y2通过卷积核大小为3×3的conv4处理,得到空间大小为256×256×1的显著性特征图N3。公式如下:
Figure BDA0002814945270000121
Fs=σ(concat(conv2(conv1(Y)),conv1(conv2(Y)))
N3=conv4(Fscale(Y,Fs)+Y)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,conv1表示卷积核大小为1×1的卷积层,conv2表示卷积核大小为1×k的卷积层,conv3表示卷积核大小为k×1的卷积层,k取值为9,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,σ表示sigmoid操作。
在残差通道注意力模块中,首先将fh 1和fh 2进行空间维度上的融合并通过卷积核大小为1×1的conv1压缩通道数,得到输出特征X,将X作为残差空间注意力模块的输入特征,然后对输入X应用全局平均池化来获得通道上的特征向量。之后再通过两个全连接层来获取通道之间的相关性。在两个全连接层后面分别加了Relu运算和sigmoid运算得到特征Fc,将所得到的特征Fc与输入特征X进行相乘操作得到特征X1。随后通过残差连接将输入特征X与特征X1进行相加融合得到特征X2,最终将X2通过卷积核大小为3×3的conv4处理,得到空间大小为64×64×1的显著性特征图N1。公式如下:
Figure BDA0002814945270000131
Fc=σ(Fc2(δ(Fc1(Fga(X))))
N1=conv4(Fscale(X,Fc)+X)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,Fga表示全局平均池化操作,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,δ表示Relu操作,σ表示sigmoid操作。
最终,将残差空间注意力模块所得到的特征Y2经过下采样,并将残差通道注意力模块所得到的特征X2经过上采样之后,进行concat,得到Z,并将Z通过卷积核大小为3×3的conv4处理,得到空间大小为128×128×1的显著性特征图N2
N2=conv4(concat(up(X2),down(Y2)))
其中,up表示利用双线性插值法进行的上采样操作,down表示利用平均池化进行的下采样操作,concat表示串联操作,conv4表示卷积核大小为3×3的卷积层。
f.最后通过多级监督损失函数输出显著性目标。
为了验证本方法的有效性,在三个公开的数据集(PASCAL-S、ECSSD、DUTS-TE)上与多个最新的显著性目标检测方法进行了对比实验。实验采用深度学习框架Pytorch搭建网络,实验环境为Linux系统,使用NVIDIA Tesla T4 GPU16GB进行神经网络模型训练与测试,通过随机裁剪调整图片到大小为256×256进行训练。在三个公开数据集上与最新的方法进行了实验性能对比,如图6所示,本方法的PR曲线表现良好。如图5所示,从主观视觉对比来看,本方法具有较强的显著性目标边缘分割、位置检测和细节分割能力。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (7)

1.一种基于全局信息引导残差注意力的显著性目标检测方法,其特征在于,包括:
步骤1、基于跨层连接方式的U-Net网络,首先将图像输入到ResNet-50主干网络中并提取出五个阶段的图像特征,分别为Res1、Res2、Res3、Res4和Res5;
步骤2、将Res2与Res5的特征输入到全局信息互补模块中并获取丰富的全局信息;将ResNet-50中三个卷积块生成的特征图Res2、Res3和Res4通过多尺度并行卷积模块提取多尺度特征信息;再将全局信息互补模块生成的全局信息和多尺度并行卷积模块生成的多尺度特征信息通过特征融合模块进行融合;
步骤3、将全局信息互补模块生成的一个特征图和融合模块生成的三个特征图分别输入到残差注意力模块中,并生成三个层级的显著性特征图,经过多级监督最终输出显著性结果,具体包括:构建三个融合模块,融合模块的输入分别为来自上一层输出的高级特征
Figure FDA0003795670880000011
由多尺度并行卷积模块生成的多尺度信息的特征
Figure FDA0003795670880000012
和由全局信息互补模块生成的高低层融合互补特征fg;残差注意力模块对全局信息互补模块生成的一个特征图
Figure FDA0003795670880000013
和融合模块生成的三个特征图
Figure FDA0003795670880000014
Figure FDA0003795670880000015
Figure FDA0003795670880000016
进行处理;
全局信息互补模块分为多尺度融合和通道注意力融合两部分,多尺度融合是将Res2和Res5这两个不同尺度的输出特征在空间维度上进行融合,多尺度融合后再进行通道注意力融合;
多尺度融合过程使用步长为2、卷积核大小为3×3的卷积层将第二层Res2输出特征进行下采样,同时采用双线性插值方法将Res5的输出特征进行上采样,使得两个特征在进行处理后尺度大小相同,再在通道维度上进行合并,公式如下
Uc=down(δ(Trans(C(2);θ));C(0))+up(δ(Trans(C(5);θ));C(0))
其中,Trans(*;θ)是参数θ的卷积层,其目的是改变特征的通道数,δ表示Relu激活函数,down表示下采样操作,其目的是将样本*下采样到与C(0)相同的大小,up是双线性插值运算,其目的是将样本*上采样到与C(0)相同的大小,其中C(0)大小为64×64;
通道注意力融合过程是先通过全局平均池化操作将融合后的特征提取出包含各通道全局信息的全局特征向量,全局特征向量包含了所有通道的全局信息,然后利用两个全连接操作对全局池化层得到的特征向量进行缩放,在每个全连接层后面分别加入了Relu运算和sigmoid运算,再将两个全连接操作得到的权重与输入的特征进行相乘连接,然后将得到的结果下采样到与编码过程最高层特征图尺度大小一样的特征,得到整个融合互补模块的输出特征fg,公式如下
Figure FDA0003795670880000021
Us=δ(ω1σ(ω2g))
fg=down(Fscale(Uc,Us);C(5))
其中,W、H和C分别为特征图的长、宽和通道数,fc为特征图中每个格点的值,ω1和ω2为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作,down(*;C(5))下采样操作,其目的是将样本*下采样到与Res5特征相同的大小,Fscale表示相乘运算。
2.根据权利要求1所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:在多尺度并行卷积模块中,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数,然后采用4种不同的扩张率r的扩张卷积层
Figure FDA0003795670880000022
来获取不同尺度大小的特征信息,r=1,2,4,8,得到4个输出特征
Figure FDA0003795670880000023
其中输出特征
Figure FDA0003795670880000024
和输入特征P具有相同大小的空间分辨率,然后再将P与
Figure FDA0003795670880000031
进行相加融合,最终在融合特征上进行1×1卷积操作得到输出特征X,将输出特征X的通道数和输入特征P的通道数保持一致,操作如下
Figure FDA0003795670880000032
Figure FDA0003795670880000033
其中,
Figure FDA0003795670880000034
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,sum(*,*)表示元素间的求和运算。
3.根据权利要求1所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:特征融合模块中的输入包括三部分,分别为来自上一层输出的高级特征
Figure FDA0003795670880000035
由多尺度并行卷积模块生成的多尺度信息的特征
Figure FDA0003795670880000036
和由全局信息互补模块生成的高低层融合互补特征fg,融合过程描述为
Figure FDA0003795670880000037
Figure FDA0003795670880000038
fe t=8up(8down(fa t))
Figure FDA0003795670880000039
Figure FDA00037956708800000310
fh t+1=conv1(concat(fa t,fb t,fd t,fe t))
其中,up是通过双线性插值进行的上采样操作,8up表示上采样空间分辨率为原来的8倍,down是通过平均池化进行的下采样操作,8down表示下采样空间分辨率为原来的1/8,conv1表示卷积核大小为1×1的卷积操作,t是阶段索引。
4.根据权利要求1所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:残差注意力模块包括残差通道注意力模块和残差空间注意力模块,将四个不同分辨率和不同通道数的多尺度特征(fh 1、fh 2、fh 3、fh 4)作为残差注意力模块的输入特征。
5.根据权利要求4所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:采用空间注意力模块对于空间分辨率高通道数少的两个特征(fh 3、fh 4)进行处理,过程描述为
Figure FDA0003795670880000041
Fs=σ(concat(conv2(conv3(Y)),conv3(conv2(Y))))
N3=conv4(Fscale(Y,Fs)+Y)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,conv1表示卷积核大小为1×1的卷积层,conv2表示卷积核大小为1×k的卷积层,conv3表示卷积核大小为k×1的卷积层,k取值为9,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,σ表示sigmoid操作。
6.根据权利要求4所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:在残差通道注意力模块中对空间分辨率低通道数多的两个特征(fh 1、fh 2)进行处理,过程描述为
Figure FDA0003795670880000042
Fc=σ(Fc2(δ(Fc1(Fga(X)))))
N1=conv4(Fscale(X,Fc)+X)
其中,up表示利用双线性插值法进行的上采样操作,concat表示串联操作,Fga表示全局平均池化操作,Fscale表示相乘运算,conv4表示卷积核大小为3×3的卷积层,δ表示Relu操作,σ表示sigmoid操作。
7.根据权利要求4所述的基于全局信息引导残差注意力的显著性目标检测方法,其特征在于:将残差空间注意力模块处理得到的特征Y2经过下采样,并将残差通道注意力模块处理得到的特征X2经过上采样之后,进行concat,得到Z,并将Z通过卷积核大小为3×3的conv4处理,得到空间大小为128×128×1的显著性特征图N2,过程描述为
N2=conv4(concat(up(X2),down(Y2)))
其中,up表示利用双线性插值法进行的上采样操作,down表示利用平均池化进行的下采样操作,concat表示串联操作,conv4表示卷积核大小为3×3的卷积层。
CN202011408397.XA 2020-12-03 2020-12-03 一种基于全局信息引导残差注意力的显著性目标检测方法 Active CN112329800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011408397.XA CN112329800B (zh) 2020-12-03 2020-12-03 一种基于全局信息引导残差注意力的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011408397.XA CN112329800B (zh) 2020-12-03 2020-12-03 一种基于全局信息引导残差注意力的显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN112329800A CN112329800A (zh) 2021-02-05
CN112329800B true CN112329800B (zh) 2022-09-23

Family

ID=74302074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011408397.XA Active CN112329800B (zh) 2020-12-03 2020-12-03 一种基于全局信息引导残差注意力的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN112329800B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837321B (zh) * 2021-02-09 2022-10-11 北京航空航天大学 一种基于光场的场景语义分割系统及方法
CN112927209B (zh) * 2021-03-05 2022-02-11 重庆邮电大学 一种基于cnn的显著性检测系统和方法
CN113034413B (zh) * 2021-03-22 2024-03-05 西安邮电大学 一种基于多尺度融合残差编解码器的低照度图像增强方法
CN113192093B (zh) * 2021-05-10 2023-04-18 新疆大学 基于双流网络结构的快速显著性目标检测方法
CN113255744B (zh) * 2021-05-13 2023-03-24 中国人民解放军火箭军工程大学 一种红外目标检测方法及系统
CN113362307B (zh) * 2021-06-07 2023-03-28 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113393435B (zh) * 2021-06-11 2023-12-26 大连理工大学 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN113256609B (zh) * 2021-06-18 2021-09-21 四川大学 一种基于改进型Unet的CT图脑出血自动检测系统
CN113420671A (zh) * 2021-06-24 2021-09-21 杭州电子科技大学 一种基于全局信息注意力的显著性目标检测方法
CN113591579B (zh) * 2021-06-28 2024-02-13 河北师范大学 基于注意机制卷积神经网络的显著性目标检测方法
CN113706581B (zh) * 2021-08-13 2024-02-20 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113554125B (zh) * 2021-09-18 2021-12-17 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质
CN113838047B (zh) * 2021-10-11 2022-05-31 深圳大学 基于内窥镜图像的大肠息肉分割方法、系统及相关组件
CN113902783B (zh) * 2021-11-19 2024-04-30 东北大学 一种融合三模态图像的显著性目标检测系统及方法
CN114219790B (zh) * 2021-12-17 2023-09-22 杭州电子科技大学 一种基于边缘信息的钢铁表面缺陷显著性检测方法
CN114241308B (zh) * 2021-12-17 2023-08-04 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114612479B (zh) * 2022-02-09 2023-03-24 苏州大学 基于全局与局部特征重建网络的医学图像分割方法和装置
CN114332592B (zh) * 2022-03-11 2022-06-21 中国海洋大学 一种基于注意力机制的海洋环境数据融合方法及系统
CN114419449B (zh) * 2022-03-28 2022-06-24 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN114782406A (zh) * 2022-05-21 2022-07-22 上海贝特威自动化科技有限公司 一种基于resnext50深度分割网络的汽车涂胶视觉检测方法
CN114757832B (zh) * 2022-06-14 2022-09-30 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
CN115294359B (zh) * 2022-08-17 2023-10-10 杭州电子科技大学 一种基于深度学习的高分辨率图像显著性目标检测方法
CN115690704B (zh) * 2022-09-27 2023-08-22 淮阴工学院 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置
CN115375677B (zh) * 2022-10-24 2023-04-18 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统
CN117557782A (zh) * 2023-12-01 2024-02-13 石家庄铁道大学 一种多尺度特征融合和边界信息注意的视频显著目标检测方法
CN117690128B (zh) * 2024-02-04 2024-05-03 武汉互创联合科技有限公司 胚胎细胞多核目标检测系统、方法和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
AU2020100274A4 (en) * 2020-02-25 2020-03-26 Huang, Shuying DR A Multi-Scale Feature Fusion Network based on GANs for Haze Removal
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
AU2020100274A4 (en) * 2020-02-25 2020-03-26 Huang, Shuying DR A Multi-Scale Feature Fusion Network based on GANs for Haze Removal
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Recurrent reverse attention guided residual learning for saliency object detection";Tengpeng Li;《Neurocomputing》;20200514;第389卷;第170-178页 *
"基于深度卷积神经网络的目标检测研究综述";范丽丽等;《光学 精密工程》;20200531;第28卷(第5期);第1152-1164页 *

Also Published As

Publication number Publication date
CN112329800A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329800B (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
Tian et al. Attention-guided CNN for image denoising
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN110580704A (zh) 基于卷积神经网络的et细胞图像自动分割方法及系统
CN111325751A (zh) 基于注意力卷积神经网络的ct图像分割系统
CN110223304B (zh) 一种基于多路径聚合的图像分割方法、装置和计算机可读存储介质
CN110070574B (zh) 一种基于改进PSMNet的双目视觉立体匹配方法
CN110111288B (zh) 基于深度辅助学习的图像增强及盲图质量评价网络系统
CN112419191B (zh) 基于卷积神经网络的图像运动模糊去除方法
CN113298718A (zh) 一种单幅图像超分辨率重建方法及系统
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN114926734A (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN115293986A (zh) 一种多时相遥感图像云区重建方法
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Guo et al. Multi-scale multi-attention network for moiré document image binarization
CN115760810B (zh) 医学图像分割装置、方法及计算机可读存储介质
CN116542988A (zh) 结节分割方法、装置、电子设备及存储介质
CN113111736A (zh) 基于深度可分离卷积及融合pan的多级特征金字塔目标检测方法
CN111047571A (zh) 一种具有自适应选择训练过程的图像显著目标检测方法
CN112950519B (zh) 一种新型的红外和可见光图像融合算法
CN111429465B (zh) 基于视差净化的二型残差双目显着物体图像分割方法
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN117635962B (zh) 基于多频率融合的通道注意力图像处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant