CN112347859B - 一种光学遥感图像显著性目标检测方法 - Google Patents
一种光学遥感图像显著性目标检测方法 Download PDFInfo
- Publication number
- CN112347859B CN112347859B CN202011100396.9A CN202011100396A CN112347859B CN 112347859 B CN112347859 B CN 112347859B CN 202011100396 A CN202011100396 A CN 202011100396A CN 112347859 B CN112347859 B CN 112347859B
- Authority
- CN
- China
- Prior art keywords
- attention
- feature
- representing
- module
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000750 progressive effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种光学遥感图像显著性目标检测方法,步骤包括:步骤S1、建立稠密注意力流网络,所述稠密注意力流网络包括注意力流引导的特征编码模块和渐进式特征解码模块;步骤S2、导入光学遥感图像;步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理,生成更具判别力的增强特征,注意力流引导的特征编码模块主要包括全局上下文感知注意力模块和稠密注意力流结构,步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码,在特征解码阶段,将深层特征与浅层特征逐步融合,并在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出。
Description
技术领域
本发明属于遥感图像处理、深度学习领域,涉及一种光学遥感图像显著性目标检测方法。
背景技术
受人类视觉注意力机制启发,视觉显著检测任务目的在于检测出输入数据(如图像、视频等)中最受关注的目标或区域,已经被广泛应用于目标检测、图像编辑、智能拍照、自动驾驶等诸多领域,具有重要的研究价值和广阔的市场前景。然而,本发明关注的光学遥感图像因其特殊的拍摄方式和成像环境,具有一些与传统手持相机拍摄图像(也称作自然场景图像)不同的性质,这使得直接移植现有自然场景图像显著性目标检测方法往往不能获得令人满意的效果,如尺度多样性、视角特殊性、小/多目标问题、多方向问题、复杂干扰问题等。目前仅有四项研究专门聚焦于光学遥感图像中的显著性目标检测。Zhao等人通过使用全局和背景线索提出了一种基于稀疏表示的光学遥感图像的显著性目标检测方法。Zhang等人提出了一种基于低秩矩阵恢复的自适应多特征融合模型,通过整合颜色、强度、纹理等信息来进行显著性目标检测。Li等人首次提出了一种基于深度学习的显著性目标检测方法,主体网络架构包括双流金字塔模块和带嵌套连接的解码器模块。Li等人提出了一种并行的自底向上的光学遥感图像显著性目标检测网络。此外,显著性目标检测经常作为相关光学遥感图像处理任务的辅助过程,如兴趣区域提取、建筑物提取、机场检测、油罐检测、船舶检测等。但是由于这类方法实际上是由一些特定的任务驱动的,它们在处理常规泛化的显著性目标检测任务时通常表现出不令人满意的性能。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
(1)现有深度学习的光学遥感显著性目标检测方法通常直接对多级特征进行传播融合,并未考虑每级特征对应的注意力信息之间的交互关系;
(2)由于光学遥感图像中显著性目标的分布范围可能比较大或存在近似的多个目标,现有方法并不能很完整地将它们检测出来,导致显著性检测结果完整性不高。
发明内容
针对现有技术中存在的缺陷,本发明旨在充分挖掘全局上下文依赖关系和注意力信息,降低显著性目标尺度变化对检测结果的影响,设计一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法,获得更佳的检测性能。
为达到以上目的,本发明采取的技术方案是:
本发明提出了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法,其技术路线为:
本发明提出的稠密注意力流网络是一种编码器-解码器结构。在特征编码过程中,本发明设计了注意力流引导的特征编码模块来指导特征的传播和学习,即在主干网络(如VGG16)的每个卷积块上都配备了一个全局上下文感知注意力模块。对于注意力信息流,本发明设计了一种稠密注意力流结构,每个全局上下文感知注意力模块都会借助每个卷积块的侧输出特征,生成一个注意力图,并通过稠密连接将不同块得到的注意力信息联系起来,实现注意力信息的跨级交互学习,最后将学习得到的全局注意力信息与原始的卷积特征进行残差连接,生成更具判别力的增强特征。在对特征进行解码的过程中,本发明逐步将不同层次的特征图融合起来,并且在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出。
具体实现步骤如下:
步骤S1、导入光学遥感图像;
步骤S2、建立稠密注意力流网络,所述稠密注意力流网络包括注意力流引导的特征编码模块和渐进式特征解码模块;
步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理,生成更具判别力的增强特征,注意力流引导的特征编码模块主要包括全局上下文感知注意力模块和稠密注意力流结构;
(1)全局上下文感知注意力模块
a)全局特征聚合模块
首先,利用主干网络的侧输出特征图fs,计算任意两个空间位置的特征图之间的关系,得到对应的空间关系图Cs,表达式如下所示:
其中, 表示大小为Cs×Hs×Ws的线性空间,/>表示大小为Ps×Ps的线性空间,s={1,2,3,4,5}表示主干网络的卷积层级,Hs、Ws和Cs分别表示特征图的高、宽和通道数,Ps=Hs×Ws表示像素数量,/>代表归一化的侧输出特征图,/>表示将一个矩阵由/>转化为/>的操作,D23=D2×D3,/>代表矩阵乘法。
然后,根据空间关系图Cs生成一个全局上下文关系图 在(i,j)位置上的元素/>定义如下:
其中,是空间关系图Cs在(i,j)位置上的值,/>代表空间关系图Cs的第j列所有元素的高斯加权求和,/>衡量了第i个像素和第j个像素之间的相互作用,因此全局上下文关系图/>编码了全局的每个像素之间的相互关系。
进而,得到融合全局上下文依赖关系的特征图Gs,表达式如下所示:
其中,是/>的逆操作,表示将一个矩阵由/>转化为/>的操作。
最后,通过残差连接将特征图Gs集成到原始侧输出特征图fs中,实现特征增强,得到聚合特征图Fs,表达式如下所示:
Fs=Fs+δ·(fs⊙Gs) (4)
其中,⊙表示元素级乘积运算,δ是一个可学习的权重参数,它控制全局上下文信息的贡献度,聚合特征图Fs嵌入了全局上下文依赖关系,约束整个显著区域的特征一致性;
为了生成更加紧致的特征表示,本发明对卷积特征通道响应之间的相互依赖关系进行建模,首先,对得到的聚合特征图Fs进行平均池化和最大池化操作,分别生成两个一维的通道重要性描述符,记为和/>然后,将它们送入一个三层全连接块,并进一步组合以产生一个新的融合通道加权向量Γs,表达式如下所示:
其中,σ表示Sigmoid激活函数,表示三层感知机,/>和/>表示三层感知机要学习的参数,Γs编码了跨通道的相关性,并突出了重要的特征通道,然后将Γs与Fs进行带空间维广播机制相乘操作后,生成一个包含更多紧致通道信息的特征图/>
b)级联金字塔注意力模块
首先,沿着通道对进行平均池化和最大池化操作,并将输出连接起来后利用Sigmoid函数进行激活,得到2维空间注意力图As,表达式如下所示:
其中, 表示大小为Hs×Ws的线性空间,Att表示空间注意力操作,conv表示具有参数/>的自定义的卷积层,avepool和maxpool分别是平均池化操作和最大池化操作,concat表示通道维的特征连接。
为了获得多尺度金字塔特征,首先采用2×最大池化操作将特征图下采样成不同的分辨率,并用1×1卷积层对特征降维,然后,构造了一个特征金字塔/> 其中k∈{0,1,2}表示金字塔尺度,/>表示大小为的线性空间,然后,在最低分辨率的图上采用公式(6)得到一个注意力图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正,而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上,位于中间尺度(即2倍下采样)的特征的注意力图/>由如下的公式得到:
其中,表示具有通道维广播机制的元素乘积操作,↑表示2倍上采样操作,分别表示金字塔尺度为0、1、2的特征金字塔特征,以此类推,级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图/>表示为:
(2)稠密注意力流结构
每个全局上下文感知注意力模块的输入为主干网络的侧输出特征图fs,输出为一个注意力图为了更新优化注意力图,首先将浅层中经过下采样的注意力图连接起来,之后,在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图,上述过程用公式表示为:
其中,↓代表对给定的注意力图进行下采样至与相同的分辨率,在得到更新后的注意力图之后,使其与sth卷积块的最终特征图进行残差连接得到最终的特征图/>表达式如下所示:
其中,是级联金字塔注意力模块尺度为1的注意力加权后输出的特征,/>是所有元素等于1的矩阵,/>为通过公式(9)得到的最终的注意力图,这样的话,依次得到相应的五个卷积块的侧输出特征:/>
步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码,在特征解码阶段,将深层特征与浅层特征逐步融合,并在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出;每个解码阶段包括三个过程:第一,自顶向下特征融合模块,通过上采样和1×1卷积,将相邻的侧输出特征之间的分辨率和通道数进行对齐,然后进行逐像素求和,第二,利用瓶颈卷积块进一步集成融合特征的语义信息,每个瓶颈卷积块包含两个卷积层,第三,在解码模块中设置了显著性预测层和显著性边缘预测层,并使用Sigmoid函数将显著性分数映射到[0,1]区间内,最终将解码模块最顶层的输出作为最终的显著性预测图。
在上述方案的基础上,所述稠密注意力流网络在损失函数的约束下进行训练,对于显著性监督,本发明同时考虑了显著性监督和显著性边缘监督,以此约束网络获得更加准确的显著性区域定位和更加锐利的显著性目标边界。为了充分利用多尺度信息,本发明最终的损失函数包含三个层次的侧监督。除了第一级的全分辨率结果外,还在第2、3级也进行了显著性图和显著性边缘图的预测和监督。最终的损失函数l可以表示为:
其中,参数和/>适用于调整显著性预测和显著性边缘预测的贡献程度,/>表示用于显著性预测的二值交叉熵损失函数,/>表示用于显著性边缘预测的二值交叉熵损失函数。
本发明的有益效果:
本发明设计了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法,能够充分挖掘全局上下文的语义信息,获得更具判别力的特征表达,更加完整、准确地生成边缘清晰的显著性图,且具有较强的背景抑制能力。
附图说明
本发明有如下附图:
图1给出了本发明提出方法的检测结果。
图2给出本发明提出方法的整体流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明提出了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法,主要包括注意力流引导的特征编码模块和渐进式特征解码模块,注意力流引导的特征编码模块通过全局上下文感知注意力模块自适应捕获远距离的全局关系,并进一步将其嵌入稠密注意力流结构中,使浅层注意力线索能够传播至深层,进而指导深层注意力特征图的生成,使网络能够生成更加准确、完整、锐利的显著性检测结果。
1.技术路线
本发明提出的稠密注意力流网络是一种编码器-解码器结构。与传统的特征编码器不同,本发明设计了注意力流机制来指导特征的传播和学习,即在主干网络(如VGG16)的每个卷积块上都配备了一个全局上下文感知注意力模块。对于注意力信息流,本发明设计了一种稠密注意力流的结构,每个全局上下文感知注意力模块都会借助每个卷积块的侧输出特征,生成一个注意力图,并通过稠密连接将不同块得到的注意力信息联系起来,实现注意力信息的跨级交互学习,最后将学习得到的全局注意力信息与原始的卷积特征进行残差连接,生成更具判别力的增强特征。在对特征进行解码的过程中,本发明逐步将不同层次的特征图融合起来,并且在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出。
2.注意力流引导的特征编码模块
注意力流引导的特征编码模块用于学习光学遥感图像中更具判别力的显著性特征,主要包括全局上下文感知注意力模块和稠密注意力流结构。全局上下文感知注意力模块以一种注意力的方式显式地捕获所有空间位置之间的远程语义依赖性,主要包括全局特征聚合和级联金字塔注意力两个功能组件。全局特征聚合模块使用从主干卷积块生成的原始特征,并生成对全局上下文信息进行编码的聚合特征。级联金字塔注意力模块用于解决光学遥感图像中目标尺寸变化问题,它以全局特征聚合模块得到的聚合特征为输入,并在级联金字塔框架下生成逐步完善的注意力图。此外,为了自适应地学习和整合来自不同特征尺度、不同语义抽象级别的自注意力线索,在卷积网络内部构建了稠密连接的注意力传播流,底层特征生成的注意力信息流入并指导高层注意力的生成,并将特征流与注意力流纳入一个可学习的端到端框架内。
(1)全局上下文感知注意力模块
a)全局特征聚合模块
在理想情况下,对于属于同一个显著性目标的每个像素,不管它们之间的空间距离如何,学习得到的特征应该是一致的。但是当显著性目标占据了较大的图像比例时,这种特征的一致性就很容易被破坏,进而导致不完整的检测结果。因此,本发明设计了一种全局特征聚合模块,旨在通过集成像素对之间的全局语义关系来实现显著性模式之间的特征对齐和相互增强,这有利于约束生成完整且统一的显著性检测结果。
对于主干网络的侧输出特征图s={1,2,3,4,5}表示主干网络的卷积层级,计算任意两个空间位置的特征图之间的关系,得到对应的空间关系图表达式如下所示:
其中,代表归一化的侧输出特征,/>表示将一个矩阵由/>转化为的操作,D23=D2×D3,/>代表矩阵乘法,Ps=Hs×Ws表示像素数量。
然后,根据空间关系图Cs生成一个全局上下文关系图 在(i,j)位置上的元素/>定义如下:
其中,是空间关系图Cs在(i,j)位置上的值,/>代表空间关系图Cs的第j列所有元素的高斯加权求和。/>衡量了第i个像素和第j个像素之间的相互作用,因此全局上下文关系图/>编码了全局的每个像素之间的相互关系。
进而,可以得到融合全局上下文依赖关系的特征图Gs,表达式如下所示:
其中,是/>的逆操作,就是将一个矩阵由/>转化为/>的操作。
最后,通过残差连接将特征图Gs集成到原始侧输出特征图fs中,实现特征增强,得到聚合特征图Fs,表达式如下所示:
Fs=fs+δ·(fs⊙Gs) (4)
其中,⊙表示元素级乘积运算,δ是一个可学习的权重参数,它控制全局上下文信息的贡献度。聚合特征图Fs嵌入了全局上下文依赖关系,可以约束整个显著区域的特征一致性。
为了生成更加紧致的特征表示,本发明对卷积特征通道响应之间的相互依赖关系进行建模。首先,对得到的聚合特征图Fs进行平均池化和最大池化操作,分别生成两个一维的通道重要性描述符,记为和/>然后,将它们送入一个三层全连接块,并进一步组合以产生一个新的融合通道加权向量Γs,其表述为:
其中,σ表示Sigmoid激活函数,表示三层感知机,/>和/>表示三层感知机要学习的参数。输出Γs编码了跨通道的相关性,并突出了重要的特征通道,然后将其与Fs进行带空间维广播机制相乘操作后,生成一个包含更多紧致通道信息的新的特征图/>
b)级联金字塔注意力模块
在光学遥感图像中,目标尺度变化很大,这对显著性目标检测模型的鲁棒性和泛化性都提出了很大的挑战。在现有方法中,多尺度金字塔注意力机制可以增强特征的判别力,也在一定程度上缓解了目标大小变化的影响。然而,将独立生成的不同特征分辨率的注意力图通过上采样或者求和简单整合起来并不是最好的解决方案,因为这样的设计削弱了不同尺度之间的信息交互,限制了多尺度特征的表达能力。因此,本发明设计了一种级联金字塔注意力机制,从粗到细地逐步细化特征和注意力信息。首先,沿着通道对进行平均池化和最大池化操作,并将输出连接起来后利用Sigmoid函数进行激活,得到2维空间注意力图/>表达式如下所示:
其中,Att表示空间注意力操作,conv表示具有参数的自定义的卷积层,avepool和maxpool分别是平均池化操作和最大池化操作,concat表示通道维的特征连接。
为了获得多尺度金字塔特征,首先采用2×最大池化操作将特征图下采样成不同的分辨率,并用1×1卷积层对特征降维。然后,构造了一个特征金字塔其中k∈{0,1,2}表示金字塔尺度。然后,在最低分辨率的图上用公式(6)得到一个注意图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正,而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上。位于中间尺度(即2倍下采样)的特征的注意力图/>由如下的公式得到:
其中,表示具有通道维广播机制的元素乘积操作,↑表示2倍上采样操作。以此类推,级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图可以表示为:
通过这样的级联结构,在低分辨率特征中可以挖掘出粗糙的注意力线索,然后与高分辨率特征融合,就能生成包含更精确细节的注意力结果。
(2)稠密注意力流结构
卷积网络中的层次化特征对应着不同层次的信息,其中浅层的特征主要关注的是边缘和独特的纹理,而深层特征捕获的则是高级的语义特征。因此,从不同卷积阶段得到的注意力信息也包含着不同的特征选择策略。受卷积特征的侧路连接启发,本发明设计了一种稠密注意力流结构,浅层注意力信息可以传入深层的注意力单元。这样,低层的注意力信息可以作为有价值的指导信息,来更好的生成高层的注意力信息。
根据前面描述可知,每个全局上下文感知注意力模块输入的是主干网络的侧输出特征fs,输出一个注意力图为了得到新的注意力图,首先将浅层中经过下采样的注意力图/>与/>连接起来。之后,在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图。上述过程用公式表示为:
其中,↓代表对给定的注意力图进行下采样至与相同的分辨率,在得到更新后的注意力图之后,使其与sth卷积块的最终特征图进行残差连接得到最终的特征图/>表达式如下所示:
其中,是级联金字塔注意力模块尺度为1的注意力加权后输出的特征,/>是所有元素等于1的矩阵。/>为通过公式(9)得到的最终的注意力图,这样的话,就可以依次得到相应的五个卷积块的侧输出特征
3.渐进式特征解码模块
在特征解码阶段,将深层特征与浅层特征逐步融合,并在不同的特征分辨率下产生多个显著性侧输出。每个解码阶段包括三个过程:第一,自顶向下特征融合模块,通过上采样和1×1卷积,将相邻的侧输出特征之间的分辨率和通道数进行对齐,然后进行逐像素求和。第二,利用瓶颈卷积块进一步集成融合特征的语义信息,每个瓶颈卷积块包含两个卷积层。第三,在解码模块中设置了显著性预测层和显著性边缘预测层,并使用Sigmoid函数将显著性分数映射到[0,1]区间内。最终将解码模块最顶层的输出作为最终的显著性预测图。
4.损失函数
对于显著性监督,本发明同时考虑了显著性监督和显著性边缘监督,以此约束网络获得更加准确的显著性区域定位和更加锐利的显著性目标边界。为了充分利用多尺度信息,本发明最终的损失函数包含三个层次的侧监督。除了第一级的全分辨率结果外,还在第2、3级也进行了显著性图和显著性边缘图的预测和监督得。最终的损失函数可以表示为:
其中,参数和/>适用于调整显著性预测和显著性边缘预测的贡献程度,/>表示用于显著性预测的二值交叉熵损失函数,/>表示用于显著性边缘预测的二值交叉熵损失函数。
附图1给出了本发明技术的可视化实例。第一列为光学遥感图像,第二列为显著性检测结果的真图,第三列为本发明生成的显著性结果。从结果可以看出,本发明方法能够完整、准确的提取光学遥感图像中的显著性目标,而且能够完整的检测出不同尺度的显著性目标(如第一幅图中的汽车小目标以及第二幅图中的建筑物大目标),同时也能够很好的抑制非显著性区域(如第二幅图中的阴影噪声等)。附图2给出了本发明的整体技术流程图,主要包括注意力流引导的特征编码模块和渐进式特征解码模块。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (4)
1.一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法,其特征在于,具体实现步骤如下:
步骤S1、导入光学遥感图像;
步骤S2、建立稠密注意力流网络,所述稠密注意力流网络包括注意力流引导的特征编码模块和渐进式特征解码模块;
步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理,生成更具判别力的增强特征;注意力流引导的特征编码模块包括全局上下文感知注意力模块和稠密注意力流结构;所述全局上下文感知注意力模块的具体处理过程为:
a)全局特征聚合模块
首先,利用主干网络的侧输出特征图fs,计算任意两个空间位置的特征图之间的关系,得到对应的空间关系图Cs,表达式如下所示:
其中,表示大小为Cs×Hs×Ws的线性空间,/>表示大小为Ps×Ps的线性空间,s={1,2,3,4,5}表示主干网络的卷积层级,Hs、Ws和Cs分别表示特征图的高、宽和通道数,Ps=Hs×Ws表示像素数量,/>代表归一化的侧输出特征图,/>表示将一个矩阵由/>转化为/>的操作,D23=D2×D3,/>代表矩阵乘法,
然后,根据空间关系图Cs生成一个全局上下文关系图 在(i,j)位置上的元素/>定义如下:
其中,是空间关系图Cs在(i,j)位置上的值,/>代表空间关系图Cs的第j列所有元素的高斯加权求和,/>衡量了第i个像素和第j个像素之间的相互作用,因此全局上下文关系图/>编码了全局的每个像素之间的相互关系,
进而,得到融合全局上下文依赖关系的特征图Gs,表达式如下所示:
其中,是/>的逆操作,表示将一个矩阵由/>转化为/>的操作,
最后,通过残差连接将特征图Gs集成到原始侧输出特征图fs中,实现特征增强,得到聚合特征图Fs,表达式如下所示:
其中,⊙表示元素级乘积运算,δ是一个可学习的权重参数,它控制全局上下文信息的贡献度,聚合特征图Fs嵌入了全局上下文依赖关系,约束整个显著区域的特征一致性;
为了生成更加紧致的特征表示,需要对卷积特征通道响应之间的相互依赖关系进行建模,首先,对得到的聚合特征图Fs进行平均池化和最大池化操作,分别生成两个一维的通道重要性描述符,记为和/>然后,将它们送入一个三层全连接块,并进一步组合以产生一个新的融合通道加权向量Γs,表达式如下所示:
其中,σ表示Sigmoid激活函数,表示三层感知机,/>和/>表示三层感知机要学习的参数,Γs编码了跨通道的相关性,并突出了重要的特征通道,然后将Γs与Fs进行带空间维广播机制相乘操作后,生成一个包含更多紧致通道信息的特征图/>
b)级联金字塔注意力模块
首先,沿着通道对进行平均池化和最大池化操作,并将输出连接起来后利用Sigmoid函数进行激活,得到2维空间注意力图As,表达式如下所示:
其中,表示大小为Hs×Ws的线性空间,Att表示空间注意力操作,conv表示具有参数/>的自定义的卷积层,avepool和maxpool分别是平均池化操作和最大池化操作,concat表示通道维的特征连接;
为了获得多尺度金字塔特征,首先采用2×最大池化操作将特征图下采样成不同的分辨率,并用1×1卷积层对特征降维,然后,构造了一个特征金字塔其中k∈{0,1,2}表示金字塔尺度,/>表示大小为的线性空间,然后,在最低分辨率的图上采用公式(6)得到一个注意力图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正,而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上,位于中间尺度的特征的注意力图/>由如下的公式得到:
其中,表示具有通道维广播机制的元素乘积操作,↑表示2倍上采样操作,分别表示金字塔尺度为0、1、2的特征金字塔,以此类推,级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图/>表示为:
步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码,在特征解码阶段,将深层特征与浅层特征逐步融合,并在显著性图和显著性边缘图的监督下,生成多个侧输出和最终输出。
2.如权利要求1所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法,其特征在于,所述稠密注意力流结构的具体处理过程为:
每个全局上下文感知注意力模块的输入为主干网络的侧输出特征图fs,输出为一个注意力图为了更新优化注意力图,首先将浅层中经过下采样的注意力图与/>连接起来,之后,在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图,上述过程用公式表示为:
其中,↓代表对给定的注意力图进行下采样至与相同的分辨率,在得到更新后的注意力图之后,使其与sth卷积块的最终特征图进行残差连接得到最终的特征图/>表达式如下所示:
其中,是级联金字塔注意力模块尺度为1的注意力加权后输出的特征,/>是所有元素等于1的矩阵,/>为通过公式(9)得到的最终的注意力图,这样的话,依次得到相应的五个卷积块的侧输出特征:/>
3.如权利要求2所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法,其特征在于,步骤S4中,每个解码阶段包括三个过程:第一,自顶向下特征融合模块,通过上采样和1×1卷积,将相邻的侧输出特征之间的分辨率和通道数进行对齐,然后进行逐像素求和,第二,利用瓶颈卷积块进一步集成融合特征的语义信息,每个瓶颈卷积块包含两个卷积层,第三,在解码模块中设置了显著性预测层和显著性边缘预测层,并使用Sigmoid函数将显著性分数映射到[0,1]区间内,最终将解码模块最顶层的输出作为最终的显著性预测图。
4.如权利要求1所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法,其特征在于,所述稠密注意力流网络在损失函数的约束下进行训练,损失函数l表示为:
其中,参数和/>适用于调整显著性预测和显著性边缘预测的贡献程度,/>表示用于显著性预测的二值交叉熵损失函数,/>表示用于显著性边缘预测的二值交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100396.9A CN112347859B (zh) | 2020-10-15 | 2020-10-15 | 一种光学遥感图像显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100396.9A CN112347859B (zh) | 2020-10-15 | 2020-10-15 | 一种光学遥感图像显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347859A CN112347859A (zh) | 2021-02-09 |
CN112347859B true CN112347859B (zh) | 2024-05-24 |
Family
ID=74361820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100396.9A Active CN112347859B (zh) | 2020-10-15 | 2020-10-15 | 一种光学遥感图像显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347859B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192030B (zh) * | 2021-04-29 | 2022-05-13 | 华中科技大学 | 一种遥感图像描述生成方法及系统 |
CN113505634B (zh) * | 2021-05-24 | 2024-06-14 | 安徽大学 | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 |
CN113362372B (zh) * | 2021-05-25 | 2023-05-02 | 同济大学 | 一种单目标追踪方法及计算机可读介质 |
CN113298094B (zh) * | 2021-06-10 | 2022-11-04 | 安徽大学 | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 |
CN113378112A (zh) * | 2021-06-18 | 2021-09-10 | 浙江工业大学 | 一种基于各向异性卷积的点云补全方法及装置 |
CN113538484B (zh) * | 2021-07-01 | 2022-06-10 | 广西科技大学 | 一种深度细化的多重信息嵌套边缘检测方法 |
CN113743521B (zh) * | 2021-09-10 | 2023-06-27 | 中国科学院软件研究所 | 一种基于多尺度上下文感知的目标检测方法 |
CN113780241B (zh) * | 2021-09-29 | 2024-02-06 | 北京航空航天大学 | 一种显著物体检测的加速方法与装置 |
CN113887443B (zh) * | 2021-10-08 | 2024-09-06 | 西北工业大学 | 一种基于属性感知注意力汇集的工业烟排放识别方法 |
CN115471831B (zh) * | 2021-10-15 | 2024-01-23 | 中国矿业大学 | 一种基于文本增强学习的图像显著性检测方法 |
CN113947530B (zh) * | 2021-10-21 | 2024-04-30 | 河北工业大学 | 一种基于相对显著性检测的图像重定向方法 |
CN114022793B (zh) * | 2021-10-28 | 2024-06-04 | 天津大学 | 一种基于孪生网络的光学遥感图像变化检测方法 |
CN114092716B (zh) * | 2021-11-30 | 2024-07-26 | 深圳万兴软件有限公司 | 基于U2net的目标检测方法、系统、计算机设备及其存储介质 |
CN114358129B (zh) * | 2021-12-07 | 2024-08-20 | 广东技术师范大学 | 一种行人重识别模型的训练方法、识别方法、装置及设备 |
CN114283315B (zh) * | 2021-12-17 | 2024-08-16 | 安徽理工大学 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
CN114299305B (zh) * | 2021-12-30 | 2024-07-12 | 安徽理工大学 | 聚合密集和注意力多尺度特征的显著性目标检测算法 |
CN114677306B (zh) * | 2022-03-29 | 2022-11-15 | 中国矿业大学 | 一种基于边缘信息引导的上下文聚合图像去雨方法 |
CN114882405B (zh) * | 2022-05-07 | 2024-06-07 | 北京航空航天大学 | 一种基于时空双流金字塔网络架构的视频显著性检测方法 |
CN114943709A (zh) * | 2022-05-27 | 2022-08-26 | 浙江工业大学 | 一种光学遥感图像显著目标检测方法 |
CN115272250B (zh) * | 2022-08-01 | 2024-06-04 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115984739B (zh) * | 2022-12-20 | 2023-06-16 | 中国科学院空天信息创新研究院 | 一种用于视频预测的基于全局注意力指导的特征融合方法 |
CN115797789B (zh) * | 2023-02-20 | 2023-05-30 | 成都东方天呈智能科技有限公司 | 基于级联检测器的水稻害虫监测系统、方法和存储介质 |
CN117351374B (zh) * | 2023-12-05 | 2024-03-08 | 山东大学 | 一种遥感图像显著性目标检测方法、系统、设备及介质 |
CN117635478B (zh) * | 2024-01-23 | 2024-05-17 | 中国科学技术大学 | 一种基于空间通道注意力的低光照图像增强方法 |
CN118644666A (zh) * | 2024-08-14 | 2024-09-13 | 江西师范大学 | 一种面向遥感目标检测场景的图像处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
WO2020113355A1 (en) * | 2018-12-03 | 2020-06-11 | Intel Corporation | A content adaptive attention model for neural network-based image and video encoders |
CN111340046A (zh) * | 2020-02-18 | 2020-06-26 | 上海理工大学 | 基于特征金字塔网络和通道注意力的视觉显著性检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11966839B2 (en) * | 2017-10-25 | 2024-04-23 | Deepmind Technologies Limited | Auto-regressive neural network systems with a soft attention mechanism using support data patches |
-
2020
- 2020-10-15 CN CN202011100396.9A patent/CN112347859B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113355A1 (en) * | 2018-12-03 | 2020-06-11 | Intel Corporation | A content adaptive attention model for neural network-based image and video encoders |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN111340046A (zh) * | 2020-02-18 | 2020-06-26 | 上海理工大学 | 基于特征金字塔网络和通道注意力的视觉显著性检测方法 |
Non-Patent Citations (3)
Title |
---|
使用密集弱注意力机制的图像显著性检测;项圣凯;曹铁勇;方正;洪施展;;中国图象图形学报(第01期);第140-151页 * |
分层特征融合注意力网络图像超分辨率重建;雷鹏程;刘丛;唐坚刚;彭敦陆;;中国图象图形学报(第09期);第59-72页 * |
结合空间注意力多层特征融合显著性检测;陈凯;王永雄;;中国图象图形学报(第06期);第66-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347859A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111274892B (zh) | 一种鲁棒的遥感影像变化检测方法及系统 | |
CN111582483B (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
Cheng et al. | S3Net: 3D LiDAR sparse semantic segmentation network | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN116740439A (zh) | 一种基于跨尺度金字塔Transformer的人群计数方法 | |
CN114494699B (zh) | 基于语义传播与前背景感知的图像语义分割方法及系统 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
CN117351360A (zh) | 一种基于注意力机制改进的遥感图像道路提取方法 | |
CN117173594A (zh) | 基于可变形注意力网络的遥感图像变化检测方法 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN116994137A (zh) | 一种基于多尺度形变建模和区域精细提取的目标检测方法 | |
CN116863437A (zh) | 车道线检测模型训练方法、装置、设备、介质及车辆 | |
CN116452793A (zh) | 一种基于多视角和多层级的绿色编解码显著目标检测方法 | |
CN115797181A (zh) | 一种面向矿井模糊环境的图像超分辨率重建方法 | |
CN115131414A (zh) | 基于深度学习的无人机图像对齐方法、电子设备和存储介质 | |
Lee et al. | Boundary-aware camouflaged object detection via deformable point sampling | |
CN117765297B (zh) | 高光谱图像分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |