CN112347859B

CN112347859B - 一种光学遥感图像显著性目标检测方法

Info

Publication number: CN112347859B
Application number: CN202011100396.9A
Authority: CN
Inventors: 丛润民; 张禹墨; 张晨; 杨宁; 杨浩巍; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2024-05-24
Anticipated expiration: 2040-10-15
Also published as: CN112347859A

Abstract

本发明涉及一种光学遥感图像显著性目标检测方法，步骤包括：步骤S1、建立稠密注意力流网络，所述稠密注意力流网络包括注意力流引导的特征编码模块和渐进式特征解码模块；步骤S2、导入光学遥感图像；步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理，生成更具判别力的增强特征，注意力流引导的特征编码模块主要包括全局上下文感知注意力模块和稠密注意力流结构，步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码，在特征解码阶段，将深层特征与浅层特征逐步融合，并在显著性图和显著性边缘图的监督下，生成多个侧输出和最终输出。

Description

一种光学遥感图像显著性目标检测方法

技术领域

本发明属于遥感图像处理、深度学习领域，涉及一种光学遥感图像显著性目标检测方法。

背景技术

受人类视觉注意力机制启发，视觉显著检测任务目的在于检测出输入数据(如图像、视频等)中最受关注的目标或区域，已经被广泛应用于目标检测、图像编辑、智能拍照、自动驾驶等诸多领域，具有重要的研究价值和广阔的市场前景。然而，本发明关注的光学遥感图像因其特殊的拍摄方式和成像环境，具有一些与传统手持相机拍摄图像(也称作自然场景图像)不同的性质，这使得直接移植现有自然场景图像显著性目标检测方法往往不能获得令人满意的效果，如尺度多样性、视角特殊性、小/多目标问题、多方向问题、复杂干扰问题等。目前仅有四项研究专门聚焦于光学遥感图像中的显著性目标检测。Zhao等人通过使用全局和背景线索提出了一种基于稀疏表示的光学遥感图像的显著性目标检测方法。Zhang等人提出了一种基于低秩矩阵恢复的自适应多特征融合模型，通过整合颜色、强度、纹理等信息来进行显著性目标检测。Li等人首次提出了一种基于深度学习的显著性目标检测方法，主体网络架构包括双流金字塔模块和带嵌套连接的解码器模块。Li等人提出了一种并行的自底向上的光学遥感图像显著性目标检测网络。此外，显著性目标检测经常作为相关光学遥感图像处理任务的辅助过程，如兴趣区域提取、建筑物提取、机场检测、油罐检测、船舶检测等。但是由于这类方法实际上是由一些特定的任务驱动的，它们在处理常规泛化的显著性目标检测任务时通常表现出不令人满意的性能。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

(1)现有深度学习的光学遥感显著性目标检测方法通常直接对多级特征进行传播融合，并未考虑每级特征对应的注意力信息之间的交互关系；

(2)由于光学遥感图像中显著性目标的分布范围可能比较大或存在近似的多个目标，现有方法并不能很完整地将它们检测出来，导致显著性检测结果完整性不高。

发明内容

针对现有技术中存在的缺陷，本发明旨在充分挖掘全局上下文依赖关系和注意力信息，降低显著性目标尺度变化对检测结果的影响，设计一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法，获得更佳的检测性能。

为达到以上目的，本发明采取的技术方案是：

本发明提出了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法，其技术路线为：

本发明提出的稠密注意力流网络是一种编码器-解码器结构。在特征编码过程中，本发明设计了注意力流引导的特征编码模块来指导特征的传播和学习，即在主干网络(如VGG16)的每个卷积块上都配备了一个全局上下文感知注意力模块。对于注意力信息流，本发明设计了一种稠密注意力流结构，每个全局上下文感知注意力模块都会借助每个卷积块的侧输出特征，生成一个注意力图，并通过稠密连接将不同块得到的注意力信息联系起来，实现注意力信息的跨级交互学习，最后将学习得到的全局注意力信息与原始的卷积特征进行残差连接，生成更具判别力的增强特征。在对特征进行解码的过程中，本发明逐步将不同层次的特征图融合起来，并且在显著性图和显著性边缘图的监督下，生成多个侧输出和最终输出。

具体实现步骤如下：

步骤S1、导入光学遥感图像；

步骤S2、建立稠密注意力流网络，所述稠密注意力流网络包括注意力流引导的特征编码模块和渐进式特征解码模块；

步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理，生成更具判别力的增强特征，注意力流引导的特征编码模块主要包括全局上下文感知注意力模块和稠密注意力流结构；

(1)全局上下文感知注意力模块

a)全局特征聚合模块

首先，利用主干网络的侧输出特征图f^s，计算任意两个空间位置的特征图之间的关系，得到对应的空间关系图C^s，表达式如下所示：

其中，表示大小为C_s×H_s×W_s的线性空间，/>表示大小为P_s×P_s的线性空间，s＝{1,2,3,4,5}表示主干网络的卷积层级，H_s、W_s和C_s分别表示特征图的高、宽和通道数，P_s＝H_s×W_s表示像素数量，/>代表归一化的侧输出特征图，/>表示将一个矩阵由/>转化为/>的操作，D₂₃＝D₂×D₃，/>代表矩阵乘法。

然后，根据空间关系图C^s生成一个全局上下文关系图在(i,j)位置上的元素/>定义如下：

其中，是空间关系图C^s在(i,j)位置上的值，/>代表空间关系图C^s的第j列所有元素的高斯加权求和，/>衡量了第i个像素和第j个像素之间的相互作用，因此全局上下文关系图/>编码了全局的每个像素之间的相互关系。

进而，得到融合全局上下文依赖关系的特征图G^s，表达式如下所示：

其中，是/>的逆操作，表示将一个矩阵由/>转化为/>的操作。

最后，通过残差连接将特征图G^s集成到原始侧输出特征图f^s中，实现特征增强，得到聚合特征图F^s，表达式如下所示：

F^s＝F^s+δ·(f^s⊙G^s) (4)

其中，⊙表示元素级乘积运算，δ是一个可学习的权重参数，它控制全局上下文信息的贡献度，聚合特征图F^s嵌入了全局上下文依赖关系，约束整个显著区域的特征一致性；

为了生成更加紧致的特征表示，本发明对卷积特征通道响应之间的相互依赖关系进行建模，首先，对得到的聚合特征图F^s进行平均池化和最大池化操作，分别生成两个一维的通道重要性描述符，记为和/>然后，将它们送入一个三层全连接块，并进一步组合以产生一个新的融合通道加权向量Γ^s，表达式如下所示：

其中，σ表示Sigmoid激活函数，表示三层感知机，/>和/>表示三层感知机要学习的参数，Γ^s编码了跨通道的相关性，并突出了重要的特征通道，然后将Γ^s与F^s进行带空间维广播机制相乘操作后，生成一个包含更多紧致通道信息的特征图/>

b)级联金字塔注意力模块

首先，沿着通道对进行平均池化和最大池化操作，并将输出连接起来后利用Sigmoid函数进行激活，得到2维空间注意力图A^s，表达式如下所示：

其中，表示大小为H_s×W_s的线性空间，Att表示空间注意力操作，conv表示具有参数/>的自定义的卷积层，avepool和maxpool分别是平均池化操作和最大池化操作，concat表示通道维的特征连接。

为了获得多尺度金字塔特征，首先采用2×最大池化操作将特征图下采样成不同的分辨率，并用1×1卷积层对特征降维，然后，构造了一个特征金字塔/> 其中k∈{0,1,2}表示金字塔尺度，/>表示大小为的线性空间，然后，在最低分辨率的图上采用公式(6)得到一个注意力图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正，而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上，位于中间尺度(即2倍下采样)的特征的注意力图/>由如下的公式得到：

其中，表示具有通道维广播机制的元素乘积操作，↑表示2倍上采样操作，分别表示金字塔尺度为0、1、2的特征金字塔特征，以此类推，级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图/>表示为：

(2)稠密注意力流结构

每个全局上下文感知注意力模块的输入为主干网络的侧输出特征图f^s，输出为一个注意力图为了更新优化注意力图，首先将浅层中经过下采样的注意力图连接起来，之后，在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图，上述过程用公式表示为：

其中，↓代表对给定的注意力图进行下采样至与相同的分辨率，在得到更新后的注意力图之后，使其与s^th卷积块的最终特征图进行残差连接得到最终的特征图/>表达式如下所示：

其中，是级联金字塔注意力模块尺度为1的注意力加权后输出的特征，/>是所有元素等于1的矩阵，/>为通过公式(9)得到的最终的注意力图，这样的话，依次得到相应的五个卷积块的侧输出特征：/>

步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码，在特征解码阶段，将深层特征与浅层特征逐步融合，并在显著性图和显著性边缘图的监督下，生成多个侧输出和最终输出；每个解码阶段包括三个过程：第一，自顶向下特征融合模块，通过上采样和1×1卷积，将相邻的侧输出特征之间的分辨率和通道数进行对齐，然后进行逐像素求和，第二，利用瓶颈卷积块进一步集成融合特征的语义信息，每个瓶颈卷积块包含两个卷积层，第三，在解码模块中设置了显著性预测层和显著性边缘预测层，并使用Sigmoid函数将显著性分数映射到[0,1]区间内，最终将解码模块最顶层的输出作为最终的显著性预测图。

在上述方案的基础上，所述稠密注意力流网络在损失函数的约束下进行训练，对于显著性监督，本发明同时考虑了显著性监督和显著性边缘监督，以此约束网络获得更加准确的显著性区域定位和更加锐利的显著性目标边界。为了充分利用多尺度信息，本发明最终的损失函数包含三个层次的侧监督。除了第一级的全分辨率结果外，还在第2、3级也进行了显著性图和显著性边缘图的预测和监督。最终的损失函数l可以表示为：

其中，参数和/>适用于调整显著性预测和显著性边缘预测的贡献程度，/>表示用于显著性预测的二值交叉熵损失函数，/>表示用于显著性边缘预测的二值交叉熵损失函数。

本发明的有益效果：

本发明设计了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法，能够充分挖掘全局上下文的语义信息，获得更具判别力的特征表达，更加完整、准确地生成边缘清晰的显著性图，且具有较强的背景抑制能力。

附图说明

本发明有如下附图：

图1给出了本发明提出方法的检测结果。

图2给出本发明提出方法的整体流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明提出了一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法，主要包括注意力流引导的特征编码模块和渐进式特征解码模块，注意力流引导的特征编码模块通过全局上下文感知注意力模块自适应捕获远距离的全局关系，并进一步将其嵌入稠密注意力流结构中，使浅层注意力线索能够传播至深层，进而指导深层注意力特征图的生成，使网络能够生成更加准确、完整、锐利的显著性检测结果。

1.技术路线

本发明提出的稠密注意力流网络是一种编码器-解码器结构。与传统的特征编码器不同，本发明设计了注意力流机制来指导特征的传播和学习，即在主干网络(如VGG16)的每个卷积块上都配备了一个全局上下文感知注意力模块。对于注意力信息流，本发明设计了一种稠密注意力流的结构，每个全局上下文感知注意力模块都会借助每个卷积块的侧输出特征，生成一个注意力图，并通过稠密连接将不同块得到的注意力信息联系起来，实现注意力信息的跨级交互学习，最后将学习得到的全局注意力信息与原始的卷积特征进行残差连接，生成更具判别力的增强特征。在对特征进行解码的过程中，本发明逐步将不同层次的特征图融合起来，并且在显著性图和显著性边缘图的监督下，生成多个侧输出和最终输出。

2.注意力流引导的特征编码模块

注意力流引导的特征编码模块用于学习光学遥感图像中更具判别力的显著性特征，主要包括全局上下文感知注意力模块和稠密注意力流结构。全局上下文感知注意力模块以一种注意力的方式显式地捕获所有空间位置之间的远程语义依赖性，主要包括全局特征聚合和级联金字塔注意力两个功能组件。全局特征聚合模块使用从主干卷积块生成的原始特征，并生成对全局上下文信息进行编码的聚合特征。级联金字塔注意力模块用于解决光学遥感图像中目标尺寸变化问题，它以全局特征聚合模块得到的聚合特征为输入，并在级联金字塔框架下生成逐步完善的注意力图。此外，为了自适应地学习和整合来自不同特征尺度、不同语义抽象级别的自注意力线索，在卷积网络内部构建了稠密连接的注意力传播流，底层特征生成的注意力信息流入并指导高层注意力的生成，并将特征流与注意力流纳入一个可学习的端到端框架内。

(1)全局上下文感知注意力模块

a)全局特征聚合模块

在理想情况下，对于属于同一个显著性目标的每个像素，不管它们之间的空间距离如何，学习得到的特征应该是一致的。但是当显著性目标占据了较大的图像比例时，这种特征的一致性就很容易被破坏，进而导致不完整的检测结果。因此，本发明设计了一种全局特征聚合模块，旨在通过集成像素对之间的全局语义关系来实现显著性模式之间的特征对齐和相互增强，这有利于约束生成完整且统一的显著性检测结果。

对于主干网络的侧输出特征图s＝{1,2,3,4,5}表示主干网络的卷积层级，计算任意两个空间位置的特征图之间的关系，得到对应的空间关系图表达式如下所示：

其中，代表归一化的侧输出特征，/>表示将一个矩阵由/>转化为的操作，D₂₃＝D₂×D₃，/>代表矩阵乘法，P_s＝H_s×W_s表示像素数量。

其中，是空间关系图C^s在(i,j)位置上的值，/>代表空间关系图C^s的第j列所有元素的高斯加权求和。/>衡量了第i个像素和第j个像素之间的相互作用，因此全局上下文关系图/>编码了全局的每个像素之间的相互关系。

进而，可以得到融合全局上下文依赖关系的特征图G^s，表达式如下所示：

其中，是/>的逆操作，就是将一个矩阵由/>转化为/>的操作。

F^s＝f^s+δ·(f^s⊙G^s) (4)

其中，⊙表示元素级乘积运算，δ是一个可学习的权重参数，它控制全局上下文信息的贡献度。聚合特征图F^s嵌入了全局上下文依赖关系，可以约束整个显著区域的特征一致性。

为了生成更加紧致的特征表示，本发明对卷积特征通道响应之间的相互依赖关系进行建模。首先，对得到的聚合特征图F^s进行平均池化和最大池化操作，分别生成两个一维的通道重要性描述符，记为和/>然后，将它们送入一个三层全连接块，并进一步组合以产生一个新的融合通道加权向量Γ^s，其表述为：

其中，σ表示Sigmoid激活函数，表示三层感知机，/>和/>表示三层感知机要学习的参数。输出Γ^s编码了跨通道的相关性，并突出了重要的特征通道，然后将其与F^s进行带空间维广播机制相乘操作后，生成一个包含更多紧致通道信息的新的特征图/>

b)级联金字塔注意力模块

在光学遥感图像中，目标尺度变化很大，这对显著性目标检测模型的鲁棒性和泛化性都提出了很大的挑战。在现有方法中，多尺度金字塔注意力机制可以增强特征的判别力，也在一定程度上缓解了目标大小变化的影响。然而，将独立生成的不同特征分辨率的注意力图通过上采样或者求和简单整合起来并不是最好的解决方案，因为这样的设计削弱了不同尺度之间的信息交互，限制了多尺度特征的表达能力。因此，本发明设计了一种级联金字塔注意力机制，从粗到细地逐步细化特征和注意力信息。首先，沿着通道对进行平均池化和最大池化操作，并将输出连接起来后利用Sigmoid函数进行激活，得到2维空间注意力图/>表达式如下所示：

其中，Att表示空间注意力操作，conv表示具有参数的自定义的卷积层，avepool和maxpool分别是平均池化操作和最大池化操作，concat表示通道维的特征连接。

为了获得多尺度金字塔特征，首先采用2×最大池化操作将特征图下采样成不同的分辨率，并用1×1卷积层对特征降维。然后，构造了一个特征金字塔其中k∈{0,1,2}表示金字塔尺度。然后，在最低分辨率的图上用公式(6)得到一个注意图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正，而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上。位于中间尺度(即2倍下采样)的特征的注意力图/>由如下的公式得到：

其中，表示具有通道维广播机制的元素乘积操作，↑表示2倍上采样操作。以此类推，级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图可以表示为：

通过这样的级联结构，在低分辨率特征中可以挖掘出粗糙的注意力线索，然后与高分辨率特征融合，就能生成包含更精确细节的注意力结果。

(2)稠密注意力流结构

卷积网络中的层次化特征对应着不同层次的信息，其中浅层的特征主要关注的是边缘和独特的纹理，而深层特征捕获的则是高级的语义特征。因此，从不同卷积阶段得到的注意力信息也包含着不同的特征选择策略。受卷积特征的侧路连接启发，本发明设计了一种稠密注意力流结构，浅层注意力信息可以传入深层的注意力单元。这样，低层的注意力信息可以作为有价值的指导信息，来更好的生成高层的注意力信息。

根据前面描述可知，每个全局上下文感知注意力模块输入的是主干网络的侧输出特征f^s，输出一个注意力图为了得到新的注意力图，首先将浅层中经过下采样的注意力图/>与/>连接起来。之后，在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图。上述过程用公式表示为：

其中，是级联金字塔注意力模块尺度为1的注意力加权后输出的特征，/>是所有元素等于1的矩阵。/>为通过公式(9)得到的最终的注意力图，这样的话，就可以依次得到相应的五个卷积块的侧输出特征

3.渐进式特征解码模块

在特征解码阶段，将深层特征与浅层特征逐步融合，并在不同的特征分辨率下产生多个显著性侧输出。每个解码阶段包括三个过程：第一，自顶向下特征融合模块，通过上采样和1×1卷积，将相邻的侧输出特征之间的分辨率和通道数进行对齐，然后进行逐像素求和。第二，利用瓶颈卷积块进一步集成融合特征的语义信息，每个瓶颈卷积块包含两个卷积层。第三，在解码模块中设置了显著性预测层和显著性边缘预测层，并使用Sigmoid函数将显著性分数映射到[0,1]区间内。最终将解码模块最顶层的输出作为最终的显著性预测图。

4.损失函数

对于显著性监督，本发明同时考虑了显著性监督和显著性边缘监督，以此约束网络获得更加准确的显著性区域定位和更加锐利的显著性目标边界。为了充分利用多尺度信息，本发明最终的损失函数包含三个层次的侧监督。除了第一级的全分辨率结果外，还在第2、3级也进行了显著性图和显著性边缘图的预测和监督得。最终的损失函数可以表示为：

附图1给出了本发明技术的可视化实例。第一列为光学遥感图像，第二列为显著性检测结果的真图，第三列为本发明生成的显著性结果。从结果可以看出，本发明方法能够完整、准确的提取光学遥感图像中的显著性目标，而且能够完整的检测出不同尺度的显著性目标(如第一幅图中的汽车小目标以及第二幅图中的建筑物大目标)，同时也能够很好的抑制非显著性区域(如第二幅图中的阴影噪声等)。附图2给出了本发明的整体技术流程图，主要包括注意力流引导的特征编码模块和渐进式特征解码模块。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于稠密注意力流网络的光学遥感图像显著性目标检测方法，其特征在于，具体实现步骤如下：

步骤S1、导入光学遥感图像；

步骤S3、采用注意力流引导的特征编码模块对光学遥感图像进行处理，生成更具判别力的增强特征；注意力流引导的特征编码模块包括全局上下文感知注意力模块和稠密注意力流结构；所述全局上下文感知注意力模块的具体处理过程为：

a)全局特征聚合模块

其中，表示大小为C_s×H_s×W_s的线性空间，/>表示大小为P_s×P_s的线性空间，s＝{1,2,3,4,5}表示主干网络的卷积层级，H_s、W_s和C_s分别表示特征图的高、宽和通道数，P_s＝H_s×W_s表示像素数量，/>代表归一化的侧输出特征图，/>表示将一个矩阵由/>转化为/>的操作，D₂₃＝D₂×D₃，/>代表矩阵乘法，

其中，是空间关系图C^s在(i,j)位置上的值，/>代表空间关系图C^s的第j列所有元素的高斯加权求和，/>衡量了第i个像素和第j个像素之间的相互作用，因此全局上下文关系图/>编码了全局的每个像素之间的相互关系，

其中，是/>的逆操作，表示将一个矩阵由/>转化为/>的操作，

为了生成更加紧致的特征表示，需要对卷积特征通道响应之间的相互依赖关系进行建模，首先，对得到的聚合特征图F^s进行平均池化和最大池化操作，分别生成两个一维的通道重要性描述符，记为和/>然后，将它们送入一个三层全连接块，并进一步组合以产生一个新的融合通道加权向量Γ^s，表达式如下所示：

b)级联金字塔注意力模块

其中，表示大小为H_s×W_s的线性空间，Att表示空间注意力操作，conv表示具有参数/>的自定义的卷积层，avepool和maxpool分别是平均池化操作和最大池化操作，concat表示通道维的特征连接；

为了获得多尺度金字塔特征，首先采用2×最大池化操作将特征图下采样成不同的分辨率，并用1×1卷积层对特征降维，然后，构造了一个特征金字塔其中k∈{0,1,2}表示金字塔尺度，/>表示大小为的线性空间，然后，在最低分辨率的图上采用公式(6)得到一个注意力图/>得到的注意力信息不仅对当前金字塔层级的特征进行加权修正，而且加权后的特征还将作为辅助信息进一步传播到下一个金字塔尺度上，位于中间尺度的特征的注意力图/>由如下的公式得到：

其中，表示具有通道维广播机制的元素乘积操作，↑表示2倍上采样操作，分别表示金字塔尺度为0、1、2的特征金字塔，以此类推，级联金字塔注意力模块在原始特征尺度上产生的全分辨率的注意力图/>表示为：

步骤S4、采用渐进式特征解码模块对步骤S3的增强特征进行解码，在特征解码阶段，将深层特征与浅层特征逐步融合，并在显著性图和显著性边缘图的监督下，生成多个侧输出和最终输出。

2.如权利要求1所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法，其特征在于，所述稠密注意力流结构的具体处理过程为：

每个全局上下文感知注意力模块的输入为主干网络的侧输出特征图f^s，输出为一个注意力图为了更新优化注意力图，首先将浅层中经过下采样的注意力图与/>连接起来，之后，在后面接上一个卷积层和一个Sigmoid函数用于生成最终的注意力图，上述过程用公式表示为：

3.如权利要求2所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法，其特征在于，步骤S4中，每个解码阶段包括三个过程：第一，自顶向下特征融合模块，通过上采样和1×1卷积，将相邻的侧输出特征之间的分辨率和通道数进行对齐，然后进行逐像素求和，第二，利用瓶颈卷积块进一步集成融合特征的语义信息，每个瓶颈卷积块包含两个卷积层，第三，在解码模块中设置了显著性预测层和显著性边缘预测层，并使用Sigmoid函数将显著性分数映射到[0,1]区间内，最终将解码模块最顶层的输出作为最终的显著性预测图。

4.如权利要求1所述的基于稠密注意力流网络的光学遥感图像显著性目标检测方法，其特征在于，所述稠密注意力流网络在损失函数的约束下进行训练，损失函数l表示为：