CN117036736A

CN117036736A - 基于pvt交互网络的显著性目标检测方法

Info

Publication number: CN117036736A
Application number: CN202310808706.XA
Authority: CN
Inventors: 王威; 郭凯迪; 霍丽娜; 侯佳岳; 李欢; 魏一帆
Original assignee: Hebei Normal University
Current assignee: Hebei Normal University
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-10

Abstract

本发明公开了一种基于PVT交互网络的显著性目标检测方法，通过PVT网络的逐层融合提取全局特征；为编码器块顶层设计高级语义信息融合模块充分挖掘高级特征的语义信息；为除顶层外的其他编码器块设计自我细化模块提取丰富的细节信息；高级语义信息以自顶向下传播以特征调和的方式与各级特征融合；密集轻量细化解码器不断融合高级语义信息和编码器有效信息感知多尺度信息，进一步扩大整个网络的感受野，不断细化显著物体。本发明能够提取任意给定图像中人眼最感兴趣目标内容，抑制背景干扰，更关注显著区域。

Description

基于PVT交互网络的显著性目标检测方法

技术领域

本发明涉及一种显著性目标检测方法，尤其涉及一种基于PVT交互网络的显著性目标检测方法，属于计算机视觉领域。

背景技术

近些年，新媒体行业的发展越来越迅速，短视频、图像推文等数字信息与人类生活的联系也越来越紧密，互联网中出现的图像视频信息，极大地丰富了人们原本的生活和娱乐方式。Facebook公司发布报告称该公司服务器平均每天收到用户上传的图片超过4.5亿张，这些图片数据还在不断的爆发式增长，由此可见，在如此海量的数字图像中提取有价值的信息，仅靠人类自身感官是难以完成的，这需要通过计算机来实现，也因此提出了对计算机视觉研究的更大挑战。

数字图像信息在网络资源传送中被广泛使用，因为其能够非常直观的反映出人类想要表达的内容，但是这些数字图像信息的有效识别是一个难题，哪怕通过计算机资源也会产生较大负担。因此就需要充分利用有限的计算机资源，更加关注数字图像信息中的重要内容，从而减轻搜集信息的负担。另外，基于人类视觉系统的特殊性，人们通常会特别注意图像中的关键区域，比如微信朋友圈中人物照片、美食照片和风景照片等，忽略背景区域中的无用信息，对快速处理图像有着重要作用。因此，如何将这种关注图像关键区域的能力应用到计算机中，从而完成复杂图像的处理任务，成为了当下计算机视觉研究者研究的重点内容。

近年来，由于Ronneberger等人提出的U型结构能够通过构建多层次自上而下的路径来提取丰富的特征信息，并取得良好的性能，因此受到极大的关注。例如，Cheng等人所提出的许多网络均采用U型多尺度分层编码器-解码器结构作为网络基本结构。然而，上述方法是通过具有局部感受野的卷积操作进行特征提取，对于一些场景中依赖全局语义信息进行显著性目标检测的情况，无法很好地捕捉到全局上下文的相关性。并且上述方法使用跨层连接结构，将编码器的特征直接连接到解码器，缺乏干扰控制，会将误导性的上下文信息引入解码器，导致各层真正有用的特征不能被充分利用。此外，这些方法并未充分考虑各层特征之间的关系以及提供的信息，对信息的挖掘不充分，不能得到丰富的上下文信息。如今基于卷积神经网络(CNN)的工作大多数使用预先训练好的图像分类模型进行显著性检测，如VGG和ResNet作为编码器，重点通过聚合多级特征来设计有效的解码器。然而，由于卷积神经网络(CNN)的模型结构特点是针对局部信息汇聚建模，难以对长周期进行建模，对于一些场景中依赖全局语义信息进行显著性目标检测的情况，无法很好地捕捉到全局上下文信息。因此从复杂场景中准确完整提取出显著性目标仍然具有很大的挑战性。近期我们发现金字塔视觉变压器(Pyramid Vision Transformer，PVT)在图像处理中具有完整序列的远程依赖关系擅长全局依赖关系建模，为完整提取出显著性目标开辟了新的道路。

发明内容

本发明的目的在于提出了一种基于PVT交互网络的显著性目标检测方法。

为解决上述技术问题，本发明要解决的技术方案是：一种基于PVT交互网络的显著性目标检测方法，包括以下步骤：

步骤1：图像预处理：将输入图像大小调整为预设大小的张量X；

步骤2：建立PVT交互网络：PVT交互网络包括第一至第四特征处理单元和高级语义融合模块ASFM；第一至第三特征处理单元结构相同；第一特征处理单元包括特征编码器PVTE₁、自我细化模块SRM₁、特征调和和密集轻量细化解码器DLRB₁；第四特征处理单元包括特征编码器PVTE₄和高级语义融合模块ASFM；张量X依次经特征编码器PVTE₁-PVTE₄处理后，得到第一至第四特征张量；

第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息；第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息；第三编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB₃；输出第一解码特征向量作为显著性图；

步骤3：检测显著性图：输入张量，经PVT交互网络处理后得到显著性图。

进一步，张量尺寸为256×256×3，第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512。

进一步，特征编码器PVTE₃和PVTE₄输入高级语义融合模块，通过通道/空间注意力、卷积、激活和反向注意力操作，生成粗略显著图用于位置指导Pred；ASFM中的当前分支PVTE₄经过三个扩张卷积扩大感受野，使用拼接-卷积运算对输出特征进行汇总融合，汇总融合后的特征通过通道注意机制来减少冗余信息，再经过空间注意力得到前景图通过反向注意操作得到背景图,并采用背景图在特征层面突出非显著区域，将得到的前景图和背景图拼接并融合记为/>相邻分支为当前分支提供全局辅助信息，之前到当前的分支记为/>经过有效协调后，两个分支的输出特征与原始分支特征集成记为/>集成后的特征通过特征选择激活，生成粗略显著图Pred用于位置指导。可表述为；

式中为元素相加，sigmod(·)为激活函数，conv_1×1(·)为1x1的卷积层。

应用高级语义融合模块，可以综合协调准确地激活每个显著区域，有效融合多层次的高级语义信息，增强显著区域和非显著区域之间的对比度获得准确的位置指导图。

进一步，自我细化模块SRM_i以相邻特征作为输入，经过采样操作使得特征尺度相同，然后通过通道拼接和卷积操作有效融合相邻特征的细节信息。自我细化模块SRM_i对第一、第二和第三特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作，从不同维度获取显著性目标细节信息。将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息，获得空间通道注意图最后，通过卷积层将三个结果相加并融合，以获得SRM_i的输出/>可表述为：

式中conv_3×3(·)为3x3的卷积层，⊙为按通道相乘，为逐元素相乘，Down(·)为下采样操作，Up(·)为上采样操作。conv_1×1(·)为1x1的卷积层，SA(·)/CA(·)为空间/通道注意力，CBR为卷积、归一化、激活操作。

进一步，将包含高级语义信息的位置指导图与细节特征图通过特征调和生成最终的输出/>并将其输送到解码器中，生成解码器特征器的输出。可表述为：

其中密集轻量细化解码器DLRB₃为与输入图像大小相同的显著性图；

特征编码器PVTE₁-PVTE₃特征输入自我细化模块SRM_i中；自我细化模块SRM_i从不同维度挖掘细节信息；特征调和将高级语义融合模块ASFM的输出进行降维操作并采用双线性插值法进行上采样，使其与SRM_i的输出维度和尺度相同；编码器有效信息、高级语义融合模块ASFM输出与自我细化模块SRM_i的输出融合后传入密集轻量细化解码器DLRB中。

更进一步，密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次卷积操作后采用1x1卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

采用上述技术方案，本发明取得如下技术效果：

本发明通过引入金字塔视觉变压器，能够对全局依赖关系进行强大建模，并获得更强大和稳健的特征；为编码器顶层设计高级语义融合模块ASFM来收集高级语义信息生成粗略显著图用于位置引导，并以自顶向下的渐进路径传播到各级特征；为了得到更多的显著图细节，我们为除顶层外的其他解码器块设计自我细化模块SRM_i，挖掘低层特征中的细节信息，并与ASFM所提供的高级语义信息通过特征调和的方式进行融合，将编码器中更有效的上下文信息传入解码器中，提高全网的可辨别性；此外，我们采用特征交互策略通过协调相邻特征，全面挖掘相邻特征中包含的上下文信息，扩大特征交互的覆盖范围；同时引入密集轻量细化解码器DLRB_i使高级语义信息和编码器细节信息更好地融合输出。

进一步，所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用2x2卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

进一步，所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用3x3卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

附图说明：

图1是本发明的框架图。

图2是本发明的高级语义融合模块ASFM的结构图。

图3是本发明实施例1的自我细化模块SRM的结构图。

图4是本发明实施例2的自我细化模块SRM的结构图。

图5是本发明实施例1的输入图像。

图6是本发明实施例1检测的显著性图。

具体实施方式：

实施例1：

参照图1，一种基于PVT交互网络的显著性目标检测方法，包括以下步骤：

步骤1：图像预处理：将输入图像大小调整为预设大小的张量X，本实施例中张量尺寸为256×256×3；

步骤2：建立PVT交互网络：PVT交互网络包括第一至第四特征处理单元和密集轻量细化解码器DLRB；第一至第三特征处理单元结构相同；第一特征处理单元包括特征编码器PVTE₁、自我细化模块SRM₁、特征调和和密集轻量细化解码器DLRB₁；第四特征处理单元包括特征编码器PVTE₄和高级语义融合模块ASFM；张量X依次经特征编码器PVTE₁-PVTE₄处理后，得到第一至第四特征张量；

第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息；第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息；第一编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB₃；输出第一解码特征向量作为显著性图；

本实施例中第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512；

在编码器顶层设计高级语义融合模块ASFM通过扩张卷积操作获得多尺度特征，进一步扩大感受野，收集全局上下文信息，更加准确地捕捉显著物体的确切位置；

特征编码器PVTE₃和PVTE₄输入高级语义融合模块，通过通道/空间注意力、卷积、激活和反向注意力操作，生成粗略显著图用于位置指导Pred。ASFM包括当前分支和之前分支两个分支，当前分支PVTE₄记为经过三个扩张率分别为1、3、5的扩张卷积得到不同扩张率的特征/>扩大感受野，使用拼接-卷积运算对这些输出特征进行汇总融合，得到具有丰富上下文线索的特征/>汇总融合后的特征通过通道注意机制得到特征/>来减少冗余信息，然后，通过空间注意力得到前景图记为/>可表述为:

式中DConv_σ(·)为扩张卷积，为具有3x3的卷积核，rⁱ为扩张率，Conv_σ(·)为卷积层，Concat为通道轴之间的拼接操作，CA(·)为通道注意力，⊙为按通道相乘。

通过反向注意操作得到背景图并采用背景图在特征层面突出非显著区域，将得到的前景图和背景图拼接并融合记为/>可表述为:

式中为元素相减，SA(·)为空间注意力，/>为逐元素相乘，conv_3×3(·)为3x3的卷积层，Concat为通道轴之间的拼接操作，SA(·)为空间注意力，/>为逐元素相乘，Down(·)为下采样操作。

相邻分支为当前分支提供全局辅助信息记为之前到当前的分支记为/>经过有效协调后，我们将这两个分支的输出特征与原始分支特征集成，然后将集成后的特征通过特征选择激活，生成粗略显著图Pred用于位置指导。可表述如下：

式中SA(·)为空间注意力，为逐元素相乘，Down(·)为下采样操作，/>为元素相加，sigmod(·)为激活函数，conv_1×1(·)为1x1的卷积层。

将特征编码器PVTE_i与其相邻的编码特征输入自我细化模块SRM_i中；对特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作，从不同维度获取显著性目标细节信息。可表述如下：

式中conv_3×3(·)为3x3的卷积层，⊙为按通道相乘，Down(·)为下采样操作，Up(·)为上采样操作。

将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息，获得空间通道注意图/>最后，通过卷积层将三个结果相加并融合，以获得SRM_i的输出/>

式中conv_1×1(·)为1x1的卷积层，SA(·)/CA(·)为空间/通道注意力，⊙为按通道相乘，为逐元素相乘，CBR为卷积、归一化、激活操作。

为了防止高级语义信息在以自顶向下的路径中被稀释，我们采用特征调和聚合高级语义融合模块ASFM提供的高层特征到每个特征层的特征映射中，为各级解码器提供多尺度信息：

特征调和将高级语义融合模块ASFM的输出进行降维操作并采用双线性插值法进行上采样，使其与SRM_i的输出维度和尺度相同；逐元素相乘融合语义和细节信息并在元素级加法不断融合各类特征；通过特征调和获取不同尺度的局部上下文信息，然后将这些信息进行组合，以保证不同尺度的特征地图可以有效融合。可表述为；

式中Up(·)为上采样操作，为逐元素相乘，/>为元素相加。

自我细化模块(SRM_i)，融合相邻分支，从不同维度捕捉低层特征中的细节，与ASFM生成的位置引导信息通过特征调和相融合，生成更加丰富、更加多样的上下文信息。

密集轻量细化解码器DLRB的处理过程：

将特征调和后的特征图作为输入，依次使用三个扩张率分别为2、4、6的深度可分离卷积DSConvs，扩张的DSConvs扩大了感受野，全面捕捉多尺度特征；在每个DSConvs后使用1×1卷积层，1×1卷积层负责合并捕获的特征；最后使用一个3×3卷积层负责去除特征合并后的混叠效应。以DLRB₃为例可表述为：

式中为元素相加，conv_1×1(·)为1x1的卷积层,DSconv_r(·)为扩张可分离卷积，r为扩张率，conv_3×3(·)为3x3的卷积层。

这样，DLRB可以感知多尺度信息，进一步扩大整个网络的感受野，并在细化阶段带来强大的特征表示。减少模型上采样导致的混叠效应并捕获更多细节信息。

实施例2：

与实施例1的区别在于，所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用2x2卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

实施例3：

与实施例1和实施例2的区别在于，所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用3x3卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

特别说明，目前，本发明的技术方案已经进行了中试，在小范围内开展了用户使用调研，调研结果表明用户满意度较高，即将开始准备开展成果转化，同时还进行了知识产权风险预警调研等工作。

Claims

1.一种基于PVT交互网络的显著性目标检测方法，其特征在于，包括以下步骤：

第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息；第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息；第一编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB₁；输出第一解码特征向量作为显著性图；

2.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法，其特征在于，输入张量尺寸为256×256×3，第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512。

3.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法，其特征在于，特征编码器PVTE₃和PVTE₄输入高级语义融合模块，通过通道/空间注意力、卷积、激活和反向注意力操作，生成粗略显著图用于位置指导Pred；ASFM中的当前分支PVTE₄经过三个扩张卷积扩大感受野，使用拼接-卷积运算对输出特征进行汇总融合，汇总融合后的特征通过通道注意机制来减少冗余信息，再经过空间注意力得到前景图通过反向注意操作得到背景图,并采用背景图在特征层面突出非显著区域，将得到的前景图和背景图拼接并融合记为/>相邻分支为当前分支提供全局辅助信息，之前到当前的分支记为/>经过有效协调后，两个分支的输出特征与原始分支特征集成记为/>集成后的特征通过特征选择激活，生成粗略显著图Pred用于位置指导，可表述为；

式中为元素相加，sigmod(·)为激活函数，conv_1×1(·)为1x1的卷积层，

4.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法，其特征在于，自我细化模块SRM_i以相邻特征作为输入，经过采样操作使得特征尺度相同，然后通过通道拼接和卷积操作有效融合相邻特征的细节信息，自我细化模块SRM_i对第一、第二和第三特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作，从不同维度获取显著性目标细节信息，将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息，获得空间通道注意图/>最后，通过卷积层将三个结果相加并融合，以获得SRM_i的输出/>可表述为：

式中conv_3×3(·)为3x3的卷积层，⊙为按通道相乘，为逐元素相乘，Down(·)为下采样操作，Up(·)为上采样操作，conv_1×1(·)为1x1的卷积层，SA(·)/CA(·)为空间/通道注意力，CBR为卷积、归一化、激活操作。

5.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法，其特征在于，将包含高级语义信息的位置指导图与细节特征图通过特征调和生成最终的输出/>

并将其输送到解码器中，生成解码器特征器的输出，可表述为：

6.根据权利要求5所述的基于PVT交互网络的显著性目标检测方法，其特征在于，密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用1x1卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

7.根据权利要求5所述的基于PVT交互网络的显著性目标检测方法，其特征在于，密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用2x2卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。

8.根据权利要求书5所述的基于PVT交互网络的显著性目标检测方法，其特征在于，密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作；在每次扩张卷积操作后采用3x3卷积合并捕获的特征；再用双线性插值法上采样得到原来尺寸的输出特征图。