CN117593517B

CN117593517B - 基于互补感知跨视图融合网络的伪装目标检测方法

Info

Publication number: CN117593517B
Application number: CN202410077773.3A
Authority: CN
Inventors: 李军侠; 宋秋阳
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-16
Anticipated expiration: 2044-01-19
Also published as: CN117593517A

Abstract

本发明公开了基于互补感知跨视图融合网络的伪装目标检测方法，包括：获取图像数据；构建跨视图融合网络；利用图像数据训练集对跨视图融合网络进行训练，生成训练完成后的伪装目标检测模型；采集待检测图像，对待检测图像进行预处理，将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中，生成当前伪装目标的检测结果。本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息，通过使用Transformer作为主干，配合之后的融合模块，解决了获取的语义的局部性问题；通过利用跨模态跨视角的互补信息，有效地发现在单个视角中难以识别的伪装线索，获取得到更完整的伪装对象区域。

Description

基于互补感知跨视图融合网络的伪装目标检测方法

技术领域

本发明涉及图像伪装目标检测技术，特别涉及基于互补感知跨视图融合网络的伪装目标检测方法。

背景技术

伪装目标检测任务是给定图片或者视频，从而找到其中的伪装物体，其致力于寻找完美融入周围环境的伪装物体。与一般的目标检测不同，伪装目标检测是一项更具挑战性的任务，因为伪装的目标通常与其周围环境具有高度的内在相似性。近年来，伪装目标检测引起了计算机视觉研究者越来越多的关注和研究，并促进了许多下游任务的应用。伪装的物体可以大致分为两类：一类是自然界中为躲避天敌而自然伪装的物种，另一类是通过人工干预而被伪装的物体，由于伪装的物体通常具有不同的尺寸和不规则的形状，并且经常伴随着诸如遮挡之类的干扰，对精确分割提出了很大的挑战。

现有的方法大多是基于卷积神经网络（CNN）或Transformer，CNN模型通常在局部位置表现良好，并且能够获得更细粒度的特征。然而，由于卷积和权值共享的局部性质，CNN模型通常很难学习与空间相关的信息或更完整的全局语义。因此，开始用Transformer进行实验以建立模型，基于Transformer的模型具有强大的全局建模能力，进一步提高了伪装目标检测的性能。但这些基于CNN和Transformer的模型仍然存在一些缺陷：它们主要关注前景区域，往往导致前景-背景语义线索的同质性，进一步导致无法准确定位到伪装目标或定位伪装目标，无法获得完整的目标区域，并且分割出的边界不够准确。现有的伪装目标检测方法中还存在以下缺陷：

1）定位错误：现有的方法由于获取的语义不具有全局性，因此往往不能根据上下文信息定位到正确的伪装目标；

2）目标不完整：目前大多数的方法仅仅能定位到伪装目标，但是不能获得完整的目标区域和边界；

3）准确率不高：目前大多数利用模型进行预测所得到的准确率都不够高。

发明内容

发明目的：针对以上问题，本发明目的是提供一种基于互补感知跨视图融合网络的伪装目标检测方法。

技术方案：本发明的一种基于互补感知跨视图融合网络的伪装目标检测方法，包括以下步骤：

步骤1，获取图像数据，将图像数据进行预处理，将预处理之后的图像数据划分为训练集和测试集；

步骤2，构建跨视图融合网络，包括：

首先，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩；然后，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习，生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>；随后，利用跨视图融合模块对不同语义图之间进行交互融合，生成跨视图特征融合图/>；最后，使用渐进解码器将/>逐渐融合，生成最终预测图；

步骤3，利用图像数据训练集对跨视图融合网络进行训练，生成训练完成后的伪装目标检测模型；

步骤4，采集待检测图像，对待检测图像进行预处理，将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中，生成当前伪装目标的检测结果。

进一步，跨视图融合模块包括4个子模块，每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM。

进一步，原始语义引导模块O-GM，用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合，生成特征图，数学模型表达式为：

，

背景语义引导模块B-GM，用于将初始背景预测图和初始前景语义图相乘，生成特征图，并将/>和/>送入LCI融合模块进行融合，生成特征图/>，数学模型表达式为：

，

其中，⊙表示为逐元素相乘；

前景语义引导模块F-GM，用于将初始前景预测图与初始背景语义图/>相乘，生成特征图/>，并将/>和/>送入LCI融合模块进行融合，从而增强背景特征图中前景语义的权重，生成特征图/>，数学模型表达式为：

，

总语义引导模块T-GM，用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象，将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层，随后将生成的特征图和/>相乘，并继续送入卷积-归一化-激活函数relu层，生成/>分支新的特征图；将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层，随后将生成的特征图和/>相乘，生成/>分支新的特征图，然后将/>和/>两个分支新生成的特征图逐元素相乘，和/>连接/>生成的特征图一起送到LCI融合模块，生成特征图/>，数学模型表达式为：

，

其中，CBR表示堆叠的Conv-BN-ReLU层，Sigmoid表示激活函数sigmoid层，Ф表示通道连接操作，；

将特征图、/>、/>和/>沿通道连接在一起，生成特征图/>，作为每一个/>模块的输出项。

进一步，在利用LCI融合模块进行特征融合时，首先沿着channel维度将两个输入特征各分成4组，两个输入分组的通道块彼此连接；然后，将连接的通道块送入卷积-归一化-激活函数层，并与下一层的通道块相连接；最后，四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接，并送入卷积-归一化-激活函数relu层得到。

进一步，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括：

每个特征编码器均包括四层的Block块，在前景分支中利用特征编码器提取输入彩色图片的前景语义特征，再将前景语义特征输入至卷积层，生成特征图；

在背景分支中利用特征编码器提取输入彩色图片的背景语义特征，再将背景语义特征输入至卷积层，生成特征图。

进一步，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括：

在前景分支中，特征图通过卷积-归一化-激活函数relu层生成特征图/>，随后将/>分别输入至卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至与/>逐元素相加，生成/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层并与/>相加，生成/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层并与/>相加，生成得到/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层，生成初始前景预测图/>；

在背景分支中，特征图通过卷积-归一化-激活函数relu层生成特征图/>，随后将/>分别输入至卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至与/>逐元素相加，生成/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层并与/>相加，生成/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层并与/>相加，生成得到/>；/>分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图/>，以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层，生成初始前景预测图/>。

进一步，使用渐进解码器将逐渐融合，生成最终预测图包括：

将特征图输入至一个卷积-归一化-激活函数relu层后，与特征图/>相加后，再输入至一个卷积-归一化-激活函数relu层，与特征图/>相加，再输入至一个卷积-归一化-激活函数relu层，与特征图/>相加，最后输入至一个卷积-归一化-激活函数relu层和卷积层后，生成通道数为1的黑白预测图。

进一步，在步骤3训练过程中，初始前景预测图由GT监督，初始背景预测图/>由1-GT监督，生成最终预测图由GT监督；监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加；其中GT表示真实结果图片，1-GT表示真实背景图片。

进一步，步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据，图像数据来源COD数据集。

有益效果：本发明与现有技术相比，其显著优点是：

本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息，解决了语义的单一性问题；通过使用Transformer作为主干，配合之后的融合策略，解决了获取的语义的局部性问题；通过利用跨模态跨视角的互补信息，所提出的CCFNet可以有效地发现在单个视角中难以识别的伪装线索，获取到更完整的伪装对象区域。

附图说明

图1为实施例中跨视图融合网络的结构示意图；

图2为实施例中跨视图融合模块的结构示意图；

图3为实施例中LCI融合模块的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。

本实施例所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，包括以下步骤：

步骤1，获取图像数据，将图像数据进行预处理，将预处理之后的图像数据划分为训练集和测试集。

在一个示例中，使用COD数据集作为图像数据，包括CHAMELEON、CAMO、COD10K和NC4K数据集，其中CAMO数据集包括1250个伪装图像和1250个非伪装图像。CHAMELEON数据集包含76张伪装图像，全部作为本示例中的测试集。NC4K数据集包括4121幅图像，是可用的最大测试数据集。而COD10K数据集是目前为止最大的基准，包含5066张伪装图像，3000张背景和1934张非伪装图像。选取COD10K的3040幅图像和CAMO的1000幅图像作为本示例中的训练集。将所有测试集和训练集的图像大小调整至，并使用随机翻转、裁剪和旋转来增强数据，最后测试的时候恢复到原尺寸大小。

步骤2，构建跨视图融合网络，包括：

首先，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩；然后，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习，生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>；随后，利用跨视图融合模块对不同语义图之间进行交互融合，生成跨视图特征融合图/>；最后，使用渐进解码器将/>逐渐融合，生成最终预测图。

如图1所示，跨视图融合网络包括2个并行的特征编码器、2个并行的金字塔式解码器、跨视图融合模块和渐进解码器。

具体地，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括：

每个特征编码器均包括四层的Block块，即前景分支的特征编码器包括4个前景模块（图1中为Block-F块），背景分支的特征编码器包括4个背景模块（图1中为Block-B块），在前景分支中利用特征编码器中的4个前景模块提取彩色图片的前景语义特征，再将前景语义特征输入至卷积层，生成特征图，/>，/>和/>；在背景分支中利用特征编码器中的4个背景模块提取彩色图片的背景语义特征，再将背景语义特征输入至卷积层，生成特征图/>，，/>和/>。

具体地，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括：

在最初的编码-解码过程之后，本示例获得聚焦于不同场景的语义信息的特征图。为了充分探索两种语义之间的互补性，并将伪装的对象与背景区分开来，又设计了SCF模块，两个分支相对应的每一层特征图都对应着一个SCF模块，即4层对应着4个SCF(例如和都送入对应的/>)，每层的SCF模块相同，只是处理的尺寸大小不同。SCF通过四个子模块运行，每个子模块对应一个不同的视图。如图1所示，跨视图融合模块包括4个子模块，分别是/>，/>，/>和/>，如图2所示，每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM，每个子模块/>的输入为/>、/>、/>和/>，/>的输入项为/>和/>，/>的输出项为/>。

如图2所示，原始语义引导模块O-GM，用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合，生成特征图，数学模型表达式为：

，

其中，⊙表示为逐元素相乘；

，

将特征图、/>、/>和/>沿通道连接在一起，生成特征图/>。

如图3所示，以原始语义引导模块O-GM为例进行说明，在利用LCI融合模块进行特征融合时，首先沿着channel维度将两个输入特征各分成4组，两个输入分组的通道块彼此连接；然后，将连接的通道块送入卷积-归一化-激活函数层，并与下一层的通道块相连接；最后，四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接，并送入卷积-归一化-激活函数relu层得到。

具体地，使用渐进解码器将逐渐融合，生成最终预测图包括：

在一个示例中，在步骤3训练过程中，初始前景预测图由GT监督，初始背景预测图/>由1-GT监督，生成最终预测图由GT监督；监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加；其中GT表示真实结果图片，1-GT表示真实背景图片。

为进一步验证本发明构建的伪目标检测模型的有效性和优异的检测性能，利用以下示例进行说明。设置模型相关超参数，将伪目标检测模型训练次数Epoch设置为60，将模型训练批次batch_size设置为8，学习率被初始化为3e-5，并使用乘数为0.9的poly策略进行调整。训练时使用的优化器为Adam优化器，损失函数是加权二元交叉熵损失和二元交叉熵。

对伪目标检测模型CCFNet进行多轮训练，模型训练完成之后将损失函数值最小的一轮模型参数保存。随后将保存的最好参数加载到伪目标检测模型中，然后将测试集数据输入到伪目标检测模型中，训练好的伪目标检测模型能够生成较为完整的伪装目标预测图。表1展示了在COD测试数据集上的定量结果，表明本发明中的伪目标检测模型性能优于目前最先进的方法。其中，表示预测图的空间结构相似性，/>表明精确率和召回率的测量，M表示预测图和GT之间的绝对差值，/>表示像素级的相似性和图像级的统计；随后，将该伪目标检测模型扩展到下游任务-息肉分割上，模型依然取得了较高的性能，能够很好的帮助医生对初始的息肉位置、大小进行判断，在几个息肉分割数据集上的具体的定量结果如表2所示，评判数值的高低表明本伪目标检测模型在分割息肉时的优越性能。其中mIoU和mDice表示真实值和预测值两个集合的交集和并集之比。

表1 COD的测试数据集上定量结果对比

注：- 表示数据不可得；↑表示数值越高性能越好；↓表示数值越低性能越好。

表2 测试数据集上定量结果对比

注：↑表示数值越高性能越好，↓表示数值越低性能越好。

Claims

1.基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，包括以下步骤：

步骤2，构建跨视图融合网络，包括：

首先，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩；然后，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习，生成初始前景语义图F_i、初始背景语义图B_i、初始前景预测图P^f和初始背景预测图P^b；随后，利用跨视图融合模块对不同语义图之间进行交互融合，生成跨视图特征融合图最后，使用渐进解码器将逐渐融合，生成最终预测图；

步骤4，采集待检测图像，对待检测图像进行预处理，将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中，生成当前伪装目标的检测结果；

跨视图融合模块包括4个子模块SCF_i，每个子模块SCF_i包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM；

原始语义引导模块O-GM，用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合，生成特征图数学模型表达式为：

背景语义引导模块B-GM，用于将初始背景预测图和初始前景语义图相乘，生成特征图F_i ^′，并将F_i ^′和B_i送入LCI融合模块进行融合，生成特征图数学模型表达式为：

F_i ^′＝F_i⊙P^b

其中，⊙表示为逐元素相乘；

前景语义引导模块F-GM，用于将初始前景预测图p^f与初始背景语义图B_i相乘，生成特征图B_i ^′，并将B_i ^′和F_i送入LCI融合模块进行融合，从而增强背景特征图中前景语义的权重，生成特征图数学模型表达式为：

B_i ^′＝B_i⊙P^f

总语义引导模块T-GM，用于探索当Fⁱ和Bⁱ包含丰富的前景和背景语义时被分割的伪装对象，将F_i送入卷积-归一化-激活函数relu层和激活函数sigmoid层，随后将生成的特征图和B_i相乘，并继续送入卷积-归一化-激活函数relu层，生成F_i分支新的特征图；将B_i送入卷积-归一化-激活函数relu层和激活函数sigmoid层，随后将生成的特征图和F_i相乘，生成B_i分支新的特征图，然后将F_i和B_i两个分支新生成的特征图逐元素相乘，和F_i连接B_i生成的特征图一起送到LCI融合模块，生成特征图数学模型表达式为：

F_i ^′＝CBR(Sigmoid(CBR(F_i))⊙B_i)

B_i ^′＝CBR(Sigmoid(CBR(B_i))⊙F_i)

其中，CBR表示堆叠的Conv-BN-ReLU层，Sigmoid表示激活函数sigmoid层，Ф表示通道连接操作，i＝1,2,3,4；

将特征图和/>沿通道连接在一起，生成特征图/>作为每一个SCF_i模块的输出项；

在利用LCI融合模块进行特征融合时，首先沿着channel维度将两个输入特征各分成4组，两个输入分组的通道块彼此连接；然后，将连接的通道块送入卷积-归一化-激活函数层，并与下一层的通道块相连接；最后，四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接，并送入卷积-归一化-激活函数relu层得到A_i。

2.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征，再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括：

每个特征编码器均包括四层的Block块，在前景分支中利用特征编码器提取输入彩色图片的前景语义特征，再将前景语义特征输入至卷积层，生成特征图D_i ^′；

在背景分支中利用特征编码器提取输入彩色图片的背景语义特征，再将背景语义特征输入至卷积层，生成特征图E_i ^′。

3.根据权利要求2所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括：

在前景分支中，特征图D₄ ^′通过卷积-归一化-激活函数relu层生成特征图D₄″，随后将D₄″分别输入至卷积-归一化-激活函数relu层，生成前景语义特征图F₄，以及输入至与D₃ ^′逐元素相加，生成D₃″；D₃″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图F₃，以及输入至另一个卷积-归一化-激活函数relu层并与D₂ ^′相加，生成D₂″；D₂″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图F₂，以及输入至另一个卷积-归一化-激活函数relu层并与D₁ ^′相加，生成得到D₁″；D₁″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图F₁，以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层，生成初始前景预测图P^f；

在背景分支中，特征图E₄ ^′通过卷积-归一化-激活函数relu层生成特征图E₄″，随后将E₄″分别输入至卷积-归一化-激活函数relu层，生成前景语义特征图B₄，以及输入至与E₃ ^′逐元素相加，生成E₃″；E₃″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图B₃，以及输入至另一个卷积-归一化-激活函数relu层并与E₂ ^′相加，生成E₂″；E₂″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图B₂，以及输入至另一个卷积-归一化-激活函数relu层并与E₁ ^′相加，生成得到E₁″；E₁″分别输入至一个卷积-归一化-激活函数relu层，生成前景语义特征图B₁，以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层，生成初始前景预测图P^b。

4.根据权利要求3所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，使用渐进解码器将逐渐融合，生成最终预测图包括：

5.根据权利要求1-4中任一项所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，在步骤3训练过程中，初始前景预测图P^f由GT监督，初始背景预测图P^b由1-GT监督，生成最终预测图由GT监督；监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加；其中GT表示真实结果图片，1-GT表示真实背景图片。

6.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法，其特征在于，步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据，图像数据来源COD数据集。