CN117876706A

CN117876706A - 基于CNN-Transformer交叉融合的伪装目标检测方法

Info

Publication number: CN117876706A
Application number: CN202410050474.0A
Authority: CN
Inventors: 牛玉贞; 杨立芬; 李富晟
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-12

Abstract

本发明提供一种基于CNN‑Transformer交叉融合的伪装目标检测方法，包括：进行数据预处理，包括数据配对、数据增强处理，得到训练数据集；设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN‑Transformer交叉融合的伪装目标检测网络；设计损失函数，指导步骤B所设计网络的参数优化；使用步骤A得到的训练数据集训练步骤B中的基于CNN‑Transformer交叉融合的伪装目标检测网络，得到训练好的基于CNN‑Transformer交叉融合的伪装目标检测模型；将待测图像输入训练好的基于CNN‑Transformer交叉融合的伪装目标检测模型，输出伪装目标的掩码图像。

Description

基于CNN-Transformer交叉融合的伪装目标检测方法

技术领域

本发明属于图像处理以及计算机视觉技术领域，具体涉及一种基于CNN-Transformer交叉融合的伪装目标检测方法。

背景技术

随着科技的迅猛发展，数字图像处理已成为人们日常生活中必不可少的一部分，其中，伪装目标检测便是一项备受瞩目的数字图像处理任务。自然界生物长期演化形成了一种防御机制，称为“伪装”，它指的是生物通过改变自身的外在特征使自身“融入”环境背景当中，从而减少被掠食者发现的机会，增加其生存和繁衍的成功率。伪装目标检测的目的是将图像中的伪装目标前景与背景分离开来。在生物学领域，伪装目标检测可以用于监测并保护野生动物，例如研究不同栖息环境中动物集群行为的影响。在医学领域，它可应用于医疗图像的分析。在工业制造领域中，伪装目标检测可用于产品质量控制，对产品的存在的缺陷进行检测。总之，伪装目标检测任务应用广泛，具有很高的应用与研究价值。

传统的伪装目标检测方法借助手工制作的特征来辅助分辨伪装目标前景和背景，例如：纹理、颜色、光流等，但由于伪装目标的外观与环境背景高度一致，但是这些特征对于伪装目标的分辨能力有限。例如，基于颜色的方法在伪装目标与环境背景颜色差别很小的情况下将会失效，基于光流的方法在光照条件较差的情况下将会失效。

随着深度学习的发展，基于深度学习的伪装目标检测方法因其出色的特征表示学习和强大的泛化能力而备受关注。基于深度学习的伪装目标检测方法利用ResNet-50、Pyramid Vision Transformer(PVTv2)等作为主干网络中提取图像原始特征，能够提高模型性能和泛化能力，从而提高图像处理任务的性能。当前伪装目标检测方法在小目标与多目标的挑战性场景下性能表现不佳。基于CNN的伪装目标检测方法对于小尺寸目标具有较好的检测效果，但是在包含多个目标的场景下检测效果不佳。基于Transformer的伪装目标检测方法能够处理具有不同数量目标的场景，但是其对小尺寸的目标检测效果较差。因此研究如何利用好CNN的对局部特征的挖掘能力与Transformer对全局上下文特征的挖掘能力，充分发挥局部特征与全局上下文特征之间的互补性，从而提升伪装目标检测模型的精度，是一个值得研究的问题。

发明内容

本发明的目的在于提供基于CNN-Transformer交叉融合的伪装目标检测方法，该方法通过交叉融合CNN主干特征与Transformer主干特征，有利于提高伪装目标检测方法的性能。

本发明设计了基于CNN-Transformer交叉融合的伪装目标检测方法，该方法首先通过ResNet-50主干网络与PVT主干网络作为并行特征提取网络提取图像特征；然后设计交叉融合模块，交叉融合模块中的协同融合子模块互补地融合CNN特征中的局部信息与Transformer特征中全局上下文信息，二次融合子模块对融合的特征进行自适应地深度融合；对于各个尺度的深度融合特征，设计金字塔式渐进聚合模块渐进地聚合相邻尺度的特征，最后使用所设计的网络生成较精细的伪装目标掩码。

本发明涉及一种基于CNN-Transformer交叉融合的伪装目标检测方法，包括：进行数据预处理，包括数据配对、数据增强处理，得到训练数据集；设计基于CNN-Transformer交叉融合的伪装目标检测网络，该网络由并行特征提取网络、多个交叉融合模块、特征渐进聚合模块组成；设计损失函数，指导步骤B所设计网络的参数优化；使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络，得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型；将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型，输出伪装目标的掩码图像。

本发明解决其技术问题具体采用的技术方案是：

一种基于CNN-Transformer交叉融合的伪装目标检测方法，包括以下步骤：

步骤A、进行数据预处理，包括数据配对、数据增强处理，得到训练数据集；

步骤B、设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN-Transformer交叉融合的伪装目标检测网络；

步骤C、设计损失函数，以指导步骤B所设计网络的参数优化；

步骤D、使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络，得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型；

步骤E、将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型，输出伪装目标的掩码图像。

进一步地，步骤A的具体实现步骤如下：

步骤A1、将每张原始图像与该原始图像对应的标签图像进行配对，得到图像二元组；

步骤A2、将每组图像二元组尺寸缩放至H×W，其中，H表示图像的高，W表示图像的宽、再对每组图像二元组进行随机垂直翻转、随机旋转。

进一步地，步骤B的具体实现步骤如下：

步骤B1、设计并行特征提取网络，包括ResNet-50主干网络和PVT主干网络，将步骤A2得到的原始图像作为输入，使用ResNet-50主干网络提取多尺度的CNN主干特征，使用PVT主干网络提取多尺度的Transformer主干特征；

步骤B2、设计交叉融合模块，将步骤B1得到的CNN主干特征和Transformer主干特征作为输入，使用多个所设计的交叉融合模块融合相同尺度的CNN主干特征与Transformer主干特征，得到多个尺度的互补融合特征；

步骤B3、设计金字塔式渐进聚合模块，将步骤B2得到的多个互补融合特征作为输入，使用所设计的金字塔式渐进聚合模块融合多个尺度的互补融合特征，生成伪装目标掩码；

步骤B4、设计基于CNN-Transformer交叉融合的伪装目标检测网络，包括并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块，步骤A2得到的原始图像经过并行特征提取网络得到多尺度的CNN主干特征以及多尺度的Transformer主干特征，各尺度的CNN主干特征和Transformer主干特征经过交叉融合模块得到互补融合特征，多个尺度的互补融合特征经过金字塔式渐进聚合模块生成伪装目标掩码，得到的伪装目标掩码经过上采样操作生成最终的伪装目标掩码。

进一步地，步骤B1的具体实现步骤如下：

步骤B11、设计并行特征提取网络，该网络包括ResNet-50主干网络与PVT主干网络；

步骤B12、以ResNet-50主干网络对步骤A2得到的原始图像I进行CNN主干特征提取；具体地，分别记I经过ResNet-50网络第一阶段、第二阶段、第三阶段、第四阶段和第五阶段输出的特征为F₀、F₁、F₂、F₃和F₄；

步骤B13、以PyramidVisionTransformer网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取；具体地，分别记I经过PyramidVisionTransformer网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P₁、P₂、P₃和P₄。

进一步地，步骤B2的具体实现步骤如下：

步骤B21、设计交叉融合模块，该模块包括协同融合子模块和二次融合子模块；

步骤B22、设计交叉融合模块中的协同融合子模块；在协同融合子模块中，记协同融合子模块的两个输入特征为F_in和F_in，输出特征为F_out、F'_in和P'_in；F_in依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'_in，P_in依次经过两个卷积核大小为3×3的卷积层得到输出特征P'_in，F'_in与P'_in具有相同的大小；将F'_in与P'_in沿通道维度拼接，得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征F_cat，F_cat经过沿通道维度分割操作得到权重特征W_a和W_b，F'_in与W_a经过逐像素乘法运算得到特征F_w，P'_in与特征W_b经过逐像素乘法操作得到特征P_w，将F_w与P_w沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征F_out；具体公式表示如下：

F′_in＝Conv3(SA(CA(F_in)))

P′_in＝Conv3(Conv3(P_in))

F_cat＝Sigmoid(MLP(GAP(Conv3(Concat(F′_in,P′_in)))))

W_a,W_b＝Chunk(F_cat)

F_out＝ReLU(Conv3(Concat(F_w,P_w)))

其中，CA(·)是通道注意力层，SA(·)空间注意力层，Conv3(·)是卷积核大小为3×3的卷积层，Concat(·,·)是沿通道维度拼接操作，MLP是双层感知机，GAP是全局平均池化操作，Chunk(·)是沿通道维度分割操作，是逐像素乘法运算，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数；

步骤B23、设计交叉融合模块中的二次融合子模块；在二次融合子模块中，记二次融合子模块的输入特征为F_in1、F_in2、F_in3，输出特征记为F_in1与F_in2沿通道维度拼接后得到特征F_in12，F_in2与F_in3沿通道维度拼接后得到特征F_in23，F_in12和F_in23具有相同的大小；F_in12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₁，F_in23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₂；W₁与F_in12进行逐像素乘法运算得到特征F_w1，W₂与F_in23进行逐像素乘法运算得到特征F_w2，F_w1与F_w2沿通道维度拼接得到特征具体公式表示如下：

F_in12＝Concat(F_in1,F_in2)

F_in23＝Concat(F_in2,F_in3)

W₁＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in12)))))

W₂＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in23)))))

其中，Concat(·,·)是沿通道维度拼接操作，DWConv3(·)是卷积核大小为3×3的深度可分离卷积层；Conv1(·)是卷积核大小为1×1的卷积层，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数，是逐像素乘法运算；

步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块，分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4；其中，交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F₁和P₁，输出为F_out1、F'₁和P'₁，交叉融合模块1中二次融合子模块的输入为F'₁、F_out1和P'₁，输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F₂和P₂，输出为F_out2、F'₂和P'₂，交叉融合模块2中二次融合子模块的输入为F'₂、F_out2和P'₂，输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F₃和P₃，输出为F_out3、F'₃和P'₃，交叉融合模块3中二次融合子模块的输入为F'₃、F_out3和P'₃，输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F₄和P₄，输出为F_out4、F'₄和P'₄，交叉融合模块4中二次融合子模块的输入为F'₄、F_out4、和P'₄，输出为/>

进一步地，步骤B3的具体实现步骤如下：

步骤B31、设计金字塔式渐进聚合模块，金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse12；特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse23；特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse34；使用上采样操作将特征F_fuse23调整到和特征F_fuse12具有相同的大小，得到特征F′_fuse23，使用上采样操作将特征F_fuse34调整到和特征F_fuse23具有相同的大小，得到特征F′_fuse34将特征F_fuse12和F′_fuse23沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse123，特征F_fuse23和F′_fuse34沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse234；使用上采样操作将特征F_fuse234调整到和特征F_fuse123具有相同的大小，得到特征F′_fuse234；将特征F_fuse123和特征F′_fuse234进行逐像素加法运算，得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M；具体公式表示如下：

F_fuse123＝Conv1(Concat(F_fuse12，Up(F_fuse23)))

F_fuse234＝Conv1(Concat(F_fuse23，Up(Ffuse₃₄)))

其中，是逐像素加法运算，Up(·)是上采样操作，Conv3(·)是卷积核大小为3×3的卷积层，Concat(·,·)是沿通道维度拼接操作，Conv1(·)是卷积核大小为1×1的卷积层。

进一步地，步骤B4的具体实现步骤如下：

步骤B41、设计基于CNN-Transformer交叉融合的伪装目标检测网络，该网络由并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块组成，并生成最终的伪装目标掩码；

步骤B42、将步骤A2输出的原始图像I输入基于CNN-Transformer交叉融合的伪装目标检测网络，经过步骤B1、步骤B2后再经过步骤B3得到伪装目标掩码M；M通过上采样操作放大4倍，得到最终伪装目标掩码M_camo；具体公式表示如下：

M_camo＝Up_scale＝4(M)

其中，Up_scale＝4(·)是放大倍数为4的上采样操作。

进一步地，步骤C的具体实现步骤如下：

步骤C、设计损失函数作为约束来优化基于CNN-Transformer交叉融合的伪装目标检测网络，具体的公式如下：

其中，M_camo表示所设计的基于CNN-Transformer交叉融合的伪装目标检测网络输出的最终伪装目标掩码，G_camo表示步骤A2输出的原始图像I对应的标签图像，表示为加权交并比损失，/>表示加权二元交叉熵损失，/>表示为总的损失函数。

进一步地，步骤D的具体实现步骤如下：

步骤D1、将步骤A得到的训练数据集随机划分为若干个批次，每个批次包含N对图像；

步骤D2、对于每个批次内的原始图像I，经过步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络后得到伪装目标掩码M_camo，使用步骤C中的公式计算损失

步骤D3、根据损失使用反向传播方法计算网络中参数的梯度，并利用随机梯度下降优化方法更新网络参数；

步骤D4、以批次为单位重复执行步骤D2至步骤D3，直至网络的目标损失函数数值收敛，保存网络参数，得到基于CNN-Transformer交叉融合的伪装目标检测模型。

进一步地，在步骤E中，将待测图像输入步骤D中训练好的基于CNN-Transformer交叉融合的伪装目标检测模型，输出伪装目标的掩码图像。

以及，一种基于CNN-Transformer交叉融合的伪装目标检测模型，根据如上所述的步骤B和步骤C，包括步骤B设计获得的基于CNN-Transformer交叉融合的伪装目标检测网络，以及，设计获得的损失函数，用于网络的参数优化。

相比于现有技术，本发明及其优选方案通过交叉融合CNN主干特征与Transformer主干特征，有利于提高伪装目标检测方法的性能。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是本发明实施例方法的实现流程图；

图2是本发明实施例基于CNN-Transformer交叉融合的伪装目标检测模型的网络结构图；

图3是本发明实施例交叉融合模块中协同融合子模块的结构示意图；

图4是本发明实施例交叉融合模块中二次融合子模块的结构示意图；

图5是本发明实施例金字塔式渐进聚合模块的结构示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

以下结合一个具体的实施例对本发明方案的构成做进一步的介绍：

本发明实施例提供一种基于CNN-Transformer交叉融合的伪装目标检测方法，如图1-图5所示，包括以下步骤：

步骤C、设计损失函数，指导步骤B所设计网络的参数优化；

作为本实施例的优选方案，步骤A包括以下步骤：

步骤A1、将每张原始图像与该原始图像对应的标签图像进行配对，得到图像二元组。

作为本实施例的优选方案，步骤B包括以下步骤：

步骤B1、设计并行特征提取网络，包括ResNet-50主干网络和PVT主干网络，将步骤A2得到的原始图像作为输入，使用ResNet-50主干网络提取多尺度的CNN主干特征，使用PVT主干网络提取多尺度的Transformer主干特征。

步骤B2、设计交叉融合模块，将步骤B1得到的CNN主干特征和Transformer主干特征作为输入，使用多个所设计的交叉融合模块融合相同尺度的CNN主干特征与Transformer主干特征，得到多个尺度的互补融合特征。

步骤B3、设计金字塔式渐进聚合模块，将步骤B2得到的多个互补融合特征作为输入，使用所设计的金字塔式渐进聚合模块融合多个尺度的互补融合特征，生成伪装目标掩码。

作为本实施例的优选方案，步骤B1包括以下步骤：

步骤B11、设计并行特征提取网络，该网络包括ResNet-50主干网络与PVT主干网络。

步骤B12、以ResNet-50主干网络对步骤A2得到的原始图像I进行CNN主干特征提取。具体地，分别记I经过ResNet-50网络第一阶段、第二阶段、第三阶段、第四阶段和第五阶段输出的特征为F₀、F₁、F₂、F₃和F₄。

步骤B13、以Pyramid Vision Transformer(PVTv2)网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取。具体地，分别记I经过Pyramid VisionTransformer(PVTv2)网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P₁、P₂、P₃和P₄。

作为本实施例的优选方案，步骤B2包括以下步骤：

步骤B21、设计交叉融合模块，该模块包括协同融合子模块和二次融合子模块。

步骤B22、设计交叉融合模块中的协同融合子模块。在协同融合子模块中，记协同融合子模块的两个输入特征为F_in和P_in，输出特征为F_out、F'_in和P'_in。F_in依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'_in，P_in依次经过两个卷积核大小为3×3的卷积层得到输出特征P'_in，F'_in与P'_in具有相同的大小。将F'_in与P'_in沿通道维度拼接，得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征F_cat，F_cat经过沿通道维度分割操作得到权重特征W_a和W_b，F'_in与W_a经过逐像素乘法运算得到特征F_w，P'_in与特征W_b经过逐像素乘法操作得到特征P_w，将F_w与P_w沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征F_out。具体公式表示如下：

F′_in＝Conv3(SA(CA(F_in)))

P′_in＝Conv3(Conv3(P_in))

F_cat＝Sigmoid(MLP(GAP(Conv3(Concat(F′_in,P′_in))))))

W_a,W_b＝Chunk(F_cat)

F_out＝ReLU(Conv3(Concat(F_w,P_w)))

其中，CA(·)是通道注意力层，SA(·)空间注意力层，Conv3(·)是卷积核大小为3×3的卷积层，Concat(·,·)是沿通道维度拼接操作，MLP是双层感知机，GAP是全局平均池化操作，Chunk(·)是沿通道维度分割操作，是逐像素乘法运算，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数。

步骤B23、设计交叉融合模块中的二次融合子模块。在二次融合子模块中，记二次融合子模块的输入特征为F_in1、F_in2、F_in3，输出特征记为F_in1与F_in2沿通道维度拼接后得到特征F_in12，F_in2与F_in3沿通道维度拼接后得到特征F_in23，F_in12和F_in23具有相同的大小。F_in12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₁，F_in23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₂。W₁与F_in12进行逐像素乘法运算得到特征F_w1，W₂与F_in23进行逐像素乘法运算得到特征F_w2，F_w1与F_w2沿通道维度拼接得到特征具体公式表示如下：

F_in12＝Concat(F_in1,F_in2)

F_in23＝Concat(F_in2,F_in3)

W₁＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in12)))))

W₂＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in23)))))

其中，Concat(·,·)是沿通道维度拼接操作，DWConv3(·)是卷积核大小为3×3的深度可分离卷积层。Conv1(·)是卷积核大小为1×1的卷积层，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数，是逐像素乘法运算。

步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块，分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4。其中，交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F₁和P₁，输出为F_out1、F'₁和P'₁，交叉融合模块1中二次融合子模块的输入为F'₁、F_out1和P'₁，输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F₂和P₂，输出为F_out2、F'₂和P'₂，交叉融合模块2中二次融合子模块的输入为F'₂、F_out2和P'₂，输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F₃和P₃，输出为F_out3、F'₃和P'₃，交叉融合模块3中二次融合子模块的输入为F'₃、F_out3和P'₃，输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F₄和P₄，输出为F_out4、F'₄和P'₄，交叉融合模块4中二次融合子模块的输入为F'₄、F_out4、和P'₄，输出为/>

作为本实施例的优选方案，步骤B3包括以下步骤：

步骤B31、设计金字塔式渐进聚合模块，金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse12。特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse23。特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse34。使用上采样操作将特征F_fuse23调整到和特征F_fuse12具有相同的大小，得到特征F'_fuse23，使用上采样操作将特征F_fuse34调整到和特征F_fuse23具有相同的大小，得到特征F'_fuse34。将特征F_fuse12和F'_fuse23沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse123，特征F_fuse23和F'_fuse34沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse234；使用上采样操作将特征F_fuse234调整到和特征F_fuse123具有相同的大小，得到特征F'_fuse234。将特征F_fuse123和特征f'_fuse234进行逐像素加法运算，得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M。具体公式表示如下：

F_fuse123＝Conv1(Concat(F_fuse12,Up(F_fuse23)))

F_fuse234＝Conv1(Concat(F_fuse23,Up(F_fuse34)))

作为本实施例的优选方案，步骤B4包括以下步骤：

步骤B41、设计基于CNN-Transformer交叉融合的伪装目标检测网络，该网络由并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块组成，并生成最终的伪装目标掩码。

步骤B42、将步骤A2输出的原始图像I输入基于CNN-Transformer交叉融合的伪装目标检测网络，经过步骤B1、步骤B2后再经过步骤B3得到伪装目标掩码M。M通过上采样操作放大4倍，得到最终伪装目标掩码M_camo。具体公式表示如下：

M_camo＝Up_scale＝4(M)

其中，Up_scale＝4(·)是放大倍数为4的上采样操作。

作为本实施例的优选方案，步骤C包括以下步骤：

作为本实施例的优选方案，步骤D包括以下步骤：

步骤D1、将步骤A得到的训练数据集随机划分为若干个批次，每个批次包含N对图像。

步骤D3、根据损失使用反向传播方法计算网络中参数的梯度，并利用随机梯度下降优化方法更新网络参数。

作为本实施例的优选方案，步骤E包括以下步骤：

步骤E、将待测图像输入步骤D中训练好的基于CNN-Transformer交叉融合的伪装目标检测模型，输出伪装目标的掩码图像。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于CNN-Transformer交叉融合的伪装目标检测方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤A的具体实现步骤如下：

3.根据权利要求1所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤B的具体实现步骤如下：

4.根据权利要求3所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤B1的具体实现步骤如下：

步骤B13、以Pyramid Vision Transformer网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取；具体地，分别记I经过Pyramid Vision Transformer网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P₁、P₂、P₃和P₄。

5.根据权利要求4所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤B2的具体实现步骤如下：

步骤B22、设计交叉融合模块中的协同融合子模块；在协同融合子模块中，记协同融合子模块的两个输入特征为F_in和P_in，输出特征为F_out、F'_in和P'_in；F_in依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'_in，P_in依次经过两个卷积核大小为3×3的卷积层得到输出特征P'_in，F'_in与P'_in具有相同的大小；将F'_in与P'_in沿通道维度拼接，得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征F_cat，F_cat经过沿通道维度分割操作得到权重特征W_a和W_b，F'_in与W_a经过逐像素乘法运算得到特征F_w，P'_in与特征W_b经过逐像素乘法操作得到特征P_w，将F_w与P_w沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征F_out；具体公式表示如下：

F′_in＝Conv3(SA(CA(F_in)))

P′_in＝Conv3(Conv3(P_in))

F_cat＝Sigmoid(MLP(GAP(Conv3(Concat(F′_in，P′_in)))))

W_a，W_b＝Ch unk(F_cat)

F_out＝ReLU(Conv3(Concat(F_w，P_w)))

其中，CA(·)是通道注意力层，SA(·)空间注意力层，Conv3(·)是卷积核大小为3×3的卷积层，Concat(·，·)是沿通道维度拼接操作，MLP是双层感知机，GAP是全局平均池化操作，Ch unk(·)是沿通道维度分割操作，是逐像素乘法运算，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数；

步骤B23、设计交叉融合模块中的二次融合子模块；在二次融合子模块中，记二次融合子模块的输入特征为F_in1、F_in2、F_in3，输出特征记为F_in1与F_in2沿通道维度拼接后得到特征F_in12，F_in2与F_in3沿通道维度拼接后得到特征F_in23，F_in12和F_in23具有相同的大小；F_in12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₁，F_in23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W₂；W₁与F_in12进行逐像素乘法运算得到特征F_w1，W₂与F_in23进行逐像素乘法运算得到特征F_w2，F_w1与F_w2沿通道维度拼接得到特征/>具体公式表示如下：

F_in12＝Concat(F_in1，F_in2)

F_in23＝Concat(F_in2，F_in3)

W₁＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in12)))))

W₂＝Sigmoid(Conv1(ReLU(Conv1(DWConv3(F_in23)))))

其中，Concat(·，·)是沿通道维度拼接操作，DWConv3(·)是卷积核大小为3×3的深度可分离卷积层；Conv1(·)是卷积核大小为1×1的卷积层，ReLU(·)是ReLU激活函数，Sigmoid(·)是Sigmoid激活函数，是逐像素乘法运算；

步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块，分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4；其中，交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F₁和P₁，输出为F_out1、F′₁和P′₁，交叉融合模块1中二次融合子模块的输入为F′₁、F_out1和P′₁，输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F₂和P₂，输出为F_out2、F′₂和P′₂，交叉融合模块2中二次融合子模块的输入为F′₂、F_out2和P′₂，输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F₃和P₃，输出为F_out3、F′₃和P′₃，交叉融合模块3中二次融合子模块的输入为F′₃、F_out3和P′₃，输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F₄和P₄，输出为F_out4、F′₄和P′₄，交叉融合模块4中二次融合子模块的输入为F′₄、F_out4、和P′₄，输出为/>

6.根据权利要求5所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤B3的具体实现步骤如下：

步骤B31、设计金字塔式渐进聚合模块，金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小，得到特征/>特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse12；特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse23；特征/>和/>经过逐像素加法运算，得到的特征经过卷积核大小为3×3的卷积层得到特征F_fuse34；使用上采样操作将特征F_fuse23调整到和特征F_fuse12具有相同的大小，得到特征F′_fuse23，使用上采样操作将特征F_fuse34调整到和特征F_fuse23具有相同的大小，得到特征F′_fuse34；将特征F_fuse12和F′_fuse23沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse123，特征F_fuse23和F′_fuse34沿通道维度拼接，得到的特征经过卷积核大小为1×1的卷积层得到特征F_fuse234；使用上采样操作将特征F_fuse234调整到和特征F_fuse123具有相同的大小，得到特征F′_fuse234；将特征F_fuse123和特征F′_fuse234进行逐像素加法运算，得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M；具体公式表示如下：

F_fuse123＝Conv1(Concat(F_fuse12，Up(F_fuse23)))

F_fuse234＝Conv1(Concat(F_fuse23，Up(F_fuse34)))

其中，是逐像素加法运算，Up(·)是上采样操作，Conv3(·)是卷积核大小为3×3的卷积层，Concat(·，·)是沿通道维度拼接操作，Conv1(·)是卷积核大小为1×1的卷积层。

7.根据权利要求6所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤B4的具体实现步骤如下：

M_camo＝Up_scale＝4(M)

其中，Up_scale＝4(·)是放大倍数为4的上采样操作。

8.根据权利要求7所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤C的具体实现步骤如下：

9.根据权利要求5所述的基于CNN-Transformer交叉融合的伪装目标检测方法，其特征在于：

步骤D的具体实现步骤如下：

10.一种基于CNN-Transformer交叉融合的伪装目标检测模型，根据如权利要求1-9其中任一所述的步骤B和步骤C，包括步骤B设计获得的基于CNN-Transformer交叉融合的伪装目标检测网络，以及，设计获得的损失函数，用于网络的参数优化。