CN116524183A

CN116524183A - 一种基于多任务适配器微调的伪装目标检测方法

Info

Publication number: CN116524183A
Application number: CN202310401697.2A
Authority: CN
Inventors: 张艳宁; 孔德璇; 张世周; 邢颖慧; 梁国强; 王鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-04-16
Filing date: 2023-04-16
Publication date: 2023-08-01

Abstract

本发明涉及一种基于多任务适配器微调的伪装目标检测方法，提出了一种了“预训练、适应和检测”框架来检测伪装物体，通过在各种任务上学习更加广泛的知识，使其面对伪装物体的欺骗更加“智能”。具体而言，首先利用大规模的多模态数据对基础模型进行预训练，然后并行插入一个轻量级适配器，使预先训练好的模型适应于下游任务。在获得更精细的特征图后，使用COD检测头精确检测像素级伪装目标。本发明进一步提供了跨任务学习适配器的多任务学习方案，通过对源任务的多任务适配器初始化和对目标任务的多任务适配器自适应，可以学习不同语义类别间的共享知识，从而提高模型的泛化能力。

Description

一种基于多任务适配器微调的伪装目标检测方法

技术领域

本发明涉及一种伪装目标检测技术领域，具体涉及一种基于预训练大模型和多任务适配器提升模型检测性能和泛化能力的方法。

背景技术

伪装目标检测(COD)旨在识别完美隐藏在周围环境中的物体，通常被定义为二值分割任务。由于这种伪装策略通过欺骗观察者的视觉感知系统来工作，因此，解决COD任务需要大量的视觉感知知识，比传统的显著目标检测或分割更具挑战性。近年来，伪装目标检测吸引了计算机视觉领域日益增长的研究兴趣，并促进了许多有价值的现实生活应用，如灾区搜救工作、稀有物种发现、医学图像分割、农业蝗虫检测等。

早期的工作使用低级手工制作的特征，如颜色、边缘或纹理来检测伪装的物体，这些方法由于缺乏特征差异导致检测性能受到限制。2019年，新的伪装目标数据集CAMO的提出促进了深度神经网络在COD任务中的应用。之后，相继出现了许多基于深度学习的模型。其中一些基于特征融合，通过捕获丰富的上下文信息和聚合跨层次特征来提高多尺度目标检测性能。另外一些利用纹理特征的旋转不变性和抗噪能力来放大伪装对象和背景之间的差异。虽然这些方法提高了伪装目标检测的性能，但在伪装目标与背景具有高度相似性的场景中仍存在局限性。为了获得精确的边界和精细的结构，有大量研究工作通过设计更加复杂的模块来精确提取目标结构，或者利用辅助任务来增强COD主要分割流的识别能力。由于伪装策略本质上欺骗了视觉感知系统，所以基于边缘的检测仍然难以取得良好的性能。为了进一步模拟捕食者在自然界的行为或人类视觉的心理模式，最近出现了一系列仿生方法，如PFNet、MirrorNet和ZoomNet。然而，这些工作以一种简单的方式去模仿人类的视觉系统，这限制了它们在低对比度、被遮挡、小目标和多目标等多种复杂场景中的性能。

发明内容

本发明所要解决的技术问题是：

为了克服现有技术受限于具体模型且无法对伪装目标精确定位的不足，本发明提供一种基于多任务适配器微调的伪装目标检测方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于多任务适配器微调的伪装目标检测方法，其特征在于步骤如下：

步骤1：准备数据集，按照不同语义类别划分为9个互不重叠的子数据集；

步骤2：构建“预训练、适应和检测”网络框架，所述“预训练、适应和检测”网络模型包括三个部分：大型预训练基础模型、轻量级适配器模块和COD检测头；

各个部分的构建过程如下：

步骤2-1：构建大型预训练基础模型；

所述大型预训练基础模型能够在其他各种数据集上进行预训练，学习包含丰富语义的特征表示；

步骤2-2：构建轻量级适配器模块；

所述轻量级适配器模块与大型预训练基础模型并行设计，并且与之相比，只包含少量的可训练参数，通过提取COD任务的先验表示并与基础模型做特征交互，来获取COD任务的多尺度特征；

步骤2-3：构建COD检测头；

所述COD检测头接收来自适配器模块输出的金字塔特征，通过将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合，联合推断和发现图像下丰富的视觉知识，以完成COD精确的分割任务；

步骤3：设计损失函数

步骤4：训练过程

所述训练过程先在步骤4-1中按照传统协议在CAMO和COD10K的联合训练集上对模型进行传统训练，然后在步骤4-2至步骤4-5中在多任务数据集上采用多任务学习框架对模型进行训练，以探究该方案是否可以学习到不同语义类别之间的可共享知识；

步骤4-1：传统训练；

将包含伪装目标的图像同时输入到大型预训练基础模型和轻量级适配器模块；大型基础模型首先使用多模态数据进行预训练，然后保持参数冻结，仅优化适配器模块和检测头的参数，使得基础模型学习到的通用知识能够有效地迁移到下游COD任务中；

整个过程采用损失函数在CAMO和COD10K的训练集上对模型进行监督训练，得到训练后的网络模型，最后使用整个CHAMELEON和NC4K数据集，以及CAMO和COD10K的测试集验证模型的有效性；

步骤4-2：源任务上的多任务适配器初始化；

将划分好的9个子数据集作为源任务，所有源任务的图像被同时输入到大型预训练基础模型和轻量级适配器模块；大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块和COD检测头被随机初始化，然后在所有源任务的训练集上联合训练适配器和COD检测头；

步骤4-3：单目标任务上的多任务适配器自适应；

依次从所有子任务中选取其中一个作为目标任务，将该任务的图像输入到大型预训练基础模型和轻量级适配器模块；大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块使用步骤4-2中的源适配器进行初始化，COD检测头被随机初始化；然后分别在单独的目标任务的训练集上对适配器进行微调；最后在相应的单个目标任务的测试集上测试，评估模型性能；

步骤4-4：相似任务结组；

所有子任务依次作为源任务，同时其他任务作为目标任务；保持预训练基础模型参数冻结，在每个源任务的训练集上对模型可训练参数进行调优，以初始化不同目标任务的适配器；然后分别在每个目标任务的测试集上直接进行测试，整个模型参数无需微调；对于每个目标任务，通过将所有源任务的迁移性能除以在该任务上最佳的性能得分，得到归一化结果，然后根据该结果选取在同一个目标任务上迁移性能最佳的几个任务作为最相似的任务进行结组；

步骤4-5：分组目标任务上的多任务适配器自适应；

根据步骤4-4的分组策略，依次从所有子任务中选取最相似的几个目标任务结组，将分组任务的图像同时输入到大型预训练基础模型和轻量级适配器模块；大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块使用步骤4-2中预训练好的源适配器初始化，COD检测头被随机初始化；然后在目标任务组内对适配器模块和检测头进行微调；最后在每个独立的目标任务的测试集上进行测试，评估模型性能。

本发明进一步的技术方案：步骤1具体如下：

下载四个广泛使用的COD数据集：CHAMELEON、CAMO、COD10K、NC4K；

将整个COD10K数据集和CAMO数据集的人工伪装部分按照不同语义类别划分为9个互不重叠的子数据集，作为9个不同的子任务，包括两栖动物、节肢动物、人工伪装、鸟类、昆虫、哺乳动物、爬行动物、第一水下动物和第二水下动物。

本发明进一步的技术方案：步骤3所述损失函数包含加权二值交叉熵损失与加权IoU损失/>

整体的损失函数表示为：

通过计算中心像素与其周围环境之间的差值，给每个像素分配一个不同的权值，从而使难像素得到更多的关注，和/>分别用于形成网络上的像素约束和全局约束。

本发明进一步的技术方案：步骤4-1采用Vision Transformer作为预训练基础模型。

本发明进一步的技术方案：步骤4-2采用Vision Transformer Adapter作为轻量级的无预训练视觉特定适配器。

本发明进一步的技术方案：步骤4-3采用UperNet作为COD检测头。

一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

本发明从一种新的角度提供了“预训练、适应和检测”框架来检测伪装物体，通过在各种任务上学习更加广泛的知识，使其面对伪装物体的欺骗更加“智能”。具体而言，首先利用大规模的多模态数据对基础模型进行预训练，然后并行插入一个轻量级适配器，使预先训练好的模型适应于下游任务。在获得更精细的特征图后，使用COD检测头精确检测像素级伪装目标。本发明进一步提供了跨任务学习适配器的多任务学习方案，通过对源任务的多任务适配器初始化和对目标任务的多任务适配器自适应，可以学习不同语义类别间的共享知识，从而提高模型的泛化能力。有益效果在于：

1、本发明提出的框架从一种新的角度“预训练、适应和检测”来检测伪装的物体。得益于预训练，该方法仅调整少量参数，无需精心设计，就获得了优越的性能。这是第一种基于大规模预训练基础模型的伪装目标检测方法。

2、本发明进一步根据伪装对象的语义类别对数据集进行了划分，并提出了学习适配器的多任务学习机制，包括多任务适配器初始化和多任务适配器自适应，通过利用不同语义类别间的可共享知识，从而提高模型的泛化能力。

3、本发明在四个广泛使用的基准数据集上创造了新的记录，并为探索COD任务的多任务学习提供了新的评估协议。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是本发明方法整体框架图。

图2是本发明方法任务可转移性结果热图。

图3是实施例中本发明方法和不同经典COD方法的可视化结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种新的“预训练、适应和检测”框架来检测伪装的物体，如图1所示。首先通过大规模的多模态数据对基础模型进行预训练，然后并行插入一个轻量级适配器，使预先训练好的模型适应下游任务。在获得更精细的特征图后，使用COD头精确检测像素级伪装目标。本发明进一步提供了跨任务学习适配器的多任务学习方案，通过对源任务的多任务适配器初始化和对目标任务的多任务适配器自适应，学习不同语义类别之间的共享知识，从而提高模型的泛化能力。

具体包括如下步骤：

步骤1：数据集准备；

首先下载了四个广泛使用的COD数据集：(1)CHAMELEON：共包含76张图像；(2)CAMO：共包含1250张图像(其中1000张用于训练，250张用于测试)；(3)COD10K：共包含5066张图像(其中3040张用于训练，2026张用于测试)；(4)NC4K：共包含4121张图像；

然后进一步将整个COD10K数据集和CAMO数据集的人工伪装部分按照不同语义类别划分为9个不重叠的子数据集，作为9个不同的任务，包括两栖动物(344)、节肢动物(444)、人工伪装(296)、鸟类(549)、昆虫(1438)、哺乳动物(658)、爬行动物(457)、水下动物1(640)和水下动物2(413)(水下动物1和水下动物2有明显差异)。

至此数据集准备完成。

步骤2：“预训练、适应和检测”网络框架构建；

所述“预训练、适应和检测”网络模型包括三个部分：一个大型预训练基础模型、一个轻量级适配器模块和一个COD检测头，如图1(a)所示。

具体各个部分的构建过程如下：

步骤2-1：构建大型预训练基础模型；

所述大型预训练基础模型能够在其他各种数据集上(包括大规模多模态数据)进行预训练，学习包含丰富语义的特征表示。本实施例中采用Vision Transformer(ViT)作为预训练基础模型，因为转换器层可以对patch embedding,3D patch embedding和tokenembedding进行模糊的处理，所以利用丰富的多模态数据(包括图像、视频和文本)对其进行预训练。具体来说，所有输入数据被投影到二维向量表示，并与位置表示向量相结合。同时，添加一个可学习的“CLS”向量用于逐步提取全局特征表示。接着，它们被送入L层编码器计算自注意力。

步骤2-2：构建轻量级适配器模块；

所述轻量级适配器模块并行于大型预训练基础模型设计，帮助预训练基础模型适应于下游COD任务。本实施例中引入Vision Transformer Adapter(ViT-Adapter)作为轻量级的无预训练视觉特定适配器，仅含少于ViT 8％的可训练参数，用来提取COD任务的多尺度特征。具体来说，ViT-Adapter与ViT并行，包含一个基于卷积的空间先验模块，用于建模输入图像的局部空间上下文；以及N组基于交叉注意力的特征交互模块，每组由一个注射器模块和一个提取器模块组成，其中注射器模块用于将空间先验特征注入主干模型，提取器模块用于从主干模型中提取多尺度特征。经过N轮特征交互后，获得与ResNet分辨率相似的细粒度层次特征。

步骤2-3：构建COD检测头；

所述COD检测头接收来自适配器模块输出的金字塔特征，通过将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合，联合推断和发现图像下丰富的视觉知识，以完成COD精确的分割任务。本实施例中使用UperNet作为COD检测头，接收从适配器获得的金字塔特征。具体来说，将主干网络的的最低分辨率特征通过金字塔池模块(PPM)获得有效的全局先验表示，然后将其输入到特征金字塔网络(FPN)中自上而下的分支。FPN通过具有横向连接的自顶向下体系结构接收适配器输出的其他分辨率特征，并将高级语义信息融合到中低层次。最后将融合后的特征通过一个3x3的卷积层和一个分类器完成COD分割任务。

步骤3：损失函数；

所述损失函数包含加权二值交叉熵损失与加权IoU损失/>

整体的损失函数表示为：

步骤4：网络训练；

步骤4-1：传统实验训练；

①训练集：CAMO的训练集(1000张图像)和COD10K的训练集(3040张图像)；

②实验设置：采用ViT-Large作为预训练基础模型，并使用Uni-Perceiver-L释放的权重初始化它，UperNet作为COD检测头。图像统一被调整为512×512大小，利用初始学习率为6×10^-5、权重衰减率为0.05的AdamW优化器进行优化，批量训练batch size设为2。模型被训练共200epoch，每一个epoch结束都使用验证集测试网络效果，保存最好效果的网络参数；

③训练流程：将包含伪装目标的图像同时输入到大型预训练基础模型和轻量级适配器模块。大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块和检测头的参数都被随机初始化，仅微调适配器模块和检测头的参数，使得基础模型学习到的通用知识能够有效迁移到下游COD任务中。

步骤4-2：源任务上的多任务适配器初始化；

①训练集：代表不同语义类别的九个数据集的训练集，包含两栖动物(220)、节肢动物(274)、人工伪装(194)、鸟类(327)、昆虫(840)、哺乳动物(370)、爬行动物(294)、水下动物1(396)和水下动物2(241)；

②实验设置：采用ViT-Large作为预训练基础模型，并使用Uni-Perceiver-L释放的权重初始化它，UperNet作为COD检测头。图像统一被调整为512×512大小，利用初始学习率为6×10^-5、权重衰减率为0.05的AdamW优化器进行优化，批量训练batch size设为2。模型被训练共100epoch，每一个epoch结束都使用验证集测试网络效果，保存最好效果的网络参数；

③训练流程：如图1(a)所示，将划分好的九个数据集作为源任务，所有源任务的图像被同时输入到大型预训练基础模型和轻量级适配器模块。大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块和COD检测头被随机初始化，然后在所有源任务的训练集上联合训练适配器和COD检测头。

步骤4-3：单目标任务上的多任务适配器自适应；

①训练集：代表不同语义类别的九个数据集的训练集；

②实验设置：采用ViT-Large作为预训练基础模型，并使用Uni-Perceiver-L释放的权重初始化它。图像统一被调整为512×512大小，利用初始学习率为6×10^-5、权重衰减率为0.05的AdamW优化器进行优化，批量训练batch size设为2。模型被训练共200epoch，每一个epoch结束都使用验证集测试网络效果，保存最好效果的网络参数；

③训练流程：如图1(b)所示，依次从九个数据集中选取其中一个作为目标任务，将该任务的图像输入到大型预训练基础模型和轻量级适配器模块。大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块使用步骤4-2中的源适配器进行初始化，COD检测头被随机初始化。然后在每个目标任务的训练集上对适配器模块和COD检测头进行微调。

步骤4-4：相似任务结组；

九个任务依次作为源任务，同时其他任务作为目标任务。在每个源任务的训练集上对模型执行200epoch调优，以初始化不同目标任务的适配器。然后分别在每个目标任务的测试集上直接进行测试，整个模型参数无需微调。对于每个目标任务，通过将所有源任务的迁移性能除以在该任务上最佳的性能得分，得到归一化结果(如图2所示)，然后根据该结果选取在同一个目标任务上迁移性能最佳的三个任务作为最相似的任务进行结组。

步骤4-5：分组目标任务上的多任务适配器自适应；

①训练集：代表不同语义类别的九个数据集的训练集；

③训练流程：如图1(c)所示，根据步骤4-4的分组策略，依次从九个数据集中选取最相似的三个目标任务结组，将分组任务的图像同时输入到大型预训练基础模型和轻量级适配器模块。大型基础模型加载在多模态数据上预训练好的权重并保持参数冻结，适配器模块使用步骤4-2中预训练好的源适配器初始化，COD检测头被随机初始化。然后在目标任务组内对适配器模块和检测头进行微调。

步骤5：网络测试；

步骤5-1：传统实验测试；

①测试集：CHAMELEON数据集(76张图像)，NC4K数据集(4121张图像)，CAMO的测试集(250张图像)和COD10K的测试集(2026张图像)；

②实验设置：图像输入统一被调整为512×512大小，输出被调整到初始大小；

③测试流程：加载训练阶段保存的最好效果的网络参数对输入图像进行测试以验证模型的有效性；

④输出结果：可视化结果如图3所示，从左到右依次是原始图像、GT、本发明的可视化结果、以及其他对比方法的可视化结果，可以看出本发明(第三列)能够成功处理不同类型的具有挑战性的伪装案例。对于与周围环境对比度极低的目标(第1行和第2行)、被遮挡的目标(第三行)、小目标(第4行)、周围具有迷惑物体的目标(第5行)、多个低对比度的目标(第6行)、以及具有复杂拓扑结构和大量密集边的目标(第7行)，本发明提出的方法都能精准地对伪装目标进行识别和分割，而其他方法或多或少受到干扰，导致错误的定位。

步骤5-2：单目标任务上的多任务适配器自适应；

①测试集：代表不同语义类别的九个数据集的测试集，包含两栖动物(124)、节肢动物(170)、人工伪装(102)、鸟类(222)、昆虫(598)、哺乳动物(288)、爬行动物(163)、水下动物1(244)和水下动物2(172)；

③测试流程：加载训练阶段在每个独立的目标任务上保存的最好效果的网络参数，在相应的单个目标任务的测试集上进行测试，评估模型性能。

步骤5-3：分组目标任务上的多任务适配器自适应；

①测试集：代表不同语义类别的九个数据集的测试集；

③测试流程：加载训练阶段在各个分组目标任务上保存的最好效果的网络参数，然后在每个独立的目标任务的测试集上进行测试，评估模型性能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多任务适配器微调的伪装目标检测方法，其特征在于步骤如下：

各个部分的构建过程如下：

步骤2-1：构建大型预训练基础模型；

步骤2-2：构建轻量级适配器模块；

步骤2-3：构建COD检测头；

步骤3：设计损失函数

步骤4：训练过程

步骤4-1：传统训练；

步骤4-2：源任务上的多任务适配器初始化；

步骤4-3：单目标任务上的多任务适配器自适应；

步骤4-4：相似任务结组；

步骤4-5：分组目标任务上的多任务适配器自适应；

2.根据权利要求1所述基于多任务适配器微调的伪装目标检测方法，其特征在于，其特征在于：步骤1具体如下：

下载四个广泛使用的COD数据集：CHAMELEON、CAMO、COD10K、NC4K；

3.根据权利要求1所述基于多任务适配器微调的伪装目标检测方法，其特征在于，其特征在于：步骤3所述损失函数包含加权二值交叉熵损失与加权IoU损失

整体的损失函数表示为：

4.根据权利要求1所述基于多任务适配器微调的伪装目标检测方法，其特征在于，其特征在于：步骤4-1采用Vision Transformer作为预训练基础模型。

5.根据权利要求1所述基于多任务适配器微调的伪装目标检测方法，其特征在于，其特征在于：步骤4-2采用Vision Transformer Adapter作为轻量级的无预训练视觉特定适配器。

6.根据权利要求1所述基于多任务适配器微调的伪装目标检测方法，其特征在于，其特征在于：步骤4-3采用UperNet作为COD检测头。

7.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1所述的方法。

8.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。