CN117893743A

CN117893743A - 一种基于通道加权和双对比学习的零样本目标检测方法

Info

Publication number: CN117893743A
Application number: CN202410302108.XA
Authority: CN
Inventors: 李俊杰; 陈宏宽; 王树伦; 李杨
Original assignee: Shandong Military Local Information Technology Group Co ltd
Current assignee: Shandong Military Local Information Technology Group Co ltd
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-16
Anticipated expiration: 2044-03-18
Also published as: CN117893743B

Abstract

本发明提供一种基于通道加权和双对比学习的零样本目标检测方法，属于图像处理技术领域，包括：获取可见类图像并输入到通道加权目标检测模块提取特征，特征提取网络为ResNet，并使用RPN来提取目标区域的真实视觉特征；将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块，根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征，并通过类内对比学习和类间对比学习训练特征生成器；将真实视觉特征和查询视觉特征输入不可见分类器，输出目标检测结果。本发明可以自适应地学习通道注意力以捕捉更重要的特征，采用类内对比学习和类间对比学习损失函数，在零样本情况下合成多样且具有区分性的区域特征。

Description

一种基于通道加权和双对比学习的零样本目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于通道加权和双对比学习的零样本目标检测方法。

背景技术

零样本目标检测（Zero-Shot Object Detection，ZSD）是计算机视觉领域中的一个重要研究方向，其目标是实现在未见过的目标类别上进行目标检测。传统目标检测算法通常在训练阶段需要使用大量标注数据来学习各个目标类别的特征表示，但在现实场景中，可能存在许多新的目标类别，这些类别没有在训练集中出现，因此无法用传统方法进行检测。

零样本目标检测的技术背景可以追溯到零样本学习（Zero-Shot Learning，ZSL）领域，ZSL是一种用于解决分类任务的技术，其中目标是在未见过的类别上实现分类。ZSL通过学习从视觉特征到语义语境（通常以词向量或属性向量表示）的映射，从而将图像分类扩展到未见过的类别。

在零样本目标检测中，ZSL的思想被扩展到了目标检测任务。除了需要解决图像分类的问题，还需要定位目标在图像中的位置。这就要求零样本目标检测不仅要学习语义与视觉特征之间的映射，还要在未见过的目标类别上学习目标的位置信息。

传统零样本目标检测存在的缺陷主要包括以下几个方面：

数据稀缺性：未见过的目标类别缺乏标注数据，使得检测模型难以学习到它们的特征表示和位置信息；

特征泛化：在零样本情况下，检测模型需要从已见过的类别的特征向未见过的类别进行泛化。这就要求检测模型学习到具有较好泛化能力的特征表示；

语义-视觉对齐：检测模型需要将语义语境（如词向量）与视觉特征进行对齐，以便在未见过的类别上进行目标检测。

发明内容

针对现有技术的上述不足，本发明提供一种基于通道加权和双对比学习的零样本目标检测方法质，以解决语义-视觉映射关系不准确、合成的未知类别图像视觉特征鲁棒性差等问题。

本发明提供一种基于通道加权和双对比学习的零样本目标检测方法，包括：

获取可见类图像并输入到通道加权目标检测模块提取特征，其中，所述通道加权目标检测模块的特征提取网络为ResNet，将SE-Net块嵌入到特征提取网络ResNet的残差模块中，并使用RPN来提取可见类图像的目标区域的真实视觉特征；

将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块，所述鲁棒特征生成模块为特征生成器，用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征，并通过类内对比学习和类间对比学习训练所述特征生成器；

将所述真实视觉特征和所述查询视觉特征输入不可见分类器，输出目标检测结果。

进一步的，在所述通道加权目标检测模块内包括以下方法：

输入可见类图像，经过残差模块后输出特征图F∈R^H×W×C，其中，C是通道数，H是高度，W是宽度；

在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作；

所述Squeeze操作包括：将特征图F进行全局平均池化，压缩为一个F维向量，表示每个通道的全局平均值，Squeeze操作的输出为k∈R^1×1×C，公式为：

；

所述Excitation操作包括：将k∈R^1×1×C输入到全连接层和RELU激活函数，输出一个与通道数相同的注意力向量s∈R^1×1×C，并通过sigmoid激活函数将注意力向量s限制在[0,1]范围内，公式为：

；

其中，FC表示全连接层，RELU表示修正线性单元激活函数，表示sigmoid激活函数；

所述Scale操作包括：将注意力向量s对特征图F进行加权，得到加权后的特征图M∈R^H×W×C，公式为：

；

其中， s_C是注意力向量s中第C个通道的注意力权重，F_C(H,W)是特征图F在第C个通道和位置(H,W)处的值，M_C(H,W)是加权后的特征图M在第C个通道和位置(H,W)处的值；

使用可见类图像及其相应的ground truth来训练Faster-RCNN模型，并使用RPN来提取可见类图像的目标区域的真实视觉特征。

进一步的，所述双对比学习引导的鲁棒特征生成模块中，使用L_R损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征，所述L_R损失函数为：

；

其中，f为可见类图像目标区域的真实视觉特征，f为可见类的语义向量，为生成的查询视觉特征，E表示期望值，D是判别器函数，所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入，判别器的目标是准确区分真实视觉特征和查询视觉特征；

类内对比学习损失函数如下：

；

其中，“·”表示点积操作，τ表示温度比例因子，为查询视觉正样本，/>为查询视觉负样本，/>为查询视觉特征；

其中，对于每个查询噪声向量z，使用生成器G生成对应的查询视觉特征；

所述查询视觉正样本通过以下方式计算：

在所述随机向量Z中选择一个查询噪声向量z，在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z₊，所述正样本查询噪声向量z₊是通过在z 的基础上加上一个随机向量ρ得到的，其中ρ是从均匀分布U[-r,r]中随机采样得到的，半径r设置为10^-4；将以z₊为噪声向量生成的视觉特征作为查询视觉正样本；

所述查询视觉负样本通过以下方式计算：

从潜在空间中随机采样一组负样本噪声向量{z_1-,z_2-,..., z_N-}，所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量；而将以负样本噪声向量{z_1-,z_2-,..., z_N-}为噪声向量生成的视觉特征作为查询视觉负样本；

类间对比学习损失函数为：

；

其中，g₊表示正样本，正样本可以来自查询视觉特征，或来自目标检测器的RPN提取的与当前合成的查询视觉特征具有相同类别标签的目标区域的真实视觉特征； g_j表示负样本，负样本可以来自通道加权目标检测模块的RPN提取的与当前合成的查询视觉特征具有不同类别标签的目标区域的真实视觉特征，或来自背景区域特征；

总损失函数L为：

；其中，λ₁和λ₂为平衡损失函数的加权超参数。

进一步的，所述不可见分类器使用生成的未知类图像的目标区域的查询视觉特征及其对应的未知类别的类标签进行训练，该分类器能够在零样本情况下对不可见类别进行分类。

进一步的，还包括：以Faster R-CNN为骨干网络，以ResNet作为Faster R-CNN的特征提取网络，将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中，通过更新Faster R-CNN模型的分类器部分，建立所述零样本目标检测方法的检测模型。

本发明的有益效果在于：本发明提供了一种新的基于通道加权和双对比学习的零样本目标检测方法，创新性主要体现在两个方面：利用了通道注意力机制和双重对比学习方法。其优点分别如下：

（1）通过引入通道注意力机制，网络可以自适应地学习通道注意力，提高特征表示的表现能力，使得检测模型捕捉到更重要的特征，从而在目标检测任务中获得更好的性能。

（2）采用类内对比学习和类间对比学习损失函数，使得检测模型可以在零样本情况下合成多样且具有区分性的区域特征，从而提高了零样本目标检测的性能。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的检测模型各模块的示意性框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

ResNet是一种残差网络。

Faster R-CNN：Faster-RCNN是2015年提出的第一个真正意义上的端到端的深度学习检测算法，区域生成网络(RPN，Region Proposal Network)是Faster RCNN 核心部分。

如图1所示，本发明实施例提高一种基于通道加权和双对比学习的零样本目标检测方法，该方法包括：

步骤101：获取可见类图像并输入到通道加权目标检测模块提取特征，其中，所述通道加权目标检测模块的特征提取网络为ResNet，将SE-Net块嵌入到特征提取网络ResNet的残差模块中，并使用RPN来提取可见类图像的目标区域的真实视觉特征；

步骤102：将未知类的语义向量输入所述双对比学习引导的鲁棒特征生成模块，所述鲁棒特征生成模块为特征生成器，用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征，并通过类内对比学习和类间对比学习训练所述特征生成器；

步骤103：将所述真实视觉特征和所述查询视觉特征输入不可见分类器，输出目标检测结果。

在本实施例中，通过通道加权目标检测模块，自适应地学习通道注意力，以强调重要的特征通道，从而提高目标检测性能；双对比学习引导的鲁棒特征生成模块，通过引入类内对比学习和类间对比学习，在合成多样化视觉特征的同时提高视觉特征的区分性，从而生成更加鲁棒的区域特征，并将未知类别（不可见类别）的语义嵌入映射为对应的视觉特征；分类器能够在零样本情况下对不可见类别进行分类。最终通道加权目标检测模块、双对比学习引导的鲁棒特征生成模块和不可见分类器结合，构成零样本目标检测的新检测模型。本实施例可以增强目标检测网络对重要特征的表示能力，并生成更加鲁棒的未知类图像，使检测模型可以利用有限的可见类别信息来泛化到未见过的类别，有效提高了零样本目标检测的性能。

本发明在目标检测任务中引入了通道注意力机制，由于不同通道之间的重要性和相关性会有所不同，通道注意力机制的目标是通过自适应学习来强调重要的通道，减少对不相关通道的依赖，从而提升目标检测的性能。同时，本发明设计了类内对比学习和类间对比学习损失函数来生成更加稳健的区域视觉特征。通过这两个损失函数的联合使用，检测模型可以在零样本情况下合成多样且具有区分性的区域特征，从而提高了零样本目标检测的性能。

可选地，作为本发明一个实施例，在所述通道加权目标检测模块内包括以下方法：

以ResNet作为Faster R-CNN的特征提取网络, 将SE-Net块嵌入到ResNet的残差模块中，用于增强通道注意力。在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作；通过插入本发明实施例提供的SE-Net块，使得Faster R-CNN的骨干网络可以自适应地学习通道注意力，以强调重要的特征通道，从而提高目标检测性能。

所述Squeeze（压缩）操作包括：将特征图F进行全局平均池化，压缩为一个C维向量，表示每个通道的全局平均值，Squeeze（压缩）操作的输出为k∈R^1×1×C，公式为：

；

所述Excitation（激发）操作包括：将k∈R^1×1×C输入到全连接层和RELU激活函数，输出一个与通道数相同的注意力向量s∈R^1×1×C，并通过sigmoid激活函数将注意力向量s限制在 [0,1]范围内，公式为：

；

其中，FC表示全连接层，RELU表示修正线性单元激活函数，表示sigmoid()激活函数；

所述Scale（缩放）操作包括：将注意力向量s对特征图F进行加权，得到加权后的特征图M∈R^H×W×C，公式为：

；

使用可见类图像及其相应的ground truth（类标签和边界框坐标）来训练Faster-RCNN模型，并使用RPN来提取可见类图像的目标区域的真实视觉特征。

在已知可见类训练图像X,及其对应的标签Y和可见类语义向量W的情况下, 学习一个特征生成器G:U×Z→F，其中U是类别的嵌入向量集合，Z∈N(0,1)是从高斯分布中采样得到的随机噪声向量。这个生成器G接受一个类别嵌入向量u∈U 和一个随机噪声向量z作为输入，并生成对应于该类别的目标区域的视觉特征。该特征生成器的目标是学习可见类的语义词向量与可见类图像的视觉特征之间的映射关系，生成一个语义嵌入（semantic embedding）空间，使得语义向量能够对应到视觉特征。

可选地，作为本发明一个实施例，所述双对比学习引导的鲁棒特征生成模块中，使用L_R损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征，所述L_R损失函数为：

；

其中，f为可见类图像目标区域的真实视觉特征，f 为可见类的语义向量，为生成的查询视觉特征，E表示期望值，D是判别器函数，所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入，判别器的目标是准确区分真实视觉特征和查询视觉特征；

为了生成更加鲁棒的区域特征，本发明引入了类内对比学习和类间对比学习。类内对比学习损失函数有助于合成多样化的视觉特征。它通过将单个类别的语义向量分解为一组视觉特征，实现了在同一个类别内部生成多个样本。这种多样性有助于更好地适应目标类别的不同外观和形态变化。通过将相同类别的语义嵌入向量与随机噪声结合，生成不同的视觉特征，类内对比学习损失函数促使生成器能够产生更加多样和具体化的区域特征，从而有助于区分不同目标类别。

本发明实施例提供一种类内对比学习损失函数：

；

其中，“·”表示点积操作，表示温度比例因子，/>为查询视觉正样本，/>为查询视觉负样本，/>为查询视觉特征；

所述查询视觉正样本通过以下方式计算：

在所述随机向量中选择一个查询噪声向量z，在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z₊，所述正样本查询噪声向量z₊是通过在z 的基础上加上一个随机向量ρ得到的，其中ρ是从均匀分布U[-r,r]中随机采样得到的，半径r设置为10^-4；将以/>为噪声向量生成的视觉特征/>作为查询视觉正样本；

所述查询视觉负样本通过以下方式计算：

从潜在空间中随机采样一组负样本噪声向量{z_1-,z_2-,..., z_N-}，所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量；而将以负样本噪声向量{z_1-,z_2-,..., z_N-}为噪声向量生成的视觉特征作为查询视觉负样本。

类间对比学习损失函数旨在使合成的视觉特征与真实数据的分布相近，并提高学习到的视觉特征的区分性。在该损失函数中，不仅考虑了不同类别的合成视觉特征，还关注了通过RPN提取的真实视觉特征，其中包括正样本目标区域特征（与合成特征相同类别的区域特征）以及许多负样本和背景区域特征。

本发明实施例提供一种类间对比学习损失函数：

；

其中，g₊表示正样本，正样本可以来自查询视觉特征，或来自目标检测器的RPN提取的与当前合成的视觉特征具有相同类别标签的目标区域的真实视觉特征；g_j表示负样本，负样本可以来自通道加权目标检测模块的RPN提取的与当前合成的视觉特征具有不同类别标签的目标区域的真实视觉特征，或来自背景区域特征；

总损失函数L为：

；其中，λ₁和λ₂为平衡损失函数的加权超参数。

通过该总损失函数训练特征生成器，使用训练完成的特征生成器实现将未知类别（不可见类别）的语义嵌入映射为对应的视觉特征。通过这个过程，可以生成未知类别图像的区域特征。

可选地，作为本发明一个实施例，所述不可见分类器（Zero-Shot Classifier）使用生成的未知类图像的目标区域的查询视觉特征及其对应的类标签（未知类别的类标签）进行训练，该分类器能够在零样本情况下对不可见类别进行分类。

可选地，作为本发明一个实施例，如图2所示，还包括：以Faster R-CNN为骨干网络，以ResNet作为FasterR-CNN的特征提取网络，将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中，通过更新Faster R-CNN模型的分类器部分，建立所述零样本目标检测方法的检测模型。

表1是本公开方法的一个仿真实验，该实验在MS COCO数据集（微软于2014年出资标注的MicrosoftCOCO数据集）两种划分方式48/17和65/15（COCO数据集以48/17或者65/15方式划分为基础类别和新类别）下进行对比了不同IOU取值下，Recall和mAP的实验结果。与现有技术相比，本发明采用通道加权目标检测模块，同时基于双对比学习的特征生成模型能够生成多样化且具有区分性的视觉特征，实验结果验证了本发明的有效性。

表1 本公开与其他算法准确度比较

上述表格中对比的其他算法具体见下方引用文献。

其中，“DSES”为Bansal A、 Sikka K、Sharma G等人提出的零样本目标检测算法。“TD”为Li Z、Yao L、Zhang X等人提出的带文本描述的零样本目标检测算法。“BLC”为ZhengY、Huang R、Han C等人提出的背景可学习级联的零样本目标检测算法。“PL”为RahmanS、Khan S、Barnes N等人提出的极性损失的零样本目标检测算法。“SU”为Hayat N、Hayat M、Rahman S等人提出的合成看不见的零样本目标检测算法。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内或任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于通道加权和双对比学习的零样本目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述通道加权目标检测模块内包括以下方法：

在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作；

所述Squeeze操作包括：将特征图F进行全局平均池化，压缩为一个C维向量，表示每个通道的全局平均值，Squeeze操作的输出为k∈R^1×1×C，公式为：

；

所述Excitation操作包括：将k∈R^1×1×C输入到全连接层和RELU激活函数，输出一个与通道数相同的注意力向量s∈R^1×1×C，并通过sigmoid激活函数将注意力向量s限制在 [0,1]范围内，公式为：

；

所述Scale操作包括：将注意力向量s对特征图F进行加权，得到加权后的特征图M∈R^H ^×W×C，公式为：

；

3.根据权利要求1所述的方法，其特征在于，所述双对比学习引导的鲁棒特征生成模块中，使用L_R损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征，所述L_R损失的函数公式为：

；

其中，f为可见类图像目标区域的真实视觉特征，w为可见类的语义向量，为生成的查询视觉特征，E表示期望值，D是判别器函数，所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入，判别器的目标是准确区分真实视觉特征和查询视觉特征；

类内对比学习损失函数如下：

；

所述查询视觉正样本通过以下方式计算：

在随机向量Z中选择一个查询噪声向量z，在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z₊，所述正样本查询噪声向量z₊是通过在z 的基础上加上一个随机向量ρ得到的，其中ρ是从均匀分布U[-r,r]中随机采样得到的，半径r设置为10^-4；将以z₊为噪声向量生成的视觉特征作为查询视觉正样本；

所述查询视觉负样本通过以下方式计算：

类间对比学习损失函数为：

；

总损失函数L为：

；其中，λ₁和λ₂为平衡损失函数的加权超参数。

4.根据权利要求1所述的方法，其特征在于，所述不可见分类器使用生成的未知类图像的目标区域的查询视觉特征及其对应的未知类别的类标签进行训练，该分类器能够在零样本情况下对不可见类别进行分类。

5.根据权利要求1所述的方法，其特征在于，还包括：以Faster R-CNN为骨干网络，以ResNet作为Faster R-CNN的特征提取网络，将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中，通过更新Faster R-CNN模型的分类器部分，建立所述零样本目标检测方法的检测模型。