CN117197568A

CN117197568A - 一种基于clip的零样本图像识别方法

Info

Publication number: CN117197568A
Application number: CN202311167370.XA
Authority: CN
Inventors: 谢国森; 李浚逸; 舒祥波
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-08

Abstract

本发明公开了一种基于CLIP的零样本图像识别方法，通过对由语义引导的细粒度局部视觉特征定位，并且利用双网络的特征对齐，微调属性特征提示，从而获得优异的零样本知识迁移能力，得到更精确的零样本图像分类结果。在三个经典的图像分类数据集CUB，SUN和AWA2的传统零样本基准测试上分别达到84％，89.8％和97.4％的正确率，广义零样本基准测试上分别达到75.9％，68.4％和92.6％的H值，是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识，并且利用双网络的特征对齐，微调属性特征提示从而精确的识别未见类图像。

Description

一种基于CLIP的零样本图像识别方法

技术领域

本发明涉及一种图像识别方法，具体涉及一种零样本图像识别方法。

背景技术

图像分类是计算机视觉领域中的一项重要任务，其目标是将输入的图像分配到预定义的类别中。这个任务在许多领域都有广泛应用，包括医学图像分析、自动驾驶、安全监控和人脸识别等。

零样本学习是一种特殊的机器学习任务，旨在通过学习已知类别与未知类别之间的映射关系，实现对未见过的类别进行分类。与传统的监督学习不同，零样本学习允许模型在没有任何关于未知类别的训练样本的情况下进行分类。为了实现零样本学习，传统的方法通常依赖于来自已见类别和未见类别的手动注释的类属性。这些类属性是连接这些不相交的已见类别和未见类别集合的共享知识。类属性可以描述每个类别的特征，例如颜色、形状或功能。通过将这些类属性与图像特征进行关联，模型可以在遇到未见过的类别时进行推理和分类。类属性的使用也更接近人类的认知方式。人类能够利用他们对已见图像的先验知识以及已见和未见类别的描述信息来区分实例和未见类别。这种方法模仿了人类感知世界时利用先验知识和描述信息的方式。

零样本分类具有不需要已见所有类别图像的特性，因此在各个方面都有广泛的应用。例如，零样本图像分类可用于智能安防系统中，识别新出现的物体或事件，如未经训练的人脸、不寻常的行为或可疑物品，以提供更准确的安全监控和警报；还可用于识别新的植物和动物物种，即使没有对这些物种的图像进行训练，这在生态学研究、保护生物多样性和野生动物监测等领域具有重要意义；通过零样本图像分类，可以对新的食物类别进行识别和分类，从而帮助用户进行准确的营养评估和饮食管理等。这些应用示例突出了零样本图像分类在各个领域的实际应用，展示了其在解决实际问题和改善生活的潜力。

早期领先的零样本学习方法通常通过将类属性(语义向量)和所见类的全局图像表示相关联，来学习联合嵌入空间。然而，由于对细粒度类属性的挖掘不够理想，这些全局嵌入方法几乎总是无法充分定位判别区域特征。同时，最近的零样本学习方法验证了类别属性描述向量为有效协助模型获取判别区域特征，从而提升零样本学习结果并提供了新的线索。这些方法直接对齐局部区域特征和类属性描述向量，实现了对不同属性区域的粗定位。然而，由于未见类图像的不可获得性，粗糙区域定位的可转移性不足，往往导致未见类图像与见类图像的误分类。相比之下，强大的对比语言-图像预训练(CLIP)模型的出现利用类别名称来实现更一般的类似零样本的预测。由于使用了大量的图像-文本配对训练数据，通常CLIP在粗粒度的下游数据集上表现出显著的图像-文本对齐能力和泛化性能，但不能定位信息属性区域。

发明内容

发明目的：针对上述现有技术，提出一种基于CLIP的零样本图像识别方法，以提高预训练的CLIP模型到下游零样本学习框架的知识可转移性，以追求理想的特征表示。

技术方案：一种基于CLIP的零样本图像识别方法，包括：

S1：给定数据集，将其划分为已见类和未见类；

S2：利用ResNet和CLIP视觉编码器分别对图像进行特征表示，同时利用CLIP文本编码器对类别名进行特征表示，并引入属性描述向量；

S3：将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量进行视觉-语义交互注意力运算，得到基于属性提示注意力的特征向量，从而得到两个网络的局部类别预测向量；

S4：对两个网络模型的局部类别预测向量构造跨网络对齐损失L_pal来限制跨网络特征对齐；对两个网络模型的局部类别预测向量分别采用交叉熵损失L_cl和自校准损L_cal进行监督训练；

S5：将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测，与两个网络模型的最终局部预测融合，并引入偏差向量允许一部分的已见类预测迁移到未见类，得到最终预测得分。

有益效果：本发明通过对由语义引导的细粒度局部视觉特征定位，并且利用双网络的特征对齐，微调属性特征提示，从而获得优异的零样本知识迁移能力，得到更精确的零样本图像分类结果。在三个经典的图像分类数据集Caltech-USCD Birds-200-2011(CUB)，SUN和Animals with Attributes2(AWA2)的传统零样本基准测试上分别达到84％，89.8％和97.4％的正确率，广义零样本基准测试上分别达到75.9％，68.4％和92.6％的H值(已见类与未见类正确率的调和平均数)，是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识，并且利用双网络的特征对齐，微调属性特征提示从而精确的识别未见类图像。

附图说明

图1为一种基于CLIP的零样本图像识别方法的流程示意图；

图2为所提出的网络框架示意图；

图3为全局预测概率计算示意图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

如图1所示，一种基于CLIP的零样本图像识别方法，包括：

S1：给定数据集将其划分为已见类/>和未见类/>其中y_i对应图像x_i的真实类别标签，分别表示已见类和未见类的图像集合，/>分别表示已见类与未见类的标签集合，令/> 表示类y_i的类别属性概率分数向量，/>分别表示已见类和未见类的类别属性概率分数向量集合。

训练集只有已见类，测试集对于零样本设置只有未见类，对于广义零样本则同时包括已见类与未见类。

S2：利用ResNet和CLIP视觉编码器分别对图像进行特征表示，同时利用CLIP文本编码器对类别名进行特征表示，并引入属性描述向量。

具体的，如图2所示，利用ResNet101卷积神经网络和CLIP视觉编码器ViT 16/B分别提取得到图像特征x_res、x_clip，其中x_res维度为[2048,7,7]，x_clip维度为[197,512]。

使用CLIP文本编码器Transformer提取每个类别名特征，采取提示为"a photo ofa{classname}"得到维度为[|Y|,512]的类别名特征c，其中|Y|代表类别数。引入属性描述向量集合V＝{v₁,v₂,…,v_K}，这些向量通过将“bill color red,throat color white”等属性描述文本，以提示"{att}"的形式输入文本网络进行特征提取而得到，其中的K表示属性描述向量的个数。

S3：x_res对应的特征向量将最后维度视为ResNet局部视觉特征，x_clip取分类头以外的其它头作为CLIP局部视觉特征，将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量v分别进行视觉-语义交互注意力运算，得到基于属性提示注意力的特征向量，从而得到两个网络的局部类别预测向量。

具体的，将得到的x_res特征维度变为[2048,49]，视为49个维度为2048的局部视觉特征将得到的x_clip截取掉分类头得到维度[196,512]，视为196个维度为512的局部视觉特征/>将局部视觉特征分别与属性描述向量集合V＝{v₁,v₂,…,v_K}进行视觉-语义交互注意力运算：

其中，表示视觉-语义交互注意力运算，v_k表示第k个属性描述向量，k＝1,2…K；/>即分别表示第i张图像第m块区域的视觉特征，M表示局部区域数；g_R(·)/g_C(·)代表将文本输入简单线性神经网络。/>分别表示两支路的注意力矩阵与局部视觉特征相乘得到的基于属性提示注意力的特征向量；/>分别表示通过将基于属性提示注意力的特征向量和映射后的属性描述向量点乘得到的属性相关向量；h_R(·)/h_C(·)代表两个简单线性神经网络；/>分别表示将属性相关向量与类别属性概率分数以及属性注意力权重相乘得到的最终类别预测分数；/>表示类y_i拥有k属性的类别属性概率分数；其中，属性注意力权重/> 函数w_C/R(·)是一个简单线性神经网络。其中，简单线性神经网络均为一个简单线性层，将输入映射到输出空间，比如：为可学习矩阵。

通过不同的视觉语义交互注意力网络最终得到两个局部类别预测向量p_i,

S4：对两个网络模型的局部类别预测向量构造跨网络对齐损失L_pal来限制跨网络特征对齐；对两个网络模型的局部类别预测向量分别采用交叉熵损失L_cl和自校准损L_cal进行监督训练。

具体的，对获得的两个网络的局部类别预测向量构建跨网络对齐损失：

其中，

对两个网络的局部类别预测向量计算交叉熵损失L_cl：

其中，|N|是训练集中样本个数，这种损失确保了已见类参与到训练中，但没有考虑到未见类，这可能导致模型以低概率预测未见类，并表现出对已见类的偏见。为了解决这个问题，再使用自校准损失L_cal来增加训练期间未见类的预测概率：

其中，是指示函数，代表偏差向量。如果/>则/>否则为-1。表示对于类别c的两个最终类别预测分数。

S5：将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测，与两个网络模型的最终局部预测融合。由于在训练阶段，模型仅接触到已见类别的图像数据，可能导致在已见类别上过度拟合的问题。为了避免这种现象的发生，引入了偏差向量的概念，允许部分已见类别的预测特征迁移至未见类别。最终得到网络模型的预测得分。

具体的，如图3所示，将S2得到的x_clip特征截取分类头作为全局特征，与类别名特征c计算余弦相似度得到全局预测概率/>最终对三个概率向量进行加权相加得到最终预测得分：

其中，β₁，β₂为权重参数，根据不同数据集调整双支路的预测占比，如CUB数据集中(β₁,β₂)＝(0.1,0.04)。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于CLIP的零样本图像识别方法，其特征在于，包括：

S1：给定数据集，将其划分为已见类和未见类；

2.根据权利要求1所述的基于CLIP的零样本图像识别方法，其特征在于，所述S1中，给定数据集将其划分为已见类/>和未见类其中/>分别表示已见类和未见类的图像集合，y_i对应图像x_i的真实类别标签，/>表示类y_i的类别属性概率分数向量，/>分别表示已见类和未见类的类别属性概率分数向量集合。

3.根据权利要求2所述的基于CLIP的零样本图像识别方法，其特征在于，所述S2中，利用ResNet101卷积神经网络和CLIP视觉编码器ViT 16/B分别提取得到图像特征x_res、x_clip，并且使用CLIP文本编码器Transformer提取得到类别名特征c，并引入属性描述向量集合V＝{v₁,v₂,…,v_K}，K表示属性描述向量的个数。

4.根据权利要求3所述的基于CLIP的零样本图像识别方法，其特征在于，所述S3包括：x_res对应的特征向量将最后维度视为ResNet局部视觉特征，x_clip取分类头以外的其它头作为CLIP局部视觉特征，将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量v进行视觉-语义交互注意力运算，两支路得到的注意力矩阵分别与对应的局部视觉特征相乘得到基于属性提示注意力的特征向量；然后通过将基于属性提示注意力的特征向量和映射后的属性描述向量点乘得到属性相关向量；再将属性相关向量与类别属性概率分数以及属性注意力权重相乘得到最终类别预测分数从而得到两个网络的局部类别预测向量p_i,/>

5.根据权利要求4所述的基于CLIP的零样本图像识别方法，其特征在于，所述S4中，对两个网络的局部类别预测向量构建跨网络对齐损失：

其中，|Y|代表类别数；

对两个网络的局部类别预测向量计算交叉熵损失L_cl：

其中，|N|是训练集中样本个数，

再使用自校准损失L_cal来增加训练期间未见类的预测概率：

其中，是指示函数，代表偏差向量，如果/>则/>否则为-1；/>表示对于类别c的两个最终类别预测分数。

6.根据权利要求5所述的基于CLIP的零样本图像识别方法，其特征在于，所述S5中，将S2得到的x_clip特征截取分类头作为全局特征，与类别名特征c计算余弦相似度得到全局预测概率/>对三个概率向量进行加权相加得到最终预测得分：

其中，β₁，β₂为权重参数。