CN117197568A - 一种基于clip的零样本图像识别方法 - Google Patents

一种基于clip的零样本图像识别方法 Download PDF

Info

Publication number
CN117197568A
CN117197568A CN202311167370.XA CN202311167370A CN117197568A CN 117197568 A CN117197568 A CN 117197568A CN 202311167370 A CN202311167370 A CN 202311167370A CN 117197568 A CN117197568 A CN 117197568A
Authority
CN
China
Prior art keywords
clip
class
attribute
feature
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311167370.XA
Other languages
English (en)
Inventor
谢国森
李浚逸
舒祥波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202311167370.XA priority Critical patent/CN117197568A/zh
Publication of CN117197568A publication Critical patent/CN117197568A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于CLIP的零样本图像识别方法,通过对由语义引导的细粒度局部视觉特征定位,并且利用双网络的特征对齐,微调属性特征提示,从而获得优异的零样本知识迁移能力,得到更精确的零样本图像分类结果。在三个经典的图像分类数据集CUB,SUN和AWA2的传统零样本基准测试上分别达到84%,89.8%和97.4%的正确率,广义零样本基准测试上分别达到75.9%,68.4%和92.6%的H值,是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识,并且利用双网络的特征对齐,微调属性特征提示从而精确的识别未见类图像。

Description

一种基于CLIP的零样本图像识别方法
技术领域
本发明涉及一种图像识别方法,具体涉及一种零样本图像识别方法。
背景技术
图像分类是计算机视觉领域中的一项重要任务,其目标是将输入的图像分配到预定义的类别中。这个任务在许多领域都有广泛应用,包括医学图像分析、自动驾驶、安全监控和人脸识别等。
零样本学习是一种特殊的机器学习任务,旨在通过学习已知类别与未知类别之间的映射关系,实现对未见过的类别进行分类。与传统的监督学习不同,零样本学习允许模型在没有任何关于未知类别的训练样本的情况下进行分类。为了实现零样本学习,传统的方法通常依赖于来自已见类别和未见类别的手动注释的类属性。这些类属性是连接这些不相交的已见类别和未见类别集合的共享知识。类属性可以描述每个类别的特征,例如颜色、形状或功能。通过将这些类属性与图像特征进行关联,模型可以在遇到未见过的类别时进行推理和分类。类属性的使用也更接近人类的认知方式。人类能够利用他们对已见图像的先验知识以及已见和未见类别的描述信息来区分实例和未见类别。这种方法模仿了人类感知世界时利用先验知识和描述信息的方式。
零样本分类具有不需要已见所有类别图像的特性,因此在各个方面都有广泛的应用。例如,零样本图像分类可用于智能安防系统中,识别新出现的物体或事件,如未经训练的人脸、不寻常的行为或可疑物品,以提供更准确的安全监控和警报;还可用于识别新的植物和动物物种,即使没有对这些物种的图像进行训练,这在生态学研究、保护生物多样性和野生动物监测等领域具有重要意义;通过零样本图像分类,可以对新的食物类别进行识别和分类,从而帮助用户进行准确的营养评估和饮食管理等。这些应用示例突出了零样本图像分类在各个领域的实际应用,展示了其在解决实际问题和改善生活的潜力。
早期领先的零样本学习方法通常通过将类属性(语义向量)和所见类的全局图像表示相关联,来学习联合嵌入空间。然而,由于对细粒度类属性的挖掘不够理想,这些全局嵌入方法几乎总是无法充分定位判别区域特征。同时,最近的零样本学习方法验证了类别属性描述向量为有效协助模型获取判别区域特征,从而提升零样本学习结果并提供了新的线索。这些方法直接对齐局部区域特征和类属性描述向量,实现了对不同属性区域的粗定位。然而,由于未见类图像的不可获得性,粗糙区域定位的可转移性不足,往往导致未见类图像与见类图像的误分类。相比之下,强大的对比语言-图像预训练(CLIP)模型的出现利用类别名称来实现更一般的类似零样本的预测。由于使用了大量的图像-文本配对训练数据,通常CLIP在粗粒度的下游数据集上表现出显著的图像-文本对齐能力和泛化性能,但不能定位信息属性区域。
发明内容
发明目的:针对上述现有技术,提出一种基于CLIP的零样本图像识别方法,以提高预训练的CLIP模型到下游零样本学习框架的知识可转移性,以追求理想的特征表示。
技术方案:一种基于CLIP的零样本图像识别方法,包括:
S1:给定数据集,将其划分为已见类和未见类;
S2:利用ResNet和CLIP视觉编码器分别对图像进行特征表示,同时利用CLIP文本编码器对类别名进行特征表示,并引入属性描述向量;
S3:将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量进行视觉-语义交互注意力运算,得到基于属性提示注意力的特征向量,从而得到两个网络的局部类别预测向量;
S4:对两个网络模型的局部类别预测向量构造跨网络对齐损失Lpal来限制跨网络特征对齐;对两个网络模型的局部类别预测向量分别采用交叉熵损失Lcl和自校准损Lcal进行监督训练;
S5:将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测,与两个网络模型的最终局部预测融合,并引入偏差向量允许一部分的已见类预测迁移到未见类,得到最终预测得分。
有益效果:本发明通过对由语义引导的细粒度局部视觉特征定位,并且利用双网络的特征对齐,微调属性特征提示,从而获得优异的零样本知识迁移能力,得到更精确的零样本图像分类结果。在三个经典的图像分类数据集Caltech-USCD Birds-200-2011(CUB),SUN和Animals with Attributes2(AWA2)的传统零样本基准测试上分别达到84%,89.8%和97.4%的正确率,广义零样本基准测试上分别达到75.9%,68.4%和92.6%的H值(已见类与未见类正确率的调和平均数),是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识,并且利用双网络的特征对齐,微调属性特征提示从而精确的识别未见类图像。
附图说明
图1为一种基于CLIP的零样本图像识别方法的流程示意图;
图2为所提出的网络框架示意图;
图3为全局预测概率计算示意图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
如图1所示,一种基于CLIP的零样本图像识别方法,包括:
S1:给定数据集将其划分为已见类/>和未见类/>其中yi对应图像xi的真实类别标签,分别表示已见类和未见类的图像集合,/>分别表示已见类与未见类的标签集合,令/> 表示类yi的类别属性概率分数向量,/>分别表示已见类和未见类的类别属性概率分数向量集合。
训练集只有已见类,测试集对于零样本设置只有未见类,对于广义零样本则同时包括已见类与未见类。
S2:利用ResNet和CLIP视觉编码器分别对图像进行特征表示,同时利用CLIP文本编码器对类别名进行特征表示,并引入属性描述向量。
具体的,如图2所示,利用ResNet101卷积神经网络和CLIP视觉编码器ViT 16/B分别提取得到图像特征xres、xclip,其中xres维度为[2048,7,7],xclip维度为[197,512]。
使用CLIP文本编码器Transformer提取每个类别名特征,采取提示为"a photo ofa{classname}"得到维度为[|Y|,512]的类别名特征c,其中|Y|代表类别数。引入属性描述向量集合V={v1,v2,…,vK},这些向量通过将“bill color red,throat color white”等属性描述文本,以提示"{att}"的形式输入文本网络进行特征提取而得到,其中的K表示属性描述向量的个数。
S3:xres对应的特征向量将最后维度视为ResNet局部视觉特征,xclip取分类头以外的其它头作为CLIP局部视觉特征,将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量v分别进行视觉-语义交互注意力运算,得到基于属性提示注意力的特征向量,从而得到两个网络的局部类别预测向量。
具体的,将得到的xres特征维度变为[2048,49],视为49个维度为2048的局部视觉特征将得到的xclip截取掉分类头得到维度[196,512],视为196个维度为512的局部视觉特征/>将局部视觉特征分别与属性描述向量集合V={v1,v2,…,vK}进行视觉-语义交互注意力运算:
其中,表示视觉-语义交互注意力运算,vk表示第k个属性描述向量,k=1,2…K;/>即分别表示第i张图像第m块区域的视觉特征,M表示局部区域数;gR(·)/gC(·)代表将文本输入简单线性神经网络。/>分别表示两支路的注意力矩阵与局部视觉特征相乘得到的基于属性提示注意力的特征向量;/>分别表示通过将基于属性提示注意力的特征向量和映射后的属性描述向量点乘得到的属性相关向量;hR(·)/hC(·)代表两个简单线性神经网络;/>分别表示将属性相关向量与类别属性概率分数以及属性注意力权重相乘得到的最终类别预测分数;/>表示类yi拥有k属性的类别属性概率分数;其中,属性注意力权重/> 函数wC/R(·)是一个简单线性神经网络。其中,简单线性神经网络均为一个简单线性层,将输入映射到输出空间,比如: 为可学习矩阵。
通过不同的视觉语义交互注意力网络最终得到两个局部类别预测向量pi,
S4:对两个网络模型的局部类别预测向量构造跨网络对齐损失Lpal来限制跨网络特征对齐;对两个网络模型的局部类别预测向量分别采用交叉熵损失Lcl和自校准损Lcal进行监督训练。
具体的,对获得的两个网络的局部类别预测向量构建跨网络对齐损失:
其中,
对两个网络的局部类别预测向量计算交叉熵损失Lcl
其中,|N|是训练集中样本个数,这种损失确保了已见类参与到训练中,但没有考虑到未见类,这可能导致模型以低概率预测未见类,并表现出对已见类的偏见。为了解决这个问题,再使用自校准损失Lcal来增加训练期间未见类的预测概率:
其中,是指示函数,代表偏差向量。如果/>则/>否则为-1。表示对于类别c的两个最终类别预测分数。
S5:将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测,与两个网络模型的最终局部预测融合。由于在训练阶段,模型仅接触到已见类别的图像数据,可能导致在已见类别上过度拟合的问题。为了避免这种现象的发生,引入了偏差向量的概念,允许部分已见类别的预测特征迁移至未见类别。最终得到网络模型的预测得分。
具体的,如图3所示,将S2得到的xclip特征截取分类头作为全局特征,与类别名特征c计算余弦相似度得到全局预测概率/>最终对三个概率向量进行加权相加得到最终预测得分:
其中,β1,β2为权重参数,根据不同数据集调整双支路的预测占比,如CUB数据集中(β12)=(0.1,0.04)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于CLIP的零样本图像识别方法,其特征在于,包括:
S1:给定数据集,将其划分为已见类和未见类;
S2:利用ResNet和CLIP视觉编码器分别对图像进行特征表示,同时利用CLIP文本编码器对类别名进行特征表示,并引入属性描述向量;
S3:将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量进行视觉-语义交互注意力运算,得到基于属性提示注意力的特征向量,从而得到两个网络的局部类别预测向量;
S4:对两个网络模型的局部类别预测向量构造跨网络对齐损失Lpal来限制跨网络特征对齐;对两个网络模型的局部类别预测向量分别采用交叉熵损失Lcl和自校准损Lcal进行监督训练;
S5:将CLIP视觉全局特征与类别名特征计算余弦相似度得到全局预测,与两个网络模型的最终局部预测融合,并引入偏差向量允许一部分的已见类预测迁移到未见类,得到最终预测得分。
2.根据权利要求1所述的基于CLIP的零样本图像识别方法,其特征在于,所述S1中,给定数据集将其划分为已见类/>和未见类其中/>分别表示已见类和未见类的图像集合,yi对应图像xi的真实类别标签,/>表示类yi的类别属性概率分数向量,/>分别表示已见类和未见类的类别属性概率分数向量集合。
3.根据权利要求2所述的基于CLIP的零样本图像识别方法,其特征在于,所述S2中,利用ResNet101卷积神经网络和CLIP视觉编码器ViT 16/B分别提取得到图像特征xres、xclip,并且使用CLIP文本编码器Transformer提取得到类别名特征c,并引入属性描述向量集合V={v1,v2,…,vK},K表示属性描述向量的个数。
4.根据权利要求3所述的基于CLIP的零样本图像识别方法,其特征在于,所述S3包括:xres对应的特征向量将最后维度视为ResNet局部视觉特征,xclip取分类头以外的其它头作为CLIP局部视觉特征,将ResNet局部视觉特征和CLIP局部视觉特征分别与属性描述向量v进行视觉-语义交互注意力运算,两支路得到的注意力矩阵分别与对应的局部视觉特征相乘得到基于属性提示注意力的特征向量;然后通过将基于属性提示注意力的特征向量和映射后的属性描述向量点乘得到属性相关向量;再将属性相关向量与类别属性概率分数以及属性注意力权重相乘得到最终类别预测分数从而得到两个网络的局部类别预测向量pi,/>
5.根据权利要求4所述的基于CLIP的零样本图像识别方法,其特征在于,所述S4中,对两个网络的局部类别预测向量构建跨网络对齐损失:
其中,|Y|代表类别数;
对两个网络的局部类别预测向量计算交叉熵损失Lcl
其中,|N|是训练集中样本个数,
再使用自校准损失Lcal来增加训练期间未见类的预测概率:
其中,是指示函数,代表偏差向量,如果/>则/>否则为-1;/>表示对于类别c的两个最终类别预测分数。
6.根据权利要求5所述的基于CLIP的零样本图像识别方法,其特征在于,所述S5中,将S2得到的xclip特征截取分类头作为全局特征,与类别名特征c计算余弦相似度得到全局预测概率/>对三个概率向量进行加权相加得到最终预测得分:
其中,β1,β2为权重参数。
CN202311167370.XA 2023-09-12 2023-09-12 一种基于clip的零样本图像识别方法 Pending CN117197568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311167370.XA CN117197568A (zh) 2023-09-12 2023-09-12 一种基于clip的零样本图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311167370.XA CN117197568A (zh) 2023-09-12 2023-09-12 一种基于clip的零样本图像识别方法

Publications (1)

Publication Number Publication Date
CN117197568A true CN117197568A (zh) 2023-12-08

Family

ID=89001118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311167370.XA Pending CN117197568A (zh) 2023-09-12 2023-09-12 一种基于clip的零样本图像识别方法

Country Status (1)

Country Link
CN (1) CN117197568A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746303A (zh) * 2024-02-20 2024-03-22 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746303A (zh) * 2024-02-20 2024-03-22 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统
CN117746303B (zh) * 2024-02-20 2024-05-17 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统

Similar Documents

Publication Publication Date Title
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Zhang et al. An adaptive dropout deep computation model for industrial IoT big data learning with crowdsourcing to cloud computing
Lee et al. Multi-label zero-shot learning with structured knowledge graphs
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
Lai et al. Understanding more about human and machine attention in deep neural networks
Gong et al. Loss decomposition and centroid estimation for positive and unlabeled learning
Qu et al. Joint hierarchical category structure learning and large-scale image classification
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN110852881A (zh) 风险账户识别方法、装置、电子设备及介质
CN117197568A (zh) 一种基于clip的零样本图像识别方法
Schwalbe Concept embedding analysis: A review
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
Chen et al. Leveraging bottom-up and top-down attention for few-shot object detection
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
Tavakoli Seq2image: Sequence analysis using visualization and deep convolutional neural network
Zhou et al. Deep collaborative multi-task network: A human decision process inspired model for hierarchical image classification
Wang et al. Interpret neural networks by extracting critical subnetworks
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
Balgi et al. Contradistinguisher: a vapnik’s imperative to unsupervised domain adaptation
CN115269925A (zh) 一种基于层次结构的无偏置场景图生成方法
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination