CN117409262A - 基于clip快速构建图像分类模型的方法 - Google Patents

基于clip快速构建图像分类模型的方法 Download PDF

Info

Publication number
CN117409262A
CN117409262A CN202311719576.9A CN202311719576A CN117409262A CN 117409262 A CN117409262 A CN 117409262A CN 202311719576 A CN202311719576 A CN 202311719576A CN 117409262 A CN117409262 A CN 117409262A
Authority
CN
China
Prior art keywords
model
data
training
label
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311719576.9A
Other languages
English (en)
Other versions
CN117409262B (zh
Inventor
何一凡
杨子龙
王汉超
贾宝芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Ruiwei Information Technology Co ltd
Original Assignee
Xiamen Ruiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Ruiwei Information Technology Co ltd filed Critical Xiamen Ruiwei Information Technology Co ltd
Priority to CN202311719576.9A priority Critical patent/CN117409262B/zh
Publication of CN117409262A publication Critical patent/CN117409262A/zh
Application granted granted Critical
Publication of CN117409262B publication Critical patent/CN117409262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于CLIP快速构建图像分类模型的方法,包括S1、搜集图像;S2、使用CLIP模型筛选特定标签图像;S3、制作分类数据集,将数据集划分为训练集和测试集;S4、使用DivideMix方法训练分类模型。本发明采用CLIP图文匹配技术,通过输入标签文本即可从海量数据中提取出符合标签要求的数据图像,构建出可以用学习分类模型的数据集,而无需人工标注。同时针对筛选出的图像中可能存在的噪声(即类别错误)的问题,本发明引入带噪声数据的学习方法DivideMix,以降低数据集中噪声带来的影响。用此方法训练图像分类模型,可以提升模型的训练效率,降低数据标注需求,成本低,同时还可以达到不错的模型效果。

Description

基于CLIP快速构建图像分类模型的方法
技术领域
本发明涉及计算机的技术领域,特别是指一种基于CLIP快速构建图像分类模型的方法。
背景技术
目前构建一个鲁棒的图像分类模型,主流采用的都是有监督训练方法,其主要依靠人工标注图像,再训练模型。但人工标注图像成本高,效率低。
有鉴于此,本发明人针对现有图像分类模型构建方法未臻完善所导致的诸多缺失及不便而深入构思,且积极研究改良试做而开发出本发明。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于CLIP快速构建图像分类模型的方法。
为了达成上述目的,本发明的解决方案是:
一种基于CLIP快速构建图像分类模型的方法,其包括以下步骤:
S1:搜集图像;
S2:使用CLIP模型筛选特定标签图像,得到带噪声的数据集;
S3、制作分类数据集,将带噪声的数据集划分为训练集和测试集;
S4、使用DivideMix方法,用带噪声的数据集训练分类模型,DivideMix训练分类模型的流程分为以下步骤:
S41、模型初始化:随机初始化两个相同的分类神经网络A模型、B;
S42、预训练:A、B每个模型先正常训练对应的多个epoch,预训练阶段的损失函数为交叉熵损失加negative entropy惩罚项,其作用是限制置信度过高的预测结果,避免模型对噪声数据的过拟合;
S43、数据集划分:使用高斯混合模型对训练集样本的loss建模,将训练集根据loss大小划分为有标签和无标签两部分;
S44、半监督训练:半监督训练采用DivideMix中改进的MixMatch半监督训练方法,A模型划分的数据集用于给到B模型进行半监督训练,B模型划分的数据集用于给到A模型进行半监督训练;
S45、迭代:重复步骤S43、S44,训练多个epoch;
S46、半监督训练的模型的推理:将半监督训练的模型用于推理。
进一步,所述步骤4中,带噪声的数据训练分类模型包括以下步骤:
A1、在步骤S43中划分半监督训练数据集,划分方法为:记录训练集中每个样本的分类loss,使用高斯混合模型建模,将loss分布分解为两个高斯分布的统计模型,一个为正确分类的分布,处于这个分布中心的样本loss较小;另外一个为错误分类的分布,处于这个分布中心的样本loss较大,选取分类loss较小的分布,使用阈值将样本分为两部分,大于设定阈值的保留原标签,剩下的设为无标签;
A2、在步骤S44中实现半监督训练,实现方法为:半监督训练的时候A、B模型交替训练,一个模型训练的时候另一个模型提供辅助;
A3、在步骤S46中进行半监督模型推理,主要有两种方法:A、B双模型联合推理和单模型推理,A、B双模型联合推理的做法是:读取图片,图像预处理,A模型前向推理得到结果tensor A,B模型前向推理得到结果tensor B,将tensor A与tensor B相加,取概率最大的值对应的类别;单模型推理的做法是:选择A模型、B中在测试集上表现更好的模型作为最终的模型。
进一步,上述步骤A2半监督训练的具体实现方法主要包括以下步骤:
A21、加载数据训练数据,对数据进行增强;
一个batch加载等量的有标签和无标签的图像数据,标签转换为One-hot编码形式,有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本;
A22、对有标签的数据的标签进行线性加权修正,对无标签的数据的标签进行猜测;
A23、对数据增强后的数据进行MixUp;
一个次数据加载n个有标签的样本和n个无标签的样本,经过数据增强会产生2n个有标签的样本,和2n个无标签的样本,将所有样本合成一个列表,前面2n个为有标签的样本,后面2n个为无标签的样本,列表中的每个样本与4n个样本中的随机一个做MixUp,产生4n个新的样本,无标签样本在MixUp时使用的是猜测的标签,MixUp时,令合并系数
A24、使用MixUp后的数据训练模型;
训练模型时,模型损失函数分为三部分,前2n个以有标签为主的MixUp数据采用交叉熵损失,后2n个以猜测标签为主的MixUp数据采用均方差损失,另外加上正则项,避免模型的所有输出为同一类。
进一步,上述步骤A22中,有标签数据线性加权修正标签的做法是:当对A模型进行半监督训练时,将带标签的样本的标签运用B模型的预测结果进行修正,假设B网络预测样本为正确分类的概率为,类别标签为/>,B模型的网络预测为/>,则修正的标签为:
训练时会将一个样本增强为2个样本,采用sharpening函数对一个样本对应的2个标签向量进行降温,得到该样本的标签,当训练B模型时也是如此,只是采用A模型作为辅助;
无标签数据联合推测标签做法是:针对无标签样本和其数据增强后的2个样本,分别输入A模型和B模型,得到4个预测向量,对每个样本的2个两个预测结果取平均,并采用sharpening函数对这4个样本的预测向量进行降温,得到该样本的标签。
进一步,步骤S2中,使用CLIP输入文本描述搜索图像的方法是:分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征,然后计算两者特征的相似度,与输入文本相似度高的图像即为需要的图像。
进一步,步骤S2中,筛选特定标签图像采用排序筛选法,针对大量不限定类别的图像,将图像按相似度从高到低排序,随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片,根据错误率确定阈值,挑选出相似度大于阈值的图像。
进一步,步骤S2中,若是所有待筛选的图像都属于限定的几个类别,采用CLIP模型对图片进行零样本分类制作数据集,具体做法为:对于特定的一张图片,计算其与所有类别描述的相似性,将其归为相似度最大的文本类别。
进一步,步骤S3的具体做法是:将S2中根据CLIP算法筛选出来的图像按照类别存放,相同类别的图像放在同一文件夹中,数量方面要求单类别图像数量不少于2000张,当数量不足时需要搜集更多数据,并使用CLIP进行筛选。
采用上述方案后,本发明基于CLIP快速构建图像分类模型的方法采用CLIP图文匹配技术,通过输入标签文本即可从海量数据中提取出符合标签要求的数据图像,构建出可以用学习分类模型的数据集,而无需人工标注。同时针对筛选出的图像中可能存在的噪声(即类别错误)的问题,本发明引入带噪声数据的学习方法DivideMix,以降低数据集中噪声带来的影响。用此方法训练图像分类模型,可以提升模型的训练效率,降低数据标注,成本低,同时还可以达到不错的训练效果。相较于现有技术,本发明具有以下优点:
1、本发明可快速获取所需标签的图像,无需标注,降低数据获取成本。
2、本发明将大模型的泛化性用于小模型的训练,缩短分类模型实现周期。
3、本发明带噪声的模型训练方法能够避免传统训练方法在噪声数据集上无法获得良好分类效果的问题,提高分类模型的精度。
附图说明
图1为本发明的流程图。
图2为本发明排序筛选法的流程图。
图3为本发明零样本分类法的流程图。
图4为本发明数据集划分及模型训练的流程图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
本发明提出了一种基于CLIP快速构建图像分类模型的方法,主要借助大模型的泛化性能,采用CLIP筛选图像制作成数据集,针对图像数据集中可能存在的噪声,采用DivideMix训练分类模型,降低噪声的影响,提升模型精度。
如图1所示,本发明基于CLIP快速构建图像分类模型的方法主要包含以下四个步骤:
S1:搜集图像
因为使用CLIP算法数据筛选速度快,可以先准备大量的图像数据,供算法筛选。且考虑到需要训练的模型的鲁棒性,准备的数据集越大,包含的图片类型越多,越有利于数据的筛选和模型的训练。准备数据集的方法可分为两种:根据关键词网上爬取视频和图片;自己录取相关图片和视频。
若是搜集到的图像数据较少,在用CLIP筛选图片制作数据集后,可以人工修正数据集中的噪声数据,再采用在预训练模型上微调的方法正常训练分类模型。
S2:使用CLIP模型筛选特定标签图像
CLIP模型可以采用开源已经训练好的ChineseCLIP开源的模型,也可选择OpenAI官方预训练的CLIP模型,前者搜索的时候使用中文的文本描述,后者使用时需采用英文的文本描述。
使用CLIP输入文本描述搜索图像的方法原理是:分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征,然后计算两者特征的相似度,与输入文本相似度高的图像即为需要的图像;为了达到更好的图像筛选效果,本实施例采用了较大的图像特征提取网络VIT-H-14。
输入的文本描述根据需要筛选的数据而定,可以是“猫的图像”,“狗的图像”,“飞机的图像”,“带墨镜的人的图像”等。本实施例列举排序筛选法和限定类别中进行零样本分类法两种图像筛选方法。
如图2所示,排序筛选法是针对大量不限定类别的图像,采用按相似度排序后,筛选出相似度最高的topK张图像。即将图像按相似度从高到低排序,随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片,根据错误率为20%确定阈值,挑选出相似度大于阈值的图像。
如图3所示,限定类别中进行零样本分类,若是所有待筛选的图像都属于限定的几个类别,采用CLIP模型对图片进行零样本分类制作数据集。具体做法为:对于特定的一张图片,计算其与所有类别描述的相似性,将其归为相似度最大的文本类别。
S3:制作分类数据集
将S2中根据CLIP算法筛选出来的图像按照类别存放,相同类别的图像放在同一文件夹中,数量方面要求单类别图像数量不少于2000张,当数量不足时需要搜集更多数据,并使用CLIP进行筛选。然后将数据集按8:2划分为训练集和测试集,对测试集中的图片进行人工核验,修正错误分类的图像。
S4:使用DivideMix方法,用带噪声的数据训练分类模型,如图4所示,DivideMix模型训练的流程分为以下步骤:
S41、模型初始化:随机初始化两个相同的分类神经网络A模型、B。分类神经网络可以是ResNet、ShuffleNet、MobileNet、MobileViT等;
S42、预训练:A、B每个模型先正常训练15个epoch。预热阶段的损失函数为交叉熵损失加negative entropy惩罚项,其作用是限制置信度过高的预测结果,避免模型对噪声数据的过拟合;
S43、数据集划分:使用高斯混合模型对训练集样本的loss建模,将训练集根据loss大小划分为有标签和无标签两部分;
S44、半监督训练:半监督训练采用DivideMix中改进的MixMatch半监督训练方法,A模型划分的数据集用于给到B模型进行半监督训练,B模型划分的数据集用于给到A模型进行半监督训练;
S45、迭代:重复步骤S43、S44,训练300个epoch;
S46、半监督训练的模型的推理:将半监督训练的模型用于推理。
所述步骤4中,所述带噪声的数据训练分类模型包括以下步骤:
A1、在步骤S43中划分半监督训练数据集,划分方法为:记录训练集中每个样本的分类loss,使用高斯混合模型建模,将loss分布分解为两个高斯分布的统计模型,一个为正确分类的分布,处于这个分布中心的样本loss较小;另外一个为错误分类的分布,处于这个分布中心的样本loss较大。选取分类loss较小的分布,使用0.5的阈值将样本分为两部分,阈值大于0.5的保留原标签,剩下的设为无标签。
A2、在步骤S44中实现半监督训练,实现方法为:半监督训练的时候A、B模型交替训练,一个模型训练的时候另一个模型提供辅助。具体实现方法主要有四步:
A21、加载数据训练数据,对数据进行增强
一个batch加载等量的有标签和无标签的图像数据,标签转换为One-hot编码形式。有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本。
A22、对有标签的数据的标签进行线性加权修正,对无标签的数据的标签进行猜测。
有标签数据线性加权修正标签的做法是:当对A模型进行半监督训练时,将带标签的样本的标签运用B模型的预测结果进行修正。假设B模型的网络预测样本为正确分类的概率为,类别标签为/>,B模型的网络预测为/>,则修正的标签为:
训练时会将一个样本增强为2个样本,采用sharpening函数对一个样本对应的2个标签向量进行降温,得到该样本的标签。当训练B模型时也是如此,只是采用A模型作为辅助。
无标签数据联合推测标签做法是:针对无标签样本和其数据增强后的2个样本,分别输入A模型和B模型,得到4个预测向量,对每个样本的2个两个预测结果取平均,并采用sharpening函数对这4个样本的预测向量进行降温,得到该样本的标签。
A23、对数据增强后的数据进行MixUp
一个次数据加载n个有标签的样本和n个无标签的样本。则经过数据增强,会产生2n个有标签的样本,和2n个无标签的样本。将所有样本合成一个列表,前面2n个有标签的样本,后面2n个为无标签的样本。列表中的每个样本与4n个样本中的随机一个做MixUp,产生4n个新的样本,无标签样本在MixUp时使用的是猜测的标签。MixUp时,为了保证合并时第一张图占更大比重,令合并系数
A24、使用MixUp后的数据训练模型
训练模型时,模型损失函数分为三部分,前2n个以有标签为主的MixUp数据采用交叉熵损失,后2n个以猜测标签为主的MixUp数据采用均方差损失,另外加上正则项,避免模型的所有输出为同一类。
A3、在步骤S46中进行半监督模型推理,主要有两种方法:A、B双模型联合推理和单模型推理,A、B双模型联合推理精度更高,单模型推理速度更快。
A、B双模型联合推理的做法是:读取图片,图像预处理(同训练),A模型前向推理得到结果tensor A,B模型前向推理得到结果tensor B,将tensor A与tensor B相加,取概率最大的值对应的类别。
单模型推理的做法是:考虑到推理时的计算量和资源占用,可以选择A模型、B中在测试集上表现更好的模型作为最终的模型。
经验证,单个模型的测试集精度可达94.6%,双模型联合推理的精度可达95.1%。
本发明使用CLIP方法快速制作指定标签的数据集,具体包含数据集搜集方法和数据集筛选方法。根据搜集的数据中所包含图像的类别是否为限定类别,数据筛选采用了相似度排序和零样本分类两种方法。在图像筛选时,CLIP模型中图像特征提取使用ViT-H-14网络提升图像特征提取效果,进而有助于更好的实现图像筛选;为了去除基于CLIP方法筛选的数据集中存在的噪声在训练分类模型时的影响,本发明引入DivideMix方法,实现了使用带噪声数据集也可以训练出效果好的分类模型,同时,也提出了推理时采用单模型,降低算法对计算资源消耗。将CLIP图文匹配的方法和DivideMix带噪声数据集的训练方法结合起来,实现低成本和高效的图像分类模型快速构建方法。
上述实施例和图式并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。

Claims (8)

1.基于CLIP快速构建图像分类模型的方法,其特征在于,包括以下步骤:
S1、搜集图像;
S2、使用CLIP模型筛选特定标签图像,得到带噪声的数据集;
S3、制作分类数据集,将带噪声的数据集划分为训练集和测试集;
S4、使用DivideMix方法,用带噪声的数据集训练分类模型,DivideMix训练分类模型的流程分为以下步骤:
S41、模型初始化:随机初始化两个相同的分类神经网络A模型、B模型;
S42、预训练:A、B每个模型先正常训练对应的多个epoch,预训练阶段的损失函数为交叉熵损失加negative entropy惩罚项,其作用是限制置信度过高的预测结果,避免模型对噪声数据的过拟合;
S43、数据集划分:使用高斯混合模型对训练集样本的loss建模,将训练集根据loss大小划分为有标签和无标签两部分;
S44、半监督训练:半监督训练采用DivideMix中改进的MixMatch半监督训练方法,A模型划分的数据集用于给到B模型进行半监督训练,B模型划分的数据集用于给到A模型进行半监督训练;
S45、迭代:重复步骤S43、S44,训练多个epoch;
S46、半监督训练的模型的推理:将半监督训练的模型用于推理。
2.如权利要求1所述的基于CLIP快速构建图像分类模型的方法,其特征在于,所述步骤S4中,带噪声的数据集训练分类模型包括以下步骤:
A1、在步骤S43中划分半监督训练数据集,划分方法为:记录训练集中每个样本的分类loss,使用高斯混合模型建模,将loss分布分解为两个高斯分布的统计模型,一个为正确分类的分布,处于这个分布中心的样本loss较小;另外一个为错误分类的分布,处于这个分布中心的样本loss较大,选取分类loss较小的分布,使用阈值将样本分为两部分,大于设定阈值的保留原标签,剩下的设为无标签;
A2、在步骤S44中实现半监督训练,实现方法为:半监督训练的时候A、B模型交替训练,一个模型训练的时候另一个模型提供辅助;
A3、在步骤S46中进行半监督模型推理,主要有两种方法:A、B双模型联合推理和单模型推理,A、B双模型联合推理的做法是:读取图片,图像预处理,A模型前向推理得到结果tensor A,B模型前向推理得到结果tensor B,将tensor A与tensor B相加,取概率最大的值对应的类别;单模型推理的做法是:选择A模型、B中在测试集上表现更好的模型作为最终的模型。
3.如权利要求2所述的基于CLIP快速构建图像分类模型的方法,其特征在于,上述步骤A2具体实现方法主要包括以下步骤:
A21、加载数据训练数据,对数据进行增强;
一个batch加载等量的有标签和无标签的图像数据,标签转换为One-hot编码形式,有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本;
A22、对有标签的数据的标签进行线性加权修正,对无标签的数据的标签进行猜测;
A23、对数据增强后的数据进行MixUp;
一个次数据加载n个有标签的样本和n个无标签的样本,经过数据增强会产生2n个有标签的样本,和2n个无标签的样本,将所有样本合成一个列表,前面2n个为有标签的样本,后面2n个为无标签的样本,列表中的每个样本与4n个样本中的随机一个做MixUp,产生4n个新的样本,无标签样本在MixUp时使用的是猜测的标签,MixUp时,令合并系数
A24、使用MixUp后的数据训练模型;
训练模型时,模型损失函数分为三部分,前2n个以有标签为主的MixUp数据采用交叉熵损失,后2n个以猜测标签为主的MixUp数据采用均方差损失,另外加上正则项,避免模型的所有输出为同一类。
4.如权利要求3所述的基于CLIP快速构建图像分类模型的方法,其特征在于,上述步骤A22中,有标签数据线性加权修正标签的做法是:当对A模型进行半监督训练时,将带标签的样本的标签运用B模型的预测结果进行修正,假设B网络预测样本为正确分类的概率为,类别标签为/>,B模型的网络预测为/>,则修正的标签为:
训练时会将一个样本增强为2个样本,采用sharpening函数对一个样本对应的2个标签向量进行降温,得到该样本的标签,当训练B模型时也是如此,只是采用A模型作为辅助;
无标签数据联合推测标签做法是:针对无标签样本和其数据增强后的2个样本,分别输入A模型和B模型,得到4个预测向量,对每个样本的2个两个预测结果取平均,并采用sharpening函数对这4个样本的预测向量进行降温,得到该样本的标签。
5.如权利要求1所述的基于CLIP快速构建图像分类模型的方法,其特征在于:步骤S2中,使用CLIP输入文本描述搜索图像的方法是:分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征,然后计算两者特征的相似度,与输入文本相似度高的图像即为需要的图像。
6.如权利要求5所述的基于CLIP快速构建图像分类模型的方法,其特征在于:步骤S2中,筛选特定标签图像采用排序筛选法,针对大量不限定类别的图像,将图像按相似度从高到低排序,随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片,根据错误率确定阈值,挑选出相似度大于阈值的图像。
7.如权利要求5或6所述的基于CLIP快速构建图像分类模型的方法,其特征在于:步骤S2中,若是所有待筛选的图像都属于限定的几个类别,采用CLIP模型对图片进行零样本分类制作数据集,具体做法为:对于特定的一张图片,计算其与所有类别描述的相似性,将其归为相似度最大的文本类别。
8.如权利要求1所述的基于CLIP快速构建图像分类模型的方法,其特征在于:步骤S3的具体做法是:将S2中根据CLIP算法筛选出来的图像按照类别存放,相同类别的图像放在同一文件夹中,数量方面要求单类别图像数量不少于2000张,当数量不足时需要搜集更多数据,并使用CLIP进行筛选。
CN202311719576.9A 2023-12-14 2023-12-14 基于clip快速构建图像分类模型的方法 Active CN117409262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311719576.9A CN117409262B (zh) 2023-12-14 2023-12-14 基于clip快速构建图像分类模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311719576.9A CN117409262B (zh) 2023-12-14 2023-12-14 基于clip快速构建图像分类模型的方法

Publications (2)

Publication Number Publication Date
CN117409262A true CN117409262A (zh) 2024-01-16
CN117409262B CN117409262B (zh) 2024-03-01

Family

ID=89500299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311719576.9A Active CN117409262B (zh) 2023-12-14 2023-12-14 基于clip快速构建图像分类模型的方法

Country Status (1)

Country Link
CN (1) CN117409262B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881687A (zh) * 2015-06-02 2015-09-02 四川理工学院 基于半监督高斯混合模型的磁共振图像分类方法
US20210089883A1 (en) * 2019-09-24 2021-03-25 Salesforce.Com, Inc. System and Method for Learning with Noisy Labels as Semi-Supervised Learning
CN113792809A (zh) * 2021-09-18 2021-12-14 中国空间技术研究院 基于随机半监督特征提取模型的遥感图片分类方法
CN114881125A (zh) * 2022-04-22 2022-08-09 西安和硕物流科技有限公司 基于图一致性和半监督模型的标签含噪图像分类方法
CN115294402A (zh) * 2022-08-24 2022-11-04 合肥市正茂科技有限公司 一种基于去冗余多阶混合训练的半监督车辆分类方法
CN116432026A (zh) * 2023-03-07 2023-07-14 阿里巴巴(中国)有限公司 视觉语言理解任务处理方法和系统
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116468938A (zh) * 2023-04-03 2023-07-21 南京大学 一种在标签带噪数据上鲁棒的图像分类方法
US20230359900A1 (en) * 2022-05-03 2023-11-09 Salesforce, Inc. Systems and methods for masked self-training of unsupervised image classification
CN117033961A (zh) * 2023-08-22 2023-11-10 浙江大学 一种上下文语境感知的多模态图文分类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881687A (zh) * 2015-06-02 2015-09-02 四川理工学院 基于半监督高斯混合模型的磁共振图像分类方法
US20210089883A1 (en) * 2019-09-24 2021-03-25 Salesforce.Com, Inc. System and Method for Learning with Noisy Labels as Semi-Supervised Learning
CN113792809A (zh) * 2021-09-18 2021-12-14 中国空间技术研究院 基于随机半监督特征提取模型的遥感图片分类方法
CN114881125A (zh) * 2022-04-22 2022-08-09 西安和硕物流科技有限公司 基于图一致性和半监督模型的标签含噪图像分类方法
US20230359900A1 (en) * 2022-05-03 2023-11-09 Salesforce, Inc. Systems and methods for masked self-training of unsupervised image classification
CN115294402A (zh) * 2022-08-24 2022-11-04 合肥市正茂科技有限公司 一种基于去冗余多阶混合训练的半监督车辆分类方法
CN116432026A (zh) * 2023-03-07 2023-07-14 阿里巴巴(中国)有限公司 视觉语言理解任务处理方法和系统
CN116468938A (zh) * 2023-04-03 2023-07-21 南京大学 一种在标签带噪数据上鲁棒的图像分类方法
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117033961A (zh) * 2023-08-22 2023-11-10 浙江大学 一种上下文语境感知的多模态图文分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
_连天衰草: "DivideMix方法剖析—论文解读:DivideMix: Learning with Noisy Labels as Semi-supervised Learning", pages 1 - 6, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_44326946/article/details/125244786> *
刘君;熊忠阳;王银辉;: "图像多分类主动学习方法", 计算机工程与应用, no. 13, 1 May 2010 (2010-05-01) *

Also Published As

Publication number Publication date
CN117409262B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
Wang et al. Suppressing uncertainties for large-scale facial expression recognition
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN110119786B (zh) 文本话题分类方法及装置
CN110472003B (zh) 基于图卷积网络的社交网络文本情感细粒度分类方法
US8406483B2 (en) Boosted face verification
CN109902202B (zh) 一种视频分类方法及装置
CN111666873A (zh) 一种基于多任务深度学习网络的训练方法、识别方法及系统
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
Shetty et al. Segmentation and labeling of documents using conditional random fields
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN109635647B (zh) 一种基于约束条件下的多图片多人脸的聚类方法
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
Fadhilah et al. Non-halal ingredients detection of food packaging image using convolutional neural networks
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN115292532A (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
Zhou et al. Do deep networks transfer invariances across classes?
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN117557886A (zh) 融合偏标签和消极学习的含噪声标签图像识别方法及系统
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN117409262B (zh) 基于clip快速构建图像分类模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant