CN117409262B

CN117409262B - 基于clip快速构建图像分类模型的方法

Info

Publication number: CN117409262B
Application number: CN202311719576.9A
Authority: CN
Inventors: 何一凡; 杨子龙; 王汉超; 贾宝芝
Original assignee: Xiamen Ruiwei Information Technology Co ltd
Current assignee: Xiamen Ruiwei Information Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-01
Anticipated expiration: 2043-12-14
Also published as: CN117409262A

Abstract

本发明公开一种基于CLIP快速构建图像分类模型的方法，包括S1、搜集图像；S2、使用CLIP模型筛选特定标签图像；S3、制作分类数据集，将数据集划分为训练集和测试集；S4、使用DivideMix方法训练分类模型。本发明采用CLIP图文匹配技术，通过输入标签文本即可从海量数据中提取出符合标签要求的数据图像，构建出可以用学习分类模型的数据集，而无需人工标注。同时针对筛选出的图像中可能存在的噪声（即类别错误）的问题，本发明引入带噪声数据的学习方法DivideMix，以降低数据集中噪声带来的影响。用此方法训练图像分类模型，可以提升模型的训练效率，降低数据标注需求，成本低，同时还可以达到不错的模型效果。

Description

基于CLIP快速构建图像分类模型的方法

技术领域

本发明涉及计算机的技术领域，特别是指一种基于CLIP快速构建图像分类模型的方法。

背景技术

目前构建一个鲁棒的图像分类模型，主流采用的都是有监督训练方法，其主要依靠人工标注图像，再训练模型。但人工标注图像成本高，效率低。

有鉴于此，本发明人针对现有图像分类模型构建方法未臻完善所导致的诸多缺失及不便而深入构思，且积极研究改良试做而开发出本发明。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于CLIP快速构建图像分类模型的方法。

为了达成上述目的，本发明的解决方案是：

一种基于CLIP快速构建图像分类模型的方法，其包括以下步骤：

S1：搜集图像；

S2：使用CLIP模型筛选特定标签图像，得到带噪声的数据集；

S3、制作分类数据集，将带噪声的数据集划分为训练集和测试集；

S4、使用DivideMix方法，用带噪声的数据集训练分类模型，DivideMix训练分类模型的流程分为以下步骤：

S41、模型初始化：随机初始化两个相同的分类神经网络A模型、B；

S42、预训练：A、B每个模型先正常训练对应的多个epoch，预训练阶段的损失函数为交叉熵损失加negative entropy惩罚项，其作用是限制置信度过高的预测结果，避免模型对噪声数据的过拟合；

S43、数据集划分：使用高斯混合模型对训练集样本的loss建模，将训练集根据loss大小划分为有标签和无标签两部分；

S44、半监督训练：半监督训练采用DivideMix中改进的MixMatch半监督训练方法，A模型划分的数据集用于给到B模型进行半监督训练，B模型划分的数据集用于给到A模型进行半监督训练；

S45、迭代：重复步骤S43、S44，训练多个epoch；

S46、半监督训练的模型的推理：将半监督训练的模型用于推理。

进一步，所述步骤4中，带噪声的数据训练分类模型包括以下步骤：

A1、在步骤S43中划分半监督训练数据集，划分方法为：记录训练集中每个样本的分类loss，使用高斯混合模型建模，将loss分布分解为两个高斯分布的统计模型，一个为正确分类的分布，处于这个分布中心的样本loss较小；另外一个为错误分类的分布，处于这个分布中心的样本loss较大，选取分类loss较小的分布，使用阈值将样本分为两部分，大于设定阈值的保留原标签，剩下的设为无标签；

A2、在步骤S44中实现半监督训练，实现方法为：半监督训练的时候A、B模型交替训练，一个模型训练的时候另一个模型提供辅助；

A3、在步骤S46中进行半监督模型推理，主要有两种方法：A、B双模型联合推理和单模型推理，A、B双模型联合推理的做法是：读取图片，图像预处理，A模型前向推理得到结果tensor A，B模型前向推理得到结果tensor B，将tensor A与tensor B相加，取概率最大的值对应的类别；单模型推理的做法是：选择A模型、B中在测试集上表现更好的模型作为最终的模型。

进一步，上述步骤A2半监督训练的具体实现方法主要包括以下步骤：

A21、加载数据训练数据，对数据进行增强；

一个batch加载等量的有标签和无标签的图像数据，标签转换为One-hot编码形式，有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本；

A22、对有标签的数据的标签进行线性加权修正，对无标签的数据的标签进行猜测；

A23、对数据增强后的数据进行MixUp；

一个次数据加载n个有标签的样本和n个无标签的样本，经过数据增强会产生2n个有标签的样本，和2n个无标签的样本，将所有样本合成一个列表，前面2n个为有标签的样本，后面2n个为无标签的样本，列表中的每个样本与4n个样本中的随机一个做MixUp，产生4n个新的样本，无标签样本在MixUp时使用的是猜测的标签，MixUp时，令合并系数。

A24、使用MixUp后的数据训练模型；

训练模型时，模型损失函数分为三部分，前2n个以有标签为主的MixUp数据采用交叉熵损失，后2n个以猜测标签为主的MixUp数据采用均方差损失，另外加上正则项，避免模型的所有输出为同一类。

进一步，上述步骤A22中，有标签数据线性加权修正标签的做法是：当对A模型进行半监督训练时，将带标签的样本的标签运用B模型的预测结果进行修正，假设B网络预测样本为正确分类的概率为，类别标签为/>，B模型的网络预测为/>，则修正的标签为：

训练时会将一个样本增强为2个样本，采用sharpening函数对一个样本对应的2个标签向量进行降温，得到该样本的标签，当训练B模型时也是如此，只是采用A模型作为辅助；

无标签数据联合推测标签做法是：针对无标签样本和其数据增强后的2个样本，分别输入A模型和B模型，得到4个预测向量，对每个样本的2个两个预测结果取平均，并采用sharpening函数对这4个样本的预测向量进行降温，得到该样本的标签。

进一步，步骤S2中，使用CLIP输入文本描述搜索图像的方法是：分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征，然后计算两者特征的相似度，与输入文本相似度高的图像即为需要的图像。

进一步，步骤S2中，筛选特定标签图像采用排序筛选法，针对大量不限定类别的图像，将图像按相似度从高到低排序，随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片，根据错误率确定阈值，挑选出相似度大于阈值的图像。

进一步，步骤S2中，若是所有待筛选的图像都属于限定的几个类别，采用CLIP模型对图片进行零样本分类制作数据集，具体做法为：对于特定的一张图片，计算其与所有类别描述的相似性，将其归为相似度最大的文本类别。

进一步，步骤S3的具体做法是：将S2中根据CLIP算法筛选出来的图像按照类别存放，相同类别的图像放在同一文件夹中，数量方面要求单类别图像数量不少于2000张，当数量不足时需要搜集更多数据，并使用CLIP进行筛选。

采用上述方案后，本发明基于CLIP快速构建图像分类模型的方法采用CLIP图文匹配技术，通过输入标签文本即可从海量数据中提取出符合标签要求的数据图像，构建出可以用学习分类模型的数据集，而无需人工标注。同时针对筛选出的图像中可能存在的噪声（即类别错误）的问题，本发明引入带噪声数据的学习方法DivideMix，以降低数据集中噪声带来的影响。用此方法训练图像分类模型，可以提升模型的训练效率，降低数据标注，成本低，同时还可以达到不错的训练效果。相较于现有技术，本发明具有以下优点：

1、本发明可快速获取所需标签的图像，无需标注，降低数据获取成本。

2、本发明将大模型的泛化性用于小模型的训练，缩短分类模型实现周期。

3、本发明带噪声的模型训练方法能够避免传统训练方法在噪声数据集上无法获得良好分类效果的问题，提高分类模型的精度。

附图说明

图1为本发明的流程图。

图2为本发明排序筛选法的流程图。

图3为本发明零样本分类法的流程图。

图4为本发明数据集划分及模型训练的流程图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

本发明提出了一种基于CLIP快速构建图像分类模型的方法，主要借助大模型的泛化性能，采用CLIP筛选图像制作成数据集，针对图像数据集中可能存在的噪声，采用DivideMix训练分类模型，降低噪声的影响，提升模型精度。

如图1所示，本发明基于CLIP快速构建图像分类模型的方法主要包含以下四个步骤：

S1：搜集图像

因为使用CLIP算法数据筛选速度快，可以先准备大量的图像数据，供算法筛选。且考虑到需要训练的模型的鲁棒性，准备的数据集越大，包含的图片类型越多，越有利于数据的筛选和模型的训练。准备数据集的方法可分为两种：根据关键词网上爬取视频和图片；自己录取相关图片和视频。

若是搜集到的图像数据较少，在用CLIP筛选图片制作数据集后，可以人工修正数据集中的噪声数据，再采用在预训练模型上微调的方法正常训练分类模型。

S2：使用CLIP模型筛选特定标签图像

CLIP模型可以采用开源已经训练好的ChineseCLIP开源的模型，也可选择OpenAI官方预训练的CLIP模型，前者搜索的时候使用中文的文本描述，后者使用时需采用英文的文本描述。

使用CLIP输入文本描述搜索图像的方法原理是：分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征，然后计算两者特征的相似度，与输入文本相似度高的图像即为需要的图像；为了达到更好的图像筛选效果，本实施例采用了较大的图像特征提取网络VIT-H-14。

输入的文本描述根据需要筛选的数据而定，可以是“猫的图像”，“狗的图像”，“飞机的图像”，“带墨镜的人的图像”等。本实施例列举排序筛选法和限定类别中进行零样本分类法两种图像筛选方法。

如图2所示，排序筛选法是针对大量不限定类别的图像，采用按相似度排序后，筛选出相似度最高的topK张图像。即将图像按相似度从高到低排序，随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片，根据错误率为20%确定阈值，挑选出相似度大于阈值的图像。

如图3所示，限定类别中进行零样本分类，若是所有待筛选的图像都属于限定的几个类别，采用CLIP模型对图片进行零样本分类制作数据集。具体做法为：对于特定的一张图片，计算其与所有类别描述的相似性，将其归为相似度最大的文本类别。

S3：制作分类数据集

将S2中根据CLIP算法筛选出来的图像按照类别存放，相同类别的图像放在同一文件夹中，数量方面要求单类别图像数量不少于2000张，当数量不足时需要搜集更多数据，并使用CLIP进行筛选。然后将数据集按8:2划分为训练集和测试集，对测试集中的图片进行人工核验，修正错误分类的图像。

S4：使用DivideMix方法，用带噪声的数据训练分类模型，如图4所示，DivideMix模型训练的流程分为以下步骤：

S41、模型初始化：随机初始化两个相同的分类神经网络A模型、B。分类神经网络可以是ResNet、ShuffleNet、MobileNet、MobileViT等;

S42、预训练：A、B每个模型先正常训练15个epoch。预热阶段的损失函数为交叉熵损失加negative entropy惩罚项，其作用是限制置信度过高的预测结果，避免模型对噪声数据的过拟合；

S45、迭代：重复步骤S43、S44，训练300个epoch；

所述步骤4中，所述带噪声的数据训练分类模型包括以下步骤：

A1、在步骤S43中划分半监督训练数据集，划分方法为：记录训练集中每个样本的分类loss，使用高斯混合模型建模，将loss分布分解为两个高斯分布的统计模型，一个为正确分类的分布，处于这个分布中心的样本loss较小；另外一个为错误分类的分布，处于这个分布中心的样本loss较大。选取分类loss较小的分布，使用0.5的阈值将样本分为两部分，阈值大于0.5的保留原标签，剩下的设为无标签。

A2、在步骤S44中实现半监督训练，实现方法为：半监督训练的时候A、B模型交替训练，一个模型训练的时候另一个模型提供辅助。具体实现方法主要有四步：

A21、加载数据训练数据，对数据进行增强

一个batch加载等量的有标签和无标签的图像数据，标签转换为One-hot编码形式。有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本。

A22、对有标签的数据的标签进行线性加权修正，对无标签的数据的标签进行猜测。

有标签数据线性加权修正标签的做法是：当对A模型进行半监督训练时，将带标签的样本的标签运用B模型的预测结果进行修正。假设B模型的网络预测样本为正确分类的概率为，类别标签为/>，B模型的网络预测为/>，则修正的标签为：

训练时会将一个样本增强为2个样本，采用sharpening函数对一个样本对应的2个标签向量进行降温，得到该样本的标签。当训练B模型时也是如此，只是采用A模型作为辅助。

A23、对数据增强后的数据进行MixUp

一个次数据加载n个有标签的样本和n个无标签的样本。则经过数据增强，会产生2n个有标签的样本，和2n个无标签的样本。将所有样本合成一个列表，前面2n个有标签的样本，后面2n个为无标签的样本。列表中的每个样本与4n个样本中的随机一个做MixUp，产生4n个新的样本，无标签样本在MixUp时使用的是猜测的标签。MixUp时，为了保证合并时第一张图占更大比重，令合并系数。

A24、使用MixUp后的数据训练模型

A3、在步骤S46中进行半监督模型推理，主要有两种方法：A、B双模型联合推理和单模型推理，A、B双模型联合推理精度更高，单模型推理速度更快。

A、B双模型联合推理的做法是：读取图片，图像预处理（同训练），A模型前向推理得到结果tensor A，B模型前向推理得到结果tensor B，将tensor A与tensor B相加，取概率最大的值对应的类别。

单模型推理的做法是：考虑到推理时的计算量和资源占用，可以选择A模型、B中在测试集上表现更好的模型作为最终的模型。

经验证，单个模型的测试集精度可达94.6%，双模型联合推理的精度可达95.1%。

本发明使用CLIP方法快速制作指定标签的数据集，具体包含数据集搜集方法和数据集筛选方法。根据搜集的数据中所包含图像的类别是否为限定类别，数据筛选采用了相似度排序和零样本分类两种方法。在图像筛选时，CLIP模型中图像特征提取使用ViT-H-14网络提升图像特征提取效果，进而有助于更好的实现图像筛选；为了去除基于CLIP方法筛选的数据集中存在的噪声在训练分类模型时的影响，本发明引入DivideMix方法，实现了使用带噪声数据集也可以训练出效果好的分类模型，同时，也提出了推理时采用单模型，降低算法对计算资源消耗。将CLIP图文匹配的方法和DivideMix带噪声数据集的训练方法结合起来，实现低成本和高效的图像分类模型快速构建方法。

上述实施例和图式并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

Claims

1.基于CLIP快速构建图像分类模型的方法，其特征在于，包括以下步骤：

S1、搜集图像；

S2、使用CLIP模型筛选特定标签图像，得到带噪声的数据集；

S3、采用CLIP模型对图片进行零样本分类制作数据集，具体做法为：对于特定的一张图片，计算其与所有类别描述的相似性，将其归为相似度最大的文本类别，将带噪声的数据集按8:2划分为训练集和测试集，对测试集中的图片进行人工核验，修正错误分类的图像；

S41、模型初始化：随机初始化两个相同的分类神经网络A模型、B模型；

S43、数据集划分：记录训练集中每个样本的分类loss，使用高斯混合模型建模，将loss分布分解为两个高斯分布的统计模型，一个为正确分类的分布，处于这个分布中心的样本loss较小；另外一个为错误分类的分布，处于这个分布中心的样本loss较大，选取分类loss较小的分布，使用阈值将样本分为两部分，大于设定阈值的保留原标签，剩下的设为无标签；

S44、半监督训练：半监督训练采用DivideMix中改进的MixMatch半监督训练方法，A模型划分的数据集用于给到B模型进行半监督训练，B模型划分的数据集用于给到A模型进行半监督训练；具体实现方法主要包括以下步骤：

A21、加载数据训练数据，对数据进行增强；

A22、对有标签的数据的标签进行线性加权修正，对无标签的数据的标签进行猜测；其中，有标签数据线性加权修正标签的做法是：当对A模型进行半监督训练时，将带标签的样本的标签运用B模型的预测结果进行修正，假设B网络预测样本为正确分类的概率为，类别标签为/>，B模型的网络预测为/>，则修正的标签为：

无标签数据联合推测标签做法是：针对无标签样本和其数据增强后的2个样本，分别输入A模型和B模型，得到4个预测向量，对每个样本的2个两个预测结果取平均，并采用sharpening函数对这4个样本的预测向量进行降温，得到该样本的标签；

A23、对数据增强后的数据进行MixUp；

一个次数据加载n个有标签的样本和n个无标签的样本，经过数据增强会产生2n个有标签的样本，和2n个无标签的样本，将所有样本合成一个列表，前面2n个为有标签的样本，后面2n个为无标签的样本，列表中的每个样本与4n个样本中的随机一个做MixUp，产生4n个新的样本，无标签样本在MixUp时使用的是猜测的标签，MixUp时，令合并系数；

A24、使用MixUp后的数据训练模型；

训练模型时，模型损失函数分为三部分，前2n个以有标签为主的MixUp数据采用交叉熵损失，后2n个以猜测标签为主的MixUp数据采用均方差损失，另外加上正则项，避免模型的所有输出为同一类；

S45、迭代：重复步骤S43、S44，训练多个epoch；

S46、半监督模型推理，主要有两种方法：A、B双模型联合推理和单模型推理，A、B双模型联合推理的做法是：读取图片，图像预处理，A模型前向推理得到结果tensor A，B模型前向推理得到结果tensor B，将tensor A与tensor B相加，取概率最大的值对应的类别；单模型推理的做法是：选择A模型、B模型中在测试集上表现更好的模型作为最终的模型。

2.如权利要求1所述的基于CLIP快速构建图像分类模型的方法，其特征在于：步骤S2中，使用CLIP输入文本描述搜索图像的方法是：分别采用CLIP模型中的文本特征提取网络Bert和图像特征提取网络ViT提取文字和图像各自的特征，然后计算两者特征的相似度，与输入文本相似度高的图像即为需要的图像。

3.如权利要求2所述的基于CLIP快速构建图像分类模型的方法，其特征在于：步骤S2中，筛选特定标签图像采用排序筛选法，针对大量不限定类别的图像，将图像按相似度从高到低排序，随着相似度逐渐降低会逐渐出现不符合文本描述类别的图片，根据错误率确定阈值，挑选出相似度大于阈值的图像。

4.如权利要求1所述的基于CLIP快速构建图像分类模型的方法，其特征在于：步骤S3的具体做法是：将步骤S2中根据CLIP算法筛选出来的图像按照类别存放，相同类别的图像放在同一文件夹中，数量方面要求单类别图像数量不少于2000张，当数量不足时需要搜集更多数据，并使用CLIP进行筛选。