CN115205592A

CN115205592A - 一种基于多模态数据的重平衡长尾图像数据分类方法

Info

Publication number: CN115205592A
Application number: CN202210829253.4A
Authority: CN
Inventors: 陈东明; 赵雨萌; 赵文吕; 聂铭硕; 王冬琦
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-18

Abstract

本发明属于图像分类领域，设计了一种基于多模态数据的重平衡长尾图像数据分类方法。该方法实现图像‑文本多模态学习在长尾图像分类问题上的应用，旨在使用相对平衡且易于获得、扩展性丰富的文本数据来监督模型对图像特征的学习，通过两个阶段的训练，提高模型在所有种类上的分类效果。第一个阶段使用CLIP大规模预训练模型中的图像和文本编码器，通过对比学习的方法建立两个模态数据的关联性，增强类内图像与文本互信息的同时扩大类间差异性。第二个阶段冻结图像与文本编码器，并在图像编码器后增加了一个多层感知机，使用类平衡采样策略和重平衡损失函数训练少量周期，进一步改善模型对于尾部类的分类能力。

Description

一种基于多模态数据的重平衡长尾图像数据分类方法

技术领域

本发明属于图像分类领域，具体涉及一种基于多模态数据的重平衡长尾图像数据分类方法。

背景技术

图像分类问题是计算机视觉领域的基础问题，旨在根据图像的语义信息将不同类别图像区分开来，实现最小的分类误差。深度学习在图像分类任务上表现良好很大程度上要归功于大规模的高质量训练数据，其中，不同种类包含的样本数量相同，避免了训练样本不均衡带来的负面影响。然而在现实应用中采集到的数据通常呈现为长尾分布，模型难以学习到所有种类的良好特征表示。

长尾数据不均衡给分类带来的问题本质上是最终分类器权重的不均衡问题，目前主流利用信息增强解决，该方法旨在模型训练的过程中引入额外的信息进行辅助，从而提升模型性能。头尾知识迁移利用头部类中的类内方差知识来指导尾部类进行特征增强，使尾部类的特征具备更大的类内方差；模型预训练利用对比学习的方式先进行自监督学习完成预训练，之后再对长尾数据进行正常的训练；知识蒸馏通过一个训练有素的老师模型的输出，去指导训练学生模型；自监督训练使用标记样本训练一个有监督模型，然后利用该模型为未标记样本生成伪标签，最后使用标记样本和未标记样本再次训练模型。

得益于额外引入的知识辅助，这些或迁移或增强数据的方法在提高尾部类分类效果的前提下，并未对头部类造成额外的负面影响，从根源上解决了长尾数据缺乏足够的尾部类信息的问题，是一种值得深入探索的方向。然而，简单使用数据增强技术往往不能有效的划分头部类与尾部类，头部类拥有更多的样本，会得到更多的增强处理，从而进一步加强了信息的不均衡现象。

发明内容

针对现有技术的不足，本发明设计一种基于多模态数据的重平衡长尾图像数据分类方法。

一种基于多模态数据的重平衡长尾图像数据分类方法，具体步骤如下：

步骤1：对图像数据和文本数据进行预处理；

给定一个mini-batch的图像数据I＝{I₁，...，I_N}和对应的标签文本数据T＝{T₁，...，T_N}，其中N为batch size；将mini-batch中属于i类的图像和标签文本两种模态数据表示为

和

其中

和

为I和T的子集，大小为n；

步骤2：对步骤1得到的图像模态数据

和标签文本模态数据

进行降维编码；

对于任意

将标签文本模态数据套入prompt模板“a photo of a{class}”变成句子并计算token；

将

中的图像与句子token分别送入图像编码器E^I和文本编码器E^T进行计算，得到图像模态嵌入表示

和标签描述模态嵌入表示

其中

D为两个模态Embedding对齐后的输出维度；

步骤3：计算图像模态数据和标签文本模态数据的相似度匹配；

根据步骤2得到的两个模态嵌入表示，通过余弦相似度S判断图像模态数据和标签文本模态数据是否匹配；

其中，

为属于j类图像模态嵌入表示，

为属于k类标签描述模态嵌入表示；

步骤4：对图像模态嵌入表示和标签描述模态嵌入表示进行对比学习预训练，来建立图像模态数据与标签文本模态数据之间种类内部的关联性，同时扩大类间相似性边界，作为第一阶段，即预训练CLIP模型；

步骤4.1：一个mini-batch中正样本个数为n²，为所有同类图像模态数据与标签文本模态数据之间的相似度，负样本个数为N²-n²，为i类图像模态数据与其他不同种类标签文本模态数据之间的相似度，mini-batch的余弦相似度矩阵

步骤4.2：对于任一图像模态嵌入表示和标签描述模态嵌入表示，将mini-batch中与其种类相同的对应模态数据所处位置下标编码为1，对不同种类的其所处位置下标设为0，得到一个mini-batch的两种模态数据编码矩阵

步骤4.3：计算第一阶段对比学习的损失函数：

其中τ为对比学习中的温度系数，设置初始值为0～0.1，并随着训练过程而更新；S_i，j是属于i类图像模态嵌入表示和属于j类标签描述模态嵌入表示的余弦相似度；S_i，k是属于i类图像模态嵌入表示和属于k类标签描述模态嵌入表示的余弦相似度；

步骤4.4：对CLIP预训练模型中优秀的特征提取能力进行知识蒸馏，使用一个蒸馏损失函数辅助完成知识迁移，以避免训练过程中对CLIP预训练模型造成过拟合现象：

其中S′为原始CLIP预训练模型冻结后对相同数据计算而得的余弦相似度；

步骤5：计算最终第一阶段的损失：

其中α为超参数，用于调节原始CLIP模型知识蒸馏占模型预训练的比重；

步骤6：重复执行步骤2-5，利用梯度下降算法进行反向传播，更新图像编码器参数，实现第一阶段CLIP模型预训练；

步骤7：任意给定一个大小为N的mini-batch图像模态数据

种类数量为C的所有种类标签文本模态数据的句子token为

分别经过图像编码器和文本编码器计算后得到嵌入表示

和

步骤8：计算步骤7得到的图像嵌入表示f^I和标签描述嵌入表示fT的原始余弦相似度：

S^ori＝f^I⊙(f^T)^·

得到

表示第一阶段训练后CLIP模型基于f^I和f^T，对每个图像种类的预测值；

步骤9：因为图像模态数据呈长尾分布，所以使用图像模态数据和文本模态数据对进行匹配分类仍然不能摆脱失衡问题，因此对CLIP模型进行重平衡以改变图像嵌入表示f^I对标签描述嵌入表示f^T的敏感程度，作为第二阶段，具体步骤如下：

步骤9.1：f^I经过MLP映射后维度不变，再与f^T计算相似度：

S^mlp＝MLP(f^I)⊙(f^T)^·

步骤9.2：将

中的余弦相似度加上种类数量权重，得到平衡的余弦相似度：

其中，i∈[1，N]，

μ_j＝n_j/n表示第j类样本数目占总数的比例；

步骤9.3：训将

与模态数据的one-hot标签使用交叉熵损失函数计算损失，之后进行反向传播，更新MLP参数：

其中τ为第一阶段训练后冻结的温度系数；

步骤10：将

和S^ori加权求和，作为最终预测输出：

S^final＝λ*S^ori+(1-λ)*S^bal

其中λ为超参数，用于调整MLP模块重平衡的权重；

代表计算后得到的该图像模态数据对于所有种类描述文本模态数据的匹配程度，即代表预测结果，故argmax(S^final)为最终预测种类。

本发明有益技术效果

一种基于多模态数据的重平衡长尾图像数据分类方法，实现图像-文本多模态学习在长尾图像分类问题上的应用。在图像分类中长尾分布的训练数据会导致模型的学习过程容易被样本数据丰富的头部类别主导，对尾部类别的学习建模能力有限，给最终的分类准确率带来挑战。而本发明将模型的特征学习过程与针对长尾问题的重平衡过程解耦作为两个阶段来学习。第一个阶段保持数据集的原始采样策略不变，充分利用所有数据进行图像编码器特征学习，并引入文字模态的特征表示提供监督信息。为进一步改善样本数量稀少的种类的分类性能，消除长尾数据对编码器训练带来的学习偏差，在第二个阶段，冻结图像与文本编码器，并在图像编码器后增加一个多层感知机(Multilayer Perceptron，MLP)用来重新平衡图像编码器。为保留第一阶段学习到的良好特征表示，采用残差连接的思想，结合MLP添加前后模型输出的图像-文本对相似度作为最终的预测值。

本发明不但能够学习到良好的图像特征，而且可以利用图像标签的文字信息辅助引导模型分类，采用对比学习的方式将分类预测问题转换为图像-文本的配对问题，从而实现通过文本数据来监督图像分类训练。

与现有技术相比，本发明提出的技术方案相对其而言计算量大幅减少，该模型对于长尾分布数据集的特征学习能力已经十分接近于均衡数据集。该方法对于种类间的图像-文本对之间的分类边界学习的相当充分，能够从有限的样本数据中学习到类别间的差异性，也体现了标签文本描述的监督对于图像特征提取学习的促进作用。

附图说明

图1本发明CLIP模型第一阶段对比学习预训练框架示意图；

图2本发明CLIP模型第二阶段模型重平衡框架示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明；

本发明从图像-文本共同训练的角度出发，探索利用文字信息填补尾部类图像数量稀少带来的信息匮乏缺陷。首先使用对比学习预训练将各类图像与标签文字描述建立关联，最大化类内图像-文本对互信息的同时，扩大种类间的差异。之后针对图像长尾分布的特点引入种类间的图像样本数量信息，增加了一个多层感知机再次训练重平衡图像编码器。

步骤1：对图像数据和文本数据进行预处理；

和

其中

和

为I和T的子集，大小为n；

步骤2：对步骤1得到的图像模态数据

和标签文本模态数据

进行降维编码；

对于任意

将

和的图像与句子token分别送入图像编码器E^I和文本编码器E^T进行计算，得到图像模态嵌入表示

和标签描述模态嵌入表示

其中

D为两个模态Embedding对齐后的输出维度；

其中，

为属于j类图像模态嵌入表示，

为属于k类标签描述模态嵌入表示；

步骤4：对图像模态嵌入表示和标签描述模态嵌入表示进行对比学习预训练，来建立图像模态数据与标签文本模态数据之间种类内部的关联性，同时扩大类间相似性边界，作为第一阶段，即预训练CLIP模型；如附图1所示；

步骤4.3：计算第一阶段对比学习的损失函数：

步骤5：计算最终第一阶段的损失：

步骤7：任意给定一个大小为N的mini-batch图像模态数据

种类数量为C的所有种类标签文本模态数据的句子token为

分别经过图像编码器和文本编码器计算后得到嵌入表示

和

步骤8：计算步骤7得到的图像嵌入表示f^I和标签描述嵌入表示f^T的原始余弦相似度：

S^ori＝f^I⊙(f^T)^·

得到

步骤9：因为图像模态数据呈长尾分布，所以使用图像模态数据和文本模态数据对进行匹配分类仍然不能摆脱失衡问题，因此对CLIP模型进行重平衡以改变图像嵌入表示f^I对标签描述嵌入表示f^T的敏感程度，作为第二阶段，如附图2所示，具体步骤如下：

步骤9.1：f^I经过MLP映射后维度不变，再与f^T计算相似度：

S^mlp＝MLP(f^I)⊙(f^T)^·

步骤9.2：将

其中，i∈[1，N]，

μ_j＝n_j/n表示第j类样本数目占总数的比例；

步骤9.3：训将

其中τ为第一阶段训练后冻结的温度系数；

步骤10：将

和S^ori加权求和，作为最终预测输出：

S^final＝λ*S^ori+(1-λ)*S^bal

其中λ为超参数，用于调整MLP模块重平衡的权重；

本发明使用长尾分类领域CIFAR100数据集、ImageNet2012数据集和Places365数据集。由于原始数据集分布均衡，故采取通用处理方法将其划分为长尾分布数据集。本发明使用Top-1准确率作为主要评价指标，即最终分类器输出向量中概率最大的值所在下标作为模型预测类别的准确率。

其中A_t即Top-1准确率，A_u为经验性参考准确率，是基线准确率A_v和平衡准确率A_b中的最大值。基线准确率A_v表示算法使用的骨干网络在均衡训练集上使用交叉熵损失函数训练后的测试集准确率，平衡准确率A_b表示长尾方法在均衡训练集上训练后的测试集准确率。

本发明的基础网络为CLIP预训练模型，分别使用其公布的ResNet-50和ViT-Base/16两个Encoder作为图像编码器，文本编码器则为CLIP预训练后的GPT-2中的Transformer。

表1所示为CIFAR100-LT数据集上不同算法在CIFAR100-LT数据集3个不平衡比例ρ下的Top-1准确率，对比算法包括了传统类别重平衡(Focal Loss、LDAM等)、信息增强(OLTR、MiSLAS等)和改善模型模块(BBN、RIDE等)等方法、最新的有关图像-文本多模态学习在长尾分类上应用的算法如BALLAD。

表1 CIFAR100-LT不同ρ下的Top-1％准确率；

可以看到在3个不平衡比例数据集下，该方法均取得了最优效果，相比于同样使用CLIP预训练模型的BALLAD算法，ρ＝10、50和100时，ResNet-50图像编码器的Top-1准确率分别提高了6.6％，5.6％和4.8％。而ViT-16图像编码器由于特征学习己相对优秀，故提升较小，Top-1准确率分别提高了1.6％，0.3％和0.5％。需要注意到的是，BALLAD第一阶段没有冻结文本编码器，仍需学习更新文本编码器参数，因此本发明相对其而言计算量大幅减少。

表2所示为ImageNet-LT数据集上各算法的相对精度指标A_r的实验结果。

表2 ImageNet-LT相对精度(％)对比结果；

可以看到，BMLTC的相对精度高于90％，说明该模型对于长尾分布数据集的特征学习能力已经十分接近于均衡数据集。但BALLAD和BMLTC模型的相对精度不如RIDE，证明这类迁移算法之所以在长尾分布数据集上分类性能优越，部分原因来源于使用了图像特征提取能力强大的CLIP预训练模型。而RIDE的A_u相较于其他方法更高，说明模型取得良好分类效果的原因不仅限于对分类器的调整，虽然也提升了整体的学习泛化能力，但对于长尾分布数据集的提升更为明显，故最终相对精度也更高。此外，信息增强方法的A_u相对较高，也说明信息增强方法大都可以提高模型的特征学习能力，而设计特殊损失函数的方法对于长尾分布数据的训练更加贴合。

表3 Places-LT各部分的Top-1准确率(％)；

表3所示为Places-LT数据集上各算法的对比结果，除了BALLAD和BMLTC外，其他方法均使用ResNet-152作为骨干网络。可以看到，由于这些算法都是基于预训练好的ResNet-152模型再训练的，故在Places-LT这个数据集上各个算法的分类效果差距不是很大。BMLTC在ResNet-50和ViT-16图像编码器中分别相比BALLAD准确率均提升了0.5％和0.6％，在Few-Shot上与BALLAD提升不大甚至略低，而在Many-Shot上提升较多，分别提升了1.2％和1.4％。