CN116452895B - 基于多模态对称增强的小样本图像分类方法、装置及介质 - Google Patents

基于多模态对称增强的小样本图像分类方法、装置及介质 Download PDF

Info

Publication number
CN116452895B
CN116452895B CN202310693879.1A CN202310693879A CN116452895B CN 116452895 B CN116452895 B CN 116452895B CN 202310693879 A CN202310693879 A CN 202310693879A CN 116452895 B CN116452895 B CN 116452895B
Authority
CN
China
Prior art keywords
visual
text
features
sample
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310693879.1A
Other languages
English (en)
Other versions
CN116452895A (zh
Inventor
张新宇
王硕
何向南
郝艳宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310693879.1A priority Critical patent/CN116452895B/zh
Publication of CN116452895A publication Critical patent/CN116452895A/zh
Application granted granted Critical
Publication of CN116452895B publication Critical patent/CN116452895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态对称增强的小样本图像分类方法、装置及介质,该小样本图像分类方法包括以下步骤:基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移和模型训练与测试步骤。本发明通过在文本端和视觉端分别进行对称的级联增强操作,以样本扩充和文本扩充的方式利用充足的基础类别样本对新类别样本进行增强,并通过跨模态迁移交换来自不同模态的知识,从而最大限度地探索新类别数据分布,提升分类器的判别能力,提高小样本图像分类的准确度。

Description

基于多模态对称增强的小样本图像分类方法、装置及介质
技术领域
本发明属于图像处理技术领域,具体的说是基于多模态对称增强的小样本图像分类方法、装置及介质。
背景技术
近年来,卷积神经网络(CNN)已在图像分类、目标检测等各项计算机视觉任务中表现出了强大的性能,但这类数据驱动的网络往往需要经过大规模的有标注数据训练,以保证其准确性和鲁棒性。然而海量数据的收集与标注是一项耗时且昂贵的任务,其训练过程也需要耗费巨量的计算资源与时间成本。相比之下,由于人类已经有大量的知识积累,他们可以仅通过几个示例快速识别一个从未见过的新对象。因此,研究者提出了小样本学习(FSL)来模仿这种人类能力,从已知的基础类别样本中推理学习,进而达到快速图像理解的目的,使得CNN模型在训练样本极为稀缺的情况下,也可以对新类别样本有较好的识别能力,仅通过少量有标记的支持样本适应新的类别。
目前,简单且有效的一种解决方案是通过数据增强技术在有限的信息下最大限度地探索数据分布。大多数基于数据增强的小样本学习方法集中在探索可迁移的类内及类间特征,或训练生成器生成特定图像。前者学习相同基础类别内或类别间的样本差异,并泛化到新类别中,后者则利用基础类别样本训练生成网络,用以生成更多的新类别样本。然而,这类方法都极其依赖于基础类别样本的视觉特征,倾向于关注从基础类别中所学习到的物体的纹理和结构,而忽略了新样本的细节,导致分类性能较弱。
因此,另一类基于数据增强的小样本学习方法尝试引入多模态知识,从文本信息中提取语义知识,并将其作为知识迁移过程中的指导和补充,以获得更好的效果。例如训练以标签文本为条件的条件生成网络,引入文本特征进行多模态融合,或利用语义关系指导知识的迁移过程。这种方法缓解了仅在纯视觉特征增强训练的分类器存在的认知偏差。然而固定的文本输入缺乏灵活性,容易导致模型的过拟合,且引入了一定的外部噪声,反而误导了分类器的识别过程,导致了性能提升有限的问题。
基于上述分析,如何利用多样化的知识源来引导数据增强,是基于数据增强的小样本学习方法亟待解决的问题。包括从视觉、语言等不同角度收集多模态信息,并将其整合到生成样本的过程中,以提高分类器在新类别上的泛化能力。同时还需要平衡不同知识源之间的贡献,避免某些来源的信息对模型性能产生负面影响。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多模态对称增强的小样本图像分类方法、装置及介质,在有限信息的条件下最大限度地探索数据分布,从而提高小样本图像分类的准确性。
本发明为达到上述发明目的,采用如下技术方案:
第一方面,本发明提供了一种基于多模态对称增强的小样本图像分类方法,该图像分类方法包括以下步骤:
S1、构建基础类别候选集,利用多模态预训练模型CLIP中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集;
S2、视觉特征增强,利用预训练的CNN视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过Mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的CutMix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;
S3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过Mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的CutMix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;
S4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤S2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;
S5、文本知识迁移,将新类别的文本特征通过步骤S3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤S4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数;
S6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,利用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的CNN模型获取其视觉特征,再将该视觉特征分别通过视觉分类器后和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。
更进一步地,步骤S1中,所述构建基础类别候选集包括以下具体步骤:
S1.1、利用预训练的CLIP模型中的文本编码器获取新类别的文本特征Tnovel和基础类别的文本特征Tbase,Tnovel表示为:Tbase表示为:/>其中,Cnovel表示新类别集合,Cbase表示基础类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,|Cbase|表示基础类别集合中的类别数量,/>表示维度为dt的第i个新类别的文本特征,/>表示维度为dt的第j个基础类别的文本特征;
S1.2、计算第i个新类别的文本特征和第j个基础类别的文本特征/>之间的相似度ri,j,基于相似度ri,j进而构建集合/>表示为:/>ri,j表示为:其中,/>表示/>和/>之间的内积,/>分别表示/>的模长;
S1.3、将集合中的元素排序,并选出其中最大的k个元素对应的基础类别,构建基于文本相似度的基础类别候选集/>
更进一步地,步骤S2中,所述视觉特征增强包括以下具体步骤:
S2.1、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合Ds,Ds表示为:fs m表示维度为dv的第m个支持样本的视觉特征,/>表示第m个支持样本的类别标签,且/>Nnovel表示每个新类别中的支持样本数量;
S2.2、利用预训练的CNN模型获取基础样本的视觉特征及其标签的集合Db,Db表示为: 表示维度为dv的第n个基础样本的视觉特征,/>表示第n个基础样本的类别标签,且/>Nbase表示每个基础类别中的基础样本数量;
S2.3、对于类别为ls支持样本Is,从步骤S1.3得到的与其相关的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的视觉特征fs和样本Ib的视觉特征fb得到混合视觉特征/>混合视觉特征/>表示为:其中,λv为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签lb
S2.4、生成满足均匀分布的随机向量V,随机向量V的维度为dv,其中每个元素值的范围在0到1之间,并按照掩码比率αv将随机向量V转化为掩码向量Mv,掩码向量Mv的维度为dv,其中每个元素值为0或1;
S2.5、通过掩码向量Mv混合混合视觉特征和视觉特征fb,最终得到增强视觉特征表述为:/>其中,⊙表示按元素相乘。
更进一步地,步骤S3中,所述文本特征增强包括以下具体步骤:
S3.1、对于类别为ls支持样本Is,从步骤S1.3得到的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的文本特征ts和样本Ib的文本特征tb,得到混合文本特征/>表示为:/>其中,λt为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个文本特征的标签不进行混合,仍保持为支持类别标签;
S3.2、生成满足均匀分布的随机向量V′,随机向量V′的维度为dt,其中每个元素值的范围在0到1之间,并按照掩码比率αt将随机向量V′转化为掩码向量Mt,掩码向量Mt的维度为dt,其中每个元素值为0或1;
S3.3、通过掩码向量Mt混合混合文本特征和文本特征tb,最终得到增强文本特征表示为:/>其中,⊙表示按元素相乘。
更进一步地,所述随机向量V利用式转化为所述掩码向量Mv,其中,mi和vi分别为向量Mv和V第i个位置上的元素,超参数αv为掩码比率;所述随机向量V′利用式/>转化为所述掩码向量Mt,其中,m′i和v′i分别为向量Mt和V′第i个位置上的元素,超参数αt为掩码比率。
更进一步地,步骤S4中,所述视觉分类器训练包括以下具体步骤:
S4.1、在每次迭代中,从Ds中选取数量为B的一个批量的支持样本特征以及其标签/>经过步骤S2生成B个增强视觉特征/>
S4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数/>表示为: 表示为:/>其中,Wv为视觉分类器的权重,/>
S4.3、计算视觉分类器预测分数与真实标签之间的视觉损失Lv,视觉损失Lv表示为:其中,CE为交叉熵损失。
更进一步地,步骤S5中,所述文本知识迁移包括以下具体步骤:
S5.1、新类别的文本特征Tnovel经过步骤S3得到增强语义特征利用参数为和/>的线性层将增强语义特征/>映射为dv维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数/>和/>表示为: 表示为:/>其中,
S5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失Lt,Lt表示为:其中,CE为交叉熵损失。
更进一步地,步骤S6中,所述模型训练与测试包括以下具体步骤:
S6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数L,L表示为L=Lv+μLt
其中,μ为两个损失Lv和Lt之间的平衡系数;
S6.2、采用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;
S6.3、对于新类别集合Cnovel中测试样本,先利用预训练的CNN模型获取其视觉特征,再利用式pv=Classifier(fs)=Wv*(fs)T,分别通过视觉分类器和文本知识迁移得到视觉预测分数pv和迁移预测分数pt,将二者加权融合并取分数最大的位置,得到最终预测分数p,p表示为:p=argmax(pv+γpt),其中,γ为权重系数,预测分数p对应的类别即为测试样本图像分类的预测结果。
第二方面,本发明提供了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。
第三方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现所述的小样本图像分类方法。
与现有技术相比,本发明的有益效果如下:
1、本发明可以有效挖掘和利用文本知识中蕴含的类别关系,通过视觉模态增强利用基础类别的充足样本丰富新类别的表示,并通过文本模态增强提高了模型的鲁棒性和泛化性,提升了小样本分类方法的分类准确度,与以往的基于数据增强的小样本分类方法相比,本发明更加充分利用并有效衔接了来自基础类别以及额外文本的先验知识,减少了多模态知识中的偏差与噪声,是一种有效的小样本分类方法。
2、本发明在视觉和文本空间分别设计了对称的无参数增强策略,通过极小的计算量高效地增加了训练样本和监督信号来提高分类器的感知范围。
3、本发明充分挖掘了文本信息中蕴含的知识,综合利用了文本的特征表示和关联关系,并采用知识转移结构,在不同模态之间交换信息,提高分类器的分类能力。
4、本发明通过对文本知识进行充分挖掘,并利用文本知识指导在视觉端和文本端进行对称增强的策略,分别丰富新类别的视觉特征和语义表达,并通过跨模态知识迁移结合来自不同模态的知识,从而能减轻基础类别和新类别间样本数量差异的影响,最大限度地探索数据分布,并能提高小样本图像分类的准确度。
附图说明
图1为本发明提供的实施例1中基于多模态对称增强的小样本图像分类方法的流程图;
图2为本发明提供的实施例1中基于多模态对称增强的小样本图像分类模型结构图;
图3为本发明的实施例1中知识迁移模块示意图;
图4为本发明的实施例1中基于多模态对称增强的小样本图像分类原理框图。
具体实施方式
实施例1:
本实施例公开了一种基于多模态对称增强的小样本图像分类方法,参照图1和图2,该图像分类方法包括以下步骤:
S1、构建基础类别候选集,利用多模态预训练模型CLIP中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集。构建基础类别候选集包括以下具体步骤:
S1.1、利用预训练的CLIP模型中的文本编码器获取新类别的文本特征Tnovel和基础类别的文本特征Tbase,Tnovel表示为:Tbase表示为:/>其中,Cnovel表示新类别集合,Cbase表示基础类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,|Cbase|表示基础类别集合中的类别数量,/>表示维度为dt的第i个新类别的文本特征,/>表示维度为dt的第j个基础类别的文本特征;
S1.2、计算第i个新类别的文本特征和第j个基础类别的文本特征/>之间的相似度ri,j,基于相似度ri,j进而构建集合/>表示为:/>ri,j表示为:其中,/>表示/>和/>之间的内积,/>分别表示/>的模长;
S1.3、将集合中的元素排序,并选出其中最大的k个元素对应的基础类别,构建基于文本相似度的基础类别候选集/>本实施例中k=5。
S2、视觉特征增强,利用预训练的CNN视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过Mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的CutMix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;视觉特征增强包括以下具体步骤:
S2.1、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合Ds,Ds表示为:fs m表示维度为dv的第m个支持样本的视觉特征,/>表示第m个支持样本的类别标签,且/>Nnovel表示每个新类别中的支持样本数量;
S2.2、利用预训练的CNN模型获取基础样本的视觉特征及其标签的集合Db,Db表示为: 表示维度为dv的第n个基础样本的视觉特征,/>表示第n个基础样本的类别标签,且/>Nbase表示每个基础类别中的基础样本数量;
S2.3、对于类别为ls支持样本Is,从步骤S1.3得到的与其相关的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的视觉特征fs和样本Ib的视觉特征fb得到混合视觉特征/>混合视觉特征/>表示为:其中,λv为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签lb
S2.4、生成满足均匀分布的随机向量V,随机向量V的维度为dv,且每个元素值的范围在0到1之间,随机向量V利用式转化为掩码向量Mv,掩码向量Mv的维度为dv,且每个元素值为0或1,其中,mi和vi分别为向量Mv和V第i个位置上的元素,超参数αv为掩码比率,本实施例中αv=0.1;
S2.5、通过掩码向量Mv混合混合视觉特征和视觉特征fb,最终得到增强视觉特征表述为:/>其中,⊙表示按元素相乘。
S3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过Mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的CutMix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;文本特征增强包括以下具体步骤:
S3.1、对于类别为ls支持样本Is,从步骤S1.3得到的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的文本特征ts和样本Ib的文本特征tb,得到混合文本特征/>表示为:/>其中,λt为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个文本特征的标签不进行混合,仍保持为支持类别标签;
S3.2、生成满足均匀分布的随机向量V′,随机向量V′的维度为dt,且每个元素值的范围在0到1之间,随机向量V′利用式转化为掩码向量Mt,掩码向量Mt的维度为dt,且每个元素值为0或1,其中,m′i和v′i分别为向量Mt和V′第i个位置上的元素,超参数αt为掩码比率,本实施例中αt=0.1;
S3.3、通过掩码向量Mt混合混合文本特征和文本特征tb,最终得到增强文本特征表示为:/>其中,⊙表示按元素相乘。
S4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤S2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;视觉分类器训练包括以下具体步骤:
S4.1、在每次迭代中,从Ds中选取数量为B的一个批量的支持样本特征以及其标签/>经过步骤S2生成B个增强视觉特征/>
S4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数/>表示为: 表示为:/>其中,Wv为视觉分类器的权重,/>
S4.3、计算视觉分类器预测分数与真实标签之间的视觉损失Lv,视觉损失Lv表示为:其中,CE为交叉熵损失。
S5、文本知识迁移,将新类别的文本特征通过步骤S3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤S4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数。
参照图3,文本知识迁移包括以下具体步骤:
S5.1、新类别的文本特征Tnovel经过步骤S3得到增强语义特征利用参数为和/>的线性层将增强语义特征/>映射为dv维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数/>和/>表示为: 表示为:/>其中,
S5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失Lt,Lt表示为:其中,CE为交叉熵损失。
S6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,如图4所示。利用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的CNN模型获取其视觉特征,再将该视觉特征分别通过视觉分类器后和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。
模型训练与测试包括以下具体步骤:
S6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数L,L表示为L=Lv+μLt
其中,μ为两个损失Lv和Lt之间的平衡系数;
S6.2、采用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;
S6.3、对于新类别集合Cnovel中测试样本,先利用预训练的CNN模型获取其视觉特征,再利用式pv=Classifier(fs)=Wv*(fs)T,分别通过视觉分类器和文本知识迁移得到视觉预测分数pv和迁移预测分数pt,pv和pt分别从视觉和文本信息的角度携带类别知识,为了在推理阶段进行最终的预测,将pv和pt的预测融合一体,使之相互补充。具体地,将pv和pt加权融合并取分数最大的位置,得到最终预测分数p,p表示为:p=argmax(pv+γpt),其中,γ为权重系数,预测分数p对应的类别即为测试样本图像分类的预测结果。
本实施例中,文本知识使用语义表征来表达每个类别,并提供类别之间的直接关系,一个新类别只与少数几个基础类别较为相关,为了避免带入不相关的噪音影响分类器训练,在进行增强之前直接计算这些类别表示之间的关系,并为每个新类别构建相似基础类别候选集。在增强阶段之前,通过在基础类别上预训练的CNN模型将来自基础类别和新类别的视觉样本表示为视觉特征。对于每个新类别特征,将其与相似基础类别候选集中采样得到的随机基础类别样本进行Mixup操作,生成新的新类别特征。
除此之外,为了更充分地引入更多不同形式的基础类别信息,使得新生成的新类别特征更具多样性和泛化性,利用一个级联的特征级别CutMix操作来考虑更广泛的基础类别的信息。具体来说,首先随机屏蔽掉混合视觉特征中的一部分数值,然后用基础类别的视觉特征fb中相同位置的数值替换被屏蔽的数值。
现有的知识迁移方法往往从固定的文本表征开始,导致了模型的过拟合问题,同时也将文本中不正确的噪声信息也随着知识一起迁移进分类器的学习过程中。因此,本实施例在文本端设计了与视觉端对称的增强过程,从而丰富文本特征的表示,增强文本信息的多样性和模型的泛化性。
经过本实施例的步骤S2进行视觉特征增强,在每次迭代时都能将用作训练的新类别特征扩充到原来的两倍,进而利用这些原始样本和生成样本训练一个基于视觉特征的分类器。为了将步骤S2中产生的视觉增强特征与步骤S3得到增强语义特征相结合,沟通不同模态间的信息并进行多模态知识迁移,文本知识迁移模块可以从语义的角度对视觉特征进行分类。
实施例2:
本实施例公开了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行计算机可执行指令,计算机可执行指令被所述处理器运行时实现实施例1公开的小样本图像分类方法。
实施例3:
本实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时实现实施例1公开的小样本图像分类方法。

Claims (10)

1.一种基于多模态对称增强的小样本图像分类方法,其特征是,该图像分类方法包括以下步骤:
S1、构建基础类别候选集,利用多模态预训练模型CLIP中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集;
S2、视觉特征增强,利用预训练的CNN视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过Mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的CutMix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;
S3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过Mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的CutMix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;
S4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤S2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;
S5、文本知识迁移,将新类别的文本特征通过步骤S3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤S4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数;
S6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,利用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的CNN模型获取其视觉特征,再将该视觉特征分别通过视觉分类器和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。
2.根据权利要求1所述的小样本图像分类方法,其特征是,步骤S1中,所述构建基础类别候选集包括以下具体步骤:
S1.1、利用预训练的CLIP模型中的文本编码器获取新类别的文本特征Tnovel和基础类别的文本特征Tbase,Tnovel表示为:Tbase表示为:/>其中,Cnovel表示新类别集合,Cbase表示基础类别集合,且Cnovel与Cbase无交集,|Cnovel|表示新类别集合中的类别数量,|Cbase|表示基础类别集合中的类别数量,/>表示维度为dt的第i个新类别的文本特征,/>表示维度为dt的第j个基础类别的文本特征;
S1.2、计算第i个新类别的文本特征和第j个基础类别的文本特征/>之间的相似度ri,j,基于相似度ri,j进而构建集合/> 表示为:/>ri,j表示为:其中,/>表示/>和/>之间的内积,/>分别表示/>的模长;
S1.3、将集合中的元素排序,并选出其中最大的k个元素对应的基础类别,构建基于文本相似度的基础类别候选集/>
3.根据权利要求2所述的小样本图像分类方法,其特征是,步骤S2中,所述视觉特征增强包括以下具体步骤:
S2.1、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合Ds,Ds表示为: 表示维度为dv的第m个支持样本的视觉特征,/>表示第m个支持样本的类别标签,且/>Nnovel表示每个新类别中的支持样本数量;
S2.2、利用预训练的CNN模型获取基础样本的视觉特征及其标签的集合Db,Db表示为: 表示维度为dv的第n个基础样本的视觉特征,/>表示第n个基础样本的类别标签,且/>Nbase表示每个基础类别中的基础样本数量;
S2.3、对于类别为ls支持样本Is,从步骤S1.3得到的与其相关的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的视觉特征fs和样本Ib的视觉特征fb得到混合视觉特征/>混合视觉特征/>表示为:其中,λv为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签lb
S2.4、生成满足均匀分布的随机向量V,随机向量V的维度为dv,其中每个元素值的范围在0到1之间,并按照掩码比率αv将随机向量V转化为掩码向量Mv,掩码向量Mv的维度为dv,其中每个元素值为0或1;
S2.5、通过掩码向量Mv混合混合视觉特征和视觉特征fb,最终得到增强视觉特征/> 表述为:/>其中,⊙表示按元素相乘。
4.根据权利要求3所述的小样本图像分类方法,其特征是,步骤S3中,所述文本特征增强包括以下具体步骤:
S3.1、对于类别为ls支持样本Is,从步骤S1.3得到的基础类别候选集中随机选取类别标签lb,并从标签为lb的基础样本中随机选取样本Ib,混合支持样本Is的文本特征ts和样本Ib的文本特征tb,得到混合文本特征/> 表示为:/>其中,λt为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个文本特征的标签不进行混合,仍保持为支持类别标签;
S3.2、生成满足均匀分布的随机向量V′,随机向量V′的维度为dt,其中每个元素值的范围在0到1之间,并按照掩码比率αt将随机向量V′转化为掩码向量Mt,掩码向量Mt的维度为dt,其中每个元素值为0或1;
S3.3、通过掩码向量Mt混合混合文本特征和文本特征tb,最终得到增强文本特征/>表示为:/>其中,⊙表示按元素相乘。
5.根据权利要求4所述的小样本图像分类方法,其特征是,所述随机向量V利用式转化为所述掩码向量Mv,其中,mi和vi分别为向量Mv和V第i个位置上的元素,超参数αv为掩码比率;所述随机向量V′利用式/>转化为所述掩码向量Mt,其中,m′i和v′i分别为向量Mt和V′第i个位置上的元素,超参数αt为掩码比率。
6.根据权利要求4所述的小样本图像分类方法,其特征是,步骤S4中,所述视觉分类器训练包括以下具体步骤:
S4.1、在每次迭代中,从Ds中选取数量为B的一个批量的支持样本特征以及其标签/>经过步骤S2生成B个增强视觉特征/>
S4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数/> 表示为:/> 表示为:/>其中,Wv为视觉分类器的权重,
S4.3、计算视觉分类器预测分数与真实标签之间的视觉损失Lv,视觉损失Lv表示为:其中,CE为交叉熵损失。
7.根据权利要求6所述的小样本图像分类方法,其特征是,步骤S5中,所述文本知识迁移包括以下具体步骤:
S5.1、新类别的文本特征Tnovel经过步骤S3得到增强语义特征利用参数为和/>的线性层将增强语义特征/>映射为dv维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数/>和/> 表示为: 表示为:/>其中,
S5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失Lt,Lt表示为:其中,CE为交叉熵损失。
8.根据权利要求7所述的小样本图像分类方法,其特征是,步骤S6中,所述模型训练与测试包括以下具体步骤:
S6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数L,L表示为L=Lv+μLt
其中,μ为两个损失Lv和Lt之间的平衡系数;
S6.2、采用梯度下降算法对多模态对称增强模型进行训练,并计算总损失函数L以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;
S6.3、对于新类别集合Cnovel中测试样本,先利用预训练的CNN模型获取其视觉特征,再利用式pv=Classifier(fs)=Wv*(fs)T,分别通过视觉分类器和文本知识迁移得到视觉预测分数pv和迁移预测分数pt,将二者加权融合并取分数最大的位置,得到最终预测分数p,p表示为:p=arg max(pv+γpt),其中,γ为权重系数,预测分数p对应的类别即为测试样本图像分类的预测结果。
9.一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现权利要求1~8任一项所述的小样本图像分类方法。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现权利要求1~8任一项所述的小样本图像分类方法。
CN202310693879.1A 2023-06-13 2023-06-13 基于多模态对称增强的小样本图像分类方法、装置及介质 Active CN116452895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310693879.1A CN116452895B (zh) 2023-06-13 2023-06-13 基于多模态对称增强的小样本图像分类方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310693879.1A CN116452895B (zh) 2023-06-13 2023-06-13 基于多模态对称增强的小样本图像分类方法、装置及介质

Publications (2)

Publication Number Publication Date
CN116452895A CN116452895A (zh) 2023-07-18
CN116452895B true CN116452895B (zh) 2023-10-20

Family

ID=87130475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310693879.1A Active CN116452895B (zh) 2023-06-13 2023-06-13 基于多模态对称增强的小样本图像分类方法、装置及介质

Country Status (1)

Country Link
CN (1) CN116452895B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409262B (zh) * 2023-12-14 2024-03-01 厦门瑞为信息技术有限公司 基于clip快速构建图像分类模型的方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
CN111222471A (zh) * 2020-01-09 2020-06-02 中国科学技术大学 基于自监督域感知网络的零样本训练及相关分类方法
EP3754548A1 (en) * 2019-06-17 2020-12-23 Sap Se A method for recognizing an object in an image using features vectors of an encoding neural network
CN112488132A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于语义特征增强的细粒度图像分类方法
CN113434722A (zh) * 2021-06-30 2021-09-24 北京市商汤科技开发有限公司 图像分类方法、装置、设备及计算机可读存储介质
CN115131613A (zh) * 2022-07-01 2022-09-30 中国科学技术大学 一种基于多向知识迁移的小样本图像分类方法
WO2022258666A1 (en) * 2021-06-08 2022-12-15 Deepmind Technologies Limited Multimodal few-shot learning with frozen language models
CN115965818A (zh) * 2023-01-10 2023-04-14 中国科学技术大学 一种基于相似度特征融合的小样本图像分类方法
CN116051943A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
WO2023071530A1 (zh) * 2021-10-26 2023-05-04 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN116071609A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法
CN116109898A (zh) * 2022-12-09 2023-05-12 厦门大学 基于双向对抗训练与关系度量约束的广义零样本学习方法
CN116150411A (zh) * 2023-01-06 2023-05-23 昆明理工大学 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN116186250A (zh) * 2022-12-07 2023-05-30 华中师范大学 小样本条件下的多模态学习水平挖掘方法、系统及介质
CN116189039A (zh) * 2022-12-26 2023-05-30 中国科学院信息工程研究所 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3507773A1 (en) * 2016-09-02 2019-07-10 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
US11526808B2 (en) * 2019-05-29 2022-12-13 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
EP3754548A1 (en) * 2019-06-17 2020-12-23 Sap Se A method for recognizing an object in an image using features vectors of an encoding neural network
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
CN111222471A (zh) * 2020-01-09 2020-06-02 中国科学技术大学 基于自监督域感知网络的零样本训练及相关分类方法
CN112488132A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于语义特征增强的细粒度图像分类方法
WO2022258666A1 (en) * 2021-06-08 2022-12-15 Deepmind Technologies Limited Multimodal few-shot learning with frozen language models
CN113434722A (zh) * 2021-06-30 2021-09-24 北京市商汤科技开发有限公司 图像分类方法、装置、设备及计算机可读存储介质
WO2023071530A1 (zh) * 2021-10-26 2023-05-04 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN115131613A (zh) * 2022-07-01 2022-09-30 中国科学技术大学 一种基于多向知识迁移的小样本图像分类方法
CN116186250A (zh) * 2022-12-07 2023-05-30 华中师范大学 小样本条件下的多模态学习水平挖掘方法、系统及介质
CN116109898A (zh) * 2022-12-09 2023-05-12 厦门大学 基于双向对抗训练与关系度量约束的广义零样本学习方法
CN116051943A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
CN116189039A (zh) * 2022-12-26 2023-05-30 中国科学院信息工程研究所 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统
CN116150411A (zh) * 2023-01-06 2023-05-23 昆明理工大学 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN115965818A (zh) * 2023-01-10 2023-04-14 中国科学技术大学 一种基于相似度特征融合的小样本图像分类方法
CN116071609A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities;Yisheng Song 等;《arxiv.org》;第1-24页 *
Multi-directional Knowledge Transfer for Few-Shot Learning;Shuo Wang 等;In Proceedings of the 30th ACM International Conference on Multimedia (MM ’22);第1-10页 *
Semantic Prompt for Few-Shot Image Recognition;Wentao Chen 等;《arxiv.org》;第1-11页 *
一种粒子群优化融合特征的零样本图像分类算法;陈雯柏;陈祥凤;刘琼;韩琥;;西北工业大学学报(第06期);第191-197页 *
小样本场景下的强化学习研究综述;王哲超 等;南京师范大学学报(工程技术版);第86-92页 *
陈雯柏 ; 陈祥凤 ; 刘琼 ; 韩琥 ; .一种粒子群优化融合特征的零样本图像分类算法.西北工业大学学报.2019,(第06期),第191-197页. *
面向智能感知的小样本学习研究综述;宋闯;赵佳佳;王康;梁欣凯;;航空学报(第S1期);第15-28页 *

Also Published As

Publication number Publication date
CN116452895A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Wang et al. M3: Multimodal memory modelling for video captioning
Yu et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering
Kovalev et al. Deep learning with theano, torch, caffe, tensorflow, and deeplearning4j: Which one is the best in speed and accuracy?
Koubâa et al. Activity monitoring of islamic prayer (salat) postures using deep learning
CN109858015A (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN116452895B (zh) 基于多模态对称增强的小样本图像分类方法、装置及介质
CN115131613B (zh) 一种基于多向知识迁移的小样本图像分类方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN108009571A (zh) 一种新的直推式半监督数据分类方法及系统
Niu et al. Recurrent attention unit: A new gated recurrent unit for long-term memory of important parts in sequential data
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
He et al. Pathological visual question answering
Hao et al. Sentiment recognition and analysis method of official document text based on BERT–SVM model
Hu et al. Saliency-based YOLO for single target detection
Lai et al. Shared and private information learning in multimodal sentiment analysis with deep modal alignment and self-supervised multi-task learning
Zhong et al. Face expression recognition based on NGO-BILSTM model
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN113779249B (zh) 跨领域文本情感分类方法、装置、存储介质以及电子设备
CN116108215A (zh) 基于深度融合的跨模态大数据检索方法及系统
Jena et al. Image classification for binary classes using deep convolutional neural network: an experimental study
Chaturvedi et al. Analyzing the Performance of Novel Activation Functions on Deep Learning Architectures
Gong et al. KDCTime: Knowledge distillation with calibration on InceptionTime for time-series classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant