CN117830706A - 一种基于跨模态语义增强的图像分类方法及装置 - Google Patents

一种基于跨模态语义增强的图像分类方法及装置 Download PDF

Info

Publication number
CN117830706A
CN117830706A CN202311755755.8A CN202311755755A CN117830706A CN 117830706 A CN117830706 A CN 117830706A CN 202311755755 A CN202311755755 A CN 202311755755A CN 117830706 A CN117830706 A CN 117830706A
Authority
CN
China
Prior art keywords
feature
image
features
generated
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311755755.8A
Other languages
English (en)
Inventor
杨瀚
张诗涵
温序铭
倪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202311755755.8A priority Critical patent/CN117830706A/zh
Publication of CN117830706A publication Critical patent/CN117830706A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种基于跨模态语义增强的图像分类方法及装置,首先对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征,其次使用初始化的文本提示构建多任务跨模态源提示集,最后根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率,使得整体分类效果更加理想。

Description

一种基于跨模态语义增强的图像分类方法及装置
技术领域
本申请涉及图像分类技术领域,具体而言,涉及一种基于跨模态语义增强的图像分类方法及装置。
背景技术
图像分类旨在让计算机能够自动识别并分类图像中的对象或者场景。图像分类在很多实际应用中具有广泛的应用,如图像检索、自动驾驶、医学图像分析等。跨模态是指涉及多个不同的模态之间的关系和交互,模态通常指不同的数据类型或表示方式,如图像、文本、语音、视频等。
目前先进的图文跨模态分类方法采用固定的文本提示,将图像及其文本描述组合在一起,同时将特征空间中不匹配的排除在外。通过大规模的预训练,模型可以学习不同的视觉概念,并且可以很容易地通过提示转移到任何下游任务。
虽然这种方法通过图文跨模态的方法实现少样本甚至零样本的图像分类任务,但其中的文本描述并未与图像中的特征进行结合,导致整体分类效果仍旧不理想,因此如何更好地结合文本描述图像中的特征,提升整体分类效果成为本领域技术人员的研究方向之一。
发明内容
本申请的目的在于,为了克服现有的技术缺陷,提供了一种基于跨模态语义增强的图像分类方法及装置,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率。
本申请目的通过下述技术方案来实现:
第一方面,本申请提出了一种基于跨模态语义增强的图像分类方法,所述方法包括:
对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
使用初始化的文本提示构建多任务跨模态源提示集;
根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
在一种可能的实施方式中,对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征的步骤,包括:
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
在一种可能的实施方式中,使用初始化的文本提示构建多任务跨模态源提示集的步骤,包括:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
在一种可能的实施方式中,根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类的步骤,包括:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
在一种可能的实施方式中,第一训练提示Ps的计算公式为:
其中Pi为多任务跨模态源提示集,Softmax()为softmax函数,α为超参数,qtask为任务级查询,qins为实例级查询,kc为关键集合,ki为关键提示。
在一种可能的实施方式中,所述类别概率P(y=i|Iinfer-f)的计算公式为:其中sim()为余弦相似性计算,Iinfer-f为图像特征,τ为可学习参数,g表示预测样本的类别数,Ti为文本编码信息。
第二方面,本申请提出了一种基于跨模态语义增强的图像分类装置,所述装置包括:
图像特征提取模块,用于对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
提示集构建模块,用于使用初始化的文本提示构建多任务跨模态源提示集;
分类模块,用于根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
在一种可能的实施方式中,所述图像特征提取模块具体用于:
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
在一种可能的实施方式中,提示集构建模块,具体用于:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
在一种可能的实施方式中,分类模块,具体用于:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
上述本申请主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本申请可采用并要求保护的方案;且本申请,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本申请方案后根据现有技术和公知常识可明了有多种组合,均为本申请所要保护的技术方案,在此不做穷举。
本申请公开了一种基于跨模态语义增强的图像分类方法及装置,首先对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征,其次使用初始化的文本提示构建多任务跨模态源提示集,最后根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率,使得整体分类效果更加理想。
附图说明
图1示出了本申请实施例提出的一种基于跨模态语义增强的图像分类方法的流程示意图。
图2示出了本申请实施例提出的图像特征的生成示意图。
图3示出了本申请实施例提出的多任务跨模态源提示集的构建示意图。
图4示出了本申请实施例提出的输入图像的分类示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,图文跨模态分类方法采用固定的文本提示,将图像及其文本描述组合在一起,同时将特征空间中不匹配的排除在外。通过大规模的预训练,模型可以学习不同的视觉概念,并且可以很容易地通过提示转移到任何下游任务。但是其中的文本描述并未与图像中的特征进行结合,导致整体分类效果仍旧不理想。
为了解决上述问题,本申请实施例提出了一种基于跨模态语义增强的图像分类方法及装置,通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率,使得整体分类效果更加理想,接下来对其进行详细地说明。
请参照图1,图1示出了本申请实施例提出的一种基于跨模态语义增强的图像分类方法的流程示意图,该方法包括如下步骤:
步骤S1、对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征。
在根据输入图像得到包含显著信息的图像特征的过程中,还包括以下子步骤;
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
首先输入图像通过颜色通道为RGB三通道输入,对输入图像进行数据重塑操作(ReShape操作)得到Img图像,Img图像的尺寸大小为224像素*224像素。请参照图2,图2示出了本申请实施例提出的图像特征的生成示意图。将Img图像通过基础卷积神经网络ResNet-18后得到4个特征图,分别为第一特征R1、第二特征R2、第三特征R3、第四特征R4,其中第一特征R1的维度为7*7*512,第二特征R2的维度为14*14*256,第三特征的R3维度为28*28*128,第四特征R4的维度为56*56*64。将Img图像通过通过基础卷积神经网络Swin-B后得到4个特征图,分别为第五特征S1、第六特征S2、第七特征S3、第八特征S4,其中第五特征S1的维度为14*14*512、第六特征S2的维度为14*14*512、第七特征S3的维度为28*28*256、第八特征S4的维度为56*56*128。
接下来设置第一卷积层Conv_2Da、第二卷积层Conv_2Db、第三卷积层Conv_2Dc这三个2D卷积层,卷积层的参数为:第一卷积层Conv_2Da的卷积核维度为1*1,步长为1,填充维度为0,第二卷积层Conv_2Db的卷积核维度为3*3,步长为1,填充维度为2,第三卷积层Conv_2Dc的卷积核维度为3*3,步长为1,填充维度为1。
依次将第五特征S1输入至第二卷积层Conv_2Db和第一卷积层Conv_2Da得到第一生成特征S1n(S1n=Conv_2Da(Conv_2Db(S1))),将第一生成特征S1n进行上采样操作、与第六特征S2维度对齐之后,再与第六特征S2进行特征融合得到第一融合特征FS1( unsample()表示对第一生成特征S1n进行上采样操作,/>表示Concat特征融合操作)。
将第一融合特征FS1输入第三卷积层Conv_2Dc得到第二生成特征S2n(S2n=Conv_2Dc(FS1)4,Conv_2Dc()4表示通过4层第三卷积层Conv_2Dc)。将第二生成特征S2n进行上采样操作、与第七特征S3维度对齐之后,再与第七特征S3进行特征融合得到第二融合特征FS2(表示对第二生成特征S2n进行上采样操作,/>表示Concat特征融合操作)。
再将第二融合特征FS2输入第三卷积层Conv_2Dc得到第三生成特征S3n(S3n=Conv_2Dc(FS2)4),分别将第八特征S4输入第三卷积层Conv_2Dc得到第四生成特征S4n(S4n=Conv_2Dc(S4))与第四特征R4输入第三卷积层Conv_2Dc得到第五生成特征R4n(R4n=Conv_2Dc(R4))然后将第四生成特征S4n和第五生成特征R4n进行特征融合得到第三融合特征
将第三生成特征S3n进行上采样操作、与第三融合特征FS3维度对齐之后,再与第三融合特征FS3进行特征融合得到第四融合特征
将第四融合特征FS4输入第三卷积层Conv_2Dc得到第六生成特征S5n(S5n=Conv_2Dc(FS4)4),对第六生成特征S5n进行上采样操作、与第三特征R3维度对齐之后,再与第三特征R3进行特征融合得到第五融合特征
将第五融合特征FS5输入第三卷积层Conv_2Dc得到第七生成特征S6n(S6n=Conv_2Dc(FS5)4),对第七生成特征S6n进行上采样操作、与第二特征R2维度对齐之后,再与第二特征R2进行特征融合得到第六融合特征
将第六融合特征FS6输入第三卷积层Conv_2Dc得到第八生成特征S7n(S7n=Conv_2Dc(FS6)4),将第八生成特征S7n进行上采样操作、与第一特征R1维度对齐之后,再与第一特征R1进行特征融合得到第七融合特征
将第七融合特征FS7输入第三卷积层Conv_2Dc得到第九生成特征S8n(S8n=Conv_2Dc(FS7)4),对第九生成特征S8n进行全局平均池化操作得到包含显著信息的图像特征GPmean(S8n),其中GPmean()为全局平均池化操作。
步骤S2、使用初始化的文本提示构建多任务跨模态源提示集。
构建多任务跨模态源提示集的子步骤,包括:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
请参照图3,图3示出了本申请实施例提出的多任务跨模态源提示集的构建示意图,首先随机初始化长度为L的文本提示Pinit:Pinit=RandomL,RandomL表示随机初始化长度为L的文本提示,然后使用文本编码器对文本提示编码得到文本编码特征EPinit:EPinit=Text_Encoder(Pinit),Text_Encoder为文本编码器,利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征,分类任务mci(ci=1,2,...,N,其中N为任务总数),训练图像MImgmi(mi=1,2,...,Nimg,其中Nimg为训练图像总数),图像编码特征EImi:EImi=Image_Encoder(MImgmi),mi=1,2,...,Nimg,Image_Encoder为图像编码器。将文本编码特征EPinit与图像编码特征EImi进行求和后通过分类训练流程得到跨模态模型Mci:Mci=Train(EPinit+EImi),ci=1,2,...,N,Train表示分类训练流程。从训练得到的跨模态模型Mci中,将得到训练的文本编码特征命名为源提示SPci(ci=1,2,...,N),将源提示SPci进行合并得到多任务跨模态源提示集P:
步骤S3、根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
步骤S3的子步骤为:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
图4示出了本申请实施例提出的输入图像的分类示意图,首先随机初始化长度为L的文本提示Pinit_1:Pinit_1=RandomL,在多任务跨模态源提示集中存在两个可学习参数,分别为关键集合Kc和关键提示Ki,任务级查询qtask被定义为一个能够查询与特定目标任务相关信息的可学习向量,d表示编码的维度。实例级查询被定义为一个能够关注高度相关的源提示来学习目标提示的可学习向量,该向量本质上为Pinit_1通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示Ps:第一训练提示Ps的计算公式为:
其中Pi为多任务跨模态源提示集,Softmax()为softmax函数,α为超参数,qtask为任务级查询,qins为实例级查询,kc为关键集合,ki为关键提示。α是一个取值范围为0-1的超参数,表示对qtask求转置操作,/>表示对qins求转置操作。
将第一训练提示与图像特征进行求和得到第二训练提示Pe,在第二训练提示Pe的尾部加上类别信息[CLS]j后,送入文本编码器进行编码,得到文本编码信息Ti:Ti=T_Encode(Pe[CLS]j,T_Encode表示文本编码器,j=1,2,...,t,t为图像类别总数。
在得到文本编码信息之后构建预测图像的类别概率P(y=i|Iinfer-f),其计算公式为:其中sim()为余弦相似性计算,Iinfer-f为图像特征,τ为可学习参数,g表示预测样本的类别数,Ti为文本编码信息。
因此,本申请公开了的基于跨模态语义增强的图像分类方法通过类别概率完成对输入图像的分类,能够有效提升少样本或零样本的图像分类任务的分类准确率,使得整体分类效果更加理想。
下面给出一种基于跨模态语义增强的图像分类装置可能的实现方式,其用于执行上述实施例及可能的实现方式中示出的基于跨模态语义增强的图像分类方法各个执行步骤和相应的技术效果,该装置包括:
图像特征提取模块,用于对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
提示集构建模块,用于使用初始化的文本提示构建多任务跨模态源提示集;
分类模块,用于根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
在一种可能的实施方式中,图像特征提取模块具体用于:
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
在一种可能的实施方式中,提示集构建模块,具体用于:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
在一种可能的实施方式中,分类模块,具体用于:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于跨模态语义增强的图像分类方法,其特征在于,所述方法包括:
对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
使用初始化的文本提示构建多任务跨模态源提示集;
根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
2.如权利要求1所述的图像分类方法,其特征在于,对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征的步骤,包括:
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第五特征依次输入设置的第二卷积层和第一卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
3.如权利要求1所述的图像分类方法,其特征在于,使用初始化的文本提示构建多任务跨模态源提示集的步骤,包括:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
4.如权利要求1所述的图像分类方法,其特征在于,根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类的步骤,包括:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
5.如权利要求4所述的图像分类方法,其特征在于,第一训练提示Ps的计算公式为:
其中Pi为多任务跨模态源提示集,Softmax()为softmax函数,α为超参数,qtask为任务级查询,qins为实例级查询,kc为关键集合,ki为关键提示。
6.如权利要求4所述的图像分类方法,其特征在于,类别概率P(i|Iinfer-f)的计算公式为:其中sim()为余弦相似性计算,Iinfer-f为图像特征,τ为可学习参数,g表示预测样本的类别数,Ti为文本编码信息。
7.一种基于跨模态语义增强的图像分类装置,其特征在于,所述装置包括:
图像特征提取模块,用于对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征;
提示集构建模块,用于使用初始化的文本提示构建多任务跨模态源提示集;
分类模块,用于根据图像特征和多任务跨模态源提示集构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
8.如权利要求7所述的图像分类装置,其特征在于,所述图像特征提取模块具体用于:
对输入图像进行数据重塑操作得到Img图像;
利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征,并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征;
将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征,第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的;
将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征,第二生成特征为将第一融合特征输入第三卷积层所得到的;
将第四生成特征和第五生成特征进行特征融合得到第三融合特征,第四生成特征为将第八特征输入第三卷积层所得到的,第五生成特征为将第四特征输入第三卷积层所得到的;
将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征,第三生成特征为将第二融合特征输入第三卷积层所得到的;
将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征,第六生成特征为将第四融合特征输入第三卷积层所得到的;
将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征,第七生成特征为将第五融合特征输入第三卷积层所得到的;
将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征,第八生成特征为将第六融合特征输入第三卷积层所得到的;
对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征,第九生成特征为将第七融合特征输入第三卷积层所得到的。
9.如权利要求7所述的图像分类装置,其特征在于,提示集构建模块,具体用于:
利用文本编码器对初始化的文本提示进行编码得到文本编码特征;
利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征;
对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型;
提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。
10.如权利要求7所述的图像分类装置,其特征在于,分类模块,具体用于:
通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示;
将第一训练提示与图像特征进行求和得到第二训练提示;
在第二训练提示中加入类别信息之后送入文本编码器进行编码,得到文本编码信息;
通过文本编码信息构建预测图像的类别概率,通过类别概率完成对输入图像的分类。
CN202311755755.8A 2023-12-19 2023-12-19 一种基于跨模态语义增强的图像分类方法及装置 Pending CN117830706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311755755.8A CN117830706A (zh) 2023-12-19 2023-12-19 一种基于跨模态语义增强的图像分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311755755.8A CN117830706A (zh) 2023-12-19 2023-12-19 一种基于跨模态语义增强的图像分类方法及装置

Publications (1)

Publication Number Publication Date
CN117830706A true CN117830706A (zh) 2024-04-05

Family

ID=90512846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311755755.8A Pending CN117830706A (zh) 2023-12-19 2023-12-19 一种基于跨模态语义增强的图像分类方法及装置

Country Status (1)

Country Link
CN (1) CN117830706A (zh)

Similar Documents

Publication Publication Date Title
CN112085012B (zh) 项目名称和类别识别方法及装置
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN114926835A (zh) 文本生成、模型训练方法和装置
CN117529755A (zh) 图像识别系统中的迁移学习
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及系统
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116704198A (zh) 一种基于多模态信息引导的知识增强视觉问答方法
CN114548325B (zh) 基于对偶对比学习的零样本关系抽取方法和系统
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
CN117830706A (zh) 一种基于跨模态语义增强的图像分类方法及装置
CN114490885A (zh) 一种实体关系抽取方法、装置、电子设备及存储介质
CN117173530B (zh) 目标异常检测方法及装置
CN113656539B (zh) 基于特征分离和重建的跨模态检索方法
CN116311535B (zh) 基于人物交互检测的危险行为分析方法及系统
CN118094246A (zh) 一种基于特征融合与图文一致性的多模态假新闻检测方法
CN114281938A (zh) 关系抽取方法、装置、设备和存储介质
CN117542064A (zh) 一种手写数学公式识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination