CN118038139A - 一种基于大模型微调的多模态小样本图像分类方法 - Google Patents
一种基于大模型微调的多模态小样本图像分类方法 Download PDFInfo
- Publication number
- CN118038139A CN118038139A CN202410129619.6A CN202410129619A CN118038139A CN 118038139 A CN118038139 A CN 118038139A CN 202410129619 A CN202410129619 A CN 202410129619A CN 118038139 A CN118038139 A CN 118038139A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- sample
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000003190 augmentative effect Effects 0.000 claims description 12
- 230000003416 augmentation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 239000013589 supplement Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,公开了一种基于大模型微调的多模态小样本图像分类方法,包括:图像文本对的预处理;多模态特征的提取;构建基于CLIP大模型微调的多模态小样本分类模型;类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到图像特征,利用余弦分类器,对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所述的类别,即为测试图像的预测类别。本发明在视觉‑语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于大模型微调的多模态小样本图像分类方法。
背景技术
处于大数据时代的现实生活中,充满了各种模态的数据,例如图像、文本、语音、视频等,大规模的数据推动着视觉-语言大模型的快速发展。然而,由于隐私、安全等因素,许多领域往往难以获取大量的可用信息,例如卫星图像处理、智能交通和医学影像诊断等领域。在这些领域中,获取大规模监督数据的成本高昂且要求苛刻,这大大限制了模型的泛化性能。如何有效地利用小样本数据来训练高性能模型,以弥补数据不足,是机器学习的关键挑战之一。
现有的基于大模型的小样本图像分类技术,一般通过挖掘多模态数据之间的相关性,来提升图像分类任务的性能。但是,由于过度关注于研究多模态之间的相关性,忽略了图像本身的信息,对于小样本图像分类方法来说,有效提取图像蕴含的信息是至关重要的。
发明内容
为解决上述技术问题,本发明提供一种基于大模型微调的多模态小样本图像分类方法,本发明在视觉-语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。
为解决上述技术问题,本发明采用如下技术方案:
一种基于大模型微调的多模态小样本图像分类方法,包括以下步骤:
步骤一,图像文本对的预处理:
采集图像数据,图像数据包括图像样本x、图像所属的类别,以及有关图像所属类别的文本描述w;对图像样本进行样本增广,获得增广图像样本;基于文本描述w构建图像样本的文本提示,通过自然语言处理模型将文本提示转化为文本标记;
步骤二,多模态特征的提取:
将多个类别的图像样本,以及对应的增广图像样本、文本标记组成小样本数据集,小样本数据集中每个类别的图像样本数量小于或者等于16;
CLIP大模型包括图像编码器和文本编码器,文本编码器采用Bert模型,图像编码器包括多层transformer层;将小样本数据集中的图像样本、增广图像样本和文本标记输入到预训练的CLIP大模型,得到图像样本的图像特征、增广图像样本的图像特征以及文本标记的文本特征;
基于图像特征和文本特征,计算第i个类别的图像原型特征Vi和文本原型特征Ti,采用先行加权的方式融合图像原型特征Vi和文本原型特征Ti,得到第i个类别的多模态特征Pi,保存在类原型字典中;
步骤三,构建基于CLIP大模型微调的多模态小样本分类模型:
冻结CLIP大模型的文本编码器所有参数以及图像编码器除最后一层transformer层的参数,得到待训练的分类模型;
设置图像和文本的跨模态对齐损失Lita,使得同一个类别的图像特征和文本特征在特征空间上保持一致性;基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失Lss,来学习图像内的潜在信息;
融合跨模态对齐损失Lita和自相关学习损失Lss,得到总损失函数L=Lita+λLss,λ为自适应权重超参数;通过总损失函数L对分类模型进行训练;
步骤四,类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到测试图像的图像特征,利用余弦分类器,对测试图像的图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所属的类别,即为测试图像的预测类别。
进一步地,所述每层transformer层包括多头注意力层和多层感知器。
进一步地,步骤二中,所述基于图像特征和文本特征计算第i个类别的图像原型特征Vi和文本原型特征Ti,具体包括:
其中,f和g分别代表图像编码器和文本编码器,h为自然语言处理模型,Xi和Wi表示第i个类别中所有图像的集合及对应的文本描述的集合,xk表示Xi中的第k个图像样本,wk为xk对应的文本描述,|·|表示计算集合的元素个数。
进一步地,步骤二中,所述采用先行加权的方式融合图像原型特征Vi和文本原型特征Ti得到第i个类别的多模态特征Pi,具体包括:
Pi=(1-α)Vi+αTi;
α为平衡因子。
进一步地,步骤三中,所述设置图像和文本的跨模态对齐损失Lita,具体包括:
Sij表示为图像样本xi与文本描述wj的余弦相似性,nb表示每个批次数据的样本个数。
进一步地,步骤三中,所述基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失Lss来学习图像内的潜在信息,具体包括:
定义图像的增广样本为正样本,其余为负样本,采用自监督对比学习来分类更具有区分性的特征:
其中,Qi表示图像样本xi的正样本集合,Bi表示图像xi所在批次数据中的所有样本集合,τ为调节温度。
与现有技术相比,本发明的有益技术效果是:
现有技术中的基于大模型的小样本图像分类方法的核心思想是利用大模型中预训练得到的丰富的文本知识来弥补小样本图像分类任务中训练数据稀少的问题,通过度量图像与文本知识的相关性来进行图像分类。这种方法虽然简单易行,但由于模型过度依赖图像文本跨模态的匹配机制,导致对于图像数据本身蕴含的信息的探索不够充分,使得模型的泛化能力较差。
本发明在视觉语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。
附图说明
图1为本发明对图像进行增广、对文本描述进行自然语言技术处理的示意图;
图2为本发明对提取图像样本的图像特征、提取文本描述的文本特征的示意图;
图3为本发明基于大模型微调的多模态小样本分类模型的示意图;
图4为本发明对图像进行分类的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明提出了一种基于大模型微调的多模态小样本图像分类方法,在视觉-语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,以实现更加高效的小样本图像分类方法。
下面对本发明的技术方案进行详细说明。
1.图像文本对的预处理
1.1,从现有公开的图像数据集中收集不同领域、类别的小样本图像数据,包含图像样本、类别及其所属类别的文本描述。
1.2,对收集到的图像数据进行预处理,首先,采用中心裁剪方式对图像样本进行尺寸统一,裁剪为224*224,然后随机角度翻转图像进行样本增广,获得两个图像样本,包含原图像样本及增广图像样本。
1.3,对图像数据构建专属的文本提示(prompts),对于不同的图像样本,采用相同的文本prompts构建格式—“a photo of a{}”,其中“{}”填充图像对应的文本描述。
1.4,对文本prompts,采用自然语言处理技术,将文本prompts描述转化为文本标记(文本token),维度为1*77。
1.5,将图像样本和文本token共同组合到一起,增广图像样本与原图像样本共享同一个文本prompt,并且同一个类别的图像共享同一个文本prompt。图像文本对的数据预处理如图1所示。
2.多模态特征的提取
2.1,面向小样本图像分类环境,分别设定1、2、4、8、16-shot场景,即在小样本数据集中,每个类别只包含1、2、4、8或16个图像样本。
2.2,预训练的CLIP大模型包含一个图像编码器和文本编码器,其中,文本编码器主要采用Bert模型,图像编码器主要由12层transformer层组成。在图像编码器中,每层transformer层的结构相同,主要由一个多头注意力层(Multi-head Attention)和一个多层感知器(MLP)组成。
2.3,将小样本数据集中的图像样本和对应的文本标记分别输入到CLIP模型中的图像编码器和文本编码器。对于图像特征的提取,首先将每个图像样本平均分为16个局部块,然后输入到图像编码器中,得到一个长度为512维的图像特征。对于文本特征提取,将处理后的文本token输入到文本编码器中,输出文本特征,维度也是512,具体过程如图2所示。
2.4,采用先行加权的方式融合多模态特征,以获取更加一般化、高质量的类别特征表示,文本信息作为强大的先验知识可以提供类别的概念解释和隐性表示,图像特征直观地表示图像的更加细节和具体的特征。第i个类别的多模态特征Pi为:
Pi=(1-α)Vi+αTi;
其中,Vi和Ti分别为第i个类别的图像原型特征和文本原型特征,α为非负平衡因子,设置为0.6。
图像原型特征Vi和文本原型特征Ti的计算方式如下:
其中,f和g分别代表图像编码器和文本编码器,h为自然语言处理模型(例如Bert模型或者GPT系列模型),xi和Wi表示第i个类别中所有图像的集合及对应的文本描述的集合,xk表示Xi中的第k个图像样本,wk为xk对应的文本描述,|·|表示计算集合的元素个数。
3.基于大模型微调的多模态小样本分类模型的构建
3.1,为了继承大模型蕴含的丰富知识,冻结文本编码器所有参数以及图像编码器大部分的参数,微调图像编码器的最后一层网络的参数以适应不同的小样本图像分类任务。
3.2,模型两个编码器模块实现对输入图像和文本的特征提取,然后融合这两个模态的特征以获得更加一般化的类原型表示,将这些保存在类原型字典中,作为新的图像样本的分类基准。
3.3,为了获得更加一般化的类原型表示,设计了一个图像文本对齐损失,使得同一个类别的图像和文本特征在特征空间上保持一致性:
其中,Sij表示为图像样本xi与文本描述wj的余弦相似性,nb表示每个batch的样本个数。
3.4,本发明还设计了一个自相关学习损失来学习图像内的潜在信息。定义图像的增广样本为正样本,其余为负样本,采用自监督对比学习来类别更具有区分性的特征:
其中,Qi表示图像样本xi的正样本集合,Bi表示图像样本xi所在batch中的所有样本集合,τ为调节温度,设置为0.07。
3.5,融合跨模态对齐损失Lita和自相关学习损失Lss,模型的总损失函数为:
L=Lita+λLss;
其中,λ为自适应权重超参数。利用这个总损失函数L来微调大模型,以获取更具区别性和高质量的类原型表示,作为分类基准来提高新的图像样本的分类准确性,并保存在类原型字典中,字典大小为N*512,其中N为类别总数。当给定一张新的图像,利用余弦分类器与字典中的原型进行对比分类。
3.6,利用图像特征和文本特征,采用SGD优化器,对分类模型进行优化求解。每批数据采样图像音频对32个。学习率设置为0.0001,权重衰减率设为0.0001,并使用余弦退火规则衰减学习率。SGD是一种常用的优化器,收敛速度快,能够更快地找到局部最优解或者接近最优解的位置。上述超参数的设置与优化器的选择能有效提升模型的训练效率与准确性。具体参考图3。
4.小样本图像的分类
4.1,给定一张测试图像,和步骤1中的操作相同,先对图像进行预处理,不同的是,此时不需要对图像进行数据增广,即采用中心裁剪方式对图像进行尺寸统一,裁剪为224*224。
4.2,将处理之后的测试图像,输入到训练好的图像编码器中,获取测试图像的图像特征,尺寸为1*512。
4.3,对于得到的图像特征,利用余弦分类器,将图像特征与类原型字典中的所有类原型特征表示(即多模态特征P)进行余弦相似度计算,相似度最高的类原型特征表示所属的类别,即为该测试图像的预测类别。具体参考图4。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于大模型微调的多模态小样本图像分类方法,其特征在于,包括以下步骤:
步骤一,图像文本对的预处理:
采集图像数据,图像数据包括图像样本x、图像所属的类别,以及有关图像所属类别的文本描述w;对图像样本进行样本增广,获得增广图像样本;基于文本描述w构建图像样本的文本提示,通过自然语言处理模型将文本提示转化为文本标记;
步骤二,多模态特征的提取:
将多个类别的图像样本,以及对应的增广图像样本、文本标记组成小样本数据集,小样本数据集中每个类别的图像样本数量小于或者等于16;
CLIP大模型包括图像编码器和文本编码器,文本编码器采用Bert模型,图像编码器包括多层transformer层;将小样本数据集中的图像样本、增广图像样本和文本标记输入到预训练的CLIP大模型,得到图像样本的图像特征、增广图像样本的图像特征以及文本标记的文本特征;
基于图像特征和文本特征,计算第i个类别的图像原型特征Vi和文本原型特征Ti,采用先行加权的方式融合图像原型特征Vi和文本原型特征Ti,得到第i个类别的多模态特征Pi,保存在类原型字典中;
步骤三,构建基于CLIP大模型微调的多模态小样本分类模型:
冻结CLIP大模型的文本编码器所有参数以及图像编码器除最后一层transformer层的参数,得到待训练的分类模型;
设置图像和文本的跨模态对齐损失Lita,使得同一个类别的图像特征和文本特征在特征空间上保持一致性;基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失Lss,来学习图像内的潜在信息;
融合跨模态对齐损失Lita和自相关学习损失Lss,得到总损失函数L=Lita+λLss,λ为自适应权重超参数;通过总损失函数L对分类模型进行训练;
步骤四,类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到测试图像的图像特征,利用余弦分类器,对测试图像的图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所属的类别,即为测试图像的预测类别。
2.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,所述每层transformer层包括多头注意力层和多层感知器。
3.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤二中,所述基于图像特征和文本特征计算第i个类别的图像原型特征Vi和文本原型特征Ti,具体包括:
其中,f和g分别代表图像编码器和文本编码器,h为自然语言处理模型,Xi和Wi表示第i个类别中所有图像的集合及对应的文本描述的集合,xk表示Xi中的第k个图像样本,wk为xk对应的文本描述,|·|表示计算集合的元素个数。
4.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤二中,所述采用先行加权的方式融合图像原型特征Vi和文本原型特征Ti得到第i个类别的多模态特征Pi,具体包括:
Pi=(1-α)Vi+αTi;
α为平衡因子。
5.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤三中,所述设置图像和文本的跨模态对齐损失Lita,具体包括:
Sij表示为图像样本xi与文本描述wj的余弦相似性,nb表示每个批次数据的样本个数。
6.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤三中,所述基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失Lss来学习图像内的潜在信息,具体包括:
定义图像的增广样本为正样本,其余为负样本,采用自监督对比学习来分类更具有区分性的特征:
其中,Qi表示图像样本xi的正样本集合,Bi表示图像xi所在批次数据中的所有样本集合,τ为调节温度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410129619.6A CN118038139A (zh) | 2024-01-30 | 2024-01-30 | 一种基于大模型微调的多模态小样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410129619.6A CN118038139A (zh) | 2024-01-30 | 2024-01-30 | 一种基于大模型微调的多模态小样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118038139A true CN118038139A (zh) | 2024-05-14 |
Family
ID=90996194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410129619.6A Pending CN118038139A (zh) | 2024-01-30 | 2024-01-30 | 一种基于大模型微调的多模态小样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038139A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118411572A (zh) * | 2024-07-01 | 2024-07-30 | 南京邮电大学 | 基于多模态多层次特征聚合的小样本图像分类方法及系统 |
CN118535863A (zh) * | 2024-07-26 | 2024-08-23 | 四川智能信息处理技术研究中心 | 一种基于市场数据监管的多模态处理方法 |
-
2024
- 2024-01-30 CN CN202410129619.6A patent/CN118038139A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118411572A (zh) * | 2024-07-01 | 2024-07-30 | 南京邮电大学 | 基于多模态多层次特征聚合的小样本图像分类方法及系统 |
CN118535863A (zh) * | 2024-07-26 | 2024-08-23 | 四川智能信息处理技术研究中心 | 一种基于市场数据监管的多模态处理方法 |
CN118535863B (zh) * | 2024-07-26 | 2024-10-11 | 四川智能信息处理技术研究中心 | 一种基于市场数据监管的多模态处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN114743020B (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN118038139A (zh) | 一种基于大模型微调的多模态小样本图像分类方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
US20230222768A1 (en) | Multiscale point cloud classification method and system | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN117236343B (zh) | 基于语言特征解释器和对比学习的自动可读性评估方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN115982652A (zh) | 一种基于注意力网络的跨模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |