CN117033961A - 一种上下文语境感知的多模态图文分类方法 - Google Patents
一种上下文语境感知的多模态图文分类方法 Download PDFInfo
- Publication number
- CN117033961A CN117033961A CN202311058311.9A CN202311058311A CN117033961A CN 117033961 A CN117033961 A CN 117033961A CN 202311058311 A CN202311058311 A CN 202311058311A CN 117033961 A CN117033961 A CN 117033961A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- context
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 36
- 230000001364 causal effect Effects 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013508 migration Methods 0.000 abstract 2
- 230000005012 migration Effects 0.000 abstract 2
- 238000011156 evaluation Methods 0.000 description 12
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 7
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种上下文语境感知的多模态图文分类方法。先构建多对交错的图像文本对,将传统微调的范式转化到上下文感知的范式,并达到零样本、少样本无需梯度更新的分类模式。应对跨域迁移的场景下,传统方法需要更多的计算成本,而上下文语境感知学习的模式,能够对原有需要二次梯度更新学习的范式做优化,同时尽可能避免模型预训练权重的灾难遗忘现象,通过少数样本来做元梯度学习,使模型具备跨域知识迁移的能力,在开放词表分类任务的设定下达到比基线模型更优的分类准确度。
Description
技术领域
本发明属于计算机视觉和自然语言处理领域,具体涉及一种上下文语境感知的多模态图文分类方法。
背景技术
传统的图像分类集评估方法中,通常需要让视觉或多模态模型在零样本设定下完成正确度校验,但零样本的设定往往只能得到次优的结果,只能通过对每个场景的数据集做少样本微调才有更优的分类评估性能,这样的代价是不能更好地将分类模型迁移到新的图像场景,不具备开放词表的能力,同时每有一个测试集的接入,则需要重新做一轮模型的微调训练,计算成本的开销大。
发明内容
针对上述现有技术的不足,本发明提供一种上下文语境感知的多模态图文分类方法,实现了通过无需微调更新模型,提供少样本的情况下,即可对多个下游场景的分类任务中,获得更优的评估性能。
本发明的目的是通过以下技术方案实现的:
本发明提出一种上下文语境感知的多模态图文分类方法,包括以下步骤:
将图像文本对形式的分类数据集进行小样本处理,构建每条数据是多对图文形式的小样本数据集,每个图文对以图像和文本标签的形式呈现,每个图文对属于不同的类别;
引入查询数据,查询数据类型为预分类的新图像,将所述查询数据和所述小样本数据集共同组合为上下文数据集,其中,所述小样本数据集中的小样本数据和查询数据的类别不同;
使用多模态模型的图像文本编码器对所述上下文数据集中图像和文本标签分别进行特征抽取,得到图像和文本特征向量;
将所述图像和文本特征向量进行过滤优化,使得图像和文本特征向量在语义上高度近似,得到输入特征;
将所述输入特征输入至所述因果语言模型,得到预测特征;
将所述输入特征中的图像特征相应的文本特征与对应的所述预测特征的文本特征进行交叉熵损失计算,并将计算得到的损失值用于所述因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型;
使用所述多模态图文分类模型对多模态图像文本对进行分类。
进一步地,获得所述图像和文本特征向量具体包括以下步骤:
使用CLIP的图文编码器,对整个所述上下文数据集做表征转化处理,用ViT-B/16得到图像特征,用BERT得到文本特征。
进一步地,获得所述输入特征具体包括以下步骤:
对所有的所述图像和文本特征向量中同属为一个类别的图像和文本特征做余弦相似度的计算,设定相似过滤阈值,并只保留每个类别中和文本特征相似度最高的Top-K个图像特征,使得图像和文本特征向量在语义上高度近似,根据小样本的策略,随机采样N个图文对的特征向量,N-1对图文特征向量作为小样本数据,最后一对图文特征向量作为查询数据,并将小样本数据、查询数据中的图像特征作为因果语言模型的输入特征。
进一步地,构建多模态图文分类模型具体包括以下步骤:
输入特征中图像特征对应的预测特征中的文本特征作为模型反向传播更新的目标,因果语言建模下,当前图像特征的预测只依赖于前文中出现过的输入特征中的文本特征,损失建模都只针对预测特征中的文本特征和输入特征中的文本特征进行,当前位置的预测特征中文本特征只依赖于前文中出现过的输入特征中的文本特征,以此得到损失子项,对查询图像的损失计算则是基于全局的输入特征中的文本特征和查询图像的预测特征中的文本特征做余弦相似计算后完成归一化并统计查询损失,最终的全局损失为每个损失子项和查询损失的总和,最后通过损失梯度更新完成因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型。
本发明的有益效果是:本发明基于语言模型上下文语境感知的图像分类方法实现了通过无需微调更新模型,提供少样本的情况下,即可对多个下游场景的分类任务中,获得更优的评估性能;本发明语言模型作为推理的骨干网络,以多模态模型的图像文本编码器作为图像视觉特征和文本标签的抽取器,通过小样本对语言模型做上下文语境感知能力的学习,达到开放词表场景下的更优的图像分类准确度;本发明可避免因为传统的下游任务微调策略而造成的额外计算时间成本和模型灾难遗忘现象等问题。此外,模型通过上下文的语言环境来做感知推理更符合人类学习的方式,比传统微调来说是通用人工智能模型的应用技术之一,也具备更优的泛化性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例提供的基于语言模型上下文语境感知的图像分类方法的流程图;
图2为一示例性实施例提供的自回归因果语言模型GPT的损失建模流程图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本实例旨在按本发明实现基于语言模型上下文语境感知的图像分类。该方法流程包括训练集特征预处理、上下文语境感知样本的构建、图文对特征抽取、GPT自回归语言模型的训练、下游封闭集的数据评估,如图1所示,上下文语境感知的多模态图文分类方法,包括以下步骤:
将图像文本对形式的分类数据集进行小样本处理,构建每条数据是多对图文形式的小样本数据集,每个图文对以图像和文本标签的形式呈现,每个图文对属于不同的类别;
在一实施例中,在整个上下文数据集中,随机采样N-1个图文对,每一个图文对类别都不同,构建每条数据是多对图文形式的小样本数据集。
引入查询数据,查询数据类型为预分类的新图像,其中将查询数据和小样本数据集共同组合为上下文数据集,其中,小样本数据集中的小样本数据和查询数据的类别不同;
使用多模态模型的图像文本编码器对上下文数据集中图像和文本标签分别进行特征抽取,得到图像和文本特征向量;
在一实施例中,多模态模型的图像文本编码器对所述上下文数据集中图像和文本标签分别进行特征抽取是通过CLIP模型编码器ImageNet21K训练集的图像和文本数据做编码处理,通过ViT-B/16得到图像的512维视觉特征向量,再通过Bert编码器得到文本特征向量。ImageNet21K中有10450个类别的图像数据,每个类别的图像数量不固定,构建上下文语境感知数据的时候,每个类别的图像数据只需要随机采样一张即可;
Ii={image1,image2,...,imagen},Ii∈ti
Visual_embeds=ViTEmbedding(Ii)={v1,v2,v3,...,vn}
I={I1,I2,I3,...,In|n≤10450}
T={text1,text2,text3,...,textn|n≤10450}
本阶段在于过滤上下文数据集,其中Ii是同属于一个标签类别ti的全部图像,imagen的具体数量依照该类别图像总量实际情况而定,利用CLIP模型中的ViT编码器将图像编码成对应特征,Visual_embeds即为某个类别的图像特征向量集合,当对所有类别的图像特征化处理后则得到一个向量库I。T则代表10450类的文本标签,Text_embeds是由CLIP模型的文本编码器转译得到的文本特征向量。
将图像和文本特征向量进行过滤优化,使得图像和文本特征向量在语义上高度近似,得到输入特征;这句话调整到这里
cosine_similarity=cos(ti@Ii)
si=softmax(cosine_similarity).top_k(100)
由于一个文本标签对应的图像是非常多的,过滤优化的策略选择性地保留和单个文本标签相似度最高的Top_K张图。cosine_similarity是计算单个文本特征向量和该类别对应的所有图像特征向量的余弦相似度,si即是根据某个类别i计算得到的余弦相似度值,做softmax归一化,并根据降序过滤出排在前100张的和文本特征向量语义最近似的图像作为保留。
将输入特征输入至因果语言模型,得到预测特征;
因果语言模型的输入特征数量会决定输出的词向量个数,图片特征向量对应的输出特征才作为预测特征。
将所述输入特征中的图像特征相应的文本特征与对应的所述预测特征的文本特征进行交叉熵损失计算,并将计算得到的损失值用于所述因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型;
在一实施例中,构建多模态图文分类模型具体包括以下步骤:
输入特征中图像特征对应的预测特征作为模型反向传播更新的目标,因果语言建模下,当前图像特征的预测只依赖于前文中出现过的输入特征中的文本特征,损失建模都只针对预测特征中的文本特征和输入特征中的文本特征进行,当前位置的预测特征中文本特征只依赖于前文中出现过的输入特征中的文本特征,以此得到损失子项,对查询图像的损失计算则是基于全局的输入特征中的文本特征和查询图像的预测特征中的文本特征做余弦相似计算后完成归一化并统计查询损失,最终的全局损失为每个损失子项和查询损失的总和,最后通过损失梯度更新完成因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型。
具体地,通过交叉熵损失函数逐步计算图像位置词向量预测的损失值:
Ai={x1,y1,x2,y2,...,xn-1,yn-1,xquery}
xn=xquery,yn=ylabel
O(xi,yi)=GPT(Ai),O(xi,yi)={x′1,y′1,x′2,y′2,...,x′n}
θ=[argmax(cosine(x′i·{y1,y2,y3,...,yi}))==yi]
其中n是上下文的总长度,Ai是一个上下文的样例,第n个样例的图像对应类别标签yn可以不输入到GPT-2中作为预测项,而只需要提供最后一个需要查询的图像特征xn=xquery即可。O(xi,yi)是GPT的模型预测输出,x′i和y′i是输入序列中第i个图文对位置的模型输出值,代表着每个token序列的预测结果,σ(·)是softmax函数。上述计算流程中Loss是对GPT自回归预测输出值中的x′i元素做的损失计算,计算过程中只需要针对每个图像特征向量对应的预测输出值,这个预测结果是用于预测图像的具体类别,总共会算N项的损失值。θ是最终的优化目标参数,对于每一项x′i的概率预测值,都希望和Y={y1,y2,y3,...,yi}序列计算余弦相似度,并最大化yi的概率值,上下文越长的后置序列,余弦相似计算的yi项越长。例如最后一个x′n,其计算余弦的yi项也是最长的,包含了所有图像类别的标签值。图2展示了具体损失计算的位置,x′i即对应y^,为图像词向量位置的模型输出值。
使用多模态图文分类模型对多模态图像文本对进行分类。
下游任务数据集推理评估。本实例将域外的分类数据集作为评估集,采用封闭集评估的方式来验证语言模型上下文感知的能力,并达到优于CLIP模型分类基线准确度的能力。
Ai={x1,y1,x2,y2,...,xn-1,yn-1,xquery}
xn=xquery,yn=ylabel
Inferencei=GPT(Ai)={x′1,y′1,x′2,y′2,...,x′n}
其中Ai是某条数据的输入特征,最后推理的结果应该是x′n,Inferencei即为GPT-2语言模型的词向量预测输出,对其和Y={y1,y2,y3,...,yn}标签集计算余弦相似度并做softmax取argmax得到的类别预测结果来计算准确度,能够预测正确真实标签为yn时,判定模型对单样本的预测是正确的,反之为错误。该类方法在开放词表图像分类的任务中,比起CLIP模型的基线性能,普遍要更好,同时可以解决下游场景多次微调的时间计算成本问题。如表1,是作为基线对照组的CLIP模型零样本评估成绩,编码器有四个不同的视觉抽取骨干网络,其中在ViT-B/16的设定下,普遍达到最优的零样本分类准确性。
表1 CLIP模型在下游任务评估数据集的零样本分类准确度
编码器\数据集 | DTD | EuroSAT | Oxford_Pets | Caltech101 | Oxford_Flowers |
ResNet50 | 42.90% | 36.27% | 82.72% | 83.89% | 66.01% |
ResNet101 | 38.06% | 32.92% | 84.70% | 89.21% | 64.03% |
ViT-B/32 | 44.15% | 45.25% | 83.27% | 89.53% | 66.99% |
ViT-B/16 | 44.08% | 48.34% | 88.39% | 91.48% | 71.30% |
如表2所示,展示的是利用GPT-2作为外部知识语料库,来训练上下文语境感知能力,实验中,视觉部分的编码器采用的也是ViT-B/16,为的是实验对照的有效性。
表2上下文语境感知训练版的GPT-2在下游任务评估小样本分类的准确度
小样本量\数据集 | DTD | EuroSAT | Oxford_Pets | Caltech101 | Oxford_Flowers |
10-shot | 35.26% | 42.26% | 65.88% | 87.38% | 69.20% |
20-shot | 45.43% | 58.44% | 89.91% | 91.76% | 75.32% |
30-shot | 46.83% | 54.94% | 88.54% | 92.72% | 73.08% |
50-shot | 43.71% | 56.81% | 82.76% | 91.73% | 71.18% |
小样本量表示对GPT-2模型在ImageNet21K上采用的N-shot训练及评估策略的设定,消融实验中采用10-shot、20-shot、30-shot,50-shot作为对照,在10-shot和50-shot的结果中略低于CLIP的基准分类性能,可以视作是语言模型上下文语境感知的自身问题,语言模型难以对较短上下文演示样本的训练和过长的演示样本训练产生良好的泛化能力,因为较短的演示样本难以拟合训练集的上下文语境,过长的演示样本,会导致演示样本随机性的噪声影响,同时过长的词向量个数对语言模型的上下文学习是不利的。在20-shot的上下文评估中,五个域外评估任务集上,都超越了CLIP的基线水准,尤其在EuroSAT数据集上,上下文语境感知训练版的GPT-2模型取得了58.44%的分类准确性能,要比CLIP基线的分类准确度48.34%高出10.1%的分数,在30-shot设定下,仍然可以在五个评估数据集中取得优于基线的收益,所以上下文语境感知是高度以来上下文演示的质量和长度的。需要注明的是,以上消融实验的GPT-2模型,并没有采用预训练的权重作为上下文语境感知训练的基础,因为从头训的策略可以产生更好的性能,同时针对6层transformer解码器和12层transformer解码器架构都做了消融验证,取最优的一组性能作为对照。当然也可以采用更优架构的自回归语言模型做上下文语境感知的评估,也可以取得更好的学习性能。
该基于语言模型上下文语境感知的图像分类方法实现了通过无需微调更新模型,提供少样本的情况下,即可对多个下游场景的分类任务中,获得更优的评估性能;本语言模型作为推理的骨干网络,以多模态模型的图像文本编码器作为图像视觉特征和文本标签的抽取器,通过小样本对语言模型做上下文语境感知能力的学习,达到开放词表场景下的更优的图像分类准确度;本基于语言模型上下文语境感知的图像分类方法可避免因为传统的下游任务微调策略而造成的额外计算时间成本和模型灾难遗忘现象等问题。此外,模型通过上下文的语言环境来做感知推理更符合人类学习的方式,比传统微调来说是通用人工智能模型的应用技术之一,也具备更优的泛化性能。
以上仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改。
Claims (4)
1.一种上下文语境感知的多模态图文分类方法,其特征在于,包括以下步骤:
将图像文本对形式的分类数据集进行小样本处理,构建每条数据是多对图文形式的小样本数据集,每个图文对以图像和文本标签的形式呈现,每个图文对属于不同的类别;
引入查询数据,查询数据类型为预分类的新图像,将所述查询数据和所述小样本数据集共同组合为上下文数据集,其中,所述小样本数据集中的小样本数据和查询数据的类别不同;
使用多模态模型的图像文本编码器对所述上下文数据集中图像和文本标签分别进行特征抽取,得到图像和文本特征向量;
将所述图像和文本特征向量进行过滤优化,使得图像和文本特征向量在语义上高度近似,得到输入特征;
将所述输入特征输入至因果语言模型,得到预测特征;
将所述输入特征中的图像特征相应的文本特征与对应的所述预测特征的文本特征进行交叉熵损失计算,并将计算得到的损失值用于所述因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型;
使用所述多模态图文分类模型对多模态图像文本对进行分类。
2.根据权利要求1所述的上下文语境感知的多模态图文分类方法,其特征在于,获得所述图像和文本特征向量具体包括以下步骤:
使用CLIP的图文编码器,对整个所述上下文数据集做表征转化处理,用ViT-B/16得到图像特征,用BERT得到文本特征。
3.根据权利要求1所述的上下文语境感知的多模态图文分类方法,其特征在于,获得所述输入特征具体包括以下步骤:
对所有的所述图像和文本特征向量中同属为一个类别的图像和文本特征做余弦相似度的计算,设定相似过滤阈值,并只保留每个类别中和文本特征相似度最高的Top-K个图像特征,使得图像和文本特征向量在语义上高度近似,根据小样本的策略,随机采样N个图文对的特征向量,N-1对图文特征向量作为小样本数据,最后一对图文特征向量作为查询数据,并将小样本数据、查询数据中的图像特征作为因果语言模型的输入特征。
4.根据权利要求1所述的上下文语境感知的多模态图文分类方法,其特征在于,构建多模态图文分类模型具体包括以下步骤:
输入特征中图像特征对应的预测特征中的文本特征作为模型反向传播更新的目标,因果语言建模下,当前图像特征的预测只依赖于前文中出现过的输入特征中的文本特征,损失建模都只针对预测特征中的文本特征和输入特征中的文本特征进行,当前位置的预测特征中文本特征只依赖于前文中出现过的输入特征中的文本特征,以此得到损失子项,对查询图像的损失计算则是基于全局的输入特征中的文本特征和查询图像的预测特征中的文本特征做余弦相似计算后完成归一化并统计查询损失,最终的全局损失为每个损失子项和查询损失的总和,最后通过损失梯度更新完成因果语言模型的训练,得到能对上下文语境感知的多模态图文分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058311.9A CN117033961A (zh) | 2023-08-22 | 2023-08-22 | 一种上下文语境感知的多模态图文分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058311.9A CN117033961A (zh) | 2023-08-22 | 2023-08-22 | 一种上下文语境感知的多模态图文分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033961A true CN117033961A (zh) | 2023-11-10 |
Family
ID=88644709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311058311.9A Pending CN117033961A (zh) | 2023-08-22 | 2023-08-22 | 一种上下文语境感知的多模态图文分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033961A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409262A (zh) * | 2023-12-14 | 2024-01-16 | 厦门瑞为信息技术有限公司 | 基于clip快速构建图像分类模型的方法 |
-
2023
- 2023-08-22 CN CN202311058311.9A patent/CN117033961A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409262A (zh) * | 2023-12-14 | 2024-01-16 | 厦门瑞为信息技术有限公司 | 基于clip快速构建图像分类模型的方法 |
CN117409262B (zh) * | 2023-12-14 | 2024-03-01 | 厦门瑞为信息技术有限公司 | 基于clip快速构建图像分类模型的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025284B (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111104513B (zh) | 一种游戏平台用户问答业务的短文本分类方法 | |
CN111008266B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN109271516B (zh) | 一种知识图谱中实体类型分类方法及系统 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN110647919A (zh) | 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统 | |
CN110866113A (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114881169A (zh) | 使用随机特征损坏的自监督对比学习 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN112989843B (zh) | 意图识别方法、装置、计算设备及存储介质 | |
CN114048290A (zh) | 一种文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |