CN115761314A - 一种基于提示学习的电商图文分类方法及系统 - Google Patents

一种基于提示学习的电商图文分类方法及系统 Download PDF

Info

Publication number
CN115761314A
CN115761314A CN202211383104.6A CN202211383104A CN115761314A CN 115761314 A CN115761314 A CN 115761314A CN 202211383104 A CN202211383104 A CN 202211383104A CN 115761314 A CN115761314 A CN 115761314A
Authority
CN
China
Prior art keywords
image
vector
text
prompt
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211383104.6A
Other languages
English (en)
Inventor
王进
王利蕾
邓龙行
彭云曦
刘彬
朴昌浩
杜雨露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211383104.6A priority Critical patent/CN115761314A/zh
Publication of CN115761314A publication Critical patent/CN115761314A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉和自然语言处理领域,具体涉及一种基于提示学习的电商图文分类方法及系统;该方法包括:获取电商图文信息并将其输入到预训练模型中,得到图像向量和文本向量;指定关键字,对关键字和图像向量进行处理,得到初始提示模板;根据图像向量,采用CLIP模型对初始提示模板进行训练,得到多个候选提示模板;随机选择两个候选提示模板和图像向量进行对比学习,得到图像特征向量;对文本向量进行处理,得到文本特征向量;对图像特征向量和文本特征向量进行对比学习,得到图文特征向量;将图文特征向量输入到融合层,得到图文融合特征;采用分类器对图文融合特征进行分类,得到电商图文分类结果;本发明分类结果精度高,实用性高。

Description

一种基于提示学习的电商图文分类方法及系统
技术领域
本发明属于计算机视觉领域和自然语言处理领域,具体涉及一种基于提示学习的电商图文分类方法及系统。
背景技术
随着大数据时代的发展,人们的生活方式产生了巨大的变化。大家足不出户就可以在电商平台上购物和消费。电商平台提供和商品的详细信息如商品图片等和客户是否产生消费欲望息息相关,使用前沿技术将海量的商品图片和商品标题利用起来,实现商品自动分类,可以大大减少电商平台的运营成本也能改善客户体验。
提示学习被广泛应用于自然语言处理领域中,提示学习指的是在下游任务中,增加关于任务的提示,让模型朝着下游任务的方向学习,更好地利用预训练模型,帮助机器更好地理解人类的问题,在标注数据较小的情况下也能达到很好的效果。由于需要向消费者展示产品,电商行业中的图像信息中有大量无用的背景信息,然而现有的图文分类方法中,没有考虑到电商图像信息的特点,并且在传统的多模态图文分类提示学习中,提示学习只被应用于文本侧,模板单一固定,无法根据数据特点学习。
发明内容
针对现有技术存在的不足,本发明提出了一种基于提示学习的电商图文分类方法及系统,该方法包括:
S1:获取电商图文信息并将其分别输入到图像和文本预训练模型中,得到图像向量和文本向量;
S2:指定关键字,对关键字和图像向量进行处理,得到初始提示模板;
S3:根据图像向量,采用CLIP模型对初始提示模板进行训练,得到多个候选提示模板;
S4:从多个候选提示模板中随机选择两个候选提示模板;对两个候选提示模板和图像向量进行对比学习,得到图像特征向量;
S5:采用双向长短时记忆网络和线性层对文本向量进行处理,得到文本特征向量;对图像特征向量和文本特征向量进行对比学习,得到图文特征向量;
S6:将图文特征向量输入到融合层,得到图文融合特征;采用分类器对图文融合特征进行分类,得到电商图文分类结果。
优选的,得到初始提示模板的过程包括:
S21:对关键字进行BERT-base编码,得到关键字文本向量;采用CLIP对关键字文本向量进行编码,得到关键字模板元素;
S22:将图像向量分割成多个patch即图像块,计算所有图像块之间的相似度;
S23:对一个图像块与其他图像块的相似度求和,其值作为该图像块的相对相似度;计算所有图像块的相对相似度,设置相似度阈值,将相对相似度小于相似度阈值的图像块作为集合A的元素;
S24:对集合A中的元素进行聚类,得到聚类结果;根据聚类结果计算图像模板初始化元素;
S25:将关键字模板元素与图像模板初始化元素进行拼接,得到初始提示模板。
进一步的,计算patch之间的相似度的公式为:
Figure BDA0003929394930000021
其中,similarity(x,y)表示图像块x和图像块y之间的相似度,μx表示图像块x的均值,μy表示图像块y的均值,σx表示图像块x的方差,σy表示图像块y的方差,σxy表示图像块x和图像块y的协方差,α表示学习系数,W1表示第一常数,W2表示第二常数。
进一步的,计算图像模板初始化元素的公式为:
Figure BDA0003929394930000031
其中,S表示图像模板初始化元素集合,s表示图像模板初始化元素,μa表示聚合的簇中元素a的均值,σa表示聚合的簇中元素a的方差,a表示聚合为第i个簇的集合中的元素,Ci表示聚合为第i个簇的集合,K表示聚类的簇数,A表示相对相似度小于相似度阈值的图像块集合,μx表示图像块x的均值,μCi表示聚合为第i个簇的集合的均值,σx表示图像块x的方差,σCi表示聚合为第i个簇的集合的方差。
优选的,得到多个候选提示模板的过程包括:
S31:将图像向量划分为训练集和验证集;
S32:拼接初始提示模板和训练集中的图像向量,使用MASK字符掩盖初始提示模板中的任一关键字,得到第一掩盖部分;
S33:计算图像向量中图像块的相对相似度,并使用MASK字符掩盖相对相似度最小的多个图像块,得到第二掩盖部分;
S34:将第一掩盖部分和第二掩盖部分输入到CLIP模型中进行训练,计算加权交叉熵损失函数;根据加权交叉熵损失函数调整初始提示模板的参数,返回步骤S32;
S35:设置验证步数m,每迭代m次,采用验证集中的图像向量进行验证,计算加权交叉熵损失函数并保存当前CLIP模型和提示模板,选择验证损失最低的n个模板作为候选提示模板。
优选的,计算加权交叉熵损失函数的公式为:
Figure BDA0003929394930000041
其中,Loss表示加权交叉熵损失,A表示初始提示模板向量集合,B表示图像向量集合,P(i)表示提示模板中第i个关键字的概率分布,xi表示提示模板掩盖第i个关键字的预测,xmasked表示提示模板被掩盖部分,β表示加权系数,P(j)表示第j个图像向量的概率分布,yj表示第j个图像向量中掩盖部分的预测,ymasked表示图像向量被掩盖的部分,q(xi|xmaske)表示提示模板掩盖第i个关键字的预测概率分布,q(yj|ymasked)表示第j个图像向量掩盖部分的预测概率分布。
优选的,对两个候选提示模板和图像向量进行对比学习的过程包括:
S41:将两个候选提示模板分别与同一个图像向量拼接,得到一对正例图像向量;
S42:将其中一个候选提示模板与剩余的图像向量拼接,得到多个反例图像向量;
S43:根据正例图像向量和反例图像向量进行对比学习,计算对比学习损失并根据对比学习损失得到图像特征向量。
优选的,计算对比学习损失的公式为:
Figure BDA0003929394930000042
其中,
Figure BDA0003929394930000043
表示第i个图像向量的对比损失,μi表示第i个图像向量的均值,μj表示第j个反例图像向量的均值,σi表示第i个图像向量的方差,σj表示第j个反例图像向量的方差,σii+表示第i个图像向量和正例图像样本的协方差,σij表示第i个图像向量和第j个反例图像向量的协方差,N表示同一批次的数据集大小,τ表示温度系数,W1表示第一常数,W2表示第二常数。
一种基于提示学习的电商图文分类系统,包括:图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块;
所述图像文本编码模块用于对电商图文信息编码,得到图像向量和文本向量;
所述提示模板生成模块用于根据图像向量生成候选提示模板;
所述图像特征提取模块用于根据候选提示模板和图像向量生成图像特征向量;
所述融合分类模块用于根据文本向量和图像特征向量进行电商图文分类,得到电商图文分类结果。
本发明的有益效果为:
1.本发明考虑电商图片特性,设计图像块相似度函数,根据相似度筛选出包含有效图像更多的图像块,实用价值高;
2.传统的提示学习方法只针对文本侧进行提示,本发明根据聚类方法,和人工关键字结合有效初始化图像提示模板,在训练过程中可最大限度发挥预训练模型的作用,达到高精度预测;
3.根据图像均值和方差设计图像对比学习损失,强化特征表达,优化分类结果。
4.设计图文记忆融合网络将图像特征和文本特征进行特征融合,可以减少训练时间和内存消耗。
附图说明
图1为本发明中一种基于提示学习的电商图文分类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于提示学习的电商图文分类方法及系统,如图1所示,所述方法包括以下内容:
S1:获取电商图文信息并将其分别输入到图像和文本预训练模型中,得到图像向量和文本向量。
从电商平台中获取电商图文信息,电商图文信息包括如商品名称、规格、生产日期、类型等商品的基本文本信息和商品的配图;将电商图文信息输入到预训练模型中,可得到图像向量和文本向量;优选的,分别使用CLIP(Contrastive Language-Image Pre-Training,对比图文预训练模型)和BERT-base(Bidirectional Encoder Representationfrom Transformers,基于Transformers的双向编码表示模型)作为图像和文本的预训练模型。
S2:指定关键字,对关键字和图像向量进行处理,得到初始提示模板。
人工指定关键字,关键是与商品分类相关的词语,比如,类别、图像、物体、产品等关键字。
S21:对关键字进行BERT-base编码,得到关键字文本向量;采用CLIP对关键字文本向量进行编码,得到关键字模板元素。
在对关键字文本向量进行编码前,需要将关键字文本向量重构成CLIP可以编码的维度。
S22:将图像向量分割成多个patch即图像块,计算所有图像块之间的相似度。
优选的,将图像分割成8*8的patch即图像块,计算所有图像块之间的相似度,计算公式为:
Figure BDA0003929394930000061
其中,similarity(x,y)表示图像块x和图像块y之间的相似度,μx表示图像块x的均值,μy表示图像块y的均值,σx表示图像块x的方差,σy表示图像块y的方差,α表示学习系数,W1表示第一常数,W2表示第二常数。
公式利用图像块的均值和方差得到图像的亮度和对比度,使用亮度和对比度相乘得到图像相似度计算的第一部分,将传统的余弦相似度逐个像素点计算相似计算方法更改为使用图像块的均值和方差来计算,得到图像相似度计算的第二部分,这样计算可以提高效率,也能全面的评价两个图像块的相似性。
S23:对一个图像块与其他图像块的相似度求和,其值作为该图像块的相对相似度;计算所有图像块的相对相似度,设置相似度阈值,将相对相似度小于相似度阈值的图像块作为集合A的元素。
计算相对相似度的公式为:
Figure BDA0003929394930000071
其中,Relative-similarityi表示第i个图像块的相对相似度,j表示除i以外的第j个图像块,N表示图像块总数。
集合A表示为:
A={x|xsimilarity<α}
S24:对集合A中的元素进行聚类,得到聚类结果;根据聚类结果计算图像模板初始化元素。
根据集合A中的元素的距离进行聚类,根据聚类结果,取每簇元素的均值和方差的平均值作为图像模板初始化元素根据聚类结果计算图像模板初始化元素,公式为:
Figure BDA0003929394930000072
Ci满足
Figure BDA0003929394930000073
其中,S表示图像模板初始化元素集合,s表示图像模板初始化元素,μa表示聚合的簇中元素a的均值,σa表示聚合的簇中元素a的方差,a表示聚合为第i个簇的集合中的元素,Ci表示聚合为第i个簇的集合,K表示聚类的簇数,A表示相对相似度小于相似度阈值的图像块集合,μx表示图像块x的均值,
Figure BDA0003929394930000074
表示聚合为第i个簇的集合的均值,σx表示图像块x的方差,
Figure BDA0003929394930000081
表示聚合为第i个簇的集合的方差。
S25:将关键字模板元素与图像模板初始化元素进行拼接,得到初始提示模板。
模板拼接格式为:
[e(x1),e(x2),…,e(关键字1),…,e(关键字2)]
[e(关键字1),…,e(xn),…,e(关键字2),e(xm)]
[e(x1),…,e(关键字1),…,e(xn)…,e(关键字2)]
其中,
Figure BDA0003929394930000082
表示模板初始化元素,关键字i∈[1,2]指人工指定关键字,例如:类别、图像、物体、产品等。
本发明根据图像的方差和均值计算图像块之间的相似度以用来筛选掉无用背景图像块,有效初始化图像侧提示模板。
S3:根据图像向量,采用CLIP模型对初始提示模板进行训练,得到多个候选提示模板。
训练过程中冻结CLIP的参数,只优化模板组成元素。
S31:将图像向量划分为训练集和验证集。
优选的,将图像向量按8:2的比例划分为训练集和验证集。
S32:拼接初始提示模板和训练集中的图像向量,使用MASK字符掩盖初始提示模板中的任一关键字,得到第一掩盖部分。
S33:计算图像向量中图像块的相对相似度,并使用MASK字符掩盖相对相似度最小的多个图像块,得到第二掩盖部分。
计算图像向量中图像块的相对相似度的过程与步骤S2相同,优选的,掩盖相对相似度最小的多个图像块的数量可取图像向量的15%-30%。
S34:将第一掩盖部分和第二掩盖部分输入到CLIP模型中进行训练,计算加权交叉熵损失函数;根据加权交叉熵损失函数调整初始提示模板的参数,返回步骤S32。
计算加权交叉熵损失函数的公式为:
Figure BDA0003929394930000091
其中,Loss表示加权交叉熵损失,A表示初始提示模板向量集合,B表示图像向量集合,P(i)表示提示模板中第i个关键字的概率分布,xi表示提示模板掩盖第i个关键字的预测,xmasked表示提示模板被掩盖部分,β表示加权系数,P(j)表示第j个图像向量的概率分布,yj表示第j个图像向量中掩盖部分的预测,ymasked表示图像向量被掩盖的部分,q(xi|xmasked)表示提示模板掩盖第i个关键字的预测概率分布,q(yj|ymasked)表示第j个图像向量掩盖部分的预测概率分布,
Figure BDA0003929394930000092
表示求期望。
损失函数分为提示模板部分和图像向量部分,将图像向量部分乘以系数β,让模型更多的关注提示模板部分的训练和更新,以获得更加有效的提示模板。
根据加权交叉熵损失函数调整初始提示模板的参数,即优化模板组成元素,得到优化后的初始提示模板,返回步骤S31,拼接下一训练数据的图像向量。
S35:设置验证步数m,每迭代m次,采用验证集中的图像向量进行验证计算加权交叉熵损失函数并保存当前CLIP模型和提示模板,选择验证损失最低的n个模板作为候选提示模板;
S4:从多个候选提示模板中随机选择两个候选提示模板;对两个候选提示模板和图像向量进行对比学习,得到图像特征向量。
S41:将两个候选提示模板分别与同一个图像向量拼接,得到一对正例图像向量。
提示模板分别与同一个图像向量拼接时,不同批次的训练图像向量可以随机选取拼接头部或是拼接尾部。
S42:随机将其中一个候选提示模板与剩余的图像向量拼接,得到多个反例图像向量。
S43:根据正例图像向量和反例图像向量进行对比学习,计算对比学习损失并根据对比学习损失得到图像特征向量。
计算对比学习损失的公式为:
Figure BDA0003929394930000101
其中,
Figure BDA0003929394930000102
表示第i个图像向量的对比损失,μi表示第i个图像向量的均值,μj表示第j个反例图像向量的均值,σi表示第i个图像向量的方差,σj表示第j个反例图像向量的方差,σii+表示第i个图像向量和正例图像样本的协方差,σij表示第i个图像向量和第j个反例图像向量的协方差,N表示同一批次的数据集大小,τ表示温度系数,W1表示第一常数,W2表示第二常数。
S5:采用双向长短时记忆网络和线性层对文本向量进行处理,得到文本特征向量;对图像特征向量和文本特征向量进行对比学习,得到图文特征向量。
文本特征向量和对应的图像特征向量组成一对对比学习向量,并对其进行对比学习。
进行对比学习时,根据对比学习损失不断拉近同一对图文特征,输出对比学习后的图像特征向量和文本特征向量即图文特征向量。
S6:将图文特征向量输入到融合层,得到图文融合特征;采用分类器对图文融合特征进行分类,得到电商图文分类结果。
融合层运算步骤为:
ft=σ[Wf(pt-1xt T)xt+Cf]
ht=tanh[Wh(pt-1xt T)xt+Ch]
pt=ft×(pt-1+ht)
feature=ft×tanh(pt)
其中,σ表示sigmoid运算,Wf表示第一系数矩阵,pt-1表示上一时刻的图像特征,xt表示当前时刻的文本特征,Cf表示第一偏置项,Wh表示第二系数矩阵,Ch表示第二偏置项,ft表示上一时刻图像和文本特征的遗忘结果,ht表示上一刻图像和文本的保存结果,pt表示当前时刻图像特征的更新结果,feature表示图像文本融合特征。
将图文融合特征送入线性层分类器中完成图文特征到分类类别的映射进行分类,得到电商图文分类结果。
本发明使用对比学习的方法将提示学习融入图像侧,可更好的利用电商领域中重要的图像部分。设计图文记忆融合网络完成图像文本特征融合,在降低运行时间的同时完成高质量图文分类,具有较高的实用性。
本发明还提出了一种基于提示学习的电商图文分类系统,该系统用于执行上述一种基于提示学习的电商图文分类方法,包括:图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块;
所述图像文本编码模块用于对电商图文信息编码,得到图像向量和文本向量;
所述提示模板生成模块用于根据图像向量生成候选提示模板;
所述图像特征提取模块用于根据候选提示模板和图像向量生成图像特征向量;
所述融合分类模块用于根据文本向量和图像特征向量进行电商图文分类,得到电商图文分类结果。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于提示学习的电商图文分类方法,其特征在于,包括:
S1:获取电商图文信息并将其分别输入到图像和文本预训练模型中,得到图像向量和文本向量;
S2:指定关键字,对关键字和图像向量进行处理,得到初始提示模板;
S3:根据图像向量,采用CLIP模型对初始提示模板进行训练,得到多个候选提示模板;
S4:从多个候选提示模板中随机选择两个候选提示模板;对两个候选提示模板和图像向量进行对比学习,得到图像特征向量;
S5:采用双向长短时记忆网络和线性层对文本向量进行处理,得到文本特征向量;对图像特征向量和文本特征向量进行对比学习,得到图文特征向量;
S6:将图文特征向量输入到融合层,得到图文融合特征;采用分类器对图文融合特征进行分类,得到电商图文分类结果。
2.根据权利要求1所述的一种基于提示学习的电商图文分类方法,其特征在于,得到初始提示模板的过程包括:
S21:对关键字进行BERT-base编码,得到关键字文本向量;采用CLIP对关键字文本向量进行编码,得到关键字模板元素;
S22:将图像向量分割成多个patch即图像块,计算所有图像块之间的相似度;
S23:对一个图像块与其他图像块的相似度求和,其值作为该图像块的相对相似度;计算所有图像块的相对相似度,设置相似度阈值,将相对相似度小于相似度阈值的图像块作为集合A的元素;
S24:对集合A中的元素进行聚类,得到聚类结果;根据聚类结果计算图像模板初始化元素;
S25:将关键字模板元素与图像模板初始化元素进行拼接,得到初始提示模板。
3.根据权利要求2所述的一种基于提示学习的电商图文分类方法,其特征在于,计算patch之间的相似度的公式为:
Figure FDA0003929394920000021
其中,similarity(x,y)表示图像块x和图像块y之间的相似度,μx表示图像块x的均值,μy表示图像块y的均值,σx表示图像块x的方差,σy表示图像块y的方差,σxy表示图像块x和图像块y的协方差,α表示学习系数,W1表示第一常数,W2表示第二常数。
4.根据权利要求2所述的一种基于提示学习的电商图文分类方法,其特征在于,计算图像模板初始化元素的公式为:
Figure FDA0003929394920000022
其中,S表示图像模板初始化元素集合,s表示图像模板初始化元素,μa表示聚合的簇中元素a的均值,σa表示聚合的簇中元素a的方差,a表示聚合为第i个簇的集合中的元素,Ci表示聚合为第i个簇的集合,K表示聚类的簇数,A表示相对相似度小于相似度阈值的图像块集合,μx表示图像块x的均值,
Figure FDA0003929394920000023
表示聚合为第i个簇的集合的均值,σx表示图像块x的方差,
Figure FDA0003929394920000024
表示聚合为第i个簇的集合的方差。
5.根据权利要求1所述的一种基于提示学习的电商图文分类方法,其特征在于,得到多个候选提示模板的过程包括:
S31:将图像向量划分为训练集和验证集;
S32:拼接初始提示模板和训练集中的图像向量,使用MASK字符掩盖初始提示模板中的任一关键字,得到第一掩盖部分;
S33:计算图像向量中图像块的相对相似度,并使用MASK字符掩盖相对相似度最小的多个图像块,得到第二掩盖部分;
S34:将第一掩盖部分和第二掩盖部分输入到CLIP模型中进行训练,计算加权交叉熵损失函数;根据加权交叉熵损失函数调整初始提示模板的参数,返回步骤S32;
S35:设置验证步数m,每迭代m次,采用验证集中的图像向量进行验证,计算加权交叉熵损失函数并保存当前CLIP模型和提示模板,选择验证损失最低的n个模板作为候选提示模板。
6.根据权利要求1所述的一种基于提示学习的电商图文分类方法,其特征在于,计算加权交叉熵损失函数的公式为:
Figure FDA0003929394920000031
其中,Loss表示加权交叉熵损失,A表示初始提示模板向量集合,B表示图像向量集合,P(i)表示提示模板中第i个关键字的概率分布,xi表示提示模板掩盖第i个关键字的预测,xmasked表示提示模板被掩盖部分,β表示加权系数,P(j)表示第j个图像向量的概率分布,yj表示第j个图像向量中掩盖部分的预测,
ymasked表示图像向量被掩盖的部分,q(xi|xmasked)表示提示模板掩盖第i个关键字的预测概率分布,q(yj|ymasked)表示第j个图像向量掩盖部分的预测概率分布。
7.根据权利要求1所述的一种基于提示学习的电商图文分类方法,其特征在于,对两个候选提示模板和图像向量进行对比学习的过程包括:
S41:将两个候选提示模板分别与同一个图像向量拼接,得到一对正例图像向量;
S42:将其中一个候选提示模板与剩余的图像向量拼接,得到多个反例图像向量;
S43:根据正例图像向量和反例图像向量进行对比学习,计算对比学习损失并根据对比学习损失得到图像特征向量。
8.根据权利要求1所述的一种基于提示学习的电商图文分类方法,其特征在于,计算对比学习损失的公式为:
Figure FDA0003929394920000041
其中,
Figure FDA0003929394920000042
表示第i个图像向量的对比损失,μi表示第i个图像向量的均值,μj表示第j个反例图像向量的均值,σi表示第i个图像向量的方差,σj表示第j个反例图像向量的方差,
Figure FDA0003929394920000043
表示第i个图像向量和正例图像样本的协方差,σij表示第i个图像向量和第j个反例图像向量的协方差,N表示同一批次的数据集大小,τ表示温度系数,W1表示第一常数,W2表示第二常数。
9.一种基于提示学习的电商图文分类系统,其特征在于,包括:图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块;
所述图像文本编码模块用于对电商图文信息编码,得到图像向量和文本向量;
所述提示模板生成模块用于根据图像向量生成候选提示模板;
所述图像特征提取模块用于根据候选提示模板和图像向量生成图像特征向量;
所述融合分类模块用于根据文本向量和图像特征向量进行电商图文分类,得到电商图文分类结果。
CN202211383104.6A 2022-11-07 2022-11-07 一种基于提示学习的电商图文分类方法及系统 Pending CN115761314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211383104.6A CN115761314A (zh) 2022-11-07 2022-11-07 一种基于提示学习的电商图文分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211383104.6A CN115761314A (zh) 2022-11-07 2022-11-07 一种基于提示学习的电商图文分类方法及系统

Publications (1)

Publication Number Publication Date
CN115761314A true CN115761314A (zh) 2023-03-07

Family

ID=85356851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211383104.6A Pending CN115761314A (zh) 2022-11-07 2022-11-07 一种基于提示学习的电商图文分类方法及系统

Country Status (1)

Country Link
CN (1) CN115761314A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416480A (zh) * 2023-06-09 2023-07-11 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN116631566A (zh) * 2023-05-23 2023-08-22 重庆邮电大学 一种基于大数据的医学影像报告智能生成方法
CN116701637A (zh) * 2023-06-29 2023-09-05 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116844161A (zh) * 2023-09-04 2023-10-03 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631566A (zh) * 2023-05-23 2023-08-22 重庆邮电大学 一种基于大数据的医学影像报告智能生成方法
CN116631566B (zh) * 2023-05-23 2024-05-24 广州合昊医疗科技有限公司 一种基于大数据的医学影像报告智能生成方法
CN116416480A (zh) * 2023-06-09 2023-07-11 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN116416480B (zh) * 2023-06-09 2023-08-25 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN116701637A (zh) * 2023-06-29 2023-09-05 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116701637B (zh) * 2023-06-29 2024-03-08 中南大学 一种基于clip的零样本文本分类方法、系统及介质
CN116844161A (zh) * 2023-09-04 2023-10-03 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及系统
CN116844161B (zh) * 2023-09-04 2024-03-05 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及系统

Similar Documents

Publication Publication Date Title
CN115761314A (zh) 一种基于提示学习的电商图文分类方法及系统
CN111680217B (zh) 内容推荐方法、装置、设备及存储介质
CN108492118B (zh) 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN111694924A (zh) 一种事件抽取方法和系统
CN111553759A (zh) 一种产品信息推送方法、装置、设备及存储介质
Prudviraj et al. Incorporating attentive multi-scale context information for image captioning
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN110705592A (zh) 分类模型训练方法、装置、设备及计算机可读存储介质
CN114491115B (zh) 一种基于深度哈希的多模型融合的集成图像检索方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
CN113569955A (zh) 一种模型训练方法、用户画像生成方法、装置及设备
CN115909336A (zh) 文本识别方法、装置、计算机设备和计算机可读存储介质
CN111339734A (zh) 一种基于文本生成图像的方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN113806747B (zh) 一种木马图片检测方法、系统及计算机可读存储介质
CN116719930A (zh) 基于视觉方面注意的多模态情感分析方法
CN112487231B (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN114819140A (zh) 模型剪枝方法、装置和计算机设备
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
CN114529908A (zh) 一种离线手写化学反应式图像识别技术
CN112950261A (zh) 一种用户价值的确定方法及系统
CN113255891B (zh) 对事件特征进行处理的方法、神经网络模型和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination