CN117573908A - 基于对比学习的大语言模型蒸馏方法 - Google Patents
基于对比学习的大语言模型蒸馏方法 Download PDFInfo
- Publication number
- CN117573908A CN117573908A CN202410058543.2A CN202410058543A CN117573908A CN 117573908 A CN117573908 A CN 117573908A CN 202410058543 A CN202410058543 A CN 202410058543A CN 117573908 A CN117573908 A CN 117573908A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- sequence
- sample set
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004821 distillation Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000013140 knowledge distillation Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机器学习技术领域,提出了基于对比学习的大语言模型蒸馏方法,包括:获取图像文本匹配样本集合;根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数;根据语义划分特征相似系数获取语义划分特征关联倾向序列;根据图像文本匹配样本集合获取图像色彩关联特征向量;根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列;根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度获取模型的蒸馏结果。本发明通过对输入数据进行分析获取蒸馏温度,提高对模型进行蒸馏的效果。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及基于对比学习的大语言模型蒸馏方法。
背景技术
随着互联网技术的飞速发展,手机、电脑等各种电子设备成为了人们生活中不可缺少的部分之一,这些设备上各种应用每天都会产生海量的文本信息,如何有效利用这些文本信息是许多领域都需要解决的一个问题。在海量的文本信息基础上衍生出了多样的自然语言处理任务,深度学习在处理自然语言任务上表现出优异的性能。
近几年来出现的预训练语言模型在自然语言的研究上表现了较好的性能,但同时出现了网络模型臃肿、过参数化特性等缺点,限制了语言模型的实际的应用落地。现如今对预训练语言模型的轻量化进行了大量的研究,但大部分研究未区分语言模型的预训练阶段和微调阶段,导致了网络轻量化过程仍然需要较大的计算代价,其中采用基于知识蒸馏的模型压缩方法时,知识蒸馏中蒸馏温度的选取直接影响学生模型的训练效果。例如利用知识蒸馏技术获取大语言模型中文本摘要生成的学生模型,则模型输入样本的质量差异较大影响学生模型的训练效果,导致以大语言模型为教师模型进行知识蒸馏获取的学生模型的准确性较低。
发明内容
本发明提供基于对比学习的大语言模型蒸馏方法,以解决大语言模型蒸馏结果准确性低的问题,所采用的技术方案具体如下:
本发明一个实施例提供了基于对比学习的大语言模型蒸馏方法,该方法包括以下步骤:
获取图像文本匹配样本集合,图像文本匹配样本集合中每个元素对应一个图像数据;
根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列;根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数;根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列;根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量;根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列;
根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果。
优选的,所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为:
利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据,利用字典分割算法获取所述文本数据划分结果,利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分,将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列。
优选的,所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为:
式中,表示第/>个和第/>个元素之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列,/>表示/>和/>之间的杰卡德系数;/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示/>和/>之间的余弦相似度;/>表示第个元素对应的文本数据中分词的数量;/>表示第/>个元素对应的文本数据中分词的数量。
优选的,所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为:
对于图像文本匹配样本集合中的每个元素,获取所述每个元素与其它所有元素之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列,将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本,将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列。
优选的,所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为:
对于图像文本匹配样本集合中每个元素,采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色,将所述每个元素对应的预设数量个主题色作为所述每个元素的图像关联特征向量。
优选的,所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将所述每个元素的图像关联特征向量与每个所述关联分析特征样本对应的图像关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数,根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列。
优选的,所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列。
优选的,所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为:
式中,表示第/>个元素的图像文本关联特征系数;/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和/>之间的EDR编辑距离;/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的语义划分特征相似系数;/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的图像特征相似系数;/>表示/>和/>中数据的数量。
优选的,所述根据图像文本关联特征系数获取蒸馏温度的方法为:
式中,表示蒸馏温度;/>表示蒸馏温度调节参数;/>表示第/>个元素对应的图像文本关联特征系数;/>表示调节参数;/>表示CLIP模型中输入元素的数量。
优选的,所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为:
基于蒸馏温度采用知识蒸馏技术获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本匹配数据集中每个元素的匹配结果。
本发明的有益效果是:本发明通过分析需要获取信息摘要文本相关的图像数据中文本数据之间的关系获取语义划分特征相似系数,根据语义划分特征相似系数获取语义划分特征关联倾向序列,根据语义划分特征关联倾向序列和图像特征的分析结果获取图像主题色特征关联倾向序列,根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数,基于图像文本关联特征系数调整CLIP模型知识蒸馏过程中的蒸馏温度,其有益效果在于避免因输入数据样本中负标签对学生模型训练的精度的影响,提高采用知识蒸馏获取CLIP模型的学生模型的训练效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于对比学习的大语言模型蒸馏方法的流程示意图;
图2为本发明一个实施例所提供的教师模型和学生模型结构的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于对比学习的大语言模型蒸馏方法流程图,该方法包括以下步骤:
步骤S001,获取图像文本匹配样本集合。
大语言模型应用的领域较为广泛,包括自然语言处理、信息检索、语言翻译、内容创作等,其中在自然语言处理中文本摘要是从长篇文本中自动提取出核心信息的过程。其中较多的需要获取信息摘要的文本中包括文本和图像,因此利用图像文本匹配技术辅助生成文本摘要,可以生成更准确和全面的摘要。在搜索引擎上输入关键词则可以对应搜索与需要获取信息摘要文本相关的带有文字的图像数据,即任意一幅图像中都带有一定的文字描述。
进一步的,将需要获取信息摘要文本相关的图像数据组成的集合作为图像文本特征分析样本集,对图像文本特征分析样本集中的图像数据进行预处理,采用非局部均值去噪对每个图像进行降噪处理,进一步的,采用自适应直方图均衡化对每个图像数据进行图像增强,提高图像数据的质量,将经过预处理后的图像特征分析样本集作为图像文本匹配样本集合,非局部均值去噪算法和自适应直方图均衡化算法的具体实现过程为公知技术,不再进行赘述。
至此,获取了图像文本匹配样本集合。
步骤S002,根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数,根据语义划分特征相似系数获取语义划分特征关联倾向序列,根据图像文本匹配样本集合获取图像色彩关联特征向量,根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列。
现如今的图像中大多含有文本数据,这些文本数据与图像主题相关或者与图像本身的一些其他特征相关,因此对图像进行分类过程中,结合图像数据与其中文本数据的关系分析,可以进一步提高对图像和文本特征的提取效果。具体的,采用OCR(OpticalCharacter Recognition)技术获取图像文本匹配样本结合中每个图像数据中的文本数据,OCR技术的具体实现过程为公知技术,不再进行赘述。
进一步的,利用字典分割算法获取图像文本匹配集合中每个图像数据的文本数据划分结果,将所述文本数据划分结果中每个划分文本作为所述文本数据的一个分词。将图像文本匹配集合中每个图像数据的文本数据划分结果作为BERT模型(BidirectionalEncoder Representations from Transformers)的输入,优化算法为Adam,损失函数为L2损失函数,利用BERT模型获取所述文本数据每个分词的分词向量表示和每个分词的对应的相似度得分,将每个图像数据中的文本数据的所有分词对应的相似度得分由小到大排序组成的序列作为所述图像数据的文本特征序列,根据每个图像数据的文本数据对应的文本特征序列和所有分词的向量表示计算不同图像数据之间的语义划分特征相似系数,具体的计算公式如下:
式中,表示第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个图像数据对应的文本数据的文本特征序列,/>表示/>和/>之间的杰卡德系数;/>表示第/>个图像数据对应的文本数据中第/>个分词的向量表示,/>表示第/>个图像数据对应的文本数据中第/>个分词的向量表示,/>表示/>和/>之间的余弦相似度;/>表示第/>个图像数据对应的文本数据中分词的数量;/>表示第/>个图像数据对应的文本数据中分词的数量。
若图像文本匹配集合中两个图像数据对应的文本数据的特征相似,则计算得到的和/>的值越大,计算得到的第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数/>的值越大,表示图像文本匹配集合中第/>个和第/>个图像数据对应的文本数据特征相似,即第/>个和第/>个图像数据表达的语义接近的可能性越大。
进一步的,由于图像中文本数据的特征与图像数据之间存在关联性,因此根据图像数据之间的语义划分特征相似系数和图像数据特征的分析结果计算图像文本关联特征系数。具体的,计算图像文本匹配集合中第个图像数据对应的文本数据与其它所有图像数据对应的文本数据之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的关联特征分析序列,选取所述关联特征分析序列中前/>(大小取经验值20)个数据作为第/>个图像数据的语义划分特征关联倾向序列,将所述/>个数据对应的图像数据作为第/>个图像数据的关联分析特征样本。
采用八叉树主题色提取算法获取图像文本匹配集合中每个图像数据的(大小取经验值5)个主题色,将所述每个图像数据对应的/>个主题色组成的向量作为所述每个图像数据的图像关联特征向量,同样可以得到第/>个图像数据对应的图像色彩关联特征向量。
进一步的,根据第个图像数据与第/>个图像数据的每个关联分析特征样本之间图像特征之间的关系分析图像与文本之间的关联程度。具体的,将第/>个图像数据的图像关联特征向量与第/>个图像数据的每个关联分析特征样本对应图像数据的图像关联特征向量之间的余弦相似度作为图像特征相似系数,将所有所述图像特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的图像主题色特征关联倾向序列。
至此,获取了语义划分特征关联倾向序列和图像主题色特征关联倾向序列。
步骤S003,根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数,根据图像文本关联特征系数获取蒸馏温度。
根据第个图像数据的数据关联倾向序列和语义划分特征关联倾向序列计算第/>个图像数据的图像文本关联特征系数,具体计算公式如下:
式中,表示第/>个图像数据的图像文本关联特征系数;/>和/>分别表示第/>个图像数据的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和之间的EDR编辑距离;/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的语义划分特征相似系数;/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的图像特征相似系数;/>表示/>和/>中元素的数量。
若第个图像数据中图像与文本之间关联性较大,则通过图像文本匹配集合中其它图像数据中图像与文本数据的相对分析得到的/>和的值越小,计算得到的第/>个图像数据的图像文本关联特征系数/>的值越大,表示第/>个图像数据中图像与文本关联程度较大。
进一步的,采用CLIP模型进行图像文本匹配的训练,将CLIP模型作为教师模型,采用知识蒸馏技术获取教师模型对应的学生模型,由于训练教师模型的过程中输入数据集中训练样本的质量直接影响学生模型的训练精度,其中蒸馏温度控制知识蒸馏过程中对正负标签的关注程度,因此通过对CLIP模型输入样本中图像与文本之间的关系进行分析调整蒸馏温度,具体的计算公式如下:
式中,表示蒸馏温度;/>表示蒸馏温度调节参数,大小取经验值2;/>表示第/>个图像数据对应的图像文本关联特征系数;/>表示调节参数,大小取经验值0.1;/>表示CLIP模型中输入图像数据的数量。
若CLIP模型输入样本中图像数据中图像与文本之间关联特征较大,则计算得到的的值越小,计算得到的蒸馏温度/>的值越大,表示通过CLIP模型进行知识蒸馏过程中输入样本数据正向关联特征明显,因此需要较大的蒸馏温度/>降低负标签对学生模型训练精度的影响。
至此,获取了蒸馏温度。
步骤S004,根据蒸馏温度获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本的匹配结果。
采用TF-IDF算法获取需要获取信息摘要文本的关键信息,TF-IDF算法的具体实现过程为公知技术,不再进行赘述。将图像文本匹配集合中所有图像数据、需要获取信息摘要文本的关键信息作为CLIP模型的输入,优化算法为Adam,损失函数为图像-文本对比损失函数,获取所有图像数据的匹配结果,CLIP模型的具体训练过程为公知技术,不再进行赘述。
进一步的,以CLIP模型为教师模型,采用知识蒸馏获取CLIP模型对应的学生模型,其中蒸馏温度为,知识蒸馏的具体实现过程为公知技术,不再进行赘述。教师模型与学生模型的结构示意图如图2所示。
至此,基于图像文本关联特征系数和图像文本匹配样本集合训练CLIP模型,并基于CLIP模型实现了用于跨模态匹配的大语言模型的知识蒸馏。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于对比学习的大语言模型蒸馏方法,其特征在于,该方法包括以下步骤:
获取图像文本匹配样本集合,图像文本匹配样本集合中每个元素对应一个图像数据;
根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列;根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数;根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列;根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量;根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列;
根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果。
2.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为:
利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据,利用字典分割算法获取所述文本数据划分结果,利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分,将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列。
3.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为:
式中,/>表示第/>个和第/>个元素之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列,/>表示和/>之间的杰卡德系数;/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示/>和/>之间的余弦相似度;/>表示第/>个元素对应的文本数据中分词的数量;/>表示第/>个元素对应的文本数据中分词的数量。
4.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为:
对于图像文本匹配样本集合中的每个元素,获取所述每个元素与其它所有元素之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列,将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本,将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列。
5.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为:
对于图像文本匹配样本集合中每个元素,采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色,将所述每个元素对应的预设数量个主题色作为所述每个元素的图像关联特征向量。
6.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将所述每个元素的图像关联特征向量与每个所述关联分析特征样本对应的图像关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数,根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列。
7.根据权利要求6所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列。
8.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为:
式中,/>表示第/>个元素的图像文本关联特征系数;/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和/>之间的EDR编辑距离;/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的语义划分特征相似系数;/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的图像特征相似系数;/>表示/>和/>中数据的数量。
9.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据图像文本关联特征系数获取蒸馏温度的方法为:
式中,/>表示蒸馏温度;/>表示蒸馏温度调节参数;/>表示第/>个元素对应的图像文本关联特征系数;/>表示调节参数;/>表示CLIP模型中输入元素的数量。
10.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为:
基于蒸馏温度采用知识蒸馏技术获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本匹配数据集中每个元素的匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410058543.2A CN117573908B (zh) | 2024-01-16 | 2024-01-16 | 基于对比学习的大语言模型蒸馏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410058543.2A CN117573908B (zh) | 2024-01-16 | 2024-01-16 | 基于对比学习的大语言模型蒸馏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117573908A true CN117573908A (zh) | 2024-02-20 |
CN117573908B CN117573908B (zh) | 2024-03-19 |
Family
ID=89862845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410058543.2A Active CN117573908B (zh) | 2024-01-16 | 2024-01-16 | 基于对比学习的大语言模型蒸馏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117573908B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112368719A (zh) * | 2018-05-17 | 2021-02-12 | 奇跃公司 | 神经网络的梯度对抗性训练 |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
CN114565810A (zh) * | 2022-03-08 | 2022-05-31 | 华东师范大学 | 一种基于数据保护场景下的模型压缩方法及系统 |
US20230153572A1 (en) * | 2021-11-12 | 2023-05-18 | Nec Laboratories America, Inc. | Domain generalizable continual learning using covariances |
CN116186317A (zh) * | 2023-04-23 | 2023-05-30 | 中国海洋大学 | 一种基于跨模态交叉指导的图文检索方法及系统 |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
-
2024
- 2024-01-16 CN CN202410058543.2A patent/CN117573908B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112368719A (zh) * | 2018-05-17 | 2021-02-12 | 奇跃公司 | 神经网络的梯度对抗性训练 |
US20230153572A1 (en) * | 2021-11-12 | 2023-05-18 | Nec Laboratories America, Inc. | Domain generalizable continual learning using covariances |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
CN114565810A (zh) * | 2022-03-08 | 2022-05-31 | 华东师范大学 | 一种基于数据保护场景下的模型压缩方法及系统 |
CN116186317A (zh) * | 2023-04-23 | 2023-05-30 | 中国海洋大学 | 一种基于跨模态交叉指导的图文检索方法及系统 |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
Non-Patent Citations (1)
Title |
---|
YUAN, CHEN: "Compressed-Transformer: Distilling Knowledge from Transformer for Neural Machine Translation", 《NLPIR \'20: PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND INFORMATION RETRIEVAL》, 20 December 2020 (2020-12-20), pages 131 - 137, XP058839160, DOI: 10.1145/3443279.3443302 * |
Also Published As
Publication number | Publication date |
---|---|
CN117573908B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN112199501B (zh) | 一种科技信息文本分类方法 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN109492678A (zh) | 一种集成浅层和深度学习的App分类方法 | |
CN110738059B (zh) | 一种文本相似度计算方法及系统 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114461839A (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
CN112860889A (zh) | 一种基于bert的多标签分类方法 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN117573908B (zh) | 基于对比学习的大语言模型蒸馏方法 | |
CN111858860B (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN113516209B (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN116644228A (zh) | 多模态全文信息检索方法、系统及存储介质 | |
CN110674293A (zh) | 一种基于语义迁移的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |