CN117573908B - 基于对比学习的大语言模型蒸馏方法 - Google Patents

基于对比学习的大语言模型蒸馏方法 Download PDF

Info

Publication number
CN117573908B
CN117573908B CN202410058543.2A CN202410058543A CN117573908B CN 117573908 B CN117573908 B CN 117573908B CN 202410058543 A CN202410058543 A CN 202410058543A CN 117573908 B CN117573908 B CN 117573908B
Authority
CN
China
Prior art keywords
image
feature
sample set
text
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410058543.2A
Other languages
English (en)
Other versions
CN117573908A (zh
Inventor
王亚
赵策
屠静
万晶晶
颉彬
孙岩
潘亮亮
刘岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Original Assignee
Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Shi Zhi Xing Tianjin Technology Co ltd filed Critical Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Priority to CN202410058543.2A priority Critical patent/CN117573908B/zh
Publication of CN117573908A publication Critical patent/CN117573908A/zh
Application granted granted Critical
Publication of CN117573908B publication Critical patent/CN117573908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及机器学习技术领域,提出了基于对比学习的大语言模型蒸馏方法,包括:获取图像文本匹配样本集合;根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数;根据语义划分特征相似系数获取语义划分特征关联倾向序列;根据图像文本匹配样本集合获取图像色彩关联特征向量;根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列;根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度获取模型的蒸馏结果。本发明通过对输入数据进行分析获取蒸馏温度,提高对模型进行蒸馏的效果。

Description

基于对比学习的大语言模型蒸馏方法
技术领域
本发明涉及机器学习技术领域,具体涉及基于对比学习的大语言模型蒸馏方法。
背景技术
随着互联网技术的飞速发展,手机、电脑等各种电子设备成为了人们生活中不可缺少的部分之一,这些设备上各种应用每天都会产生海量的文本信息,如何有效利用这些文本信息是许多领域都需要解决的一个问题。在海量的文本信息基础上衍生出了多样的自然语言处理任务,深度学习在处理自然语言任务上表现出优异的性能。
近几年来出现的预训练语言模型在自然语言的研究上表现了较好的性能,但同时出现了网络模型臃肿、过参数化特性等缺点,限制了语言模型的实际的应用落地。现如今对预训练语言模型的轻量化进行了大量的研究,但大部分研究未区分语言模型的预训练阶段和微调阶段,导致了网络轻量化过程仍然需要较大的计算代价,其中采用基于知识蒸馏的模型压缩方法时,知识蒸馏中蒸馏温度的选取直接影响学生模型的训练效果。例如利用知识蒸馏技术获取大语言模型中文本摘要生成的学生模型,则模型输入样本的质量差异较大影响学生模型的训练效果,导致以大语言模型为教师模型进行知识蒸馏获取的学生模型的准确性较低。
发明内容
本发明提供基于对比学习的大语言模型蒸馏方法,以解决大语言模型蒸馏结果准确性低的问题,所采用的技术方案具体如下:
本发明一个实施例提供了基于对比学习的大语言模型蒸馏方法,该方法包括以下步骤:
获取图像文本匹配样本集合,图像文本匹配样本集合中每个元素对应一个图像数据;
根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列;根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数;根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列;根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量;根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列;
根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果。
优选的,所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为:
利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据,利用字典分割算法获取所述文本数据划分结果,利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分,将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列。
优选的,所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为:
式中,表示第/>个和第/>个元素之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列,/>表示/>和/>之间的杰卡德系数;/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示/>和/>之间的余弦相似度;/>表示第/>个元素对应的文本数据中分词的数量;/>表示第/>个元素对应的文本数据中分词的数量。
优选的,所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为:
对于图像文本匹配样本集合中的每个元素,获取所述每个元素与其它所有元素之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列,将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本,将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列。
优选的,所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为:
对于图像文本匹配样本集合中每个元素,采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色,将所述每个元素对应的预设数量个主题色作为所述每个元素的图像关联特征向量。
优选的,所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将所述每个元素的图像关联特征向量与每个所述关联分析特征样本对应的图像关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数,根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列。
优选的,所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列。
优选的,所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为:
式中,表示第/>个元素的图像文本关联特征系数;/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和/>之间的EDR编辑距离;/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的语义划分特征相似系数;/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第个数据对应的元素之间的图像特征相似系数;/>表示/>和/>中数据的数量。
优选的,所述根据图像文本关联特征系数获取蒸馏温度的方法为:
式中,表示蒸馏温度;/>表示蒸馏温度调节参数;/>表示第/>个元素对应的图像文本关联特征系数;/>表示调节参数;/>表示CLIP模型中输入元素的数量。
优选的,所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为:
基于蒸馏温度采用知识蒸馏技术获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本匹配数据集中每个元素的匹配结果。
本发明的有益效果是:本发明通过分析需要获取信息摘要文本相关的图像数据中文本数据之间的关系获取语义划分特征相似系数,根据语义划分特征相似系数获取语义划分特征关联倾向序列,根据语义划分特征关联倾向序列和图像特征的分析结果获取图像主题色特征关联倾向序列,根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数,基于图像文本关联特征系数调整CLIP模型知识蒸馏过程中的蒸馏温度,其有益效果在于避免因输入数据样本中负标签对学生模型训练的精度的影响,提高采用知识蒸馏获取CLIP模型的学生模型的训练效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于对比学习的大语言模型蒸馏方法的流程示意图;
图2为本发明一个实施例所提供的教师模型和学生模型结构的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于对比学习的大语言模型蒸馏方法流程图,该方法包括以下步骤:
步骤S001,获取图像文本匹配样本集合。
大语言模型应用的领域较为广泛,包括自然语言处理、信息检索、语言翻译、内容创作等,其中在自然语言处理中文本摘要是从长篇文本中自动提取出核心信息的过程。其中较多的需要获取信息摘要的文本中包括文本和图像,因此利用图像文本匹配技术辅助生成文本摘要,可以生成更准确和全面的摘要。在搜索引擎上输入关键词则可以对应搜索与需要获取信息摘要文本相关的带有文字的图像数据,即任意一幅图像中都带有一定的文字描述。
进一步的,将需要获取信息摘要文本相关的图像数据组成的集合作为图像文本特征分析样本集,对图像文本特征分析样本集中的图像数据进行预处理,采用非局部均值去噪对每个图像进行降噪处理,进一步的,采用自适应直方图均衡化对每个图像数据进行图像增强,提高图像数据的质量,将经过预处理后的图像特征分析样本集作为图像文本匹配样本集合,非局部均值去噪算法和自适应直方图均衡化算法的具体实现过程为公知技术,不再进行赘述。
至此,获取了图像文本匹配样本集合。
步骤S002,根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数,根据语义划分特征相似系数获取语义划分特征关联倾向序列,根据图像文本匹配样本集合获取图像色彩关联特征向量,根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列。
现如今的图像中大多含有文本数据,这些文本数据与图像主题相关或者与图像本身的一些其他特征相关,因此对图像进行分类过程中,结合图像数据与其中文本数据的关系分析,可以进一步提高对图像和文本特征的提取效果。具体的,采用OCR(OpticalCharacter Recognition)技术获取图像文本匹配样本结合中每个图像数据中的文本数据,OCR技术的具体实现过程为公知技术,不再进行赘述。
进一步的,利用字典分割算法获取图像文本匹配集合中每个图像数据的文本数据划分结果,将所述文本数据划分结果中每个划分文本作为所述文本数据的一个分词。将图像文本匹配集合中每个图像数据的文本数据划分结果作为BERT模型(BidirectionalEncoder Representations from Transformers)的输入,优化算法为Adam,损失函数为L2损失函数,利用BERT模型获取所述文本数据每个分词的分词向量表示和每个分词的对应的相似度得分,将每个图像数据中的文本数据的所有分词对应的相似度得分由小到大排序组成的序列作为所述图像数据的文本特征序列,根据每个图像数据的文本数据对应的文本特征序列和所有分词的向量表示计算不同图像数据之间的语义划分特征相似系数,具体的计算公式如下:
式中,表示第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个图像数据对应的文本数据的文本特征序列,表示/>和/>之间的杰卡德系数;/>表示第/>个图像数据对应的文本数据中第个分词的向量表示,/>表示第/>个图像数据对应的文本数据中第/>个分词的向量表示,表示/>和/>之间的余弦相似度;/>表示第/>个图像数据对应的文本数据中分词的数量;/>表示第/>个图像数据对应的文本数据中分词的数量。
若图像文本匹配集合中两个图像数据对应的文本数据的特征相似,则计算得到的和/>的值越大,计算得到的第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数/>的值越大,表示图像文本匹配集合中第/>个和第/>个图像数据对应的文本数据特征相似,即第/>个和第/>个图像数据表达的语义接近的可能性越大。
进一步的,由于图像中文本数据的特征与图像数据之间存在关联性,因此根据图像数据之间的语义划分特征相似系数和图像数据特征的分析结果计算图像文本关联特征系数。具体的,计算图像文本匹配集合中第个图像数据对应的文本数据与其它所有图像数据对应的文本数据之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的关联特征分析序列,选取所述关联特征分析序列中前/>(大小取经验值20)个数据作为第/>个图像数据的语义划分特征关联倾向序列,将所述/>个数据对应的图像数据作为第/>个图像数据的关联分析特征样本。
采用八叉树主题色提取算法获取图像文本匹配集合中每个图像数据的(大小取经验值5)个主题色,将所述每个图像数据对应的/>个主题色组成的向量作为所述每个图像数据的图像关联特征向量,同样可以得到第/>个图像数据对应的图像色彩关联特征向量。
进一步的,根据第个图像数据与第/>个图像数据的每个关联分析特征样本之间图像特征之间的关系分析图像与文本之间的关联程度。具体的,将第/>个图像数据的图像关联特征向量与第/>个图像数据的每个关联分析特征样本对应图像数据的图像关联特征向量之间的余弦相似度作为图像特征相似系数,将所有所述图像特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的图像主题色特征关联倾向序列。
至此,获取了语义划分特征关联倾向序列和图像主题色特征关联倾向序列。
步骤S003,根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数,根据图像文本关联特征系数获取蒸馏温度。
根据第个图像数据的数据关联倾向序列和语义划分特征关联倾向序列计算第/>个图像数据的图像文本关联特征系数,具体计算公式如下:
式中,表示第/>个图像数据的图像文本关联特征系数;/>和/>分别表示第/>个图像数据的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和/>之间的EDR编辑距离;/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的语义划分特征相似系数;/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的图像特征相似系数;/>表示/>和/>中元素的数量。
若第个图像数据中图像与文本之间关联性较大,则通过图像文本匹配集合中其它图像数据中图像与文本数据的相对分析得到的/>的值越小,计算得到的第/>个图像数据的图像文本关联特征系数/>的值越大,表示第/>个图像数据中图像与文本关联程度较大。
进一步的,采用CLIP模型进行图像文本匹配的训练,将CLIP模型作为教师模型,采用知识蒸馏技术获取教师模型对应的学生模型,由于训练教师模型的过程中输入数据集中训练样本的质量直接影响学生模型的训练精度,其中蒸馏温度控制知识蒸馏过程中对正负标签的关注程度,因此通过对CLIP模型输入样本中图像与文本之间的关系进行分析调整蒸馏温度,具体的计算公式如下:
式中,表示蒸馏温度;/>表示蒸馏温度调节参数,大小取经验值2;/>表示第/>个图像数据对应的图像文本关联特征系数;/>表示调节参数,大小取经验值0.1;/>表示CLIP模型中输入图像数据的数量。
若CLIP模型输入样本中图像数据中图像与文本之间关联特征较大,则计算得到的的值越小,计算得到的蒸馏温度/>的值越大,表示通过CLIP模型进行知识蒸馏过程中输入样本数据正向关联特征明显,因此需要较大的蒸馏温度/>降低负标签对学生模型训练精度的影响。
至此,获取了蒸馏温度。
步骤S004,根据蒸馏温度获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本的匹配结果。
采用TF-IDF算法获取需要获取信息摘要文本的关键信息,TF-IDF算法的具体实现过程为公知技术,不再进行赘述。将图像文本匹配集合中所有图像数据、需要获取信息摘要文本的关键信息作为CLIP模型的输入,优化算法为Adam,损失函数为图像-文本对比损失函数,获取所有图像数据的匹配结果,CLIP模型的具体训练过程为公知技术,不再进行赘述。
进一步的,以CLIP模型为教师模型,采用知识蒸馏获取CLIP模型对应的学生模型,其中蒸馏温度为,知识蒸馏的具体实现过程为公知技术,不再进行赘述。教师模型与学生模型的结构示意图如图2所示。
至此,基于图像文本关联特征系数和图像文本匹配样本集合训练CLIP模型,并基于CLIP模型实现了用于跨模态匹配的大语言模型的知识蒸馏。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.基于对比学习的大语言模型蒸馏方法,其特征在于,该方法包括以下步骤:
获取图像文本匹配样本集合,图像文本匹配样本集合中每个元素对应一个图像数据;
根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列;根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数;根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列;根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量;根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列;
根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数;根据图像文本关联特征系数获取蒸馏温度;根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果;
所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为:
利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据,利用字典分割算法获取所述文本数据划分结果,利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分,将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列;
所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为:
式中,/>表示第/>个和第/>个元素之间的语义划分特征相似系数;/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列,/>表示/>和/>之间的杰卡德系数;/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示,/>表示/>和/>之间的余弦相似度;/>表示第/>个元素对应的文本数据中分词的数量;/>表示第/>个元素对应的文本数据中分词的数量;
所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本,基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为:
对于图像文本匹配样本集合中的每个元素,获取所述每个元素与其它所有元素之间的语义划分特征相似系数,将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列,将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本,将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列;
所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为:
对于图像文本匹配样本集合中每个元素,采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色,将所述每个元素对应的预设数量个主题色作为所述每个元素的图像色彩关联特征向量;
所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将所述每个元素的图像色彩关联特征向量与每个所述关联分析特征样本对应的图像色彩关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数,根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列;
所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为:
对于图像文本匹配样本集合中每个元素的关联分析特征样本,将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列;
所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为:
式中,/>表示第/>个元素的图像文本关联特征系数;/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列,/>表示/>和/>之间的EDR编辑距离;/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的语义划分特征相似系数,表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的语义划分特征相似系数;/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的图像特征相似系数,/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的图像特征相似系数;/>表示/>和/>中数据的数量;
所述根据图像文本关联特征系数获取蒸馏温度的方法为:
式中,/>表示蒸馏温度;/>表示蒸馏温度调节参数;/>表示第/>个元素对应的图像文本关联特征系数;/>表示调节参数;/>表示CLIP模型中输入元素的数量。
2.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法,其特征在于,所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果,基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为:
基于蒸馏温度采用知识蒸馏技术获取CLIP模型的蒸馏结果,根据CLIP模型的蒸馏结果获取图像文本匹配数据集中每个元素的匹配结果。
CN202410058543.2A 2024-01-16 2024-01-16 基于对比学习的大语言模型蒸馏方法 Active CN117573908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410058543.2A CN117573908B (zh) 2024-01-16 2024-01-16 基于对比学习的大语言模型蒸馏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410058543.2A CN117573908B (zh) 2024-01-16 2024-01-16 基于对比学习的大语言模型蒸馏方法

Publications (2)

Publication Number Publication Date
CN117573908A CN117573908A (zh) 2024-02-20
CN117573908B true CN117573908B (zh) 2024-03-19

Family

ID=89862845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410058543.2A Active CN117573908B (zh) 2024-01-16 2024-01-16 基于对比学习的大语言模型蒸馏方法

Country Status (1)

Country Link
CN (1) CN117573908B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368719A (zh) * 2018-05-17 2021-02-12 奇跃公司 神经网络的梯度对抗性训练
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN114565810A (zh) * 2022-03-08 2022-05-31 华东师范大学 一种基于数据保护场景下的模型压缩方法及系统
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及系统
CN116740344A (zh) * 2023-05-23 2023-09-12 中国地质大学(武汉) 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230153572A1 (en) * 2021-11-12 2023-05-18 Nec Laboratories America, Inc. Domain generalizable continual learning using covariances

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368719A (zh) * 2018-05-17 2021-02-12 奇跃公司 神经网络的梯度对抗性训练
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN114565810A (zh) * 2022-03-08 2022-05-31 华东师范大学 一种基于数据保护场景下的模型压缩方法及系统
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及系统
CN116740344A (zh) * 2023-05-23 2023-09-12 中国地质大学(武汉) 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yuan, Chen.Compressed-Transformer: Distilling Knowledge from Transformer for Neural Machine Translation.《NLPIR '20: Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval》.2020,第131-137页. *

Also Published As

Publication number Publication date
CN117573908A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112199501B (zh) 一种科技信息文本分类方法
CN109492678A (zh) 一种集成浅层和深度学习的App分类方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN112100413A (zh) 一种跨模态的哈希检索方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114461839A (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN112860889A (zh) 一种基于bert的多标签分类方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN114491036A (zh) 一种基于自监督和有监督联合训练的半监督文本分类方法及系统
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN117573908B (zh) 基于对比学习的大语言模型蒸馏方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113516209B (zh) 一种用于少样本意图识别的对比任务适应学习方法
CN110674293A (zh) 一种基于语义迁移的文本分类方法
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法
CN110377845B (zh) 基于区间半监督lda的协同过滤推荐方法
CN114491103A (zh) 一种基于多标记深度关联分析的物联网跨媒体大数据检索方法
CN111723191B (zh) 一种基于全信息自然语言的文本过滤和提取方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant