CN117573908B

CN117573908B - 基于对比学习的大语言模型蒸馏方法

Info

Publication number: CN117573908B
Application number: CN202410058543.2A
Authority: CN
Inventors: 王亚; 赵策; 屠静; 万晶晶; 颉彬; 孙岩; 潘亮亮; 刘岩
Original assignee: Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Current assignee: Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-03-19
Anticipated expiration: 2044-01-16
Also published as: CN117573908A

Abstract

本发明涉及机器学习技术领域，提出了基于对比学习的大语言模型蒸馏方法，包括：获取图像文本匹配样本集合；根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数；根据语义划分特征相似系数获取语义划分特征关联倾向序列；根据图像文本匹配样本集合获取图像色彩关联特征向量；根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列；根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数；根据图像文本关联特征系数获取蒸馏温度；根据蒸馏温度获取模型的蒸馏结果。本发明通过对输入数据进行分析获取蒸馏温度，提高对模型进行蒸馏的效果。

Description

基于对比学习的大语言模型蒸馏方法

技术领域

本发明涉及机器学习技术领域，具体涉及基于对比学习的大语言模型蒸馏方法。

背景技术

随着互联网技术的飞速发展，手机、电脑等各种电子设备成为了人们生活中不可缺少的部分之一，这些设备上各种应用每天都会产生海量的文本信息，如何有效利用这些文本信息是许多领域都需要解决的一个问题。在海量的文本信息基础上衍生出了多样的自然语言处理任务，深度学习在处理自然语言任务上表现出优异的性能。

近几年来出现的预训练语言模型在自然语言的研究上表现了较好的性能，但同时出现了网络模型臃肿、过参数化特性等缺点，限制了语言模型的实际的应用落地。现如今对预训练语言模型的轻量化进行了大量的研究，但大部分研究未区分语言模型的预训练阶段和微调阶段，导致了网络轻量化过程仍然需要较大的计算代价，其中采用基于知识蒸馏的模型压缩方法时，知识蒸馏中蒸馏温度的选取直接影响学生模型的训练效果。例如利用知识蒸馏技术获取大语言模型中文本摘要生成的学生模型，则模型输入样本的质量差异较大影响学生模型的训练效果，导致以大语言模型为教师模型进行知识蒸馏获取的学生模型的准确性较低。

发明内容

本发明提供基于对比学习的大语言模型蒸馏方法，以解决大语言模型蒸馏结果准确性低的问题，所采用的技术方案具体如下：

本发明一个实施例提供了基于对比学习的大语言模型蒸馏方法，该方法包括以下步骤：

获取图像文本匹配样本集合，图像文本匹配样本集合中每个元素对应一个图像数据；

根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列；根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数；根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本，基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列；根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量；根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列；

根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数；根据图像文本关联特征系数获取蒸馏温度；根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果，基于CLIP模型蒸馏结果获取图像文本的匹配结果。

优选的，所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为：

利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据，利用字典分割算法获取所述文本数据划分结果，利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分，将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列。

优选的，所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为：

式中，表示第/>个和第/>个元素之间的语义划分特征相似系数；/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列，/>表示/>和/>之间的杰卡德系数；/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示，/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示，/>表示/>和/>之间的余弦相似度；/>表示第/>个元素对应的文本数据中分词的数量；/>表示第/>个元素对应的文本数据中分词的数量。

优选的，所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本，基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为：

对于图像文本匹配样本集合中的每个元素，获取所述每个元素与其它所有元素之间的语义划分特征相似系数，将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列，将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本，将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列。

优选的，所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为：

对于图像文本匹配样本集合中每个元素，采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色，将所述每个元素对应的预设数量个主题色作为所述每个元素的图像关联特征向量。

优选的，所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为：

对于图像文本匹配样本集合中每个元素的关联分析特征样本，将所述每个元素的图像关联特征向量与每个所述关联分析特征样本对应的图像关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数，根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列。

优选的，所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为：

对于图像文本匹配样本集合中每个元素的关联分析特征样本，将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列。

优选的，所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为：

式中，表示第/>个元素的图像文本关联特征系数；/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列，/>表示/>和/>之间的EDR编辑距离；/>和/>分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第/>个数据对应的元素之间的语义划分特征相似系数；/>和分别表示第/>个元素与第/>个元素的语义划分特征关联倾向序列中第/>个和第个数据对应的元素之间的图像特征相似系数；/>表示/>和/>中数据的数量。

优选的，所述根据图像文本关联特征系数获取蒸馏温度的方法为：

式中，表示蒸馏温度；/>表示蒸馏温度调节参数；/>表示第/>个元素对应的图像文本关联特征系数；/>表示调节参数；/>表示CLIP模型中输入元素的数量。

优选的，所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果，基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为：

基于蒸馏温度采用知识蒸馏技术获取CLIP模型的蒸馏结果，根据CLIP模型的蒸馏结果获取图像文本匹配数据集中每个元素的匹配结果。

本发明的有益效果是：本发明通过分析需要获取信息摘要文本相关的图像数据中文本数据之间的关系获取语义划分特征相似系数，根据语义划分特征相似系数获取语义划分特征关联倾向序列，根据语义划分特征关联倾向序列和图像特征的分析结果获取图像主题色特征关联倾向序列，根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数，基于图像文本关联特征系数调整CLIP模型知识蒸馏过程中的蒸馏温度，其有益效果在于避免因输入数据样本中负标签对学生模型训练的精度的影响，提高采用知识蒸馏获取CLIP模型的学生模型的训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于对比学习的大语言模型蒸馏方法的流程示意图；

图2为本发明一个实施例所提供的教师模型和学生模型结构的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于对比学习的大语言模型蒸馏方法流程图，该方法包括以下步骤：

步骤S001，获取图像文本匹配样本集合。

大语言模型应用的领域较为广泛，包括自然语言处理、信息检索、语言翻译、内容创作等，其中在自然语言处理中文本摘要是从长篇文本中自动提取出核心信息的过程。其中较多的需要获取信息摘要的文本中包括文本和图像，因此利用图像文本匹配技术辅助生成文本摘要，可以生成更准确和全面的摘要。在搜索引擎上输入关键词则可以对应搜索与需要获取信息摘要文本相关的带有文字的图像数据，即任意一幅图像中都带有一定的文字描述。

进一步的，将需要获取信息摘要文本相关的图像数据组成的集合作为图像文本特征分析样本集，对图像文本特征分析样本集中的图像数据进行预处理，采用非局部均值去噪对每个图像进行降噪处理，进一步的，采用自适应直方图均衡化对每个图像数据进行图像增强，提高图像数据的质量，将经过预处理后的图像特征分析样本集作为图像文本匹配样本集合，非局部均值去噪算法和自适应直方图均衡化算法的具体实现过程为公知技术，不再进行赘述。

至此，获取了图像文本匹配样本集合。

步骤S002，根据图像文本匹配样本集合获取不同图像数据之间的语义划分特征相似系数，根据语义划分特征相似系数获取语义划分特征关联倾向序列，根据图像文本匹配样本集合获取图像色彩关联特征向量，根据图像色彩关联特征向量和语义划分特征关联倾向序列获取图像主题色特征关联倾向序列。

现如今的图像中大多含有文本数据，这些文本数据与图像主题相关或者与图像本身的一些其他特征相关，因此对图像进行分类过程中，结合图像数据与其中文本数据的关系分析，可以进一步提高对图像和文本特征的提取效果。具体的，采用OCR（OpticalCharacter Recognition）技术获取图像文本匹配样本结合中每个图像数据中的文本数据，OCR技术的具体实现过程为公知技术，不再进行赘述。

进一步的，利用字典分割算法获取图像文本匹配集合中每个图像数据的文本数据划分结果，将所述文本数据划分结果中每个划分文本作为所述文本数据的一个分词。将图像文本匹配集合中每个图像数据的文本数据划分结果作为BERT模型(BidirectionalEncoder Representations from Transformers)的输入，优化算法为Adam，损失函数为L2损失函数，利用BERT模型获取所述文本数据每个分词的分词向量表示和每个分词的对应的相似度得分，将每个图像数据中的文本数据的所有分词对应的相似度得分由小到大排序组成的序列作为所述图像数据的文本特征序列，根据每个图像数据的文本数据对应的文本特征序列和所有分词的向量表示计算不同图像数据之间的语义划分特征相似系数，具体的计算公式如下：

式中，表示第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数；/>和/>分别表示第/>个和第/>个图像数据对应的文本数据的文本特征序列，表示/>和/>之间的杰卡德系数；/>表示第/>个图像数据对应的文本数据中第个分词的向量表示，/>表示第/>个图像数据对应的文本数据中第/>个分词的向量表示，表示/>和/>之间的余弦相似度；/>表示第/>个图像数据对应的文本数据中分词的数量；/>表示第/>个图像数据对应的文本数据中分词的数量。

若图像文本匹配集合中两个图像数据对应的文本数据的特征相似，则计算得到的和/>的值越大，计算得到的第/>个和第/>个图像数据对应的文本数据之间的语义划分特征相似系数/>的值越大，表示图像文本匹配集合中第/>个和第/>个图像数据对应的文本数据特征相似，即第/>个和第/>个图像数据表达的语义接近的可能性越大。

进一步的，由于图像中文本数据的特征与图像数据之间存在关联性，因此根据图像数据之间的语义划分特征相似系数和图像数据特征的分析结果计算图像文本关联特征系数。具体的，计算图像文本匹配集合中第个图像数据对应的文本数据与其它所有图像数据对应的文本数据之间的语义划分特征相似系数，将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的关联特征分析序列，选取所述关联特征分析序列中前/>（大小取经验值20）个数据作为第/>个图像数据的语义划分特征关联倾向序列，将所述/>个数据对应的图像数据作为第/>个图像数据的关联分析特征样本。

采用八叉树主题色提取算法获取图像文本匹配集合中每个图像数据的（大小取经验值5）个主题色，将所述每个图像数据对应的/>个主题色组成的向量作为所述每个图像数据的图像关联特征向量，同样可以得到第/>个图像数据对应的图像色彩关联特征向量。

进一步的，根据第个图像数据与第/>个图像数据的每个关联分析特征样本之间图像特征之间的关系分析图像与文本之间的关联程度。具体的，将第/>个图像数据的图像关联特征向量与第/>个图像数据的每个关联分析特征样本对应图像数据的图像关联特征向量之间的余弦相似度作为图像特征相似系数，将所有所述图像特征相似系数按照由大到小的顺序排序组成的序列作为第/>个图像数据的图像主题色特征关联倾向序列。

至此，获取了语义划分特征关联倾向序列和图像主题色特征关联倾向序列。

步骤S003，根据语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取图像文本关联特征系数，根据图像文本关联特征系数获取蒸馏温度。

根据第个图像数据的数据关联倾向序列和语义划分特征关联倾向序列计算第/>个图像数据的图像文本关联特征系数，具体计算公式如下：

式中，表示第/>个图像数据的图像文本关联特征系数；/>和/>分别表示第/>个图像数据的语义划分特征关联倾向序列、图像主题色特征关联倾向序列，/>表示/>和/>之间的EDR编辑距离；/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的语义划分特征相似系数；/>和/>分别表示第/>个图像数据与第/>个图像数据的语义划分特征关联倾向序列中第/>个和第/>个数据对应的图像数据之间的图像特征相似系数；/>表示/>和/>中元素的数量。

若第个图像数据中图像与文本之间关联性较大，则通过图像文本匹配集合中其它图像数据中图像与文本数据的相对分析得到的/>和的值越小，计算得到的第/>个图像数据的图像文本关联特征系数/>的值越大，表示第/>个图像数据中图像与文本关联程度较大。

进一步的，采用CLIP模型进行图像文本匹配的训练，将CLIP模型作为教师模型，采用知识蒸馏技术获取教师模型对应的学生模型，由于训练教师模型的过程中输入数据集中训练样本的质量直接影响学生模型的训练精度，其中蒸馏温度控制知识蒸馏过程中对正负标签的关注程度，因此通过对CLIP模型输入样本中图像与文本之间的关系进行分析调整蒸馏温度，具体的计算公式如下：

式中，表示蒸馏温度；/>表示蒸馏温度调节参数，大小取经验值2；/>表示第/>个图像数据对应的图像文本关联特征系数；/>表示调节参数，大小取经验值0.1；/>表示CLIP模型中输入图像数据的数量。

若CLIP模型输入样本中图像数据中图像与文本之间关联特征较大，则计算得到的的值越小，计算得到的蒸馏温度/>的值越大，表示通过CLIP模型进行知识蒸馏过程中输入样本数据正向关联特征明显，因此需要较大的蒸馏温度/>降低负标签对学生模型训练精度的影响。

至此，获取了蒸馏温度。

步骤S004，根据蒸馏温度获取CLIP模型的蒸馏结果，根据CLIP模型的蒸馏结果获取图像文本的匹配结果。

采用TF-IDF算法获取需要获取信息摘要文本的关键信息，TF-IDF算法的具体实现过程为公知技术，不再进行赘述。将图像文本匹配集合中所有图像数据、需要获取信息摘要文本的关键信息作为CLIP模型的输入，优化算法为Adam，损失函数为图像-文本对比损失函数，获取所有图像数据的匹配结果，CLIP模型的具体训练过程为公知技术，不再进行赘述。

进一步的，以CLIP模型为教师模型，采用知识蒸馏获取CLIP模型对应的学生模型，其中蒸馏温度为，知识蒸馏的具体实现过程为公知技术，不再进行赘述。教师模型与学生模型的结构示意图如图2所示。

至此，基于图像文本关联特征系数和图像文本匹配样本集合训练CLIP模型，并基于CLIP模型实现了用于跨模态匹配的大语言模型的知识蒸馏。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于对比学习的大语言模型蒸馏方法，其特征在于，该方法包括以下步骤：

根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数；根据图像文本关联特征系数获取蒸馏温度；根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果，基于CLIP模型蒸馏结果获取图像文本的匹配结果；

所述根据图像文本匹配样本集合中每个元素对应的文本数据获取所述每个元素对应的分词向量表示和文本语义特征序列的方法为：

利用OCR技术获取图像文本匹配样本集合中每个元素对应的文本数据，利用字典分割算法获取所述文本数据划分结果，利用BERT模型获取所述文本数据划分结果中每个分词的分词向量表示和每个分词的相似度得分，将所有所述分词的相似度得分由小到大排序组成的序列作为所述每个元素的文本语义特征序列；

所述根据图像文本匹配样本集合中每个元素对应的分词向量表示和文本语义特征序列获取图像文本匹配样本集合中不同元素之间的语义划分特征相似系数的方法为：

式中，/>表示第/>个和第/>个元素之间的语义划分特征相似系数；/>和/>分别表示第/>个和第/>个元素对应的文本数据的文本特征序列，/>表示/>和/>之间的杰卡德系数；/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示，/>表示第/>个元素对应的文本数据中第/>个分词的分词向量表示，/>表示/>和/>之间的余弦相似度；/>表示第/>个元素对应的文本数据中分词的数量；/>表示第/>个元素对应的文本数据中分词的数量；

所述根据图像文本匹配样本集合中不同元素之间的语义划分特征相似系数获取图像文本匹配样本集合中每个元素对应的关联分析特征样本，基于所述关联分析特征样本获取所述每个元素的语义划分特征关联倾向序列的方法为：

对于图像文本匹配样本集合中的每个元素，获取所述每个元素与其它所有元素之间的语义划分特征相似系数，将所有所述语义划分特征相似系数按照由大到小的顺序排序组成的序列作为所述每个元素的关联特征分析序列，将所述关联特征分析序列中预设数量的数据对应的元素作为所述每个元素的关联分析特征样本，将关联特征分析序列中预设数量的数据组成的序列作为所述每个元素的语义划分特征关联倾向序列；

所述根据图像文本匹配样本集合中每个元素的色彩特征获取图像文本匹配样本集合中每个元素的图像色彩关联特征向量的方法为：

对于图像文本匹配样本集合中每个元素，采用八叉树主题色提取算法获取所述每个元素的预设数量个主题色，将所述每个元素对应的预设数量个主题色作为所述每个元素的图像色彩关联特征向量；

所述根据图像文本匹配样本集合中每个元素的图像色彩关联特征向量获取图像文本匹配样本集合中每个元素的图像主题色特征关联倾向序列的方法为：

对于图像文本匹配样本集合中每个元素的关联分析特征样本，将所述每个元素的图像色彩关联特征向量与每个所述关联分析特征样本对应的图像色彩关联特征向量的余弦相似度的计算结果作为所述每个所述关联分析特征样本的图像特征相似系数，根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列；

所述根据所述图像特征相似系数获取每个元素的图像主题色特征关联倾向序列的方法为：

对于图像文本匹配样本集合中每个元素的关联分析特征样本，将每个元素所有的关联分析特征样本的图像特征相似系数按照由小到大的顺序组成的序列作为所述每个元素对应的图像主题色特征关联倾向序列；

所述根据图像文本匹配样本集合中每个元素的语义划分特征关联倾向序列和图像主题色特征关联倾向序列获取所述每个元素的图像文本关联特征系数的方法为：

式中，/>表示第/>个元素的图像文本关联特征系数；/>和/>分别表示第/>个元素的语义划分特征关联倾向序列、图像主题色特征关联倾向序列，/>表示/>和/>之间的EDR编辑距离；/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的语义划分特征相似系数，表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的语义划分特征相似系数；/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的图像特征相似系数，/>表示第x个元素的语义划分特征关联倾向序列中第/>个数据对应的图像特征相似系数；/>表示/>和/>中数据的数量；

所述根据图像文本关联特征系数获取蒸馏温度的方法为：

式中，/>表示蒸馏温度；/>表示蒸馏温度调节参数；/>表示第/>个元素对应的图像文本关联特征系数；/>表示调节参数；/>表示CLIP模型中输入元素的数量。

2.根据权利要求1所述的基于对比学习的大语言模型蒸馏方法，其特征在于，所述根据蒸馏温度采用知识蒸馏获取CLIP模型蒸馏结果，基于CLIP模型蒸馏结果获取图像文本的匹配结果的方法为：