CN117236409B - 基于大模型的小模型训练方法、装置、系统和存储介质 - Google Patents
基于大模型的小模型训练方法、装置、系统和存储介质 Download PDFInfo
- Publication number
- CN117236409B CN117236409B CN202311529303.8A CN202311529303A CN117236409B CN 117236409 B CN117236409 B CN 117236409B CN 202311529303 A CN202311529303 A CN 202311529303A CN 117236409 B CN117236409 B CN 117236409B
- Authority
- CN
- China
- Prior art keywords
- model
- small model
- data
- probability distribution
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000009826 distribution Methods 0.000 claims abstract description 144
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 22
- 239000003550 marker Substances 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 70
- 238000012360 testing method Methods 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 36
- 229910052760 oxygen Inorganic materials 0.000 description 36
- 239000001301 oxygen Substances 0.000 description 36
- 230000000875 corresponding effect Effects 0.000 description 16
- 239000000126 substance Substances 0.000 description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 3
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 210000002364 input neuron Anatomy 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 229910052698 phosphorus Inorganic materials 0.000 description 2
- 239000011574 phosphorus Substances 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生成目标小模型。
Description
技术领域
本申请实施例涉及模型训练领域,尤其涉及基于大模型的小模型训练方法、装置、系统和存储介质。
背景技术
大模型是指拥有非常多的参数的深度学习模型。参数是模型中需要学习的变量,通过学习数据来调整参数,从而使得模型能够更好地拟合输入和输出之间的关系。大模型的发展得益于计算能力的提升和数据量的增加。随着硬件设备的不断升级,如GPU和TPU的应用,计算能力大幅提高,使得训练大模型成为可能。同时,互联网的普及和数据的积累,为大模型提供了充足的训练数据。
大模型在各个领域都有广泛应用。在自然语言处理领域,大模型可以用于机器翻译、文本生产和语言模型等任务。例如GPT系列的模型,GPT-3是目前最先进的自然语言处理模型之一,它采用了大规模的预训练和迁移学习技术,可以对自然语言文本进行多种任务的处理,包括语言生成、文本分类、问答等。
随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。同时在短短几个月,国内外AI大模型数量激增。如今大模型已被广泛应用,但在各交叉学科中的应用以及各场景下的潜力开发上还有很大的提升空间。其中,研究基于大模型的小模型训练便是挖掘大模型潜力的方式之一。
深度学习大模型在处理复杂任务时表现出强大性能,然而其部署与训练也需要大量的存储空间与计算资源。对于较为细分的领域,在计算资源与存储空间有限的情况下,部署大模型难度较大,这使得大模型在一些典型应用场景下的潜力还未得以全面开发。即在具体的应用场景中,在计算资源有限的情况下大模型的应用潜力下降。
发明内容
本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。
本申请第一方面提供了基于大模型的小模型训练方法,包括:
采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
根据预设的transformers包初始化大模型;
将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
使用大模型将标记序列转换为概率分布软标签;
将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布;
使用数据集、小模型和损失函数进行训练,生成目标小模型。
可选地,使用数据集、小模型和损失函数进行训练,生成目标小模型,包括:
将数据集中的输入文本数据输入小模型中训练,生成训练分布数据;
将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值;
通过损失值更新小模型的权重,反向传播迭代优化小模型;
当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型。
可选地,在使用数据集、小模型和损失函数进行训练,生成目标小模型之后,小模型训练方法还包括:
根据目标应用场景的实际应用参数调整目标小模型的架构;
根据目标应用场景的实际应用参数更新损失函数,并增设正则化项;
将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。
可选地,根据目标应用场景的实际应用参数调整目标小模型的架构,包括:
根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数;
根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。
可选地,在使用数据集、小模型和损失函数进行训练,生成目标小模型之后,小模型训练方法还包括:
根据目标应用场景选择评价指标;
从数据集中选择一部分样本数据作为测试集,测试集独立于已训练的数据;
使用目标小型模型处理测试集中的样本数据,生成测试文本,并使用评价指标对测试文本进行评估,生成评估结果;
根据评估结果分析目标小模型文本生成的问题,并根据问题调整目标小模型的架构、训练策略和输入特征种类。
可选的,根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,包括:
创建一个维度与概率分布软标签相同的循环神经网络模型为小模型;
为概率分布软标签生成注意力集合;
根据注意力集合调整小模型的层数和初始权重。
可选地,使用大模型将标记序列转换为概率分布软标签,包括:
计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据;
使用大模型的softmax函数生成每一个标记序列的概率分布;
根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签。
本申请第二方面提供了基于大模型的小模型训练装置,包括:
采集单元,用于采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
初始化单元,用于根据预设的transformers包初始化大模型;
第一生成单元,用于将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
转换单元,用于使用大模型将标记序列转换为概率分布软标签;
第二生成单元,用于将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
定义单元,用于根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布;
第三生成单元,用于使用数据集、小模型和损失函数进行训练,生成目标小模型。
可选地,第三生成单元,包括:
将数据集中的输入文本数据输入小模型中训练,生成训练分布数据;
将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值;
通过损失值更新小模型的权重,反向传播迭代优化小模型;
当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型。
可选地,在第三生成单元之后,小模型训练装置还包括:
调整单元,用于根据目标应用场景的实际应用参数调整目标小模型的架构;
更新单元,用于根据目标应用场景的实际应用参数更新损失函数,并增设正则化项;
引入单元,用于将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。
可选地,调整单元,包括:
根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数;
根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。
可选地,在第三生成单元之后,小模型训练装置还包括:
第一选择单元,用于根据目标应用场景选择评价指标;
第二选择单元,用于从数据集中选择一部分样本数据作为测试集,测试集独立于已训练的数据;
第四生成单元,用于使用目标小型模型处理测试集中的样本数据,生成测试文本,并使用评价指标对测试文本进行评估,生成评估结果;
第五生成单元,用于根据评估结果分析目标小模型文本生成的问题,并根据问题调整目标小模型的架构、训练策略和输入特征种类。
可选地,定义单元,包括:
创建一个维度与概率分布软标签相同的循环神经网络模型为小模型;
为概率分布软标签生成注意力集合;
根据注意力集合调整小模型的层数和初始权重。
可选地,转换单元,包括:
计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据;
使用大模型的softmax函数生成每一个标记序列的概率分布;
根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签。
本申请第三方面提供了一种基于大模型的小模型训练系统,包括:
处理器、存储器、输入输出单元以及总线;
处理器与存储器、输入输出单元以及总线相连;
存储器保存有程序,处理器调用程序以执行如第一方面以及第一方面的任意可选的小模型训练方法。
本申请第四方面提供了一种计算机可读的存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如第一方面以及第一方面的任意可选的小模型训练方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,首先采集目标应用场景的初始样本数据,其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据,即将目标应用场景的相关信息采集之后,将这些事项进行了标注,产生了场景数据。接下来根据预设的transformers包初始化大模型,并且将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列。然后使用大模型将标记序列转换为概率分布软标签,将概率分布软标签和对应的输入文本数据进行组合,生成数据集。根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布,即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。使用数据集、小模型和损失函数进行训练,生成目标小模型。
通过大模型对初始样本数据所生成的标记序列进行软标签的生成,使得大模型不会占据大量的资源与存储空间,接下来使用小模型以软标签为目标对输入文本数据进行训练,将大模型的优势与小模型的准确性相结合,在计算资源与存储空间有限的情况下,在具体的应用场景中,极大程度的提高了大模型的应用潜力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于大模型的小模型训练方法的一个结构示意图;
图2为本申请基于大模型的小模型训练方法的第一阶段的一个实施例示意图;
图3为本申请基于大模型的小模型训练方法的第二阶段的一个实施例示意图;
图4为本申请基于大模型的小模型训练方法的第三阶段的一个实施例示意图;
图5为本申请基于大模型的小模型训练装置的一个实施例示意图;
图6为本申请基于大模型的小模型训练装置的另一个实施例示意图;
图7为本申请基于大模型的小模型训练系统的一个实施例示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在现有技术中,大模型在各个领域都有广泛应用。在自然语言处理领域,大模型可以用于机器翻译、文本生产和语言模型等任务。例如GPT系列的模型,GPT-3是目前最先进的自然语言处理模型之一,它采用了大规模的预训练和迁移学习技术,可以对自然语言文本进行多种任务的处理,包括语言生成、文本分类、问答等。
随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。同时在短短几个月,国内外AI大模型数量激增。如今大模型已被广泛应用,但在各交叉学科中的应用以及各场景下的潜力开发上还有很大的提升空间。其中,研究基于大模型的小模型训练便是挖掘大模型潜力的方式之一。
深度学习大模型在处理复杂任务时表现出强大性能,然而其部署与训练也需要大量的存储空间与计算资源。对于较为细分的领域,在计算资源与存储空间有限的情况下,部署大模型难度较大,这使得大模型在一些典型应用场景下的潜力还未得以全面开发。即在具体的应用场景中,在计算资源有限的情况下大模型的应用潜力下降。
基于此,本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备,对此,本申请不作限定。为方便描述,下面以执行主体为终端为例进行描述。
请参阅图1,本申请提供了基于大模型的小模型训练方法的一个实施例,包括:
S101、采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
本实施例中,目标应用场景的初始样本数据是指在各个领域中所采集到的各种数据的集合,接下来就可以根据目标应用场景选取合适的大模型。
例如:以水质监测为例,我们选择预训练的文本生成模型(GPT-2大模型)作为该场景所使用的大模型,再通过大模型生成水质监测报告小模型。水质监测作为目标应用场景,这时需要采集的数据包括1000个水质监测结果样本,每个样本包含样本编号、采集日期、样本地点、水质pH值、溶解氧(DO)、化学需氧量(COD)、生化需氧量(BOD)、总氮、总磷等信息。
终端采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据。
S102、根据预设的transformers包初始化大模型;
当终端采集目标应用场景的初始样本数据之后,就需要根据目标应用场景选取大模型的类型,再根据预设的transformers包初始化大模型。
本实施例中,以自然语言处理领域的大模型进行举例说明,结合水质监测的各种数据的集合为训练样本。大模型为GPT-2 Medium模型,终端通过transformers包,初始化GPT-2 Medium模型和模型对应的分词器。分词器的作用是处理初始样本数据中的场景数据。
需要说明的是,除了上述举例的大模型外,还包括其他领域的大模型可以进行本实施例中的各个步骤,例如计算机视觉领域、智能医疗领域、金融领域以及交通领域等,根据不同的训练目的来选取不同类型的大模型。
S103、将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
当终端通过预设的transformers包完成对大模型的初始化之后,会将采集到的初始样本数据输入到大模型中,初始化的大 模型通过generate函数将初始样本数据中的场景数据线生成输入文本数据,并将生成的输入文本数据转换为标记序列。
S104、使用大模型将标记序列转换为概率分布软标签;
终端首先初始化python的torch包,接下来使用torch包自带的softmax函数将生成的标记序列的输出并转换为概率分布,并转换成概率分布软标签。其中,softmax函数将输出的原始分数转换为0到1之间的概率值,表示每个分类的出现概率,通过出现概率生成概率分布软标签。终端得到每个输入文本数据对应的概率分布软标签。软标签将作为小型模型训练的目标分布,用于引导小模型学习大模型的输出模式。
具体计算方式如下:
其中e(yi)为指数函数,yi表示输出层中第i个输入神经元,yj表示输出层中第j个输入神经元,分母的运算表示输出层中共有n个输出神经元,即n个标记序列,并计算所有输出层中的输入神经元的指数和,表示第i个神经元的输出,softmax(yi)为概率值集合。
其中,需要说明的是,可以直接将每个分类的出现概率作为概率分布软标签,也可以对每个分类的出现概率进行关联度处理后的参数作为概率分布软标签。
S105、将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
终端将采集到的输入文本数据和相应的概率分布软标签组织成数据集。其中,每个样本包含一个输入文本数据和对应的概率分布软标签,组织方式如下所示。
示例:假设输入文本为input-texts,软标签为soft_labels,则dataset如下。
dataset=
[(input_text,soft_label) for input_text,soft_label in zip(input_texts,soft_labels)]
S106、根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布;
终端根据训练目的定义一个小模型。本实施例中,根据训练目的(自然语言处理)定义一个循环神经网络(RNN)模型作为小模型,该小模型的输出是一个概率分布,并且该循环神经网络(RNN)与概率分布软标签的维度相匹配。
接下来终端使用torch包中的交叉熵损失函数Cross Entropy Loss()帮助小模型学习大模型生成的概率分布软标签。
S107、使用数据集、小模型和损失函数进行训练,生成目标小模型。
最后终端使用数据集、小模型和损失函数进行训练,完成训练之后的小模型则为目标小模型,在完成初步训练条件之后,终端还需要根据目标引用场景进行实用性的调整。
本实施例中,首先采集目标应用场景的初始样本数据,其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据,即将目标应用场景的相关信息采集之后,将这些事项进行了标注,产生了场景数据。接下来根据预设的transformers包初始化大模型,并且将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列。然后使用大模型将标记序列转换为概率分布软标签,将概率分布软标签和对应的输入文本数据进行组合,生成数据集。根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布,即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。使用数据集、小模型和损失函数进行训练,生成目标小模型。
通过大模型对初始样本数据所生成的标记序列进行软标签的生成,使得大模型不会占据大量的资源与存储空间,接下来使用小模型以软标签为目标对输入文本数据进行训练,将大模型的优势与小模型的准确性相结合,在计算资源与存储空间有限的情况下,在具体的应用场景中,极大程度的提高了大模型的应用潜力。
请参阅图2、图3和图4,本申请提供了一种基于大模型的小模型训练方法的另一个实施例,包括:
S201、采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
S202、根据预设的transformers包初始化大模型;
S203、将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
本实施例中的步骤S201至S203与前述实施例中步骤S101至S103类似,此处不再赘述。
S204、计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据;
S205、使用大模型的softmax函数生成每一个标记序列的概率分布;
S206、根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签;
当终端将输入文本数据转换为标记序列之后,终端首先计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据。具体的,以实施例1中的例子进行举例,1000个水质监测结果样本,每个样本包含样本编号、采集日期、样本地点、水质pH值、溶解氧(DO)、化学需氧量(COD)、生化需氧量(BOD)、总氮、总磷等信息。由于化学溶解氧(DO)、需氧量(COD)和生化需氧量(BOD)在目标应用场景中,相互关联的三个场景数据,尤其是化学需氧量(COD)、生化需氧量(BOD),故溶解氧(DO)、化学需氧量(COD)、生化需氧量(BOD)这三个数据中存在的关联度分别为百分之80(溶解氧(DO)和化学需氧量(COD))、百分之90(化学需氧量(COD)和生化需氧量(BOD))、百分之80(溶解氧(DO)和生化需氧量(BOD))。三者根据对应的关联度组成了一个关联组。
当终端使用大模型的softmax函数为场景数据对应的每一个标记序列生成概率分布时,同一个关联组的各个概率分布以关联度进行校正,即根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签。
例如:溶解氧(DO)自身的概率分布为(0.7,0.15,0.1),0.7为溶解氧(DO)概率,0.15为化学需氧量(COD)的概率,0.1为生化需氧量(BOD)的概率,剩下的为非关联组内的概率分布。使用溶解氧(DO)与其他两个场景数据的两个关联度百分之80进行矫正。公式如下:
其中,为校正后的溶解氧(DO)概率,/>为校正前的溶解氧(DO)概率,为化学需氧量(COD)和溶解氧(DO)之间的校正数值,/>为生化需氧量(BOD)和溶解氧(DO)之间的校正数值,/>为溶解氧(DO)自身的概率分布中化学需氧量(COD)的概率,/>为化学需氧量(COD)和溶解氧(DO)之间的相关度,/>为溶解氧(DO)自身的概率分布中生化需氧量(COD)的概率,/>为化学需氧量(BOD)和溶解氧(DO)之间的相关度。
本实施例中,只对3个互有关联度的参数进行分布概率校正,该公式可以进行扩展,不限于3个,只要是同一关联组中的场景数据,都可以根据上述公式进行扩展,对任一个场景数据的概率分布进行校正。
S207、将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
本实施例中的步骤S207与前述实施例中步骤S105类似,此处不再赘述。
S208、创建一个维度与概率分布软标签相同的循环神经网络模型为小模型;
S209、为概率分布软标签生成注意力集合;
S210、根据注意力集合调整小模型的层数和初始权重;
终端首先创建一个维度与概率分布软标签相同的循环神经网络模型为小模型,接下来计算每一个概率分布软标签的注意力值,生成注意力集合。具体是根据初始样本数据中的场景数据,选择与实际运用时的目标应用场景为标准,计算场景数据的注意力值,注意力值越高,则初始权重设置越高。能够通过中央的创建方式来提高每一个小模型的灵活性。针对不同的实际场景调整模型架构。
S211、将数据集中的输入文本数据输入小模型中训练,生成训练分布数据;
S212、将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值;
S213、通过损失值更新小模型的权重,反向传播迭代优化小模型;
S214、当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型;
本实施例中,终端在每个训练步骤中,将输入文本数据传递给小模型,得到小模型的输出,即训练分布数据,然后计算训练分布数据和概率分布软标签之间的损失值,反向传播并优化小模型。当小模型满足迭代连续1万次均符合收敛的条件之后,确定训练完成,将小模型确定为目标小模型。
S215、根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数;
S216、根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块;
S217、根据目标应用场景的实际应用参数更新损失函数,并增设正则化项;
S218、将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型;
本实施例中,终端在训练完成后,评估模型的性能并进行优化,调整小模型架构、选择合适的损失函数、或引入其他特征作为输入,优化小模型。本实施例以训练目的(自然语言处理领域)为例,优化方法具体如下:
1.调整模型架构:改变循环神经网络(RNN)的层数、隐藏单元数,或者根据应用场景使用其他模型结构,例如长短时记忆网络(LSTM)或变压器(Transformer)等。
2.选择合适的损失函数:除了交叉熵损失函数,还可以更替为在其他情况下更合适的损失函数。另外,可以加入正则化项以防止过拟合。
3.引入其他特征:在收集数据过程中如果也有其他与水质监测相关的特征数据(例如气温、降水量等),可以将这些特征加入模型,提供更多的信息来增强模型的性能。
S219、根据目标应用场景选择评价指标;
S220、从数据集中选择一部分样本数据作为测试集,测试集独立于已训练的数据;
S221、使用目标小型模型处理测试集中的样本数据,生成测试文本,并使用评价指标对测试文本进行评估,生成评估结果;
S222、根据评估结果分析目标小模型文本生成的问题,并根据问题调整目标小模型的架构、训练策略和输入特征种类。
本实施例中,为确保生成的水质监测报告的准确性和质量,按以下步骤进行评估:
1.选择评价指标:根据应用场景,选择评价指标,如选择BLEU分数用于评估生成文本的重叠度,选择ROUGE分数用于评估生成文本的摘要质量。
2.构建测试数据集:从独立于训练数据的数据集中选择一部分数据作为测试集。
3.生成文本并评估:使用训练好的小型模型生成水质监测报告,并使用选择的评价指标对生成的文本进行评估。
4.根据评价结果进行调整:根据评价指标的结果,分析模型生成文本的问题,调整模型的架构、训练策略或者输入特征。
5.持续改进和迭代:在调整模型后,重新训练模型,并重新进行评价。在模型不断迭代的过程中,提高模型的性能和生成质量。
本实施例中,首先采集目标应用场景的初始样本数据,其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据,即将目标应用场景的相关信息采集之后,将这些事项进行了标注,产生了场景数据。接下来根据预设的transformers包初始化大模型,并且将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据。使用大模型的softmax函数生成每一个标记序列的概率分布。根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签,将概率分布软标签和对应的输入文本数据进行组合,生成数据集。创建一个维度与概率分布软标签相同的循环神经网络模型为小模型。为概率分布软标签生成注意力集合。根据注意力集合调整小模型的层数和初始权重,即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。将数据集中的输入文本数据输入小模型中训练,生成训练分布数据。将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值。通过损失值更新小模型的权重,反向传播迭代优化小模型。当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型。
根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数。根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。根据目标应用场景的实际应用参数更新损失函数,并增设正则化项。将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。
根据目标应用场景选择评价指标。从数据集中选择一部分样本数据作为测试集,测试集独立于已训练的数据。使用目标小型模型处理测试集中的样本数据,生成测试文本,并使用评价指标对测试文本进行评估,生成评估结果。根据评估结果分析目标小模型文本生成的问题,并根据问题调整目标小模型的架构、训练策略和输入特征种类。
通过大模型对初始样本数据所生成的标记序列进行软标签的生成,使得大模型不会占据大量的资源与存储空间,接下来使用小模型以软标签为目标对输入文本数据进行训练,将大模型的优势与小模型的准确性相结合,在计算资源与存储空间有限的情况下,在具体的应用场景中,极大程度的提高了大模型的应用潜力。
终端根据初始样本数据中的场景数据,选择与实际运用时的目标应用场景为标准,计算场景数据的注意力值,注意力值越高,则初始权重设置越高。能够通过中央的创建方式来提高每一个小模型的灵活性。针对不同的实际场景调整模型架构。
请参阅图5,本申请提供了基于大模型的小模型训练装置的一个实施例,包括:
采集单元501,用于采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
初始化单元502,用于根据预设的transformers包初始化大模型;
第一生成单元503,用于将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
转换单元504,用于使用大模型将标记序列转换为概率分布软标签;
第二生成单元505,用于将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
定义单元506,用于根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布;
第三生成单元507,用于使用数据集、小模型和损失函数进行训练,生成目标小模型。
请参阅图6,本申请提供了基于大模型的小模型训练装置的另一个实施例,包括:
采集单元601,用于采集目标应用场景的初始样本数据,初始样本数据包含至少2个和目标应用场景存在关联的场景数据;
初始化单元602,用于根据预设的transformers包初始化大模型;
第一生成单元603,用于将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;
转换单元604,用于使用大模型将标记序列转换为概率分布软标签;
可选地,转换单元604,包括:
计算初始样本数据中每两个场景数据之间的关联度,根据关联度的数值关系生成至少一个关联组,关联组中包含至少2个场景数据;
使用大模型的softmax函数生成每一个标记序列的概率分布;
根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正,生成概率分布软标签。
第二生成单元605,用于将概率分布软标签和对应的输入文本数据进行组合,生成数据集;
定义单元606,用于根据概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定小模型的损失函数,小模型的输出为概率分布;
可选地,定义单元606,包括:
创建一个维度与概率分布软标签相同的循环神经网络模型为小模型;
为概率分布软标签生成注意力集合;
根据注意力集合调整小模型的层数和初始权重。
第三生成单元607,用于使用数据集、小模型和损失函数进行训练,生成目标小模型。
可选地,第三生成单元607,包括:
将数据集中的输入文本数据输入小模型中训练,生成训练分布数据;
将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值;
通过损失值更新小模型的权重,反向传播迭代优化小模型;
当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型。
调整单元608,用于根据目标应用场景的实际应用参数调整目标小模型的架构;
可选地,调整单元608,包括:
根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数;
根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。
更新单元609,用于根据目标应用场景的实际应用参数更新损失函数,并增设正则化项;
引入单元610,用于将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型;
第一选择单元611,用于根据目标应用场景选择评价指标;
第二选择单元612,用于从数据集中选择一部分样本数据作为测试集,测试集独立于已训练的数据;
第四生成单元613,用于使用目标小型模型处理测试集中的样本数据,生成测试文本,并使用评价指标对测试文本进行评估,生成评估结果;
第五生成单元614,用于根据评估结果分析目标小模型文本生成的问题,并根据问题调整目标小模型的架构、训练策略和输入特征种类。
请参阅图7,本申请提供了一种基于大模型的小模型训练系统,包括:
处理器701、存储器703、输入输出单元702以及总线704。
处理器701与存储器703、输入输出单元702以及总线704相连。
存储器703保存有程序,处理器701调用程序以执行如图1、图2、图3和图4中的小模型训练方法。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如图1、图2、图3和图4中的小模型训练方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (7)
1.基于大模型的小模型训练方法,其特征在于,包括:
采集目标应用场景的初始样本数据,所述初始样本数据包含至少2个和所述目标应用场景存在关联的场景数据;
根据预设的transformers包初始化大模型;
将采集到的所述初始样本数据输入到所述大模型中,通过generate函数将上述初始样本数据生成输入文本数据,并将所述输入文本数据转换为标记序列;
使用所述大模型结合softmax函数将所述标记序列转换为概率分布软标签;
将所述概率分布软标签和对应的所述输入文本数据进行组合,生成数据集;
根据所述概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定所述小模型的损失函数,所述小模型的输出为概率分布;
将所述数据集中的输入文本数据输入所述小模型中训练,生成训练分布数据;
将所述概率分布软标签作为所述小模型的目标分布,根据所述损失函数计算所述训练分布数据和所述概率分布软标签中间的损失值;
通过所述损失值更新所述小模型的权重,反向传播迭代优化所述小模型;
当所述小模型满足预设条件后,确定训练完成,将所述小模型确定为目标小模型;
根据所述目标应用场景的需求信息改变所述目标小模型的层数和隐藏单元数;
根据所述目标应用场景的需求信息修改所述目标小模型的长短时记忆网络模块和/或变压器模块;
根据所述目标应用场景的实际应用参数更新损失函数,并增设正则化项;
将与所述初始样本数据相关度大于预设阈值的新特征集合引入所述目标小模型。
2.根据权利要求1所述的小模型训练方法,其特征在于,在所述使用所述数据集、所述小模型和所述损失函数进行训练,生成目标小模型之后,所述小模型训练方法还包括:
根据目标应用场景选择评价指标;
从所述数据集中选择一部分样本数据作为测试集,所述测试集独立于已训练的数据;
使用所述目标小型模型处理所述测试集中的样本数据,生成测试文本,并使用所述评价指标对所述测试文本进行评估,生成评估结果;
根据所述评估结果分析所述目标小模型文本生成的问题,并根据问题调整所述目标小模型的架构、训练策略和输入特征种类。
3.根据权利要求1所述的小模型训练方法,其特征在于,所述根据所述概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定所述小模型的损失函数,包括:
创建一个维度与所述概率分布软标签相同的循环神经网络模型为小模型;
为所述概率分布软标签生成注意力集合;
根据所述注意力集合调整所述小模型的层数和初始权重。
4.根据权利要求1所述的小模型训练方法,其特征在于,使用所述大模型结合softmax函数将所述标记序列转换为概率分布软标签,包括:
计算所述初始样本数据中每两个场景数据之间的关联度,根据所述关联度的数值关系生成至少一个关联组,所述关联组中包含至少2个场景数据;
使用所述大模型的softmax函数生成每一个所述标记序列的概率分布;
根据所述关联组中场景数据之间的关联度对每一个所述标记序列的概率分布进行分布概率校正,生成概率分布软标签。
5.基于大模型的小模型训练装置,其特征在于,包括:
采集单元,用于采集目标应用场景的初始样本数据,所述初始样本数据包含至少2个和所述目标应用场景存在关联的场景数据;
初始化单元,用于根据预设的transformers包初始化大模型;
第一生成单元,用于将采集到的所述初始样本数据输入到所述大模型中,通过generate函数将上述初始样本数据生成输入文本数据,并将所述输入文本数据转换为标记序列;
转换单元,用于使用所述大模型结合softmax函数将所述标记序列转换为概率分布软标签;
第二生成单元,用于将所述概率分布软标签和对应的所述输入文本数据进行组合,生成数据集;
定义单元,用于根据所述概率分布软标签的维度创建一个循环神经网络模型,确定为小模型,以及确定所述小模型的损失函数,所述小模型的输出为概率分布;
第三生成单元,用于使用所述数据集、所述小模型和所述损失函数进行训练,生成目标小模型;
第三生成单元,包括:
将数据集中的输入文本数据输入小模型中训练,生成训练分布数据;
将概率分布软标签作为小模型的目标分布,根据损失函数计算训练分布数据和概率分布软标签中间的损失值;
通过损失值更新小模型的权重,反向传播迭代优化小模型;
当小模型满足预设条件后,确定训练完成,将小模型确定为目标小模型;
调整单元,用于根据目标应用场景的实际应用参数调整目标小模型的架构;
调整单元,包括:
根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数;
根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块;
更新单元,用于根据目标应用场景的实际应用参数更新损失函数,并增设正则化项;
引入单元,用于将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。
6.基于大模型的小模型训练系统,其特征在于,包括处理器、存储器、输入输出单元以及总线,所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至4任意一项所述的小模型训练方法。
7.一种计算机可读的存储介质,其特征在于,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至4中任一项所述的小模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529303.8A CN117236409B (zh) | 2023-11-16 | 2023-11-16 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529303.8A CN117236409B (zh) | 2023-11-16 | 2023-11-16 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236409A CN117236409A (zh) | 2023-12-15 |
CN117236409B true CN117236409B (zh) | 2024-02-27 |
Family
ID=89093463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311529303.8A Active CN117236409B (zh) | 2023-11-16 | 2023-11-16 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236409B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232203A (zh) * | 2019-04-22 | 2019-09-13 | 山东大学 | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112749728A (zh) * | 2020-08-13 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 学生模型训练方法、装置、计算机设备及存储介质 |
CN113487028A (zh) * | 2021-07-09 | 2021-10-08 | 平安科技(深圳)有限公司 | 知识蒸馏方法、装置、终端设备及介质 |
CN113806535A (zh) * | 2021-09-07 | 2021-12-17 | 清华大学 | 利用无标签文本数据样本提升分类模型表现的方法和装置 |
CN114241282A (zh) * | 2021-11-04 | 2022-03-25 | 河南工业大学 | 一种基于知识蒸馏的边缘设备场景识别方法及装置 |
CN114818902A (zh) * | 2022-04-21 | 2022-07-29 | 浪潮云信息技术股份公司 | 基于知识蒸馏的文本分类方法及系统 |
US11450225B1 (en) * | 2021-10-14 | 2022-09-20 | Quizlet, Inc. | Machine grading of short answers with explanations |
CN115358374A (zh) * | 2022-08-22 | 2022-11-18 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的模型训练方法、装置、设备及存储介质 |
CN116028821A (zh) * | 2023-03-29 | 2023-04-28 | 中电科大数据研究院有限公司 | 融合领域知识的预训练模型训练方法、数据处理方法 |
CN116431825A (zh) * | 2023-03-31 | 2023-07-14 | 西安电子科技大学 | 一种面向全域全场景按需服务的6g知识体系的构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3748545A1 (en) * | 2019-06-07 | 2020-12-09 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
US20220237890A1 (en) * | 2021-01-22 | 2022-07-28 | Samsung Electronics Co., Ltd. | Method and apparatus with neural network training |
-
2023
- 2023-11-16 CN CN202311529303.8A patent/CN117236409B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232203A (zh) * | 2019-04-22 | 2019-09-13 | 山东大学 | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 |
CN112749728A (zh) * | 2020-08-13 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 学生模型训练方法、装置、计算机设备及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN113487028A (zh) * | 2021-07-09 | 2021-10-08 | 平安科技(深圳)有限公司 | 知识蒸馏方法、装置、终端设备及介质 |
CN113806535A (zh) * | 2021-09-07 | 2021-12-17 | 清华大学 | 利用无标签文本数据样本提升分类模型表现的方法和装置 |
US11450225B1 (en) * | 2021-10-14 | 2022-09-20 | Quizlet, Inc. | Machine grading of short answers with explanations |
CN114241282A (zh) * | 2021-11-04 | 2022-03-25 | 河南工业大学 | 一种基于知识蒸馏的边缘设备场景识别方法及装置 |
CN114818902A (zh) * | 2022-04-21 | 2022-07-29 | 浪潮云信息技术股份公司 | 基于知识蒸馏的文本分类方法及系统 |
CN115358374A (zh) * | 2022-08-22 | 2022-11-18 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的模型训练方法、装置、设备及存储介质 |
CN116028821A (zh) * | 2023-03-29 | 2023-04-28 | 中电科大数据研究院有限公司 | 融合领域知识的预训练模型训练方法、数据处理方法 |
CN116431825A (zh) * | 2023-03-31 | 2023-07-14 | 西安电子科技大学 | 一种面向全域全场景按需服务的6g知识体系的构建方法 |
Non-Patent Citations (6)
Title |
---|
A Framework for Math Word Problem Solving Based on Pre-training Models and Spatial Optimization Strategies;Weijiang Fan等;Computer Supported Cooperative Work and Social Computing;第488-498页 * |
Knowledge Distillation of Transformer-based Language Models Revisited;Chengqiang Lu等;arXiv;第1-43页 * |
Natural Language Generation for Effective Knowledge Distillation;Colin Cherry等;Proceedings of the 2nd Workshop on Deep Learning Approaches for Low-Resource NLP;第202-208页 * |
基于知识蒸馏的中文自动语音识别的建模方法;舒真瀚等;现代计算机(第8期);第18-22页 * |
基于自然语言理解的软件产业政策关联性分析技术;孙璐等;电子技术应用;第47卷(第12期);第57-63页 * |
基于迁移学习的交通标志识别研究;刘文瑶;中国优秀硕士学位论文全文数据库 工程科技II辑(第2期);第C035-171页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117236409A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN108460089A (zh) | 基于Attention神经网络的多元特征融合中文文本分类方法 | |
CN113065331B (zh) | 基于实体上下文判别的实体情感识别方法和系统 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN112560948B (zh) | 数据偏差下的眼底图分类方法及成像方法 | |
CN113591971A (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN115080688B (zh) | 一种少样本跨领域情感分析方法及装置 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
EP3627403A1 (en) | Training of a one-shot learning classifier | |
CN117851591A (zh) | 一种基于bigbird和图注意力网络的多标签长文本分类方法 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN117436950A (zh) | 广告投放效果监控系统及其方法 | |
CN117236409B (zh) | 基于大模型的小模型训练方法、装置、系统和存储介质 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN115577111A (zh) | 基于自注意力机制的文本分类方法 | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |