CN117313790A - 一种增强大模型上下文方法及系统 - Google Patents
一种增强大模型上下文方法及系统 Download PDFInfo
- Publication number
- CN117313790A CN117313790A CN202311247630.4A CN202311247630A CN117313790A CN 117313790 A CN117313790 A CN 117313790A CN 202311247630 A CN202311247630 A CN 202311247630A CN 117313790 A CN117313790 A CN 117313790A
- Authority
- CN
- China
- Prior art keywords
- memory
- training
- data
- context
- memories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 13
- 230000015654 memory Effects 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims abstract description 15
- 230000007787 long-term memory Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006993 memory improvement Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及nlp和大模型领域,具体提供了一种增强大模型上下文方法及系统,具有如下步骤:S1、建立预训练数据;S2、构造训练数据相关的三种记忆;S3、对损失函数进行优化。与现有技术相比,本发明能够解决大模型的计算和内存限制方面具有潜力,同时还能够提升模型的泛化能力和学习能力。
Description
技术领域
本发明涉及nlp和大模型领域,具体提供一种增强大模型上下文方法及系统。
背景技术
记忆增强在不增加参数和计算力的情况增强大语言模型性能的有效方法,现有记忆增强方法包括利用一个神经网络缓存最近输入机制或者额外查找表方法。现有方法很大的限制在于记忆单元基本都是在推理阶段引入,或者来自于一个分开训练的模型。因此记忆单元和语言模型不能在训练阶级直接进行统一优化,从而导致不能得到最优结果。我们这里提出一个记忆增强方法,可以很好弥补现有方法的缺点,我们主要考虑两个方面。
首先是训练目标函数,我们借助对比学习思路,提出来一个训练目标,我们的目标直接利用训练同一批次的样本作为可访问的记忆。我们的训练目标与神经网络缓存模型和最近邻语言模型密切相关,其中生成下一个词的概率是通过将编码器的输出与静态词嵌入表示和记忆表示比较来计算的。但是现有的方法仅仅是推理的时候考虑记忆单元,我们是训练和推理阶段都考虑。
目前大模型面临一个问题,需要巨大的算力和存储资源。为了训练和部署这些大模型,需要庞大的计算资源,这在某种程度上限制了其在许多应用中的可行性。为了应对这一问题,研究人员开始探索记忆增强技术。记忆增强是一种在不巨大的增加算力和参数的情况下,让大模型借助外部存储的额外信息,增强大模型在处理各种任务时的推理能力。
目前方法都是在推理阶段引入记忆增强能力,这样使得模型训练和推理不一致,导致不能达到最优能力。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的增强大模型上下文方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的增强大模型上下文系统。
本发明解决其技术问题所采用的技术方案是:
一种增强大模型上下文方法,具有如下步骤:
S1、建立预训练数据;
S2、构造训练数据相关的三种记忆;
S3、对损失函数进行优化。
进一步的,在步骤S1中,建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
进一步的,在步骤S2中,所述三种记忆分别为局部记忆、长期记忆和额外记忆;
所述局部记忆,当前文本段已经包括;
所述长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
所述额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
进一步的,在步骤S3中,利用步骤S2中的三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
进一步的,训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
一种增强大模型上下文系统,首先,建立预训练数据;然后构造训练数据相关的三种记忆,最后对损失函数进行优化。
进一步的,建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
进一步的,三种记忆分别为局部记忆、长期记忆和额外记忆;
所述局部记忆,当前文本段已经包括;
所述长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
所述额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
进一步的,根据三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
进一步的,训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
本发明的一种增强大模型上下文方法及系统和现有技术相比,具有以下突出的有益效果:
本发明使用三种记忆数据结合对比学习损失函数,增强大模型训练能力,使得大模型训练在不增加参数和大量计算量的前提下可以获得更长的上下文信息,从而获得更加准确的结果,解决大模型的计算和内存限制方面具有潜力,同时还能够提升模型的泛化能力和学习能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种实时动态分析流式串口数据的方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种实时动态分析流式串口数据的方法,一种增强大模型上下文方法,具有如下步骤:
S1、建立预训练数据;
建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
S2、构造训练数据相关的三种记忆;
三种记忆分别为局部记忆、长期记忆和额外记忆;
局部记忆,当前文本段已经包括;
长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
S3、对损失函数进行优化;
利用步骤S2中的三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
基于上述方法,本实施例中的一种增强大模型上下文系统,首先,建立预训练数据;然后构造训练数据相关的三种记忆,最后对损失函数进行优化。
其中,建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
三种记忆分别为局部记忆、长期记忆和额外记忆;
所述局部记忆,当前文本段已经包括;
所述长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
所述额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
根据三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中,P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种增强大模型上下文方法,其特征在于,具有如下步骤:
S1、建立预训练数据;
S2、构造训练数据相关的三种记忆;
S3、对损失函数进行优化。
2.根据权利要求1所述的一种增强大模型上下文方法,其特征在于,在步骤S1中,建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
3.根据权利要求2所述的一种增强大模型上下文方法,其特征在于,在步骤S2中,所述三种记忆分别为局部记忆、长期记忆和额外记忆;
所述局部记忆,当前文本段已经包括;
所述长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
所述额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
4.根据权利要求3所述的一种增强大模型上下文方法,其特征在于,在步骤S3中,利用步骤S2中的三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
5.根据权利要求4所述的一种增强大模型上下文方法,其特征在于,训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
6.一种增强大模型上下文系统,其特征在于,首先,建立预训练数据;然后构造训练数据相关的三种记忆,最后对损失函数进行优化。
7.根据权利要求6所述的一种增强大模型上下文系统,其特征在于,建立预训练数据,对文档数据进行切分成若干段的文本段,然后每个所述文本段为一条训练数据。
8.根据权利要求8所述的一种增强大模型上下文系统,其特征在于,三种记忆分别为局部记忆、长期记忆和额外记忆;
所述局部记忆,当前文本段已经包括;
所述长期记忆,在构造训练batch的时候,batch中的数据使用相邻文本段进行构造;
所述额外记忆,使用BM25算法,从整个训练语料库中找到前K个相似度最高的文本段进行构造。
9.根据权利要求8所述的一种增强大模型上下文系统,其特征在于,根据三种记忆训练数据,采用AdamW优化器,对以下损失函数进行优化:
其中P(w|c)表示给定上下文数据C,预测单词W出现的概率,M表示的是三种记忆集合,记忆中的具体数据用(d,w)进行表示,(d,w)表示一条上下文和目标单词组成的记忆片段,w为预测的目标单词,f表示是语言模型,Ew表示目标单词的静态向量。
10.根据权利要求9所述的一种增强大模型上下文系统,其特征在于,训练目标让P(w|c)概率最大化,对于sim也就是相似度的计算,参考transformer中Attention机制,使用
其中d表示是输入q或者k的维度大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311247630.4A CN117313790A (zh) | 2023-09-26 | 2023-09-26 | 一种增强大模型上下文方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311247630.4A CN117313790A (zh) | 2023-09-26 | 2023-09-26 | 一种增强大模型上下文方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117313790A true CN117313790A (zh) | 2023-12-29 |
Family
ID=89249353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311247630.4A Pending CN117313790A (zh) | 2023-09-26 | 2023-09-26 | 一种增强大模型上下文方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313790A (zh) |
-
2023
- 2023-09-26 CN CN202311247630.4A patent/CN117313790A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rizk-Allah et al. | Chaos-opposition-enhanced slime mould algorithm for minimizing the cost of energy for the wind turbines on high-altitude sites | |
CN111914085B (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN112016332B (zh) | 基于变分推理和多任务学习的多模态机器翻译方法 | |
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN115858847B (zh) | 基于跨模态注意力保留的组合式查询图像检索方法 | |
CN115936248A (zh) | 基于注意力网络的电力负荷预测方法、装置及系统 | |
CN116049450A (zh) | 一种基于距离聚类的支持多模态的图文检索方法及装置 | |
CN116401502A (zh) | 一种基于NUMA系统特性优化Winograd卷积的方法及装置 | |
CN113850012B (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
Oyedotun et al. | Deep network compression with teacher latent subspace learning and lasso | |
CN118119954A (zh) | 使用一个或多个机器学习模型的提示调整 | |
CN116993513A (zh) | 金融风控模型解释方法、装置及计算机设备 | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN117313790A (zh) | 一种增强大模型上下文方法及系统 | |
CN116663523A (zh) | 多角度增强网络的语义文本相似度计算方法 | |
CN109977194A (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN114676228A (zh) | 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 | |
CN113987154A (zh) | 基于UniLM与对比学习的相似句生成模型训练方法及相关设备 | |
CN111091198A (zh) | 一种数据处理方法及装置 | |
Chen et al. | Generating robust real-time object detector with uncertainty via virtual adversarial training | |
CN117409206B (zh) | 基于自适应原型聚合网络的小样本图像分割方法 | |
CN116663516B (zh) | 表格机器学习模型训练方法、装置、电子设备及存储介质 | |
Zhang et al. | Multi-level cell progressive differentiable architecture search to improve image classification accuracy | |
CN111597814B (zh) | 一种人机交互命名实体识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |