CN117313790A

CN117313790A - 一种增强大模型上下文方法及系统

Info

Publication number: CN117313790A
Application number: CN202311247630.4A
Authority: CN
Inventors: 冯落落; 张峻铭; 李志芸
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-29

Abstract

本发明涉及nlp和大模型领域，具体提供了一种增强大模型上下文方法及系统，具有如下步骤：S1、建立预训练数据；S2、构造训练数据相关的三种记忆；S3、对损失函数进行优化。与现有技术相比，本发明能够解决大模型的计算和内存限制方面具有潜力，同时还能够提升模型的泛化能力和学习能力。

Description

一种增强大模型上下文方法及系统

技术领域

本发明涉及nlp和大模型领域，具体提供一种增强大模型上下文方法及系统。

背景技术

记忆增强在不增加参数和计算力的情况增强大语言模型性能的有效方法，现有记忆增强方法包括利用一个神经网络缓存最近输入机制或者额外查找表方法。现有方法很大的限制在于记忆单元基本都是在推理阶段引入，或者来自于一个分开训练的模型。因此记忆单元和语言模型不能在训练阶级直接进行统一优化，从而导致不能得到最优结果。我们这里提出一个记忆增强方法，可以很好弥补现有方法的缺点，我们主要考虑两个方面。

首先是训练目标函数，我们借助对比学习思路，提出来一个训练目标，我们的目标直接利用训练同一批次的样本作为可访问的记忆。我们的训练目标与神经网络缓存模型和最近邻语言模型密切相关，其中生成下一个词的概率是通过将编码器的输出与静态词嵌入表示和记忆表示比较来计算的。但是现有的方法仅仅是推理的时候考虑记忆单元，我们是训练和推理阶段都考虑。

目前大模型面临一个问题，需要巨大的算力和存储资源。为了训练和部署这些大模型，需要庞大的计算资源，这在某种程度上限制了其在许多应用中的可行性。为了应对这一问题，研究人员开始探索记忆增强技术。记忆增强是一种在不巨大的增加算力和参数的情况下，让大模型借助外部存储的额外信息，增强大模型在处理各种任务时的推理能力。

目前方法都是在推理阶段引入记忆增强能力，这样使得模型训练和推理不一致，导致不能达到最优能力。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的增强大模型上下文方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的增强大模型上下文系统。

本发明解决其技术问题所采用的技术方案是：

一种增强大模型上下文方法，具有如下步骤：

S1、建立预训练数据；

S2、构造训练数据相关的三种记忆；

S3、对损失函数进行优化。

进一步的，在步骤S1中，建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

进一步的，在步骤S2中，所述三种记忆分别为局部记忆、长期记忆和额外记忆；

所述局部记忆，当前文本段已经包括；

所述长期记忆，在构造训练batch的时候，batch中的数据使用相邻文本段进行构造；

所述额外记忆，使用BM25算法，从整个训练语料库中找到前K个相似度最高的文本段进行构造。

进一步的，在步骤S3中，利用步骤S2中的三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

其中P(w|c)表示给定上下文数据C，预测单词W出现的概率，M表示的是三种记忆集合，记忆中的具体数据用(d,w)进行表示，(d,w)表示一条上下文和目标单词组成的记忆片段，w为预测的目标单词，f表示是语言模型，E_w表示目标单词的静态向量。

进一步的，训练目标让P(w|c)概率最大化，对于sim也就是相似度的计算，参考transformer中Attention机制，使用

其中d表示是输入q或者k的维度大小。

一种增强大模型上下文系统，首先，建立预训练数据；然后构造训练数据相关的三种记忆，最后对损失函数进行优化。

进一步的，建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

进一步的，三种记忆分别为局部记忆、长期记忆和额外记忆；

所述局部记忆，当前文本段已经包括；

进一步的，根据三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

其中d表示是输入q或者k的维度大小。

本发明的一种增强大模型上下文方法及系统和现有技术相比，具有以下突出的有益效果：

本发明使用三种记忆数据结合对比学习损失函数，增强大模型训练能力，使得大模型训练在不增加参数和大量计算量的前提下可以获得更长的上下文信息，从而获得更加准确的结果，解决大模型的计算和内存限制方面具有潜力，同时还能够提升模型的泛化能力和学习能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种实时动态分析流式串口数据的方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种实时动态分析流式串口数据的方法，一种增强大模型上下文方法，具有如下步骤：

S1、建立预训练数据；

建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

S2、构造训练数据相关的三种记忆；

三种记忆分别为局部记忆、长期记忆和额外记忆；

局部记忆，当前文本段已经包括；

长期记忆，在构造训练batch的时候，batch中的数据使用相邻文本段进行构造；

额外记忆，使用BM25算法，从整个训练语料库中找到前K个相似度最高的文本段进行构造。

S3、对损失函数进行优化；

利用步骤S2中的三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

训练目标让P(w|c)概率最大化，对于sim也就是相似度的计算，参考transformer中Attention机制，使用

其中d表示是输入q或者k的维度大小。

基于上述方法，本实施例中的一种增强大模型上下文系统，首先，建立预训练数据；然后构造训练数据相关的三种记忆，最后对损失函数进行优化。

其中，建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

三种记忆分别为局部记忆、长期记忆和额外记忆；

所述局部记忆，当前文本段已经包括；

根据三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

其中，P(w|c)表示给定上下文数据C，预测单词W出现的概率，M表示的是三种记忆集合，记忆中的具体数据用(d,w)进行表示，(d,w)表示一条上下文和目标单词组成的记忆片段，w为预测的目标单词，f表示是语言模型，E_w表示目标单词的静态向量。

其中d表示是输入q或者k的维度大小。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种增强大模型上下文方法，其特征在于，具有如下步骤：

S1、建立预训练数据；

S2、构造训练数据相关的三种记忆；

S3、对损失函数进行优化。

2.根据权利要求1所述的一种增强大模型上下文方法，其特征在于，在步骤S1中，建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

3.根据权利要求2所述的一种增强大模型上下文方法，其特征在于，在步骤S2中，所述三种记忆分别为局部记忆、长期记忆和额外记忆；

所述局部记忆，当前文本段已经包括；

4.根据权利要求3所述的一种增强大模型上下文方法，其特征在于，在步骤S3中，利用步骤S2中的三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

5.根据权利要求4所述的一种增强大模型上下文方法，其特征在于，训练目标让P(w|c)概率最大化，对于sim也就是相似度的计算，参考transformer中Attention机制，使用

其中d表示是输入q或者k的维度大小。

6.一种增强大模型上下文系统，其特征在于，首先，建立预训练数据；然后构造训练数据相关的三种记忆，最后对损失函数进行优化。

7.根据权利要求6所述的一种增强大模型上下文系统，其特征在于，建立预训练数据，对文档数据进行切分成若干段的文本段，然后每个所述文本段为一条训练数据。

8.根据权利要求8所述的一种增强大模型上下文系统，其特征在于，三种记忆分别为局部记忆、长期记忆和额外记忆；

所述局部记忆，当前文本段已经包括；

9.根据权利要求8所述的一种增强大模型上下文系统，其特征在于，根据三种记忆训练数据，采用AdamW优化器，对以下损失函数进行优化：

10.根据权利要求9所述的一种增强大模型上下文系统，其特征在于，训练目标让P(w|c)概率最大化，对于sim也就是相似度的计算，参考transformer中Attention机制，使用

其中d表示是输入q或者k的维度大小。