CN117875434A

CN117875434A - 一种用于扩展输入上下文长度的金融大模型长度外推方法

Info

Publication number: CN117875434A
Application number: CN202410282669.8A
Authority: CN
Inventors: 周熠; 梁子翔; 宋建恒
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-12
Anticipated expiration: 2044-03-13
Also published as: CN117875434B

Abstract

本发明公开了一种用于扩展输入上下文长度的金融大模型长度外推方法，用于自然语言处理领域，该金融大模型长度外推方法包括以下步骤：根据训练和推理阶段上下文长度生成比例因子；结合比例因子计算位置偏置的值；根据进制转换的思想对位置偏置的值平方多次获得位置偏置列表；根据位置偏置列表和输入内容的数学位置生成位置信息；在注意力得分矩阵上直接添加位置信息。本发明通过改进模型的位置编码，提升模型对更长上下文的处理能力，在尽量不损害模型性能的前提下，使模型更好地理解和利用更广泛的语境，从而提高其在处理输入长度超出训练任务时的表现。

Description

一种用于扩展输入上下文长度的金融大模型长度外推方法

技术领域

本发明涉及自然语言处理领域，具体来说，尤其涉及一种用于扩展输入上下文长度的金融大模型长度外推方法。

背景技术

在处理长上下文时，传统的大型语言模型面临着一系列复杂而严峻的挑战。其中之一是由于长文本包含的信息量巨大，要求模型具备高度准确的理解和处理能力。然而，由于模型的记忆力有限，较长的文本可能会超出其处理范围，导致信息丢失或在处理中出现错误。此外，处理长文本还会引入巨大的计算和存储负担，给模型的效率和性能带来严峻的考验。

在没有足够长的预料进行微调的情况下，大型语言模型在处理长上下文时可能表现不尽如人意，即便试图通过微调大型模型以适应特定领域的长文本，构建训练预料也是相当具有挑战性的任务。同时，微调过程所需的计算资源庞大，长文本训练会占用大量显存和计算开销。

目前，针对预训练大模型在处理长文本方面的不足，业界通常采用两种主要解决方法。其中一种方法是通过获取新的与后续推理相对应的训练预料，然后在训练预料上重新训练微调原有的模型，以获得能够满足需要的文本长度的模型，这一策略通过有针对性的数据增强来弥补在处理长文本时的不足之处；另一种解决方法则是修改模型推理代码，即通过一系列手段使得模型在没有足够长上下文的训练前提下，依然能够在这些较长文本上进行有效推理。

在微调上增加上下文长度相对容易，但一方面，获取长文本的下游任务训练预料较为困难，另一方面，上下文需要占用大量显存资源，导致较大的开销；因此，为了避免大模型微调长上下文造成更高算力需求和显存压力，主流方法是通过减小模型尺寸，采用滑动窗口的方式主动舍弃前文，只保留最新输入的注意力机制或者仅保留部分输入的注意力机制，然而，这种方法会对模型性能造成较大程度的损害，尽管可以输入输出较长长度的上下文，但大语言模型难以记住全部的上下文窗口，例如，在输入的全文信息基础上回答总结性问题上回答困难，跨越多个提供文本综合考虑答案的难度也会出现回答不全面的问题。

除了上述技术，还有一些创新方法，一种独特的技术是位置插值，这种方法通过放缩位置索引，使得最大的位置索引与预训练时的对齐，一般可以在微调的前1000步内就能让模型逐步适应相应的上下文长度。此外，最近CodeLlama（以代码补全任务为目标的大型语言模型元智能）的方式也通过微调旋转位置编码的旋转角度，以提升模型在外推方面的性能。

另一种方式着重在扩展大模型的输入长度范围，这种方式无需在长文本上微调大语言模型，因此避免了显存开销，但效果通常不如经过特定微调的模型。目前主流的方法之一是StreamingLLM（流式大语言模型），该方式利用注意力下沉现象，通过修改注意力掩码矩阵，始终保持对起始几个token（词标识，即输入句子中的词在词表中的位置序号）的关注，从而扩大上下文长度，然而，该方式不符合金融大模型的需求，它只适用于满足多轮对话的需要，模型仅保持短期记忆，而项目需要直接注入大量上下文信息，需要模型关注全部输入数据，另一种则是通过改进模型的位置编码方式来扩大上下文信息，现有的方法有Rerope（修正的旋转位置编码），通过对旋转位置编码的位置信息缩放到训练长度来适应长上下文情况。

在业务工作中，面对知识库和庞大工具Prompt（提示词）描述的整合，原始的模型难以直接适应如此复杂的上下文环境，尽管考虑了对模型进行微调的可能性，但这涉及到额外的人力、时间和显存资源开销，不符合初期尝试的资源限制。因此，迫切需要一种方法，在允许牺牲少量模型性能的前提下，能在不进行微调的情况下将模型的上下文窗口扩展到所需的长度。

传统方法如StreamingLLM虽然在减少长上下文显存开销方面取得了一些进展，却未能满足对模型对所提供的全部上下文信息进行全面感知的要求，其他一些方法也未能在自建的模型上得以应用。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

为了克服以上问题，本发明旨在提出一种用于扩展输入上下文长度的金融大模型长度外推方法，目的在于解决传统方法如StreamingLLM虽然在减少长上下文显存开销方面取得了一些进展，却未能满足对模型对所提供的全部上下文信息进行全面感知的要求，其他一些方法也未能在自建的模型上得以应用的问题。

为此，本发明采用的具体技术方案如下：

一种用于扩展输入上下文长度的金融大模型长度外推方法，该金融大模型长度外推方法包括以下步骤：

S1、根据训练和推理阶段上下文长度生成比例因子；

S2、结合比例因子计算位置偏置的值；

S3、根据进制转换的思想对位置偏置的值平方多次获得位置偏置列表；

S4、根据位置偏置列表和输入内容的数学位置生成位置信息；

S5、在注意力得分矩阵上直接添加位置信息。

可选地，计算位置偏置的公式为：

；

式中，表示位置偏置；

表示训练模型多头注意力机制的头数；

表示针对每个注意力头位置偏置的集合。

可选地，生成位置信息的计算公式为：

式中，表示输入句子中每个词的数学位置；

表示不带比例因子的偏置集合生成的位置编码；

表示针对每个注意力头位置偏置的集合。

可选地，根据进制转换的思想对位置偏置的值平方多次获得位置偏置列表包括以下步骤：

S31、引入比例因子，计算优化模型在处理超出原始训练窗口长度的文本时的性能；

S32、利用位置编码计算公式和引入的比例因子计算新的偏置值；

S33、根据新的偏置值和注意力头数生成新的偏置列表。

可选地，引入比例因子，计算优化模型在处理超出原始训练窗口长度的文本时的性能的公式为：

；

式中，表示比例因子；

maxlength表示在推理时输入上下文的最大长度；

表示训练模型多头注意力机制的头数；

trainlength表示在训练模型时使用的训练语料的最大长度。

可选地，利用位置编码计算公式和引入的动态外推计算新的偏置值的公式为：

；

式中，表示引入比例因子后的位置偏置；

表示训练模型多头注意力机制的头数；

表示比例因子。

可选地，根据新的偏置值和比例因子生成新的偏置列表的计算公式为：

；

式中，newBisaList表示针对每个注意力头带比例因子的位置偏置集合；

表示比例因子；

表示位置偏置；

表示训练模型多头注意力机制的头数。

相较于现有技术，本申请具有以下有益效果：

1、本发明通过改进模型的位置编码，提升模型对更长上下文的处理能力，在尽量不损害模型性能的前提下，使模型更好地理解和利用更广泛的语境，从而提高其在处理输入长度超出训练任务时的表现。

2、本发明在模型的位置编码中引入了对长序列的更好适应性，通过优化位置编码的设计，有效地处理长文本中的复杂结构，保持信息的完整性和准确性，不仅仅是简单地将模型的记忆窗口扩展，更是对模型推理机制的深度优化，使其在长文本上的表现更为出色。

3、本发明能够避免信息的丢失和不连贯，通过对长文本进行外推，模型可以持续学习上下文之间的关系，而不受固定长度的限制，充分发挥了已有模型的能力，提高了在长上下文中的信息表示能力和语义一致性。

4、本发明可以扩展大型语言模型的能力，使其能够处理更复杂的文本，并更好地理解和推理长文本中的关系，通过长度外推方法，充分利用现有模型，提高其在长上下文中的性能和效率，特别是需要处理长文本的任务，具有重要的实际作用。

5、本发明过重新构建位置编码的细节，扩展上下文窗口，使其能够处理超出训练长度的上下文信息，无需对模型进行特定的微调，从而显著减轻了人力和时间成本，这使得模型能够迅速在扩展的上下文中运行，为项目的尝试提供了更为灵活的选择，通过扩展上下文窗口，有效地处理更加复杂和庞大的上下文信息，使模型在长上下文任务时表现更为卓越；此之外，还具有良好的兼容性，可与其他基于微调的方法协同运作，在进行上下文外推的同时进行长度微调，以进一步拓展模型的处理范围。

6、本发明过扩展输入上下文长度来提高模型在处理长文本推理任务时的效果，通过验证相应的数据集，证明了这一方法的有效性，其主要目标是在提供更长的上下文信息的情况下，无需调整模型参数配置即可赋予模型全文理解的能力，从而扩展了模型的上下文范围和摘要能力，这一创新的关键组成部分是采用动态长度外推方法，通过改进大型语言模型的位置编码，引入进制转换的概念去优化位置编码，从而扩展了已有大模型的上下文窗口长度，同时避免了大型模型在上下文窗口上的调优时间，提高了编程效率，总体而言，为大型语言模型引入外部知识、应对总结性任务等方面提供了重要的技术支持。

附图说明

结合实施例的以下描述，本发明的上述特性、特征和优点及其实现方式和方法变得更明白易懂，实施例结合附图详细阐述。在此以示意图示出：

图1是根据本发明实施例的一种用于扩展输入上下文长度的金融大模型长度外推方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据本发明的实施例，提供了一种用于扩展输入上下文长度的金融大模型长度外推方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的用于扩展输入上下文长度的金融大模型长度外推方法，该金融大模型长度外推方法包括以下步骤：

S1、根据训练和推理阶段上下文长度生成比例因子；

S2、结合比例因子计算位置偏置的值；

S5、在注意力得分矩阵上直接添加位置信息。

优选地，计算位置偏置的公式为：

；

式中，表示位置偏置；

表示训练模型多头注意力机制的头数；

表示针对每个注意力头位置偏置的集合。

优选地，生成位置信息的计算公式为：

式中，表示输入句子中每个词的数学位置；

表示不带比例因子的偏置集合生成的位置编码；

表示针对每个注意力头位置偏置的集合。

优选地，根据进制转换的思想对位置偏置的值平方多次获得位置偏置列表包括以下步骤：

S33、根据新的偏置值和注意力头数生成新的偏置列表。

优选地，引入比例因子，计算优化模型在处理超出原始训练窗口长度的文本时的性能的公式为：

；

式中，表示比例因子；

maxlength表示在推理时输入上下文的最大长度；

表示训练模型多头注意力机制的头数；

trainlength表示在训练模型时使用的训练语料的最大长度。

优选地，利用位置编码计算公式和引入的动态外推计算新的偏置值的公式为：

；

式中，表示引入比例因子后的位置偏置；

表示训练模型多头注意力机制的头数；

表示比例因子。

优选地，根据新的偏置值和比例因子生成新的偏置列表的计算公式为：

；

表示比例因子；

表示位置偏置；

表示训练模型多头注意力机制的头数。

此外，需要补充说明的是，依靠进制转换的思想，在newBiasList上利用公式将其映射到新的进制空间，而在此空间中根据构造的，使得在超出训练长度时的位置信息与原始训练长度下的位置信息相同，从而实现了长度外推。

保证在训练长度部分模型性能不变，而在超出训练长度的部分做外推，提升这部分模型的性能，通过外推，在不进行微调的情况下将上下文窗口扩展多倍，从而提升模型的上下文理解能力。

综上所述，通过长度外推、进制转换的思想，改进了大语言模型的位置编码，从而实现了在超出输入长度的上下文上的总结能力。

另外，为了验证本发明是否能够带来提升，在LongBench上进行了测试，LongBench是由GLM团队提出的专门用于评估大模型长文本理解能力的数据集，覆盖中英等各类任务，然而，在验证效果的数据集中，尽管采用了本发明模型能够接收全部上下文信息输入，但仍然存在显存占用庞大的问题，在所需的上下文环境中，仅使用一张A100-80G的显卡甚至无法完成数据集上的推理验证功能，这将增加使用和测试过程中的成本，因此，额外采用了FlashAttention来优化显存开销，FlashAttention是一种对注意力计算进行重新排序的算法，利用平铺、重新计算来显著加快计算速度，并将序列长度的内存使用量从二次减少到线性，这大大减少了计算量和显存需求，同时保持了较高的精度和表达能力，在验证部分中，使用FlashAttention对原本模型的注意力计算模块做修改，从而使得验证过程可以在一张显卡上实现。

表1

上表中，Single-DocQA、Summarization、Fewshotlearning、Code为LongBench上的四类验证模型表现效果的数据集，Single-DocQA为针对单一文档的问答数据集，Summarization为单一文档的摘要生成数据集，Fewshotlearning为在提示词中包含少量样本的数据集，Code为代码补全类数据集。

根据表1可知，从效果上能够明显看到，金融大模型通过使用长度外推技术，处理长文本时的性能上得到了提升，已经能够满足我们的业务需求，这一改进为模型在实际应用中的可行性提供了有力支持。

综上所述，借助于本发明的上述技术方案，本发明采用的方式属于这一类方法，通过改进模型的位置编码，提升模型对更长上下文的处理能力，在尽量不损害模型性能的前提下，使模型更好地理解和利用更广泛的语境，从而提高其在处理输入长度超出训练任务时的表现；本发明在模型的位置编码中引入了对长序列的更好适应性，通过优化位置编码的设计，有效地处理长文本中的复杂结构，保持信息的完整性和准确性，不仅仅是简单地将模型的记忆窗口扩展，更是对模型推理机制的深度优化，使其在长文本上的表现更为出色；本发明能够避免信息的丢失和不连贯，通过对长文本进行外推，模型可以持续学习上下文之间的关系，而不受固定长度的限制，充分发挥了已有模型的能力，提高了在长上下文中的信息表示能力和语义一致性；本发明可以扩展大型语言模型的能力，使其能够处理更复杂的文本，并更好地理解和推理长文本中的关系，通过长度外推方法，充分利用现有模型，提高其在长上下文中的性能和效率，特别是需要处理长文本的任务，具有重要的实际作用；本发明过重新构建位置编码的细节，扩展上下文窗口，使其能够处理超出训练长度的上下文信息，无需对模型进行特定的微调，从而显著减轻了人力和时间成本，这使得模型能够迅速在扩展的上下文中运行，为项目的尝试提供了更为灵活的选择，通过扩展上下文窗口，有效地处理更加复杂和庞大的上下文信息，使模型在长上下文任务时表现更为卓越；此之外，还具有良好的兼容性，可与其他基于微调的方法协同运作，在进行上下文外推的同时进行长度微调，以进一步拓展模型的处理范围；本发明过扩展输入上下文长度来提高模型在处理长文本推理任务时的效果，通过验证相应的数据集，证明了这一方法的有效性，其主要目标是在提供更长的上下文信息的情况下，无需调整模型参数配置即可赋予模型全文理解的能力，从而扩展了模型的上下文范围和摘要能力，这一创新的关键组成部分是采用动态长度外推方法，通过改进大型语言模型的位置编码，引入进制转换的概念去优化位置编码，从而扩展了已有大模型的上下文窗口长度，同时避免了大型模型在上下文窗口上的调优时间，提高了编程效率，总体而言，为大型语言模型引入外部知识、应对总结性任务等方面提供了重要的技术支持。

虽然本发明已以较佳实施例揭示如上，然所述实施例仅为了便于说明而举例而已，并非用以限定本发明，本领域的技术人员在不脱离本发明精神和范围的前提下可作若干的更动与润饰，本发明所主张的保护范围应以权利要求书所述为准。

Claims

1.一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，该金融大模型长度外推方法包括以下步骤：

S1、根据训练和推理阶段上下文长度生成比例因子；

S2、结合比例因子计算位置偏置的值；

S5、在注意力得分矩阵上直接添加位置信息。

2.根据权利要求1所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述计算位置偏置的公式为：

；

式中，表示位置偏置；

表示训练模型多头注意力机制的头数；

表示针对每个注意力头位置偏置的集合。

3.根据权利要求2所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述生成位置信息的计算公式为：

；

式中，表示输入句子中每个词的数学位置；

表示不带比例因子的偏置集合生成的位置编码；

表示针对每个注意力头位置偏置的集合。

4.根据权利要求1所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述根据进制转换的思想对位置偏置的值平方多次获得位置偏置列表包括以下步骤：

S33、根据新的偏置值和注意力头数生成新的偏置列表。

5.根据权利要求4所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述引入比例因子，计算优化模型在处理超出原始训练窗口长度的文本时的性能的公式为：

；

式中，表示比例因子；

maxlength表示在推理时输入上下文的最大长度；

表示训练模型多头注意力机制的头数；

trainlength表示在训练模型时使用的训练语料的最大长度。

6.根据权利要求5所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述利用位置编码计算公式和引入的动态外推计算新的偏置值的公式为：

；

式中，表示引入比例因子后的位置偏置；

表示训练模型多头注意力机制的头数；

表示比例因子。

7.根据权利要求6所述的一种用于扩展输入上下文长度的金融大模型长度外推方法，其特征在于，所述根据新的偏置值和比例因子生成新的偏置列表的计算公式为：

；

表示比例因子；

表示位置偏置；

表示训练模型多头注意力机制的头数。