CN117035064B

CN117035064B - 一种检索增强语言模型的联合训练方法及存储介质

Info

Publication number: CN117035064B
Application number: CN202311307418.2A
Authority: CN
Inventors: 刘明童; 张红晓; 白承麟; 韦松伟; 王世宁; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-02-20
Anticipated expiration: 2043-10-10
Also published as: CN117035064A

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种检索增强语言模型的联合训练方法及存储介质，方法包括：构建查询文本并输入至检索模型中检索获得检索文档；将检索文档与查询文本拼接后输入语言模型，生成背景知识；对获得的背景知识进行评分，根据分数，将对应的检索文档与查询文本构建成训练样本用于微调检索模型；将背景知识作为前缀与查询文本拼接后作为语言模型的输入，由语言模型输出回复；对输出进行优化，利用输入和优化后的输出构建训练数据，用于训练语言模型。将检索模型与语言模型进行联合训练，检索模型检索的文档生成背景知识后用于语言模型微调，语言模型生成背景知识后由反馈模型进行打分用于检索模型训练，二者相互优化。

Description

一种检索增强语言模型的联合训练方法及存储介质

【技术领域】

本发明涉及自然语言处理技术领域，其特别涉及一种检索增强语言模型的联合训练方法及存储介质。

【背景技术】

近期，大规模语言模型 (Large Language Model, LLM) 在自然语言处理 (NLP)方面取得了重大进展，极大地拓展了机器在语言理解和文本生成方面的能力边界。尤其是ChatGPT发布以来，其强大的文本生成能力和在不同任务上的Few-shot能力受到研究学者的广泛关注，目前已成为一个热门研究方向。然而，大规模语言模型（以下简称为大模型）的预训练阶段数据来源广泛且繁杂，可能存在着一些无关性知识，从而产生误导性信息。并且，大模型自身的知识是有限的，一方面，对于那些超出大模型知识范围的生成，其可能出现“幻觉”生成，即大模型的生成的内容，不是基于任何现实世界的数据，而是大模型自己想象的产物；另一方面，对于某些知识密集型的任务，需要大量的参数来存储知识，且需要再次使用新的数据进行训练，这无疑是浪费时间和资源的。

针对上述问题，近期的一些研究提出了利用外部知识扩充大模型知识储备的研究方案，该研究利用检索器（Retriever）从外部知识（例如网页搜索、外部知识库等）中检索对当前生成有用的背景知识，并基于检索到的背景知识进行文本生成，这种模型被称为检索增强语言模型 (Retrieval Augmented Language Model，RALM)。在最近的RALM的研究工作中，部分工作基于交互式网络搜索为当前的问题检索支撑事实。

但目前搭建检索增强的语言模型系统时，大多只针对其中的一项内容进行优化，没有系统地对整个模型框架进行优化，导致检索增强的语言模型不能流畅的、综合的生成最优的答案，优化不好性能不佳，从而导致回答能力较为欠缺。

【发明内容】

为了解决现有语言模型回答能力欠缺的问题，本发明提供一种检索增强语言模型的联合训练方法及存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种检索增强语言模型的联合训练方法，检索增强语言模型包括检索模型和语言模型，方法包括以下步骤：构建查询文本并输入至检索模型中检索获得检索文档；将检索文档与查询文本拼接后输入语言模型，生成背景知识；对获得的背景知识进行评分得到反馈分数，根据分数将对应的检索文档与查询文本构建成训练样本，将评分高的背景知识所对应的查询文本和检索文档构造为积极样本对，将评分低的背景知识所对应的查询文本和检索文档构造为消极样本对，并使用反馈分数作为相关分数用于微调检索模型；将背景知识作为前缀与查询文本拼接后作为语言模型的输入，由语言模型输出回复；对输出进行优化，利用输入和优化后的输出构建训练数据，用于训练语言模型。

优选地，构建查询文本并输入至检索模型中检索获得检索文档包括以下步骤：基于知识库，检索模型计算知识库中的每个文本与查询文本的相似性分数；按照相似性分数选取分数最高的多个文本作为检索文档。

优选地，对获得的背景知识进行评分包括以下步骤：获取反馈模型；将查询文本和背景知识拼接后输入至反馈模型中；反馈模型计算背景知识中每个词的反馈分数，然后将每个词的反馈分数进行平均，得到当前背景知识的分数。

优选地，获取反馈模型包括以下步骤：利用查询文本和背景知识构建正样本和负样本；利用反馈模型分别对正样本以及负样本分别进行打分；训练反馈模型对正样本的打分高于对负样本的打分。

优选地，使用均方差损失函数作为微调检索模型的损失函数；

其中为查询文本/>和检索文档/>的内积，/>是查询文本/>和检索文档/>获得的反馈分数，/>是检索到的检索文档的数量。

优选地，利用输入和优化后的输出构建训练数据包括以下步骤：构建提示模板；将输入和输出按照提示模板构建获得训练数据。

优选地，训练语言模型的损失函数为：

其中，/>是背景知识、查询文本以及输出的拼接；/>是/>中的总词数。

优选地，所述检索模型为预训练的Contriever模型。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的一种检索增强语言模型的联合训练方法。

与现有技术相比，本发明所提供的一种检索增强语言模型的联合训练方法及存储介质，具有如下的有益效果：

1.本发明实施例提供的一种检索增强语言模型的联合训练方法，通过对语言模型生成的背景知识进行评分，将该评分反过来用以改进检索模型的性能，使检索模型更偏向于检索大语言模型认为有用的背景知识文档；为了训练大语言模型基于背景知识生成文本，将检索模型检索到的背景知识文档作为前缀拼接到输入中，训练语言模型依据背景知识进行文本生成的能力。两个训练步骤同时进行，即将检索模型与语言模型进行联合训练，检索模型检索的文档生成背景知识后用于语言模型的微调，语言模型生成背景知识后由反馈模型进行打分用于检索模型的训练，二者相互优化。

2.本发明实施例提供的一种检索增强语言模型的联合训练方法，通过检索增强从外部知识库中检索支撑文档以弥补大模型自身知识的错误或不足，在知识密集型任务上可以是大模型基于检索的支撑文档生成背景知识，以及基于背景知识给出回复，一定程度上降低了大模型“幻觉”回答现象，增强了大模型处理知识密集型任务的能力。经实验验证，本发明可以令大模型在检索到的背景知识上对输入问题进行回答，模型具备融汇各个背景知识以及生成综合的、流畅的回答的能力，增强了大模型在知识密集型任务上的表现。

3.本发明实施例还提供一种计算机存储介质，具有与上述一种检索增强语言模型的联合训练方法相同的有益效果，在此不做赘述。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种检索增强语言模型的联合训练方法的步骤流程图。

图2是本发明第一实施例提供的一种检索增强语言模型的联合训练方法之步骤S1的步骤流程图。

图3是本发明第一实施例提供的一种检索增强语言模型的联合训练方法之步骤S3的步骤流程图。

图4是本发明第一实施例提供的一种检索增强语言模型的联合训练方法之步骤S31的步骤流程图。

图5是本发明第一实施例提供的一种检索增强语言模型的联合训练方法之步骤S5的步骤流程图。

【具体实施方式】

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种检索增强语言模型的联合训练方法，检索增强语言模型包括检索模型和语言模型，可以理解地，其中检索增强语言模型是利用检索模型从外部知识（例如网页搜索、外部知识库等）中检索对当前生成有用的文档作为背景知识，从而通过语言模型基于这些背景知识进行文本生成。

具体地，在本实施例中，采用预训练的Contriever模型作为检索模型，该模型使用MoCo损失进行对比学习预训练；基于Transformer的自回归语言模型框架作为语言模型，以BLOOM (BigScience Large Open-science Open-access Multilingual)作为本发明中使用的大规模语言模型示例，该模型在大规模多语言数据上进行了预训练，包含英语、中文、西班牙语等多种语言知识，能将对输入的文本进行高质量的语义编码，其他语言模型如GPT、Llama、Falcon模型也同样适用于本发明提出的方法。

具体地，联合训练方法包括以下步骤：

步骤S1：构建查询文本并输入至检索模型中检索获得检索文档；

在步骤S1中，构建查询文本可以是人为构建或者自动生成随机构建，查询文本可以是关键词、一句话或者一段文本，查询文本不限于任何形式、任何语种。比如，给定查询文本为“苹果具有哪些营养”，则检索模型会检索反馈出与苹果营养相关的一些文档、或者是文档中截取的文本段落等等。

请进一步结合图2，步骤S1具体包括以下步骤：

S11：基于知识库，检索模型计算知识库中的每个文档与查询文本的相似性分数；

S12：按照相似性分数选取分数最高的多个文档作为检索文档。

具体地，检索模型基于双Transformer编码器架构，对于输入的查询文本p，检索模型使用一个独立的编码器编码查询文本P获得向量表示Vp，而对于知识库中的每个文本使用另一个独立的编码器进行编码生成向量表示/>，计算每个文本与查询文本的相似性分数具体为计算二者的内积作为二者之间的相似度得分，公式为：

最后，选取分数最高的多个文档作为检索到的文档并输出，输出的这些文档则是模型检索到的认为与查询文本最相关的文档；这些文档在实际的使用中，则用于后续生成背景知识，使大模型依据这些背景知识生成与查询文本相关的回复文本。

步骤S2：将检索文档与查询文本拼接后输入语言模型，生成背景知识；

具体地，在本实施例中，拼接时将检索文档作为前缀拼接到查询文本前面；而由于检索出来的文档会很长，直接拼接后可能会造成超长的输入，超出语言模型上下文长度限制的数据会带来不利影响，因此，拼接前还需要对文档进行精炼，精炼后的文档再进行拼接。

检索出的每个文档，都分别与查询文本拼接后送入语言模型中，得到语言模型的中间回复作为背景知识。

步骤S3：对获得的背景知识进行评分，根据分数，将对应的检索文档与查询文本构建成训练样本用于微调检索模型。

可以理解地，由于检索到的文档不一定十分匹配当前的输入，因此可能生成无用的背景知识，从而为后续语言模型生成回答带来误导性信息。因此，为了训练检索模型检索对当前问答更有帮助的文档，进一步对大模型生成的每个背景知识进行反馈打分，并用这个反馈分数指导检索模型的训练。

具体地，请结合图3，步骤S3中“对获得的背景知识进行评分”包括以下步骤：

S31：获取反馈模型；

S32：将查询文本和背景知识拼接后输入至反馈模型中；

S33：反馈模型计算背景知识中每个词的反馈分数，然后将每个词的反馈分数进行平均，得到当前背景知识的分数。

可以理解地，在本实施例中，采用一个反馈模型来为生成的背景知识进行打分，该反馈模型由一个小规模语言模型和一个前馈神经网络组成，其中小规模语言模型用于生成背景知识的隐层表示，前馈神经网络将隐层表示映射为反馈分数。

对于给定的，p表示查询文本，b表示背景知识，其首先通过反馈模型的小规模语言模型层，获得每个词的隐层表示/>，反馈模型的语言模型层后接一层前馈神经网络作为Value Head层，隐层表示/>经该层后获得每个词的反馈分数/>；最后，将背景知识中的每个词的分数进行平均，作为当前背景知识的分数/>。

进一步地，请结合图4，为了使反馈模型打出的反馈分数更准确，获取反馈模型包括以下步骤：

S311：利用查询文本和背景知识构建正样本和负样本；

S312：利用反馈模型分别对正样本以及负样本分别进行打分；

S313：训练反馈模型对正样本的打分高于对负样本的打分。

具体地，在本实施例中，通过构造排序数据来训练反馈模型，使反馈模型给对于当前的输入提示更有用的背景知识打分更高。

需要说明的是，排序数据也即通过人工手动标注的方式来标注背景知识与查询文本之间的相关度，基于这样的数据，可使反馈模型的打分更接近人类的判断。

可以理解地，正样本也即表示为标注的背景知识与查询文本相关的一对样本，而负样本则是背景知识与查询文本不相关的一对样本，将其分别送入反馈模型中，反馈模型对每个样本进行打分后输出分数，打分过程如前述，在此不做赘述。

为了使反馈模型学习到正样本优于负样本，训练反馈模型的，其中/>和分别是正样本和负样本的反馈得分。

具体地，采用最小化下列损失函数训练反馈模型：

得到训练好的反馈模型后，利用反馈模型打出的分数，基于对比学习策略微调检索模型，具体为，将评分高的背景知识所对应的查询文本和检索文档构造为积极样本对，将评分低的背景知识所对应的查询文本和检索文档构造为消极样本对。

在训练检索模型的过程中通过拉近积极样本对的向量表示距离，拉远消极样本对的向量表示距离，从而使检索模型生成更优的句向量或文档向量的方式。

由于检索到的文档与当前的输入提示并不是完全毫无关联，不将积极和消极样本对完全定义为硬标签，而是直接使用反馈分数作为相关分数进行模型的训练，使用均方差损失函数作为微调检索模型的损失函数：

S4：将背景知识作为前缀与查询文本拼接后作为语言模型的输入，由语言模型输出回复；

具体地，对于多个背景知识，首先先将背景知识集成在一起，然后作为前缀与查询文本拼接在一起输入语言模型中，使语言模型学习基于背景知识和查询文本生成回复。

在本实施例中，采用一套适合于背景知识的prompt，如【背景知识1：文本1。背景知识2：文本2。……背景知识n：文本n。问题：查询文本。利用背景知识的指令：指令文本。】，从而提升大模型根据多个背景知识生成流畅的回答的能力。具体地，采用few-shot训练的方法，由于语言模型具备较强泛化学学习能力，只需构建少量训练数据便可训练模型这种能力，在训练时，将多个基于背景知识的学习示例，拼接到一起，用以训练few-shot指令跟随能力。通过该训练以及充分利用语言模型的泛化能力，在面对新场景的基于背景知识答案生成时，可以仅提供模型少量的学习示例，便可以利用该能力。

具体地，该步骤也可以利用现有语言模型，比如gpt-3.5-turbo接口，基于上述检索生成的背景知识生成回复构建训练基础数据。

S5：对输出进行优化，利用输入和优化后的输出构建训练数据，用于训练语言模型。

为了进一步保证训练数据质量，通过对生成的回复进行人工修改，以确保这些答案是正确、流畅且完全基于背景知识生成的，用以训练语言模型的回复生成能力。

请参阅图5，具体地，利用输入和优化后的输出构建训练数据包括以下步骤：

S51：构建提示模板；

S52：将输入和输出按照提示模板构建获得训练数据。

可以理解地，其中输入可以按上述构建的模板生成，比如：对于给定的个背景知识/>和查询文本/>，构造输入使用的模板为：“背景知识1：</>>\n背景知识2：</>>......\n背景知识k：</>>查询文本：</>>必须完全按照检索的背景知识回答。”，然后将输入输出对作为微调语言模型的训练数据，让语言模型学习根据背景知识生成回复。

示例性的如：构建的查询文本为“能否用excel从文本中提取数字”，而背景知识包括“背景知识1：使用SUBSTITUTE函数将指定符号替换为连续空格字符串(通过REPT函数构建)，从而使数字处在足够多个的连续空格之间。再通过MID函数截取“空格+数字+空格”这样的字符串，最后使用TRIM去除多余空值，实现对数字的提取。背景知识2：因为采用的公式很简单，所以总体来说只适合数字在文本中的位置有一定规律的情况唯一需要计算的参数就是文本长度。这里由于混合文本不含单字节字符(英文字符或半角符号)，我们可以使用LEN和LENB来确定数字长度，其中，EN计算总字符数，LENB计算总字节数，由于1个汉字=1个字符=2个字节，1个单字节字符=1个字符=1个字节，于是我们可以用2LEN-LENB来计算数字的长度，从而完成提取。背景知识3：情景二:特定符号引导特殊符号引导混合文本的特征:1.数字位置不固定。2.数字长度也不固定。3.数字有特殊字符引导，且可能存在其他单字节字符。解决思路:该情景虽然可以通过FIND函数锁定特殊符号的初始位置，但却因为其他单字节字符的存在，导致情景一中用2LEN-LENB确认长度的方法无法使用，情景一公式在情景二中宣告失败，正确的思路是，使用SUBSTITUTE函数将指定符号替换为连续空格字符串(通过REPT函数构建)，从而使数字处在足够多个的连续空格之间。再通过MID函数截取“空格+数字+空格”这样的字符串，最后使用TRIM去除多余空值，实现对数字的提取。”

然后将上述查询文本以及背景知识按照上述模板构建得到输入，输入语言模型中通过语言模型生成回复，示例性的：语言模型输出的回复为“Excel可以从文本中提取数字，但具体实现方法取决于文本中数字的位置和长度，也就是说，不同的情景需要采用不同的公式。例如，如果数字位置是固定的，且数字长度确定，可以使用MID函数来直接提取。而如果数字位置和数字长度都不固定，可以采用SUBSTITUTE函数将指定符号替换为连续空格字符串，从而使数字处在足够多个的连续空格之间，然后通过MID函数截取“空格+数字+空格”这样的字符串，最后使用TRIM去除多余空值，实现对数字的提取，此外，如果数字有特殊符号引导，可以使用FIND函数锁定特殊符号的初始位置再结合LEN、LENB来确定数字长度，从而完成提取。”

由于本实施例中给语言模型的指令为“必须完全按照检索的背景知识回答”，因此需要语言模型在生成回复时，必须完全是基于背景知识生成的。

进一步地，通过将所有的训练数据按上述样例模板生成输入，定义输出为/>，将输入输出对作为微调大模型的训练数据，训练语言模型的损失函数为：

综上，上述检索模型的训练和语言模型的训练是同时进行联合训练的，检索模型检索的文档生成背景知识后用于语言模型的微调，语言模型生成背景知识后由反馈模型进行打分用于检索模型的训练，二者相互优化。

本发明通过检索增强从外部知识库中检索支撑文档以弥补语言模型自身知识的错误或不足，在知识密集型任务上可以是语言模型基于检索的支撑文档生成背景知识，以及基于背景知识给出回复，一定程度上降低了语言模型“幻觉”回答现象，增强了语言模型处理知识密集型任务的能力。经实验验证，本发明可以令语言模型在检索到的背景知识上对输入问题进行回答，模型具备融汇各个背景知识以及生成综合的、流畅的回答的能力，增强了语言模型在知识密集型任务上的表现

本发明第二实施例还提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一实施例所述的一种检索增强语言模型的联合训练方法，具有和上述方法相同的有意效果，在此不做赘述。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供的一种检索增强语言模型的联合训练方法及存储介质具有如下的有益效果：

以上对本发明实施例公开的一种检索增强语言模型的联合训练方法及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种检索增强语言模型的联合训练方法，其特征在于：检索增强语言模型包括检索模型和语言模型，方法包括以下步骤：

构建查询文本并输入至检索模型中检索获得检索文档；

将检索文档与查询文本拼接后输入语言模型，生成背景知识；

对获得的背景知识进行评分得到反馈分数，根据分数将对应的检索文档与查询文本构建成训练样本，将评分高的背景知识所对应的查询文本和检索文档构造为积极样本对，将评分低的背景知识所对应的查询文本和检索文档构造为消极样本对，并使用反馈分数作为相关分数用于微调检索模型，使用均方差损失函数作为微调检索模型的损失函数；

其中为查询文本/> 和检索文档/> 的内积，/>是查询文本/> 和检索文档/>获得的反馈分数，/>是检索到的检索文档的数量；

将背景知识作为前缀与查询文本拼接后作为语言模型的输入，由语言模型输出回复；

对输出进行优化，利用输入和优化后的输出构建训练数据，用于训练语言模型。

2.如权利要求1所述的检索增强语言模型的联合训练方法，其特征在于：构建查询文本并输入至检索模型中检索获得检索文档包括以下步骤：

基于知识库，检索模型计算知识库中的每个文本与查询文本的相似性分数；

按照相似性分数选取分数最高的多个文本作为检索文档。

3.如权利要求1所述的检索增强语言模型的联合训练方法，其特征在于：对获得的背景知识进行评分包括以下步骤：

获取反馈模型；

将查询文本和背景知识拼接后输入至反馈模型中；

反馈模型计算背景知识中每个词的反馈分数，然后将每个词的反馈分数进行平均，得到当前背景知识的分数。

4.如权利要求3所述的检索增强语言模型的联合训练方法，其特征在于：获取反馈模型包括以下步骤：

利用查询文本和背景知识构建正样本和负样本；

利用反馈模型分别对正样本以及负样本分别进行打分；

训练反馈模型对正样本的打分高于对负样本的打分。

5.如权利要求1所述的检索增强语言模型的联合训练方法，其特征在于：利用输入和优化后的输出构建训练数据包括以下步骤：

构建提示模板；

将输入和输出按照提示模板构建获得训练数据。

6.如权利要求1所述的检索增强语言模型的联合训练方法，其特征在于：训练语言模型的损失函数为：

其中，/>是背景知识、查询文本以及输出的拼接，其中/>表示k个背景知识b，p和o分别表示查询文本和输出；/>是/>中的总词数。

7.如权利要求1所述的检索增强语言模型的联合训练方法，其特征在于：所述检索模型为预训练的Contriever模型。

8.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种检索增强语言模型的联合训练方法。