CN117009490A

CN117009490A - 基于知识库反馈的生成式大语言模型的训练方法和装置

Info

Publication number: CN117009490A
Application number: CN202311112954.7A
Authority: CN
Inventors: 黄飞; 战凯; 吴信东
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-11-07

Abstract

本发明公开了一种基于知识库反馈的生成式大语言模型的训练方法和装置，该方法利用领域知识库以及监督微调训练对大语言模型进行优化；采用基于知识库反馈的强化学习方法，利用领域知识库，构建奖励模型，对大语言模型生成的答案进行打分和反馈，构成了强化学习的流程。本发明的创新之处将知识图谱技术应用在奖励构建之中，从而可通过知识工程的自动化流程进行大语言模型微调，取代了基于人类反馈的强化学习，有利于节省大量人类反馈标注的高昂成本，基于确定性的知识推理得到领域应用的正确答案可修正生成式大语言模型捏造事实的关键缺陷，可使用在基于领域知识图谱构建行业垂直应用语言大模型的场景，适用性强。

Description

基于知识库反馈的生成式大语言模型的训练方法和装置

技术领域

本发明涉及知识工程和大语言模型微调训练领域，具体涉及强化学习和知识图谱人工智能技术领域，尤其涉及一种基于知识库反馈的生成式大语言模型的训练方法和装置。

背景技术

大语言模型(Large Language Model，LLM)如ChatGPT(Chat Generative Pre-trained Transformer)、GPT4(Generative Pre-trained Transformer 4)，能够以对话的形式为许多下游任务如面向任务的对话和问题解答生成类似人类的流畅响应，其中ChatGPT、GPT4是OpenAI机构研发的聊天机器人程序。

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback，RLHF)以强化学习方式依据人类反馈优化语言模型，RLHF是一种先进的AI系统训练方法，它将强化学习与人类反馈相结合；它是一种通过将人类训练师的智慧和经验纳入模型训练过程中，创建更健壮的学习过程的方法；其中涉及使用人类反馈创建奖励信号，然后通过强化学习来改善模型的行为。

监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

RLHF方法在ChatGPT的语言大模型中的训练过程中起到了关键作用，在此之前，传统的语言模型主要基于监督训练方法，通常只能生成符合语法规则的句子，但往往无法理解用户意图，导致生成的输出与用户期望不符。为了解决这个问题，所以希望引入一种使用人类反馈微调语言模型的方法，以更好地对齐用户意图。通过使用人类反馈来微调模型，使其能够更好地遵循各种书面指令，并生成更准确、更有逻辑连贯性和可读性的输出。

然而，出于工程和算法的原因，基于监督学习或RLHF方法对LLM进行训练和微调的成本过高，主要在于训练集需要的数量巨大(数亿到数十亿篇文档，10TB～100TB的文本量)因而人工标注成本高昂。同时，基于通用语言数据集训练的生成式大语言模型在回答领域专业问题时，由于生成式模型的机制和大语言模型只具备当前训练语料的知识，不可避免地存在幻觉现象(即胡说八道的现象)。例如，在询问“本公司的成立时间”等问题时，需要具体的领域知识和实时信息，无法单纯依靠LLM参数中蕴含的知识来生成，均需要依赖于外部的知识库才能生成准确的结果。

发明内容

本发明的目的在于针对现有技术中人工标注成本高昂以及大语言模型捏造事实的关键缺陷与领域应用中需要精确答案的矛盾的问题，提供一种基于知识库反馈的生成式大语言模型的训练方法和装置。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种基于知识库反馈的生成式大语言模型的训练方法，包括以下步骤：

(1)采用开源的大语言模型作为基础，使用无标注数据对该大语言模型进行自监督训练，以获取预训练好的大语言模型；

(2)从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集；使用标记数据集中的标记数据对所述步骤(1)获取的预训练好的大语言模型进行监督微调训练，以获取监督微调训练好的大语言模型；

(3)使用所述步骤(2)构建的领域的标记数据集中的问题，输入到所述步骤(2)获取的监督微调训练好的大语言模型中，获取多个预测答案并与标记数据集中该问题对应的期望答案共同构建多个问答对，并获取问答对所属的主题；在领域的知识图谱中对问题进行检索，以获取匹配的语义节点；根据匹配的语义节点和多个预测答案以及期望答案计算相似度，根据相似度对答案得分进行排序，并使用排序后的答案得分修正奖励模型；

(4)将所述步骤(2)获取的监督微调训练好的大语言模型，基于所述步骤(3)获取的奖励模型输出的答案得分，以强化学习中的近端策略优化模型进行训练，以获取生成式大语言模型。

进一步地，所述大语言模型包括自回归Transformer架构的Lamma2模型、中英双语双向预训练模型ChatGLM2-6B模型、Chinchilla-70B模型和PaLM-540B模型。

进一步地，所述步骤(2)中，所述从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集，具体包括：

根据监督微调训练的场景，从领域的问题库中抽取问题，通过向量嵌入在领域的知识库中进行检索以获取包含问题内容的相似文档，然后利用大语言模型的Prompt提示，将问题和检索到的相似文档嵌入到提示中，作为问题对应的期望答案；根据问题及其对应的期望答案构建领域的标记数据集，该标记数据集的样式为问答对<Question，Answer>。

进一步地，所述问题对应的期望答案的确定方法具体包括：

首先判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴，若问题的主题类别未包含在领域的知识库预先设定的主题类别范畴，则通过人工补充问题对应的期望答案；若问题的主题类别包含在领域的知识库预先设定的主题类别范畴，则根据领域的知识库预先设定的数据内容判断问题对应的期望答案在检索到的相似文档中是否存在，若问题对应的期望答案在检索到的相似文档中存在，则根据问题与相似文档中存在的问题对应的期望答案判断二者的第二匹配度，若第二匹配度大于等于预设的第二匹配度阈值，则直接将相似文档中存在的问题对应的期望答案作为最终的问题对应的期望答案；若第二匹配度小于预设的第二匹配度阈值，则通过人工对相似文档中存在的问题对应的期望答案进行修正后作为最终的问题对应的期望答案；若问题对应的期望答案在检索到的相似文档中不存在，则将“我不知道”作为问题对应的期望答案。

进一步地，所述判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴具体包括：

通过问题中的主题词找到该问题在领域的知识库中对应的实体节点；其中实体节点包括四层关键信息，第一层关键信息是问题词，所述问题词是问题的明显特征；第二层关键信息是问题焦点，所述问题焦点为问题词相关的实体；第三层关键信息是问题的主题词，通过命名实体识别确定主题词；第四层关键信息是问题的中心动词，通过词性标注识别确定中心动词；

通过实体节点的问题词、问题焦点、问题的主题词和问题的中心动词，将该问题转化为问题图；

通过子图匹配度计算将问题图与领域的知识库图谱进行第一匹配度计算，判断计算出的第一匹配度是否小于预设的第一匹配度阈值，若第一匹配度小于预设的第一匹配度阈值，则表明问题的主题类别未包含在领域的知识库预先设定的主题类别范畴；若第一匹配度大于等于预设的第一匹配度阈值，则表明问题的主题类别包含在领域的知识库预先设定的主题类别范畴。

进一步地，所述步骤(3)包括以下子步骤：

(3.1)使用所述步骤(2)构建的领域的标记数据集中的问题，输入到所述步骤(2)获取的监督微调训练好的大语言模型中，获取多个预测答案，并与标记数据集中该问题对应的期望答案共同构成了针对一个问题的多个问答对；

(3.2)通过开放域数据集和领域数据集，采用知识工程中的知识抽取方法和知识融合方法构建领域的知识图谱，该领域的知识图谱中包含知识和实体类目体系结构；

(3.3)通过主题获取匹配到领域的知识图谱中的实体类目体系，得到问答对所属的主题；

(3.4)在构建好的领域的知识图谱的实体类目体系中进行检索，判断实体类目体系中是否包含问答对所属的主题，若实体类目体系中包含问答对所属的主题，则直接执行步骤(3.5)；否则，直接执行步骤(3.6)；

(3.5)通过图神经网络模型或基于知识图谱的CLQA引擎，在领域的知识图谱中对问题进行检索，以获取匹配的语义节点；计算匹配的语义节点与问答对中期望答案和多个预测答案的语义相似度，以获取多个相似度；根据相似度对答案得分进行排序；使用排序后的答案得分修正奖励模型，获得基于知识图谱反馈训练得到的奖励模型；

(3.6)将问答对发给用户通过人工确定答案得分，并对答案得分进行排序；根据排序后的最大得分所对应的期望答案或预测答案构造问题和答案的最佳问答对，使用该最佳问答对通过人类反馈对领域的知识图谱进行更新。

进一步地，所述步骤(3.5)中，所述根据相似度对答案得分进行排序具体包括：

相似度与答案得分呈正相关，根据相似度的大小对答案得分进行排序。

进一步地，所述步骤(4)具体包括：

将所述步骤(2)获取的监督微调训练好的大语言模型生成的预测答案，输入到所述步骤(3)获取的奖励模型中，得到输出的答案得分，将答案得分加入到强化学习中的近端策略优化模型中进行训练，更新近端策略优化模型的策略参数，并根据策略参数优化监督微调训练好的大语言模型，以获取生成式大语言模型。

本发明实施例第二方面提供了一种基于知识库反馈的生成式大语言模型的训练装置，包括一个或多个处理器和存储器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于知识库反馈的生成式大语言模型的训练方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于知识库反馈的生成式大语言模型的训练方法。

本发明的有益效果是，本发明把领域知识库与大语言模型进行结合应用，复用已有的知识库作为训练语料，在行业应用中进行基于领域数据的模型微调，对可以构建知识图谱的特定领域大语言模型应用提供了标准可行的技术路径；本发明能够大幅降低成本，基于企业或组织已有知识库的基础上，有利于节省大语言模型领域应用时模型微调的庞大人工标注成本，以及建立奖励模型时需要人工对结果进行反馈排序的成本；本发明结合知识工程的确定性推理，通过得到的知识图谱进行确定性推理得到准确结果，有助于修正大语言模型胡编乱造的关键缺陷，以便得到可信的答案。

附图说明

图1为本发明的基于知识库反馈的生成式大语言模型的训练方法的整体流程图；

图2为本发明的基于知识库反馈的强化学习(Reinforcement Learning withKnowledge Feedback，RLKF)方法的一种示例流程图；

图3为本发明的监督微调训练中高质量的标记数据集的生成方法流程图；

图4为本发明中奖励模型的实现过程示意图；

图5为本发明的基于知识库反馈的生成式大语言模型的训练装置的一种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参见图1，本发明的基于知识库反馈的生成式大语言模型的训练方法，具体包括以下步骤：

(1)采用开源的大语言模型作为基础，使用无标注数据对该大语言模型进行自监督训练，以获取预训练好的大语言模型。

进一步地，可以采用已训练好的大语言预训练模型，包括Meta公司公布的自回归Transformer架构的LLaMA2模型(模型参数包括从7B到65B)、智谱AI公司公布的中英双语双向预训练模型ChatGLM2-6B模型、ChatGPT模型和GPT4模型等。应当理解的是，也可以采用其它开源的大语言模型，如Chinchilla-70B、PaLM-540B、上海人工智能实验室的书生·浦语大语言模型InternLM-7B模型、开源中文大模型BELLE:Be Everyone's Large Languagemodel Engine、百川智能的baichuan-7B模型等。

需要说明的是，对开源的大语言模型进行训练时采用的数据是该大语言模型所对应的通用低质量的无标注语料数据集。

在预训练阶段，大语言模型在大规模的通用文本数据上进行训练，学习语言的基本结构和各种常识。大语言模型预训练是通过上文的词来预测下一个词，给定一个符号(Token)系列的语料使用标准的语言模型目标函数，最大化如下的似然函数：

其中，k是上下文窗口大小，条件概率P使用Transformer结构的神经网络模型，具有参数θ，这些参数使用随机梯度下降法来进行训练更新。在迭代更新的步骤达到设定的训练次数，或似然函数的值在训练的第n次和第n-1次值连续m次前后变化不超过设定的阈值之后，停止训练。

通常大语言模型的预训练阶段需要万亿Token数量的训练语料，1K～4K级别的上下文窗口，千张GPU训练卡，月级别的训练时间。

(2)从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集；使用标记数据集中的标记数据对步骤(1)获取的预训练好的大语言模型进行监督微调训练(Supervisedfine-tuning，SFT)，以获取监督微调训练好的大语言模型。

需要说明的是，领域的知识库参与的获取期望答案的过程构成标记者(Labeler)，被标记的标记数据用监督微调训练来调优步骤(1)预训练好的大语言模型。

本实施例中，从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集，具体包括：根据需要监督微调训练的场景，从领域的问题库中抽取问题，通过向量嵌入在领域的知识库中进行检索以获取包含问题内容的相似文档，然后利用大语言模型的Prompt提示，将问题和检索到的相似文档嵌入到提示中，作为问题对应的期望答案；根据问题和问题对应的期望答案构建领域的标记数据集，该标记数据集的样式为问答对<Question，Answer>，如图3所示。需要说明的是，监督微调训练中，用来让大语言模型从自回归预测变成对话形式。

应当理解的是，当前步骤(2)中使用知识库和知识图谱代替或部分代替了RLHF中的人类反馈，通过特定领域的知识库和知识图谱推理引擎，得到大语言模型在特定领域中优化训练的流程。把领域知识库与大语言模型进行结合应用，复用已有的知识库作为训练语料，在行业应用中进行基于领域数据的模型微调，对可以构建知识图谱的特定领域大语言模型应用提供了标准可行的技术路径；在已有知识库的基础上，有利于节省大语言模型领域应用时模型微调(Fine Tuning)的庞大人工标注成本。

进一步地，问题对应的期望答案确定的方法具体包括：判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴，通过问题中的主题词可以找到该问题在领域的知识库中对应的实体节点，其中实体节点包括四层关键信息，第一层关键信息是问题词，例如who,when,what,where,how,which,why,whom,whose,它是问题的明显特征；第二层关键信息是问题焦点，例如name,time,place,将问题词相关的实体提取出来；第三层关键信息是问题的主题词，例如“气象地质学”，可以通过命名实体识别(Named EntityRecognition,NER)来确定主题词，一个问题可能存在多个主题词；第四层关键信息是问题的中心动词，可以通过词性标注(Part-of-Speech,POS)识别来确定中心动词。通过问题词、问题焦点、问题的主题词和问题的中心动词，可以将该问题转化为问题图(QuestionGraph)，通过子图匹配度计算将问题图与领域的知识库图谱进行第一匹配度计算，判断计算出的第一匹配度是否小于预设的第一匹配度阈值，若第一匹配度小于预设的第一匹配度阈值，则表示问题超出了领域知识库的主题类别，会匹配不到答案，需要通过人工补充问题对应的期望答案；若问题图与领域的知识库图谱的主题类别的第一匹配度大于等于预设的第一匹配度阈值，则根据领域的知识库预先设定的数据内容判断问题对应的期望答案在检索到的相似文档中是否存在，若问题对应的期望答案在检索到的相似文档中存在，则根据问题与相似文档中存在的问题对应的期望答案判断二者的第二匹配度，若第二匹配度大于等于预设的第二匹配度阈值，则直接将相似文档中存在的问题对应的期望答案作为最终的问题对应的期望答案；若第二匹配度小于预设的第二匹配度阈值，则通过人工对相似文档中存在的问题对应的期望答案进行修正后作为最终的问题对应的期望答案；若问题对应的期望答案在检索到的相似文档中不存在，则将“我不知道”作为问题对应的期望答案。

进一步地，匹配度的计算，可选的一种模式是在候选答案中找出正确答案转化为一个二分类问题，使用训练数据问题-答案对，训练一个分类器来找到正确答案，分类器的输入特征向量由问题-候选答案特征组合而成，在使用的时候，对于每一个候选答案，抽取出它的特征(假设有k个特征)后，在和问题中的每一个特征两两结合(假设有m个特征)，那么就得到了k*m个问题-候选答案特征，因此输入向量就是一个k*m-hot(即k*m维为1，其他维为0)的向量，可以使用带L1正则化的逻辑回归作为分类器，训练得到问题-候选答案特征的分类器。

应当理解的是，问题与其对应的期望答案的匹配程度越大，说明该问答对<Question，Answer>的质量越好。

本实施例中，使用构建的标记数据集中的问答对<Question，Answer>采用监督微调训练方法对预训练好的大语言模型进一步训练，SFT有监督的微调训练过程如下：

对于标记的数据集<Question，Answer>，可以视作一个输入的token序列x¹，...，x^m,对应到标记y。输入序列通过预训练模型得到Transformer网络结构块中的激活系数通过与系数W_y进行矩阵相乘计算得到线性输出层来预测y，得到预测y的概率P，其表达式为：

因此，目标是最大化如下的函数：

为了使得大语言模型具有泛化性，以及加速收敛，实际使用如下的目标函数：

其中，λ为权重。

之后再使用随机梯度下降法训练参数W_y，在迭代更新的步骤达到设定的训练次数，或目标函数在训练的第n次和第n-1次值连续m次前后变化不超过设定的目标函数的阈值之后，停止训练。最终可以得到监督微调训练好的大语言模型，该大语言模型是领域适配的专有大语言模型。

(3)使用步骤(2)构建的领域的标记数据集中的问题，输入到步骤(2)获取的监督微调训练好的大语言模型中，获取多个预测答案(Answer)，并与标记数据集中该问题对应的期望答案共同构建多个问答对，并获取问答对所属的主题；在领域的知识图谱中对问题进行检索，以获取匹配的语义节点；根据匹配的语义节点和多个预测答案以及期望答案计算相似度，根据相似度对答案得分进行排序，并使用排序后的答案得分修正奖励模型(Reward Model)，如图4所示。

(3.1)使用步骤(2)构建的领域的标记数据集中的问题，输入到步骤(2)获取的监督微调训练好的大语言模型中，获取多个预测答案，并与标记数据集中该问题对应的期望答案共同构成了针对一个问题的多个问答对，如图2所示，如地质领域的标记数据集中的问题为“什么是地质学”，该问题在标记数据集中对应的期望答案为C，通过监督微调训练好的大语言模型得到了A、B、D这三个预测答案，期望答案C与多个预测答案A、B、D共同构成了针对一个问题的多个问答对。

(3.2)通过高质量开放域数据集和领域专用数据集，采用知识工程中的知识抽取方法和知识融合方法构建领域的知识图谱，该领域的知识图谱中包含知识和实体类目体系结构。

需要说明的是，高质量开放域数据集和领域专用数据集可以从开源网站上下载，如论文、专利、标准、报告等文献，网页、新闻、资讯、百科Wiki、书籍等文本中获取或GitHub等开源网站，等等。

应当理解的是，使用知识抽取方法和知识融合方法即可构建知识图谱，这是知识工程中常用的方法。

(3.3)通过主题获取匹配到领域的知识图谱中的实体类目体系，得到问答对所属的主题，例如询问“我们公司是什么时候建立的”，该问题属于“XX公司”的主题，“什么是太空地质学”属于地质学主题中的太空地质学二级主题。

(3.4)在构建好的领域的知识图谱的实体类目体系中进行检索，判断实体类目体系中是否包含问答对所属的主题，若实体类目体系中包含问答对所属的主题，则直接执行步骤(3.5)；否则，直接执行步骤(3.6)。

(3.5)通过图神经网络(Graph Neural Network，GNN)模型或基于知识图谱的CLQA(Complex Logical Question Answering)引擎，在领域的知识图谱中对问题进行检索，以获取匹配的语义节点；计算匹配的语义节点与问答对中期望答案和多个预测答案的语义相似度，以获取多个相似度；根据相似度对答案得分进行排序；使用排序后的答案得分修正奖励模型，最终得到基于知识图谱反馈训练得到的奖励模型。

应当理解的是，GNN模型是一种常用的模型，通过GNN模型或CLQA引擎即可在知识图谱中对问题进行检索，得到匹配的语义节点。

进一步地，奖励模型接受文本输入，输出一个得分。具体地，这里的奖励模型的文本输入是针对同一个问题给出的不同答案，输出是答案质量的分数。奖励模型(RewardModel)将监督微训练好的大语言模型最后一层的softmax去掉，即最后一层不用softmax，改成一个线性层。RM模型的输入是问题和答案，输出是一个标量即答案得分。

进一步地，语义相似度是很常见的一种相似度的计算方法，通过计算词语之间的距离，反映在知识图谱中，即为节点之间的距离，将距离转换为相似度，距离远表示相似度小，距离近表示相似度大。

进一步地，根据相似度对答案得分进行排序时，具体包括：相似度与答案得分呈正相关，根据相似度的大小即可对答案得分进行排序，即相似度大的期望答案或预测答案所对应的答案得分大，相似度小的期望答案或预测答案所对应的答案得分小。例如，相似度低、语义相反或知识图谱中不包含的回答得低分，如图4所示。

进一步地，由于奖励模型的输入是一个文本即问题对应的期望答案或预测答案，输出是对应的答案得分，进行排序以后得到输出对应的答案得分排序；根据相似度对答案得分进行排序后，得到相似度对应的答案得分排序，该相似度对应的答案得分排序可能与输出对应的答案得分排序不同，此时就需要根据相似度对应的答案得分排序对奖励模型进行修正，最终可以得到基于知识图谱的奖励模型。

奖励模型的Pairwise Ranking Loss如下所示：

其中，D是通过知识图谱反馈的对答案进行排序的数据集；x是D中的问题，y∈{y₀，y₁}是对K个答案中选取的2个答案，y_i是更好的答案，r_θ(x，y)是需要训练的RM模型，对于输入的x和y得到的标量分数。训练过程同步骤(2)中大语言模型监督微调训练的训练方法，使用随机梯度下降法训练参数θ，在迭代更新的步骤达到设定的训练次数，或损失函数在训练的第n次和第n-1次值连续m次前后变化不超过设定的损失阈值之后，停止训练。

应当理解的是，当前步骤(3)中使用知识库和知识图谱代替或部分代替了RLHF中的人类反馈，通过特定领域的知识库和知识图谱推理引擎，得到大语言模型在特定领域中优化训练的流程。把领域知识库与大语言模型进行结合应用，复用已有的知识库作为训练语料，在行业应用中进行基于领域数据的模型微调，对可以构建知识图谱的特定领域大语言模型应用提供了标准可行的技术路径；在已有知识库的基础上，有利于节省建立奖励模型时需要人工对结果进行反馈排序的成本；通过得到的知识图谱进行确定性推理得到准确结果，有助于修正大语言模型胡编乱造的关键缺陷，以便得到可信的答案。

(4)将步骤(2)获取的监督微调训练好的大语言模型，基于步骤(3)获取的奖励模型输出的答案得分，以强化学习中的近端策略优化(Proximal Policy Optimization，PPO)模型进行训练，以获取生成式大语言模型。

应当理解的是，近端策略优化模型是强化学习中常用的一种方法，可以实现训练过程中小批量的更新，解决了步长难以确定的问题。

具体地，将步骤(2)获取的监督微调训练好的大语言模型生成的预测答案，输入到步骤(3)获取的奖励模型中，得到输出的答案得分rk，将答案得分加入到强化学习中的近端策略优化模型中进行训练，更新近端策略优化模型的策略参数，并根据策略参数优化监督微调训练好的大语言模型，以获取生成式大语言模型。

训练过程中的整体的奖励-KL惩罚值可以写做如下形式

其中，β为权重系数，在强化学习学习到的策略和原始的监督精调模型π^SFT之间计算KL散度，得到上面的公式，目的是RL模型和之前的模型的差距越小越好，打分部分r_θ(x，y)使得新模型数据打分要更高一些。强化学习过程中，前面两个步骤的SFT模型，RM模型都参与循环训练，更新参数θ以得到一个RL策略模型。

通常，强化学习设定固定的训练次数，例如1000或10000次，在整体奖励函数在训练的第n次和第n-1次值连续m次前后变化不超过设定的阈值表明模型趋于稳定。

应当理解的是，当前步骤(4)创建了强化学习循环，在每个训练集中，大型语言模型从训练数据集中获取几个提示并生成文本；然后，它的输出被传递给奖励模型，奖励模型提供一个分数来评估其与人类偏好的一致性；更新完大语言模型随后被更新，以创建在奖励模型中得分更高的输出。

本发明使用基于知识库反馈的强化学习(Reinforcement Learning withKnowledge Feedback，RLKF)方法代替了基于人类反馈的强化学习(ReinforcementLearning from Human Feedback，RLHF)方法，基于高质量开放域数据或领域专用数据库，通过知识抽取和知识融合方法构建领域专用的知识图谱；通过知识图谱预训练构建使用于大语言模型生成答案得分的奖励模型；根据训练大语言模型对不同的训练结果给出不同答案得分；使用PPO近端策略优化的强化学习方法优化结果使得奖励模型获得最大分数；通过RLKF方法得到垂直领域应用大语言模型，如面向任务的对话和问题解答；在垂直领域应用时，查询问题通过向量嵌入和提示工程的流程，结合知识库相似文档搜索匹配，得到基于知识库的答案，规避捏造事实的缺陷。

参见图5，本发明实施例提供的一种基于知识库反馈的生成式大语言模型的训练装置，包括一个或多个处理器和存储器，存储器与处理器耦接；其中，存储器用于存储程序数据，处理器用于执行程序数据以实现上述实施例中的基于知识库反馈的生成式大语言模型的训练方法。

本发明基于知识库反馈的生成式大语言模型的训练装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于知识库反馈的生成式大语言模型的训练装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于知识库反馈的生成式大语言模型的训练方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识库反馈的生成式大语言模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述大语言模型包括自回归Transformer架构的Lamma2模型、中英双语双向预训练模型ChatGLM2-6B模型、Chinchilla-70B模型和PaLM-540B模型。

3.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述步骤(2)中，所述从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集，具体包括：

4.根据权利要求3所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述问题对应的期望答案的确定方法具体包括：

5.根据权利要求4所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴具体包括：

6.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述步骤(3)包括以下子步骤：

7.根据权利要求5所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述步骤(3.5)中，所述根据相似度对答案得分进行排序具体包括：

8.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述步骤(4)具体包括：

9.一种基于知识库反馈的生成式大语言模型的训练装置，包括一个或多个处理器和存储器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现权利要求1-8中任一项所述的基于知识库反馈的生成式大语言模型的训练方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的基于知识库反馈的生成式大语言模型的训练方法。