CN117236410A

CN117236410A - 一种可信的电子文件大语言模型训练、推理方法和装置

Info

Publication number: CN117236410A
Application number: CN202311500582.5A
Authority: CN
Inventors: 钱明辉; 杨健良; 潘菲; 鞠翔; 李胡蓉; 匡扶; 许嘉元; 徐志轩; 樊安懿; 杨冠灿; 苟佳洁; 孙可
Original assignee: Beijing Weidian Renda Technology Co ltd; Beijing Microdot Science And Technology Co ltd; Renmin University of China
Current assignee: Beijing Weidian Renda Technology Co ltd; Beijing Microdot Science And Technology Co ltd; Renmin University of China
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2023-12-15
Anticipated expiration: 2043-11-13
Also published as: CN117236410B

Abstract

本发明提供一种可信的电子文件大语言模型训练、推理方法和装置，该训练方法包括：确定构建第一可信训练集的评价指标；构建第一可信训练集；通过生成式无监督训练模型来构建预训练语言模型；使用第一可信训练集对预训练语言模型进行无监督学习，再进行有监督微调训练，得到第二可信大语言模型；根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；使用第二可信训练集对第二可信大语言模型进行无监督学习，得到第三可信大语言模型；使用第二可信训练集对第三可信大语言模型进行有监督训练，得到可信奖励模型；基于可信奖励模型，得到电子文件大语言模型。本发明具有更高的推理效率以及更准确的结果。

Description

一种可信的电子文件大语言模型训练、推理方法和装置

技术领域

本发明涉及语言处理技术领域，具体地涉及一种可信的电子文件大语言模型训练、推理方法和装置。

背景技术

语言模型最早于2003年前后被提出，通过特定任务的训练学习自然语言中的统计规律与语义表示，预训练的语言模型可以被应用于其他自然语言处理任务(下游任务)，例如机器阅读理解、文本分类、关系提取等等。大型语言模型(LLM，Large Language Model，其本质是生成式模型)，如Chat GPT(Chat Generative Pre‐trained Transformer，是OpenAI机构研发的聊天机器人程序)，能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。然而，将LLM应用于现实世界中的任务解决型应用仍然具有挑战性，主要原因是它们可能会产生与实际不符的回复，模型的输出看起来是正确的，而本质上是错误的，如AI幻觉中生成有偏见或者有歧义的文章、再或者根本不遵循用户的指示等现象，这种错误的信息很容易导致大众对是非观念的看法，产生一系列的社会问题和影响，如在金融领域，人工智能模型可能会出现幻觉，导致错误的决策和投资损失；在医疗领域，人工智能模型可能会出现幻觉，导致错误的诊断和治疗方案。在回答时都需要真实可信的信息，而这些真实可信信息根本无法单纯依靠LLM参数中蕴含的知识来生成，均需要依赖于真实可信知识才能生成出准确的结果。

发明内容

本发明实施例的目的是提供一种可信的电子文件大语言模型训练、推理方法和装置，具有更高的推理效率以及更准确的结果。

为了实现上述目的，本发明实施例提供一种可信的电子文件大语言模型训练方法，所述方法包括：基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型。

优选地，所述基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标包括：根据所述多个电子文件的样本数据中可信样本数据和非可信样本数据的比例，计算总体信息熵；针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵；使用所述总体信息熵减去所述每个评价指标/>划分后的信息熵，得到每个评价指标/>的信息增益；使用每个评价指标/>的信息增益除以所有指标的信息增益之和，得到所述每个评价指标/>的信息增益占比；对所述每个评价指标/>的信息增益占比从大到小进行排序；按顺序累加所述每个评价指标/>的信息增益，直到累加的和大于预设值时，将参与累计的评价指标确定为构建第一可信训练集的评价指标。

优选地，针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵包括：通过以下公式计算每组样本数据的信息熵：

，

其中，为第/>组样本数据的信息熵，/>为在第/>组样本数据中可信样本数据的比例，/>为在第/>组样本数据中非可信样本数据的比例；对每组样本数据的信息熵进行加权求和，以得到划分后的信息熵。

优选地，所述基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型包括：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述电子文件大语言模型。

本发明实施例还提供一种可信的电子文件大语言模型推理方法，该方法使用上文训练的可信的电子文件大语言模型，所述方法包括：根据用户提供的输入任务，构建第一可信推理数据集；将所述第一可信提示数据集分解成多个子单元；将所述多个子单元进行编码，以将每个子单元转化成向量形式；将编码后的数据调整为所述电子文件大语言模型的输入格式，以输入所述电子文件大语言模型进行推理；使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

优选地，该方法还包括：对所述推理结果采用BLEU指标进行自动评测。

本发明实施例还提供一种可信的电子文件大语言模型训练装置，所述装置包括：评价指标确定单元、第一可信训练集构建单元、预训练语言模型构建单元、第一可信大语言模型构建单元、第二可信大语言模型构建单元、第二可信训练集构建单元、第三可信大语言模型构建单元、可信奖励模型构建单元以及强化学习单元，其中，所述评价指标确定单元用于基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；所述第一可信训练集构建单元用于基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；所述预训练语言模型构建单元用于基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；所述第一可信大语言模型构建单元用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；所述第二可信大语言模型构建单元用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；所述第二可信训练集构建单元用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；所述第三可信大语言模型构建单元用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；所述可信奖励模型构建单元用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；所述强化学习单元用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型。

优选地，所述评价指标确定单元用于：根据所述多个电子文件的样本数据中可信样本数据和非可信样本数据的比例，计算总体信息熵；针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵；使用所述总体信息熵减去所述每个评价指标/>划分后的信息熵，得到每个评价指标/>的信息增益；使用每个评价指标/>的信息增益除以所有指标的信息增益之和，得到所述每个评价指标/>的信息增益占比；对所述每个评价指标/>的信息增益占比从大到小进行排序；按顺序累加所述每个评价指标/>的信息增益，直到累加的和大于预设值时，将参与累计的评价指标确定为构建第一可信训练集的评价指标。

优选地，所述评价指标确定单元用于：通过以下公式计算每组样本数据的信息熵：

，

优选地，所述强化学习单元用于：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述电子文件大语言模型。

本发明实施例还提供一种可信的电子文件大语言模型推理装置，该装置使用上文训练的可信的电子文件大语言模型，所述装置包括：第一可信推理数据集构建单元、子单元分解单元、子单元编码单元、推理单元以及解码单元，其中，所述第一可信推理数据集构建单元用于根据用户提供的输入任务，构建第一可信推理数据集；所述子单元分解单元用于将所述第一可信提示数据集分解成多个子单元；所述子单元编码单元用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；所述推理单元用于将编码后的数据调整为所述电子文件大语言模型的输入格式，以输入所述电子文件大语言模型进行推理；所述解码单元用于使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

通过上述技术方案，采用本发明实施例提供的可信的电子文件大语言模型训练、推理方法和装置，建立的模型不仅具有可信度，还具有输出更符合用户需求的结果的能力，具有更高的推理效率以及更准确的结果。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的可信的电子文件大语言模型训练方法的流程图；

图2是本发明一实施例提供的确定构建第一可信训练集的评价指标的方法的流程图；

图3是本发明一实施例提供的可信的电子文件大语言模型推理方法的流程图；

图4是本发明一实施例提供的可信的电子文件大语言模型训练装置的结构示意图；

图5是本发明一实施例提供的可信的电子文件大语言模型推理装置的结构示意图；

图6是本发明一实施例提供的电子设备的示意性框图。

附图标记说明

1-评价指标确定单元、2-第一可信训练集构建单元、3-预训练语言模型构建单元、4-第一可信大语言模型构建单元、5-第二可信大语言模型构建单元、6-第二可信训练集构建单元、7-第三可信大语言模型构建单元、8-可信奖励模型构建单元、9-强化学习单元、10-第一可信推理数据集构建单元、11-子单元分解单元、12-子单元编码单元、13-推理单元、14-解码单元、15-自动评测单元、16-可信参考展示单元

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明一实施例提供的可信的电子文件大语言模型训练方法的流程图。如图1所示，所述方法包括：

步骤S101，基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；

具体地，可信样本数据可以是一个句子、一段文本、一篇文章、一段对话等等，本实施例对样本文本的篇幅长短不做限定，可以基于需求、历史记录以及试验等方式进行确定。同理，可信样本文本的数量也可以需求、历史记录以及试验等方式进行确定。例如，针对可信度要求较高的场景，样本文本的数量可以相对较少，而针对可信度要求较低的场景，样本文本的数量可以相对较少。另外，也还要对可信数据的可信程度进行划分，得到不同程度的可信数据集，将不同程度的可信数据作为大语言模型训练的基础，例如基于客观事实的证据可信其可信度较高，具有感情色彩等特征的认知可信其可信度较低。本发明提供一种确定构建第一可信训练集的评价指标的方式，但是可以理解的是，该方式仅为示例，也可以不限于此：

步骤S201，根据所述多个电子文件的样本数据中可信样本数据和非可信样本数据的比例，计算总体信息熵；

具体地，可以通过以下公式计算：

其中，S为总体信息熵，为可信数据的比例，/>为非可信数据的比例。

步骤S202，针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵；

具体地，假设对于全部数据的某个指标有q种不同得分/>。根据指标/>的q种得分，样本也划分成q组。例如，假设对于“真实性”指标，经过专家学者等人员对数据真实性程度的打分，得到0、0.4、0.7、1四种得分，将该指标下得分相同的数据划分为一组，从而将所有数据划分为四组，即组数q=4。通过以下公式计算每组样本数据的信息熵：

其中，为第/>组样本数据的信息熵，/>为在第/>组样本数据中可信样本数据的比例，/>为在第/>组样本数据中非可信样本数据的比例。/>越小，/>和/>的差异程度越大；/>越大，/>和/>的差异程度越小。当两个数相等时，信息熵/>达到最大。

然后对每组样本数据的信息熵进行加权求和，以得到划分后的信息熵：

其中，为按指标/>得分划分后的信息熵，/>为第/>组的样本数据，n为全部数据。/>越小，每组数据的信息熵/>越小，说明每个组内可信数据占比/>与非可信数据占比/>差别越大、可信与非可信数据越容易区分出来。

步骤S203，使用所述总体信息熵减去所述每个评价指标划分后的信息熵，得到每个评价指标/>的信息增益；

具体地，根据决策树方法，通过以下公式计算：

其中，为每个评价指标/>的信息增益，/>为按指标/>得分划分后的信息熵。信息增益/>越大、信息熵/>越小，说明在/>指标值相同的一组数据中，绝大多数为可信数据或者是非可信数据。

步骤S204，使用每个评价指标的信息增益除以所有指标的信息增益之和，得到所述每个评价指标/>的信息增益占比；

具体地，通过以下公式计算：

其中，为评价指标/>的信息增益占比，m为指标个数。评价指标/>的信息增益占比/>反映评价指标/>的可信鉴别能力在全部评价指标中所占的比例，/>越大，说明评价指标/>在全部特征中可信鉴别能力越大。

步骤S205，对所述每个评价指标的信息增益占比从大到小进行排序；

具体地，排序后的信息增益占比可以为。

步骤S206，按顺序累加所述每个评价指标的信息增益，直到累加的和大于所述预设值时，将参与累计的评价指标确定为构建第一可信训练集的评价指标。

具体地，可以通过以下公式计算：

其中，为前p个评价指标信息增益的累计占比，/>为排序后的信息增益占比。当达到预设K时，停止累加，保留对应的p个评价指标，删除其余指标，本发明优选阈值K取75%。

步骤S102，基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；

具体地，在上述步骤中得到保留的评价指标，即为所述构建第一可信训练集的评价指标。本发明利用这p个评价指标对数据进行可信筛选，还是以“真实性”指标为例，当数据具有这一评价指标特征时记1分，当有些数据不符合这一评价指标特征时记为0分，按照评价指标体系的筛选，只要数据达到这8个评价指标要求的数据，也就是达到8分的数据就作为可信数据，对可信数据进行保留，不符合的数据删掉，将保留的数据构建第一可信训练集。

步骤S103，基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；

具体地，可以通过生成式无监督训练（GPT）模型，将多个电子文件的样本数据作为数据源进行预训练，从而得到预训练语言模型。GPT预训练阶段是根据可信语言窗口预测当前内容，其利用常规语言建模的方法优化给定序列的最大似然估计：

其中，z表示可信数据窗口大小，是概率计算，θ表示神经网络的参数，使用随机梯度下降法来优化该似然函数的参数。对于某个可信数据窗口词序列，

其中，表示词序列中各个词汇的独热向量所组成的矩阵；v为单词向量空间的纬度，即为整个词库的大小；W^e表示词向量矩阵；/>表示位置向量；L表示Transformer 的总层数；P(X)为输出，表示每个词被预测到的概率，然后利用最大似然估计，构造损失函数，进而优化模型的参数。

步骤S104，使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

具体地，接下来需要定义语言建模、掩码语言建模、下一句预测、词汇替换等预训练任务来引导模型学习训练集的特征，通过反向传播算法更新模型的参数，并使用困惑度、召回率、准确率等指标对预训练语言模型的性能进行评估，基于第一可信训练集对构建的预训练语言模型进行无监督学习(unsupervised learning)，学习第一可信训练集的语言知识和文本结构，完成预训练的模型即第一可信大语言模型。

步骤S105，使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

具体地，本步骤旨在由上述执行主体将第一可信训练集作为微调训练集，对之前已经预训练好的第一大语言模型进行可信有监督微调训练（Trusted supervised fine-tuning，T-SFT），以进一步得到第二大语言模型。具体来说，假设标注的可信数据集为A，每个样本的输入为X=X1…Xn，对应的标签为y，首先将A中的每一个X输入到预训练语言模型中，获得上文所述对应的；然后将/>输入一个一层的全连接网络，从而预测最终的标签，表示这个一层的全连接网络的权重如下：

其中，y 表示的是标签，x 表示的是序列，hw 是全连接网络的输出，表示的是transformer block 的输出，W_y表示是全连接层的权重，两个矩阵相乘，经过softmax转为概率分布。

最终通过优化损失函数得到最终的权重矩阵，公式如下：

其中，y表示的是标签，x表示的是序列，是概率计算。

步骤S106，根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

具体地，在相同用户查询内容与不同候选输出之间的用户偏好排序和预设模板集合，构建第二可信训练集。对于每个用户的输入任务，构建该用户输入任务与每个候选输出结果的样本对，根据每个样本对中候选输出的用户偏好排序，来对样本对进行排序，再结合记录有输入任务的预设模版集(该预设模板集合中包含有多个预设模板)，共同构建第二可信训练集，通过这种方式构建得到的第二可信训练集，可以让大语言模型学习到哪些结果更符合用户的实际需求。

以上所描述的用于构建第二可信训练集的训练样本可由非人工对象基于数据样本集中隐含的对应关系（例如档案馆或档案机构中体现用户档案检索操作中的检索词和检索结果的检索日志、档案社区中用户发布的档案相关的问题或回答等）抽取得到，也可由档案专业人士基于自身主观理解进行手动标注、生成得到，两种方式均能实现样本对的高效构建。

当数据样本集为检索日志时，用户的偏好排序可表现为检索日志记录的对相同用户查询文本返回的备选输出列表中各备选输出在一段时间内的累计点击次数，即累计点击次数越多，就意味着该候选输出越符合用户的实际需求，该时间段的长度可以自行设置，例如一周、一整月。若该数据样本集来源于档案社区，该用户偏好排序也可表现为其他能表现出用户偏好的参数，例如点赞量、回答量、评论量等，此处不再一一列举。

步骤S107，使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

具体地，基于第二可信训练集对第二可信大语言模型进行训练，第二可信训练集相比第一可信训练集来说，可以理解为新增了部分训练语料，需要对第二可信大语言模型再次进行无监督学习，经过训练后的模型即为第三可信大语言模型。

步骤S108，使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

具体地，利用第二可信训练集对预训练后的第三可信大语言模型进行有监督训练，得到可信奖励模型。可信奖励模型（Trust Reward Model，TRM），是指通过学习第二可信训练集中每个训练样本下不同样本对之间的用户偏好排序，得以学习到如何对相同输入下不同备选输出赋予不同的奖励(一般以得分高低的方式进行返回)，使模型朝着获取更高奖励的方向进行学习，从而能够输出更符合用户实际需求的可信结果。

步骤S109，基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

具体地，首先确定所述可信奖励模型针对用户查询及各备选输出返回的得分。然后，基于可信奖励模型返回的得分，将第二可信大语言模型在基于人工反馈的强化学习的训练下，得到目标可信大语言模型。基于人工反馈强化学习方式(Reinforcement Learningfrom human preferences，RL HF)遵循以下步骤：基于第二可信大语言模型的参数初始化一个新的大语言模型S；基于新的可信prompt(提示词，一般为用户的自然语言输入)，让S针对每个可信prompt生成回复，再把回复输入给可信奖励模型(TRM)；TRM会为每个回复计算出得分作为标量奖励，其得分高低表示回复质量的高低；采用RLHF的方式，基于模型S获得的总奖励得分不断更新其策略(strategy)，直到收敛，训练至此时的S即为满足要求的目标可信大语言模型。该模型不仅具有可信度，还具有输出更符合用户需求结果的能力。

为便于理解本步骤所描述的方案，通过一个例子进行说明：

以“中国开设档案学专业的高校有哪些”这一用户查询问题（query）为例，其仅有档案学专业高校情况查询这一需求，而应对该需求的可信文本则具有不同的内容，如“中国高校档案学专业共有32所”、“开设档案学专业的高校分别是中国人民大学、南京大学、武汉大学等32所高校”、“开设档案学专业的本科高校是32所，硕士研究生是23所”等不同程度的可信内容，把这一段时间内不同可信结果点击次数聚合起来，假设得到表1的累计点击次数统计表。

表1

那么基于上表构建的样本对就是：

Rel（q,s1）>Rel（q,s2）;Rel（q,s1）>Rel（q,s3）;Rel（q,s2）>Rel（q,s3）,Rel是一个函数，用于表示两者之间的用户偏好。

通过选用检索日志中记载的数据自动生成第二可信训练集，是完全真实用户需求的体现，完全真实地反应了用户对不同可信结果的偏好分布情况，从而使得所构建出的第二可信训练集更符合用户的实际需求。

基于以上样本对，可以发现（q,s1）该样本对中可信度较高，用户给予了较高的点击量，那么在可信奖励模型中就可以赋予较高的分数或者权重，而（q,s3）样本对中，相较于其他样本对可信度较低，那么在可信奖励模型中就赋予较低的分数或者权重。同理，在其他问题上依此类推，在可信奖励模型中为不同的样本对赋予不同的分数或者权重，这样模型就向可信度高的方向改进，为用户提供更加可信的结果，其计算公式为,其中，/>为成型的可信奖励函数，/>为修正可信奖励函数，/>为原始的可信奖励函数。

图3是本发明一实施例提供的可信的电子文件大语言模型推理方法的流程图。如图3所示，该方法使用上文所述训练的可信的电子文件大语言模型，所述方法包括：

步骤S301，根据用户提供的输入任务，构建第一可信推理数据集；

具体地，用户提供输入任务给电子文件大语言模型，电子文件大语言模型可采用多种方式将输入任务进行上下文提示的优化，例如可对输入任务文本提取关键字与电子文件大语言模型训练过程中所使用的可信数据集进行匹配，也可将输入任务文本直接转换为特征向量与模型训练中的可信数据集进行匹配，可结合实际应用来选择更优的方式。本实施例以前者为例进行说明，将输入任务采用关键字提取算法（如TF_IDF、YAKE等）来进行提取，提取后的关键字用于在模型训练中的可信数据集所构建的档案资料库中进行检索，查询获取与上述关键字相关性最高的可信资料，将可信资料与预设的prompt模版进行匹配，匹配后的prompt模版将提交给电子文件大语言模型作为上下文，匹配后的prompt模版即构建第一可信推理数据集。

例如用户的输入任务为“北京的南锣鼓巷有哪些有趣的档案故事？”，通过YAKE(Yet Another Keyword Extractor，YAKE；该算法利用单个文档的统计特征来提取关键字)方法提取关键字为“北京”“南锣鼓巷”“有趣”“档案故事”，模型使用上述关键字在训练中的可信数据集所构建的档案资料库中进行检索，获取与上述三个关键字相关性最高的档案资料，这些档案资料来源于档案资料库，具有可信性。将上述档案资料与预设的prompt模版进行匹配，匹配后的prompt模版为“北京南锣鼓巷的有趣档案故事列表”提交给可信大语言模型作为上下文，“北京南锣鼓巷的有趣档案故事列表”等prompt模版则构建了第一可信提示数据集。

步骤S302，将所述第一可信提示数据集分解成多个子单元；

具体地，将第一可信提示数据集分解成一系列离散的单元或者子元素，即一系列token。

步骤S303，将所述多个子单元进行编码，以将每个子单元转化成向量形式；

具体地，将分解后的一系列token进行编码，每个token转换成向量表示，并使用词嵌入（word embedding）或者子词嵌入（sub-word embedding）技术将每个token映射到连续的向量空间。词嵌入实际上是一类技术，单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。在中文情形下，一个token通常就是一个汉字；而在英文情形下，一个token则通常指一个sub-word，而不是一个单词，其对应的子词粒度是介于单词粒度和字符粒度中间的一种形态，子词在能够保留语言意义的同时，还能有效减少词表的大小(即词表中词的数量)，也能有效解决词表外词的情况。例如“working”“worked”“works”这三个英文单词可以得到4个sub-word：“work”“ed”“ing”“s”，通过这种方式可以把词本身的意思和时态分开，得到粒度更小的子词。

步骤S304，将编码后的数据调整为所述电子文件大语言模型的输入格式，以输入所述电子文件大语言模型进行推理；

具体地，编码后的数据组织成用于电子文件大语言模型推理的输入格式，如果编码后的数据超过电子文件大语言模型允许的长度，需要将其拆解为更小的token单元，即再重复上述分词、编码的步骤。

步骤S305，使用对应所述编码的解码方法对推理结果进行解码，以得到推理结果。

具体地，电子文件大语言模型的输出结果是概率分布或者向量表示，需要结合输入任务进行输出解码，生成对应类型的推理结果。最后，对于生成的推理结果进行去除特殊符号、整理格式等操作。

优选地，该方法还包括对所述推理结果采用BLEU指标进行自动评测。在经过上述后处理后，得到推理结果，对推理结果采用BLEU（Bilingual Evaluation Understudy）指标进行自动评测，通过计算推理结果与参考答案之间的n-gram重叠度来衡量结果的质量，得到的BLEU分数越高表示推理结果与参考答案更相近，结果越可信。

图4是本发明一实施例提供的可信的电子文件大语言模型训练装置的结构示意图。如图4所示，所述装置包括：评价指标确定单元1、第一可信训练集构建单元2、预训练语言模型构建单元3、第一可信大语言模型构建单元4、第二可信大语言模型构建单元5、第二可信训练集构建单元6、第三可信大语言模型构建单元7、可信奖励模型构建单元8以及强化学习单元9，其中，所述评价指标确定单元1用于基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；所述第一可信训练集构建单元2用于基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；所述预训练语言模型构建单元3用于基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；所述第一可信大语言模型构建单元4用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；所述第二可信大语言模型构建单元5用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；所述第二可信训练集构建单元6用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；所述第三可信大语言模型构建单元7用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；所述可信奖励模型构建单元8用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；所述强化学习单元9用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型。

优选地，所述评价指标确定单元1用于：根据所述多个电子文件的样本数据中可信样本数据和非可信样本数据的比例，计算总体信息熵；针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵；使用所述总体信息熵减去所述每个评价指标/>划分后的信息熵，得到每个评价指标/>的信息增益；使用每个评价指标/>的信息增益除以所有指标的信息增益之和，得到所述每个评价指标/>的信息增益占比；对所述每个评价指标/>的信息增益占比从大到小进行排序；按顺序累加所述每个评价指标/>的信息增益，直到累加的和大于所述预设值时，将参与累计的评价指标确定为构建第一可信训练集的评价指标。

优选地，所述评价指标确定单元1用于：通过以下公式计算每组样本数据的信息熵：

，

优选地，所述强化学习单元9用于：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述电子文件大语言模型。

上文所述的可信的电子文件大语言模型训练装置的实施例与上文所述的可信的电子文件大语言模型训练方法的实施例类似，在此不再赘述。

图5是本发明一实施例提供的可信的电子文件大语言模型推理装置的结构示意图。如图5所示，该装置使用上文训练的可信的电子文件大语言模型，所述装置包括：第一可信推理数据集构建单元10、子单元分解单元11、子单元编码单元12、推理单元13以及解码单元14，其中，所述第一可信推理数据集构建单元10用于根据用户提供的输入任务，构建第一可信推理数据集；所述子单元分解单元11用于将所述第一可信提示数据集分解成多个子单元；所述子单元编码单元12用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；所述推理单元13用于将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；所述解码单元14用于使用对应所述编码的解码方法对推理结果进行解码，以得到推理结果。

优选地，该装置还包括自动评测单元15，用于对所述推理结果采用BLEU指标进行自动评测。

该装置还包括可信参考展示单元16，用于基于生成的推理结果进行去除特殊符号、整理格式等操作，以得到最终的推理结果。在输出最终推理结果同时，将参考链接或引用的来源一并展示，得到可信的推理结果。

上文所述的可信的电子文件大语言模型推理装置的实施例与上文所述的可信的电子文件大语言模型推理方法的实施例类似，在此不再赘述。

本发明实施例还提供了一种电子设备，包括至少一个高性能的GPU（图形处理器）和至少一个与GPU通信的存储器，其中存储器存储有计算机程序，用于被处理器执行上述任一项可信的电子文件大语言模型训练、推理方法。

图6是本发明一实施例提供的电子设备的示意性框图。电子设备旨在表示各种形式的计算机，如台式计算机、笔记本、服务器和其他适合的计算机。电子设备还可表示移动装置，如智能电话、iPad和其他类似的装置。部件、部件之间的关系、功能仅仅作为示例，不会限制本发明中描述的实现。图6包括计算单元、存储器、总线、输入/输出接口单元、输入单元、输出单元、通信单元、存储单元。计算单元是各种具有处理和计算能力的通用或专用处理组件，包括图像处理单元GPU、张量处理单元TPU、中央处理单元CPU等。计算单元执行上述各个方法，例如可信的电子文件大语言模型训练方法和推理方法。输入单元包括键盘、鼠标等，输出单元包括各类显示器、扬声器等，存储单元包括磁盘、光盘等，通信单元包括网卡、无线路由器等。计算单元、存储器通过总线彼此相连，输入/输出接口也连接至总线。

本发明实施例提供了一种存储介质，其存储有计算机程序，所述计算机程序被执行时实现上述任一项可信的电子文件大语言模型训练、推理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种可信的电子文件大语言模型训练方法，其特征在于，所述方法包括：

基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；

基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；

基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；

使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型。

2.根据权利要求1所述的可信的电子文件大语言模型训练方法，其特征在于，所述基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标包括：

根据所述多个电子文件的样本数据中可信样本数据和非可信样本数据的比例，计算总体信息熵；

针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵；

使用所述总体信息熵减去所述每个评价指标划分后的信息熵，得到每个评价指标的信息增益；

使用每个评价指标的信息增益除以所有指标的信息增益之和，得到所述每个评价指标/>的信息增益占比；

对所述每个评价指标的信息增益占比从大到小进行排序；

按顺序累加所述每个评价指标的信息增益，直到累加的和大于预设值时，将参与累计的评价指标确定为构建第一可信训练集的评价指标。

3.根据权利要求2所述的可信的电子文件大语言模型训练方法，其特征在于，针对所述多个电子文件的样本数据的每个评价指标，将同一评价指标得分相同的多个电子文件的样本数据划分为一组，计算划分后的信息熵包括：

通过以下公式计算每组样本数据的信息熵：

，

其中，为第/>组样本数据的信息熵，/>为在第/>组样本数据中可信样本数据的比例，为在第/>组样本数据中非可信样本数据的比例；

对每组样本数据的信息熵进行加权求和，以得到划分后的信息熵。

4.根据权利要求1所述的可信的电子文件大语言模型训练方法，其特征在于，所述基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型包括：

确定所述可信奖励模型针对用户查询及各备选输出返回的得分；

基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述电子文件大语言模型。

5.一种可信的电子文件大语言模型推理方法，其特征在于，该方法使用权利要求1-4训练的可信的电子文件大语言模型，所述方法包括：

根据用户提供的输入任务，构建第一可信推理数据集；

将所述第一可信提示数据集分解成多个子单元；

将所述多个子单元进行编码，以将每个子单元转化成向量形式；

将编码后的数据调整为所述电子文件大语言模型的输入格式，以输入所述电子文件大语言模型进行推理；

使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

6.根据权利要求5所述的可信的电子文件大语言模型推理方法，其特征在于，该方法还包括：

对所述推理结果采用BLEU指标进行自动评测。

7.一种可信的电子文件大语言模型训练装置，其特征在于，所述装置包括：

评价指标确定单元、第一可信训练集构建单元、预训练语言模型构建单元、第一可信大语言模型构建单元、第二可信大语言模型构建单元、第二可信训练集构建单元、第三可信大语言模型构建单元、可信奖励模型构建单元以及强化学习单元，其中，

所述评价指标确定单元用于基于预设值以及多个电子文件的样本数据，确定构建第一可信训练集的评价指标；

所述第一可信训练集构建单元用于基于所述构建第一可信训练集的评价指标对应的样本数据，构建第一可信训练集；

所述预训练语言模型构建单元用于基于所述多个电子文件的样本数据，通过生成式无监督训练模型来构建预训练语言模型；

所述第一可信大语言模型构建单元用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

所述第二可信大语言模型构建单元用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

所述第二可信训练集构建单元用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

所述第三可信大语言模型构建单元用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

所述可信奖励模型构建单元用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

所述强化学习单元用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到电子文件大语言模型。

8.根据权利要求7所述的可信的电子文件大语言模型训练装置，其特征在于，所述评价指标确定单元用于：

对所述每个评价指标的信息增益占比从大到小进行排序；

9.根据权利要求8所述的可信的电子文件大语言模型训练装置，其特征在于，所述评价指标确定单元用于：

通过以下公式计算每组样本数据的信息熵：

，

10.根据权利要求7所述的可信的电子文件大语言模型训练装置，其特征在于，所述强化学习单元用于：

11.一种可信的电子文件大语言模型推理装置，其特征在于，该装置使用权利要求7-10训练的可信的电子文件大语言模型，所述装置包括：

第一可信推理数据集构建单元、子单元分解单元、子单元编码单元、推理单元以及解码单元，其中，

所述第一可信推理数据集构建单元用于根据用户提供的输入任务，构建第一可信推理数据集；

所述子单元分解单元用于将所述第一可信提示数据集分解成多个子单元；

所述子单元编码单元用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；

所述推理单元用于将编码后的数据调整为所述电子文件大语言模型的输入格式，以输入所述电子文件大语言模型进行推理；

所述解码单元用于使用对应编码的解码方法对推理结果进行解码，以得到推理结果。