CN117494815A

CN117494815A - 面向档案的可信大语言模型训练、推理方法和装置

Info

Publication number: CN117494815A
Application number: CN202311500581.0A
Authority: CN
Inventors: 杨建梁; 钱明辉; 李胡蓉; 鞠翔; 潘菲; 匡扶; 王驰; 赵梦纯; 郭佳璐; 苟佳洁; 孙可
Original assignee: Beijing Weidian Renda Technology Co ltd; Beijing Microdot Science And Technology Co ltd; Renmin University of China
Current assignee: Beijing Weidian Renda Technology Co ltd; Beijing Microdot Science And Technology Co ltd; Renmin University of China
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-02

Abstract

本发明提供一种面向档案的可信大语言模型训练、推理方法和装置，该训练方法包括：将多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；基于多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；使用第一可信训练集对预训练语言模型进行无监督学习，并对结果进行有监督微调训练，得到第二可信大语言模型；根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；使用第二可信训练集对第二可信大语言模型进行无监督学习，并对结果进行有监督训练，得到可信奖励模型；基于可信奖励模型，得到可信大语言模型。本发明可以更准确、更专业的适配档案推理任务场景。

Description

面向档案的可信大语言模型训练、推理方法和装置

技术领域

本发明涉及语言处理技术领域，具体地涉及一种面向档案的可信大语言模型训练、推理方法和装置。

背景技术

大语言模型(Large Language Model，LLM)是一种基于深度学习的自然语言处理技术，它可以通过学习大量语言数据，生成类似人类的流畅响应。这种技术被广泛应用于机器翻译、文本生成、问答系统等领域，成为自然语言处理领域的重要研究方向之一。虽然大语言模型应用非常广泛，但在处理档案学等专业领域或任务时，它们的生成能力仍然受到限制。

发明内容

本发明实施例的目的是提供一种面向档案的可信大语言模型训练、推理方法和装置，可以更准确、更专业的适配档案推理任务场景。

为了实现上述目的，本发明实施例提供一种面向档案的可信大语言模型训练方法，所述方法包括：将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

优选地，所述将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集包括：针对每个文本形式的档案数据执行以下操作：将文本形式的档案数据切分成子单元；添加特殊子单元，包括开始子单元和结束子单元；构建词汇表，将每个子单元映射唯一整数ID；将所述文本形式的档案数据转换为对应的整数ID形式的数据；创建输入和输出，其中所述输入为不包括结束子单元的整数ID形式的数据，所述输出为不包括开始子单元的整数ID形式的数据；将所述输入和所述输出转化为张量形式；将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

优选地，所述基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型包括：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述可信大语言模型。

本发明实施例还提供一种面向档案的可信大语言模型推理方法，该方法使用上文所述训练的面向档案的可信大语言模型，所述方法包括：根据用户提供的输入任务，构建第一可信推理数据集；将所述第一可信提示数据集分解成多个子单元；将所述多个子单元进行编码，以将每个子单元转化成向量形式；将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

优选地，该方法还包括对所述推理结果采用BLEU指标进行自动评测。

本发明实施例还提供一种面向档案的可信大语言模型训练装置，所述装置包括：数据文本化单元、第一可信训练集构建单元、预训练语言模型构建单元、第一可信大语言模型构建单元、第二可信大语言模型构建单元、第二可信训练集构建单元、第三可信大语言模型构建单元、可信奖励模型构建单元以及强化学习单元，其中，所述数据文本化单元用于将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；所述第一可信训练集构建单元用于将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；所述预训练语言模型构建单元用于基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；所述第一可信大语言模型构建单元用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；所述第二可信大语言模型构建单元用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；所述第二可信训练集构建单元用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；所述第三可信大语言模型构建单元用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；所述可信奖励模型构建单元用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；所述强化学习单元用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

优选地，所述第一可信训练集构建单元用于：针对每个文本形式的档案数据执行以下操作：将文本形式的档案数据切分成子单元；添加特殊子单元，包括开始子单元和结束子单元；构建词汇表，将每个子单元映射唯一整数ID；将所述文本形式的档案数据转换为对应的整数ID形式的数据；创建输入和输出，其中所述输入为不包括结束子单元的整数ID形式的数据，所述输出为不包括开始子单元的整数ID形式的数据；将所述输入和所述输出转化为张量形式；将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

优选地，所述强化学习单元用于：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述可信大语言模型。

本发明实施例还提供一种面向档案的可信大语言模型推理装置，该装置使用上文所述的面向档案的可信大语言模型，所述装置包括：第一可信推理数据集构建单元、子单元分解单元、子单元编码单元、推理单元以及解码单元，其中，所述第一可信推理数据集构建单元用于根据用户提供的输入任务，构建第一可信推理数据集；所述子单元分解单元用于将所述第一可信提示数据集分解成多个子单元；所述子单元编码单元用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；所述推理单元用于将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；所述解码单元用于使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

优选地，该装置还包括自动评测单元，用于对所述推理结果采用BLEU指标进行自动评测。

通过上述技术方案，采用本发明实施例提供的一种面向档案的可信大语言模型训练、推理方法和装置，将大大提升档案馆或档案部门的工作效率，助力档案事业的数据化、智能化，可以面向档案资源的特性形成一站式的档案资源训练和推理服务，更准确、更专业的适配档案推理任务场景。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的面向档案的可信大语言模型训练方法的流程图；

图2是本发明一实施例提供的转化张量形式数据的流程图；

图3是本发明一实施例提供的面向档案的可信大语言模型推理方法的流程图；

图4是本发明一实施例提供的面向档案的可信大语言模型训练装置的结构示意图；

图5是本发明一实施例提供的面向档案的可信大语言模型推理装置的结构示意图；

图6是本发明一实施例提供的电子设备的示意性框图。

附图标记说明

1-数据文本化单元、2-第一可信训练集构建单元、3-预训练语言模型构建单元、4-第一可信大语言模型构建单元、5-第二可信大语言模型构建单元、6-第二可信训练集构建单元、7-第三可信大语言模型构建单元、8-可信奖励模型构建单元、9-强化学习单元、10-第一可信推理数据集构建单元、11-子单元分解单元、12-子单元编码单元、13-推理单元、14-解码单元、15-自动评测单元、16-可信参考展示单元

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明一实施例提供的面向档案的可信大语言模型训练方法的流程图。如图1所示，所述方法包括：

步骤S101，将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；

具体地，数字档案资源多由档案馆等部门进行管理，经过预处理(鉴选、清点、登记、整理、清洁、修复等)、数字化加工/转换(将记录在传统载体的档案信息通过模数转换技术和设备转换为以数字形式表示的信息资源)、信息处理(核对、压缩、去边、去污、去噪等)、信息组织(创建目录和索引)、信息存储、信息服务、信息维护等流程，其数字化过程遵循严格的管理机制，数据本身具有可信度。数字化存储的档案资源具有多种形式，包括图像、音频、视频、文本、扫描件，不同形式的数据需要进行相应的预处理操作后才能参与大语言模型的训练。

本实施例中使用的样本数据包括图像、音频、视频、文本、扫描件，不同类型样本数据的数量和篇幅不做限定，可根据实际需求、试验规模等方式进行确定，例如，针对图像需求较高的场景，图像样本的数量可以相对较多。样本数据中非文本类型的数据分别采用不同的方法转换为文本类型的数据，再进行后续的处理。其中图像数据集先定义图像预处理函数进行尺寸调整、数据增强、图像解码等处理，并使用卷积神经网络(如ResNet、VGG等)完成特征提取；视频数据包括一系列连续的图像帧，因此需要定义图像预处理函数进行图像帧识别、图像尺寸调整、图像解码等处理，并使用卷积神经网络(如ResNet、VGG等)完成特征提取；音频数据以数字信号形式存在，首先需要定义音频预处理函数进行音频格式转换、音频长度标准化、去除噪声等处理，随后采用音频特征表示方法(如梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCCs)和梅尔频谱图(Mel spectrogram)等)处理音频数据，再运用池化策略或卷积神经网络(如CNN等)等方法进行特征提取；扫描件数据包括图像格式和PDF格式，图像格式的预处理方式与前述一致，PDF格式需要运用已有的PDF库(如Python的PyPDF2库、Pdfplumber等)读取PDF文件，将每页PDF文件转化为图像格式，再进行图像解码、调整亮度、OCR识别、校对和验证、特征提取等操作。

步骤S102，将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；

具体地，不同类型的数据经过上述严格的预处理操作后均转换为文本数据，接下来需要进一步对所有的文本数据进行Tokenization、构建词汇表、添加特殊token、转换整数ID、创建输入和输出、数据向量化。包括以下步骤，如图2所示：针对每个文本形式的档案数据执行以下操作：

步骤S201，将文本形式的档案数据切分成子单元；

具体地，Tokenization是指文本数据切分成一系列较小的子单元，这些子单元通常称为"token"，token可以是单词、子词(subword)、字符或者其他更小的文本单元，它是模型理解和处理文本的基本单位。Tokenization后的数据被切分为多个Token，每个Token建立其对应的索引。

步骤S202，添加特殊子单元，包括开始子单元和结束子单元；

具体地，在用于训练的数据中还需要添加一些特殊的token，如"start-of-sentence"和"end-of-sentence"，用于标记句子的开始和结束。

步骤S203，构建词汇表，将每个子单元映射唯一整数ID；

具体地，每个Token建立其对应的索引。根据Tokenization结果构建一个词汇表，词汇表大小通常是一个超参数，需要根据训练数据的规模和任务复杂度来确定超参数的大小，随后将每个token映射到一个唯一的整数ID。

步骤S204，将所述文本形式的档案数据转换为对应的整数ID形式的数据；

具体地，将每个token的整数ID按照每个token的排列顺序排列，既可以得到整数ID形式的数据。

步骤S205，创建输入和输出，其中所述输入为不包括结束子单元的整数ID形式的数据，所述输出为不包括开始子单元的整数ID形式的数据；

具体地，为了进行监督式训练，需要根据文本数据创建输入和输出对，例如将文本序列错位一位得到输入序列，用于预测下一个token的输出。

步骤S206，将所述输入和所述输出转化为张量形式；

具体地，接下来将所有用整数ID表示的Token转换成词嵌入向量，形成可以输入模型的张量(张量(Tensor)是一种多维数组，它可以是0维的标量(scalar)、1维的向量(vector)、2维的矩阵(matrix)，或者更高维的数组)。

步骤S207，将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

具体地，为了便于理解，本发明实施例提供一种示例。可以理解的是，该示例仅是为了便于理解而设置的，但是不对本发明进行限定。

假设有以下两个句子作为训练数据：

A：国家档案局资料很丰富。

B：档案专业录取分数高吗。

第一步，需要将本文数据进行Tokenization：

A:["国家","档案局","资料","很","丰富","。"]

B:["档案","专业","录取","分数","高","吗","。"]

第二步，添加特殊token"start"和"end"：

A:["start","国家","档案局","资料","很","丰富","。","end"]

B:["start","档案","专业","录取","分数","高","吗","。","end"]

第三步，构建词汇表，将每个token映射到唯一的整数ID：

{"国家":0,"档案局":1,"资料":2,"很":3,"丰富":4,"。":5,"档案":6,"专业":7,"录取":8,"分数":9,"高":10,"吗":11,"start":12,"end":13}

第四步，将每个token转换为对应的整数ID形式的数据：

A:[12,0,1,2,3,4,5,13]

B:[12,6,7,8,9,10,11,5,13]

第五步，创建输入和输出：

A输入:[12,0,1,2,3,4,5]，输出:[0,1,2,3,4,5,13]

B输入:[12,6,7,8,9,10,11,5]，输出:[6,7,8,9,10,11,5,13]

第六步，数据向量化：

假设词嵌入维度为4，词汇表如下(仅做示例展示，实际的词嵌入可能是更复杂的向量)

词汇表大小:14，词嵌入维度:4

[0.1,0.2,0.3,0.4],#对应整数ID 0

[0.5,0.6,0.7,0.8],#对应整数ID 1

[0.9,0.1,0.2,0.3],#对应整数ID 2

[0.2,0.3,0.4,0.5],#对应整数ID 3

[0.6,0.7,0.8,0.9],#对应整数ID 4

[0.5,0.4,0.3,0.2],#对应整数ID 5

[0.8,0.9,0.1,0.2],#对应整数ID 6

[0.3,0.4,0.5,0.6],#对应整数ID 7

[0.7,0.8,0.9,0.1],#对应整数ID 8

[0.4,0.5,0.6,0.7],#对应整数ID 9

[0.1,0.2,0.3,0.4],#对应整数ID 10

[0.5,0.6,0.7,0.8],#对应整数ID 11

[0.9,0.1,0.2,0.3],#对应整数ID 12

[0.2,0.3,0.4,0.5],#对应整数ID 13

A输入的张量表示：

[[0.9,0.1,0.2,0.3],#对应整数ID 12

[0.1,0.2,0.3,0.4],#对应整数ID 0

[0.5,0.6,0.7,0.8],#对应整数ID 1

[0.9,0.1,0.2,0.3],#对应整数ID 2

[0.2,0.3,0.4,0.5],#对应整数ID 3

[0.6,0.7,0.8,0.9],#对应整数ID 4

[0.5,0.4,0.3,0.2]#对应整数ID 5]

A输出的张量表示：

[[0.1,0.2,0.3,0.4],#对应整数ID 0

[0.5,0.6,0.7,0.8],#对应整数ID 1

[0.9,0.1,0.2,0.3],#对应整数ID 2

[0.2,0.3,0.4,0.5],#对应整数ID 3

[0.6,0.7,0.8,0.9],#对应整数ID 4

[0.5,0.4,0.3,0.2],#对应整数ID 5

[0.8,0.9,0.1,0.2]#对应整数ID 13]

B输入的张量表示：

[[0.9,0.1,0.2,0.3],#对应整数ID 12

[0.8,0.9,0.1,0.2],#对应整数ID 6

[0.3,0.4,0.5,0.6],#对应整数ID 7

[0.7,0.8,0.9,0.1],#对应整数ID 8

[0.4,0.5,0.6,0.7],#对应整数ID 9

[0.1,0.2,0.3,0.4],#对应整数ID 10

[0.5,0.6,0.7,0.8]#对应整数ID 11]

B输出的张量表示：

[[0.8,0.9,0.1,0.2],#对应整数ID 6

[0.3,0.4,0.5,0.6],#对应整数ID 7

[0.7,0.8,0.9,0.1],#对应整数ID 8

[0.4,0.5,0.6,0.7],#对应整数ID 9

[0.1,0.2,0.3,0.4],#对应整数ID 10

[0.5,0.6,0.7,0.8],#对应整数ID 11

[0.9,0.1,0.2,0.3],#对应整数ID 5

[0.2,0.3,0.4,0.5]#对应整数ID 13]

这样，通过将整数ID映射为对应的词嵌入向量，得到了嵌入向量的张量表示。这里每一行代表一个token的embedding向量，而A和B中的每个整数ID对应了词汇表中的一个token。经过上述严格的预处理操作后，所得到的张量形式数据可用于后续构建的大语言模型进行预训练，即此步骤构建了第一可信训练集。

步骤S103，基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；

具体地，通过大语言建模任务，基于所述多个文本形式的档案数据，采用Transformer架构来构建预训练语言模型，Transformer采用了一种名为“自注意力机制”(self-attention mechanism)的方法，通过对输入序列中每个元素进行加权聚合，来计算出输出序列的表示。当然也可以根据实际需求，选择其他常用的有效模型架构，如RNN、CNN等。

步骤S104，使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

具体地，接下来需要定义语言建模、掩码语言建模、下一句预测、词汇替换等预训练任务来引导模型学习训练集的特征，通过反向传播算法更新模型的参数，并使用困惑度、召回率、准确率等指标对预训练语言模型的性能进行评估，基于第一可信训练集对构建的预训练语言模型进行无监督学习(unsupervised learning)，学习第一可信训练集的语言知识和文本结构，完成预训练的模型即第一可信大语言模型。

步骤S105，使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

具体地，由于第一可信训练集具有可信度，使得通过第一可信训练集作为微调训练集对预训练好的第一可信大语言模型进行有监督微调训练(Supervised Fine-Tuning，SFT)，可得到第二可信大语言模型。SFT技术是一种用于自然语言处理(NLP)的有监督学习方法，经过第一可信训练样本训练得到的通用大语言模型。借助SFT技术避免了从头开始训练模型所需的庞大耗时，它仅仅使用一个较小规模(此处的较小规模是相对于构建第一可信训练集中的大规模而言)的第一可信训练集，对已经使用大规模未标注的第一可信训练集进行预训练后的第一可信大语言模型进行微调训练，便可得到第二可信大语言模型。

步骤S106，根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

具体地，在相同用户查询内容与不同候选输出之间的用户偏好排序和预设模板集合，构建第二可信训练集。对于每个用户的输入任务，构建该用户输入任务与每个候选输出结果的样本对，根据每个样本对中候选输出的用户偏好排序，来对样本对进行排序，再结合记录有输入任务的预设模版集(该预设模板集合中包含有多个预设模板)，共同构建第二可信训练集，通过这种方式构建得到的第二可信训练集，可以让大语言模型学习到哪些结果更符合用户的实际需求。

以上所描述的用于构建第二可信训练集的训练样本可由非人工对象基于数据样本集中隐含的对应关系(例如档案馆或档案机构中体现用户档案检索操作中的检索词和检索结果的检索日志、档案社区中用户发布的档案相关的问题或回答等)抽取得到，也可由档案专业人士基于自身主观理解进行手动标注、生成得到，两种方式均能实现样本对的高效构建。

当数据样本集为检索日志时，用户的偏好排序可表现为检索日志记录的对相同用户查询文本返回的备选输出列表中各备选输出在一段时间内的累计点击次数，即累计点击次数越多，就意味着该候选输出越符合用户的实际需求，该时间段的长度可以自行设置，例如一周、一整月。若该数据样本集来源于档案社区，该用户偏好排序也可表现为其他能表现出用户偏好的参数，例如点赞量、回答量、评论量等，此处不再一一列举。

步骤S107，使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

具体地，基于第二可信训练集对第二可信大语言模型进行训练，第二可信训练集相比第一可信训练集来说，可以理解为新增了部分训练语料，需要对第二可信大语言模型再次进行无监督学习，经过训练后的模型即为第三可信大语言模型。

步骤S108，使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

具体地，利用第二可信训练集对预训练后的第三可信大语言模型进行有监督训练，得到可信奖励模型。可信奖励模型(Trust Reward Model，TRM)，是指通过学习第二可信训练集中每个训练样本下不同样本对之间的用户偏好排序，得以学习到如何对相同输入下不同备选输出赋予不同的奖励(一般以得分高低的方式进行返回)，使模型朝着获取更高奖励的方向进行学习，从而能够输出更符合用户实际需求的可信结果。

步骤S109，基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

具体地，首先确定所述可信奖励模型针对用户查询及各备选输出返回的得分。然后，基于可信奖励模型返回的得分，将第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。基于人工反馈强化学习方式(Reinforcement Learningfrom humanpreferences，RL HF)遵循以下步骤：基于第二可信大语言模型的参数初始化一个新的大语言模型S；基于新的可信prompt(提示词，一般为用户的自然语言输入)，让S针对每个可信prompt生成回复，再把回复输入给可信奖励模型(TRM)；TRM会为每个回复计算出得分作为标量奖励，其得分高低表示回复质量的高低；采用RLHF的方式，基于模型S获得的总奖励得分不断更新其策略(strategy)，直到收敛，训练至此时的S即为满足要求的可信大语言模型。该模型不仅具有可信度，还具有输出更符合用户需求结果的能力。

为便于理解本步骤所描述的方案，通过一个例子进行说明：

以“中国开设档案学专业的高校有哪些”这一用户查询问题(query)为例，其仅有档案学专业高校情况查询这一需求，而应对该需求的可信文本则具有不同的内容，如“中国高校档案学专业共有32所”、“开设档案学专业的高校分别是中国人民大学、南京大学、武汉大学等32所高校”、“开设档案学专业的本科高校是32所，硕士研究生是23所”等不同程度的可信内容，把这一段时间内不同可信结果点击次数聚合起来，假设得到表1的累计点击次数统计表

表1

那么基于上表构建的样本对就是：

Rel(q,s1)>Rel(q,s2)；Rel(q,s1)>Rel(q,s3)；Rel(q,s2)>Rel(q,s3),Rel是一个函数，用于表示两者之间的用户偏好。

通过选用检索日志中记载的数据自动生成第二可信训练集，是完全真实用户需求的体现，完全真实地反应了用户对不同可信结果的偏好分布情况，从而使得所构建出的第二可信训练集更符合用户的实际需求。

基于以上样本对，可以发现(q,s1)该样本对中可信度较高，用户给予了较高的点击量，那么在可信奖励模型中就可以赋予较高的分数或者权重，而(q,s3)样本对中，相较于其他样本对可信度较低，那么在可信奖励模型中就赋予较低的分数或者权重。同理，在其他问题上依此类推，在可信奖励模型中为不同的样本对赋予不同的分数或者权重，这样模型就向可信度高的方向改进，为用户提供更加可信的结果，其计算公式为Rel(s,a,s’)＝γΦ(s’)-Φ(s),其中，Rel(s,a,s’)为成型的可信奖励函数，Φ(s’)为修正可信奖励函数，Φ(s)为原始的可信奖励函数。

图3是本发明一实施例提供的面向档案的可信大语言模型推理方法的流程图。如图3所示，该方法使用上文所述训练的面向档案的可信大语言模型，所述方法包括：

步骤S301，根据用户提供的输入任务，构建第一可信推理数据集；

具体地，用户提供输入任务给可信大语言模型，可信大语言模型可采用多种方式将输入任务进行上下文提示的优化，例如可对输入任务文本提取关键字与可信大语言模型训练过程中所使用的可信数据集进行匹配，也可将输入任务文本直接转换为特征向量与模型训练中的可信数据集进行匹配，可结合实际应用来选择更优的方式。本实施例以前者为例进行说明，将输入任务采用关键字提取算法(如TF_IDF、YAKE等)来进行提取，提取后的关键字用于在模型训练中的可信数据集所构建的档案资料库中进行检索，查询获取与上述关键字相关性最高的可信资料，将可信资料与预设的prompt模版进行匹配，匹配后的prompt模版将提交给可信大语言模型作为上下文，匹配后的prompt模版即构建第一可信推理数据集。

例如用户的输入任务为“北京的南锣鼓巷有哪些有趣的档案故事？”，通过YAKE(Yet Another Keyword Extractor，YAKE；该算法利用单个文档的统计特征来提取关键字)方法提取关键字为“北京”“南锣鼓巷”“有趣”“档案故事”，模型使用上述关键字在训练中的可信数据集所构建的档案资料库中进行检索，获取与上述三个关键字相关性最高的档案资料，这些档案资料来源于档案资料库，具有可信性。将上述档案资料与预设的prompt模版进行匹配，匹配后的prompt模版为“北京南锣鼓巷的有趣档案故事列表”提交给可信大语言模型作为上下文，“北京南锣鼓巷的有趣档案故事列表”等prompt模版则构建了第一可信提示数据集。

步骤S302，将所述第一可信提示数据集分解成多个子单元；

具体地，将第一可信提示数据集分解成一系列离散的单元或者子元素，即一系列token。

步骤S303，将所述多个子单元进行编码，以将每个子单元转化成向量形式；

具体地，将分解后的一系列token进行编码，每个token转换成向量表示，并使用词嵌入(word embedding)或者子词嵌入(sub-word embedding)技术将每个token映射到连续的向量空间。词嵌入实际上是一类技术，单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。在中文情形下，一个token通常就是一个汉字；而在英文情形下，一个token则通常指一个sub-word，而不是一个单词，其对应的子词粒度是介于单词粒度和字符粒度中间的一种形态，子词在能够保留语言意义的同时，还能有效减少词表的大小(即词表中词的数量)，也能有效解决词表外词的情况。例如“working”“worked”“works”这三个英文单词可以得到4个sub-word：“work”“ed”“ing”“s”，通过这种方式可以把词本身的意思和时态分开，得到粒度更小的子词。

步骤S304，将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；

具体地，编码后的数据组织成用于可信大语言模型推理的输入格式，如果编码后的数据超过可信大语言模型允许的长度，需要将其拆解为更小的token单元，即再重复上述分词、编码的步骤。

步骤S305，使用对应所述编码的解码方法对推理结果进行解码，以得到推理结果。

具体地，可信大语言模型的输出结果是概率分布或者向量表示，需要结合输入任务进行输出解码，生成对应类型的推理结果。最后，对于生成的推理结果进行去除特殊符号、整理格式等操作。

优选地，该方法还包括对所述推理结果采用BLEU指标进行自动评测。在经过上述后处理后，得到推理结果，对推理结果采用BLEU(Bilingual Evaluation Understudy)指标进行自动评测，通过计算推理结果与参考答案之间的n-gram重叠度来衡量结果的质量，得到的BLEU分数越高表示推理结果与参考答案更相近，结果越可信。

图4是本发明一实施例提供的面向档案的可信大语言模型训练装置的结构示意图。如图4所示，所述装置包括：数据文本化单元1、第一可信训练集构建单元2、预训练语言模型构建单元3、第一可信大语言模型构建单元4、第二可信大语言模型构建单元5、第二可信训练集构建单元6、第三可信大语言模型构建单元7、可信奖励模型构建单元8以及强化学习单元9，其中，所述数据文本化单元1用于将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；所述第一可信训练集构建单元2用于将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；所述预训练语言模型构建单元3用于基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；所述第一可信大语言模型构建单元4用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；所述第二可信大语言模型构建单元5用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；所述第二可信训练集构建单元6用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；所述第三可信大语言模型构建单元7用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；所述可信奖励模型构建单元8用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；所述强化学习单元9用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

优选地，所述第一可信训练集构建单元2用于：针对每个文本形式的档案数据执行以下操作：将文本形式的档案数据切分成子单元；添加特殊子单元，包括开始子单元和结束子单元；构建词汇表，将每个子单元映射唯一整数ID；将所述文本形式的档案数据转换为对应的整数ID形式的数据；创建输入和输出，其中所述输入为不包括结束子单元的整数ID形式的数据，所述输出为不包括开始子单元的整数ID形式的数据；将所述输入和所述输出转化为张量形式；将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

优选地，所述强化学习单元9用于：确定所述可信奖励模型针对用户查询及各备选输出返回的得分；基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述可信大语言模型。

上文所述的面向档案的可信大语言模型训练装置的实施例与上文所述的面向档案的可信大语言模型训练方法的实施例类似，在此不再赘述。

图5是本发明一实施例提供的面向档案的可信大语言模型推理装置的结构示意图。如图5所示，该装置使用上文所述的面向档案的可信大语言模型，所述装置包括：第一可信推理数据集构建单元10、子单元分解单元11、子单元编码单元12、推理单元13以及解码单元14，其中，所述第一可信推理数据集构建单元10用于根据用户提供的输入任务，构建第一可信推理数据集；所述子单元分解单元11用于将所述第一可信提示数据集分解成多个子单元；所述子单元编码单元12用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；所述推理单元13用于将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；所述解码单元14用于使用对应所述编码的解码方法对推理结果进行解码，以得到推理结果。

优选地，该装置还包括自动评测单元15，用于对所述推理结果采用BLEU指标进行自动评测。

该装置还包括可信参考展示单元16，用于基于生成的推理结果进行去除特殊符号、整理格式等操作，以得到最终的推理结果。在输出最终推理结果同时，将参考链接或引用的来源一并展示，得到可信的推理结果。

上文所述的面向档案的可信大语言模型推理装置的实施例与上文所述的面向档案的可信大语言模型推理方法的实施例类似，在此不再赘述。

本发明实施例还提供了一种电子设备，包括至少一个高性能的GPU(图形处理器)和至少一个与GPU通信的存储器，其中存储器存储有计算机程序，用于被处理器执行上述任一项面向档案的可信大语言模型训练、推理方法。

图6是本发明一实施例提供的电子设备的示意性框图。电子设备旨在表示各种形式的计算机，如台式计算机、笔记本、服务器和其他适合的计算机。电子设备还可表示移动装置，如智能电话、iPad和其他类似的装置。部件、部件之间的关系、功能仅仅作为示例，不会限制本发明中描述的实现。图6包括计算单元、存储器、总线、输入/输出接口单元、输入单元、输出单元、通信单元、存储单元。计算单元是各种具有处理和计算能力的通用或专用处理组件，包括图像处理单元GPU、张量处理单元TPU、中央处理单元CPU等。计算单元执行上述各个方法，例如面向档案的可信大语言模型训练方法和推理方法。输入单元包括键盘、鼠标等，输出单元包括各类显示器、扬声器等，存储单元包括磁盘、光盘等，通信单元包括网卡、无线路由器等。计算单元、存储器通过总线彼此相连，输入/输出接口也连接至总线。

本发明实施例提供了一种存储介质，其存储有计算机程序，所述计算机程序被执行时实现上述任一项面向档案的可信大语言模型训练、推理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种面向档案的可信大语言模型训练方法，其特征在于，所述方法包括：

将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；

将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；

基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；

使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

2.根据权利要求1所述的面向档案的可信大语言模型训练方法，其特征在于，所述将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集包括：

针对每个文本形式的档案数据执行以下操作：

将文本形式的档案数据切分成子单元；

添加特殊子单元，包括开始子单元和结束子单元；

构建词汇表，将每个子单元映射唯一整数ID；

将所述文本形式的档案数据转换为对应的整数ID形式的数据；

创建输入和输出，其中所述输入为不包括结束子单元的整数ID形式的数据，所述输出为不包括开始子单元的整数ID形式的数据；

将所述输入和所述输出转化为张量形式；

将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

3.根据权利要求1所述的面向档案的可信大语言模型训练方法，其特征在于，所述基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型包括：

确定所述可信奖励模型针对用户查询及各备选输出返回的得分；

基于所述可信奖励模型返回的得分，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到所述可信大语言模型。

4.一种面向档案的可信大语言模型推理方法，其特征在于，该方法使用权利要求1-3训练的面向档案的可信大语言模型，所述方法包括：

根据用户提供的输入任务，构建第一可信推理数据集；

将所述第一可信提示数据集分解成多个子单元；

将所述多个子单元进行编码，以将每个子单元转化成向量形式；

将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；

使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

5.根据权利要求4所述的面向档案的可信大语言模型推理方法，其特征在于，该方法还包括：

对所述推理结果采用BLEU指标进行自动评测。

6.一种面向档案的可信大语言模型训练装置，其特征在于，所述装置包括：

数据文本化单元、第一可信训练集构建单元、预训练语言模型构建单元、第一可信大语言模型构建单元、第二可信大语言模型构建单元、第二可信训练集构建单元、第三可信大语言模型构建单元、可信奖励模型构建单元以及强化学习单元，其中，

所述数据文本化单元用于将不同类型的档案数据进行预处理，得到多个文本形式的档案数据；

所述第一可信训练集构建单元用于将所述多个文本形式的档案数据转化为张量形式数据，以得到第一可信训练集；

所述预训练语言模型构建单元用于基于所述多个文本形式的档案数据，采用有效模型架构来构建预训练语言模型；

所述第一可信大语言模型构建单元用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习，得到第一可信大语言模型；

所述第二可信大语言模型构建单元用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练，得到第二可信大语言模型；

所述第二可信训练集构建单元用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合，得到第二可信训练集；

所述第三可信大语言模型构建单元用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习，得到第三可信大语言模型；

所述可信奖励模型构建单元用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练，得到可信奖励模型；

所述强化学习单元用于基于所述可信奖励模型，将所述第二可信大语言模型在基于人工反馈的强化学习的训练下，得到可信大语言模型。

7.根据权利要求6所述的面向档案的可信大语言模型训练装置，其特征在于，所述第一可信训练集构建单元用于：

针对每个文本形式的档案数据执行以下操作：

将文本形式的档案数据切分成子单元；

添加特殊子单元，包括开始子单元和结束子单元；

构建词汇表，将每个子单元映射唯一整数ID；

将所述输入和所述输出转化为张量形式；

8.根据权利要求6所述的面向档案的可信大语言模型训练装置，其特征在于，所述强化学习单元用于：

9.一种面向档案的可信大语言模型推理装置，其特征在于，该装置使用权利要求6-8训练的面向档案的可信大语言模型，所述装置包括：

第一可信推理数据集构建单元、子单元分解单元、子单元编码单元、推理单元以及解码单元，其中，

所述第一可信推理数据集构建单元用于根据用户提供的输入任务，构建第一可信推理数据集；

所述子单元分解单元用于将所述第一可信提示数据集分解成多个子单元；

所述子单元编码单元用于将所述多个子单元进行编码，以将每个子单元转化成向量形式；

所述推理单元用于将编码后的数据调整为所述可信大语言模型的输入格式，以输入所述可信大语言模型进行推理；

所述解码单元用于使用对应编码的解码方法对推理结果进行解码，以得到推理结果。

10.根据权利要求9所述的面向档案的可信大语言模型推理装置，其特征在于，该装置还包括：

自动评测单元，用于对所述推理结果采用BLEU指标进行自动评测。