CN117076640A

CN117076640A - 一种中文推理任务模型构建方法、装置、设备及介质

Info

Publication number: CN117076640A
Application number: CN202311068414.3A
Authority: CN
Inventors: 贾岚絮; 李黎明; 吴立; 司徒浩; 陈松林
Original assignee: Chengdu Rural Commercial Bank Co ltd
Current assignee: Chengdu Rural Commercial Bank Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-17

Abstract

本申请公开了一种中文推理任务模型构建方法、装置、设备及介质，涉及自然语言处理领域，包括：利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；利用中文推理训练数据集对初始中文理解任务模型进行二次训练，获取二次训练后中文推理任务模型；对二次训练后中文推理任务模型进行人类反馈强化学习，获取强化后中文推理任务模型的强化输出结果与二次训练后中文推理任务模型的输出结果之间的相对熵，利用相对熵进行模型更新获取当前更新后的中文推理任务模型。有效优化参数效率，降低资源需求，提高中文推理任务模型的性能。

Description

一种中文推理任务模型构建方法、装置、设备及介质

技术领域

本发明涉及自然语言处理领域，特别涉及一种中文推理任务模型构建方法、装置、设备及介质。

背景技术

GPT-3.5(Generative Pre-trained Transformer，预训练生成式转换器)发布引发了广泛的兴奋，这是LLMs(Large Language Models，大型语言模型)领域的一项重大进展。LLMs已被证明在各种自然语言处理任务中非常有效，如文本生成和推理任务。所有这些任务都遵循简单的指令。最近进行了几项研究，旨在将LLMs转化为能够准确遵循指令的模型。选择适当的指令对于NLP(Neuro-Linguistic Programming，神经语言程序学)任务至关重要，因为它们直接影响模型的性能。指令需要根据具体任务进行定制。另一方面，观察到增加模型的参数数量并不总是能够持续改善其性能。实际上，较小的模型在某些特定的NLP任务中表现令人满意，这强调了理解模型结构并使用适当的训练方法的重要性。

目前存在的大型语言模型主要针对英语数据集，这意味着它们在理解和推理中文方面可能不够有效。这个问题是由于训练数据的不平衡和模型结构的有限适应性造成的。最近开发了一个名为LLaMA(Large Language Model Meta AI，人工智能大型语言模型)的模型。该模型经过了使用数十亿个样本进行的广泛训练，并以其出色的竞争性能而闻名。与传统的语言模型相比，LLaMA模型具有许多优势。它在需要得出结论的任务中表现更好，因为它使用了更全面的词汇范围进行训练。根据LLaMA-13B模型的评估，它在大多数基准测试中表现出色，超过了当前的GPT-3.5模型。然而，大型模型仍然存在一些对内存和存储资源的高需求的问题。

综上，如何构建用来有效提升对中文任务的理解推理能力的中文推理任务模型，同时减少该中文推理任务模型在训练时对内存、存储资源的高需求是本领域有待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种中文推理任务模型构建方法、装置、设备及介质，能够构建用来有效提升对中文任务的理解推理能力的中文推理任务模型，同时减少该中文推理任务模型在训练时对内存、存储资源的高需求。其具体方案如下：

第一方面，本申请公开了一种中文推理任务模型构建方法，包括：

利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；

利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型；

对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。

可选的，所述利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型，包括：

获取中文对话数据集，对所述中文对话数据集进行编码解码，以获取中文对话句子向量；

利用低阶自适应模型的低秩矩阵对大型语言模型的模型权重参数冻结，以获取低秩微调的大型语言模型；

利用所述中文对话句子向量训练低阶自适应模型和低秩微调的大型语言模型，以获取初次训练后的低阶自适应模型和大型语言模型；

合并所述初次训练后的低阶自适应模型和大型语言模型的输出结果向量，以获取表征对中文对话意图理解程度的理解技能矩阵；

根据所述初次训练后的低阶自适应模型和大型语言模型构建包含所述理解技能矩阵的初始中文理解任务模型。

可选的，所述利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型，包括：

获取中文推理训练数据集，对所述中文推理训练数据集进行编码解码，以获取中文推理句子向量；

利用中文推理句子向量对所述初始中文理解任务模型的思维推理进行训练，以获取包含推理能力技能矩阵的推理中文理解任务模型；所述推理能力技能矩阵表征对中文句子上下文对话的推理程度；

连接推理中文理解任务模型中的所述推理能力技能矩阵与所述初始中文理解任务模型中的所述理解技能矩阵，生成包含理解推理特征技能矩阵的二次训练后中文推理任务模型。

可选的，所述利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型之后，还包括：

将中文测试问题输入所述二次训练后中文推理任务模型，以便所述二次训练后中文推理任务模型根据所述中文测试问题的问题类型确定思维链实例中相应的目标实例；

利用所述目标实例生成对应的推理思路，以便基于所述推理思路生成与所述中文测试问题对应的中文测试答案。

可选的，所述对所述二次训练后中文推理任务模型进行人类反馈强化学习，包括：

对输出所述中文测试答案的所述二次训练后中文推理任务模型进行人类反馈强化学习，对所述中文测试答案构建的答案矩阵进行评分，并从所有评分中选择评分最高的中文测试答案作为最终输出结果进行输出。

可选的，所述将中文测试问题输入所述二次训练后中文推理任务模型，以便所述二次训练后中文推理任务模型根据所述中文测试问题的问题类型确定思维链实例中相应的目标实例之前，还包括：

利用预设聚类算法并按照问题类型划分中文问题训练样本为不同数量的中文问题训练簇；

按照各个中文问题训练簇的中文问题训练样本中与簇中心的距离大小对中文问题训练样本进行升序排序，以创建中文问题矩阵表；

基于所述中文问题训练样本中的答案训练样本与问题训练样本创建并归一化处理生成包含问题矩阵和答案矩阵的样本矩阵表。

可选的，所述利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型，包括：

对所述相对熵设置为负值，并将所述相对熵加入奖励模型的奖励信号，以更新所述奖励模型，并执行利用更新后的奖励模型对所述二次训练后中文推理任务模型进行人类反馈强化学习的循环操作，直至循环次数达到预设次数阈值，输出更新后的中文推理任务模型。

第二方面，本申请公开了一种中文推理任务模型构建装置，包括：

模型构建训练模块，用于利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；

模型训练模块，用于利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型；

模型更新模块，用于对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的中文推理任务模型构建方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的中文推理任务模型构建方法的步骤。

由此可见，本申请公开了一种中文推理任务模型构建方法，包括：利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型；对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。由此可见，通过低阶自适应模型与大型语言模型共同构建的中文推理任务模型在保证了大型语言模型的保持卓越任务性能的同时结合的低阶自适应模型对大型语言模型的低秩微调，有效优化参数效率，降低资源需求，并且通过将人类反馈融入到训练过程中，解决了传统强化学习的固有限制。人类反馈的引入显著增强了训练过程，进而提高了中文推理任务模型的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种中文推理任务模型构建方法流程图；

图2为本申请公开的一种中文推理任务模型训练方法流程图；

图3为本申请公开的一种具体的中文推理任务模型构建方法流程图；

图4为本申请公开的一种构建思维链样例的伪代码图；

图5为本申请公开的一种最终输出结果过程伪代码图；

图6为本申请公开的一种中文推理任务模型构建装置结构示意图；

图7为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

GPT-3.5发布引发了广泛的兴奋，这是LLMs领域的一项重大进展。LLMs已被证明在各种自然语言处理任务中非常有效，如文本生成和推理任务。所有这些任务都遵循简单的指令。最近进行了几项研究，旨在将LLMs转化为能够准确遵循指令的模型。选择适当的指令对于NLP任务至关重要，因为它们直接影响模型的性能。指令需要根据具体任务进行定制。另一方面，观察到增加模型的参数数量并不总是能够持续改善其性能。实际上，较小的模型在某些特定的NLP任务中表现令人满意，这强调了理解模型结构并使用适当的训练方法的重要性。

目前存在的大型语言模型主要针对英语数据集，这意味着它们在理解和推理中文方面可能不够有效。这个问题是由于训练数据的不平衡和模型结构的有限适应性造成的。最近开发了一个名为LLaMA的模型。该模型经过了使用数十亿个样本进行的广泛训练，并以其出色的竞争性能而闻名。与传统的语言模型相比，LLaMA模型具有许多优势。它在需要得出结论的任务中表现更好，因为它使用了更全面的词汇范围进行训练。根据LLaMA-13B模型的评估，它在大多数基准测试中表现出色，超过了当前的GPT-3.5模型。然而，大型模型仍然存在一些对内存和存储资源的高需求的问题。

为此，本申请提供了一种中文推理任务模型构建方案，能够构建用来有效提升对中文任务的理解推理能力的中文推理任务模型，同时减少该中文推理任务模型在训练时对内存、存储资源的高需求。

参照图1所示，本发明实施例公开了一种中文推理任务模型构建方法，包括：

步骤S11：利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型。

本实施例中，获取中文对话数据集，对所述中文对话数据集进行编码解码，以获取中文对话句子向量；利用低阶自适应模型的低秩矩阵对大型语言模型的模型权重参数冻结，以获取低秩微调的大型语言模型；利用所述中文对话句子向量训练低阶自适应模型和低秩微调的大型语言模型，以获取初次训练后的低阶自适应模型和大型语言模型；合并所述初次训练后的低阶自适应模型和大型语言模型的输出结果向量，以获取表征对中文对话意图理解程度的理解技能矩阵；根据所述初次训练后的低阶自适应模型和大型语言模型构建包含所述理解技能矩阵的初始中文理解任务模型。可以理解的是，获取中文对话数据集作为输入数据，输入数据经历了初始编码和解码过程，将信息转化为向量形式后输入低阶自适应模型LoRA(Low-Rank Adaptation of Large Language Models)和大型语言模型LLaMA进行训练。在LLaMA的训练过程中，LLaMA的相关参数保持不变，同时采用了LoRA低秩微调。这使得LLaMA模型能够与LoRA同时进行训练，在新模型中保存所获得的技能。具体的，第一阶段训练旨在增强中文理解任务模型在中文理解方面的熟练程度。通过使用多个中文对话数据集进行训练，其中，所述中文对话数据集具体包括：中文对话数据、中文翻译的Alapca-data和其他相关数据集。在初始训练过程中，应用句子编码和解码技术生成一个句子矩阵表，用于表示中文对话数据和Alapca-data在经过编解码处理后形成的中文对话句子向量矩阵，具体表示为：其中，/>表示第k个中文对话数据或中文翻译的Alapca-data的中文对话句子向量。大型语言模型LLaMA和LoRA模型一起作为一个组合模型进行训练。在整个训练阶段中，大型语言模型的参数保持固定，而低秩矩阵分解应用于LoRA模型的输入。因此，通过将大型语言模型和LoRA模型的输出合并，得到最终的理解技能矩阵，表示为：/>其中，/>表示LoRA模型和LLaMA模型的输出结果合并成的第k个理解技能矩阵元素。这些理解技能矩阵然后存储在初始中文理解任务模型，完成LoRA模型的初始微调步骤。在训练过程中，LoRA模型的微调数学表示为：W＝W_plm+λW_LoRA＝W_plm+λE_LoRAzeros×F_LoRAgaussian；其中，W表示模型的模型权重，λ表示LoRA模型的超参数的权重，plm表示预训练模型LLaMA的权重，E_LoRAzeros表示LoRA模型零矩阵，F_LoRAgaussian表示LoRA模型高斯矩阵，通过调整λ，进而使调整LoRA模型的超参数的需求降低，通过将经过LoRA微调的LLaMA模型纳入初始中文理解任务模型中，显著提升了LLM的效率和性能。主要是在减少可训练参数数量和确保任务性能的最佳之间取得平衡。通过减少参数数量，旨在提高LLM的计算效率和内存需求，使其在实际应用中更加实用。

步骤S12：利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型。

本实施例中，获取中文推理训练数据集，对所述中文推理训练数据集进行编码解码，以获取中文推理句子向量；利用中文推理句子向量对所述初始中文理解任务模型的思维推理进行训练，以获取包含推理能力技能矩阵的推理中文理解任务模型；所述推理能力技能矩阵表征对中文句子上下文对话的推理程度；连接推理中文理解任务模型中的所述推理能力技能矩阵与所述初始中文理解任务模型中的所述理解技能矩阵，生成包含理解推理特征技能矩阵的二次训练后中文推理任务模型。可以理解的是，利用CoT(Chain ofThoughts，思维链)训练数据作为中文推理训练数据集来发展初始中文理解任务模型的推理能力，也即二次训练过程。第二个训练阶段涉及将CoT训练数据纳入到第一步中训练的初始中文理解任务模型中，以增强其推理能力。这个阶段的训练过程与第一步类似，CoT训练数据经过句子编码和解码层生成句子矩阵也即中文推理句子向量构建的句子矩阵。初始中文理解任务模型使用LLaMA模型和LoRA模型进行训练，得到最终的推理能力技能矩阵/>其中，/>表示利用CoT训练数据训练后的LoRA模型和LLaMA模型的输出结果合并成的第k个推理能力技能矩阵元素。然后，将推理能技能矩阵存储在当前训练的推理中文理解任务模型中，完成LoRA微调处理的第二步。最后，将推理能力技能矩阵与理解技能矩阵连接起来形成Q_skill理解推理特征技能矩阵。连接过程表示为：Q_skill＝[J_chinese；J_CoT]。需要注意的是，将LLM与思维链CoT方法结合以增强中文理解任务模型推理能力的潜力，从而降低了训练成本并减少对数据集的依赖。这样一来，利用全面的中文CoT数据语料库，增强了中文推理任务模型的理解和推理能力。在这个特定数据集上的训练使得中文推理任务模型能够更深入地理解中文语言任务，从而提高性能，有效应对中文文本理解和推理所面临的挑战。

步骤S13：对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。

本实施例中，对所述相对熵设置为负值，并将所述相对熵加入奖励模型的奖励信号，以更新所述奖励模型，并执行利用更新后的奖励模型对所述二次训练后中文推理任务模型进行人类反馈强化学习的循环操作，直至循环次数达到预设次数阈值，输出更新后的中文推理任务模型。可以理解的是，利用奖励模型优化二次训练后中文推理任务模型。具体的，将二次训练后中文推理任务模型的输出结果与利用奖励模型强化学习训练过的输出结果之间的相对熵，也即Kullback-Leibler散度纳入到奖励信号中。通过将相对熵赋予负值，防止中文理解任务模型过度偏离其原始输出。因此，用于RLHF(Reinforcement Learningfrom Human Feedback，人类反馈强化学习)模型，也即奖励模型渐进更新的最终奖励计算公式为r＝r_θ-λr_KL；其中，r_θ表示标准奖励，λ表示奖励模型随机生成的权重，r_KL表示散度的缩放。r_θ、r_KL能够强化学习策略在每个批次中生成大幅偏离未训练模型的结果，将人类反馈强化学习RLHF技术这一最新技术引入中文推理任务模型中，进一步改善中文推理任务模型对中文语言的理解和推理能力，提高中文推理任务模型理解人类偏好。通过上述的初始训练、二次训练以及人类反馈强化对中文推理任务模型不断训练、更新，最终获取更新后的中文推理任务模型LLaMA-LoRA-RLHF。引入了LoRA模型，显著支持减少所需资源。LoRA模型有效地减少了参数存储和虚拟随机访问内存VRAM(Virtual Random Access Memory，虚拟随机存取存储器)的消耗。值得注意的是，当维度远小于模型时，LoRA模型消除了存储优化器状态参数的需求，从而显著减少了VRAM的使用量。

参照图2所示，本发明实施例还公开了一种中文推理任务模型构建训练方法，具体流程包括：首先将中文对话数据集中的中文问答数据以键值对Q-A的方式依次进行句子编码、然后编码后的中文句子形成中文对话句子向量矩阵，最后对中文对话句子向量矩阵进行解码，生成用于训练低阶自适应模型LoRA模型和大型语言模型LLaMA模型的理解能力的数据集。将中文对话句子向量矩阵分别输入LoRA模型和LLaMA模型，此时LLaMA模型的权重参数为冻结状态，也即不参与训练，但是LoRA模型此时训练过程为：通过往LoRA模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅微调的成本显著下降，还能获得和全模型微调类似的效果，通过LoRA模型的模型微调训练，也即对LLaMA模型的原始PLM旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的内在维度。训练的时候固定plm的参数，只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变，输出时将BA与plm的参数叠加。用随机高斯分布初始A，用零矩阵初始化B，保证训练的开始此旁路矩阵依然是零矩阵；其中，A为服从正态分布矩阵，B为零矩阵，然后获取初始中文理解任务模型，下一步对初始中文理解任务模型进行二次训练，本次训练初始中文理解任务模型采用的训练数据集为中文推理数据集，将中文推理数据以键值对Q-A的方式依次进行句子编码、然后编码后的中文推理句子形成中文推理句子向量矩阵，最后对中文推理句子向量矩阵进行解码，生成用于训练初始中文理解任务模型的推理能力的数据集。经过中文推理数据集训练后获取二次训练后中文推理任务模型，需要注意的是，二次训练后中文推理任务模型为携带推理能力的初始中文理解任务模型。然后利用奖励模型对二次训练后中文推理任务模型进行强化学习，获取更新后的中文推理任务模型。

参照图3所示，本发明实施例公开了一种具体的中文理解任务模型构建方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型。

步骤S22：利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型。

其中，步骤S21、S22中更加详细的处理过程，请参照前述公开的实施例内容，在此不再进行赘述。

步骤S23：将中文测试问题输入所述二次训练后中文推理任务模型，以便所述二次训练后中文推理任务模型根据所述中文测试问题的问题类型确定思维链实例中相应的目标实例；利用所述目标实例生成对应的推理思路，以便基于所述推理思路生成与所述中文测试问题对应的中文测试答案。

本实施例中，在问题评估阶段，将中文测试问题输入二次训练后中文推理任务模型，并根据问题类型确定思维链实例中相应的相关问题。这些思维链实例为生成测试问题答案提供了有价值的指导，促进了更高质量的推理过程的形成，以便在答案生成过程中，人类反馈专家评估生成答案的质量。

本实施例中，所述将中文测试问题输入所述二次训练后中文推理任务模型，以便所述二次训练后中文推理任务模型根据所述中文测试问题的问题类型确定思维链实例中相应的目标实例之前，还包括：生成思维链的思维实例，具体的，在思维链的实例生成阶段，采用多样性聚类分析来实现使用K均值聚类进行迭代问题分割。这确保了不同的中文问题训练样本被分配到不同的群体中，每个群体包含多个中文问题训练样本。通过引入了多样性聚类分析方法。对提高LLM在逻辑推理任务中的性能和准确性具有重要意义，同时为生成更连贯和精确的思维链提供有效的指导和训练实例。然后，这些中文问题训练样本被处理以生成固定大小的向量表示。随后，从不同的群体中提取多样性中文问题实例。此外，实例形成过程还融入了人类反馈强化学习的指导。通过对思维链形成的逻辑过程进行专家反馈，以使内容与人类期望保持一致。

其中，在思维链的实例生成阶段，采用多样性聚类分析来实现使用K均值聚类进行迭代问题分割，具体包括：利用预设聚类算法并按照问题类型划分中文问题训练样本为不同数量的中文问题训练簇；按照各个中文问题训练簇的中文问题训练样本中与簇中心的距离大小对中文问题训练样本进行升序排序，以创建中文问题矩阵表；基于所述中文问题训练样本中的答案训练样本与问题训练样本创建并归一化处理生成包含问题矩阵和答案矩阵的样本矩阵表。可以理解的是，应用K-means(K均值聚类算法)聚类算法将中文问题训练样本分为n个群体，将不同类型的中文问题训练样本有效地分组到不同的簇中。每个簇包含多个实例问题。在每个簇内，可以根据问题与簇中心的距离将问题按升序排列。例如：给定一个群体问题t，可以创建一个中文问题矩阵表，表示为：其中，/>表示中文问题矩阵元素。中文问题矩阵表应按升序排列，t的值应在1到n之间。然后模型将输入问题与相应的相关答案步骤结合起来，创建最终的问题答案样本矩阵表S＝[s¹，s²，...，sⁿ]。对每个样本sⁱ进行了归一化处理分析，其中，i∈[1，2，3，...，n]，以确保生成的样本矩阵具有统一的维度。问题答案样本矩阵包括一个中文测试问题矩阵和一个中文测试答案矩阵。中文答案矩阵由推理矩阵和最终中文答案矩阵连接而成。图4为伪代码1描述的构建思维链生成样本思维链的全面过程。

步骤S24：对输出所述中文测试答案的所述二次训练后中文推理任务模型进行人类反馈强化学习，对所述中文测试答案构建的答案矩阵进行评分，并从所有评分中选择评分最高的中文测试答案作为最终输出结果进行输出。

本实施例中，接收中文测试问题作为输入，并进行编码和解码操作，生成中文测试问题矩阵Q_test，在结果构建阶段，将生成的问题答案样本矩阵表S＝[s¹，s²，...，sⁿ]纳入考虑。最终中文测试答案矩阵Q_result基于问题答案样本矩阵表中的结果s^k∈S逐步构建。在生成中文测试答案矩阵时，奖励模型为相应的答案矩阵分配得分，并选择思维链中评分最高的输出结果作为最终输出结果进行输出。这种选择提高了中文测试答案Q_result的质量。生成Q_result由推理过程矩阵r^result和最终结果矩阵a^result合并而成。有关最终输出结果过程参考图4伪代码2所示。然后通过为526RCCA Reviews的评估方法，用于衡量多轮中文对话系统的性能。通过下述公式所呈现的优化目标旨在通过考虑系数来确保任何一组典型变量h_i和q_j的独立性，具体公式如下所示：

其中，表示投影矩阵中特征向量的转置，X表示多轮对话样本中第一句话，Z表示多轮对话样本中最后一句话，q_j表示辅助Z的投影向量，C_XX表示X与X的相关协方差，/>表示投影向量的转置，C_zz表示Z与Z的相关协方差，h_i表示投影矩阵中特征向量。

在观测的中文测试问题样本数量较少时，通过在协方差矩阵中包含约束项r^X和r^Z＞0，可以保证上述优化目标的收敛性。公式如下：

其中，E表示单位矩阵，表示通过约束因子与单位矩阵以及C_XX确定的X与X的相关协方差，r^X表示的/>约束因子，/>表示通过约束因子与单位矩阵以及确定的Z与Z的相关协方差，r^Z表示/>约束因子。能够优化目标函数收敛的速度更快。

投影矩阵H和Q可通过广义特征值分解获得，公式如下：

潜在向量空间W中的句子的特征表示分别表示为W^X＝H^TX和W^Z＝Q^TZ。使用以下公式计算和分析这两个向量之间的距离，公式如下：

其中，表示X经过投影映射在W里面的相关性，/>表示Z经过投影映射在W里面的相关性。

当中文推理任务模型构建完成后，对该模型进行性能评估，其中，性能评估主要采用的评价指标可以包括但不限于：准确率、CPT4、困惑度和人工评估，具体的，所述准确率Acc(Accuracy)：衡量模型在给定输入上进行的正确预测的比例。所述GPT-4：将为GPT-4提供不同的指令，以评估其在各种测试任务上的性能。需要注意的是，目前还没有研究证明GPT-4的优越性。因此，一般只要求根据其流畅性对GPT-4进行评分。所述人工评估(Human)：是一种用于全面评估模型在处理开放性问题和答案时的语言流畅性、答案相关性等指标的建立的评估方法，通过手动评分机制进行评估，满分为100分。所述困惑度PPL(Perplexity)：评估模型的语言建模能力。量化了预测结果与实际结果之间的差异，较低的值表示更好的性能，表达式为：

PPL＝p(w₁，w₂，w₃......w_n)^(-1/m)；

其中，w_n表示第n个预测结果与实际结果之间的差异。

在模型的全面评估之后，通过实验分析与其他八个中文模型进行比较，具体的，在七个领域的基准任务上呈现了结果，涵盖了广泛的任务领域。这些领域包括基本的自然语言理解和生成，以及自然语言推理能力的应用，如知识问答、多轮对话理解和中文逻辑推理。实验中使用了多个任务，使用具有32GB内存的显卡在A100 GPU上进行训练和测试。这种实验设置确保了处理大规模数据和复杂模型的效率和可靠性。通过这种全面的实验设计，可以全面评估和比较不同模型在各种任务领域中的性能。此外，使用高性能硬件确保了实验的准确性和可重复性。其中，表1的结果展示了本发明与其他方法在WebQA上的评估结果。

表1

Model	Acc	GPT-4	Human
				GPT-3.5	0.69	8	78
ChatGLM	0.6	7	74
				Moss	0.43	6	64
MPT-7B-Chat	0.23	4	43
				BiLLa	0.37	8	63
Phoenix	0.62	5	63
				ours	0.54	6	72

表2的结果展示了本技术与其他方法在三个逐步指令下的评估模型得分。

表2

Model	First instruction	Second instruction	Third instruction
				ChatGLM	76	78	78
BiLLa	62	67	65
				Phoenix	75	78	80
ours	80	84	82

表3的结果展示了在C3任务中的评估结果。

表3

Model	Acc	Human
			GPT-3.5	0.52	80
ChatGLM	0.39	65
			BiLLa	0.42	76
Chinese-Alpaca-LoRA	0.36	38
			Phoenix	0.64	80
ERNIEBot	0.31	62
			ours	0.69	82

表4的结果展示了在Ape210l和Math23k任务上的评估模型表现。

表4

Model	Math23k	Ape210k
			GPT-3.5	0.56	0.37
Moss	0.31	0.11
			BiLLa	0.42	0.25
MPT-7B-Chat	0.11	0.07
			ours	0.62	0.39

表5的结果展示了在成语理解任务中的模型表现。

表5

表6则展现了在阅读理解任务中的模型表现。

表6

Model	Acc	Human
			BiLLa	0.32	60
Moss	0.52	56
			Phoenix	0.63	68
ours	0.69	74

可以理解的是，上述的模型选择是基于与本发明的中文推理任务模型的模型参数相似度高低来进行选择的，针对主要任务的评估结果展示如下。在娱乐主题类别中，GPT-3.5模型给出“A明星与B明星在英国XXX教堂举办婚礼”Phoenix模型给出“A明星与B明星英国婚礼：青春回忆里的爱情故事”，中文理解任务模型给出“A明星与B明星结婚啦”BiLLa模型给出“A明星与B明星在英国XXX教堂举行婚礼，在两位牧师的winess下完成终身大事”。在主题类别中，GPT-3.5模型给出“标题：X省Y市市民逛年货展，免费享受琼剧盛宴”，Phoenix模型给出“Y市琼剧文化之旅：免费送戏，感受浓厚琼剧氛围”，中文理解任务模型给出“琼剧之乡—Y市。感受一下传统的X省琼剧”，BiLLa模型给出“X省琼剧之乡\、\Y市\”。在民生主题类别中，GPT-3.5模型给出“食药监总局发布：食用后可能导致严重健康损害甚至死亡的属以及召回，生产者应在知悉食品安全风险后24小时内启动召回，且10个工作日内完成召回”，Phoenix模型给出“XX部门发布《食品召回管理办法》食品一级召回限24小时内启动10工作日完成”，中文理解任务模型给出“XX部门发布《食品召回管理办法》”，BiLLa模型给出“XX部门发布，食用后可能导敌严重健康损唐甚至死亡的食品属于一级召回，食品生产者应在知晓食品安全风险后24小时内启动召回”。在社会新闻主题类别中，GPT-3.5模型给出“小轿车事故9死24伤，S市交警局通报司机超速行驶操作不当导致。目前24名伤员已有8名治愈出院，预计赔偿费或超一千万元”，Phoenix模型给出“一辆小轿车，一名女司机，9死24伤：S市交警局通报事故原因”，中文理解任务模型给出“S市交警局遇报：轿车司机超速行驶，造成9死24伤，赔偿一千万元”，BiLLa模型给出“女司机超速驾驶导致9死24伤案S机场9死24伤续：司机全责赔偿或超千万”。通过上述的在四个不同主题类别的对中文推理任务模型以及其他中文模型的响应测试以及结合在WebQA数据集中的答案长度评估测试等的实验比较，中文推理任务模型在中文对话理解、数理推理和成语理解等基准任务中超过了现有模型如GPT-3.5、ChatGLM和ERNIEBot，展示了其出色的中文理解和数理推理能力。此外，该模型在面对不同指令时表现出很高的稳定性。在知识问答和开放式问题方面其性能与参数类似的模型(如Chinese-Alpaca-LoRA)相比具有优势。

由此可见，本申请将自动认知链指令融入到改进的二次训练后中文推理任务模型中。通过对这些指令的动态抽样，鼓励模型生成推理链，从而提高答案推断和推理性能。有效地减少了答案生成中的错误，显著提升了模型的整体性能。通过广泛的比较实验，展示了所提出的中文理解任务模型在各种中文语言任务中的卓越性能。它超越了包括GPT-3.5和ChatGLM在内的先进模型，提供了更准确、全面和专业的答案。

参照图6所示，本发明实施例还相应公开了一种中文推理任务模型构建装置，包括：

模型构建训练模块11，用于利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；

模型训练模块12，用于利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型；

模型更新模块13，用于对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。

由此可见，本申请公开了利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型；利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型；对所述二次训练后中文推理任务模型进行人类反馈强化学习，并获取强化后中文推理任务模型的强化输出结果与所述二次训练后中文推理任务模型的输出结果之间的相对熵，利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型。由此可见，通过低阶自适应模型与大型语言模型共同构建的中文推理任务模型在保证了大型语言模型的保持卓越任务性能的同时结合的低阶自适应模型对大型语言模型的低秩微调，有效优化参数效率，降低资源需求，并且通过将人类反馈融入到训练过程中，解决了传统强化学习的固有限制。人类反馈的引入显著增强了训练过程，进而提高了中文理解任务模型的性能。

进一步的，本申请实施例还公开了一种电子设备，图7是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的中文理解任务模型构建方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的中文理解任务模型构建方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的中文理解任务模型构建方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种中文推理任务模型构建方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种中文推理任务模型构建方法，其特征在于，包括：

2.根据权利要求1所述的中文推理任务模型构建方法，其特征在于，所述利用中文对话数据集分别对低阶自适应模型以及对大型语言模型进行模型训练，以获取通过初次训练后的低阶自适应模型和大型语言模型构建的初始中文理解任务模型，包括：

3.根据权利要求2所述的中文推理任务模型构建方法，其特征在于，所述利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型，包括：

4.根据权利要求1所述的中文推理任务模型构建方法，其特征在于，所述利用中文推理训练数据集对所述初始中文理解任务模型进行二次训练，以获取二次训练后中文推理任务模型之后，还包括：

5.根据权利要求4所述的中文推理任务模型构建方法，其特征在于，所述对所述二次训练后中文推理任务模型进行人类反馈强化学习，包括：

6.根据权利要求4所述的中文推理任务模型构建方法，其特征在于，所述将中文测试问题输入所述二次训练后中文推理任务模型，以便所述二次训练后中文推理任务模型根据所述中文测试问题的问题类型确定思维链实例中相应的目标实例之前，还包括：

7.根据权利要求1至6任一项所述的中文推理任务模型构建方法，其特征在于，所述利用所述相对熵进行模型更新以获取当前更新后的中文推理任务模型，包括：

8.一种中文推理任务模型构建装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的中文推理任务模型构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的中文推理任务模型构建方法的步骤。