CN117390450A

CN117390450A - 一种大语言模型训练方法、装置及相关设备

Info

Publication number: CN117390450A
Application number: CN202311413423.1A
Authority: CN
Inventors: 梅俊辉; 赖新明; 刘振宇; 王志刚
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-12

Abstract

本申请提供了一种大语言模型训练方法、装置及相关设备，通过获取预训练大语言模型；采用初始微调数据集对预训练大语言模型进行微调，得到微调大语言模型；基于提问数据以及答复数据构建优化微调数据集，答复数据是由微调大语言模型输出的针对提问数据的答复数据；利用优化微调数据集，对微调大语言模型进行迭代优化，获得训练好的大语言模型。本申请的这种大语言模型训练方法，基于用户的使用反馈，不断迭代优化微调大语言模型的方法，在迭代优化微调大语言模型的过程中产生了大量的数据对优化数据集进行调整，可以有效的减少训练及优化过程使用的样本数据获取的成本，并有效提高调整后的大语言模型的性能。

Description

一种大语言模型训练方法、装置及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种大语言模型训练方法、装置及相关设备。

背景技术

随着AI人工智能技术的发展，神经网络模型的使用越来越普遍。在语言处理技术领域，普通的神经网络模型仍具有一定的局限性，使得反馈答复的准确性不佳。为此，行业内引入了大语言模型进行语言数据的处理进行智能回复。然而，大语言模型的参数规模日益庞大，从构建过程往往使用数亿到数万亿的参数量，需要大量且高质量的进行数据训练。这种训练过程也就导致了样本数据的搜集获取成本、标注成本非常高昂，训练效率低、模型收敛慢，且训练质量难以获得保证。严重影响大语言模型在各行各业的正常使用。为此，如何提供一种需要的样本数据少，样本的搜集获取成本和标注成本低，并有效提高模型训练的收敛速度且适用于大语言模型的训练方法，就成了行业内亟需解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种大语言模型训练方法、装置及相关设备，以至少部分解决上述问题。

第一方面，本申请实施例提供一种大语言模型训练方法，包括：

获取预训练大语言模型；

采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；

基于提问数据以及答复数据构建优化微调数据集，所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；

利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。

可选的，在本申请的一种实施例中，所述利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型，包括：

利用特征对齐的方式和/或动态采样所述优化微调数据集的方式，对所述微调后的大语言模型进行迭代优化，获得训练好的大语言模型。

可选的，在本申请的一种实施例中，所述利用特征对齐的方式和/或动态采样所述微调数据集的方式，对所述微调后的大语言模型进行迭代优化，获得训练好的大语言模型包括：

确定输入数据在所述预训练模型和微调后的模型中的特征表示，其中，所述特征表示用于表征针对目标任务，输入模型的样本数据特征属性的概率分布；

基于所述特征表示，确定所述预训练模型和所述微调模型特征差异；

基于所述特征差异，确定所述预训练模型和所述微调后的大语言模型的特征对齐损失函数；

基于所述特征对齐损失函数，调整从所述优化微调数据集中选取的样本数据，促使所述预训练模型与所述微调后的大语言模型在目标任务的特征表示相互对齐，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型；

和/或，

对所述输入数据进行重要性评估，获取重要性评估结果；

基于所述重要性评估的结果，动态调整训练过程或迭代过程中选用的优化微调数据集中的包含的样本数据，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。

可选的，在本申请的一种实施例中，所述对所述输入数据进行重要性评估，获取重要性评估结果，包括：

确定输入数据针对所述目标任务的模型不确定性信息和任务关联度信息；

综合所述模型不确定参数和任务关联度信息，通过加权平均的方式，确定所述输入数据的重要性评估结果。

可选的，在本申请的一种实施例中，所述确定输入数据针对所述目标任务的模型不确定性信息和任务关联度信息，包括：通过如下公式计算所述输入数据的预测熵U_i：

其中，代表输入数据对应的文本的第m个字符，y代表第m个字符之后的字符；

根据所述输入数据i的预测熵U_i的预测熵，根据以下公式确定所述输入数据针对所述目标任务的模型不确定性信息：

值越大，代表输入数据针对所述目标任务的模型不确定性越高，重要性越大；

通过如下公式确定输入数据针对所述目标任务的任务关联度信息：

设置每个输入数据在目标任务上的相关性R_i，每个输入数据的相关性R_i设置为[0-1]之间，则所述输入数据针对所述目标任务的任务相关度信息的计算公式如下：

综合模型不确定性信息和任务相关度信息/>结合预设的加权系数w₁和w₂，通过加权平均方式得到最终样本的重要性P_i：

其中，w₁∈[0,1]，w₂∈[0,1]，w₁+w₁＝1。

可选的，在本申请的一种实施例中，所述基于提问数据以及答复数据构建优化微调数据集，包括：

针对用户的提问数据和模型反馈的答复数据，如果所述用户进行了反馈评价，则保存所述提问数据、所述答复数据，以及用户的反馈评价到数据池；如果用户没有对所述模型反馈的答复数据进行反馈评价，则获取人工对模型反馈的答复数据的评价信息或人工编写的标准答复数据到所述数据池；

调用多个不同的智能语言模型，分别对所述数据池中的提问数据进行反馈答复，并分别保存所述答复数据及对应的人工评价，生成汇总数据池；

将所述汇总数据池中对同一个提问数据的多个答复数据进行汇总后排序，得到排序数据集；

将所述排序数据集中每个提问数据和对应的多个答复数据中排序第一的进行结合，以构建所述优化微调数据集。

可选的，在本申请的一种实施例中，所述方法还包括：

所述利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新；

将所述参数更新后的大语言模型确定为所述训练好的大语言模型。

可选的，在本申请的一种实施例中，所述利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新，包括：

将所述迭代优化后的大语言模型的最后一层的输出维度设置为1，以确定初始奖励模型；

将将所述排序数据集中每个提问数据和对应的多个答复数据结合，得到奖励模型数据集，其中，所述奖励模型数据集中的每条数据中包括问题x_i，以及对应的答复数据y_i，其中y_i如下所示：

其中，代表奖励模型数据集中第i条数据中评价排序为n的回答；

从所述奖励模型数据集中包含的n个回答数据中抽取2个回答数据，抽取总数为定义奖励模型学习目标函数如下：

其中，σ代表sigmoid函数，Θ_rm代表奖励模型，和/>分别代表从n个回答数据中抽取的两个回答数据，且/>的排序名次在/>的前面，ω代表评分权重，由不同输入数据及其对应的输出数据对之间的排名差异计算得到，如下：

ω＝(1+l-f)

其中l、f代表评分的排序名次，且l≧f，1≦l≦n，1≦f≦n；

利用所述奖励数据集和奖励模型学习目标函数，优化所述初始奖励模型，得到优化后的奖励模型；

将所述优化微调数据集输入微调大语言模型中，得到对应的微调输出数据；

将所述微调数据集和所述对应的微调输出数据输入到所述优化后的奖励模型中，获取奖励模型的输出评分权重；

根据所述输出评分权重，利用近端优化策略，对所述迭代优化后获取的大语言模型的模型参数进行参数更新。

第二方面，本申请实施例还提供一种大语言模型训练装置，包括：

预训练模块，用于获取预训练大语言模型；

微调模块，用于采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；

构建模块，用于基于提问数据以及答复数据构建优化微调数据集；所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；

优化模块，用于利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。

第三方面，本申请实施例还提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述计算机可执行指令被执行时执行如本申请第一方面任意一项所述的大语言模型训练方法。

本申请提供了一种大语言模型训练方法、装置及相关设备，通过获取预训练大语言模型；采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；基于提问数据以及答复数据构建优化微调数据集，所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。本申请所述的这种大语言模型训练方法，基于用户的使用反馈，不断迭代优化微调大语言模型的方法，在迭代优化微调大语言模型的过程中产生了大量的数据对优化数据集进行调整，可以有效的减少训练及优化过程使用的样本数据获取的成本，并有效提高调整后的大语言模型的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种大语言模型训练方法的工作流程示意图；

图2为本申请实施例提供的一种大语言模型训练装置的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

实施例一、

本申请实施例提供一种大语言模型训练方法，如图1所示，图1为本申请实施例提供的一种大语言模型训练方法的结构示意图，包括：

步骤S101、获取预训练大语言模型。在本申请实施例中，该预训练大语言模型是通过结合目标任务，对公开的基础大语言模型进行一定程度的预训练确定的，其中，该基础大语言模可以是BLOOM等，本申请实施例此处对选用的基础大语言模型类型不进行限制。具体的，结合最终要获得的目标大语言模型的目标任务(模型的用途)，通过搜集公开的语料数据对公开的大语言模型进行一定的训练，以获得预训练的大语言模型。通过这种预训练的方式，可以大幅度降低搜集训练用数据的搜集和数据标注成本，也就降低了获得预训练大语言模型的成本，并提高获取目标大语言模型的效率。

步骤S102、采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型。具体地，在本申请实施例中，该初始微调数据集是通过搜集公开的语料监督数据或者包括人工标注的少量样本数据的方式确定的。将通过这种方式获得初始微调数据集作加载到预训练大语言模型中，根据模型的输出结果与人工标注的少量样本数据的标准结果进行比较，以对预训练大语言模型进行微调，得到微调大语言模型。通过这种方式进行初始的针对性训练，能显著提高获取针对目标任务的目标大语言模型的收敛速度。且训练过程收集训练用样本数据的时间成本和人工标注成本都较少，从而降低模型调整过程中的成本。

步骤S103、基于提问数据以及答复数据构建优化微调数据集，所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据。即，在本申请实施例的实现方式中，将步骤S102中得到的微调大语言模型交给用户使用，基于用户使用该大语言模型进行问答过程中的提问信息构成的提问数据，以及对应的大语言模型的回答信息构成的回答数据，构建优化微调数据集，可以一定程度的减少对模型进行优化要使用的优化数据进行人工标注的工作量，以降低成本，并提高模型优化后的准确性。

可选地，在本申请实施例的一种实现方式中，所述基于提问数据以及答复数据构建优化微调数据集，包括：针对用户的提问数据和模型反馈的答复数据，如果用户进行了反馈评价，则保存提问数据、答复数据，以及用户的反馈评价到数据池；如果用户没有对模型反馈的答复数据进行反馈评价，则获取人工对模型反馈的该答复数据的评价信息或人工编写的标准答复数据到所述数据池，通过这种方式对数据池中的问答语料数据进行优化调整和更新，可以显著的提数据池中数据的数量，降低数据获取的成本，并减少人工标准数据的工作量。同时，进一步的，本申请实施例还通过调用多个不同的智能语言模型，分别对所述数据池中的提问数据进行反馈答复，并分别保存获得的不同的智能语言模型针对同一个体温数据的反馈答复数据，以及对应的人工评价，生成汇总数据池，以提高数据池中语料数据的丰富度。然后将汇总数据池中对同一个提问数据的多个答复数据进行汇总后进行排序，得到排序数据集，将排序数据集中每个提问数据和对应的多个答复数据中排序第一的进行结合，以构建所述优化微调数据集。具体地，该排序是基于用户或人工的对评价结果的程度不同进行的。例如用户或人工的评价结果可以为大语言模型的答复数据为极好、较好、普通、差等不同的程度。通过这种方式获取的优化微调数据集，用于对模型进行优化的性能更好，可以使用较少的优化微调数据集达到相对更好的模型优化效果。在提高大语言模型优化后的准确性的同时，节省训练和模型优化的成本。

可选地，在本申请实施例的一种实现场景中，所述数据池支持对人工编写的语料数据进行收纳存储。其中，人工编写的语料数据至少包括提问数据、对应的答复数据，以及对答复数据的评价结果。通过数据池支持对人工编写的语料数据进行收纳存储，以降低数据池中存在语料数据丰富度不足的概率，从而提高大语言模型训练的精度。

步骤S104、利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。在本申请实施例中，通过不断的对所述优化微调数据集进行调整，迭代优化微调大语言模型，在提高模型优化后的精准性的同时，成本低，效率高。

具体地，在本申请实施例的一种可选的实现方式中，利用优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型，包括：利用特征对齐的方式和/或动态采样所述优化微调数据集的方式，对所述微调后的大语言模型进行迭代优化，获得训练好的大语言模型。

在机器学习领域，对于涉及到跨领域的数据集时，不同数据集老远可能或造成特征的差异，这会对使用不同的数据集进行模型的训练或测试的效果产生负面影响，严重影响模型的模型训练的收敛速度。在本申请实施例中，使用特征对齐的方式对输入模型的不同数据集进行处理，将不同数据集中的特征进行统一，使不同数据集之间拥有一致的特征表示，以提高模型训练或优化效率，提高模型训练收敛速度。在本申请实施例的实际应用中，大语言模型主要由Token编码、词嵌入、多个Transformer结构和分类层组合而成。Transformer最后一层的输出通常被称为"上下文表示"或"句子表示"，它是整个模型对输入数据序列的编码表示。因此，在本实施例中，将Transformer最后一层的输出层作为特征对齐层。将该层的相对于输入数据的编码表示作为该输入数据在对应的模型中的特征表示。通过确定不同的模型使用的不同的数据集，对于针对相同目标任务的具有关联的多个输入数据或不同数据集，其包含的样本数据的特征表示的特征向量的概率分布也会具有相关性。因此，在本申请实施例中，利用该特征表示对不同的数据集中的样本数据进行比较，从而能够根据比较结果确定不同数据集之间的特征差异，其中不同数据集即为对模型进行训练或微调时使用的不同批次的样本数据或输入数据，例如在确定预训练模型过程中使用的样本数据集，以及对确定好的预训练模型进行微调处理过程中使用的微调数据集。当然，本申请实施例此处只是示例性的不同数据集进行说明。在本申请实施例中，通过使用特征对齐的方式，减少不同数据集之间的差异，如在对模型的微调过程中，通过减小使用的微调数据集与之前模型训练使用的训练用样本数据集之间的特征差异对模型进行不断优化，也即通过不断优化模型减少特征差异，通过这种方式可以显著提高模型训练的收敛速度、并最终改善经过微调或优化后的大语言模型的输出精度。

具体的，在本申请实施例中，可以使用以下公式来表示从数据池中选取的样本数据作为输入数据在预训练模型和微调模型上的特征差异L_featurw：

L_feature＝f(F_pre,F_sft)

其中F_pre和F_sft分别代表输入数据的在预训练模型和微调模型中的特征表示，可以使用Transformer一层或多个隐藏层的输出进行累加或者平均；f函数用于计算这两个特征表示之间的差异，可以使用欧几里得距离、余弦相似度等。在本申请实施例中，优选的使用MMD(Maximum Mean Discrepancy，最大均值差异)，则该特征差异L_feature：

L_feature＝MMD²(F_pre,F_sft)

在本申请实施例中，使用上述方式确定特征差异的过程相对更加简单且易实现，且覆盖的数据的范围更广，确定的差异结果更加准确可靠。

在本申请实施例的一种可选的实现方式中，数据的特征表示也通过确定样本数据的特征向量确定，以简化确定获取特征表示的实施难度。

在本申请实施例的一种实现方式的一种优选地实现方式中，利用特征对齐的方式和/或动态采样所述微调数据集的方式，对微调后的大语言模型进行迭代优化，获得训练好的大语言模型包括：确定输入数据在预训练模型和微调后的模型中的特征表示，其中，特征表示用于表征针对目标任务输入模型的样本数据(输入数据)特征属性的概率分布。基于特征表示，确定输入数据在预训练模型和微调模型特征差异，基于该特征差异，确定预训练模型和微调后的大语言模型的特征对齐损失函数，基于特征对齐损失函数，调整从优化微调数据集中选取的样本数据，促使预训练模型与所述微调后的大语言模型在目标任务的特征表示相互对齐，对微调大语言模型进行迭代优化，获得训练好的大语言模型；

和/或，

对所述输入数据进行重要性评估，获取重要性评估结果，基于所述重要性评估的结果，动态调整训练过程或迭代过程中选用的优化微调数据集中的包含的样本数据，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。

在本申请实施例的一种可选的实现方式中，基于该特征差异，确定预训练模型和微调后的大语言模型的特征对齐损失函数，包括：根据特征差异L_feature的确定方式，设计监督微调模型的目标函数L如下公式确定：

L＝L_sft+λL_feature

其中，λ表示权重，λ可以根据用户的经验值设定，例如在本申请实施例的一种实现方式中，设置λ的值为0.5，将λ的值设置为0.5能够更好的用于对模型进行监督微调的应用场景。L_sft代表大语言模型训练阶段通用的损失函数，一般使用交叉熵损失函数，交叉熵能够衡量同一个随机变量中的两个不同概率分布非差异程度的应用场景中，在本实施例中表示机器学习中真实概率分布与预测概率分布的差异，交叉熵的值越小，模型的预测效果就越好，具体的，在本申请实施例中，该交叉熵损失函数如下所示：

上式中，L_feature代表输入数据在预训练模型和微调后大语言模型上的特征差异，代表输入数据对应的文本的第m个字符，y代表对应的文本中第m个字符之后的字符；

将该目标函数L确定为预训练模型和微调后的大语言模型的特征对齐损失函数。

在本申请实施例中，通过上述方式确定特征对齐损失函数，可以高效率快捷的预训练模型和微调后的大语言模型进行特征对齐，以快速准确的确定用于进行模型微调过程相关性较好的样本数据作为输入数据，从而提高模型训练的收敛效率和最终确定的模型的输出精度。

可选地，在本申请实施例的一种实现方式中，对输入数据进行重要性评估，获取重要性评估结果，包括：确定输入数据针对所述目标任务的模型不确定性信息和任务关联度信息，综合所述模型不确定参数和任务关联度信息，通过加权平均的方式，确定所述输入数据的重要性评估结果。在本申请实施例中，确定输入数据的模型不确定信息，用于表示该输入数据可能是边界样本或者模型尚未掌握的样本数据，因此输入数据的模型不确定信息值越高，也就表示该输入数据对于针对模型的目标任务训练过程中的学习重要性越大。此外，确定的输入数据针对目标任务的任务关联度信息值越高，也表示该输入数据对于针对模型的目标任务训练过程中的学习重要性越大。本申请实施例此处通过模型不确定性信息和任务关联度信息这两个维度入手，确定输入数据的重要性，进一步保证了动态采样的微调数据集中参与大语言模型的训练或优化过程的有效性，从而进一步地提高模型训练的收敛速度和模型优化后的输出精度。

进一步地，在本申请的一种实施例优选的实现方式中，确定输入数据针对目标任务的模型不确定性信息和任务关联度信息，包括：通过如下公式计算所述输入数据的预测熵U_i：

其中，代表输入数据对应的文本的第m个字符，y代表第m个字符之后的字符。根据所述输入数据i的预测熵U_i的预测熵，根据以下公式确定所述输入数据针对所述目标任务的模型不确定性信息：

值越大，代表输入数据针对目标任务的模型不确定性越高，重要性越大；

设置每个输入数据在目标任务上的相关性R_i，每个输入数据的相关性R_i设置为[0-1]之间，则输入数据针对所述目标任务的任务相关度信息的计算公式如下：

综合模型不确定性信息和任务相关度信息/>结合预设的加权系数w₁和w₂，通过加权平均方式得到样本数据的重要性结果P_i：

其中，w₁∈[0,1]，w₂∈[0,1]，w₁+w₁＝1，预设的加权系数w₁和w₂作为模型确定信息和任务相关度信息的平衡系数，可以根据用户的经验或场景需求不同进行调整，本申请实施例此处对此不做限制。

本申请实施例通过上述实现方式确定样本数据的重要性结果，结果准确可靠，且计算过程方便易实施，确定的输入数据参与大语言模型的训练、微调和优化过程能够显著的提高模型的训练后优化效率。

可选地，在本申请的一种实施例中，所述大语言模型训练方法还包括：所述利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新，将所述参数更新后的大语言模型确定为所述训练好的大语言模型。强化学习是一种利用用户的反馈来学习策略的范式，以加速模型在特定任务上的训练或优化过程。

具体地，在本申请实施例一种可选的实现方式中，利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新，包括：

将所述迭代优化后的大语言模型的最后一层的输出维度设置为1，作为初始奖励模型，该初始奖励模型的输出即为对输入数据和模型输出的对应答复数据的评分权重；

基于该评分获取排序数据集；

将排序数据集中每个提问数据和对应的多个答复数据结合，得到奖励模型数据集，其中，奖励模型数据集中的每条数据中包括问题x_i，以及对应的答复数据结果y_i，其中y_i如下所示：

其中，σ代表sigmoid函数，Θ_rm代表初始奖励模型，和/>分别代表从n个回答数据中抽取的两个回答数据，且/>的排序名次在/>的前面，ω代表评分权重，由不同输入数据及其对应的输出的答复数据组成的数据对之间的排名差异计算得到，如下：

ω＝(1+l-f)

其中l、f代表评分的排序名次，且l≧f，1≦l≦n，1≦f≦n；

利用所述奖励数据集和奖励模型学习目标函数，优化所述初始奖励模型Θ_rm，得到优化后的奖励模型，通过确定的奖励模型学习目标函数，能够明显区别不同的答复数据之间的差异，以提高确定的奖励模型的训练效率和性能。

将所述微调数据集和所述对应的微调输出数据输入到所述优化后的奖励模型中，获取奖励模型的输出评分权重，根据所述输出评分权重，利用近端优化策略，优化所述微调后的大语言模型，更新所述微调后的大语言模型的模型参数。通过近端优化策略(ProximalPolicy Optimization，PPO)不断优化训练微调大语言模型，使得分数最大，在达到设定的迭代次数或者性能满足要求时结束训练，以不断的更新微调后的大语言模型的模型参数，得到最终的具有高输出精度的微调模型，确定为训练好的大语言模型。

本申请提供了一种大语言模型训练方法，通过获取预训练大语言模型；采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；基于提问数据以及答复数据构建优化微调数据集，所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。本申请所述的这种大语言模型训练方法，基于用户的使用反馈，不断迭代优化微调大语言模型的方法，在迭代优化微调大语言模型的过程中产生了大量的数据对优化数据集进行调整，可以有效的减少训练及优化过程使用的样本数据获取的成本，并有效提高调整后的大语言模型的性能。

实施例二、

基于本申请实施例一所述的大语言模型训练方法，本申请实施例还提供过一种大语言模型训练装置，如图2所示，图2为本申请实施例三提供的一种大语言模型训练装置20的结构示意图，该大语言模型训练装置20包括：

预训练模块201，用于获取预训练大语言模型；

微调模块202，用于采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；

构建模块203，用于基于提问数据以及答复数据构建优化微调数据集；所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；

优化模块204，用于利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。

可选地，在本申请实施例的一种实现方式中，优化模块204还用于：利用特征对齐的方式和/或动态采样所述优化微调数据集的方式，对所述微调后的大语言模型进行迭代优化，获得训练好的大语言模型。

可选地，在本申请实施例的一种实现方式中，优化模块204还用于：确定输入数据在所述预训练模型和微调后的模型中的特征表示，其中，所述特征表示用于表征针对目标任务，输入模型的样本数据特征属性的概率分布；

和/或，

对所述输入数据进行重要性评估，获取重要性评估结果；

可选地，在本申请实施例的一种实现方式中，优化模块204还用于：确定输入数据针对所述目标任务的模型不确定性信息和任务关联度信息；

可选地，在本申请实施例的一种实现方式中，优化模块204还用于：通过如下公式计算所述输入数据的预测熵U_i：

其中，代表输入数据对应的文本的第m个字符，y代表第m个字符之后的字符；/>

其中，w₁∈[0,1]，w₂∈[0,1]，w₁+w₁＝1。

可选地，在本申请实施例的一种实现方式中，构建模块203还用于：

可选地，在本申请实施例的一种实现方式中，该大语言训练装置还包括强化学习模块(附图中未示出)，该强化学习模块用于:所述利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新；

可选地，在本申请实施例的一种实现方式中，强化学习模还用于：

ω＝(1+l-f)

其中l、f代表评分的排序名次，且l≧f，1≦l≦n，1≦f≦n；

根据所述输出评分权重，利用近端优化策略，优化所述微调后的大语言模型，更新所述微调后的大语言模型的模型参数。

本申请提供了一种大语言模型训练装置，通过预训练模块获取预训练大语言模型；设置的微调模块采用初始微调数据集对所述预训练大语言模型进行微调，得到微调大语言模型；设置的构建模块基于提问数据以及答复数据构建优化微调数据集，所述答复数据是由所述微调大语言模型输出的针对所述提问数据的答复数据；设置的优化模块利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型。本申请所述的这种大语言模型训练方法，基于用户的使用反馈，不断迭代优化微调大语言模型的方法，在迭代优化微调大语言模型的过程中产生了大量的数据对优化数据集进行调整，可以有效的减少训练及优化过程使用的样本数据获取的成本，并有效提高调整后的大语言模型的性能。

实施例三、

本申请实施例还提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述计算机可执行指令被执行时执行如本申请实施例一中所述的任意一种大语言模型训练方法。

至此，本申请已经对本申请主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统层“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统层、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统层或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统层实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大语言模型训练方法，其特征在于，包括：

获取预训练大语言模型；

2.根据权利要求1所述的大语言模型训练方法，其特征在于，所述利用所述优化微调数据集，对所述微调大语言模型进行迭代优化，获得训练好的大语言模型，包括：

3.根据权利要求2所述的大语言模型训练方法，其特征在于，所述利用特征对齐的方式和/或动态采样所述微调数据集的方式，对所述微调后的大语言模型进行迭代优化，获得训练好的大语言模型包括：

和/或，

对所述输入数据进行重要性评估，获取重要性评估结果；

4.根据权利要求3所述的大语言模型训练方法，其特征在于，所述对所述输入数据进行重要性评估，获取重要性评估结果，包括：

5.根据权利要求4所述的大语言模型训练方法，其特征在于，所述确定输入数据针对所述目标任务的模型不确定性信息和任务关联度信息，包括：通过如下公式计算所述输入数据的预测熵U_i：

其中，w₁∈[0,1]，w₂∈[0,1]，w₁+w₁＝1。

6.根据权利要求1所述的大语言模型训练方法，其特征在于，所述基于提问数据以及答复数据构建优化微调数据集，包括：

7.根据权利要求6所述的大语言模型训练方法，所述方法还包括：

8.根据权利要求7所述的大语言模型训练方法，其特征在于，所述利用强化学习的方法，对所述迭代优化后获取的大语言模型的模型参数进行参数更新，包括：

将所述排序数据集中每个提问数据和对应的多个答复数据结合，得到奖励模型数据集，其中，所述奖励模型数据集中的每条数据中包括问题x_i，以及对应的答复数据y_i，其中y_i如下所示：

从所述奖励模型数据集中包含的n个回答数据中抽取2个回答数据，抽取总数为定义奖励模型学习目标函数L_rm如下所示：

其中，σ代表sigmoid函数，Θ_rm代表初始奖励模型，和/>分别代表从n个回答数据中抽取的两个回答数据，且/>的排序名次在/>的前面，ω代表评分权重，ω由不同输入数据及其对应的输出数据对之间的排名差异计算得到，如下：

ω＝(1+l-f)

其中l、f代表评分的排序名次，且l≧f，1≦l≦n，1≦f≦n；

将所述微调数据集和所述对应的微调输出数据输入到所述优化后的奖励模型中，获取优化后的奖励模型输出的评分权重；

9.一种大语言模型训练装置，包括：

预训练模块，用于获取预训练大语言模型；

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，所述计算机可执行指令被执行时执行如权利要求1～8中任意一项所述的大语言模型训练方法。