CN117539977A

CN117539977A - 一种语言模型的训练方法及装置

Info

Publication number: CN117539977A
Application number: CN202311411581.3A
Authority: CN
Inventors: 徐琳; 王芳; 暴宇健
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-09

Abstract

本申请提供了一种语言模型的训练方法及装置。该方法包括：确定第一训练样本集合；将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；利用一级语言模型确定模拟样本集；利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。本申请利用奖励模型加入奖励机制，将大语言模型的生成的数据作为正向反馈，充分利用大语言模型的生成文本准确的优势，基于大语言模型输出的数据集作为训练样本，实现将大语言模型的知识到小型文本生成模型的迁移。

Description

一种语言模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语言模型的训练方法及装置。

背景技术

大语言模型是一种基于深度学习的自然语言处理技术，这些模型通常包含数十亿甚至数千亿个参数，可以在大规模的文本数据上进行预训练和微调，从而实现多种自然语言理解和生成的任务。

但是，现有技术中，大语言模型需要大量的计算资源来进行训练和推理，这会带来巨大的成本和环境影响，加大了大语言模型的训练和优化难度，一定程度上会阻碍小型研究实验室和独立研究人员在大型语言模型领域的研究进展，限制了该领域的创新和多样性。

发明内容

有鉴于此，本申请实施例提供了一种语言模型的训练方法及装置，能通过一种相对高保真、高准确度的方式，降低计算资源的同时，使小型的语言模型可以达到大语言模型的效果。

本申请实施例的第一方面，提供了一种语言模型的训练方法，该方法包括：

确定第一训练样本集合；

将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；

利用一级语言模型确定模拟样本集；

利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。

本申请实施例的第二方面，提供了一种语言模型的训练装置，包括：

第一训练样本集合确定模块，用于确定第一训练样本集合；

结果确定模块，用于将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

目标奖励模型确定模块，用于根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；

模拟样本集确定模块，用于利用一级语言模型确定模拟样本集；

目标语言模型确定模块，用于利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例通过结合大语言文本生成模型更加准确的优势，生成数据集样本用于新的小型文本生成模型的训练，可以降低小型文本生成模型所需数据源的采集难度，利用奖励模型加入奖励机制，将大语言模型的生成的数据作为正向反馈，否则为负向反馈，充分利用大语言模型的生成文本准确的优势，节省人工标注成本，提升小型文本生成模型的学习能力和泛化能力。同时，基于大语言文本生成模型输出的数据集作为训练样本，实现将大语言文本生成模型的知识到小型文本生成模型的迁移，可以有效缩短小型文本生成模型训练需要的时间，减少计算资源的需求，提高了模型的可用性和可扩展性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图；

图2是本申请实施例提供的一种语言模型的训练方法的流程示意图；

图3是本申请实施例提供的一种语言模型的训练装置的示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

大语言模型是一种基于深度学习的自然语言处理技术，这些模型通常包含数十亿甚至数千亿个参数，可以在大规模的文本数据上进行预训练和微调，从而实现多种自然语言理解和生成的任务。其核心架构是Transformer，它是一种利用自注意力机制的编码器-解码器模型，可以有效地捕捉文本中的长距离依赖关系和语义信息。代表作有GPT系列和BERT系列，它们分别采用单向和双向的Transformer模型，以及不同的预训练目标和微调策略，来提高模型的泛化能力和任务性能。

大语言模型的优点是可以利用海量的开放数据进行无监督或半监督的学习，从而减少人工标注的成本和时间，同时也可以通过微调或提示工程等方式适应不同领域和场景的需求。

但大语言模型的缺点是需要大量的计算资源来进行训练和推理，这会带来巨大的成本和环境影响。例如，GPT-3语言模型的参数量高达1750亿，其单次的训练费用超过460万美元，总训练费用超过1200万美元，其碳排放相当于5000辆汽车的一生。这意味着只有拥有巨大计算能力和财力的组织才能承担这样的成本。一方面会带来巨大的成本和环境影响，另一方面，这也为其他资源拮据的公司和企业设置了高门槛，导致大型语言模型的研究和开发权力集中在少数大型科技公司手中，而较小的研究实验室和独立的研究人员在大型语言模型的研究上更加艰难。

综上，现有技术的缺点在于，由于大语言模型的训练和优化难度，一定程度上会阻碍了小型研究实验室和独立研究人员在大型语言模型领域的研究进展，限制了该领域的创新和多样性。

鉴于以上现有技术中的问题，本申请实施例提供一种全新的语言模型的训练方法，通过结合大语言文本生成模型更加准确的优势，生成数据集样本用于新的小型文本生成模型的训练，可以降低小型文本生成模型所需数据源的采集难度，利用奖励模型加入奖励机制，将大语言模型的生成的数据作为正向反馈，否则为负向反馈，充分利用大语言模型的生成文本准确的优势，节省人工标注成本，提升小型文本生成模型的学习能力和泛化能力。同时，基于大语言文本生成模型输出的数据集作为训练样本，实现将大语言文本生成模型的知识到小型文本生成模型的迁移，可以有效缩短小型文本生成模型训练需要的时间，减少计算资源的需求，提高了模型的可用性和可扩展性。

下面将结合附图详细说明根据本申请实施例的一种语言模型的训练方法及装置。

图1是本申请实施例的一种应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104、网络105。

终端设备101、102和103可以是硬件，也可以是软件。当终端设备101、102和103为硬件时，其可以是具有显示屏且支持与服务器104通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备101、102和103为软件时，其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备101、102和103上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器104可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器104可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器104为硬件时，其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时，其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块，也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本申请实施例对此不作限制。

用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接，以接收或发送信息等。具体地，服务器104确定第一训练样本集合；将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；服务器104根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；服务器104利用一级语言模型确定模拟样本集；利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。

需要说明的是，终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2是本申请实施例提供的一种语言模型的训练方法的流程示意图。图2的语言模型的训练方法可以由图1的终端设备或者服务器执行。如图2所示，该语言模型的训练方法包括：

S201，确定第一训练样本集合；

S202，将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

S203，根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；

S204，利用一级语言模型确定模拟样本集；

S205，利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。

具体地，由于大语言模型的训练和优化难度，一定程度上会阻碍了小型研究实验室和独立研究人员在大型语言模型领域的研究进展，限制了该领域的创新和多样性。所以本实施例提供一种方法，将一个复杂的、大型的模型(通常称为教师模型)的知识转移到另一个更小、更简单的模型(通常称为学生模型)中。使得学生模型能够以较小的规模进行推理，并保持与教师模型相似的性能。为了提升学生模型的学习能力和泛化能力，本实施例引入奖励机制，将教师模型生成的数据作为正向反馈，学生模型生成的数据作为负向反馈，使学生模型逐渐接近教师模型的能力。

进一步地，本实施例中奖励机制通过奖励模型来建立，因此，首先要确定一个比较准确的目标奖励模型用于学生模型的强化学习。所以要对原始奖励模型进行训练以确定目标奖励模型。首先，确定第一训练样本集合，第一训练样本集合可以问题样本的集合，这些问题样本可以通过人工收集或者语言模型生成。第一训练样本集合用于语言模型生成答案，并根据答案的得分来训练原始奖励模型。

进一步地，将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果。本实施例中的一级语言模型、二级语言模型、三级语言模型的参数量依次递减。以一级语言模型为基准，一级语言模型可以为本领域中常见的大语言模型，其模型的参数量属于高等规模参数量，二级语言模型参数量属于中等规模参数，三级语言模型的参数量属于小规模参数量。其中，一级语言模型就是上一步骤中提到的教师模型，二级语言模型和三级语言模型就是上一步骤中提到的学生模型，而本实施例的目的就是要将一级语言模型的性能迁移到二级语言模型之中。由于一级语言模型、二级语言模型、三级语言模型的模型规模和训练因素不同，所以，基于同样的问题，生成的第一结果、第二结果和第三结果也不相同，一般来说，第一结果要优于第二结果，第二结果要优于第三结果。

进一步地，根据第一结果、第二结果和第三结果确定损失函数，并利用损失函数对原始奖励模型训练以确定目标奖励模型。具体地，在语言模型的强化训练过程中，下一阶段是构建一个目标奖励模型来对问答作出得分评价。能对所要训练的语言模型的当前状态刻画一个分数，来说明这个状态产生的价值有多少。一般来说，输入的答案与问题匹配度越高，则奖励模型输出的分数也越高。所以，要确定一个准确的目标奖励模型，为后续的语言模型强化训练做准备。原始奖励模型的训练数据来自于一级语言模型、二级语言模型、三级语言模型对第一训练样本集合所输出的第一结果、第二结果和第三结果，因为这三个语言模型的模型规模和训练因素不同，所以，基于同样的问题，生成的第一结果、第二结果和第三结果也不相同，一般来说，第一结果要优于第二结果，第二结果要优于第三结果，也就是说，针对于同一问题，一级语言模型、二级语言模型、三级语言模型给出的答案的分数，是依次递减的。在训练原始奖励模型过程中，基于这个分数排序的规则，使原始奖励模型对同一问题的A(第一结果)、B(第二结果)、C(第三结果)三个答案给出的分数依次减小，进而逐渐使原始奖励模型对问题-答案的分数预测趋于准确，最终确定为目标奖励模型。损失函数用来评价奖励模型的预测值和真实值不一样的程度，损失函数越好，通常目标奖励模型的性能越好。本实施例中的损失函数可以为0.5(分数二-分数一+分数三-分数一)，其中分数一对应第一结果，分数二对应第二结果，分数三对应第三结果。因为目标奖励模型的目标是使得排序高的答案对应的标量分数要高于排序低的答案对应的标量分数，且越高越好，也就是使得损失函数中的损失值越小越好，经过根据损失函数迭代对原始奖励模型训练，使得损失函数中的损失值最小，确定为目标奖励模型。一般情况下，只是基于分数二和分数一也可以建立损失函数，由于三级语言模型的参数量还要低于二级语言模型，所以分数三要低于分数一，这样损失函数中增加了分数三和分数一的差值，相当于在训练原始奖励模型过程中增加了负反馈，能够比较好的平衡原始奖励模型的强化学习过程，起到比较的作用，可以让原始奖励模型学习到什么样的是错的。因此，损失函数又增加了分数三和分数一的差值，这样根据损失函数对原始奖励模型参数进行调整，使最终的目标奖励模型达到更好的效果。

进一步地，确定好了目标奖励模型，对语言模型训练过程中还需要有训练的样本，本实施例中利用一级语言模型确定模拟样本集，该模拟样本集中包含了训练所用的样本。因为一级语言模型是成熟、准确的大语言模型，所以可以利用一级语言模型对同一问题生成不用的相似问题，来确定模拟样本集，可以降低小型文本生成模型所需数据源的采集难度，同时，基于大语言文本生成模型输出的数据集作为训练样本，能够实现将大语言文本生成模型的知识到小型语言文本生成模型的迁移，可以有效缩短小型语言文本生成模型训练需要的时间，减少计算资源的需求。

进一步地，利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。二级语言模型就是需要进行知识迁移的小型语言文本生成模型，也是上文中提到的学生模型。通过将模拟样本集输入至二级语言模型，输出对应模拟样本集中问题的答案，并利用目标奖励模型确定答案的匹配分数，利用预设的梯度更新函数根据匹配分数计算二级语言模型的损失数值，根据损失数值调整二级语言模型的模型参数以进行迭代训练，当损失数值满足预设的收敛条件，则确定最后调整的二级语言模型为目标语言模型。通过强化学习的训练方法，迭代式的更新二级语言模型，让目标奖励模型对二级语言模型输出质量的刻画愈加精确，二级语言模型的输出则愈能与初始模型拉开差距，使得输出语言文本变得越来越符合人的认知，这样，二级语言模型也就愈发的收敛。一般地，一级语言模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，而二级语言模型因为网络规模较小，表达能力有限。因此，本实施例中利用一级语言模型学习到的知识(问题与答案之间的关联)去指导二级语言模型训练，使得二级语言模型具有与大模型相当的性能，但是参数数量大幅降低，从而实现模型压缩与加速。由于二级语言模型的训练样本以及目标奖励模型的训练都是基于一级语言模型所进行的，所以二级语言模型可以学习到一级语言模型的更多细节和知识，包括概率分布的相对权重和类别之间的关系。这种知识转移有助于改善二级语言模型的泛化能力，并且在保持模型大小较小的同时，实现与一级语言模型相近甚至更好的性能。

根据本申请实施例提供的技术方案，通过结合大语言文本生成模型更加准确的优势，生成数据集样本用于新的小型文本生成模型的训练，可以降低小型文本生成模型所需数据源的采集难度，利用奖励模型加入奖励机制，将大语言模型的生成的数据作为正向反馈，否则为负向反馈，充分利用大语言模型的生成文本准确的优势，节省人工标注成本，提升小型文本生成模型的学习能力和泛化能力。同时，基于大语言文本生成模型输出的数据集作为训练样本，实现将大语言文本生成模型的知识到小型文本生成模型的迁移，可以有效缩短小型文本生成模型训练需要的时间，减少计算资源的需求，提高了模型的可用性和可扩展性。

在一些实施例中，在将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型之前，还包括：

基于一级语言模型确定第二训练样本集合；

利用第二训练样本集合对中规模模型进行训练，以确定二级语言模型；

利用第二训练样本集合对小规模模型进行训练，以确定三级语言模型。

具体地，为了让后续步骤中应用的二级语言模型和三级语言模型的生成文本能力更强，需要对中规模模型和小规模模型进行训练，以确定二级语言模型和三级语言模型。本实施例中的中规模模型语小规模模型可以是相对于一级语言模型来定义的，以一级语言模型为基准，一级语言模型可以为本领域中常见的大语言模型，其模型的参数量属于高等规模参数量，二级语言模型参数量属于中等规模参数，三级语言模型的参数量属于小规模参数量。训练所用的第二训练样本集合基于一级语言模型生成，因为一级语言模型是成熟、准确的大语言模型，所以可以利用一级语言模型进行指令数据集收集来构建问题，进而形成第二训练样本集，可以降低中、小型规模模型所需数据源的采集难度。

在一些实施例中，根据第一结果、第二结果和第三结果确定损失函数包括：

确定第一结果的第一分数、第二结果的第二分数和第三结果的第三分数；该第一分数大于第二分数；第二分数大于第三分数；

基于第一分数、第二分数和第三分数建立损失函数。

具体地，由于一级语言模型、二级语言模型、三级语言模型的模型规模和训练因素不同，所以，基于同样的问题，生成的第一结果、第二结果和第三结果也不相同，一般来说，第一结果要优于第二结果，第二结果要优于第三结果。不同结果对应有不同的分数，比如，当标注信息和分析结果一致，即运算结果正确，可以认为该语言模型在第一训练样本集合的得分为1。反之当标注信息和分析结果不一致，即运算结果错误，可以认为该语言模型在第一训练样本集合的得分为0，即每个训练样本的得分都是1分或0分。假设第一训练样本集合中包括100个样本，则在100％正确的情况下，各语言模型的得分应当是是100分。但由于一级语言模型、二级语言模型、三级语言模型的模型规模和训练因素不同，所以，第一结果要优于第二结果，第二结果要优于第三结果，那么，相应的，第一结果对应第一分数，第二结果对应第二分数，第三结果对应第三分数，因此第一分数大于第二分数；第二分数大于第三分数。

在一些实施例中，基于第一分数、第二分数和第三分数建立损失函数包括：

根据第一分数和第二分数确定第一差值；

根据第一分数和第三分数确定第二差值；

根据第一差值和第二差值建立损失函数。

具体地，目标奖励模型的目标是使得排序高的答案对应的标量分数要高于排序低的答案对应的标量分数，且越高越好，也就是使得第一差值或第二差值越大越好，因此，可以基于第一差值和第二差值建立损失函数如下：

LossRM＝0.5(f(Q，B)-f(Q，A)+f(Q，C)-f(Q，A))

其中，LossRM代表目标奖励模型的损失函数，Q代表第一训练样本集合中的问题，A代表一级语言模型所生成的第一结果，也就是答案，B代表二级语言模型所生成的第二结果，C代表三级语言模型所生成的第三结果，f(Q，A)代表第一分数，f(Q，B)代表第二分数，f(Q，C)代表第三分数。

第一差值是第一分数和第二分数的差值，第二差值是第一分数和第三分数的差值。一般情况下，只是基于第一差值就可以建立损失函数，为了增加负反馈在原始奖励模型训练中的比较的作用，可以让原始奖励模型学习到什么样的是错的，因此，损失函数又增加了第二差值，这样根据损失函数对原始奖励模型参数进行调整，使最终的目标奖励模型达到更好的效果。

在一些实施例中，第一训练样本集合中包括历史询问文本；利用一级语言模型确定模拟样本集包括：

将历史询问文本输入至一级语言模型，以使一级语言模型确定历史询问文本的模拟询问文本；

根据模拟询问文本确定模拟样本集。

具体地，历史询问文本为第一训练样本集合中对一级语言模型、二级语言模型和三级语言模型生成结果所用过的问题文本样本，通过将历史询问文本输入至一级语言模型，以使一级语言模型确定历史询问文本的模拟询问文本，模拟询问文本可以相当于与历史询问文本不相同的相似问题，这些模拟询问文本的集合就是模拟样本集。一般来说，模拟样本集中模拟询问文本的数目与第一训练样本集合中的历史询问文本数目相近或者略多。利用一级语言模型生成模拟样本集，可以降低小型文本生成模型所需数据源的采集难度，同时，基于大语言文本生成模型输出的数据集作为训练样本，能够实现将大语言文本生成模型的知识到小型语言文本生成模型的迁移，可以有效缩短小型语言文本生成模型训练需要的时间，减少计算资源的需求。另外，模拟询问文本与历史询问文本不是一样的，是为了防止在训练二级语言模型时，导致模型见过第一训练样本集合中的历史询问文本而产生作弊，导致得分很高，影响训练效果。

在一些实施例中，利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型包括：

将模拟样本集输入至二级语言模型，以使二级语言模型输出第四结果；

利用目标奖励模型确定第四结果的匹配分数；

利用预设的梯度更新函数和匹配分数，调整二级语言模型的模型参数以进行训练；

计算二级语言模型的损失数值；

当损失数值满足预设的收敛条件，则确定最后调整的二级语言模型为目标语言模型。

具体地，通过将模拟样本集输入至二级语言模型，输出对应模拟样本集中问题的第四结果，并利用目标奖励模型确定第四结果的匹配分数，此时的目标奖励模型能够比较好的对结果进行打分。利用预设的梯度更新函数根据匹配分数计算二级语言模型的损失数值，根据损失数值调整二级语言模型的模型参数以进行迭代训练，当损失数值满足预设的收敛条件，则确定最后调整的二级语言模型为目标语言模型。该收敛条件可以为一个损失阈值区间，当多次迭代训练结果，损失数值一直在这个损失阈值区间内，说明损失数值达到了一个极值点，二级语言模型趋于稳定。通过强化学习的训练方法，迭代式的更新二级语言模型，让目标奖励模型对二级语言模型输出质量的刻画愈加精确，二级语言模型的输出则愈能与初始模型拉开差距，使得输出语言文本变得越来越符合人的认知，这样，二级语言模型也就愈发的收敛。

在一些实施例中，利用预设的梯度更新函数和匹配分数，调整二级语言模型的模型参数以进行训练包括：

将匹配分数输入梯度更新函数以确定二级语言模型的策略梯度；

根据策略梯度确定二级语言模型的模型参数调整值；

根据模型参数调整值调整二级语言模型的模型参数。

具体地，本实施例中可以采用梯度下降法来确定二级语言模型的模型参数调整值，进而确定每轮迭代的模型参数。首先根据梯度更新函数确定策略梯度，策略梯度简单来说就是二级语言模型迭代学习过程中的变化率，根据策略梯度可以确定二级语言模型的模型参数调整值。梯度更新函数具体如下：

其中，代表策略梯度，p_θ代表二级语言模型，a_n代表二级语言模型的输入，也就是模拟样本集中的模拟询问文本，s_n代表二级语言模型输出的第四结果，也就是根据模拟询问文本给出的回答，R(a_n,s_n)为目标奖励模型针对模拟询问文本和第四结果的匹配分数，n(n＝1、2、3···N)为模拟样本集中模拟询问文本的数量。

这样，每一次训练都能够得到一个策略梯度，根据策略梯度能够得到下一次训练的模型参数调整值，根据模型参数调整值更新二级语言模型的模型参数，模型参数的更新公式如下：

其中，θ代表二级语言模型的模型参数，η代表二级语言模型的学习率，代表每轮迭代训练所得到的策略梯度，t代表迭代的次数。

学习率是指导如何通过策略梯度调整二级语言模型权重的超参数，其根据经验设定，那么根据每一轮的训练，都会得到一个新的策略梯度，策略梯度与学习率的乘积就是模型参数调整值，本轮的模型参数调整值与本轮的模型参数的和就是下一轮二级语言模型训练所用的模型参数的值。这样，经过不断迭代，更新模型参数，直到二级语言模型收敛则停止训练。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3是本申请实施例提供的一种语言模型的训练装置的示意图。如图3所示，该语言模型的训练装置包括：

第一训练样本集合确定模块301，被配置为用于确定第一训练样本集合；

结果确定模块302，被配置为用于将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

目标奖励模型确定模块303，被配置为用于根据第一结果、第二结果和第三结果确定损失函数；并利用损失函数对原始奖励模型训练以确定目标奖励模型；

模拟样本集确定模块304，被配置为用于利用一级语言模型确定模拟样本集；

目标语言模型确定模块305，被配置为用于利用模拟样本集和目标奖励模型，对二级语言模型进行训练以确定目标语言模型。

在一些实施例中，在将第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型之前，图3的目标语言模型确定模块305还包括：

基于一级语言模型确定第二训练样本集合；

在一些实施例中，图3的目标奖励模型确定模块303包括：

基于第一分数、第二分数和第三分数建立损失函数。

在一些实施例中，图3的目标奖励模型确定模块303包括：

根据第一分数和第二分数确定第一差值；

根据第一分数和第三分数确定第二差值；

根据第一差值和第二差值建立损失函数。

在一些实施例中，第一训练样本集合中包括历史询问文本；则图3的模拟样本集确定模块304包括：

根据模拟询问文本确定模拟样本集。

在一些实施例中，图3的目标语言模型确定模块305包括：

利用目标奖励模型确定第四结果的匹配分数；

计算二级语言模型的损失数值；

在一些实施例中，图3的目标语言模型确定模块305包括：

根据策略梯度确定二级语言模型的模型参数调整值；

根据模型参数调整值调整二级语言模型的模型参数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图4是本申请实施例提供的电子设备4的示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语言模型的训练方法，其特征在于，所述方法包括：

确定第一训练样本集合；

将所述第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

根据所述第一结果、所述第二结果和所述第三结果确定损失函数；并利用所述损失函数对原始奖励模型训练以确定目标奖励模型；

利用所述一级语言模型确定模拟样本集；

利用所述模拟样本集和所述目标奖励模型，对所述二级语言模型进行训练以确定目标语言模型。

2.根据权利要求1所述的方法，其特征在于，在将所述第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型之前，还包括：

基于一级语言模型确定第二训练样本集合；

利用所述第二训练样本集合对中规模模型进行训练，以确定所述二级语言模型；

利用所述第二训练样本集合对小规模模型进行训练，以确定所述三级语言模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一结果、所述第二结果和所述第三结果确定损失函数包括：

确定所述第一结果的第一分数、所述第二结果的第二分数和所述第三结果的第三分数；

所述第一分数大于所述第二分数；

所述第二分数大于所述第三分数；

基于所述第一分数、所述第二分数和所述第三分数建立所述损失函数。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一分数、所述第二分数和所述第三分数建立所述损失函数包括：

根据所述第一分数和所述第二分数确定第一差值；

根据所述第一分数和所述第三分数确定第二差值；

根据所述第一差值和所述第二差值建立所述损失函数。

5.根据权利要求1所述的方法，其特征在于，所述第一训练样本集合中包括历史询问文本；所述利用所述一级语言模型确定模拟样本集包括：

将所述历史询问文本输入至所述一级语言模型，以使所述一级语言模型确定所述历史询问文本的模拟询问文本；

根据所述模拟询问文本确定所述模拟样本集。

6.根据权利要求1～5任意一项所述的方法，其特征在于，所述利用所述模拟样本集和目标奖励模型，对所述二级语言模型进行训练以确定目标语言模型包括：

将所述模拟样本集输入至所述二级语言模型，以使所述二级语言模型输出第四结果；

利用所述目标奖励模型确定所述第四结果的匹配分数；

利用预设的梯度更新函数和所述匹配分数，调整所述二级语言模型的模型参数以进行训练；

计算所述二级语言模型的损失数值；

当损失数值满足预设的收敛条件，则确定最后调整的所述二级语言模型为所述目标语言模型。

7.根据权利要求6所述的方法，其特征在于，所述利用预设的梯度更新函数和所述匹配分数，调整所述二级语言模型的模型参数以进行训练包括：

将所述匹配分数输入所述梯度更新函数以确定所述二级语言模型的策略梯度；

根据所述策略梯度确定所述二级语言模型的模型参数调整值；

根据所述模型参数调整值调整所述二级语言模型的模型参数。

8.一种语言模型的训练装置，其特征在于，包括：

第一训练样本集合确定模块，用于确定第一训练样本集合；

结果确定模块，用于将所述第一训练样本集合分别输入至一级语言模型、二级语言模型和三级语言模型，以确定相应的第一结果、第二结果和第三结果；

目标奖励模型确定模块，用于根据所述第一结果、所述第二结果和所述第三结果确定损失函数；并利用所述损失函数对原始奖励模型训练以确定目标奖励模型；

模拟样本集确定模块，用于利用所述一级语言模型确定模拟样本集；

目标语言模型确定模块，用于利用所述模拟样本集和所述目标奖励模型，对所述二级语言模型进行训练以确定目标语言模型。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。