CN118278457A

CN118278457A - 大语言模型训练方法、回复文本获取方法、装置及设备

Info

Publication number: CN118278457A
Application number: CN202410383102.XA
Authority: CN
Inventors: 欧阳晟; 胡羽蓝; 万峻辰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-07-02

Abstract

本公开提供了一种大语言模型训练方法、回复文本获取方法、装置及设备，属于计算机技术领域。方法包括：获取样本文本、样本文本的样本回复文本对及样本回复文本对中每个样本回复文本的匹配度；对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率；确定第一数值及第二数值；基于第一数值及第二数值，对待训练的大语言模型进行训练。在本公开实施例中，在训练大语言模型的过程中考虑不同样本回复文本的质量差异的影响，保证大语言模型能够基于输入文本生成高质量的回复文本，进而提升了大语言模型的准确性。

Description

大语言模型训练方法、回复文本获取方法、装置及设备

技术领域

本公开涉及计算机技术领域，特别涉及一种大语言模型训练方法、回复文本获取方法、装置及设备。

背景技术

随着计算机技术的发展，人机智能对话的应用越来越广泛。在人机智能对话场景下，通过对话模型，基于输入的文本生成相应的回复文本，输出回复文本，以实现人机智能对话。但是，目前的对话模型的准确性差，导致生成的回复文本不够准确。

发明内容

本公开提供一种大语言模型训练方法、回复文本获取方法、装置及设备，能够提升大语言模型的准确性。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种大语言模型训练方法，包括：

获取样本文本、所述样本文本的样本回复文本对及所述样本回复文本对中每个样本回复文本的匹配度，所述匹配度指示所述样本回复文本与所述样本文本的匹配程度，所述样本回复文本对包括所述样本文本的两个样本回复文本；

对于所述每个样本回复文本，将所述样本文本及所述样本回复文本输入待训练的大语言模型进行编码和解码，得到所述样本回复文本的概率，所述概率指示所述待训练的大语言模型基于所述样本文本生成所述样本回复文本的可能性；

确定第一数值及第二数值，所述第一数值为所述样本回复文本对中所述样本回复文本的概率之间的差值，所述第二数值为所述样本回复文本对中所述样本回复文本的匹配度之间的差值；

基于所述第一数值及所述第二数值，对所述待训练的大语言模型进行训练，得到训练后的大语言模型。

根据本公开实施例的另一方面，提供一种回复文本获取方法，所述方法包括：

获取文本；

将所述文本输入大语言模型进行编码和解码，得到所述文本的回复文本；

其中，所述大语言模型是基于上述方面所述的大语言模型训练方法训练得到。

根据本公开实施例的再一方面，提供一种大语言模型训练装置，包括：

获取单元，被配置为执行获取样本文本、所述样本文本的样本回复文本对及所述样本回复文本对中每个样本回复文本的匹配度，所述匹配度指示所述样本回复文本与所述样本文本的匹配程度，所述样本回复文本对包括所述样本文本的两个样本回复文本；

所述获取单元，还被配置为执行对于所述每个样本回复文本，将所述样本文本及所述样本回复文本输入待训练的大语言模型进行编码和解码，得到所述样本回复文本的概率，所述概率指示所述待训练的大语言模型基于所述样本文本生成所述样本回复文本的可能性；

确定单元，被配置为执行确定第一数值及第二数值，所述第一数值为所述样本回复文本对中所述样本回复文本的概率之间的差值，所述第二数值为所述样本回复文本对中所述样本回复文本的匹配度之间的差值；

训练单元，被配置为执行基于所述第一数值及所述第二数值，对所述待训练的大语言模型进行训练，得到训练后的大语言模型。

在一些实施例中，所述训练单元，被配置为执行将以所述第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，所述幅度参数指示在对所述大语言模型训练的过程中，对所述大语言模型的模型参数的调整幅度，所述第三数值大于1；将所述第一数值、所述第二数值及所述幅度参数的乘积，确定第四数值；将所述第四数值的相反数与0中的极大值，确定为第一损失值；基于所述第一损失值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

在一些实施例中，所述样本回复文本包括n个字符，n为大于1的整数，所述获取单元，被配置为执行将所述样本文本及所述样本回复文本输入所述待训练的大语言模型；通过所述待训练的大语言模型，对所述样本文本进行编码，得到文本特征；通过所述待训练的大语言模型，基于所述样本回复文本，对所述文本特征进行解码，得到所述样本回复文本中第1个字符的概率；通过所述待训练的大语言模型，基于所述样本回复文本，对所述文本特征及所述样本回复文本中前k个字符的特征进行解码，得到所述样本回复文本中第k+1个字符的概率，k为大于0且小于n的整数；将所述n个字符的概率的乘积，确定为所述样本回复文本的概率。

在一些实施例中，所述样本回复文本对包括第一样本回复文本及第二样本回复文本；

所述确定单元，还被配置为执行确定第五数值及第六数值，所述第五数值为所述第一样本回复文本的概率与所述第一样本回复文本的匹配度之间的差异，所述第六数值为所述第二样本回复文本的概率与所述第二样本回复文本的匹配度之间的差异；

所述训练单元，被配置为执行基于所述第一数值、所述第二数值、所述第五数值及所述第六数值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

在一些实施例中，所述训练单元，被配置为执行将以所述第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，所述幅度参数指示在对所述大语言模型训练的过程中，对所述大语言模型的模型参数的调整幅度，所述第三数值大于1；将所述第一数值、所述第二数值及所述幅度参数的乘积，确定第四数值；将所述第四数值的相反数与0中的极大值，确定为第一损失值；将所述第五数值与所述第六数值的乘积的相反数，确定为第二损失值；基于所述第一损失值与所述第二损失值的和值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

根据本公开实施例的再一方面，提供一种回复文本获取装置，所述装置包括：

获取单元，被配置为获取文本；

所述获取单元，还被配置为将所述文本输入大语言模型进行编码和解码，得到所述文本的回复文本；

根据本公开实施例的再一方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述大语言模型训练方法或回复文本获取方法。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述大语言模型训练方法或回复文本获取方法。

根据本公开实施例的再一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述大语言模型训练方法或回复文本获取方法。

在本公开实施例提供的方案中，获取样本文本及该样本文本的样本回复文本对，对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率，基于样本回复文本对中两个样本回复文本的概率之间的差异及样本回复文本对中两个样本回复文本的匹配度之间的差异，对待训练的大语言模型进行训练，以便在训练大语言模型的过程中考虑不同样本回复文本的质量差异的影响，使得训练后的大语言模型基于样本文本生成两个样本回复文本的概率之间的差异尽可能与样本回复文本的匹配度之间的差异接近，保证训练后的大语言模型能够基于输入文本生成高质量的回复文本，进而提升了大语言模型的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种实施环境示意图。

图2是根据一示例性实施例示出的一种大语言模型训练方法的流程图。

图3是根据一示例性实施例示出的另一种大语言模型训练方法的流程图。

图4是根据一示例性实施例示出的再一种大语言模型训练方法的流程图。

图5是根据一示例性实施例示出的一种大语言模型训练装置框图。

图6是根据一示例性实施例示出的一种回复文本获取装置框图。

图7是根据一示例性实施例示出的一种终端的框图。

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。需要说明的是，本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的文本都是在充分授权的情况下获取的。

本公开实施例提供的大语言模型训练方法由电子设备执行，在一些实施例中，电子设备被提供为终端或者服务器。在一些实施例中，终端为智能手机、智能手表、台式电脑、手提电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。在一些实施例中，服务器102为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。

在一些实施例中，电子设备提供为服务器。图1是根据一示例性实施例示出的一种大语言模型训练的方法的实施环境示意图。参见图1，该实施环境具体包括：终端101和服务器102。

终端101用于获取样本文本、样本回复文本对及样本回复文本的匹配度，向服务器102发送样本文本、样本回复文本对及样本回复文本的匹配度，服务器102用于接收终端101发送的样本文本、样本回复文本对及样本回复文本的匹配度，基于样本文本、样本回复文本对及样本回复文本的匹配度，对大语言模型进行训练。

在一些实施例中，服务器102训练完成大语言模型后，能够将训练完成的大语言模型部署在服务器102中，终端101安装有由服务器102提供服务的应用，该应用具有人机对话的功能。终端101通过应用获取输入文本，向服务器102发送输入文本，服务器102通过训练后的大语言模型，基于该输入文本生成回复文本，向终端101发送该回复文本，以使终端101通过应用显示该回复文本，以实现人机对话。

需要说明的是，本公开实施例是以将训练完成的大语言模型部署在服务器102为例进行说明，而在另一实施例中，还能够将训练完成的大语言模型部署在其他服务器中，以使其他服务器通过训练后的大语言模型为应用提供服务。

图2是根据一示例性实施例示出的一种大语言模型训练方法的流程图，如图2所示，该方法由电子设备执行，该方法包括：

在步骤S201中，获取样本文本、样本文本的样本回复文本对及样本回复文本对中每个样本回复文本的匹配度，匹配度指示样本回复文本与样本文本的匹配程度，样本回复文本对包括样本文本的两个样本回复文本。

在本公开实施例中，样本回复文本是样本文本的回复文本，样本回复文本对为样本文本的任意两个回复文本。不同的样本回复文本与样本文本的匹配程度可能不同，即不同的样本回复文本的质量可能不同，因此，获取样本文本、样本文本的样本回复文本对及每个样本回复文本的匹配度，利用样本文本、样本文本的样本回复文本对及每个样本回复文本的匹配度，对待训练的大语言模型进行训练，以考虑不同的样本回复文本的质量差异，使得训练后的大语言模型能够基于输入的文本生成高质量的回复文本，进而提升大语言模型的准确性。

在本公开实施例中，样本回复文本的匹配度指示样本回复文本作为样本文本的回复文本时与样本文本的匹配程度，也能够反映出样本回复文本是否针对样本文本进行精准回复，进而反映出样本回复文本的质量。样本回复文本的匹配度越大，表示样本回复文本的质量越高，则样本回复文本针对样本文本回复的越完善。其中，样本文本为任意类型的文本，例如，样本文本包括任意的对话语句，或者，包括问题语句等。

在步骤S202中，对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率，概率指示待训练的大语言模型基于样本文本生成样本回复文本的可能性。

在本公开实施例中，大语言模型用于基于输入的文本生成回复文本。在获取到样本文本及样本文本的样本回复文本对的情况下，对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，以得到每个样本回复文本的概率，以反映出待训练的大语言模型基于样本文本生成每个样本回复文本的可能性。样本回复文本的概率能够反映出待训练的大语言模型的准确性，以便后续利用样本回复文本的概率，对待训练的大语言模型进行训练。

在本公开实施例中，大语言模型(Large Language Models，LLMs)为对话模型，大语言模型能够应用与自然语言处理领域中，能够对自然语言进行处理。编码是指将文本编码为特征，特征能够以任意的形式表示，例如，特征以特征向量的形式表示。解码是指将特征解码为文字。

在步骤S203中，确定第一数值及第二数值，第一数值为样本回复文本对中样本回复文本的概率之间的差值，第二数值为样本回复文本对中样本回复文本的匹配度之间的差值。

在步骤S204中，基于第一数值及第二数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在本公开实施例中，第二数值能够反映出样本回复文本对中两个样本回复文本的质量差异，而第一数值是通过待训练的大语言模型生成两个样本回复文本的概率之间的差异，基于第一数值及第二数值，对待训练的大语言模型进行训练，以考虑不同样本回复文本的质量差异的影响，使得训练后的大语言模型基于样本文本生成两个样本回复文本的概率之间的差异尽可能与样本回复文本的匹配度之间的差异接近，提升了大语言模型的准确性。

在一些实施例中，基于第一数值及第二数值，对待训练的大语言模型进行训练，得到训练后的大语言模型，包括：

将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，幅度参数指示在对大语言模型训练的过程中，对大语言模型的模型参数的调整幅度，第三数值大于1；

将第一数值、第二数值及幅度参数的乘积，确定第四数值；

将第四数值的相反数与0中的极大值，确定为第一损失值；

基于第一损失值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在本公开实施例中，第一数值是通过待训练的大语言模型获取两个样本回复文本的概率之间的差值，第一数值的绝对值能够反映出大语言模型输出的概率的错误程度，则将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，以使幅度参数能够反映出大语言模型输出的概率的错误程度，且幅度参数与第一数值的绝对值正相关，第一数值的绝对值越大，表示大语言模型越不准确，则幅度参数越大，后续对大语言模型的模型参数的调整幅度越大，则基于第一数值、第二数值及幅度参数获取的第一损失值，不仅能够加快待训练的大语言模型的训练过程，还能够反映出通过待训练的大语言模型得到两个样本回复文本的概率之间大小关系，与这两个样本回复文本的匹配度之间的大小关系的差异，则基于第一损失值对待训练的大语言模型进行训练，能够使得大语言模型能够更快的完成训练，进而保证大语言模型的准确性。

在一些实施例中，样本回复文本包括n个字符，n为大于1的整数，对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率，包括：

将样本文本及样本回复文本输入待训练的大语言模型；

通过待训练的大语言模型，对样本文本进行编码，得到文本特征；

通过待训练的大语言模型，基于样本回复文本，对文本特征进行解码，得到样本回复文本中第1个字符的概率；

通过待训练的大语言模型，基于样本回复文本，对文本特征及样本回复文本中前k个字符的特征进行解码，得到样本回复文本中第k+1个字符的概率，k为大于0且小于n的整数；

将n个字符的概率的乘积，确定为样本回复文本的概率。

在本公开实施例中，将样本文本及样本回复文本输入待训练的大语言模型，以使待训练的大语言模型先对样本文本进行编码，而后通过待训练的大语言模型，以样本回复文本作为参照，对样本文本的文本特征进行解码，不仅能够输出作为样本回复文本的字符，还会得到输出的字符的概率，以指示输出该字符的可能性，待训练的大语言模型基于输入的文本逐字符输出相应的回复文本，并且在逐字符输出回复文本的过程中，不仅会确定输出每个字符的概率，还会考虑已经输出的字符来输出下一个字符，以保证最终输出的回复文本的语义连贯性，同时，还能够保证最终得到的概率能够准确反映出待训练的大语言模型基于样本文本生成样本回复文本的可能性，使得概率能够反映出待训练的大语言模型的准确性，以保证概率的准确性。

在一些实施例中，样本回复文本对包括第一样本回复文本及第二样本回复文本；方法还包括：

确定第五数值及第六数值，第五数值为第一样本回复文本的概率与第一样本回复文本的匹配度之间的差异，第六数值为第二样本回复文本的概率与第二样本回复文本的匹配度之间的差异；

基于第一数值及第二数值，对待训练的大语言模型进行训练，得到训练后的大语言模型，包括：

基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在本公开实施例中，第五数值能够反映出通过待训练的大语言模型获取到第一样本回复文本的概率与第一样本回复文本的匹配度之间的差异，第六数值能够反映出通过待训练的大语言模型获取到第二样本回复文本的概率与第二样本回复文本的匹配度之间的差异，因此，第五数值和第六数值也能够反映出待训练的大语言模型的准确性，因此，基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，以使通过训练后的大语言模型获取到样本回复文本的概率与该样本回复文本的匹配度尽可能相近，使得大语言模型能够学习人类偏好，以使后续训练后的大语言模型能够基于输入文本输出符合人类偏好的回复文本，以提升大语言模型的准确性。

在一些实施例中，基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，得到训练后的大语言模型，包括：

将第一数值、第二数值及幅度参数的乘积，确定第四数值；

将第四数值的相反数与0中的极大值，确定为第一损失值；

将第五数值与第六数值的乘积的相反数，确定为第二损失值；

基于第一损失值与第二损失值的和值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在本公开实施例中，第一数值的绝对值能够反映出大语言模型输出的概率的错误程度，则将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，以使幅度参数能够反映出大语言模型输出的概率的错误程度，且幅度参数与第一数值的绝对值正相关，第一数值的绝对值越大，表示大语言模型越不准确，则幅度参数越大，后续对大语言模型的模型参数的调整幅度越大，则基于第一数值、第二数值及幅度参数获取的第一损失值，不仅能够加快待训练的大语言模型的训练过程，还能够反映出通过待训练的大语言模型得到两个样本回复文本的概率之间大小关系，与这两个样本回复文本的匹配度之间的大小关系的差异；第五数值和第六数值也能够反映出大语言模型的准确性，因此，基于第五数值及第六数值得到的第二损失值能够反映出大语言模型的准确性，则基于第一损失值及第二损失值对待训练的大语言模型进行训练，不仅能够使得大语言模型能够更快的完成训练，还能够使得通过训练后的大语言模型获取到样本回复文本的概率与该样本回复文本的匹配度尽可能相近，使得大语言模型能够学习人类偏好，以使后续训练后的大语言模型能够基于输入文本输出符合人类偏好的回复文本，以提升大语言模型的准确性。

上述图2所示仅为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的另一种大语言模型训练方法的流程图，如图3所示，该方法由电子设备执行，该方法包括：

在步骤S301中，获取样本文本、样本文本的样本回复文本对及样本回复文本对中每个样本回复文本的匹配度，匹配度指示样本回复文本与样本文本的匹配程度，样本回复文本对包括样本文本的两个样本回复文本。

在一些实施例中，获取样本文本的样本回复文本对的过程包括：获取样本文本的多个样本回复文本，将多个样本回复文本中任两个样本回复文本，构成样本文本的样本回复文本对。

在本公开实施例中，样本文本的多个样本回复文本可能是基于不同的采样策略得到，不同的采样策略是指按照不同的方式获取样本文本的样本回复文本。由不同的采样策略采集得到的样本回复文本的数据源不同。例如，在多个样本回复文本中，一部分样本回复文本是由人类编写得到，其他样本回复文本是由GPT(Generative Pre-TrainedTransformer，生成式预训练模型)系列的模型生成。对于一个样本文本，获取多个样本回复文本，以丰富样本回复文本的多样性，多个样本回复文本能够更好地反映实际对话场景，采样不同数据源的样本回复文本，有助于大语言模型学习不同对话场景下的样本回复文本的特征，后续通过多个样本回复文本对待训练的大语言模型进行训练，以使训练后的大语言模型能够适用于多种对话场景，以保证大语言模型的准确性。

在一些实施例中，样本文本的多个样本回复文本构成该样本文本的样本回复文本集合，该样本回复文本集合表示为y_i={y_i,k|y_i,k∈σ(x_i),1≤k≤M}，其中，y_i用于表示样本回复文本集合，σ用于表示采样策略，x_i用于表示样本文本，y_i，k∈σ(x_i)用于表示基于采样策略σ_k采样得到的样本文本的样本回复文本，M用于表示样本文本x_i的样本回复文本的数量。

在一些实施例中，样本文本的每个样本回复文本的匹配度是由人工评估得到。

在本公开实施例中，针对于样本文本，人工评估每个样本回复文本是否回复精准，进而为每个样本回复文本进行打分，即得到每个样本回复文本的匹配度，通过确定样本回复文本的匹配度，能够量化不同样本回复文本之间的质量差异，以使每个样本回复文本的匹配度能够反映出人类偏好，以保证后续训练的大语言模型能够按照人类偏好来生成准确的回复文本，以保证回复文本的准确性。

在一些实施例中，对于样本文本的每个样本回复文本的匹配度的获取方式，包括：通过评分模型，对样本文本及样本回复文本进行编码，得到编码特征；通过评分模型，对编码特征进行特征变换，得到样本回复文本的匹配度。

在本公开实施例中，评分模型用于确定任一文本与回复文本的匹配度，该评分模型是基于人类反馈训练的模型，也即是，该评分模型能够按照人类偏好确定出文本与回复文本的匹配度。例如，评分模型为Scoring Model With Human Preference(具有人类偏好的评分模型)。通过评分模型，对样本文本及任一样本回复文本进行编码，得到编码特征，以使编码特征能够表征样本文本及样本回复文本，进而对编码特征进行特征变换，以将编码特征映射到实数空间，得到一个数值，该数值作为该样本回复文本的匹配度，以保证匹配度的准确性。

在本公开实施例中，在获取到样本文本及该样本文本的多个样本回复文本的情况下，按照上述方式，通过评分模型，对样本文本与每个样本回复文本进行处理，得到每个样本回复文本的匹配度。

在一些实施例中，样本文本、样本回复文本的匹配度，满足以下关系：

R(x，y)＝ω(H(x，y))

其中，x用于表示样本文本，y用于表示样本文本x的样本回复文本，R(·)用于表示评分模型，R(x，y)用于表示样本回复文本y的匹配度，H(x，y)用于表示编码特征，ω(·)用于表示将特征向量映射到实数空间的函数，该函数的权重是按照人类偏好评价训练得到。

在本公开实施例中，评分模型是一个经过优化的函数，评分模型是利用已知的人类偏好的样本文本及样本文本的样本回复文本的匹配度进行训练得到，并且，为了校验和增强评分模型的可信度，在训练评分模型之后，能够通过人工评估来校准评分模型，以保证评分模型输出的匹配度的准确性。在人工评估的过程中，评估员为样本回复文本集合中每个样本回复文本赋予一个匹配度s_i，k，进而以此为基准，利用评分模型确定出该样本回复文本的预测匹配度，进而基于评估员赋予的匹配度和预测匹配度之间的差异，进一步优化评分模型的模型参数。

在步骤S302中，对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率，概率指示待训练的大语言模型基于样本文本生成样本回复文本的可能性。

在一些实施例中，样本回复文本包括n个字符，n为大于1的整数，则确定样本回复文本的概率的过程包括：将样本文本及样本回复文本输入待训练的大语言模型；通过待训练的大语言模型，对样本文本进行编码，得到文本特征；通过待训练的大语言模型，基于样本回复文本，对文本特征进行解码，得到样本回复文本中第1个字符的概率；通过待训练的大语言模型，基于样本回复文本，对文本特征及样本回复文本中前k个字符的特征进行解码，得到样本回复文本中第k+1个字符的概率，k为大于0且小于n的整数；将n个字符的概率的乘积，确定为样本回复文本的概率。

其中，文本特征用于表征样本文本，该文本特征能够以任意的形式表示，例如，文本特征为特征向量。

在本公开实施例中，上述仅是以获取一个样本回复文本的概率为例进行说明，按照上述方式，能够通过待训练的大语言模型获取样本文本的每个样本回复文本的概率。

在一些实施例中，大语言模型包括字符表，该字符表包括多个字符，则确定样本回复文本中第1个字符的概率的过程，包括：通过待训练的大语言模型，对文本特征进行解码，得到第一向量，该第一向量包括多个维度的数值，多个维度与字符表中的多个字符一一对应，每个维度的数值用于表示对应的字符的概率，从该第一向量中确定样本回复文本中第1个字符的概率。

在本公开实施例中，字符表包含的字符汇聚了尽可能多的字符，任意的文本是由该字符表中的字符构成。通过待训练的大语言模型，对文本特征进行解码，得到用于表示字符表中多个字符的概率的第一向量，进而从第一向量中确定出样本回复文本中第1个字符的概率，以保证确定出的概率的准确性。

在一些实施例中，大语言模型包括字符表，该字符表包括多个字符，则确定样本回复文本中第k+1个字符的概率的过程，包括：通过待训练的大语言模型，对样本回复文本中前k个字符进行编码，得到样本回复文本中前k个字符的特征，将文本特征及样本回复文本中前k个字符的特征进行拼接，得到拼接特征，对拼接特征进行解码，得到第二向量，该第二向量包括多个维度的数值，多个维度与字符表中的多个字符一一对应，每个维度的数值用于表示对应的字符的概率，从第二向量中确定样本回复文本中第k+1个字符的概率。

上述确定第k+1个字符的概率的过程，与上述确定第1个字符的概率的过程同理，在此不再赘述。

在步骤S303中，确定第一数值及第二数值，第一数值为样本回复文本对中样本回复文本的概率之间的差值，第二数值为样本回复文本对中样本回复文本的匹配度之间的差值。

在一些实施例中，样本回复信息对包括第一样本回复文本及第二样本回复文本，确定第一数值及第二数值的过程包括：将第一样本回复文本的概率减去第二样本回复文本的概率，得到第一数值，将第一样本回复文本的匹配度减去第二样本回复文本的匹配度，得到第二数值。

在本公开实施例中，第一数值可能是正数也可能是负数，第二数值可能是正数也可能是负数。第一样本回复文本为样本文本的样本回复文本对中的任一个样本回复文本，第二样本回复文本为样本文本的样本回复文本对中的另一个样本回复文本。将第一样本回复文本的概率减去第二样本回复文本的概率，得到第一数值，将第一样本回复文本的匹配度减去第二样本回复文本的匹配度，得到第二数值，以使第一数值与第二数值进行对比时，能够准确反映出通过待训练的大语言模型得到两个样本回复文本的概率之间大小关系，与这两个样本回复文本的匹配度之间的大小关系的差异，进而反映出大语言模型的准确性，以便后续能够对大语言模型进行训练，以提升大语言模型的准确性。

在步骤S304中，将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，幅度参数指示在对大语言模型训练的过程中，对大语言模型的模型参数的调整幅度，第三数值大于1。

在本公开实施例中，第一数值是通过待训练的大语言模型获取两个样本回复文本的概率之间的差值，第一数值的绝对值能够反映出大语言模型输出的概率的错误程度，则将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，以使幅度参数能够反映出大语言模型输出的概率的错误程度，且幅度参数与第一数值的绝对值正相关，第一数值的绝对值越大，表示大语言模型越不准确，则幅度参数越大，后续对大语言模型的模型参数的调整幅度越大。

其中，第三数值为大于1的任意数值。例如，第三数值为e，幅度参数为用于表示样本回复文本对中第一样本回复文本的概率，p_i,j用于表示样本回复文本对中第二样本回复文本的概率。

在步骤S305中，将第一数值、第二数值及幅度参数的乘积，确定第四数值。

在本公开实施例中，将第一数值、第二数值及幅度参数的乘积，确定为第四数值，以使第四数值能够体现出大语言模型的准确性，以便后续基于第四数值对大语言模型进行训练，不仅能够加快大语言模型的训练，也能够提升大语言模型的准确性。

在步骤S306中，将第四数值的相反数与0中的极大值，确定为第一损失值。

在一些实施例中，该第一损失值满足以下关系：

其中，L_rank用于表示第一损失值，p_i，j用于表示样本回复文本对中第一样本回复文本的概率，p_i，k用于表示样本回复文本对中第二样本回复文本的概率，p_i，j-p_i，k用于表示第一数值，r_i，j用于表示样本回复文本对中第一样本回复文本的匹配度，r_i，k用于表示样本回复文本对中第二样本回复文本的匹配度，r_i，j-r_i，k用于表示第二数值，用于表示幅度参数，max(·)用于表示从多个数值中取极大值，用于表示第四数值，用于表示第四数值的相反数，i用于表示样本文本的序号，k和k表示样本文本的样本回复文本的序号。

在步骤S307中，基于第一损失值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在本公开实施例中，利用排序学习中的成对损失函数对待训练的大语言模型进行训练，通过训练大语言模型，以最小化基于成对损失函数得到的损失值，这样，使得训练后的大语言模型能够区分高质量的样本回复文本与低质量的样本回复文本，提升大语言模型的准确性，以便后续通过待训练的大语言模型能够基于任一输入文本生成高质量的回复文本。

需要说明的是，本公开实施例是以样本文本的一个样本回复文本对为例进行说明，而在另一实施例中，还能够获取样本文本的多个样本回复文本对，不同的样本回复文本对中的样本回复文本不完全相同，对于每个样本回复文本对，按照上述步骤S302-S305，确定出每个样本回复文本对对应的第四数值，即得到多个第四数值，对于每个第四数值，将第四数值的相反数与0中的极大值确定为第七数值，即得到多个第七数值，将多个第七数值的和值，确定为第一损失值，以便基于第一损失值对大语言模型进行训练。

需要说明的是，本公开实施例是基于第一数值、第二数值及第三数值确定第一损失值，进而基于第一损失值对待训练的大语言模型进行训练，而在另一实施例中，无需执行上述步骤S304-S307，而是采取其他方式，基于第一数值及第二数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

需要说明的是，本公开实施例是以对待训练的大语言模型进行一次训练为例进行说明，而在另一实施例中，能够按照上述步骤S301-S307对待训练的大语言模型进行迭代训练。例如，在上述步骤S307之后，将步骤S307中训练后的大语言模型作为下一次迭代中的待训练的大语言模型，按照上述步骤S301,获取下一个样本文本及样本回复文本对，进而按照上述步骤S302-S307，对待训练的大语言模型进行下一次迭代。在一些实施例中，在迭代次数达到第一阈值的情况下，或者，在当前迭代的损失值小于第二阈值的情况下，停止对大语言模型进行训练。其中，第一阈值为任意的数值，第二阈值为任意的数值。

需要说明的是，在上述图2至图3所示的实施例的基础上，本公开实施例还能够基于多个样本回复文本的排序，对待训练的大语言模型进行训练，如图4所示，对待训练的大语言模型进行训练的过程，包括：获取样本文本、样本文本的多个样本回复文本及每个样本回复文本的匹配度，基于多个样本回复文本构成多个样本回复文本对；对于每个样本回复文本对，按照上述步骤S302-S304，确定出每个样本回复文本对对应的第四数值，即得到多个第四数值，对于每个第四数值，将第四数值的相反数与0中的极大值确定为第七数值，即得到多个第七数值，将多个第七数值的和值，确定为第一损失值，基于多个样本回复文本的匹配度确定第一序列，基于多个样本回复文本的概率确定第二序列，基于第一序列及第二序列，确定第三损失值，第三损失值指示第一序列与第二序列的差异，基于第一损失值及第三损失值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

其中，第一序列是多个样本回复文本按照匹配度由大到小的排序队列，第二序列是多个样本回复文本按照概率由大到小的排序队列；或者，第一序列是多个样本回复文本按照匹配度由小到大的排序队列，第二序列是多个样本回复文本按照概率由小到大的排序队列。

在本公开实施例中，利用多个样本回复文本的概率的排序队列及多个样本回复文本的匹配度的排序队列之间的差异，对待训练的大语言模型进行训练，以使对样本回复文本进行排序的同时，考虑样本回复文本之间的质量差异，使得大语言模型能够学习人类偏好，从而改善大语言模型输出的回复文本的质量，大大简化了训练流程，提高了训练效率，减少了计算资源消耗，更方便部署和实施。同时，本公开实施例提供的方案中仅需要对大语言模型较少的模型参数进行调整即可，减少了对模型参数的依赖，降低了对大语言模型的训练的需求，能更有效地利用排序学习从样本回复文本对的排序中学习到人类偏好，保证大语言模型的准确性。

并且，本公开实施例提供的大语言模型训练方法，能够减少对大语言模型的超参数依赖，在较少超参数下训练大语言模型，这使得大语言模型在各种任务环境中具备更高的鲁棒性，避免了频繁进行繁琐的超参数调整，降低了大语言模型训练的复杂性，无需特殊优化器或复杂的微调过程；且能够实现高效的训练和学习，有效降低了计算资源消耗，这不仅加速了大语言模型的收敛速度，而且有助于在计算资源有限的条件下实现高效的大语言模型训练。

需要说明的是，在上述图2至图3所示的实施例的基础上，本公开实施例还能够结合样本回复文本的概率与匹配度之间的差异，对待训练的大语言模型进行训练，也即是，对大语言模型进行训练的过程，包括：确定第五数值及第六数值，第五数值为第一样本回复文本的概率与第一样本回复文本的匹配度之间的差异，第六数值为第二样本回复文本的概率与第二样本回复文本的匹配度之间的差异；基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在一些实施例中，基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，包括：将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，幅度参数指示在对大语言模型训练的过程中，对大语言模型的模型参数的调整幅度，第三数值大于1；将第一数值、第二数值及幅度参数的乘积，确定第四数值；将第四数值的相反数与0中的极大值，确定为第一损失值，将第五数值与第六数值的乘积的相反数，确定为第二损失值，基于第一损失值与第二损失值的和值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在上述图2至图3所示的实施例的基础上，本公开实施例能够利用训练后的大语言模型，来生成输入文本的回复文本，生成回复文本的过程包括：获取文本；将文本输入大语言模型进行编码和解码，得到该文本的回复文本。其中，大语言模型是基于上述实施例提供的大语言模型训练方法训练得到。

在本公开实施例中，训练后的大语言模型能够基于输入文本输出符合人类偏好的回复文本，在训练完成大语言模型后，通过训练后的大语言模型，能对任一输入文本进行处理，以得到该输入文本的回复文本，保证回复文本的准确性。

在一些实施例中，大语言模型包括字符表，获取输入文本的回复文本的过程包括：通过训练后的大语言模型，对输入文本进行编码，得到输入文本的特征；通过训练后的大语言模型，对输入文本的特征进行解码，得到字符表中多个字符的第1概率，将最大第1概率的字符确定为回复文本中的第1个字符；通过训练后的大语言模型，对回复文本中当前得到的i个字符进行编码，得到字符特征，将该字符特征与输入文本的特征进行拼接，得到拼接特征，对拼接特征进行解码，得到字符表中多个字符的第i+1概率，将最大第i+1概率的字符确定为回复文本中的第i+1个字符，i为大于0的整数；在回复文本中字符的数量达到第三阈值的情况下，或者，在当前得到字符表中多个字符的概率均小于第四阈值的情况下，将当前得到的字符作为该输入文本的回复文本。

在本公开实施例中，字符表包含的字符汇聚了尽可能多的字符，任意的文本是由该字符表中的字符构成。通过训练后的大语言模型，对文本特征进行解码，得到字符表中多个字符的概率，进而将概率最大的字符作为回复文本中的字符，并还会考虑已经输出的字符来输出下一个字符，以保证最终输出的回复文本的语义连贯性。

本公开实施例提供的方法能够应用于多种场景下，例如，应用于对话场景下或其他场景下。

例如，以应用在对话场景下为例，按照本公开实施例提供的方案，训练完成大语言模型后，能够将训练后的大语言模型部署在服务器中，以使服务器通过训练后的大语言模型能够为对话应用提供服务，终端安装有对话应用，用户通过终端，在对话应用的对话界面中输入任意的文本，终端通过对话应用，向服务器发送输入的文本，服务器通过训练后的大语言模型，获取输入文本的回复文本，向终端发送回复文本，终端接收回复文本，在对话界面中显示回复文本，以实现人机对话。

需要说明的是，上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图5是根据一示例性实施例示出的一种大语言模型训练装置框图，如图5所示，该装置包括：

获取单元501，被配置为执行获取样本文本、样本文本的样本回复文本对及样本回复文本对中每个样本回复文本的匹配度，匹配度指示样本回复文本与样本文本的匹配程度，样本回复文本对包括样本文本的两个样本回复文本；

获取单元501，还被配置为执行对于每个样本回复文本，将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码，得到样本回复文本的概率，概率指示待训练的大语言模型基于样本文本生成样本回复文本的可能性；

确定单元502，被配置为执行确定第一数值及第二数值，第一数值为样本回复文本对中样本回复文本的概率之间的差值，第二数值为样本回复文本对中样本回复文本的匹配度之间的差值；

训练单元503，被配置为执行基于第一数值及第二数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在一些实施例中，训练单元503，被配置为执行将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，幅度参数指示在对大语言模型训练的过程中，对大语言模型的模型参数的调整幅度，第三数值大于1；将第一数值、第二数值及幅度参数的乘积，确定第四数值；将第四数值的相反数与0中的极大值，确定为第一损失值；基于第一损失值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在一些实施例中，样本回复文本包括n个字符，n为大于1的整数，获取单元501，被配置为执行将样本文本及样本回复文本输入待训练的大语言模型；通过待训练的大语言模型，对样本文本进行编码，得到文本特征；通过待训练的大语言模型，基于样本回复文本，对文本特征进行解码，得到样本回复文本中第1个字符的概率；通过待训练的大语言模型，基于样本回复文本，对文本特征及样本回复文本中前k个字符的特征进行解码，得到样本回复文本中第k+1个字符的概率，k为大于0且小于n的整数；将n个字符的概率的乘积，确定为样本回复文本的概率。

在一些实施例中，样本回复文本对包括第一样本回复文本及第二样本回复文本；

确定单元502，还被配置为执行确定第五数值及第六数值，第五数值为第一样本回复文本的概率与第一样本回复文本的匹配度之间的差异，第六数值为第二样本回复文本的概率与第二样本回复文本的匹配度之间的差异；

训练单元503，被配置为执行基于第一数值、第二数值、第五数值及第六数值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

在一些实施例中，训练单元503，被配置为执行将以第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，幅度参数指示在对大语言模型训练的过程中，对大语言模型的模型参数的调整幅度，第三数值大于1；将第一数值、第二数值及幅度参数的乘积，确定第四数值；将第四数值的相反数与0中的极大值，确定为第一损失值；将第五数值与第六数值的乘积的相反数，确定为第二损失值；基于第一损失值与第二损失值的和值，对待训练的大语言模型进行训练，得到训练后的大语言模型。

需要说明的是，上述实施例提供的装置，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的大语言模型训练装置与大语言模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种回复文本获取装置框图，如图6所示，该装置包括：

获取单元601，被配置为获取文本；

获取单元601，还被配置为将文本输入大语言模型进行编码和解码，得到文本的回复文本；

其中，大语言模型是基于上述实施例提供的大语言模型训练方法训练得到。

在一些实施例中，电子设备被提供为终端。图7是根据一示例性实施例示出的一种终端的框图。通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器701所执行以实现本公开中方法实施例提供的大语言模型训练方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707和电源708中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

电源708用于为终端700中的各个组件进行供电。电源708可以是交流电、直流电、一次性电池或可充电电池。当电源708包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，电子设备被提供为服务器。图8是根据一示例性实施例示出的一种服务器的框图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条程序代码，该至少一条程序代码由该处理器801加载并执行以实现上述各个方法实施例提供的大语言模型训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器或者存储器，上述指令可由终端的处理器或者服务器的处理器执行以完成上述大语言模型训练方法。在一些实施例中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述大语言模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种大语言模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一数值及所述第二数值，对所述待训练的大语言模型进行训练，得到训练后的大语言模型，包括：

将以所述第一数值的绝对值为指数、以第三数值为底数的数值，确定为幅度参数，所述幅度参数指示在对所述大语言模型训练的过程中，对所述大语言模型的模型参数的调整幅度，所述第三数值大于1；

将所述第一数值、所述第二数值及所述幅度参数的乘积，确定第四数值；

将所述第四数值的相反数与0中的极大值，确定为第一损失值；

基于所述第一损失值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

3.根据权利要求1所述的方法，其特征在于，所述样本回复文本包括n个字符，n为大于1的整数，所述对于所述每个样本回复文本，将所述样本文本及所述样本回复文本输入待训练的大语言模型进行编码和解码，得到所述样本回复文本的概率，包括：

将所述样本文本及所述样本回复文本输入所述待训练的大语言模型；

通过所述待训练的大语言模型，对所述样本文本进行编码，得到文本特征；

通过所述待训练的大语言模型，基于所述样本回复文本，对所述文本特征进行解码，得到所述样本回复文本中第1个字符的概率；

通过所述待训练的大语言模型，基于所述样本回复文本，对所述文本特征及所述样本回复文本中前k个字符的特征进行解码，得到所述样本回复文本中第k+1个字符的概率，k为大于0且小于n的整数；

将所述n个字符的概率的乘积，确定为所述样本回复文本的概率。

4.根据权利要求1所述的方法，其特征在于，所述样本回复文本对包括第一样本回复文本及第二样本回复文本；所述方法还包括：

确定第五数值及第六数值，所述第五数值为所述第一样本回复文本的概率与所述第一样本回复文本的匹配度之间的差异，所述第六数值为所述第二样本回复文本的概率与所述第二样本回复文本的匹配度之间的差异；

所述基于所述第一数值及所述第二数值，对所述待训练的大语言模型进行训练，得到训练后的大语言模型，包括：

基于所述第一数值、所述第二数值、所述第五数值及所述第六数值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一数值、所述第二数值、所述第五数值及所述第六数值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型，包括：

将所述第五数值与所述第六数值的乘积的相反数，确定为第二损失值；

基于所述第一损失值与所述第二损失值的和值，对所述待训练的大语言模型进行训练，得到所述训练后的大语言模型。

6.一种回复文本获取方法，其特征在于，所述方法包括：

获取文本；

其中，所述大语言模型是基于权利要求1至5任一项权利要求所述的大语言模型训练方法训练得到。

7.一种大语言模型训练装置，其特征在于，所述装置包括：

8.一种回复文本获取装置，其特征在于，所述装置包括：

获取单元，被配置为获取文本；

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至5任一项所述的大语言模型训练方法；或者，以实现如权利要求6所述的回复文本获取方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5任一项所述的大语言模型训练方法；或者，执行如权利要求6所述的回复文本获取方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的大语言模型训练方法；或者，实现如权利要求6所述的回复文本获取方法。