CN117454954A

CN117454954A - 模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN117454954A
Application number: CN202311360675.2A
Authority: CN
Inventors: 陈孝良; 涂贤玲; 李良斌; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-01-26

Abstract

本申请提供了一种模型训练方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对于任一样本文本数据，对样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对样本文本数据进行预测得到的预测结果；基于样本文本数据的第二预测信息、样本文本数据的标签信息、第一正则化参数、第二正则化参数以及目标语言模型的模型参数，确定目标语言模型的训练损失；基于训练损失，更新目标语言模型的模型参数。上述技术方案能够有效解决大语言模型出现的幻象问题，提高模型的泛化能力。

Description

模型训练方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种模型训练方法、装置、计算机设备及存储介质。

背景技术

随着大规模深度学习模型的发展，大模型幻象问题已成为一个日益严重的问题。也即是，在模型训练过程中，大规模模型容易在训练数据上表现良好，但在新的、未见过的数据上表现糟糕。因此大规模模型在面对某些输入时，会生成不准确、不完整或误导性的输出。相关技术中，虽然使用更复杂的模型结构、更多的训练数据或者更好的训练策略可能会对大模型幻象问题有所帮助，但并不能完全解决该问题。因此，目前急需一种能够解决大模型幻象问题的模型训练方法。

发明内容

本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质，能够有效解决大语言模型出现的幻象问题，提高模型的泛化能力。所述技术方案如下：

一方面，提供了一种模型训练方法，所述方法包括：

对于任一样本文本数据，对所述样本文本数据的多个第一预测信息进行加权平均，得到所述样本文本数据的第二预测信息，所述多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对所述样本文本数据进行预测得到的预测结果，所述多个目标语言子模型基于不同的初始化参数对初始语言模型进行训练得到，所述目标语言子模型用于对输入的文本数据进行处理以输出所述文本数据的预测类别概率分布，所述第二预测信息用于指示所述目标语言模型对所述样本文本数据进行预测得到预测结果；

基于所述样本文本数据的第二预测信息、所述样本文本数据的标签信息、第一正则化参数、第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失，所述标签信息用于指示所述样本文本数据的真实类别，所述训练损失用于指示所述第二预测信息与所述标签信息之间的差异，所述第一正则化参数和所述第二正则化参数用于降低所述目标语言模型的复杂程度；

基于所述训练损失，更新所述目标语言模型的模型参数。

另一方面，提供了一种模型训练装置，所述装置包括：

第一平均模块，用于对于任一样本文本数据，对所述样本文本数据的多个第一预测信息进行加权平均，得到所述样本文本数据的第二预测信息，所述多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对所述样本文本数据进行预测得到的预测结果，所述多个目标语言子模型基于不同的初始化参数对初始语言模型进行训练得到，所述目标语言子模型用于对输入的文本数据进行处理以输出所述文本数据的预测类别概率分布，所述第二预测信息用于指示所述目标语言模型对所述样本文本数据进行预测得到预测结果；

第一确定模块，用于基于所述样本文本数据的第二预测信息、所述样本文本数据的标签信息、第一正则化参数、第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失，所述标签信息用于指示所述样本文本数据的真实类别，所述训练损失用于指示所述第二预测信息与所述标签信息之间的差异，所述第一正则化参数和所述第二正则化参数用于降低所述目标语言模型的复杂程度；

更新模块，用于基于所述训练损失，更新所述目标语言模型的模型参数。

在一些实施例中，所述第一确定模块，包括：

第一确定单元，用于基于所述样本文本数据的第二预测信息，确定所述样本文本数据的预测类别概率分布，所述预测类别概率分布由所述目标语言模型对所述样本文本数据进行处理时输出；

第二确定单元，用于基于所述预测类别概率分布，确定目标预测类别，所述目标预测类别为所述预测类别概率分布中概率最高的预测类别；

第三确定单元，用于基于所述目标预测类别、所述真实类别、所述第一正则化参数、所述第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失。

在一些实施例中，所述第三确定单元，用于基于所述目标预测类别和所述真实类别，确定所述目标语言模型的分类损失，所述分类损失用于指示所述目标预测类别和所述真实类别之间的差异；基于所述第一正则化参数和所述第二正则化参数，对所述模型参数进行正则化，得到正则化后的所述模型参数的参数值；对所述分类损失和所述参数值进行求和，得到所述目标语言模型的训练损失。

在一些实施例中，所述装置还包括：

采样模块，用于对训练数据集进行多次随机采样，得到多个采样数据集，所述训练数据集包括多个样本文本数据，所述多个采样数据集与所述多个目标语言子模型一一对应；

训练模块，用于基于所述多个采样数据集，分别对所述初始语言模型进行训练，得到所述多个目标语言子模型。

在一些实施例中，所述训练模块，包括：

划分单元，用于对于所述多个采样数据集中的任一采样数据集，对所述采样数据集进行划分，得到K个相互独立且大小相同的采样数据子集，K为正整数；

训练单元，用于基于所述K个采样数据子集，对所述初始语言模型进行K次训练，得到K个语言子模型；

验证单元，用于基于所述K个采样数据子集，分别对所述K个语言子模型进行交叉验证，得到交叉验证结果，所述交叉验证结果包括所述K个语言子模型分别在所述K个采样数据子集上进行验证得到的验证误差，所述验证误差用于指示所述语言子模型对所述采样数据子集中的样本文本数据进行预测得到的预测类别与所述样本文本数据的真实类别之间的差异；

第四确定单元，用于基于所述交叉验证结果，将所述K个语言子模型中验证误差最小的语言子模型，确定为所述采样数据集对应的目标语言子模型。

在一些实施例中，所述训练单元，用于对于所述K个采样数据子集中的任一采样数据子集，在所述采样数据子集为验证数据集的情况下，基于除所述采样数据子集外的K-1个采样数据子集，对所述初始语言模型进行训练，得到所述语言子模型；

在一些实施例中，所述验证单元，用于基于所述语言子模型，对所述采样数据子集中的样本文本数据进行预测，得到所述样本文本数据的预测类别；基于所述样本文本数据的预测类别和所述样本文本数据的真实类别，确定所述语言子模型的验证误差。

在一些实施例中，所述多个目标语言子模型基于不同的第一正则化参数和第二正则化参数对所述初始语言模型进行训练得到；

所述装置还包括：

第二平均模块，用于对于任一目标语言子模型，对所述目标语言子模型的交叉验证结果中的多个验证误差进行平均，得到交叉验证误差，所述交叉验证误差用于指示所述目标语言子模型的泛化能力；

第二确定模块，用于基于所述多个目标语言子模型的交叉验证误差，确定目标正则化参数，所述目标正则化参数为交叉验证误差最小的目标语言子模型的第一正则化参数和第二正则化参数；

调整模块，用于将所述多个目标语言子模型的第一正则化参数和第二正则化参数的参数值，调整为所述目标正则化参数的参数值。

在一些实施例中，所述装置还包括：

预处理模块，用于获取多个待处理的样本文本数据；对所述多个待处理的样本文本数据进行数据预处理，得到训练数据集，所述训练数据集包括多个样本文本数据，所述数据预处理包括数据清洗、数据规范化、数据增强以及分词中的至少一种。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现本申请实施例中的模型训练方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现本申请实施例中的模型训练方法。

本申请实施例提供了一种模型训练方法，在目标语言模型的训练阶段，通过引入集成学习算法，使得基于不同的初始化参数对初始语言模型进行训练得到的多个目标语言子模型能够分别对样本文本数据进行预测，通过对预测得到的样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，也即目标语言模型对样本文本数据进行预测得到的预测结果，能够提高预测结果的准确性；并且，通过在损失函数中引入包括第一正则化参数、第二正则化参数以及模型参数的正则化项，能够在更新模型参数的同时，降低模型的复杂程度，提高模型的泛化能力，上述方式能够有效解决大语言模型出现的幻象问题，使得模型不仅训练数据上表现良好，提升了模型的训练效果，还能降低模型在处理真实数据时的出错概率，提升了模型在预测时的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种模型训练方法的实施环境示意图；

图2是根据本申请实施例提供的一种模型训练方法的流程图；

图3是根据本申请实施例提供的另一种模型训练方法的流程图；

图4是根据本申请实施例提供的一种模型训练流程的示意图；

图5是根据本申请实施例提供的一种模型训练装置的框图；

图6是根据本申请实施例提供的另一种模型训练装置的框图；

图7是根据本申请实施例提供的一种终端的结构示意图；

图8是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本文本数据是在充分授权的情况下获取的。

图1是根据本申请实施例提供的一种模型训练方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101为手机、台式电脑、笔记本电脑、平板电脑、智能手表等多种类型的终端。终端101上可以安装并运行有应用程序，服务器102能够为终端101中的应用程序提供后台服务。例如，用户可以通过在应用程序中的交互操作，将需要处理的文本数据上传至服务器102，由服务器102基于训练完成的大语言模型，对文本数据进行处理，从而下发对应的处理结果。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102能够基于多个样本文本数据，对初始语言模型进行训练，从而得到训练完成的大语言模型。

在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101两者之间采用分布式计算架构进行协同计算。

图2是根据本申请实施例提供的一种模型训练方法的流程图，该方法由服务器执行，参见图2，该方法包括以下步骤：

201、对于任一样本文本数据，服务器对样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对样本文本数据进行预测得到的预测结果，多个目标语言子模型基于不同的初始化参数对初始语言模型进行训练得到，目标语言子模型用于对输入的文本数据进行处理以输出文本数据的预测类别概率分布，第二预测信息用于指示目标语言模型对样本文本数据进行预测得到预测结果。

在本申请实施例中，样本文本数据可以包括汉字、字母、阿拉伯数字以及标点符号等文本类型的数据。服务器可以通过多种方式获取样本文本数据。例如，服务器可以从本地数据库中获取样本文本数据，也可以从其他服务器中获取样本文本数据，还可以将多个终端上传的文本数据作为样本文本数据，本申请实施例对样本文本数据的文本类型和来源不作限定。目标语言模型通过对文本数据进行处理，能够完成自然语言处理(NLP，NaturalLanguage Processing)领域的多种任务，如自然语言生成(对话、摘要、创作等)、自然语言处理理解(机器翻译，文本分类，语义理解与问答)、信息检索以及情感分析等任务。

其中，该目标语言模型包括多个目标语言子模型，对于任一目标语言子模型，由于目标语言子模型用于对输入的文本数据进行处理以输出文本数据的预测类别概率分布。因此，对于任一样本文本数据，服务器能够基于多个目标语言子模型，分别对样本文本数据进行预测得到样本文本数据的多个第一预测信息。第一预测信息用于指示目标语言子模型对样本文本数据进行预测得到的预测结果。相应地，为了得到目标语言模型对样本文本数据的预测结果，服务器能够对多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，第二预测信息用于指示目标语言模型对样本文本数据进行预测得到的预测结果。

202、服务器基于样本文本数据的第二预测信息、样本文本数据的标签信息、第一正则化参数、第二正则化参数以及目标语言模型的模型参数，确定目标语言模型的训练损失，标签信息用于指示样本文本数据的真实类别，训练损失用于指示第二预测信息与标签信息之间的差异，第一正则化参数和第二正则化参数用于降低目标语言模型的复杂程度。

在本申请实施例中，服务器基于第二预测信息、标签信息、第一正则化参数、第二正则化参数以及该目标语言模型的模型参数，能够确定目标语言模型的训练损失。其中，该训练损失用于指示第二预测信息中样本文本数据的预测类别和标签信息中样本文本数据的真实类别之间的差异。第一正则化参数和第二正则化参数能够分别对目标语言模型的模型参数进行正则化，以限制模型参数的参数值，从而降低目标语言模型的复杂程度，提高目标语言模型的泛化能力。

203、服务器基于训练损失，更新目标语言模型的模型参数。

在本申请实施例中，服务器基于该训练损失，能够对目标语言模型的模型参数进行更新，以使目标语言模型的训练损失减小，训练得到更新后的目标语言模型。若更新后的目标语言模型满足训练结束条件，如训练次数为目标次数，或者目标语言模型的训练损失在目标范围内，则将更新后的目标语言模型作为训练完成的目标语言模型。

图3是根据本申请实施例提供的另一种模型训练方法的流程图，该方法由服务器执行，参见图3，该方法包括以下步骤：

301、服务器对多个待处理的样本文本数据进行数据预处理，得到训练数据集，训练数据集包括多个样本文本数据，数据预处理包括数据清洗、数据规范化、数据增强以及分词中的至少一种。

在本申请实施例中，多个待处理样本文本数据可以来源于新闻、百科、论坛帖子和电子书籍等。服务器可以通过多种数据预处理方式对待处理的样本数据进行数据预处理，以得到模型训练所使用的训练数据集。例如，多种数据预处理方式包括数据清洗、数据规范化、数据增强以及分词。可选地，这些数据预处理方式的过程请参见下述(1)-(4)。

(1)数据清洗：能够去除文本数据中的特殊字符、标点符号、HTML(Hyper TextMark-up Language，超文本标记语言)标签等无关信息，以及处理缩写词、拼写纠错等。可选地，本申请使用正则表达式、字符串操作和文本处理库来对多个待处理的样本文本数据批量执行这步操作。

(2)数据规范化：能够对原始文本数据进行标准化和统一处理，以便更好地进行后续预处理步骤。可选地，本申请采用的数据规范化过程包括以下几种：1、英文数据大小写统一：将文本数据中的字母统一转换为小写或大写，以消除大小写对大模型的影响。这有助于大模型更好地捕捉词语的语义和上下文。2、停用词移除：移除文本数据中的停用词，这些词语在文本数据分析中常常出现但对于任务无关紧要。常见的停用词列表可以根据任务需求进行定制，以减少大模型训练时的噪声和冗余信息。3、加入[CLS]结束标志：在文本数据中的句末加入特殊标志[CLS]以告知大模型其生成停止时间。

(3)数据增强：在处理文本数据时，通过对原始文本数据进行变换和扩充，以增加训练数据的多样性和数量，从而提升训练后的大模型的文本数据分类、文本数据生成等自然语言处理任务的性能。可选地，本申请采用了同义词替换、随机插入、随机删除、随机交换以及音义转换等方法在原始文本数据上进行数据增强。

(4)分词(Tokenization)：将文本数据分割成单词、子词或字符级别的单位，以便大模型能够理解和处理。可选地，本申请使用BPE(Byte Pair Encoding，字节对编码)或子词分词(Subword Tokenization)对文本进行分词，按照分割后的子词构建语料库。本申请还能采用预训练的分词深度学习网络按照词语对文本进行分词并构建词表，相比于按照字进行分词，虽然词表规模变大，但是方便大模型在训练中学到更多的关键信息。

302、服务器对训练数据集进行多次随机采样，得到多个采样数据集，多个采样数据集与多个目标语言子模型一一对应。

在本申请实施例中，训练数据集中包括数据预处理后的多个样本文本数据，服务器通过对训练数据集进行多次随机采样(有放回)，并将每次随机采样得到的样本文本数据构成一个采样数据集，能够得到多个采样数据集。其中，多个采样数据集作为初始语言模型的训练数据集，与训练得到的多个目标语言子模型一一对应。由于多个目标语言子模型基于不同的采样数据集对初始语言模型训练得到。因此，对于任一采样数据集，服务器基于该采样数据集，对初始语言模型进行训练，能够得到该采样数据对应的目标语言子模型。

303、服务器基于多个采样数据集，分别对初始语言模型进行训练，得到目标语言模型，目标语言模型包括多个目标语言子模型。

在本申请实施例中，服务器能够基于多个采样数据集，分别对初始语言模型进行训练，得到包括多个目标语言子模型的目标语言模型。其中，每个目标语言子模型都基于不同的初始化参数和优化器对初始语言模型进行训练得到。可选地，本申请采用He初始化(HeInitialization)进行模型参数初始化，每一层模型参数的生成是由均值为0，方差为2/神经元数量的高斯分布随机采样得到的。由于大模型的数据量和参数量很大，因此本申请采用分布式优化器来更新模型参数，如Distributed SGD(Distributed StochasticGradient Descent，分布式随机梯度下降算法)、AllReduce-SGD(一种全局规约的随机梯度下降算法)和Parameter Server(参数服务器)等。

可选地，目标语言模型可以是大规模语言模型(Large Language Model，LLM)，如GPT-3(Generative Pretrained Transformer-3，生成式预训练变换器-3)、PaLM(PathwaysLanguage Model，路径语言模型)或者LLaMA(Large Language Model Meta ArtificialIntelligence，大型语言模型元人工智能)，本申请实施例对此不进行限制。

在一些实施例中，服务器能够采用K折交叉验证对初始语言模型进行训练，得到目标语言子模型。相应地，对于多个采样数据集中的任一采样数据集，服务器对采样数据集进行划分，得到K个相互独立且大小相同的采样数据子集，K为正整数；然后，服务器基于K个采样数据子集，对初始语言模型进行K次训练，得到K个语言子模型；然后，服务器基于K个采样数据子集，分别对K个语言子模型进行交叉验证，得到交叉验证结果，交叉验证结果包括K个语言子模型分别在K个采样数据子集上进行验证得到的验证误差，验证误差用于指示语言子模型对采样数据子集中的样本文本数据进行预测得到的预测类别与样本文本数据的真实类别之间的差异；最后，服务器基于交叉验证结果，将K个语言子模型中验证误差最小的语言子模型，确定为采样数据集对应的目标语言子模型。其中，在服务器基于一个采样数据集对初始语言模型进行训练的过程中，服务器采用K折交叉验证，能够将采样数据集划分成K个相互独立且大小相同的采样数据子集。并在基于K个采样数据子集对初始语言模型进行K次训练的过程中，服务器能够在每次训练时使用K-1个采样数据子集，对初始语言模式进行训练，从而得到K个不同的语言子模型。进一步，服务器能够基于K个采样数据子集，对K个语言子模型进行交叉验证，得到交叉验证结果，交叉验证结果包括K个语言子模型的验证误差，能够反映训练得到的K个语言子模型的模型性能。验证误差越小，模型的预测准确率越高，模型性能越好。服务器基于交叉验证结果，将模型性能最好的语言子模型作为目标语言子模型，能够降低模型出现过度拟合、未知误解、因果错误和错误预测等大模型幻象问题的概率，提高模型的泛化能力。

例如，K＝5时，服务器能够将采样数据集划分成5个采样数据子集，分别为A、B、C、D、E。在基于这5个采样数据子集，对初始语言模型进行5次训练的过程中，服务器基于A、B、C、D，对初始语言模型进行第一次训练，能够得到第一个语言子模型。服务器基于A、B、C、E对初始语言模型进行第二次训练，能够得到第二个语言子模型。以此类推，服务器基于[A、B、D、E]、[A、C、D、E]和[B、C、D、E]分别对初始语言模型进行第三次、第四次、第五次训练，能够得到第三个、第四个、第五个语言子模型。然后，服务器基于A、B、C、D、E分别对第五个、第四个、第三个、第二个以及第一个语言子模型进行验证，能够得到这五个语言子模型的验证误差。

在一些实施例中，服务器基于K个采样数据子集对初始语言模型进行训练并对训练得到的语言子模型进行验证的过程包括：对于K个采样数据子集中的任一采样数据子集，在采样数据子集为验证数据集的情况下，服务器基于除该采样数据子集外的K-1个采样数据子集，对初始语言模型进行训练，得到语言子模型；然后，服务器基于语言子模型，对采样数据子集中的样本文本数据进行预测，得到样本文本数据的预测类别；最后，服务器基于样本文本数据的预测类别和样本文本数据的真实类别，确定语言子模型的验证误差。其中，在K次训练的过程中，服务器能够将K个采样数据子集分别作为一次验证数据集。对于任一采样数据子集，在本次训练过程中，若该采样数据子集为验证数据集，则服务器能够将除该采样数据子集外的K-1个采样数据子集作为训练数据集，对初始语言模型进行训练，从而得到语言子模型。相应地，服务器能够基于训练后的语言子模型，得到样本文本数据的预测类别，并基于该预测类别和标签信息中的样本文本数据的真实类别，确定语言子模型的验证误差，来反映该语言子模型的模型性能。

可选地，服务器基于语言子模型，对采样数据子集中的样本文本数据进行预测，能够得到样本文本数据的预测类别概率分布，服务器将预测类别概率分布中概率最高的预测类别确定为最终输出的预测类别。

在一些实施例中，多个目标语言子模型基于不同的第一正则化参数和第二正则化参数对初始语言模型进行训练得到，因此，服务器还能基于多个目标语言子模型的交叉验证结果对第一正则化参数和第二正则化参数的值进行调整，以确定第一正则化参数和第二正则化参数的最优参数值。相应地，服务器调整第一正则化参数和第二正则化参数的过程包括：对于任一目标语言子模型，服务器对目标语言子模型的交叉验证结果中的多个验证误差进行平均，得到交叉验证误差，交叉验证误差用于指示目标语言子模型的泛化能力；然后，服务器基于多个目标语言子模型的交叉验证误差，确定目标正则化参数，目标正则化参数为交叉验证误差最小的目标语言子模型的第一正则化参数和第二正则化参数；最后，服务器将多个目标语言子模型的第一正则化参数和第二正则化参数的参数值，调整为目标正则化参数的参数值。其中，为了评估目标语言子模型的模型性能，服务器能够将交叉验证结果中的K个的语言子模型的验证误差进行平均，得到交叉验证误差。交叉验证误差能够反映目标语言子模型的泛化能力，交叉验证误差越小，表明模型的泛化能力越强，模型性能越好。因此，服务器能够从多个目标语言子模型中，确定交叉验证误差最小的目标语言子模型，并将该目标语言子模型的第一正则化参数和第二正则化参数确定为目标正则化参数，也即该目标正则化参数的参数值为第一正则化参数和第二正则化参数的最优参数值。服务器通过将其他目标语言子模型的正则化参数的参数值调整为该目标正则化参数的参数值，能够调整对目标语言模型的模型参数进行正则化的程度，从而有效防止模型过拟合，提高模型的泛化能力。

304、对于任一样本文本数据，服务器基于多个目标语言子模型，分别对样本文本数据进行预测，得到样本文本数据的多个第一预测信息，目标语言子模型用于对输入的文本数据进行处理以输出文本数据的预测类别概率分布。

在本申请实施例中，该样本文本数据可以是上述训练数据集中的样本文本数据，也可以是其他文本数据集中的样本文本数据，本申请实施例对此不进行限制。对于任一目标语言子模型，由于该目标语言子模型用于对输入的文本数据进行处理以输出文本数据的预测类别概率分布。因此，对于任一样本文本数据，服务器能够基于多个目标语言子模型，分别对样本文本数据进行预测得到样本文本数据的多个第一预测信息，第一预测信息用于指示目标语言子模型对样本文本数据的预测类别概率分布。

305、服务器对样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，第二预测信息用于指示目标语言模型对样本文本数据进行预测得到预测结果。

在本申请实施例中，目标语言模型包括多个目标语言子模型，因此服务器能够对多个目标子模型对样本文本数据的预测结果进行结合，得到目标语言模型对样本文本数据的预测结果。相应地，服务器能够对样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，第二预测信息用于指示目标语言模型对样本文本数据进行预测得到的预测结果。

306、服务器基于样本文本数据的第二预测信息，确定样本文本数据的预测类别概率分布，预测类别概率分布由目标语言模型对样本文本数据进行处理时输出。

在本申请实施例中，由于第一预测信息用于指示目标语言子模型对样本文本数据的预测类别概率分布，因此，服务器基于对多个第一预测信息进行加权求和得到的第二预测信息，能够确定目标语言模型对样本文本数据的预测类别概率分布。其中，该预测类别概率分布用于表示目标语言模型对每个预测类别的概率估计。

307、服务器基于预测类别概率分布，确定目标预测类别，目标预测类别为预测类别概率分布中概率最高的预测类别。

在本申请实施例中，预测类别的概率越高，表明样本文本数据的真实类别为该预测类别的可能性越大。因此，服务器基于该预测类别概率分布，能够将多个预测类别中概率最高的预测类别确定为目标预测类别，也即确定为目标语言模型对样本文本数据的最终预测结果。

308、服务器基于目标预测类别、样本文本数据的标签信息、第一正则化参数、第二正则化参数以及目标语言模型的模型参数，确定目标语言模型的训练损失，标签信息用于指示样本文本数据的真实类别，训练损失用于指示第二预测信息与标签信息之间的差异，第一正则化参数和第二正则化参数用于降低目标语言模型的复杂程度。

在本申请实施例中，标签信息用于指示样本文本数据的真实类别，服务器基于目标预测类别、真实类别、第一正则化参数、第二正则化参数以及该目标语言模型的模型参数，能够确定目标语言模型的训练损失。其中，训练损失与准确度反相关，目标语言模型的训练损失越小，目标语言模型输出的目标预测类别与样本文本数据的真实类别之间的差异也越小，目标语言模型输出的预测结果的准确度也越高。第一正则化参数和第二正则化参数能够分别对目标语言模型的模型参数进行正则化，以限制模型参数的参数值，从而降低目标语言模型的复杂程度，提高目标语言模型的泛化能力。另外，本申请还能够根据目标语言模型的学习状态、梯度信息、置信度等指标来动态地调整第一正则化参数和第二正则化参数的参数值，该参数值用于指示对模型参数进行正则化的程度。

在一些实施例中，服务器能够在目标语言模型的损失函数中引入一个线性混合的正则化项，来确定目标语言模型的训练损失。相应地，服务器基于目标预测类别和真实类别，确定目标语言模型的分类损失，分类损失用于指示目标预测类别和真实类别之间的差异；然后，服务器基于第一正则化参数和第二正则化参数，对模型参数进行正则化，得到正则化后的模型参数的参数值；对分类损失和参数值进行求和，得到目标语言模型的训练损失。其中，该线性混合的正则化项包括L1正则化项和L2正则化项，第一正则化参数为L1正则化项的权重，第二正则化参数为L2正则化项的权重，L1正则化项和L2正则化项分别用模型参数进行表示。服务器能够先基于目标预测类别和真实类别，确定用于反映目标预测类别和真实类别之间的差异的分类损失，该分类损失为未引入正则化项时目标语言模型的训练损失，计算该分类损失的损失函数可以为负对数似然损失交、叉熵损失函数、指数损失函数等，本申请实施例对此不进行限制。然后，服务器通过对该分类损失和正则化后的模型参数的参数值进行求和，得到引入正则化项后目标语言模型的训练损失。

在一些实施例中，服务器通过下述公式一，确定目标语言模型的训练损失。

公式一：

L_new＝L+λ₁∑|w|+λ₂∑w²

其中，L_new为目标语言模型的训练损失，L为目标语言模型的分类损失，λ₁为第一正则化参数，λ₂为第二正则化参数，w为目标语言模型的模型参数。

309、服务器基于训练损失，更新目标语言模型的模型参数。

为了便于理解上述模型训练方法的具体过程，本申请实施例提供了一种模型训练流程的示意图。如图4所示，在训练数据准备阶段，服务器能够对待处理的多个样本文本数据进行数据预处理，得到目标语言模型的训练数据集。准备好目标语言模型的训练数据后，在模型训练阶段，服务器能够结合正则化、K折交叉验证和集成学习技术，来提高训练后的目标语言模型的泛化能力并减少大模型幻象问题的出现概率。

图5是根据本申请实施例提供的一种模型训练装置的框图。该装置用于执行上述模型训练方法执行时的步骤，参见图5，该模型训练装置包括：第一平均模块501、第一确定模块502以及更新模块503。

第一平均模块501，用于对于任一样本文本数据，对样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，多个第一预测信息用于表示目标语言模型包括的多个目标语言子模型分别对样本文本数据进行预测得到的预测结果，多个目标语言子模型基于不同的初始化参数对初始语言模型进行训练得到，目标语言子模型用于对输入的文本数据进行处理以输出文本数据的预测类别概率分布，第二预测信息用于指示目标语言模型对样本文本数据进行预测得到预测结果；

第一确定模块502，用于基于样本文本数据的第二预测信息、样本文本数据的标签信息、第一正则化参数、第二正则化参数以及目标语言模型的模型参数，确定目标语言模型的训练损失，标签信息用于指示样本文本数据的真实类别，训练损失用于指示第二预测信息与标签信息之间的差异，第一正则化参数和第二正则化参数用于降低目标语言模型的复杂程度；

更新模块503，用于基于训练损失，更新目标语言模型的模型参数。

在一些实施例中，图6是根据本申请实施例提供的另一种模型训练装置的框图。参见图6，第一确定模块502，包括：

第一确定单元601，用于基于样本文本数据的第二预测信息，确定样本文本数据的预测类别概率分布，预测类别概率分布由目标语言模型对样本文本数据进行处理时输出；

第二确定单元602，用于基于预测类别概率分布，确定目标预测类别，目标预测类别为预测类别概率分布中概率最高的预测类别；

第三确定单元603，用于基于目标预测类别、真实类别、第一正则化参数、第二正则化参数以及目标语言模型的模型参数，确定目标语言模型的训练损失。

在一些实施例中，第三确定单元603，用于基于目标预测类别和真实类别，确定目标语言模型的分类损失，分类损失用于指示目标预测类别和真实类别之间的差异；基于第一正则化参数和第二正则化参数，对模型参数进行正则化，得到正则化后的模型参数的参数值；对分类损失和参数值进行求和，得到目标语言模型的训练损失。

在一些实施例中，继续参见图6，装置还包括：

采样模块504，用于对训练数据集进行多次随机采样，得到多个采样数据集，训练数据集包括多个样本文本数据，多个采样数据集与多个目标语言子模型一一对应；

训练模块505，用于基于多个采样数据集，分别对初始语言模型进行训练，得到多个目标语言子模型。

在一些实施例中，继续参见图6，训练模块505，包括：

划分单元604，用于对于多个采样数据集中的任一采样数据集，对采样数据集进行划分，得到K个相互独立且大小相同的采样数据子集，K为正整数；

训练单元605，用于基于K个采样数据子集，对初始语言模型进行K次训练，得到K个语言子模型；

验证单元606，用于基于K个采样数据子集，分别对K个语言子模型进行交叉验证，得到交叉验证结果，交叉验证结果包括K个语言子模型分别在K个采样数据子集上进行验证得到的验证误差，验证误差用于指示语言子模型对采样数据子集中的样本文本数据进行预测得到的预测类别与样本文本数据的真实类别之间的差异；

第四确定单元607，用于基于交叉验证结果，将K个语言子模型中验证误差最小的语言子模型，确定为采样数据集对应的目标语言子模型。

在一些实施例中，训练单元605，用于对于K个采样数据子集中的任一采样数据子集，在采样数据子集为验证数据集的情况下，基于除采样数据子集外的K-1个采样数据子集，对初始语言模型进行训练，得到语言子模型；

在一些实施例中，验证单元606，用于基于语言子模型，对采样数据子集中的样本文本数据进行预测，得到样本文本数据的预测类别；基于样本文本数据的预测类别和样本文本数据的真实类别，确定语言子模型的验证误差。

在一些实施例中，多个目标语言子模型基于不同的第一正则化参数和第二正则化参数对初始语言模型进行训练得到；

继续参见图6，装置还包括：

第二平均模块506，用于对于任一目标语言子模型，对目标语言子模型的交叉验证结果中的多个验证误差进行平均，得到交叉验证误差，交叉验证误差用于指示目标语言子模型的泛化能力；

第二确定模块507，用于基于多个目标语言子模型的交叉验证误差，确定目标正则化参数，目标正则化参数为交叉验证误差最小的目标语言子模型的第一正则化参数和第二正则化参数；

调整模块508，用于将多个目标语言子模型的第一正则化参数和第二正则化参数的参数值，调整为目标正则化参数的参数值。

在一些实施例中，继续参见图6，装置还包括：

预处理模块509，用于获取多个待处理的样本文本数据；对多个待处理的样本文本数据进行数据预处理，得到训练数据集，训练数据集包括多个样本文本数据，数据预处理包括数据清洗、数据规范化、数据增强以及分词中的至少一种。

本申请实施例提供了一种模型训练装置，在目标语言模型的训练阶段，通过引入集成学习算法，使得基于不同的初始化参数对初始语言模型进行训练得到的多个目标语言子模型能够分别对样本文本数据进行预测，通过对预测得到的样本文本数据的多个第一预测信息进行加权平均，得到样本文本数据的第二预测信息，也即目标语言模型对样本文本数据进行预测得到的预测结果，能够提高预测结果的准确性；并且，通过在损失函数中引入包括第一正则化参数、第二正则化参数以及模型参数的正则化项，能够在更新模型参数的同时，降低模型的复杂程度，提高模型的泛化能力，上述方式能够有效解决大语言模型出现的幻象问题，使得模型不仅训练数据上表现良好，提升了模型的训练效果，还能降低模型在处理真实数据时的出错概率，提升了模型在预测时的准确性。

需要说明的是：上述实施例提供的模型训练装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思，其具体实现过程见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图7是根据本申请实施例提供的一种终端的结构示意图。该终端700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器701所执行以实现本申请中方法实施例提供的模型训练方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707和电源708中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。在一些实施例中，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

电源708用于为终端700中的各个组件进行供电。电源708可以是交流电、直流电、一次性电池或可充电电池。当电源708包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器709。该一个或多个传感器709包括但不限于：加速度传感器710、陀螺仪传感器711、压力传感器712、光学传感器713以及接近传感器714。

加速度传感器710可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器710可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器710采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器710还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器711可以检测终端700的机体方向及转动角度，陀螺仪传感器711可以与加速度传感器710协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器711采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器712可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器712设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器712采集的握持信号进行左右手识别或快捷操作。当压力传感器712设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器713用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器713采集的环境光强度，控制显示屏705的显示亮度。可选地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器713采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器714，也称距离传感器，设置在终端700的前面板。接近传感器714用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器714检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器714检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是根据本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条计算机程序，该至少一条计算机程序由该处理器801加载并执行以实现上述各个方法实施例提供的模型训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由处理器加载并执行以实现上述实施例中的模型训练方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行以实现本申请实施例中的模型训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

基于所述训练损失，更新所述目标语言模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本文本数据的第二预测信息、所述样本文本数据的标签信息、第一正则化参数、第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失，包括：

基于所述样本文本数据的第二预测信息，确定所述样本文本数据的预测类别概率分布，所述预测类别概率分布由所述目标语言模型对所述样本文本数据进行处理时输出；

基于所述预测类别概率分布，确定目标预测类别，所述目标预测类别为所述预测类别概率分布中概率最高的预测类别；

基于所述目标预测类别、所述真实类别、所述第一正则化参数、所述第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标预测类别、所述真实类别、所述第一正则化参数、所述第二正则化参数以及所述目标语言模型的模型参数，确定所述目标语言模型的训练损失，包括：

基于所述目标预测类别和所述真实类别，确定所述目标语言模型的分类损失，所述分类损失用于指示所述目标预测类别和所述真实类别之间的差异；

基于所述第一正则化参数和所述第二正则化参数，对所述模型参数进行正则化，得到正则化后的所述模型参数的参数值；

对所述分类损失和所述参数值进行求和，得到所述目标语言模型的训练损失。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对训练数据集进行多次随机采样，得到多个采样数据集，所述训练数据集包括多个样本文本数据，所述多个采样数据集与所述多个目标语言子模型一一对应；

基于所述多个采样数据集，分别对所述初始语言模型进行训练，得到所述多个目标语言子模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个采样数据集，分别对所述初始语言模型进行训练，得到所述多个目标语言子模型，包括：

对于所述多个采样数据集中的任一采样数据集，对所述采样数据集进行划分，得到K个相互独立且大小相同的采样数据子集，K为正整数；

基于所述K个采样数据子集，对所述初始语言模型进行K次训练，得到K个语言子模型；

基于所述K个采样数据子集，分别对所述K个语言子模型进行交叉验证，得到交叉验证结果，所述交叉验证结果包括所述K个语言子模型分别在所述K个采样数据子集上进行验证得到的验证误差，所述验证误差用于指示所述语言子模型对所述采样数据子集中的样本文本数据进行预测得到的预测类别与所述样本文本数据的真实类别之间的差异；

基于所述交叉验证结果，将所述K个语言子模型中验证误差最小的语言子模型，确定为所述采样数据集对应的目标语言子模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述K个采样数据子集，对所述初始语言模型进行K次训练，得到K个语言子模型，包括：

对于所述K个采样数据子集中的任一采样数据子集，在所述采样数据子集为验证数据集的情况下，基于除所述采样数据子集外的K-1个采样数据子集，对所述初始语言模型进行训练，得到所述语言子模型；

所述基于所述K个采样数据子集，分别对所述K个语言子模型进行交叉验证，得到交叉验证结果，包括：

基于所述语言子模型，对所述采样数据子集中的样本文本数据进行预测，得到所述样本文本数据的预测类别；

基于所述样本文本数据的预测类别和所述样本文本数据的真实类别，确定所述语言子模型的验证误差。

7.根据权利要求5所述的方法，其特征在于，所述多个目标语言子模型基于不同的第一正则化参数和第二正则化参数对所述初始语言模型进行训练得到；

所述方法还包括：

对于任一目标语言子模型，对所述目标语言子模型的交叉验证结果中的多个验证误差进行平均，得到交叉验证误差，所述交叉验证误差用于指示所述目标语言子模型的泛化能力；

基于所述多个目标语言子模型的交叉验证误差，确定目标正则化参数，所述目标正则化参数为交叉验证误差最小的目标语言子模型的第一正则化参数和第二正则化参数；

将所述多个目标语言子模型的第一正则化参数和第二正则化参数的参数值，调整为所述目标正则化参数的参数值。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个待处理的样本文本数据；

对所述多个待处理的样本文本数据进行数据预处理，得到训练数据集，所述训练数据集包括多个样本文本数据，所述数据预处理包括数据清洗、数据规范化、数据增强以及分词中的至少一种。

9.一种模型训练装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至8任一项权利要求所述的模型训练方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至8任一项权利要求所述的模型训练方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项权利要求所述的模型训练方法。