CN116629346B

CN116629346B - 一种语言模型训练方法及装置

Info

Publication number: CN116629346B
Application number: CN202310904628.3A
Authority: CN
Inventors: 朱权; 马建毅; 吕磊
Original assignee: Chengdu Yundun Technology Co ltd
Current assignee: Chengdu Yundun Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-20
Anticipated expiration: 2043-07-24
Also published as: CN116629346A

Abstract

本申请公开了一种语言模型训练方法及装置。所述语言模型训练方法包括：获取主干模型；获取辅助语言模型；将辅助语言模型的最后一层与主干模型的最后一层进行融合从而获取融合模型；对融合模型进行预训练，从而获取训练后的融合模型；对训练后的融合模型进行拆分，从而获取经过训练的最终知识传承模型。本申请采用了基于编码器和解码器的语言模型作为主干网络，其风格相对严谨，同时采用了仅包含解码器（不含编码器）的语言模型作为辅助训练，其风格相对松散。并且，推理时，本发明将该层移除仅保留主干网络，这样辅助网络起到帮助训练的效果，最终使得模型在总体严谨的情况下适度学习发散能力。

Description

一种语言模型训练方法及装置

技术领域

本申请涉及神经网络技术领域，具体涉及一种语言模型训练方法以及语言模型训练装置。

背景技术

现有的实验室知识传承大都依赖于同门口头或书面交流，比较难形成完备的体系，沟通效率相对较低。即便有一些实验室做了数据库或OA系统，但是依然没有能将海量知识做成有机的体系，使用极不便捷。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种语言模型训练方法来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面，提供一种语言模型训练方法，包括：

获取主干模型的初始状态；

获取辅助语言模型的初始状态；

对主干模型以及辅助语言模型进行拼接，从而获取新的网络结构；

根据网络结构，通过辅助语言模型对主干模型进行辅助训练，从而更新所述主干模型的初始状态，从而获取主干模型的最终状态。

可选地，所述辅助语言模型为CPM预训练模型。

可选地，所述CPM预训练模型采用如下方法进行预训练：

获取语料；

通过语料对辅助模型进行自监督训练，从而获取CPM预训练模型的初始状态。

可选地，在所述自监督训练过程中有两个预训练目标，其中一个预训练目标为空白填充、另一个预训练目标为文本生成。

可选地，在进行自监督训练过程中，采用两种掩码策略：其中一种是掩蔽输入的最后一部分词元，用于文本生成；另一种是随机掩蔽输入的词元，用于空白填充。

可选地，所述主干模型为T5模型。

可选地，所述辅助语言模型为GPT2模型。

本申请还提供了一种语言模型训练装置，所述语言模型训练装置包括：

主干模型获取模块，所述主干模型获取模块用于获取主干模型的初始状态；

辅助语言模型获取模块，所述辅助语言模型获取模块用于获取辅助语言模型的初始状态；

融合模块，所述融合模块用于对主干模型以及辅助语言模型进行拼接，从而获取新的网络结构；

训练模块，所述训练模块用于根据网络结构，通过辅助语言模型对主干模型进行辅助训练，从而更新所述主干模型的初始状态，从而获取主干模型的最终状态。

本申请还提供了一种电子设备，所述电子设备包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的语言模型训练方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的语言模型训练方法。

有益效果：

本申请的语言模型训练方法采用了基于编码器和解码器的语言模型作为主干网络，其风格相对严谨，同时采用了仅包含解码器（不含编码器）的语言模型作为辅助训练，其风格相对松散。训练时，本发明将辅助网络的最后一层与主干网络的最后一层进行融合，该层与主干网络一道参与前向、反向传播，而其他层则不参与反向传播。

并且，推理时，本发明将该层移除仅保留主干网络，这样辅助网络起到帮助训练的效果，最终使得模型在总体严谨的情况下适度学习发散能力。然后，本发明准备了相关实验室专业语料，并设计了独有的prompt规则来帮助训练，使得模型能进行专业领域的问答或生成特定风格的教材，包括能考虑学生的不同偏好与研究需要。最后，本发明引入了特有的反馈机制，能让学生在使用中和系统或其他学生互动，帮助系统在使用中不断进化，从而能智能化和人性化。

附图说明

图1为本申请一实施例的语言模型训练方法的流程示意图；

图2是一种电子设备，用于实现图1所示的语言模型训练方法；

图3为文本到文本的框架图；

图4为训练目标示意图；

图5为Transformer架构类别示意图；

图6为不同注意Mask模式的矩阵表示图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

图1为本申请一实施例的语言模型训练方法的流程示意图。

如图1所示的语言模型训练方法包括：

步骤1：获取主干模型的初始状态；

步骤2：获取辅助语言模型的初始状态；

步骤3：对主干模型以及辅助语言模型进行拼接，从而获取新的网络结构；

步骤4：根据网络结构，通过辅助语言模型对主干模型进行辅助训练，从而更新所述主干模型的初始状态，从而获取主干模型的最终状态。

在本实施例中，对主干模型以及辅助语言模型进行拼接是指主干模型的最后一层与辅助语言模型的最后一层进行融合（融合是指特征值的加权拼接），从而获取新的网络结构。

在本实施例中，所述主干模型为T5模型。

参见图3，迁移学习，即模型首先在数据丰富的任务上进行预训练，然后在下游任务上进行微调，其已成为自然语言中的一种强大处理技术。迁移学习的有效性引发了多样化的方法、技术和实践。本发明通过引入一个统一的框架来将所有基于文本的语言问题转换成文本到文本的格式。各种任务，只需针对一个超大预训练模型，考虑怎么把任务转换成合适的文本输入输出，而模型对这些任务的区分只是根据构建的输入输出形式，做一个超级模型，什么任务都能直接处理，而它内部可以是稀疏的，或者可以局部蒸馏，来对单独任务进行处理。

T5模型是Transfer Text-to-Text Transformer的简写。Transfer 来自TransferLearning，预训练模型大都在这范畴，Transformer使用正余弦函数的位置编码，BERT使用的是学习到的位置嵌入，而文中使用的是相对位置嵌入。Text-to-Text是一个统一框架，将所有 NLP任务都转化成Text-to-Text（文本到文本）任务。

1）输入输出

该框架为预训练和微调提供了一致的训练目标。具体来说，无论任务如何，都以最大化似然函数为模型训练目标，预训练目标函数与BERT类似，并使用teacher forcing的训练方式。本发明将多个NLP 任务转换为一个共同的形式：提出NLD（Natural LanguageDecathlon），一个为十个NLP 任务使用一致的问答格式的基准形式。NLD还规定所有模型必须是多任务的，即能够同时处理所有任务。同时，为了区分模型的任务，需要向原始输入序列中添加前缀后再输入模型。

参见图4，在上图4所示实例中，将句子“Thank you for inviting me to yourparty last week”处理成“Thank you <X> me to your party <Y> week”。单词“for”、“inviting”和“last”是随机选择的，这些单词在句子中有唯一的标记（显示为<X>和<Y>）。由于“for”和“inviting”是连续出现的，它们被单个标记<X>替换。输出序列由mask掉的词或序列组成，由输入中的标记将这些序列分隔，最后加上最终的标记<Z>。

2）预训练模型架构

参见图5以及图6，先对预训练模型中的多种模型架构（Transformer）进行了比对，最主要的模型架构可以分成下面三种：

第一种，Encoder-Decoder型，即Seq2Seq常用模型，分成 Encoder和Decoder两部分，对于Encoder部分，输入可以看到全体，之后将结果传输到Decoder，而Decoder因为输出方式只能看到之前的。此架构代表是MASS，而BERT可以看作是其中Encoder部分。

第二种，相当于上面的Decoder部分，当前时间步只能看到之前时间步信息。典型代表是GPT2还有最近CTRL这样的。

第三种，Prefix LM（Language Model）型，可看作是上面 Encoder和Decoder的融合体，一部分如Encoder 一样能看到全体信息，一部分如Decoder一样只能看到过去信息。

上面这些模型架构都是Transformer构成，之所以有这些变换，主要是对其中注意力机制的Mask操作。

（2）CPM预训练模型

预训练语言模型（PLM）已被开发用于自然语言处理（NLP）中的各种任务，如他们可以从大规模语料库中学习丰富的语言知识，这有利于下游任务。

在这些PLM中，具有1750亿个参数和570GB训练数据的GPT-3一直是人们关注的焦点，并被证明在各种少样本（甚至零样本）NLP 任务中有效。GPT-3强大的文本生成能力使其适用于多种应用，如问答、摘要、对话、计算基本算法以及生成各种文本，包括论文、小说、代码、电子表格等。但是，结合GPT-3来解决中文NLP任务仍然具有挑战性，因为GPT-3的训练语料库主要是英语，并且参数不公开。尽管之前有一些作品提供了强大的中文预训练语言模型，但它们的能力有限由于模型大小。因此，如何预训练一个大规模的中文语言模型需要更多的探索，比如中文词汇的构建和训练策略的设计。

在本专利中，本发明发布了在大规模中文语料库上进行生成式预训练的中文预训练语言模型（CPM）。CPM是基于Transformer的自回归语言模型，拥有26亿个参数和100GB中文训练数据。据本发明所知，CPM是最大的中文预训练语言模型，可以促进下游的中文NLP任务，例如会话、论文生成、完形填空测试和语言理解。对各种中国 NLP任务的实验表明，CPM在少样本（甚至零样本）设置下的许多 NLP任务上都取得了很好的性能。随着参数的增加，CPM在大多数数据集上表现更好，表明更大的模型更擅长语言生成和语言理解。

1）预训练目标

CPM利用空白填充和文本生成作为其预训练目标，空白填充和文本生成都是以自回归的方式进行的。为了为这两个目标构造自监督数据，本发明采用了两种掩码（masking）策略：一种是掩蔽输入的最后一部分词元（token），用于文本生成；另一种是随机掩蔽输入的词元，用于空白填充。掩蔽率遵循均匀分布。对于每个样本，本发明将以50%的概率随机掩蔽输入来进行文本填充，或以另50%的概率掩蔽最后的词元来进行文本生成。

2）预训练Soft Prompts

在CPM中，本发明引入了一些预训练的soft prompt来切换模型模式。对于空白填充和文本生成，本发明分别设置了相对应的soft prompt。这些soft prompt由几个可学习的向量（embedding）组成。在预训练过程中，这些soft prompt被添加到输入中，激发特定训练目标的知识来处理输入。在为下游任务适配CPM时，只有与任务相关的soft prompt被用于微调CPM。

3）统一模型架构

由于本发明希望CPM能够对各种下游任务具有足够的通用性，本发明没有使用Transformer的原始编码器-解码器架构，而是采用了一个统一的模型架构，同时对上下文和生成的词元进行编码，通过修改注意力掩码的方式来控制生成过程。

，其中，

M表示注意力掩码，表示Hadamard乘积，Q使用上下文作为查询码，K使用上下文表示查询键，T是矩阵转置符号（K需要做转置操作）、V上下文表示值，B表示注意力权重偏置矩阵、Softmax表示激活函数，d_k代表k的维度。

所以Q乘以K的转置和偏置B相加生成上下文的权重矩阵，该权重和上下文表示值V相乘，即可生成预测词的注意力掩码，利用该注意力掩码即可预测下一个词。

为了使训练更加稳定，本发明在模型中使用了如下的Pre-LN Residual结构。

；

；其中，

表示归一化层函数，/>表示归一化的值，y_att表示注意力掩码值，x表示本层输入数据，y表示注意力掩码与本层输入数据相加的值，/>表示掩码（Masked）机制。

4）多段机制和相对位置偏置

本发明将CPM的输入切分成若干个段，每个段都用来承载特定的信息。具体来说，soft prompts、空白填充数据和文本生成数据分别归属于不同的段。本发明采用多段式机制来组织CPM的数据。具体来说，对于第i个词元，本发明额外分配了一个位置编码和段编码/>。有了这两个编码，本发明就可以计算出相对位置偏置。

；其中，

B表示在注意力层中使用的偏置矩阵，表示用于将词元之间的相对距离映射为偏置值，/>表示偏置值，i表示第i个词，j代表第j个词，/>表示i词向量的位置编码、Pj表示j词向量的位置编码,/>以及/>表示词向量段编码，使用这两个编码，可以计算出相对位置偏置。直观地说，多段相对位置偏置可以充分考虑段的相关性来编码相对距离。在CPM中，为了简单起见，如果两个词元不属于同一个段，无论它们的相对距离是多少，本发明都会分配一个统一的偏置值/>。

（3）prompt规则

在传统的NLP监督学习系统中，获取输入x，通常是文本，并基于模型预测出y。y可以是标签、文本或其他各种输出。为了学习该模型的参数/>，使用包含输入和输出对的数据集，并训练一个模型来预测该条件概率。

提示（Prompting）：监督学习的主要问题是，为了训练模型，有必要为任务提供监督数据，而对于许多任务，这些数据是无法大量找到的。

NLP基于提示（Prompt）的学习方法试图通过学习建模文本x自身概率的LM，并使用该概率预测y，从而避免或减少对大型有监督数据集的需求，从而绕过这一问题。

添加提示（Prompting）：在此步骤中，对于输入的文本，有函数，将x转化成prompt的形式/>，即：

；

包括两个步骤：

1）应用一个模板，这是一个文本字符串，有两个槽：一个输入槽[X]用于输入X，另一个答案槽[Z]用于中间生成的答案文本Z，该答案文本Z稍后将映射到y。

2）用输入文本x填充槽[X]。

值得注意的是：

1）上面的提示（prompt）将在提示的中间或末尾z填充一个空槽。在下面的文本中，将第一种类型的提示称为完形填空提示（cloze prompt），而第二种类型的提示称为前缀提示（prefix prompt），其中输入文本完全位于z之前。

2）在许多情况下，这些模板词不一定由自然语言标记组成；它们可以是虚拟词（例如，由数字ID表示），稍后会嵌入到连续空间中，一些提示方法甚至会直接生成连续向量。

3）[X]槽的数量和[Z]槽的数量可以根据手头任务的需要灵活更改。

答案搜索：接下来，搜索得分最高的文本，以最大化LM的得分。本发明首先将Z定义为z的一组允许值。对于生成型任务，可以是整个语言的范围，或者在分类的情况下，可以是语言中单词的一小部分。

然后，定义一个函数用可能的答案z填充提示/>中的位置[Z]。本发明将调用经过此过程的任何提示（prompt）作为填充提示（prompt）。特别是，如果提示中填写的是真实答案，将其称为已回答提示（answered prompt）。最后，本发明通过使用预先训练的LMP计算相应填充提示的概率来搜索潜在答案集z。

；

其中：表示模型的权重参数，P表示模型预测下一个字条件概率、Search表示搜索函数。

此搜索函数可以是搜索得分最高的输出的argmax搜索，也可以是根据LM的概率分布随机生成输出的采样。

答案映射：最后，想从得分最高的答案到得分最高的输出/>。在某些情况下，这很简单，因为答案本身就是输出，但在其他情况下，多个答案可能会导致相同的输出。

本申请还提供了一种语言模型训练装置，所述语言模型训练装置包括主干模型获取模块、辅助语言模型获取模块、融合模块、预训练模块以及拆分模块，其中，

主干模型获取模块用于获取主干模型；

辅助语言模型获取模块用于获取辅助语言模型；

融合模块用于将辅助语言模型的最后一层与主干模型的最后一层进行融合，从而获取融合模型；

预训练模块用于对所述融合模型进行预训练，从而获取训练后的融合模型；

拆分模块用于对训练后的融合模型进行拆分，从而将辅助语言模型从所述融合模型中拆分出，从而获取经过训练的最终知识传承模型。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的语言模型训练方法。

图2是能够实现根据本申请一个实施例提供的语言模型训练方法的电子设备的示例性结构图。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备501接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的语言模型训练方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的语言模型训练方法。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM)、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数据多功能光盘（DVD）或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元（Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种语言模型训练方法，其特征在于，包括：

获取主干模型的初始状态，所述主干模型为T5模型；

获取辅助语言模型的初始状态，所述辅助语言模型为CPM预训练模型；

根据网络结构，通过辅助语言模型对主干模型进行辅助训练，从而更新所述主干模型的初始状态，从而获取主干模型的最终状态，其中，根据网络结构，通过辅助语言模型对主干模型进行辅助训练采用迁移学习的方式进行学习；其中，

对主干模型以及辅助语言模型进行拼接是指主干模型的最后一层与辅助语言模型的最后一层进行融合，融合是指特征值的加权拼接，从而获取新的网络结构。

2.如权利要求1所述的语言模型训练方法，其特征在于，所述CPM预训练模型采用如下方法进行预训练：

获取语料；

3.如权利要求2所述的语言模型训练方法，其特征在于，在所述自监督训练过程中有两个预训练目标，其中一个预训练目标为空白填充、另一个预训练目标为文本生成。

4.如权利要求3所述的语言模型训练方法，其特征在于，在进行自监督训练过程中，采用两种掩码策略：其中一种是掩蔽输入的最后一部分词元，用于文本生成；另一种是随机掩蔽输入的词元，用于空白填充。

5.一种语言模型训练装置，其特征在于，包括：

主干模型获取模块，所述主干模型获取模块用于获取主干模型的初始状态，所述主干模型为T5模型；

辅助语言模型获取模块，所述辅助语言模型获取模块用于获取辅助语言模型的初始状态，所述辅助语言模型为CPM预训练模型；

训练模块，所述训练模块用于根据网络结构，通过辅助语言模型对主干模型进行辅助训练，从而更新所述主干模型的初始状态，从而获取主干模型的最终状态，其中，根据网络结构，通过辅助语言模型对主干模型进行辅助训练采用迁移学习的方式进行学习；其中，

6.一种电子设备，其特征在于，所述电子设备包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的语言模型训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现如权利要求1至4中任意一项所述的语言模型训练方法。