CN117744760A

CN117744760A - 文本信息的识别方法、装置、存储介质及电子设备

Info

Publication number: CN117744760A
Application number: CN202311788393.2A
Authority: CN
Inventors: 赵旭东
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-22

Abstract

本申请实施例提供了一种文本信息的识别方法，其中，该方法包括：对为目标文本识别场景训练语言模型的训练过程进行检测，其中，目标文本识别场景是属于目标领域的文本信息的识别场景；在检测到训练过程已完成的情况下，获取训练过程得到的第一语言模型，以及第一语言模型的第一优化器；对第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对第一优化器进行更新，得到第二语言模型的第二优化器；使用第二优化器和属于目标领域的文本样本对第二语言模型进行训练，得到目标语言模型。通过本申请，可以解决相关技术中大型语言模型训练效率较低的问题，能够实现提高大型语言模型训练效率的效率。

Description

文本信息的识别方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及计算机领域，具体而言，涉及一种文本信息的识别方法、装置、存储介质及电子设备。

背景技术

随着大型语言模型的应用需求越来越大，大型语言模型的训练过程也愈发受到关注。一般而言，大语言模型具有较大的网络层数以及较多的模型参数，目前训练大型语言模型的方式一般采用直接训练的方法，即按照所需建立的大型语言模型的层数需求构建对应的初始模型，再使用大量的训练样本对初始模型进行训练，最终得到对应的大型语言模型。但是由于所需建立的大型语言模型的层数和模型参数均较多，若按照这样的训练方式训练则训练过程中的训练压力会比较大，训练效率也会比较低。

发明内容

本申请实施例提供了一种文本信息的识别方法、装置、存储介质及电子设备，以至少解决相关技术中大型语言模型训练效率较低的问题。

根据本申请的一个实施例，提供了一种文本信息的识别方法，包括：

对为目标文本识别场景训练语言模型的训练过程进行检测，其中，所述目标文本识别场景是属于目标领域的文本信息的识别场景；

在检测到所述训练过程已完成的情况下，获取所述训练过程得到的第一语言模型，以及所述第一语言模型的第一优化器，其中，所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程；

对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，其中，所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层，所述第二网络层的网络参数与所述第一网络层的网络参数相同，所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程；

使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，得到目标语言模型，其中，所述目标语言模型用于识别属于目标领域的文本信息。

在一个示例性实施例中，所述使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

从所述第二优化器中提取所述第一网络层的网络参数的参考迭代过程，得到第三优化器；

使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练。

在一个示例性实施例中，所述使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行N轮训练，并根据所述N轮训练更新所述第二优化器，得到第三语言模型和第四优化器，其中N为大于0的整数；

使用所述第四优化器以及属于所述目标领域的文本样本对所述第三语言模型进行M轮训练，其中M为大于0的整数。

在一个示例性实施例中，所述使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行N轮训练，并根据所述N轮训练更新所述第二优化器，得到第三语言模型和第四优化器，包括：

在所述N轮训练的每一轮训练中，使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型中的第一网络层进行P次训练，得到第四语言模型和第五优化器，其中，P为大于0的整数；

使用所述第四语言模型中的所述第一网络层的网络参数对所述第四语言模型中的所述第二网络层的网络参数进行更新，得到第五语言模型，以及使用所述第五优化器中记录的所述第一网络层的网络参数的迭代过程对所述第二优化器中记录的对所述第一网络层和所述第二网络层的网络参数的迭代过程进行更新，得到第六优化器；

使用所述第六优化器以及属于所述目标领域的文本样本对所述第五语言模型进行K次训练，得到第六语言模型和第七优化器，其中，k为大于0的整数；

获取在所述N轮训练中当前所处的训练轮数；

在当前对所述第二语言模型的所述训练轮数为对所述第二语言模型的第N轮训练的情况下，将所述第六语言模型确定为所述第三语言模型，以及将所述第七优化器确定为所述第四优化器；

在当前对所述第二语言模型的所述训练轮数为除所述第N轮训练以外的其他轮训练的情况下，将所述第六语言模型确定为所述第二语言模型，以及使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新。

在一个示例性实施例中，所述使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新，包括：

获取与所述第三优化器中存储的对所述第一网络层的第一优化参数对应的第一权重，以及所述第七优化器中存储的所述第一网络层的第二优化参数对应的第二权重，其中，所述优化参数用于指示对对应的网络层的网络参数的迭代过程；

使用所述第一权重对所述第一优化参数进行加权计算，得到第三优化参数，以及使用所述第二权重对所述第二优化参数进行加权计算，得到第四优化参数；

将所述第三优化器中存储的第一网络层的优化参数更新为所述第三优化参数和所述第四优化参数的和值。

在一个示例性实施例中，所述对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，包括：

获取对所述第一网络层的目标扩展层数；

按照所述目标扩展层数对所述第一网络层进行复制，得到所述目标扩展层数的所述第二网络层；

将依次连接的所述第二网络层添加在所述第一语言模型的所述第一网络层之后，得到所述第二语言模型。

在一个示例性实施例中，所述获取对所述第一网络层的目标扩展层数，包括：

获取所述第一语言模型的目标损失值，其中，所述目标损失值用于表征所述第一语言模型对目标样本的识别响应结果和所述目标样本标注的识别响应结果的差异情况；

从具有对应的系的损失值和扩展层数中确定出与所述目标损失值对应的所述目标扩展层数。

在一个示例性实施例中，所述对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，包括：

按照对所述第一网络层进行层数扩展的目标扩展层数对所述第一优化器中的第一信息进行复制，得到第二信息，其中，所述第一信息用于指示对所述第一网络层的网络参数的迭代过程；

将所述第二信息添加到所述第一优化器中与所述第二网络层对应的位置，得到所述第二优化器。

根据本申请的另一个实施例，提供了一种文本信息的识别装置，包括：

检测模块，用于对为目标文本识别场景训练语言模型的训练过程进行检测，其中，所述目标文本识别场景是属于目标领域的文本信息的识别场景；

获取模块，用于在检测到所述训练过程已完成的情况下，获取所述训练过程得到的第一语言模型，以及所述第一语言模型的第一优化器，其中，所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程；

扩展模块，用于对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，其中，所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层，所述第二网络层的网络参数与所述第一网络层的网络参数相同，所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程；

训练模块，用于使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，得到目标语言模型，其中，所述目标语言模型用于识别属于目标领域的文本信息。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请，获取经过为目标文本识别场景训练的第一语言模型，以及第一语言模型的第一优化器，通过在第一语言模型的基础上进行网络层的扩展，使得扩展后的第二语言模型一方面能够继承第一语言模型的训练结果，另一方面能够满足模型网络层数规模的需求，并对第一优化器进行更新，得到第二语言模型的第二优化器，进而通过使用第二优化器和属于目标领域的文本样本对第二语言模型进行训练的方式，使得第二语言模型能够更快的收敛。因此，可以解决相关技术中大型语言模型训练效率较低的问题，能够实现提高大型语言模型训练效率的效率。

附图说明

图1是根据本申请实施例的一种文本信息的识别方法的服务器设备的硬件结构框图；

图2是根据本申请实施例的一种文本信息的识别方法的流程图；

图3是根据本申请实施例的一种可选的第二语言模型的构成情况的示意图；

图4是根据本申请实施例的一种可选的N轮训练中一轮训练的示意图；

图5是根据本申请实施例的一种可选的第一语言模型扩展得到第二语言模型的示意图；

图6是根据本申请实施例的一种文本信息的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在服务器设备或者类似的运算装置中执行。以运行在服务器设备上为例，图1是本申请实施例的一种文本信息的识别方法的服务器设备的硬件结构框图。如图1所示，服务器设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述服务器设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述服务器设备的结构造成限定。例如，服务器设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的文本信息的识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至服务器设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器设备的通信供应方提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种文本信息的识别方法，图2是根据本申请实施例的一种文本信息的识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，对为目标文本识别场景训练语言模型的训练过程进行检测，其中，所述目标文本识别场景是属于目标领域的文本信息的识别场景；

步骤S204，在检测到所述训练过程已完成的情况下，获取所述训练过程得到的第一语言模型，以及所述第一语言模型的第一优化器，其中，所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程；

步骤S206，对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，其中，所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层，所述第二网络层的网络参数与所述第一网络层的网络参数相同，所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程；

步骤S208，使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，得到目标语言模型，其中，所述目标语言模型用于识别属于目标领域的文本信息。

通过上述步骤，通过本申请，获取经过为目标文本识别场景训练的第一语言模型，以及第一语言模型的第一优化器，通过在第一语言模型的基础上进行网络层的扩展，使得扩展后的第二语言模型一方面能够继承第一语言模型的训练结果，另一方面能够满足模型网络层数规模的需求，并对第一优化器进行更新，得到第二语言模型的第二优化器，进而通过使用第二优化器和属于目标领域的文本样本对第二语言模型进行训练的方式，使得第二语言模型能够更快的收敛。因此，可以解决相关技术中大型语言模型训练效率较低的问题，能够实现提高大型语言模型训练效率的效率。

可选地，上述文本信息的识别方法可以但不限于部署在用于运行上述文本信息识别方法的服务器或者终端设备上，服务器或者终端设备在可以但不限与在接收到请求对目标领域的目标文本进行识别的文本识别请求后，执行上述文本信息的识别方法，即执行为目标文本识别场景训练语言模型的训练过程，并获取训练过程得到的第一语言模型以及第一语言模型的第一优化器，通过对第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对第一优化器进行更新得到第二优化器，从而会用第二优化器和目标领域的文本样本对第二语言模型进行训练，进而在训练结束后得到能够对目标领域的文本进行识别的目标语言模型，进而可以基于得到的目标语言模型响应文本和别请求，通过目标语言模型对目标文本进行文本信息的识别；或者服务器或者终端还可以在固定的模型训练周期执行上述文本信息识别方法所包括的模型训练操作，进而在训练得到的目标语言模型用于在接收到对目标领域的目标文本进行识别的文本识别请求后，响应文本识别请求，使用目标语言模型对目标文本进行文本信息的识别。可选的，在本实施例中，文本信息的识别可以但不限于包括对目标文本进行文本生成、文本翻译、指令生成等操作，比如，识别目标文本的文本语义进行分析，从而生成目标文本所请求生成的文本内容，或者通过对目标文本的语义和上下文进行识别分析，从而对目标文本进行文本翻译，或者通过对目标文本的语义和上下文进行分析，从而生成目标文本所请求生成的对其他设备的运行状态进行控制的控制指令等等，本方案对此不做限定。

在上述步骤S204提供的实施例中，对为目标文本识别场景训练语言模型的训练过程进行检测包括但不限于检测当前语言模型的训练进度，或检测当前训练的语言模型的复杂程度与需求的匹配程度，在确认需要更复杂的语言模型的情况下加大大语言模型的训练规模等。

可选的，在本实施例中，语言模型指的是用来描述语言的概率模型，它可以预测一段文本中下一个词或者一段文本的概率。语言模型可以用来评估句子的合理性、语法正确性和一致性，同时也可以用于自然语言处理任务中的词性标注、语音识别、机器翻译等领域。常见的语言模型包括n-gram模型、循环神经网络(RNN)模型、长短时记忆网络(LSTM)模型和Transformer模型等。在本申请中，对语言模型的类型不做具体限定。

可选的，在本实施例中，优化器指的是一种用于优化模型参数的算法。在机器学习和深度学习领域，优化器被用于调整模型的参数，使得模型能够更好地拟合训练数据并在测试数据上取得更好的性能。常见的优化器包括梯度下降、随机梯度下降、Adam、RMSprop等。这些优化器通过不同的方式更新模型参数，以最小化损失函数并提高模型的性能。在本申请中，通过优化器记录的迭代过程结合文本训练样本对语言模型进行训练。本申请对具体涉及的优化器类型不做具体限定。

可选的，在本申请例中，网络层可以但不限于用于对输入的数据执行加权、组合、转换、特征处理、数据生成等操作，网络层可以但不限于包括输入层、隐藏层、输出层、全连接层、卷积层、池化层、循环层等等。

可选的，在本实施例中，所述迭代过程指的是通过重复执行一系列步骤或操作，逐步地逼近或达到目标的过程。迭代过程通常包括初始化、循环执行、更新状态等步骤，直到满足特定条件为止。

可选的，在本实施例中，获取得到的第一语言模型是模型层数较少训练过程较短的小规模的语言模型。

在上述步骤S204提供的实施例中，在整个的大型语言模型的训练过程中预先训练了网络层数较小，训练过程较为简单的小语言模型，之后可再在小语言模型的基础上训练大型语言模型，大型语言模型吸收了小语言模型的训练成果再进行训练，可以有效加快训练的过程，提高语言模型训练的效率。

可选的，在本申请实施例中，第一网络层可以但不限于是语言模型所包括的某个类型的网络层的集合，或者还可以是某个类型的网络层集合中包括的某个子层，比如，第一网络模型可以是语言模型中的用于执行卷积操作的卷积层集合，或者还可以是卷积层集合中包括多个卷积层中的任意一个，本方案对此不做限定。

可选的，在本实施例中，对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型包括但不限于对第一网络层进行复制，从而在第一网络层的基础上扩展出第二网络层，在本实施例中，对第一网络层进行扩展时可以按照网络层数的扩展需求进行扩展比如，网络层扩展需求需要在第一网络层的基础上扩展出目标数值的第二网络层，因此可以直接将第一网络层扩展复制目标数值的次数，这种方式适用与扩展的目标数值较小的情况，当单次扩展的层数较大时，不利于对第二语言模型的模型训练收敛；或者对第一网络层进扩展时还可以按照目标扩展层数进行复制扩展，目标扩展层数可以是根据语言模型训练经验设置的固定值，目标扩展层数可以让第二语言模型的收敛速率满足目标收敛速率条件。

可选的，在本申请实施例中，网络模型的优化器是用来调整模型参数以最小化损失函数的工具，优化器中记录有与语言模型中每个网络层的网络参数对应的迭代过程。

可选地，在本申请实施例中，对第一优化器的更新可以是根据对第一语言模型的第一网络层的网络层扩展情况，在第一优化器为每个第二网络层复制第一网络层的网络参数的迭代过程。

在上述步骤S208提供的实施例中，使用所述第二优化器和属于所述目标领域的文本样本对所第二语言模型进行训练可以是使用第二优化器和目标领域的文本样本进行多轮迭代训练，即将文本集合中的一个文本样本输入到第二语言模型后，根据第二语言模型输出的结果使用第二优化器对第二语言模型的模型参数进行更新，从而得到更新后的第二语言模型，并从文本集合中提取其他文本样本对更新后的第二语言模型进行训练，进而通过对第二语言模型训练的过程重复执行多轮，从而得到训练后的目标语言模型

可选的，在本申请实施例中，会用第二优化器和属于目标领域的文本样本对第二语言模型进行训练还可以是基于第二优化器和文本样本对第二语言模型中的第一网络层以及第一网络层和第二网络层组成的网络层集合进行交替迭代训练，即先使用第二优化器和目标领域的文本样本对第二语言模型中的第一网络层的网络参数进行更新，使用更新结果对第二语言模型中的第二网络层的网络参数进行更新，然后使用第二优化器和目标领域的文本样本对更新后的第二语言模型中的第一网络层和第二网络层组成的集合的网络参数进行训练，并在更新完第一网络层和第二网络层的集合的网络参数后，再次执行使用第二优化器和目标领域的文本样本对第二语言模型中的第一网络层的网络参数进行更新的操作，如此重复执行多轮对第一网络层以及第一网络层和第二网络层组成的网络层集合的交替迭代训练。

作为一种可选的实施例，所述使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

可选的，在本申请实施例中，优化器中存储了与语言模型中每个网络层的网络参数对应的迭代过程。

可选地，在本申请实施例中，使用第二优化器和第三优化器以及目标领域的文本样本对第二语言模型进行训练可以是先使用第三优化器对第二语言模型中的第一网络层的网络参数进行多轮迭代训练，在迭代训练的过程中，第二网络层的网络参数被锁定，仅训练第一网络层的网络参数，由于参数迭代数量较小，因此第一网络层的网络参数可以快速收敛，在对第一网络参数的多轮迭代训练结束后，可以再使用第一网络参数的迭代更新结果刷新第二网络模型中的第二网络层的网络参数，以及刷新第二优化器中的全部网络层的迭代过程，进而使用更新后的第二优化器和目标领域的文本样本对更新后的第二语言模型的第一网络层和第二网络层进行训练，实现在第一网络层的训练成果的基础行对整个第二语言模型进行训练，加速了整个第二语言模型的收敛速度。

可选的，在本实施例中，图3为一种可选的第二语言模型的构成情况的示意图，如图3所示，第二语言模型包括1-10所有部分，其中，1、4、7、10所形成的组合可构成原第一语言模型，第二优化器中记载的即是1-10中所有网络参数的参考迭代过程，提取其中1、4、7、10的网络参数的迭代过程得到了第三优化器。

作为一种可选的实施例，所述使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

可选地，在本申请实施例中，由于第三优化器中仅记录了对第一网络层的网络参数的参考迭代过程，因此使用第三优化器和目标领域的文本样本对第二语言模型进行N轮训练的过程中第二语言模型中的第二网络层的网络参数可以是是被锁定的，即N轮训练只对第二语言模型中的第一网络层的网络参数进行更新迭代。

可选的，在本申请实施例中，第四优化器是根据N轮训练更新第二优化器得到的，因此，第四优化器中存储了对第三语言模型包括的第一网络层和第二网络层的网络参数进行迭代的迭代过程，因此使用第四优化器以及属于目标领域的文本样本对第三语言模型进行训练时需要对第三语言模型所包括的第一网络层和第二网络层的网络参数进行同时更新。

通过以上步骤，在对模型层数较多的第二语言模型进行训练时，通过使用第三优化器对第二语言模型中的第一网络层的网络参数先进行N轮训练，并在训练结束后更新第二优化器，使用更新后的优化器对N轮训练更新后的第三语言模型进行训练，即先对第一网路参数进行N轮训练，训练过程中将第二网络层的网络参数锁定，由于N轮训练仅更新第一网络层的网络参数，降低网络参数的更新量，加速第一网络参数的收敛速度，进而在N轮训练结束后，使用更新后的第二优化器和目标领域的文本样本对更新后的第二语言模型的第一网络层和第二网络层进行训练，实现在第一网络层的训练成果的基础行对整个第二语言模型进行训练，加速了整个第二语言模型的收敛速度。

作为一种可选的实施例，所述使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行N轮训练，并根据所述N轮训练更新所述第二优化器，得到第三语言模型和第四优化器，包括：

获取在所述N轮训练中当前所处的训练轮数；

可选的，在本实施例中，第六优化器中存储了对第五语言模型包括的第一网络层和第二网络层的网络参数进行迭代的迭代过程，因此使用第六优化器以及属于目标领域的文本样本对第五语言模型进行训练时需要对第五语言模型所包括的第一网络层和第二网络层的网络参数进行同时更新。

可选地，在本实施例中，在N轮训练的每一轮训练中，P次训练和K次训练的比例可以是根据历史训练经验设置的固定比例，比图，为了提高模型收敛速度和训练效率，将P的值设置大于K的值。

可选的，在本实施例中，如图4所示为一种可选的N轮训练中一轮训练的示意图，如图4所示，使用训练文本资源以及与第二语言模型中的第一网络层相对应的第三优化器对第二语言模型中的第一网络层进行P次训练，得到第四语言模型和第五优化器。基于得到的第四语言模型中的第一网络层的网络参数更新第四语言模型中的第二网络层的网络参数，得到第五语言模型，基于得到的第五优化器中记录的P次第一网络层的网络参数迭代过程更新第二优化器中记录的第一网络层的网络参数迭代过程以及第二网络层的网络参数迭代过程，得到第六优化器，至此初步得到的第五语言模型以及第六优化器吸收了此轮P次训练的训练成果。再基于训练文本资源以及得到的第六优化器对第五语言模型进行K次训练，得到N轮训练过程中此轮的输出成果-第六语言模型和第七优化器，所得到的第六语言模型和第七优化器吸收了P次和K次的训练的训练成果。

通过以上内容，在使用第三优化器以及属于目标领域的文本样本对第二语言模型进行的N轮训练中的每一轮训练，通过对第一网络层和由第一网络层和第二网络层组成的网络层集合进行交替训练，即先对第一网络层进行P次训练，并根据训练结果更新第二网络层的网络参数以及第二优化器得到第六优化器，使得第六优化器和第五语言模型集成了第一网络模型的P次训练结果，并用第六优化器对更新后的第一网络层和第二网络层的网络参数进行更新，使用第六优化器以及目标领域文本样本对第五语言模型进行k次训练，并在k次训练后更新第三优化器和第二网络层中的网络参数，使得N轮中的下一轮训练能够继承第一网络模型和第二网络模型组成的集合的参数训练结果，从而提高了模型训练的训练精度，加速模型收敛速度。

作为一种可选的实施例，所述使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新，包括：

可选的，在本申请实施例中，第一权重和第二权重可以根据需求和值的固定值，或者还可以是根据模型的收敛情况或者模型的损失值确定的与模型收敛情况或者模型损失值对应的权重值，本方案对此不做限定。

通过以上步骤，在第一网络层和由第一网络层和第二网络层组成的网络层集合的交替迭代训练过程中，网络层集合的训练过程向第一网络层的训练过程出传递训练结果时，采用加权的方式，从而平衡了交替迭代训练过程中网络层集合的训练结果对第一网络层的参数训练的影响情况。

作为一种可选的实施例，所述对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，包括：

获取对所述第一网络层的目标扩展层数；

可选地，在本申请实施例中，将第一网络层作为老师模型，将对第一网络层进行复制得到的第二网络层以及第一网络层组成的网络层集合作为学生模型，可以有效的将老师模型在海量数据集中学到的知识和生成能力传递给学生模型。如果一次扩展的层数过大，会导致学生模型收敛速度变慢，同时不易于收敛，最终收敛的loss值也会明显高于从头开始预训练学生模型的最终loss值。为此，我们设计了逐级增大模型规模的方法。每次学生模型的层数扩大为老师模型层数的3-4倍，不但可以有效的增大模型规模，还可以保证学生模型收敛最终loss与直接预训练相差不大。这样，只需要两次迭代升级，就可以将一个完成预训练的老师模型的参数量扩大到原来的9倍，大幅减少了学生模型训练所需要的计算量。也就是说，我们如果需要快速训练一个相当于老师模型100倍参数量的学生模型，只需要进行4次迭代扩展，就可以得到继承老师模型的知识，同时还具备思维链和上下文学习等只有大模型才拥有的能力的巨量模型。

可选的，在本实施例中，图5示出了一种可选的第一语言模型扩展得到第二语言模型的示意图，如图5所示，确定了当前的目标扩展层数后，对第一网络层进行复制，并将复制得到的第二网络层连接在对应的第一网络层后，得到第二语言模型。

通过以上步骤，通过按照目标扩展层数对第一网络层进行复制，从而使得模型层数较大的模型继承了层数较小的第一语言模型的训练结果，提高大模型的训练效率。

作为一种可选的实施例，所述获取对所述第一网络层的目标扩展层数，包括：

通过以上步骤，通过获取第一语言模型的目标损失值，根据第一语言模型的损失值确定对第一网络层的目标扩展次数，从而避免模型扩展层数过多对模型训练和模型收敛速度带来的影响，提高模型训练效率。

作为一种可选的实施例，所述对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，包括：

在本申请中，为了满足对模型层数较大的语言模型的训练需求，首先训练一个小模型(后面用老师模型代替，对应上文中的第一语言模型中的第一网络层)，这个小模型已经在TB级的数据集上完成了预训练，但是受限于模型的参数规模，老师模型无法具备较好的思维链和上下文学习的能力。具体实施过程如下：

1.我们将老师模型的参数通过常数扩展的方式(对应上文的对第一网络层进行扩展)，沿着层的方向对学生模型(对应上文中的第二语言模型中的第一网络层和第二网络层)进行初始化，例如，将一个4层的预训练老师模型，扩展到12层的学生模型，我们将老师模型第1层的参数赋值到学生模型的1-3层，以此类推，可以利用老师模型初始化学生模型所有层的参数。除了模型参数之外，也将参数对应的优化器状态。共享参数的网络结构如下图所示，其中橘红色的网格为老师模型参数所在位置，所有网格是学生模型参数所在的位置。老师模型和学生模型有各自的优化器。

2.完成参数和优化器的初始化之后，老师模型和学生模型共享参数，也就是说老师模型是有学生模型的1，4，7，10层组成的，并重新创建一个优化器，用于保存老师模型的优化器状态。这时，老师模型和学生模型都有各自的优化器，学习率等参数。

3.首先对老师模型训练n_1次迭代更新，前向传播过程只有老师模型所在的层进行前向传播，比如第一层在完成计算之后，将输出的结果传递到第4层，跳过第2和3层的计算。更新模型参数的时候，使用老师模型的优化器进行模型参数的更新，由于老师模型的优化器只包括第1，4，7，10层参数的优化器状态，所以更新参数的时候只会更新老师模型部分的参数。由于跳过了第2，3层的计算，反向传播过程也不会计算第2，3层的梯度值，一方面减少了显存的占用，另一方面节省了计算量。

4.将老师模型的优化器状态传递给学生模型对应网络层。

5.学生模型在获取新的优化器状态之后，进行n_2次迭代更新，在学生模型迭代更新的时候，前向传播通过学生模型的所有层，更新参数使用学生模型的优化器，也就可以更新模型中所有层的参数。

6.完成学生模型的迭代更新之后，将学生模型优化器状态中对应老师模型层的状态传递到老师模型的优化器中。

7.重复1-6步，迭代更新老师模型和学生模型的参数和优化器状态。

通过以上的方法，我们可以有效的将老师模型在海量数据集中学到的知识和生成能力传递给学生模型。如果一次扩展的层数过大，会导致学生模型收敛速度变慢，同时不易于收敛，最终收敛的loss值也会明显高于从头开始预训练学生模型的最终loss值。为此，我们设计了逐级增大模型规模的方法。每次学生模型的层数扩大为老师模型层数的3-4倍，不但可以有效的增大模型规模，还可以保证学生模型收敛最终loss与直接预训练相差不大。这样，只需要两次迭代升级，就可以将一个完成预训练的老师模型的参数量扩大到原来的9倍，大幅减少了学生模型训练所需要的计算量。也就是说，我们如果需要快速训练一个相当于老师模型100倍参数量的学生模型，只需要进行4次迭代扩展，就可以得到继承老师模型的知识，同时还具备思维链和上下文学习等只有大模型才拥有的能力的巨量模型。

另外，由于使用了共享参数的方法，老师模型和学生模型共享一部分参数，节省了老师模型这部分参数占用的显存资源，可以支持训练更大的学生模型。

在老师模型和学生模型交替迭代更新，由于老师模型收到参数规模的限制，在后面阶段会限制学生模型的能力。为此我们通过多轮试验，前20％的训练过程采用交替迭代更行，当学生模型充分继承老师模型的知识后，则开始单独训练学生模型，不再对老师力模型进行更新。这样可以在前面阶段训练学生模型的同时，提升老师模型的思维链等能力；后面单独训练学生模型的阶段，避免了老师模型的参数规模对学生模型能力的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在本实施例中还提供了一种文本信息的识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的一种文本信息的识别装置的结构框图，如图6所示，该装置包括：

通过以上内容，获取经过为目标文本识别场景训练的第一语言模型，以及第一语言模型的第一优化器，通过在第一语言模型的基础上进行网络层的扩展，使得扩展后的第二语言模型一方面能够继承第一语言模型的训练结果，另一方面能够满足模型网络层数规模的需求，并对第一优化器进行更新，得到第二语言模型的第二优化器，进而通过使用第二优化器和属于目标领域的文本样本对第二语言模型进行训练的方式，使得第二语言模型能够更快的收敛。因此，可以解决相关技术中大型语言模型训练效率较低的问题，能够实现提高大型语言模型训练效率的效率。

可选的，所述训练模块包括：

提取单元，用于从所述第二优化器中提取所述第一网络层的网络参数的参考迭代过程，得到第三优化器；

训练单元，用于使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练。

可选的，所述训练单元还用于：

所述使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行N轮训练，并根据所述N轮训练更新所述第二优化器，得到第三语言模型和第四优化器，包括：

获取在所述N轮训练中当前所处的训练轮数；

可选的，所述训练单元还用于：

所述使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新，包括：

可选的，所述扩展模块，包括：

获取单元，用于获取对所述第一网络层的目标扩展层数；

第一复制单元，用于按照所述目标扩展层数对所述第一网络层进行复制，得到所述目标扩展层数的所述第二网络层；

第一添加单元，用于将依次连接的所述第二网络层添加在所述第一语言模型的所述第一网络层之后，得到所述第二语言模型。

可选的，所述获取单元还用于：

可选的，所述扩展模块还包括：

第二复制单元，用于按照对所述第一网络层进行层数扩展的目标扩展层数对所述第一优化器中的第一信息进行复制，得到第二信息，其中，所述第一信息用于指示对所述第一网络层的网络参数的迭代过程；

第二添加单元，将所述第二信息添加到所述第一优化器中与所述第二网络层对应的位置，得到所述第二优化器。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本信息的识别方法，其特征在于，

包括：

2.根据权利要求1所述的方法，其特征在于，

所述使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

从所述第二优化器中提取所述第一网络层的网络参数的参考迭代过程，得到第三优化器；使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练。

3.根据权利要求2所述的方法，其特征在于，

所述使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，

获取在所述N轮训练中当前所处的训练轮数；

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

所述对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，包括：

获取对所述第一网络层的目标扩展层数；

7.根据权利要求6所述的方法，其特征在于，

所述获取对所述第一网络层的目标扩展层数，包括：

8.根据权利要求1所述的方法，其特征在于，

所述对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，包括：

9.一种文本信息的识别装置，其特征在于，

包括：

获取模块，用于在检测到所述训练过程已完成的情况下，获取所述训练过程得到的第一语言模型，以及所述第一语言模型的第一优化器，其中，所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程；扩展模块，用于对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型，并对所述第一优化器进行更新，得到所述第二语言模型的第二优化器，其中，所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层，所述第二网络层的网络参数与所述第一网络层的网络参数相同，所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程；

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至8任一项中所述的方法的步骤。

11.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现所述权利要求1至8任一项中所述的方法的步骤。