CN115936094B

CN115936094B - 文本处理模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN115936094B
Application number: CN202211690747.5A
Authority: CN
Inventors: 柴业坤; 王硕寰; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2024-07-02
Anticipated expiration: 2042-12-27
Also published as: CN115936094A

Abstract

本公开提供了一种文本处理模型的训练方法，涉及人工智能技术领域，尤其涉及自然语言处理技术领域。具体实现方案为：将当前样本文本数据输入文本处理模型，得到处理结果；根据处理结果和当前样本文本数据的标签，确定参数调整信息；根据参数调整信息，微调多个处理单元中目标处理单元的归一化层的参数，其中，目标处理单元为多个处理单元中未经微调的任一处理单元；以及返回至将当前样本文本数据输入文本处理模型的操作，直至多个处理单元均经微调。本公开还提供了一种文本处理方法、装置、电子设备和存储介质。

Description

文本处理模型的训练方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理技术领域。更具体地，本公开提供了一种文本处理模型的训练方法、文本处理方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，预训练模型可以应用于自然语言处理场景。预训练模型可以是大规模的模型，具有大量的参数，可以有较为优秀的泛化能力。

发明内容

本公开提供了一种文本处理模型的训练方法、文本处理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本处理模型的训练方法，文本处理模型包括多个处理单元，文本处理模型为经预训练的模型，处理单元包括至少一个归一化层和至少一个处理层，该方法包括：将当前样本文本数据输入文本处理模型，得到处理结果；根据处理结果和当前样本文本数据的标签，确定参数调整信息；根据参数调整信息，微调多个处理单元中目标处理单元的归一化层的参数，其中，目标处理单元为多个处理单元中未经微调的任一处理单元；以及返回至将当前样本文本数据输入文本处理模型的操作，直至多个处理单元均经微调。

根据本公开的另一方面，提供了一种文本处理方法，该方法包括：将目标文本数据输入文本处理模型，得到目标处理结果，其中，文本处理模型是利用本公开提供的方法训练的。

根据本公开的另一方面，提供了一种文本处理模型的训练装置，文本处理模型包括多个处理单元，文本处理模型为经预训练的模型，处理单元包括至少一个归一化层和至少一个处理层，该装置包括：第一获得模块，用于将当前样本文本数据输入文本处理模型，得到处理结果；确定模块，用于根据处理结果和当前样本文本数据的标签，确定参数调整信息；微调模块，用于根据参数调整信息，微调多个处理单元中目标处理单元的归一化层的参数，其中，目标处理单元为多个处理单元中未经微调的任一处理单元；以及返回模块，用于返回至将当前样本文本数据输入文本处理模型的操作，直至多个处理单元均经微调。

根据本公开的另一方面，提供了一种文本处理装置，该装置包括：第二获得模块，用于将目标文本数据输入文本处理模型，得到目标处理结果，其中，文本处理模型是利用本公开提供的装置训练的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的文本处理模型的训练方法的流程图；

图2是根据本公开的一个实施例的文本处理模型的示意图；

图3是根据本公开的一个实施例的处理单元的示意图；

图4是根据本公开的另一个实施例的处理单元的示意图；

图5是根据本公开的另一个实施例的处理单元的示意图；

图6是根据本公开的一个实施例的文本处理方法的流程图；

图7是根据本公开的一个实施例的文本处理模型的训练装置的框图；

图8是根据本公开的一个实施例的文本处理装置的框图；以及

图9是根据本公开的一个实施例的可以应用文本处理模型的训练方法和/或文本处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

预训练语言模型正在逐渐成为自然语言处理领域的基座模型(FoundationModel)。但是，对大规模语言模型进行微调(Finetune)需要消耗很大的计算资源及存储资源，难以对大规模语言模型进行高效利用。

在一些实施例中，可以在预训练模型中添加一个转换器(Adapter)模块。在对预训练模型和转换器模块进行微调时，可以保持原预训练模型的参数不变，微调转换器模块的参数。然而，转换器模块增加了额外的模型参数，增加了模型的推理时间。此外，在微调过程中，转换器模块的参数较少，模型难以收敛。

在一些实施例中，可以将预训练模型的输入文本与提示向量拼接。在训练过程中，可以保持预训练模型的参数不变，对提示向量进行调整。然而，预训练模型的参数量较大，层数较深。基于反向传播对提示向量进行优化时，优化时间过长，也难以收敛。

图1是根据本公开的一个实施例的文本处理模型的训练方法的流程图。

在本公开实施例中，文本处理模型包括多个处理单元，文本处理模型为经预训练的模型，处理单元包括至少一个归一化层和至少一个处理层。例如，处理单元可以是基于Transformer模型构建的。在一个示例中，文本处理模型可以包括2个处理单元。

如图1所示，该方法100可以包括操作S110至操作S140。

在操作S110，将当前样本文本数据输入文本处理模型，得到处理结果。

在本公开实施例中，文本处理模块可以执行各种自然语言处理任务。例如，文本处理处理模块可以执行机器翻译任务、对话生成任务等自然语言处理任务。

例如，以处理单元是基于Transformer编码器和解码器构建的为示例，处理结果可以是与当前样本文本数据对应翻译结果。在一个示例中，当前样本文本数据可以与文本“你好”对应。处理结果可以是该文本的英文翻译结果。

在操作S120，根据处理结果和当前样本文本数据的标签，确定参数调整信息。

例如，当前样本文本数据的标签可以是英文文本“Hello”。根据处理结果和标签，可以利用各种方式确定参数调整信息。在一个示例中，可以利用反向传播算法，根据处理结果和标签之间的差异，确定第1个参数调整信息。

在操作S130，根据参数调整信息，微调多个处理单元中目标处理单元的归一化层的参数。

在本公开实施例中，目标处理单元为多个处理单元中未经微调的任一处理单元。例如，在利用当前样本文本数据对文本处理模型进行第1次调整的过程，可以将第1个处理单元作为目标处理单元。微调第1个处理单元的归一化层的参数。又例如，在利用当前样本文本数据对文本处理模型进行第2次调整的过程，如上述第1个处理单元已被微调，可以将第2个处理单元作为目标处理单元。微调第2个处理单元的归一化层的参数。

在操作S140，返回至将当前样本文本数据输入文本处理模型的操作，直至多个处理单元均经微调。

例如，在对第1个处理单元进行微调之后，可以得到经一次微调的文本处理模型。将当前样本文本数据输入经一次微调的文本处理模型，得到经一次微调后的处理结果。根据经一次微调后的处理结果和标签，可以确定第2个参数调整信息。利用第2个参数调整信息对第2个处理单元的归一化层进行微调，得到经二次微调后的文本处理模型。由此，利用当前样本文本数据对文本处理模型进行了一轮微调。

通过本公开实施例，在一轮微调过程中，可以对文本处理模型进行多次微调。每次微调时，对1个处理单元的归一化层进行了微调。可以降低预训练模型微调所需的计算资源和存储资源，大幅降低了应用预训练模型执行自然语言处理任务所需的成本，有助于拓展预训练模型的应用范围。此外，对归一化层进行微调，可以提高预训练模型的微调效率。

可以理解，上文对本公开的训练方法进行了说明，下面将对确定参数调整信息的一些方式进行说明。

在一些实施例中，在上述的操作S120中，可以根据处理结果和标签，利用非梯度优化算法确定参数调整信息。例如，非梯度优化算法可以包括协方差自适应调整的进化算法(Covariance Matrix Adaptation Evolution Strategy，CMA-ES)、粒子群算法(ParticleSwarm Optimization，PSO)、贝叶斯优化算法(Bayesian Optimization)以及模拟退火算法(Simulated Annealing)等。通过本公开实施例，利用非梯度优化算法，可以进一步降低微调预训练模型所需的计算资源和存储资源，有助于进一步提高模型微调效率。

可以理解，上文利用当前样本文本数据来微调文本处理模型。在本公开实施例中，还可以利用样本文本数据集中多个样本文本数据对文本处理模型进行多轮训练。

在本公开实施例中，在上述的操作S110中，将样本文本数据输入文本处理模型可以包括：响应于确定多个处理单元均经微调，从样本文本数据集中获取除当前样本文本数据之外的在后样本文本数据；将在后样本文本数据输入文本处理模型。

例如，样本文本数据集可以包括多个样本文本数据。

例如，在利用当前样本文本数据对多个处理单元的归一化层均进行了微调之后，可以从样本文本数据集中获取另一个样本文本数据，作为在后样本文本数据。利用在后样本文本数据对文本处理模型的多个处理单元分别进行微调。通过本公开实施例，可以利用多个样本文本数据对预训练模型进行微调，有助于进一步提高预训练模型的性能，可以使得预训练模型高效地执行自然语言处理任务。

可以理解，上文对本公开的方法流程进行了进一步说明，下面将对文本处理模型进行进一步说明。

图2是根据本公开的一个实施例的文本处理模型的示意图。

如图2所示，文本处理模型200包括N个处理单元。N个处理单元包括第1个处理单元201、……、第n-1个处理单元202、第n个处理单元203、第n+1个处理单元204、……、第N个处理单元205。例如，N为大于1的整数，n为大于1且小于N的整数。

在本公开实施例中，可以利用当前样本文本数据对文本处理模型进行N次微调。在一个示例中，n可以为3，N可以为5。

例如，可以将当前样本文本数据输入文本处理模型200，得到第1个处理结果。根据第1个处理结果和当前样本文本数据的标签，可以利用非梯度优化算法确定第1个参数调整信息。利用第1个参数调整信息调整第1个处理单元201的归一化层的参数，得到经一次微调后的文本处理模型。

例如，以n＝3且N＝5为示例，可以将当前样本文本数据输入经一次微调后的文本处理模型，得到第n-1个处理结果。根据第n-1个处理结果和标签，可以利用非梯度优化算法确定第n-1个参数调整信息。利用第n-1个参数调整信息调整第n-1个处理单元202的归一化层的参数，得到经n-1次微调后的文本处理模型。

例如，可以将当前样本文本数据输入经n-1次微调后的文本处理模型，得到第n个处理结果。根据第n个处理结果和标签，确定第n个参数调整信息。可以利用第n个参数调整信息调整第n个处理单元203的归一化层的参数，得到经n次微调后的文本处理模型。

例如，可以将当前样本文本数据输入经n-1次微调后的文本处理模型，得到第n+1个处理结果。根据第n+1个处理结果和标签，确定第n+1个参数调整信息。可以利用第n+1个参数调整信息调整第n+1个处理单元204的归一化层的参数，得到经n+1次微调后的文本处理模型。

例如，可以将当前样本文本数据输入经n+1次微调后的文本处理模型，得到第N个处理结果。根据第N个处理结果和标签，确定第N个参数调整信息。可以利用第N个参数调整信息调整第N个处理单元205的归一化层的参数，得到经N次微调后的文本处理模型。

可以理解，上文对本公开的文本处理模型进行了详细说明，下面将对本公开处理单元进行说明。

图3是根据本公开的一个实施例的处理单元的示意图。

在本公开实施例中，至少一个处理层可以包括第一处理层和第二处理层。至少一个归一化层可以包括第一归一化层和第二归一化层。例如，如图3所示，处理单元可以包括第一处理层3001、第一归一化层3002、第二处理层3003和第二归一化层3004。第一处理层3001连接至第一归一化层3002，第一归一化层3002连接至第二处理层3003，第二处理层3003连接至第二归一化层3004。又例如，处理单元可以是基于Transformer编码器构建的，第一处理层3001可以是多头注意力(Multi-Head Attention)层。第二处理层3003可以是前向反馈(Feed Forward)层。

在本公开实施例中，第一处理层可以处理当前样本文本数据或处理单元的在前处理单元输出的文本特征。例如，以处理单元是第1个处理单元为示例，当前样本文本数据可以转换为输入嵌入特征。输入嵌入特征可以与位置编码特征融合，得到输入文本特征。第1个处理单元的第一处理层可以处理该输入文本特征。又例如，以处理单元是第n个处理单元为示例。第n个处理单元的第一处理层可以处理第n.1个处理单元输出的文本特征。

在本公开实施例中，归一化层可以是层归一化(Layer Normalization，LN)层。例如，层归一化层可以稳定特征的分布。可以理解，Transformer编码器的多头注意力层或前向反馈层可以连接至残差连接以及层归一化(Add&Norm)层。残差连接以及层归一化层可以包括残差连接层和层归一化层。在本公开实施例中，可以保持残差连接层、多头注意力层、前向反馈层的参数不变，对层归一化层进行微调。

可以理解，上文以处理单元是基于Transformer编码器构建的为示例进行了说明，但本公开不限于此，处理单元也可以是基于Transformer解码器构建的。基于Transformer解码器构建的处理单元的结构与图2所示的处理单元类似，本公开在此不再赘述。

此外，处理单元也可以是基于Transformer编码器和解码器构建的，下面将进行说明。

图4是根据本公开的另一个实施例的处理单元的示意图。

在本公开实施例中，至少一个处理层包括第一处理层、第二处理层、第三处理层、第四处理层和第五处理层，至少一个归一化层包括第一归一化层、第二归一化层、第三归一化层、第四归一化层和第五归一化层。例如，如图4所示，处理单元可以包括第一处理层4001、第一归一化层4002、第二处理层4003、第二归一化层4004、第三处理层4005、第三归一化层4006、第四处理层4007、第四归一化层4008、第五处理层4009和第五归一化层4010。处理单元可以是基于Transformer编码器和解码器构建的，第一处理层4001和第四处理层4007可以是多头注意力层。第三处理层4005可以基于掩码的多头注意力(Masked Multi-Head Attention)层。第二处理层4003和第五处理层4009可以是前向反馈层。

第一处理层4001连接至第一归一化层4002，第一归一化层4002连接至第二处理层4003，第二处理层4003连接至第二归一化层4004。

第三处理层4005连接至第三归一化层4006，第三归一化层4006和第二归一化层4004连接至第四处理层4007，第四处理层4007连接至第四归一化层4008，第四归一化层4008连接至第五处理层4009，第五处理层4009连接至第五归一化层4010。

在本公开实施例中，处理单元的第一处理层用于处理当前样本文本数据或处理单元的在前处理单元输出的文本特征。处理单元的第三处理层用于处理处理单元的在前处理单元输出的解码结果。

在本公开实施例中，在上述的操作S130中，可以调整第一归一化层4002、第二归一化层4004、第三归一化层4006、第四归一化层4008和第五归一化层4010的参数。

可以理解，图3或图4所示的处理单元可以执行一个文本处理任务。在本公开实施例中，处理单元可以并行地执行多个文本处理任务，下面将进行说明。

图5是根据本公开的另一个实施的处理单元的示意图。

在本公开实施例中，至少一个归一化层包括多组归一化层，每组归一层包括多个并行的归一化层，多个并行的归一化层分别用于并行地执行不同的文本处理任务。如图5所示，处理单元可以包括第一处理层5001、第二处理层5003和两组归一化层。一组归一化层可以包括并行的第一归一化层50021和第一归一化层50022。另一组归一化层可以包括并行的第二归一化层50041和第二归一化层50042。第一归一化层50021和第二归一化层50041可以用于执行翻译任务。第一归一化层50022和第二归一化层50042可以用于执行对话生成任务。图5所示的处理单元例如可以是第1个处理单元。通过本公开实施例，可以利用预训练模型并行地执行多个自然语言处理任务，有助于提高预训练模型的多任务处理性能。

图6是根据本公开的另一个实施例的文本处理方法的流程图。

如图6所示，该方法600可以包括操作S610。

在操作S610，将目标文本数据输入文本处理模型，得到目标处理结果。

例如，文本处理模型是利用本公开提供的方法训练的。

图7是根据本公开的一个实施例的文本处理模型的训练装置的框图。

在本公开实施例中，文本处理模型包括多个处理单元，文本处理模型为经预训练的模型，处理单元包括至少一个归一化层和至少一个处理层。

如图7所示，该装置700可以包括第一获得模块710、确定模块720、微调模块730和返回模块740。

第一获得模块710，用于将当前样本文本数据输入文本处理模型，得到处理结果。

确定模块720，用于根据处理结果和当前样本文本数据的标签，确定参数调整信息。

微调模块730，用于根据参数调整信息，微调多个处理单元中目标处理单元的归一化层的参数。例如，目标处理单元为多个处理单元中未经微调的任一处理单元。

返回模块740，用于返回至将当前样本文本数据输入文本处理模型的操作，直至多个处理单元均经微调。

在一些实施例中，确定模块还用于：根据处理结果和标签，利用非梯度优化算法确定参数调整信息。

在一些实施例中，第一获得模块包括：获取单元，用于响应于确定多个处理单元均经微调，从样本文本数据集中获取除当前样本文本数据之外的在后样本文本数据；输入单元，用于将在后样本文本数据输入文本处理模型。

在一些实施例中，至少一个归一化层包括多组归一化层，每组归一层包括多个并行的归一化层，多个并行的归一化层分别用于并行地执行不同的文本处理任务。

在一些实施例中，至少一个处理层包括第一处理层和第二处理层，至少一个归一化层包括第一归一化层和第二归一化层，第一处理层连接至第一归一化层，第一归一化层连接至第二处理层，第二处理层连接至第二归一化层。处理单元的第一处理层用于处理当前样本文本数据或处理单元的在前处理单元输出的文本特征。

在一些实施例中，至少一个处理层包括第一处理层、第二处理层、第三处理层、第四处理层和第五处理层，至少一个归一化层包括第一归一化层、第二归一化层、第三归一化层、第四归一化层和第五归一化层。第一处理层连接至第一归一化层，第一归一化层连接至第二处理层，第二处理层连接至第二归一化层。第三处理层连接至第三归一化层，第三归一化层和第二归一化层连接至第四处理层，第四处理层连接至第四归一化层，第四归一化层连接至第五处理层，第五处理层连接至第五归一化层。处理单元的第一处理层用于处理当前样本文本数据或处理单元的在前处理单元输出的文本特征。

图8是根据本公开的另一个实施例的文本处理装置的框图。

如图8所示，该装置800可以包括第二获得模块810。

第二获得模块810，用于将目标文本数据输入文本处理模型，得到目标处理结果。例如，文本处理模型是利用本公开提供的装置训练的。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文本处理模型的训练方法和/或文本处理方法。例如，在一些实施例中，文本处理模型的训练方法和/或文本处理可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的文本处理模型的训练方法和/或文本处理的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本处理模型的训练方法和/或文本处理。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)显示器或者LCD(液晶显示器))；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本处理模型的训练方法，所述文本处理模型包括N个处理单元，所述文本处理模型为经预训练的大规模语言模型，所述处理单元包括至少一个归一化层和至少一个处理层，所述归一化层为层归一化层，至少一个所述归一化层包括多组所述归一化层，每组所述归一化层包括多个并行的所述归一化层，多个并行的所述归一化层分别用于并行地执行不同的文本处理任务，一组所述归一化层包括多个并行的第一归一化层，另一组所述归一化层包括多个并行的第二归一化层，至少一个所述处理层包括第一处理层和第二处理层，多个并行的所述第一归一化层与所述第一处理层连接，多个并行的所述第二归一化层与所述第二处理层连接，所述方法包括：

将当前样本文本数据输入经n-1次微调后的所述文本处理模型，得到第n个处理结果；

根据所述第n个处理结果和所述当前样本文本数据的标签，利用非梯度优化算法确定第n个参数调整信息；

根据所述第n个参数调整信息，微调N个所述处理单元中目标处理单元的归一化层的参数并固定所述目标处理单元中所述处理层的参数，得到经n次微调后的所述文本处理模型，其中，所述目标处理单元为N个所述处理单元中未经微调的任一处理单元；以及

返回至将当前样本文本数据输入所述文本处理模型的操作，以对所述文本处理模型进行第n+1次微调，直至N个所述处理单元均经微调，其中，N为大于1的整数，n为大于1且小于N的整数。

2.根据权利要求1所述的方法，还包括：

响应于确定多个所述处理单元均经微调，从样本文本数据集中获取除所述当前样本文本数据之外的在后样本文本数据；

将所述在后样本文本数据输入所述文本处理模型。

3.根据权利要求1所述的方法，其中，至少一个所述处理层包括第一处理层和第二处理层，至少一个所述归一化层包括第一归一化层和第二归一化层，所述第一处理层连接至所述第一归一化层，所述第一归一化层连接至所述第二处理层，所述第二处理层连接至所述第二归一化层，

所述处理单元的第一处理层用于处理所述当前样本文本数据或所述处理单元的在前处理单元输出的文本特征。

4.根据权利要求1所述的方法，其中，至少一个所述处理层包括第一处理层、第二处理层、第三处理层、第四处理层和第五处理层，至少一个所述归一化层包括第一归一化层、第二归一化层、第三归一化层、第四归一化层和第五归一化层，

所述第一处理层连接至所述第一归一化层，所述第一归一化层连接至所述第二处理层，所述第二处理层连接至所述第二归一化层，

所述第三处理层连接至所述第三归一化层，所述第三归一化层和所述第二归一化层连接至所述第四处理层，所述第四处理层连接至所述第四归一化层，所述第四归一化层连接至所述第五处理层，所述第五处理层连接至所述第五归一化层，

5.一种文本处理方法，包括：

将目标文本数据输入文本处理模型，得到目标处理结果，

其中，所述文本处理模型是利用权利要求1至4任一项所述的方法训练的。

6.一种文本处理模型的训练装置，所述文本处理模型包括N个处理单元，所述文本处理模型为经预训练的大规模语言模型，所述处理单元包括至少一个归一化层和至少一个处理层，所述归一化层为层归一化层，至少一个所述归一化层包括多组所述归一化层，每组所述归一化层包括多个并行的所述归一化层，多个并行的所述归一化层分别用于并行地执行不同的文本处理任务，一组所述归一化层包括多个并行的第一归一化层，另一组所述归一化层包括多个并行的第二归一化层，至少一个所述处理层包括第一处理层和第二处理层，多个并行的所述第一归一化层与所述第一处理层连接，多个并行的所述第二归一化层与所述第二处理层连接，所述装置包括：

第一获得模块，用于将当前样本文本数据输入经n-1次微调后的所述文本处理模型，得到第n个处理结果；

确定模块，用于根据所述第n个处理结果和所述当前样本文本数据的标签，利用非梯度优化算法确定第n个参数调整信息；

微调模块，用于根据所述第n个参数调整信息，微调N个所述处理单元中目标处理单元的归一化层的参数并固定所述目标处理单元中所述处理层的参数，得到经n次微调后的所述文本处理模型，其中，所述目标处理单元为N个所述处理单元中未经微调的任一处理单元；以及

返回模块，用于返回至将当前样本文本数据输入所述文本处理模型的操作，以对所述文本处理模型进行第n+1次微调，直至N个所述处理单元均经微调，其中，N为大于1的整数，n为大于1且小于N的整数。

7.根据权利要求6所述的装置，其中，所述第一获得模块包括：

获取单元，用于响应于确定多个所述处理单元均经微调，从样本文本数据集中获取除所述当前样本文本数据之外的在后样本文本数据；

输入单元，用于将所述在后样本文本数据输入所述文本处理模型。

8.根据权利要求6所述的装置，其中，至少一个所述处理层包括第一处理层和第二处理层，至少一个所述归一化层包括第一归一化层和第二归一化层，所述第一处理层连接至所述第一归一化层，所述第一归一化层连接至所述第二处理层，所述第二处理层连接至所述第二归一化层，

9.根据权利要求6所述的装置，其中，至少一个所述处理层包括第一处理层、第二处理层、第三处理层、第四处理层和第五处理层，至少一个所述归一化层包括第一归一化层、第二归一化层、第三归一化层、第四归一化层和第五归一化层，

10.一种文本处理装置，包括：

第二获得模块，用于将目标文本数据输入文本处理模型，得到目标处理结果，

其中，所述文本处理模型是利用权利要求6至9任一项所述的装置训练的。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至5中任一项所述的方法。