CN112487182A

CN112487182A - 文本处理模型的训练方法、文本处理方法及装置

Info

Publication number: CN112487182A
Application number: CN201910865963.0A
Authority: CN
Inventors: 尹伊淳; 尚利峰; 蒋欣; 陈晓
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-12
Anticipated expiration: 2039-09-12
Also published as: CN112487182B; US20220180202A1; EP4024232A4; EP4024232A1; WO2021047286A1

Abstract

本申请公开了人工智能领域中自然语言处理领域的文本处理模型的训练方法、文本方法以及装置，该训练方法包括：获取训练文本；将该训练文本分别输入老师模型与学生模型，得到该老师模型输出的样本数据与该学生模型输出的预测数据，其中，该老师模型与该学生模型分别包括输入层、一个或者多个中间层以及输出层，该样本数据包括该老师模型的中间层输出的样本语义特征以及输出层输出的样本标签，该预测数据包括该学生模型的中间层输出的预测语义特征以及输出层输出的预测标签；基于该样本数据以及该预测数据训练该学生模型的模型参数，得到目标学生模型。本申请的技术方案使得学生模型有效的进行知识迁移，从而提高学生模型的文本处理结果的准确率。

Description

文本处理模型的训练方法、文本处理方法及装置

技术领域

本申请涉及自然语言处理领域，并且更具体地，涉及一种文本处理模型的训练方法、文本处理方法及装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互，就需要系统能够识别出人类自然语言的具体含义。通常，系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。

目前，智能终端对部署的模型通常会有模型大小、运行时间等需求，现有的预训练语言模型参数量较大、推断时间长，难以满足智能终端的部署要求。知识蒸馏技术可以实现深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术，其不需要特定的硬件支持就能达到压缩模型的目的。例如，在自然语言处理(naturallanguage processing，NLP)领域中，知识蒸馏技术可以采用老师-学生模型学习的策略，其中，老师模型可以是指语义表征能力强、模型参数大，一般不能满足部署需求的模型；而学生模型可以是指语义表征能力弱、参数量少，能够直接部署在终端设备上的模型。通过训练学生模型可以使得学生模型学习模仿老师模型的行为，进行有效的知识迁移，使得学生模型能够具有与老师模型相同的语义表征能力。

因此，如何通过有效的训练方法使得预先训练的文本处理模型(例如，老师模型)迁移到小型化模型(例如，学生模型)成为了亟需解决的技术问题。

发明内容

本申请提供一种文本处理模型的训练方法、文本分类方法及装置，使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

第一方面，提供了一种文本处理模型的训练方法，包括：获取训练文本；将所述训练文本分别输入老师模型与学生模型，得到所述老师模型输出的样本数据与所述学生模型输出的预测数据，其中，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型；基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，得到目标学生模型。

其中，上述用于文本处理的模型可以是用于文本分类的模型，或者，用于文本处理的模型可以是用于文本序列标注的模型，或者，用于文本处理模型可以是用于文本翻译的模型。应理解，上述用于文本处理的模型可以用于自然语言处理任务，本申请实施例并不限定上述用于文本处理的模型的具体实现形式。

应理解，上述老师模型可以是指语义表征能力强、模型参数大的模型；而学生模型可以是指语义表征能力弱、参数量少的模型。通常情况下，由于老师模型的参数量与计算量较大，因此老师模型无法满足智能终端中对部署模型的模型大小、运行时间等需求。

在本申请的实施例中，可以通过使学生模型不断学习老师模型的中间层与输出层的输出数据，从而避免了学生模型只学习老师模型输出层的输出数据导致的迁移效率较差，即学生模型处理文本的准确率较低的问题，通过本申请的实施例的训练方法，学生模型可以学习模仿老师模型的中间层与输出层的输出数据，使得学生模型更加准确的学习老师模型的语义表征实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

结合第一方面，在一种可能的实现方式中，所述基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，包括：基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层；基于所述样本标签与所述预测标签，训练所述学生模型的输出层。

在本申请的实施例中，可以通过老师模型中间层输出的样本语义特征与学生模型中间层输出的预测语义特征，训练学生模型的中间层的模型参数；基于老师模型输出层输出的样本标签与学生模型输出层输出的预测标签，训练学生模型的输出层的模型参数。也就是说，在训练学生模型的过程中可以通过学生模型不断拟合老师模型的中间层与输出层的输出数据，使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

在一种可能的实现方式中，目标学生模型的中间层的模型参数可以根据所述样本语义特征与所述预测语义特征之间的偏差通过反向传播算法多次迭代得到的。

在一种可能的实现方式中，目标学生模型的输出层的模型参数可以根据所述样本标签与所述预测标签之间的偏差通过反向传播算法多次迭代得到的。

结合第一方面，在一种可能的实现方式中，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，N为大于或等于M的正整数，所述基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层，包括：从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层，i为小于或等于M的正整数，M为大于或等于1的整数。

在一种可能的实现方式中，老师模型包含的Transformer层数可以大于或等于学生模型包含的Transformer层数。

在本申请的实施例中，可以使得学生模型与老师模型采用相同的模型结构，从而使得学生模型能够更加有效的模仿老师模型的输出数据，使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

结合第一方面，在一种可能的实现方式中，所述训练文本为增强文本集，还包括：对获取的原始文本集进行局部词语替换，得到替换文本集；基于所述原始文本集与所述替换文本集，得到所述增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

在一种可能的实现方式中，标签信息可以用于指示训练文本的情感分类结果或者语义意图。

需要说明的是，原始文本集中的任意一个文本的标签信息可以是人工标注的标签信息，替换文本集中任意一个替换文本的标签信息可以是将生成的替换文本输入老师模型得到的替换文本的预测分类结果即预测的标签信息。

在本申请的实施例，可以通过对原始文本集中的训练文本进行局部替换，产生替换文本，从而获取大量的用于训练文本处理模型的训练文本。

结合第一方面，在一种可能的实现方式中，所述对获取的原始文本集进行局部词语替换，得到替换文本集，包括：获取第一文本，所述第一文本为所述原始文本集合中的任意一个文本；根据所述第一文本中每个词的替换阈值，确定所述第一文本中词语的替换位置；对所述替换位置的一个词或者多个词进行掩盖，生成掩盖文本；将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本。

结合第一方面，在一种可能的实现方式中，所述将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本，包括：将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所述第一文本的替换文本。

在本申请的实施例中，通过贪婪算法和/或集束搜索算法得到的替换文本是结合上下文信息生成的替换文本，使得替换文本语法更加通顺、质量更高。

结合第一方面，在一种可能的实现方式中，所述训练文本包含标签信息，所述老师模型是根据初始老师模型与训练文本训练得到的，在获取所述训练文本之前，还包括：获取初始训练文本，所述初始训练文本不包含标签信息；将所述初始训练文本分别输入所述初始老师模型与初始学生模型，得到所述初始老师模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义特征；基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，得到所述学生模型。

在本申请的实施例中，可以先采用一般性蒸馏过程基于大规模文本语料和Transformer层的蒸馏算法，进行一般性知识蒸馏得到小型化预训练语言模型；接着，采用特定任务型蒸馏过程，即可以对原始数据集通过数据增强模块，得到更多的增强数据；通过增强数据作为知识蒸馏算法的数据输入，基于Transformer层进行知识蒸馏，得到与老师模型的语义表征相近且模型参数量显著少的目标学生模型。

上述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

上述初始老师模型与初始学生模型分别包括输入层、一个或者多个中间层以及输出层。

结合第一方面，在一种可能的实现方式中，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，包括：从所述初始老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层，i为小于或等于M的正整数，M为大于或等于1的整数。

第二方面，提供一种获取待处理文本，包括：将所述待处理文本输入至目标学生模型，得到所述待处理文本的分类结果，其中，所述目标学生模型是基于样本数据与预测数据训练学生模型得到的，所述样本数据是根据训练文本与老师模型得到的，所述预测数据是根据所述训练文本与学生模型得到的，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型。

其中，上述文本处理模型可以是用于文本分类的模型，或者，文本处理模型可以是用于文本序列标注的模型，或者，文本处理模型可以是用于文本翻译的模型。应理解，上述文本处理模型可以用于自然语言处理任务，本申请实施例并不限定上述文本处理模型的具体实现形式。

在一种可能的实现方式中，目标学生模型为用于文本分类的模型，则文本处理结果可以是文本分类结果。比如，文本分类结果可以是指待处理文本对应的用户情感分类，或者，分类结果可以指待处理文本对应的用户语义意图。

在本申请的实施例中，预先训练的目标学生模型是通过不断学习老师模型的中间层与输出层的输出数据得到的，使得目标学生模型更加准确的学习老师模型的语义表征实现有效的知识迁移，从而提高目标学生模型的文本处理结果的准确率。

结合第二方面，在一种可能的实现方式中，所述目标学生模型的中间层是基于所述样本语义特征与所述预测语义特征训练得到的；所述目标学生模型的输出层是基于所述样本标签与所述预测标签训练得到的。

在本申请的实施例中，目标学生模型的中间层的模型参数可以根据老师模型中间层输出的样本语义特征与学生模型中间层输出的预测语义特征不断训练学生模型得到的；目标学生模型的输出层的模型参数可以是根据基于老师模型输出层输出的样本标签与学生模型输出层输出的预测标签不断训练学生模型得到的。也就是说，在训练学生模型的过程中可以通过学生模型不断拟合老师模型的中间层与输出层的输出数据，使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

在一种可能的实现方式中，目标学生模型的中间层可以根据所述样本语义特征与所述预测语义特征之间的偏差通过反向传播算法多次迭代得到的。

在一种可能的实现方式中，目标学生模型的输出层可以根据所述样本标签与所述预测标签之间的偏差通过反向传播算法多次迭代得到的。

结合第二方面，在一种可能的实现方式中，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包括M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述目标学生模型的第i个Transformer层的模型参数是基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

结合第二方面，在一种可能的实现方式中，所述训练文本为增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果；所述增强文本集是根据获取的原始文本集与替换文本集得到的，所述替换文本集是指对所述原始文本集进行局部词语替换得到的。

结合第二方面，在一种可能的实现方式中，所述替换文本集中包括第一文本的替换文本，所述第一文本为所述原始文本集中的任意一个文本，所述第一文本的替换文本是将掩盖文本输入至预先训练的语言模型得到的，所述掩盖文本是根据对所述第一文本的替换位置中的一个或者多个词进行掩盖得到的，所述替换位置是根据所述第一文本中每个词的替换阈值确定的。

结合第二方面，在一种可能的实现方式中，所述第一文本的替换文本是通过将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到的。

结合第二方面，在一种可能的实现方式中，所述训练文本包含标签信息，所述老师模型是根据所述训练文本与初始老师模型训练得到的，所述学生模型是根据初始样本语义特征与初始预测语义特征训练初始学生模型得到的，所述初始样本语义特征是指将所述初始训练文本输入至所述初始老师模型得到的所述初始老师模型中间层的输出数据，所述预测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型中间层的输出数据，所述初始训练文本不包含标签信息。

可选地，标签信息可以包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。上述初始老师模型与初始学生模型分别包括输入层、一个或者多个中间层以及输出层。

结合第二方面，在一种可能的实现方式中，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层的模型参数是通过所述初始老师模型中第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

结合第二方面，在一种可能的实现方式中，所述待处理文本的处理结果为以下处理结果的任意一种：

所述待处理文本的情感分类结果、所述待处理文本的语义意图分类结果、所述待处理文本的序列标注结果或者所述待处理文本的翻译结果。

第三方面，提供了一种文本处理模型的训练装置，包括存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被所述处理器执行时，所述处理器用于：获取训练文本；将所述训练文本分别输入老师模型与学生模型，得到所述老师模型输出的样本数据与所述学生模型输出的预测数据，其中，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型；基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，得到目标学生模型。

结合第三方面，在一种可能的实现方式中，所述处理器具体用于：基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层；基于所述样本标签与所述预测标签，训练所述学生模型的输出层。

结合第三方面，在一种可能的实现方式中，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述处理器具体用于：从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

结合第三方面，在一种可能的实现方式中，所述训练文本为增强文本集，所述处理器还用于：对获取的原始文本集进行局部词语替换，得到替换文本集；基于所述原始文本集与所述替换文本集，得到所述增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

结合第三方面，在一种可能的实现方式中，所述处理器具体用于：获取第一文本，所述第一文本为所述原始文本集合中的任意一个文本；根据所述第一文本中每个词的替换阈值，确定所述第一文本中词语的替换位置；对所述替换位置的一个词或者多个词进行掩盖，生成掩盖文本；将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本。

结合第三方面，在一种可能的实现方式中，所述处理器具体用于：将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所述第一文本的替换文本。

结合第三方面，在一种可能的实现方式中，所述训练文本包含标签信息，在获取所述训练文本之前，所述处理器还用于：获取初始训练文本，所述初始训练文本不包含标签信息；将所述初始训练文本分别输入至初始老师模型与初始学生模型，得到所述初始老师模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义特征，所述老师模型是通过所述初始老师模型与所述训练文本训练得到的；基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，得到所述学生模型。

可选地，上述标签信息可以包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

结合第三方面，在一种可能的实现方式中，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述处理器具体用于：从所述初始老师模型中包含的N个Transformer层选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

应理解，在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第三方面中相同的内容。

第四方面，提供了一种文本处理装置，包括存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被所述处理器执行时，所述处理器用于：获取待处理文本；将所述待处理文本输入至目标学生模型，得到所述待处理文本的分类结果，其中，所述目标学生模型是基于样本数据与预测数据训练学生模型得到的，所述样本数据是根据训练文本与老师模型得到的，所述预测数据是根据所述训练文本与学生模型得到的，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型。

结合第四方面，在一种可能的实现方式中，所述目标学生模型的中间层是基于所述样本语义特征与所述预测语义特征训练得到的；所述目标学生模型的输出层是基于所述样本标签与所述预测标签训练得到的。

结合第四方面，在一种可能的实现方式中，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述目标学生模型的第i个Transformer层的模型参数是基于所述老师模型中中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

结合第四方面，在一种可能的实现方式中，所述训练文本为增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

结合第四方面，在一种可能的实现方式中，所述替换文本集中包括第一文本的替换文本，所述第一文本为所述原始文本集中的任意一个文本，所述第一文本的替换文本是将掩盖文本输入至预先训练的语言模型得到的，所述掩盖文本是根据对所述第一文本的替换位置中的一个或者多个词进行掩盖得到的，所述替换位置是根据所述第一文本中每个词的替换阈值确定的。

结合第四方面，在一种可能的实现方式中，所述第一文本的替换文本是通过将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到的。

结合第四方面，在一种可能的实现方式中，所述训练文本包含标签信息，所述学生模型是通过初始样本语义特征与初始预测语义特征训练初始学生模型得到的，所述初始样本语义特征是指将初始训练文本输入至初始老师模型得到的所述初始老师模型中间层的输出数据，所述预测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型中间层的输出数据，所述初始训练文本不包含标签信息。例如，上述初始老师模型与初始学生模型分别包括输入层、一个或者多个中间层以及输出层。

结合第四方面，在一种可能的实现方式中，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层的模型参数是通过所述初始老师模型中中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

结合第四方面，在一种可能的实现方式中，所述待处理文本的处理结果为以下处理结果的任意一种：

应理解，在上述第二方面中对相关内容的扩展、限定、解释和说明也适用于第四方面中相同的内容。

第五方面，提供了一种文本处理模型的训练装置，包括用于执行第一方面以及第一方面任意一种可能实现方式的训练方法的功能模块/单元。

第六方面，提供了一种文本处理装置，包括用于执行第二方面以及第二方面任意一种可能实现方式的文本处理方法的功能模块/单元。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或者第一方面的任意一种实现方式中的训练方法。

第八方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第二方面或者第二方面中的任意一种实现方式中的文本处理方法。

第九方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述各方面中的方法。

需要说明的是，上述计算机程序代码可以全部或者部分存储在第一存储介质上，其中第一存储介质可以与处理器封装在一起的，也可以与处理器单独封装，本申请实施例对此不作具体限定。

第十方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或第一方面中的任意一种实现方式中的训练方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或者第一方面中的任意一种实现方式中的训练方法。

第十一方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第二方面或第二方面中的任意一种实现方式中的文本处理方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面或者第二方面中的任意一种实现方式中的文本处理方法。

附图说明

图1是本申请实施例提供的一种自然语言处理的应用场景示意图；

图2是本申请实施例提供的另一种自然语言处理的应用场景示意图；

图3是本申请实施例提供的自然语言处理的相关设备的示意图；

图4是本申请实施例提供的一种系统架构的示意图；

图5是本申请实施例提供的转换器(Transformer)模型的结构示意图；

图6本申请实施例提供的一种芯片的硬件结构的示意图；

图7是本申请实施例提供的一种应用场景示意图；

图8是本申请实施例提供的文本处理模型的训练方法的示意性流程图；

图9是本申请实施例提供的基于转换器(Transformer)层的训练方法的示意图；

图10是本申请实施例提供的基于转换器(Transformer)层的训练方法的示意图；

图11是本申请实施例提供的对原始文本集进行数据增强的方法的示意图；

图12是本申请实施例提供的对训练文本进行局部替换处理的示意图；

图13是本申请实施例提供的针对特定任务训练文本处理模型的示意图；

图14是本申请实施例提供的两步知识蒸馏方法的示意图；

图15是本申请实施例提供的文本处理方法的示意性流程图；

图16是本申请实施例提供的文本处理模型的训练装置的示意性；

图17是本申请实施例提供的文本处理装置的示意性框图；

图18是本申请实施例提供的文本处理模型的训练装置的示意性；

图19是本申请实施例提供的文本处理装置的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解本申请实施例的方案，下面先结合图1至图3对本申请实施例可能的应用场景进行简单的介绍。

图1示出了一种自然语言处理系统，该自然语言处理系统包括用户设备以及数据处理设备。其中，用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为自然语言数据处理的发起端，作为语言问答或者查询等请求的发起方，通常用户通过用户设备发起请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等问句，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以再数据处理设备上，也可以在其它网络服务器上。

在图1所示的自然语言处理系统中，用户设备可以接收用户的指令，例如，用户设备可以接收用户输入的一段文本，然后向数据处理设备发起请求，使得数据处理设备针对用户设备得到的该一段文本执行自然语言处理应用(例如，文本分类、文本序列标注、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如，文本分类、文本序列标注、翻译等)。

示例性地，用户设备可以接收用户输入的待处理文本，然后向数据处理设备发起请求，使得数据处理设备对该待处理文本进行分类，从而得到针对该待处理文本的分类结果。其中，分类结果可以是指该待处理文本所指示的用户语义意图，比如，用户用于指示放歌、设置时间、开启导航的意图；或者，分类结果还可以用于指示用户的情感分类结果，比如，分类结果可以指示待处理文本对应的用户情感分类为抑郁、开心或者生气等。

例如，在图1中数据处理设备可以执行本申请实施例的文本处理方法。

图2示出了另一种自然语言处理系统，在图2中，用户设备直接作为数据处理设备，该用户设备能够直接接收来自用户的输入并直接由用户设备本身的硬件进行处理，具体过程与图1相似，可参考上面的描述，在此不再赘述。

在图2所示的自然语言处理系统中，用户设备可以接收用户的指令，由用户设备自身对待处理文本进行分类得到待处理文本的分类结果。

在图2所示的自然语言处理系统中，用户设备可以接收用户的指令，例如用户设备可以接收用户输入的一段文本，然后再由用户设备自身针对该一段文本执行自然语言处理应用(例如，文本分类、文本序列标注、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如，文本分类、文本序列标注、翻译等)。

在图2中，用户设备自身就可以执行本申请实施例的文本处理方法。

图3是本申请实施例提供的自然语言处理的相关设备的示意图。

上述图1和图2中的用户设备具体可以是图3中的本地设备130或者本地设备120，图1中的数据处理设备具体可以是图3中的执行设备110，其中，数据存储系统150可以存储执行设备110的待处理数据，数据存储系统150可以集成在执行设备110上，也可以设置在云上或其它网络服务器上。

图1和图2中的处理器可以通过神经网络模型或者其它模型进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型对输入的待处理文本进行处理，从而得到待处理文本处理结果。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(4)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如，权重矩阵。

(5)注意力机制(attention mechanism)

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

(6)语言模型(language model，LM)

语言模型是NPL中的基础模型，通过大量语料训练学习，使得LM能够根据已有的信息(例如上下文中已经出现过的词等文本信息)来推测未知词的概率，也可以理解为LM是用来计算一个句子的概率模型。

换句话说，语言模型是自然语言文本序列的概率分布，表征特定长度特定序列文本存在的可能性。简而言之，语言模型即是根据上下文去预测下一个词是什么，由于不需要人工标注语料，因此语言模型能够从无限制的大规模语料中学习到丰富的语义知识。

(7)大规模预训练语言模型

大规模预训练语言模型也可称为大规模语言预训练模型，一般是指使用大规模的语料(例如句子，段落等语言训练素材)，设计语言模型训练任务，训练大规模的神经网络算法结构来学习实现，最终得到的大规模神经网络算法结构就是大规模预训练语言模型，后续有其它任务可以在该模型的基础上进行特征抽取或者任务微调来实现特定任务目的。

预训练的思想就是先对一个任务进行训练得到一套模型参数，然后利用该套模型参数对网络模型参数进行初始化，再利用经初始化的网络模型对其他任务进行训练，得到其他任务适配的模型。通过在大规模的语料上进行预训练，神经语言表示模型可以学习到强大语言表示能力，能够从文本中抽取出丰富的句法、语义信息。大规模预训练语言模型可以提供包含丰富语义信息的token以及句子级的特征供下游任务使用，或者直接在预训练模型上进行针对下游任务的微调(fine-tune)，方便快捷地得到下游专属模型。

例如，如图5所示为当前最先进的预训练语言模型都是基于转换器(Transformer)结构模型。相比之前的神经网络(循环神经网络、卷积神经网络等)，Transformer层包括注意力机制模块和前向网络模块，其中，意力机制模块通过计算词与词之间的相关性获得相应的权重值，最终得到上下文相关的词表征，是Transformer结构中的核心部分；前向网络模块可以对得到的词表征做进一步的变换得到Transformer层最终的输出；除了两个重要模块外，还可以包括残差层和线性归一化(linear normalization)。

(8)知识蒸馏

知识蒸馏是指使得深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术，其不需要特定的硬件支持就能达到压缩模型的目的。知识蒸馏技术采用老师-学生模型学习的策略，其中，老师模型可以指模型参数大，一般不能满足部署需求；而学生模型参数量少，能够直接部署。通过设计有效的知识蒸馏算法，让学生模型学习模仿老师模型的行为，进行有效的知识迁移，使得学生模型最终能够表现得与老师模型相同的处理能力。

首先，介绍本申请实施例提供的文本处理模型的训练方法和文本处理方法的系统架构。参考图4，本申请实施例提供了一种系统架构200。如图4中的系统架构200所示，数据采集设备260用于采集训练数据。

例如，本申请实施例中训练数据可以是训练文本处理模型的训练文本。

在采集到训练数据之后，数据采集设备260将这些训练数据存入数据库230，训练设备220基于数据库230中维护的训练数据训练得到目标模型/规则201(即本申请实施例中的目标学生模型)。训练设备220将训练文本分别输入老师模型与学生模型进行处理，将老师模型输出的样本数据与学生模型输出的训练数据进行对比，直到训练学生模型输出预测数据与样本数据之间的差值满足预设条件(例如，学生模型输出的预测数据与老师模型输出的样本数据的差值小于一定阈值，或者学生模型输出的预测数据与老师模型输出的样本数据的差值保持不变或不再减少)，从而完成目标模型/规则201的训练，随后将结合图8更详细地描述训练设备220如何基于训练数据得到目标模型/规则201。

另外，该目标模型/规则201能够用于实现本申请实施例提供的文本处理方法，即，将待处理文本通过相关预处理(可以采用预处理模块213和/或预处理模块214进行处理)后输入该目标模型/规则201中进行处理，即可得到与目标处理模型所执行的目标任务对应的处理结果。

示例性的，目标任务是文本分类，则目标学生模型可以文本分类模型，待处理文本输入目标模型/规则201(即本申请的目标学生模型)中进行分类处理，即可得到对待处理文本的分类结果。

示例性地，目标任务是文本序列标注，则目标学生模型可以文本序列标注模型，待处理文本输入目标模型/规则201(即本申请的目标学生模型)中进行序列标注处理，即可得到对待处理文本的序列标注。

示例性地，目标任务是文本翻译，则目标学生模型可以文本翻译模型，待处理文本输入目标模型/规则201(即本申请的目标学生模型)中进行翻译处理，即可得到对待处理文本的翻译文本。

在本申请提供的实施例中，该目标模型/规则201是通过训练原始处理模型得到的。需要说明的是，在实际的应用中，所述数据库230中维护的训练数据不一定都来自于数据采集设备260的采集，也有可能是从其他设备接收得到的。

另外需要说明的是，训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。还需要说明的是，数据库230中维护的训练数据中的至少部分数据也可以用于执行设210对待处理文本进行处理的过程。

根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或设备中，如应用于图4所示的执行设备210，所述执行设备210可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。

在图4中，执行设备210配置输入/输出(input/output，I/O)接口212，用于与外部设备进行数据交互，用户可以通过客户设备240向I/O接口212输入数据，所述输入数据在本申请实施例中可以包括：待处理文本。

预处理模块213和/或预处理模块214用于根据I/O接口212接收到的输入数据进行预处理，在本申请实施例中，也可以没有预处理模块213和预处理模块214(也可以只有其中的一个预处理模块)，而直接采用计算模块211对输入数据进行处理。需要说明的是，预处理模块213或预处理模块214可以对全部的输入数据进行预处理，也可以对输入数据的部分数据进行预处理。

需要说明的是，预处理模块113和/或预处理模块214也可以是在训练设备220中训练好的。计算模块211可以用于根据上述目标模型/规则201对来自预处理模块213或者I/O接口212的输入数据执行计算等相关的处理。

在执行设备210对输入数据进行预处理，或者在执行设备210的计算模块211执行计算等相关的处理过程中，执行设备210可以调用数据存储系统250中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统250中。

最后，I/O接口212将处理结果(例如分类结果、翻译结果、序列标注结果等)反馈给客户设备240。应理解，对应于不同的自然语言处理任务，目标模型/规则201是不同的，其处理结果相应地也是不同的。

值得说明的是，训练设备220可以针对不同的老师模型，生成该老师模型对应的目标模型/规则201(例如，目标学生模型)，该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。需要说明的是，训练设备220还可以针对不同的下游系统对应的目标模型/规则201生成对应的预处理模型，例如预处理模块213和/或预处理模块214中对应的预处理模型等。

在图4中所示情况下，用户可以手动给定输入数据(例如，待处理文本)，该手动给定可以通过I/O接口212提供的界面进行操作。另一种情况下，客户设备240可以自动地向I/O接口212发送输入数据(例如，待处理文本)，如果要求客户设备240自动发送输入数据需要获得用户的授权，则用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端，采集如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果作为新的样本数据，并存入数据库230。当然，也可以不经过客户设备240进行采集，而是由I/O接口212直接将如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果，作为新的样本数据存入数据库230。

值得注意的是，图4仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在图4中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

如图4所示，根据训练设备220训练得到目标模型/规则201，该目标模型/规则201可以是本申请实施例中的目标学生模型，具体的，本申请实施例提供的目标学生模型可以是Transformer模型。

如图5所示，Transformer模型可以是由一个或者多个Transformer层堆叠构建的模型，Transformer层可以包括注意力机制模块和前向网络模块，其中，意力机制模块通过计算词与词之间的相关性获得相应的权重值，最终得到上下文相关的词表征，是Transformer结构中的核心部分；前向网络模块可以对得到的词表征做进一步的变换得到Transformer层最终的输出；除了两个重要模块外，还可以包括残差层和线性归一化(linear normalization)。

示例性地，在本申请实施例中目标学生模型可以是采用Transformer结构的变换的双向编码器表示模型(bidirectional encoder representation from transformers，BERT)、一般化自回归预训练语言理解模型(generalized autoregressive pretrainingfor language understanding，XLNet)、鲁棒的基于双向编码器表示的预训练语言模型(arobustly optimized BERT pretraining approach，RoBERTa)或者，其他Transformer模型中的任意一个。

图6为本申请实施例提供的一种芯片的硬件结构，该芯片包括神经网络处理器300。该芯片可以被设置在如图4所示的执行设备210中，用以完成计算模块211的计算工作。该芯片也可以被设置在如图4所示的训练设备220中，用以完成训练设备220的训练工作并输出目标模型/规则201。如图5所示的Transformer模型中各层的算法均可在如图6所示的芯片中得以实现。

神经网络处理器NPU300作为协处理器挂载到主中央处理器(central processingunit，CPU)(host CPU)上，由主CPU分配任务。NPU 300的核心部分为运算电路303，控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路303内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B相应的数据，并缓存在运算电路303中每一个PE上。运算电路603从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器308(accumulator)中。

向量计算单元307可以对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能307将经处理的输出的向量存储到统一存储器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。

在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。

在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如，用于在神经网络中的后续层中的使用。

统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器305(direct memory access controller，DMAC)将外部存储器中的输入数据存入至输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，以及将统一存储器306中的数据存入外部存储器。

总线接口单元310(bus interface unit，BIU)，用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。

与控制器304连接的取指存储器309(instruction fetch buffer)用于存储控制器304使用的指令。控制器304用于调用取指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图5所示的Transformer模型中各层的运算可以由运算电路303或向量计算单元307执行。

上文中介绍的图4中的执行设备210能够执行本申请实施例文本处理模型的训练方法，或者文本处理方法的各个步骤，图5所示的Transformer模型和图6所示的芯片也可以用于执行本申请实施例的文本处理模型的训练方法，或者文本处理方法的各个步骤。

目前，在NLP领域中对预训练语言模型进行知识蒸馏技术时，通常情况下学生模型直接对老师模型的输出结果进行学习，此外，学生模型大多采用长短期记忆(long short-term memory，LSTM)结果与CNN的结构，从而导致预训练语言模型的知识蒸馏效率较低。

有鉴于此，在本申请的实施例提供了一种文本处理模型的训练方法(即文本处理模型的知识蒸馏方法)，可以通过使学生模型不断学习老师模型的中间层与输出层的输出数据，从而避免了学生模型只学习老师模型输出层的输出数据导致的迁移效率较差，即学生模型处理文本的准确率较低的问题，通过本申请的实施例的文本处理模型训练方法，学生模型可以学习模仿老师模型的中间层与输出层的输出数据，使得学生模型更加准确的学习老师模型的语义表征实现有效的知识迁移，从而提高学生模型的文本处理结果的准确率。

下面结合附图对本申请实施例的文本处理模型的训练方法进行详细介绍。本申请实施例的训练方法可以由图1中的数据处理设备、图2中的用户设备、图3中的执行设备110或者本地设备以及图4中的执行设备210等设备执行。

图7是本申请实施例提供的一种应用场景的示意图。如图7所示，通过目标学生模型对待处理文本进行处理能够得到待处理文本的处理结果。其中，目标学生模型可以是文本处理模型，目标学生模型可以是根据预先训练的老师模型输出的样本数据对学生模型进行有效的知识迁移得到的，从而获取能够部署于终端设备上的用于文本处理的目标学生模型。

在一种可能的实现方式中，目标学生模型可以文本分类模型，将待处理文本输入目标学生模型中进行分类处理，即可得到对待处理文本的分类结果。

其中，文本分类可以是指对输入待处理文本进行情感分类或者语义意图分类。

例如，可以将待处理文本“打开手机导航”输入至文本分类模型，得到用户的语义意图“导航”。

例如，待处理文本可以是用户输入的一段文本，将待处理文本输入至文本分类模型，可以得到该段文本对应的情感分类结果，比如抑郁、开心或者生气等。

在另一种可能的实现方式中，目标学生模型可以文本序列标注模型，将待处理文本输入目标学生模型中进行序列标注处理，即可得到对待处理文本的序列标注。

其中，文本序列标注可以是指输入是一个文本序列，输出该文本序列对应的序列。比如，序列标注可以是指词性标注(pos tagging)。

例如，待处理文本可以是“John saw the saw”，将待处理文本输入至文本标注模型，得到的序列标注可以是“PN、V、D、N”，上述输入文本中的两个“saw”第一个saw是动词，而第二个saw是名词，所以需要文本序列标注模型学习整个输入文本的含义才能得到正确的词性标注。

在另一种可能的实现方式中，目标学生模型可以文本翻译模型，将待处理文本输入目标学生模型中进行翻译处理，即可得到对待处理文本的翻译文本。

例如，待处理文本可以是用户输入至文本翻译模型的一段英文，得到该英文对应的机器翻译得到的中文。

如图7所示，目标学生模型可以是满足部署在智能终端设备的模型大小、运行时间等需求的小型化模型，智能终端可以是具有摄像头的电子设备，例如，智能终端可以是有图像处理功能的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer，LC)、个人数字助理(personal digitalassistant，PDA)、个人计算机(personal computer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)或者，自动驾驶车辆中的车载终端等，本申请实施例对此不作限定。

图8是本申请实施例提供的文本处理模型的训练方法的示意性流程图。图8所示文本处理模型的训练方法可以由训练装置执行，该训练装置具体可以是图1中的数据处理设备，也可以是图2中的用户设备，也可以是图3中的执行设备110或者本地设备，也可以是图4中的执行设备210。图8所示的方法包括步骤510至530，下面分别对步骤510至530进行详细的介绍。

应理解，图8所示的文本处理模型的训练方法可以是用于预训练语言模型的知识蒸馏方法。

步骤510，获取训练文本。

其中，训练文本可以是任意的符合语言文法规则的文本序列，例如，新闻、百科、社交媒体消息、文学作品等。

上述标签信息可以是包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

示例性地，上述训练文本可以是包含标签信息的训练文本，标签信息可以用于指示训练文本的分类结果。

例如，训练文本可以是用户输入的一段文本，标签信息可以用于指示训练文本的情感分类结果，标签信息可以包括“0”、“1”、“2”，其中，“0”可以用于指示该训练文本对应的用户情感分类结果为抑郁；“1”可以用于指示该训练文本对应的用户情感分类结果为生气；“2”可以用于指示该训练文本对应的用户情感分类结果为开心。

步骤520、将训练文本分别输入老师模型与学生模型，得到老师模型输出的样本数据以及学生模型输出的预测数据，其中，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，样本数据包括老师模型的中间层输出的样本语义特征以及老师模型的输出层输出的样本标签，预测数据包括学生模型的中间层输出的预测语义特征以及学生模型的输出层输出的预测标签，老师模型为预先训练的用于文本处理的模型。

其中，上述用于文本处理的模型可以是用于文本分类的模型，或者，用于文本处理的模型可以是用于文本序列标注的模型，或者，用于文本处理的模型可以是用于文本翻译的模型。应理解，上述用于文本处理的模型可以用于自然语言处理任务，本申请实施例并不限定上述用于文本处理的模型的具体实现形式。

示例性地，当上述文本处理模型为文本分类模型时，样本标签可以是指训练文本对应的情感分类标签或者意图分类标签；当上述文本处理模型为文本序列标注模型时，样本标签可以是指文本对应的标注信息，比如，对训练文本进行词性标注，则样本标签可以是整个词性表中的位置信息；当上述文本处理模型问文本翻译模型时，样本标签可以是指训练文本的翻译译文在整个词表上的位置信息。

应理解的是，老师模型与学生模型的中间层输出的语义特征可以是指文本处理的中间输出数据，输出层输出的样本标签或者预测标签可以是指处理文本时输出的处理结果，上面举例说明了样本标签的可能表现形式，本申请实施例对此不作任何限定。

需要说明的是，老师模型是指通过大量训练文本训练得到的预先训练的语言模型，老师模型具有较强的语义表征能力。

上述老师模型的中间层可以是指老师模型中除了输入层与输出层之外的任意一层，比如，中间层可以是指老师模型中的任意一层Transformer层。同理，学生模型的中间层可以是指学生模型中除了输入层以及输出层之外的任意一层，比如，中间层可以是指学生模型中的任意一层Transformer层。

步骤530、基于样本数据以及预测数据训练学生模型的模型参数，得到目标学生模型。

在本申请的实施例中老师模型可以是指语义表征能力强、模型参数大的模型；而学生模型可以是指语义表征能力弱、参数量少的模型。由于老师模型的模型参数量较大，因此老师模型不能满足智能终端中对部署模型的模型大小、运行时间等需求，即老师模型通常无法满足智能终端的模型部署需求无法直接部署于智能终端中，通过学生模型不断对老师模型进行学习，使得学生模型学习模仿老师模型的行为，进行有效的知识迁移的，得到目标学生模型与老师模型能够相同或者相近的语义表征能力，从而将满足智能终端部署要求的目标学生模型部署与智能终端中。

可选地，基于样本数据以及预测数据训练学生模型的模型参数，得到目标学生模型可以包括基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层；于所述样本标签与所述预测标签，训练所述学生模型的输出层。

在本申请的实施例中，可以通过老师模型中间层输出的样本语义特征与学生模型中间层输出的预测语义特征，训练学生模型的中间层；基于老师模型输出层输出的样本标签与学生模型输出层输出的预测标签，训练学生模型的输出层。也就是说，在训练学生模型的过程中可以通过学生模型不断拟合老师模型的中间层与输出层，从而进行有效的知识迁移使得学生模型不断学习老师模型的语义表征能力。

应理解，根据老师模型中间层输出的样本语义特征与学生模型中间层输出的预测语义特征，训练学生模型的中间层可以是指通过样本语义特征与预测语义特征之间的差值，不断反向迭代调整学生模型的模型参数，使得学生模型中间层输出的预测语义特征不断接近样本语义特征，或者预测语义特征与样本语义特征近似相同；类似地，根据老师模型输出层输出的样本标签与学生模型输出层输出的预测标签，训练学生模型的输出层可以是指通过样本标签与预测标签之间的差值，不断反向迭代调整学生模型的模型参数，使得学生模型输出层输出的预测标签不断接近样本标签，或者预测标签与样本标签近似相同，即通过训练后得到的目标学生模型可以具有与老师模型相同或者相近的文本处理能力，实现将参数量与计算量较大的老师模型迁移至小型化的学生模型。

进一步地，为了使得学生模型更有效的学习老师模型的语言表征能力，提升预训练语言模型的知识蒸馏的效率可以让学生模型与老师模型采用相同的模型结构，从而有利于学生模型模仿老师模型的行为，进行有效的知识迁移。

可选地，老师模型与学生模型可以为转换器Transformer模型，老师模型的中间层可以包含N个Transformer层，学生模型的中间层可以包括M个Transformer层，N为大于或等于M的正整数，上述基于样本语义特征与预测语义特征，训练所述学生模型的中间层，可以包括：从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述老师模型中第i个Transformer层输出的样本语义特征以及所述第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层，i为小于或等于M的正整数，M为大于或等于1的整数。

需要说明的是，上述老师模型与学生模型可以采用相同的如图5所示的Transformer模型，但是老师模型包含的Transformer层数可以大于或等于学生模型包含的Transformer层数。

示例性地，图9是本申请实施例提供的基于中间层与输出层的训练方法(即知识蒸馏)的示意图。如图9所示，老师模型可以包含N个Transformer层，学生模型可以包含M个Transformer层，每一个Transformer层的具体结构可以如图5中所示的Transformer层。在对老师模型的任意一层Transformer层进行拟合时可以包括以下步骤：

步骤一：从老师模型的N个Transformer层中选取M个Transformer层，使得学生模型中的每一个Transformer层拟合老师模型中对应的Transformer层。

在一种可能的实现方式中，可以通过一个映射函数f(*)从老师模型中选取M个Transformer层，比如，f(S_i)表示学生模型S_i层对应拟合的老师层。

例如，可以通过平均选取方法或者等间隔选取方法。

例如，假设学生模型包含3个Transformer层，老师模型包含12个Transformer层，则学生模型中的第一个Transformer层可以对老师模型中的第一个Transformer层进行输出数据的拟合；学生模型中的第二个Transformer层可以对老师模型中的第五个Transformer层进行输出数据的拟合；学生模型中的第三个Transformer层可以对老师模型中的第九个Transformer层进行输出数据的拟合，即学生模型可以通过等间隔从老师模型中选取Transformer层作为学习目标。

步骤二：进行基于Transformer层的知识蒸馏。

其中，基于Transformer层的知识蒸馏可以包括注意力分数矩阵拟合和输出表征(例如，语义特征)的拟合。

例如，如图10所示，图10是本申请实施例提供的基于中间层(例如，Transformer层)的训练方法(即知识蒸馏)的示意图。

在本申请的实施例中，对于每一层而言，学生模型可以拟合老师模型的注意力分数矩阵与该层的输出表征，其中，注意力分数矩阵中可以包含丰富的句法、指代和任务相关的信息，能够显示地体现大规模预训练语言模型(例如，老师模型)的强大的语义知识；通过对注意力分数矩阵的拟合，能够有效地迁移大模型的语义知识以此提升学生模型的语义理解能力。

例如，可以通过使用均方误差(mean-square error，MSE)损失函数来进行注意力分数的拟合：

其中，

表示学生模型中第S_i个Transformer层的注意力分数矩阵，

表示老师模型中第f(S_i)个Transformer层的注意力分数矩阵，h、l分别表示模型的注意力机制计算次数(head数)和文本长度。

上述注意力分数矩阵可以用

表示，其中，Q,K∈R^l*d是基于输入表征(例如，语义特征)计算通过不同的线性变换得到的两个矩阵，d表示输入表征的维数。

示例性地，在本申请的实施例中可以使用MSE损失函数对一个Transformer层的输出表征进行拟合，其中，学生模型第S_i层对应老师模型第f(S_i)层的拟合如下：

其中，

表示学生模型第S_i层隐含层状态，

表示老师模型第f(S_i)层隐含层状态，由于学生模型的表征维度要比老师模型的表征维度小，因此需要通过使用了线性变换W增加学生表征层维度使其与老师模型的表征层维度相同。

示例性地，使用MSE的损失函数对Transformer层进行拟合，Transformer层的拟合目标可以为：

步骤三：输出层的拟合。

假设原始训练文本集为D^org＝{x_i,y_i}(1≤i≤|D^org|)，增强文本集为D^arg＝{x_i}(1≤i≤|D^arg|)，将这两个文本集合并得到输出文本{x_i}，使用老师模型对输入文本进行预测记录预测标签信息(logits值)，最终的文本集为D＝{x_i,y′_i}(1≤i≤|D)。使用MSE损失函数对模型输出的预测值进行拟合学习：

选择在验证文本集上表现最好的模型作为最终学生模型。

需要说明的是，增强文本集是通过原始文本集进行局部替换得到的，随后将结合图11和图12更详细地描述。

目前，数据增强算法(例如，基于TF-IDF和词向量的替换方法)大都忽略了给定文本的上下文语义信息，从而导致数据增强算法得到的替换文本存在语句不通顺，文本质量较差以及文本扩充有限等问题。

进一步地，本申请提出的基于预训练语言模型的数据增强方法，通过本申请实施例的数据增强方法能够很好的编码上下文信息，通过上下文信息生成合适的替换文本，使得替换文本语法更加通顺、质量更高。

可选地，训练学生模型使用的训练文本可以为增强文本集，上述文本处理模型的训练方法还包括：对获取的原始文本集进行局部词语替换，得到替换文本集；基于所述原始文本集与所述替换文本集，得到所述增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息、或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

其中，标签信息可以用于指示训练文本的情感分类结果或者语义意图，比如，标签信息可以包括“0”、“1”、“2”，其中，“0”可以用于指示该训练文本对应的用户情感分类结果为抑郁；“1”可以用于指示该训练文本对应的用户情感分类结果为生气；“2”可以用于指示该训练文本对应的用户情感分类结果为开心。

需要说明的是，原始文本集中的任意一个文本的标签信息可以是人工标注的标签信息，替换文本集中任意一个替换文本的标签信息可以是将生成的替换文本输入至老师模型得到的替换文本的预测分类结果即预测的标签信息。

可选地，所述对获取的原始文本集进行局部词语替换，得到替换文本集，包括：获取第一文本，所述第一文本为所述原始文本集合中的任意一个文本；根据所述第一文本中每个词的替换阈值，确定所述第一文本中词语的替换位置；对所述替换位置的一个词或者多个词进行掩盖，生成掩盖文本；将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本。

示例性地，对替换位置的一个词或者多个词进行掩盖，生成掩盖文本；将掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本。

可选地，上述将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本，可以包括：将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所述第一文本的替换文本。

示例性地，图11是本申请实施例提供的基于预训练语言模型的数据增强方法的示意图。如图11所示，数据增强方法600包括步骤601至步骤607。下面对步骤601至步骤607进行详细的描述。

步骤601、输入一个本文(例如，句子S)，该文本中包含t个词，设定t个词中每个词被替换的阈值P_i；每次替换的最大词数为n；使用i作为当前词下标，i初始化为1。

例如，假设输入文本为“帮我订一张从北京到上海的机票”。

步骤602、产生0到1的随机数r，判断r是否大于第i个词的阈值P_i；若r>P_i则对第i词进行替换，执行步骤603；否则执行步骤604对词下标加1，即i+＝1并判断当前词是否为最后一个词即执行步骤605。

步骤603、从[1,n]区间中产生替换的词数m；使用预训练语言模型产生替换片段，并对原句片段进行替换，同时更新下标i+＝m。

步骤605、判断是否遍历完整个句子即是否满足i<＝t，若满足条件则返回执行步骤602；若不满足条件则执行步骤606输出进行局部替换后的新句子。

步骤607、结束流程。

例如，图12示出根据本申请实施例提供的生成替换文本的方法的示意性流程图。

步骤701、当前输入的文本为“帮我订一张从北京到上海的机票”，假设通过步骤601与步骤602确定当前输入文本中的第一个词需要进行替换，产生替换的词数m为3。

步骤702、对当前输入文本中为替换位置进行掩盖(Mask)，生成掩盖文本。

例如，生成的掩盖文本为“[Mask][Mask][Mask]一张从北京到上海的机票”。

步骤703、将得到的掩盖文本输入至基于预训练语言模型进行文本替换。

例如，将替换文本“[Mask][Mask][Mask]一张从北京到上海的机票”输入至预训联语言模型(例如，BERT模型)。

应理解，预训练语言模型可以与上述老师模型与学生模型均不相同，预训练语言模型用于进行文本替换。例如，预训练语言模型可以是BERT模型。

示例性地，将掩盖文本输入至预训练语言模型可以采用贪婪算法和/或集束搜索算法产生多个新句子，生成替换文本。

具体地，每次使用预训练语言模型BERT对所有[Mask]符号进行预测，然后对所有[Mask]符号对应候选词概率进行统一比较，选择概率最大一个进行[Mask]符号替换；循环m次，直到所有的[Mask]符号被替换。

步骤704、输出替换文本。

示例性地，输入文本“帮我订一张从北京到上海的机票”对应生成的替换文本可以包括“[我][买][了]一张从北京到上海的机票”、“[先][准][备]一张从北京到上海的机票”、“[我][准][备]一张从北京到上海的机票”、“[我][想][要]一张从北京到上海的机票”等。

需要说明的是，上述是以原始文本集中的一个输入文本为例进行举例说明，本申请实例可以对训练文本集中的每个句子都进行以上操作，生成新的数据即替换文本。通过本申请实施例提供的替换文本生成的方法能够很好的编码上下文信息，通过上下文信息生成合适的替换文本，使得替换文本语法更加通顺、质量更高。

在一种可能的实现方式中，用于训练学生模型的训练文本可以是通过上述图11与图12得到的增强文本集，增强文本集中的任意一个训练文本可以包含标签信息，标签信息用于指示训练文本的分类结果，其中，训练文本可以是不同分类应用的文本，例如，训练文本可以用于情感分类的文本，或者，训练文本可以是用于意图分类的文本。

示例性地，图13是本申请实施例提供的针对特定任务(例如，不同的分类应用)的知识蒸馏方法。其中，学生模型可以采用与老师模型相同的Transformer结构，可以采用针对特定任务的训练数据直接对学生模型进行训练，得到针对特定任务的目标学生模型。如图13所示，针对任务蒸馏方案包括两个步骤：

步骤一：使用基于预训练语言模型的对原始文本集进行数据增强处理，即对针对特定任务的训练数据进行扩充得到新的数据。

应理解，上述特定任务可以是指不同的分类应用，例如，特定任务可以是指情感分类应用，或者意图分类应用。

例如，原始文本集中的每一个训练文本可以包含标签信息，标签信息可以用于指示训练文本对应的用户的情感分类结果；对原始文本集进行数据增强处理后，得到的替换文本集，将替换文本输入至老师模型可以得到替换文本的预测标签信息，预测标签信息可以用于指示替换文本对应的用户的情感分类结果；通过原始文本集与替换文本集进行合并可以得到应用于情感分类的增强文本集。

当增强文本集包含的训练文本为应用于情感分类的数据时，训练得到的目标学生模型可以用于对待处理文本进行情感分类。

例如，原始文本集中的每一个训练文本可以包含标签信息，标签信息可以用于指示训练文本对应的用户的意图分类结果；对原始文本集进行数据增强处理后，得到的替换文本集，将替换文本输入至老师模型可以得到替换文本的预测标签信息，预测标签信息可以用于指示替换文本对应的用户的意图分类结果；通过原始文本集与替换文本集进行合并可以得到应用于意图分类的增强文本集。

当增强文本集包含的训练文本为应用于意图分类的数据时，训练得到的目标学生模型可以用于对待处理文本进行意图分类。

应理解，上述对原始文本集中的训练文本进行局部替换得到增强文本集的具体流程可以参见上述图11与图12的流程，此处不再赘述。

步骤二：使用基于Transformer层的知识蒸馏算法在增强文本集上进行知识迁移，获得目标学生模型。

示例性地，基于Transformer层的知识蒸馏算法可以参见上述图9与图10的具体流程。

在本申请的实施例中，通过采用不同分类应用的训练文本以及Transformer层的知识蒸馏方法得到基于不同分类任务的目标学生模型。具体地，学生模型可以拟合老师模型中Transformer层针对特定任务的注意力分数矩阵与该层的输出表征，由于注意力分数矩阵中可以包含丰富的句法、指代和任务相关的信息，能够显示地体现大规模预训练语言模型(例如，老师模型)的强大的语义知识，因此基于Transformer层的知识蒸馏方法能够有效地迁移大模型的语义知识以此提升学生模型针对特定任务的语义理解能力。

在一种可能的实现方式中，图14是本申请实施例提供的针对特定任务的知识蒸馏方法。

需要说明的是，上述图13所示的针对特定任务的知识蒸馏方法可以看作是一步蒸馏方法，即直接采用针对不同应用场景的训练数据对学生模型进行训练，得到处理特征任务的目标学生模型。

图14所示的针对特定任务的知识蒸馏方法中可以包括两步蒸馏方法，第一步为一般性蒸馏过程，即通过大规模文本语料(无标签信息)的训练得到小型化的学生模型；第二步为特定任务知识蒸馏过程，即通过针对特定任务的增强文本集(包含标签信息)对学生模型进行训练，得到针对特定任务的目标学生模型。

可选地，两步知识蒸馏方法可以包括以下流程：

步骤一：获取初始训练文本，所述初始训练文本不包含标签信息；将所述初始训练文本分别输入至初始老师模型与初始学生模型，得到所述初始老师模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义特征，所述老师模型是通过所述初始老师模型与所述训练文本训练得到的；

基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，得到所述学生模型。

示例性地，所述初始老师模型与所述初始学生模型可以为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型包含M个Transformer层，所述基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，包括：

从所述初始老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；

基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

步骤二：获取训练文本，所述训练文本包含标签信息，所述标签信息可以包括指示所述训练文本的分类结果的信息、或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果；将所述训练文本分别输入至老师模型与学生模型，得到所述老师模型输出的样本数据与所述学生模型输出的预测数据，其中，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及输出层输出的预测标签，所述老师模型为预先训练的用于文本分类的语言模型；

基于所述样本数据以及所述预测数据训练所述学生模型的参数，得到目标学生模型。

其中，上述老师模型是通过采用所述训练文本训练初始老师模型得到的。

示例性地，上述步骤二中的训练文本可以是指原始文本集，或者，也可以是指对原始文本集进行局部替换后得到的增强文本集。

需要说明的是，一般性蒸馏算法和特定任务蒸馏算法可以具有相互补充的作用，通过一般性蒸馏算法可以为特定任务蒸馏提供一个良好的初始学生模型；特定任务蒸馏算法可以使得初始学生模型进一步集中学习老师模型针对特定任务的语义表征能力。

在本申请的实施例中，可以先采用一般性蒸馏过程(General Distillation)基于大规模文本语料和Transformer层的蒸馏算法，进行一般性知识蒸馏得到小型化预训练语言模型；接着，采用特定任务型蒸馏过程(Task-specific Distillation)，即可以对原始数据集通过数据增强模块，得到更多的增强数据；通过增强数据作为知识蒸馏算法的数据输入，基于Transformer层进行知识蒸馏，得到与老师模型的语义表征相近且模型参数量显著少的目标学生模型。

图15是本申请实施例提供的文本处理的方法的示意性流程图。图15所示的方法可以由文本处理装置执行，该文本处理装置具体可以是图1中的数据处理设备，也可以是图2中的用户设备，也可以是图3中的执行设备110或者本地设备，也可以是图4中的执行设备210。图8所示的方法包括步骤810与步骤820，下面分别对步骤810与步骤820进行详细的介绍。

步骤810、获取待处理文本。

其中，待处理文本可以是任意的符合语言文法规则的文本序列。例如，待处理文本可以是新闻、百科、社交媒体消息、文学作品等中的一段文本。

步骤820、将所述待处理文本输入目标学生模型，得到所述待处理文本的处理结果，其中，所述目标学生模型是基于样本数据与预测数据训练学生模型得到的，所述样本数据是根据训练文本与老师模型得到的，所述预测数据是根据所述训练文本与学生模型得到的，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型。

应理解，目标学生模型可以是通过图8至图14所示的训练方法得到的模型，具体流程可以参见上述图8至图14。

示例性的，目标学生模型可以是用于文本分类的模型，将待处理文本输入目标学生模型中进行分类处理，即可得到对待处理文本的分类结果。

示例性地，目标学生模型可以是用于文本序列标注的模型，将待处理文本输入目标学生模型中进行序列标注处理，即可得到对待处理文本的序列标注。

示例性地，目标学生模型可以是用于文本翻译的模型，将待处理文本输入目标学生模型中进行翻译处理，即可得到对待处理文本的翻译文本。

需要说明的是，本申请实施例提供的目标学生模型同样适用于上述图8至图14中相关实施例中对目标学生模型相关内容的扩展、限定、解释和说明，此处不再赘述。

示例性地，目标学生模型可以是用于文本情感分类的模型，或者，目标学生模型可以是用于文本意图分类的模型，或者，目标学生模型可以是用于文本翻译的模型。

可选地，在一个实施例中，所述目标学生模型的中间层是根据所述样本语义特征与所述预测语义特征训练得到的；所述目标模型的输出层是根据所述样本标签与所述预测标签训练得到的。

可选地，在一个实施例中，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述目标学生模型的第i个Transformer层的模型参数是基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

可选地，在一个实施例中，所述训练文本为增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息用于指示所述训练文本的分类结果，序列标注的标签或者文本翻译的标签中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果；所述增强文本集是根据获取的原始文本集与替换文本集得到的，所述替换文本集是指对所述原始文本集进行局部词语替换得到的。

可选地，在一个实施例中，所述替换文本集中包括第一文本的替换文本，所述第一文本为所述原始文本集中的任意一个文本，所述第一文本的替换文本是将掩盖文本输入至预先训练的语言模型得到的，所述掩盖文本是通过对所述第一文本中的替换位置中的一个或者多个词进行掩盖得到的，所述替换位置是根据所述第一文本中每个词的替换阈值确定的。

可选地，在一个实施例中，所述第一文本的替换文本是通过将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到。

可选地，在一个实施例中，所述训练文本包含标签信息，所述学生模型是根据初始样本语义特征与初始预测语义特征训练初始学生模型得到的，所述初始样本语义特征是指将初始训练文本输入至初始老师模型得到的所述初始老师模型中间层的输出数据，所述预测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型中间层的输出数据，所述初始训练文本不包含标签信息。

可选地，在一个实施例中，所述标签信息包括指示所述训练文本的分类结果的信息、或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

可选地，在一个实施例中，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层的模型参数是通过所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图15，详细描述了本申请实施例文本处理模型的训练方法以及文本处理方法，下面将结合图16和图19，详细描述本申请的装置实施例。应理解，本申请实施例中的文本处理模型的训练装置可以执行前述本申请实施例中的文本处理模型的训练方法，文本处理装置可以执行前述本申请实施例中的文本处理方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图16是本申请实施例提供的文本处理模型的训练装置的示意性框图。应理解，训练装置900可以执行图8至图14所示的文本处理模型的训练方法。该训练装置900包括：获取单元910和处理单元920。

其中，所述获取单元910，用于获取训练文本；所述处理单元920，用于将所述训练文本分别输入老师模型与学生模型，得到所述老师模型输出的样本数据与所述学生模型输出的预测数据，其中，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型；基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，得到目标学生模型。

可选地，作为一个实施例，所述处理单元920具体用于：

基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层；基于所述样本标签与所述预测标签，训练所述学生模型的输出层。

可选地，作为一个实施例，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述处理单元920具体用于：

从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；

基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层，i为小于或等于M的正整数，M为大于或等于1的整数。

可选地，作为一个实施例，所述训练文本为增强文本集，所述处理单元920还用于：

对获取的原始文本集进行局部词语替换，得到替换文本集；

基于所述原始文本集与所述替换文本集，得到所述增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果。

可选地，作为一个实施例，所述处理单元920具体用于：

获取第一文本，所述第一文本为所述原始文本集合中的任意一个文本；

根据所述第一文本中每个词的替换阈值，确定所述第一文本中词语的替换位置；

对所述替换位置的一个词或者多个词进行掩盖，生成掩盖文本；

将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本。

可选地，作为一个实施例，所述处理单元920具体用于：

将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所述第一文本的替换文本。

可选地，作为一个实施例，所述训练文本包含标签信息，所述老师模型是根据初始老师模型与所述训练文本训练得到的，所述获取单元910，还用于获取初始训练文本，所述初始训练文本不包含标签信息；

所述处理单元920，还用于将所述初始训练文本分别输入至初始老师模型与初始学生模型，得到所述初始老师模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义特征；基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的模型参数，得到所述学生模型。

可选地，作为一个实施例，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述处理单元920具体用于：从所述初始老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；

基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层，i为小于或等于M的正整数，M为大于或等于1的整数。

图17是本申请实施例提供的文本处理装置的示意性框图。应理解，文本处理装置1000可以执行图15所示的文本处理方法。该文本处理装置1000包括：获取单元1010和处理单元1020。

其中，所述获取单元1010，用于获取待处理文本；所述处理单元1020，用于将所述待处理文本输入至目标学生模型，得到所述待处理文本的处理结果，其中，所述目标学生模型是基于样本数据与预测数据训练学生模型得到的，所述样本数据是根据训练文本与老师模型得到的，所述预测数据是根据所述训练文本与学生模型得到的，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型。

可选地，作为一个实施例，所述目标学生模型的中间层的是基于所述样本语义特征与所述预测语义特征训练得到的；所述目标模型的输出层是基于所述样本标签与所述预测标签训练得到的。

可选地，作为一个实施例，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述目标学生模型的第i个Transformer层是基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

可选地，作为一个实施例，所述训练文本为增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果；所述增强文本集是基于获取的原始文本集与替换文本集得到的，所述替换文本集是指对所述原始文本集进行局部词语替换得到的。

可选地，作为一个实施例，所述替换文本集中包括第一文本的替换文本，所述第一文本为所述原始文本集中的任意一个文本，所述第一文本的替换文本是将掩盖文本输入至预先训练的语言模型得到的，所述掩盖文本是通过对所述第一文本中的替换位置中的一个或者多个词进行掩盖得到的，所述替换位置是根据所述第一文本中每个词的替换阈值确定的。

可选地，作为一个实施例，所述第一文本的替换文本是通过将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到。

可选地，作为一个实施例，所述训练文本包含标签信息，所述老师模型是根据初始老师模型与所述训练文本训练得到的，所述学生模型是基于初始样本语义特征与初始预测语义特征训练初始学生模型得到的，所述初始样本语义特征是指将初始训练文本输入至初始老师模型得到的所述初始老师模型中间层的输出数据，所述预测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型中间层的输出数据，所述初始训练文本不包含标签信息。

可选地，作为一个实施例，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果

可选地，作为一个实施例，所述初始老师模型与所述初始学生模型为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层是根据所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

可选地，作为一个实施例，所述待处理文本的处理结果为以下处理结果的任意一种：所述待处理文本的情感分类结果、所述待处理文本的语义意图分类结果、所述待处理文本的序列标注结果或者所述待处理文本的翻译结果。

需要说明的是，上述训练装置900以及文本处理装置1000以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图18是本申请实施例提供的文本处理模型的训练装置的硬件结构示意图。图18所示的训练装置1100(该训练装置1100具体可以是一种计算机设备)包括存储器1101、处理器1102、通信接口1103以及总线1104。其中，存储器1101、处理器1102、通信接口1103通过总线1104实现彼此之间的通信连接。

存储器1101可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1101可以存储程序，当存储器1101中存储的程序被处理器1102执行时，处理器1102用于执行本申请实施例的文本处理模型的训练方法的各个步骤，例如，执行图8至图14所示的各个步骤。

应理解，本申请实施例所示的训练装置可以是服务器，例如，可以是云端的服务器，或者，也可以是配置于云端的服务器中的芯片；或者，本申请实施例所示的训练装置可以是智能终端，也可以是配置于智能终端中的芯片。

上述本申请实施例揭示的文本处理模型的训练方法可以应用于处理器1102中，或者由处理器1102实现。处理器1102可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述文本处理模型的训练方法的各步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。例如，处理器1202可以是包含图6所示的NPU的芯片。

上述的处理器1102可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1101，处理器1102读取存储器1101中的指令，结合其硬件完成本申请实施中图16所示的训练装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的图8至图14所示的训练方法。

通信接口1103使用例如但不限于收发器一类的收发装置，来实现装置1100与其他设备或通信网络之间的通信。

总线1104可包括在训练装置1100各个部件(例如，存储器1101、处理器1102、通信接口1103)之间传送信息的通路。

图19是本申请实施例提供的文本处理装置的硬件结构示意图。图19所示的文本处理装置1200(该文本处理装置1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202用于执行本申请实施例的文本处理方法的各个步骤，例如，执行图15所示的各个步骤。

应理解，本申请实施例所示的文本处理装置可以是智能终端，也可以是配置于智能终端中的芯片。

上述本申请实施例揭示的文本处理方法可以应用于处理器1202中，或者由处理器1202实现。处理器1202可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述文本处理方法的各步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。例如，处理器1202可以是包含图6所示的NPU的芯片。

上述的处理器1202可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成本申请实施中图17所示的文本处理装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的图15所示的文本处理方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现装置1200与其他设备或通信网络之间的通信。

总线1204可包括在文本处理装置1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

应注意，尽管上述训练装置1100和文本处理装置1200仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，训练装置1100和文本处理装置1200还可以包括实现正常运行所必须的其他器件。同时，根据具体需要本领域的技术人员应当理解，上述训练装置1100和文本处理装置1200还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，上述训练装置1100和文本装置1200也可仅仅包括实现本申请实施例所必须的器件，而不必包括图18或图19中所示的全部器件。

本申请实施例还提供一种芯片，该芯片包括收发单元和处理单元。其中，收发单元可以是输入输出电路、通信接口；处理单元为该芯片上集成的处理器或者微处理器或者集成电路。该芯片可以执行上述方法实施例中的方法。

本申请实施例还提供一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中的方法。

本申请实施例还提供一种包含指令的计算机程序产品，该指令被执行时执行上述方法实施例中的方法。

还应理解，本申请实施例中，该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如，处理器还可以存储设备类型的信息。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本处理模型的训练方法，其特征在于，包括：

获取训练文本；

将所述训练文本分别输入老师模型与学生模型，得到所述老师模型输出的样本数据与所述学生模型输出的预测数据，其中，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型；

基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，得到目标学生模型。

2.如权利要求1所述的训练方法，其特征在于，所述基于所述样本数据以及所述预测数据训练所述学生模型的模型参数，包括：

基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层；

基于所述样本标签与所述预测标签，训练所述学生模型的输出层。

3.如权利要求1或2所述的训练方法，其特征在于，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，N为大于或等于M的正整数，所述基于所述样本语义特征与所述预测语义特征，训练所述学生模型的中间层，包括：

4.如权利要求1至3中任一项所述的训练方法，其特征在于，所述训练文本为增强文本集，还包括：

对获取的原始文本集进行局部词语替换，得到替换文本集；

5.如权利要求4所示的训练方法，其特征在于，所述对获取的原始文本集进行局部词语替换，得到替换文本集，包括：

6.如权利要求5所示的训练方法，其特征在于，所述将所述掩盖文本输入至预先训练的语言模型，得到所述第一文本的替换文本，包括：

7.如权利要求1至6中任一项所述的训练方法，其特征在于，所述训练文本包含标签信息，所述老师模型是通过初始老师模型与所述训练文本训练得到的，在获取所述训练文本之前，还包括：

获取初始训练文本，所述初始训练文本不包含标签信息；

将所述初始训练文本分别输入所述初始老师模型与初始学生模型，得到所述初始老师模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义特征；

基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的模型参数，得到所述学生模型。

8.如权利要求7所述的训练方法，其特征在于，所述初始老师模型与所述初始学生模型为Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，N为大于或等于M的正整数，所述基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的模型参数，包括：

9.一种文本处理方法，其特征在于，包括：

获取待处理文本；

将所述待处理文本输入至目标学生模型，得到所述待处理文本的处理结果，

其中，所述目标学生模型是基于样本数据与预测数据训练学生模型得到的，所述样本数据是根据训练文本与老师模型得到的，所述预测数据是根据所述训练文本与学生模型得到的，所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层，所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签，所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签，所述老师模型为预先训练的用于文本处理的模型。

10.如权利要求9所述的文本处理方法，其特征在于，所述目标学生模型的中间层是基于所述样本语义特征与所述预测语义特征训练得到的；所述目标学生模型的输出层是基于所述样本标签与所述预测标签训练得到的。

11.如权利要求9或10所述的文本处理方法，其特征在于，所述老师模型与所述学生模型为转换器Transformer模型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述目标学生模型的第i个Transformer层是根据所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

12.如权利要求9至11中任一项所述的文本处理方法，其特征在于，所述训练文本为增强文本集，所述增强文本集中的每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，或者序列标注信息，或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结果；所述增强文本集是根据获取的原始文本集与替换文本集得到的，所述替换文本集是指对所述原始文本集进行局部词语替换得到的。

13.如权利要求12所述的文本处理方法，其特征在于，所述替换文本集中包括第一文本的替换文本，所述第一文本为所述原始文本集中的任意一个文本，所述第一文本的替换文本是将掩盖文本输入至预先训练的语言模型得到的，所述掩盖文本是根据对所述第一文本的替换位置中的一个或者多个词进行掩盖得到的，所述替换位置是根据所述第一文本中每个词的替换阈值确定的。

14.如权利要求13所述的文本处理方法，其特征在于，所述第一文本的替换文本是通过将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到的。

15.如权利要求9至14中任一项所述的文本处理方法，其特征在于，所述训练文本包含标签信息，所述老师模型是根据初始老师模型与所述训练文本训练得到的，所述学生模型是根据初始样本语义特征与初始预测语义特征训练初始学生模型得到的，所述初始样本语义特征是指将所述初始训练文本输入至所述初始老师模型得到的所述初始老师模型中间层的输出数据，所述预测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型中间层的输出数据，所述初始训练文本不包含标签信息。

16.如权利要求15所述的文本处理方法，其特征在于，所述初始老师模型与所述初始学生模型为Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层是根据所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到的，所述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M的正整数，i为小于或等于M的正整数，M为大于或等于1的整数。

17.如权利要求9至16中任一项所述的文本处理方法，其特征在于，所述待处理文本的处理结果为以下处理结果的任意一种：

18.一种文本处理模型的训练装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行权利要求1至8中任一项所述的训练方法。

19.一种文本处理装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行权利要求9至17中任一项所述的文本处理方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1至8中任一项所述的训练方法。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求9至17中任一项所述的文本处理方法。