CN116894479A

CN116894479A - 一种模型的训练方法、训练数据的获取方法及相关设备

Info

Publication number: CN116894479A
Application number: CN202310700033.6A
Authority: CN
Inventors: 白哲源; 刘鑫铎; 胡海林; 郭天宇; 王云鹤
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-10-17

Abstract

本申请实施例公开一种模型的训练方法、训练数据的获取方法及相关设备，方法可用于人工智能领域的文本处理领域中，方法包括：将包括第三文本和第一提示的第一文本输入机器学习模型，得到机器学习模型输出的第二文本，第三文本归属于第一数据集；将第二文本输入教师模型，得到教师模型输出的第一预测结果；基于第一预测结果执行第一训练操作以对第一提示进行更新；利用教师模型对学生模型进行知识蒸馏时使用的训练数据基于训练后的第一提示得到；通过前述方案，借助教师模型的能力引导机器学习模型生成的文本逼近隐私数据，则对学生模型进行知识蒸馏时采用的训练数据与隐私数据相似，以提高训练后的学生模型在执行自然语言处理任务时的准确率。

Description

一种模型的训练方法、训练数据的获取方法及相关设备

技术领域

本申请涉及人工智能领域，尤其涉及一种模型的训练方法、训练数据的获取方法及相关设备。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着人工智能技术的发展，用于处理文本的机器学习模型在增大，对机器学习模型进行压缩和加速是必要的，知识蒸馏(knowledge distillation)是一种重要的模型压缩与加速的手段。

但在某些领域中，对教师模型进行训练的训练数据为隐私数据，则在利用教师模型对学生模型进行知识蒸馏时，无法获取到学生模型在训练阶段所采用的训练数据，因此，一种学生模型的训练数据的获取方案亟待推出。

发明内容

本申请实施例提供了一种模型的训练方法、训练数据的获取方法及相关设备，由于教师模型是将隐私数据作为训练数据进行训练后得到的，则教师模型是熟悉隐私数据的，因此，第一训练操作的过程是借助教师模型的能力引导该机器学习模型生成的文本逼近隐私数据，从而采用蒸馏的方式对学生模型进行训练时采用的训练数据能够与隐私数据相似，有利于提高训练后的学生模型在执行自然语言处理任务时的准确率；在执行第一训练操作的过程中，仅对第一提示进行更新，降低了执行第一训练操作的过程中所需要更新的参数量，有利于降低第一训练操作的执行难度，有利于降低执行第一训练操作的过程中所消耗的计算机资源，也有利于提高第一训练操作的执行效率。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种模型的训练方法，可用于人工智能领域的文本处理领域中，方法包括：第一训练设备将第一文本输入第一机器学习模型中，得到第一机器学习模型包括第三文本和第一提示(prompt)，第三文本归属于第一数据集。第一训练设备将第二文本输入教师模型中，通过教师模型对第二文本进行处理，得到教师模型输出的第一预测结果；其中，教师模型为执行过训练操作的第一机器学习模型。第一训练设备基于第一预测结果执行第一训练操作，直至满足第一损失函数的收敛条件，在执行所述第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，对第一提示(prompt)的表达进行迭代更新。其中，训练后的第一提示用于得到第二数据集，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据，“第二数据集中的训练数据”可以理解为第二数据集包括的多个文本。

本实现方式中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据，第二数据集中的训练数据是在完成第一训练操作之后由专门的第一机器学习模型生成，而该第一训练操作是基于教师模型输出的第一预测结果执行的，教师模型的输入是前述第一机器学习模型的输出文本；由于教师模型是将隐私数据作为训练数据进行训练后得到的，则教师模型是熟悉隐私数据的，因此，第一训练操作的过程是借助教师模型的能力引导该第一机器学习模型生成的文本逼近隐私数据，从而采用蒸馏的方式对学生模型进行训练时采用的训练数据能够与隐私数据相似，有利于提高训练后的学生模型在执行自然语言处理任务时的准确率；该第一机器学习模型的输入为已有的第一数据集中的文本，第一数据集包括丰富的文本，对应的，该第一机器学习模型的输出文本也具有丰富性，从而保证了学生模型的训练数据的丰富性；此外，在执行第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，仅对第一提示进行更新，降低了执行第一训练操作的过程中所需要更新的参数量，有利于降低第一训练操作的执行难度，有利于降低执行第一训练操作的过程中所消耗的计算机资源，也有利于提高第一训练操作的执行效率。

在一种可能实现方式中，第一损失函数包括第一损失项，第一预测结果包括与至少一个字一一对应的至少一个向量；可选地，若教师模型的输出为包括至少一个字的文本，则第一预测结果包括与前述至少一个字一一对应的至少一个向量。利用第一损失项进行训练的目的包括使得第一预测结果中的每个向量更接近独热(one-hot)的形式。

本实现方式中，若第一预测结果包括的每个向量越接近one-hot的形式，则代表教师模型对输出的第一预测结果越自信，则代表输入到教师模型中的第二文本是教师模型熟悉的数据，也即代表第二文本和训练教师模型时采用的隐私数据更为相似，采用第一损失项有利于提高最后得到的第二文本(也即对学生模型进行知识蒸馏时所采用的训练数据)与训练教师模型时采用的隐私数据之间的相似度；此外，当教师模型的输出为文本时，也即第一预测结果包括与文本中的至少一个字一一对应的多个向量时，利用第一损失项进行训练的目的包括使得第一预测结果中的每个向量接近one-hot的形式，也即第一损失项能够兼容教师模型的输出为文本的情况，大大扩展了本方案的应用场景。

在一种可能实现方式中，第一损失函数包括第二损失项，第二损失项指示多个第一预测结果的信息熵，利用第二损失项进行训练的目的包括提高多个第一预测结果的信息熵；其中，多个第一预测结果的信息熵反映的是多个第一预测结果构成的信息系统的混乱程度，多个第一预测结果的信息熵越大，代表多个第一预测结果构成的信息系统的混乱性越大，也即多个第一预测结果越具有多样性。

本实现方式中，若多个第一预测结果的信息熵越大，则代表多个第一预测结果越具有多样性，则对于教师模型来说，与前述多个第一预测结果一一对应的多个第二文本是具有多样性的，有利于提高得到的多个第二文本的多样性；此外，采用第二损失项来提高多个第二文本的多样性的方式，避免了“第一训练操作的执行过程”与“学生模型的训练阶段所采用的第二文本的生成过程”之间的耦合，也即在每次执行“学生模型的训练阶段所采用的第二文本的生成过程”中不需要执行第一训练操作，降低了“学生模型的训练阶段所采用的第二文本的生成过程”的难度，也提高了在执行“学生模型的训练阶段所采用的第二文本的生成过程”时的灵活性。

在一种可能实现方式中，第一提示包括提示词和第二提示，提示词的含义为总结，在执行第一训练操作的过程中，可以不对提示词进行更新，仅对第二提示的表达进行更新。例如，提示词可以选用“summarize”、“conclude”，又例如，提示词可以选用“概括”、“归纳”、“总结”或其他词语等等。

本实现方式中，将第一提示设计为包括提示词和第二提示两个部分，提示词的含义为总结，则该提示词的作用为提示第一机器学习模型对第二提示和第三文本进行信息的总结，也即使得第二提示加第三文本与第一机器学习模型输出的第二文本之间具有一定的关联度，由于第三文本是来源于已有数据集的，也即第三文本具有丰富性；采用前述方案，有利于使得最终得到的多个第二文本中保留第三文本的丰富性。

在一种可能实现方式中，第一机器学习模型包括归一化指数(softmax)层，在第一机器学习模型对第一文本进行处理的过程中，第一机器学习模型中的softmax层需要处理的数据为基于第一文本得到的一个或多个第一数据，每个第一数据可以与第二文本中的一个字对应。其中，利用softmax层对每个第一数据进行处理的过程可以包括：在每个第一数据中加入扰动得到更新后的第一数据，利用softmax函数对每个更新后的第一数据进行处理。可选地，第一机器学习模型中的softmax层可以为第一机器学习模型的最后一个神经网络层，也即通过第一机器学习模型中的softmax层对每个更新后的第一数据进行处理后输出的处理结果可以用于指示第二文本中的每个字。

本实现方式中，相比于原始的第一数据，在第一数据中加入扰动后得到的更新后的第一数据更具有多样性，对应的，相对于通过softmax函数直接对第一数据进行处理得到第一数据的处理结果，通过softmax函数对更新后的第一数据进行处理得到更新后的第一数据的处理结果更具有多样性；而第一机器学习模型中的softmax层往往是第一机器学习模型的最后一个神经网络层，也即通过softmax层得到的处理结果指示的可以为整个第一机器学习模型输出的第二文本，“更新后的第一数据的处理结果更具有多样性”就代表整个第一机器学习模型输出的第二文本更具有多样性，也即在softmax层需要处理的第一数据中加入扰动，有利于提高了机器学习模型输出的第二文本的多样性。

在一种可能实现方式中，教师模型的任务为从第二文本中获取至少一类信息，第一预测结果包括与至少一类一一对应的至少一组词，第一损失函数包括第三损失项，第三损失想可以指示至少一组词中同一组词包括的不同的词之间的相似度，利用第三损失项进行训练的目的包括提高至少一组词中同一组词包括的不同的词之间的相似度。

本实现方式中，利用第三损失项进行训练的目的包括提高同一类信息中不同词之间的相似度，由于若教师模型的任务为从输入的第二文本中获取至少一类信息，则同一类别的信息中不同词之间应该是更为相似的，当同一类别的信息中不同词之间更为相似时，代表教师模型在对输入的第二文本执行信息获取任务时生成的第一预测结果更为准确，能反映出该输入到教师模型中的第二文本是教师模型更擅长处理的文本，也即该第二文本是教师模型熟悉的数据，因此利用第三损失项能够提高最后得到的该第二文本与训练教师模型时采用的隐私的训练数据之间的相似度。

在一种可能实现方式中，若教师模型的任务为从第二文本中获取至少两类信息，也即第一预测结果包括与前述至少两类一一对应的至少两组词，第三损失项还可以指示第一预测结果包括的至少两组词中不同组的词之间的相似度，利用第三损失项进行训练的目的还包括降低至少一组词中不同组的词之间的相似度。

本实现方式中，利用第三损失项进行训练的目的还包括降低来自于不同类别的信息，由于若教师模型的任务为从输入的第二文本中获取至少一类信息，则来自于不同类别的信息的词之间是应该更不相似的，当不同类别的信息中不同的词之间更不相似时，代表教师模型在对输入的第二文本执行信息获取任务时生成的第一预测结果更为准确，能反映出输入至教师模型的该第二文本是教师模型熟悉的数据，因此利用第三损失项能够提高最后得到的该第二文本与训练教师模型时采用的隐私的训练数据之间的相似度。

在一种可能实现方式中，教师模型和学生模型可以均用于执行自然语言处理任务，例如，教师模型和学生模型的任务类型可以均为如下任一种：对文本进行分类、从文本中获取至少一类信息、对文本进行序列标注、对两个文本之进行句子关系推断或者基于文本执行生成式任务等等。

第二方面，本申请实施例提供一种训练数据的获取方法，可用于人工智能领域的文本处理领域中，方法包括：执行设备获取第一文本，第一文本包括第三文本和训练后的第一提示(prompt)，第三文本归属于第一数据集，训练后的第一提示通过第一训练操作得到；将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本。其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，第二数据集包括多个第二文本；在利用第一损失函数执行第一训练操作时，保持机器学习模型和教师模型的参数不变，对第一提示的表达进行更新，教师模型的输入为机器学习模型的输出文本，损失函数基于教师模型输出的第一预测结果得到。

本申请第二方面中的各个名词的含义以及第二方面所带来的有益效果，均可以参阅第一方面，此处不再赘述。

第三方面，本申请实施例提供一种模型的训练方法，可用于人工智能领域的文本处理领域中，方法包括：第二训练设备将第二文本分别输入教师模型和学生模型，得到教师模型输出的第二预测结果以及学生模型输出的第三预测结果；第二训练设备根据第二预测结果和第三预测结果，采用蒸馏的方式对学生模型进行训练；其中，该第二文本由第一机器学习模型基于训练后的第一提示(prompt)生成，第一机器学习模型的输入为第一文本，第一文本包括第三文本和前述训练后的第一提示，第三文本归属于第一数据集，该训练后的第一提示为通过第一训练操作得到，在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示的表达进行更新，教师模型的输入为第一机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

本申请第三方面中的各个名词的含义以及第三方面所带来的有益效果，均可以参阅第一方面，此处不再赘述。

第四方面，本申请实施例提供一种模型的训练装置，可用于人工智能领域的文本处理领域中，模型的训练装置包括：输入模块，用于将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本，第一文本包括第三文本和第一提示(prompt)，第三文本归属于第一数据集；输入模块，还用于将第二文本输入教师模型中，得到教师模型输出的第一预测结果；训练模块，用于基于第一预测结果执行第一训练操作，直至满足第一损失函数的收敛条件，在执行第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，对第一提示进行更新；其中，训练后的第一提示用于得到第二数据集，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据。

本申请的第四方面中，模型的训练装置还用于执行第一方面中第一训练设备执行的步骤，本申请第四方面中步骤的具体实现方式、各个名词的含义以及所带来的有益效果，均可以参阅第一方面，此处不再赘述。

第五方面，本申请实施例提供一种训练数据的获取装置，可用于人工智能领域的文本处理领域中，训练数据的获取装置包括：获取模块，用于获取第一文本，第一文本包括第三文本和训练后的第一提示(prompt)，第三文本归属于第一数据集，训练后的第一提示通过第一训练操作得到；输入模块，用于将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本，其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，第二数据集包括多个第二文本；在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示进行更新，教师模型的输入为第一机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

本申请第五方面中的各个名词的含义以及第五方面所带来的有益效果，均可以参阅第一方面，此处不再赘述。

第六方面，本申请实施例提供一种模型的训练装置，可用于人工智能领域的文本处理领域中，模型的训练装置包括：输入模块，用于将第二文本分别输入教师模型和学生模型，得到教师模型输出的第二预测结果以及学生模型输出的第三预测结果；训练模块，用于根据第二预测结果和第三预测结果，采用蒸馏的方式对学生模型进行训练；其中，该第二文本由第一机器学习模型基于训练后的第一提示(prompt)生成，第一机器学习模型的输入为第一文本，第一文本包括第三文本和前述训练后的第一提示，第三文本归属于第一数据集，该训练后的第一提示为通过第一训练操作得到，在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示的表达进行更新，教师模型的输入为第一机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

本申请第六方面中的各个名词的含义以及第六方面所带来的有益效果，均可以参阅第一方面，此处不再赘述。

第七方面，本申请实施例提供了一种训练设备，包括处理器和存储器，处理器与存储器耦合，存储器，用于存储程序；处理器，用于执行存储器中的程序，使得训练设备执行上述第一方面或第三方面所述的模型的训练方法。

第八方面，本申请实施例提供了一种执行设备，包括处理器和存储器，处理器与存储器耦合，存储器，用于存储程序；处理器，用于执行存储器中的程序，使得执行设备执行上述第二方面所述的训练数据的获取方法。

第九方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面、第二方面或第三方面所述的方法。

第十方面，本申请实施例提供了一种计算机程序产品，计算机程序产品包括程序，当该程序在计算机上运行时，使得计算机执行上述第一方面、第二方面或第三方面所述的方法。

第十一方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持实现上述各个方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存终端设备或通信设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1为本申请实施例提供的人工智能主体框架的一种结构示意图；

图2为本申请实施例提供的数据处理系统的一种系统架构图；

图3为本申请实施例提供的模型的训练方法的一种流程示意图；

图4为本申请实施例提供的第一文本的一种示意图；

图5为本申请实施例提供的one-hot形式的向量的几种示意图；

图6为本申请实施例提供的模型的训练方法的另一种流程示意图；

图7为本申请实施例提供的训练数据的获取方法的一种流程示意图；

图8为本申请实施例提供的模型的训练方法的另一种流程示意图；

图9为本申请实施例提供的模型的训练装置的一种结构示意图；

图10为本申请实施例提供的训练数据的获取装置的一种结构示意图；

图11为本申请实施例提供的模型的训练装置的另一种结构示意图；

图12为本申请实施例提供的设备的一种结构示意图；

图13为本申请实施例提供的芯片的一种结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片提供，该智能芯片具体可以采用中央处理器(central processing unit，CPU)、嵌入式神经网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、专用集成电路(application specific integrated circuit，ASIC)或现场可编程门阵列(fieldprogrammable gate array，FPGA)等硬件加速芯片；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、智慧城市等。

本申请可以应用于人工智能技术的各种应用领域中，示例性地，可以用于得到各个应用领域中的机器学习模型在训练阶段所采用的训练数据。可选地，前述训练阶段所采用的训练方式为知识蒸馏(knowledge distillation)，知识蒸馏指的是一种将教师模型学习到的“知识”迁移到简单的学生模型中的模型压缩方法。

示例性地，上述训练数据具体表现为文本，也即上述教师模型和学生模型均用于执行自然语言处理(natural language processing，NLP)任务。其中，自然语言处理就是对人类语言的处理，自然语言处理是采用第一机器学习模型对文本数据进行系统化分析、理解与信息提取的过程，在智能终端、智能家居、自动驾驶等应用领域中均可以利用机器学习模型执行自然语言处理任务。

在上述种种应用领域中，通过使用前述机器学习模型，我们可以管理非常大块的文本数据，或者执行大量的自动化任务，并且解决各式各样的问题，例如自动摘要(automatic summarization)，机器翻译(machine translation，MT)，命名实体识别(namedentity recognition，NER)，关系提取(relation extraction，RE)，信息抽取(informationextraction，IE)，情感分析，语音识别(speech recognition)，问答系统(questionanswering)以及主题分割等等。

示例性地，自然语言处理任务可以有以下几类。

分类任务：机器学习模型针对输入的整个文本输出一个分类值。如情感分类、主题分类或语法是否使用正确的分类等等。

信息抽取任务：通过机器学习模型从输入的文本中获取至少一类信息。

序列标注：文本中每一个单词要求机器学习模型根据上下文给出一个分类类别。如中文分词、词性标注、命名实体识别或语义角色标注等等。

句子关系推断：机器学习模型的输入为两个文本，通过机器学习模型判断这两个文本是否具备某种名义关系。例如问答系统、语义改写或自然语言推断等等。

生成式任务：输入一段文本，通过机器学习模型生成另一段文本。如机器翻译、自动摘要或写诗造句等等。

需要说明的是，本申请提供的方法还可以应用于利用机器学习模型进行其他的自然语言处理任务的应用场景中，上述举例仅为方便理解本方案，不用于限定本方案。

由于随着人工智能技术的发展，用于处理文本的机器学习模型在增大，则可以采用知识蒸馏的方式对执行过训练操作的教师模型进行压缩，以得到更小的学生模型，但是，在某些场景中，对教师模型进行训练时所采用的训练数据为隐私数据，从而无法获取到对学生模型进行训练时采用的训练数据，在本申请提供的方法中，借助教师模型的能力执行第一训练操作，在完成第一训练操作之后，利用第一机器学习模型生成在利用教师模型对前述学生模型进行知识蒸馏时所需要的训练数据。

在对本申请提供的方法进行详细介绍之前，请先参阅图2，图2为本申请实施例提供的数据处理系统的一种系统架构图，在图2中，数据处理系统包括第一训练设备210、数据库220、执行设备230和第二训练设备240。

其中，数据库220中存储有第一数据集，第一数据集包括大量的文本。在第一训练操作的执行阶段，第一训练设备210利用第一数据集执行第一训练操作。示例性地，第一训练设备210将第一文本输入第一机器学习模型201中，得到第一机器学习模型201输出的第二文本，第一文本基于第一数据集得到；第一训练设备210将第二文本输入教师模型202中，得到教师模型202输出的第一预测结果，基于第一预测结果执行第一训练操作。其中，第一机器学习模型201可以具体表现为神经网络，也可以表现为非神经网络的模型，本申请实施例中仅以第一机器学习模型201表现为神经网络为例进行说明。

在第二数据集(也即学生模型203的训练数据)的生成阶段，执行设备230中部署有第一机器学习模型201，在完成第一训练操作之后，执行设备230可以利用第一机器学习模型201生成多个第二文本，学生模型203的训练阶段所采用的第二数据集包括前述多个第二文本。

在第二训练操作的执行阶段，第二训练设备240能够获取到第二数据集，第二数据集包括多个第二文本，第二训练设备240可以将第二文本分布输入教师模型202和学生模型203中，得到教师模型202输出的第二预测结果以及学生模型203输出的第三预测结果；第二训练设备240根据第二预测结果和所述第三预测结果，采用蒸馏的方式对学生模型203进行迭代训练。

值得注意的，图2仅是本发明实施例提供的数据处理系统的一种架构示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在本申请的另一些实施例中，第一训练设备210、执行设备230以及第二训练设备240可以为同一设备；或者，第一训练设备210为一个独立的设备，执行设备230和第二训练设备240为同一设备；或者，第一训练设备210和执行设备230为同一设备，第二训练设备240为另一个独立的设备等等，本申请实施例中均不做限定。

结合上述描述可知，本申请提供的方法可以包括三个阶段，下面开始对第一训练操作的执行阶段、第二数据集的生成阶段以及第二训练操作的执行阶段这三个阶段的具体实现流程进行描述。

一、第一训练操作的执行阶段

本申请实施例中，具体的，请参阅图3，图3为本申请实施例提供的模型的训练方法的一种流程示意图，本申请实施例提供的模型的训练方法可以包括：

301、将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本，第一文本包括第三文本和第一提示(prompt)，第三文本归属于第一数据集。

本申请实施例中，第一训练设备在将第一文本输入第一机器学习模型中之前，需要先基于第一数据集获取第一文本，第一数据集为已有的。“第一数据集为已有的”可以理解为第一数据集为第一训练设备能够获取到的数据集，例如，第一数据集可以为公开的文本数据集，或者，第一数据集可以为第一训练设备能够获取到的且不是公开的文本数据集。

第一机器学习模型为输入和输出均为文本的机器学习模型；例如，第一机器学习模型可以采用生成器，又例如，第一机器学习模型可以包括编码器和解码器等等，第一机器学习模型还可以表现为其他形式，具体可以结合实际应用场景灵活确定，本申请实施例中均不做限定。

第一训练设备可以采用多种方式实现“基于第一训练数据集得到第一文本”，在一种实现方式中，可以基于提示学习(prompt learning)的思想执行第一训练操作，则每个第一文本包括第三文本和第一提示(prompt)，第三文本归属于第一数据集，也即第一数据集中包括多个第三文本。则第一训练设备获取第一文本可以包括：第一训练设备从第一数据集中获取一个或多个第三文本，并将每个第三文本和第一提示进行组合，得到每个第一文本。可选地，在第一训练设备执行第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，对第一提示(prompt)进行迭代更新。

示例性地，由于在执行第一训练操作的过程中会对第一提示进行迭代更新，则若第一训练设备是第一次获取第一文本，也即第一训练设备是对第一提示进行第一次训练，则第一训练设备可以获取第一提示的初始表达，将每个第三文本与第一提示的初始表达进行组合，得到每个第一文本。若第一训练设备对第一提示执行非首次训练时，第一训练设备可以获上一次训练中得到的第一提示的更新后的表达，将每个第三文本与第一提示的更新后的表达进行组合，得到每个第一文本。

示例性地，第一提示的初始表达以及更新后的表达具体可以表现为向量，或其他形式的数据等，本申请实施例中不做限定。

第一提示可以具体表现为多种形式，在一种实现方式中，第一提示(prompt)可以为混合prompt，混合prompt可以包括提示词和第二提示，在执行第一训练操作的过程中，可以不对提示词进行更新，仅对第二提示进行更新。

可选地，第一提示中采用的提示词的含义可以为总结；例如，提示词可以选用“summarize”、“conclude”，又例如，提示词可以选用“概括”、“归纳”、“总结”或其他词语等等，此处对提示词的示例仅为证明本方案可实现性，不用于限定本方案。

为更直观地理解本方案，请参阅图4，图4为本申请实施例提供的第一文本的一种示意图。如图4所示，第一文本可以包括提示词、第一提示以及第三文本，图4中以提示词采用“summarize”为例，应理解，图4中的示例仅为方便理解“第一文本”的概念，不用于限定本方案。

本申请实施例中，将第一提示设计为包括提示词和第二提示两个部分，提示词的含义为总结，则该提示词的作用为提示第一机器学习模型对第二提示和第三文本进行信息的总结，也即使得第二提示加第三文本与第一机器学习模型输出的第二文本之间具有一定的关联度，由于第三文本是来源于已有数据集的，也即第三文本具有丰富性；采用前述方案，有利于使得最终得到的多个第二文本中保留第三文本的丰富性。

可选地，在另一种实现方式中，第一数据集中包括多个第一文本，则第一训练设备获取第一文本也可以包括：第一训练设备直接从第一数据集中获取每个第一文本。

本申请实施例中，第一训练设备可以将每个第一文本输入第一机器学习模型中，通过第一机器学习模型对第一文本进行处理，得到第一机器学习模型输出的第二文本。示例性地，第二文本可以包括多个字，第一机器学习模型输出的可以为代表第二文本的多个第一向量，多个第一向量中的每个第一向量可以指示第二文本中的一个字。

其中，第一机器学习模型包括多个神经网络层，多个神经网络层中可以包括至少一个归一化指数(softmax)层，在第一机器学习模型对第一文本进行处理的过程中，第一机器学习模型中的softmax层需要处理的数据为基于第一文本得到的至少一个第一数据，也即前述至少一个第一数据可以为第一机器学习模型在对第一文本进行处理的过程中由前述softmax层的上一个神经网络层生成的数据。可选地，每个第一数据可以与第二文本中的一个字对应，第一机器学习模型中的softmax层的上一个神经网络层一次生成的可以为一个第一数据，也可以为与整个第二文本包括的多个字一一对应的多个第一数据。

可选地，第一机器学习模型中的softmax层可以为第一机器学习模型的最后一个神经网络层，也即通过第一机器学习模型中的softmax层对每个第一数据进行处理后输出的处理结果可以用于指示第二文本中的每个字。

在一种实现方式中，第一训练设备利用第一机器学习模型中softmax层对每个第一数据进行处理的过程可以包括：第一训练设备通过第一机器学习模型中得到softmax层在每个第一数据中加入扰动得到更新后的第一数据，利用softmax函数对更新后的第一数据进行处理。示例性地，在每个第一数据中加入的扰动可以为随机的，或者，也可以为基于预设分布空间得到的，例如，前述扰动可以为基于耿贝尔(Gumbel)分布空间、高斯分布空间或其他分布空间得到等等，具体可以结合实际应用场景灵活确定，本申请实施例中不做限定。为进一步理解本方案，以下公开了通过前述softmax层对第一数据进行处理时所采用的公式的一个示例：

其中，y代表利用第一机器学习模型中softmax层对每个第一数据进行处理后得到的处理结果，h代表一个第一数据，代表在第一数据中加入的扰动，g代表从Gumbel分布空间中采样出来的一个向量；σ为一个超参数，可选地，σ的取值在1附近，也即σ与1之间的差值位于预设范围内；τ也是一个超参数，τ在本方案中可以取一个较低的值，示例性地，τ的取值可以为0.001或其他取值等等，需要说明的是，式(1)仅为方便理解本方案的一个示例，不用于限定本方案。

本申请实施例中，相比于原始的第一数据，在第一数据中加入扰动后得到的更新后的第一数据更具有多样性，对应的，相对于通过softmax函数直接对第一数据进行处理得到第一数据的处理结果，通过softmax函数对更新后的第一数据进行处理得到更新后的第一数据的处理结果更具有多样性；而第一机器学习模型中的softmax层往往是第一机器学习模型的最后一个神经网络层，也即通过softmax层得到的处理结果指示的可以为整个第一机器学习模型输出的第二文本，“更新后的第一数据的处理结果更具有多样性”就代表整个第一机器学习模型输出的第二文本更具有多样性，也即在softmax层需要处理的第一数据中加入扰动，有利于提高了机器学习模型输出的第二文本的多样性。

在另一种实现方式中，第一训练设备利用第一机器学习模型中softmax层对每个第一数据进行处理的过程可以包括：第一训练设备通过第一机器学习模型中softmax层对每个第一数据直接进行处理。

可选地，若第一机器学习模型的最后一个神经网络层不是采用softmax层，在获取到第一机器学习模型的倒数第二个神经网络层生成的至少一个第二数据之后，可以在前述每个第二数据中加入扰动得到更新后的第二数据，通过第一机器学习模型的最后一个神经网络层对每个更新后的第二数据进行处理，得到第一机器学习模型的最后一个神经网络层输出的(也即整个第一机器学习模型输出的)每个更新后的第二数据的处理结果；前述每个更新后的第二数据的处理结果用于指示第二文本中的一个字。

302、将第二文本输入教师模型中，得到教师模型输出的第一预测结果。

本申请实施例中，第一训练设备在获取到第一机器学习模型输出的第二文本之后，可以将第二文本输入教师模型中，通过教师模型对第二文本进行处理，得到教师模型输出的第一预测结果，其中，教师模型为执行过训练操作的机器学习模型。

该教师模型可以用于执行任意一种或多种自然语言处理任务，对于各种自然语言处理任务的举例可以参阅上述描述，此处不再一一进行赘述，具体教师模型所执行的任务的类型可以结合实际应用场景确定，本申请实施例中不做限定。

第一预测结果所指示的内容与教师模型所用于执行的任务的类别相关，例如，若教师模型用于对输入的第二文本进行情感分类，则第一预测结果可以指示第二文本的情感类别为正向、负向或者中性。又例如，若教师模型用于对输入的第二文本进行词性标注，则第一预测结果可以指示第二文本中每一个单词的词性类别，词性类别可以为动词、名词、副词或其他类别等，此处不做穷举。

又例如，若教师模型用于对输入的第二文本进行信息抽取，以从输入的第二文本中抽取到时间以及事件类型，则第一预测结果可以包括两组字，前述两组字中的一组字包括从第二文本中抽取到的时间，前述两组字中的另一组字包括从第二文本中抽取到的时间类型。

又例如，若教师模型用于对输入的第二文本进行翻译，则第一预测结果可以为第二文本的翻译结果等等，需要说明的是，此处对第一预测结果进行举例仅为方便理解本方案，不用限定本方案。

第一预测结果可以包括一个或多个第二向量。在一种应用场景中，若教师模型输出的为包括至少一个字的文本，第一预测结果包括与前述至少一个字一一对应的至少一个第二向量，每个第二向量用于指示前述文本中的一个字。在另一种应用场景中，若教师模型针对输入的整个第二文本输出一个预测类别，则第一预测结果也可以表现为一个第二向量，该一个第二向量用于指示第二文本的预测类别。

303、基于该第一预测结果，采用第一损失函数执行第一训练操作，在执行第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，对第一提示进行更新，其中，训练后的第一提示用于得到第二数据集，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据。

本申请实施例中，第一训练设备在得到教师模型输出的第一预测结果之后，可以基于第一预测结果执行第一训练操作。具体的，在一种实现方式中，在执行第一训练操作过程中，保持第一机器学习模型和教师模型的参数不变，对第一提示(prompt)进行更新。示例性地，第一训练设备可以基于第一预测结果计算第一损失函数的函数值，对第一损失函数的函数值进行梯度求导，采用反向传播算法对第一提示的表达进行更新，以完成对第一提示的一次训练。第一训练设备重复执行步骤301至303多次，以实现对第一提示的迭代训练，直至满足收敛条件时，确定完成了第一训练操作。前述收敛条件可以为满足第一损失函数的收敛条件，也可以为对第一提示进行迭代训练的次数达到预设次数。

可选地，在另一种实现方式中，在执行第一训练操作的过程中还可以对第一机器学习模型的参数进行更新。示例性地，第一训练设备可以基于第一预测结果计算第一损失函数的函数值，对第一损失函数的函数值进行梯度求导，采用反向传播算法对第一机器学习模型的参数进行更新，以完成对第一机器学习模型的一次训练。第一训练设备重复执行步骤301至303多次，以实现对第一机器学习模型的迭代训练，直至满足收敛条件时，确定完成了第一训练操作。

“第二数据集中的训练数据”可以理解为第二数据集包括的多个文本，“在完成第一训练操作后由第一机器学习模型生成第二数据集中的训练数据”以及“利用教师模型对学生模型执行第二训练操作”的具体实现过程将在后续实施例中进行描述，此处先不做赘述。

可选地，第一损失函数可以包括第一损失项，第一预测结果包括至少一个第二向量，利用第一损失项进行训练的目的包括使得前述至少一个第二向量中的每个第二向量更接近独热(one-hot)的形式；可选地，若教师模型的输出为包括至少一个字的文本，则第一预测结果包括与前述至少一个字一一对应的至少一个第二向量。

示例性地，one-hot形式的向量包括的多个值中存在一个1，one-hot形式的向量中其它值均为0。为更直观地理解本方案，请参阅图5，图5为本申请实施例提供的one-hot形式的向量的几种示意图，图5中示出了多个one-hot形式的向量，多个one-hot形式的向量包括3个长度为5的向量、2个长度为7的向量以及1个长度为10的向量；如图5所示，在每个one-hot形式的向量中都只包括1个1，其余的元素均为0，应理解，图5中的示例仅为方便理解“one-hot形式的向量”这一概念，不用于限定本方案。

可选地，第一损失项可以指示每个第二向量与第三向量之间的相似度，利用第一损失项进行训练的目的包括使得每个第二向量能够逼近第三向量的形式；第三向量基于第二向量得到，且第三向量表现为one-hot的形式。示例性地，每个第二向量可以包括多个值，第一训练设备基于第二向量得到第三向量可以包括：第一训练设备将第二向量中取值最大的一个值确定为1，将第二向量中的最大值之外的其他值均确定为0，从而得到第三向量。例如，若第二向量表现为(0.1，0.1，0.2，0.6)，由于前述第二向量包括的4个值中0.6的取值最大，则将第二向量中的0.6确定为1，将第二向量中的其他值确定为0后得到第三向量，则基于前述第二向量得到的第三向量可以表现为(0，0，0，1)。

又例如，若第二向量表现为(0.01，0.08，0.01，0.2，0，0，0.7)，由于前述第二向量包括的7个值中0.7的取值最大，则将前述第二向量中的0.7确定为1，将前述第二向量中的其他值确定为0后得到第三向量，则基于前述第二向量得到的第三向量可以表现为(0，0，0，0，0，0，1)等等，需要说明的是，此处举例均仅为方便理解“基于第二向量得到one-hot形式的第三向量”，“第二向量”以及“第三向量”的具体表现形式均可以结合实际情况确定，本申请实施例中均不做限定。

为进一步理解本方案，如下以教师模型输出的为多个向量为例，如下公开了第一损失项所采用的函数的一个示例：

其中，L_SPEC代表第一损失项，N代表一个批(batch)内的第二文本包括N个第二文本，代表将N个第二文本中的第i个第二文本输入教师模型后，教师模型输出的第一预测结果中包括的第j个第二向量，也即第一预测结果包括的多个字中与第j个字对应的一个第二向量，/>代表基于/>得到的一个第三向量，/>是one-hot形式的向量，“基于/>得到/>”的具体实现过程可以参阅上述描述，此处不做赘述；/>代表计算/>和/>之间的相似度，式(2)中以/>计算的是/>和/>之间的交叉熵(cross-entropy，CE)为例，/>和/>之间的交叉熵计算的是/>和/>之间的差异程度，/>和/>之间的差异程度越大则/>和/>之间的交叉熵越大，利用L_SPEC进行训练的目的是使得L_SPEC越来越小，也即使得/>和/>之间的差异程度越来越小。需要说明的是，式(2)中的举例仅为方便理解本方案，例如，“计算/>和/>之间的相似度”的方式也可以替换为计算/>和/>之间的余弦相似度、L1距离或替换为其他计算相似度的方式等等；又例如，N个第二文本包括的也可以不是一个batch内的所有第二文本，N的取值也可以为2、3、4、5或其他取值等等，式(2)中的举例不用于限定本方案。

本申请实施例中，若第一预测结果包括的每个向量越接近one-hot的形式，则代表教师模型对输出的第一预测结果越自信，则代表输入到教师模型中的第二文本是教师模型熟悉的数据，也即代表第二文本和训练教师模型时采用的隐私数据更为相似，采用第一损失项有利于提高最后得到的第二文本(也即对学生模型进行知识蒸馏时所采用的训练数据)与训练教师模型时采用的隐私数据之间的相似度；此外，当教师模型的输出为文本时，也即第一预测结果包括与文本中的至少一个字一一对应的多个向量时，利用第一损失项进行训练的目的包括使得第一预测结果中的每个向量接近one-hot的形式，也即第一损失项能够兼容教师模型的输出为文本的情况，大大扩展了本方案的应用场景。

可选地，第一损失函数可以包括第二损失项，第二损失项指示多个第一预测结果的信息熵(entropy)，利用第二损失项进行训练的目的包括提高多个第一预测结果的信息熵；其中，多个第一预测结果的信息熵反映的是多个第一预测结果构成的信息系统的混乱程度，多个第一预测结果的信息熵越大，代表多个第一预测结果构成的信息系统的混乱性越大，也即多个第一预测结果越具有多样性。

示例性地，前述至少一个第一预测结果可以为与预设个数的第二文本对应的第一预测结果，预设个数的第二文本可以为batch内的第二文本，也可以包括不同batch内的第二文本，预设个数可以为2、3、4、5或其他取值等等，或者，前述至少一个第一预测结果可以包括与一个batch内的所有第二文本对应的第一预测结果，或者，前述至少一个第一预测结果可以包括与半个batch内的所有第二文本对应的第一预测结果等等，具体在得到多少个第一预测结果之后开始计算第二损失项可以结合实际应用场景灵活确定，本申请实施例中均不做限定。

为进一步理解本方案，如下公开了第二损失项所采用的函数的一个示例：

其中，L_divs代表第二损失项，N代表一个批(batch)内的第二文本包括N个第二文本，P_i代表教师模型生成的与N个第二文本中第i个第二文本对应的一个第一预测结果，代表教师模型生成的与N个第二文本一一对应的N个第一预测结果，/>代表计算N个第一预测结果的信息熵，/>代表对N个第一预测结果的信息熵除以N；利用L_divs进行训练的目的包括使得L_divs的取值越来越小，也即利用L_divs进行训练的目的包括使得/>越来越大，也即利用L_divs进行训练的目的包括使得多个第一预测结果的信息熵越来越大，应理解，式(2)的举例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，若多个第一预测结果的信息熵越大，则代表多个第一预测结果越具有多样性，则对于教师模型来说，与前述多个第一预测结果一一对应的多个第二文本是具有多样性的，有利于提高得到的多个第二文本的多样性；此外，采用第二损失项来提高多个第二文本的多样性的方式，避免了“第一训练操作的执行过程”与“学生模型的训练阶段所采用的第二文本的生成过程”之间的耦合，也即在每次执行“学生模型的训练阶段所采用的第二文本的生成过程”中不需要执行第一训练操作，降低了“学生模型的训练阶段所采用的第二文本的生成过程”的难度，也提高了在执行“学生模型的训练阶段所采用的第二文本的生成过程”时的灵活性。

可选地，若教师模型的任务为从第二文本中获取至少一类信息，也即第一预测结果包括与前述至少一类一一对应的至少一组词，第一损失函数可以包括第三损失项，第三损失想可以指示至少一组词中同一组词包括的不同的词之间的相似度，利用第三损失项进行训练的目的包括提高至少一组词中同一组词包括的不同的词之间的相似度。

示例性地，若教师模型的任务为从输入的第二文本中获取时间、地点以及事件类型，则第一预测结果可以包括三组词，与“时间”对应的一组词包括“4月20日”和“4月21日”，与“地点”对应的一组词包括“XX温泉小镇”和“XX广场”，与“事件类型”对应的一组词包括“旅游”，则第三损失项可以指示与“时间”对应的一组词内不同的词之间的相似度，与“地点”对应的一组词内不同的词之间的相似度，和/或与“事件类型”对应的一组词内不同词之间的相似度等；此外，由于与“事件类型”对应的一组词内仅包括一个词，则利用第三损失项计算的可以为“旅游”与“旅游”之间的相似度，需要说明的是，此处举例仅为方便理解本方案，不用于限定本方案。

可选地，若教师模型的任务为从第二文本中获取至少两类信息，也即第一预测结果包括与前述至少两类一一对应的至少两组词，第三损失项还可以指示第一预测结果包括的至少两组词中不同组的词之间的相似度，利用第三损失项进行训练的目的还包括降低至少两组词中不同组的词之间的相似度。

示例性地，若教师模型的任务为从输入的第二文本中获取时间、地点以及事件类型，则第一预测结果可以包括三组词，与“时间”对应的一组词包括“4月20日”和“4月21日”，与“地点”对应的一组词包括“XX温泉小镇”和“XX广场”，与“事件类型”对应的一组词包括“旅游”，则第三损失项还可以指示“时间”所对应的一组词内的某个词和“地点”所对应的一组词内的某个词之间的相似度，“地点”所对应的一组词内的某个词和“事件类型”所对应的一组词内的某个词之间的相似度，或者，“时间”所对应的一组词内的某个词和“事件类型”所对应的一组词内的某个词之间的相似度等，需要说明的是，此处举例仅为方便理解本方案，不用于限定本方案。

为进一步理解本方案，如下公开了第三损失项所采用的函数的一个示例：

其中，L_scl代表第三损失项，R代表第一预测结果包括R组词，D_r代表R组词中第r组词，教师模型输出的第r组词具体可以包括与第r组词中每个字一一对应的第二向量，s_i,j∈D_r代表s_i,j包括教师模型输出的第r组词中某个词，包含第一预测结果中的第i个向量至第j个向量，也即s_i,j可以代表第r组词中的一个词；代表/>包括教师模型输出的第r组词中另一个词，包含第一预测结果中的第/>个向量至第/>个向量，也即/>可以代表第r组词中的另一个词，则s_i,j和/>为第r组词中不同的词；N_r代表第r组词包括的词的数量；/>的展开式可以参阅式(4)。

指示s_i,j与/>之间的相似度，/>的展开式可以参阅式(5)，式(5)中以计算s_i,j与/>之间的余弦相似度为例，还可以通过计算s_i,j与/>之间的欧式距离、L1距离或其他方式来得到s_i,j与/>之间的相似度等等，此处不做穷举；β是一个超参数；/>代表第一预测结果包括R组词中第/>组词，/>代表s_m,n包括教师模型输出的R组词中第/>组词中第m个向量至第n个向量，则s_i,j和s_m,n为R组词中不同组的词，/>指示s_i,j与s_m,n之间的相似度，/>的计算方式可以参阅/>的计算方式进行理解，此处不做赘述；通过式(4)可知，/>不仅指示第一预测结果包括的R组词中同一组词包括的不同的词之间的相似度，还指示第一预测结果包括的R组词中不同组的词之间的相似度。

利用L_scl进行训练的目的是使得L_scl越来越小，也即使得越来越大，从而利用L_scl进行训练的目的包括提高R组词中同一组词包括的不同的词之间的相似度，还包括降低R组词中不同组的词之间的相似度，应理解，式(3)至式(5)中的举例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，利用第三损失项进行训练的目的包括提高同一类信息中不同词之间的相似度，由于若教师模型的任务为从输入的第二文本中获取至少一类信息，则同一类别的信息中不同词之间应该是更为相似的，当同一类别的信息中不同词之间更为相似时，代表教师模型在对输入的第二文本执行信息获取任务时生成的第一预测结果更为准确，能反映出该输入到教师模型中的第二文本是教师模型更擅长处理的文本，也即该第二文本是教师模型熟悉的数据，因此利用第三损失项能够提高最后得到的该第二文本与训练教师模型时采用的隐私的训练数据之间的相似度。

利用第三损失项进行训练的目的还包括降低来自于不同类别的信息，由于若教师模型的任务为从输入的第二文本中获取至少一类信息，则来自于不同类别的信息的词之间是应该更不相似的，当不同类别的信息中不同的词之间更不相似时，代表教师模型在对输入的第二文本执行信息获取任务时生成的第一预测结果更为准确，能反映出输入至教师模型的该第二文本是教师模型熟悉的数据，因此利用第三损失项能够提高最后得到的该第二文本与训练教师模型时采用的隐私的训练数据之间的相似度。

可选地，第一损失函数可以包括第一损失项和第二损失项。

可选地，若教师模型的任务为从输入的第二文本中获取至少一类信息，第一损失函数可以包括第一损失项和第三损失项，或者，第一损失函数可以包括第二损失项和第三损失项，或者，第一损失函数可以包括第一损失项、第二损失项和第三损失项。

为更直观地理解本方案，请参阅图6，图6为本申请实施例提供的模型的训练方法的另一种流程示意图。如图6所示，第一训练设备在从第一数据集中获取到第三文本之后，将提示词(也即图6中的Summarize)、第一提示的表达以及第三文本进行拼接，得到第一文本；将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本。

第一训练设备将第二文本输入教师模型，得到教师模型输出的第一预测结果，基于第一预测结果分别计算第一损失项的值和第二损失项的值，根据第一损失项的值和第二损失项的值，生成第一损失函数的函数值，“第一损失项”和“第二损失项”的含义可以参阅上述描述，此处不再赘述。

第一训练设备对第一损失函数的函数值进行梯度求导，采用反向传播算法来更新第一提示的表达，从而完成了对第一提示的一次训练，应理解，图6中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据，第二数据集中的训练数据是在完成第一训练操作之后由专门的第一机器学习模型生成，而该第一训练操作是基于教师模型输出的第一预测结果执行的，教师模型的输入是前述第一机器学习模型的输出文本；由于教师模型是将隐私数据作为训练数据进行训练后得到的，则教师模型是熟悉隐私数据的，因此，第一训练操作的过程是借助教师模型的能力引导该第一机器学习模型生成的文本逼近隐私数据，从而采用蒸馏的方式对学生模型进行训练时采用的训练数据能够与隐私数据相似，有利于提高训练后的学生模型在执行自然语言处理任务时的准确率；该第一机器学习模型的输入为已有的第一数据集中的文本，第一数据集包括丰富的文本，对应的，该第一机器学习模型的输出文本也具有丰富性，从而保证了学生模型的训练数据的丰富性；此外，在执行第一训练操作的过程中，保持第一机器学习模型和教师模型的参数不变，仅对第一提示进行更新，降低了执行第一训练操作的过程中所需要更新的参数量，有利于降低第一训练操作的执行难度，有利于降低执行第一训练操作的过程中所消耗的计算机资源，也有利于提高第一训练操作的执行效率。

二、第二数据集的生成阶段

本申请实施例中，“第二数据集的生成阶段”也可以理解在执行完第一训练操作之后，利用第一机器学习模型生成多个第二文本(也即第二数据集)的阶段；或者，也可以理解为利用教师模型对学生模型进行知识蒸馏时采用的训练数据的生成阶段。具体的，请参阅图7，图7为本申请实施例提供的训练数据的获取方法的一种流程示意图，本申请实施例提供的训练数据的获取方法可以包括：

701、获取第一文本，第一文本包括第三文本和训练后的第一提示(prompt)，第三文本归属于第一数据集，训练后的第一提示通过第一训练操作得到。

702、将第一文本输入第一机器学习模型中，得到第一机器学习模型输出的第二文本，其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，第二数据集包括多个第二文本，在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示进行更新，教师模型的输入为机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

本申请实施例中，步骤701和702的具体实现方式、所带来的有益效果以及步骤701和702中名词的含义均可以参阅图3对应实施例中的描述，此处不做赘述。上述“第一训练操作”的具体实现过程可以参阅图3对应实施例中的描述，需要说明的是，在一种实现方式中，如上述步骤701和702所述，第一数据集中包括多个第三文本，每个第一文本包括第三文本和第一提示，执行第一训练操作的过程中是对第一提示进行迭代更新(也可以理解为对第一提示的表达进行迭代更新)，则步骤701和702中采用的第一文本包括执行过第一训练操作的第一提示以及从第一数据集中获取到的第三文本。

可选地，在另一种实现方式中，第一数据集中直接包括多个第一文本，执行第一训练操作的过程中是对第一机器学习模型的参数进行迭代更新，则步骤701和702中采用的第一机器学习模型为执行过第一训练操作的第一机器学习模型。

三、第二训练操作的执行阶段

本申请实施例中，“第二训练操作的执行阶段”也可以理解为采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程；也可以理解为利用教师模型对学生模型进行知识蒸馏的过程。具体的，请参阅图8，图8为本申请实施例提供的模型的训练方法的另一种流程示意图，本申请实施例提供的模型的训练方法可以包括：

801、将第二文本分别输入教师模型和学生模型，得到教师模型输出的第二预测结果以及学生模型输出的第三预测结果。

本申请实施例中，第二训练设备可以从第二数据集中获取一个或多个第二文本，将每个第二文本分别输入教师模型和学生模型，通过教师模型对每个第二文本进行处理后得到教师模型输出的第二预测结果，通过学生模型对每个第二文本进行处理后得到学生模型输出的第三预测结果。对于“教师模型”所执行的任务类型可以参阅上述图3对应实施例中的描述，此处不做赘述。“第二预测结果”的含义与“第一预测结果”的含义相同，区别在于“第二预测结果”是教师模型在第二训练操作的执行阶段生成的，“第一预测结果”是教师模型在第一训练操作的执行阶段生成的，“第二预测结果”的含义可以参阅上述图3对应实施例中的描述，此处不做赘述。

学生模型也是用于执行一种或多种自然语言处理任务，学生模型和教师模型用于执行相同的任务，“第三预测结果所指示的内容”与“第一预测结果所指示的内容”相同，可以参阅上述图3对应实施例中的描述，此处不做赘述。

学生模型和教师模型的区别在于，学生模型的规模小于教师模型的规模，也即学生模型所占的存储空间小于教师模型所占的存储空间，且利用学生模型进行数据处理时所消耗的计算机资源小于利用教师模型进行数据处理时所消耗的计算机资源。

802、根据第二预测结果和第三预测结果，采用蒸馏的方式对学生模型进行训练，其中，第二文本由第一机器学习模型基于训练后的第一提示(prompt)生成，第一机器学习模型的输入为第一文本，第一文本包括第三文本和前述训练后的第一提示，第三文本归属于第一数据集，该训练后的第一提示为通过第一训练操作得到，在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示的表达进行更新，教师模型的输入为第一机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

本申请实施例中，步骤801和802中多个名词的含义均可以参阅图3对应实施例中的描述，此处不做赘述。上述“第一训练操作”的具体实现过程可以参阅图3对应实施例中的描述，此处均不做赘述。

第二训练设备可以根据第二预测结果、第三预测结果以及第二损失函数的函数值，采用蒸馏的方式对学生模型进行训练。第二训练设备重复执行步骤801和802，以实现对学生模型的迭代训练，直至满足收敛条件时，得到执行过第二训练操作的学生模型；前述收敛条件可以为满足第二损失函数的收敛条件，也可以为对学生模型进行迭代训练的次数达到预设次数。

示例性地，第二训练设备可以根据第二预测结果和第三预测结果，生成第二损失函数的函数值，对第二损失函数的函数值进行梯度求导，采用反向传播算法对学生模型的参数进行更新，从而完成对学生模型的一次训练。

可选地，第二损失函数可以包括第四损失项，第四损失项指示教师模型输出的第二预测结果和学生模型输出的第三预测结果之间的相似度，利用第四损失项进行训练的目的包括提高第二预测结果和第三预测结果之间的相似度，也即利用第四损失项进行训练的目的包括降低第二预测结果和第三预测结果之间的差异程度。

示例性地，“第二预测结果和第三预测结果之间的相似度”可以通过计算第二预测结果和第三预测结果之间的詹森-香农散度(jensen–shannon divergence，JSD)、相对熵(kullback–leibler divergence，KLD)或计算第二预测结果和第三预测结果之间的其他信息得到等，此处不做限定。

为进一步理解本方案，如下以教师模型和学生模型输出的均为多个向量为例，公开了第四损失项所采用的函数的一个示例：

其中，L_divg代表第四损失项，N代表一个批(batch)内的第二文本包括N个第二文本，代表将N个第二文本中的第i个第二文本输入学生模型后，学生模型输出的第三预测结果中包括的第j个第二向量，/>代表将N个第二文本中的第i个第二文本输入教师模型后，教师模型输出的第二预测结果中包括的第j个第二向量，/>代表计算/>和/>之间的相似度，应理解，式(6)中的示例仅为方便理解本方案，不用于限定本方案。

可选地，第二损失函数可以包括第五损失项；第五损失项指示第一特征信息和第二特征信息之间的相似度，第一特征信息为教师模型对第二文本进行处理的过程中生成的第二文本的特征信息，第二特征信息为学生模型对第二文本进行处理的过程中生成的第二文本的特征信息，利用第五损失项进行训练的目的包括提高第一特征信息和第二特征信息之间的相似度。

为进一步理解本方案，如下公开了第五损失项所采用的函数的一个示例：

L_hidd＝‖(h_SW_h，h_T)‖₂； (7)

其中，L_hiidd代表第五损失项，‖(h_SW_h，h_T)‖₂代表计算h_SW_h与h_T之间的L2距离，h_S代表学生模型生成的第二特征信息，h_SW_h代表对第二特征信息进行线性变化，h_T代表教师模型生成的第一特征信息，应理解，式(7)中的示例仅为方便理解本方案，例如，在实际情况中，也可以将计算h_SW_h与h_T之间的L2距离替换为计算计算h_SW_h与h_T之间的L1距离、欧式距离或通过其他方式计算第一特征信息与第二特征信息之间的相似度等等，式(7)中的示例不用于限定本方案。

可选地，第二损失函数可以包括第四损失项和第五损失项，为进一步理解本方案，如下公开了第二损失函数的一个示例：

L_KD＝λ1L_divg+λ2Lh_idd；(8)

其中，L_KD代表第二损失函数，λ1代表L_divg的权重，λ2代表Lh_idd的权重，也即对第四损失项和第五损失项进行加权求和得到第二损失函数，应理解，式(8)中的示例仅为方便理解本方案，不用于限定本方案。

为进一步理解本申请提供的方法所带来的有益效果，如下结合实验数据对本申请所带来的有益效果进行介绍。我们在学生模型所执行的为分类任务和信息抽取任务进行了测试，如下表1展示了测试结果。

表1

其中，通用域文本(OOD)是目前存在的一种在没有原始的训练数据的情况下对学生模型进行知识蒸馏的方法，当学生模型所执行的任务为SST-2任务时，也即学生模型针对输入的整个文本输出一个预测的情感分类，采用正确率(accuracy，ACC)来衡量学生模型输出的情感分类的准确度，学生模型输出的分类值的准确率越高，ACC的取值均越高。

当学生模型所执行的任务为CoLA任务时，也即学生模型针对输入的整个文本输出一个预测的分类值，前述预测的分类值指示该输入的文本是否合乎语法要求，采用马修斯相关系数(MCC)来衡量学生模型输出的分类值的准确度，学生模型输出的分类值的准确率越高，MCC的取值均越高。

当学生模型所执行的任务为信息抽取时，也即学生模型从输入的整个文本中识别出至少一类具有特定意义的信息，采用F1分数(F1 score)来衡量学生模型输出的预测结果的准确度，学生模型输出的预测结果的准确率越高，F1分数的取值均越高。

通过表1中示出的数据可知，相比于采用OOD得到的训练后的学生模型所输出的预测结果，采用本申请提供的方法得到的训练后的学生模型所输出的预测结果的准确度更高。

我们还在学生模型所执行的为SST-2任务时做了更多的对比实验，如下表2展示了实验结果。

	SST-2任务(ACC)
		Unlabel KD	84.90
Unlabel KD+Adv	85.90
		本申请提供的方法	88.19

表2

无标签蒸馏(Unlabel KD)和采取对抗训练的无标签蒸馏(Unlabel KD+Adv)是目前存在的两种在没有训练数据的情况下对学生模型进行知识蒸馏的方法，当学生模型所执行的任务为SST-2任务时，仍采用ACC来衡量学生模型输出的情感分类的准确度，学生模型输出的分类值的准确率越高，ACC的取值均越高，通过表2中示出的数据可知，采用本申请提供的方法得到的训练后的学生模型所输出的预测结果的准确度最高。

在图1至图8所对应的实施例的基础上，为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关设备。具体参阅图9，图9为本申请实施例提供的模型的训练装置的一种结构示意图，模型的训练装置900包括：输入模块901，用于将第一文本输入机器学习模型中，得到机器学习模型输出的第二文本，第一文本包括第三文本和第一提示(prompt)，第三文本归属于第一数据集；输入模块901，还用于将第二文本输入教师模型中，得到教师模型输出的第一预测结果；训练模块902，用于基于第一预测结果执行第一训练操作，直至满足损失函数的收敛条件，在执行第一训练操作的过程中，保持机器学习模型和教师模型的参数不变，对第一提示进行更新；其中，训练后的第一提示用于得到第二数据集，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集中的训练数据。

可选地，损失函数包括第一损失项，第一预测结果包括与至少一个字一一对应的至少一个向量，利用第一损失项进行训练的目的包括使得每个向量更接近独热(one-hot)的形式。

可选地，损失函数包括第二损失项，第二损失项指示多个第一预测结果的信息熵。

可选地，第一提示包括提示词和第二提示，提示词的含义为总结，在执行第一训练操作的过程中对第二提示进行更新。

可选地，机器学习模型包括归一化指数(softmax)层，在机器学习模型对第一文本进行处理的过程中，机器学习模型中的softmax层需要处理的数据为基于第一文本得到的第一数据；其中，利用softmax层对第一数据进行处理的过程包括：在第一数据中加入扰动得到更新后的第一数据，利用softmax函数对更新后的第一数据进行处理。

可选地，教师模型的任务为从第二文本中获取至少一类信息，第一预测结果包括与至少一类一一对应的至少一组词，损失函数包括第三损失项，利用第三损失项进行训练的目的包括提高至少一组词中同一组词包括的不同的词之间的相似度。

可选地，利用第三损失项进行训练的目的还包括降低至少一组词中不同组的词之间的相似度。

需要说明的是，模型的训练装置900中各模块/单元之间的信息交互、执行过程等内容，与本申请中图3至图6对应的各个方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

请继续参阅图10，图10为本申请实施例提供的训练数据的获取装置的一种结构示意图，训练数据的获取装置1000包括：获取模块1001，用于获取第一文本，第一文本包括第三文本和训练后的第一提示(prompt)，第三文本归属于第一数据集，训练后的第一提示通过第一训练操作得到；输入模块1002，用于将第一文本输入机器学习模型中，得到机器学习模型输出的第二文本，其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，第二数据集包括多个第二文本；在利用损失函数执行第一训练操作时，保持机器学习模型和教师模型的参数不变，对第一提示进行更新，教师模型的输入为机器学习模型的输出文本，损失函数基于教师模型输出的第一预测结果得到。

可选地，第一预测结果包括与至少一个字一一对应的至少一个向量，损失函数包括第一损失项，利用第一损失项进行训练的目的包括使得每个向量更接近one-hot的形式。

需要说明的是，训练数据的获取装置1000中各模块/单元之间的信息交互、执行过程等内容，与本申请中图7对应的各个方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

请继续参阅图11，图11为本申请实施例提供的模型的训练装置的另一种结构示意图，模型的训练装置1100包括：输入模块1101，用于将第二文本分别输入教师模型和学生模型，得到教师模型输出的第二预测结果以及学生模型输出的第三预测结果；

训练模块1102，用于根据第二预测结果和第三预测结果，采用蒸馏的方式对学生模型进行训练，其中，该第二文本由第一机器学习模型基于训练后的第一提示(prompt)生成，第一机器学习模型的输入为第一文本，第一文本包括第三文本和前述训练后的第一提示，第三文本归属于第一数据集，该训练后的第一提示为通过第一训练操作得到，在利用第一损失函数执行第一训练操作时，保持第一机器学习模型和教师模型的参数不变，对第一提示的表达进行更新，教师模型的输入为第一机器学习模型的输出文本，第一损失函数基于教师模型输出的第一预测结果得到。

需要说明的是，模型的训练装置1100中各模块/单元之间的信息交互、执行过程等内容，与本申请中图8对应的各个方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

接下来介绍本申请实施例提供的一种设备，请参阅图12，图12是本申请实施例提供的设备一种结构示意图，设备1200可以用于执行图3至图6中第一训练设备执行的步骤，或者，设备1200可以用于执行图7中执行设备执行的步骤，或者，设备1200可以用于执行图8中第二训练设备执行的步骤。

具体的，设备1200由一个或多个服务器实现，设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对训练设备中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在设备1200上执行存储介质1230中的一系列指令操作。

设备1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例中，在一种情况中，中央处理器1222，用于执行图3至图6对应实施例中的第一训练设备执行的模型的训练方法。中央处理器1222执行前述步骤的具体方式，与本申请中图3至图6对应的各个方法实施例基于同一构思，其带来的技术效果与本申请中图3至图6对应的各个方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

在另一种情况中，中央处理器1222，用于执行图7对应实施例中的执行设备执行的训练数据的获取方法。中央处理器1222执行前述步骤的具体方式，与本申请中图7对应的各个方法实施例基于同一构思，其带来的技术效果与本申请中图7对应的各个方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

在另一种情况中，中央处理器1222，用于执行图8对应实施例中的第二训练设备执行的模型的训练方法。中央处理器1222执行前述步骤的具体方式，与本申请中图8对应的各个方法实施例基于同一构思，其带来的技术效果与本申请中图8对应的各个方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于进行信号处理的程序，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中第一训练设备所执行的步骤，或者，使得计算机执行如前述图7所示实施例描述的方法中执行设备所执行的步骤，或者，使得计算机执行如前述图8所示实施例描述的方法中第二训练设备所执行的步骤。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中第一训练设备所执行的步骤，或者，使得计算机执行如前述图7所示实施例描述的方法中执行设备所执行的步骤，或者，使得计算机执行如前述图8所示实施例描述的方法中第二训练设备所执行的步骤。

本申请实施例提供的执行设备、第一训练设备或第二训练设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使芯片执行上述图3至图6所示实施例描述的模型的训练方法，或者，以使芯片执行上述图7所示实施例描述的训练数据的获取方法，或者，以使芯片执行上述图8所示实施例描述的模型的训练方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图13，图13为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 130，NPU 130作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1303，通过控制器1304控制运算电路1303提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1303内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路1303是二维脉动阵列。运算电路1303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1308中。

统一存储器1306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)1305，DMAC被搬运到权重存储器1302中。输入数据也通过DMAC被搬运到统一存储器1306中。

BIU为Bus Interface Unit即，总线接口单元1310，用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer，IFB)1309的交互。

总线接口单元1310(Bus Interface Unit，简称BIU)，用于取指存储器1309从外部存储器获取指令，还用于存储单元访问控制器1305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1306或将权重数据搬运到权重存储器1302中或将输入数据数据搬运到输入存储器1301中。

向量计算单元1307包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元1307能将经处理的输出的向量存储到统一存储器1306。例如，向量计算单元1307可以将线性函数和/或非线性函数应用到运算电路1303的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1307生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1303的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1304连接的取指存储器(instruction fetch buffer)1309，用于存储控制器1304使用的指令；

统一存储器1306，输入存储器1301，权重存储器1302以及取指存储器1309均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，上述第一机器学习模型、教师模型或者学生模型中各层的运算可以由运算电路1303或向量计算单元1307执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种模型的训练方法，其特征在于，所述方法包括：

将第一文本输入机器学习模型中，得到所述机器学习模型输出的第二文本，所述第一文本包括第三文本和第一提示prompt，所述第三文本归属于第一数据集；

将所述第二文本输入教师模型中，得到所述教师模型输出的第一预测结果；

基于所述第一预测结果执行第一训练操作，直至满足损失函数的收敛条件，在执行所述第一训练操作的过程中，保持所述机器学习模型和所述教师模型的参数不变，对所述第一提示进行更新；

其中，训练后的所述第一提示用于得到第二数据集，在采用蒸馏的方式，利用所述教师模型对学生模型执行第二训练操作的过程中会使用所述第二数据集中的训练数据。

2.根据权利要求1所述的方法，其特征在于，所述损失函数包括第一损失项，所述第一预测结果包括与至少一个字一一对应的至少一个向量，利用所述第一损失项进行训练的目的包括使得每个所述向量更接近独热one-hot的形式。

3.根据权利要求1或2所述的方法，其特征在于，所述损失函数包括第二损失项，所述第二损失项指示多个所述第一预测结果的信息熵。

4.根据权利要求1或2所述的方法，其特征在于，所述第一提示包括提示词和第二提示，所述提示词的含义为总结，在执行所述第一训练操作的过程中对所述第二提示进行更新。

5.根据权利要求1或2所述的方法，其特征在于，所述机器学习模型包括归一化指数softmax层，在所述机器学习模型对所述第一文本进行处理的过程中，所述机器学习模型中的所述softmax层需要处理的数据为基于所述第一文本得到的第一数据；

其中，利用所述softmax层对所述第一数据进行处理的过程包括：在所述第一数据中加入扰动得到更新后的所述第一数据，利用softmax函数对所述更新后的第一数据进行处理。

6.根据权利要求1或2所述的方法，其特征在于，所述教师模型的任务为从所述第二文本中获取至少一类信息，所述第一预测结果包括与所述至少一类一一对应的至少一组词，所述损失函数包括第三损失项，利用所述第三损失项进行训练的目的包括提高所述至少一组词中同一组词包括的不同的词之间的相似度。

7.根据权利要求6所述的方法，其特征在于，利用所述第三损失项进行训练的目的还包括降低所述至少一组词中不同组的词之间的相似度。

8.一种训练数据的获取方法，其特征在于，所述方法包括：

获取第一文本，所述第一文本包括第三文本和训练后的第一提示prompt，所述第三文本归属于第一数据集，所述训练后的第一提示通过第一训练操作得到；

将所述第一文本输入机器学习模型中，得到所述机器学习模型输出的第二文本，其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，所述第二数据集包括多个所述第二文本；

在利用损失函数执行所述第一训练操作时，保持所述机器学习模型和所述教师模型的参数不变，对所述第一提示进行更新，所述教师模型的输入为所述机器学习模型的输出文本，所述损失函数基于所述教师模型输出的第一预测结果得到。

9.根据权利要求8所述的方法，其特征在于，所述第一预测结果包括与至少一个字一一对应的至少一个向量，所述损失函数包括第一损失项，利用所述第一损失项进行训练的目的包括使得每个所述向量更接近独热one-hot的形式。

10.根据权利要求8或9所述的方法，其特征在于，所述损失函数包括第二损失项，所述第二损失项指示多个所述第一预测结果的信息熵。

11.一种模型的训练装置，其特征在于，所述装置包括：

输入模块，用于将第一文本输入机器学习模型中，得到所述机器学习模型输出的第二文本，所述第一文本包括第三文本和第一提示prompt，所述第三文本归属于第一数据集；

所述输入模块，还用于将所述第二文本输入教师模型中，得到所述教师模型输出的第一预测结果；

训练模块，用于基于所述第一预测结果执行第一训练操作，直至满足损失函数的收敛条件，在执行所述第一训练操作的过程中，保持所述机器学习模型和所述教师模型的参数不变，对所述第一提示进行更新；

12.根据权利要求11所述的装置，其特征在于，所述损失函数包括第一损失项，所述第一预测结果包括与至少一个字一一对应的至少一个向量，利用所述第一损失项进行训练的目的包括使得每个所述向量更接近独热one-hot的形式。

13.根据权利要求11或12所述的装置，其特征在于，所述损失函数包括第二损失项，所述第二损失项指示多个所述第一预测结果的信息熵。

14.根据权利要求11或12所述的装置，其特征在于，

所述第一提示包括提示词和第二提示，所述提示词的含义为总结，在执行所述第一训练操作的过程中对所述第二提示进行更新。

15.根据权利要求11或12所述的装置，其特征在于，所述机器学习模型包括归一化指数softmax层，在所述机器学习模型对所述第一文本进行处理的过程中，所述机器学习模型中的所述softmax层需要处理的数据为基于所述第一文本得到的第一数据；

16.根据权利要求11或12所述的装置，其特征在于，所述教师模型的任务为从所述第二文本中获取至少一类信息，所述第一预测结果包括与所述至少一类一一对应的至少一组词，所述损失函数包括第三损失项，利用所述第三损失项进行训练的目的包括提高所述至少一组词中同一组词包括的不同的词之间的相似度。

17.根据权利要求16所述的装置，其特征在于，利用所述第三损失项进行训练的目的还包括降低所述至少一组词中不同组的词之间的相似度。

18.一种训练数据的获取装置，其特征在于，所述装置包括：

获取模块，用于获取第一文本，所述第一文本包括第三文本和训练后的第一提示prompt，所述第三文本归属于第一数据集，所述训练后的第一提示通过第一训练操作得到；

输入模块，用于将所述第一文本输入机器学习模型中，得到所述机器学习模型输出的第二文本，其中，在采用蒸馏的方式，利用教师模型对学生模型执行第二训练操作的过程中会使用第二数据集，所述第二数据集包括多个所述第二文本；

19.根据权利要求18所述的装置，其特征在于，所述第一预测结果包括与至少一个字一一对应的至少一个向量，所述损失函数包括第一损失项，利用所述第一损失项进行训练的目的包括使得每个所述向量更接近独热one-hot的形式。

20.根据权利要求18或19所述的装置，其特征在于，所述损失函数包括第二损失项，所述第二损失项指示多个所述第一预测结果的信息熵。

21.一种训练设备，其特征在于，包括处理器和存储器，所述处理器与所述存储器耦合，

所述存储器，用于存储程序；

所述处理器，用于执行所述存储器中的程序，使得所述训练设备执行如权利要求1至7中任一项所述的方法。

22.一种执行设备，其特征在于，包括处理器和存储器，所述处理器与所述存储器耦合，

所述存储器，用于存储程序；

所述处理器，用于执行所述存储器中的程序，使得所述执行设备执行如权利要求8至10中任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序，当所述程序在计算机上运行时，使得计算机执行如权利要求1至10中任一项所述的方法。

24.一种计算机程序产品，其特征在于，所述计算机程序产品包括程序，当所述程序在计算机上运行时，使得计算机执行如权利要求1至10中任一项所述的方法。