CN113673260A

CN113673260A - 模型处理方法、装置、存储介质和处理器

Info

Publication number: CN113673260A
Application number: CN202010413915.0A
Authority: CN
Inventors: 陈道源; 李雅亮; 邱明辉; 王桢; 李博放; 丁博麟; 邓洪波; 黄�俊; 林伟; 周靖人
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-19
Also published as: US20210357752A1

Abstract

本发明公开了一种模型处理方法、装置、存储介质和处理器。其中，该方法包括：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。本发明解决了对模型难以进行有效使用的技术问题的技术问题。

Description

模型处理方法、装置、存储介质和处理器

技术领域

本发明涉及计算机领域，具体而言，涉及一种模型处理方法、装置、存储介质和处理器。

背景技术

目前，语言模型可以应用于各种自然语言处理任务中，但如果这些模型是从海量数据集上学习而得的，同时它们的参数通常是十亿量级，将这样的大型模型直接部署在对计算资源和推理时间有严格限制的实时应用程序中是很困难的，从而对模型难以进行有效使用。

针对上述的对模型难以进行有效使用的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种模型处理方法、装置、存储介质和处理器，以至少解决对模型难以进行有效使用的技术问题的技术问题。

根据本发明实施例的一个方面，提供了一种模型处理方法。该方法可以包括：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

根据本发明实施例的另一方面，还提供了另一种模型处理方法。该方法可以包括：获取上传至目标平台的文本信息；确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于目标语言模型对文本信息进行处理，得到文本处理结果；向目标平台输出文本处理结果。

根据本发明实施例的另一方面，还提供了另一种模型处理方法。该方法可以包括：接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果；输出文本处理结果。

根据本发明实施例的另一方面，还提供了另一种模型处理方法。该方法可以包括：响应客户端发送的目标请求，获取原始语言模型，其中，目标请求携带有需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到目标语言模型；将目标语言模型发送至客户端，其中，目标语言模型用于在客户端上处理任务。

根据本发明实施例的另一方面，还提供了另一种模型处理方法。该方法可以包括：获取原始语言模型；在原始语言模型满足目标条件的情况下，确定需要原始语言模型处理的任务，并基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型；在原始语言模型不满足目标条件的情况下，禁止对原始语言模型进行转换。

根据本发明实施例的另一方面，还提供了另一种模型处理方法。该方法可以包括：获取原始语言模型；确定需要原始语言模型处理的任务，并向客户端发送与任务的特征相关联的配置模板；获取客户端基于配置模板得到的配置参数，并基于配置参数原始语言模型进行转换，得到用于处理任务的目标语言模型。

根据本发明实施例的另一方面，还提供了一种模型处理装置。该装置可以包括：第一获取单元，用于获取原始语言模型；第一确定单元，用于确定需要原始语言模型处理的任务；转换单元，用于基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

根据本发明实施例的另一方面，还提供了另一种模型处理装置。该装置可以包括：第二获取单元，用于获取上传至目标平台的文本信息；第二确定单元，用于确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；第一处理单元，用于基于目标语言模型对文本输入信息进行处理，得到文本处理结果；第一输出单元，用于向目标平台输出文本处理结果。

根据本发明实施例的另一方面，还提供了另一种模型处理装置。该装置可以包括：接收单元，用于接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；第三确定单元，用于确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；第二处理单元，用于基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果；第二输出单元，用于输出文本处理结果。

根据本发明实施例的另一方面，还提供了一种存储介质。该存储介质包括存储的程序，其中，在程序被处理器运行时控制存储介质所在设备执行以下步骤：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

根据本发明实施例的另一方面，还提供了一种处理器。该处理器用于运行程序，其中，程序运行时执行以下步骤：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

根据本发明实施例的另一方面，还提供了一种移动终端。该移动终端包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

在本发明实施例中，采用获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。也就是说，本申请基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现模型处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种模型处理方法的流程图；

图3是根据本发明实施例的另一种模型处理方法的流程图；

图4是根据本发明实施例的另一种模型处理方法的流程图；

图5是根据本发明实施例的一种BERT模型压缩的示意图；

图6是根据本发明实施例的一种知识分解器的示意图；

图7是根据本发明实施例的一种模型处理装置的示意图；

图8是根据本发明实施例的另一种模型处理装置的示意图；

图9是根据本发明实施例的另一种模型处理装置的示意图；以及

图10是根据本发明实施例的一种移动终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

双向表征编码器(Bidirectional Encoder Representations fromTransformers，简称为BERT)，基于Transformer架构，为一种预训练语言模型的技术，实现了最先进的性能，并被广泛应用于各种自然语言处理任务；

模型压缩(Model Compression)，为一种将具有大规模参数、推理速度慢的大模型，压缩成参数规模小、推理速度快的小模型的技术；

神经网络架构搜索(Neural Architecture Search，简称为NAS)，为一种自动设计人工神经网络的技术；

微神经网络架构搜索(Differentiable Neural Architecture Search，简称为DNAS)，可以支持搜索层级搜索空间；

多任务学习(Multi-Task Learning)，为一种机器学习技术，可以同时解决多个学习任务，同时利用任务之间的共性、差异和互补性。

实施例1

根据本发明实施例，还提供了一种模型处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现模型处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的种模型处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的模型处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在图1所示的运行环境下，本申请提供了如图2所示的模型处理方法。需要说明的是，该实施例的生成动画的方法可以由图1所示实施例的移动终端执行。

图2是根据本发明实施例的一种模型处理方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，获取原始语言模型。

在本发明上述步骤S202提供的技术方案中，获取到的原始语言模型的处理对象是文本信息(自然语言)，可以为预训练的上下文表征编码器，比如，为基于Transformer架构的双向表征编码器(Bidirectional Encoder Representations from Transformers，简称为BERT)模型，该BERT模型可以应用于各种自然语言处理任务中。可选地，该实施例的原始语言模型是从海量数据集上学习而得的，同时它们的参数通常是十亿量级，可以称为大型模型。在原始语言模型为BERT模型的情况下，其也可以称为大BERT模型。

步骤S204，确定需要原始语言模型处理的任务。

在本发明上述步骤S204提供的技术方案中，在获取原始语言模型之后，确定需要原始语言模型处理的任务，可以是确定需要原始语言模型处理的至少一个任务。

在该实施例中，原始语言模型对应的任务可以是一个，也可以是多个，至少一个任务可以是自然语言处理任务(task)，在有多个任务的情况下，也可以称为多任务学习(Multi-Task Learning)中的学习任务，还可以是原始语言模型的不同的下游任务。

在该实施例中，原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。比如，在原始语言模型为BERT模型的情况下，其可以从大规模语料库中学习到大量不同类型的知识，而不同特定的任务可以以不同的方式来运用BERT模型。

步骤S206，基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

在本发明上述步骤S206提供的技术方案中，在确定需要原始语言模型处理的任务之后，基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型，比如，基于任务对原始语言模型进行压缩，得到与任务对应的目标语言模型。其中，任务的特征可以是任务特有参数。

在该实施例中，针对原始语言模型特定的任务，可以考虑原始语言模型中特定的任务的冗余部分，对原始语言模型进行压缩，得到与任务相适应的目标语言模型，该目标语言模型为适合特定的任务的小模型，也即，不同的小模型是与不同的任务相关的，为调整后的原始语言模型。可选地，该实施例在原始语言模型为BERT模型的情况下，以不同的方式对不同的特定任务进行BERT压缩，得到的目标语言模型可以称为压缩BERT模型，其处理对象是文本信息(自然语言)。

通过本申请上述步骤S202至步骤S206，获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。也就是说，该实施例可以基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，步骤S206，基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型，包括：将任务的特征输入至神经网络架构搜索中，得到搜索结果；基于搜索结果确定目标语言模型。

在该实施例中，神经网络架构搜索(Neural Architecture Search，简称为NAS)为一种自动设计人工神经网络的技术，该实施例可以利用神经网络架构搜索为特定的任务搜索对应的目标语言模型，可以是将任务的特征输入至神经网络架构搜索中，得到搜索结果，进而基于搜索结果确定目标语言模型，以实现原始语言模型压缩成适合特定的任务的目标语言模型，同时还可以保持良好的性能。下面对其进行进一步介绍。

作为一种可选的实施方式，将任务的特征输入至神经网络架构搜索中，得到搜索结果，包括：基于任务的特征将原始语言模型训练为第一语言模型；将第一语言模型输入至神经网络架构搜索中，得到搜索结果。

在该实施例中，在实现基于神经网络架构搜索为任务搜索对应的目标语言模型时，可以对原始语言模型进行初始化。在初始化的步骤中，基于任务的特征将原始语言模型训练为至少一个第一语言模型，也即，将原始语言模型微调训练为至少一个第一语言模型(fine-tuned BERT models)。在原始语言模型为BERT模型的情况下，第一语言模型可以为微调BERT模型，进而将第一语言模型输入至神经网络架构搜索中，得到搜索结果，以为任务搜索对应的目标语言模型，下面对其进行进一步介绍。

作为一种可选的实施方式，将第一语言模型输入至神经网络架构搜索中，得到搜索结果，包括：将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第一语言模型的第二知识损失；在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果。

在该实施例中，在实现将第一语言模型输入至神经网络架构搜索中，得到搜索结果时，可以从原始语言模型中提取出公共知识(common knowledge)，将其确定为第一知识损失(知识损失值)；该实施例还可以从第一语言模型中确定任务对应的知识，也即，从第一语言模型中确定任务特定知识，将其确定为第一语言模型的第二知识损失，进而在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果，下面对其进行进一步介绍。

作为一种可选的实施方式，在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果，包括：基于第一知识损失和第二知识损失确定提示信息；在神经网络架构搜索对应的架构搜索空间中，搜索提示信息所指示的模型；基于搜索结果确定目标语言模型，包括：将提示信息所指示的模型确定为目标语言模型。

在该实施例中，在实现在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果时，可以是基于上述第一知识损失和第二知识损失确定提示信息，以有效找到特定的任务对应的目标语言模型。可选地，在架构搜索空间(architecturesearch space)中，利用可微神经网络架构搜索(Differentiable Neural ArchitectureSearch，简称为DNAS)，为特定任务实现自动搜索提示信息所指示的与任务相适应的模型，进而将其确定为目标语言模型。其中，可微神经网络架构搜索可以支持搜索层级搜索空间，可以实现可微搜索与任务相适应的目标语言模型。

作为一种可选的实施方式，基于第一知识损失和第二知识损失确定提示信息，包括：在知识聚合器中，基于第一知识损失和第二知识损失建立跨任务关系，其中，跨任务关系用于指示多个任务之间的关系；基于跨任务关系确定提示信息。

在该实施例中，在实现基于第一知识损失和第二知识损失确定提示信息时，可以是在知识聚合器(knowledge aggregator)中，基于第一知识损失和第一语言模型的第二知识损失建立多个任务的跨任务关系(cross-task relationships)，从而基于跨任务关系确定提示信息，以利用可微神经网络架构搜索为任务搜索提示信息所指示的目标语言模型，也即，该实施例考虑了跨任务关系，利用可微神经结构搜索，可以将原始语言模型压缩成适合特定任务的目标语言模型，同时还可以保持良好的性能。其中，知识聚合器可以加快搜索速度，以提高压缩模型的性能。

可选地，该实施例通过目标函数进行搜索，该目标函数可以是知识聚合器对第一知识损失和第二知识损失进行综合得到。

作为一种可选的实施方式，在知识聚合器中，基于第一知识损失和第二知识损失建立跨任务关系，包括：在知识聚合器中，记录原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列，其中，第一知识损失序列包括原始语言模型在至少一个时刻训练的知识损失，第二知识损失序列包括第一语言模型在至少一个时刻训练的第二知识损失；基于原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列对多个任务进行聚类，得到至少一个元任务组，其中，元任务组包括相似度大于第一阈值的至少两个任务；基于元任务组的目标值进行归一化处理，得到元任务组的权重，其中，目标值用于指示元任务组的平均分类性能；基于元任务组的权重建立跨任务关系。

在该实施例中，知识聚合器是一组调度器，比如，为动态权值调度器(dynamicalweights scheduler)，可以根据不同任务的优化和性能动态地调整不同损失的权重。在实现基于第一知识损失和第二知识损失建立跨任务关系时，可以是在知识聚合器中，记录原始语言模型的第一知识损失序列和每个第一语言模型的第二知识损失序列。可选地，当有多个任务以及相应的第一语言模型需要进行压缩时，可以搜索多轮(epoch)，并且知识损失记录点为每一轮结束，知识聚合器会记录原始语言模型的第一知识损失序列和每个第一语言模型的第二知识损失序列。可选地，随着模型训练轮数的增加，各个任务对应的第一语言模型的第二知识损失序列可以通过[L_Ki ¹，…，L_Ki ^t，…，L_Ki ^T]表示，其中，L_Ki ^t用于表示对于第i个任务，第t个时间点训练的知识损失，可以是长度为10的知识损失序列。

在记录原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列之后，可以基于原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列对多个任务进行聚类，也即，可以根据各个任务对应的第一语言模型的第二知识损失序列和原始语言模型的第一知识损失训练对多个任务进行聚类，划分为若干个元任务组(meta-task)，该元任务组包括相似度大于第一阈值的至少两个任务，可以是具有相似优化趋势的任务将被分组到一个元任务中。

最后可以基于元任务组的目标值进行归一化处理，得到元任务组的权重，可以是根据元任务组在验证集上的平均分类性能进行归一化，将归一化系数作为权重，也即，根据每个分组的组内平均分类性能加权归一作为权重，进而基于元任务组的权重建立跨任务关系，基于跨任务关系确定提示信息，从而指导目标语言模型的搜索。可选地，该实施例可以通过调整元任务组的权重来保留元知识损失。

举例而言，假设原始BERT有3个任务以及相应的3个微调BERT需要压缩，可以搜索10轮并且知识损失记录点为每一轮结束，则知识聚合器会记录这3个微调BERT和原始BERT的长度为10的知识损失序列。通过聚类划分元任务组，比如，任务1、任务2对应的微调BERT划为1组，原始BERT和任务3对应的微调BERT划为一组。最终根据每个分组的组内平均分类性能加权归一作为权重，以指导小模型搜索。

需要说明的是，该实施例的上述知识聚合器采用动态权值调度器建立跨任务关系仅为本发明实施例的一种优选实施方式，并不代表本发明实施例的知识聚合器仅能采用动态权值调度器建立跨任务关系，任何可以实现基于第一知识损失和第二知识损失建立跨任务关系的知识聚合器都在本发明实施例的范围之内，比如，还可以考虑采用关系元学习(relational meta-learning)等其它技术来建立跨任务关系的模型，此处不再一一举例说明。

作为一种可选的实施方式，将原始语言模型中的公共知识，提取为第一知识损失，包括：在知识分解器中，将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第二知识损失，包括：在知识分解器中，将第一语言模型中与任务对应的知识，提取为第二知识损失。知识分解器为基于原始语言模型和第一语言模型训练得到的一组探针分类器。

在该实施例中，引入知识分解器(knowledge decomposer)，可以用于提取不同任务知识。在实现将原始语言模型中的公共知识，提取为第一知识损失时，可以是在知识分解器中，将原始语言模型中的公共知识，提取为第一知识损失；在实现将第一语言模型中与任务对应的知识，提取为第二知识损失时，可以是在知识分解器中，将第一语言模型中与任务对应的知识，比如，将每个第一语言模型中与每个任务对应的知识，提取为第二知识损失。其中，知识分解器是在原始语言模型和每个第一语言模型上进行训练的一组探针分类器(probe classifiers)。可选地，该实施例通过固定原始语言模型和微调后的每个第一语言模型的各层Transformer参数，将内部各层的第一个参数表示的向量确定为一组线性探针分类器，训练后的这组探针分类器可以产出表示各层知识的分类结果(logits)。

需要说明的是，该实施例的知识分解器使用探针分类器仅为该实施例的一种优选实施方式，并不代表本发明实施例的知识分解器仅能适用探针分类器，任何可以实现知识分解器将原始语言模型中的公共知识，提取为第一知识损失，以及将第一语言模型中与任务对应的知识，提取为第二知识损失的方法都在该实施例的范围之内，也即，该实施例还可以使用其它形式的知识分解器来提取知识损失，比如，可以利用程序知识流程(Flow ofProcedure Knowledge)和关系知识(Relational Knowledge)来提取知识损失，其可以与使用探针分类器类似的方法进行，此处不再一一举例说明。

作为一种可选的实施方式，基于任务的特征将原始语言模型训练为至少一个第一语言模型，包括：向原始语言模型中添加任务的目标任务参数；在任务的新增语料上训练目标任务参数，得到第一语言模型。

在该实施例中，在实现基于任务的特征将原始语言模型训练为至少一个第一语言模型时，可以是在已经预训练好的原始语言模型中，针对特定的任务，加入少量的目标任务参数，该目标任务参数也即任务特有参数，然后确定任务的新增语料，在任务的新增语料上重新训练上述新加入的目标任务参数，从而得到用于对任务进行处理的第一语言模型。

作为一种可选的实施方式，在任务的新增语料上训练目标任务参数时，原始语言模型的参数保持不变，也即，冻结原始语言模型的参数。

举例而言，该实施例的原始语言模型为BERT模型，在已经预训练好的BERT模型的基础上，可以针对某个特定的下游任务，加入少量的任务特有参数，同时冻结预训练好的BERT模型的参数，在该下游任务的新语料上重新训练新加入部分的任务特有参数，从而得到与任务对应的第一语言模型。

作为一种可选的实施方式，原始语言模型通过数据量大于第二阈值的数据进行训练得到，原始语言模型的参数的数量级大于第三阈值。

在该实施例中，原始语言模型可以是大型模型，是通过数据量大于第二阈值的数据进行训练得到，其中，第二阈值时用于衡量训练原始语言模型的数据量大的临界阈值，也即，用于训练原始语言模型的数据可以为海量数据集；该实施例的原始语言模型的参数的数量级大于第三阈值，该第三阈值是用于衡量原始语言模型的参数的数量级大的临界阈值，其数量级可以是十亿量级，将这样的大型模型部署在对计算资源和推理时间有严格限制的实时应用程序中是很困难的。而该实施例基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而将具有大规模参数、推理速度慢的大模型，可以压缩成参数规模小、推理速度快的小模型，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

本发明实施例还提供了另一种模型处理方法。

图3是根据本发明实施例的另一种模型处理方法的流程图。如图3所示，该方法可以包括以下步骤：

步骤S302，获取上传至目标平台的文本信息。

在本发明上述步骤S302提供的技术方案中，目标平台可以为应用在不同场景中的人工智能平台(Platform of Artificial Intelligence，简称为PAI)。上传至目标平台的文本信息为待处理的语言信息(自然语言)，获取上传至目标平台的文本信息。

步骤S304，确定与文本信息对应的任务。

在本发明上述步骤S304提供的技术方案中，在获取上传至目标平台的文本信息之后，确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的。

该实施例的原始语言模型对应的至少一个任务可以是自然语言处理任务，可以是原始语言模型的不同的下游任务。原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。针对原始语言模型特定的任务，可以考虑原始语言模型中特定的任务的冗余部分，对原始语言模型进行压缩，得到与任务相适应的目标语言模型，该目标语言模型为适合特定的任务的小模型，同时保持良好的性能。

步骤S306，基于目标语言模型对文本信息进行处理，得到文本处理结果。

在本发明上述步骤S306提供的技术方案中，在确定与文本信息对应的任务之后，基于目标语言模型对文本信息进行处理，得到文本处理结果。

在该实施例中，原始语言模型的任务具有对应的目标语言模型，比如，在任务为多个任务的情况下，每个任务具有对应的目标语言模型，该实施例可以确定与任务对应的目标语言模型，进而将获取到的语言信息输入至任务对应的目标语言模型，通过其对语言信息进行处理，以得到文本处理结果。可选地，该实施例的目标语言模型可以是从输入的语言信息中提取出关键信息、去噪、增加信息、删减信息、替换信息等，此处不做具体限制。

步骤S308，向目标平台输出文本处理结果。

在本发明上述步骤S308提供的技术方案中，在基于与目标任务对应的目标语言模型对文本信息进行处理，得到文本处理结果之后，可以向目标平台输出文本处理结果，以使得目标平台基于文本处理结果实现相应的服务等。

本申请通过上述步骤S302至步骤S308，获取上传至目标平台的文本信息；从至少一个任务中确定与文本信息对应的目标任务；基于与目标任务对应的目标语言模型对文本信息进行处理，得到文本处理结果；向目标平台输出文本处理结果。也就是说，该实施例基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，对上传至目标平台的文本信息进行处理，以向目标平台输出得到的文本处理结果，这在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，在目标平台为交易平台的情况下，文本信息包括：上传至交易平台的文本交易信息。

在该实施例中，目标平台可以为交易平台，比如，为购物类平台，则该实施例的上述文本信息可以为上传至交易平台的文本交易信息，以满足用户的交易需求。

作为一种可选的实施方式，文本交易信息包括以下至少之一：对交易对象进行查询的文本查询信息；与交易对象执行的交易操作关联的文本信息；对交易对象进行评价的文本评价信息；对与交易对象关联的关联对象进行查询的文本查找信息。

在该实施例中，在目标平台为交易平台的情况下，文本交易信息可以包括对交易对象进行查询的文本查询信息，其中，交易对象可以为商品、虚拟物品等，此处不做具体限制。文本查询信息可以包括但不限于查询商品的价格、商品的性能参数、商品的库存量、商品的购买量、商品的评价信息等，此处不做具体限制。

可选地，该实施例的文本交易信息还可以包括与交易对象执行的交易操作关联的文本信息，其中，交易操作可以是下单操作、删除订单操作、支付操作、退货操作等，此处不做具体限制。

可选地，该实施例的文本交易信息还可以包括对交易对象进行评价的文本评价信息，比如，用户在购买交易对象，可以在交易平台上通过文本评价信息实现对交易对象进行评价的目的。

可选地，该实施例的文本交易信息还可以包括对与交易对象关联的关联对象进行查询的文本查找信息，其中，在关联对象可以是交易对象所属的商家，也可以是与交易对象属于同一类型的其它交易对象，也可以是与交易对象所属的商家的性质相同的其它商家等，此处不做具体限制。

需要说明的是，该实施例的上述目标平台为交易平台仅为本发明实施例的一种优选实施方式，并不代表本发明实施例的目标平台仅为交易平台，任何可以应用在不同场景中的其它人工智能平台都在该实施例的范围之内，此处不再一一举例说明。

作为一种可选的实施方式，该方法还包括：将任务的特征输入至神经网络架构搜索中，得到搜索结果；基于搜索结果确定目标语言模型。

在该实施例中，神经网络架构搜索为一种自动设计人工神经网络的技术，该实施例可以利用神经网络架构搜索为任务搜索对应的目标语言模型，可以是将任务的特征输入至神经网络架构搜索中，得到搜索结果，进而基于搜索结果确定目标语言模型，以实现原始语言模型压缩成适合特定的任务的目标语言模型，同时还可以保持良好的性能。下面对其进行进一步介绍。

在该实施例中，在实现将任务的特征输入至神经网络架构搜索中，得到搜索结果时，可以对原始语言模型进行初始化，基于任务将原始语言模型训练为至少一个第一语言模型，进而将第一语言模型输入至神经网络架构搜索中，得到搜索结果，下面对其进行进一步介绍。

在该实施例中，可以从原始语言模型中提取出公共知识，将其确定为第一知识损失；该实施例还可以从第一语言模型中确定任务对应的知识，也即，从第一语言模型中确定任务特定知识，将其确定为第一语言模型的第二知识损失，进而在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果。

在该实施例中，在实现基于任务将原始语言模型训练为至少一个第一语言模型时，可以是在已经预训练好的原始语言模型中，针对特定的任务，加入少量的目标任务参数，该目标任务参数也即任务特有参数，然后确定任务的新增语料，在任务的新增语料上重新训练上述新加入的目标任务参数，从而得到与任务对应的第一语言模型。

本发明实施例还提供了另一种模型处理方法的流程图。如图4所示，该方法可以包括以下步骤：

图4是根据本发明实施例的另一种模型处理方法的流程图。如图4所示，该方法可以包括以下步骤：

步骤S402，接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的。

在本发明上述步骤S402提供的技术方案中，文本处理系统可以任何需要进行文本处理的场景中的系统，其关联有至少一个文本采集器，比如，该文本采集器可以根据用户自定义的任务配置，批量而精确地获取文本输入信息，也可以是从目标文本文件中抽取内容。

步骤S404，确定与文本输入信息对应的任务，并读取目标语言模型。

在本发明上述步骤S404提供的技术方案中，在接收文本输入信息之后，确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的。

在该实施例中，原始语言模型对应的至少一个任务可以是自然语言处理任务，可以是原始语言模型的不同的下游任务。原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。针对原始语言模型特定的任务，可以考虑原始语言模型中特定的任务的冗余部分，对原始语言模型进行压缩，得到与任务相适应的目标语言模型，该目标语言模型为适合特定的任务的小模型，同时保持良好的性能。从至少一个任务对应的目标语言模型中读取特定任务对应的目标语言模型。

步骤S406，基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果。

在本发明上述步骤S406提供的技术方案中，在读取与目标任务对应的目标语言模型之后，可以基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果。

该实施例可以将接收到的语言输入信息输入至与目标任务对应的目标语言模型，通过其对语言信息进行处理，以得到文本处理结果。可选地，该实施例的目标语言模型可以是从输入的语言信息中提取出关键信息、去噪、增加信息、删减信息、替换信息等，此处不做具体限制。

步骤S408，输出文本处理结果。

在本发明上述步骤S408提供的技术方案中，在基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果之后，输出文本处理结果，比如，通过显示器显示文本处理结果对应的文本等。

本申请通过上述步骤S402至步骤S408，接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；从至少一个任务中确定与文本输入信息对应的目标任务，并读取与目标任务对应的目标语言模型；基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果；输出文本处理结果。也就是说，该实施例基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，对接收到的文本信息进行处理，进而输出得到的文本处理结果，这在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，文本处理系统设置在机器人上，其中，机器人用于进行文本交互。

该实施例的方法可以应用在机器人中，其中，文本处理系统可以设置在机器人上，该机器人可以为智能音响等，以实现文本交互，此处不做具体限制。

该实施例可以利用神经网络架构搜索为任务搜索对应的目标语言模型，可以是将任务的特征输入至神经网络架构搜索中，得到搜索结果，进而基于搜索结果确定目标语言模型，以实现原始语言模型压缩成适合特定的任务的目标语言模型，同时还可以保持良好的性能。下面对其进行进一步介绍。

在该实施例中，在实现将任务的特征输入至神经网络架构搜索中，得到搜索结果时，可以对原始语言模型进行初始化，基于任务的特征将原始语言模型训练为至少一个第一语言模型，进而将第一语言模型输入至神经网络架构搜索中，得到搜索结果，下面对其进行进一步介绍。

作为一种可选的示例，该实施例的模型处理方法可以包括：响应客户端发送的目标请求，获取原始语言模型，其中，目标请求携带有需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到目标语言模型；将目标语言模型发送至客户端，其中，目标语言模型用于在客户端上处理任务。

该实施例的模型处理方法可以由服务器执行，体现云上服务的状态。可选地，该实施例的服务器可以获取客户端发送的目标请求，该目标请求用于请求服务器下发对应的目标语言模型，该目标请求可以携带有需要原始语言模型处理的任务，该任务可以是自然语言处理任务。服务器在获取到目标请求之后，响应客户端发送的目标请求，获取原始语言模型，该原始语言模型的处理对象是文本信息(自然语言)，可以为预训练的上下文表征编码器，比如，为BERT模型，该BERT模型可以应用于各种自然语言处理任务中。

在获取原始语言模型之后，确定需要原始语言模型处理的任务，其中，原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。在确定需要原始语言模型处理的任务之后，可以基于任务的特征对原始语言模型进行转换，得到目标语言模型，比如，基于任务对原始语言模型进行压缩，得到与任务对应的目标语言模型。其中，任务的特征可以是任务特有参数。该实施例针对原始语言模型特定的任务，可以考虑原始语言模型中特定的任务的冗余部分，对原始语言模型进行压缩，得到与任务相适应的目标语言模型，该目标语言模型为适合特定的任务的小模型，也即，不同的小模型是与不同的任务相关的，为调整后的原始语言模型。

在基于任务的特征对原始语言模型进行转换，得到目标语言模型之后，可以将目标语言模型发送至客户端，这样客户端在接收到目标语言模型之后，就可以使用目标语言模型处理上述任务。

该实施例的服务器可以基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，然后将其发送至客户端上，客户端可以使用目标语言模型对任务进行处理，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

作为另一种可选的示例，该实施例的模型处理方法可以包括：获取原始语言模型；在原始语言模型满足目标条件的情况下，确定需要原始语言模型处理的任务，并基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型；在原始语言模型不满足目标条件的情况下，禁止对原始语言模型进行转换。

在该实施例中，获取原始语言模型，该原始语言模型的处理对象是文本信息(自然语言)，可以为预训练的上下文表征编码器，比如，为BERT模型，可以判断该原始语言模型是否满足一定的目标条件，该目标条件可以是基于不同的场景进行设置的判断原始语言模型是否需要压缩的条件，以提高对任务进行处理的效率。

可选地，如果判断出原始语言模型满足上述目标条件，则可以确定需要原始语言模型处理的任务，其中，原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。在确定需要原始语言模型处理的任务之后，可以基于任务的特征对原始语言模型进行转换，得到目标语言模型，。其中，任务的特征可以是任务特有参数。该实施例针对原始语言模型特定的任务，可以考虑原始语言模型中特定的任务的冗余部分，对原始语言模型进行压缩，得到与任务相适应的目标语言模型，该目标语言模型为适合特定的任务的小模型，也即，不同的小模型是与不同的任务相关的，为调整后的原始语言模型。

可选地，如果判断出原始语言模型满足上述目标条件，也即，确定没有必要对原始语言模型进行压缩处理，则可以禁止对原始语言模型进行转换。

可选地，在获取原始语言模型之后，该方法还包括：确定训练数据的数据量，其中，训练数据用于训练得到原始语言模型；在数据量超过目标阈值的情况下，确定原始语言模型满足目标条件；在数据量未超过目标阈值的情况下，确定原始语言模型不满足目标条件。

在该实施例中，在获取原始语言模型之后，可以确定用于训练得到原始语言模型的训练数据的数据量，然后判断该数据量是否大于目标阈值，该目标阈值可以为用于衡量数据是否为海量数据的临界阈值。如果判断出上述数据量大于目标阈值，则说明原始语言模型是从海量数据集上学习而得的，可选地，原始语言模型的参数达到十亿量级，如果将其部署在对计算资源和推理时间有严格限制的实时应用程序中是很困难的，从而该实施例确定原始语言模型满足目标条件，对原始语言模型按照特定的任务进行压缩处理，以提高原始语言模型的压缩在任务上的有效性；如果判断出上述数据量未大于目标阈值，则说明该原始语言模型部署在对计算资源和推理时间有严格限制的实时应用程序中可以的，则为了节省计算资源，可以不对原始语言模型进行压缩处理，从而提高了对原始语言模型进行压缩处理的灵活性，以适应不同的应用场景。

需要说明的是，该实施例的用于确定是否对原始语言模型进行压缩处理的方法仅为本发明实施例的一种优选实施方式，并不仅限于上述用于确定是否对原始语言模型进行压缩处理的方法，任何需要确定是否对原始语言模型进行压缩处理的场景以及对应的方法都在该实施例的范围之内，此处不再一一举例说明。

该实施例在需要对原始语言模型进行压缩的场景下，对原始语言模型进行压缩，而在不需要对原始语言模型进行压缩的场景下，禁止对原始语言模型进行压缩，从而实现了按需对原始语言模型进行压缩，以适应不同场景。通过上上方法，可以基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

作为另一种可选的示例，该实施例的模型处理方法可以包括：获取原始语言模型；确定需要原始语言模型处理的任务，并向客户端发送与任务的特征相关联的配置模板；获取客户端基于配置模板得到的配置参数，并基于配置参数原始语言模型进行转换，得到用于处理任务的目标语言模型。

在该实施例中，获取原始语言模型，该原始语言模型的处理对象是文本信息(自然语言)，可以为预训练的上下文表征编码器。确定需要原始语言模型处理的任务，其中，原始语言模型可以在大规模语料库中学习到大量不同类型的知识，而不同的任务可以以不同的方式来运用原始语言模型。在确定需要原始语言模型处理的任务之后，可以向客户端发送与任务的特征相关联的配置模板，其中，任务的特征可以是任务特有参数，配置模板可以用于用户在客户端上输入相应的配置参数，从而替代在基于任务的特征对原始语言模型进行转换时所用到的参数，比如，该参数为对原始语言模型进行转换时用到的损失函数，可以是知识损失，这样在获取客户端基于配置模板得到的配置参数之后，就可以基于配置参数原始语言模型进行转换，从而得到用于处理任务的目标语言模型，该目标语言模型为适合特定的任务的小模型，也即，不同的小模型是与不同的任务相关的，为调整后的原始语言模型。

可选地，获取客户端基于配置模板得到的配置参数，包括：获取第一知识损失，其中，第一知识损失为客户端基于配置模板从原始语言模型中提取的公共知识；获取第二知识损失，其中，第二知识损失为客户端基于配置模板从第一语言模型中提取的与任务对应的知识，第一语言模型为基于任务的特征对原始语言模型进行训练得到。

在该实施例中，配置参数可以为第一知识损失，该第一知识损失可以是客户端基于配置模板从原始语言模型中提取出公共知识；该实施例的配置参数还可以是第二知识损失，该第二知识损失可以是客户端基于配置模板从第一语言模型中确定的任务对应的知识。其中，第一语言模型为在初始化的步骤中，基于任务的特征对原始语言模型进行训练得到，可以是将原始语言模型进行微调训练得到。

可选地，基于配置参数原始语言模型进行转换，得到用于处理任务的目标语言模型，包括：在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果；基于搜索结果确定目标语言模型。

在该实施例中，可以是基于上述第一知识损失和第二知识损失确定提示信息，以有效找到特定的任务对应的目标语言模型。可选地，在架构搜索空间中，利用可微神经网络架构搜索，为特定任务实现自动搜索提示信息所指示的与任务相适应的模型，进而将其确定为目标语言模型。

该实施例通过上述向客户端发送与任务的特征相关联的配置模板，使得用户在客户端上基于配置模板得到配置参数，以替代在对原始语言模型进行转换时用到的相关损失函数，以满足用户需求，进而达到对模型进行有效使用的技术效果。

在相关技术中，预训练的上下文表征编码器已经被广泛应用于各种自然语言处理任务中。尽管它们很有效，但这些模型是从海量数据集上学习而得的，同时它们的参数通常是十亿量级，将这样的大型模型部署在对计算资源和推理时间有严格限制的实时应用程序中是很困难的。而该实施例使用知识分解器、知识聚合器、可微神经网络架构模块协同作用，基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，使得在不同任务中，可以实现效率和效果的良好平衡，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而将具有大规模参数、推理速度慢的大模型，可以压缩成参数规模小、推理速度快的小模型，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

实施例2

下面对结合优选的实施方式对该实施例的技术方案进行举例介绍，具体以原始语言模型为BERT模型进行举例说明。

在实现模型压缩时，可以知识蒸馏、剪支和量化等手段来压缩BERT模型。然而，这些方法将BERT模型压缩成与任务无关(task-independent)的结构，也就是说，对于所有不同的任务都使用相同的压缩BERT模型。而BERT模型从大规模语料库中学习到了大量不同类型的知识，不同特定的下游任务以不同的方式来运用BERT。现有的BERT压缩方法以相同的方式对不同的特定下游任务进行BERT压缩，却忽略了原始BERT模型中特定任务的冗余部分，从而难以保证BERT压缩在多个任务上的有效性。

为了解决上述，该实施例提出了一种新的压缩方法，该方法考虑了跨任务关系，利用可微神经架构搜索，可以将BERT压缩成适合特定任务的小模型，同时保持良好的性能。

图5是根据本发明实施例的一种BERT模型压缩的示意图。如图5所示，该实施例对于不同的下游任务，在初始化步骤中，将原始BERT模型(Large BERT Model)微调训练为与每个下游任务(Task)对应的微调BERT模型(fine-tuned BERT models)，比如，与任务1对应的微调BERT模型，……，与任务i对应的微调BERT模型i。

可选地，该实施例在已经预训练好的大BERT模型基础上，针对某个特定下游任务，可以加入少量的任务特有参数，同时冻结预训练好的大BERT模型的参数，在该下游任务的新语料上重新训练新加入部分的参数，从而得到与每个下游任务对应的微调BERT模型。

该实施例引入了知识分解器，可以将原BERT模型中的公共知识提取为知识损失L_CK，将多个微调BERT模型中的任务特定知识提取为知识损失{L_Ki}。可选地，该实施例的知识分解器是在原始BERT模型和不同的微调BERT模型上进行训练的一组探针分类器(probeclassifiers)。

图6是根据本发明实施例的一种知识分解器的示意图。如图6所示，固定原始BERT模型和微调BERT模型的各层Transformer参数(E_[cls]、E₁、E₂……E_M)，通过内部各层的第一个[CLS]表示的向量确定为一组线性探针分类器(探针分类器12、探针分类器j、探针分类器1、探针分类器0)，其分别对应参数CLS Emb、CLS Emb、CLS Emb、Pooled，其中，Pooled参数对应[参数CLS]、Tok1、Tok2……TokM。训练后的这组探针分类器可以表示各层知识的分类logits。

该方法从架构搜索空间中，利用可微神经网络架构搜索，为特定任务实现自动搜索任务自适应小模型，也即，该实施例的搜索策略为可微搜索，所涉及的参数可以用c_{k-1}、c_{k-2}、c_{k-k}表示，与涉及的0、1、2之间的关系可以如图6中的搜索空间中的箭头方向所指示。

可选地，在搜索过程中，利用一种知识聚合器(knowledge aggregator)，基于知识损失L_CK和{L_Ki}建立跨任务关系，以用于提供搜索提示信息，从而有效找到小模型。具体地，知识聚合器是一组动态权值调度器，它根据不同任务的优化和性能动态调整不同损失的权重。可选地，该实施例具有相似优化趋势的任务将被分组到一个元任务中，通过调整任务组的权重来保留元知识损失。

可选地，该实施例记录随着模型训练轮数(epoch)的增加，各个目标任务的知识损失序列为[L_Ki ¹，…，L_Ki ^t，…，L_Ki ^T]，其中，LKit表示对于第i个任务，第t个时间点训练的知识损失。接下来根据各个任务的知识损失序列，对有相似优化趋势的任务进行聚类，划分为若干个元任务组。最后根据元任务组在验证集上的平均分类性能进行归一化，归一化系数作为权重。

举例而言，假设有3个任务以及相应的3个微调BERT模型需要压缩，我们搜索10轮并且知识损失记录点为每一轮结束，则知识聚合器模块记录这3个微调BERT模型和原始BERT模型的长度为10的知识损失序列。可以通过聚类划分元任务组，比如，任务1，2的微调BERT模型划为1组，原始BERT模型和任务3的微调BERT模型划为一组。最终根据每个分组的组内平均分类性能加权归一作为权重，来指导小模型搜索，最终输出搜索得到的与任务相对应的自适应小模型，每个自适应小模型的c_{k-1}、c_{k-2}、c_{k-k}，与涉及的0、1、2之间的关系可以如图6中的自适应小模型中的箭头方向所指示。

该实施例利用知识分解器、知识聚合器、可微神经网络架构模块协同作用，使所提出的压缩方法能够在不同的下游任务中，从而实现效率和效果的良好平衡。

需要说明的是，该实施例的知识分解器，除了使用一组探针分类器提取知识损失植物之外，还可以使用其它形式来提取知识损失，比如，利用程序知识流程和关系知识来提取知识损失，可以以与探针分类器类似的方法进行。

需要说明的是，该实施例的知识聚合器，除了采用动态权值调度器之外，还可以考虑采用关系元学习等其它技术来建立跨任务关系的模型。

该实施例与现有的将原始BERT模型压缩成与任务无关的结构的方法相比，为一种通过神经网络架构搜索将多任务BERT自动压缩成自适应小模型的方法。该实施例的知识分解器和知识聚合器考虑跨任务关系，并根据它们的优化趋势对相似的任务进行分组；该实施例还结合了不同任务的元知识，提高了搜索效率，也提高了BERT压缩在多个任务上的有效性，从而解决了对模型难以进行有效使用的技术问题的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述图2所示的模型处理方法的模型处理装置。

图7是根据本发明实施例的一种模型处理装置的示意图。如图7所示，该模型处理装置70可以包括：第一获取单元71、第一确定单元72和转换单元73。

第一获取单元71，用于获取原始语言模型。

第一确定单元72，用于确定需要原始语言模型处理的任务。

转换单元73，用于基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

此处需要说明的是，上述第一获取单元71、第一确定单元72和转换单元73对应于实施例1中的步骤S202至步骤S206，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

本发明实施例还提供了一种用于实现上述图3所示的模型处理方法的模型处理装置。

图8是根据本发明实施例的另一种模型处理装置的示意图。如图8所示，该模型处理装置80可以包括：第二获取单元81、第二确定单元82、第一处理单元83和第一输出单元84。

第二获取单元81，用于获取上传至目标平台的文本信息。

第二确定单元82，用于确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的。

第一处理单元83，用于基于目标语言模型对文本输入信息进行处理，得到文本处理结果。

第一输出单元84，用于向目标平台输出文本处理结果。

此处需要说明的是，上述第二获取单元81、第二确定单元82、第一处理单元83和第一输出单元84对应于实施例1中的步骤S302至步骤S308，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

图9是根据本发明实施例的另一种模型处理装置的示意图。如图9所示，该模型处理装置90可以包括：接收单元91、第三确定单元92、第二处理单元93和第二输出单元94。

接收单元91，用于接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的。

第三确定单元92，用于确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的。

第二处理单元93，用于基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果。

第二输出单元94，用于输出文本处理结果。

此处需要说明的是，上述接收单元91、第三确定单元92、第二处理单元93和第二输出单元94对应于实施例1中的步骤S402至步骤S408，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

该实施例的模型处理装置，基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的模型处理方法中以下步骤的程序代码：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

可选地，图10是根据本发明实施例的一种移动终端的结构框图。如图10所示，该移动终端A可以包括：一个或多个(图中仅示出一个)处理器102、存储器104、以及传输装置106。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的模型处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的模型处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

可选地，上述处理器还可以执行如下步骤的程序代码：将任务的特征输入至神经网络架构搜索中，得到搜索结果；基于搜索结果确定目标语言模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于任务的特征将原始语言模型训练为第一语言模型；将第一语言模型输入至神经网络架构搜索中，得到搜索结果。

可选地，上述处理器还可以执行如下步骤的程序代码：将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第一语言模型的第二知识损失；在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一知识损失和第二知识损失确定提示信息；在神经网络架构搜索对应的架构搜索空间中，搜索提示信息所指示的模型；将提示信息所指示的模型确定为目标语言模型。

可选地，上述处理器还可以执行如下步骤的程序代码：在知识聚合器中，基于第一知识损失和第二知识损失建立跨任务关系，其中，跨任务关系用于指示多个任务之间的关系；基于跨任务关系确定提示信息。

可选地，上述处理器还可以执行如下步骤的程序代码：在知识聚合器中，记录原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列，其中，第一知识损失序列包括原始语言模型在至少一个时刻训练的知识损失，第二知识损失序列包括第一语言模型在至少一个时刻训练的第二知识损失；基于原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列对多个任务进行聚类，得到至少一个元任务组，其中，元任务组包括相似度大于第一阈值的至少两个任务；基于元任务组的目标值进行归一化处理，得到元任务组的权重，其中，目标值用于指示元任务组的平均分类性能；基于元任务组的权重建立跨任务关系。

可选地，上述处理器还可以执行如下步骤的程序代码：在知识分解器中，将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第二知识损失，包括：在知识分解器中，将第一语言模型中与任务对应的知识，提取为第二知识损失。

可选地，上述处理器还可以执行如下步骤的程序代码：向原始语言模型中添加任务的目标任务参数；在任务的新增语料上训练目标任务参数，得到第一语言模型。

作为一种可选的实施方式，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取上传至目标平台的文本信息；确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于目标语言模型对文本信息进行处理，得到文本处理结果；向目标平台输出文本处理结果。

作为一种可选的实施方式，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果；输出文本处理结果。

作为一种可选的实施方式，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应客户端发送的目标请求，获取原始语言模型，其中，目标请求携带有需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到目标语言模型；将目标语言模型发送至客户端，其中，目标语言模型用于在客户端上处理任务。

作为一种可选的实施方式，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取原始语言模型；在原始语言模型满足目标条件的情况下，确定需要原始语言模型处理的任务，并基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型；在原始语言模型不满足目标条件的情况下，禁止对原始语言模型进行转换。

可选地，上述处理器还可以执行如下步骤的程序代码：在获取原始语言模型之后，确定训练数据的数据量，其中，训练数据用于训练得到原始语言模型；在数据量超过目标阈值的情况下，确定原始语言模型满足目标条件；在数据量未超过目标阈值的情况下，确定原始语言模型不满足目标条件。

作为一种可选的实施方式，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取原始语言模型；确定需要原始语言模型处理的任务，并向客户端发送与任务的特征相关联的配置模板；获取客户端基于配置模板得到的配置参数，并基于配置参数原始语言模型进行转换，得到用于处理任务的目标语言模型。

可选地，上述处理器还可以执行如下步骤的程序代码：获取第一知识损失，其中，第一知识损失为客户端基于配置模板从原始语言模型中提取的公共知识；获取第二知识损失，其中，第二知识损失为客户端基于配置模板从第一语言模型中提取的与任务对应的知识，第一语言模型为基于任务的特征对原始语言模型进行训练得到。

可选地，上述处理器还可以执行如下步骤的程序代码：在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果；基于搜索结果确定目标语言模型。

采用本发明实施例，提供了一种模型处理方法。通过获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。也就是说，本申请基于不同的任务将原始语言模型自动压缩成自适应的目标语言模型，其在部署在对计算资源和推理时间有严格限制的实时应用程序中，也可以容易实现，从而提高了原始语言模型的压缩在多个任务上的有效性，解决了对模型难以进行有效使用的技术问题的技术问题，达到了对模型进行有效使用的技术效果。

本领域普通技术人员可以理解，图10所示的结构仅为示意，移动终端A也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述移动终端A的结构造成限定。例如，移动终端A还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的模型处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取原始语言模型；确定需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将任务的特征输入至神经网络架构搜索中，得到搜索结果；基于搜索结果确定目标语言模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：基于任务的特征将原始语言模型训练为第一语言模型；将第一语言模型输入至神经网络架构搜索中，得到搜索结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第一语言模型的第二知识损失；在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：基于第一知识损失和第二知识损失确定提示信息；在神经网络架构搜索对应的架构搜索空间中，搜索提示信息所指示的模型；将提示信息所指示的模型确定为目标语言模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在知识聚合器中，基于第一知识损失和第二知识损失建立跨任务关系，其中，跨任务关系用于指示多个任务之间的关系；基于跨任务关系确定提示信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在知识聚合器中，记录原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列，其中，第一知识损失序列包括原始语言模型在至少一个时刻训练的知识损失，第二知识损失序列包括第一语言模型在至少一个时刻训练的第二知识损失；基于原始语言模型的第一知识损失序列和第一语言模型的第二知识损失序列对多个任务进行聚类，得到至少一个元任务组，其中，元任务组包括相似度大于第一阈值的至少两个任务；基于元任务组的目标值进行归一化处理，得到元任务组的权重，其中，目标值用于指示元任务组的平均分类性能；基于元任务组的权重建立跨任务关系。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在知识分解器中，将原始语言模型中的公共知识，提取为第一知识损失；将第一语言模型中与任务对应的知识，提取为第二知识损失，包括：在知识分解器中，将第一语言模型中与任务对应的知识，提取为第二知识损失。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：向原始语言模型中添加任务的目标任务参数；在任务的新增语料上训练目标任务参数，得到第一语言模型。

作为一种可选的实施方式，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取上传至目标平台的文本信息；确定与文本信息对应的任务，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于目标语言模型对文本信息进行处理，得到文本处理结果；向目标平台输出文本处理结果。

作为一种可选的实施方式，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收文本输入信息，其中，文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；确定与文本输入信息对应的任务，并读取目标语言模型，其中，任务由原始语言模型处理，目标语言模型为基于任务的特征对原始语言模型进行转换得到的；基于读取到的目标语言模型对文本输入信息进行处理，得到文本处理结果；输出文本处理结果。

作为一种可选的实施方式，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：响应客户端发送的目标请求，获取原始语言模型，其中，目标请求携带有需要原始语言模型处理的任务；基于任务的特征对原始语言模型进行转换，得到目标语言模型；将目标语言模型发送至客户端，其中，目标语言模型用于在客户端上处理任务。

作为一种可选的实施方式，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取原始语言模型；在原始语言模型满足目标条件的情况下，确定需要原始语言模型处理的任务，并基于任务的特征对原始语言模型进行转换，得到用于处理任务的目标语言模型；在原始语言模型不满足目标条件的情况下，禁止对原始语言模型进行转换。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取原始语言模型之后，确定训练数据的数据量，其中，训练数据用于训练得到原始语言模型；在数据量超过目标阈值的情况下，确定原始语言模型满足目标条件；在数据量未超过目标阈值的情况下，确定原始语言模型不满足目标条件。

作为一种可选的实施方式，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取原始语言模型；确定需要原始语言模型处理的任务，并向客户端发送与任务的特征相关联的配置模板；获取客户端基于配置模板得到的配置参数，并基于配置参数原始语言模型进行转换，得到用于处理任务的目标语言模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一知识损失，其中，第一知识损失为客户端基于配置模板从原始语言模型中提取的公共知识；获取第二知识损失，其中，第二知识损失为客户端基于配置模板从第一语言模型中提取的与任务对应的知识，第一语言模型为基于任务的特征对原始语言模型进行训练得到。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在神经网络架构搜索中基于第一知识损失和第二知识损失进行搜索，得到搜索结果；基于搜索结果确定目标语言模型。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型处理方法，其特征在于，包括：

获取原始语言模型；

确定需要所述原始语言模型处理的任务；

基于所述任务的特征对所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型。

2.根据权利要求1所述的方法，其特征在于，基于所述任务的特征对所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型，包括：

将所述任务的特征输入至神经网络架构搜索中，得到搜索结果；

基于所述搜索结果确定所述目标语言模型。

3.根据权利要求2所述的方法，其特征在于，将所述任务的特征输入至神经网络架构搜索中，得到搜索结果，包括：

基于所述任务的特征将所述原始语言模型训练为第一语言模型；

将所述第一语言模型输入至所述神经网络架构搜索中，得到所述搜索结果。

4.根据权利要求3所述的方法，其特征在于，将所述第一语言模型输入至所述神经网络架构搜索中，得到所述搜索结果，包括：

将所述原始语言模型中的公共知识，提取为第一知识损失；

将所述第一语言模型中与所述任务对应的知识，提取为所述第一语言模型的第二知识损失；

在所述神经网络架构搜索中基于所述第一知识损失和所述第二知识损失进行搜索，得到所述搜索结果。

5.根据权利要求4所述的方法，其特征在于，

在所述神经网络架构搜索中基于所述第一知识损失和所述第二知识损失进行搜索，得到所述搜索结果，包括：基于所述第一知识损失和所述第二知识损失确定提示信息；在所述神经网络架构搜索对应的架构搜索空间中，搜索所述提示信息所指示的模型；

基于所述搜索结果确定所述目标语言模型，包括：将所述提示信息所指示的模型确定为所述目标语言模型。

6.根据权利要求5所述的方法，其特征在于，基于所述第一知识损失和所述第二知识损失确定提示信息，包括：

在知识聚合器中，基于所述第一知识损失和所述第二知识损失建立跨任务关系，其中，所述跨任务关系用于指示多个任务之间的关系；

基于所述跨任务关系确定所述提示信息。

7.根据权利要求6所述的方法，其特征在于，在知识聚合器中，基于所述第一知识损失和所述第二知识损失建立跨任务关系，包括：

在所述知识聚合器中，记录所述原始语言模型的第一知识损失序列和所述第一语言模型的第二知识损失序列，其中，所述第一知识损失序列包括所述原始语言模型在至少一个时刻训练的知识损失，所述第二知识损失序列包括所述第一语言模型在至少一个时刻训练的所述第二知识损失；

基于所述原始语言模型的第一知识损失序列和所述第一语言模型的第二知识损失序列对所述任务进行聚类，得到至少一个元任务组，其中，所述元任务组包括相似度大于第一阈值的至少两个任务；

基于所述元任务组的目标值进行归一化处理，得到所述元任务组的权重，其中，所述目标值用于指示所述元任务组的平均分类性能；

基于所述元任务组的权重建立所述跨任务关系。

8.根据权利要求4所述的方法，其特征在于，

将所述原始语言模型中的公共知识，提取为第一知识损失，包括：在知识分解器中，将所述原始语言模型中的公共知识，提取为所述第一知识损失；

将所述第一语言模型中与所述任务对应的知识，提取为第二知识损失，包括：在所述知识分解器中，将所述第一语言模型中与所述任务对应的知识，提取为所述第二知识损失。

9.根据权利要求8所述的方法，其特征在于，所述知识分解器为基于所述原始语言模型和所述第一语言模型训练得到的一组探针分类器。

10.根据权利要求3所述的方法，其特征在于，基于所述任务的特征将所述原始语言模型训练为第一语言模型，包括：

向所述原始语言模型中添加所述任务的目标任务参数；

在所述任务的新增语料上训练所述目标任务参数，得到所述第一语言模型。

11.根据权利要求10所述的方法，其特征在于，在所述任务的新增语料上训练所述目标任务参数时，所述原始语言模型的参数保持不变。

12.根据权利要求1至10中任意一项所述的方法，其特征在于，所述原始语言模型通过数据量大于第二阈值的数据进行训练得到，所述原始语言模型的参数的数量级大于第三阈值。

13.根据权利要求1至10中任意一项所述的方法，其特征在于，所述原始语言模型为双向表征编码器。

14.根据权利要求1至10中任意一项所述的方法，其特征在于，所述任务为所述原始语言模型的下游任务。

15.一种模型处理方法，其特征在于，包括：

获取上传至目标平台的文本信息；

确定与所述文本信息对应的任务，其中，所述任务由原始语言模型处理，目标语言模型为基于所述任务的特征对所述原始语言模型进行转换得到的；

基于所述目标语言模型对所述文本信息进行处理，得到文本处理结果；

向所述目标平台输出所述文本处理结果。

16.根据权利要求15所述的方法，其特征在于，在所述目标平台为交易平台的情况下，所述文本信息包括：上传至所述交易平台的文本交易信息。

17.根据权利要求16所述的方法，其特征在于，所述文本交易信息包括以下至少之一：

对交易对象进行查询的文本查询信息；

与所述交易对象执行的交易操作关联的文本信息；

对所述交易对象进行评价的文本评价信息；

对与所述交易对象关联的关联对象进行查询的文本查找信息。

18.根据权利要求15所述的方法，其特征在于，所述方法还包括：

基于所述搜索结果确定所述目标语言模型。

19.根据权利要求18所述的方法，其特征在于，将所述任务的特征输入至神经网络架构搜索中，得到搜索结果，包括：

20.根据权利要求19所述的方法，其特征在于，将所述第一语言模型输入至所述神经网络架构搜索中，得到所述搜索结果，包括：

将所述原始语言模型中的公共知识，提取为第一知识损失；

21.根据权利要求19所述的方法，其特征在于，基于所述任务的特征将所述原始语言模型训练为第一语言模型，包括：

向所述原始语言模型中添加所述任务的目标任务参数；

在所述任务的新增语料上训练所述任务参数，得到所述第一语言模型。

22.一种模型处理方法，其特征在于，包括：

接收文本输入信息，其中，所述文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；

确定与所述文本输入信息对应的任务，并读取目标语言模型，其中，所述任务由原始语言模型处理，所述目标语言模型为基于所述任务的特征对所述原始语言模型进行转换得到的；

基于读取到的所述目标语言模型对所述文本输入信息进行处理，得到文本处理结果；

输出所述文本处理结果。

23.根据权利要求22所述的方法，其特征在于，所述文本处理系统设置在机器人上，其中，所述机器人用于进行文本交互。

24.根据权利要求23所述的方法，其特征在于，所述方法还包括：

基于所述搜索结果确定所述目标语言模型。

25.根据权利要求24所述的方法，其特征在于，将所述任务的特征输入至神经网络架构搜索中，得到搜索结果，包括：

26.根据权利要求25所述的方法，其特征在于，将所述第一语言模型输入至所述神经网络架构搜索中，得到所述搜索结果，包括：

将所述原始语言模型中的公共知识，提取为第一知识损失；

27.根据权利要求25所述的方法，其特征在于，基于所述任务的特征将所述原始语言模型训练为第一语言模型，包括：

向所述原始语言模型中添加所述任务的目标任务参数；

28.一种模型处理方法，其特征在于，包括：

响应客户端发送的目标请求，获取原始语言模型，其中，所述目标请求携带有需要所述原始语言模型处理的任务；

基于所述任务的特征对所述原始语言模型进行转换，得到目标语言模型；

将所述目标语言模型发送至所述客户端，其中，所述目标语言模型用于在所述客户端上处理所述任务。

29.一种模型处理方法，其特征在于，包括：

获取原始语言模型；

在所述原始语言模型满足目标条件的情况下，确定需要所述原始语言模型处理的任务，并基于所述任务的特征对所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型；

在所述原始语言模型不满足所述目标条件的情况下，禁止对所述原始语言模型进行转换。

30.根据权利要求29所述的方法，其特征在于，在获取所述原始语言模型之后，所述方法还包括：

确定训练数据的数据量，其中，所述训练数据用于训练得到所述原始语言模型；

在所述数据量超过目标阈值的情况下，确定所述原始语言模型满足所述目标条件；

在所述数据量未超过所述目标阈值的情况下，确定所述原始语言模型不满足所述目标条件。

31.一种模型处理方法，其特征在于，包括：

获取原始语言模型；

确定需要所述原始语言模型处理的任务，并向客户端发送与所述任务的特征相关联的配置模板；

获取所述客户端基于所述配置模板得到的配置参数，并基于所述配置参数所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型。

32.根据权利要求31所述的方法，其特征在于，获取所述客户端基于所述配置模板得到的配置参数，包括：

获取第一知识损失，其中，所述第一知识损失为所述客户端基于所述配置模板从所述原始语言模型中提取的公共知识；

获取第二知识损失，其中，所述第二知识损失为所述客户端基于所述配置模板从第一语言模型中提取的与所述任务对应的知识，所述第一语言模型为基于所述任务的特征对所述原始语言模型进行训练得到。

33.根据权利要求32所述的方法，其特征在于，基于所述配置参数所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型，包括：

在神经网络架构搜索中基于所述第一知识损失和所述第二知识损失进行搜索，得到搜索结果；

基于所述搜索结果确定所述目标语言模型。

34.一种模型处理装置，其特征在于，包括：

第一获取单元，用于获取原始语言模型；

第一确定单元，用于确定需要原始语言模型处理的任务；

转换单元，用于基于所述任务的特征对所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型。

35.一种模型处理装置，其特征在于，包括：

第二获取单元，用于获取上传至目标平台的文本信息；

第二确定单元，用于确定与所述文本信息对应的任务，其中，所述任务由原始语言模型处理，目标语言模型为基于所述任务的特征对所述原始语言模型进行转换得到的；

第一处理单元，用于基于所述目标语言模型对所述文本输入信息进行处理，得到文本处理结果；

第一输出单元，用于向所述目标平台输出所述文本处理结果。

36.一种模型处理装置，其特征在于，包括：

接收单元，用于接收文本输入信息，其中，所述文本输入信息为基于文本处理系统所关联的至少一个文本采集器采集得到的；

第三确定单元，用于确定与所述文本输入信息对应的任务，并读取目标语言模型，其中，所述任务由原始语言模型处理，所述目标语言模型为基于所述任务的特征对所述原始语言模型进行转换得到的；

第二处理单元，用于基于读取到的所述目标语言模型对所述文本输入信息进行处理，得到文本处理结果；

第二输出单元，用于输出所述文本处理结果。

37.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述存储介质所在设备执行以下步骤：

获取原始语言模型；

确定需要所述原始语言模型处理的任务；

38.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行以下步骤：

获取原始语言模型；

确定需要所述原始语言模型处理的任务；

基于所述任务的特征所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型。

39.一种移动终端，其特征在于，包括：

处理器；

存储器，与所述处理器相连接，用于为所述处理器提供处理以下处理步骤的指令：获取原始语言模型；确定需要所述原始语言模型处理的任务；基于所述任务的特征对所述原始语言模型进行转换，得到用于处理所述任务的目标语言模型。