CN110795939A

CN110795939A - 文本处理方法、装置

Info

Publication number: CN110795939A
Application number: CN201910980269.3A
Authority: CN
Inventors: 杨荣钦; 林衍凯; 李鹏; 周杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-14

Abstract

本申请提供了一种文本处理方法、装置。该方法包括：获取待处理文本；将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果，文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。由于该方法中的文本识别模型相比于只根据训练数据得到的模型使用了更多的数据训练，因此，该文本处理方法识别文本更加准确。此外，由于该文本处理方法使用的文本识别模型是通过知识蒸馏得到的，该文本处理方法更加便于应用。

Description

文本处理方法、装置

技术领域

本申请涉及通信技术领域，特别涉及一种文本处理方法、装置。

背景技术

在自然语言推理、命名实体识别、阅读理解等诸多文本识别任务中，可以应用用于进行文本处理的预训练模型来处理上述任务。

但是现有的预训练模型如ELMO(Embeddings Language Models，嵌入语言模型)尺寸巨大，巨大的模型尺寸使得应用预训练模型进行文本处理的方法需要大量的时间，难以应用于实际场景，因此，找到一种准确且便于应用的文本识别方法十分重要。

发明内容

本申请旨在提供一种文本处理方法、装置，其能够准确且便于应用的进行文本识别。

根据本申请实施例的一个方面，提供了一种文本处理方法，包括：获取待处理文本；将所述待处理文本输入至文本识别模型进行处理，得到所述文本识别模型对所述待处理文本的识别结果，所述文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。

根据本申请实施例的一个方面，提供了一种文本处理装置，包括：获取模块，用于获取待处理文本；处理模块，用于将所述待处理文本输入至文本识别模型进行处理，得到所述文本识别模型对所述待处理文本的识别结果，所述文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。

在本申请的一些实施例中，基于前述方案，所述文本处理装置还包括：模型生成模块，用于基于所述有标记训练数据及所述引导任务对所述预训练模型进行知识蒸馏处理得到引导模型；根据所述预训练模型的输出与引导模型的输出之间的对应关系生成与所述引导任务对应的距离函数；根据所述无标记训练数据及所述距离函数对所述引导模型进行知识蒸馏处理得到预识别模型，以根据所述预识别模型生成所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块配置为：根据所述引导模型的输出和所述预识别模型的输出之间的对应关系生成通用函数；根据所述通用函数生成所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：根据所述通用函数得到所述预识别模型的通用参数；初始化所述通用参数；根据初始化的所述通用参数得到所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：根据初始化的所述通用参数建立通用模型；基于与指定文本识别任务对应的训练数据对所述通用模型进行知识蒸馏处理，得到所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：基于与指定文本识别任务对应的训练数据训练所述预训练模型；基于与指定文本识别任务对应的训练数据对所述训练结果进行知识蒸馏处理得到特定模型；根据所述预训练模型的输出和所述特定模型的输出之间的对应关系生成特定函数；根据所述通用函数和所述特定函数生成所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：根据所述通用函数得到所述预识别模型的通用参数，初始化所述通用参数；根据所述特定函数得到所述特定模型的特定参数，初始化所述特定参数；根据初始化的所述通用参数和初始化的所述特定参数得到所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：根据初始化的所述通用参数得到所述文本识别模型的共享参数；根据初始化的所述特定参数得到所述文本识别模型的任务参数；根据所述共享参数和所述任务参数建立所述文本识别模型。

在本申请的一些实施例中，基于前述方案，所述模型生成模块还配置为：将所述通用函数和所述特定函数进行线性处理得到所述文本识别模型。

根据本申请实施例的一个方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行上任一项所述的方法。

根据本申请实施例的一个方面，提供了一种电子装置，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请的一些实施例所提供的技术方案中，通过获取待处理文本，将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果。其中，文本识别模型是使用半监督学习的方法对用于进行文本处理的预训练模型进行知识蒸馏得到的。首先，基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，知识蒸馏的处理结果能够引导无标记数据进行知识蒸馏；其次，根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到该文本识别模型。由于该文本识别模型是通过训练数据和无标记数据得到的，相比于只根据训练数据得到的模型使用了更多的数据训练，因此，该文本识别模型更加准确。此外，由于该文本识别模型是通过知识蒸馏得到的，该文本识别模型的尺寸相比于现有的用于进行文本处理的预训练模型的尺寸更小，更加便于应用。基于该文本识别模型识别待处理文本，能够更快速更准确的得到待处理文本的处理结果。因此，该文本处理方法能够准确且便于应用的进行文本识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1A示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图1B示出了可以应用本申请一个实施例的技术方案的数据共享系统的示意图；

图1C示出了可以应用本申请一个实施例的区块链所在的节点存储程序行为数据的示意图；

图2示意性示出了根据本申请的一个实施例的文本处理方法的流程图；

图3示意性示出了根据本申请的一个实施例的建立该文本处理方法中的文本识别模型的过程的流程图；

图4示意性示出了根据本申请的一个实施例的根据预识别模型生成文本识别模型的过程的示意图；

图5示意性示出了根据本申请的一个实施例的根据通用函数生成文本识别模型过程的流程图；

图6示意性示出了根据本申请的一个实施例的获取特定函数的过程的流程图；

图7示意性示出了根据本申请的一个实施例的根据通用函数和特定函数生成文本识别模型的过程的流程图；

图8示意性示出了根据本申请的一个实施例的文本处理装置的框图；

图9是根据一示例性实施例示出的一种电子装置的硬件图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1A示出了可以应用本申请实施例的技术方案的示例性系统架构100A的示意图。

如图1A所示，系统架构100A可以包括终端设备101A(终端设备可以为智能手机、平板电脑、便携式计算机、台式计算机中的一种或多种)、网络102A和服务器103A。网络102A用以在终端设备101A和服务器103之间提供通信链路的介质。网络102A可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1A中的终端设备101A、网络102A和服务器103A的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备101A、网络102A和服务器103A。比如服务器103A可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器103A通过获取待处理文本，将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果。其中，文本识别模型是使用半监督学习的方法对用于进行文本处理的预训练模型进行知识蒸馏得到的。首先，基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，知识蒸馏的处理结果能够引导无标记数据进行知识蒸馏；其次，根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到该文本识别模型。由于该文本识别模型是通过训练数据和无标记数据得到的，相比于只根据训练数据得到的模型使用了更多的数据训练，因此，该文本识别模型更加准确。此外，由于该文本识别模型是通过知识蒸馏得到的，该文本识别模型的尺寸相比于现有的用于进行文本处理的预训练模型的尺寸更小，更加便于应用。基于该文本识别模型识别待处理文本，能够更快速更准确的得到待处理文本的处理结果。因此，该文本处理方法能够准确且便于应用的进行文本识别。

需要说明的是，本申请实施例所提供的文本处理方法一般由服务器103A执行，相应地，文本处理装置一般设置于服务器103A中。但是，在本申请的其它实施例中，终端设备101A也可以与服务器103A具有相似的功能，从而执行本申请实施例所提供的文本处理方法。

图1B示出了可以应用本发明实施例的技术方案的示例性数据共享系统100B的示意图。

参见图1A所示的数据共享系统100B，数据共享系统100B是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点101B，多个节点101B可以是指数据共享系统中的多个游戏客户端101A，多个节点101B也可以是指数据共享系统中的游戏服务器103A。每个节点101B在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		…	…
节点N	119.123.789.258

表1

数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成，参见图1B，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

在生成区块链中的各个区块时，参见图1C，区块链所在的节点在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式：

SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))＜TARGET

其中，SHA256为计算特征值所用的特征值算法；version(版本号)为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

数据共享系统100B中存储的输入信息可以是有标记训练数据，可以是无标记训练数据等。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本申请的一个实施例的文本处理方法的流程图，该文本处理方法的执行主体可以是服务器，比如可以是图1A中所示的服务器103A。

参照图2所示，该文本处理方法至少包括步骤S210至步骤S220，详细介绍如下：

在步骤S210中，获取待处理文本。

在本申请的一个实施例中，待处理文本可以是语言文本，可以是文字语言文本或语音语言文本。

在本申请的一个实施例中，待处理文本可以是图像文本，可以是音频文本，可以是视频文本。

在步骤S220中，将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果，文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。

在本申请的一个实施例中，待处理文本可以是语言文本，文本识别模型可以对待处理文本进行语义识别，从而识别出待处理文本对应的指令，以使该指令得到执行。

在本申请的一个实施例中，与文本识别对应的引导任务可以是指定文本识别任务。

在本申请的一个实施例中，有标记训练数据可以是指定文本识别任务对应的训练数据。

采用指定文本识别任务作为引导任务、使用指定文本识别任务对应的训练数据可以准确的为无标记数据的训练提供引导。

在本申请的一个实施例中，与文本识别对应的引导任务可以是与指定文本识别任务相似的任务。

在本申请的一个实施例中，有标记训练数据可以是与指定文本识别任务相似的任务对应的训练数据。

采用与指定文本识别任务相似的任务、使用与指定文本识别任务相似的任务对应的训练数据可以在为无标记数据的训练提供引导的同时，避免数据耦合。

在本申请的一个实施例中，可以获取指定文本识别任务的执行对象，将与指定文本识别任务的执行对象相同的文本识别任务，作为与指定文本识别任务相似的任务。

在本申请的一个实施例中，指定文本识别任务可以是识别文本中时间。例如，待处理文本可以是客户端101A接收到的语音指令“请问现在几点？”，服务器103A可以根据语音指令中包含的关键词“几点”确认该语音指令与时钟有关，与指定文本识别任务相似的任务可以是关闭闹钟、设定闹钟等与时钟有关的任务。

在本申请的一个实施例中，与指定文本识别任务相似的任务对应的训练数据即为执行指定文本识别任务相似的任务时的常用文本，常用文本可以是历史执行任务记录中的使用的文本。

在本申请的一个实施例中，无标记训练数据为大规模的无标记数据，无标记训练数据可以是维基百科全书中的词汇。

在本申请的一个实施例中，用于进行文本处理的预训练模型可以是ELMO(Embeddings Language Models，嵌入语言模型)、BERT(Bidirectional EncoderRepresentations from Transfoemers，双向编码器表征模型)、openAI GPT(GenerativePre-trained Transformer，词向量模型)等预训练模型。

在图2所示的实施例中，通过获取待处理文本，将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果。其中，文本识别模型是使用半监督学习的方法对用于进行文本处理的预训练模型进行知识蒸馏得到的。首先，基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，知识蒸馏的处理结果能够引导无标记数据进行知识蒸馏；其次，根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到该文本识别模型。由于该文本识别模型是通过训练数据和无标记数据得到的，相比于只根据训练数据得到的模型使用了更多的数据训练，因此，该文本识别模型更加准确。此外，由于该文本识别模型是通过知识蒸馏得到的，该文本识别模型的尺寸相比于现有的用于进行文本处理的预训练模型的尺寸更小，更加便于应用。基于该文本识别模型识别待处理文本，能够更快速更准确的得到待处理文本的处理结果。因此，该文本处理方法能够准确且便于应用的进行文本识别。

在本申请的一个实施例中，在如图2所示的步骤S220之前，也就是将待处理文本输入至文本识别模型进行处理之前，本申请的文本处理方法可以通过如图3所示的步骤S310至步骤S330建立该文本处理方法中的文本识别模型：

在步骤S310中，基于有标记训练数据及引导任务对预训练模型进行知识蒸馏处理得到引导模型。

在步骤S320中，根据预训练模型的输出与引导模型的输出之间的对应关系生成与引导任务对应的距离函数。

在本申请的一个实施例中，可以将有标记训练数据分别输入预训练模型和引导模型，得到预训练模型的输出与引导模型的输出，再根据预训练模型的输出与引导模型的输出之间的对应关系生成与引导任务对应的距离函数。

在本申请的一个实施例中，引导任务对应的距离函数可以是预训练模型和引导模型之间的损失函数。

在本申请的一个实施例中，损失函数由共享函数和任务函数线性组合形成，共享函数部分反映了知识蒸馏使用的数据中自然文本的共有特点，任务函数部分反映了知识蒸馏时使用的数据对应的任务特点。由于预训练模型和引导模型之间的损失函数是根据有标记数据得到的，该损失函数中的任务函数部分更能够体现出有标记数据对应的引导任务的特点，因此该损失函数能够引导无标记数据进行知识蒸馏。

继续参照图3，在步骤S330中，根据无标记训练数据及距离函数对引导模型进行知识蒸馏处理得到预识别模型，以根据预识别模型生成文本识别模型。

在本申请的一个实施例中，可以将该预识别模型作为文本识别模型。

在图3所示的实施例中，基于有标记训练数据及引导任务对预训练模型进行知识蒸馏处理得到引导模型，引导模型能够引导无标记数据对引导模型进一步进行知识蒸馏，增加了引导模型的训练数据，使得到的引导模型在很好的表现引导任务的特点的同时，也能够更好的表现文本的通用特点，从而引导模型能够更加准确的进行文本识别。另一方面，由于引导模型是通过知识蒸馏得到的，引导模型的参数少，应用方便。

在本申请的一个实施例中，在步骤S330中，根据预识别模型生成文本识别模型的过程，可以包括如图4所示的步骤S410至步骤S420：

在步骤S410中，根据引导模型的输出和预识别模型的输出之间的对应关系生成通用函数。

在本申请的一个实施例中，可以将无标记数据输入引导模型和预识别模型，根据引导模型和预识别模型对应与无标记数据的输出之间的对应关系生成通用函数。

在本申请的一个实施例中，通用函数可以为引导模型和预识别模型之间的损失函数。

在本申请的一个实施例中，由于引导模型和预识别模型之间的损失函数是根据无标记数据得到的，该损失函数中的共享函数部分更能够体现出文本的通用特点。

在步骤S420中，根据通用函数生成文本识别模型。

在本申请的一个实施例中，由于通用函数是使用无标记数据对引导模型进行知识蒸馏得到的，根据通用函数生成的文本识别模型，既能够体现通用函数中文本的通用特点，也能体现出引导函数中引导任务的特点，因此，文本识别模型能够准确的进行文本识别。另一方面，由于文本识别模型是通过知识蒸馏得到的，文本识别模型的参数少，应用方便。

在本申请的一个实施例中，在步骤S420中，根据通用函数生成文本识别模型过程，可以包括如图5所示的步骤S510至步骤S530：

在步骤S510中，根据通用函数得到预识别模型的通用参数。

在本申请的一个实施例中，可以求取通用函数的最小值得到预识别模型的通用参数。

在步骤S520中，初始化通用参数。

在本申请的一个实施例中，通过知识蒸馏得到的预识别模型中，预识别模型的通用参数包括共享参数和任务参数两种，共享参数中携带了对预识别模型进行知识蒸馏时使用的数据的通用特点，任务参数反映了知识蒸馏时使用的数据对应的任务特点，可以将通用参数中的任务参数随机初始化，保留通用参数中的共享参数。

在步骤S530中，根据初始化的通用参数得到文本识别模型。

在该实施例中，可以使得到的文本识别模型能够在更好的学习用于训练根据通用参数建立的模型的数据对应的任务的特点。

在本申请的一个实施例中，可以将通用参数中的任务参数随机初始化，包括通用参数中的共享参数，使得到的文本识别模型能够在更好的学习用于训练根据通用参数建立的通用模型的数据对应的任务的特点的同时，能够保留通用参数中携带的文本的通用特点。

在本申请的一个实施例中，可以根据初始化的通用参数建立通用模型，基于与指定文本识别任务对应的训练数据对通用模型进行知识蒸馏处理，得到文本识别模型。

在该实施例中，由于根据初始化的通用参数得到的文本识别模型能够在更好的学习用于训练根据通用参数建立的模型的数据对应的任务的特点，因此使用与指定文本识别任务对应的训练数据对通用模型进行知识蒸馏处理，得到的文本识别模型能够很好的处理指定文本识别任务。

在本申请的一个实施例中，可以在图4所示的步骤S420之前，即在根据通用函数生成文本识别模型之前，可以根据与指定文本识别任务对应的训练数据生成特定函数。则图4所示的步骤S420，根据通用函数生成文本识别模型，可以是根据通用函数和特定函数生成文本识别模型。

在该实施例中，由于通用函数，由于通用函数是使用无标记数据对引导模型进行知识蒸馏得到的，根据通用函数生成的文本识别模型，既能够体现通用函数中文本的通用特点，特定函数是根据与指定文本识别任务对应的训练数据得到的，特定函数中能够体现指定文本识别任务的特点，因此得到的文本识别模型能够更加准确的处理指定文本识别任务。

在本申请的一个实施例中，可以通过如图6所示的步骤S610至步骤S630得到特定函数：

在步骤S610中，基于与指定文本识别任务对应的训练数据训练预训练模型；

在步骤S620中，基于与指定文本识别任务对应的训练数据对训练结果进行知识蒸馏处理得到特定模型；

在步骤S630中，根据预训练模型的输出和特定模型的输出之间的对应关系生成特定函数。

在该实施例中，由于特定函数是使用与指定文本识别任务对应的训练数据对与指定文本识别任务对应的训练数据训练预训练模型的训练结果进行知识蒸馏得到的，特定函数中能够携带与指定文本识别任务对应的训练数据的特点。

在本申请的一个实施例中，可以将与指定文本识别任务对应的训练数据输入预训练模型和特定模型中，根据预训练模型的输出和特定模型的输出之间的对应关系生成特定函数。

在本申请的一个实施例中，特定函数可以是预训练模型与特定模型之间的损失函数。

在本申请的一个实施例中，根据通用函数和特定函数生成文本识别模型的过程可以包括如图7所示的步骤S710至步骤S730：

在步骤S710中，根据通用函数得到预识别模型的通用参数，初始化通用参数。

在步骤S720中，根据特定函数得到特定模型的特定参数，初始化特定参数。

在本申请的一个实施例中，可以求取特定函数的最小值得到预识别模型的特定参数。

在本申请的一个实施例中，通过知识蒸馏得到的特定模型中，特定参数包括共享参数和任务参数两种，共享参数中携带了对特定模型进行知识蒸馏时使用的与指定文本识别任务对应的训练数据的特点，任务参数反映了知识蒸馏时使用的与指定文本识别任务的特点，可以将特定参数中的共享参数随机初始化，保留通用参数中的任务参数。

继续参照图7，在步骤S730中，根据初始化的通用参数和初始化的特定参数得到文本识别模型。

在该实施例中，初始化的通用参数能够携带通用参数中文本的通用特点，初始化的特定参数能够携带与指定文本识别任务对应的训练数据的特点，因此根据初始化的通用参数和初始化的特定参数得到文本识别模型能够准确的处理指定文本识别任务。

在本申请的一个实施例中，可以根据初始化的通用参数得到文本识别模型的共享参数，根据初始化的特定参数得到文本识别模型的任务参数，根据共享参数和任务参数建立文本识别模型。

在本申请的一个实施例中，知识蒸馏得到的文本识别模型包括多层训练层，多层训练层分为两个部分，其中一个部分的训练层的参数表现了该文本识别模型处理的任务的特点，另一个部分的训练层的参数表现了文本的通用特点。将共享参数定义为表现了自然文本的通用特点的参数部分，将任务参数定义为表现了该文本识别模型处理的任务特点的参数部分，根据初始化的通用函数得到处理模型的共享参数，共享参数能够很好的表现文本的通用特点；根据初始化的特定函数得到文本识别模型的任务参数，任务参数能够很好的表现指定文本识别任务的特点，根据共享参数和任务参数生成的文本识别模型既能够很好的表现文本的通用特点，又能够很好的表现指定文本识别任务的特点，能够准确的处理指定文本识别任务。

在本申请的一个实施例中，通用函数可以通过公式Lw＝βLu₂+(1-β)Lt₂表示，其中，Lw表示使用无标记数据进行知识蒸馏处理得到的通用函数，Lu₂表示通用函数中的共享函数，β表示共享函数所占的权重，Lt₂表示通用函数中的任务函数，(1-β)表示任务函数所占的权重。特定函数可以通过公式Lr＝αLu₁+(1-α)Lt₁表示，其中，Lr表示根据有标记训练数据进行知识蒸馏处理得到的特定函数，Lu₁表示特定函数中的共享函数，α表示共享函数所占的权重，Lt₁表示特定函数中的任务函数，(1-α)表示任务函数所占的权重。初始化后的通用函数可以通过公式Lcw＝Lu₂表示，初始化后的特定函数可以通过公式Lcr＝Lt₁表示，共享参数可以通过求取初始化后的通用函数的最小值得到，任务参数可以通过求取初始化后的特定函数的最小值得到，分别根据共享参数和任务参数建立多层训练层，从而得到了用于处理指定文本识别任务的文本识别模型。

在本申请的一个实施例中，基于通用函数和特定函数得到文本识别模型，可以是将通用函数和特定函数进行线性处理得到文本识别模型，建立的文本识别模型既能够很好的表现文本的通用特点，又能够很好的表现指定文本识别任务的特点，能够准确的处理指定文本识别任务。

在本申请的一个实施例中，可以根据权重将特定函数和通用函数线性相加，得到的文本识别模型能够更准确的处理指定文本识别任务，文本权重可以根据需要设定。

在本申请的一个实施例中，分别使用ELMO模型、openAI GPT模型、具有12个隐藏层的BERT-12模型、对12个隐藏层的BERT模进行知识蒸馏得到的具有6个隐藏层的BERT-6模型处理待处理文本。再使用以12个隐藏层的BERT模型作为本申请的预训练模型生成的文本识别模型处理相同的待处理文本，对多个待处理文本数据集进行了处理，处理结果的准确率通过表2表示：

表2

根据表2可以得知，将每种方法处理数据集1-7得到的准确率求平均值，可知使用ELMO模型的处理方法，处理结果的准确率平均值是75；使用openAI GPT模型的处理方法，处理结果的准确率平均值是76；使用BERT-12模型的处理方法，处理结果的准确率平均值是77；使用BERT-6模型的处理方法，处理结果的准确率平均值是78；使用本申请处理方法，处理结果的准确率平均值是79，可知本申请的处理方法在这些处理方法中的准确率最高，同时，本申请处理模型的参数量最少，因此应用本申请处理方法处理文本识别任务可以比其他处理方法更快更准确。

在本申请的一个实施例中，分别使用ELMO模型、openAI GPT模型、具有12个隐藏层的BERT-12模型、对12个隐藏层的BERT模进行知识蒸馏得到的具有6个隐藏层的BERT-6模型处理待处理文本。再使用以12个隐藏层的BERT模型作为本申请的预训练模型生成的文本识别模型处理相同的待处理文本，对多个待处理文本数据集进行了处理，将处理结果的F1值通过表3表示：

表3

根据表3可以得知，将每种方法处理数据集1、4、5、7得到的F1值求平均值，可知使用ELMO模型的方法得到的结果的F1值平均值是77.4；使用openAI GPT模型的方法得到的结果的F1值平均值是81.4；使用BERT-12模型的方法得到结果的F1值平均值是85.8；使用BERT-6模型的方法得到的结果的F1值平均值是83.05；应用本申请处理方法得到的结果的F1值是85.3，可知用于BERT-12模型的方法得到的结果的F1值在这四个模型中最高，应用本申请处理方法得到的结果的F1值第二。进一步的，再比较BERT-12模型与本申请文本识别模型的参数量，本申请文本识别模型的参数量比BERT-12模型的参数量少，因此，应用本申请处理方法处理文本识别任务可以比应用BERT-12模型处理文本任务更快，同时应用本申请处理方法得到的结果的F1值也较高，F1值是精确率和召回率的调和平均数，也表示了处理文本识别任务的准确性，因此，本申请的处理方法能够在保证文本识别任务准确处理的同时，比其他方法更快的处理文本识别任务。

在本申请的一个实施例中，该文本处理方法可以应用在自然语言文本推理、命名实体识别、阅读理解等多种文本识别任务中。以该文本处理方法应用在腾讯小微的对话系统中为例，腾讯小微的对话系统应用本申请的文本处理方法处理待处理文本，能够比应用其他文本处理方法处理待处理文本的更快更准确的识别用户的意图，给用户带来更好的体验。

在本申请的一个实施例中，腾讯小微音箱接收到用户的语音指令“请明天早上七点半叫醒我”，根据该语音指令中的“七点半”“叫醒”等关键词识别到该语音指令对应的指定文本识别任务为识别时间，将该语音指令发送至识别时间对应的文本识别模型中，识别时间对应的文本识别模型是基于与时钟有关的训练数据和与时钟有关的任务对ELMO模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的，使用该文本识别模型对该语音指令进行语义分析，将分析结果发送至控制器，使控制器控制时钟模块设定闹钟。使用本申请的文本处理方法的腾讯小微音箱在0.5秒后将闹钟设定成功，使用ELMO模型处理方法的腾讯小微音箱在4秒后将闹钟设定成功，本申请的文本处理方法极大地节约了用户的时间。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的文本处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的文本处理方法的实施例。

图8示意性示出了根据本申请的一个实施例的文本处理装置的框图。

参照图8所示，根据本申请的一个实施例的文本处理装置800，包括获取模块801、处理模块802和模型生成模块803。

在本申请的一些实施例中，基于前述方案，获取模块801用于获取待处理文本；处理模块802用于将待处理文本输入至文本识别模型进行处理，得到文本识别模型对待处理文本的识别结果，文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。

在本申请的一些实施例中，基于前述方案，模型生成模块803用于基于有标记训练数据及引导任务对预训练模型进行知识蒸馏处理得到引导模型；根据预训练模型的输出与引导模型的输出之间的对应关系生成与引导任务对应的距离函数；根据无标记训练数据及距离函数对引导模型进行知识蒸馏处理得到预识别模型，以根据预识别模型生成文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803配置为：根据引导模型的输出和预识别模型的输出之间的对应关系生成通用函数；根据通用函数生成文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：根据通用函数得到预识别模型的通用参数；初始化通用参数；根据初始化的通用参数得到文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：根据初始化的通用参数建立通用模型；基于与指定文本识别任务对应的训练数据对通用模型进行知识蒸馏处理，得到文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：基于与指定文本识别任务对应的训练数据训练预训练模型；基于与指定文本识别任务对应的训练数据对训练结果进行知识蒸馏处理得到特定模型；根据预训练模型的输出和特定模型的输出之间的对应关系生成特定函数；根据通用函数和特定函数生成文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：根据通用函数得到预识别模型的通用参数，初始化通用参数；根据特定函数得到特定模型的特定参数，初始化特定参数；根据初始化的通用参数和初始化的特定参数得到文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：根据初始化的通用参数得到文本识别模型的共享参数；根据初始化的特定参数得到文本识别模型的任务参数；根据共享参数和任务参数建立文本识别模型。

在本申请的一些实施例中，基于前述方案，模型生成模块803还配置为：将通用函数和特定函数进行线性处理得到文本识别模型。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图9来描述根据本申请的这种实施方式的电子设备90。图9显示的电子设备90仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备90以通用计算设备的形式表现。电子设备90的组件可以包括但不限于：上述至少一个处理单元91、上述至少一个存储单元92、连接不同系统组件(包括存储单元92和处理单元91)的总线93、显示单元94。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元91执行，使得所述处理单元91执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元92可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元92还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线93可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备90也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备90交互的设备通信，和/或与使得该电子设备90能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器96通过总线93与电子设备90的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请一个实施例，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

根据本申请一个实施例，用于实现上述方法的程序产品，可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理文本；

将所述待处理文本输入至文本识别模型进行处理，得到所述文本识别模型对所述待处理文本的识别结果，所述文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。

2.根据权利要求1所述的文本处理方法，其特征在于，在将所述待处理文本输入至文本识别模型进行处理之前，所述文本处理方法还包括：

基于所述有标记训练数据及所述引导任务对所述预训练模型进行知识蒸馏处理得到引导模型；

根据所述预训练模型的输出与引导模型的输出之间的对应关系生成与所述引导任务对应的距离函数；

根据所述无标记训练数据及所述距离函数对所述引导模型进行知识蒸馏处理得到预识别模型，以根据所述预识别模型生成所述文本识别模型。

3.根据权利要求2所述的文本处理方法，其特征在于，根据所述预识别模型生成所述文本识别模型，包括：

根据所述引导模型的输出和所述预识别模型的输出之间的对应关系生成通用函数；

根据所述通用函数生成所述文本识别模型。

4.根据权利要求3所述的文本处理方法，其特征在于，所述根据所述通用函数生成所述文本识别模型，包括：

根据所述通用函数得到所述预识别模型的通用参数；

初始化所述通用参数；

根据初始化的所述通用参数得到所述文本识别模型。

5.根据权利要求4所述的文本处理方法，其特征在于，所述根据初始化的所述通用参数生成所述文本识别模型，包括：

根据初始化的所述通用参数建立通用模型；

基于与指定文本识别任务对应的训练数据对所述通用模型进行知识蒸馏处理，得到所述文本识别模型。

6.根据权利要求3所述的文本处理方法，其特征在于，还包括：

基于与指定文本识别任务对应的训练数据训练所述预训练模型；

基于与指定文本识别任务对应的训练数据对所述训练结果进行知识蒸馏处理得到特定模型；

根据所述预训练模型的输出和所述特定模型的输出之间的对应关系生成特定函数；

根据所述通用函数生成所述文本识别模型，包括：

根据所述通用函数和所述特定函数生成所述文本识别模型。

7.根据权利要求6所述的文本处理方法，其特征在于，

基于所述通用函数和所述特定函数生成所述文本识别模型，包括：

根据所述通用函数得到所述预识别模型的通用参数，初始化所述通用参数；

根据所述特定函数得到所述特定模型的特定参数，初始化所述特定参数；

根据初始化的所述通用参数和初始化的所述特定参数得到所述文本识别模型。

8.根据权利要求7所述的文本处理方法，其特征在于，所述根据初始化的所述通用参数和初始化的所述特定参数得到所述文本识别模型，包括：

根据初始化的所述通用参数得到所述文本识别模型的共享参数；

根据初始化的所述特定参数得到所述文本识别模型的任务参数；

根据所述共享参数和所述任务参数建立所述文本识别模型。

9.根据权利要求6所述的文本处理方法，其特征在于，所述基于所述通用函数和所述特定函数得到所述文本识别模型，包括：

将所述通用函数和所述特定函数进行线性处理得到所述文本识别模型。

10.一种文本处理装置，其特征在于，包括：

获取模块，用于获取待处理文本；

处理模块，用于将所述待处理文本输入至文本识别模型进行处理，得到所述文本识别模型对所述待处理文本的识别结果，所述文本识别模型是基于有标记训练数据及与文本识别对应的引导任务对用于进行文本处理的预训练模型进行知识蒸馏处理，并根据知识蒸馏处理结果与无标记训练数据再次进行知识蒸馏处理得到的。