CN114330239A

CN114330239A - 文本处理方法及装置、存储介质及电子设备

Info

Publication number: CN114330239A
Application number: CN202111661119.XA
Authority: CN
Inventors: 李洪宇
Original assignee: Beijing Opper Communication Co ltd
Current assignee: Beijing Opper Communication Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本公开涉及自然语言处理处理技术领域，具体涉及一种文本处理方法及装置、计算机可读存储介质及电子设备，方法包括：获取参考未标注文本，并将参考未标注文本输入至预训练的参考文本处理模型得到各参考未标注文本的特征向量；获取至少一个编码层输出的概率值，并根据概率值和特征向量在参考未标注文本确定多个目标未标注文本；确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，直至参考文本处理模型满足预设条件；利用满足预设条件的参考文本处理模型对待处理文本进行处理得到处理结果。本公开实施例的技术方案降低对文本处理时的计算量，降低对深度学习模型的训练过程的复杂度。

Description

文本处理方法及装置、存储介质及电子设备

技术领域

本公开涉及自然语言处理处理技术领域，具体而言，涉及一种文本处理方法及装置、计算机可读存储介质及电子设备。

背景技术

随着信息技术的发展，互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中，文本处理技术是信息检索和文本挖掘的重要基础。

目前的文本处理方法主要是基于深度学习来实现的，但是深度学习场景的主动学习查询策略函数往往都只考虑了不确定性、多样性、代表性中的一种指标进行设计，对深度学习模型的训练过程复杂且计算量大。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种文本处理方法、文本处理装置、计算机可读介质和电子设备，进而至少在一定程度上降低对文本处理时的计算量，降低对深度学习模型的训练过程的复杂度。

根据本公开的第一方面，提供一种文本处理方法，包括：获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层；获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本；确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件；利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

根据本公开的第二方面，提供一种文本处理装置，包括：获取模块，用于获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层；确定模块，用于获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本；更新模块，用于确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件；处理模块，用于利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：一个或多个处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的文本处理方法，获取参考未标注文本，并将参考未标注文本输入至预训练的参考文本处理模型得到各参考未标注文本的特征向量，其中，参考文本处理模型包括多个编码层；获取至少一个编码层输出的概率值，并根据概率值和特征向量在参考未标注文本确定多个目标未标注文本；确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，直至参考文本处理模型满足预设条件；利用满足预设条件的参考文本处理对待处理文本进行处理得到处理结果。相较于现有技术，利用至少一个编码层输出的概率值来确定出目标未标注文本，降低了人为标注的数量，降低了计算量，进一步的，确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，充分利用了参考文本处理模型中的各个编码层中的信息，同时利用目标未标注文本对参考文本处理模型进行更新，降低了对模型训练的复杂度，降低了计算量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示意性示出相关技术中关于文本处理的主动学习模型的数据流向图；

图3示意性示出本公开示例性实施例中一种文本处理方法的流程图；

图4示意性示出本公开示例性实施例中一种文本处理方法的数据流向图；

图5示意性示出本公开示例性实施例中获取目标未标注文本的流程图；

图6示意性示出本公开示例性实施例中获取目标未标注文本的数据流向图；

图7示意性示出本公开示例性实施例中文本处理装置的组成示意图；

图8示出了可以应用本公开实施例的一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了系统架构的示意图，该系统架构100可以包括终端110与服务器120。其中，终端110可以是智能手机、平板电脑、台式电脑、笔记本电脑等终端设备，服务器120泛指提供本示例性实施方式中文本处理相关服务的后台系统，可以是一台服务器或多台服务器形成的集群。终端110与服务器120之间可以通过有线或无线的通信链路形成连接，以进行数据交互。

在一种实施方式中，可以由终端110执行上述文本处理方法。例如，用户使用终端110获取预训练的参考文本处理模型以及待处理文本，然后利用本公开的方法更新上述参考文本处理模型并完成对待处理文本的处理得到输出结果。

在一种实施方式中，可以由服务器120可以执行上述文本处理方法。例如，用户使用终端110获取预训练的参考文本处理模型以及待处理文本，终端110将该参考文本处理模型以及待处理文本上传至服务器120，由服务器120对参考文本处理模型进行更新并待处理文本进行文本处理，向终端110返回处理结果。

由上可知，本示例性实施方式中的文本处理方法的执行主体可以是上述终端110或服务器120，本公开对此不做限定。

本公开的示例性实施方式还提供一种用于执行上述文本处理方法的电子设备，该电子设备可以是上述终端110或服务器120。一般的，该电子设备可以包括处理器与存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行上述文本处理方法。

在相关技术中，目前的主动学习查询策略基本围绕不确定性、多样性或者代表性进行设计，AI进行深度学习之后，主动学习也逐步和深度学习开始相结合，但目前基于深度学习的主动学习查询策略往往以神经网络最后一层的输出进行计算，或者采用蒙特卡洛的思路进行查询函数的设计。在主动学习文本相关的场景，现有方案中也只是把预训练语言模型单纯当中一个网络模型进行计算，采用最后一层的编码器输出表示进行不确定性等指标的计算，或者简单通过蒙特卡洛的思路，通过全链接层的蒙特卡洛随机控制生成多个网络结构进行指标的计算。

在相关技术中的人工智能标注场景，参照图2所示，往往需要对采集到的数据进行全部的人工标注，然后选择合适的模型进行训练。在人工智能深度学习场景，往往需要大量的标注数据才能开始进行模型训练，因此首先需要大量的人力对数据进行标注，采用主动学习可以节省标注成本，举例而言，在一个标注场景，首先我们有少量已标注文本210和未标注文本240，基于已标注文本210，训练一个机器学习模型220，然后采用该模型对未标注文本进行标签预测，通过设计的查询230策略对预测的标签结果进行排序，选择出未标注文本中预测最不准确、对模型判断最困难的数据进行人工标注250，人工标注的新数据重新加入到已标注文本中，然后开始新的一轮模型训练，如此循环。由于每轮都是从未标注文本中选择的模型预测最不准确、预测最困难的数据进行人工标注，因此多轮循环之后，模型就会很好的学习到整个数据集的特点，对未标注文本中剩余的大量数据也不用在进行人工标注，模型就可以很好的完成自动标注的工作，因此可以大大节省标注成本，提高标注效率。但是现有技术中的主动学习中资源利用较少，选取的未标注文本数量较多，导致对模型的训练过程任然很复杂，且计算量较大

以及以上缺点，本公开提供一种新的文本处理方法，下面结合图3对本示例性实施方式中的文本处理方法进行说明，图3示出了该图像质量评价方法的示例性流程，可以包括：

步骤S310，获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层；

步骤S320，获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本；

步骤S330，确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件；

步骤S340，利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

基于上述方法，相较于现有技术，利用至少一个编码层输出的概率值来确定出目标未标注文本，降低了人为标注的数量，降低了计算量，进一步的，确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，充分利用了参考文本处理模型中的各个编码层中的信息，同时利用目标未标注文本对参考文本处理模型进行更新，降低了对模型训练的复杂度，降低了计算量。

下面对图3中的每个步骤进行具体说明。

参考图3，在步骤S310中，获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层。

在本公开的一种示例实施方式中，可以在数据库中获取参考文标注文本，和预训练的参考文本处理模型。其中在获取预训练的参考文本处理模型时，可以首先获取至少一个初始模型，其中该初始模型可以是BERT、GPT、XLNet、ERNIE等，还可以根据用户需求进行自定义，在本示例实施方式中不做具体限定。

在本是示例实施方式中，可以在数据库413中获取已标注文本和已标注文本对应的对应的真实标签，然后可以用上述已标注文本以及已标注文本对应的真实标签对初始模型进行得到预训练的参考文本模型。

在本示例实施方式中，参照图4所示，预训练文本处理模型整体结构一般包含多个编码层，对于输入文本首先进行embedding410操作，然后通过多个编码层级联的420方式得到最后的特征向量470。以预训练文本处理模型为bert-base为例进行说明，该模型包含12个编码层，底层到高层的编码层往往可以分别提取出短语级别、句法级别和语义级别的信息。

在本示例实施方式中，可以将上述参考未标注文本4131输入至上述参考文本处理模型得到各未标注文本的特征向量470。

在步骤S320中，获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本。

在本公开的一种示例实施方式中，可以以预设间隔获取至少一个上述编码层的概率值，其中，上述参考文本处理模型中的编码层可以是12层、24层等，也可以根据用户需求进行自定义，在本示例实施方式中不做具体限定。其中，上述预设间隔是可以是两个、也可以是四个，还可以根据用户需求进行自定义，在本示例实施方式中不做具体限定。

在本示例实施方式中，参照图4所示，以上述参考文本处理模型为bert-base为例进行说明，其中，编码层420的数量可以是12层，预设间隔可以2层，其中，可以获取第三层、第六层、第九层、第十二层的编码层的输出的概率值440。

在本示例实施方式中，在获取编码层输出的概率值时，可以在上述编码层上连接以全连接层和归一化损失函数430以得到上述各编码层430的概率值。

在本示例实施方式中，在获取到上述概率值之后，可以根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本411。具体而言，参照图5所示，可以包括步骤S510和步骤S520。

在步骤S510中，根据各所述参考未标注文本的各所述概率值计算各所述参考未标注文本的互信息450和投票熵460。

在本示例实施方式中，参照图4和图6所示，可以首先计算上述各个参考文标注文本4131的互信息：

其中

表示第n个编码层输出为第i个分类结果的概率值，N表示编码层的个数。举例而言，获取第三层、第六层、第九层、第十二层的编码层的输出的概率值，此时，N为4，n的取值可以是1、2、3、4，若上述分类结果包括10个，则i的取值可以为大于等于1小于等于10的正整数，其中分类结果可以包括新闻、广告等，i为上述分类结果的编号顺序，其中，编号顺序可以根据用户需求进行自定义，，x_MI表示上述互信息。

然后可以计算上述各个参考未标注文本的投票熵460，具体可以通过以下公式计算得到：

其中V(ci)表示投票给c_i的编码层的个数，N表示编码层的个数，x_VE表示上述投票熵，其中c_i可以表示分类结果，例如，新闻、广告等，在本示例实施方式中不做具体限定。

在步骤S520中，根据各所述参考未标注文本的所述互信息和所述投票熵以及所述各所述参考未标注文本特征向量确定多个目标未标注文本。

在本示例实施方式中，可以首先根据上述参考未标注文本的互信息和投票熵确定出预设数量的中间未标注文本610；根据特征向量对中间未标注文本610进行聚类，以确定多个目标未标注文本411。

具体而言，可以首先根据上述互信息和投票熵确定各参考未标注文本的优先级顺序，根据优先级顺序在参考未标注文本确定出预设数量的中间未标注文本610。

在本示例实施方式中，可以将上述互信息x_MI和投票熵执行融合490操作x_VE并得到优先级评分x_ID，x_ID计算方式如下所示。

x_ID＝x_MI+x_VE

对于每一个上述参考未标注文本4131，根据x_ID计算总的得分并进行排序，确定出优先级顺序，然后可以根据与上述优先级顺序选取预设数量的中间未标注文本610得，即选出M个中间未标注文本610，其中M标识上述预设数量。

需要说明的是，上述预设数量的值小于上述参考文标注文本的数量，举例而言，若上述参考文标注文本的数量为10000，则上述预设数量可以是100、200等。具体的预设数量可以根据用户需求进行自定义，在本示例实施方式中不做具体限定。

在本示例实施方式中，在确定上述预设数量的中间未标注文本610之后，可以获取上述各个中间未标注样本经过上述参考文本处理模型之后得到的特征向量，然后，根据上述特征向量对上述中间未标注样本进行聚类，其中，可以采用k-means聚类480算法对上述中间未标注文本610进行聚类，得到K个集群，选择每个集群的中心样本点作为上述目标未标注文本。

在步骤S330中，确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件。

在本公开的一种示例实施方式中，参照图4，在得到上述目标未标注文本411之后，可以确定上述各个未标注文本对应的真实标签，真实标签的获取可以是人为标注412的，也可以通过其他方式获取，例如，采用一个训练完整的文本处理模型来获取，在本示例实施方式中不做具体限定，即标注后得到目标未标注文本对应的已标注文本4132。

在本示例实施方式中，在得到上述目标未标注文本和上述目标未标注文本对应的真实标签之后，利用目标未标注文本和上述目标未标注文本对应的真实标签对上述参考文本处理模型进行更新。

然后可以再次执行步骤S310至步骤330，直至上述参考文本处理模型满足预设条件，其中上述预设条件可以是上述参考文本处理模型的准确率，召回率以及F1分数满足预设条件，举例而言，准确率大于等于90％且召回率大于等于90％，同时F1分数大于等于0.8；或者准确率大于等于90％且召回率大于等于90％，同时F1分数大于等于0.9；上述预设条件还可以根据用户需求进行自定义，在本示例实施方式中不做具体限定。

在步骤S340中，利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

在本公开的一种示例实施方式中，在得到上述满足预设条件的参考文本处理模型之后，可以获取上述待处理文本，然后将上述待处理文本输入至上述满足预设条件的所述参考文本处理模型得到上述待处理文本对应的特征向量，然后可以利用全连接层和归一化指数函数得到上述带出来文本的处理结果。

其中，文本待处理模型可以是文本分类模型，也可以是其他模型，例如文本断句模型，在本示例实施方式中不做具体限定。

综上所述，本示例性实施方式中，相较于现有技术，利用至少一个编码层输出的概率值来确定出目标未标注文本，降低了人为标注的数量，降低了计算量，进一步的，确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，充分利用了参考文本处理模型中的各个编码层中的信息，同时利用目标未标注文本对参考文本处理模型进行更新，降低了对模型训练的复杂度，降低了计算量。进一步有的利用每一个编码层中输出的概率值计算了互信息和所述投票熵，来增加选取目标为标注文本的精度，同时利用k-means聚类算法来减少了目标未标注文本的数量，以及提升了目标未标注文本的代表性，提升了对模型训练的速度，降低了训练模型的计算量。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图7所示，本示例的实施方式中还提供一种文本处理装置700，包括获取模块710、确定模块720、更新模块730和处理模块740。其中：

获取模块710可以用于获取参考未标注文本，并将参考未标注文本输入至预训练的参考文本处理模型得到各参考未标注文本的特征向量，其中，参考文本处理模型包括多个编码层。

在获取上述参考文本处理模型时，获取模块710可以首先获取初始模型；获取已标注文本以及已标注文本对应的真实标签；根据已标注文本以及已标注文本对应的真实标签对初始模型进行得到预训练的参考文本模型

确定模块720可以用于获取至少一个编码层输出的概率值，并根据概率值和特征向量在参考未标注文本确定多个目标未标注文本；

具体而言，可以首先根据各参考未标注文本的各概率值计算各参考未标注文本的互信息和投票熵，然后根据各参考未标注文本的互信息和投票熵以及各参考未标注文本特征向量确定多个目标未标注文本。

在根据各参考未标注文本的互信息和投票熵以及各参考未标注文本特征向量确定多个目标未标注文时，上述确定模块720可以首先根据各参考未标注文本的互信息和投票熵确定出预设数量的中间未标注文本，然后根据特征向量对中间未标注文本进行聚类，以确定多个目标未标注文本。

在本示例实施方式中，在根据各参考未标注文本的互信息和投票熵确定出预设数量的中间未标注文本时，上述确定模块720根据互信息和投票熵确定各参考未标注文本的优先级顺序；根据优先级顺序在参考未标注文本确定出预设数量的中间未标注文本。

在获取至少一个编码层输出的概率值，确定模块720可以以预设间隔获取至少一个编码层输出的概率值，在本公开的一种示例实施方式中，可以利用全连接层和归一化损失函数将编码层的输出转换为概率值。

更新模块730可以用于确定目标未标注文本对应的真实标签，并利用目标未标注文本和真实标签更新参考文本处理模型，直至参考文本处理模型满足预设条件。

处理模块740可以用于利用满足预设条件的参考文本处理模型对待处理文本进行处理得到处理结果。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

下面以图8中的移动终端800为例，对该电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图8中的构造也能够应用于固定类型的设备。

如图8所示，移动终端800具体可以包括：处理器801、存储器802、总线803、移动通信模块804、天线1、无线通信模块805、天线2、显示屏806、摄像模块807、音频模块808、电源模块809与传感器模块810。

处理器801可以包括一个或多个处理单元，例如：处理器801可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。本示例性实施方式中的文本处理方法可以由AP、GPU或DSP来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行。

编码器可以对图像或视频进行编码(即压缩)，例如可以将目标图像编码为特定的格式，以减小数据大小，便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩)，以还原出图像或视频数据，如可以读取目标图像的编码数据，通过解码器进行解码，以还原出目标图像的数据，进而对该数据进行文本处理的相关处理。移动终端800可以支持一种或多种编码器和解码器。这样，移动终端800可以处理多种编码格式的图像或视频，例如：JPEG(Joint Photographic Experts Group，联合图像专家组)、PNG(PortableNetwork Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(MovingPicture Experts Group，动态图像专家组)1、MPEG2、H.263、H.264、HEVC(High EfficiencyVideo Coding，高效率视频编码)等视频格式。

处理器801可以通过总线803与存储器802或其他部件形成连接。

存储器802可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器801通过运行存储在存储器802的指令，执行移动终端800的各种功能应用以及数据处理。存储器802还可以存储应用数据，例如存储图像，视频等文件。

移动终端800的通信功能可以通过移动通信模块804、天线1、无线通信模块805、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块204可以提供应用在移动终端800上2G、3G、4G、5G等移动通信解决方案。无线通信模块805可以提供应用在移动终端200上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏806用于实现显示功能，如显示用户界面、图像、视频等。摄像模块807用于实现拍摄功能，如拍摄图像、视频等。音频模块808用于实现音频功能，如播放音频，采集语音等。电源模块809用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。传感器模块810可以包括深度传感器8101、压力传感器8102、陀螺仪传感器8103、气压传感器8104等，以实现相应的感应检测功能。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种文本处理方法，其特征在于，包括：

获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层；

获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本；

确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件；

利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本包括：

根据各所述参考未标注文本的各所述概率值计算各所述参考未标注文本的互信息和投票熵；

根据各所述参考未标注文本的所述互信息和所述投票熵以及所述各所述参考未标注文本的特征向量确定多个目标未标注文本。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述参考未标注文本的所述互信息和所述投票熵以及所述各所述参考未标注文本的特征向量确定多个目标未标注文本包括：

根据各所述参考未标注文本的所述互信息和所述投票熵确定出预设数量的中间未标注文本；

根据所述特征向量对所述中间未标注文本进行聚类，以确定多个所述目标未标注文本。

4.根据权利要求3所述的方法，其特征在于，所述根据各所述参考未标注文本的所述互信息和所述投票熵确定出预设数量的中间未标注文本包括：

根据所述互信息和所述投票熵确定各所述参考未标注文本的优先级顺序；

根据所述优先级顺序在所述参考未标注文本确定出预设数量的中间未标注文本。

5.根据权利要求1所述的方法，其特征在于，所述获取至少一个所述编码层输出的概率值，包括：

以预设间隔获取至少一个所述编码层输出的概率值。

6.根据权利要求1所述的方法，其特征在于，所述获取至少一个所述编码层输出的概率值，包括：

利用全连接层和归一化损失函数将所述编码层的输出转换为所述概率值。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取初始模型；

获取已标注文本以及所述已标注文本对应的真实标签；

根据所述已标注文本以及所述已标注文本对应的真实标签对所述初始模型进行得到预训练的所述参考文本模型。

8.一种文本处理装置，其特征在于，包括：

获取模块，用于获取参考未标注文本，并将所述参考未标注文本输入至预训练的参考文本处理模型得到各所述参考未标注文本的特征向量，其中，所述参考文本处理模型包括多个编码层；

确定模块，用于获取至少一个所述编码层输出的概率值，并根据所述概率值和所述特征向量在所述参考未标注文本确定多个目标未标注文本；

更新模块，用于确定所述目标未标注文本对应的真实标签，并利用所述目标未标注文本和所述真实标签更新所述参考文本处理模型，直至所述参考文本处理模型满足预设条件；

处理模块，用于利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得到处理结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的文本处理方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的文本处理方法。