CN115827876B

CN115827876B - 未标注文本的确定方法、装置和电子设备

Info

Publication number: CN115827876B
Application number: CN202310032603.9A
Authority: CN
Inventors: 曾杰林; 李林静; 梁嘉琦; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-02
Anticipated expiration: 2043-01-10
Also published as: CN115827876A

Abstract

本申请提供一种未标注文本的确定方法、装置和电子设备，涉及数据处理技术领域。该方法包括：获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量，从多个未标注文本中确定多个候选未标注文本；根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型，可以准确地选择未标注文本，从而提高了训练得到的文本类别分析模型的泛化能力。

Description

未标注文本的确定方法、装置和电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种未标注文本的确定方法、装置和电子设备。

背景技术

近些年来，随着深度学习技术的不断发展，深度学习模型因为其较强的学习能力，已经被广泛应用于多种场景，例如图像处理场景、文本处理场景等。

以文本处理场景为例，在训练文本类别分析模型时，通常是获取已标注文本，并将已标注文本作为样本，用于训练文本类别分析模型。但是，执行文本标注操作，需要耗费较大的人工成本，因此，可以考虑选择一部分未标注文本，共同用于训练文本类别分析模型，以提高训练得到的文本类别分析模型的泛化能力。

因此，在已有的已标注文本的基础上，如何准确地选择未标注文本，以提高训练得到的文本类别分析模型的泛化能力，是本领域技术人员亟待解决的问题。

发明内容

本申请提供一种未标注文本的确定方法、装置和电子设备，在已有的已标注文本的基础上，可以准确地选择未标注文本，从而提高了训练得到的文本类别分析模型的泛化能力。

本申请提供一种未标注文本的确定方法，该未标注文本的确定方法可以包括：

获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签。

分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中，得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量。

根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本。

根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，所述目标未标注文本用于训练所述文本类别分析模型。

根据本申请提供的一种未标注文本的确定方法，所述方法还包括：

针对各候选未标注文本，根据所述候选未标注文本分别与各已标注文本之间的特征空间距离，从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本。

根据所述第一数量个目标已标注文本各自的类别标签，确定所述候选未标注文本对应的类别标签分布熵值。

根据本申请提供的一种未标注文本的确定方法，所述根据所述第一数量个目标已标注文本各自的类别标签，确定所述候选未标注文本对应的类别标签分布熵值，包括：

根据

，确定所述候选未标注文本对应的类别标签分布熵值。

其中，

表示所述多个候选未标注文本中第

个候选未标注文本，

第

个候选未标注文本对应的类别标签分布熵值，

表示所述第一数量，

表示第一个目标已标注文本的类别标签，

表示第二个目标已标注文本的类别标签，

表示第

个目标已标注文本的类别标签。

根据本申请提供的一种未标注文本的确定方法，所述根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，包括：

根据类别标签分布熵值由小到大的顺序，将所述多个候选未标注文本中，前第二数量个候选未标注文本确定为所述目标未标注文本。

根据本申请提供的一种未标注文本的确定方法，所述根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本，包括：

根据所述多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量。

针对各未标注文本，对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量。

根据所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量，从所述多个未标注文本中确定所述多个候选未标注文本。

根据本申请提供的一种未标注文本的确定方法，所述根据所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量，从所述多个未标注文本中确定所述多个候选未标注文本，包括：

分别将所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量输入至所述文本类别分析模型的类别分析网络中，得到所述多个未标注文本各自对应的预测标签和所述各类别文本的插值特征向量对应的预测标签。

针对各未标注文本，在所述未标注文本对应的预测标签和所述各类别文本的插值特征向量对应的预测标签存在不同的情况下，将所述未标注文本确定为所述候选未标注文本。

根据本申请提供的一种未标注文本的确定方法，所述对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量，包括：

根据

，确定所述各类别文本对应的插值特征向量。

其中，

表示

类别，

表示

类别文本对应的插值特征向量，

表示超参数，

表示所述多个未标注文本中的第

未标注文本对应的特征向量，

表示所述

类别文本对应的均值向量。

本申请还提供一种未标注文本的确定装置，该未标注文本的确定装置可以包括：

获取单元，用于获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签。

第一处理单元，用于分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中，得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量。

第二处理单元，用于根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本。

第三处理单元，用于根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，所述目标未标注文本用于训练所述文本类别分析模型。

根据本申请提供的一种未标注文本的确定装置，所述第二处理单元，还用于：

针对各候选未标注文本，根据所述候选未标注文本分别与各已标注文本之间的特征空间距离，从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本；根据所述第一数量个目标已标注文本各自的类别标签，确定所述候选未标注文本对应的类别标签分布熵值。

根据本申请提供的一种未标注文本的确定装置，所述第二处理单元，具体用于根据

，确定所述候选未标注文本对应的类别标签分布熵值；其中，

表示所述多个候选未标注文本中第

个候选未标注文本，

第

个候选未标注文本对应的类别标签分布熵值，

表示所述第一数量，

表示第一个目标已标注文本的类别标签，

表示第二个目标已标注文本的类别标签，

表示第

个目标已标注文本的类别标签。

根据本申请提供的一种未标注文本的确定装置，所述第三处理单元，具体用于：

根据本申请提供的一种未标注文本的确定装置，所述第二处理单元，具体用于：

根据所述多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量；针对各未标注文本，对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量；根据所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量，从所述多个未标注文本中确定所述多个候选未标注文本。

分别将所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量输入至所述文本类别分析模型的类别分析网络中，得到所述多个未标注文本各自对应的预测标签和所述各类别文本的插值特征向量对应的预测标签；针对各未标注文本，在所述未标注文本对应的预测标签和所述各类别文本的插值特征向量对应的预测标签存在不同的情况下，将所述未标注文本确定为所述候选未标注文本。

根据

，确定所述各类别文本对应的插值特征向量；其中，

表示

类别，

表示

类别文本对应的插值特征向量，

表示超参数，

表示所述多个未标注文本中的第

未标注文本对应的特征向量，

表示所述

类别文本对应的均值向量。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的未标注文本的确定方法。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的未标注文本的确定方法。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的未标注文本的确定方法。

本申请提供的未标注文本的确定方法、装置和电子设备，获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量，从多个未标注文本中确定多个候选未标注文本；再根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型，这样不仅可以准确地筛选出一些包括新特征的目标未标注文本，而且筛选出的目标未标注文本对于训练文本类别分析模型具有较大的贡献，从而有效地提高了训练得到的文本类别分析模型的泛化能力。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种未标注文本的确定方法的流程示意图；

图2为本申请实施例提供的一种基于不同未标注文本的确定方法与对应训练得到的文本情感预测模型预测的准确度之间的关系示意图；

图3为本申请实施例提供的一种未标注文本的确定装置的结构示意图；

图4为本申请实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

为本申请实施例提供的技术方案可以应用于文本处理场景。以文本处理场景为例，在训练文本类别分析模型时，通常是获取已标注文本，并将已标注文本作为样本，用于训练文本类别分析模型。但是，执行文本标注操作，需要耗费较大的人工成本，因此，可以考虑选择一部分未标注文本，共同用于训练文本类别分析模型，以提高训练得到的文本类别分析模型的泛化能力。

以选择用于训练文本类别分析模型为例，现有技术中，在选择部分未标注文本时，通常是采用基于特征向量的主动学习算法确定未标注文本。但是，基于特征向量的主动学习算法确定未标注文本时，虽然也可以筛选出一些包括新特征的未标注文本，但是并未考虑这些包括新特征的未标注文本，对于训练文本类别分析模型的贡献程度，若对于训练文本类别分析模型的贡献较小，则对文本类别分析模型的性能提升作用较小，因此，为了可以准确地选择未标注文本，以提高训练得到的文本类别分析模型的泛化能力，考虑到未标注文本对应的类别标签分布熵值可以在一定程度上较好地表征未标注文本，对于训练文本类别分析模型的贡献程度，因此，可以考虑在基于特征向量进行初步筛选得到候选未标注文本的基础上，进一步结合筛选候选未标注文本各自的类别标签分布熵值进行再次筛选，这样不仅可以准确地筛选出一些包括新特征的目标未标注文本，而且筛选出的目标未标注文本对于训练文本类别分析模型具有较大的贡献，从而有效地提高了训练得到的文本类别分析模型的泛化能力。

其中，主动学习算法的语料库包括大量的未标注文本和少量的已标注文本，在每一个迭代轮次里，先从未标注文本中筛选出固定数量的未标注文本并进行标注，再加入已标注文本池，最后利用已标注文本对模型进行训练和更新，完成一个迭代轮次；如此迭代直至模型的预测准确率不再提升或达到预期设定目标。

基于上述技术构思，本申请实施例提供了一种未标注文本的确定方法，可以先获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量；并根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本；再根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

这样先根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，对多个未标注文本中进行初步筛选，并基于初步筛选得到的多个候选未标注文本各自对应的类别标签分布熵值，对多个候选未标注文本进行再次筛选，不仅可以准确地筛选出一些包括新特征的目标未标注文本，而且筛选出的目标未标注文本对于训练文本类别分析模型具有较大的贡献，从而有效地提高了训练得到的文本类别分析模型的泛化能力。

下面，将通过下述几个具体的实施例对本申请提供的未标注文本的确定方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的一种未标注文本的确定方法的流程示意图，该未标注文本的确定方法可以由软件和/或硬件装置执行。示例的，请参见图1所示，该未标注文本的确定方法可以包括：

S101、获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签。

示例地，获取多个未标注文本时，可以从本地查找获取多个未标注文本，也可以接收其他电子设备发送的多个未标注文本，也可以从第三方数据库，例如未标注文本库中获取多个未标注文本等，具体可以根据实际需要进行设置。

示例的，获取多个已标注文本以及多个已标注文本各自的类别标签时，类似的，可以从本地查找获取多个已标注文本以及多个已标注文本各自的类别标签，也可以接收其他电子设备发送的多个已标注文本以及多个已标注文本各自的类别标签，也可以从第三方数据库，例如标注文本库中获取多个已标注文本以及多个已标注文本各自的类别标签等，具体可以根据实际需要进行设置。

在获取到多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签之后，就可以执行下述S102：

S102、分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量。

示例地，文本类别分析模型可以为Bert语言模型，也可以为Roberta语言模型等，具体可以根据实际需要进行设置，在此，本申请实施例不做具体限制。

示例的，在本申请实施例中，文本类别分析模型可以包括特征提取网络和类别分析网络。在获取多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量时，可以将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，通过特征提取网络提取多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量。

在得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量后，可以执行下述S103：

S103、根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本。

示例地，在本申请实施例中，根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本时，可以先根据多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量；针对各未标注文本，对未标注文本对应的特征向量与各类别文本对应的均值向量分别进行插值处理，得到各类别文本对应的插值特征向量；再根据多个未标注文本各自对应的特征向量和各类别文本对应的插值特征向量，从多个未标注文本中确定多个候选未标注文本。

示例地，根据多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量，考虑各类别文本对应的均值向量的确定方法类似，为了避免赘述，将以确定任一类别，例如c类别对应的均值向量为例，对如何确定各类别文本对应的均值向量进行描述。

示例的，在确定c类别对应的均值向量时，可以结合公式（1）来确定c类别文本对应的均值向量。

（1）

其中，

表示c类别文本对应的均值向量，

表示多个已标注文本中，c类别的已标注文本的数量，

表示

个已标注文本中，第

个已标注文本，

表示第

个已标注文本对应的特征向量。

结合上述公式（1），假设多个已标注文本对应的m个类别，则可以分别得到m个类别中各类别文本对应的均值向量。在得到各类别文本对应的均值向量后，可以对未标注文本对应的特征向量与各类别文本对应的均值向量分别进行插值处理，得到各类别文本对应的插值特征向量。

示例的，对未标注文本对应的特征向量与各类别文本对应的均值向量分别进行插值处理时，考虑到对未标注文本对应的特征向量与各类别文本对应的均值向量分别进行插值处理的方法类似，因此，为了避免赘述，以对未标注文本对应的特征向量与c类别文本对应的均值向量分别进行插值处理为例，在对未标注文本对应的特征向量与c类别文本对应的均值向量分别进行插值处理时，可参见下述公式（2）：

（2）

其中，

表示

类别，

表示

类别文本对应的插值特征向量，

表示超参数，

表示多个未标注文本中的第

个未标注文本对应的特征向量，

表示

类别文本对应的均值向量。

示例地，根据多个未标注文本各自对应的特征向量和各类别文本对应的插值特征向量，从多个未标注文本中确定多个候选未标注文本时，可以将多个未标注文本各自对应的特征向量和各类别文本对应的插值特征向量输入至文本类别分析模型的类别分析网络中，得到多个未标注文本各自对应的预测标签和各类别文本进行插值计算得到的插值特征向量对应的预测标签；针对多个未标注文本中各未标注文本，可以判断该未标注文本对应的预测标签分别与各类别文本的插值特征向量对应的预测标签是否相同，在存在至少一个不同的情况下，即在未标注文本对应的预测标签和各类别文本的插值特征向量对应的预测标签存在不同类别的情况下，说明该未标注文本很可能包含文本类别分析模型无法识别的特征，文本类别分析模型无法对其作出类别预测，因此，才会因为轻微的插值而改变预测的类别标签。基于此种推理，可以确定该未标注文本包含了文本类别分析模型目前无法识别的特征，即新特征，因此，可以将包括该新特征的的未标注文本确定为候选未标注文本，这样可以采用特征插值的方式，对多个未标注文本中进行初步筛选，得到多个候选未标注文本，通过候选未标注文本可以极大地提高标注文本的多样性，从而提升文本类别分析模型的性能。

示例地，假设多个已标注文本对应的类别包括体育类别、新闻类别、娱乐类别，则根据体育类别对应的已标注文本对应的特征向量，确定体育类别文本对应的均值向量，根据新闻类别对应的已标注文本对应的特征向量，确定新闻类别文本对应的均值向量，以及根据娱乐类别对应的已标注文本对应的特征向量，确定娱乐类别文本对应的均值向量；针对各未标注文本，将该未标注文本对应的特征向量，与体育类别文本对应的均值向量进行插值处理，得到体育类别文本对应的插值特征向量；将该未标注文本对应的特征向量，与新闻类别文本对应的均值向量进行插值处理，得到新闻类别文本对应的插值特征向量；将该未标注文本对应的特征向量，与娱乐类别文本对应的均值向量进行插值处理，得到娱乐类别文本对应的插值特征向量。

将未标注文本对应的特征向量、体育类别文本对应的插值特征向量、新闻类别文本对应的插值特征向量、以及娱乐类别文本对应的插值特征向量输入至文本类别分析模型的类别分析网络中，得到未标注文本对应的预测标签、体育类别文本的插值特征向量对应的第一预测标签、新闻类别文本的插值特征向量对应的第二预测标签、以及娱乐类别文本的插值特征向量对应的第三预测标签；判断未标注文本对应的预测标签与第一预测标签、第二预测标签以及第三预测标签是否相同，在未标注文本对应的预测标签与第一预测标签、第二预测标签或者第三预测标签中任一预测标签不同的情况下，将该标注文本确定为候选文本；这样可以采用特征插值的方式，对多个未标注文本中进行初步筛选，得到多个候选未标注文本。

上述采用特征插值的方式，对多个未标注文本中进行初步筛选，得到多个候选未标注文本后，就可以执行下述S104：

S104、根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

示例的，针对多个候选未标注文本中的各候选未标注文本，在确定候选文本对应的类别标签分布熵值时，可以使用K近邻搜索技术，寻找特征空间距离最近的k个已标注文本，载基于该k个已标注文本的类别标签，计算其对应的类别标签分布熵值。具体为：可以先根据候选未标注文本分别与各已标注文本之间的特征空间距离，从多个已标注文本中确定与候选未标注文本距离最近的第一数量个目标已标注文本；并根据第一数量个目标已标注文本各自的类别标签，确定候选未标注文本对应的类别标签分布熵值。其中，第一数量的取值可以根据实际需要进行设置，在此，对于第一数量的具体取值，本申请实施例不做具体限制。

示例地，根据第一数量个目标已标注文本各自的类别标签，确定候选未标注文本对应的类别标签分布熵值时，以第一数量为

，第

个候选未标注文本

，确定第

个候选未标注文本

对应的类别标签分布熵值为例，可以结合公式（3）来确定第

个候选未标注文本

对应的类别标签分布熵值。

（3）

其中，

表示多个候选未标注文本中第

个候选未标注文本，

表示第

个候选未标注文本对应的类别标签分布熵值，

表示第一数量，

表示第一个目标已标注文本的类别标签，

表示第二个目标已标注文本的类别标签，

表示第

个目标已标注文本的类别标签。

假设特征空间中距离足够近的文本会包含类似的特征，且该特征对确定类别具有决定性的贡献，例如“梅西”这一特征可足够判断文本属于体育类别，那么包含该特征的文本类别标签比较接近，类别标签分布的类别标签分布熵值较小，因此，在计算得到各候选未标注文本对应的类别标签分布熵值之后，可以根据类别标签分布熵值由小到大的顺序，将多个候选未标注文本中，前第二数量个候选未标注文本确定为目标未标注文本。这样不仅可以准确地筛选出一些包括新特征的目标未标注文本，而且筛选出的目标未标注文本对于训练文本类别分析模型具有较大的贡献，从而有效地提高了训练得到的文本类别分析模型的泛化能力。

其中，第二数量的取值可以根据实际需要进行设置，在此，对于第二数量的具体取值，本申请实施例不做具体限制。

示例地，在确定出包括新特征且对于训练文本类别分析模型具有较大的贡献的多个目标未标注文本后，可以基于目标未标注文本对应的特征向量对目标未标注文本进行标注，得到已标注文本；再将已标注文本加入到已标注文本池中，利用已标注文本对文本类别分析模型进行训练，直至训练得到文本类别分析模型。

可以看出，本申请实施例，获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量，从多个未标注文本中确定多个候选未标注文本；再根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型，这样不仅可以准确地筛选出一些包括新特征的目标未标注文本，而且筛选出的目标未标注文本对于训练文本类别分析模型具有较大的贡献，从而有效地提高了训练得到的文本类别分析模型的泛化能力。

为了验证本申请实施例提供的技术方案的有效性及稳定性，以SST-2文本情感预测数据集为例，可以结合现有的几种未标注文本的确定方法以及本申请实施例提供的未标注文本的确定方法，从SST-2文本情感预测数据集中筛选目标未标注文本。示例的，现有的几种未标注文本的确定方法包括基于random的未标注文本的确定方法、基于entropy的未标注文本的确定方法以及基于badge的未标注文本的确定方法。

在结合现有的几种未标注文本的确定方法以及本申请实施例提供的未标注文本的确定方法进行对比验证时，可以使用最终训练得到的文本情感预测模型预测的准确度，验证所确定出的未标注文本的有效性。示例的，可参见图2所示，图2为本申请实施例提供的一种基于不同未标注文本的确定方法与对应训练得到的文本情感预测模型预测的准确度之间的关系示意图。其中，图2所示的横坐标表示已标注文本数据在SST-2文本情感预测数据集中的占比，纵坐标表示文本情感预测模型预测的准确度。

结合图2可以看出，在已标注文本的占比超过3%时，基于本申请实施例提供的未标注文本的确定方法进行目标未标注文本的筛选，并结合筛选的目标未标注文本训练得到的文本情感预测模型预测的准确度，均高于现有的几种未标注文本的确定方法进行目标未标注文本的筛选，并结合筛选的目标未标注文本训练得到的文本情感预测模型预测的准确度。因此，本申请实施例提供的未标注文本的确定方法相比较于现有的几种未标注文本的确定方法，最终训练得到的文本情感预测模型预测的准确度更高。

此外，从图2中还可以看出，已标注文本数据在SST-2文本情感预测数据集中的占比为1%时，最终训练得到的文本情感预测模型预测的准确度可达到72%左右，已标注文本数据在SST-2文本情感预测数据集中的占比10%时，最终训练得到的文本情感预测模型预测的准确度可达到89%左右。因此，在筛选目标未标注文本时，结合的已标注文本的数量越多，对应筛选出的目标未标注文本的准确度越高，最终训练得到的文本情感预测模型预测的准确度。

下面对本申请提供的未标注文本的确定装置进行描述，下文描述的未标注文本的确定装置与上文描述的用户画像标签的确定方法可相互对应参照。

图3为本申请实施例提供的一种未标注文本的确定装置的结构示意图，示例的，请参见图3所示，该未标注文本的确定装置30可以包括：

获取单元301，用于获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签。

第一处理单元302，用于分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量。

第二处理单元303，用于根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本。

第三处理单元304，用于根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

可选的，第二处理单元303，还用于：

针对各候选未标注文本，根据候选未标注文本分别与各已标注文本之间的特征空间距离，从多个已标注文本中确定与候选未标注文本距离最近的第一数量个目标已标注文本；根据第一数量个目标已标注文本各自的类别标签，确定候选未标注文本对应的类别标签分布熵值。

可选的，第二处理单元303，具体用于根据

，确定候选未标注文本对应的类别标签分布熵值；其中，

表示多个候选未标注文本中第

个候选未标注文本，

第

个候选未标注文本对应的类别标签分布熵值，

表示第一数量，

表示第一个目标已标注文本的类别标签，

表示第二个目标已标注文本的类别标签，

表示第

个目标已标注文本的类别标签。

可选的，第三处理单元304，具体用于：

根据类别标签分布熵值由小到大的顺序，将多个候选未标注文本中，前第二数量个候选未标注文本确定为目标未标注文本。

可选的，第二处理单元303，具体用于：

根据多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量；针对各未标注文本，对未标注文本对应的特征向量与各类别文本对应的均值向量分别进行插值处理，得到各类别文本对应的插值特征向量；根据多个未标注文本各自对应的特征向量和各类别文本对应的插值特征向量，从多个未标注文本中确定多个候选未标注文本。

可选的，第二处理单元303，具体用于：

分别将多个未标注文本各自对应的特征向量和各类别文本对应的插值特征向量输入至文本类别分析模型的类别分析网络中，得到多个未标注文本各自对应的预测标签和各类别文本的插值特征向量对应的预测标签；针对各未标注文本，在未标注文本对应的预测标签和各类别文本的插值特征向量对应的预测标签存在不同的情况下，将未标注文本确定为候选未标注文本。

可选的，第二处理单元303，具体用于：

根据

，确定各类别文本对应的插值特征向量；其中，

表示

类别，

表示

类别文本对应的插值特征向量，

表示超参数，

表示多个未标注文本中的第

未标注文本对应的特征向量，

表示

类别文本对应的均值向量。

本申请实施例提供的未标注文本的确定装置30，可以执行上述任一实施例中未标注文本的确定方法的技术方案，其实现原理以及有益效果与未标注文本的确定方法的实现原理及有益效果类似，可参见未标注文本的确定方法的实现原理及有益效果，此处不再进行赘述。

图4为本申请实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行未标注文本的确定方法，该方法包括：获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量；根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本；根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的未标注文本的确定方法，该方法包括：获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量；根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本；根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的未标注文本的确定方法，该方法包括：获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签；分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中，得到多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量；根据多个未标注文本各自对应的特征向量、多个已标注文本各自的类别标签和特征向量，从多个未标注文本中确定多个候选未标注文本；根据多个候选未标注文本各自对应的类别标签分布熵值，从多个候选未标注文本中确定目标未标注文本，目标未标注文本用于训练文本类别分析模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种未标注文本的确定方法，其特征在于，包括：

获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签；

分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中，得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量；

根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本；

根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，所述目标未标注文本用于训练所述文本类别分析模型；

其中，所述根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本，包括：

根据所述多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量；

针对各未标注文本，对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量；

分别将所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量输入至所述文本类别分析模型的类别分析网络中，得到所述多个未标注文本各自对应的预测标签和所述各类别文本的插值特征向量对应的预测标签；

2.根据权利要求1所述的未标注文本的确定方法，其特征在于，所述方法还包括：

针对各候选未标注文本，根据所述候选未标注文本分别与各已标注文本之间的特征空间距离，从所述多个已标注文本中确定与所述候选未标注文本距离最近的第一数量个目标已标注文本；

3.根据权利要求2所述的未标注文本的确定方法，其特征在于，所述根据所述第一数量个目标已标注文本各自的类别标签，确定所述候选未标注文本对应的类别标签分布熵值，包括：

根据

，确定所述候选未标注文本对应的类别标签分布熵值；

其中，

表示所述多个候选未标注文本中第/>

个候选未标注文本，/>

第/>

个候选未标注文本对应的类别标签分布熵值，/>

表示所述第一数量，/>

表示第一个目标已标注文本的类别标签，/>

表示第二个目标已标注文本的类别标签，/>

表示第/>

个目标已标注文本的类别标签。

4.根据权利要求1-3任一项所述的未标注文本的确定方法，其特征在于，所述根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，包括：

5.根据权利要求1所述的未标注文本的确定方法，其特征在于，所述对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量，包括：

根据

，确定所述各类别文本对应的插值特征向量；

其中，

表示/>

类别，/>

表示/>

类别文本对应的插值特征向量，/>

表示超参数，/>

表示所述多个未标注文本中的第/>

未标注文本对应的特征向量，/>

表示所述/>

类别文本对应的均值向量。

6.一种未标注文本的确定装置，其特征在于，包括：

获取单元，用于获取多个未标注文本、多个已标注文本以及所述多个已标注文本各自的类别标签；

第一处理单元，用于分别将所述多个未标注文本和所述多个已标注文本输入至文本类别分析模型的特征提取网络中，得到所述多个未标注文本各自对应的特征向量和所述多个已标注文本各自对应的特征向量；

第二处理单元，用于根据所述多个未标注文本各自对应的特征向量、所述多个已标注文本各自的类别标签和特征向量，从所述多个未标注文本中确定多个候选未标注文本；

第三处理单元，用于根据所述多个候选未标注文本各自对应的类别标签分布熵值，从所述多个候选未标注文本中确定目标未标注文本，所述目标未标注文本用于训练所述文本类别分析模型；

其中，所述第二处理单元，具体用于：

根据所述多个已标注文本各自的类别标签和特征向量，确定各类别文本对应的均值向量；针对各未标注文本，对所述未标注文本对应的特征向量与所述各类别文本对应的均值向量分别进行插值处理，得到所述各类别文本对应的插值特征向量；分别将所述多个未标注文本各自对应的特征向量和所述各类别文本对应的插值特征向量输入至所述文本类别分析模型的类别分析网络中，得到所述多个未标注文本各自对应的预测标签和所述各类别文本的插值特征向量对应的预测标签；针对各未标注文本，在所述未标注文本对应的预测标签和所述各类别文本的插值特征向量对应的预测标签存在不同的情况下，将所述未标注文本确定为所述候选未标注文本。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的未标注文本的确定方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的未标注文本的确定方法。