CN114647732A

CN114647732A - 一种面向弱监督文本分类系统、方法和装置

Info

Publication number: CN114647732A
Application number: CN202210559452.8A
Authority: CN
Inventors: 陈岱渊; 杨非; 钟昊文; 杨羿; 华炜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-06-21
Anticipated expiration: 2042-05-23
Also published as: CN114647732B

Abstract

本发明公开了一种面向弱监督文本分类系统、方法和装置，包括以下模块：获取模块：从数据库中获取用户上传的待标注文本数据和提供的类别标签集合；文本分类模块：根据获取模块中用户上传的待标注文本数据，确定预训练自然语言模型，使用确定模型对待标注文本数据进行分类输出标注结果；文本标注模块：根据文本分类模块输出的标注结果，生成与待标注文本数据相对应的标注结果，从而完成对所述待标注文本数据的标注，本发明提供了一种面向弱监督文本分类系统，为解决文本分类问题提供一种新的解决思路，即用户只需提供待标注文本数据和类别标签集合，便可实现高准确率的标注结果，极大地减少了文本数据标注成本。

Description

一种面向弱监督文本分类系统、方法和装置

技术领域

本发明涉及自然语言处理和文本分类领域，特别涉及一种面向弱监督文本分类系统、方法和装置。

背景技术

文字是人类传递信息的最大载体，信息每时每刻都在产生并且广泛存在于各个角落，从海量信息中高效地挖掘自身所需信息，此类需求急剧增加。文本分类能够从给定类别标签集合中自动识别输入信息类别，为解决上述需求提供了坚实的技术基础。传统实现文本分类的方法，为全监督方法，需要获取大量已标注数据进行深度学习模型训练，从而获得具有良好泛化性能的文本分类模型。但标注过程通常会花费大量的人力、财力和时间成本。弱监督文本分类方法区别于传统方法，仅要求获取待标注数据集和整个数据集对应的类别标签集合（如：好和坏），从而实现对每个样本进行分类。

发明内容

本发明的目的在于提供一种面向弱监督文本分类系统和装置，用于减少基于全监督方法的文本分类技术的有限性，通过提出更高效简要的弱监督文本分类场景，用户只需提供待标注文本数据和类别标签集合，就能达到高准确率的文本分类结果。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种面向弱监督文本分类系统，包括以下模块：

获取模块：用于从数据库中获取用户上传的待标注文本数据和提供的类别标签集合，并加载所述数据，判断所述数据是否满足规定格式；

文本分类模块：根据所述获取模块中用户上传的待标注文本数据，确定并加载预训练自然语言模型，使用确定模型对待标注文本数据进行分类，并根据类别标签集合确定标注结果并输出；

文本标注模块：根据所述文本分类模块输出的标注结果，生成与待标注文本数据相对应的标注结果，从而完成对所述待标注文本数据的标注。

作为优选的，所述获取模块判断所述数据是否满足规定格式中规定格式不限定单个待标注数据的大小。

作为优选的，所述获取模块中对规定格式的判断是判断待标注文本数据中是否含有乱码。

作为优选的，所述预训练自然语言模型是系统已离线收集Top N预训练自然语言模型构成的文本分类模型库，其中N可灵活设定，模型包括BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。

作为优选的，所述文本分类模块根据处理器算力、标注速度确定多个预训练自然语言模型，通过文本分类方法输出最终标注结果。

作为优选的，通过对多个预训练模型标注结果求平均或求最大值或加权和等决策方式确定最终标注结果。

作为优选的，所述文本分类模块对待标注文本进行分类的方法为以下一种或多种方案相结合：

方案一：使用确定的预训练自然语言模型直接对待标注文本进行推理，对用户提供的类别标签集合中元素对应概率进行排序，确定概率最大对应类别标签为单个预训练模型的标注结果；

方案二：对待标注文本进行预处理后，再进行方案一得到标注结果，所述预处理包括对每个待标注文本数据增加提示序列，从而提示预训练自然语言模型能够更深层次挖掘待标注文本的语义概括信息，所述提示序列选择灵活设计多个，通过对每个标注结果求平均或求最大值或加权和等决策方式确定最终单个预训练模型标注结果。

作为优选的，所述文本标注模块对待标注文本确定标注结果的方法为以下一种或多种方案相结合：

方案一：所述文本标注模块内置标注模块，根据所述标注结果对所述待标注文本数据进行表格化标注；

方案二：所述文本标注模块外接标注模块，通过内置格式转换模块，将所述标注结果进行特定格式转换，从而进行标注，选择常用自然语言处理标注工具对所述标注后的类别结果与文本数据的对应关系进行标注。

作为优选的，所述文本标注模块对待标注文本确定标注结果的方法方案二中，选择常用自然语言处理标注工具对所述标注后的类别结果与文本数据的对应关系进行标注，所述常用自然语言处理标注工具包括支持文本分类标注任务的Doccano，Prodigy，Chinese-Annotator。

本发明还公开了一种面向弱监督文本分类方法，包含以下步骤：

S1：获取模块从数据库中获取用户上传的待标注文本数据和提供的类别标签集合；

S2：文本分类模块根据获取模块中用户上传的待标注文本数据，确定预训练自然语言模型，使用确定模型对待标注文本数据进行分类输出标注结果；

S3：文本标注模块根据文本分类模块输出的标注结果，生成与待标注文本数据相对应的标注结果，从而完成对所述待标注文本数据的标注。

作为优选的，所述步骤S1的具体子步骤如下：

S11：获取模块从数据库中获取用户上传的待标注文本数据并提供相对应的类别标签集合；

S12：从数据库中加载所述数据；

S13：判断所述数据是否满足规定格式，若否，则输出对应错误信息，重复步骤S11。

作为优选的，所述步骤S2的具体子步骤如下：

S21：文本分类模块加载获取模块输出的满足规定格式的待标注文本数据和类别标签集合；

S22：确定并加载预训练自然语言模型；

S23：对待标注文本进行分类，并根据类别标签集合确定标注结果；

S24：输出标注结果。

作为优选的，所述步骤S3的具体子步骤如下：

S31：文本标注模块加载文本分类模块的标注结果，将标注后的类别结果与文本数据的对应关系存储在数据库中；

S32：根据标注结果对待标注文本进行标注。

本发明还公开了一种面向弱监督文本分类装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于执行上述的面向弱监督文本分类方法。

本发明的有益效果：

1、本发明提供了一种面向弱监督文本分类系统，为解决文本分类问题提供一种新的解决思路，即用户只需提供待标注文本数据和类别标签集合，便可实现高准确率的标注结果，极大地减少了文本数据标注成本。

2、因为弱监督文本分类场景获取到的信息有限，相关技术常基于已学习到海量信息的预训练自然语言模型进行进一步学习，使得确定的预训练模型能够适应于待标注数据集，以完成文本分类任务。同时，得益于开源社区的推动，目前已有较多头部公司开源了满足以上要求的性能优异的预训练自然语言模型。考虑到这些预训练模型的大小相较海量信息微乎其微，因此弱监督文本分类技术可以很好地降低数据存储和传输，减小标注成本，保证标注效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用到的附图进行简要地介绍。

图1是本发明提供的一种面向弱监督文本分类系统的结构图；

图2是本发明提供的系统结构图中的获取模块软件流程图；

图3是本发明提供的系统结构图中的获取模块结果示意图；

图4是本发明提供的系统结构图中的文本分类模块软件流程图；

图5是本发明提供的系统结构图中的文本标注模块软件流程图；

图6是本发明提供的系统结构图中的文本标注模块结果示意图；

图7是一种面向弱监督文本分类装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明提供了一种面向弱监督文本分类系统，包括如下模块：

1.获取模块：用于从数据库中获取用户上传的待标注文本数据和提供的类别标签集合。可选地，所述待标注文本数据并不限制单个数据的长短大小，可以是一句话，也可以是一段章节等。因此合法性判断主要以是否有乱码存在为主。

2.文本分类模块：根据1的数据，确定预训练自然语言模型，使用确定模型对待标注文本数据进行分类输出标注结果。

3.文本标注模块：根据2的结果，生成与待标注文本数据相对应的标注结果，从而完成对所述待标注文本数据的标注。可选地，文本标注模块可内置标注模块，用于根据所述对应的标注结果对所述待标注文本数据进行标注。也可以外接标注模块，通过内置格式转换模块，将所述对应的标注结果进行特定格式转换，从而进行标注。

图1是本发明提供的一种面向弱监督文本分类系统S100的结构图，该系统包括如下模块：

获取模块S101、文本分类模块S102、文本标注模块S103。

如图2所示，获取模块S101具体流程包括：

1.用户上传待标注文本数据并提供相对应的类别标签集合；

2.从数据库中加载所述数据；

3.判断所述数据是否满足规定格式，若否，则输出对应错误信息，重复1。

具体地，流程3中所述规定格式，并不限定单个待标注数据的大小，如一句话，一段章节，一篇文章都行。若考虑到实际情况需要设定大小上限，可根据示例实际的数据库大小和处理器算力灵活确定。因此所述规定格式以判断是否待标注文本数据中含有乱码为主。

为了使得本领域人员更加清楚、直观地明白弱监督文本分类场景，图3展示了获取模块S101部分结果示意图。本示例中仅以表格形式展示获取到的所述待标注文本数据和类别标签集合。值得说明的是，以上展示方式仅是获取方式之一，而非旨在限制。同样，以上虽仅展示英文文本数据，但本发明提供的一种面向弱监督文本分类系统可以兼容各种语言的分类任务。具体地，如图3所示，用户仅需上传待标注文本数据和类别标签集合（如：good和bad，即好和坏）即可，无需提供任何针对单一数据的标注结果。

如图4所示，文本分类模块S102具体流程包括：

1.加载获取模块S101的正确输出结果，即满足规定格式的待标注文本数据和类别标签集合；

2.确定并加载预训练自然语言模型；

3.对待标注文本进行分类，并根据类别标签集合确定标注结果；

4.输出标注结果。

具体地，在流程2中，本发明本发明提供的一种面向弱监督文本分类系统S100已离线收集Top N（N可灵活设定）预训练自然语言模型，构成文本分类模型库。可参考但不仅限于这些的模型选择：BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。

在流程3中，为了保证文本分类准确度，可根据示例实际情况（如：处理器算力，标注速度等）确定多个预训练自然语言模型，通过文本分类方法输出最终标注结果。具体地，可通过对多个预训练模型标注结果求平均或求最大值或加权和等决策方式确定最终标注结果。

可参考地，所述文本分类方法可选择下述的一种或多种方案相结合：

方案1. 使用确定的预训练自然语言模型直接对待标注文本进行推理，对用户提供的类别标签集合中元素对应概率进行排序，确定概率最大对应类别标签为单个预训练模型的标注结果。

方案2. 对待标注文本进行预处理后，再进行方案1得到标注结果。所述预处理操作包括但不限于对每个待标注文本数据增加提示序列（prompt），从而提示预训练自然语言模型能够更深层次挖掘待标注文本的语义概括信息。所述提示序列可灵活设计多个，通过对每个标注结果求平均或求最大值或加权和等决策方式确定最终单个预训练模型标注结果。

如图5所示，文本标注模块S103具体流程包括：

1.加载文本分类模块S102的标注结果，将标注后的类别结果与文本数据的对应关系存储在数据库中；

2.根据标注结果对待标注文本进行标注。

可选地，具体文本标注方式可选择下述的一种或多种方案相结合：

方案1. 所述文本标注模块S103可内置标注模块，用于根据所述标注结果对所述待标注文本数据进行表格化标注。

方案2. 所述文本标注模块S103可外接标注模块。在实际应用场景中，可以选择常用自然语言处理标注工具对所述标注后的类别结果与文本数据的对应关系进行标注，可选地，所述常用自然语言处理标注工具可选择Doccano，Prodigy，Chinese-Annotator等支持文本分类标注任务的第三方标注工具。

为了使得本领域人员更加清楚、直观地明白弱监督文本分类场景，图6展示了文本标注模块S103部分结果示意图。本示例中仅以表格形式展示标注的所述待标注文本数据和标注结果。值得说明的是，以上展示方式仅是获取方式之一，而非旨在限制。同样，以上虽仅展示英文文本数据，但本发明提供的一种面向弱监督文本分类系统可以兼容各种语言的分类任务。具体地，如图6所示，本发明提供的一种面向弱监督文本分类系统可以基于用户仅上传待标注文本数据和类别标签集合，对单一数据进行准确的分类。

本发明还提供了一种面向弱监督文本分类方法，包含以下步骤：

步骤1：获取模块从数据库中获取用户上传的待标注文本数据和提供的类别标签集合，具体子步骤如下：

步骤1.1：获取模块从数据库中获取用户上传的待标注文本数据并提供相对应的类别标签集合；

步骤1.2：从数据库中加载所述数据；

步骤1.3：判断所述数据是否满足规定格式，若否，则输出对应错误信息，重复步骤1.1。

步骤2：文本分类模块根据获取模块中用户上传的待标注文本数据，确定预训练自然语言模型，使用确定模型对待标注文本数据进行分类输出标注结果，具体子步骤如下：

步骤2.1：文本分类模块加载获取模块输出的满足规定格式的待标注文本数据和类别标签集合；

步骤2.2：确定并加载预训练自然语言模型；

步骤2.3：对待标注文本进行分类，并根据类别标签集合确定标注结果；

步骤2.4：输出标注结果。

步骤3：文本标注模块根据文本分类模块输出的标注结果，生成与待标注文本数据相对应的标注结果，从而完成对所述待标注文本数据的标注，具体子步骤如下：

步骤3.1：文本标注模块加载文本分类模块的标注结果，将标注后的类别结果与文本数据的对应关系存储在数据库中；

步骤3.2：根据标注结果对待标注文本进行标注。

本示例提供的一种面向弱监督文本分类方法可由一种面向弱监督文本分类装置来执行，该装置可由软件和/或硬件的方式实现，并一般可集成在电子设备中。该电子设备可以是计算机设备，也可以是可移动设备等其他具备如图7所示结构的电子设备中。所述电子设备包括：存储器S201，处理器S202，输入装置S203，输出装置S204。各个部件通过总线进行连接，可以被安装在公共主板上或根据实际需要以其他方式进行安装。图7所示的部件、部件的连接和关系和部件的功能仅作为展示实例，并不意在限制文本中描述的和或者要求的实现。

所述处理器S202可以对所述装置内可执行的指令进行处理，包括存储器S201中的指令，输入装置S203和输出装置S204中的指令。值得注意的是，可根据示例实际情况将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作。

作为一种可选的实施方式，所述存储器S201可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器、闪存器等。另外，所述存储器S201还可以是至少一个远离所述处理器S202的远程存储装置。所述远程存储装置可以通过网络连接至所述电子设备上。所述网络连接包括但不仅限于局域网、广域网和互联网。

说明书未详细描述的部件组合特征属于公知技术轻易想到或者实施本发明时容易确定且无异议的内容。上述方案，仅为本发明较佳的几个实施方式的描述，但本发明的保护范围不仅限于此，任何熟悉该技术的人能在本发明描述的范围内轻易实现，而不改变权利要求涉及基本原理的变化或替换，都应涵盖在本申请的保护范围之内，即本申请保护范围应以权利要求保护范围为准。

Claims

1.一种面向弱监督文本分类系统，其特征在于，包括以下模块：

2.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述获取模块判断所述数据是否满足规定格式中规定格式不限定单个待标注数据的大小。

3.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述获取模块中对规定格式的判断是判断待标注文本数据中是否含有乱码。

4.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述预训练自然语言模型是系统已离线收集Top N预训练自然语言模型构成的文本分类模型库，其中N可灵活设定，模型包括BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。

5.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述文本分类模块根据处理器算力、标注速度确定多个预训练自然语言模型，通过文本分类方法输出最终标注结果。

6.如权利要求5所述的一种面向弱监督文本分类系统，其特征在于：通过对多个预训练模型标注结果求平均或求最大值或加权和的决策方式确定最终标注结果。

7.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述文本分类模块对待标注文本进行分类的方法为以下一种或多种方案相结合：

方案二：对待标注文本进行预处理后，再进行方案一得到标注结果，所述预处理包括对每个待标注文本数据增加提示序列，从而提示预训练自然语言模型能够更深层次挖掘待标注文本的语义概括信息，所述提示序列选择灵活设计多个，通过对每个标注结果求平均或求最大值或加权和的决策方式确定最终单个预训练模型标注结果。

8.如权利要求1所述的一种面向弱监督文本分类系统，其特征在于：所述文本标注模块对待标注文本确定标注结果的方法为以下一种或多种方案相结合：

9.如权利要求8所述的一种面向弱监督文本分类系统，其特征在于：所述文本标注模块对待标注文本确定标注结果的方法方案二中，选择常用自然语言处理标注工具对所述标注后的类别结果与文本数据的对应关系进行标注，所述常用自然语言处理标注工具包括支持文本分类标注任务的第三方标注工具。

10.一种面向弱监督文本分类方法，其特征在于，包含以下步骤：

11.如权利要求10所述的一种面向弱监督文本分类方法，其特征在于，所述步骤S1的具体子步骤如下：

S12：从数据库中加载所述数据；

12.如权利要求10所述的一种面向弱监督文本分类方法，其特征在于，所述步骤S2的具体子步骤如下：

S22：确定并加载预训练自然语言模型；

S24：输出标注结果。

13.如权利要求10所述的一种面向弱监督文本分类方法，其特征在于，所述步骤S3的具体子步骤如下：

S32：根据标注结果对待标注文本进行标注。

14.一种面向弱监督文本分类装置，其特征在于，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于执行权利要求10-13任一项所述的面向弱监督文本分类方法。