CN116127078B

CN116127078B - 一种大规模极弱监督多标签政策分类方法及系统

Info

Publication number: CN116127078B
Application number: CN202310416484.7A
Authority: CN
Inventors: 徐昊; 赵久峰; 宋瑞; 邹桐; 石立达; 赵强
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-21
Anticipated expiration: 2043-04-19
Also published as: CN116127078A

Abstract

本发明公开了一种大规模极弱监督多标签政策分类方法及系统，包括以下步骤：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。本发明利用用户提供标签名称，而不是使用任何的标记文档，来对海量的政策数据进行分类。

Description

一种大规模极弱监督多标签政策分类方法及系统

技术领域

本发明属于人工智能的自然语言处理领域，具体涉及一种大规模极弱监督多标签政策分类方法及系统。

背景技术

随着电子政务的发展，我国的多个地方政府都在发展基于互联网的开放政策平台，这些在线平台要求对政策进行分类。然而，在实际任务中，由政府工作人员手动标记政策既昂贵又耗时。因此，有必要为政府自动分类这些政策。将大量的政策自动划分到预定义的类别中可以看作是文本分类，这是自然语言处理（NLP）和机器学习中的一项基本任务。传统的机器学习方法如朴素贝叶斯算法、支持向量机等技术的分类效果相对较差。近年来，由于深度学习具有强大的表示学习能力，能够有效地捕获文本序列中的高阶、远程语义依赖性，许多研究人员提出了基于深度学习的政策分类器，包括CNNs和RNNs等。这些基于深度学习的分类器在大规模人工标记的文档（通常超过数万个）上进行训练时，已经取得了巨大的成功。然而，由于研究领域的特殊性，政策的迭代更新速度比较快，对大量的政策数据进行手动标注，这在实际应用中可能代价昂贵且难以实现。

现有技术的不足和缺陷：

第一，具有不同职能的政府机构和部门的标签系统不统一，现有的方法无法实现有效的跨部门检索。第二，现有的方法通常是基于对大量标记文档的监督模型，但手动标记的训练集创建起来既昂贵又耗时，而且任务经常会在现实世界中发生变化和演变。例如，数据标注指南、标注的粒度或下游的用例都经常会发生变化，需要重新进行标记。第三，一条政策通常有多个标签，而目前大多数方法采用多分类，即默认每条政策只有一个标签。

综上所述，现有的问题是：监督模型在政策分类任务中占主导地位，但由于缺乏大量的人工标记文档作为训练数据，使得这些高性能的监督模型无法直接应用。因此，本发明的主要解决以下问题：如何利用标签名称为无标注的政策语料库派生高质量的伪标签，并将其用于政策分类。

发明内容

针对现有技术的不足，本发明提出了一种大规模极弱监督多标签政策分类方法及系统，利用用户提供标签名称，而不是使用任何的标记文档，来对海量的政策数据进行分类。

为实现上述目的，本发明提供了如下方案：

一种大规模极弱监督多标签政策分类方法，包括以下步骤：

S1：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；

S2：利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；

S3：利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；

S4：利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。

优选的，在训练好的所述政策领域专用的语言模型最后添加了一个Sigmoid层来生成每个伪标签的概率作为模型的输出。

优选的，所述S1中，基于未标记政策语料库对WoBERT进行连续的预训练的方法为：

为WoBERT词汇表添加政策领域内的新词汇；

在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务。

优选的，在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的方法为：

随机掩盖掉输入序列中的Token；

在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测。

优选的，在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的方法为：

使用CWS将每条政策分割成几个词语，获得输入令牌；

将所述输入令牌转化为扩充后词汇表中对应的ID，并输入到WoBERT中；

预测整个WoBERT词汇表中的掩码令牌的概率分布，获得预测结果。

优选的，所述S2中，利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词的方法为：

使用政策领域专用的语言模型的遮蔽语言模型预测政策中替换成标签名称的词语，并保持原有的政策内容不变；

通过收集与标签名称语义相关的政策词语构建标签的种子词汇表。

优选的，通过收集与标签名称语义相关的政策词语构建标签的种子词汇表的方法为：

对于出现在政策中的标签名称，用[MASK]标记替换；

使用政策领域预训练过的WoBERT语言模型对替换后的数据进行编码，编码后得到输入令牌对应的向量表示；

将[MASK]的上下文嵌入向量提供给遮蔽语言模型头部，输出整个词汇表中每个单词/>出现在[MASK]位置的概率；

基于满足预设概率的单词，构建标签的种子词汇表。

优选的，所述S3中，利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签的方法为：

基于构建的种子词汇表在未标记子词，使用对应类别的对应标签来标记对应政策；

如果对应政策包含的种子词覆盖多个类别，则用与所有类别对应的标签来标记所述对应政策。

优选的，政策d被分配的标签集合计算方法为：

其中，表示政策d中的词语，C表示类别的总数，/>表示类别/>的种子词表。

本发明还提供了一种大规模极弱监督多标签政策分类系统，包括：模型预训练模块、词汇表构建模块、伪标签生成模块和政策分类模块；

所述模型预训练模块用于基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；

所述词汇表构建模块用于利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；

所述伪标签生成模块用于利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；

所述政策分类模块用于利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。

与现有技术相比，本发明的有益效果为：

本发明提出了Weak-PMLC，一个大规模的极弱监督的多标签政策分类框架。该框架不使用任何标记数据，而只使用每个类别的标签名称就可以实现与监督模型相当的性能。

本发明提出了一种构建与类别相关的种子词汇表的方法，该方法使用预先训练的语言模型来预测哪些单词可以替换未标记政策语料库中的标签名称。

根据与类别相关的种子词汇表，本发明提出了一种基于字符串匹配的伪标签生成策略，该策略可以为政策生成高质量的伪标签，并保证分类性能。

本发明是第一个尝试使用标签名称对政策进行分类的，并表明标签名称是一种有效的监督文本分类类型，我们希望可以为后续的研究提供一个初步的基础。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种大规模极弱监督多标签政策分类方法流程图；

图2为本发明实施例中WoBERT的Whole World Masking策略示意图；

图3为本发明实施例中的文本分类模型示意图；

图4为本发明实施例中Weak-PMLC框架的总体结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，一种大规模极弱监督多标签政策分类方法，包括以下步骤：

S1：语言模型在特定领域的预训练。大多数语言模型（LM）通常是在诸如Wikipedia的通用语料库中进行预训练的，而在领域化的特定场景下会受到限制。本发明使用的语言模型为WoBERT，关于WoBERT的具体信息可以参见官方文档（https://github.com/ZhuiyiTechnology/WoBERT）。本发明没有简单地使用WoBERT，而是在未标记政策语料库上对其进行连续的预训练，从而获得了政策领域专用的语言模型，并表明这种特定领域的预训练可以比一般领域的语言模型产生更实质性的收益。

S2：类别种子词表的构建。当提供标签名称时，人类能够通过与表示同一类别的其他相关关键字关联来理解每个标签的语义，这类关键字又被称为类别种子词。本发明利用政策领域专用的预训练语言模型从未标记的政策语料库中学习与标签名称语义相关的高质量种子词，并为每个类别构建种子词汇表。

S3：伪标签数据的生成。利用类别种子词信息来为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中。

S4：构建文本分类模型。生成的伪训练集可以用来训练任何文本分类模型。本发明利用伪训练集对政策领域专用的语言模型进行训练，利用训练好的政策领域专用的语言模型（特定于领域的预训练WoBERT）为政策进行编码操作，完成多标签政策分类。并在最后添加了一个Sigmoid层来生成每个标签的概率作为总模型的输出。

在本实施例中，所述S1的具体步骤如下：利用out-of-the-box (OOB) WoBERT语言模型作为本发明中在通用语料库上预训练的语言模型。WoBERT的预训练过程中执行了两个任务，包括使用遮蔽语言模型（MLM）和下一个句子预测（NSP），而许多已发表的文献已经证明了NSP任务对下游任务的性能提升并不明显。因此，本发明进一步对OOB WoBERT进行的特定领域预训练，主要是在未标记的政策语料库上实现遮蔽语言模型(MLM)的预测任务。由于WoBERT中原始词汇表的大小有限，如果政策领域包含没有出现在词汇表中的词语，则将生成Out-of-Vocabulary (OOV)，这类词汇无法用现有词向量进行表示，最终会对模型的性能造成一定的影响。为了缓解这个问题，本发明在训练集的基础上对WoBERT的词汇表进行了扩展，即在MLM之前为WoBERT词汇表添加政策领域内的新词汇。

MLM的任务是随机掩盖掉输入序列中的Token（即用“[MASK]”替换掉原有的Token），然后在WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测，其中总体掩码率保持在15%。在掩码预测过程中，本发明使用Whole Word Masking (WWM) 策略进行随机掩码，这使模型更容易预测，具体过程如图2所示。首先使用传统的中文分词工具(CWS) 将每条政策分割成几个词语，这样就可以使用词语作为基本的处理单元，而不是单个汉字。设为分割后得到的输入令牌，其中/>为令牌的数量。然后将输入令牌转化为扩充后词汇表中对应的ID，并输入到WoBERT中。隐藏层是在WoBERT中输入令牌得到的输出，表示为/>，其中/>为隐藏层的嵌入维数。对于/>，/>表示掩码令牌，则原始输入令牌的概率计算为：

其中，是令牌/>的嵌入，而/>是WoBERT的词汇表。MLM中的损失为负对数似然值，其计算方法为：

其中，m是屏蔽令牌/>，/>的一组索引值，/>表示期望值。

最终的目标是预测整个WoBERT词汇表中（扩充后的词汇表）的掩码令牌的概率分布，并获得最有可能的预测结果。经过第一步，语言模型WoBERT可以从海量的无标注政策语料中学习到更好的语言表示并显著提升下游的任务。

在本实施例中，所述S2的具体步骤如下：本发明将能够准确且唯一能反映某一类别的词称为种子词，即标签名称的同义词或近义词。首先使用政策领域专用的语言模型WoBERT的遮蔽语言模型（MLM）来预测在大多数政策中哪些词语可以替换标签名称，并保持原有的政策内容不变。然后通过收集这些与标签名称语义相关的词语来构建标签的种子词汇表。具体来说，对于出现在政策中的标签名称，首先用[MASK]标记替换它们。然后使用政策领域预训练过的WoBERT语言模型对处理后的数据进行编码，编码后得到输入令牌对应的向量表示。最后，将[MASK]的上下文嵌入向量提供给MLM头部，它将输出整个词汇表/>中每个单词/>出现在[MASK]位置的概率：

,

其中，表示激活函数；/>是WoBERT的全连接层的可学习参数。

在收集种子词的过程中，使用MLM给出的前50个单词的阈值来定义标签名称每次出现在政策中的有效替换。为了获取更高质量的种子词，本发明根据前50个单词在整个未标记政策数据集中有效替换标签名称的次数来对它们进行排序。种子词汇表中的重复词语将被删除，以确保每个类别的种子词都是代表特定类别的唯一单词，最终构建的种子词汇表使用了在去掉停用词后的前5个词语。

在本实施例中，所述S3的具体步骤如下：本发明使用了一种简单但有效的基于字符串匹配的方法为未标记政策语料库的生成伪标签，其中每条政策都被分配一个或多个标签。具体来说是基于构建的种子词汇表在未标记子词，则使用该类别的对应标签来标记该政策。此外，如果该政策包含的种子词覆盖多个类别，则用与所有类别对应的标签来标记该政策。

令表示政策d中的词语，C表示类别的总数，/>表示类别/>的种子词表，则政策d被分配的标签集合/>计算方法如下：

在本实施例中，所述S4的具体步骤如下：如图3所示，本发明使用政策领域预训练的WoBERT作为实现的例子，并在最后添加了一个sigmoid层来产生每个标签的概率作为总模型的输出。所构造的文本分类器在伪训练集上进行初始化，并在测试集上进行评估。本发明提出的Weak-PMLC，一种大规模极弱监督多标签文本分类框架的总结构如图4所示。

本发明可以很容易地与当前流行的基于深度学习的文本分类器相结合，并进一步提高模型的性能。我们在政策数据集上验证了我们提出的方法的有效性，并表明Weak-PMLC比最近最先进的弱监督方法（前11个）取得了更好的性能，甚至可以与某些监督方法相媲美：表1为Weak-PMLC、其他弱监督方法以及监督方法的实验结果。

表1

实施例二

模型预训练模块用于语言模型在特定领域的预训练。大多数语言模型（LM）通常是在诸如Wikipedia的通用语料库中进行预训练的，而在领域化的特定场景下会受到限制。本发明使用的语言模型为WoBERT，关于WoBERT的具体信息可以参见官方文档（https://github.com/ZhuiyiTechnology/WoBERT）。本发明没有简单地使用WoBERT，而是在未标记政策语料库上对其进行连续的预训练，从而获得了政策领域专用的语言模型，并表明这种特定领域的预训练可以比一般领域的语言模型产生更实质性的收益。

词汇表构建模块用于类别种子词表的构建。当提供标签名称时，人类能够通过与表示同一类别的其他相关关键字关联来理解每个标签的语义，这类关键字又被称为类别种子词。本发明利用政策领域专用的预训练语言模型从未标记的政策语料库中学习与标签名称语义相关的高质量种子词，并为每个类别构建种子词汇表。

伪标签生成模块用于伪标签数据的生成。利用类别种子词信息来为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中。

政策分类模块用于构建文本分类模型。生成的伪训练集可以用来训练任何文本分类模型。本发明利用伪训练集对政策领域专用的语言模型进行训练，利用训练好的政策领域专用的语言模型（特定于领域的预训练WoBERT）为政策进行编码操作，完成多标签政策分类。并在最后添加了一个Sigmoid层来生成每个标签的概率作为总模型的输出。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种大规模极弱监督多标签政策分类方法，其特征在于，包括以下步骤：

S4：利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类；

所述S1中，基于未标记政策语料库对WoBERT进行连续的预训练的方法为：

为WoBERT词汇表添加政策领域内的新词汇；

在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务；

在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的方法为：

随机掩盖掉输入序列中的Token；

在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测；

在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的方法为：

使用CWS将每条政策分割成几个词语，获得输入令牌；

预测整个WoBERT词汇表中的掩码令牌的概率分布，获得预测结果；

首先使用传统的中文分词工具CWS将每条政策分割成几个词语，使用词语作为基本的处理单元，而不是单个汉字；设为分割后得到的输入令牌，其中/>为令牌的数量；然后将输入令牌转化为扩充后词汇表中对应的ID，并输入到WoBERT中；隐藏层是在WoBERT中输入令牌得到的输出，表示为/>，其中/>为隐藏层的嵌入维数；对于/>，/>表示掩码令牌，则原始输入令牌的概率计算为：

其中，/>是令牌/>的嵌入，而/>是WoBERT的词汇表；MLM中的损失为负对数似然值，计算方法为：

其中，m/>是屏蔽令牌/>，的一组索引值，/>表示期望值；

最终的目标是预测整个WoBERT词汇表中的掩码令牌的概率分布，并获得预测结果。

2.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，在训练好的所述政策领域专用的语言模型最后添加了一个Sigmoid层来生成每个伪标签的概率作为模型的输出。

3.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，所述S2中，利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词的方法为：

4.根据权利要求3所述的大规模极弱监督多标签政策分类方法，其特征在于，通过收集与标签名称语义相关的政策词语构建标签的种子词汇表的方法为：

对于出现在政策中的标签名称，用[MASK]标记替换；

将[MASK]的上下文嵌入向量提供给遮蔽语言模型头部，输出整个词汇表/>中每个单词/>出现在[MASK]位置的概率；

基于满足预设概率的单词，构建标签的种子词汇表。

5.根据权利要求1所述的大规模极弱监督多标签政策分类方法，其特征在于，所述S3中，利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签的方法为：

6.根据权利要求5所述的大规模极弱监督多标签政策分类方法，其特征在于，政策d被分配的标签集合计算方法为：

其中，/>表示政策d中的词语，C表示类别的总数，/>表示类别/>的种子词表。

7.一种大规模极弱监督多标签政策分类系统，其特征在于，包括：模型预训练模块、词汇表构建模块、伪标签生成模块和政策分类模块；

所述政策分类模块用于利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类；

所述模型预训练模块中，基于未标记政策语料库对WoBERT进行连续的预训练的过程为：

为WoBERT词汇表添加政策领域内的新词汇；

在未标记的政策语料库上实现添加新词汇的WoBERT的遮蔽语言模型的预测任务的过程为：

随机掩盖掉输入序列中的Token；

在添加新词汇的WoBERT的输出结果中取对应掩盖位置上的向量进行真实值预测的过程为：

使用CWS将每条政策分割成几个词语，获得输入令牌；

其中，/>是令牌的嵌入，而/>是WoBERT的词汇表；MLM中的损失为负对数似然值，计算方法为：

其中，/>是屏蔽令牌/>，的一组索引值，/>表示期望值；