CN112800151B

CN112800151B - 一种交互式无监督标签分类系统、方法、介质、终端

Info

Publication number: CN112800151B
Application number: CN202110364666.5A
Authority: CN
Inventors: 杨万征; 蔡超; 程国艮
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-08-13
Anticipated expiration: 2041-04-06
Also published as: CN112800151A

Abstract

本发明属于数据处理技术领域，公开了一种交互式无监督标签分类系统、方法、介质、终端，利用伪标签及预训练模型，对数据集进行无监督分类，通过增加拓展词汇，进行辅助分类，以及在所述预训练模型中增加负节点或负样本排除负样本作用范围内的空间。本发明满足了不同业务场景下对数据集按照不同标签体系进行划分的业务需求，提出一种通用的数据处理流程，能够解决无监督或弱监督的标签分类任务。本发明主要采用伪标签学习技术，可解决冷启用问题；减少标注数据的需求；可实时调整标签体系结构；可人工干预；可视化标签体系关系；不但可增加正样本或正节点，同时可增加负样本或父节点。

Description

一种交互式无监督标签分类系统、方法、介质、终端

技术领域

本发明属于数据处理技术领域，尤其涉及一种交互式无监督标签分类系统、方法、介质、终端。

背景技术

目前，伴随电子化、信息化时代的普及，各种类型文献蜂拥而至，如：新闻、论文、专利、期刊等，每种类型文本均有其特有的适用领域及结构特点，通过单一标签体系，无法同时对各种类型文献进行合理分类，需要使用多种标签体系才可以，即使对于单一类型文体，仅通过单一标签体系也无法进行全面表达，以专利为例，仅通过单一IPC分类虽然可以表达其技术领域，但对其应用领域的表达能力是不足的，为满足各类应用场景，需要使用多种标签体系，在某些特定场景下，需求方也会提出其关注或所需的标签体系。

尽管机器学习在标签分类问题上已经取得了显著成功，但往往需要大量的标注样本，在相对固定、种类较少的标签体系下，通过标注人员构造训练集方能适用，但面对标签体系灵活多变、标签类别繁多的情况，往往无法适用。以一个7000维的标签体系为例，每个标签需要标注100个样本，面对的便是70万的标注数据，且如上述所说，一个标签体系往往适不足以满足需求的，需要同时存在多个标签体系，在项目启动之初，对标签分类的精度并没有太多要求，但却投入如此之大的标注精力往往适不被采纳的，且有监督的机器学习分类目前仍然偏向于黑盒，无法进行显式的人工干预。

综上所述，需要寻求一种灵活的技术手段，适应多变的标签体系，减少系统对标注样本的需求，且可人工显式干预。

通过上述分析，现有技术存在的问题及缺陷为：

（1）现有技术中，无法适应灵活多变的标签体系。

（2）现有技术中，对人工干预不够友善。

（3）现有技术中，对标签的控制能力不强。

解决以上问题及缺陷的难度为：需要解决无标注数据问题；需要算法能够接受用户的干预行为。

解决以上问题及缺陷的意义为：解决项目冷启动问题，降低成本；对程序结果输出更加可控，能够持续迭代优化。

发明内容

针对现有技术存在的问题，本发明提供了一种交互式无监督标签分类系统方法、介质、终端。

本发明是这样实现的，一种交互式无监督标签分类方法，包括：

步骤一：根据需求构造标签体系；

步骤二：标签拓展，构造伪标签数据集；

步骤三：训练标签分类模型；

步骤四：对未标记样本进行预测；

步骤五：人工结果干预。

进一步，步骤一中，所述标签体系由领域专家或需求方进行构建。

进一步，步骤二中，所述伪标签数据集的构建方法包括：

（1）基于已有知识库，对叶子节点标签进行拓展；

（2）对待分类数据集进行清洗，过滤停用词，并提取关键词，及名词短语；

（3）利用叶子节点标签及拓展词汇，采用关键词匹配方式，进行文档召回，构建伪标签数据集。

进一步，步骤二中，标签拓展包括：同义词扩展，上下级词扩展。

进一步，步骤三中，训练标签分类模型包括：

（1）词汇在预训练语言模型中的词向量作为该类别的中心节点；

（2）利用预训练语言模型在伪标签数据集上进行二次训练，不断逼近中心节点；

（3）使用二次训练后的伪标签数据集对伪标签数据集进行预测，移除低置信度的伪样本；

（4），重复（2）、（3），移除低质量伪标签数据，提升数据集质量。

进一步，步骤五中，所述人工结果干预包括：

（1）手动增加辅助词节点，并进行拓展类别的学习，学习其中心节点；

（2）手工在标签节点上增加正例样本；

（3）移除干扰节点；

（4）增加负例节点；

（5）增加负例样本。

进一步，所述交互式无监督标签分类方法具体包括：

（1）由专家构建产业链体系结构；

（2）基于哈工大词林进行同义词拓展，基于百科知识进行下级词汇拓展，基于通用图谱知识库进行词汇拓展，基于近似向量进行词汇拓展；

（3）使用语义检索模型，获取拓展词汇的特征向量；

（4）基于语义检索，召回相关近似文档，作为伪标签数据集；

（5）使用预训练模型（如：doc2vec、glove、fasttext、bert等，行业内的公知常识）利用得到的伪标签数据进行训练；

（6）对伪标签数据集进行预测，过滤低质量的样本；

（7）重复步骤（5）、步骤（6），直至类内平均相似度超过预定值；

（8）人工验证，检查拓展词汇的准确性，删除无用词汇，添加辅助词汇；

（9）人工验证，对错误样本，设置为负样本，样本较少的标签节点添加样例样本；

（10）对人工的局部干预，使用局部数据进行二次训练，实时修正模型（训练出来的标签分类模型）；

（11）最终样本被标注到拓展词汇节点上，并通过向上查询，传递至所需叶子标签。

本发明的另一目的在于提供一种交互式无监督标签分类系统，所述交互式无监督标签分类系统包括：

标签体系构建模块，用于根据需求构建或选择标签体系；

叶子节点标签拓展模块，用于基于已有知识库，对叶子节点标签进行拓展；

清洗过滤提取关键词模块，用于对待分类数据集进行清洗，过滤停用词，并提取关键词，及名词短语；

伪标签数据集构建模块，用于利用叶子节点标签及拓展词汇，采用关键词匹配方式，进行文档召回，构建伪标签数据集；

模型训练模块，用于词汇在预训练语言模型中的词向量作为该类别的中心节点；利用通用预训练语言模型在伪标签数据集上进行二次训练，使其不断逼近中心节点；混用于使用二次训练后的伪标签数据集对伪标签数据集进行预测，移除低置信度的伪样本；

人工整理样本模块，用于对效果较差的分支，手动增加辅助词节点，进行拓展类别的学习，学习其中心节点，同时，可手工在标签节点上增加整理样本；

还增加负节点或负样本，排除负样本作用范围内的空间。

本发明的另一目的在于提供一种无人飞行器，所述无人飞行器用于实施所述的交互式无监督标签分类方法。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的交互式无监督标签分类方法。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的交互式无监督标签分类方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明涉及一种标签分类系统，其主要特征在于是一种无监督学习模型，且可人工进行交互干预。其实现过程通过利用伪标签及预训练模型，对数据集进行无监督分类，通过增加拓展词汇，进行辅助分类，同时可增加正例样本进行模型效果的提升。

本发明满足了不同业务场景下对数据集按照不同标签体系进行划分的业务需求，提出一种通用的数据处理流程，能够解决无监督或弱监督的标签分类任务。

本发明主要采用伪标签学习技术，可解决冷启用问题；减少标注数据的需求；

可实时调整标签体系结构；可人工干预；可可视化标签体系关系；不但可增加正样本或正节点，同时可增加负样本或父节点。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的交互式无监督标签分类方法流程图。

图2是本发明实施例提供的交互式无监督标签分类系统可视化效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种交互式无监督标签分类系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的交互式无监督标签分类方法包括：

S101，根据需求构建或选择标签体系；

S102，基于已有知识库，对叶子节点标签进行拓展，如：同义词扩展，上下级词扩展；

S103，对待分类数据集进行清洗，过滤停用词，并提取关键词，及名词短语；

S104，利用叶子节点标签及拓展词汇，采用关键词匹配方式，进行文档召回，构建伪标签数据集；

S105，词汇在预训练语言模型中的词向量作为该类别的中心节点；

S106，利用通用预训练语言模型在伪标签数据集上进行二次训练，使其不断逼近中心节点；

S107，使用二次训练后的伪标签数据集对伪标签数据集进行预测，移除低置信度的伪样本；

S108，重复步骤S106、步骤S107；

S109，针对效果较差的分支，手动增加辅助词节点，同步骤S105、步骤S106、步骤S107，进行拓展类别的学习，学习其中心节点；

S110，同时，可手工在标签节点上增加整理样本，在模型训练过程中，针对人工增加的样本基于更高关注；

步骤S111，同步骤S109、步骤S110，不但可以增加整理节点或样本，还可增加负节点或负样本，排除负样本作用范围内的空间，如：将无人飞行器和飞机易混淆，可在飞机标签下添加负词汇无人飞行器；其训练目标为，最小化伪标签损失函数，最小化正样本距离，最大化负样本距离。

下面结合具体实施对本发明技术方案作进一步描述。

以专利分类为例，需要将专利分到具体的各个产业下，具体实施步骤如下：

(1)由专家构建产业链体系结构；

(2)基于合工大词林进行同义词拓展，基于百科知识进行下级词汇拓展，基于通用图谱知识库进行词汇拓展，基于近似向量进行词汇拓展；

（3）使用通用语义检索模型，获取拓展词汇的特征向量；

（4）使用通用模型利用得到的伪标签数据进行训练；

（4）对伪标签数据集进行预测，过滤低质量的样本；

（5）重复⑤⑥，直至类内平均相似度超过预定值；

（6）人工验证，检查拓展词汇的准确性，删除无用词汇，添加辅助词汇；

（9）人工验证，针对错误样本，设置其为负样本，样本较少的标签节点添加样例样本；

（10）针对人工的局部干预，仅使用局部数据进行二次训练，伴随人工干预的增加，实时修正模型；

（11）其最终样本会被标注到拓展词汇节点上，并通过向上查询，传递至所需叶子标签。

下面结合积极效果对本发明技术方案作进一步描述。

本发明的整个系统采用伪标签训练为主，人工干预为辅，解决项目冷启用问题，减少人工成本，并采用热更新模型方式，对人工标注数据进行实时修正，伴随项目推进及人工标注量的增加，可逐渐转为有监督的高质量模型，并进行落地。

且整个标签体系及拓展词汇采用树状结构，能够具有很好的可解释性，并有针对性的进行修改。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种交互式无监督标签分类方法，其特征在于，所述交互式无监督标签分类方法包括：构建伪标签数据集，利用伪标签数据集及预训练模型，对数据集进行无监督分类，通过增加拓展词汇，进行辅助分类，以及在预训练模型中增加负节点或负样本排除负样本作用范围内的空间；所述伪标签数据集的构建方法包括：

第一步，构建或选择标签体系；

第二步，基于已有知识库，对叶子节点标签进行拓展；

第三步，对待分类数据集进行清洗，过滤停用词，并提取关键词，及名词短语；

第四步，利用叶子节点标签及拓展词汇，采用关键词匹配方式，进行文档召回，构建伪标签数据集；

所述利用伪标签及预训练模型，对数据集进行无监督分类包括：

步骤一，词汇在预训练语言模型中的词向量作为词汇类别的中心节点；

步骤二，利用通用预训练语言模型在伪标签数据集上进行二次训练，不断逼近中心节点；

步骤三，使用二次训练后的伪标签数据集对伪标签数据集进行预测，移除低置信度的伪样本；

步骤四，重复步骤二和步骤三。

2.如权利要求1所述的交互式无监督标签分类方法，其特征在于，所述第二步对叶子节点标签进行拓展包括：同义词扩展，上下级词扩展。

3.如权利要求1所述的交互式无监督标签分类方法，其特征在于，所述通过增加拓展词汇，进行辅助分类包括：对效果差的分支，手动增加辅助词节点，并进行拓展类别的学习，学习其中心节点；

同时，可手工在标签节点上增加整理样本。

4.如权利要求2所述的交互式无监督标签分类方法，其特征在于，所述交互式无监督标签分类方法还包括：

（1）由专家构建产业链体系结构，确定标签；

（2）将标签基于合工大词林进行同义词拓展，基于百科知识进行下级词汇拓展，基于通用图谱知识库进行词汇拓展，基于近似向量进行词汇拓展；

（3）使用语义检索模型，获取拓展词汇的特征向量；

（4）基于语义检索，召回标签的相关近似文档，作为伪标签数据集；

（5）使用通用模型对伪标签数据集进行训练；

（6）在训练后，对伪标签数据集进行预测，过滤低质量的样本；

（8）在内平均相似度超过预定值后，进行第一次人工验证，检查拓展词汇的准确性，删除无用词汇，添加辅助词汇；

（9）在第一次人工验证后，进行第二次人工验证，对错误样本，设置为负样本，样本较少的标签节点添加样例样本；

（10）确定第一次人工验证和第二次人工验证的干预部分，使用局部数据进行二次训练，实时修正通用模型，确定最终样本；

（11）将最终样本标注到拓展词汇节点上，并通过向上查询，传递至所需叶子标签。

5.一种实施权利要求1~4任意一项所述交互式无监督标签分类方法的交互式无监督标签分类系统，其特征在于，所述交互式无监督标签分类系统包括：

标签体系构建模块，用于根据需求构建或选择标签体系；

还增加负节点或负样本，排除负样本作用范围内的空间。

6.一种无人飞行器，其特征在于，所述无人飞行器用于实施权利要求1~4任意一项所述的交互式无监督标签分类方法。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1~4任意一项所述的交互式无监督标签分类方法。

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1~4任意一项所述的交互式无监督标签分类方法。