CN107633009A

CN107633009A - 一种基于标记置信度的弱监督文档分类方法

Info

Publication number: CN107633009A
Application number: CN201710690612.1A
Authority: CN
Inventors: 张敏灵; 唐才智
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2018-01-26

Abstract

本发明公开了一种基于标记置信度的弱监督文档分类方法，该方法适用于主题有歧义的样例文档的文档分类方法。该方法包括以下步骤：(1)用户从包含主题的歧义的文档库中选择样例文档，其中样例文档需要涵盖各个类型文档，且数目大致均衡；(2)使用标记置信度的方式表示标记信息；(3)使用预设的分类方法对转换后的文档对象进行学习；(4)根据学习所得的预测模型对文档存储设备中的文档进行分类；(5)如果用户对上一步预测的结果满意则结束，否则从有歧义的文档库中选择更多的样例进行反馈，转到步骤(2)。

Description

一种基于标记置信度的弱监督文档分类方法

技术领域

本发明涉及一种文档分类方法，具体是一种基于标记置信度的弱监督文档分类方法，属于弱监督文档分类技术领域。

背景技术

随着互联网技术的高速发展与普及，web文档以指数量级增长。海量的文档更好更准确地满足用户的需求的同时，文档的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术，该方法根据用户提交给分类装置的样例文档，对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程，使用机器学习的技术对用户提交的样例文档进行学习，最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。

使用机器学习的技术进行文档分类需要有大量的已分类样例文档，而这些已分类文档需要耗费人力进行标注。但是实际上获取大量主题不明确或者是有歧义的样例文档很容易，例如一篇新闻报道中出现了经济、体育和科技等领域词汇，可以很容易确定这篇报道是属于经济、体育或者科技三者之一为主题的文档，但是更加精确的主题则需要人工标注。而现有的一些文档分类技术需要类别明确的样例文档，需要耗费较大的代价，无法利用这类主题有歧义的样例文档实现文档自动分类。

发明内容

发明目的：本发明针对现有的文档分类技术依赖大量的已正确、精确分类的样例文档的问题，提出一种能够利用有歧义类别的样例文档的文档分类方法。该方法使用置信度的方式表示样例文档的各个候选类别是其真实类别的概率，使用迭代学习的方法在每轮学习过程中更新各个样例文档的候选类别置信度，然后再在更新标记置信度后的样例文档上进行学习如此进行T次，从而提高文档分类装置的性能。

技术方案：一种基于标记置信度的弱监督文档分类方法，利用大量的具有模糊类别的样例文档，采用适用于文档类别信息较少的弱监督文档分类技术。该方法包括以下步骤：(1)用户从已有的具有模糊类别的文档库中选择样例文档，其中样例文档需涵盖各种类型的文档；(2)在这些类别信息模糊的样例文档上使用弱监督学习技术进行学习得到一个预测模型；(3)利用上一步中得到的预测模型对用户提交的类别未知的文档进行预测，得到一个预测类别；(4)如果用户对分类结果满意，则执行步骤5，否则从多主题文档库中选择更多的样例文档进行反馈，执行步骤2；(5)结束。

有益效果：现有的基于机器学习的文档分类技术都需要大量的正确、精确分类的样例文档。本发明基于标记置信度的弱监督文档分类方法，其使用大量主题有歧义的样例文档进行学习，最后获得性能较好的模型。由于这些主题有歧义的样例文档不需要人工标注，相比于其他基于传统监督学习的方法节省了大量人力成本。

附图说明

图1是文档分类装置的工作流程图；

图2是本发明方法的流程图；

图3是对初始样本构造标记置信度的流程图；

图4是本发明采用的分类方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，文档存储设备中存放的是待分类的文档，此外有一个包含大量主题有歧义的文档库，每篇主题有歧义的文档对应多个概念标记但是其中只有一个是该文档的真实标记。用户从主题有歧义的文档库中选取M篇样例文档提交给文档分类装置，选取的各个类型的文档数目应大致均衡。目前大多数中文文本分类系统都采用词作为特征项，而实际由于将所有的词作为特征词将会使得特征向量的维度很大给计算带来很大的困扰，常常会使用一些针对文本的特征降维的技术例如词频(Term Frequency，记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency，记为TF-IDF)等。在文档特征抽取后，将主题有歧义的样例文档的类别信息转化成标记置信度形式，然后使用预设的分类方法训练得到相应的预测模型，最后利用上一步得到的模型对文档存储设备中未分类的文档进行分类，如图1所示。如果用户对所得结果不满意，可以从文档库中选取更多的样例文档反馈给文档分类装置。

本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档对应集合其中S_i是与文档x_i对应的候选标记集合 (S_i＝{1，...，r_i})，文档x_i的真实标记记为y_i(y_i∈S_i)，是未知的。在步骤11中，样例文档的候选标记集合信息转化成标记置信度的形式，具体转化在图3中介绍。在步骤12中，使用预设的分类方法在基于标记置信度的样例文档上进行迭代学习，得到预测模型，具体学习过程在图4中进行介绍。在步骤13中，利用步骤 12得到的预测模型对文档存储设备中的未分类文档进行分类。最后进入步骤14 结束状态。

图3给出了步骤11的详细描述。具体对于一个标记有歧义的文档(x_i，S_i)来说，本算法将原来包含真实标记的候选标记集合S_i转化成标记置信度 p_i＝[p_i1，…，p_iq]，其中p_ij表示样例文档x_i的真实标记是j的概率。从1101到1103 构成一个循环，在循环中每一次会将一个样例文档的候选标记集合转化成置信度的形式。1104步骤是结束。

图4给出了步骤12的具体实现，描述了如何使用预设的分类方法在有歧义的文档库中学习得到相应的预测模型。图4的步骤1201到1206构成一个循环，每一轮利用上轮经过调整的标记置信度进行训练，得到一个基分类模型。如此经过T轮迭代后得到T个基分类模型，将这T个基分类模型组合起来得到最终的分类模型。其中，1203步骤是通过优化基于标记置信度的损失函数(目标函数):

θ^(t)指的是在第t轮训练的模型参数，g(.)是基分类器，是在t轮迭代中p_ij表示样例文档x_i的真实标记是j的概率，

S_i是样例文档x_i的类别，是在第t轮训练中样本x_i的权重系数，其初始值为步骤1204是计算上一步中计算得到的模型在训练集上的误差率r^(t)和因子α^(t):

在训练集上的误差率在一定程度上表示了本轮训练得到的基分类器在用户提交的文档库的拟合程度。步骤1205是根据本轮训练的结果对样本权重(w^(t))和置信度(P^(t))矩阵进行更新:

步骤1207是结束状态。经过T轮迭代学习后最终的分类模型是前面T次学习的基分类模型的线性组合：

本发明在训练过程中可以使用主题有歧义的样例文档进行训练，不需要用户提交主题明确的样例文档作为训练集，如此可以减少大量的人力成本。

Claims

1.一种基于标记置信度的弱监督文档分类方法，其特征在于：包括以下步骤：

1)用户从包含主题的歧义的文档库中选择样例文档，其中样例文档需要涵盖各个类型文档，且数目均衡；

2)使用标记置信度的方式表示标记信息；

3)使用预设的分类方法对转换后的文档对象进行学习；

4)根据学习所得的预测模型对文档存储设备中的文档进行分类；

5)如果用户对上一步预测的结果满意则转到步骤6，否则从有歧义的文档库中选择更多的样例进行反馈，转到步骤2；

6)结束。

2.如权利要求1所述的基于标记置信度的弱监督文档分类方法，其特征在于：步骤2使用标记置信度表示主题有歧义的文档的标记信息，具体包括：

假设用户提交的样例文档对应集合其中S_i是与文档x_i对应的候选标记集合(S_i＝{1，…，r_i}，r_i是样本x_i的对应的候选标记数目)，文档x_i的真实标记记为y_i(y_i∈S_i)，是未知的；记p_ij为样本x_i的标记为y_j的概率，计算公式如下所示：

3.如权利要求1所述的基于标记置信度的弱监督文档分类方法，其特征在于：步骤3使用预设的算法对转换后的文档进行学习；具体过程如下所示：循环调整的标记置信度，每一轮利用上轮经过调整的标记置信度进行训练，得到一个基分类模型；如此经过T轮迭代后得到T个基分类模型，将这T个基分类模型组合起来得到最终的分类模型。

4.如权利要求3所述的基于标记置信度的弱监督文档分类方法，其特征在于：初始化权重矩阵w⁽⁰⁾：

优化基于标记置信度的损失函数

计算上一步中计算得到的模型在训练集上的误差率r^(t)和因子α^(t)：

5.如权利要求4所述的基于标记置信度的弱监督文档分类方法，其特征在于：在训练集上的误差率在一定程度上表示了本轮训练得到的基分类器在用户提交的文档库的拟合程度；根据本轮训练的结果对样本权重(w^(t))和置信度(P^(t))矩阵进行更新：

经过T轮迭代学习后最终的分类模型是前面T次学习的基分类模型的线性组合：