CN101872343A

CN101872343A - 半监督式的海量数据层次分类方法

Info

Publication number: CN101872343A
Application number: CN200910030588A
Authority: CN
Inventors: 罗彤
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-04-24
Filing date: 2009-04-24
Publication date: 2010-10-27

Abstract

针对海量数据层次分类器人工标注时间多、花费大的问题，本发明提出一种半监督式的海量数据层次分类方法，包括以下步骤：对网页库中的网页进行特征提取；在已有的层次分类本体库上，利用规则集和扩展规则来自动产生叶节点的训练集；对已有的各个叶节点的网页进行聚类，在聚类的基础上对未标注集进行分类，并把未标注集中与训练集相似的例子加入相应叶节点的训练集，从而扩大了训练集的规模；使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练；如果分类器的结果满足停止条件，则停止，否则进行至步骤F；用通过步骤C，D建立的层次分类器来对未标注进行分类；并且把具有高信心度分类的网页加入训练集；返回步骤C，重复步骤C-F。

Description

半监督式的海量数据层次分类方法

技术领域

本发明涉及数据挖掘，机器学习和自然语言处理领域，是一种对海量文本数据的半监督层次分类方法，即一种半监督式的海量数据层次分类方法。

背景技术

随着我们进入信息爆炸的时代，互联网为人们提供了大量知识和内容，网上的知识对人们的衣食住行提供了极大的帮助。Google，百度，搜狗和有道等网站提供了中文搜索的业务，人们可以通过对关键词检索来找到相关信息的网页。然而，基于关键词的检索经常无法提供人们所需求的网页，用户需要自己浏览大量的搜索结果最终找到需要的网页。所以，基于语义的搜索引擎最近引起了人们的极大兴趣并成为行业的热点。语义搜索通过对网页内容的概念和概念间的关系提取，层次分类和情感分析来准确的理解挖掘网页内容的含义，从而方便人们对内容的查找。

海量文本的层次分类是语义分析和搜索的一个重要环节，对网页准确的层次分类能够帮助对网页整体内容的语义理解。图1是一个网页层次类别的例子，每一个节点代表一个类别，父子节点之间是相互包含或从属的关系。例如节点“机器学习”是“人工智能”的一个子节点，节点“人工智能”是“计算机”的一个子节点，而节点“计算机”是根节点的一个子节点。

然而目前应用的层次分类器具有如下缺陷：

1.当层级结构庞大的时候，需要大量的人工标注来为分类器提供训练集，以达到所需要的分类精度，而这个人工标注所需的时间和花费都是很大的。

2.高精度的文本分类器(正则化的线性分类器，包括支持矢量机)的训练需要大量的运行时间，无法对海量文本数据建立分类模型。

发明内容

为解决以上的问题，本发明提出一种半监督式的海量数据层次分类方法(半监督的海量层次分类器)，用来减少人工标注量；并且能够解决在海量数据下使用高精度分类器进行建模。

针对现有研究和应用中所存在的问题，本发明使用了半监督的学习方法(semi-supervisedlearning)来减少人工标注训练集的工作量，同时提出了随机渐进式地方法来训练正则线性分类器，使分类器能够利用海量文本数据来训练并产生高精度的分类模型。

本发明的基本思路是对层级结构中每一个节点(非根节点)建立一个分类器来对流经其父节点的网页分类至其子节点；我们在各节点选用高准确度的正则线性分类器来提高分类效果；在训练过程中我们使用随机梯度下降(Stochastic gradient decent)的方法来对海量训练集进行多次遍历，将计算复杂度降低到O(N)，从而解决了大规模数据集的训练问题。该层次分类器的分类步骤如下：

A、对网页库中的网页进行特征提取；

B、在已有的层次分类本体库上，利用规则集和扩展规则来自动产生叶节点的训练集；

C、对已有的各个叶节点的网页进行聚类，在聚类的基础上对未标注集进行分类，并把未标注集中与训练集相似的例子加入相应叶节点的训练集，从而扩大了训练集的规模；

D、使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练；

E、如果分类器的结果满足停止条件，则停止，否则进行至步骤F；

F、用通过步骤C，D建立的层次分类器来对未标注进行分类；并且把具有高信心度分类的网页加入训练集；

G.返回步骤C，重复步骤C-F。

步骤C中对叶节点内的网页聚类产生虚拟的子叶节点，并使用虚拟子叶节点来构造中心分类器，对未标注集的网页分类，从而扩大训练集。步骤D中使用随机梯度下降的方法来对每个节点的正则线性分类器进行训练，从而将训练的计算复杂度下降到线性。步骤F中把具有很高信心的分类结果加入训练集，从而帮助扩展训练集，提高分类器的准确率。

下面详细说明各步骤。

步骤A是对所有网页集进行特征提取，把网页的文本转化成一个特征矢量。其具体过程包括对网页或文本的内容提取，分词，计算词频，词性标注，词语过滤(过滤高频，低频和垃圾词)，建立词表，以词语为坐标把每个网页映射成为各个特征向量，之后使用tf-idf或者其他的一些权重计算方法对特征向量进行转化。

步骤B假设我们已经拥有一个概括多层级概念关系的层级结构或本体库。该层级结构图可用于用户自己构建的领域分类，或者yahoo的open directory，DMOZ的层级结构。假设该层级结构图中的叶节点名称有较好的描述性，我们可以使用规则集来自动产生与各叶节点类别相对应的初始标注集。例如节点K“机器学习”，我们可以使用如下规则集进行分类：

如果该页面对应的链接锚文本含有词语“机器学习”或“机器学习”的同义词，那么这个网页属于节点K；

如果页面主题(title)含有词语“机器学习”或“机器学习”的同义词，那么这个网页属于节点K；

这些关键词的同义词可以来自语料库，如英文的WordNet，中文WordNet，知网；也可以来源于对搜索引擎的查询日志分析；也可以来源于对于各叶节点的类别与关键词的关联关系。这样，我们通过这些规则集把一部分网页分类到各个叶节点，构成初始训练集。

步骤C首先对每个叶节点内的网页进行聚类，可以使用任何运行速度较快的聚类算法，例如k-means聚类方法。其目的是把各叶节点中松散关系的网页分配到概念紧密的子类中，帮助下一步使用中心分类器(Centroid classifier)，并对未标注集进行分类。当训练集中的网页都在概念紧密的子类之中，我们使用各子类中的网页来构造中心分类器，并对未标注集进行分类。这样，各叶节点下的训练集网页数目得到大大的增加。

步骤D使用随机渐进式的训练方法来对正则线性分类器进行学习。一般的正则线性分类器是优化目标函数E(x，y)，其中L(y，<w，x>)可以使用不同的方程来定义错误函数，λ是正则因子，用来防止过度训练(overfitting)的。

E (x, y) = \frac{1}{N} Σ_{i = 1}^{N} L (y_{i}, < w, x_{i} >) + λΛ (w)

支持向量机是正则线性分类器的典型例子，模型的训练要通过Quadratic programming或者SMO(Sequential minimal optimization)来完成，训练的算法复杂度是在O(N2)和O(N3)之间，N是训练集中标注例子的数目。因此在海量数据的情况下，使用支持向量机是无法完成训练过程的。为了解决这个问题，我们使用了随机梯度下降的方法来进行训练，这样通过多次遍历训练集和使用随机梯度下降方法，优化函数E(x，y)达到收敛。为了进一步提高收敛速度，我们还可以选择将正则因子置零，而使用在校验数据集上的早停止(early stop)的方法来防止过度训练。

步骤E的停止条件一般可选择：

Ⅰ.在有校验集的情况下，可参考校验集的准确率，以连续几个遍历中准确率没有上升作为停止条件；

Ⅱ.在没有校验集且正则因子不为零的情况下，可以根据E(x，y)在连续几个遍历中无显著变化作为停止条件；

Ⅲ.当遍历训练集的次数达到一定数目的时候。

一般在数据量很大的情况，遍历几次即可停止。

步骤F利用建好的层次分类器对所有未标注数据进行分类，同时将分类信心度高的例子加入训练集。

附图说明

图1为多层级概念关系的示意图

图2是本发明的半监督层次分类流程图

具体实施方式

一种半监督式的海量数据层次分类方法，使用半监督的学习方法(semi-supervised learning)来减少人工标注训练集的工作量，同时提出了随机渐进式地方法来训练正则线性分类器，使分类器能够利用海量文本数据来训练并产生高精度的分类模型。

A、对网页库中的网页进行特征提取；

G.返回步骤C，重复步骤C-F。

下面详细说明各步骤。

E (x, y) = \frac{1}{N} Σ_{i = 1}^{N} L (y_{i}, < w, x_{i} >) + λΛ (w)

步骤E的停止条件一般可选择：

Ⅲ.当遍历训练集的次数达到一定数目的时候。

一般在数据量很大的情况，遍历几次即可停止。

下面结合图2来说明半监督式的海量数据层次分类过程。

步骤S1使用叶节点名称的同义词和近义词而产生的规则集，把一些网页分类到各叶节点中。

步骤S2使用k-means或者其他的快速聚类器，把每个叶节点下的网页在进行聚类，产生虚拟的子叶节点。

步骤S3计算虚拟的子叶节点中网页的中心矢量(centroid)d，并且使用最近距离的方法来对未标注网页进行分类。如果以下表达式为真，即x_i(网页i的特征矢量)与d的相似度大于阈值f，则我们认为x_i属于该子叶节点所对应的叶节点。

(x_i，d)＞f

步骤S4使用随机梯度下降的方法来对训练集进行多次遍历，训练新的层次分类器。假设E(x，y)是前面提到的正则分类器的优化函数

E (x, y) = \frac{1}{N} Σ_{i = 1}^{N} L (y_{i}, < w, x_{i} >) + λΛ (w)

随机梯度下降是通过训练集中每一个网页矢量x_i的优化函数的相对w的梯度方向来进行权重更新。其中α是步长。在初始训练时，我们使用较大的步长来增加收敛速度；而在训练临近结束时，我们使用较小的步长来找到最优点。我们经常对α进行指数级的衰减来实现这一目的。

w &LeftArrow; w + {α &dtri;}_{w} E (x_{i}, y)

步骤S5判断是否停止对节点的训练。这里如果某一节点满足停止条件，则停止对该节点的训练，其他节点的训练继续进行。只有当所有节点都满足停止条件时，我们才会停止对整个层次分类器的训练。

步骤S6使用S4步骤产生的层次分类器来对未标注集进行分类。(w_k，b_k)代表第k个节点分类器，b_k是分类器的阈值。当o_ki＞0，网页x_i属于k节点。

o_ki＝<w_k，x_i>+b_k。

Claims

1.一种海量数据的半监督的分类方法，其特征在于混合使用监督和无监督的机器学习方法来减少对人工标注的依赖，使用随机梯度下降方法来训练海量数据的正则线性分类器，其训练过程包括如下步骤：

A、对网页库中的网页进行特征提取；

2.根据权利要求1所述的海量数据的半监督的分类方法，其特征在于步骤B中使用叶节点名称的同义词或者近义词生成规则集，利用规则集把网页分类到各个叶节点。

3.根据权利要求1所述的海量数据的半监督的分类方法，其特征在于步骤C中对叶节点内的网页聚类产生虚拟的子叶节点，并使用虚拟子叶节点来构造中心分类器，对未标注集的网页分类，从而扩大训练集。

4.根据权利要求1所述的海量数据的半监督的分类方法，其特征在于步骤D中使用随机梯度下降的方法来对每个节点的正则线性分类器进行训练，从而将训练的计算复杂度下降到线性。

5.根据权利要求1所述的海量数据的半监督的分类方法，其特征在于步骤F中把具有很高信心的分类结果加入训练集，从而帮助扩展训练集，提高分类器的准确率。