CN101727500A

CN101727500A - 一种基于流聚类的中文网页文本分类方法

Info

Publication number: CN101727500A
Application number: CN201010034107A
Authority: CN
Inventors: 卞小丁; 袁睿翕; 孙立远
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2010-06-09

Abstract

本发明涉及一种基于流聚类的中文网页文本分类方法，属于互联网数据挖掘技术领域，该方法包括：实时采集网页；去除未处理过的该网页的格式中的标签，解析出网页中各文本的特征信息；将文本内容分割、做ngram分词，形成多个词串；计算每个词串的权值；提取高权值词串，将该高权值词串及其相应权值作为特征向量；将特征向量以及特征信息与已有类进行相似度的计算；并计算得到的总的相似度，将文本归入已有的一类中或建立一个新类；根据已存在的类中的特征项数量，判断是否将该类分裂成两个子类；对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息，使该方法具有增量式、快速、有效及更实用的特点。

Description

一种基于流聚类的中文网页文本分类方法

技术领域

本发明属于互联网数据挖掘技术领域，特别是涉及一种对于海量网页文本的聚类方法。

背景技术

随着计算机网络技术的快速发展和推广，网络数据急剧膨胀，这些数据具有更新速度快、数据量庞大、数据组织形式不规范等特点，但也蕴藏着极多的有价值信息。如何从这些海量数据中提取出有效信息成为人们关注的热点。

为了能对海量数据进行有效分类，目前人们主要基于流聚类方法对海量数据进行分类，这种方法的基本思路是：只对数据进行一次扫描，扫描一条处理一条，按照数据的特征信息将该数据归入类中，类的表示方法为类中数据的特征信息的加权，这样便于进行类的更新操作。

将这种通用的流聚类方法应用到网页文本上存在的主要问题是：网页文本的特征信息除了正文之外还包含标题、作者、发表时间等，而且网页文本经过预处理之后的数据单元往往是高维的而且维度不定，分析起来难度更大。

发明内容

本发明的目的在于克服已有技术的不足之处，提出一种中文网页文本的聚类方法，将流聚类方法应用到网页文本聚类上，本方法针对网页文本的特点充分挖掘了它的有效信息，使该方法具有增量式、快速、有效及更实用的特点。

本方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成；

文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成；初始化时文本类数量为0；

该方法包括以下步骤：

1)通过网页爬虫从Internet的新闻站点上实时采集网页；

2)对采集到的网页做预处理，首先判断该网页是否已经处理过，如果是，则丢弃，如果未处理过，则去除该网页格式(html)中的标签，解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些信息)作为特征信息；

3)根据文本的中文编码标准对该文本进行解码，将文本内容分割成一个个单独的字，然后对标题、标签和正文做ngram分词，形成多个词串；

4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值；

5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串，并对所述高权值词串进行归一化处理，使该词串的权值和为1，将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量；

6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算；

7)根据步骤6)中计算得到的总的相似度，将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类；

8)判断已存在的类中的正文特征向量的特征项数量，若该数量大于设定值，则将该类分裂成两个子类，以防止类的无限膨胀；

9)对已处理的文本记录和已有的类的信息进行储存，以在下次启动聚类过程时利用这些信息。

本发明的中文网页新词自动获取方法与现有的技术相比，具有以下优点：

1、采用网页爬虫从大型门户网站上获取WEB数据来进行分析；

互联网是当前发布和传播信息的主要途径，而大型门户网站的数据具有较强的实时性、可靠性和较高的覆盖程度，能够较好的反应当前舆论动向，数据的分析结果也就具有更高的实用价值。

2、采用ngram方法进行中文分词；

相比基于词典查找的中文分词方法，ngram分词方法简便易行，处理效率高，词的覆盖率宽，不会遗漏最新出现的网络词汇。

3、充分利用网页中的有效信息；

网页文本中除了正文部分以外，往往还含有其他的有用信息，这些信息对于进行文本分析都是有用的，本方法中充分考虑了这一点，针对不同的信息引入不同的衡量公式，以达到更好的分析结果。

4、引入了类的合并与分裂，防止类的畸形发展；

随着文本的不断输入，传统的聚类方法往往会出现类的数量急剧增多、文本的集中化分布、类的容量过大等情况，本方法对类的生成、分裂和合并等过程进行了程式化描述，以防止类的畸形发展。

5、本方法具有较高的运行速度；

对于海量数据的处理往往会遇到算法复杂度过高，运行速度较慢的情况，本方法还可采用多线程并行处理和分片处理等机制来改进运行速度，获得了理想的效果。

具体实施方式

本发明提出的一种基于流聚类的中文网页文本分类方法及实施例详细描述如下：

首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成；

文本类为在某一时刻t到来的一组发表时间为T₁，T₂，...T_n(以天为单位)的相应文本P₁，P₂，...P₃的集合，该类结构由多个特征向量及类的权值和更新时间组成，表示为(

，ω，t)，其中

分别为该类中的所有文本的标题向量、标签向量、正文向量、作者向量、相关博文链接向量的加权线性和；

表示该类的权值，f(t)＝2^-λt为衰变函数(λ推荐取0.1，即以10天为半衰期)，t为该类中距离当前时间最近的文本的发表日期，

本方法具体包括以下步骤：

1)通过网页爬虫从Internet的新闻站点上实时采集网页；

本实施例的网页爬虫可以使用开源的爬虫，或者自己开发的爬虫，例如通过借助RSS从新浪或搜狐博客站点持续更新博文网页；

2)对采集到的网页做预处理，首先判断该网页是否已经处理过，如果是，则丢弃，如果未处理过，则去除网页格式(html)中的标签，解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些项)作为特征信息；

本实施例可利用开源的网页解析软件、开发包，或者通过简单的正则匹配的方式对采集到的网页进行解析，提取文章的作者、标题、标签、正文、发表时间、相关链接作为特征信息；

3)根据文本的中文编码标准对该文本进行解码，将文本内容分割成一个个单独的字，然后然后对标题、标签和正文做ngram分词，形成多个词串；本实施例的具体步骤如下：

31)中文网页通常采用定长形式的GBK编码或者不定长形式的UTF8编码，首先判断其编码方案，然后根据解码规范对其进行解码，将文本内容分割成一个个单独的字；

32)利用ngram分词方法对分割后的文本进行分词，顺序将临近的n个汉字聚聚集在一起形成一个词串(比如一句话“我爱中国”，n取为2时，可以得到如下三个词串：“我爱”、“爱中”、“中国”，n可以取1、2和3，或根据需要取值)；

41)TF*IDF是文本处理中计算词串权值的经典公式，词串i的权值wt_i计算公式为

其中tf是该词串在该文本中出现的频率，N为处理过的文本总数，由统计可以得到，n_i为处理过的文本中包含该词串的文本数；N、n_i、i均为正整数；

42)维护一份词串索引表，通过多线程和哈希的方式将词串索引表分成256个子表，该词串索引子表以词串为索引，记录处理过的文本中包含该词串的文本数以及这些文本的链接地址；

由于ngram分词后的词串量往往在千万数量级，数据库在维护这个量级的索引表时操作速度很慢，为了解决这个问题，本实施例通过多线程和哈希的方式将词串索引表分成256个子表，每个子表对应一个线程，对于一个新的词串，根据词串的哈希值将其分给某一个线程，由该线程将词串插入或更新到子索引表中；

一方面分表方式可以大大减小每个表中词串的数量，另一方面，绑定线程的方式可以实现并行操作，当数据表锁定时(修改或查找数据时)可以进行其他操作而不是等待直到解锁。这种方式可以大大提高词串索引表的读取、插入和更新速度；

43)对于该文本中的每一个词串，从词串索引子表中读取n_i，即处理过的文本中包含该词串的文本数，根据步骤41)的公式对该词串权值进行计算，最后对词串索引子表中该词串项进行更新；

5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串，并对这些高权值词串进行归一化处理，使词串的权值和为1，将这些高权值词串及其相应权值作为该文本的标题、标签和正文特征向量；

本实施例的具体步骤如下：

51)将该文本中的词串按照权重进行排序，取前1/12的词串为高权值词串，若该文本中有200字，则由于ngram通常用到一元、二元和三元，则会得到600个词串，取前1/12高权值词串即取前50高权值词串，也可根据需要调整高权值词串数。

52)对提取后的高权值词串做归一化处理，使该高权值词串的权值和为1。将这些高权值词串及其相应权值作为该文本的标题、标签和正文特征向量；

6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算；本实施例相似度计算方法如下：

将该文本的各个特征向量与已有类进行特征相似度的计算，其中标题、标签和正文向量用TF*IDF模型对其建模，然后用余弦相似度计算公式来计算与类的相应特征向量之间的相似度，对于作者和相关链接特征信息，用如下公式计算与类相应特征向量的相似度：S(a，t)＝∑e_i·w_i，e_i∈L(a)∩L(t)，其中e_i表示同时属于该文本与该类的作者或相关链接，w_i表示e_i在该类中所占的比重，最后该文本与类之间的总的相似度为各特征相似度加权，该文本的发表日期只用于归类时根据类权值计算公式对类的权值进行更新；

7)根据步骤6)中计算得到的总的相似度，将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类；本实施例具体包括：

71)如果该文本与类之间的最高相似度高于预先设定的阈值(经验值，通常取0.1到0.3)，则将当前文本归于相应的最高相似度类中，如果该类新加入的该文本的发表时间T＞t，则该类结构更新为(

，f(T-t)ω+1，T)，如果T＜t，则该类结构更新为(

，ω+f(t-T)，t)；

72)如果该文本与类之间的最高相似度低于该阈值，但是类的数量已经达到上限(该实施方案中限定类的数量上限为30个，根据存储容量设定，一般为20到50)，则需要对已存在的类进行合并，计算类与类之间的相似度，并对相似度最高的两个类进行合并，合并时取原来两个类中各特征量的高权值部分(前1/3)组成新类的相应特征量；合并次数可以根据需要设定；若待合并的类从创建时间到当前时刻系统处理过的文本总数未达到下限(例如1000篇，根据类的储存容量设定，一般为1000到3000)则不允许对该类进行合并；

73)如果该文本与类之间的相似度低于该阈值，而且类的数量未达到上限，则以该文本的特征信息为基础建立一个新类；

8)判断已存在的类中的正文特征向量的特征项数量，若该数量大于设定值(例如20000个，根据存储空间设定)，则将该类分裂成两个子类，以防止类的无限膨胀；

当类的正文特征向量的特征项数量高于一定数量时，对该类进行分裂，分裂时先去掉类中各特征向量中的一半低权值数据项，然后根据类中各特征向量中剩余数据项的权值分布，用信息熵或者方差来衡量，计算数据项的权值分布的信息熵值δ，设数据项总数为n，当

(α取0.7到0.9)时，将该类拆分为两类，分类时将各特征向量的剩余特征项的高权值项归入一类，低权值项归入另一类；

每当该方法处理完一定数量的文本(例如1000篇)或者发生异常中断时都会对已处理的文本记录和已有的类的信息做一次储存，主要包括：

91)当前时刻每个类的特征向量(已有的类的信息)；

92)已经处理过的网页的哈希表(已处理的文本记录)，用于防止同一篇网页的重复处理；该实施例维护一个64M长度的哈希表，每个哈希项占位1bit，共8M byte，对于每一个处理过的网页将其链接地址(URL)映射到该哈希表中；

Claims

1.一种基于流聚类的中文网页文本分类方法，其特征在于，该方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成；文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成；初始化时文本类数量为0；

该方法包括以下步骤：

1)通过网页爬虫从Internet的新闻站点上实时采集网页；

2)对采集到的网页做预处理，首先判断该网页是否已经处理过，如果是，则丢弃，如果未处理过，则去除该网页格式(html)中的标签，解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接作为特征信息；