CN101059805A

CN101059805A - 基于网络流和分层知识库的动态文本聚类方法

Info

Publication number: CN101059805A
Application number: CN 200710038634
Authority: CN
Inventors: 闵可锐; 刘昕; 刘百祥; 闫华
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2007-03-29
Filing date: 2007-03-29
Publication date: 2007-10-24

Abstract

本发明属于信息处理和网络安全技术领域，具体为一种基于网络流和分层知识库的动态文本聚类方法。本发明首先假设存在分好的文档类别具有向量型的特征，对单篇分词后的文章通过TFIDF方式提取特征并归一化，用知识库中定义语义距离的方法来计算文章和类别的距离，并对新增加文档的类别不断调整更新关键词和权重；若当前文档不能与已知的任意类进行合并时，就需要建立新的类。算法的过程包括：动态特征向量提取、类别归并、距离求解、类别合并和建立新类等。本发明的特点是：根据分层知识库所提供的语义信息进行聚类而非关键词聚类；可以动态去除噪音数据；相似度采用网络流算法计算，以保证求得最优匹配。利用该方法，可以满足Web文本实时更新聚类的需求，而且是无监督型，无须预先指定类别集合。

Description

基于网络流和分层知识库的动态文本聚类方法

技术领域

本发明属于信息处理和网络内容安全技术领域，具体涉及一种基于网络流和分层知识库的动态文本聚类方法。

技术背景

今天生活在信息爆炸的时代，据有关资料显示，到2003年全世界互联网网页总数达到了131亿。有专家预测，中文将成为互联网上最大的语种之一。互联网也已经成为人们发布和获取信息的重要渠道。新闻、论坛和博客等网络媒体在中国已发展成为洞察社会舆论的重要窗口，网络舆论对公众思想和政府决策发挥着越来越大的影响。中国互联网覆盖范围不断扩大，中国网民言论之活跃已达前所未有的程度，互动式的网络评论以其快捷、尖锐的特点，已显示了其不可忽视的力量。网络舆论正在发挥其强大的威力。

在网络舆论蓬勃发展的同时，由于网络信息发布具有无地域性和匿名性等特点，各种信息难以进行有效的监督和管理。互联网上充斥着虚假广告信息和各种非法言论，对网络舆论导向造成了严重的影响。如何在互联网这个信息的“汪洋大海”中“大海捞针”，如何快捷准确地获取感兴趣的信息成为当前及今后相当一个时期急待解决的重要课题。由此引发的许多工作，特别是中文和汉语环境下的信息处理和自然语言处理应用的诸多技术难题等待着人们去解决。

本发明拟解决的问题是通过结合网络流和分层知识库的方法来实现网络动态文本聚类。网络文本聚类是数据对象划分的一个过程，也是寻找等价集合的一个过程。聚类是一个无指导的学习过程[1，2]，目标是将随机分布的样本点划分到已经存在或还未存在的集合当中。一般而言，文本聚类方法可以分为：

1.划分方法：K-平均、K-中心等。

2.层次方法：CURE等。

3.基于密度的方法：DBSCAN、OPTICS等。

4.基于网格的方法：STING等。

5.基于模型的方法：神经网络等。

Web文档有着最明显的两个特点，第一是数量庞大，第二是更新迅速。因此，要求聚类算法的复杂度不能过高，一个时间复杂度高于0(n²)的聚类算法是很难在短时间完成上万个文档聚类的。同时，要求算法对于单文档的增加或删除所花费的代价不能太大。上述经典的聚类算法都难以同时满足这两点要求，许多算法对于一篇文章的增加必须将n篇文章全部重新计算，所花费的时间是难以承受的。

参考文献

[1]Jiawei Han，Kamber M数据挖掘概念与技术[M].北京：机械工业出版社.2005

[2]邵峰晶，于忠清.数据挖掘原理与算法[M].北京：水利水电出版社.2003

[3]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京：中国科学院.2000

[4]Gruber M，Neuner P，Puchinger J.Klassi-kation der Min Cost Flow Algorithmen[EB/OL].[2006-5-13]

http：//www.ads.tuwien.ac.at/teaching/ws04/AlgoGraph/solutionU2A5.pdf

[5]WANG JM.Text Clustering II[EB/OL].[2006-5-13]

http：//net.pku.edu.cn/~wbia/2004/public_html/slides/Week10-Text％20Clustering％20II.pdf

[6]鲁松，李晓黎，白硕，王实.文档中词语权重计算方法的改进[J].中文信息学报，2000(6)：8-13，20

[7]郑宗汉，郑晓明.算法设计与分析[M].北京：清华大学出版社.2005

[8]http：//wordnet.princeton.edu/

符号表(在本发明的全部文档中所采用符号的含义)：

W_i：文档中的单词(经过分词和过滤后余下)。

Sim(W_i，W_j)：单词W_i与W_j的相似度。

TF：一个词在一篇文档中出现的频率。

t：文档集中的单词数量。

N：文档集中的文档数量。

DF_i：文档集中包含单词i的文档数。

L：表征一篇文档的向量维度。

L_c：文档类别的向量维度。

f(W_i)：关键词权重。

θ：预定义的相似度阈值，可人工调整以干预聚类的程度。

LCA(A，B)：树中两个节点A，B的最近公共祖先，为从两个节点到根结点的路径中首次交汇的节点，

Dist(x，y)：同义词词林中两个节点x，y之间的距离长度，

|LCA(A，B)|＝Dist(LCA(A，B)，A)+Dist(LCA(A，B)，B)：树中两个节点A，B的最短距离，TF·IDF：词频/反转文档频率公式，描述文档中单词权重。

发明内容

本发明的目的是提供一种无监督的基于网络流和分层知识库的动态文本聚类方法。

本发明提出的动态文本聚类方法，首先，提取文本动态特征向量：用词频/反转文档频率公式TF·IDF和归一化的方法提取文章的特征，包括从文本中提取关键词和计算权重，并建立类别特征向量和文本特征向量；然后把文档样本和类别映射成网络流图，这样就把类别归并的方法变成网络流的最大费用流的问题，并进行类别归并；在计算的过程中，通过定义5层词典结构的词群距离来计算文档和类别的相似度。然后进行类别合并：由于聚类(即类别合并)的过程是一个开放的，不断形成的过程，类别的关键字随着类别的变化并不能完美地反映类的特点。因此对新加入的文档，类别的关键词和权重需要进行调整更新。即根据TF、IDF公式计算新加入的文本特征和类别文本特征，进行加权调整，将不断地剔除掉那些权重小于一定阈值(预先设定)的关键字，保留语义合并后权重最高的特征，并作为该类新的表示向量，进而建立新的类别。

本发明的优点在于，首先根据分层知识库所提供的语义信息进行聚类而非关键词聚类；其次可以动态去除噪音数据；第三，相似度采用网络流算法计算，以保证求得最优匹配。利用该方法，可使满足Web文本实时更新聚类的需求，而且是无监督型，无须预先指定类别集合。另外，该方法极大降低过程中用户的参与度，应用系统无须像在ISODATA算法中那样有多达6个参数需要调整。

本发明不仅可以用于海量文本的语义分析与处理系统，也可以应用于信息处理和网络内容安全等其它领域。

下面对本发明的各个步骤作进一步说明。整个方法的包括如下几个步骤(算法流程图见说明书附图1)：动态特征向量提取、类别归并、距离求解、类别合并和建立新类等。

1、动态特征向量提取

特征向量的提取是针对于单篇分词后文章的，使用经典的TF·IDF公式提取文章特征，并进行归一化处理：

TF \cdot IDF (W_{i}) = \frac{TF \cdot \log_{2} (N / {DF}_{i})}{\sqrt{Σ_{j = 1}^{t} TF \cdot \log_{2} (N / {DF}_{j})}} - - - (1)

TF·IDF公式的使用需要语料库的支持(需要一个参照词频)，语料库可以利用现有的某些Web文档构成。去除停用词，并按照计算出的权重倒排序，选取一个维数较低的向量(设为L维)即可以代表整篇文章。该方法取得的向量忽略了一些不太重要的词汇，提高了算法对噪声的处理能力。完成单篇文章的处理以后，得到类别特征向量

\overset{&RightArrow;}{C_{i}} = \cup_{j = 1}^{L_{c}} {(W_{j}, f (W_{j})} - - - (2)

文本特征向量如下表示：

\overset{&RightArrow;}{D_{i}} = \cup_{j = 1}^{L} {(W_{j}, TF \cdot IDF (W_{j})} - - - (3)

度量文本特征向量和类别特征向量的相似度，可采用图论算法中的距离来度量。

2.把文档样本和类别映射成网络流图。

建立文章到类别的一个网络流(见附图2)，包括一个源点和一个汇点，将任意文章单词到类别单词建立一条边，其容量为1，费用为Sim(W_i，W_j)×TF·IDF(Wi)，并将源点和任意文章单词建立一条边，费用为0，容量为1。任意类别单词到汇点建立一条边，费用为0，容量为1。这样就把求类别是否归并的问题转化为求网络流的最大费用流的问题。

3.类别归并

设所求得的最大费用为γ，并记：

Total = Σ_{i = 1}^{L} TF \cdot IDF (W_{i}) - - - (4)

则文章属于该类别当且仅当

\frac{γ}{Total} &GreaterEqual; θ .

阈值θ根据实际情况选定。网络流的最大费用流问题是图论的经典问题，常见的算法为匈牙利算法，其时间复杂度为O(V³)，对于稀疏图而言，也有一些相关的改进，并且由于容量为1，使复杂度可以达到O(V(E+Vlo_g2V))²。

这里涉及到文本特征向量和类别特征向量相似度的度量，即计算单词Wi与Wj的相似度Sim(Wi，Wj)，将中文词汇按照树状结构组织，把词汇分成大、中、小三类，大类有12个，中类有97个，小类有1,400个。根据其对于小类内部分标记，将小类进一步划分，进而得到一共五层的词典结构。

Sim(W_i，W_j)的计算可以根据|LCA(A，B)|来度量，具体的数值可以根据试验的效果选取，根据实验同义词可以取Sim(W_i，W_j)＝1，近义词取Sim(W_i，W_j)＝α。α可取0.6-0.9之间，例如可取α＝0.8，具体根据实际情况判断决定。若同义词词林(加强版)没有包括W_i或W_j，那么再采用如下方法计算：

4.合并类别

当满足条件

\frac{γ}{Total} &GreaterEqual; θ

时，将当前文档与匹配成功的类进行合并。合并所产生的另一个问题就是，该类以前的关键字并不总能完美地反映类的特点。也就是说，根据新加入的文档，类别的关键词和权重需要进行调整更新。在合并过程中不断地淘汰掉那些权重较小的关键字，这也能提高算法对噪声的适应能力。

调整的方法为：设目前该类中已经存在了N个文档，类别的向量

维数为L_c ³。分两种情况讨论类别原关键词的更新，若新关键词到该类别原关键词存在近义词、同义词匹配时，用下式表示的f(W_i)替代原f(W_i)：

f (W_{i}) = \frac{N}{N + 1} f (W_{i}) + \frac{1}{N + 1} TF \cdot IDF (W_{k}) - - - (6)

否则将原关键词的权重下调，即：

f (W_{i}) = \frac{N}{N + 1} f (W_{i}); - - - (7)

最后再结合该文档向量中的未匹配关键词与调整后的类别原关键词统一进行排序，选出最大的L_c个关键词，作为该类新的表示向量。

5.建立新类别

若当前文档不能与已知的任意类进行合并时，就需要建立新的类。建立过程很简单，就是将当前文档的特征向量作为该类的特征向量。

在实践过程中，该算法的时间复杂度与类的数量相关，假设类的数量为O(log₂n)，则该算法总时间复杂度为O(nlog₂n)，若类的数量为O(n/log₂n)级别，算法的时间复杂度为O(n²/log₂n)，是一个比较高效的增量算法。

由于聚类算法不同于分类算法有一个已经标注的文档集进行指导学习，所以聚类的效果评测不是很容易(根据粒度选择的不同，会得到不同的等价集)。为了本算法聚类的效果具有说服力并便于评测，使用“多文档文摘语料”测试。该语料具有从各地采集的40个主题共197条新闻，同一个主题的一般具有3至7篇相关新闻，其中同主题任意两篇文档称为一个人工关联文档对。并定义如下的一些数据：

以θ作为调整阈值的试验结果如下表和附图4所示：

	0.3	0.33	0.36	0.5
	0.3	0.33	0.36	0.5	错误率	1.10％	0.70％	0.80％	1.00％
全面率	74.80％	75％	72.30％	50.20％	错误率	1.10％	0.70％	0.80％	1.00％
全面率	74.80％	75％	72.30％	50.20％	准确率	72.50％	88％	88.30％	98％

一般可取θ在0.3-0.5之间。

附图说明

图1：本方法采用的聚类流程。

图2：聚类网络流构成图例。

图3：五层同义词词林词典结构。

图4：测试结果图示。

具体实施方式

下面通过举例进一步描述本发明方法。

在本例子中，待处理的文档数量N＝3，设相似度阈值θ＝0.5，文档类别的向量维数Lc＝4，其中文本向量分别为D1、D2、D3，向量中每个词语后面是文章通过TF·IDF计算而得的权重信息：

D1＝{(电脑，0.4)，(游戏，0.3)，(下载，0.3)}

D2＝{(最新，0.2)，(软件，0.5)，(下载，0.3)}

D3＝{(计算机，0.4)，(游戏，0.3)，(攻略，0.3)}

则开始聚类时，首先处理D1，因为没有其他类别可以比较，故将其本身建立为一个新的类别，为C1，其中C1＝{(电脑，0.4)，(游戏，0.3)，(下载，0.3)}。

然后处理D2，将D2与类别C1相比较，构建网络流图，并且仅有从D2中的“(下载，0.3)”到C1中的“(下载，0.3)”两个节点的边费用非零，因为Sim(下载，下载)＝1，则该边的权值为0.3*1.0＝0.3。对该图求其最大费用流(可以采用Ford算法每次求一条费用最大的路径增广)，得到F^*＝0.3，因为Total＝0.2+0.5+0.3＝1，F^*/Total＝0.3＜θ，则该文档不能归并入C1中。

由于检查了所有存在的类别都无法进行归并，则D2也将独立为一类，为C2，其中C2＝D2＝{(最新，0.2)，(软件，0.5)，(下载0.3)}。

处理文档D3，首先比较D3与类别C1的相似情况：

由于“电脑”和“计算机”在分层知识库中属于同义词，则Sim(电脑，计算机)＝0.8，并且Sim(游戏，游戏)＝1，则构建的网络流图有这两条边费用非零，其权值分别为0.8*0.4＝0.32和1.0*0.3＝0.3。因为该两条边顶点相异。对于此图求最大费用流可以得到F^*＝0.32+03＝0.62＞θ，则D3可以归并于类别C1中。

归并的过程如下：

计算所有可能特征的权重。由于(计算机，电脑)特征匹配成功，故将其视为一个特征：

特征	权重
特征	权重	(计算机，电脑)	0.50.4+0.50.4＝0.4
(游戏，游戏)	0.50.3+0.50.3＝0.3	(计算机，电脑)	0.50.4+0.50.4＝0.4

(下载)	0.5*0.3＝0.15
(下载)	0.5*0.3＝0.15	(攻略)	0.5*0.3＝0.15

由于Lc＝4，则上述特征项会被保留作为新的C1的特征和权重。这三篇文章最终形成了两个不同的类别。

Claims

1.一种基于网络流和分层知识库的动态文本聚类方法，其特征在于：首先，提文本取动态特征向量：用词频/反转文档频率公式TF·IDF和归一化的方法提取文章的特征，包括从文本中提取关键词和计算权重，并建立类别特征向量和文本特征向量；然后把文档样本和类别映射成网络流图，把类别归并的方法变成网络流的最大费用流的问题，并进行类别归并；在计算的过程中，通过定义5层词典结构的词群距离来计算文本和类别特征向量的相似度；然后进行类别合并，对新加入的文档，根据TF、IDF公式计算新加入的文本特征和类别文本特征，调整类别的关键词和权重，不断地剔除掉那些权重小于一定阈值的关键字，保留语义合并后权重最高的特征，并作为该类新的表示向量，进而建立新的类别。

2.根据权利要求1所述的动态文本聚类方法，其特征在于所述提取文本动态特征向量步骤如下：针对单篇分词后的文章，使用TF·IDF公式提取文章特征，并进一步归一化处理：

TF \cdot IDF (W_{i}) = \frac{TF \cdot \log_{2} (N / {DF}_{i})}{\sqrt{Σ_{j = 1}^{t} TF \cdot \log_{2} (N / {DF}_{j})}} - - - (1)

得到类别特征向量

如下：

{\overset{&RightArrow;}{C}}_{i} = \cup_{j = 1}^{L_{c}} {(W_{j}, f (W_{j})} - - - (2)

文本特征向量

如下表示：

{\overset{&RightArrow;}{D}}_{i} = \cup_{j = 1}^{L} {(W_{j}, TF \cdot IDF (W_{j})} - - - (3)

并用图论算法中距离来度量文本特征向量和类别特征向量的相似度；其中，Wj为文档中的单词，N为文档集中文档的数量，TF为一个词在一篇文档中的频率，DF_i为文档集中包含单词i的文档数，L为一篇文档的向量维度，Lc为文档类别的向量維度，f(Wj)为关键词权重。

3.根据权利要求1所述的动态文本聚类方法，其特征在于所述把文档样本和类别映射成网络流图的步骤如下：建立文章到类别的一个网络流，包括一个源点和一个汇点，将任意文章单词到类别单词建立一条边，其容量为1，费用为Sim(Wi，Wj)×TF·IDF(Wi)，并将源点和任意文章单词建立一条边，费用为0，容量为1；任意类别单词到汇点建立一条边，费用为0，容量为1，这样就把求类别是否归并的问题转化为求网络流的最大费用流的问题；这里Sim(Wi、Wj)为单词Wi和Wj的相似度。

4.根据权利要求1所述的动态文本聚类方法，其特征在于所述类别归并，是设所求得的最大费用为γ，并记：

Total = Σ_{i = 1}^{L} TF \cdot IDF (W_{i}) - - - (4)

则文章属于该类别当且仅当

\frac{γ}{Total} &GreaterEqual; θ,

θ根据实际情况选定。

5.根据权利要求3所述的动态文本聚类方法，其特征在于所述文本特征向量和类别特征向量相似度的度量，即计算单词Wi与Wj的相似度Sim(Wi，Wj)，先将中文词汇按照树状结构组织，把词汇分成大、中、小三类，大类有12个，中类有97个，小类有1,400个；根据其对于小类内部分标记，将小类进一步划分，进而得到一共五层的词典结构；这样相似度Sim(Wi，Wj)的计算就根据|LCA(A，B)|来度量，具体的数值可以根据试验的效果选取：根据实验同义词取Sim(Wi，Wj)＝1，近义词取Sim(Wi，Wj)＝α，α取0.6-0.9之间，若同义词词林没有包括Wi或Wj，那么再采用如下方法计算：

这里LCA(A，B)：树中两个节点A，B的最近公共祖先，为从两个节点到根结点的路径中首次交汇的节点；

Dist(x，y)：同义词词林中两个节点x，y之间的距离长度；

|LCA(A，B)|＝Dist(LCA(A，B)，A)+Dist(LCA(A，B)，B)：树中两个节点A，B的最短距离。

6.根据权利要求5所述的动态文本聚类方法，其特征在于所述合并类别中，关键词和权重的调整方法如下：设目前该类中已经存在了N个文档，类别的向量

维数为L_c ³，分两种情况讨论类别原关键词的更新，若新关键词到该类别原关键词存在近义词、同义词匹配时，用下式表示的f(Wi)替代原f(Wi)：

f (W_{i}) = \frac{N}{N + 1} f (W_{i}) + \frac{1}{N + 1} TF \cdot IDF (W_{k}) - - - (6)

否则将原关键词的权重下调：

f (W_{i}) = \frac{N}{N + 1} f (W_{i}); - - - (7)