CN103514183A

CN103514183A - 基于交互式文档聚类的信息检索方法及系统

Info

Publication number: CN103514183A
Application number: CN201210209911.6A
Authority: CN
Inventors: 黄威靖; 于倩; 陈薇; 王腾蛟; 杨冬青
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-06-19
Filing date: 2012-06-19
Publication date: 2014-01-15
Anticipated expiration: 2032-06-19
Also published as: CN103514183B

Abstract

本发明提供一种基于交互式文档聚类的信息检索方法和系统，其步骤包括：对文档集进行水平划分和预处理；进行词频统计，并将高频词组成特证词集合；生成文档的向量空间表示，计算文档间的距离并生成相似度矩阵；生成拉普拉斯矩阵，根据拉普拉斯矩阵的特征值间隔确定聚类数及表示矩阵，并进行二次聚类，得到初始距离结果；用户对初始聚类结果进行交互操作，使用卡方统计量挖掘新的特证词并重构向量空间，然后重复进行上述聚类过程；最后将聚类结果展示给用户，供用户获得不同类别的检索结果。本发明采用有用户介入的半监督学习方式，对文档进行聚类分析，供用户获得不同类别的检索结果。

Description

基于交互式文档聚类的信息检索方法及系统

技术领域

本发明属于信息技术领域，涉及利用计算机辅助挖掘和整理文本信息的技术，具体涉及一种基于交互式文档聚类的信息检索方法及系统，采用有用户介入的半监督学习方式，对文档进行聚类分析，供用户获得不同类别的检索结果。

背景技术

在社交网络发展日新月异，信息涌入以海量计算的大环境下，现代人被过量信息疲劳轰炸，多数人仅是接收“新信息”就应接不暇，遑论对每个信息有充裕的时间消化、吸收。文本信息就是海量信息中典型的一种。借助计算机对文本信息进行挖掘和整理就显得富有实际意义。

文档聚类系统能够提供一种对指定文档集进行分类的无监督学习方法，它的分类准则是使得类内文档相似度尽可能高，类间文本相似度尽可能低。作为一种数据分析的重要工具，文档聚类使得针对规模巨大的文档集的分类管理、浏览和摘要成为一种可能。其典型的应用场景包括：信息检索、话题检测与追踪、网站新闻分类展现。

传统文档聚类并不要求用户提供训练样本，其输入是没有任何标签的文档的集合以及用户预先指定的参数K，用以指明文档集需要划分成多少个类，输出是文档的标签集合，用以标明文档所属的类别。聚类任务会定义损失函数，无监督的聚类在求解损失函数最小化的过程中获得最终结果，例如K-Means算法。无监督聚类的算法主要包括：基于划分的聚类（如K-Means）算法、层次聚类算法（如凝聚算法）、基于密度的聚类算法（如DBSCAN）、基于网格的聚类算法、基于神经网络的聚类算法。

在实际应用中，对于文档集用户会有若干先验知识，这些知识包括但不限于：文档相似性上的联结关系(must-link)，文档相似性上的互斥关系(cannot-link)，以及最终分析所得的聚类簇数目。这些已有的知识和外在规律可以有效的帮助聚类分析，使得聚类尽可能的挖掘出文档之间潜在的语义关系，以及尽可能的与用户的先验知识吻合。利用使用者先验知识的聚类任务就称作是半监督的或带有约束的聚类任务，它的分析和计算过程主要是修改损失函数，对损失函数进行最优化求解。半监督聚类算法主要有三类：对层次聚类的改进、在K-Means算法的基础上进行改进和对谱聚类算法进行调整。

半监督的层次聚类的方法由于是在层次聚类的基础上做的改进，复杂度较高，为O(N²)，即与输入规模成平方量级关系。所以，层次聚类同谱聚类和K-Means的复杂度O(KN)相比在计算速度上不具有优势，其中K为聚类数，N为输入规模。

半监督的K-Means方法如[Constrained K-Means clustering with background knowledge,KiriWagstaff etc.,Proceedings of the Eighteenth International Conference on Machine Learning,2001,page 577–584.][Semi-superivsed Clustering by Seeding,S Basu etc.,Proceedings of theNineteenth International Conference on Machine Learning,2002,page 19-26.]，K-Means算法的主要缺点是预先指定K值（聚类数），要获得良好的聚类效果需要用户反复调整参数K，并且调整的过程不能同时利用两类先验知识——聚类数和样本之间的相似关系。

半监督的谱聚类从两个方面调整：一方面是，将约束加在相似度矩阵上再运用无监督的谱聚类方法，如[Constrained Spectral Clustering under a Local Proximity Structure Assumption，Qianjun Xu etc.,Proceedings of the 18th International Conference of the Florida ArtificialIntelligence Research Society，2005，page 866-867]，其缺点是不能判断约束的可信程度及重要程度，约束的数量需要足够多，才能让先验知识对聚类结果产生影响；另一方面是，在目标函数中增加约束矩阵用以惩罚违反约束的聚类方案，如[Document Clustering with PriorKnowledge,Xiang Ji etc.,Proceedings of the 29th annual international ACM SIGIR conference,2006,page 405-412]和[Flexible Constrained Spectral Clustering,Xiang Wang etc.,Proceedings ofthe 16th ACM SIGKDD international conference on Knowledge discovery and data mining,2010,page 563-572]，这类算法的缺点是，额外引进了更多的需要微调的参数，而且参数较小的变化也会对聚类效果有比较大的影响，也就是说需要用户提供除了文档之间相似度这一信息外，还需要与系统做很多的后续交互才能达到比较好的效果。这影响了系统的可用性。

以上半监督的聚类算法没有利用到文档的特征集，文档的一个特点就是使用的词汇量大，如果将每个词都纳入到聚类分析中，会造成维灾难。使用特征选取方法使得文本聚类变得简单易行的一种典型做法在[Text Clustering With Feature Selection by Using Statistical Data,Yanjun Li etc.,IEEE Transactions on Knowledge and Data Engineering,2008,page 641-652]中有详细的描述。将特征选取与半监督聚类相结合的做法在[Semi-supervised Feature Selection viaSpectral Analysis,Zheng Zhao etc.,Proceedings of the 7th SIAM International Conference on DataMining,2007]中有表达，但它的主要目的是用谱聚类算法进行特征抽取，没有用于迭代改进谱聚类算法。

目前已知的，直接的将文档聚类和用户交互式操作结合在一起的是[A Semi-SupervisedDocument Clustering Technique for Information Organization,Han-joon Kim etc.,Proceedings ofthe ninth international conference on Information and knowledge management,2000,page 30-37]，它将多个文档预先聚成小的类别，也就是说这个小的类别非常依赖于预处理阶段的距离阈值。并且，用户与系统的交互操作限于两种：指定两个小类别是否属于或不属于同一个大的类别。一旦预处理阶段出了问题，一个小类别下面的几篇文档实际应属于两个大类别的，那么没有对应的操作来处理这样的异常。

除了上面描述的聚类方法，还有其他的方法，如话题模型[Latent Dirichlet Allocation,Journal ofMachine Learning Research,David M.Blei etc.,2003,page 993-1022]来挖掘文档集中潜在的语义规律，但它的缺点也是明显的：需要指定话题数目，文档不显式的归属于某个话题，直接可读性比较弱。

从前面的介绍来看，提出一个对用户友好的基于交互式文档聚类的信息检索方法，是非常有必要，也是很有实际应用价值的。

发明内容

本发明的目的在于针对上述问题，提出一种基于交互式文档聚类的信息检索方法及系统，基于谱聚类算法，采用有用户介入的半监督学习方式，对文档进行聚类分析，进而供用户获得不同分类的检索结果。本发明涉及到的技术包括利用已有的谱聚类、聚类数自动发现、利用卡方统计量的特征抽取，以及本发明提出的将用户标注信息转化为向量空间重构的方法。

为实现上述目的，本发明采用如下技术方案：

一种基于交互式文档聚类的信息检索方法，其步骤包括：

1）按时间段对存储的文档集进行水平划分和预处理；

2）对预处理后的文档进行词频统计，并将高频词组成特证词集合；

3）根据所述特证词集合生成文档的向量空间表示，进而计算文档间的距离并生成相似度矩阵；

4）根据所述相似度矩阵生成拉普拉斯矩阵，并计算其特征值和特征向量；

5）根据特征值间隔确定聚类数及表示矩阵，并对所述聚类数及表示矩阵进行二次聚类；

6）用户对所述二次聚类的结果进行交互操作，使用卡方统计量挖掘新的特证词并添加至所述特证词集合，然后重复所述步骤3）至所述步骤5）；

7）将聚类结果展示给用户，供用户进行选择并获得不同类别的检索结果。

一种基于交互式文档聚类的信息检索系统，其包括：

文档存储模块，负责存储文档集并保存运算结果；

文档集水平划分模块，负责按时间段对所述文档集进行水平划分；

文档预处理模块，负责对文档进行预处理；

词频统计模块，负责对水平划分和预处理后的文档进行词频统计；

文档向量空间表示模块，连接所述词频统计模块，负责将文档向量化并生成文档的向量空间表示；

文档间距计算模块，连接所述文档向量空间表示模块，负责计算文档间的距离并判断文档间的相似度；

聚类计算模块，连接所述文档间距计算模块，负责根据谱聚类计算方法对文档进行聚类；

用户交互模块，供用户进行交互操作，对聚类结果进行标注；

用户标注信息提取模块，连接所述用户交互模块，用于通过计算卡方统计量从用户标注信息中挖掘新的特征词，并将新的特征词输入至所述文档向量空间表示模块；

信息检索模块，连接所述聚类计算模块和所述用户交互模块，用于根据聚类结果进行信息检索并将检索结果展现给用户。

本发明采用有用户介入的半监督学习方式，以及特征抽取与谱聚类等机器学习与数据挖掘手段，对文档进行聚类分析，供用户获得不同类别的检索结果。本发明可支持海量文本数据自动聚类、整理和归纳相似文本，用户可参与挖掘过程的数据挖掘与知识发现。相比于K均值聚类模型及LDA等话题模型，具有不需要指定聚类簇数K，可随用户迭代改进聚类结果的优点。

附图说明

图1是本发明实施例的基于交互式文档聚类的信息检索系统的组成结构示意图。

图2是本发明实施例的基于交互式文档聚类的信息检索方法的步骤流程图。

图3是本发明实施例的基于特征值间隔的聚类数自动发现的示例图。

图4是本发明实施例的信息检索的按类别展示的示例图。

具体实施方式

下面通过具体实施例并配合附图，对本发明做详细的说明。

图1是本实施例的基于交互式文档聚类的信息检索系统的组成结构示意图，对其中所示各模块的功能分别说明如下：

文档存储模块：用于存储文档集，为专利的核心算法模块提供存储文档、保存运算结果的服务，可采用但不限于数据库、XML文件、普通文件夹等存储方式。

文档集水平划分模块：连接文档存储模块，提供将文档集按日期水平划分的服务，将文档按日期分类，起到降低系统计算规模，保证信息检索质量的作用。

文档预处理模块：连接文档集水平划分模块，对文档进行预处理，中文部分包括分词、词性标注、去停用词、标签提取，英文部分包括词性标注、去停用词、标签提取。

词频统计模块：经水平划分和预处理之后，本模块进行词频统计，并依照词频从高到低对词进行排序。

文档向量空间表示模块：本模块是本系统的核心模块，词频统计模块获得的高频词以及用户标注信息提取模块挖掘的特征词构成了文档向量空间的特征维度，本模块将文档映射到上述特征维度构成的向量空间，生成文档的向量空间表示。

文档间距计算模块：本模块用于计算文档间的距离，用于判断文档之间的相似或相异程度。可采用精确计算方法，也可采用近似计算方法，并将计算之后的文档相似度矩阵输入至聚类计算模块。

聚类计算模块：连接文档间距计算模块，本模块针对文档相似度矩阵生成拉普拉斯矩阵，在拉普拉斯矩阵上使用已有的谱聚类计算方法，根据特征值间隔自动发现聚类数，确定文档的聚类标号。

用户交互模块：本模块是人机交互模块，通过标注，将用户的先验知识用于指导系统改善聚类结果，从而达到改善信息检索结果的目的。

用户标注信息提取模块：本模块是本系统的核心模块，通过计算卡方统计量，挖掘新的特征词，并输入至文档向量空间表示模块。

信息检索模块：连接聚类计算模块和用户交互模块，根据聚类结果进行信息检索并将信息检索结果展现给最终用户。

上述系统中，文档集水平划分模块连接文档存储模块，文档预处理模块连接文档集水平划分模块，即先进行水平划分，再进行预处理。但在其它实施例中，也可以先进行预处理，在进行水平划分，即文档预处理模块连接文档存储模块，文档集水平划分模块连接文档预处理模块。

图2是本实施例的基于交互式文档聚类的信息检索方法的步骤流程图。对其中各步骤具体说明如下：

1.准备，文档存储

选取适当的存储方式，可采用但不限于数据库、XML文件、普通文件夹等存储方式。

2.文档集按时间段的水平划分

水平划分是传统数据库性能优化的技术，本发明将这一技术应用到文档集，不仅可提升计算性能，同时还能提高计算结果的可读性。对于文档集，特别是网页文档集，数量动辄以千万来计算，对这样大的文档集合做聚类分析之后，聚类结果的可读性非常差。本发明按照时间段对文档集做水平划分，即同一个时间段内的文档划分到同一个集合，根据产生文档的频度（如学术界会议论文与微博的产生频度不同）确定时间间隔，具体到本实施例，以天为单位划分文档集。

以上处理方式基于这样一个事实：若以和话题相关的文档数来度量话题的活跃程度，那么话题的发生、发展、演变、消退是以时间为自变量的连续函数，同一时间段内相似的文档在讨论同一话题的概率较大。故本发明聚类分析所得的结果可读性较好。

3.预处理：主要包括分词及词性标注、去停用词、标签提取等。预处理可在步骤2所述的水平划分之后进行，也可以先进行预处理，再进行水平划分。

3.1分词及词性标注

本方法可处理多语种文档。词是最小的语义单元，西文如英文因其存在形式上以空格作分界符，故针对英文只需做词性标注处理。词在中文里不存在形式上的分界符，因此分词是必做的步骤，本实施例利用中科院ICTCLAS分词器进行分词。一般地，分词器除了做分词处理，还会做词性标注。如“张华平欢迎您”切分为“张华平/nr欢迎/v您/r”。

3.2去停用词

因介词、量词等词对文本描述的对象没有影响，因此系统保留名词、动词、形容词和副词，其余词作为停用词去除。

3.3标签提取

部分文档如博客包含标签信息和学术论文的关键词。博客标签是由作者为分类管理之需对文档所做的若干词的描述，功能同论文作者为学术论文添加的关键词。标签是用于识别文档所属类别的重要信息，本实施例也将标签加入到文档的向量空间。

4.词频统计

统计词频，将步骤3处理之后的词和标签按照出现频率从高到低的顺序排列，供后续步骤选取高频词时使用。

5.聚类

5.1生成文档的向量空间表示

此步骤的意义在于抽取文档特征，降低文档的表示维度。

谱聚类算法需要计算两个文档之间的距离以判断文档间的相似程度。一般地，文档距离的计算需要将文档向量化，通常向量化采用的方法是对每一个词都使用TFIDF(TermFrequency-Inverse Document Frequency)度量，这样会造成向量空间的维度急剧升高，维灾难将造成文档之间的距离差异不大。本发明为克服这一困难，采用降维的方式，合理的降维能够帮助系统后续的步骤自动发现聚类簇的数目，并减小计算代价，提高计算精度。

如果是初次聚类，采用已有的高频词选取的方法：选取步骤4提供的高频词T个。这也意味着每个文档在向量空间的向量表示降低到了T维。需要说明的是T的取值方法:根据文献[Probability density estimation in higher dimensions.Scott D W etc.Proceedings of the FifteenthSymposium on the Interface,1983,page 173-179]的描述，在指定的所需精度下，样本数量将随着维数的增加呈现指数增长，按照这一规律，本方法在统计出文档集中词的总数之后，取对数获得高频词的个数T。并将特证词集合记作S。

如果不是初次聚类，使用后文步骤9.2所述的特证词集合S’，更新维度信息T，详见后文描述。

向量空间表示的每一个维度都用平滑TFIDF计算，计算公式如下：

TFID F_{doc, i} = \log \frac{{tf}_{doc, i}}{{df}_{i} + 1}

其中，t_fdoc，i表示词i在文档doc中出现的次数，df_i表示文档集中出现词i的文档个数。TFIDF_doc，i表示文档doc在向量空间第i维上的取值。文档doc1的向量化定义为：doc1＝(TFIDF_doc1，1，TFIDF_doc2，2...，TFIDF_doc2，T)

5.2计算文档间相似度，生成相似度矩阵

该步骤计算文档映射到向量空间之后两两间的关系，可采用精确计算方法，也可采用已有的近似计算方法计算文档间的相似度，从而生成相似度矩阵。

精确计算文档间相似度时，可采用不同的相似度计算公式。本实施例采用的精确计算的相似度度量为余弦度量：

w_{ij} = w ({vec}_{i}, {ver}_{j}) = \frac{{ver}_{i}^{T} {ver}_{j}}{| | {ver}_{i} | | | | {ver}_{j} | |}

其中，vec_i是文档i映射到向量空间之后的向量表示，w_ij表示文档i和文档j之间的相似度。此外，还可以采用其它精确计算方法，如Jaccard相似性度量、重叠相似性度量。

本发明在文档数量超过文档相似度精确计算的处理能力时，也可近似计算相似度。由于已经采用了降维的手段，故而每两个文档之间的相似度计算的代价为O(T)，即时间复杂度和T是线性关系，其中T为向量空间维度。在初始聚类阶段，T是固定的。但是如果采用两两之间比较的方法，代价将会是O(N²·T)，其中N为文档数。对于大小为千万级的文档系统，仅在计算文档相似度这一步骤，就会变得不可行。为了克服计算量平方量级增长这一技术困难，文档之间的距离计算采用文档指纹生成的方法，比如采用LSH的计算方法（RandomizedAlgorithms and NLP:Using Locality Sensitive Hash Functions for High Speed Noun Clustering.Deepak Ravichandran etc,ACL'05 Proceedings of the 43rd Annual Meeting on Association forComputational Linguistics.Page 622-629.），将相似度矩阵的计算量整体的降低到了O(N*logN*T)。此外，还可以采用其它近似计算方法，如BBF算法（Shape indexing usingapproximate nearest-neighbour search in high-dimensional spaces.Beis etc.1997.Conference onComputer Vision and Pattern Recognition,page 1000-1006）、BBD树算法（Worst-case analysis forregion and partial region searches in multidimensional binary search trees and balanced quad trees.Lee etc.1977.Acta Informatica,page 23-29）等。

文档集的相似度矩阵的生成如下，是一个N×N的矩阵，记为相似度矩阵W：

[\begin{matrix} 1 & w_{12} & . . . & w_{1 i} & . . . & w_{1 n} \\ w_{21} & 1 & . . . & w_{2 i} & . . . & w_{2 n} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ w_{i 1} & w_{i 2} & . . . & 1 & . . . & w_{in} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ w_{n 1} & w_{n 2} & . . . & w_{ni} & . . . & 1 \end{matrix}]

其中w_n是步骤2）中计算所得的文档1和文档i之间的相似度。

5.3计算拉普拉斯矩阵

计算对角阵：D＝diag(d₁，...，d_X)，其中

计算拉普拉斯矩阵：

5.4计算拉普拉斯矩阵的特征值和特征向量

拉普拉斯矩阵L具有半正定性、对称性，这些性质保证了拉普拉斯矩阵有非负的特征值。

计算L的特征值与特征向量：L*[v₂，v₂，...，v_X]＝[λ₁v₁，λ₂v₂，...，λ_Xr_X]。将特征值λ₁，...，λ_X从小到大排列，同时调整对应的特征向量在矩阵中的位置。

5.5确定聚类数K及表示矩阵R

分两种情况来确定K：

a）若是初始聚类，即还没有通过用户进行交互操作而引入先验知识时，则根据已有的特征值间隔的方法自动发现聚类数K。特征值间隔为从小到大排序后相邻的特征值的差值[λ₂-λ₁，λ₃-λ₂，...，λ_N-λ_N-1]，按文献[基于本征间隙与正交特征向量的自动谱聚类,孔万增等,电子学报,2010年8月,1880-1885页]的描述,取该序列中第二个极大值为自动发现的聚类数K，如图3所示，其中横轴表示按从小到大排列的特征值间隔的下标号，纵轴表示特征值间隔；第二个极大值在K=4时取得，故初始聚类数取为K=4。这是一种启发式的方法，能够反映数据的聚类情况，进一步的还需要拥有先验知识的用户来改善。

b）若不是初始聚类，则根据后文步骤8用户的标注信息确定聚类数K。

取出前K个特征值，以及对应的特征向量v₂，v₂，...，v_K，组成N个文档的在表示空间的矩阵R（N×K维），即：

R = [v_{1}, v_{2}, . . ., v_{k}] = [\begin{matrix} r_{1} \\ r_{2} \\ . . . \\ r_{N} \end{matrix}]

5.6针对表示矩阵R和聚类数K进行二次聚类，此处使用K-Means方法。

根据谱聚类方法的一般步骤，步骤5.5a）所述的根据已有的特征值间隔的方法自动发现聚类数K可以称为初次聚类，后面需要对表示矩阵R做二次聚类，本实施例采用k-means算法，所用参数R和K在步骤5.5中得到。K-Means计算所得即为初始聚类阶段的结果。

6.展现初步聚类结果

将聚类结果用类标号的形式存储，在系统界面上对文档分类展现。

7.询问用户是否进行标注，改善初始聚类结果

上述步骤5所述的聚类过程实际为谱聚类的过程，聚类结果对应于图论中图的最小割划分的近似解，此处所指的图可由W矩阵重构：W是相似度矩阵，矩阵中元素取值范围是w_ij∈[0，1]，w_ij越大表示文档i和文档j的相似度越高。将W视为图的邻接矩阵，可以重构成图。根据谱聚类的性质，矩阵L对应的特征值中0的个数等于重构出的图的连通子图个数。可知选取的特征值越小，划分结果反应图的连通性的能力就越好。

步骤5.5中初始K（聚类簇数）的自动确定是带有启发性质的，为了提高聚类的效果，还需要用户介入，半监督式的改善初始聚类结果。

8.用户交互，标注

用户得到聚类结果之后，可以对初始聚类结果通过交互操作进行改进。交互操作分为两种类型：合并聚类簇和分裂聚类簇。在得到改进后的聚类结果后，还可以再次通过交互操作进行改进，即用户可根据具体情况进行多次交互操作，以不断改进上一轮的聚类结果。

a）合并聚类簇的操作：选择步骤6所得聚类结果中的两个聚类簇，将状态标记为需要合并。并更新

b）分裂聚类簇的操作：选择步骤6所得聚类结果中的一个聚类簇，将状态标记为需要分裂，同时选择分裂后的两个聚类簇的代表文档各M篇，提供的文档越多，聚类结果的改善越明显，按照文献[On the Sample Complexity of Reinforcement Learning,Sham MachandranathKakade,University College London,Ph D Thesis]的建议为保证准确性，有指导的机器学习中需要的样本数至少是总体的对数级别。此处建议M＞log_1.5(N)，N为待分裂的聚类簇的数目。

9.用户标注信息的提取

用户的标注信息反映了用户对文档的理解，在本发明中使用特证词的挖掘来表达用户对文档的理解。

9.1采用卡方统计量的特征抽取

卡方统计量关注候选词与所在类的关联度。候选词的卡方统计量定义为：

x^{2} (t, c) = \frac{N {(ad - bc)}^{2}}{(a + c) (b + d) (a + b) (c + d)}

公式中的每一项如表1描述：

表1.卡方统计量计算公式中的符号

	候选词t	非候选词	总计
				类C	a	b	a+b
类C之外的其他类	c	d	c+d
				总计	a+c	b+d	N=a+b+c+d

其中，a表示候选词t在类C中出现的次数，b表示非候选词在类C中出现的次数，c表示t在类C以外的文本中出现的次数，d表示非候选词在类C以外的文本中出现的次数。N表示文档集中出现的总词数。

此处类C的选择还需要分两种情形讨论：

a）在上一轮聚类结果的基础上，用户选择合并两个聚类簇。

这种情况发生在用户认为两个聚类簇A₂,A₂没有明显的分界，需要将它们当作一类来处理，标记为A₁₂。

采用如下伪代码计算合并后的聚类簇的每个候选词t和聚类簇A₁₂的卡方值X₂(t，A₁₂)

如本实施例中，将聚类簇1（田径）和聚类簇2（足球）合并后，卡方值较高的词是：比赛、成绩、教练、冠军。

将卡方值较高的30个词添加到特征集当中，扩大上一轮聚类之后的特征维度T。同时需要调整聚类簇数目K的值：从上一轮的聚类簇数目K调整为K-1。

b）在上一轮聚类结果的基础上，用户选择分裂一个聚类簇。

如果用户采用的是分裂一个聚类簇的选项，即用户认为一个聚类簇A₁的粒度太粗糙，需要分裂为A₁₂和A₁₂.需要重新计算卡方统计量进行特征词的选取，扩大文档的维度大于T。

提取特征词的伪代码如下：

将卡方值较高的30个词添加到特征集当中，扩大上一轮聚类之后的特征维度T。同时需要调整聚类簇数目K的值：从上一轮的聚类簇数目K调整为K+1。

9.2更新特征集合S，重构向量空间

合并9.1中的特证词集合S’到原有的特证词集合S，并重构向量空间。

完成步骤9.2之后，跳转到步骤5.1开始新的一轮聚类。

10.汇集聚类结果到信息检索系统

将上述聚类的结果展示给用户，供用户进行选择并获得不同类别的检索结果。以上1-9步骤完成之后，可以得到文本对应的类标号，类标号表明了文本所属的分类。按类检索信息可以提高文本信息的使用效率，方便用户找到自己所需要的某个类别的文本信息。

为了在更大范围上获得文本的分类信息，本步骤10还提供如下功能：将水平分割的文档集在时间维度上进行有条件的合并。这里的有条件是指：计算每个时间分片的文档集的聚类中心，相邻时间分片的文档集的聚类中心进行比较，若相似就建立起关联，可以观察到相似相邻的聚类中的文档随时间的演变。

下面以一个具体的交互式聚类为例，说明本发明对于检索结果的改善。

1.准备阶段：本实例对发表在新浪微博上的66520条微博进行聚类分析，以上微博分属于三个话题，其中属于“油价下跌”的微博17034条，属于“张柏芝谢霆锋复合”话题的微博42340条，属于“校长保护学生”的微博7146条。

2.文档的水平划分：测试用的文档集合中的文档发表日期跨越609天。按日期水平划分之后，选取其中一天，2012-05-10，以上三个话题分别拥有微博数为：2757，3839，404，共计7000条。

3.文档预处理：使用ICTCLAS分词工具分词；去停用词如连接词、时间副词、方位副词、感叹词、人称代词、助词等；抽取标签，如url和带#号的微博标签。

4.词频统计：2012-05-10时间片上的文档经预处理之后共获得词65503个。将词按照词频从高到低的顺序排列：要,霆,看,相信,汽油，小,爱情,油价……

5.1生成文档的向量空间表示，按照系统实施流程的说明，针对7000条微博选取高频词300个。得到特证词集合S，如下：{要,霆,看,相信,汽油，小,爱情,油价,女友,张,谢,孩子,大,离婚,爱,柏芝,人,锋,降,发改委,张柏芝,校长,下调,无,柴油,叫,警察,想,说,价,成品油,好,…}

为得到文档的向量空间表示，计算文档中包含在特证词集合S上各维度的TFIDF值。

5.2计算文档间相似度，生成相似度矩阵.使用精确计算相似度的方法，得到7000×7000的相似度矩阵W。

5.3计算拉普拉斯矩阵，得到7000×7000的矩阵

5.4计算拉普拉斯矩阵的特征值和特征向量。为加速计算，并不对拉普拉斯矩阵求所有的特征值，求前10个特征值和特征向量，时间复杂度为O(10·N²)。针对7000*7000的矩阵计算特征值和特征向量耗时0.02s。

5.5初次聚类，根据特征值间隔自动发现聚类数K=4。如图3所示，因横轴为4的点取得第二大极大值，故启发式的取计算结果K=4。

初始聚类阶段获得4个聚类簇，用簇中心的最近邻向量代表聚类簇。

6.展现初始聚类结果，将聚类结果用类标号的形式存储，在系统界面上对文档分类展现。用聚类簇中心快速浏览聚类结果，如表2所示。

7.询问用户是否标注。答案是“是”，进入用户标注阶段。

8.用户合并聚类簇

用户干预聚类结果，将聚类簇2和3合并，合并之后训练重新进行特征选取，卡方统计量所得的新的特征已经存在于上一步聚类的特征集合当中，故不再添加新的特征。将聚类数从4减小到3，重复步骤5.1至5.4，步骤5.5中使用聚类数K=3，进行步骤5.6，得到的结果如表3所示。

表2.初始聚类结果

表3.用户合并聚类簇结果列表

询问用户是否标注。答案是“否”，汇聚聚类结果到信息检索系统。图4检索结果按分类展示的示意图，其中（a）为有关“张柏芝谢霆锋复合”的微博，（b）为有关“油价下跌”的微博，（c）为有关“校长保护学生”的微博。

标准集的类标已知，可用作聚类结果的评判，如表4所示：

表4.文档集真实情况与聚类结果的对比

真实情况\聚类结果	油价下跌	张柏芝谢霆锋	校长保护学生	（行和）
					油价下跌	3839	0	0	3839
张柏芝谢霆锋复合	1527	1230	0	2757
					校长保护学生	107	0	297	404
（列和）	5473	1230	297	7,000

上述聚类过程的有效性评判指标如下表所示，包括准确率、召回率和F值，如表5所示：

表5.有效性评判指标

	油价下跌	张柏芝谢霆锋复合	校长保护学生	平均值
					准确率	0.70144345	1	1	0.90048115
召回率	0.9991715	0.773694391	0.735148515	0.836004802
					F值	0.945141066	0.869565217	0.847360913	0.887355732

其中，准确率、召回率、F值的定义如下：

准确率=系统检索到的相关文件/系统所有检索到的文件总数；

召回率=系统检索到的相关文件/系统所有相关的文件总数；

F值=2*准确率*召回率/(准确率+召回率)。

最终平均F值为0.8874，证明本发明方法的技术效果较好。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于交互式文档聚类的信息检索方法，其步骤包括：

1）按时间段对存储的文档集进行水平划分和预处理；

2.如权利要求1所述的方法，其特征在于，所述文档的存储方式包括：数据库、XML文件、普通文件夹。

3.如权利要求1所述的方法，其特征在于，根据产生文档的频度确定所述水平划分的时间间隔。

4.如权利要求1所述的方法，其特征在于，所述预处理包括：分词、词性标注、去停用词、标签提取。

5.如权利要求1所述的方法，其特征在于，采用精确方法或近似方法计算所述相似度。

6.如权利要求1所述的方法，其特征在于，采用K-Means方法进行所述二次聚类。

7.如权利要求1所述的方法，其特征在于，所述交互操作包括合并聚类簇操作和分裂聚类簇操作。

8.如权利要求1所述的方法，其特征在于，将聚类结果展示给用户时，将水平分割的文档集在时间维度上进行有条件的合并。

9.一种基于交互式文档聚类的信息检索系统，其特征在于，包括：

文档存储模块，用于存储文档集并保存运算结果；

文档预处理模块，负责对文档进行预处理；

文档间距计算模块，连接所述文档向量空间表示模块，用于计算文档间的距离并判断文档间的相似度；

聚类计算模块，连接所述文档间距计算模块，用于根据谱聚类计算方法对文档进行聚类；

10.如权利要求9所述的系统，其特征在于：所述文档存储模块连接所述文档集水平划分模块，所述文档集水平划分模块连接所述文档预处理模块；或者所述文档存储模块连接所述文档预处理模块连接，所述文档预处理模块连接所述文档集水平划分模块。