CN106557777A

CN106557777A - 一种基于SimHash改进的Kmeans聚类方法

Info

Publication number: CN106557777A
Application number: CN201610901630.5A
Authority: CN
Inventors: 李晓东; 向菁菁; 耿光刚
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2017-04-05
Anticipated expiration: 2036-10-17
Also published as: CN106557777B

Abstract

本发明公开了一种基于SimHash改进的Kmeans聚类方法，本方法为：1)使用SimHash算法计算每一待聚类文档的指纹，生成一SimHash表；2)选取一待聚类文档，根据该文档的指纹查找该SimHash表，得到一相似文档集合S0；3)将S0中与该待聚类文档的Overlap值将大于阈值α的文档加入相似文档集合S1；4)返回S1所属的聚类簇集合C0，计算该待聚类文档到C0中所有簇质心的距离，然后将该文档归入距离最近且小于设定阈值的簇i并更新簇质心表，否则新建一簇k，将该文档作为该簇k中的第一个元素；若C0为空，则新建一个簇j，将该待聚类文档作为该簇j中的第一个元素。本发明大大提高了聚类效果。

Description

一种基于SimHash改进的Kmeans聚类方法

技术领域

本发明涉及一种基于SimHash改进的Kmeans聚类方法，属于计算机网络技术领域。

背景技术

在当今互联网信息处于爆炸式增长的时代，信息的去重和聚类作为一种重要的技术手段受到越来越多的学者的研究和青睐。其中文本信息的去重和聚类是其中重要的一部分。因此，本发明只涉及文本信息的去重和聚类。文本信息的聚类主要涉及两个方面：第一是文本表示模式，即用什么表示文本；二是选择合适的聚类算法。目前，文本表示模式多种多样，比较流行的有向量空间模型(Vector Space Model,VSM)，概率模型，语言模型等；同样，在聚类算法的选择上针对不同的聚类目标可供选择的算法及各种变体也有很多。

本发明中针对新闻网页内容的聚类不同于根据新闻内容所属主题进行分类(分为娱乐、军事、政治、教育等)，而是将内容相同或相似的新闻聚为一类。该聚类问题是一个典型的基于划分的问题，基于划分的聚类算法中最简单最常用的算法为Kmeans聚类算法，但单纯的Kmeans算法具有两个明显的缺点：一是需要在聚类前指定聚类簇的个数；在事先不知道聚类簇个数的情况下，聚类质量很难保证；二是需要迭代计算质心，当样本数据较大时，不仅计算开销大而且耗时长，不能适用于大量数据。

Google于2002年提出一个局部敏感哈希算法，用于大规模的网页去重，其算法名为SimHash。该算法的主要思想是对文本向量进行降维，将高维的特征向量映射成N bit的SimHash Code或称为指纹(只包含0和1)。通过计算两篇文档指纹码之间的海明距离来判断文档是否相似(通常选用64bit特征码，海明距离阈值选择为3，若两篇文档的SimHash Code的海明距离小于3则被认定为相似)。因此，SimHash在计算两篇文档的相似度时只需计算两篇文档SimHash Code的海明距离，不再需要对根据文本内容继续计算，大大加快了计算时间。

因此，本发明针对Kmeans上述两个缺点，融合了SimHash数据压缩和相似文档快速查找的特点，对Kmeans进行了改进。

发明内容

针对现有技术中存在的技术问题，本发明提供一种基于SimHash改进的Kmeans聚类方法。本发明的目的在于：

1)针对新闻文本信息进行聚类，将相同或相似文本内容的新闻聚为一类；

2)针对Kmeans聚类算法需事先指定聚类簇个数和当样本数据量大时计算开销大这两个缺点进行了改进，使得改进后的Kmeans算法能够准确、高效、快速的进行新闻网页聚类；

3)为新闻溯源研究提供重要的技术支撑；

为实现以上目的，本发明的技术方案为：

一种基于SimHash改进的Kmeans聚类方法，其步骤为：

1)使用SimHash算法计算每一待聚类文档的指纹，生成一SimHash表；

2)选取一待聚类文档，计算该待聚类文档所属的聚类簇并将其记录到该SimHash表中；根据该待聚类文档的指纹查找该SimHash表，得到与该待聚类文档相似的文档集合S0；

3)计算该文档集合S0中的每一文档与该待聚类文档的相似度值；将与该待聚类文档的相似度值大于阈值α的文档加入相似文档集合S1；

4)返回该相似文档集合S1所属的聚类簇集合C0，计算该待聚类文档到该聚类簇集合C0中所有簇的簇质心的距离，然后将该待聚类文档归入距离最近且距离小于设定阈值的簇i并更新该簇i的簇质心表，如果该待聚类文档与该聚类簇集合C0中所有簇的簇质心的距离均不小于该设定阈值，则新建一个簇k，将该待聚类文档作为该簇k中的第一个元素；若该聚类簇集合C0为空，则新建一个簇j，将该待聚类文档作为该簇j中的第一个元素。

进一步的，更新簇i的簇质心表的方法为：将新加入的该待聚类文档中的句子加入该簇i的句子频率表中，选择句子频率大于阈值β的句子集合作为该簇i新的质心。

进一步的，步骤1)中，首先使用分句对每一待聚类文档进行切分，采用句子作为待聚类文档的最小单元，然后使用SimHash算法计算每一待聚类文档的指纹。

进一步的，利用公式计算所述相似度值；其中，sim(A,B)为相似度值，|A∩B|表示文档A与文档B中相同句子的个数，|A|表示文档A中句子的总个数，|B|表示文档B中句子的总个数。

进一步的，步骤2)中，利用SimHash算法计算当前所选待聚类文档指纹与其他每一待聚类文档指纹的海明距离，将与当前所选待聚类文档的海明距离小于设定值M的待聚类文档作为当前所选待聚类文档的相似文档集合S0。

进一步的，该设定值M为3。

进一步的，所述待聚类文档为新闻网页正文。

本发明高效的进行文本聚类，本文提出的基于SimHash改进的Kmeans算法(以下简称为改进后的Kmeans算法)，融合SimHash数据压缩和快速查找的优点，算法步骤如下：

输入：m个待聚类的只包含新闻关键信息(关键信息指新闻的标题、时间、来源和正文)信息的网页；

输出：k个聚类簇，以及聚类簇中包含的网页；

在进行聚类前，先计算这m个网页的SimHash Code(采用64bit)，生成一SimHash表，同时对所有网页进行分句处理，构成新的分句后的网页集合S。

SimHash使用了以空间换取时间的做法实现快速查找。假设使用了64bit的特征码，那么将64bit特征码切分为k份(比如：4份)，每一份对应一个16bit的特征串；使用一个哈希表，将每一篇文档链接在每一份特征串映射的位置；对于每篇文档在生成SimHashCode之后，即通过切分的方式将SimHash Code切分之后再通过HashTable映射到链接，便得到SimHash表。

与Kmeans不同，基于SimHash的Kmeans一开始不用指定聚类簇个数K，初始状态时的聚类簇个数为0，SimHash表为空。对于一篇待聚类的文档doc：

1)判断待聚类的文档doc所属簇并填充SimHash表；利用文档doc的SimHash Code，查找SimHash表，返回SimHash算法计算出的相似文档集合S0；S0中可以是代表文档的文档编号，可以是代表文档的文档本身；

2)文档集合S0中的文档与待聚类文档doc一一计算Overlap值；

3)若Overlap值大于阈值α，则加入相似文档集合S1；

4)返回文档集合S1所属的聚类簇集合C0，计算文档doc到簇集合C0中所有簇的簇质心的距离；

5)若集合C0为空，则新建一个簇，doc为簇中的第一个元素并作为初始质心；若集合C0不为空，则将doc归为这些簇中与其距离最近且距离小于设定阈值的簇，并更新簇质心表；否则新建一个簇k。

6)更新质心表：将新加入的文档doc中的句子加入整个簇内句子的句子频率表中，选择句子频率大于阈值β的句子集合作为该簇新的质心。

本发明的聚类过程借用了SimHash快速查找的特性对Kmeans算法进行了改进，使用SimHash在进行聚类之前找出与待聚类文档可能相似的文档集合，以减少聚类过程中计算量；然后使用Overlap系数(公式如下)进行文本相似度的计算：

假设有文档A和B，在上述公式中，|A∩B|表示文档A，B中相同句子的个数，|A|,|B|分别表示文档A和B中句子的总个数。A,B中相同的句子越多，系数越大；但对于A，B之间存在真包含的关系情况，例如：，即文档A中的全部内容都来源于文档B，根据Overlap系数计算出此时的sim(A,B)＝1.0。

本发明聚类的类别数无需预先指定，程序会根据文档自动将文档分为若干类；聚类簇的中心是通过该簇中频率出现次数大于某一阈值的句子组合而成，不需要人工事先指定，而且在每轮迭代后会重新计算聚类簇的中心。

与现有技术相比，本发明的积极效果为：

本发明能够快速高效的对新闻正文文本进行聚类，在由200篇新闻网页正文组成的验证集上，以轮廓系数作为评价指标，改进后的Kmeans算法与Kmeans算法在聚类质量和聚类速度上的对比如下表1所示：

表1 Kmeans与改进的Kmeans对比结果

从表1中能够看出，改进后的Kmeans的执行时间比传统Kmeans快27倍；根据轮廓系数指标，改进后的Kmeans聚类效果优于传统Kmeans算法近2倍。总体上看，改进后的Kmeans较传统Kmeans在性能上有很大的提高。

附图说明

图1为待聚类新闻关键信息文本示例图；

图2为聚类结果文件示例图；

图3为改进后的Kmeans算法流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行进一步详细描述。

本发明的整体算法见图3。

1)使用分句对新闻正文进行切分，而非分词处理；

2)采用句子作为文本的最小单元，使用SimHash将文本转换为Nbit的字符串，对文本进行压缩；

3)寻找相似的文本集合时，利用SimHash计算关于两篇相似文档的Nbit的字符串的海明距离小于3的特性，先得出可能相似的文档集合，在后续继续计算之前去除了不相似的文档；

4)不同于Kmeans算法每轮迭代计算簇的质心，改进后的Kmeans算法每个簇维护一张簇质心表，表内存放句子频率大于阈值β的句子集合作为该簇质心；比起Kmeans的迭代计算，句子的频率统计的计算开销要小的多。

具体实施例：

将待聚类的新闻网页关键信息的文本以文本文件格式(.txt)存在于本地文件夹中，如图1所示，新闻关键信息文本内容格式为：标题、时间、来源和正文，四者之间以换行符分隔开。

指定待聚类文件目录，运行改进后Kmeans聚类算法，生成“xxx_cluster_result.txt”，文件格式为：簇标号\t簇内的网页编号(网页编号之间以空格分隔)，聚类结果文件如图2所示。

Claims

1.一种基于SimHash改进的Kmeans聚类方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，更新簇i的簇质心表的方法为：将新加入的该待聚类文档中的句子加入该簇i的句子频率表中，选择句子频率大于阈值β的句子集合作为该簇i新的质心。

3.如权利要求1或2所述的方法，其特征在于，步骤1)中，首先使用分句对每一待聚类文档进行切分，采用句子作为待聚类文档的最小单元，然后使用SimHash算法计算每一待聚类文档的指纹。

4.如权利要求1或2所述的方法，其特征在于，利用公式计算所述相似度值；其中，sim(A,B)为相似度值，|A∩B|表示文档A与文档B中相同句子的个数，|A|表示文档A中句子的总个数，|B|表示文档B中句子的总个数。

5.如权利要求1或2所述的方法，其特征在于，步骤2)中，利用SimHash算法计算当前所选待聚类文档指纹与其他每一待聚类文档指纹的海明距离，将与当前所选待聚类文档的海明距离小于设定值M的待聚类文档作为当前所选待聚类文档的相似文档集合S0。

6.如权利要求5所述的方法，其特征在于，该设定值M为3。

7.如权利要求1所述的方法，其特征在于，所述待聚类文档为新闻网页正文。