CN101308496A

CN101308496A - 大规模文本数据的外部聚类方法及系统

Info

Publication number: CN101308496A
Application number: CNA200810012141XA
Authority: CN
Inventors: 季铎; 蔡东风; 张桂平; 尹宝生; 苗雪雷; 周俏丽; 白羽
Original assignee: GEWEI SOFTWARE CO Ltd SHENYANG
Current assignee: GEWEI SOFTWARE CO Ltd SHENYANG
Priority date: 2008-07-04
Filing date: 2008-07-04
Publication date: 2008-11-19

Abstract

一种应用于信息技术领域中的一种大规模文本数据的外部聚类方法及系统，设计的聚类系统，包括一候选分析器、关系生成器、关系选取和聚类部件，每个样本点都作为一个簇，通过检索技术为每个样本挑选出候选的具有联系的候选点集合，利用关系生成器计算样本与候选关系样本间的关系，按递增/递减顺序输出到外部存储空间；方法的主要步骤包括：对输入文本集的预处理，生成文本集的倒排索引和特征向量；采用检索技术检索每一文档的候选关系集合；利用关系计算方法对有候选关系的文档进行关系计算；排序输出大于一定阈值的计算结果；聚类算法再依照排序结果，反复迭代合并具有第一直接关系的文本对，最终达到对文本集合的聚类输出。该装置构思新颖科学、聚类过程占用空间小、容量大的外部存储器，对处理过程进行分化处理。

Description

大规模文本数据的外部聚类方法及系统

技术领域：

本发明涉及信息技术领域中一种利用外部存储器进行大规模文本数据聚类的方法及实现，基于检索技术的外部文档聚类方法，克服现有方法在处理问题规模和时间上的不足的大规模文本数据的外部聚类方法及系统。

背景技术：

近10年，以信息为基础的组织或知识型企业焕发勃勃生机，创造和传播知识已经成为检验企业核心能力的关键要素，知识的创造和应用能力成为不折不扣的企业核心竞争力的强力支撑。知识除储存于员工的大脑中外，还根植于企业长期积累的各种文档，以及其他应用系统的数据当中。如何在企业庞杂的信息数据中挖掘出知识，则首先需要将数据归类分析，本发明则是其中一种归类方法——聚类。聚类是按照事物的某些属性、特征把事物聚集成类，使得类间的相似性最小，类内的相似性尽量大。由于聚类是一种无指导的学习方法，无需耗费大量的人力、物力，因此文本的自动聚类技术已成为最有效的突破信息处理的最主要手段。例如，基于聚类技术的搜索引擎，通过聚类技术可以对每个用户的检索结果进行归类，当用户检索“软件”时，可以将结果归类为“病毒”、“办公”等类别，这样用户可以更系统地掌握、分析检索结果。

聚类能够消耗大量存储器和处理器资源，因为每个数据必须和其它数据逐一比较，以便识别数据间的类别关系。然而随着数据的不断积累，处理数据的规模成为了现有的聚类系统的最主要问题。参考文献中有涉及一些处理规模较大的方法，如CURE和CURD，CURE是一种自底向上的层次聚类算法，首先将输入的每个点作为一个聚类，然后合并相似的聚类，直到聚类的个数为k时为止。在CURE中指出，基于中心点的方法和所有的点的距离计算方法都不适合非球形或任意形状的聚类，因此CURE采用了折衷的方法，即用固定数目的点表示一个聚类，从而提高了算法挖掘任意形状的聚类的能力。CURE算法的时间复杂性为O(n*n)(低维数据)和O(n*n*logn)(高维数据)，算法在处理大量数据时必须基于抽样、划分等技术。CURD算法受CURE算法的启发，不同的是采用了密度的方法屏蔽异常数据(噪音)对算法的影响，具有和K-MEANS算法相同的时间复杂性，效率较高。

由此可以看到现有的方法，只是在通过一种缩减的手段，利用少数的特点来代替大规模数据。但往往为了保证系统的性能，其选择的代表点不能过少，因此从本质上上述方法还是没有解决由于处理规模的空间复杂度而造成的不可计算问题。因此研制一种大规模文本数据的外部聚类方法及系统是国内外急需解决的新课题。

发明内容：

本发明的目的是提供一种新的利用外存进行聚类方法，在确保空间复杂度较低的前提下，利用最少的内、外存交互，实现一个处理数据规模大，执行效率高的聚类方法，对海量的杂乱的非结构化数据，进行有用资源正确提取，标明属性，抽象特征，区分类别，使资源重新有序化，并实现跨来源、跨类别的广泛关联的大规模文本数据的外部聚类方法及系统。

本发明的目的是这样实现的：大规模文本数据的外部聚类方法及系统，方法的主要步骤包括：对输入文本集的预处理，生成文本集的倒排索引和特征向量；采用检索技术检索每一文档的候选关系集合；利用关系计算方法对有候选关系的文档进行关系计算；排序输出大于一定阈值的计算结果；聚类算法再依照排序结果，反复迭代合并具有第一直接关系的文本对，最终达到对文本集合的聚类输出；大规模文本数据的外部聚类方法设计的聚类系统，包括一候选分析器、关系生成器、关系选取和聚类部件，聚类的基本过程，首先每个样本点都作为一个簇，通过检索技术为每个样本挑选出候选的具有联系的候选点集合，而后利用关系生成器计算样本与候选关系样本间的关系，并按递增/递减顺序输出到外部存储空间，然后在关系选取和聚类部件的控制下在外部存储中反复地对样本关系文件进行删除合并，直到关系文件为空；基于文本检索技术的样本关系候选计算方法，该方法通过对描述数据的特征建立倒排索引，然后对于每一样本都检索出与其有共同特征的样本作为候选样本集合；聚类是一种消耗大量存储器和处理器资源的方法，因为每个样本必须和其它样本进行逐一比较，以便识别出样本间的类别关系；利用高效的倒排检索技术可以最大程度地减少样本关系计算中所占用的存储器和处理器资源；这种过滤的过程可被称为筛选，一些传统聚类方法都有利用筛选，但是本发明中基于检索技术的筛选尤其有效；当所有样本计算出候选关系序列后，便需要计算样本与样本间的关系，这里称之为距离或相似度；这个距离或相似度的值可以衡量两个样本的相似程度，是诸衡量两个具有一定数量的特征和权值的数据的相似程度的方法或组合；各样本间的距离或相似度通过一定阈值加以控制，如果距离/相似度低于/高于所对应的阈值，则这个关系则被按升序或降序保存到关系文件中；这种按顺序保存的样本关系可以减小其后的聚类中合并和选取的复杂度，减小磁盘交互带来的时间开销；通过排序的关系文件进行外部聚类的方法，该方法每次从存储于外存的关系文件依次合并具有最先关系的样本，而后在合并的基础对现有关系进行裁剪；当关系文件为空时聚类过程结束，并将合并样本集合作为结果进行输出。

本发明的要点在于它的聚类方法及系统。其工作原理是，采用自然语言处理技术对文本进行处理生成可计算的数据格式，并存储于计算的外部储存器中构成文档库，并通过检索技术建立索引库。对于每一文本都通过筛选器，检索出与其有共同特征的样本作为候选样本集合，缩小文本间相似/相关度计算的空间，原始的计算频度由n*n/2，变化为n*k，其中k＜＜n/2。在文本相似度计算的候选空间中可以通过现有的文本相似度计算方法对文本间的关系进行量化，并保证其关系量化的数值在0到1之间。同时为了确保排序算法的时间复杂度，根据数据规模大小在设定不同区间m(m＞0)将文本关系划分到不同的外部关系文件中。同时采用哈希排序的方法，对每个外部关系文件进行递增排序，并合并存储于外部关系文件中。最后针对该排序的数据关系文件，采用本发明的聚类算法，耗费最少的I/O交互，并且占用较小的内存空间，实现数据的聚类处理。

大规模文本数据的外部聚类方法及系统与现有技术相比，具有构思新颖科学，聚类过程占用空间小，执行效率高，适用于大规模文档的聚类，使用成本低、容量大的外部存储器，对处理过程进行分化处理等优点，将广泛地应用于信息技术领域中。

附图说明：

下面结合附图及实施例对本发明进行详细说明。

图1是本发明的一个聚类过程说明原理图。

图2是本发明的外部聚类算法每次的数据合并流程原理图。

图3是本发明的聚类系统中计算两个样本集合的空间距离说明原理图。

图4是本发明的采用外部存储的聚类系统原理图。

图5关系选择和聚类部件的主要过程原理图。

具体实施方式：

参照附图，大规模文本数据的外部聚类方法及系统，方法的主要步骤包括：对输入文本集的预处理，生成文本集的倒排索引和特征向量；采用检索技术检索每一文档的候选关系集合；利用关系计算方法对有候选关系的文档进行关系计算；排序输出大于一定阈值的计算结果；聚类算法再依照排序结果，反复迭代合并具有第一直接关系的文本对，最终达到对文本集合的聚类输出；大规模文本数据的外部聚类方法设计的聚类系统，包括一候选分析器、关系生成器、关系选取和聚类部件，聚类的基本过程，首先每个样本点都作为一个簇，通过检索技术为每个样本挑选出候选的具有联系的候选点集合，而后利用关系生成器计算样本与候选关系样本间的关系，并按递增/递减顺序输出到外部存储空间，然后在关系选取和聚类部件的控制下在外部存储中反复地对样本关系文件进行删除合并，直到关系文件为空；基于文本检索技术的样本关系候选计算方法，该方法通过对描述数据的特征建立倒排索引，然后对于每一样本都检索出与其有共同特征的样本作为候选样本集合；聚类是一种消耗大量存储器和处理器资源的方法，因为每个样本必须和其它样本进行逐一比较，以便识别出样本间的类别关系；利用高效的倒排检索技术可以最大程度地减少样本关系计算中所占用的存储器和处理器资源；这种过滤的过程可被称为筛选，一些传统聚类方法都有利用筛选，但是本发明中基于检索技术的筛选尤其有效；当所有样本计算出候选关系序列后，便需要计算样本与样本间的关系，这里称之为距离或相似度；这个距离或相似度的值可以衡量两个样本的相似程度，是诸衡量两个具有一定数量的特征和权值的数据的相似程度的方法或组合；各样本间的距离或相似度通过一定阈值加以控制，如果距离/相似度低于/高于所对应的阈值，则这个关系则被按升序或降序保存到关系文件中；这种按顺序保存的样本关系可以减小其后的聚类中合并和选取的复杂度，减小磁盘交互带来的时间开销；通过排序的关系文件进行外部聚类的方法，该方法每次从存储于外存的关系文件依次合并具有最先关系的样本，而后在合并的基础对现有关系进行裁剪；当关系文件为空时聚类过程结束，并将合并样本集合作为结果进行输出。

对本发明的实施加以详细描述，参照附图1描述了本发明中各层次模型的组成，候选分析器4、关系生成器5、关系选取和聚类部件11。其中关系生成器的主要功能是计算数据间相互关系，是聚类算法的基础。其内部还包括文本处理8和关系计算9两部分，文本处理部分是将给定的文本集合生成可计算的模型，如：特征向量等；关系计算部分主要是在对文本进行特征表示的基础上计算两个文本的相似度，如：余弦夹角等。由于文本的相似度计算时间复杂度较高，因此需要与候选分析器结合。候选分析器是关系生成器的补充和改善，主要通过高效的检索器6将特征表示后的文本进行检索处理，粗略地为每个文本选择相关数据集。由此，关系生成器在候选分析器给定的候选集内计算出每对文本数据间的相似度，而后需要采用关系选取和聚类部件对数据集合进行划分。在关系选取和聚类部件中主要包括关系排序12和聚类13两个部分，排序主要是将文本数据间的相似度按照从大到小的顺序进行排序，由此可以使聚类算法有指导地发现最相关的文本数据，并进行合并处理。聚类则是对排序的文本数据相似度进行遍历从最大相似度的文本进行合并，最终对数据集合实现聚类划分的目的。

参照附图2是发明的一个聚类过程分步说明图，本发明是通过不断合并最终实现数据聚类的过程。但在每步的合并过程中于传统算法不同，每步可同时合并多个具有第一候选的中间类(合并过程中的小类，并非最终的聚类结果)。这样可提高聚类的性能。

参照附图3是本发明计算两个类与类间距离的方法，当聚类不断进行，文本被不断合并到中间类中，进而涉及如何计算两个中间类的方法，本发明中采用传统的最长距离方法进行计算，即如图所示，两个类间的距离是两个类中所有样本点间最长的距离。

参照附图4是发明的一个聚类过程说明图。本系统通过特征选择和特征的权重计算将数据样本映射成为一个多维空间的数据点，如17，再通过任一空间距离计算的方法计算出两两数据点的距离18，图4中没有线相连的数据点(如，17和18之间)认为距离无穷大。当构建完数据样本的空间关系图18后，系统每次选取距离最短的样本集进行合并，如20。合并完成后，更新其余样本与合并后新的样本集合的距离，生成新的数据关系图。

参照附图5是本发明的关系选择和聚类部件的主要过程原理图。系统首先从文本关系文件中读取文本间的相似度22，并通过部件23按相似度的大小将当前读入的文本关系按从大到小的顺序排序输出，直到满足条件24后进行下一步操作。排序后系统通过25从文件中读入文本关系，在通过条件26判断当前关系是否满足第一合并条件，满足则进行合并27，不满足则判断其是否具有输出条件29，是则将其输出到临时文件中28，当条件30(关系文件中最后一个关系)被满足后一次合并结束，而后需要判断临时文件中是否还有记录31，有则更新关系列表32，并跳转到25步继续进行。如果临时列表中无记录则程序推出输出聚类结果33。

首先结合附图具体说明本发明外部聚类系统的结构组成及其处理数据流的操作步骤：

参见图4，本发明是一种采用外部存储的聚类系统，其中包括：候选分析器、关系生成器、关系选取和聚类部件。其中文本处理和关系计算与现有的计算方法相同。其创新之处在于增设一个基于检索的候选分析器，并通过关系选取和聚类算法构成一种新的基于外部存储器的聚类系统。图中细实线箭头表示控制信号流动方向，中空箭头表示数据流动方向。

重点对本发明系统里的各个模块组成及功能作进一步的介绍：1候选分析器是由一台微机或专用PC机或者专用处理器芯片和一个具有检索功能的程序包组成.该部件的功能是通过索引文件对每篇文档进行检索，查找出与每篇文档具有相同关键词的候选集合，并将结果存储于存储器中。

关系生成器5是由文本处理模块8和关系计算模块9组成。其中文本处理模块主要是对文本进行特征选取和权重计算，具体方法如下：

(1)采用向量空间模型(Vector Space Model，VSM)对文本进行表示。这种方法最开始被用于信息检索中用来表示查询(query)和文档。向量空间模型已经被证明同样可以用在文本分类中用于分类文本的表示。用这种表示方法，每个文本d都可以表示为由一个一个“对”(pair)表示成的向量：

d＝{(t₁，w_1d)，(t₂，w_2d)，Λ，(t_n，w_nd)}

其中，(t_i，w_id)，i≤i≤n是对应第i个特征的“对”，t_i表示特征的编号，w_id表示特征的权重，n是整个特征集合的大小，也就是特征的个数。

(2)采用tf*idf计算特征的权重。tf*idf-权重把词频和词的反比文档频率的乘积对词赋于权重。如下式：

aik＝tfik*idfi＝tfik*log(N/ni)

其中，N表示整个数据集的文档数，ni表示在整个数据集包含文本特征fi的文档数。该方法基于两个假设：特征在单个文本中出现次数越多，越重要；特征在越多的文本中出现，越不重要。在上式中，当N＝ni时，特征的idf值为0，导致权重为0。在小数据集上，一些高频特征会发生这种情况。因此避免特征的权重为0，通常需要进行平滑，如下式所示：

aik＝log(tfik+1)*log(N+1/ni)

(3)特征选取在给定候选特征集合中选择某一最优子集，不仅可以对高维的空间进行降维，并且可以消除噪音数据的影响。本发明中使用的是基于文档频度(DF)的特征选取方法。一个特征的文档频率指的是包含这个特征的文档的数据。这种特征选取方法针对每个特征计算包含这个特征的文档的数目，然后去除文档频度低于某个预先给定阈值的特征。

参照附图5的基本过程主要分为两部分：一是对文本关系的相似度按由大到小排序输出，具体采用哈希排序的方法。如考虑排序效率，也可将文本关系相似度(0~1的数值)划分成不同部分分别进行排序再合并。二是对排序的关系序列进行遍历合并的过程。该过程主要通过对排序序列严格按照由大到小进行遍历，在此顺序中如果两个文本都是首次出现(第一关系)，则将两个文本关系进行合并，否则判断该关系是否为当前两个文本的最小相似度，是则将改关系输出到临时关系序列中，否则删除。一次遍历结束后将临时关系序列更新到原关系文件中，并重复同样遍历操作，直到关系文件为空。

关系选择和聚类部件的主要过程可以参考图5。首先选取大于给定的阈值的关系计算结果，并采用排序方法对其进行排序输出。然后从排序文件中依次选取具有第一关系的文档进行合并，所谓第一关系即在一次迭代中按照排序顺序第一次被记录的两个文档关系。合并后通过记数器，只保留新生成的类与其他类别在排序文件中的最后一个记录。以此不断合并，直到排序关系文件中的记录为空。

Claims

1、一种大规模文本数据的外部聚类方法及系统，其特征在于：方法的主要步骤包括：对输入文本集的预处理，生成文本集的倒排索引和特征向量；采用检索技术检索每一文档的候选关系集合；利用关系计算方法对有候选关系的文档进行关系计算；排序输出大于一定阈值的计算结果；聚类算法再依照排序结果，反复迭代合并具有第一直接关系的文本对，最终达到对文本集合的聚类输出。

2、根据权利要求1所述的大规模文本数据的外部聚类方法设计的聚类系统，包括一候选分析器、关系生成器、关系选取和聚类部件，其特征在于：聚类的基本过程，首先每个样本点都作为一个簇，通过检索技术为每个样本挑选出候选的具有联系的候选点集合，而后利用关系生成器计算样本与候选关系样本间的关系，并按递增/递减顺序输出到外部存储空间，然后在关系选取和聚类部件的控制下在外部存储中反复地对样本关系文件进行删除合并，直到关系文件为空。

3、根据权利要求1所述的大规模文本数据的外部聚类方法及系统，其特征在于：基于文本检索技术的样本关系候选计算方法，该方法通过对描述数据的特征建立倒排索引，然后对于每一样本都检索出与其有共同特征的样本作为候选样本集合；聚类是一种消耗大量存储器和处理器资源的方法，因为每个样本必须和其它样本进行逐一比较，以便识别出样本间的类别关系；利用高效的倒排检索技术可以最大程度地减少样本关系计算中所占用的存储器和处理器资源；这种过滤的过程可被称为筛选，一些传统聚类方法都有利用筛选，但是本发明中基于检索技术的筛选尤其有效。

4、根据权利要求1和3所述的大规模文本数据的外部聚类方法及系统，其特征在于：当所有样本计算出候选关系序列后，便需要计算样本与样本间的关系，这里称之为距离或相似度；这个距离或相似度的值可以衡量两个样本的相似程度，是诸衡量两个具有一定数量的特征和权值的数据的相似程度的方法或组合；各样本间的距离或相似度通过一定阈值加以控制，如果距离/相似度低于/高于所对应的阈值，则这个关系则被按升序或降序保存到关系文件中；这种按顺序保存的样本关系可以减小其后的聚类中合并和选取的复杂度，减小磁盘交互带来的时间开销。

5、根据权利要求1和3所述的大规模文本数据的外部聚类方法及系统，其特征在于：通过排序的关系文件进行外部聚类的方法，该方法每次从存储于外存的关系文件依次合并具有最先关系的样本，而后在合并的基础对现有关系进行裁剪；当关系文件为空时聚类过程结束，并将合并样本集合作为结果进行输出。