CN104657472A

CN104657472A - 一种基于进化算法的英文文本聚类方法

Info

Publication number: CN104657472A
Application number: CN201510079140.7A
Authority: CN
Inventors: 陈志�; 陈骏; 岳文静
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2015-05-27

Abstract

本发明给出一种英文文本聚类方法，该方法首先将英文文本进行预处理成向量空间模型，然后在聚类过程中，第一步是随机选取n个聚类中心，对于聚类中心，利用欧氏距离进行聚类的划分，使同一类的文本归为一个聚类，这样完成得到一个局部最优的聚类划分；第二步是进行进化算法的处理，所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择，通过与文本间距离最近的原则进行聚类划分从而达到全局最优。本发明能够对英文文本进行有效聚类，剔除不必要的聚类结果，使得聚类过程较快收敛。

Description

一种基于进化算法的英文文本聚类方法

技术领域

本发明涉及一种英文文本聚类方法，利用一种局部聚类的方法对文本进行聚类中心的选择，再利用一种进化算法进行全局聚类，属于机器学习、文本挖掘、统计分析、信息检索交叉技术应用领域。

背景技术

随着数据库技术和互联网技术普及和发展，人们因为大量数据已经陷入了“数据丰富，知识贫乏”的尴尬境地。面对浩瀚的数据海洋，不知所措。信息量虽然巨大，但对于用户来说，所需要信息只是其中很小的一部分。如何从浩瀚的文本信息资源中准确获取所需信息，已成为信息处理的一个关键问题。文本挖掘指的是从大量的文本集合中发现潜在的模式和知识的过程。文本聚类是文本挖掘的主要技术之一。

文本聚类是一种集成机器学习、模式识别、统计分析和信息检索技术于一体的文本挖掘方法，其特点是在不需要训练集和预定义类别的情况下，即可从给定的文档集合中找到合理的聚类划分。通过文本聚类，可将文档集合划分为若干簇，并使同一簇中的文档具有尽可能大的相似度，簇间文档保持尽可能小的相似度，为信息的查询和检索提供了较好的优化和分析方法。

典型的文本聚类方法有很多种，其中K-Means算法因其简单和高效性，在文本聚类中占有重要地位。由于K-Means算法在聚类中心的计算过程中采用了启发式方法，因而有效地降低了算法复杂度，提高了运算速度。也因为如此，使得该算法对初始聚类中心的选择较为敏感，易于陷入局部最优解。

遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存，优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出，其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。遗传算法的这些性质，已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。它是现代有关智能计算中的关键技术。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法，是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。

发明内容

技术问题：本发明的目的是提供一种基于进化算法的英文文本聚类方法，将局部聚类算法和进化算法相结合对多个英文文本进行聚类，先将文本进行局部聚类以选出一批合适的聚类中心，以余弦相似度进行文本的相似度度量，而后利用进化算法进行源种群聚类中心的选取以及聚类的划分以达到全局聚类的效果，解决聚类中心的选取过于随机而无法得到最优聚类、同一聚类文件相似度不高以及聚

类次数过多而产生不必要的聚类结果使得聚类无法收敛等问题。

技术方案：本发明所述的一种基于进化算法的英文文本聚类方法，将文本预先处理成为向量集，根据公式计算出单词的权重作为特征项来进行文本表示，然后随机选取聚类中心进行文本的局部聚类，最后通过进化算法中种群的联姻思想进行新一代聚类中心的选择，通过与文本间距离最近的原则进行聚类划分从而达到

全局最优。

本发明所述的英文文本聚类的方法包括以下步骤：

步骤1)将用户提供的多个英文文本拆分成单词，删除长度小于2的单词；删除停用词，将删除后的单词形成新的单词集合；所述停用词是由用户指定，一般为那些对文本标识没有太大作用的单词，主要功能是消除所有文本中出现频率都很高的词；

步骤2)统计用户所提供文本集中的文本总数、统计每个文本中删除后的单词总数；统计出在新的单词集合中每个单词出现在各文本中的数量，统计出新的单词集中每个单词所出现过的文本数；

步骤3)对所有的单词按照其权值从大到小排序，提取4-6个的权重较大的单词作为文本的特征表示；所述权值表示为f_i(d)为词频；所述词频是在该文本中，该单词的数量除以该文本中的总单词数；所述N为总文本数，n_i为文本集合中含有该词的文本数；

步骤4)随机选取2-4个聚类中心(质心文本)；利用欧氏距离进行文本的距离度量，为质心文本找到相似文本；x_pk，x_qk分别表示文本d_p，d_q的第k个文本特征的权重；利用余弦相似度公式，计算出非质心文本与质心的相似度,用户通过给出阈值来判断相似度的高低，将相似度高的置于第一群集，相似度低的置于第二群集，直到找到最后一个文件为止；判断目标函数是否改变；所述W_1k表示第一个文本的权重，W_2k表示第二个文本的权重，k表示第k个特征项；所述目标函数是指所输入的文件与聚类中心的距离是否改变；重新计算聚类中心，重复步骤4)；

步骤5)对每个聚类中心进行编码，将聚类中心表示为染色体，随机选择样本点(聚类中心)作为染色体基因；确定适应度函数所述编码是指将特征值转化为二进制表示；所述适应度函数是基于欧氏距离进行的相似度度量，Fitness(I)表示个体I的适应度，X_α为属于类C_β的样本点，Z_β为第β个聚类中心；

步骤6)将染色体基因进行联姻产生下一代个体，并鉴别精英个体；然后采用轮盘赌法，由适应度函数对应的概率分布确定把当前群体中的第α个个体I按照选择概率抽出，并进行交叉和变异；所述联姻是仿照生物学中父代双亲结合产生下一代的过程；所述精英个体是指在聚类过程中总是获得较高相似度的聚类中心；相似度的高低通过用户给出的阈值判断；所述轮盘赌是一种赌博方式，每一种选择的方式都是完全随机没有任何认为操作的；所述P_s(I_α)表示第α个个体被选择的概率；

步骤61)从当前群体中按轮盘赌法选择两条染色体，随机选取交叉位置，将两条染色体从交叉点处分成两段，按概率P_c一次将两条染黑色体的右半段互换并重新连接，得到两条新染色体；

步骤62)随机选择基因变异的位置，以用户指定的变异概率P_m对这些位置的基因进行变异，所述变异概率一般在0.01至0.3之间；

步骤7)复制联姻后代到上一代种群中，若精英个体优于联姻后代，则将精英个体复制到相关源种群作为新的聚类中心，否则仍使用联姻后代作为聚类中心；当达到联姻最大代数的时候停止联姻，确定聚类中心；在聚类中心确定的情况下，聚类划分采用与文本距离最近的原则确定，γ为聚类数；最后使得聚类的划分更加准确，同一聚类的文本相似度更高。

有益效果：

1)本发明提供一种英文文本聚类的方法，整个过程思路清晰，易于理解，首先借用的K-means算法的思想过程简单，使用者可以很快了解即可使用，而后的进化算法与之相结合，算法表示清楚，相关技术概念也较容易理解。

2)本发明所述聚类过程中，通过两种算法的结合，不断地优化聚类中心以及聚类的划分从而使得最终的结果由局部最优到全局最优。

3)本发明中所述的联姻过程，提供了整个联姻的方法已经下一代个体的选取法则，能够使得新的聚类中心更加合适，新的聚类划分更加准确，从而达到全局最优化。

4)本发明中所述的联姻方法中包含遗传算法的部分，因此搜索使用评价函数启发，过程简单；使用轮盘赌法进行迭代，具有随机性，具有可扩展性；比较容易和其他的算法相结合进行问题的处理。

附图说明

图1文本预处理的方法流程图，

图2一种英文文本聚类的方法流程图。

具体实施方式

本发明以文本挖掘作为背景，对多个英文文本进行聚类，目的是根据类别的不同来获取更有价值的信息，本发明根据图1进行文本的预处理，向量化；根据图2进行文本间的聚类。具体实例如下所述：

1.将4个文本中的每一个文本拆分成单词，对每个文本中的单词进行长度分析；删除长度小于2的单词，删除停用词；

2.统计出4个文本的总单词数，每个文本中每个单词的数量，计算单词a在所在文本中的词频f_i(d)，判断单词a是否在在该文本中出现，出现过标记为1；未出现过标记为0，统计出单词a所出现过的文本数；这里以一号文本D1作为例子,D1的总单词数为1000个，单词a出现在3个文本中，单词b出现在3个文本中，单词c出现在4个文本中，单词d出现在3个文本中；各项参数如表3；

3.计算每个单词的权重由大到小依次选择5个单词作为文档的特征项，权重作为这5个单词的特征值来进行文本表示，1号文本D1的特征项为a,b,c,d，权重分别为30，20，20，10；2号文本D2的特征项为a,c,d,e,权重分别为40，30，20，10；3号文本D3特征项为b,c,d,e,权重分别为30,20,10,10；4号文本D4特征项为a,b,c,e；权重分别为40,20,10,10；分别用向量表示为D1(30,20,20,10,0)，D2(40,0，30，20，10)，D3(0,30,20,10,10)，D4(40,20,10,0,10)；

4.随机选取2个聚类中心，利用欧氏距离进行文本的距离度量，利用余弦相似度公式

Sim (D_{1}, D_{2}) = \cos θ = \frac{Σ_{k = 1}^{n} W_{1 k} * W_{2 k}}{\sqrt{(Σ_{k = 1}^{n} W_{1 k}^{2}) (Σ_{k = 1}^{n} W_{2 k}^{2})}}

计算出文件与质心的相似度,D1、D4作为聚类中心，则通过公式计算D2与D1相似度为0.86；D3与D1相似度为0.67；D2与D4相似度为0.78；D3与D4相似度为0.49；显然D2，D3更适合归为D1一类；

5.目标函数有改变，重新计算聚类中心，经过几轮聚类之后得出文本相似度如表2；选择D1，D2作为聚类中心可以得到相对最优的聚类划分，即D3，D4，D1为第一聚类，D2为一个聚类，可以看出聚类中心无论选取哪两个都不能得出最好的聚类，目标函数无法取得最小值；只能做到局部最优；

6.对每个聚类中心进行二进制编码，聚类中心表示为染色体，选择样本点D1，D2，把它们作为染色体基因，D1(011110,010100,010100,001010,0),D2(101000,0,011110,010100,001010),确定适应度函数

Fitness (I) = \frac{1}{1 + Σ_{α = 1}^{m} Σ_{X_{α} &Element; C_{β}} | | X_{α} - Z_{β} | |},;

7.将2个染色体基因进行两两联姻产生下一代个体，通过单点交叉和变异产生两个新的聚类中心，并进行精英个体的鉴别，交叉我们选择最末两位进行交叉，交叉出来得到的新的个体D1，D2为分别为：D1(011100,010100,010110,001000,000010)，D2进行交叉之后再让第四个特征项的第三位进行变异为(101010,0,011100,010010,001000)；则对应的特征值分别为D1(28,20,22,8,2),D2(42,0,28,18,8)；

8.在聚类中心改变的情况下进行文本间聚类，联姻之后的聚类相似度如表3；由此看出，D3，D4与D1的相似度非常高，分别达到了0.86和0.9，所以D1则可以作为精英个体进行保存；再次进行下一步联姻；

9.当达到联姻最大代数的时候停止联姻，确定聚类中心；在聚类中心确定的情况下，聚类划分采用与文本距离最近的原则确定；所述γ为聚类数，最后使得聚类的划分更加准确，同一聚类的文件相似度更高。

表1一号文本各项参数表

单词	数量	频率	所出现过的文本数
				a	450	0.45	3
b	300	0.3	3
				c	370	0.37	4
d	150	0.15	3
				e	0	0	0

表2聚类算法迭代完成时各文本间的相似度表

	D1	D2	D3	D4
					D1	1	0.86	0.67	0.90
D2	0.86	1	0.42	0.78
					D3	0.67	0.42	1	0.49
D4	0.90	0.78	0.49	1

表3联姻完成后各文本间的相似度表

	D1	D2	D3	D4
					D1	1	0.86	0.71	0.90
D2	0.86	1	0.39	0.80
					D3	0.71	0.39	1	0.49
D4	0.90	0.80	0.49	1

Claims

1.一种基于进化算法的英文文本聚类方法，其特征在于该方法包括以下步骤：

步骤4)随机选取2-4个聚类中心即质心文本；利用欧氏距离进行文本的距离度量，为质心文本找到相似文本；x_pk，x_qk分别表示文本d_p，d_q的第k个文本特征的权重；利用余弦相似度公式，计算出非质心文本与质心的相似度,用户通过给出阈值来判断相似度的高低，将相似度高的置于第一群集，相似度低的置于第二群集，直到找到最后一个文件为止；判断目标函数是否改变；所述W_1k表示第一个文本的权重，W_2k表示第二个文本的权重，k表示第k个特征项；所述目标函数是指所输入的文件与聚类中心的距离是否改变；重新计算聚类中心，重复步骤4)；

步骤5)对每个聚类中心进行编码，将聚类中心表示为染色体，随机选择样本点即聚类中心作为染色体基因；确定适应度函数所述编码是指将特征值转化为二进制表示；所述适应度函数是基于欧氏距离进行的相似度度量，Fitness(I)表示个体I的适应度，X_α为属于类C_β的样本点，Z_β为第β个聚类中心；