CN103136355A

CN103136355A - 一种基于自动阈值鱼群算法的文本聚类方法

Info

Publication number: CN103136355A
Application number: CN201310068725XA
Authority: CN
Inventors: 孙健; 梁雪芬; 徐杰; 隆克平; 艾丽丽; 周云龙; 唐明; 王晓丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2013-06-05
Anticipated expiration: 2033-03-05
Also published as: CN103136355B

Abstract

本发明公开了一种基于自动阈值鱼群算法的文本聚类方法，通过计算文本特征向量的相似度矩阵，采用相似度矩阵的每行元素获得每个文本的初始等价划分阈值，从而对文本进行初始等价划分，进而确定初始聚类数目和初始聚类中心；结合采用人工鱼群算法，根据全局最优和局部最优信息更新每条人工鱼的状态，以寻找全局最优聚类中心，对初始聚类结果再聚类。由于采用自动获取阈值的方法得到初始聚类数目和初始聚类中心，并通过人工鱼群算法寻找全局最优聚类中心，本发明克服了传统聚类方法对初值敏感、仅依靠局部数据特性等弊端，可提高文本聚类的准确度与智能性。

Description

一种基于自动阈值鱼群算法的文本聚类方法

技术领域

本发明属于文本聚类技术领域，更为具体地讲，涉及一种基于自动阈值鱼群算法的文本聚类方法。

背景技术

网络信息的不断增长，使组织管理海量文本信息、方便使用者获得有用的信息变得愈加重要。文本信息多是非结构化或半结构化的数据，要从中发现潜在有用的知识模式，文本聚类技术是一种非常重要的方法。由于聚类不需要预先的类别标记，使文本聚类得到广泛研究与应用。文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤，也能够挖掘不同用户的兴趣模式以用于信息过滤和个性化推荐等信息服务，还可以用来改善文本分类的结果或者找出潜在的主题等。

文本聚类满足类内相似、类间不相似的假设，是一种无监督的机器学习方法。对于中文文本，通常先由分词软件进行分词，再利用向量空间模型把文档转换成高维空间中的向量,通过特征抽取后形成样本矩阵，然后进行聚类。聚类一般是在给定的某种相似性度量下把文本集合进行分组，使彼此相似的文本分到同一个组内，文本聚类的输出一般为文本集合的一个划分。

传统的聚类算法可广泛地分为基于层次聚类和基于划分聚类两种，基于层次聚类方法需要选择合适的算法终止点，基于划分聚类方法包括K-means、模糊C均值等，需要预先给定聚类数目，聚类结果对初值十分敏感。另外，这两种方法都只依靠局部数据特性来提炼聚类模式，有可能对于数据本身特征的理解产生扭曲。

为克服上述聚类方法的不足，目前业界已经提出一种人工鱼群聚类算法。人工鱼群算法是一种模仿鱼类行为方式的寻优算法，具有全局寻优、并行快速等优点，对初始值不敏感。将人工鱼群算法用于聚类，能克服传统聚类算法仅仅依靠局部数据特性和对初始值敏感的弊端，但现有的人工鱼群算法在初始聚类数目和聚类中心的确定上仍带有一定的人为因素。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于自动阈值鱼群算法的文本聚类方法，通过计算初始等价划分阈值得到初始聚类数目与初始聚类中心，再采用人工鱼群算法寻找全局最优聚类中心，克服传统聚类方法对初值敏感、仅依靠局部数据特性等弊端，提高文本聚类的准确度与智能性。

为实现上述发明目的，本发明基于自动阈值鱼群算法的文本聚类方法，其特征在于包括：

（1）、对N个文本对象进行预处理，包括中文分词、去停用词、词频统计、特征项提取、文本向量化，得到文本对象的特征向量：

x_{i} = Σ_{r = 1}^{R} l_{r, i} a_{r}

其中，x_i表示第i个文本对象的特征向量，i＝1,2,…,N，a_r表示第r个特征项，特征项总数为R个，l_r,i表示x_i中第r个特征项对应的权值；

（2）、根据N个文本对象的特征向量计算每个文本对象的初始等价划分阈值Th_i，确定初始聚类数目和初始聚类中心：

2.1）、计算文本对象的相似度矩阵S：

其中，sim(x_i,x_j),1≤i≤N,1≤j≤N表示文本对象x_i、x_j之间的相似度；

2.2）、将相似度矩阵S的每行元素按相似度从大到小排序，得到排序后的相似度矩阵S′：

其中，sim(x_i,x_j′),1≤j′≤N表示经排序后文本对象x_i与x_j′之间的相似度；初始等价划分阈值Th_i的计算公式为：

{Th}_{i} = {sim (x_{i}, x_{j'}) | \underset{j'}{Max} [sim (x_{i}, x_{j'}) - sim (x_{i}, x_{j' + 1})]}, j^{'} &Element; {1,2 . . ., N - 1}

2.3）、根据相似度矩阵S和初始等价划分阈值Th_i计算每个文本的初始等价划分R_i：

R_i＝{{P_i},{U-P_i}}

其中，P_i＝{x_jsim(x_i,x_j)≥Th_i}，U＝{x₁,x₂,…,xi,…,x_N}；

2.4）、根据每个文本的初始等价划分R_i进行初始聚类，得到初始聚类结果CR：

CR=R₁∩R₂∩…∩R_i∩…∩R_N＝{c₁,c₂,…,c_K}

其中，c_k,1≤k≤K表示初始聚类结果中的一个类，K为初始聚类数目，将c_k中所有文本对象特征向量的平均值作为初始第k类的聚类中心x_ck，初始聚类中心x_ck的计算公式为：

x_{ck} = Σ_{r = 1}^{R} \overset{&OverBar;}{l_{r, k}} a_{r}

其中

p_k表示c_k类中文本对象的个数，l_r,s表示c_k类中第s,1≤s≤p_k个文本对象特征向量中第r个特征项的权值，

是c_k类中的所有文本对象特征向量中第r个特征项的权值之和；

（3）、采用人工鱼群算法对步骤（2）得到的初始聚类结果进行再聚类：

3.1）、设置人工鱼条数Total与各人工鱼的初始状态，第m条人工鱼的状态Q_m,m＝1,2,…,Total为数据空间中的向量，其形式与文本对象的特征向量一致；设置最大重复尝试次数TryNumber、最大迭代次数IT、步长Step、视野Visual、拥挤度因子δ，将K个初始聚类中心作为初始全局最优人工鱼状态Q_{best_af,k},1≤k≤K；

3.2）、对人工鱼状态进行迭代更新：

在第t,1≤t≤IT次迭代更新时，依次对每条人工鱼状态进行更新，第m条人工鱼的状态为

计算其适应度值

Y_{m}^{t} = \frac{num (Q_{m}^{t})}{π * {Visual}^{2}}

其中，

表示迭代次数为t时第m条人工鱼的适应度值，表示迭代次数为t时第m条人工鱼视野范围内的文本对象个数；

此时前m-1条人工鱼已完成状态更新，即当前时刻其状态为

当前时刻全局最优人工鱼状态记为

其中离人工鱼距离最近的全局最优人工鱼状态记为

第m条人工鱼分别模拟执行以下三种行为：

a.觅食行为：

在第m条人工鱼视野范围内随机选择一个状态

若

则第m条人工鱼向

和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q_{n}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t})}{| | (Q_{n}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ()

其中，Rand()是一个介于0和1之间的随机数；

反之，则更新随机选择状态

，判断是否满足前进条件；如果重复尝试次数达到TryNumber次后仍不满足条件，则第m条人工鱼随机移动一步：

Q_{m}^{t + 1} = Q_{m}^{t} + Visual \cdot Rand ()

b.聚群行为

在当前时刻的所有人工鱼状态中，计算第m条人工鱼视野范围内的人工鱼同伴数目

同伴中心

为

及其视野范围内同伴的状态的平均值，同伴中心的适应度值为

若

则第m条人工鱼向和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q_{c, m}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t})}{| | (Q_{c, m}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ();

否则第m条人工鱼再重新执行一次觅食行为；

c.追尾行为：

在当前时刻的所有人工鱼状态中，比较第m条人工鱼视野范围内各人工鱼同伴的适应度值，找到适应度最大值

及其对应的同伴状态

若则第m条人工鱼向

和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q_{\max, m}^{t} - Q_{m}^{t}) + (Q_{mear, m}^{t} - Q_{m}^{t})}{| | (Q_{\max, m}^{t} - Q_{m}^{t}) + (Q_{mear, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ()

否则第m条人工鱼再重新执行一次觅食行为；

第m条人工鱼在模拟执行三种行为后得到三个备选更新状态，比较三个备选更新状态的适应度值，如果其中最大的适应度值高于当前适应度值

且只对应一个备选更新状态，则将第m条人工鱼更新为最大适应度值所对应的备选更新状态；如果其中最大适应度值高于当前适应度值

且对应一个以上备选更新状态，则任意选择一个备选更新状态进行更新；如果其中最大的适应度值不高于当前适应度值则第m条人工鱼状态保持不变；

第m条人工鱼的最终更新结果记为如果此时人工鱼状态

的适应度值

高于距离最近的最优人工鱼的适应度值则用

代替

所对应的全局最优人工鱼

否则全局最优人工鱼状态保持不变；

当迭代次数达到最大迭代次数IT时，人工鱼状态迭代更新结束，得到最终全局最优人工鱼状态

3.3）、根据最终全局最优人工鱼状态计算最终聚类中心：

对于最终全局最优人工鱼，设定全局最优人工鱼聚类阈值，计算第一条最终全局最优人工鱼与其他最终全局最优人工鱼之间的距离，将距离小于聚类阈值的最终全局最优人工鱼与第一条最终全局最优人工鱼归于一类；在剩下的最终全局最优人工鱼中按顺序选择第一条，计算其与剩下的其它最终全局最优人工鱼的距离，将距离小于聚类阈值的最终全局最优人工鱼与该最终全局最优人工鱼归于一类；依此类推，直到将所有最终全局最优人工鱼归类；

最终得到的人工鱼类的个数为最终聚类数目H，将每个人工鱼类中所有最终全局最优人工鱼成员状态的均值作为该类的最终聚类中心X_ch,1≤h≤H；

3.4）、计算每个文本对象与H个最终聚类中心的距离，将文本对象归入与其距离最近的最终聚类中心所对应的类中，得到文本对象的最终聚类结果C_h,1≤h≤H。

其中，步骤3.1）中人工鱼条数Total与初始状态的设置方法为：

如果设置初始人工鱼均匀分布在数据空间中，则设置每条人工鱼中第r,r＝1,2,…,R个特征项权值的可能取值个数w_r，人工鱼条数Total＝w₁×w₂×…×w_R，其中R为文本对象的特征项个数；否则初始人工鱼随机分布在数据空间中，则设置人工鱼条数Total，每条人工鱼状态随机。

本发明的发明目的是这样实现的：本发明基于自动阈值鱼群算法的文本聚类方法，先对文本进行预处理，将文本对象表示为能体现文本特征的特征向量；然后计算文本特征向量之间的相似度矩阵，将相似度矩阵每一行元素从大到小排序后，选择与相邻元素差值最大的相似度作为初始等价划分阈值，得到初始等价划分并确定初始聚类数目和初始聚类中心；再采用人工鱼群算法根据全局最优和局部最优信息更新每条人工鱼的状态，以寻找全局最优聚类中心，对初始聚类结果再聚类，得到最终聚类结果。

本发明摒弃了传统的人工预设初始聚类数目和聚类中心等聚类参数的方法，而是采用根据文本对象相似度计算获取初始等价划分阈值的方法得到初始聚类数目和初始聚类中心，并采用人工鱼群算法寻找全局最优聚类中心，克服传统聚类方法对初值敏感、仅依靠局部数据特性等弊端，提高文本聚类的准确度与智能性。

附图说明

图1是本发明基于自动阈值鱼群算法的文本聚类方法的一种具体实施方式流程图；

图2是本发明一个具体实施例的仿真示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于自动阈值鱼群算法的文本聚类方法的一种具体实施方式流程图。如图1所示，本发明包括以下步骤：

S101：文本预处理；

采用分词工具对待聚类的N个文本对象进行分词，经过分词后的词或词语作为文本对象的特征项，特征项构成文本对象的特征空间。再对初始文本对象去停用词，删除特征空间中的停用词例如“的”、“是”、“就是”等，得到维数较高的文本特征空间，对文本特征空间进行降维处理，再统计待聚类文本对象的特征项词频，利用TF-IDF函数计算特征项权重，最后将文本用特征项及其权重表示，得到文本的特征向量。

本实施例中，假定有10个文本对象，分别为x_i，其中i＝1,2,…,10；特征项数目为3，分别为a_r,r＝1,2,3，此处略去具体文本对象与特征项信息。表1是10个文本对象中每个特征项的权值。

表1

以文本对象x₁为例，其特征向量可以表示为：x₁＝0.1a₁+0.0a₂+0.0a₃。其他的文本对象以此类推。

S102：根据步骤S101中得到的10个文本对象的特征向量，计算每个文本对象的初始等价划分阈值Th_i；

计算文本对象的相似度矩阵S：

其中，sim(x_i,x_j),1≤i≤N,1≤j≤N表示对象x_i、x_j之间的相似度；

本实施例中，sim(x_i,x_j)由余弦相似度计算得到，以sim(x₁,x₃)为例：由表1可知x₁＝0.1a₁+0.0a₂+0.0a₃，x₃＝0.1a₁+0.1a₂+0.0a₃，根据余弦相似度计算公式，x₁与x₃之间的相似度为：

sim (x_{1}, x_{3}) = \frac{x_{1} \cdot x_{3}}{| | x_{1} | | | | x_{3} | |} = \frac{Σ_{r = 1}^{3} l_{r, 1} \cdot l_{r, 3}}{\sqrt{Σ_{r = 1}^{3} {(l_{r, 1})}^{2}} \sqrt{Σ_{r = 1}^{3} {(l_{r, 3})}^{2}}}

= \frac{0.1 \times 0.1 + 0 \times 0.1 + 0 \times 0}{\sqrt{{0.1}^{2} + 0^{2} + 0^{2}} \times \sqrt{{0.1}^{2} + {0.1}^{2} + 0^{2}}}

＝0.7071

计算得到相似度矩阵S为：

S = [\begin{matrix} 1 & 0 & 0.7071 & 0.7071 & 0.2762 & 0.3578 & 0.2683 & 0.3482 & 0.5298 & 0.4616 \\ 0 & 1 & 0.7071 & 0.7071 & 0.2762 & 0.2683 & 0.3578 & 0.3482 & 0.5298 & 0.5934 \\ 0.7071 & 0.7071 & 1 & 1 & 0.3906 & 0.4427 & 0.4427 & 0.4924 & 0.7493 & 0.7460 \\ 0.7071 & 0.7071 & 1 & 1 & 0.3906 & 0.4427 & 0.4427 & 0.4924 & 0.7493 & 0.7460 \\ 0.2762 & 0.2762 & 0.3906 & 0.3906 & 1 & 0.9963 & 0.9963 & 0.9936 & 0.9923 & 0.8984 \\ 0.3578 & 0.2683 & 0.4427 & 0.4427 & 0.9963 & 1 & 0.9920 & 0.9965 & 0.9241 & 0.9141 \\ 0.2683 & 0.3578 & 0.4427 & 0.4427 & 0.9963 & 0.9963 & 1 & 0.9965 & 0.9241 & 0.9259 \\ 0.3482 & 0.3482 & 0.4924 & 0.4924 & 0.9936 & 0.9965 & 0.9965 & 1 & 0.9453 & 0.9412 \\ 0.5298 & 0.5298 & 0.7493 & 0.7493 & 0.9023 & 0.9241 & 0.9241 & 0.9453 & 1 & 0.9956 \\ 0.4616 & 0.5934 & 0.7460 & 0.7460 & 0.8984 & 0.9141 & 0.9259 & 0.9412 & 0.9956 & 1 \end{matrix}]

对相似度矩阵S=[sim(x_i,x_j)]每一行元素按相似度从大到小排序，得到排序后的相似度矩阵S′：

其中，sim(x_i,x_j′),1≤j′≤N表示经排序后文本对象x_i与x_j′之间的相似度；

本实施例中采用余弦相似度，两文本对象的余弦相似度值越大表示相似度越大，因此按余弦相似度值从大到小进行排序，排序后的相似度矩阵S′为：

S^{'} = [\begin{matrix} 1 & 0.7071 & 0.7071 & 0.5298 & 0.4616 & 0.3578 & 0.3482 & 0.2762 & 0.2683 & 0 \\ 1 & 0.7071 & 0.7071 & 0.5934 & 0.5298 & 0.3578 & 0.3482 & 0.2762 & 0.2683 & 0 \\ 1 & 1 & 0.7493 & 0.7460 & 0.7071 & 0.7071 & 0.4924 & 0.4427 & 0.4427 & 0.3906 \\ 1 & 1 & 0.7493 & 0.7460 & 0.7071 & 0.7071 & 0.4924 & 0.4427 & 0.4427 & 0.3906 \\ 1 & 0.9963 & 0.9963 & 0.9936 & 0.9023 & 0.8984 & 0.3906 & 0.3906 & 0.2762 & 0.2762 \\ 1 & 0.9965 & 0.9963 & 0.9920 & 0.9241 & 0.9141 & 0.4427 & 0.4427 & 0.3578 & 0.2683 \\ 1 & 0.9965 & 0.9963 & 0.9920 & 0.9259 & 0.9241 & 0.4427 & 0.4427 & 0.3578 & 0.2683 \\ 1 & 0.9965 & 0.9965 & 0.9936 & 0.9453 & 0.9412 & 0.4924 & 0.4924 & 0.3482 & 0.3482 \\ 1 & 0.9956 & 0.9453 & 0.9241 & 0.9241 & 0.9023 & 0.7493 & 0.7493 & 0.5298 & 0.5298 \\ 1 & 0.9956 & 0.9412 & 0.2959 & 0.9141 & 0.8984 & 0.7460 & 0.7460 & 0.5298 & 0.4616 \end{matrix}]

在S′的每行元素中，找出相邻差值最大的两个元素，并将其中较大的一个选作该行对应文本对象的分类阈值Th_i。初始等价划分阈值Th_i的计算公式为：

{Th}_{i} = {sim (x_{i}, x_{j'}) | \underset{j'}{Max} [sim (x_{i}, x_{j'}) - sim (x_{i}, x_{j' + 1})]}, j^{'} &Element; {1,2 . . ., N - 1}

本实施例仅以文本对象x₁为例说明初始等价划分阈值Th₁的计算过程。表2是排序后的相似度矩阵S′第一行中各相邻元素的差值。

sim(x₁,x_1′)-sim(x₁,x_2′)	1.000-0.7071=0.2929
		sim(x₁,x_2′)-sim(x₁,x_3′)	0.7071-0.7071=0.0000
sim(x₁,x_3′)-sim(x₁,x_4′)	0.7071-0.5298=0.1773
		sim(x₁,x_4′)-sim(x₁,x_5′)	0.5298-0.4616=0.0682
sim(x₁,x_5′)-sim(x₁,x_6′)	0.4616-0.3578=0.1038
		sim(x₁,x_6′)-sim(x₁,x_7′)	0.3578-0.3482=0.0096
sim(x₁,x_7′)-sim(x₁,x_8′)	0.3482-0.2762=0.0720
		sim(x₁,x_8′)-sim(x₁,x_9′)	0.2762-0.2683=0.0079
sim(x₁,x_9′)-sim(x_1′,x_10′)	0.2683-0=0.2683

表2

由表2可以看出，sim(x₁,x_1′)与相邻元素差值最大，故将sim(x₁,x_1′)作为x₁的初始等价划分阈值Th₁＝1.0000。同理计算其它文本对象的初始等价划分阈值Th_i。表3是10个文本对象的初始等价划分阈值Th_i。

Th₁	Th₂	Th₃	Th₄	Th₅	Th₆	Th₇	Th₈	Th₉	Th₁₀
										1.0000	1.0000	1.0000	1.0000	0.8984	0.9141	0.9241	0.9412	0.7493	0.7460

表3

S103：对文本对象进行初始聚类；

计算每个文本的初始等价划分R_i：

R_i＝{{P_i},{U-P_i}}

其中，P_i＝{x_jsim(x_i,x_j)≥Th_i}，U＝{x₁,x₂,…,x_i,…,x_N}；

本实施例仅以文本对象x₁为例说明初始等价划分R₁的计算过程。步骤S102中得到文本对象x₁的初始等价划分阈值Th₁＝1.0，在相似度矩阵S的第一行元素中，P₁＝{x_jsim(x₁,x_j)≥Th₁}＝{x₁}，j＝1,2,…,10，U＝{x₁,x₂,…,x₁₀}，因此R₁＝{{P₁},{U-P₁}}＝{{x₁},{x₂,x₃,…,x₁₀}}。

同理根据表3中的初始等价划分阈值Th_i计算出其他文本对象的初始等价划分，结果如下：

R₁＝{{x₁},{x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀}}，

R₂＝{{x₂},{x₁,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀}}，

R₃＝R₄＝{{x₃,x₄},{x₁,x₂,x₅,x₆,x₇,x₈,x₉,x₁₀}}，

R₅＝R₆＝R₇＝R₈＝{{x₅,x₆,x₇,x₈,x₉,x₁₀},{x₁,x₂,x₃,x₄}}，

R₉＝R₁₀＝{{x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀},{x₁,x₂}}。

根据每个文本的初始等价划分R_i进行初始聚类，得到初始聚类结果CR：

CR=R₁∩R₂∩…∩R_i∩…∩R_N＝{c₁,c₂,…,c_K}

其中，c_k,1≤k≤K表示初始聚类结果中的一个类，K为初始聚类数目，将c_k中所有文本对象特征向量的平均值作为初始第k类的聚类中心x_ck，聚类中心x_ck的计算公式为：

x_{ck} = Σ_{r = 1}^{R} \overset{&OverBar;}{l_{r, k}} a_{r}

其中

是c_k类中的所有文本对象特征向量中第r个特征项的权值之和。

本实施例中，初始聚类结果CR为：

CR=R₁∩R₂∩…∩R₁₀

＝{{x₁},{x₂},{x₃,x₄},{x₅,x₆,x₇,x₈,x₉,x₁₀}}

＝{c₁,c₂,c₃,c₄}

可见本实施例中10个文本对象可初步分为{x₁}，{x₂}，{x₃,x₄}，{x₅,x₆,x₇,x₈,x₉,x₁₀}四类，初始聚类数目K＝4。

c_k的初始聚类中心是c_k内所有成员的特征向量的平均值，以c₃类为例，说明初始聚类中心x_c3的计算过程。

本实施例中特征项个数R＝3，p₃为c₃类中的成员个数，p₃＝2，即{x₃,x₄}。由表1可知：x₃＝0.1a₁+0.1a₂+0.0a₃，x₄＝0.15a₁+0.15a₂+0.0a₃，因此x_c3为：

x_{c 3} = Σ_{r = 1}^{R} \overset{&OverBar;}{l_{r, k}} a_{r} = Σ_{r = 1}^{R} \frac{Σ_{s = 1}^{P_{k}} l_{r, s}}{P_{k}} a_{r} = Σ_{r = 1}^{3} \frac{Σ_{s = 1}^{2} l_{r, s}}{2} a_{r}

= \frac{0.1 + 0.15}{2} a_{1} + \frac{0.1 + 0.15}{2} a_{2} + \frac{0.0 + 0.0}{2} a_{3}

＝0.125a₁+0.125a₂+0.0a₃

同理计算其他类的初始聚类中心，得到结果为：

x_c1＝x₁＝0.1a₁+0.0a₂+0.0a₃

x_c2＝x₂＝0.0a₁+0.1a₂+0.0a₃

x_c3＝0.125a₁+0.125a₂+0.0a₃

x_c4＝0.4833a₁+0.5163a₂+1.0a₃

S104：初始化人工鱼群参数；

设置人工鱼条数Total与各人工鱼的初始状态，，第m条人工鱼的状态Q_m,m＝1,2,…,Total为数据空间中的向量，其形式与文本对象的特征向量一致。人工鱼条数Total和初始状态可采用以下方式设置：如果设置初始人工鱼均匀分布在数据空间中，则设置每条人工鱼中第r,r＝1,2,…,R个特征项权值的可能取值个数w_r，人工鱼条数Total＝w₁×w₂×…×w_R，其中R为文本对象的特征项个数；否则初始人工鱼随机分布在数据空间中，则设置人工鱼条数Total，每条人工鱼状态随机。

设置最大重复尝试次数TryNumber、最大迭代次数IT、步长Step、视野Visual、拥挤度因子δ，将K个初始聚类中心作为初始全局最优人工鱼状态Q_{best_af,k},1≤k≤K。

本实施例中，设置人工鱼的初始位置均匀分布在数据空间中，每个特征项的权值可取0.25、0.75两个值，特征项共计3个，因此人工鱼条数Total＝2³＝8。表4是所有人工鱼的初始状态。

表4

设定最大尝试次数TryNumber为50次，最大迭代次数IT为5次，步长Step为0.7，视野Visual为0.5，拥挤度因子δ为4；4个全局最优人工鱼的初始状态对应为4个初始聚类中心：

Q_{best_af,1}＝0.1a₁+0.0a₂+0.0a₃

Q_{best_af,2}＝0.0a₁+0.1a₂+0.0a₃

Q_{best_af,3}＝0.125a₁+0.125a₂+0.0a₃

Q_{best_af,4}＝0.4833a₁+0.5163a₂+1.0a₃

S105：设置迭代更新次数t＝1。

S106：设置人工鱼序号m＝1。

S107：第m条人工鱼选择执行行为进行状态的迭代更新；

第m条人工鱼的状态为

计算其适应度值

Y_{m}^{t} = \frac{num (Q_{m}^{t})}{π * {Visual}^{2}}

其中，

表示迭代次数为t时第m条人工鱼的适应度值，

表示迭代次数为t时第m条人工鱼视野范围内的文本对象个数；

此时前m-1条人工鱼已完成状态更新，即当前时刻其状态为

当前时刻全局最优人工鱼状态记为其中离人工鱼

距离最近的全局最优人工鱼状态记为

第m条人工鱼分别模拟执行以下三种行为：

a.觅食行为：

在第m条人工鱼视野范围内随机选择一个状态

若

则第m条人工鱼向

和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q^{n t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t})}{| | (Q_{n}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ()

其中，Rand()是一个介于0和1之间的随机数；

反之，则更新随机选择状态

判断是否满足前进条件；如果重复尝试次数达到TryNumber次后仍不满足条件，则第m条人工鱼随机移动一步：

Q_{m}^{t + 1} = Q_{m}^{t} + Visual \cdot Rand ()

b.聚群行为

同伴中心

为

若

则第m条人工鱼向

和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q_{c, m}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t})}{| | (Q_{c, m}^{t} - Q_{m}^{t}) + (Q_{near, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ();

否则第m条人工鱼再重新执行一次觅食行为；

c.追尾行为：

及其对应的同伴状态若

则第m条人工鱼向和

的向量方向前进一步：

Q_{m}^{t + 1} = Q_{m}^{t} + (\frac{(Q_{\max, m}^{t} - Q_{m}^{t}) + (Q_{mear, m}^{t} - Q_{m}^{t})}{| | (Q_{\max, m}^{t} - Q_{m}^{t}) + (Q_{mear, m}^{t} - Q_{m}^{t}) | |}) \cdot Step \cdot Rand ()

否则第m条人工鱼再重新执行一次觅食行为。

第m条人工鱼在模拟执行三种行为后得到三个备选更新状态，比较三个备选更新状态的适应度值，如果其中最大的适应度值高于当前适应度值且只对应一个备选更新状态，则将第m条人工鱼更新为最大适应度值所对应的备选更新状态；如果其中最大适应度值高于当前适应度值

且对应一个以上备选更新状态，则任意选择一个备选更新状态进行更新；如果其中最大的适应度值不高于当前适应度值

则第m条人工鱼状态保持不变。

本实施例仅举例说明表4中序号为2的人工鱼Q₂＝0.25a₁+0.25a₂+0.75a₃在迭代次数t＝1的状态更新，其他人工鱼和其他迭代次数人工鱼状态更新过程类似。为便于描述，本实施例假定序号为1的人工鱼Q₁在其迭代次数t＝1的迭代更新中，其自身状态未发生改变，即

且全局最优人工鱼的状态也未发生任何改变，即在人工鱼Q₂进行本次状态更新时，所有人工鱼状态

和全局最优人工鱼状态

均为初始状态。

●计算

的适应度值

先计算

视野内的文本对象个数

计算

与10个文本对象的距离，本实施例中采用欧几里得公式计算，以第1个文本对象为例：

d_{Q_{2}^{1}, x_{1}} = \sqrt{Σ_{r = 1}^{3} {| l_{r, Q_{2}^{1}} - l_{r, x_{1}} |}^{2}}

= \sqrt{{(0.25 - 0.1)}^{2} + {(0.25 - 0.0)}^{2} + {(0.75 - 0.0)}^{2}}

＝0.8047

表5为人工鱼

与10个文本对象的距离。

表5

本实施例中人工鱼的视野Visual＝0.5，因此由表5可知在人工鱼

视野范围内的文本对象个数

num (Q_{2}^{1}) = 4,

Y_{2}^{1} = \frac{num (Q_{2}^{1})}{π * {Visual}^{2}} = \frac{4}{π * {0.5}^{2}} = 5.0930 .

●求出与人工鱼

距离最近的全局最优人工鱼

表6为人工鱼

与当前时刻4条全局最优人工鱼之间的距离。

表6

由表6可知，

Q_{near, 2}^{1} = Q_{best_af, 4,2}^{1} = 0.4833 a_{1} + 0.5167 a_{2} + 1.0 a_{3} .

●人工鱼

模拟执行三种行为：

觅食行为执行过程：在人工鱼

的视野内随机选择一个状态

如

计算其适应度值

由于不满足前进条件，重新选择随机状态

Q_{n}^{1} = 0.3073 a_{1} + 0.4730 a_{2} + 0.2823 a_{3},

由于

Y_{n}^{1} = 1.2732 > Y_{2}^{1},

满足前进条件，则人工鱼

向

和

向量方向前进一步，人工鱼

的备选更新状态

为：

Q_{2}^{2} = Q_{2}^{1} + (\frac{(Q_{n}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1})}{| | (Q_{n}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1}) | |}) \cdot Step \cdot Rand ()

聚群行为执行过程：计算当前时刻所有人工鱼状态

与人工鱼

的距离，得到人工鱼

视野内人工鱼的个数

分别为

和人工鱼

的同伴中心

为：

Q_{c, 2}^{1} = \frac{Q_{2}^{1} + Q_{4}^{1} + Q_{6}^{1} + Q_{7}^{1} + Q_{8}^{1}}{5}

= \frac{0.25 + 0.25 + 0.75 + 0.75 + 0.75}{5} a_{1} + \frac{0.25 + 0.75 + 0.25 + 0.75 + 0.75}{5} a_{2} + \frac{0.75 + 0.75 + 0.75 + 0.25 + 0.75}{5} a_{3}

＝0.55a₁+0.55a₂+0.65a₃

计算

Q_{c, 2}^{1}

的适应度函数值为

Y_{c, 2}^{1} = 6.3662,

D_{f, 2}^{1} = 5,

Y_{2}^{1} = 5.0930,

拥挤度因子δ＝4，

Y_{c, 2}^{2} \cdot D_{f, 2}^{1} = 6.3662 \times 5 = 31.831,

δ \cdot Y_{2}^{1} = 4 \times 5.0930 = 20.372,

所以

说明伙伴中心适应度值高且不拥挤，人工鱼

向

和

的向量方向前进一步，人工鱼的备选更新状态

为：

Q_{2}^{2} = Q_{2}^{1} + (\frac{(Q_{c, 2}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1})}{| | (Q_{c, 2}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1}) | |}) \cdot Step \cdot Rand ()

追尾行为执行过程：在当前时刻的所有人工鱼状态

中，人工鱼

视野内人工鱼个数分别为和

对应的适应度值分别为

Y_{2}^{1} = 5.0930,

Y_{4}^{1} = 2.5465,

Y_{6}^{1} = 2.5465,

Y_{7}^{1} = 0,

Y_{8}^{1} = 2.5465,

因此人工鱼视野内适应度最高值是本身的适应度值，即那么

Y_{\max, 2}^{1} \cdot D_{f, 2}^{1} = 5.0930 \times 5 = 25.456,

δ \cdot Y_{2}^{1} = 4 \times 5.0930 = 20.372,

可见

因此人工鱼

向

和的向量方向前进一步，人工鱼

的备选更新状态

为：

Q_{2}^{2} = Q_{2}^{1} + (\frac{(Q_{2}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1})}{| | (Q_{2}^{1} - Q_{2}^{1}) + (Q_{near, 2}^{1} - Q_{2}^{1}) | |}) \cdot Step \cdot Rand ()

= Q_{2}^{1} + (\frac{(Q_{near, 2}^{1} - Q_{2}^{1})}{| | (Q_{near, 2}^{1} - Q_{2}^{1}) | |}) \cdot Step \cdot Rand ()

表7为本实施例中三种模拟执行行为的备选更新状态与适应度值。

表7

由表7可见本实施例中执行聚群行为后的适应度值最高，且高于人工鱼

当前的适应度值，因此选择聚群行为进行人工鱼

的状态更新，本次更新中第2条人工鱼状态更新为

Q_{2}^{2} = {0.5612 a}_{1} + 0.4402 a_{2} + 0.9732 a_{3} .

S108：判断人工鱼状态

的适应度值

是否高于距离最近的最优人工鱼

的适应度值

如果结果为是进行步骤S109；如果结果为否进入步骤S110。

S109：使用代替所对应的全局最优人工鱼

本实施例中第2条人工鱼经过本次迭代更新后状态更新为

Q_{2}^{2} = {0.5612 a}_{1} + 0.4402 a_{2} + 0.9732 a_{3},

适应度值为

Y_{2}^{2} = 7.6394 .

距离

Q_{2}^{1}

最近的人工鱼状态为

Q_{near, 2}^{1} = Q_{best_af, 4,2}^{1} = 0.4833 a_{1} + 0.5167 a_{2} + 1.0 a_{3},

Y_{near, 2}^{1} = 7.6394,

因此

不满足更新全局最优人工鱼状态的条件，因此全局最优人工鱼的状态在本次迭代中不更新，直接进入步骤S110。

S110：人工鱼序号m＝m+1。

S111：判断人工鱼序号m是否大于人工鱼条数Total，即判断本次迭代更新中是否所有人工鱼都完成了状态更新，如果结果为是，进入步骤S112；如果结果为否，返回S107对下一条人工鱼进行状态的迭代更新。

S112：迭代次数t＝t+1。

S113：判断迭代次数t是否大于最大迭代次数IT，如果结果为是，进入步骤S114；如果结果为否，返回步骤S106进行人工鱼状态的新一轮更新。

步骤S106至步骤S113构成一个嵌套循环，对所有人工鱼进行IT次迭代更新，得到最终全局最优人工鱼状态

本实施例中，最大迭代次数IT＝5，进行5次迭代后的最终全局最优人工鱼的状态为：

Q_{best_af, 1}^{5} = 0.1 a_{1} + 0.0 a_{2} + 0.0 a_{3}

Q_{best_af, 2}^{5} = 0.0 a_{1} + 0.1 a_{2} + 0.0 a_{3}

Q_{best_af, 3}^{5} = 0.5468 a_{1} + 0.6584 a_{2} + 0.9483 a_{3}

Q_{best_af, 4}^{5} = 0.4833 a_{1} + 0.5167 a_{2} + 1.0 a_{3}

S114：对于最终全局最优人工鱼，设定全局最优人工鱼聚类阈值，计算第一条最终全局最优人工鱼与其他最终全局最优人工鱼之间的距离，将距离小于聚类阈值的最终全局最优人工鱼与第一条最终全局最优人工鱼归于一类；在剩下的最终全局最优人工鱼中按顺序选择第一条，计算其与剩下的其它最终全局最优人工鱼的距离，将距离小于聚类阈值的最终全局最优人工鱼与该最终全局最优人工鱼归于一类；依此类推，直到将所有最终全局最优人工鱼归类；

最终得到的人工鱼类的个数为最终聚类数目H，将每个人工鱼类中所有最终全局最优人工鱼成员状态的均值作为该类的最终聚类中心X_ch,1≤h≤H。

本实施例中设定全局最优人工鱼聚类阈值为0.3。表8为本实施例中第1条最终全局最优人工鱼与其它最终全局最优人工鱼之间的距离。

表8

可以看出，对于

与它的距离小于给定阈值0.3，因此将

Q_{best_af, 2}^{5}

与

Q_{best_af, 1}^{5}

归于一类；剩下

Q_{best_af, 3}^{5}

和

Q_{best_af, 4}^{5},

对于

Q_{best_af, 3}^{5},

计算得到

与它的距离为0.1637，小于0.3，因此将

和

归为一类。因此最终聚类数目H＝2，最终聚类中心分别为：

X_{c 1} = \frac{Q_{best_af, 1}^{5} + Q_{best_af, 2}^{5}}{2}

= \frac{0.1 + 0.0}{2} a_{1} + \frac{0.0 + 0.1}{2} a_{2} + \frac{0.0 + 0.0}{2} a_{3}

＝0.05a₁+0.05a₂+0.0a₃

X_{c 2} = \frac{Q_{best_af, 3}^{5} + Q_{best_af, 4}^{5}}{2}

= \frac{0.5468 + 0.4833}{2} a_{1} + \frac{0.6584 + 0.5167}{2} a_{2} + \frac{0.9483 + 1.0}{2} a_{3}

＝0.5151a₁+0.5876a₂+0.9742a₃

S115：计算每个文本对象与H个最终聚类中心的距离，将文本对象归入与其距离最近的最终聚类中心所对应的类中，得到最终聚类结果C_h,1≤h≤H。

表9为各个文本对象与两个最终聚类中心的距离。

d(X_ch,x_i)	x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉	x₁₀
											X_c1	0.0707	0.0707	0.0707	0.1414	1.0607	1.0886	1.0886	1.1158	1.4577	1.4646
X_c2	1.2111	1.2051	1.1658	1.1287	0.3601	0.3108	0.2866	0.2216	0.3563	0.3639

表9

从表9中看出，x₁、x₂、x₃和x₄距离最终聚类中心X_c1较近，因此归于X_c1类；x₅,x₆,…,x₁₀距离最终聚类中心X_c2较近，因此归于X_c2类。由此得到最终聚类结果为：

C₁＝{x₁,x₂,x₃,x₄}，C₂＝{x₅,x₆,x₇,x₈,x₉,x₁₀}。

图2是本发明一个具体实施例的仿真示意图。图2(a)是本实施例中文本对象x₁,x₂,…,x₁₀在数据空间中的分布；图2(b)是初始人工鱼群在数据空间中的均匀分布；图2(c)是经过5次迭代后人工鱼群的分布情况，可以看出人工鱼群分成了两个子群；图2(d)是经过5次迭代后4条全局最优人工鱼的分布，这4条人工鱼的位置即是初始聚类中心经过5次迭代更新后的位置；图2(e)是初始聚类中心在数据空间中的分布；图2(f)是得到的最终聚类中心的分布。

由本实施例可以看出，本发明基于自动阈值鱼群算法的文本聚类方法不需要预先给出聚类参数，如初始聚类数目和聚类中心，并能在全局范围内搜索最优状态，具有鲁棒性强、对初值敏感性小等优点。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于自动阈值鱼群算法的文本聚类方法，其特征在于包括以下步骤：

x_{i} = Σ_{r = 1}^{R} l_{r, i} a_{r};

2.1）、计算文本对象的相似度矩阵S：

{Th}_{i} = {sim (x_{i}, x_{j'}) | \underset{j'}{Max} [sim (x_{i}, x_{j'}) - sim (x_{i}, x_{j' + 1})]}, j^{'} &Element; {1,2 . . ., N - 1}

R_i={{P_i},{U-P_i}}

其中，P_i={x_jsim(x_i,x_j)≥Th_i}，U={x₁,x₂,…,x_i,…,x_N}；

CR=R₁∩R₂∩…∩R_i∩…∩R_N={c₁,c₂,…,c_K}

x_{ck} = Σ_{r = 1}^{R} \overset{&OverBar;}{l_{r, k}} a_{r}

其中

p表示c_k类中文本对象的个数，l_r,s表示c_k类中第s,1≤s≤p_k个文本对象特征向量中第r个特征项的权值，

3.1）、设置人工鱼条数Total与各人工鱼的初始状态，第m条人工鱼的状态Q_m,m=1,2,…,Total为数据空间中的向量，其形式与文本对象的特征向量一致；设置最大重复尝试次数TryNumber、最大迭代次数IT、将K个初始聚类中心作为初始全局最优人工鱼状态Q_{best_af,k},1≤k≤K；

3.2）、对人工鱼状态进行迭代更新：