CN113128618A

CN113128618A - 基于kd树和混沌蜉蝣优化算法的并行谱聚类方法

Info

Publication number: CN113128618A
Application number: CN202110503711.0A
Authority: CN
Inventors: 毛伊敏; 刘祥敏
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-16

Abstract

本发明提出了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，包括以下步骤：S1，采用基于采样的KD‑tree数据分区策略DPS划分数据，得到Map上的数据分区；S2，在构建稀疏相似矩阵过程中，采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索；S3，采用正规化定理，通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程；S4，采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心，然后，对特征空间进行k‑means并行聚类；S5，得到最终的聚类结果，并输出。本发明在聚类效果和并行效率上都有显著的提高，且在大规模数据集下具有良好的数据和系统可扩展性。

Description

基于KD树和混沌蜉蝣优化算法的并行谱聚类方法

技术领域

本发明涉及大数据挖掘领域，尤其涉及一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法。

背景技术

聚类分析作为一种无监督学习，在数据挖掘和机器学习领域中扮演着至关重要的角色，它根据数据对象的特征对数据集进行聚类，使类内相似度最大化、类间相似性最小化，从而发现对象间的内在联系，获取蕴藏在数据背后的价值。其中，谱聚类算法作为一类新颖的聚类算法，将聚类问题转化为图的最优切分问题，能够对任意形状的样本空间进行聚类，克服了传统的聚类算法(如k-means)在非凸样本空间下容易陷入局部最优解的问题，并在图像分割、语音识别、文本分析、社团发现等领域得到了广泛的应用。

尽管谱聚类算法具有良好的聚类性能，但是由于涉及到样本两两之间的相似度计算、矩阵特征向量的求解以及k-means聚类，谱聚类算法面临着计算开销大的问题。特别是随着大数据时代的来临，爆炸式增长的数据使得谱聚类算法的计算性能瓶颈愈加突出，这严重制约了谱聚类算法在大数据集下的应用。因此，如何降低大数据环境下谱聚类算法的计算开销成为了一个具有挑战性的问题。

近年来，随着MapReduce并行计算模型以及Hadoop、Spark等大数据分布式并行计算框架的快速发展，谱聚类算法的并行化研究逐渐得到了广泛的关注。现有的并行谱聚类算法流程主要是首先基于MapReduce构造稀疏相似度矩阵，将数据实例分发到分布式节点上，在每个节点上使用最小磁盘I/O的方式计算本地数据和整个集合之间的相似性；然后将特征向量矩阵存储在分布式节点上，并行求解特征向量矩阵；最后利用并行k-means聚类处理特征向量的转置矩阵，得到聚类结果。尽管对谱聚类的并行化能在大数据环境下实现良好的加速，但是算法仍存在四个问题：(1)分配数据时，采用MapReduce的默认分区策略，对数据的分配具有随机性，未能根据数据的分布特性采用合理的数据划分方法，节点执行任务时容易产生负载不均衡的问题。(2)在构建稀疏矩阵过程中，尽管有学者提出采用KD树索引技术减少计算，但KD树只适用于低维数据，在高维数据上可能需要大量的时间来回溯树和最优解，依然会产生大量的冗余计算从而导致搜索性能下降。(3)在正规化Laplacian矩阵时，在各节点上分布式计算矩阵相乘操作，时间开销大。(4)用k-means算法进行最终聚类时，仅是简单地并行化，没有解决随机选取初始聚类中心引起的初始中心敏感问题，从而可能导致聚类效果不够稳定。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法。

为了实现本发明的上述目的，本发明提供了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，包括以下步骤：

S1，采用基于采样的KD-tree数据分区策略DPS划分数据，得到Map上的数据分区，保证了节点间负载均衡；

S2，在构建稀疏相似矩阵过程中，采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索，避免了过多的冗余计算；

S3，采用正规化定理，通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程，有效地减少了时间开销；

S4，采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心，然后，对特征空间进行k-means并行聚类，解决了算法对初始簇中心敏感的问题；

S5，得到最终的聚类结果，并输出。

进一步地，所述KD-tree数据分区策略DPS包括以下步骤：

S1-1，采样：为降低映射成本，对数据集D进行随机采样，得到采样数据集S；

S1-2，支撑点选择：首先从采样数据集S中随机选出第一个点；接着依次选出后续的支撑点，每次选择到近期被选出的几个点距离最大的点，得到候选集，并从候选集中组合出所有的支撑点集合；最后构造评价集，将评价集中的数据两两组合构成数据对，选出能排除最多评价集数据对的支撑点组合，即为最优的支撑点集合PS＝{PS₁,PS₂,...,PS_q|q＜＜n}；其中PS₁表示第1个支撑点，PS₂表示第2个支撑点，PS_q表示第q个支撑点；＜＜表示远小于，n表示原始数据集D的数据个数，q表示支撑点的总个数；

S1-3，映射：用选定的支撑点将数据映射到q维向量空间；对任一数据点v_i，将原始度量空间中的数据映射到二维向量空间中的数据点上；

S1-4，空间划分：采用KD树的划分方法将整个空间分割成若干个不相干的子空间，使每个子空间都包含同等大小的采样数据；首先选出方差最大的维度，根据采样数据集S在该维度上的值进行升序排序，选出中位数作为根节点，小于根节点的数据分配给左子树，大于根节点的数据分配给右子树；令m是需要划分的分区数，此时S被分成了两个不相交的部分，其大小比例为

之后重复此过程，直到将S划分成大小相等的m个不相交的部分P_i(1≤i≤m)；其中，

为向上取整符号，

向下取整符号；

S1-5，数据划分：在得到一组不相交的子空间Bound(P_i)后，D中的每个对象都可以根据Bound(P_i)分配到相应的分区P_i中，即利用映射后的样本数据间的分割来估计原始数据之间的分割；划分完成后，输出两个表，分区信息表PI和数据信息表DI；分区信息表记录每个分区P_i的信息，包括P_i的分区ID p_id和P_i的最小边界框MinBound(P_i)；数据信息表记录每个点vi的信息，包括vi的IDv_id、对应的分区IDp_id、vi的属性A(v_i)和映射向量φ(v_i)。

进一步地，所述t近邻搜索包括：

S2-1，局部t近邻搜索：并行计算每个Map分区内部样本数据的t近邻；

S2-2，跨分区的t近邻搜索：提出优化的分区分配策略OPA将合格的数据分配给分区，进行跨分区的t近邻搜索，得到各样本数据的t近邻，同时，搜索过程中设计两个剪枝策略以快速缩小搜索区域，避免无效计算；

S2-3，计算相似度：计算数据间的相似度值并将结果暂时存到combine；

S2-4，合并相似度矩阵：接受combine中的键值对，获得并存储整个数据集的相似度矩阵。

进一步地，所述S2-2包括OPA策略：

其中，m为分区个数，i、j为分区下标，

为向上取整符号。

进一步地，所述S3还包括：

求解特征向量：用Lanczos算法并行求解前k个最小特征值及其对应的特征向量；

所述求解特征向量包括以下步骤：

S001，将正规化矩阵L'按行分割存放，每次迭代把要和矩阵相乘的向量发送到矩阵L'的位置，通过Lanczos算法并行计算向量和正规化矩阵L'的乘积，得到三对角矩阵；

S002，通过QR算法求出三对角矩阵的特征值和特征向量，且这些特征值和特征向量就是原Laplacian矩阵的特征值和特征向量近似值；

S003，对特征值按由小到大的顺序排列，其对应的特征向量构成一个新的n×k阶特征向量矩阵Z并对其正规化，其中n表示原始数据集D的数据个数，k表示特征向量的个数。

进一步地，所述采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心的步骤如下：

S-A，输入Laplacian矩阵降维之后的结果矩阵，待聚类个数K，最大迭代次数I_max，群体适应度方差临界值

混沌搜索迭代次数M；

S-B，采用sin混沌映射初始化产生两组数目相同的初始种群，每组的数目为K个；初始种群分别代表雄性蜉蝣、雌性蜉蝣，初始化其位置并设定参数，然后用sin混沌映射函数产生混沌随机序列S₁、S₂；

S-C，每个雄性蜉蝣根据选取的中心按照最小距离原则划分聚类数据集，计算适应度值，并更新雄性蜉蝣的速度与位置，同时记录每个雄性蜉蝣的个体极值对应的位置pbest和全局极值对应的位置gbest；适应度函数采用聚类指标DBI指数的计算公式：

其中，fit表示DBI指数，w_i、w_j表示C_i、C_j聚类中心的值，

表示C_i、C_j的平均距离，C_i指聚类i，C_j指聚类j，K表示待聚类个数，也等于初始种群中每组的蜉蝣数目，||·||₂表示二范数；

S-D，更新雌性蜉蝣的速度与位置；

S-E，进行交叉，产生雄性和雌性后代，用产生的具有最优适应度的新后代取代具有最劣的适应度的父代蜉蝣；

S-F，判断是否满足精度要求或者达到最大迭代次数，如果是，转向S-I，否则转向S-G；

S-G，计算雄性蜉蝣的群适应度方差σ²，若

，则转S-H，否则转向S-C；

S-H，采用群体适应度方差，判断算法是否早熟收敛，若早熟收敛，则利用混沌搜索更新蜉蝣位置来跳出局部最优，完成后转S-C；

S-I，将得到的最佳位置作为k-means算法的初始簇中心。

进一步地，所述S-B包括：

采用sin混沌序列对种群进行初始化，根据sin映射的特性，在可行域中产生混沌序列的步骤如下：

S11，随机产生(-1,1)内的初值z₀，记i＝0；

S22，进行sin混沌迭代，产生Z序列，i自增1；

S33，如果迭代到最大次数，程序运行停止，保留产生的Z序列。

进一步地，所述更新雄性蜉蝣的速度与位置包括：

在速度更新公式中嵌入sin混沌变量，雄性蜉蝣的速度为

其中，g是一个引力系数，代表当前速度的权重，用于控制蜉蝣的能见范围；

表示蜉蝣i在t时刻的速度，a₁和a₂是社会作用正吸引系数，

表示t时刻蜉蝣i在空间中的位置，

是蜉蝣历史访问过的最佳位置，x_g是种群中最佳雄性蜉蝣位置，x_i是种群中蜉蝣i的位置，f(·)是适应度函数，β是蜉蝣的能见度系数，r_g代表当前位置与gbest的距离，r_p代表当前位置与pbest的距离，d是舞蹈系数；

所述更新雌性蜉蝣的速度与位置包括：

雌性蜉蝣的速度为

其中，

是从sin混沌中随机选取的两个混沌数，a₃是一个正吸引系数，fl是一个随机飞行系数，当雌性蜉蝣不被雄性蜉蝣吸引时使用；β是蜉蝣的能见度系数，r_mf表示雌性蜉蝣与雄性蜉蝣之间的距离，

表示t时刻雄性蜉蝣x_i在空间中的位置，

表示t时刻雌性蜉蝣y_i在空间中的位置，y_i表示雌性蜉蝣。

进一步地，所述群体适应度方差包括：

其中f是归一化因子，计算公式为

其中，σ²为雄性蜉蝣的群体适应度方差，N为种群中雄性蜉蝣数目，f_i为第i个雄性蜉蝣的适应度，f_avg为雄性蜉蝣适应度的均值，|·|表示绝对值。

进一步地，所述S-H包括：

对部分陷入局部最优的个体进行混沌扰动,步骤如下：

S01，迭代产生sin混沌变量；

S02，将混沌变量载波到原变量的解空间；

S03，按式newX'＝(X'+newX)/2对个体进行混沌扰动，其中，X'是需要进行混沌扰动的个体，newX为产生的混沌扰动量，newX'为混沌扰动后的个体。

综上所述，由于采用了上述技术方案，本发明的有益效果是：在聚类效果和并行效率上都有显著的提高，且在大规模数据集下具有良好的数据和系统可扩展性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的整体流程图；

图2是本发明各算法在四个数据集上的NMI值；

图3是本发明各算法在四个数据集上的加速比。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

1.数据分区

目前，并行谱聚类算法划分数据时大都采用MapReduce默认的数据分区器，这往往不能考虑到数据间的分布特性，容易产生数据倾斜，从而引起节点负载不均衡。针对这一问题，本文提出基于采样的KD-tree数据分区策略DPS，得到Map上的数据分区。该策略包括五个主要步骤，即采样、支撑点选择、映射、空间划分和数据划分。

(1)采样。为降低映射成本，对数据集D进行随机采样，得到采样数据集S。

(2)支撑点选择。首先从采样数据集S中随机选出第一个点；接着依次选出后续的支撑点，每次选择到近期被选出的几个点距离最大的点，得到候选集，并从候选集中组合出所有的支撑点集合；最后构造评价集，将评价集中的数据两两组合构成数据对，选出能排除最多评价集数据对的支撑点组合，即为最优的支撑点集合PS＝{PS₁,PS₂,...,PS_q|q＜＜n}。其中＜＜表示远小于，n表示原始数据集D的数据个数，q表示支撑点的总个数。

(3)映射。提出数据映射定理，用选定的支撑点将数据映射到q维向量空间，并尽可能地保留原始数据间的相似性。对任一数据点v_i，可以将原始度量空间中的数据映射到二维向量空间中的数据点上。

定理1(数据映射)：给定一个支撑点集合PS＝{PS₁,PS₂,...,PS_q}，度量空间(M,d)可以映射到一个向量空间(R^q,L_∞)。其中PS₁表示第1个支撑点，PS₂表示第2个支撑点，PS_q表示第q个支撑点；(R^q,L_∞)表示q维向量空间。

证明：根据三角不等式d(v_i,v_j)≥max{|d(v_i,PS_u)-d(v_j,PS_u)||PS_u∈PS}＝D(φ(v_i),φ(v_j))，其中D()为无穷范数，φ(v_i)表示v_i的映射向量，φ(v_j)表示v_j的映射向量；φ(v)＝＜d(v,PS₁),d(v,PS₂),...,d(v,PS_q)＞为v在向量空间中的表示，也就是说，映射向量空间中的距离提供了原始度量空间中的距离的下限，因此映射向量空间中的距离可以反映原始度量空间中的距离。证毕。其中d(v_i,v_j)表示第i个数据点v_i与第j个数据点v_j之间的距离，PS_u表示第u个支撑点，其中u∈[1,q]，|·|表示绝对值；v表示数据集中任一数据，v_i、v_j是为区别两个不同的v而定义的。

(4)空间划分。采用KD树的划分方法将整个空间分割成若干个不相干的子空间，使每个子空间都包含同等大小的采样数据。首先选出方差最大的维度，根据采样数据集S在该维度上的值进行升序排序，选出中位数作为根节点，小于根节点的数据分配给左子树，大于根节点的数据分配给右子树。令m是需要划分的分区数，此时S被分成了两个不相交的部分，其大小比例为

之后重复此过程，直到将S划分成大小相等的m个不相交的部分P_i(1≤i≤m)。

注：KD树中每个分割维度的最小值、最大值和中位数构成了包含分区P_i的轴对齐边界框Bound(P_i)，故原始空间记为∪Bound(P_i)(1≤i≤m)，其中，

。另外，对每个分区P_i，其包含P_i内所有点v的最小边界框为MinBound(P_i)＝{[d_min(v,PS_u),d_max(v,PS_u)]|v∈P_i,u∈[1,q]}。其中d_min(v,PS_u)表示所有点v到PS_u的最小距离，d_max(v,PS_u)表示所有点v到PS_u的最大距离，q表示向量空间的维度，u表示第u个支撑点的下标，[d_min(v,PS_u),d_max(v,PS_u)]表示两个距离所围成的区域，是一个区间。

(5)数据划分。在得到一组不相交的子空间Bound(P_i)后，D中的每个对象都可以根据Bound(P_i)分配到相应的分区P_i中，即利用映射后的样本数据间的分割来估计原始数据之间的分割。划分完成后，输出两个表，分区信息表PI和数据信息表DI。分区信息表记录每个分区P_i的信息，包括P_i的分区ID p_id和P_i的最小边界框MinBound(P_i)。数据信息表记录每个点vi的信息，包括vi的IDv_id、对应的分区IDp_id、vi的属性A(v_i)和映射向量φ(v_i)。

2.并行构建相似度矩阵

相似度矩阵是对任意两样本之间相似度信息的描述，其构造的好坏对最终聚类效果至关重要。现有的并行算法计算所有数据间的距离后进行排序操作，产生大量冗余计算，这严重制约了谱聚类算法的效率。基于此，本文采用t近邻稀疏化相似度矩阵，具体思想为：(1)局部t近邻搜索：并行计算每个Map分区内部样本数据的t近邻；(2)跨分区的t近邻搜索：提出优化的分区分配策略OPA将合格的数据分配给分区，进行跨分区的t近邻搜索，得到各样本数据的t近邻，同时，搜索过程中设计两个剪枝策略以快速缩小搜索区域，避免无效计算；(3)计算相似度：计算数据间的相似度值并将结果暂时存到combine；(4)合并相似度矩阵：接受combine中的键值对，获得并存储整个数据集的相似度矩阵。

(1)局部t近邻搜索

计算每个分区P_i中数据点之间的距离，并找到每个数据点v∈P_i的局部t近邻结果。之后，将v.tNN，v.d_t，和v.SR添加到数据信息表，P_i.SR添加到分区信息表。其中，v.tNN表示v的t个最近的邻居，v.d_t表示v到其第t个最近邻居的距离，v.SR＝{[d(v,PS_u)-v.d_t,d(v,PS_u)+v.d_t]|u∈[1,q]}表示v的搜索范围，是一个将搜索区域限定在可能更新v.tNN的潜在数据点的阈值；

表示P_i的搜索区域，即分区P_i中所有数据点的搜索区域与最小边界框的并集，是一个将搜索区域限定在可能更新

的潜在数据点的阈值。t近邻是谱聚类中将稠密的相似度矩阵稀疏化的一种方式，即计算每个数据的t个最近邻，t表示近邻数；d(v,PS_u)表示v到第u个支撑点的距离，q为支撑点个数。

(2)跨分区的t近邻搜索

完成各分区内部的t近邻搜索后，在各个分区之间进行t近邻搜索。一旦某个数据点v_j满足d(v,v_j)＜v.d_t且

时，就将数据点v_j添加到v的t近邻，更新v.tNN，直至得到最终的t近邻结果。为实现跨分区的t近邻搜索，当分区P_i有某个数据点可能成为分区P_j的t近邻时，将分区P_i的数据分配给分区P_j。穷举法将P_i分配给其它所有的分区，但每对数据点间的相似度会被计算两次，存在重复计算，且节点间通信频繁。为此，本文提出OPA策略将分区P_i送到分区P_j。此外，为避免将不合格的数据分配给分区导致冗余计算，本文提出数据剪枝定理和分区剪枝定理，快速缩小t近邻搜索区域。

定理2(OPA策略)：令m为分区个数即需要划分的分区数，则有

其中，i、j为分区下标。

证明：当

时，将分区P_i发送到j＞i且

的分区P_j，否则，将分区P_i发送到j＞i或

的分区P_j，m个分区共被分配m²/2次。然而，对于穷举法，将P_i分配给除P_i以外的m-1个分区，则m个分区共被分配m(m-1)次。因此，OPA策略比穷举法减少了50％的计算，保证了每对数据点间不重复计算，故OPA策略可用于减少计算。证毕。其中，

为向上取整符号，

为存在量词，

为全称量词。

定理3(数据剪枝)：给定一个分区P_i，一数据点

若φ(v_j)位于P_i的搜索区域P_i.SR之外，那么

，其中

证明：若φ(v_j)位于P_i的搜索区域P_i.SR之外，那么

d(v_j,PS_u)＞d(v,PS_u)+v.d_t或d(v_j,PS_u)＜d(v,PS_u)-v.d_t，也就是

|d(v_j,PS_u)-d(v,PS_u)|＞v.d_t。由三角不等式有

d(v_j,v)≥|d(v_j,PS_u)-d(v,PS_u)|＞v.d_t。因此，对

有

证毕。其中，PS_u表示第u个支撑点，PS为支撑点集合。

定理4(分区剪枝)：给定一个分区P_i，一数据点

若

则有

其中，v_j代指分区P_i内的任一数据点。

证明：

MinBound(P_i)＝{[d_min(v_j,PS_u),d_max(v_j,PS_u)]|v_j∈P_i,u∈[1,q]}，有d_min(v_j,PS_u)≤d(v_j,PS_u)≤d_max(v_j,PS_u)。对点v有v.SR＝{[d(v,PS_u)-v.d_t,d(v,PS_u)+v.d_t]|PS_u∈PS}。若

那么有

d(v,PS_u)-v.d_t＞d_max(v,PS_u)或d(v,PS_u)+v.d_t＜d_min(v,PS_u)。因此，d(v_j,PS_u)≤d_max(v_j,PS_u)＜d(v,PS_u)-v.d_t或d(v,PS_u)+v.d_t＜d_min(v_j,PS_u)≤d(v_j,PS_u)，也就是|d(v,PS_u)-d(v_j,PS_u)|＞v.d_t。由三角不等式有

d(v,v_j)≥d(v,PS_u)-d(v_j,PS_u)|＞v.d_t，即

证毕。

(3)计算相似度

由于v_i在v_j的t近邻集合中并不意味着vj也在v_i的t近邻集合中，即近邻关系的非对称性，此时得到的稀疏相似度矩阵是不对称的，因此需要将相似度矩阵对称化。本文采用“或”方法对称化，若v_j∈v_i.tNN，那么将v_i也添加到v_j的t近邻中。具体做法为：对稀疏矩阵中的每个非零元素，计算数据点与其t近邻的相似度值，生成两个键值对＜key₁,value₁＞、＜key₂,value₂＞，其中，key₁是元素的行id，value₁是列id和相似度值，key₂是元素的列id，value₂是行id和相似度值，然后将结果暂时存到combine。combine是MapReduce中的一个函数，其作用是对单个Map的输出进行本地的部分聚合之后再将结果传递给Reduce，以减少网络中的IO开销和Reduce的压力。

(4)合并相似度矩阵

接受combine中的键值对，调用reduce函数，具有相同key的元素对应于所需对称矩阵的同一行中的值。但是，可能会出现重复的元素，因此采用哈希映射以进行有效的搜索和删除。

3.并行计算特征向量

由于稀疏相似矩阵是按行划分存储在分布式节点上的，且矩阵的加减操作对于每一行是独立的，所以矩阵的计算可以在各节点分布执行。并行计算特征向量主要分为三个步骤：(1)计算Laplacian矩阵：求出对角矩阵并通过变换矩阵对应位置元素的方式得到Laplacian矩阵；(2)正规化Laplacian矩阵：提出正规化定理，用元素对应相乘的方式代替矩阵相乘操作，优化Laplacian矩阵正规化过程；(3)求解特征向量：用Lanczos算法并行求解前k个最小特征值及其对应的特征向量。

(1)计算Laplacian矩阵

并行计算相似度矩阵W每行元素之和，得到对角矩阵D。由于对角矩阵除对角线以外的元素都为0，而相似度矩阵对角线上的元素都为0，因此，对相似度矩阵的非对角线元素进行取反，将对角阵的对角元素一一对应添加到取反后的相似度矩阵对角线上，得到Laplacian矩阵L。

(2)正规化Laplacian矩阵

提出正规化定理，将对角矩阵D的对角线元素其分发到各个节点上，各节点根据正规化定理将矩阵L的元素与对应的对角阵元素相乘，得到正规化矩阵L'。

定理5(正规化定理)：对于Laplacian矩阵L，其正规化后的矩阵L'仍为对称矩阵，且等于原矩阵L对应位置元素x_ij乘一个系数(标量)c_ic_j，其中，c_i为对角阵元素。

证明：由对角阵的性质可知，对角阵右乘一个矩阵，就是用对角阵的对角依次与该矩阵对应行上的元素相乘，相当于对矩阵做一次行变换，即

对角阵左乘一个矩阵，就是用对角阵的对角依次与该矩阵对应列上的元素相乘，相当于对矩阵做一次列变换，即

那么可以得出，某一矩阵左乘对角阵之后再右乘对角阵，相当于对矩阵分别做了一次行变换和列变换，即x_ij对应的系数为c_ic_j，故有

因此，Laplacian矩阵的正规化操作可以通过矩阵对应位置元素乘一个系数(标量)的方式来实现。另外，因为L是对称矩阵，所以x_ij＝x_ji，又因为c_ic_j＝c_jc_i，所以c_ic_jx_ij＝c_jc_ix_ji，即变换之后得到的L'依然为对称矩阵。证毕。

(3)求解特征向量

首先，将矩阵L'按行分割存放，每次迭代把要和矩阵相乘的向量发送到矩阵L'的位置，通过Lanczos算法并行计算向量和矩阵L'的乘积，得到三对角矩阵；然后，通过QR算法求出三对角矩阵的特征值和特征向量，且这些特征值和特征向量就是原Laplacian矩阵的特征值和特征向量近似值；最后，对特征值按由小到大的顺序排列，其对应的特征向量构成一个新的n×k阶特征向量矩阵Z并对其正规化。其中n表示原始数据集D的数据个数，k表示特征向量的个数。

4.并行聚类

在对谱聚类算法的特征谱空间聚类时，初始簇中心的选取对聚类效率和正确率有很大影响，现有的并行谱聚类算法采用随机选取的方式，容易引起算法初始簇中心敏感的问题。为此，本文提出混沌蜉蝣优化算法CMO(Chaotic Mayfly Optimization Algorithm)获取初始簇中心，然后对特征空间进行并行聚类，最后得到最终聚类结果。

4.1CMO算法

CMO算法获取初始簇中心的具体过程为：(1)初始化种群：用sin混沌序列初始化种群；(2)更新位置：提出速度更新参数

改进原有的速度更新公式，更新蜉蝣速度与位置；(3)早熟收敛判断机制：提出蜉蝣群体适应度方差的早熟收敛判断机制，并添加混沌扰动帮助算法跳出局部最优，迭代终止后得到最佳的初始簇中心。

(1)初始化种群

混沌变量具有随机性、遍历性和规律性的特点，将其运用于优化搜索可以保持种群的多样性，帮助算法跳出局部最优，从而提高算法的全局搜索能力。本文用sin混沌序列对种群进行初始化，根据sin映射的特性，在可行域中产生混沌序列的步骤如下：

Step1随机产生(-1,1)内的初值z₀，记i＝0；

Step2进行sin混沌迭代，产生Z序列，i自增1；

Step3如果迭代到最大次数，程序运行停止，保留产生的Z序列。

(2)更新位置

提出速度更新参数

用

代替原来的随机数r₁、r₂，更新蜉蝣速度与位置，同时记录蜉蝣的个体极值对应的位置pbest和全局极值对应的位置gbest。

定理6(速度更新参数

)：在速度更新公式中嵌入sin混沌变量，雄性蜉蝣的速度为

表示蜉蝣i在t时刻的速度，

表示t时刻蜉蝣i在空间中的位置，a₁和a₂是社会作用正吸引系数，f(·)是适应度函数，β是蜉蝣的能见度系数，r_g代表当前位置与gbest的距离，r_p代表当前位置与pbest的距离，d是舞蹈系数，x_g是种群中最佳雄性蜉蝣位置，x_i是种群中蜉蝣i的位置，

是蜉蝣历史访问过的最佳位置，g是一个引力系数，代表当前速度的权重，用于控制蜉蝣的能见范围。

雌性蜉蝣的速度为

其中，

是从sin混沌中随机选取的两个混沌数，a₃是一个正吸引系数，r_mf表示雌性蜉蝣与雄性蜉蝣之间的距离，fl是一个随机飞行系数，当雌性蜉蝣不被雄性蜉蝣吸引时使用，

表示t时刻雄性蜉蝣x_i在空间中的位置，

表示t时刻雌性蜉蝣y_i在空间中的位置，y_i表示雌性蜉蝣。

证明：由于sin混沌映射在-1到1之间波动，均匀分布的随机数也在[-1,1]之间，因此，随机选取的混沌数

可以用来代替均匀分布的随机数r₁和r₂。同时，比起单纯采用随机数，嵌入sin混沌随机序列更有利于保证蜉蝣运动过程的随机性和遍历性，故参数

可用于更新蜉蝣速度。证毕。

(3)早熟收敛判断机制

提出群体适应度方差，判断算法是否早熟收敛，若早熟收敛，则以搜索停滞的解为基础产生sin混沌序列，对部分陷入局部最优的个体进行混沌扰动，避免算法陷入局部最优，提高全局搜索能力和寻优精度。添加混沌扰动的步骤描述如下：

Step1迭代产生sin混沌变量；

Step2将混沌变量载波到原变量的解空间；

Step3按式newX'＝(X'+newX)/2对个体进行混沌扰动，其中，X'是需要进行混沌扰动的个体，newX为产生的混沌扰动量，newX'为混沌扰动后的个体。

定理7(群体适应度方差)：设种群中雄性蜉蝣数目为N，f_i为第i个雄性蜉蝣的适应度，f_avg为雄性蜉蝣目前的平均适应度，σ²为雄性蜉蝣的群体适应度方差，则σ²可以定义为：

其中f是归一化因子，其作用是限制σ²的大小，计算公式为

其中，f_avg为雄性蜉蝣适应度的均值，|·|表示绝对值。

证明：σ²越小，表示各蜉蝣的适应度值越接近平均适应度，即偏离程度越小，则此时种群趋于收敛；反之，σ²越大，表示各蜉蝣的适应度值越远离平均适应度，即偏离程度越大，则此时种群更容易处于随机搜索状态。因此，群体适应度方差σ²可以反映种群中所有雄性蜉蝣的“收敛程度”。证毕。

CMO算法获取初始簇中心的步骤如下：

Step1输入Laplacian矩阵降维之后的结果矩阵，待聚类个数K，最大迭代次数I_max，群体适应度方差临界值

，混沌搜索迭代次数M。

Step2采用sin混沌映射初始化产生两组数目相同的初始种群，每组的数目为K个；初始种群分别代表雄性蜉蝣、雌性蜉蝣，初始化其位置并设定参数，然后用sin混沌映射函数产生混沌随机序列S₁、S₂。

Step3每个雄性蜉蝣根据选取的中心按照最小距离原则划分聚类数据集，计算适应度值，并根据公式(5)更新雄性蜉蝣的速度与位置，同时记录每个雄性蜉蝣的个体极值对应的位置pbest和全局极值对应的位置gbest。适应度函数采用聚类指标DBI指数的计算公式：

其中，fit表示DBI指数，w_i、w_j表示C_i、C_j聚类中心的值，

表示C_i、C_j的平均距离，C_i指聚类i，C_j指聚类j，K表示待聚类个数，也等于初始种群中每组的蜉蝣数目，||·||₂表示二范数。

Step4根据公式(6)更新雌性蜉蝣的速度与位置。

Step5进行交叉，产生雄性和雌性后代，用产生的具有最优适应度的新后代取代具有最劣的适应度的父代蜉蝣。

Step6判断是否满足精度要求或者达到最大迭代次数，如果是，转向Step9，否则转向Step7。

Step7计算雄性蜉蝣的群适应度方差σ²。若

，则转Step8，否则转向Step3。

Step8当算法早熟收敛，利用混沌搜索更新蜉蝣位置来跳出局部最优，完成后转Step3。

Step9将得到的最佳位置作为k-means算法的初始簇中心。

4.2并行k-means聚类

用CMO算法获取初始簇中心后，进行并行k-means聚类，此过程包括Map阶段和Reduce阶段。在Map阶段，计算每个样本点v到初始聚类中心C_i(1≤i≤k)的距离，将该样本点分配给距离最小的聚类中心，以＜key,value＞键值对形式存储＜C_i,v＞，其中v表示数据，C_i表示数据v所属的聚类中心；将中间结果写入到Reduce函数。在Reduce阶段，对Map函数写入的结果按key值进行合并，计算每个簇的平均值，更新聚类中心。迭代此过程，直至获得稳定的聚类中心位置，输出最终聚类结果。

5.PSC-MO算法的有效性

为了验证PSC-MO算法的聚类效果，我们将PSC-MO方法应用于RCV1、covtype、kddb和picasa四个数据集上，其具体信息如表1所示。将PSC-MO、PSC和PSC-KD算法在聚类精确度等方面进行了比较。

表1实验数据集

	RCV1	covtype	kddb	picasa
					记录数(条)	193844	581012	826048	1730897
属性(个)	47236	54	29890095	144

5.1PSC-MO方法的聚类效果分析

为评估PSC-MO算法的聚类效果，将NMI值作为评价指标，将PSC-MO算法分别与不使用CMO优化的PSC-NOMO、PSC-KD、PSC算法在RCV1、covtype、kddb、picasa四个数据集上进行对比实验。另外，为避免t值的选取影响实验结果准确性，在各数据集上分别取不同的t值，每次测试独立运行5次，取5次NMI的均值作为实验结果。实验结果如图2所示。

图2(a)为四种算法在RCV1数据集上的NMI值，图2(b)为四种算法在covtype数据集上的NMI值，图2(c)为四种算法在kddb数据集上的NMI值，图2(d)为四种算法在picasa数据集上的NMI值；从图2可以看出，随着t近邻数的不断增加，各算法的NMI值先增加后减少，在同一数据集上相同t值达到NMI最大值，并且PSC-MO算法在不同数据集上的NMI值始终保持最高，表现出良好的聚类效果。其中，在数据量较小但类别数较多的数据集上RCV1，如图2(a)所示，在t值为60时PSC-MO算法的NMI值达到了0.501，分别比PSC-NOMO、PSC-KD、PSC算法高出了0.104、0.138、0.159；在数据集covtype、kddb上，如图2(b)、(c)所示，各算法分别在t＝80、t＝120时聚类效果最好，PSC-MO算法的NMI值最高甚至达到了0.764；在数据量最大的数据集picasa上，如图2(d)所示，在t值为200时PSC-MO算法的NMI值为0.627，分别比PSC-NOMO、PSC-KD、PSC算法高出了26.92％、48.23％、46.84％。出现这种现象主要有两个原因：一方面是PSC-MO算法采用了DPS策略对数据分区，尽可能将相似度大的数据划分到同一计算节点上，一定程度上减少了错误划分的可能，间接提升了聚类效果；另一方面，选取的t值太小不能包含足够多的数据间的相似信息，t值太大可能包含过多的信息，这都会使得聚类时寻优变得更加困难，从而影响算法的聚类效果，但PSC-MO算法在对特征谱空间聚类时，设计了CMO算法寻找最佳的初始聚类中心，提高了算法的全局搜索能力，从而提高了聚类质量。对于PSC-NOMO算法，仅是采用DPS策略对数据分区，并未改进最后聚类的过程，算法的聚类效果只有小幅度的提升。同样地，PSC-KD、PSC算法也只是简单地并行化k-means聚类过程，极易受噪声数据的影响，聚类效果并不理想。

5.2PSC-MO方法的并行性能分析

为评估PSC-MO算法在大数据环境下的并行性能，在上述四个数据集上对PSC-MO、PSCP(不包含KD树剪枝的PSC-MO算法变体)、PSCI和PSC-KD算法分别进行5次测试，取运行时间的平均值作为实验结果，然后计算加速比，最终的实验结果如图3所示。

图3(a)为四种算法在RCV1数据集上的加速比，图3(b)为四种算法在covtype数据集上的加速比，图3(c)为四种算法在kddb数据集上的加速比，图3(d)为四种算法在picasa数据集上的加速比；从图3中可以看出，随着节点数的增加，各算法的加速比也逐步增加，并且PSC-MO算法在规模较大的kddb、picssa数据集上始终拥有最高的加速比。在处理RCV1这样规模相对较小的数据集时，如图3(a)所示，各算法加速比差别不大，当节点数为2时，PSC-MO、PSCP算法的加速比分别为1.36、1.41，略小于PSCI和PSC-KD算法(1.49、1.57)，但随着节点数目增多，PSC-MO、PSCP算法的加速比超越了PSCI和PSC-KD算法，且各个算法的加速比增长趋于平缓。这是由于在数据集的规模较小时，各节点间的通信时间占算法的很大一部分，而通过并行化运算获得的运行速度提升却极为有限从而导致了加速比较小；当节点数量增加时，相比其它算法，用DPS分区策略的PSC-MO、PSCP算法可以有效控制节点之间的负载均衡，因此PSC-MO、PSCP算法的加速比略高于其它算法。此外，可以看出在处理kddb以及picasa这样规模相对较大的数据集时，如图3(c)、(d)所示，3个对比算法的加速比最终趋于稳定，而PSC-MO算法运行的加速比随着节点数的增加而逐渐增加，尤其是在picasa数据集上，当节点数分别为2、4、6、8时，PSC-MO算法运行的加速比分别为1.95、3.87、5.66、7.51，基本接近线性增长，并且PSC-MO算法始终具有最高的加速比，而未进行KD树剪枝的PSCP算法的加速比始终小于PSC-MO算法的加速比。这是由于PSC-MO算法的分区策略保证了各节点间的负载均衡，而搜索t近邻时的KD树剪枝策略可以一定程度上减少节点间的通信开销，并且随着数据规模的增大，算法通过高效的并行化运算减少总体运行时间的优势被逐渐放大，从而有了更大的加速比。因此，PSC-MO算法在大数据环境下拥有更好的并行性能。

综上所述，我们所提出的基于KD树和混沌蜉蝣优化算法的并行谱聚类方法(PSC-MO)，在聚类效果和并行性能上都有显著的提升。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，包括以下步骤：

S1，采用基于采样的KD-tree数据分区策略DPS划分数据，得到Map上的数据分区；

S2，在构建稀疏相似矩阵过程中，采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索；

S3，采用正规化定理，通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程；

S4，采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心，然后，对特征空间进行k-means并行聚类；

S5，得到最终的聚类结果，并输出。

2.根据权利要求1所述的一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，所述KD-tree数据分区策略DPS包括以下步骤：

S1-1，采样：对数据集D进行随机采样，得到采样数据集S；

为向上取整符号，

向下取整符号；

S1-5，数据划分：在得到一组不相交的子空间Bound(P_i)后，D中的每个对象都可以根据Bound(P_i)分配到相应的分区P_i中；划分完成后，输出两个表，分区信息表PI和数据信息表DI；分区信息表记录每个分区P_i的信息，包括P_i的分区IDp_id和P_i的最小边界框MinBound(P_i)；数据信息表记录每个点v_i的信息，包括v_i的IDv_id、对应的分区IDp_id、v_i的属性A(v_i)和映射向量φ(v_i)。

3.根据权利要求1所述的一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，所述t近邻搜索包括：

S2-2，跨分区的t近邻搜索：提出优化的分区分配策略OPA将合格的数据分配给分区，进行跨分区的t近邻搜索，得到各样本数据的t近邻，同时，搜索过程中设计两个剪枝策略以快速缩小搜索区域；

4.根据权利要求3所述的一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法，其特征在于，所述S2-2包括OPA策略：