CN103942318A

CN103942318A - 一种并行ap传播的xml大数据聚类集成方法

Info

Publication number: CN103942318A
Application number: CN201410171627.3A
Authority: CN
Inventors: 蒋勇
Original assignee: Hunan Vocational College of Chemical Technology
Current assignee: Xi'an Lanxue Information Technology Co ltd
Priority date: 2014-04-25
Filing date: 2014-04-25
Publication date: 2014-07-23
Anticipated expiration: 2034-04-25
Also published as: CN103942318B

Abstract

本发明公开了一种并行AP传播的XML大数据聚类集成方法，包括，对每一个XML大数据进行清洗、划分和抽取等预处理；把抽取的子树中所有关键词看成该数据点特征描述；借鉴聚类集成的基本思想；内联相似度大矩阵分解思想；实现最终的聚类集成。本发明通过建立随机子空间分类器并并行随机抽取子树来扩大聚类成员的差异性、提高聚类的性能；引入消歧处理，消除了每个子树中因语义相关环境与内容不一致所引起的歧义难题，同时综合语义相似度与路径相似度，解决了XML文档相似度计算不准确对初始聚类结果的影响；利用系统能量理论，改进了AP算法的归属度矩阵和吸收矩阵的迭代式，实现了XML大数据的聚类集成，提高了聚类集成方法效率。

Description

一种并行AP传播的XML大数据聚类集成方法

技术领域

本发明属于大数据集成方法应用领域，尤其涉及一种并行AP传播的XML大数据聚类集成方法。

背景技术

目前，XML大数据也与其它类型的大数据一样，具有体积浩大、结构复杂、生成速度快、价值巨大但密度低的特点，且数据量从MB到GB、TB、PB直至ZB，此外，它的数据呈现非凸特性且分布很不均匀，数据噪声和孤立点多，而且许多数据以数据流的形式出现在Web中，因此，对这些速度变化快且具有很强的时效性的XML大数据，若采用传统的算法进行聚类集成，则这些集成方法在解决XML大数据集存在明显不足，其主要表现在：(1)占用的存储空间大，预测速度慢，预测效果差；(2)在线机器学习困难，对小规模数据有效，对大规模数据效果差；(3)动态性、实时性差，不能处理流数据；(4)算法由于缺乏先验知识，对XML数据分布的全局特点把握不准，最后导致聚类精度及聚类结果得不到满意的要求。

因此，发明一种并行AP传播的XML大数据聚类集成方法显得非常必要。

发明内容

本发明的目的是基于PC机分布式环境下提供一种并行AP传播的XML大数据聚类集成方法，旨在传统的算法存在着占用的存储空间大，预测速度慢，预测效果差，在线机器学习困难，对小规模数据有效，对大规模数据效果差处理效率低，对XML数据分布的全局特点把握不准的问题。本发明是这样实现的，

一种并行AP传播的XML大数据聚类集成方法的必要技术方案：

本发明是这样实现的，一种并行AP传播的XML大数据聚类集成方法包括，

步骤一：对每一个XML大数据进行清洗、划分和抽取等预处理；

步骤二：把抽取的子树中所有关键词看成该数据点特征描述；

步骤三：借鉴聚类集成的基本思想；

步骤四：内联相似度大矩阵分解思想；

步骤五：实现最终的聚类集成。

一种并行AP传播的XML大数据聚类集成方法的次要技术方案：

进一步，在步骤一，先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理，求出抽取的每个子树从根节点到叶子节点的所有路径，并以路径作为消歧的输入源对歧义词进行消歧处理，求取每个关键词的语义相关度及上下文语义相关相似度；

进一步，在步骤二，把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述，这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量；

进一步，在步骤三，借鉴聚类集成的基本思想，用随机子空间分类器作为基聚类器构建K个分类器，K个分类器并行地从n个n×n特征向量空间中随机抽取m样本数据进行训练以求得其分类，其方法是对新样本集建立一个无向图，每个样本点是图的一个顶点，图的边是顶点间的连线，它表示文档之间的相似度，其相似度采用标记语义树的方法求得，并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径，路径的划分采用K-邻近法，这样把划分的每一条路径组成一个类别，所有不同的划分路径组成K个初始分类。

进一步，在步骤四，从初始的簇集结果出发，按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵，通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入；

进一步，在步骤五，通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。

本发明提供的并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能，选用并行随机子空间的基聚类器来进行初始训练，这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间，解决了高维、大数据集非凸的聚类问题；引入消歧处理，消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题，同时综合语义相似度与路径相似度，解决了XML文档相似度计算不准确对初始聚类结果的影响；从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后，采用精化LANCZOS双对角化策略把矩阵投影于低维空间，并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量，避免因数据规模大，数据的计算量成倍增加而增加算法的时间复杂度；利用系统能量理论，把待集成的基本聚类划分结果看成一个系统，系统的能量就是不同聚类结果之间的能量组合，通过设计出系统能量的AP传播算法并行实现能量的最优组合，提高了聚类集成方法的效率，弥补以往聚类集成方法的不足。

附图说明

图1是本发明提供的并行AP传播的XML大数据聚类集成方法方法流程图。

具体实施方式

一种并行AP传播的XML大数据聚类集成方法的必要技术方案：

S101：对每一个XML大数据进行清洗、划分和抽取等预处理；

S102：把抽取的子树中所有关键词看成该数据点特征描述；

S103：借鉴聚类集成的基本思想；

S104：内联相似度大矩阵的分解思想；

S105：实现最终的聚类集成。

一种并行AP传播的XML大数据聚类集成方法的次要技术方案：

进一步，在S101，先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理，求出抽取的每个子树从根节点到叶子节点的所有路径，并以路径作为消歧的输入源对歧义词进行消歧处理，求取每个关键词的语义相关度及上下文语义相关相似度；

进一步，在S102，把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述，这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量；

进一步，在S103，借鉴聚类集成的基本思想，用随机子空间分类器作为基聚类器并行地从其特征向量空间中随机抽取多个样本并重复多次来构建多个分类器，同时对每个子分类器中的样本数据进行训练以求得其分类，其方法是对新样本集建立一个无向图，每个样本点是图的一个顶点，图的边是顶点间的连线，它表示文档之间的相似度，其相似度采用标记语义树的方法求得，并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径，路径的划分采用K-邻近法，这样把划分的每一条路径组成一个类别，所有不同的划分路径组成K个初始分类；

进一步，S104，从初始的簇集结果出发，按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵，通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入；

进一步，在S105，通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。

本发明的具体实施例：

实施例1：

步骤一：对每一个XML大数据进行清洗、划分和抽取等预处理，即对每一个XML大数据清洗后，通过规模与内容相结合的划分方法，从大数据中提取所有节点及其节点的子集，计算节点的子集在其数据中的频度，根据节点的频繁频度尽可能地把属于同一主题内容的节点及其子孙划分在同一个子集、不同主题内容的节点划分到不同的子集中，并从划分的子集中按照关键词的频繁频度抽取n个子树，求出抽取的每个子树从根节点到叶子节点的所有路径，并以路径作为消歧的输入源对歧义词进行消歧处理，求出每个关键词的语义相关度及上下文语义相关相似度；

其相似度求取如下：假设从XML大数据中抽取n个子树集D’＝(d’₁,d’₂,…,d’_n)，为了求取d’_i、d’_j两个子树的相似度，首先求出每个子树中关键词的相似度(也就是每个元素的相似度)，即先对文档进行预处理，求出每个文档从根节点到叶子节点所有元素的不同路径，并以路径作为消歧的输入源，对路径中的每个元素进行消歧处理，得到具体词和歧义词中与之有语义关系相联系的词语集合，确定目标词并对它们进行标记，路径中其它词语标记成它的上下文环境，即语义相关性环境，这样目标词除与其上下文语义相关之外，也与它有语义关系相联系的词语(语义关联度)有关，用语义关联度的词代替歧义词，加入到上下文相关的关系中，所以目标词的语义相似度等于与其上下文语义相关词的相似度和与之有语义关联的语义关联度之和的最大值，设有目标词语x₁具有(x₁₁,x₁₂,...,x_1n)个语义项，y₂具有(y₂₁,y₂₂,...,y_2m)个语义项，则x₁和y₁的语义相似度

\sin (x_{1}, y_{2}) = \max_{i = 1, . . ., n, j = 1, . . ., m} sim (x_{1 i}, y_{2 j}),

sim(x_1i，y_2j)是目标词第i个语义项与y₂第j个语义项的语义相似度，设目标词有n-1个词与上下文相关或语义关联，其中有m个上下有关，n-m+1个语义关联，则求它与这n-1个词的语义相似度之和的最大值

\arg \max (Σ_{j = 1, i &NotEqual; j}^{m} sim (x_{i}, x_{j}) + Σ_{j = m + 1}^{n - 1} sim (x_{i}, x_{j}));

其次求取子树中的路径相似度sim(p_i,t,p_j,n)＝simstruct(p_i,t,p_j,n)+pathsenserelate(p_i,t)+pathsenserelate(p_j,n)，设文档d’_i、d’_j的路径分别为p_i＝(p_i,1,p_i,2,…p_i,f)、p_j＝(p_j,1,p_j,2,…p_j,n)，则文档d’_i的路径p_i,j语义相关度

senserelate (p_{i, t}) = Σ_{i = 1}^{m} \max (Σ_{j = 1, i &NotEqual; j}^{m} sim (x_{i}, x_{j}) + Σ_{j = m + 1}^{n - 1} sim (x_{i}, x_{j})),

同理文档d’_j的路径p_j,n的语义相关度

senserelate (p_{j, n}) = Σ_{j = 1}^{m} \max (Σ_{j = 1, i &NotEqual; j}^{m} sim (x_{i}, x_{j}) + Σ_{j = m + 1}^{n - 1} sim (x_{i}, x_{j})),

则p_i,j与p_j,n两路径的相似度为：sim(p_i,t,p_j,n)＝simstruct(p_i,t,p_j,n)+pathsenserelate(p_i,t)+pathsenserelate(p_j,n)，其中simstruct(p_i,t,p_j,n)＝(2×|p_i,t∩p_j,n|)/(|p_i,t|+|p_j,n|,|p_i,t∩p_j,n|为p_i,与p_j两条路径的子路径最长匹配段对应语义项相同的个数，|p_i,t|与|p_j,n|为子路径的长度，pathsenserelate(p_i,t)与pathsenserelate(p_j,n)为子路径语义关联相似度，其中pathsenserelate(p_i，1)＝senserelate(p_i,1)/(|p_i,t|+|p_j,n|)，pathsenserelate(p_j,n)＝senserelate(p_j,n)/(|p_i,t|+|p_j,n|)；最后求出文档d’_i、d’_j的相似度

({d^{'}}_{i}, {d^{'}}_{j}) = (Σ_{t = 1}^{| d_{i} |} \max sim ({path}_{i, t}, \underset{k = 1 &RightArrow; | p_{j} |}{{path}_{j, k}})) p_{i}

(1)，其中|p_i|、|p_j|分别表示文档d’_i、d’_j路径条数，且|p_i|≥|p_j|；

步骤二：把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述，这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量；

步骤三：借鉴聚类集成的基本思想，在聚类集成中，初始聚类成员的差异性是影响集成效果的重要关键因素之一，所以选用随机子空间法构造k个分类器，k个分类器并行地从n个n×n维特征空间向量中随机抽取m个样本数据进行训练以求得其每个分类器的分类，设从XML大数据集中抽取的n个子树集D＝(d₁,d₂,…,d_n)，其中d_i＝(x_i1,x_i2,...,x_in)为大数据抽取的第i个子树，称d_i为n维数据空间的第i个数据点，它有n维特征向量，x_i1为它的相似度值,因此，为了获得K个基分类器的分类结果，设有K个处理机，每个处理机同时抽取m个样本集，把具有同一关键词对应的样本按照相似度大小进行重排，对重排后的结果随机地抽取k个子集构造一个新样本集这样每个处理机就得到一个新的样本集，k个处理机得到新样本集组成k个基分类器；然后并行地在每个基分类器采用K-邻近算法求得其分类结果，其算法1的具体步骤为：

(1)XML preprocessing{W＝W^(1,2,...n)＝(W⁽¹⁾,W⁽²⁾,...W⁽ⁿ⁾)；/*XML文档集预处理，求出抽取的每个XML子树中的关键词相似度*/；

(2)fori＝1,2,…,k(for each processor in parallel)

{initialize each random subspace base-classifier P_i,

rearranged item-keyword similarity by ascending for W andget

random select one sample setsand allocate to P_i}；

(3)end parallel for；

(4)for i＝1,2,…,k(for each processor in parallel)

{

1)for i＝1to k{union(A_i,S_i,1,2,…,m),union(B_i,S_{i,m+1,m+2,…,k})；}

/*union(A_i,S_i,1,2,…,m)是集合A_i从S_i中获得最大的m个相似度,union(B_i,S_{i,m+1,m+2,…,k})是集合B_i从S_i中获得余下的k-m个相似度*/；

2)for i＝1to m

{①select maxnum similarity dist_ij from A_i sets between thenearnest neighbors vertices i and vertices j；

②the total similarity dist_ij between vertices i and j as the maxmumamong all path-based effective similarityforp’sin P_ij:/*where p[l] denotes lth vertex along thepath p from vertex i to vertex j and |l| denotes the number of vertices that pgoes through，*/；

③ifdist_ij＞dist'_ijthen{dist_ij＝dist'_ij}；/*顶点v_i经过其它顶点到达顶点v_j的路径的相似度代替顶点v_i到顶点v_j的相似度,否则的话，该对顶点的相似度就是该条路径上连接该对顶点可达的路径相似度，*/

④

if ({dist}_{ij}^{P} forp' \sin P_{ij}) thengoto

⑤

Else{A_i＝A_i-{v_i,v_j},goto2)}

⑤initial-clustering{extract dist_ij path all vertices,union(Πⁱ,vertices),BFS()；}

/*BFS()为广度优先搜索函数，用于搜索其k个邻近点，求取满足条件的属于同一路径的顶点并把它们归于初始聚类为止，*/

}；

3)for i＝1to k-m

{①select minnum similarity dist_ij from B_i sets between vertices i andvertices j；

②isolate()；}/*isolate()是孤立点判断函数，即对集合B中相似度小的顶点，若它是两类的边缘点，则比较它到两类之间的距离的远近，根据距离，把它划分到离更近的那一类中；若是孤立点，可以把它剔除掉而不影响其聚类，或者单独看成一类，*/；

(5)end parallel for；

(6)output(Π)，/*Π＝{π₁,π₂,...,π_k}*/；

步骤四：内联相似度大矩阵分解思想，为了求得内联相似度矩阵A，可以通过建立簇集、簇和数据点三者之间的相互关系的方法来获得，并采用并行的lanczos-QR方法来实现求解该矩阵的特征值对应的特征向量，其算法的基本实现思想是：首先Lanczos上双对角化过程，构造B_m、P_m、Q_m，由于对矩阵A进行Lanczos上双对角化，相当于对A^TA的对称Lanczos过程，等价于对

\overset{&OverBar;}{A} = (\begin{matrix} 0 & A \\ A^{T} & 0 \end{matrix})

进行Lanczos迭代，因此选取单位初始向量q₁,将矩阵A进行m步上lanzcos双对角化，构造了Krylov子空间κ_m(A^TA,q₁)和κ_m＝(AA^T,Aq₁)的一组标准正交基以及A关于这两个子空间的投影矩阵，其矩阵的形式是：AQ_m＝P_mB_m、两组正交基为P_m＝[p₁,p₂,...,p_m]、Q_m＝[q₁,q₂,...q_m]，且有其中为m阶单位矩阵I_m的第m列转置，上双对角矩阵

B_{m} = [\begin{matrix} α_{1} & β_{1} \\ α_{2} & 0 \\ 0 & β_{m - 1} \\ α_{m} \end{matrix}],

同时在有限精度运算下P_m、Q_m的列向量正交性很快会失去，需要进行重新正交化，因此采用半正交化对lanczos向量进行重新正交化处理，其算法2描述如下：

1)给定单位初始化向量q₁，令β₀＝0,p₀＝0；

2)对i＝1,2,…,m,执行；

(1)r_i＝Aq_i-β_i-1p_i-1,α_i＝||r_i||,p_i＝r_i/α_i

重新正交化：

r_{i} = r_{i} - p_{i} (p_{i}^{T} r_{j})

(2)if i<k then

z_i＝A^Tp_i-α_iq_i,β_i＝||z_i||,q_i+1＝z_i/β_i

Else重新正交化：z_i＝A^Tp_i-α_iq_i,β_i＝||z_i||,q_i+1＝z_i/β_i；

其次，约化后的矩阵的奇异值分解,即计算B_m的奇异值过程，它的特征值近似A的特征值，其左右Ritz向量近似A的Ritz向量，所以只要求取B_m中的这些值，间接得到A的特征值及特征向量，其主要过程是是：(1)是对矩阵B_m的分割，即把矩阵

B_{m} = [\begin{matrix} α_{1} & β_{1} \\ α_{2} & 0 \\ 0 & β_{m - 1} \\ α_{m} \end{matrix}]

分割为成如B_m,i这样的低阶上双对角子方阵,并把分割后的子方阵分配给不同的处理机；(2)每个处理机同时进行隐式QR迭代，即使用隐式位移及一系列的Givens矩阵与子方阵左右相乘，直接驱逐出子方阵产生新的非0元素及不满足条件的次对角线的元素；(3)完成QR迭代后，并对矩阵B_m向下、向上双向收缩多行，求出矩阵B_m中的特征值，其算法3描述如下：

(1)initial{main_pre＝1,main_rea＝k,main_rea＝k,b[i]＝pre,b[i+1]＝rea；}/*首行为main_pre＝1，末行main_rea＝k,其中k＝min(m,n)为上双对角阵B_m的阶数，每个子方阵B_i的首行为pre,末行为rea，*/；

(2)fori＝1,2,…,k(foreachprocessorinparallel)/*子方阵的分割，分割后每一个分配给一个处理机*/；

③if flag＝0then{pre＝rea+1,goto①}

else goto(4)

④allocateB_m,itoP_i,

}

(3)end parallel for

(4)for i＝1,2,…,k(for each processor in parallel)/*每个处理机并行处理一个子方阵*/

{①perform one QR implicit shifts；

(5)end parallel for

(6)if main_rea>main_pre then goto(2)

(7)ordered by ascending to k eigenvalue λ₁,λ₂,...,λ_k

(8)compute k eigenvector x₁,x₂,...x_kand constrcut matrix X＝[x₁,x₂,...x_k]∈R^n×k

(9)normalized

Y = X_{ij} / {(\underset{j}{Σ} X_{ij})}^{1 / 2};

步骤五：XML聚类集成，首先按能量函数定义，构建相似度矩阵S,把相似度矩阵按照行和列平均分割成K部分，每个子方阵的大小约为m＝N/K,k∈[2,N]，对每个子方阵中的偏向参数pi按照偏向参数缩放因子scale1进行缩放，得到缩放后的偏向参数p'_i，对分割的子方阵并行地进行改进的AP聚类直至收敛；其次对聚类代表集的处理，按照最小能量函数计算聚类代表集中每一个聚类能量值的大小，对其值小于某一阈值时，不加入到新的合并中，对大于某一阈值的所有聚类组成新的样本集D并重新计算相似度S_D和p_D，使用scale2对p_D进行缩放，得到p'_D；然后利用S_D及p'_D对D进行改进的AP聚类直至最后收敛，完成聚类集成并指派到聚类中，其算法4具体步骤描述如下：

输入：给定一个XML文档集D，学习率ρ＝1，影响度μ_ij＝0.5，缩放因子scale1、scale2，分类器数目K，其中scale1每个子方阵数据子集的偏向参数缩放系数，scale2再聚类的子方阵的数据子集偏向参数缩放系数，最大迭代次数maxits＝1000，阻尼因子λ＝0.9，平衡迭代次数convits＝100

输出：最终聚类集成结果和聚类中心c_i

(1)XML preprocessing{W＝W^(1,2,...n)＝(W⁽¹⁾,W⁽²⁾,...W⁽ⁿ⁾),P＝(P⁽¹⁾,P⁽²⁾,...,P⁽ⁿ⁾)}/*对XML文档集预处理，求取每个文档的路径和上下文相关的关键词语义相似度*/

(2)run algorithm 1to gainΠ＝{π¹,π²,...,π^k}；/*随机产生K个基聚类器，并行地对每个基聚类器运行kNN划分算法，得到k个基聚类结果Π＝{π¹,π²,...,π^k}；*/

(3)d_i→{π₁(d_i),π₂(d_i),...,π_k(d_i)}；/*建立所有簇集成员划分的分类结果*/

(4)get W co-occurrence similarity matrix；/*利用簇集、簇和数据点的关系构造内联相似度矩阵W*/

(5)run algorithm2、3

(6)get k eigenvector x₁,x₂,...x_k and matrix X＝[x₁,x₂,...x_k]∈R^n×k

(7)normalized

Y = X_{ij} / {(\underset{j}{Σ} X_{ij})}^{1 / 2};

(8)mapΦ:

(9)compute energy similarity matrixS；/*利用能量相似度的定义计算这些点的相似度S*/

(10)average S divided into k sub-matrix,the size of each sub-matrix is/*相似度矩阵S按照行与列平均分割成k部分，每个子方阵的大小是*/

(11)initial sub-matrix{shrink-factor＝scale1,λ＝0.9,

convits＝100,maxits＝1000,p＝p'_i；}/*对每个子方阵的偏向参数p_i按照偏向参数缩放因子scale1进行缩放，得到缩放后的偏向参数p'_i，用λ、convits、maxits设置聚类参数，以分割的子方阵*/

(12)for i＝1,2,…,k(for each processor in parallel)

{input(s_i),run improved AP algorithm,gainD＝AP(s_ii,p'_i)；}

(13)end parallel for

(14)applyto compute energy-valueE_iinD_i；

(15)if E_i<εthen{add(D′₁,s_i)}

else{add(D',D_i)}；/*对聚类代表集合D，按照最小能量函数计算其每一个聚类能量值的大小，对其值小于某一阈值的聚类代表加入到D₁'集合，对大于某一阈值的所有聚类组成新的样本集D'*/

(16)re-compute similarity usescale2to p_D shrink,gain p_D'；

(17)set parameter{set λ、convits、maxits parameter}

(18)fori＝1,2,…,k(foreachprocessorinparallel)

{input(D'),runimprovedAPalgorithm,gainE＝AP(S_D',p_D')；}

(19)end parallel for

(20)according E and D₁'to compute

(21)perform d_i document to i^th clustering in V sets according Y clusteringresult；

(22)output(V),output(C)。

效果汇总：

本发明的一种并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能，选用并行随机子空间的基聚类器来进行初始训练，这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间，解决了高维、大数据集非凸的聚类问题；引入消歧处理，消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题，同时综合语义相似度与路径相似度，解决了XML文档相似度计算不准确对初始聚类结果的影响；从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后，采用精化LANCZOS双对角化策略把矩阵投影于低维空间，并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量，避免因数据规模大，数据的计算量成倍增加而增加算法的时间复杂度；(4)利用系统能量理论，把待集成的基本聚类划分结果看成一个系统，系统的能量就是不同聚类结果之间的能量组合，通过设计出系统能量的AP传播算法并行实现能量的最优组合，提高了聚类集成方法的效率，弥补以往聚类集成方法的不足。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种并行AP传播的XML大数据聚类集成方法，其特征在于：该并行AP传播的XML大数据聚类集成方法包括以下步骤：

步骤一：对每一个XML大数据进行清洗、划分和抽取预处理；

步骤三：借鉴聚类集成的基本思想；

步骤四：内联相似度大矩阵分解思想；

步骤五：实现最终的聚类集成。

2.如权利要求1所述的并行AP传播的XML大数据聚类集成方法，其特征在于：在步骤一，先对XML文档集中的每一个XML大数据进行清洗、划分和抽取预处理，即通过规模和内容的划分方法，从每个XML大数据中提取所有节点及节点的子集，计算节点在数据中的频度，根据节点的频繁频度尽可能地把属于同一主题内容的节点及子孙划分在同一子集，不同主题内容的节点划分在不同子集，并从划分的子集中按照关键词的频繁频度抽取n个子树，求出抽取的每一个子树从根节点到叶子节点的所有路径，并以路径作为消歧的输入源对歧义词进行消歧处理，求取每个关键词的语义相关度及上下文语义相关相似度。

3.如权利要求1所述的并行AP传播的XML大数据聚类集成方法，其特征在于：在步骤二，把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述，这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量。

4.如权利要求1所述的并行AP传播的XML大数据聚类集成方法，其特征在于：在步骤三，借鉴聚类集成的基本思想，用随机子空间分类器作为基聚类器构建k个分类器，k个分类器并行地从n个n×n特征向量空间中随机抽取m个样本数据来进行训练以求得分类，方法是对新样本集建立一个无向图，每个样本点是图的一个顶点，图的边是顶点间的连线，它表示文档之间的相似度，相似度采用标记语义树的方法求得，并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径，路径的划分采用K-邻近法，这样把划分的每一条路径组成一个类别，所有不同的划分路径组成K个初始分类。

5.如权利要求1所述的并行AP传播的XML大数据聚类集成方法，其特征在于：在步骤四：从初始的簇集结果出发，按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵，通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入。

6.如权利要求1所述的并行AP传播的XML大数据聚类集成方法，其特征在于：在步骤五，通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。