CN103942318A - 一种并行ap传播的xml大数据聚类集成方法 - Google Patents

一种并行ap传播的xml大数据聚类集成方法 Download PDF

Info

Publication number
CN103942318A
CN103942318A CN201410171627.3A CN201410171627A CN103942318A CN 103942318 A CN103942318 A CN 103942318A CN 201410171627 A CN201410171627 A CN 201410171627A CN 103942318 A CN103942318 A CN 103942318A
Authority
CN
China
Prior art keywords
xml
parallel
similarity
clustering
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410171627.3A
Other languages
English (en)
Other versions
CN103942318B (zh
Inventor
蒋勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Lanxue Information Technology Co ltd
Original Assignee
Hunan Vocational College of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Vocational College of Chemical Technology filed Critical Hunan Vocational College of Chemical Technology
Priority to CN201410171627.3A priority Critical patent/CN103942318B/zh
Publication of CN103942318A publication Critical patent/CN103942318A/zh
Application granted granted Critical
Publication of CN103942318B publication Critical patent/CN103942318B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种并行AP传播的XML大数据聚类集成方法,包括,对每一个XML大数据进行清洗、划分和抽取等预处理;把抽取的子树中所有关键词看成该数据点特征描述;借鉴聚类集成的基本思想;内联相似度大矩阵分解思想;实现最终的聚类集成。本发明通过建立随机子空间分类器并并行随机抽取子树来扩大聚类成员的差异性、提高聚类的性能;引入消歧处理,消除了每个子树中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;利用系统能量理论,改进了AP算法的归属度矩阵和吸收矩阵的迭代式,实现了XML大数据的聚类集成,提高了聚类集成方法效率。

Description

一种并行AP传播的XML大数据聚类集成方法
技术领域
本发明属于大数据集成方法应用领域,尤其涉及一种并行AP传播的XML大数据聚类集成方法。
背景技术
目前,XML大数据也与其它类型的大数据一样,具有体积浩大、结构复杂、生成速度快、价值巨大但密度低的特点,且数据量从MB到GB、TB、PB直至ZB,此外,它的数据呈现非凸特性且分布很不均匀,数据噪声和孤立点多,而且许多数据以数据流的形式出现在Web中,因此,对这些速度变化快且具有很强的时效性的XML大数据,若采用传统的算法进行聚类集成,则这些集成方法在解决XML大数据集存在明显不足,其主要表现在:(1)占用的存储空间大,预测速度慢,预测效果差;(2)在线机器学习困难,对小规模数据有效,对大规模数据效果差;(3)动态性、实时性差,不能处理流数据;(4)算法由于缺乏先验知识,对XML数据分布的全局特点把握不准,最后导致聚类精度及聚类结果得不到满意的要求。
因此,发明一种并行AP传播的XML大数据聚类集成方法显得非常必要。
发明内容
本发明的目的是基于PC机分布式环境下提供一种并行AP传播的XML大数据聚类集成方法,旨在传统的算法存在着占用的存储空间大,预测速度慢,预测效果差,在线机器学习困难,对小规模数据有效,对大规模数据效果差处理效率低,对XML数据分布的全局特点把握不准的问题。本发明是这样实现的,
一种并行AP传播的XML大数据聚类集成方法的必要技术方案:
本发明是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,
步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理;
步骤二:把抽取的子树中所有关键词看成该数据点特征描述;
步骤三:借鉴聚类集成的基本思想;
步骤四:内联相似度大矩阵分解思想;
步骤五:实现最终的聚类集成。
一种并行AP传播的XML大数据聚类集成方法的次要技术方案:
进一步,在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;
进一步,在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
进一步,在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建K个分类器,K个分类器并行地从n个n×n特征向量空间中随机抽取m样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。
进一步,在步骤四,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;
进一步,在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
本发明提供的并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。
附图说明
图1是本发明提供的并行AP传播的XML大数据聚类集成方法方法流程图。
具体实施方式
一种并行AP传播的XML大数据聚类集成方法的必要技术方案:
本发明是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,
S101:对每一个XML大数据进行清洗、划分和抽取等预处理;
S102:把抽取的子树中所有关键词看成该数据点特征描述;
S103:借鉴聚类集成的基本思想;
S104:内联相似度大矩阵的分解思想;
S105:实现最终的聚类集成。
一种并行AP传播的XML大数据聚类集成方法的次要技术方案:
进一步,在S101,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;
进一步,在S102,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
进一步,在S103,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器并行地从其特征向量空间中随机抽取多个样本并重复多次来构建多个分类器,同时对每个子分类器中的样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类;
进一步,S104,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;
进一步,在S105,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
本发明的具体实施例:
实施例1:
步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理,即对每一个XML大数据清洗后,通过规模与内容相结合的划分方法,从大数据中提取所有节点及其节点的子集,计算节点的子集在其数据中的频度,根据节点的频繁频度尽可能地把属于同一主题内容的节点及其子孙划分在同一个子集、不同主题内容的节点划分到不同的子集中,并从划分的子集中按照关键词的频繁频度抽取n个子树,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求出每个关键词的语义相关度及上下文语义相关相似度;
其相似度求取如下:假设从XML大数据中抽取n个子树集D’=(d’1,d’2,…,d’n),为了求取d’i、d’j两个子树的相似度,首先求出每个子树中关键词的相似度(也就是每个元素的相似度),即先对文档进行预处理,求出每个文档从根节点到叶子节点所有元素的不同路径,并以路径作为消歧的输入源,对路径中的每个元素进行消歧处理,得到具体词和歧义词中与之有语义关系相联系的词语集合,确定目标词并对它们进行标记,路径中其它词语标记成它的上下文环境,即语义相关性环境,这样目标词除与其上下文语义相关之外,也与它有语义关系相联系的词语(语义关联度)有关,用语义关联度的词代替歧义词,加入到上下文相关的关系中,所以目标词的语义相似度等于与其上下文语义相关词的相似度和与之有语义关联的语义关联度之和的最大值,设有目标词语x1具有(x11,x12,...,x1n)个语义项,y2具有(y21,y22,...,y2m)个语义项,则x1和y1的语义相似度 sin ( x 1 , y 2 ) = max i = 1 , . . . , n , j = 1 , . . . , m sim ( x 1 i , y 2 j ) , sim(x1i,y2j)是目标词第i个语义项与y2第j个语义项的语义相似度,设目标词有n-1个词与上下文相关或语义关联,其中有m个上下有关,n-m+1个语义关联,则求它与这n-1个词的语义相似度之和的最大值 arg max ( Σ j = 1 , i ≠ j m sim ( x i , x j ) + Σ j = m + 1 n - 1 sim ( x i , x j ) ) ;
其次求取子树中的路径相似度sim(pi,t,pj,n)=simstruct(pi,t,pj,n)+pathsenserelate(pi,t)+pathsenserelate(pj,n),设文档d’i、d’j的路径分别为pi=(pi,1,pi,2,…pi,f)、pj=(pj,1,pj,2,…pj,n),则文档d’i的路径pi,j语义相关度 senserelate ( p i , t ) = Σ i = 1 m max ( Σ j = 1 , i ≠ j m sim ( x i , x j ) + Σ j = m + 1 n - 1 sim ( x i , x j ) ) , 同理文档d’j的路径pj,n的语义相关度 senserelate ( p j , n ) = Σ j = 1 m max ( Σ j = 1 , i ≠ j m sim ( x i , x j ) + Σ j = m + 1 n - 1 sim ( x i , x j ) ) , 则pi,j与pj,n两路径的相似度为:sim(pi,t,pj,n)=simstruct(pi,t,pj,n)+pathsenserelate(pi,t)+pathsenserelate(pj,n),其中simstruct(pi,t,pj,n)=(2×|pi,t∩pj,n|)/(|pi,t|+|pj,n|,|pi,t∩pj,n|为pi,与pj两条路径的子路径最长匹配段对应语义项相同的个数,|pi,t|与|pj,n|为子路径的长度,pathsenserelate(pi,t)与pathsenserelate(pj,n)为子路径语义关联相似度,其中pathsenserelate(pi,1)=senserelate(pi,1)/(|pi,t|+|pj,n|),pathsenserelate(pj,n)=senserelate(pj,n)/(|pi,t|+|pj,n|);最后求出文档d’i、d’j的相似度 ( d ' i , d ' j ) = ( Σ t = 1 | d i | max sim ( path i , t , path j , k k = 1 → | p j | ) ) p i (1),其中|pi|、|pj|分别表示文档d’i、d’j路径条数,且|pi|≥|pj|;
步骤二:把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
步骤三:借鉴聚类集成的基本思想,在聚类集成中,初始聚类成员的差异性是影响集成效果的重要关键因素之一,所以选用随机子空间法构造k个分类器,k个分类器并行地从n个n×n维特征空间向量中随机抽取m个样本数据进行训练以求得其每个分类器的分类,设从XML大数据集中抽取的n个子树集D=(d1,d2,…,dn),其中di=(xi1,xi2,...,xin)为大数据抽取的第i个子树,称di为n维数据空间的第i个数据点,它有n维特征向量,xi1为它的相似度值,因此,为了获得K个基分类器的分类结果,设有K个处理机,每个处理机同时抽取m个样本集,把具有同一关键词对应的样本按照相似度大小进行重排,对重排后的结果随机地抽取k个子集构造一个新样本集这样每个处理机就得到一个新的样本集,k个处理机得到新样本集组成k个基分类器;然后并行地在每个基分类器采用K-邻近算法求得其分类结果,其算法1的具体步骤为:
(1)XML preprocessing{W=W(1,2,...n)=(W(1),W(2),...W(n));/*XML文档集预处理,求出抽取的每个XML子树中的关键词相似度*/;
(2)fori=1,2,…,k(for each processor in parallel)
{initialize each random subspace base-classifier Pi,
rearranged item-keyword similarity by ascending for W andget
random select one sample setsand allocate to Pi};
(3)end parallel for;
(4)for i=1,2,…,k(for each processor in parallel)
{
1)for i=1to k{union(Ai,Si,1,2,…,m),union(Bi,Si,m+1,m+2,…,k);}
/*union(Ai,Si,1,2,…,m)是集合Ai从Si中获得最大的m个相似度,union(Bi,Si,m+1,m+2,…,k)是集合Bi从Si中获得余下的k-m个相似度*/;
2)for i=1to m
{①select maxnum similarity distij from Ai sets between thenearnest neighbors vertices i and vertices j;
②the total similarity distij between vertices i and j as the maxmumamong all path-based effective similarityforp’sin Pij:/*where p[l] denotes lth vertex along thepath p from vertex i to vertex j and |l| denotes the number of vertices that pgoes through,*/;
③ifdistij>dist'ijthen{distij=dist'ij};/*顶点vi经过其它顶点到达顶点vj的路径的相似度代替顶点vi到顶点vj的相似度,否则的话,该对顶点的相似度就是该条路径上连接该对顶点可达的路径相似度,*/
if ( dist ij P forp ′ sin P ij ) thengoto
Else{Ai=Ai-{vi,vj},goto2)}
⑤initial-clustering{extract distij path all vertices,union(Πi,vertices),BFS();}
/*BFS()为广度优先搜索函数,用于搜索其k个邻近点,求取满足条件的属于同一路径的顶点并把它们归于初始聚类为止,*/
};
3)for i=1to k-m
{①select minnum similarity distij from Bi sets between vertices i andvertices j;
②isolate();}/*isolate()是孤立点判断函数,即对集合B中相似度小的顶点,若它是两类的边缘点,则比较它到两类之间的距离的远近,根据距离,把它划分到离更近的那一类中;若是孤立点,可以把它剔除掉而不影响其聚类,或者单独看成一类,*/;
(5)end parallel for;
(6)output(Π),/*Π={π12,...,πk}*/;
步骤四:内联相似度大矩阵分解思想,为了求得内联相似度矩阵A,可以通过建立簇集、簇和数据点三者之间的相互关系的方法来获得,并采用并行的lanczos-QR方法来实现求解该矩阵的特征值对应的特征向量,其算法的基本实现思想是:首先Lanczos上双对角化过程,构造Bm、Pm、Qm,由于对矩阵A进行Lanczos上双对角化,相当于对ATA的对称Lanczos过程,等价于对 A ‾ = 0 A A T 0 进行Lanczos迭代,因此选取单位初始向量q1,将矩阵A进行m步上lanzcos双对角化,构造了Krylov子空间κm(ATA,q1)和κm=(AAT,Aq1)的一组标准正交基以及A关于这两个子空间的投影矩阵,其矩阵的形式是:AQm=PmBm两组正交基为Pm=[p1,p2,...,pm]、Qm=[q1,q2,...qm],且有其中为m阶单位矩阵Im的第m列转置,上双对角矩阵 B m = α 1 β 1 α 2 0 0 β m - 1 α m , 同时在有限精度运算下Pm、Qm的列向量正交性很快会失去,需要进行重新正交化,因此采用半正交化对lanczos向量进行重新正交化处理,其算法2描述如下:
1)给定单位初始化向量q1,令β0=0,p0=0;
2)对i=1,2,…,m,执行;
(1)ri=Aqii-1pi-1i=||ri||,pi=rii
重新正交化: r i = r i - p i ( p i T r j )
(2)if i<k then
zi=ATpiiqii=||zi||,qi+1=zii
Else重新正交化:zi=ATpiiqii=||zi||,qi+1=zii
其次,约化后的矩阵的奇异值分解,即计算Bm的奇异值过程,它的特征值近似A的特征值,其左右Ritz向量近似A的Ritz向量,所以只要求取Bm中的这些值,间接得到A的特征值及特征向量,其主要过程是是:(1)是对矩阵Bm的分割,即把矩阵 B m = &alpha; 1 &beta; 1 &alpha; 2 0 0 &beta; m - 1 &alpha; m 分割为成如Bm,i这样的低阶上双对角子方阵,并把分割后的子方阵分配给不同的处理机;(2)每个处理机同时进行隐式QR迭代,即使用隐式位移及一系列的Givens矩阵与子方阵左右相乘,直接驱逐出子方阵产生新的非0元素及不满足条件的次对角线的元素;(3)完成QR迭代后,并对矩阵Bm向下、向上双向收缩多行,求出矩阵Bm中的特征值,其算法3描述如下:
(1)initial{main_pre=1,main_rea=k,main_rea=k,b[i]=pre,b[i+1]=rea;}/*首行为main_pre=1,末行main_rea=k,其中k=min(m,n)为上双对角阵Bm的阶数,每个子方阵Bi的首行为pre,末行为rea,*/;
(2)fori=1,2,…,k(foreachprocessorinparallel)/*子方阵的分割,分割后每一个分配给一个处理机*/;
③if flag=0then{pre=rea+1,goto①}
else goto(4)
④allocateBm,itoPi,
}
(3)end parallel for
(4)for i=1,2,…,k(for each processor in parallel)/*每个处理机并行处理一个子方阵*/
{①perform one QR implicit shifts;
(5)end parallel for
(6)if main_rea>main_pre then goto(2)
(7)ordered by ascending to k eigenvalue λ12,...,λk
(8)compute k eigenvector x1,x2,...xkand constrcut matrix X=[x1,x2,...xk]∈Rn×k
(9)normalized Y = X ij / ( &Sigma; j X ij ) 1 / 2 ;
步骤五:XML聚类集成,首先按能量函数定义,构建相似度矩阵S,把相似度矩阵按照行和列平均分割成K部分,每个子方阵的大小约为m=N/K,k∈[2,N],对每个子方阵中的偏向参数pi按照偏向参数缩放因子scale1进行缩放,得到缩放后的偏向参数p'i,对分割的子方阵并行地进行改进的AP聚类直至收敛;其次对聚类代表集的处理,按照最小能量函数计算聚类代表集中每一个聚类能量值的大小,对其值小于某一阈值时,不加入到新的合并中,对大于某一阈值的所有聚类组成新的样本集D并重新计算相似度SD和pD,使用scale2对pD进行缩放,得到p'D;然后利用SD及p'D对D进行改进的AP聚类直至最后收敛,完成聚类集成并指派到聚类中,其算法4具体步骤描述如下:
输入:给定一个XML文档集D,学习率ρ=1,影响度μij=0.5,缩放因子scale1、scale2,分类器数目K,其中scale1每个子方阵数据子集的偏向参数缩放系数,scale2再聚类的子方阵的数据子集偏向参数缩放系数,最大迭代次数maxits=1000,阻尼因子λ=0.9,平衡迭代次数convits=100
输出:最终聚类集成结果和聚类中心ci
(1)XML preprocessing{W=W(1,2,...n)=(W(1),W(2),...W(n)),P=(P(1),P(2),...,P(n))}/*对XML文档集预处理,求取每个文档的路径和上下文相关的关键词语义相似度*/
(2)run algorithm 1to gainΠ={π12,...,πk};/*随机产生K个基聚类器,并行地对每个基聚类器运行kNN划分算法,得到k个基聚类结果Π={π12,...,πk};*/
(3)di→{π1(di),π2(di),...,πk(di)};/*建立所有簇集成员划分的分类结果*/
(4)get W co-occurrence similarity matrix;/*利用簇集、簇和数据点的关系构造内联相似度矩阵W*/
(5)run algorithm2、3
(6)get k eigenvector x1,x2,...xk and matrix X=[x1,x2,...xk]∈Rn×k
(7)normalized Y = X ij / ( &Sigma; j X ij ) 1 / 2 ;
(8)mapΦ:
(9)compute energy similarity matrixS;/*利用能量相似度的定义计算这些点的相似度S*/
(10)average S divided into k sub-matrix,the size of each sub-matrix is/*相似度矩阵S按照行与列平均分割成k部分,每个子方阵的大小是*/
(11)initial sub-matrix{shrink-factor=scale1,λ=0.9,
convits=100,maxits=1000,p=p'i;}/*对每个子方阵的偏向参数pi按照偏向参数缩放因子scale1进行缩放,得到缩放后的偏向参数p'i,用λ、convits、maxits设置聚类参数,以分割的子方阵*/
(12)for i=1,2,…,k(for each processor in parallel)
{input(si),run improved AP algorithm,gainD=AP(sii,p'i);}
(13)end parallel for
(14)applyto compute energy-valueEiinDi
(15)if Ei<εthen{add(D′1,si)}
else{add(D',Di)};/*对聚类代表集合D,按照最小能量函数计算其每一个聚类能量值的大小,对其值小于某一阈值的聚类代表加入到D1'集合,对大于某一阈值的所有聚类组成新的样本集D'*/
(16)re-compute similarity usescale2to pD shrink,gain pD'
(17)set parameter{set λ、convits、maxits parameter}
(18)fori=1,2,…,k(foreachprocessorinparallel)
{input(D'),runimprovedAPalgorithm,gainE=AP(SD',pD');}
(19)end parallel for
(20)according E and D1'to compute
(21)perform di document to ith clustering in V sets according Y clusteringresult;
(22)output(V),output(C)。
效果汇总:
本发明的一种并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;(4)利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种并行AP传播的XML大数据聚类集成方法,其特征在于:该并行AP传播的XML大数据聚类集成方法包括以下步骤:
步骤一:对每一个XML大数据进行清洗、划分和抽取预处理;
步骤二:把抽取的子树中所有关键词看成该数据点特征描述;
步骤三:借鉴聚类集成的基本思想;
步骤四:内联相似度大矩阵分解思想;
步骤五:实现最终的聚类集成。
2.如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取预处理,即通过规模和内容的划分方法,从每个XML大数据中提取所有节点及节点的子集,计算节点在数据中的频度,根据节点的频繁频度尽可能地把属于同一主题内容的节点及子孙划分在同一子集,不同主题内容的节点划分在不同子集,并从划分的子集中按照关键词的频繁频度抽取n个子树,求出抽取的每一个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度。
3.如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量。
4.如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建k个分类器,k个分类器并行地从n个n×n特征向量空间中随机抽取m个样本数据来进行训练以求得分类,方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。
5.如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤四:从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入。
6.如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
CN201410171627.3A 2014-04-25 2014-04-25 一种并行ap传播的xml大数据聚类集成方法 Expired - Fee Related CN103942318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410171627.3A CN103942318B (zh) 2014-04-25 2014-04-25 一种并行ap传播的xml大数据聚类集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410171627.3A CN103942318B (zh) 2014-04-25 2014-04-25 一种并行ap传播的xml大数据聚类集成方法

Publications (2)

Publication Number Publication Date
CN103942318A true CN103942318A (zh) 2014-07-23
CN103942318B CN103942318B (zh) 2017-05-17

Family

ID=51189986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410171627.3A Expired - Fee Related CN103942318B (zh) 2014-04-25 2014-04-25 一种并行ap传播的xml大数据聚类集成方法

Country Status (1)

Country Link
CN (1) CN103942318B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975440A (zh) * 2016-05-05 2016-09-28 浙江理工大学 一种基于图计算模型的矩阵分解并行化方法
CN106169004A (zh) * 2016-07-15 2016-11-30 西南石油大学 一种自动防碰钻井系统
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109858518A (zh) * 2018-12-26 2019-06-07 中译语通科技股份有限公司 一种基于MapReduce的大型数据集聚类方法
CN117610579A (zh) * 2024-01-19 2024-02-27 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216858A (zh) * 2008-01-14 2008-07-09 浙江大学 分割式相似度传播数据聚类方法
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
JP2012242974A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置及び方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216858A (zh) * 2008-01-14 2008-07-09 浙江大学 分割式相似度传播数据聚类方法
JP2012242974A (ja) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置及び方法及びプログラム
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XU WANG 等: "Voting Affinity Propagation Algorithm for Clustering XML Documents", 《2012 2ND INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 *
卢志茂 等: "近邻传播的文本聚类集成普算法", 《哈尔滨工程大学学报》 *
蒋勇 等: "基于量子遗传算法的XML聚类集成", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975440A (zh) * 2016-05-05 2016-09-28 浙江理工大学 一种基于图计算模型的矩阵分解并行化方法
CN106169004A (zh) * 2016-07-15 2016-11-30 西南石油大学 一种自动防碰钻井系统
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109255368B (zh) * 2018-08-07 2023-12-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109858518A (zh) * 2018-12-26 2019-06-07 中译语通科技股份有限公司 一种基于MapReduce的大型数据集聚类方法
CN117610579A (zh) * 2024-01-19 2024-02-27 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统
CN117610579B (zh) * 2024-01-19 2024-04-16 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Also Published As

Publication number Publication date
CN103942318B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
Mohammed et al. A state-of-the-art survey on semantic similarity for document clustering using GloVe and density-based algorithms
Fouss et al. Algorithms and models for network data and link analysis
Liu et al. Large-scale spectral clustering on graphs
Van Lierde et al. Scalable spectral clustering for overlapping community detection in large-scale networks
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
Rahman et al. Cutset networks: A simple, tractable, and scalable approach for improving the accuracy of chow-liu trees
Biemann Chinese whispers-an efficient graph clustering algorithm and its application to natural language processing problems
Bouaziz et al. Short text classification using semantic random forest
CN103942318A (zh) 一种并行ap传播的xml大数据聚类集成方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104615779A (zh) 一种Web文本个性化推荐方法
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
CN104008187B (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN111191466A (zh) 一种基于网络表征和语义表征的同名作者消歧方法
CN104657472A (zh) 一种基于进化算法的英文文本聚类方法
CN103886072A (zh) 煤矿搜索引擎中检索结果聚类系统
Zaw et al. Web document clustering by using PSO-based cuckoo search clustering algorithm
Ye et al. Determining gains acquired from word embedding quantitatively using discrete distribution clustering
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法
Wu et al. Balanced graph cut with exponential inter-cluster compactness
Chen et al. PurTreeClust: A purchase tree clustering algorithm for large-scale customer transaction data
CN113836395B (zh) 一种基于异构信息网络的服务开发者按需推荐方法及系统
Luo A new text classifier based on random forests

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200611

Address after: Room 303, floor 3, building E3, West Yungu project, Fengxi new city, Xixian New District, Xi'an City, Shaanxi Province

Patentee after: Xi'an LanXue Information Technology Co.,Ltd.

Address before: 412004 Hunan province Zhuzhou shifengqu Qing Shi Road No. 2

Patentee before: HUNAN CHEMICAL VOCATIONAL TECHNOLOGY College

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170517