CN101408901A - 一种基于主题词条的跨类型数据的概率聚类方法 - Google Patents

一种基于主题词条的跨类型数据的概率聚类方法 Download PDF

Info

Publication number
CN101408901A
CN101408901A CNA2008102290431A CN200810229043A CN101408901A CN 101408901 A CN101408901 A CN 101408901A CN A2008102290431 A CNA2008102290431 A CN A2008102290431A CN 200810229043 A CN200810229043 A CN 200810229043A CN 101408901 A CN101408901 A CN 101408901A
Authority
CN
China
Prior art keywords
entry
theme
data
probability
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008102290431A
Other languages
English (en)
Other versions
CN101408901B (zh
Inventor
王国仁
于亚新
王波涛
丁国辉
王斌
赵相国
赵宇海
信俊昌
乔百友
韩东红
张恩德
李淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN2008102290431A priority Critical patent/CN101408901B/zh
Publication of CN101408901A publication Critical patent/CN101408901A/zh
Application granted granted Critical
Publication of CN101408901B publication Critical patent/CN101408901B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。

Description

一种基于主题词条的跨类型数据的概率聚类方法
技术领域
本发明属于数据库领域,特别涉及一种基于主题词条的跨类型数据的概率聚类方法。
背景技术
在过去的几十年里,传统的关系数据库管理系统发挥了非常重要的作用。可是,随着计算机应用技术,特别是Web信息技术的不断发展,当今的数据呈现出“海量”和“数据无处不在”这两大特点,而且数据特征纷繁复杂。因此传统的某种数据库管理系统已经无法满足这样一种数据库管理的需求,而且当今的很多数据或信息根本就没有存储在数据库管理系统中,正如Serge Atiteboul等在他们发表在ACM通信(48卷第5期)上的报告和Homman在DASFAA2007的大会报告中指出的那样,目前只有20%左右的数据或信息被存储在数据库中。这就意味着传统的数据库系统已经无法满足当今数据管理的需求,于是数据空间这一概念应运而生。
在数据空间中,需要管理跨类型(cross-type)数据,即从类型上划分,包含结构化数据(structured data)、半结构化数据(semi-structured data)和无结构化数据(unstructured data)。在结构化数据中,主要有数据库表,Excel表以及从各种无结构化和半结构化数据中提取出来的结构信息等;在半结构化数据中,主要指XML数据、word文档、ppt文档、Latex数据以及个人E-mail数据等;在无结构化数据中,主要包括txt文档、pdf文档、ps文档以及图像等。如何在跨类型数据中根据数据语义进行聚类,以提供给用户高级语义层面的查询是一个亟待解决的问题。
目前,针对数据的聚类问题已提出很多聚类算法。如基于划分的K-means方法,基于密度的DBSCAN方法。但是现有的聚类算法没有考虑到聚类过程中的不确定性(uncertainty)问题。同时,以往的这些聚类方法在处理数据的相似性关系时,处理手段过于简单,例如:K-means方法仅仅是将数据在词条空间下的距离作为数据间的相似度。由于以上原因,基于概率的聚类方法和考虑语义信息的基于数据主题的聚类方法得到了广泛应用。其中,基于数据主题的聚类方法是实现聚类的方法之一,而用词条表示数据主题又是相似性计算的前提,因此首先需要解决词条对数据主题的描述问题。其次,由于词条与主题之间的描述关系具有不确定性,即一个词条可以描述不同的主题,而一个主题也可以由不同的词条集合来表示,这就导致了数据间基于不确定主题词条的聚类问题。此外,数据间基于主题词条的相似关系,既包含直接相似关系(direct similarity relationship),也包含间接相似关系(indirect similarityrelationship),如何利用这些相似关系来更全面地聚类数据是需要解决的另一个关键问题。
发明内容
针对现有的数据聚类方法没有考虑到聚类过程中的不确定性(uncertainty)问题。同时,以往的这些聚类方法在处理数据的相似性关系时,处理手段过于简单,本发明提供了一种基于主题词条的跨类型数据的概率聚类方法,利用与主题相关的词条项的相似性来对数据空间中的跨类型数据进行聚类,该模型称作PTSM(Probabilistic Term Similarity Model)。本发明的具体步骤如下:
步骤1定义主题词条的类型
对于任意一个跨类型数据d,将其表示为词条的集合d(t1,t2,...tn),其中ti(1≤i≤n)表示数据d的第i个词条。按照TF□IDF原则给集合中的每一个词条赋予权重。TF□IDF公式如公式(1)-(4)所示。
tf(t)=1+ln(1+ln(1+f(t))                    (1)
idf ( t ) = ln N + 1 N t + 1 - - - ( 2 )
ndl = ( 1 - s ) + s × tl d avg tl - - - ( 3 )
SCORE ( t ) = tf ( t ) × idf ( t ) ndl - - - ( 4 )
其中,f(t)表示词条t在数据d中出现的频率,N和Nt分别表示数据空间内数据的总量以及含有词条t的数据的数量,tld表示数据d中词条的总量,avgtl表示所有数据内词条数量的平均数,而s是一个参数,一般取值为0.2。公式SCORE(t)用于计算词条的权重,它从三方面考虑:1)将较小的权重值分赋给在较多数据中出现的词条;2)将较大的权重值赋给在一个数据中多次出现的词条;3)从数据集合的整体特性考虑词条的权重,而不是从某一个数据出发。
按照上面的权重公式对词条分配权重后,能够保证具有较大权重的词条能较好地将数据区分开,从而达到理想的聚类效果。在给每个词条赋权重后,按照权重大小分为三类词条:主题相关词条(related term)、主题半相关词条(semi-related term)和主题不相关词条(unrelatedterm),分别用r、s和u表示。权重大于某个阈值θs的词条称为主题相关词条;权重小于某个阈值θu的词条称为主题不相关词条;权重介于θs和θu之间的词条称为主题半相关词条。此处,θs=αθmax,其中θmax为某一个数据d中权重最大的词条的TF□IDF权重,而α是一个参数,取值在0到1之间,我们通过实验确定α的取值,α在0.2至0.5之间。θu则采用一种启发式原则来确定。在确定了主题相关词条r之后,对剩余的词条项按权重大小进行排序。如果令w[i]表示排名第i位的词条的权重值,则启发式思想是:寻求相邻两个权值差最大的词条所在位置k,并将位置k所对应的词条的权值作为θu的值,即k满足公式(5),其中m表示剩余词条(即除主题相关词条外的词条)个数,这时θu=w[k]。
w[k]-w[k+1]=max1≤i≤m-1(w[i]-w[i+1])         (5)
步骤2给主题词条分配概率
给上述每类词条t赋予一个概率值p,则p(t)称作词条t的主题相关概率。p(t)表示词条t能够以概率p表示数据d的主题。ri的主题相关概率p(ri)=1,ui的主题相关概率p(ui)=0,而si的主题相关概率p(si)=wsi/wmax,其中wsi为半相关词条si的权重,wmax为d中所有词条的权重的最大值,p(si)介于(0,1)之间。
步骤3用概率表示数据主题
根据步骤1和2,首先,将跨类型数据d表示成主题相关词条r的一个确定集合,记作d(r1,r2,...,rn),其中ri表示第i个相关主题词条。然后,再将所有的主题半相关词条s追加到d的确定集合中。我们称这样的每一个集合为跨类型数据d的一种“描述形式”。由于任意一个si是以一定的概率来表示数据的主题,那么数据的一个确定的表示集合就演化成多个带概率值的“描述形式”。我们希望这种“描述形式”能够完全表示数据的主题,而主题半相关词条只能以一定的概率表示数据的主题,因此,每一个主题半相关词条有可能别加入到数据的的集合中,从而产生一个数据的描述形式,又或者不会被加入到数据的集合中,从而产生另一种“描述形式”。而半相关词条被加入到集合中的概率既是p(si),不被加入到集合中的概率为1-p(si)。换句话说,“描述形式”是不确定的,且具有一定的概率,概率值依赖于每个集合中的主题半相关词条si,即 P ( d m ) = Π i = 1 jk P i , 其中k表示一个数据中主题半相关词条的数量,m=1,2,...,2k,dm是d的第m个“描述形式”中。如果某个si出现在dm中,则Pi=p(si),否则Pi=1-p(si)。对于任意一个数据,假设它有m个主题半相关词条,那么存在2m个“描述形式”表示它的主题。例如,数据d有2个半相关词条s1和s2,其描述主题的概率分别为p(s1)和p(s2),那么d能够被表示为4种集合形式:d1(r1,r2,...,rn),d2(r1,r2,...,rn,s1),d3(r1,r2,...,rn,s2)和d4(r1,r2,...,rn,s1,s2)。这四种集合存在的概率分别为(1-p(s1))(1-p(s2)),p(s1)(1-p(s2)),(1-p(s1))p(s2)和p(s1)p(s2)。
步骤4构建数据的主题词条概率相似性矩阵M
对步骤(3)中跨类型数据d的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,假设dx i是dx的第i种描述形式,dy j是dy的第j种描述形式,则dx i和dy j的相似度计算如公式(6)所示。
sim ( d x i , d y j ) = | d x i ∩ d y j | | d x i ∪ d y j | - - - ( 6 )
假设dx含有m个半相关词条,dy含有n个半相关词条,那么如果要计算dx和dy的任意两种描述形式的相似度,共需2m+n次相似性计算,这种计算方式导致计算量极具增加。由于这种相似性计算的计算代价很大,因此采用基于位图(bitmap)的增量计算方法进行求解,可以大大降低计算代价。
首先,针对数据d的每一种“描述形式”给出对应的位图。例如,假设d有m个主题半相关词条,则d的每一种“描述形式”被分配m位比特位。该位图的每一位对应数据d的每一个主题半相关词条。如果第i个半相关词条出现在d的某一个描述形式中,那么这个描述形式的相对应的第i位比特位为1,否则为0。
其次,为每个数据的所有表示形式建立一个邻接树,构建方法如下:
1.将比特位全为0的描述形式作为树的根节点;
2.其比特位与当前节点仅有一位不同的描述形式作为当前节点的子节点;
3.按照广度优先遍历方式,遍历当前的邻接树;重复步骤2,直到所有的节点都被插入到树中。
接下来,根据每个数据对应的邻接树,可以确定计算任意两条数据的每一种描述形式的相似性计算次序以及增量计算的方式,对邻接树的两个根节点之间的相似度利用公式(6)计算,除了两个根节点之外的相似度用公式(7)计算;其计算步骤如算法1所示。
算法1:SimCal(Tx,Ty)
输入:dx的邻接树Tx,dy的邻接树Ty
输出:dx和dy的任意两个表达形式之间的相似度
步骤:
1)Begin
2)计算sim(dx 0,dy 0);       //dx 0和dy 0分别为Tx和Ty的根节点
3)For(dx的每一种描述形式dy j)
4)sim(dx 0,dy p)通过公式(3)求解sim(dx 0,dy j);//dx p为dy j的父节点
5)Endfor
6)For(dx的每一种描述形式dx i)
7)For(dy的每一种描述形式dy j)
8)sim(dx i,dy j)可以通过sim(dx p,dy j)求解;    //dx p为dx i的父节点
9)Endfor
10)Endfor
11)End
在算法1中,没有必要为每一条数据都建立一个邻接树,因为含有相同个数的半相关词条的数据可以共享同一棵邻接树。如果dy p为dy j的父节点,s为在dy p基础上追加到dy j中的一个主题半相关词条,则 sim ( d x i , d y p ) = p / q (其中,p为集合dx i与dy p交集的大小,q为集合dx i与dy p并集的大小),那么,公式(7)给出了递增计算相似度的公式。
sim ( d x i , d y j ) = ( p + 1 ) / q , s ∈ d x i p / ( q + 1 ) , s ∉ d x i - - - ( 7 )
由于参加相似性计算的“描述形式”是带有概率的,那么,由这两种“描述形式”计算的得到的相似性也是带有概率的,这个概率既是这两种“描述形式”的概率的乘积。接下来,将这两个数据的所有描述形式的相似度大于某一阈值θsim的相似度的概率相加,θsim∈(0.3,0.7),该概率和表示了这两个数据具有相同主题的概率。这个概率被称之为“直接相关概率”。至此,数据空间内任意两个数据dx和dy的直接相关概率已经被求出,数据空间中的其他数据间的直接相关概率同样可以通过我们上面提到的方法求解。最后,将任意两个数据的直接相关概率存储在一个N×N大小的矩阵M中,其中N代表数据空间内数据的数量。
步骤5基于M构建聚类模型Mc
M仅仅存储了任意两个数据之间的直接相似性联系(direct relationship),而没有考虑他们之间可能存在的间接相似性联系(indirect relationship)。如果考虑数据间的间接联系,将使数据之间的相似性表达更为准确。对于存储矩阵M,可以将其中的相似性信息以图的形式表示出来。假设G={V,E}是一个完全图(complete graph),其中V是节点集合,代表数据空间中的所有数据;E是节点间边的集合,代表任意两个数据对象间具有直接相似性联系的概率。如果考虑数据间的间接相似性联系,则计算图G中两节点的相似性概率需要考虑这两个节点中间含有多个中间节点的情况。下面,通过一些定义来介绍要构建的聚类模型。
定义1.n-连接路径(n-connection path)。设v0,v1,...,vn∈V,e1,e2,...,en ∈E,其中ei(1≤i≤n)的端点为vi-1和vi,这时,一条n-连接路径pathn(v0,vn)就是由v0,e1,v1,...,en,vn构成的一个长度为n的有序序列,其中v0是第一个顶点,vn是最后一个顶点,且v0≠vn
定义2.n-连接概率(n-connection probability)。pathn(v0,vn)上的每条边ei,p(ei)为边ei的概率,. p = Π i = 1 n p ( e i ) , 则p称作n-连接概率。
定义3.n-连接失败概率矩阵Mn。Mn的每一个元素为 M ij n = Σ k = 1 P N - 2 n ( 1 - p l ) , 其中,pl为节点i和j的第l种n-连接概率,N为数据空间中数据的个数。n-连接失败概率矩阵存储的是任意两条数据在所有n-连接路径都失败的情况下的概率。
定义4.全关系矩阵Mc(complete-connection matrix)。Mc的每一个元素 M ij c = 1 - Π n = 1 N - 1 M ij n , 其中,Mij n为节点i和j的n-连接失败概率。
由于Mc记录了任意两个节点将所连接这两个节点的路径都考虑的情况下的相似性概率,因此,任意两个节点间的相似性概率可以用矩阵Mc内的元素表示。矩阵Mc即为我们构建出来的聚类模型,矩阵中的每一个元素表示了对应的两个数据间的主题相似性概率。这个主题相似概率不仅考虑了数据间的直接相关概率,而且也考虑了数据间通过其他对象产生关系的概率。根据Mc,并利用已知的聚类算法,如编网聚类算法,就可以实现基于主题词条的相似性聚类。本发明的一种优选方式,当n-连接概率的n的取值为2时,聚类效果最好。
步骤6基于聚类模型Mc的聚类方法
基于聚类模型Mc采用聚类方法,对数据进行聚类。我们的模型适用于多种不同的聚类方法,这里我们只选取几种代表性的聚类方法加以阐述。此模型可以采用一种名为“编网”法的聚类算法,对数据进行聚类。将矩阵Mc中元素值大于某一阈值θpar的元素值置为“·”,将小于这一阈值的元素值修改为null。将取值为“·”的元素称为“结点”。从结点出发向对角线引经线(竖线)和纬线(横线)。编网法就是在结点处将经过的经、纬线捆绑起来以实现分类,而通过打结能相互连接的点属于同一类。
其他的聚类方法,例如K-means方法仍然可以应用于这个模型。我们可以随机的选取若干个数据点,即将模型Mc中的每一行元素数值作为一个高维向量。将这些高维向量作为K-means方法的起始点,以这个数据点与其他所有数据的相似概率作为迭代空间。而后按照K-means的步骤进行聚类分析,得到聚类结果。
本发明的有益效果:
这里主要通过实验测试提出的概率模型在聚类方面的应用效果。
(1)对聚类精度的评价
实验中,应用提出的PTSM并借助编网聚类算法对数据空间中的数据进行聚类。为验证聚类精度,如F-measure、Entropy以及NMI等指标,将PTSM编网算法同经典的K-means和CP聚类算法进行了比较。图2~4从三种不同的测试角度分别考察了这些算法的聚类精度。从图2~4中,可以看出基于PTSM的聚类算法的聚类精度要好于其他两种经典算法。PTSM的精度之所以会高出其他算法,首先是因为模型充分考虑了词条与数据主题之间的相似性,并且对那些重要的词条赋予了较高的权重,这使得数据的主题表达更加准确。另一个原因是,当计算任意两个数据对象间相似性的概率时,不仅考虑了直接相似性联系,而且还考虑了间接相似性联系,从而使得数据间的相似性概率计算更为准确。CP算法面向的数据主要是文档数据,类型单一。在不考虑数据类型的情况下,CP算法的聚类精度介于PTSM编网算法和K-means之间。CP算法好于K-means,是因为CP也考虑了聚类过程中的概率问题,比如词条属于某一个词条簇的概率以及文档属于某一个文档簇的概率。而CP算法不如PTSM编网算法,是因为CP算法没有考虑数据之间更为复杂的间接相似性联系问题。对于K-means而言,它仅仅在词条向量空间内比较两条数据的相似性,并且只是一种能够得到局部最优的聚类方法,因此,其聚类效果是最差的。
(2)对聚类执行时间的评价
图5显示了这三种算法的执行时间,从图5中可以看出PTSM编网算法的执行时间远远小于K-means,而与CP的执行时间相似。这是因为,K-means是一种迭代方法,这种迭代方法往往非常费时,而PTSM编网算法由于忽略了大量不重要的词条,起到了降维(reduction ofdimensionality)作用,从而使得PTSM编网算法的执行时间远远小于K-means。相比之下,由于PTSM编网算法与CP算法都是利用矩阵作为处理聚类的手段,因此在执行时间上两者相差无几。
(3)对聚类敏感度的评价
首先,评价了模型参数的设置对PTSM及聚类效果的影响。图6(a)表明了参数α和θsim的设置对模型的影响。用F-measure作为衡量聚类效果的标准。从图6(a)可以看出,当θsim=0.3时,PTSM的聚类效果最佳。当然,θsim的最佳设置取决于数据集中数据的特性。通过大量的试验,我们发现通常情况下,θsim∈(0.3,0.7)时,PTSM的聚类效果较好。在对α进行测试时,当α的值从0.9下滑至0.3时,聚类的效果不断提升。但是当α<0.3时,聚类的效果变得越来越差。这是因为当新的词条被加入到主题相关词集合中时,数据的主题会被描述的越来越精确,因此聚类效果越来越好。但是,随着词条的不断加入,会导致大量与主题无关的词条被加入到主题相关词条集合中,而这些词条原本属于主题半相关词条或主题不相关词条,从而使聚类效果下降。因此,我们认为α=0.3对于PTSM而言是比较合适的。
其次,评价连接失败概率矩阵中,链接路径的长度n对聚类效果的影响。n的取值不仅仅影响聚类效果,而且还会影响聚类精度。n越大,PTSM的复杂度越高,即需要更多的聚类计算时间,但PTSM的聚类精度被提高了。相反,n越小,聚类时间越少,但聚类效果更差,图6(b)证明了上述结论。当n增加时,PTSM的聚类效果越来越好。然而,当n>2后,PTSM聚类精度的提高越来越不明显,并且趋于稳定。因此,n的取值为2对模型较为合适。
附图说明
图1本发明的聚类方法流程图,
图2本发明的一种实施例:PTSM编网算法、K-means和CP聚类算法的调和率比较图;
图3本发明的一种实施例:PTSM编网算法、K-means和CP聚类算法的熵比较图;
图4本发明的一种实施例:PTSM编网算法、K-means和CP聚类算法的规范化互信息比较图。
图5本发明的一种实施例:PTSM编网算法、K-means和CP聚类算法的执行时间比较图;
图6(a)本发明的聚类模型Mc参数的取值α和θsim的设置对模型的影响图;
图6(b)本发明的评价连接失败概率矩阵中,链接路径的长度n对三种聚类方法的聚类效果比较图;
图7(a)本发明的一个数据词条按照权重大小进行排序示意图;
图7(b)本发明的另一个数据词条按照权重大小进行排序示意图;
图8本发明的一种实施例的邻接树示意图;
图9本发明的一种实施例的数据空间中对象间的直接与间接关系示意图;
图10(a)本发明中的一种实施例:编网法聚类法中数据在模型Mc中的表示示意图;
(b)本发明中的一种实施例:编网法聚类法选取“结点”元素的示意图;
(c)本发明中的一种实施例:编网法聚类法的结果示意图。
具体实施方式
本发明的一个实施例:
(1)定义主题词条的类型,词条权重排序
假设d1和d2为数据空间中的两个数据,T(d1)和T(d2)分别表示每个数据包含的词条项,此处T(d1)={数据,索引,搜索,精度,会议,聚类,查找,相似,摘要,包含,版本},T(d2)={数据,搜索,精度,会议,图像,测量,不确定}。T(d1)和T(d2)中每个词条都被赋予了一个权重值,并按照权重值大小从高到低排序,如图7(a)和(b)所示。
(2)用概率表示数据主题
在d1中,取“数据”、“索引”、“搜索”和“精度”为主题相关词条,“会议”和“聚类”为主题半相关词条,其余是主题不相关词条。“会议”和“聚类”的权重分别为4和3,而d1中词条的最大权重为10,那么,“会议”和“聚类”的相关概率分别为 p 1 5 = 4 / 10 = 0.4 , p 1 6 = 3 / 10 = 0.3 . 而在d2中,“数据”,“搜索”和“精度”是主题相关词条,“聚类”是主题半相关词条,其余是主题不相关词条,而“聚类”相对于d2的主题相关概率为 p 2 6 = 0.5 . 这样,我们将主题相关词条和主题半相关词条加入到描述d的主题的词条集合中,其中主题半相关词条按照主题相关概率加入,而主题不相关词条被忽略。因此,d1的主题可以被表示为以下4种形式,d2可被表示为两种形式,且每种表达方式都有一个概率值。
Figure A20081022904300132
P ( d 1 1 ) = ( 1 - p 1 5 ) * ( 1 - p 1 6 ) = ( 1 - 0.4 ) * ( 1 - 0.3 ) = 0.42
Figure A20081022904300134
P ( d 1 2 ) = p 1 5 * ( 1 - p 1 6 ) = 0.4 * ( 1 - 0.3 ) = 0.28
P ( d 1 3 ) = ( 1 - p 1 5 ) * p 1 6 = ( 1 - 0.4 ) * 0.3 = 0.18
P ( d 1 4 ) = p 1 5 * p 1 6 = 0.4 * 0.3 = 0.12
Figure A200810229043001310
P ( d 2 1 ) = ( 1 - p 2 6 ) = 1 - 0.5 = 0.5
Figure A200810229043001312
P ( d 2 2 ) = p 2 6 = 0.5
(3)构建数据的主题词条概率相似性矩阵M
在计算d1和d2的主题词条相似性概率时,要先建立它们的邻接树。首先,给数据主题的每一种表达方式建立位图。在集合d1 1中,由于没有出现主题半相关词条,因此位图为00;以此类推,d1 2、d1 3和d1 4的位图分别为10(比d1 1增加了一个主题半相关词条“会议”)、01(比d1 1增加了一个主题半相关词条“聚类”)和11(比d1 1增加了两个主题半相关词条,即“会议”和“聚类”),而d2的位图分别为0(没出现主题半相关词条“聚类”和1(比d2 1增加了一个主题半相关词条“聚类”)。然后,以00作为d1的根结点,将与它只有一个bit位不同的位图集合,即01和10作为它的儿子节点,重复执行上述过程,直到d1的所有位图都被插入到树中,如图8左侧所示。对于d2,执行上述相同操作,对应的树如图8右侧所示。于是,在图8中,存在以00和0为根节点的两棵树,分别对应着d1和d2。树中每个节点表示数据的一种主题词条表现形式,节点中的编号对应着该形式的位图。相邻节点间的有向实线边表示在一个数据对象中具有的父子关系的主题词条表现形式,比如d1中的01位图(对应着d1 3)比其00位图(对应着d1 1)多一个主题半相关词条“聚类”。箭头虚线则表示需要计算两个数据间一对主题词条表达形式间的相似度。
在图8中,d1和d2的主题词条表示集合的位图的邻接树在计算相似度时,首先计算d1(00)和d2(0)的相似度,即d1 1和d2 1的相似度。根据相似性计算的定义,即公式(2),求得sim(d1(00),d2(0))=3/4,而sim(d1(01),d2(0))只需在已计算过的sim(d1(00),d2(0))之上进行修改就能得到。例如,
Figure A200810229043001314
Figure A200810229043001315
相比只多出一个半相关词条“聚类”,而 s ∉ d 2 1 , 换句话说,“聚类”不是集合
Figure A200810229043001318
中的词条,因此,根据公式(7)推导出sim(d1(01),d2(0))=3/(4+1)=3/5。同理,sim(d1(10),d2(0))=3/(4+1)=3/5,sim(d1(11),d2(0))=3/(5+1)=3/6。而d1 1和d2 1基于主题词条的相似性概率为 P ( d 1 1 ) * P ( d 2 1 ) = 0.42 * 0.5 = 0.21 , 其他形式间的概率计算以此类推。接下来,计算d2 2与d1的各种主题表达方式之间的相似性。由于d2(0)是d2(1)的父节点,所以有关于d2(1)的相似度都可以通过d2(0)推导出来。例如,sim(d1(01),d2(1))=(3+1)/4=4/4。类似地,sim(d1(00)0,d2(1))=3/(4+1)=3/5,sim(d1(10),d2(1))=3/(5+1)=3/6,sim(d1(11),d2(1))=(3+1)/6=4/6。至此,d1和d2的每种主题表达方式都已经通过这种增量计算方式得到。在表1中,我们详细列出了这些相似度的数值以及它们的概率。
表1d1和d2的各种主题词条表达形式间的相似度及概率
Figure A20081022904300142
如果设相似度阈值θsim=0.65,那么我们将大于该阈值的概率值相加求和来作为d1和d2的主题相似概率。这样, P ( d 1 , d 2 ) = P ( d 1 1 , d 2 1 ) + P ( d 1 2 , d 2 2 ) + P ( d 1 4 , d 2 2 ) = 0.21 + 0.14 + 0.06 = 0.41 . 最终求得的矩阵M如公式(8)所示。
M = 1 0.41 0.41 1 - - - ( 8 )
(4)基于M构建聚类模型
M是在不考虑其他对象情况下,d1和d2在0.41概率下是主题相似的,但该概率只能表明d1和d2间较为简单的直接联系,如果存在另外一个对象dx,三者的关系就比较复杂了,图9给出了它们之间的一种间接联系。
在图9中,任意两个数据间的相似性概率已被求出,P(d,dx)=0.3,P(dx,d’)=0.5。那么,在仅考虑没有中间节点的情况下,d1和d2的1-连接失败概率为1-P(d,dx)=0.59。在含有一个中间节点的情况下,d1和d2的2-连接失败概率为1-P(d1,dx)*P(dx,d2)=0.85。上述已论及,含有一个中间节点是较好的情况,因此在该情况下,d1和d2的相似性概率为1-(1-P(d1,dx))*(1-P(d1,dx)*P(dx,d2))=1-0.59*0.85=0.4985。在该例中,数据空间中只有3个数据,依据上述方法,可以计算出这3个数据间所有的1-连接失败概率矩阵M1、2-连接失败概率矩阵M2和全概率矩阵Mc,公式(9)~(11)分别给出了最终结果。
M 1 = 1 - 1 1 - 0.3 1 - 0.41 1 - 0.3 1 - 1 1 - 0.5 1 - 0.41 1 - 0.5 1 - 1 = 0 0.7 0.59 0.7 0 0.5 0.59 0 . 5 0 - - - ( 9 )
M 2 = 1 - 1 1 - 0 . 41 × 0.5 1 - 0 . 3 × 0.5 1 - 0 . 41 × 0.5 1 - 1 1 - 0 . 41 × 0.3 1 - 0 . 3 × 0.5 1 - 0 . 41 × 0.3 1 - 1 = 0 0.795 0.85 0 . 85 0 0.877 0.4985 0 . 877 0 - - - ( 10 )
M c = 1 - 0 × 0 1 - 0 . 7 × 0.795 1 - 0 . 85 × 0.59 1 - 0.7 × 0.795 1 - 0 × 0 1 - 0.5 × 0.877 1 - 0 . 85 × 0.59 1 - 0.5 × 0.877 1 - 0 × 0 = 1 0.4435 0.4985 0 . 4435 1 0.5615 0.4985 0 . 5615 1 - - - ( 11 )
(5)基于聚类模型的聚类方法
这里我们只介绍基于编网法的聚类实例。假设由数据空间中的数据构建出的矩阵Mc,由图10(a)所示。我们取阈值θpar=0.5。将元素值大于0.5的元素置为“·”,如图10(b)所示。从“结点”处引出经、纬线,将落在从同一个“结点”出发的经、纬线上的元素放入同一个聚类中,如图10(c)所示。这样1、2、3三个元素被聚为两个类:{1},{2,3}。

Claims (5)

1、一种基于主题词条的跨类型数据的概率聚类方法,其特征在于该方法包括以下步骤:
(1)定义主题词条的类型;
对一个跨类型数据d,将其表示为词条的集合,对每个词条赋权重后,按照权重大小分为三类词条:主题相关词条r、主题半相关词条s和主题不相关词条u;
(2)对每类词条分配概率;
主题相关词条的主题概率为1,主题不相关词条的主题概率为0,主题半相关词条的主题概率p(si)=wsi/wmax,其中wsi为半相关词条si的权重,wmax为跨类型数据d中所有词条的权重的最大值;
(3)用概率表示数据主题;
将跨类型数据d表示成主题相关词条r的一个确定集合,记作d(r1,r2,...,rn),其中ri表示第i个主题相关词条,再将所有的主题半相关词条s追加到跨类型数据d的确定集合中,跨类型数据d的确定集合在加入主题半相关词条s后,转换成多种描述形式,而每一种描述形式有一个概率 P ( d m ) = Π i = 1 k P i , 其中k表示一条数据中主题半相关词条的数量,m=1,2,...,2k,dm是d的第m个描述形式,如果si出现在dm中,则Pi=p(si),否则Pi=1-p(si);
(4)构建数据的主题词条概率相似性矩阵M;
对步骤(3)中跨类型数据d的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值θsim的相似性的概率相加,θsim∈(0.3,0.7),该概率和为直接相关概率,将任意两个数据的直接相关概率存储在矩阵M中;
(5)基于矩阵M构建聚类模型Mc
聚类模型Mc的每一个元素 M ij c = 1 - Π n = 1 N - 1 M ij n , 其中,Mij n为节点i和j的n-连接失败概率, M ij n = Σ k = 1 P N - 2 n ( 1 - p l ) , 其中,N为数据空间内数据的个数,pl为节点i和j的第l种n-连接概率,对于任意一条n连接路径上的每一条边ei,p(ei)为边ei的概率, p k = Π i = 1 n p ( e i ) ;
(6)基于聚类模型Mc的聚类方法
基于聚类模型Mc采用聚类方法,对数据进行聚类。
2、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法,其特征在于步骤(1)中所述的定义主题词条的类型,步骤如下:
对于任意一个跨类型数据d,将其表示为词条的集合d(t1,t2,...tn),其中ti(1≤i≤n)表示跨类型数据d的第i个词条,按下面的公式给集合中的每一个词条赋予权重,如公式(1)-(4)所示:
tf(t)=1+ln(1+ln(1+f(t))    (1)
idf ( t ) = ln N + 1 N t + 1 - - - ( 2 )
ndl = ( 1 - s ) + s × tl d avg tl - - - ( 3 )
SCORE ( t ) = tf ( t ) × idf ( t ) ndl - - - ( 4 )
其中,f(t)表示词条t在跨类型数据d中出现的频率,N和Nt分别表示数据空间内数据的总量以及含有词条t的数据的数量,tld表示跨类型数据d中词条的总量,avgtl表示所有数据内词条数量的平均数,而s是一个参数,公式SCORE(t)用于计算词条的权重,按照权重大小分为三类词条:主题相关词条、主题半相关词条和主题不相关词条,分别用r、s和u表示;权重大于某个阈值θs的词条称为主题相关词条;权重小于某个阈值θu的词条称为主题不相关词条;权重介于θs和θu之间的词条称为主题半相关词条;此处,θs=αθmax,其中θmax为某一个跨类型数据d中权重最大的词条的权重,而α是一个参数,α在0.2至0.5之间;在确定了主题相关词条r之后,对剩余的词条项按权重大小进行排序,令w[i]表示排名第i位的词条的权重值,寻求相邻两个权值差最大的词条所在位置k,并将位置k所对应的词条的权值作为θu的值,即k满足公式(5),其中m是除主题相关词条外的词条个数,θu=w[k]
w[k]-w[k+1]=max1≤i≤m-1(w[i]-w[i+1])    (5)。
3、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法,其特征在于步骤(4)中所述的构建数据的主题词条概率相似性矩阵M,步骤如下:
dx i是dx的第i种描述形式,dy j是dy的第j种描述形式,首先,针对跨类型数据d的每一种描述形式给出对应的位图,该位图的每一位对应跨类型数据d的每一个主题半相关词条;如果该主题半相关词条没有出现在这个描述形式中,对应的比特位为1,否则为0;
其次为每个数据的所有描述形式建立一个邻接树,构建方法如下:将比特位全为0的描述形式作为树的根节点;其比特位与当前节点仅有一位不同的描述形式作为当前节点的子节点;
按照广度优先遍历方式,遍历当前的邻接树;直到所有的节点都被插入到树中;
对邻接树的两个根节点之间的相似度利用公式(6)计算,除了两个根节点之外的相似度用公式(7)计算;
sim ( d x i , d y j ) = | d x i ∩ d y j | | d x i ∪ d y j | - - - ( 6 )
dy p为dy j的父节点,s为在dy p基础上追加到dy j中的一个主题半相关词条,则 sim ( d x i , d y p ) = p / q , 其中,p为集合dx i与dy p交集的大小,q为集合dx i与dy p并集的大小,那么,公式(7)给出了递增计算相似度的公式:
sim ( d x i , d y j ) = ( p + 1 ) / q , s ∈ d x i p / ( q + 1 ) , s ∉ d x i - - - ( 7 )
将相似度大于某一阈值θsim的描述形式的概率相加,θsim∈(0.3,0.7),该概率和为直接相关概率,将任意两个数据的直接相关概率存储在一个N×N大小的矩阵M中,其中N代表数据空间内数据的数量。
4、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法,其特征在于步骤(5)中所述的n-连接概率的n的取值为2。
5、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法,其特征在于步骤(6)中所述的基于聚类模型Mc的聚类方法,采用编网法的聚类方法或者K-means方法的聚类方法,其中编网法的聚类方法的步骤如下:将矩阵Mc中元素值大于某一阈值θpar的元素值置为“·”,将小于这一阈值的元素值修改为null,将取值为“·”的元素称为结点,从结点出发向对角线引经线和纬线,编网法就是在结点处将经过的经、纬线捆绑起来以实现分类,而通过打结能相互连接的点属于同一类;
其中K-means方法的聚类方法的步骤如下:随机的选取若干个数据点,即将模型Mc中的每一行元素数值作为一个高维向量,将这些高维向量作为K-means方法的起始点,以这个数据点与其他所有数据的相似概率作为迭代空间,而后按照K-means的步骤进行聚类分析,得到聚类结果。
CN2008102290431A 2008-11-26 2008-11-26 一种基于主题词条的跨类型数据的概率聚类方法 Expired - Fee Related CN101408901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102290431A CN101408901B (zh) 2008-11-26 2008-11-26 一种基于主题词条的跨类型数据的概率聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102290431A CN101408901B (zh) 2008-11-26 2008-11-26 一种基于主题词条的跨类型数据的概率聚类方法

Publications (2)

Publication Number Publication Date
CN101408901A true CN101408901A (zh) 2009-04-15
CN101408901B CN101408901B (zh) 2010-07-14

Family

ID=40571913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102290431A Expired - Fee Related CN101408901B (zh) 2008-11-26 2008-11-26 一种基于主题词条的跨类型数据的概率聚类方法

Country Status (1)

Country Link
CN (1) CN101408901B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102202012A (zh) * 2011-05-30 2011-09-28 中国人民解放军总参谋部第五十四研究所 通信网络的社团划分方法与系统
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106021531A (zh) * 2016-05-25 2016-10-12 北京云知声信息技术有限公司 通过语音实现图书查询的方法、系统及装置
CN106055699A (zh) * 2016-06-15 2016-10-26 腾讯科技(深圳)有限公司 一种特征聚类的方法及装置
CN106649551A (zh) * 2016-11-07 2017-05-10 大连工业大学 基于cbr有限元模板的检索方法
WO2019042060A1 (zh) * 2017-08-30 2019-03-07 腾讯科技(深圳)有限公司 成员角色确定方法、装置及存储介质
CN110535131A (zh) * 2019-09-10 2019-12-03 国家电网有限公司 基于场景分析和安全约束经济调度的分层消纳预警方法
CN111027016A (zh) * 2019-11-08 2020-04-17 宁波大学 一种基于编网算法的岩体结构面优势产状聚类分析方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN102654881B (zh) * 2011-03-03 2014-10-22 富士通株式会社 用于名称消岐聚类的装置和方法
CN102202012A (zh) * 2011-05-30 2011-09-28 中国人民解放军总参谋部第五十四研究所 通信网络的社团划分方法与系统
CN102202012B (zh) * 2011-05-30 2015-01-14 中国人民解放军总参谋部第五十四研究所 通信网络的社团划分方法与系统
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106021531A (zh) * 2016-05-25 2016-10-12 北京云知声信息技术有限公司 通过语音实现图书查询的方法、系统及装置
CN106055699A (zh) * 2016-06-15 2016-10-26 腾讯科技(深圳)有限公司 一种特征聚类的方法及装置
CN106055699B (zh) * 2016-06-15 2018-07-06 腾讯科技(深圳)有限公司 一种特征聚类的方法及装置
CN106649551A (zh) * 2016-11-07 2017-05-10 大连工业大学 基于cbr有限元模板的检索方法
WO2019042060A1 (zh) * 2017-08-30 2019-03-07 腾讯科技(深圳)有限公司 成员角色确定方法、装置及存储介质
CN110535131A (zh) * 2019-09-10 2019-12-03 国家电网有限公司 基于场景分析和安全约束经济调度的分层消纳预警方法
CN111027016A (zh) * 2019-11-08 2020-04-17 宁波大学 一种基于编网算法的岩体结构面优势产状聚类分析方法
CN111027016B (zh) * 2019-11-08 2023-05-12 宁波大学 一种基于编网算法的岩体结构面优势产状聚类分析方法

Also Published As

Publication number Publication date
CN101408901B (zh) 2010-07-14

Similar Documents

Publication Publication Date Title
CN101408901B (zh) 一种基于主题词条的跨类型数据的概率聚类方法
Gal Uncertain schema matching
Amelio et al. Correction for closeness: Adjusting normalized mutual information measure for clustering comparison
Hammouda et al. Hierarchically distributed peer-to-peer document clustering and cluster summarization
Gottlob et al. A comparison of structural CSP decomposition methods
US8880451B2 (en) Fast algorithm for mining high utility itemsets
CN106960390A (zh) 基于节点聚合度的重叠社区划分方法
Jin et al. Toward understanding and evaluating structural node embeddings
Gupte et al. Role discovery in graphs using global features: Algorithms, applications and a novel evaluation strategy
CN103559320A (zh) 对异质网络中对象进行排序的方法
Rastelli et al. Choosing the number of groups in a latent stochastic blockmodel for dynamic networks
Bökler Output-sensitive complexity of multiobjective combinatorial optimization with an application to the multiobjective shortest path problem
US7472130B2 (en) Select indexing in merged inverse query evaluations
Knop et al. Parameterized complexity of fair vertex evaluation problems
Queyroi et al. Assessing the quality of multilevel graph clustering
Wang et al. Mining maximal patterns based on improved FP-tree and array technique
CN106294652A (zh) web页面信息搜索方法
Tanbeer et al. DIFSoN: discovering influential friends from social networks
Cruz et al. Information integration for detecting communities in attributed graphs
CN106168982A (zh) 用于特定主题的数据检索方法
Nguyen et al. CARIM: An Efficient Algorithm for Mining Class-Association Rules with Interestingness Measures.
CN113505600B (zh) 一种基于语义概念空间的工业产业链的分布式索引方法
Delest et al. A quality measure for multi-level community structure
Yu et al. Mining long high utility itemsets in transaction databases
Liang et al. Mining social ties beyond homophily

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20090415

Assignee: Shenyang bestzone Huaxin Technology Co. Ltd.

Assignor: Northeastern University

Contract record no.: 2013210000071

Denomination of invention: Probability clustering method of cross-categorical data based on key word

Granted publication date: 20100714

License type: Common License

Record date: 20130710

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100714

Termination date: 20151126