CN101408901A

CN101408901A - 一种基于主题词条的跨类型数据的概率聚类方法

Info

Publication number: CN101408901A
Application number: CNA2008102290431A
Authority: CN
Inventors: 王国仁; 于亚新; 王波涛; 丁国辉; 王斌; 赵相国; 赵宇海; 信俊昌; 乔百友; 韩东红; 张恩德; 李淼
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2009-04-15
Anticipated expiration: 2028-11-26
Also published as: CN101408901B

Abstract

一种基于主题词条的跨类型数据的概率聚类方法，属于数据库领域，包括以下步骤：(1)定义主题词条的类型；将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条；(2)对每类词条分配概率；(3)用概率表示数据主题；(4)构建数据的主题词条概率相似性矩阵M；对步骤(3)中跨类型数据的任意两个数据d_x和d_y，计算d_x和d_y任意两种描述形式的相似度，将相似度大于某一阈值的相似性的概率相加，将任意两个数据的直接相关概率存储在矩阵M中；(5)基于矩阵M构建聚类模型M^c；(6)基于聚类模型M^c的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类，提高了数据聚类的精度，减少了聚类时间。

Description

一种基于主题词条的跨类型数据的概率聚类方法

技术领域

本发明属于数据库领域，特别涉及一种基于主题词条的跨类型数据的概率聚类方法。

背景技术

在过去的几十年里，传统的关系数据库管理系统发挥了非常重要的作用。可是，随着计算机应用技术，特别是Web信息技术的不断发展，当今的数据呈现出“海量”和“数据无处不在”这两大特点，而且数据特征纷繁复杂。因此传统的某种数据库管理系统已经无法满足这样一种数据库管理的需求，而且当今的很多数据或信息根本就没有存储在数据库管理系统中，正如Serge Atiteboul等在他们发表在ACM通信(48卷第5期)上的报告和Homman在DASFAA2007的大会报告中指出的那样，目前只有20％左右的数据或信息被存储在数据库中。这就意味着传统的数据库系统已经无法满足当今数据管理的需求，于是数据空间这一概念应运而生。

在数据空间中，需要管理跨类型(cross-type)数据，即从类型上划分，包含结构化数据(structured data)、半结构化数据(semi-structured data)和无结构化数据(unstructured data)。在结构化数据中，主要有数据库表，Excel表以及从各种无结构化和半结构化数据中提取出来的结构信息等；在半结构化数据中，主要指XML数据、word文档、ppt文档、Latex数据以及个人E-mail数据等；在无结构化数据中，主要包括txt文档、pdf文档、ps文档以及图像等。如何在跨类型数据中根据数据语义进行聚类，以提供给用户高级语义层面的查询是一个亟待解决的问题。

目前，针对数据的聚类问题已提出很多聚类算法。如基于划分的K-means方法，基于密度的DBSCAN方法。但是现有的聚类算法没有考虑到聚类过程中的不确定性(uncertainty)问题。同时，以往的这些聚类方法在处理数据的相似性关系时，处理手段过于简单，例如：K-means方法仅仅是将数据在词条空间下的距离作为数据间的相似度。由于以上原因，基于概率的聚类方法和考虑语义信息的基于数据主题的聚类方法得到了广泛应用。其中，基于数据主题的聚类方法是实现聚类的方法之一，而用词条表示数据主题又是相似性计算的前提，因此首先需要解决词条对数据主题的描述问题。其次，由于词条与主题之间的描述关系具有不确定性，即一个词条可以描述不同的主题，而一个主题也可以由不同的词条集合来表示，这就导致了数据间基于不确定主题词条的聚类问题。此外，数据间基于主题词条的相似关系，既包含直接相似关系(direct similarity relationship)，也包含间接相似关系(indirect similarityrelationship)，如何利用这些相似关系来更全面地聚类数据是需要解决的另一个关键问题。

发明内容

针对现有的数据聚类方法没有考虑到聚类过程中的不确定性(uncertainty)问题。同时，以往的这些聚类方法在处理数据的相似性关系时，处理手段过于简单，本发明提供了一种基于主题词条的跨类型数据的概率聚类方法，利用与主题相关的词条项的相似性来对数据空间中的跨类型数据进行聚类，该模型称作PTSM(Probabilistic Term Similarity Model)。本发明的具体步骤如下：

步骤1定义主题词条的类型

对于任意一个跨类型数据d，将其表示为词条的集合d(t¹，t²，...tⁿ)，其中tⁱ(1≤i≤n)表示数据d的第i个词条。按照TF□IDF原则给集合中的每一个词条赋予权重。TF□IDF公式如公式(1)-(4)所示。

tf(t)＝1+ln(1+ln(1+f(t)) (1)

idf (t) = \ln \frac{N + 1}{N_{t} + 1} - - - (2)

ndl = (1 - s) + s \times \frac{{tl}_{d}}{{avg}_{tl}} - - - (3)

SCORE (t) = \frac{tf (t) \times idf (t)}{ndl} - - - (4)

其中，f(t)表示词条t在数据d中出现的频率，N和N_t分别表示数据空间内数据的总量以及含有词条t的数据的数量，tl_d表示数据d中词条的总量，avg_tl表示所有数据内词条数量的平均数，而s是一个参数，一般取值为0.2。公式SCORE(t)用于计算词条的权重，它从三方面考虑：1)将较小的权重值分赋给在较多数据中出现的词条；2)将较大的权重值赋给在一个数据中多次出现的词条；3)从数据集合的整体特性考虑词条的权重，而不是从某一个数据出发。

按照上面的权重公式对词条分配权重后，能够保证具有较大权重的词条能较好地将数据区分开，从而达到理想的聚类效果。在给每个词条赋权重后，按照权重大小分为三类词条：主题相关词条(related term)、主题半相关词条(semi-related term)和主题不相关词条(unrelatedterm)，分别用r、s和u表示。权重大于某个阈值θ_s的词条称为主题相关词条；权重小于某个阈值θ_u的词条称为主题不相关词条；权重介于θ_s和θ_u之间的词条称为主题半相关词条。此处，θ_s＝αθ_max，其中θ_max为某一个数据d中权重最大的词条的TF□IDF权重，而α是一个参数，取值在0到1之间，我们通过实验确定α的取值，α在0.2至0.5之间。θ_u则采用一种启发式原则来确定。在确定了主题相关词条r之后，对剩余的词条项按权重大小进行排序。如果令w[i]表示排名第i位的词条的权重值，则启发式思想是：寻求相邻两个权值差最大的词条所在位置k，并将位置k所对应的词条的权值作为θ_u的值，即k满足公式(5)，其中m表示剩余词条(即除主题相关词条外的词条)个数，这时θ_u＝w[k]。

w[k]-w[k+1]＝max_1≤i≤m-1(w[i]-w[i+1]) (5)

步骤2给主题词条分配概率

给上述每类词条t赋予一个概率值p，则p(t)称作词条t的主题相关概率。p(t)表示词条t能够以概率p表示数据d的主题。rⁱ的主题相关概率p(rⁱ)＝1，uⁱ的主题相关概率p(uⁱ)＝0，而sⁱ的主题相关概率p(sⁱ)＝w_si/w_max，其中w_si为半相关词条sⁱ的权重，w_max为d中所有词条的权重的最大值，p(sⁱ)介于(0，1)之间。

步骤3用概率表示数据主题

根据步骤1和2，首先，将跨类型数据d表示成主题相关词条r的一个确定集合，记作d(r¹，r²，...，rⁿ)，其中rⁱ表示第i个相关主题词条。然后，再将所有的主题半相关词条s追加到d的确定集合中。我们称这样的每一个集合为跨类型数据d的一种“描述形式”。由于任意一个sⁱ是以一定的概率来表示数据的主题，那么数据的一个确定的表示集合就演化成多个带概率值的“描述形式”。我们希望这种“描述形式”能够完全表示数据的主题，而主题半相关词条只能以一定的概率表示数据的主题，因此，每一个主题半相关词条有可能别加入到数据的的集合中，从而产生一个数据的描述形式，又或者不会被加入到数据的集合中，从而产生另一种“描述形式”。而半相关词条被加入到集合中的概率既是p(sⁱ)，不被加入到集合中的概率为1-p(sⁱ)。换句话说，“描述形式”是不确定的，且具有一定的概率，概率值依赖于每个集合中的主题半相关词条sⁱ，即

P (d_{m}) = Π_{i = 1}^{jk} P_{i},

其中k表示一个数据中主题半相关词条的数量，m＝1，2，...，2^k，d_m是d的第m个“描述形式”中。如果某个sⁱ出现在d_m中，则P_i＝p(sⁱ)，否则P_i＝1-p(sⁱ)。对于任意一个数据，假设它有m个主题半相关词条，那么存在2^m个“描述形式”表示它的主题。例如，数据d有2个半相关词条s¹和s²，其描述主题的概率分别为p(s¹)和p(s²)，那么d能够被表示为4种集合形式：d₁(r¹，r²，...，rⁿ)，d₂(r¹，r²，...，rⁿ，s¹)，d₃(r¹，r²，...，rⁿ，s²)和d₄(r¹，r²，...，rⁿ，s¹，s²)。这四种集合存在的概率分别为(1-p(s¹))(1-p(s²))，p(s¹)(1-p(s²))，(1-p(s¹))p(s²)和p(s¹)p(s²)。

步骤4构建数据的主题词条概率相似性矩阵M

对步骤(3)中跨类型数据d的任意两个数据d_x和d_y，计算d_x和d_y任意两种描述形式的相似度，假设d_x ⁱ是d_x的第i种描述形式，d_y ^j是d_y的第j种描述形式，则d_x ⁱ和d_y ^j的相似度计算如公式(6)所示。

sim (d_{x}^{i}, d_{y}^{j}) = \frac{| d_{x}^{i} \cap d_{y}^{j} |}{| d_{x}^{i} \cup d_{y}^{j} |} - - - (6)

假设d_x含有m个半相关词条，d_y含有n个半相关词条，那么如果要计算d_x和d_y的任意两种描述形式的相似度，共需2^m+n次相似性计算，这种计算方式导致计算量极具增加。由于这种相似性计算的计算代价很大，因此采用基于位图(bitmap)的增量计算方法进行求解，可以大大降低计算代价。

首先，针对数据d的每一种“描述形式”给出对应的位图。例如，假设d有m个主题半相关词条，则d的每一种“描述形式”被分配m位比特位。该位图的每一位对应数据d的每一个主题半相关词条。如果第i个半相关词条出现在d的某一个描述形式中，那么这个描述形式的相对应的第i位比特位为1，否则为0。

其次，为每个数据的所有表示形式建立一个邻接树，构建方法如下：

1.将比特位全为0的描述形式作为树的根节点；

2.其比特位与当前节点仅有一位不同的描述形式作为当前节点的子节点；

3.按照广度优先遍历方式，遍历当前的邻接树；重复步骤2，直到所有的节点都被插入到树中。

接下来，根据每个数据对应的邻接树，可以确定计算任意两条数据的每一种描述形式的相似性计算次序以及增量计算的方式，对邻接树的两个根节点之间的相似度利用公式(6)计算，除了两个根节点之外的相似度用公式(7)计算；其计算步骤如算法1所示。

算法1：SimCal(T_x，T_y)

输入：d_x的邻接树T_x，d_y的邻接树T_y

输出：d_x和d_y的任意两个表达形式之间的相似度

步骤：

1)Begin

2)计算sim(d_x ⁰，d_y ⁰)； //d_x ⁰和d_y ⁰分别为T_x和T_y的根节点

3)For(d_x的每一种描述形式d_y ^j)

4)sim(d_x ⁰，d_y ^p)通过公式(3)求解sim(d_x ⁰，d_y ^j)；//d_x ^p为d_y ^j的父节点

5)Endfor

6)For(d_x的每一种描述形式d_x ⁱ)

7)For(d_y的每一种描述形式d_y ^j)

8)sim(d_x ⁱ，d_y ^j)可以通过sim(d_x ^p，d_y ^j)求解； //d_x ^p为d_x ⁱ的父节点

9)Endfor

10)Endfor

11)End

在算法1中，没有必要为每一条数据都建立一个邻接树，因为含有相同个数的半相关词条的数据可以共享同一棵邻接树。如果d_y ^p为d_y ^j的父节点，s为在d_y ^p基础上追加到d_y ^j中的一个主题半相关词条，则

sim (d_{x}^{i}, d_{y}^{p}) = p / q

(其中，p为集合d_x ⁱ与d_y ^p交集的大小，q为集合d_x ⁱ与d_y ^p并集的大小)，那么，公式(7)给出了递增计算相似度的公式。

sim (d_{x}^{i}, d_{y}^{j}) = \{\begin{matrix} (p + 1) / q, s &Element; d_{x}^{i} \\ p / (q + 1), s &NotElement; d_{x}^{i} \end{matrix} - - - (7)

由于参加相似性计算的“描述形式”是带有概率的，那么，由这两种“描述形式”计算的得到的相似性也是带有概率的，这个概率既是这两种“描述形式”的概率的乘积。接下来，将这两个数据的所有描述形式的相似度大于某一阈值θ_sim的相似度的概率相加，θ_sim∈(0.3，0.7)，该概率和表示了这两个数据具有相同主题的概率。这个概率被称之为“直接相关概率”。至此，数据空间内任意两个数据d_x和d_y的直接相关概率已经被求出，数据空间中的其他数据间的直接相关概率同样可以通过我们上面提到的方法求解。最后，将任意两个数据的直接相关概率存储在一个N×N大小的矩阵M中，其中N代表数据空间内数据的数量。

步骤5基于M构建聚类模型M^c

M仅仅存储了任意两个数据之间的直接相似性联系(direct relationship)，而没有考虑他们之间可能存在的间接相似性联系(indirect relationship)。如果考虑数据间的间接联系，将使数据之间的相似性表达更为准确。对于存储矩阵M，可以将其中的相似性信息以图的形式表示出来。假设G＝{V，E}是一个完全图(complete graph)，其中V是节点集合，代表数据空间中的所有数据；E是节点间边的集合，代表任意两个数据对象间具有直接相似性联系的概率。如果考虑数据间的间接相似性联系，则计算图G中两节点的相似性概率需要考虑这两个节点中间含有多个中间节点的情况。下面，通过一些定义来介绍要构建的聚类模型。

定义1.n-连接路径(n-connection path)。设v₀，v₁，...，v_n∈V，e₁，e₂，...，e_n ∈E，其中e_i(1≤i≤n)的端点为v_i-1和v_i，这时，一条n-连接路径pathⁿ(v₀，v_n)就是由v₀，e₁，v₁，...，e_n，v_n构成的一个长度为n的有序序列，其中v₀是第一个顶点，v_n是最后一个顶点，且v₀≠v_n。

定义2.n-连接概率(n-connection probability)。pathⁿ(v₀，v_n)上的每条边e_i，p(e_i)为边e_i的概率，.

p = Π_{i = 1}^{n} p (e_{i}),

则p称作n-连接概率。

定义3.n-连接失败概率矩阵Mⁿ。Mⁿ的每一个元素为

M_{ij}^{n} = Σ_{k = 1}^{P_{N - 2}^{n}} (1 - p^{l}),

其中，p^l为节点i和j的第l种n-连接概率，N为数据空间中数据的个数。n-连接失败概率矩阵存储的是任意两条数据在所有n-连接路径都失败的情况下的概率。

定义4.全关系矩阵M^c(complete-connection matrix)。M^c的每一个元素

M_{ij}^{c} = 1 - Π_{n = 1}^{N - 1} M_{ij}^{n},

其中，M_ij ⁿ为节点i和j的n-连接失败概率。

由于M^c记录了任意两个节点将所连接这两个节点的路径都考虑的情况下的相似性概率，因此，任意两个节点间的相似性概率可以用矩阵M^c内的元素表示。矩阵M^c即为我们构建出来的聚类模型，矩阵中的每一个元素表示了对应的两个数据间的主题相似性概率。这个主题相似概率不仅考虑了数据间的直接相关概率，而且也考虑了数据间通过其他对象产生关系的概率。根据M^c，并利用已知的聚类算法，如编网聚类算法，就可以实现基于主题词条的相似性聚类。本发明的一种优选方式，当n-连接概率的n的取值为2时，聚类效果最好。

步骤6基于聚类模型M^c的聚类方法

基于聚类模型M^c采用聚类方法，对数据进行聚类。我们的模型适用于多种不同的聚类方法，这里我们只选取几种代表性的聚类方法加以阐述。此模型可以采用一种名为“编网”法的聚类算法，对数据进行聚类。将矩阵M^c中元素值大于某一阈值θ_par的元素值置为“·”，将小于这一阈值的元素值修改为null。将取值为“·”的元素称为“结点”。从结点出发向对角线引经线(竖线)和纬线(横线)。编网法就是在结点处将经过的经、纬线捆绑起来以实现分类，而通过打结能相互连接的点属于同一类。

其他的聚类方法，例如K-means方法仍然可以应用于这个模型。我们可以随机的选取若干个数据点，即将模型M^c中的每一行元素数值作为一个高维向量。将这些高维向量作为K-means方法的起始点，以这个数据点与其他所有数据的相似概率作为迭代空间。而后按照K-means的步骤进行聚类分析，得到聚类结果。

本发明的有益效果：

这里主要通过实验测试提出的概率模型在聚类方面的应用效果。

(1)对聚类精度的评价

实验中，应用提出的PTSM并借助编网聚类算法对数据空间中的数据进行聚类。为验证聚类精度，如F-measure、Entropy以及NMI等指标，将PTSM编网算法同经典的K-means和CP聚类算法进行了比较。图2～4从三种不同的测试角度分别考察了这些算法的聚类精度。从图2～4中，可以看出基于PTSM的聚类算法的聚类精度要好于其他两种经典算法。PTSM的精度之所以会高出其他算法，首先是因为模型充分考虑了词条与数据主题之间的相似性，并且对那些重要的词条赋予了较高的权重，这使得数据的主题表达更加准确。另一个原因是，当计算任意两个数据对象间相似性的概率时，不仅考虑了直接相似性联系，而且还考虑了间接相似性联系，从而使得数据间的相似性概率计算更为准确。CP算法面向的数据主要是文档数据，类型单一。在不考虑数据类型的情况下，CP算法的聚类精度介于PTSM编网算法和K-means之间。CP算法好于K-means，是因为CP也考虑了聚类过程中的概率问题，比如词条属于某一个词条簇的概率以及文档属于某一个文档簇的概率。而CP算法不如PTSM编网算法，是因为CP算法没有考虑数据之间更为复杂的间接相似性联系问题。对于K-means而言，它仅仅在词条向量空间内比较两条数据的相似性，并且只是一种能够得到局部最优的聚类方法，因此，其聚类效果是最差的。

(2)对聚类执行时间的评价

图5显示了这三种算法的执行时间，从图5中可以看出PTSM编网算法的执行时间远远小于K-means，而与CP的执行时间相似。这是因为，K-means是一种迭代方法，这种迭代方法往往非常费时，而PTSM编网算法由于忽略了大量不重要的词条，起到了降维(reduction ofdimensionality)作用，从而使得PTSM编网算法的执行时间远远小于K-means。相比之下，由于PTSM编网算法与CP算法都是利用矩阵作为处理聚类的手段，因此在执行时间上两者相差无几。

(3)对聚类敏感度的评价

首先，评价了模型参数的设置对PTSM及聚类效果的影响。图6(a)表明了参数α和θ_sim的设置对模型的影响。用F-measure作为衡量聚类效果的标准。从图6(a)可以看出，当θ_sim＝0.3时，PTSM的聚类效果最佳。当然，θ_sim的最佳设置取决于数据集中数据的特性。通过大量的试验，我们发现通常情况下，θ_sim∈(0.3，0.7)时，PTSM的聚类效果较好。在对α进行测试时，当α的值从0.9下滑至0.3时，聚类的效果不断提升。但是当α＜0.3时，聚类的效果变得越来越差。这是因为当新的词条被加入到主题相关词集合中时，数据的主题会被描述的越来越精确，因此聚类效果越来越好。但是，随着词条的不断加入，会导致大量与主题无关的词条被加入到主题相关词条集合中，而这些词条原本属于主题半相关词条或主题不相关词条，从而使聚类效果下降。因此，我们认为α＝0.3对于PTSM而言是比较合适的。

其次，评价连接失败概率矩阵中，链接路径的长度n对聚类效果的影响。n的取值不仅仅影响聚类效果，而且还会影响聚类精度。n越大，PTSM的复杂度越高，即需要更多的聚类计算时间，但PTSM的聚类精度被提高了。相反，n越小，聚类时间越少，但聚类效果更差，图6(b)证明了上述结论。当n增加时，PTSM的聚类效果越来越好。然而，当n＞2后，PTSM聚类精度的提高越来越不明显，并且趋于稳定。因此，n的取值为2对模型较为合适。

附图说明

图1本发明的聚类方法流程图，

图2本发明的一种实施例：PTSM编网算法、K-means和CP聚类算法的调和率比较图；

图3本发明的一种实施例：PTSM编网算法、K-means和CP聚类算法的熵比较图；

图4本发明的一种实施例：PTSM编网算法、K-means和CP聚类算法的规范化互信息比较图。

图5本发明的一种实施例：PTSM编网算法、K-means和CP聚类算法的执行时间比较图；

图6(a)本发明的聚类模型M^c参数的取值α和θ_sim的设置对模型的影响图；

图6(b)本发明的评价连接失败概率矩阵中，链接路径的长度n对三种聚类方法的聚类效果比较图；

图7(a)本发明的一个数据词条按照权重大小进行排序示意图；

图7(b)本发明的另一个数据词条按照权重大小进行排序示意图；

图8本发明的一种实施例的邻接树示意图；

图9本发明的一种实施例的数据空间中对象间的直接与间接关系示意图；

图10(a)本发明中的一种实施例：编网法聚类法中数据在模型M^c中的表示示意图；

(b)本发明中的一种实施例：编网法聚类法选取“结点”元素的示意图；

(c)本发明中的一种实施例：编网法聚类法的结果示意图。

具体实施方式

本发明的一个实施例：

(1)定义主题词条的类型，词条权重排序

假设d₁和d₂为数据空间中的两个数据，T(d₁)和T(d₂)分别表示每个数据包含的词条项，此处T(d₁)＝{数据，索引，搜索，精度，会议，聚类，查找，相似，摘要，包含，版本}，T(d₂)＝{数据，搜索，精度，会议，图像，测量，不确定}。T(d₁)和T(d₂)中每个词条都被赋予了一个权重值，并按照权重值大小从高到低排序，如图7(a)和(b)所示。

(2)用概率表示数据主题

在d₁中，取“数据”、“索引”、“搜索”和“精度”为主题相关词条，“会议”和“聚类”为主题半相关词条，其余是主题不相关词条。“会议”和“聚类”的权重分别为4和3，而d₁中词条的最大权重为10，那么，“会议”和“聚类”的相关概率分别为

p_{1}^{5} = 4 / 10 = 0.4,

p_{1}^{6} = 3 / 10 = 0.3 .

而在d₂中，“数据”，“搜索”和“精度”是主题相关词条，“聚类”是主题半相关词条，其余是主题不相关词条，而“聚类”相对于d₂的主题相关概率为

p_{2}^{6} = 0.5 .

这样，我们将主题相关词条和主题半相关词条加入到描述d的主题的词条集合中，其中主题半相关词条按照主题相关概率加入，而主题不相关词条被忽略。因此，d₁的主题可以被表示为以下4种形式，d₂可被表示为两种形式，且每种表达方式都有一个概率值。

P (d_{1}^{1}) = (1 - p_{1}^{5}) * (1 - p_{1}^{6}) = (1 - 0.4) * (1 - 0.3) = 0.42

P (d_{1}^{2}) = p_{1}^{5} * (1 - p_{1}^{6}) = 0.4 * (1 - 0.3) = 0.28

P (d_{1}^{3}) = (1 - p_{1}^{5}) * p_{1}^{6} = (1 - 0.4) * 0.3 = 0.18

P (d_{1}^{4}) = p_{1}^{5} * p_{1}^{6} = 0.4 * 0.3 = 0.12

P (d_{2}^{1}) = (1 - p_{2}^{6}) = 1 - 0.5 = 0.5

P (d_{2}^{2}) = p_{2}^{6} = 0.5

(3)构建数据的主题词条概率相似性矩阵M

在计算d₁和d₂的主题词条相似性概率时，要先建立它们的邻接树。首先，给数据主题的每一种表达方式建立位图。在集合d₁ ¹中，由于没有出现主题半相关词条，因此位图为00；以此类推，d₁ ²、d₁ ³和d₁ ⁴的位图分别为10(比d₁ ¹增加了一个主题半相关词条“会议”)、01(比d₁ ¹增加了一个主题半相关词条“聚类”)和11(比d₁ ¹增加了两个主题半相关词条，即“会议”和“聚类”)，而d₂的位图分别为0(没出现主题半相关词条“聚类”和1(比d₂ ¹增加了一个主题半相关词条“聚类”)。然后，以00作为d₁的根结点，将与它只有一个bit位不同的位图集合，即01和10作为它的儿子节点，重复执行上述过程，直到d₁的所有位图都被插入到树中，如图8左侧所示。对于d₂，执行上述相同操作，对应的树如图8右侧所示。于是，在图8中，存在以00和0为根节点的两棵树，分别对应着d₁和d₂。树中每个节点表示数据的一种主题词条表现形式，节点中的编号对应着该形式的位图。相邻节点间的有向实线边表示在一个数据对象中具有的父子关系的主题词条表现形式，比如d₁中的01位图(对应着d₁ ³)比其00位图(对应着d₁ ¹)多一个主题半相关词条“聚类”。箭头虚线则表示需要计算两个数据间一对主题词条表达形式间的相似度。

在图8中，d₁和d₂的主题词条表示集合的位图的邻接树在计算相似度时，首先计算d₁(00)和d₂(0)的相似度，即d₁ ¹和d₂ ¹的相似度。根据相似性计算的定义，即公式(2)，求得sim(d₁(00)，d₂(0))＝3/4，而sim(d₁(01)，d₂(0))只需在已计算过的sim(d₁(00)，d₂(0))之上进行修改就能得到。例如，

与

相比只多出一个半相关词条“聚类”，而

s &NotElement; d_{2}^{1},

换句话说，“聚类”不是集合

中的词条，因此，根据公式(7)推导出sim(d₁(01)，d₂(0))＝3/(4+1)＝3/5。同理，sim(d₁(10)，d₂(0))＝3/(4+1)＝3/5，sim(d₁(11)，d₂(0))＝3/(5+1)＝3/6。而d₁ ¹和d₂ ¹基于主题词条的相似性概率为

P (d_{1}^{1}) * P (d_{2}^{1}) = 0.42 * 0.5 = 0.21,

其他形式间的概率计算以此类推。接下来，计算d₂ ²与d₁的各种主题表达方式之间的相似性。由于d₂(0)是d₂(1)的父节点，所以有关于d₂(1)的相似度都可以通过d₂(0)推导出来。例如，sim(d₁(01)，d₂(1))＝(3+1)/4＝4/4。类似地，sim(d₁(00)₀，d₂(1))＝3/(4+1)＝3/5，sim(d₁(10)，d₂(1))＝3/(5+1)＝3/6，sim(d₁(11)，d₂(1))＝(3+1)/6＝4/6。至此，d₁和d₂的每种主题表达方式都已经通过这种增量计算方式得到。在表1中，我们详细列出了这些相似度的数值以及它们的概率。

表1d₁和d₂的各种主题词条表达形式间的相似度及概率

如果设相似度阈值θ_sim＝0.65，那么我们将大于该阈值的概率值相加求和来作为d₁和d₂的主题相似概率。这样，

P (d_{1}, d_{2}) = P (d_{1}^{1}, d_{2}^{1}) + P (d_{1}^{2}, d_{2}^{2}) + P (d_{1}^{4}, d_{2}^{2}) = 0.21 + 0.14 + 0.06 = 0.41 .

最终求得的矩阵M如公式(8)所示。

M = [\begin{matrix} 1 & 0.41 \\ 0.41 & 1 \end{matrix}] - - - (8)

(4)基于M构建聚类模型

M是在不考虑其他对象情况下，d₁和d₂在0.41概率下是主题相似的，但该概率只能表明d₁和d₂间较为简单的直接联系，如果存在另外一个对象d_x，三者的关系就比较复杂了，图9给出了它们之间的一种间接联系。

在图9中，任意两个数据间的相似性概率已被求出，P(d，d_x)＝0.3，P(d_x，d’)＝0.5。那么，在仅考虑没有中间节点的情况下，d₁和d₂的1-连接失败概率为1-P(d，d_x)＝0.59。在含有一个中间节点的情况下，d₁和d₂的2-连接失败概率为1-P(d₁，d_x)*P(d_x，d₂)＝0.85。上述已论及，含有一个中间节点是较好的情况，因此在该情况下，d₁和d₂的相似性概率为1-(1-P(d₁，d_x))*(1-P(d₁，d_x)*P(d_x，d₂))＝1-0.59*0.85＝0.4985。在该例中，数据空间中只有3个数据，依据上述方法，可以计算出这3个数据间所有的1-连接失败概率矩阵M¹、2-连接失败概率矩阵M²和全概率矩阵M^c，公式(9)～(11)分别给出了最终结果。

M^{1} = (\begin{matrix} 1 - 1 & 1 - 0.3 & 1 - 0.41 \\ 1 - 0.3 & 1 - 1 & 1 - 0.5 \\ 1 - 0.41 & 1 - 0.5 & 1 - 1 \end{matrix}) = (\begin{matrix} 0 & 0.7 & 0.59 \\ 0.7 & 0 & 0.5 \\ 0.59 & 0.5 & 0 \end{matrix}) - - - (9)

M^{2} = (\begin{matrix} 1 - 1 & 1 - 0.41 \times 0.5 & 1 - 0.3 \times 0.5 \\ 1 - 0.41 \times 0.5 & 1 - 1 & 1 - 0.41 \times 0.3 \\ 1 - 0.3 \times 0.5 & 1 - 0.41 \times 0.3 & 1 - 1 \end{matrix}) = (\begin{matrix} 0 & 0.795 & 0.85 \\ 0.85 & 0 & 0.877 \\ 0.4985 & 0.877 & 0 \end{matrix}) - - - (10)

M^{c} = (\begin{matrix} 1 - 0 \times 0 & 1 - 0.7 \times 0.795 & 1 - 0.85 \times 0.59 \\ 1 - 0.7 \times 0.795 & 1 - 0 \times 0 & 1 - 0.5 \times 0.877 \\ 1 - 0.85 \times 0.59 & 1 - 0.5 \times 0.877 & 1 - 0 \times 0 \end{matrix}) = (\begin{matrix} 1 & 0.4435 & 0.4985 \\ 0.4435 & 1 & 0.5615 \\ 0.4985 & 0.5615 & 1 \end{matrix}) - - - (11)

(5)基于聚类模型的聚类方法

这里我们只介绍基于编网法的聚类实例。假设由数据空间中的数据构建出的矩阵M^c，由图10(a)所示。我们取阈值θ_par＝0.5。将元素值大于0.5的元素置为“·”，如图10(b)所示。从“结点”处引出经、纬线，将落在从同一个“结点”出发的经、纬线上的元素放入同一个聚类中，如图10(c)所示。这样1、2、3三个元素被聚为两个类：{1}，{2，3}。

Claims

1、一种基于主题词条的跨类型数据的概率聚类方法，其特征在于该方法包括以下步骤：

(1)定义主题词条的类型；

对一个跨类型数据d，将其表示为词条的集合，对每个词条赋权重后，按照权重大小分为三类词条：主题相关词条r、主题半相关词条s和主题不相关词条u；

(2)对每类词条分配概率；

主题相关词条的主题概率为1，主题不相关词条的主题概率为0，主题半相关词条的主题概率p(sⁱ)＝w_si/w_max，其中w_si为半相关词条sⁱ的权重，w_max为跨类型数据d中所有词条的权重的最大值；

(3)用概率表示数据主题；

将跨类型数据d表示成主题相关词条r的一个确定集合，记作d(r¹，r²，...，rⁿ)，其中rⁱ表示第i个主题相关词条，再将所有的主题半相关词条s追加到跨类型数据d的确定集合中，跨类型数据d的确定集合在加入主题半相关词条s后，转换成多种描述形式，而每一种描述形式有一个概率

P (d_{m}) = Π_{i = 1}^{k} P_{i},

其中k表示一条数据中主题半相关词条的数量，m＝1，2，...，2^k，d_m是d的第m个描述形式，如果sⁱ出现在d_m中，则P_i＝p(sⁱ)，否则P_i＝1-p(sⁱ)；

(4)构建数据的主题词条概率相似性矩阵M；

对步骤(3)中跨类型数据d的任意两个数据d_x和d_y，计算d_x和d_y任意两种描述形式的相似度，将相似度大于某一阈值θ_sim的相似性的概率相加，θ_sim∈(0.3，0.7)，该概率和为直接相关概率，将任意两个数据的直接相关概率存储在矩阵M中；

(5)基于矩阵M构建聚类模型M^c；

聚类模型M^c的每一个元素

M_{ij}^{c} = 1 - Π_{n = 1}^{N - 1} M_{ij}^{n},

其中，M_ij ⁿ为节点i和j的n-连接失败概率，

M_{ij}^{n} = Σ_{k = 1}^{P_{N - 2}^{n}} (1 - p^{l}),

其中，N为数据空间内数据的个数，p^l为节点i和j的第l种n-连接概率，对于任意一条n连接路径上的每一条边e_i，p(e_i)为边e_i的概率，

p^{k} = Π_{i = 1}^{n} p (e_{i});

(6)基于聚类模型M^c的聚类方法

基于聚类模型M^c采用聚类方法，对数据进行聚类。

2、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法，其特征在于步骤(1)中所述的定义主题词条的类型，步骤如下：

对于任意一个跨类型数据d，将其表示为词条的集合d(t¹，t²，...tⁿ)，其中tⁱ(1≤i≤n)表示跨类型数据d的第i个词条，按下面的公式给集合中的每一个词条赋予权重，如公式(1)-(4)所示：

tf(t)＝1+ln(1+ln(1+f(t)) (1)

idf (t) = \ln \frac{N + 1}{N_{t} + 1} - - - (2)

ndl = (1 - s) + s \times \frac{{tl}_{d}}{{avg}_{tl}} - - - (3)

SCORE (t) = \frac{tf (t) \times idf (t)}{ndl} - - - (4)

其中，f(t)表示词条t在跨类型数据d中出现的频率，N和N_t分别表示数据空间内数据的总量以及含有词条t的数据的数量，tl_d表示跨类型数据d中词条的总量，avg_tl表示所有数据内词条数量的平均数，而s是一个参数，公式SCORE(t)用于计算词条的权重，按照权重大小分为三类词条：主题相关词条、主题半相关词条和主题不相关词条，分别用r、s和u表示；权重大于某个阈值θ_s的词条称为主题相关词条；权重小于某个阈值θ_u的词条称为主题不相关词条；权重介于θ_s和θ_u之间的词条称为主题半相关词条；此处，θ_s＝αθ_max，其中θ_max为某一个跨类型数据d中权重最大的词条的权重，而α是一个参数，α在0.2至0.5之间；在确定了主题相关词条r之后，对剩余的词条项按权重大小进行排序，令w[i]表示排名第i位的词条的权重值，寻求相邻两个权值差最大的词条所在位置k，并将位置k所对应的词条的权值作为θ_u的值，即k满足公式(5)，其中m是除主题相关词条外的词条个数，θ_u＝w[k]

w[k]-w[k+1]＝max_1≤i≤m-1(w[i]-w[i+1]) (5)。

3、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法，其特征在于步骤(4)中所述的构建数据的主题词条概率相似性矩阵M，步骤如下：

d_x ⁱ是d_x的第i种描述形式，d_y ^j是d_y的第j种描述形式，首先，针对跨类型数据d的每一种描述形式给出对应的位图，该位图的每一位对应跨类型数据d的每一个主题半相关词条；如果该主题半相关词条没有出现在这个描述形式中，对应的比特位为1，否则为0；

其次为每个数据的所有描述形式建立一个邻接树，构建方法如下：将比特位全为0的描述形式作为树的根节点；其比特位与当前节点仅有一位不同的描述形式作为当前节点的子节点；

按照广度优先遍历方式，遍历当前的邻接树；直到所有的节点都被插入到树中；

对邻接树的两个根节点之间的相似度利用公式(6)计算，除了两个根节点之外的相似度用公式(7)计算；

sim (d_{x}^{i}, d_{y}^{j}) = \frac{| d_{x}^{i} \cap d_{y}^{j} |}{| d_{x}^{i} \cup d_{y}^{j} |} - - - (6)

d_y ^p为d_y ^j的父节点，s为在d_y ^p基础上追加到d_y ^j中的一个主题半相关词条，则

sim (d_{x}^{i}, d_{y}^{p}) = p / q,

其中，p为集合d_x ⁱ与d_y ^p交集的大小，q为集合d_x ⁱ与d_y ^p并集的大小，那么，公式(7)给出了递增计算相似度的公式：

sim (d_{x}^{i}, d_{y}^{j}) = \{\begin{matrix} (p + 1) / q, s &Element; d_{x}^{i} \\ p / (q + 1), s &NotElement; d_{x}^{i} \end{matrix} - - - (7)

将相似度大于某一阈值θ_sim的描述形式的概率相加，θ_sim∈(0.3，0.7)，该概率和为直接相关概率，将任意两个数据的直接相关概率存储在一个N×N大小的矩阵M中，其中N代表数据空间内数据的数量。

4、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法，其特征在于步骤(5)中所述的n-连接概率的n的取值为2。

5、按照权利要求1所述的基于主题词条的跨类型数据的概率聚类方法，其特征在于步骤(6)中所述的基于聚类模型M^c的聚类方法，采用编网法的聚类方法或者K-means方法的聚类方法，其中编网法的聚类方法的步骤如下：将矩阵M^c中元素值大于某一阈值θ_par的元素值置为“·”，将小于这一阈值的元素值修改为null，将取值为“·”的元素称为结点，从结点出发向对角线引经线和纬线，编网法就是在结点处将经过的经、纬线捆绑起来以实现分类，而通过打结能相互连接的点属于同一类；

其中K-means方法的聚类方法的步骤如下：随机的选取若干个数据点，即将模型M^c中的每一行元素数值作为一个高维向量，将这些高维向量作为K-means方法的起始点，以这个数据点与其他所有数据的相似概率作为迭代空间，而后按照K-means的步骤进行聚类分析，得到聚类结果。