CN108073946A

CN108073946A - 一种面向图数据的投影聚类方法

Info

Publication number: CN108073946A
Application number: CN201711222718.5A
Authority: CN
Inventors: 印莹; 赵宇海; 梁燕; 曹丽蒙; 张斌
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-25

Abstract

本发明公开了一种面向图数据的投影聚类方法，该方法包括：针对待处理的图数据集D，采用深度优先搜索算法，获取图数据集D中所有子图的代表性子图模式；针对所述代表性子图模式，获取所述图数据集D的Top‑k多样性子图模式，将所有的Top‑k多样性子图模式生成Top‑k多样性子图模式集合RS；将所述图数据集D中的每一个子图与所述Top‑k子图模式集合RS中的特征子图进行投影匹配，获取所述图数据集D的特征矩阵；利用自适应熵作为聚类目标函数，采用图投影聚类算法对所述特征矩阵进行聚类处理，获得聚类结果。上述方法使得图数据集中的聚类结果更准，多样性更好，且高维数据的处理效果更快。

Description

一种面向图数据的投影聚类方法

技术领域

本发明涉及图数据挖掘技术，具体涉及一种面向图数据的投影聚类方法。

背景技术

现在大量的数据涌现到社会生活的各个领域，其中图作为一种数据结构，可以表示社会生活中的很多可结构化的信息和数据。例如，在生物信息中，利用图描述化合物的组成结构，结合数据挖掘技术对癌症、 HIV、血友病等疾病进行预测和判断；在社交网中，如Facebook利用图结点表示已在Facebook上注册用户，用边来表示两个用户之间的关系，利用数据挖掘可以满足人们各种信息需求。现阶段，挖掘频繁子图是对图的其它操作的基础，许多挖掘频繁子图的方法被提出。在频繁子图挖掘的基础上，可以通过各种挖掘技术挖掘出用户想要的信息。

聚类是一个将对象按照某种度量标准划分的过程，聚类结果中要求同一个簇内的对象相似，而不同簇之间的对象尽可能的不相似。图聚类作为一种分析和预测图中信息的重要方法，有着广泛的应用。如在社会关系中，图聚类可以把图分成若干个子图，使子图内部尽量相似，而子图间距离尽量距离较远，通过对图进行最小分割以及算法优化，最后实现图聚类。同时，图聚类能够帮助发现图数据中潜藏的规律，进行行为预测等操作。

图聚类有很多不同的实现方式，其中有马尔科夫聚类方法，主要是通过模拟随机游走行为实现图聚类；谱聚类是对图进行最小分割，通过算法优化，最后实现图聚类，其实现方式是通过解图矩阵的特征向量来实现的；还有基于密度的图聚类方法，是通过衡量一个点周围邻居的密度进行图聚类的。同时，还存在许多其他图聚类方式。但大多数采用基于密度、基于模型、划分、基于分布式、层次和网格等聚类方法。

随着人们对数据需求的日益增加，许多高维数据出现，有些数据维数达到成百上千维。如商品的一些交易买卖数据、多媒体数据、文档数据、基因表达数据等。受维度效应的影响，传统的聚类方法在处理高维数据时表现出效率低和准确度下降等效果。

为了解决高维数据带来的灾难，研究人员提出投影聚类方法，该方法的核心思想是：给每一个属性一个权重，该权重体现了属性与所属簇的关联紧密程度。本发明提出图投影聚类算法，然而由于图结构的复杂性，如何将投影聚类算法高效的应用到图数据集的聚类划分，而且能保持聚类结果的多样性，成为当前需要解决的问题。

发明内容

针对现有技术中的问题，本发明提供面向图数据的投影聚类方法，从图数据的结构组成出发，一方面利用图的特征子图作为属性可以实现对图数据的聚类，另一方面提取的特征子图可以很好地描述图的内部组成结构。该方法使得图数据集中的聚类结果更准、多样性好且高维数据的处理效果更快。

第一方面，本发明提供面向图数据的投影聚类方法，包括：

步骤A1、针对待处理的图数据集D，采用深度优先并伴随贪婪策略的搜索算法，一次性获取图数据集D中所有子图的代表性子图模式；

步骤A2、针对所述代表性子图模式，采用改进的蚁群算法，挖掘所述图数据集D的代表性子图模式的Top-k多样性子图模式，挖掘结果记为集合RS；

步骤A3、将所述图数据集D中的每一个子图与所述Top-k多样性子图模式集合RS中的特征子图进行投影匹配，获取所述图数据集D的特征矩阵；

步骤A4、利用自适应熵作为聚类目标函数，采用图投影聚类算法对所述特征矩阵进行聚类处理，获得聚类结果。

可选地，所述步骤A1包括：

A11、对所述图数据集D进行初始化处理，获得图数据集D的频繁 1-边子图，删掉不频繁的边和点；

A12、针对每一个频繁1-边子图，采用深度优先并伴随贪婪策略的搜索算法一次性遍历结点，根据公式:实现对深度优化搜索中的分支削减，发现所述图数据集D的所有代表性子图模式；

其中，g为一个模式，e为一条边，g◇e代表模式g加了一条边e，supp(g) 代表模式g出现的频率，supp(g◇e)代表模式g◇e同时出现的频率； D_supp(g,g◇e)代表距离公式的值，如果D_supp(g,g◇e)大于用户给定阈值，则认为g和g◇e经常一起出现。

可选地，所述步骤A2包括：

A21、将所有代表性子图模式生成代表性子图模式集合SD；

A22、利用联合熵作为度量函数，采用改进的蚁群算法，优化信息素更新机制，使其无法陷入局部最优，从所述代表性子图模式集合SD中挖掘出Top-k多样性子图模式；

A23、将所有的Top-k多样性子图模式生成Top-k多样性子图模式集合RS。

可选地，所述步骤A3包括：

将Top-k多样性子图模式集合RS中的特征子图作为图数据集D中子图的k维特征属性；

RS＝{g₁，g₂…g_j，…g_n}，D＝{G₁，G₂…G_i，…G_n}；

将RS中的特征子图与D中的子图进行投影匹配，如果RS集合中的特征子图g_j被图数据集D中的子图G_i包含，则设置图G_i的第j维属性为 1，否则为0；得到一个k维行向量表示的图G_i；

遍历图数据集D中的每一个子图，得到图数据集D的特征矩阵n*k。

可选地，所述步骤A4包括：

A41、对所述图数据集D的特征矩阵n*k进行标准化处理；

A42、初始化图投影聚类算法的迭代次数、每一个代表性子图模式的聚类中心和特征子图的属性权重；

A43、采用公式二计算特征矩阵n*k中每一个元素与每一个聚类中心的距离函数；

公式二：

其中，v_m表示第m个簇的簇中心，v_m＝[v_m1,v_m2,…,v_mk]，v_mj表示簇m 的第j维属性，w_mj表示第j维属性和簇m的一个关联程度(权重值)， w_mj∈[0,1]，w_mj越大则表示与该簇类的关联程度越高，|c_m| 代表第m簇的子图个数，λ_m是拉格朗日因子，h_m为平衡因子，如果则否则h_m＝1；-w_mjlnw_mj表示属性权重熵，代表每个属性在簇内的确定性。(1-w_mj)ln(1-w_mj)表示各个簇类所在的子空间属性权重值存在的差异；

A44、根据计算距离函数的相似度，将特征矩阵中元素表示的子图划分到相似度最小的簇中；

A45、更新所述迭代次数，用公式三更新属性权重、公式四更新自适应熵中的自适应参数；

公式三：

公式四：

其中，v_m，w_mj和h_m的解释见A43，λ_m通过公式四可得出；

重复步骤A43、步骤A44和A45，直至满足|J_p+1-J_p|<ε时结束，此时获得的各个簇构成聚类结果，p+1和p分别代表先后的两次迭代。

可选地：图数据集D＝{G₁，G₂，…，G_i，…，G_n}，其中每个图Gi 有k维属性，

Gi＝{a₁,a₂…a_k}，若聚类簇数为m，则聚类结果包括：m个簇 C＝{C₁,C₂…C_m}，并且聚类结果的簇满足下述条件：

第一、|C|≤m；

第二、G_j∈C_i，有sim(G_i,G_j)＝真true；并且

第三、C₁∪C₂…∪C_m＝D；C_j∈C,有C_i∩C_j＝Φ；

其中，sim(G_i,G_j)为给定子图相似性度量函数，度量子图Gi和子图Gj的相似性，如果相似取值为真true，反之为假false。

可选地，图数据集D＝{G₁，G₂，…，G_i，…，G_n}，其中每个子图 G_i有k维属性，生成的Top-k多样性子图模式集合RS满足下述条件：

第一、|RS|≤k；

第二、对于任意两个Top-k多样性子图模式g_i和g_j,若g_i≈g_j,那么

第三、使联合熵的度量函数值最大；

所述k为预先定义的最优解个数。

可选地，所述步骤A11包括：

采用改进的gSpan算法对所述图数据集D进行初始化处理，获得图数据集D的1-边频繁子图；

其中，1-边频繁子图指的是只有一条边的图。

可选地，所述步骤A22包括：

A221、预先确定终止条件，所述终止条件包括：预先定义的循环次数，当达到循环次数时退出；或者，计算相邻两次度量函数的差值，并规定一个最小差值，当两次差值小于最小差值时退出；

A222、对于每一个蚂蚁先随机选择一个出发点i，并对其他模式j组成的联合模式进行初始化，把已经访问过的模式放在一个集合Ck中；

所述其他模式j为选择一个代表性子图模式后的剩余的代表性子图模式；

A223、选择下一个要访问的代表性子图模式，对于未访问的代表性子图模式依概率进行下一个模式的选择；使用公式五选择下一个要访问的代表性子图模式；

公式五

其中表示由模式i转移到模式j的概率，τ_ij为路径(i,j)的信息素浓度，为路径(i,j)的信息素增量，H_im表示两个子图模式的信息增益函数，表示两个子图模式的信息增益函数，α和β表示信息素和启发信息的相对重要性，模式i∈[1,n]和j∈[1,n]，k为常数,m为簇类数；

A224、让蚂蚁依概率走到下一个模式，并把该代表性子图模式加入到已经访问的模式集合中，这时一个蚂蚁就完成了一次代表性子图模式选择；

A225、让下一个蚂蚁完成上述同样的操作，让每一个蚂蚁都选择一个模式，接下来继续选择模式，直到每个蚂蚁都选择了k个子图模式集合；

A226、对每一个蚂蚁选择的k个子图模式集合进行图模式联合熵的计算；

A227、优化信息素更新机制如下：

如果τ_ij＜τ_min那么τ_ij＝τ_min；

如果τ_ij＞τ_max那么τ_ij＝τ_max；

信息素的上界和下界分别为τ_min和τ_max，其中：0＜τ_min＜τ_max；

蚁群算法的策略是：阻止有较多信息素的组合进一步增大信息素量，拥有较少信息素的组合进一步减少信息素，当子图组合拥有的信息素达到上界时，规定这对组合的信息素为上界值，当子图组合拥有的信息素达到下界时，规定这对组合信息素为下界值。

另一方面，本发明提供一种面向图数据的投影聚类装置，包括：用于存储多个指令的存储器，用于执行所述存储器中存储的指令的处理器；

执行多个指令包括：

针对待处理的图数据集D，采用深度优先伴随贪婪策略的搜索算法，获取图数据集D中所有子图的代表性子图模式；

针对所述代表性子图模式，获取所述图数据集D的Top-k多样性子图模式，将所有的Top-k多样性子图模式生成Top-k多样性子图模式集合 RS；

将所述图数据集D中的每一个子图与所述Top-k子图模式集合RS 中的特征子图进行投影映射匹配，获取所述图数据集D的特征矩阵；

利用自适应熵作为聚类目标函数，采用图投影聚类算法对所述特征矩阵进行聚类处理，获得聚类结果。

本发明具有的有益效果如下：

上述方法将投影聚类技术应用于深度挖掘后的图数据集，实现高效聚类的同时，提出了Top-k多样性子图模式挖掘，保持了聚类结果的多样性，从更高层分析图数据内部的组成结构。

即，先挖掘图数据集的具有多样性和代表性的特征子图，再采用特征子图和图数据集进行匹配处理，获取图数据集的特征矩阵，最后采用投影聚类进行图聚类处理，考虑簇内紧凑度、权重熵的确定性和多样性三方面，同时实现聚类过程中变量的自动更新，使聚类结果更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的一种面向图数据的投影聚类方法的流程示意图；

图2本发明实施例给出的一种图数据集的示意图；

图3是图2中获取的代表性子图模式的示意图；

图4是图3中获取的Top-k多样性子图模式的示意图；

图5是本发明一实施例示例的一种文本图结构聚类流程图；

图6是本发明提出的面向图数据的投影聚类(Graph Projected Clustering，简称GPC)方法的多样性参数对该有效性的影响(F-Score)的示意图；

图7本发明提出的面向GPC方法对不同方法的运行时间比较的示意图；

图8本发明提出的面向GPC方法的可扩展性比较的示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其它情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

本发明实施例中的核心构思是：对图数据集先进行多样性特征子图 (Top-k子图模式)挖掘，然后利用挖掘的多样性特征子图表示图数据集 D中的每个子图，对图数据集进行转换得到特征矩阵，最后利用自适应熵作为聚类目标函数，采用基于k-means的聚类框架实现图投影聚类，得到图数据集的聚类结果。

为方便理解本发明实施例，先举例给出部分定义：

δ-覆盖：给定一个用户自定义的参数δ(0≤δ≤1)，模式p和模式q是已给出的两个图模式。如果有且1-supp(p)/supp(q)≤δ，则称q被p δ-覆盖。supp(p)和supp(q)分别表示模式p和模式q的支持度。

δ-簇：给定一个用户设置的参数δ(0≤δ≤1)，一个图模式集合C＝{p₁, p₂,....p_n},如果图模式集合C中存在模式p_i满足p_j被p_iδ-代表，那么C就可以表示成是一个δ-簇，称p_i为该簇类中模式的代表模式。

代表性子图模式：给定一个图数据集D＝{G₁,G₂…G_n}和一个用户设定的覆盖参数δ，如果给定一个图模式集合RD＝{r₁,r₂,....r_n}，其中r_i是一个δ-簇，如果满足以下条件，那么图模式集合C就是一个代表子图模式集合。

(1)r_i∈RD和r_j∈RD，有r_i∩r_j＝Φ；

(2)集合RD中的子图模式可以完全δ覆盖D中的所有的图。

以下实施例中的图数据集D，D＝{G₁,G₂…G_n}，图数据集D中的每一个子图Gi＝(V,E,L),

其中(1)V表示图G_i中结点的有限集合；

(2)是结点的笛卡尔积，u和u'是图G_i中的两个结点，(u,u') 表示从点u到点u'的边；

(3)L表示一个函数，对于每一个在V中的结点u,L(u)是u的标号；

每一个图数据集D由n个子图组成，每个子图由多个边或结点组成；其中，包含于图D中的图称为图D的子图。

举例来说，设G＝{V,E},G’＝{V’,E’}为两个图，且同为无向图或同为有向图，若且则称G’是G的子图，G为G’的母图，记作若V’＝V且则称G’是G的生成子图。

如图1所示，图1展示出了本发明实施例的一种面向图数据的投影聚类方法的流程示意图，本实施例的方法包括如下步骤：

步骤101、针对待处理的图数据集D，采用深度优先并伴随贪婪策略的搜索算法，一次性获取图数据集D中所有子图的代表性子图模式。

举例来说，该步骤101在具体实现过程中，可具体包括：

子步骤1011、对所述图数据集D进行初始化处理，获得图数据集D 的频繁1-边子图，删掉不频繁的边和点。

例如，采用改进的gSpan算法对所述图数据集D进行初始化处理，获得图数据集D的频繁1-边子图。其中，1-边频繁子图指的是只有一条边的图。

子步骤1012、针对每一个频繁1-边子图，采用深度优先并伴随贪婪策略的搜索算法一次性遍历结点，根据公式:实现对深度优化搜索中的分支削减，发现所述图数据集D的所有代表性子图模式。

也就是说，将所有频繁模式聚成若干个簇，每个簇选择一个代表性子图模式作为代表子图，该子图能覆盖簇里的所有的子图模式，最后，所有的代表性子图模式构成一个候选集合。

聚类簇数可为用户预先设定的。

102、针对所述代表性子图模式，采用改进的蚁群算法，挖掘所述图数据集D的代表性子图模式的Top-k多样性子图模式，挖掘结果记为集合RS。

可理解的是，代表性子图模式规模较大，而且代表性子图之间的重合区域较大，所以要进行多样性子图(即特征子图)挖掘，为的是进一步减小图规模，提高效率。

在该步骤中，图数据集D＝{G₁，G₂，…，G_i，…，G_n}，其中每个图 G_i有k维属性，生成的Top-k子图模式集合RS满足下述条件：

①|RS|≤k；

②对于任意两个Top-k多样性子图模式g_i和g_j,若g_i≈g_j,那么

③使联合熵的度量函数值最大；

所述k为预先定义的最优解个数。

103、将所述图数据集D中的每一个子图与所述Top-k多样性子图模式集合RS中的特征子图进行投影匹配，获取所述图数据集D的特征矩阵。

举例来说，本步骤中，可将Top-k多样性子图模式集合RS中的特征子图作为图数据集D中子图的k维特征属性；

RS＝{g₁，g₂…g_j，…g_n}，D＝{G₁，G₂…G_i，…G_n}；

将RS中的特征子图与D中的子图进行投影匹配，如果RS集合中的特征子图g_j被图数据集D中的子图G_i包含，则图G_i的第j维属性为1，否则为0；得到一个k维行向量表示的图G_i；

104、利用自适应熵作为聚类目标函数，采用图投影聚类算法对所述特征矩阵进行聚类处理，获得聚类结果。

本实施例的聚类结果可理解为：将图数据集中结构相似的子图聚成一个类，而结构差异巨大的子图分在不同的类中，聚类结果更准确。

可选地，在一种具体的实现方式中，上述步骤104可具体包括：

1041、对图数据集D的特征矩阵n*k进行标准化处理。

这是对n*k的矩阵数据进行的初始化，是k-means聚类算法要求做的，防止聚类效果出现偏差的。

1042、初始化图投影聚类算法的迭代次数、每一个代表性子图模式的聚类中心和特征子图的属性权重。

也就是说，在进行k-means聚类算法前要做一些初始化处理，迭代次数规定了算法结束的条件，聚类中心是随意给出的，为了让子图能找到最相近的聚类中心，权重是为了度量聚类效果好不好的一个条件。

1043、采用下述公式计算特征矩阵n*k中每一个元素与每一个聚类中心的距离函数。

其中，v_m表示第m个簇的簇中心，v_m＝[v_m1,v_m2,…,v_mk]，v_mj表示簇 m的第j维属性，w_mj表示第j维属性和簇m的一个关联程度(权重值)， w_mj∈[0,1]，w_mj越大则表示与该簇类的关联程度越高。|c_m| 代表第m簇的子图个数，λ_m是拉格朗日因子，h_m为平衡因子，如果则否则h_m＝1；-w_mjlnw_mj表示属性权重熵，代表每个属性在簇内的确定性。(1-w_mj)ln(1-w_mj)表示各个簇类所在的子空间属性权重值存在的差异；

该步骤中计算子图到各个聚类中心的距离，把子图聚到离聚类中心最近的聚类中。

1044、根据计算的距离函数的相似度，将特征矩阵中元素表示的子图划分到最相近最小的簇中。

1045、更新所述迭代次数，用公式三更新属性权重、公式四更新自适应熵中的自适应参数；

公式三：

公式四：

其中，v_m，w_mj和h_m的解释见1043，λ_m通过公式四可得出；

特别说明的是，在第一次聚类的时候，聚类中心是随意选取的，并不代表真正的聚类情况，通过更新迭代找到真正的聚类情况。

重复步骤1043、步骤1044和步骤1045，直至满足|J_p+1-J_p|<ε时结束，此时获得的各个簇构成聚类结果，p+1和p分别代表先后的两次迭代。

在本实施例中，图数据集D＝{G₁，G₂，…，G_i，…，G_n}，其中每个图Gi有k维属性，Gi＝{a₁,a₂…a_k}，若聚类簇数为m，则聚类结果包括： m个簇C＝{C₁,C₂…C_m}，并且聚类结果的簇满足下述条件：

1)|C|≤m；

2)G_j∈C_i，有sim(G_i,G_j)＝true；并且

3)C₁∪C₂…∪Cm＝D；C_j∈C,有C_i∩C_j＝Φ。

本实施例中，投影聚类是一种高维数据聚类方法，同样图投影聚类也可以处理具有高维属性的图数据，top-k多样性特征子图挖掘，为图的高维属性表示提供了方便，图数据的高维属性表示一方面可以利用传统的投影聚类方法实现对图的聚类，另一方面可以通过属性的权重了解簇内图的内部结构组成。

在本实施例中，投影聚类投影过程体现在利用多样性特征子图模式对图数据集进行特征属性表示，对每个子图属性进行k维特征子图表示，再利用基于k-means算法框架的聚类算法实现聚类，聚类目标函数考虑了簇内紧凑度和权重熵对聚类效果的影响。

举例来说，上述步骤102可具体包括下述子步骤：

子步骤1021、将所有代表性子图模式生成代表性子图模式集合SD；

子步骤1022、

利用联合熵公式:作为度量函数，采用改进的蚁群算法，优化信息素更新机制，使其无法陷入局部最优，从所述代表性子图模式集合SD中挖掘出Top-k多样性子图模式；

其中，设x和y是两个随机变量，则(x,y)是二维随机变量。二维随机变量x和y的联合概率分布记为p(x,y)，当x取值为v_x，y取值为v_y时， p(v_x,v_y)＝p{x＝v_x,y＝v_y},H(x,y)代表x和y的联合熵，dom(x)表示x的取值范围，dom(y)表示y的取值范围；

例如，S1：预先确定终止条件，所述终止条件包括：预先定义的循环次数，当达到循环次数时退出；或者，计算相邻两次度量函数的差值，并规定一个最小差值，当两次差值小于最小差值时退出；

S2：对于每一个蚂蚁先随机选择一个出发点i，并对其他的模式j组成的联合模式进行初始化，把已经访问过的模式放在一个集合C_k中；该步骤中的其他模式指的是选择一个代表性子图模式后的剩余的代表性子图模式；

S3：接下来选择下一个要访问的代表性子图模式，对于未访问的代表性子图模式依概率进行下一个模式的选择；

具体地，使用下述公式选择下一个要访问的代表性子图模式；

其中表示由模式i转移到模式j的概率，τ_ij为路径(i,j)的信息素浓度，为路径(i,j)的信息素增量，H_im表示两个子图模式的信息增益函数，表示两个子图模式的信息增益函数，α和β表示信息素和启发信息的相对重要性，模式i∈[1,n]和j∈[1,n]，k为常数，m为簇类数；

S4：让蚂蚁依概率走到下一个模式，并把该代表性子图模式加入到已经访问的模式集合中，这时一个蚂蚁就完成了一次代表性子图模式选择；

S5：让下一个蚂蚁完成上述同样的操作，让每一个蚂蚁都选择一个模式；接下来继续选择模式，直到每个蚂蚁都选择了k个子图模式集合；

S6：对每一个蚂蚁选择的k个子图模式集合按照下述公式进行图模式联合熵的计算；

S7、优化信息素更新机制如下：

如果τ_ij＜τ_min那么τ_ij＝τ_min；

如果τ_ij＞τ_max那么τ_ij＝τ_max；

信息素的上界和下界分别为τ_min和τ_max，其中：0＜τ_min＜τ_max。

其中，蚁群算法的策略是：阻止有较多信息素的组合进一步增大信息素量，拥有较少信息素的组合进一步减少信息素，当子图组合拥有的信息素达到上界时，规定这对组合的信息素为上界值，当子图组合拥有的信息组达到下界时，规定这对组合信息素为下界值。

1023、将所有的Top-k多样性子图模式生成Top-k多样性子图模式集合RS。

应说明的是集合RS是集合SD的子集。也就是说，每一个频繁子图会有多个代表性子图，每一个频繁子图的代表性子图集合成为RS，所有频繁子图的代表性子图的集合为SD。

在本实施例中，多样性特征子图(即特征子图)挖掘分两步完成的，先进行代表性子图挖掘，然后再用蚁群算法进行多样性特征子图挖掘。

本实施例中采用联合熵表示选择子图模式集合的确定性状态，在得到代表性子图模式后，这些子图(即代表性子图模式中的子图)之间存在许多包含关系，这时联合熵的值比较小。

采用蚁群算法挖掘多样性特征子图，联合熵值较大，根据熵的意义可知，这时挖掘出的多样性特征子图具有较大的不确定性，认为得到的特征子图比较分散，同时子图之间相似度较小，在对图数据进行覆盖时，重叠的结点和边较少，能很好地代表图数据。

举例来说，对图数据集D进行top-k多样性特征子图挖掘，得到多样性特征子图集合RS(即Top-k多样性子图模式集合RS)，并利用RS作为D的属性表示，利用RS把图数据集聚成m类，并同时满足以下要求：

(1)图数据集D中每一个子图只能出现在一个簇内；

(2)同一个簇内的子图的特征属性相似。

针对上述子步骤1011中的频繁子图的获取过程说明如下：

改进的gSpan算法是一种不用产生候选集合且一次遍历生成频繁子图的挖掘算法，主要包含DFS编码、DFS字典序、最右路径扩展和DFS 搜索树和分支削减等方法，通过把图模式装换成相应的序列，并对路径扩展方向进行了限定，实现了频繁子图模式挖掘。很多算法是基于gSpan 算法框架实现的。

改进的gSpan算法是很多子图挖掘算法的基础。该算法利用DFS (Depth-FirstSearch，深度优先搜索)编码，建立边的字典序等一系列操作，实现了频繁子图的有规则的挖掘，避免了重复子图模式产生。本实施例利用gSpan算法的基本框架，对gSpan算法的结点访问顺序作了修改(gSpan访问结点顺序为在DFS时第二次访问的，目的是为了减小图规模，提高效率)，同时，为了在保证挖掘的代表性子图模式结果准确性的同时，尽量减少频繁子图模式数量，对那些不能产生新代表模式的分枝进行了削减。

针对上述子步骤1012中的频繁子图的获取过程说明如下：

首先在初始化时，先扫描图数据集，得到频繁边集合，然后删除不频繁的边和点。然后对每一个1-边频繁子图，调用代表性子图模式挖掘程序(MiningReprePattern)进行深度优先搜索，发现所有的代表模式。

代表性子图模式挖掘程序的步骤如下：

步骤1：判断图模式s为根的分枝是否要被裁剪，P.min_distance表示图模式p和已经遍历分枝上孩子的最小距离；

步骤2：判断当前模式是不是最小DFS编码，如果不是则可以继续在其分枝上查找；

步骤3：根据图模式p和图模式s之间的距离更新P.min_distance值；

步骤4：把最后一条图模式s的DFS编码压入全局栈GS中；

步骤5：算法扫描GS中的每一个图模式Q，对Q进行覆盖测试，判断当前模式是否可以被覆盖；

步骤6：对图数据集D进行一次遍历，对所有的频繁子的最右子图进行挖掘；

步骤7：初始化频繁最右扩展的子图；

步骤8：在访问图模式s所有孩子之后，判断图模式s的覆盖情况；

步骤9：遍历集合RS，判断是否存在一个代表性子图模式R能覆盖图模式s，如果没有发现则创建新的代表性子图模式，并判断和标记覆盖。

为更好的理解本发明实施例的特征子图的投影聚类算法的过程，结合图2至图5进行详细说明。

如图2所示，图数据集D中六个子图，要对D进行投影聚类，从直觉上看，显然可以把这六个子图聚成两个簇，一个簇里包含G1,G2,G3，另外G4,G5,G6放到另一个簇里。为了与其他图聚类相区别，本发明实施例提出的图投影聚类算法，利用多样性特征子图表示图属性，并利用特征子图度量子图之间相似性，实现图投影聚类。

如图3所示，给出了问题定义中图2的一个代表性子图模式，设定支持度为2，得到了7个代表性子图模式。在结果集中，如r2，r3和r4 三者之间是十分相似，同样相似的还有r5，r6和r7，他们存在包含关系或子图之间重叠较大的关系，这个时候这些子图模式之间不可以用覆盖模式实现，因为不满足聚类质量阈值要求。子图模式之间存在相似或者明显的包含关系，在得到一个模式后，其他的与它相似的图模式对研究的意义已经不大。所以在代表性模式的基础上提出top-k多样性子图模式挖掘算法，不仅找到频繁的代表子图模式，同时保证找到的k个子图模式两两之间尽可能的不相似，结果集尽可能不重叠地覆盖原图数据集。

本实施例采用蚁群算法实现top-k多样性子图模式。在蚁群算法中选取所有代表性子图模式中的k个子图模式，并且保证这k个子图模式两两之间尽可能不同，同时保证度量函数最大，算法采用联合熵来作为度量函数。下面介绍top-k多样性子图模式挖掘算法。

蚁群算法是一种解决组合问题的模拟算法。其四种重要的策略如下：

(1)信息素的释放与挥发：蚂蚁在走过的路径上释放信息素，同时信息素会随着时间而挥发；

(2)信息素更新：当每一个蚂蚁走完一次后，对每两个对象之间路径进行信息素更新，使下一批蚂蚁更好的找到信息素最多的路径，进一步体现正反馈；

(3)路径选择策略：对于每一个蚂蚁在选择下一个对象时，蚂蚁会根据到下一个对象路径上的信息素来依概率选择去往下一个对象；

(4)度量函数：度量函数用来衡量蚂蚁选择路径好坏的，比如在用蚁群算法解决TSP(旅行商问题)时，采用走过的路径长度来度量蚂蚁选择路径的好坏，最优路径是长度最短的路径。

本发明实施例中可规定每一个蚂蚁走过路径是一些子图模式的集合，而且集合大小为k，体现在每一个蚂蚁需走k-1步。本实施例中采用联合熵作为度量函数。接下来详细的描述基于蚁群算法的top-k多样性特征子图模式挖掘算法。

基于蚁群算法的top-k多样性特征子图模式挖掘算法步骤如下：

步骤01、判断终止条件，蚁群算法一般人为的设定终止条件，比较常见的有规定循环次数，当达到循环次数时退出，或者，计算相邻两次度量函数的差值，并规定一个最小差值，当两次差值小于最小差值时退出；

步骤02、对于每一个蚂蚁先随机选择一个出发点i，并对其他的模式 j组成的联合模式进行初始化，把已经访问过的模式放在一个集合Ck中；

步骤03、接下来选择下一个要访问的子图模式，对于未访问的子图模式依概率进行下一个子图模式的选择；

步骤04、让蚂蚁依概率走到下一个子图模式，并把该子图模式加入到已经访问的子图模式集合中，这时一个蚂蚁就完成了一次子图模式选择；

步骤05、让下一个蚂蚁完成上述同样的操作，让每一个蚂蚁都选择一个模式。接下来继续选择模式，直到每个蚂蚁都选择了k个子图模式集合；

步骤06、对每一个蚂蚁选择的k个子图模式集合进行图模式联合熵的计算。这里用到了得联合熵公式H(D)来计算所有两两组合的熵的值，从而保证了结果的多样性。

为了防止蚁群算法陷入局部最优，提供更大的搜索空间，本实施例采用的策略是阻止有较多信息素的组合进一步增大信息素量、拥有较少信息素的组合进一步减少信息素。当子图组合拥有的信息素达到上界时，规定这对组合的信息素改为上界值，这样就可以避免该组合信息素的无限上涨，避免算法陷入局部最优；当信息素小于设定的最小值时，规定该组合信息素改为下界值，使更多的蚂蚁有可能去选择这对组合，同样起到避免局部最优的效果。

如图4给出图2对应的top-k子图模式集合。在该图4中得到了3个多样特征性子图模式，相比挖掘的代表性模式，模式数量从图3的7个代表性子图模式减少到了现在的3个多样性特征子图模式，大大的减少了模式数量。而且这3个特征子图模式，能很好的代表图数据集的结点和边，具有良好的代表性。挖掘出的结果不仅频繁而且还具有多样性，这样的子图模式能更好的代表原图数据集，为接下来的图投影聚类提供了特征子图模式。

在得到多样性特征子图后，仍然不能进行图投影聚类，因为没有实现图相似性的度量，本发明采用了对图进行特征子图表示的思想，把图数据集转换为特征矩阵，利用特征矩阵进行投影聚类，实现了图的投影聚类。

先把top-k多样性特征子图看成图的k维特征属性，如果RS集中的特征子图g_j被图D的子图G_i包含，那么设置图G_i的第j维属性为1，否则为0，这样一个图G_i就可以用一个k维的行向量表示，对于n个图的D，最后可以装换成一个n*k的矩阵，因为k往往比较大，所以传统的聚类算法实现效果比较不尽人意。

本实施例中采用了能处理高维数据的投影聚类算法实现聚类。投影聚类有多种划分方式，根据加权方式的区别，可以划分为软子空间聚类和硬子空间聚类两种。硬子空间聚类中属性权重值只有1和0，这里用1 表示属性与所属簇相关，而0表示与所属簇不相关。软子空间聚类中属性权重值是一个区间值，处于0和1之间，值的大小代表该维属性与簇类的关联程度。

另外，为更好的验证本发明实施例的方法的效果，通过具体实验进行说明，参照表1和表2，以及图6至图8所示的示意图。

实验环境：本实验采用java编程语言，在Eclipse 4.5编译环境下完成，实验采用的单机电脑配置具体参数如下：

CPU：Intel(R)Core(TM)i5-2320

内存：16.00GB

操作系统:Windows 7(64bit)

真实数据集为Xifeng Yan主页下载的CancerData (http://www.cs.ucsb.edu/～xyan/dataset.htm)的GraphData和人工数据集。数据集信息如下表1所示。

表1真实数据集

该数据集提供了关于生物活性小分子的一些信息，包括关于抗癌测试的不同的癌症细胞的生物测定记录：MCF-7(乳腺癌)、MOLT-4(白血病)、NCI-H23(非小细胞肺癌)、OVCAR-8(卵巢癌)、P388(白血病)、 PC-3(前列腺癌)、SF-295(中枢神经系统癌)、SN12C(肾衰竭)、 SW-620(结肠癌)、UACC257(黑色素癌)和Yeast(酵母抗癌)。每个癌症细胞都包含了一个活跃的和不活跃的类的数据，从这些数据中挑选了一些具有代表性的数据进行了实验。从各个数据集的五个方面对数据集进行了描述。

本实验从真实数据中抽出的4个数据集，包括：MCF-7(乳腺癌)、 MOLT-4(白血病)、P388(白血病)、PC-3(前列腺癌)进行F-Score值比较。其中，聚类质量参数δ体现了在挖掘代表性子图模式时，两个模式之间同时出现的概率，而距离阈ε是体现两个子图模式相似度的一个度量标准，这个值往往是一个很小的数。对比算法主要有现有技术中的基于k-means算法的FSC算法和EWKM算法，这两个算法都需要对一些参数进行设定，FSC算法中的α分别取2.1和3.0，EWKM中的γ分别取0.5 和1.0。同时对采用了现有技术中的基于k-means算法的Greed Top-k+AEPC(GTA)聚类算法和本发明实施例方法对应的GPC算法进行了实验对比。本实验采用的是标准化互信息量F-Score作为指标评价聚类算法。F-Score公式如下公式(1)所示。聚类比较结果如表2所示。

F-Score体现了召回率和准确率的关系，一般是一个此消彼长的关系，这里P(class_k，c_i)表示准确率，R(class_k，c_i)表示召回率。其中class_k表示图数据D中的第k个真实簇，n_k表示class_k包含的特征子图的个数。

表2真实数据集上的聚类有效性对比

对表2的数据分析中：采用了四个数据集对四个算法的聚类准确度进行了对比，本发明实施例提出的GPC算法，这四个数据集在F-Score 评价指标下有最优的结果。说明本发明提出的方法能够有效的对数据集进行聚类，具有较强的适应性，而且证明在聚类时考虑最大化特征权重间的差异有利于改善聚类质量。FSC算法、EWKM算法都需要人为的去设置一些参数，而且对聚类效果会有较大的影响。虽然本发明实施例提出的GPC算法也需要设置参数，但是这些参数的改变对聚类的有效性影响不大，只会改变聚类的运行时间，进一步说明本文提出的算法具有较好的适应性。

进一步，实验同样采用了四个不同的真实数据集，从运行时间和评价指标F-Score方面进行了分析。ε值在增大时运行时间对聚类质量几乎没影响，运行时间在逐渐减小。对于后续的实验GPC算法默认的参数设置为：δ＝0.1，ε＝0.01。

本发明实施例的方法同样需要对多样性参数k进行设置，通过改变k 值来对实验效果进行实验分析。首先从多样性参数k对聚类质量效果的影响方面进行实验分析，同样采用四种不同的数据集和评价指标： F-Score。

如图6给出了多样性参数k值对GPC算法有效性的影响，这里采用了F-Score评价指标。通过图6发现在多样性参数小于75之前F-Score 值在逐渐递增，而大于75之后趋于平缓，分析得知这4个数据集可以用一个维度为75的特征行矩阵表示。

如图7利用NCI-H23，P388，OVCAR-8和SF-295四个数据集分别对GPC算法和FSC算法、EWKM算法和GTA算法进行了比较。其中FSC 算法的α＝2.1，EWKM算法的γ＝0.5。通过图7发现，GPC算法相对于其他三个算法，具有更高的效率，而且对于不同的数据集GPC算法在运行时间上比其他的算法时间短，说明了GPC算法具有较高的效率，同时也有较好的适应性。

进一步，实验采用人工数据集，利用合成图数据生成器GraphGen来生成了一系列的人工图数据，验证通过改变图的大小(通过改变图的平均节点个数和边数)分析GPC算法的效率。

图8是在人工数据集上进行的算法的可扩展性的一个实验，通过改变小图的平均节点个数来进行验证。当图的节点增加时，不同算法的运行时间都在增加，但是相对于其他算法GPC算法在节点平均度数超过40 后GPC算法增长率低于其他算法。实验表明GPC算法具有很好的可扩展性。因为GPC算法通过两次挖掘算法得到具有代表性的特征子图，利用特征子图对图数据进行属性表示，特征子图能有效的覆盖图数据，而且保证了模式尽量不重叠。而且在算法实现过程中，对原数据进行了两次优化。从而GPC算法在数据增大时仍然具有比较慢的增长率，而且能保证聚类的有效性。

根据本发明实施例的另一方面，本发明实施例还提供一种面向图数据的投影聚类装置，该装置包括：用于存储多个指令的存储器，用于执行所述存储器中存储的指令的处理器；执行多个指令包括：

针对待处理的图数据集D，采用深度优先搜索算法，获取图数据集D 中所有子图的代表性子图模式；

将所述图数据集D中的每一个子图与所述Top-k多样性子图模式集合RS中的特征子图进行投影匹配处理，获取所述图数据集D的特征矩阵；

上述的装置还可执行上述任意实施例的方法，具体参见上述描述，该处不再详述。本实施例的装置应用在任何的图数据处理中，可以实现高效聚类的同时，保持了聚类结果的多样性，从更高层分析图数据内部的组成结构，使得聚类结果更准确。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向图数据的投影聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤A1包括：

A11、对所述图数据集D进行初始化处理，获得图数据集D的频繁1-边子图，删掉不频繁的边和点；

其中，g为一个模式，e为一条边，代表模式g加了一条边e，supp(g)代表模式g出现的频率，代表模式同时出现的频率；代表距离公式的值，如果大于用户给定阈值，则认为g和经常一起出现。

3.根据权利要求2所述的方法，其特征在于，所述步骤A2包括：

A21、将所有代表性子图模式生成代表性子图模式集合SD；

4.根据权利要求3所述的方法，其特征在于，所述步骤A3包括：

RS＝{g₁,g₂…g_j，…g_n}，D＝{G₁,G₂…G_i，…G_n}；

将RS中的特征子图与D中的子图进行投影匹配，如果RS集合中的特征子图g_j被图数据集D中的子图G_i包含，则设置图G_i的第j维属性为1，否则为0；得到一个k维行向量表示的图G_i；

5.根据权利要求4所述的方法，其特征在于，所述步骤A4包括：

A41、对所述图数据集D的特征矩阵n*k进行标准化处理；

公式二：

其中，v_m表示第m个簇的簇中心，v_m＝[v_m1,v_m2,…,v_mk]，v_mj表示簇m的第j维属性，w_mj表示第j维属性和簇m的一个关联程度，w_mj∈[0,1]，w_mj越大则表示与该簇类的关联程度越高；|c_m|代表第m簇的子图个数，λ_m是拉格朗日因子，h_m为平衡因子，如果则否则h_m＝1；-w_mjlnw_mj表示属性权重熵，代表每个属性在簇内的确定性；(1-w_mj)ln(1-w_mj)表示各个簇类所在的子空间属性权重值存在的差异；

公式三：

公式四：

其中，λ_m通过公式四可得出；

重复步骤A43、步骤A44和步骤A45，直至满足|J_p+1-J_p|<ε时结束，此时获得的各个簇构成聚类结果，p+1和p分别代表先后执行的两次迭代。

6.根据权利要求5所述的方法，其特征在于：

图数据集D＝{G₁,G₂，…，G_i，…，G_n}，其中每个图Gi有k维属性，

Gi＝{a₁,a₂…a_k}，若聚类簇数为m，则聚类结果包括：m个簇C＝{C₁,C₂…C_m}，并且聚类结果的簇满足下述条件：

第一、|C|≤m；

第二、有sim(G_i,G_j)＝真true；并且

第三、C₁∪C₂…∪C_m＝D；有C_i∩C_j＝Φ；

7.根据权利要求3所述的方法，其特征在于，

图数据集D＝{G₁，G₂，…，G_i，…，G_n}，其中每个子图G_i有k维属性，生成的Top-k多样性子图模式集合RS满足下述条件：

第一、|RS|≤k；

第二、对于任意两个Top-k多样性子图模式g_i和g_j，若g_i≈g_j，那么

第三、使联合熵的度量函数值最大；

所述k为预先定义的最优解个数。

8.根据权利要求2所述的方法，其特征在于，所述步骤A11包括：

其中，1-边频繁子图指的是只有一条边的图。

9.根据权利要求3所述的方法，其特征在于，所述步骤A22包括：

A222、对于每一个蚂蚁先随机选择一个出发点i，并对其他模式j组成的联合模式进行初始化，把已经访问过的模式放在一个集合C_k中；

公式五：

其中表示由模式i转移到模式j的概率，τ_ij为路径(i,j)的信息素浓度，为路径(i,j)的信息素增量，H_im表示两个子图模式的信息增益函数，表示两个子图模式的信息增益函数，α和β表示信息素和启发信息相对重要性参数，模式i∈[1,n]和j∈[1,n]，k为常数,m为簇类数；

A227、优化信息素更新机制如下：

如果τ_ij＜τ_min那么τ_ij＝τ_min；

如果τ_ij＞τ_max那么τ_ij＝τ_max；

10.一种面向图数据的投影聚类装置，其特征在于，包括：用于存储多个指令的存储器，用于执行所述存储器中存储的指令的处理器；

执行多个指令包括：

针对所述代表性子图模式，获取所述图数据集D的Top-k多样性子图模式，将所有的Top-k多样性子图模式生成Top-k多样性子图模式集合RS；

将所述图数据集D中的每一个子图与所述Top-k子图模式集合RS中的特征子图进行投影映射匹配，获取所述图数据集D的特征矩阵；