CN104102699B

CN104102699B - 一种聚簇图集合中的子图检索方法

Info

Publication number: CN104102699B
Application number: CN201410313170.5A
Authority: CN
Inventors: 丁晓锋; 金海�; 贾建红; 徐慧
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2018-01-26
Anticipated expiration: 2034-07-01
Also published as: CN104102699A

Abstract

本发明公开了一种聚簇图集合中的子图检索方法，包括：索引建立步骤，根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之间的相似性，根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类，直到剩下一个聚簇图；子图检索步骤；根据用户发起查询图的结构以及顶点属性，对聚簇图索引树采用树的自顶向下的方式进行查询图的同构匹配。本发明通过在数据集合中建立树形索引，尽早过滤不包含查询图的数据项，进行加快查询速度，提高查询效率。

Description

一种聚簇图集合中的子图检索方法

技术领域

本发明属于图形数据检索技术领域，更具体地，涉及一种聚簇图集合中的子图检索方法。

背景技术

图形数据被广泛作为社交应用的数学模型，为了防止恶意攻击者根据用户特有的好友关系还原用户并获取用户的敏感信息，科技工作者设计了各种各样的匿名方法。聚簇化是将属性和结构相近的用户组合到一起，对外呈现同一属性和结构的方式。聚簇化后，数据拥有者将数据发布到开放的数据共享平台以供科技工作者利用社交应用的数据进行相关的研究工作。但是，由于聚簇化后的图数据匹配中，结点之间存在一对多的映射关系，目前尚未存在有效子图检索技术用于解决该类型数据集合中的子图检索问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的是提供一种聚簇图集合中的子图检索方法，其通过为聚簇图集合建立树形索引，尽早过滤掉不符合查询约束的聚簇图数据项，缩小查询空间，进而提高检索效率。

为实现上述目的，本发明提供了一种聚簇图集合中的子图检索方法，所述包括以下步骤：

(1)索引建立步骤：根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之间的相似性，根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类，直到剩下一个聚簇图，从而将聚簇图集合转化成聚簇图索引树；

(2)子图检索步骤：根据用户发起查询图的结构以及顶点属性，对聚簇图索引树采用树的自顶向下的方式进行查询图的同构匹配；若某中间聚簇图不包含查询图，则其子孙节点代表的聚簇图不需要进行匹配，因此将该中间聚簇图及其子孙过滤掉；若某节点代表的聚簇图包含查询图，若该聚簇图不是数据图，则将其孩子节点表示的聚簇图加入待检测队列，若该聚簇图是数据图，则将其加入结果集；最终将结果集合返回给用户。

本发明的一个实施例中，所述步骤(1)中根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之间的相似性具体根据下式计算：

任意两个聚簇图G₁和G₂之间的相似性为

其中：

公式用于计算顶点u发生的信息损失，用于计算属性信息损失，用于计算结构信息损失；ω为权重参数，用于调节信息损失中属性信息损失和结构信息损失之间的权重；L表示顶点属性的个数，表示顶点u所在结点的第l个属性的范围或等级，表示顶点u所在结点联合之后相应属性的范围；P_clo表示图形联合后，内部两个结点之间被连接的概率，P_ori表示联合前的相应概率，用于表示联合后结点内的结构信息损失；deg(u)表示顶点u所在结点的好友个数，deg(V_C)表示顶点u所在结点联合后相应结点的好友个数，用于计算联合时结点间的信息损失；联合一个结点时，结点内所有顶点的信息损失是相同的；

公式用于计算联合后得到的图闭包closure中结点V_C的信息损失，|V_C|表示联合后图中结点内包含的顶点个数，IL(u)表示联合后图结点内某顶点的信息损失，联合后的信息损失由联合前的所有顶点信息损失的平均值表示；

公式用于根据两个聚簇图联合时的结点信息损失计算两项图联合的信息损失，其中，G_C是G₁和G₂的closure，G_C＝Closure(G₁,G₂)，f是两个图进行联合时的映射，公式表示两项聚簇图联合时，结点联合的信息损失的最小值表示联合两项图的信息损失，取得该最小值的映射称为最优映射，该最小值可作为图集合聚类的度量。

本发明的一个实施例中，所述步骤(1)中根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类，直到剩下一个聚簇图，具体包括：

(2-1)选择相似性最大的两个聚簇图；

(2-2)根据计算两个聚簇图信息损失时得到的最优映射，联合两个聚簇图，泛化相应匹配结点的属性，组合结点内部的顶点数和边数，以及结点之间的边数；

(2-3)将步骤(2-2)中所得的联合后的聚簇图作为普通聚簇图，若该聚簇图并非只有一个聚簇图，则计算该聚簇图与其他聚簇图之间的相似性，跳到步骤(2-1)；

(2-4)否则，将该聚簇图即为树形检索结构的根节点，该聚簇图即为检索入口，索引建立步骤结束。

本发明的一个实施例中，所述步骤(2)具体包括：

(4-1)初始化遍历队列，并将索引树的根节点加入队列；

(4-2)检测遍历队列是否为空；

(4-3)若为空，则跳转步骤(4-9)；

(4-4)若不为空，取遍历队列的队首节点，检测其是否满足查询要求；

(4-5)若该节点不满足查询要求，则跳转步骤(4-2)；

(4-6)检测该节点是否为数据集合中的数据图，

(4-7)若该节点不是数据集合中的数据图，则将其子孙节点加入遍历队列，跳转步骤(4-2)；

(4-8)否则，将该节点加入结果集；

(4-9)返回结果集。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)索引的可扩展性：可在理论上证明该索引树与数据集合的大小存在线性关系，便于数据集合的扩展；

(2)索引的高效性：理论上，索引树可以使得检测范围缩小到数据集合的对数级别，但是由于图形数据组合的复杂性，使其索引范围高于对数级别，平均可缩小50％；

(3)索引的可并行性：采用与R-tree检索类似的方式建立聚簇图集合中的树形索引，该索引具有天然的可并行性，可使其较为方便的移植到分布式环境下；

(4)解决图匹配中一对多的映射关系：不同于传统图匹配问题中查询图顶点与数据图节点之间一对一的映射关系，一个聚簇图数据结点可能包含多个查询顶点，本发明中的子图检索方法采用状态转移的策略解决了该问题。

附图说明

图1为本发明一实施例中属性泛化过程示意图，其中：

图1(a)为数值型属性泛化过程示意图；

图1(b)为字符型属性泛化过程示意图；

图2为本发明一实施例中原始图的聚簇化过程，其中：

图2(a)为原始图的数据形式；

图2(b)为图2(a)的聚类结果；

图3为本发明聚簇图中的子图检索的方法流程图；

图4为本发明方法中步骤(2)的细化流程图；

图5为本发明方法中步骤(4)的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明是通过以下技术方案实现的，一种聚簇图集合中的子图检索方法，包括索引建立步骤和子图检索步骤，其中：

索引建立步骤：根据聚簇图的结构信息和结点属性计算数据集合中聚簇图之间的相似性，采用层次聚类算法将聚簇图聚类，使其对外呈现相同的属性与结构。根据给定的参数约束，重复该过程，直到剩下一个聚簇图，该聚簇图涵盖了数据集合中所有聚簇图的结构与属性。层次聚类使得聚簇图集合建立了一个树形的索引结构。

子图检索步骤：根据用户发起查询图的结构以及顶点属性，采用树的自顶向下的方式进行查询图的同构匹配；若某中间聚簇图不包含查询图，则其子孙节点代表的聚簇图不需要进行匹配，因此将该中间聚簇图及其子孙过滤掉；若某节点代表的聚簇图包含查询图，若该聚簇图不是数据图，则将其孩子节点表示的聚簇图加入待检测队列，若该聚簇图是数据图，则将其加入结果集；最终将结果集合返回给用户。

首先介绍由泛化引起的信息损失的概念，由泛化引起的信息损失包括属性信息损失和结构信息损失。

属性信息损失由属性数据泛化引起，结点的属性由于泛化而变得模糊，相比较原有数据，精确程度有一定损失，从而造成一定的信息损失；一般情况下,属性包括数值型属性和字符型属性。数值型属性包括薪水、年龄、邮编等；而字符型属性包括地址、疾病等。不同类型的属性，泛化过程不同。示例如图1所示。

数值型属性泛化过程如图1(a)所示，示例中，23岁和25岁被聚集到一起，以区间[23，25]表示，之后，该泛化结果再与28泛化，最终得到23、25、28的泛化的结果区间[23，28]。字符型属性泛化过程如图1(b)所示，示例中，地域Beijing和Shanghai被泛化为China，之后，China与India和Japan三者被泛化为Asia。

结构信息损失由图形数据的结构泛化引起，原始图的聚簇化过程如图2所示。图2(a)中为原始图的数据形式，通过一定的策略，图2(a)中的三角顶点和圆点顶点分别被聚类到一起形成一个超级结点，聚类结果如图2(b)所示。每一个超级结点由所包含的顶点的属性的泛化结果标识，同时，每一个超级结点标注所包含的顶点个数和边数，如图2(b)中标注矩形超级结点的(2,1)和椭圆超级结点的(3,2)；超级结点之间的链接由分别处于两个被连接的超级结点中的顶点之间的边决定，如图2(b)中矩形结点和椭圆结点之间的边标注为3。由于上述的泛化过程，泛化后的结果无法如泛化前精确表示数据，如椭圆结点的(3,2)无法准确描述两条边如何存在于三个顶点之间；结点之间的边数3无法准确描述三条边如何存在于两个圆点顶点和三个三角顶点之间。这即为由于结构的泛化造成的信息损失，称为结构信息损失。

具体地，索引建立步骤，首先计算聚簇图数据项之间的相似性：两个图形数据进行联合时，计算各个结点之间进行映射的属性信息损失，利用匈牙利算法计算最优映射，根据最优映射计算两个聚簇图数据项联合时的结构信息损失；根据属性信息损失和结构信息损失计算两个聚簇图数据项之间的相似性；将相似性最大的两个聚簇图进行联合；重复上述步骤，直到数据集合中只存在一个聚簇图作为索引的根节点。信息损失计算公式如下所示：

公式(1)中IL(u)为顶点u发生的信息损失，IL为information loss的略写。ω为权重参数，用于调节信息损失中属性信息损失和结构信息损失之间的权重；L表示顶点属性的个数，表示顶点u所在结点的第l个属性的范围(对于数值型属性)或等级(对于字符型属性)，表示顶点u所在结点联合之后形成的新结点V_C的相应属性的范围，公式(1)前半部分计算属性信息损失，后半部分计算结构信息损失，P_clo表示图形联合后形成的聚簇图中，结点内两个顶点之间被连接的概率，P_ori表示联合前的结点内两个顶点之间被连接的概率，用于表示联合后结点内的结构信息损失；deg(u)表示顶点u所在结点的邻居结点个数，deg(V_C)表示顶点u所在结点联合后相应结点的邻居结点个数，用于计算联合时结点间的信息损失；联合一个结点时，结点内所有顶点的信息损失是相同的。公式(2)计算联合后得到的聚簇图中结点V_C的信息损失，|V_C|表示联合后图中结点内包含的顶点个数，IL(u)表示联合后图结点内某顶点的信息损失，联合后的信息损失由联合前的所有顶点信息损失的平均值表示。公式(3)根据两个聚簇图联合时的结点信息损失计算两项图联合的信息损失，其中，G_C是G₁和G₂的聚簇化后的图形数据，G_C＝Closure(G₁,G₂)，f是两个图进行联合时的映射。公式(3)表示两项聚簇图联合时，结点联合的信息损失的最小值表示联合两项图的信息损失，取得该最小值的映射称为最优映射，该最小值可作为图集合聚类的度量。公式(4)根据聚簇图联合的信息损失计算两项聚簇图的相似程度，IL(G₁,G₂)为G₁和G₂联合时的信息损失，加1是为了避免IL(G₁,G₂)为零时出现除数为零的情况。公式(4)表明两个聚簇图联合的信息损失越小，则其越相似。顶点表示最原始图中的点，每一个顶点表示一个个体；结点表示聚簇图中的点，每个结点可能包含多个个体；节点表示检索树中的点。

子图检索步骤中，根据用户发起的查询图以及索引树，采用自顶向下层次遍历的方式检索索引树。首先将根节点加入待检测队列，依次从遍历队列中取出队首节点，检测其是否满足用户查询约束，如不满足查询约束，则将该节点及其子孙节点过滤掉，如满足查询要求，则继续检测该节点是否为数据节点，若是，则将其加入结果集中，如不是数据节点，则将其加入遍历队列中；再次从遍历队列中取出队首节点，重复该过程，直到队列为空。最终，将结果集返回给用户。

子图匹配，由于聚簇图自身的特点，在子图匹配中存在着不同于传统一对一的映射关系，而是一对多的映射关系，即一个数据结点可能包含多个查询顶点。本发明中了实现数据图与查询图之间一对多的映射匹配。

算法中，首先计算数据图与查询图结点的属性兼容关系(数据结点的属性范围包含查询顶点的属性，表示属性兼容)，如任一查询图的顶点在数据图中未找到与之兼容的数据结点，则匹配失败；否则利用状态转移的思想，根据当前已匹配的结点计算候选结点的匹配，将所有候选匹配加入候选集合，从候选集合中选择任一匹配，加入结果集，重复该计算过程直到得到映射结果，否则，回滚匹配集合至最近匹配状态，选择另一匹配，重复计算过程，直到匹配集合包含所有查询顶点，将匹配结果返回，或者回滚至初始化状态，即没有得到映射结果，则匹配失败。

如图3所示，本发明一种聚簇图数据的子图检索方法包括以下步骤：

(1)计算聚簇图集合中聚簇图数据项之间的相似性，相似性由聚簇图联合的信息损失决定，见公式(4)；

(2)采用层次聚类算法将聚簇图集合中的数据项进行聚类，重复聚类直到剩下一个聚簇图；

在本步骤中，根据聚簇图的结构和结点属性信息计算聚簇图联合的信息损失，利用匈牙利算法计算最优映射，如图4所示，具体包括以下子步骤：

(2-1)选择相似性最大的两个聚簇图；

(2-4)否则，将该聚簇图即为树形检索结构的根节点，该聚簇图即为检索入口，索引建立步骤结束；

(3)用户发起查询；

(4)采用树的层次遍历思想，根据用户查询图检索索引树，得到查询图的结果集，返回用户查询结果，如图5所示，具体包括以下子步骤：

(4-1)初始化遍历队列，并将索引树的根节点加入队列；

(4-2)检测遍历队列是否为空；

(4-3)若为空，则跳转步骤(4-9)；

(4-5)若该节点不满足查询要求，则跳转步骤(4-2)；

(4-6)检测该节点是否为数据集合中的数据图，

(4-8)否则，将该节点加入结果集；

(4-9)返回结果集。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种聚簇图集合中的子图检索方法，其特征在于，所述方法包括以下步骤：

所述步骤(1)中根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之间的相似性具体根据下式计算：

任意两个聚簇图G₁和G₂之间的相似性为

其中：

<mrow> <mi>I</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>G</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>min</mi> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>V</mi> <mi>C</mi> </msub> <mo>&Element;</mo> <msub> <mi>G</mi> <mi>C</mi> </msub> </mrow> </munder> <mi>I</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>C</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>I</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>C</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>V</mi> <mi>C</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <msub> <mi>V</mi> <mi>C</mi> </msub> </mrow> </munder> <mi>I</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>I</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&omega;</mi> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mover> <mrow> <msub> <mi>R</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mover> <mrow> <msub> <mi>R</mi> <msub> <mi>V</mi> <mi>C</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mfrac> <msub> <mi>P</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>o</mi> </mrow> </msub> <msub> <mi>P</mi> <mrow> <mi>o</mi> <mi>r</mi> <mi>i</mi> </mrow> </msub> </mfrac> </mrow> <mo>)</mo> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>deg</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>deg</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>C</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

公式IL(u)用于计算顶点u发生的信息损失，用于计算属性信息损失，用于计算结构信息损失；ω为权重参数，用于调节信息损失中属性信息损失和结构信息损失之间的权重；L表示顶点属性的个数，表示顶点u所在结点的第l个属性的范围或等级，表示顶点u所在结点联合之后形成的新结点V_c的相应属性的范围；P_clo表示图形联合后，结点内部两个顶点之间被连接的概率，P_ori表示联合前的结点内部两个顶点之间被连接的相应概率，用于表示联合后结点内的结构信息损失；deg(u)表示顶点u所在结点的邻居结点个数，deg(V_C)表示顶点u所在结点联合后相应结点的邻居结点个数，用于计算联合时结点间的信息损失；联合一个结点时，结点内所有顶点的信息损失是相同的；

公式用于根据两个聚簇图联合时的结点信息损失计算两项图联合的信息损失，其中，G_C是G₁和G₂的closure，G_C＝Closure(G₁,G₂)，f是两个图进行联合时的映射，公式表示两项聚簇图联合时，结点联合的信息损失的最小值表示联合两项图的信息损失，取得该最小值的映射称为最优映射，该最小值可作为图集合聚类的度量；

2.根据权利要求1所述方法，其特征在于，所述步骤(1)中根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类，直到剩下一个聚簇图，具体包括：

(2-1)选择相似性最大的两个聚簇图；

3.根据权利要求1所述方法，其特征在于，所述步骤(2)具体包括：

(4-1)初始化遍历队列，并将索引树的根节点加入队列；

(4-2)检测遍历队列是否为空；

(4-3)若为空，则跳转步骤(4-9)；

(4-5)若该节点不满足查询要求，则跳转步骤(4-2)；

(4-6)检测该节点是否为数据集合中的数据图，

(4-8)否则，将该节点加入结果集；

(4-9)返回结果集。