CN109271541A

CN109271541A - 一种基于聚集图的语义结构查询方法

Info

Publication number: CN109271541A
Application number: CN201810980199.7A
Authority: CN
Inventors: 朱玉; 游进国
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-01-25
Anticipated expiration: 2038-08-27
Also published as: CN109271541B

Abstract

本发明涉及一种基于聚集图的语义结构查询方法，属于数据挖掘领域。本发明先对社交网络中的原图进行图聚集，将复杂庞大的社交网络进行压缩，然后对查询的语义结构用同样的聚集方法进行操作，并以邻接矩阵的形式分别储存这两个聚集图的点与边的信息，最后在原图的聚集图的邻接矩阵上对语义结构的聚集图查询。本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖，能够支持大型网络图中语义结构的快速查询。

Description

一种基于聚集图的语义结构查询方法

技术领域

本发明涉及一种基于聚集图的语义结构查询方法，属于数据挖掘领域。

背景技术

图数据的表达能力特别强，连续几年越来越受到工业界和学术界的共同关注。在社会计算的大数据时代对图查询进行研究，其意义更加突出。目前的图查询都是基于大图、非压缩数据的，对于聚集图的查询仍然是值得研究的方向。

海量的图数据需要高效的查询技术。目前大多数研究都是针对于原图直接查询，由于原图可能是一个内存比较大的数据，查询时耗时大，所占内存也比较大。

发明内容

本发明要解决的技术问题是提供一种基于聚集图的语义结构查询方法，目的在于在社交网络中查询针对研究比较有意义的语义结构；在降低空间开销的同时，具有较高的查询效率。

本发明采用的技术方案是：一种基于聚集图的语义结构查询方法，包括如下步骤：

数据预处理步骤：将庞大的社交网络和想要查找的语义结构用图的形式来表示，其中用点表示社交网络中的一员，点与点之间的边来表示每个人之间是否存在关系；

图聚集步骤：将得到的社交网络的原图和想要查询的语义结构星形图用BUS聚集算法聚集成两个新的聚集图；

匹配查询步骤：用邻接矩阵来存储聚集图的图信息，利用星形图的超点间强关联与超点内部弱关联来匹配查询。

所述数据预处理步骤，具体包括如下步骤：

步骤110：将庞大的社交网络中的每一员看作一个端点，若成员有关注的关系则视为两个端点之间有边存在，并构成一个原图；

步骤120：将两个以上人员关注同一人员的人员关系图表达为星形图，星形图来表示想要查询的语义结构。

所述图聚集步骤，具体包括如下步骤：

步骤210：将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图，发现星形结构聚集之后都为超点与超点之间概率为1，其中一个超点内部只有一个点，另一个超点内部有大于等于2个数的点，且该超点内部为弱关联。

所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组，具体为：

步骤220：每次选取两个分组进行凝聚，直至结果图的误差率不满足误差阈值为止，其中：1)两超点间可能存在的边总数Γ_ij；2)两超点间实际存在的边的总数E_ij，两者间的关联强度P＝E_ij/Γ_ij。

所述匹配查询步骤，具体包括如下步骤：

步骤310：将得到的原图的聚集图用邻接矩阵来存储图信息；

步骤320：在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵，根据超点上的概率和超点与超点之间的关联强度特征来进行查询。

所述步骤310，包括下列步骤311、312：

步骤311：在非对角线上存储超点与超点之间的关联强度关系；

步骤312：对角线上存储超点内部关系。

所述步骤320，包括下列步骤321、322、323：

步骤321：在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对，即为超点与超点之间为强关联，输出这些超点对；

步骤322：判断超点对中是否满足一个超点内只有一个点，另一个超点内的点数大于等于2，输出符合要求的超点对；

步骤323：判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2，输出符合的超点对，即查询成功。

所述BUS聚集算法包括如下步骤：

首先，获得想要聚集的原图的邻接矩阵，并记录各个点的度数；然后，广度优先遍历各个点，每次选取两个组进行凝聚，有效地将时间复杂度控制在多项式时间内；之后，条件熵选择最优分组；最后，出现条件熵值一样时，根据误差率的大小，选取误差率较小的分组。

本发明的有益效果是：本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖，能够支持大型网络图中语义结构的快速查询。

附图说明

图1是本发明的整体流程图；

图2是假设社交网络映射的原图；

图3是一种星形图；

图4是原图经过聚集之后的聚集图；

图5是星形图聚集效果；

图6是用邻接矩阵储存的数据图；

图7是匹配邻接矩阵过程图；

图8为图7中筛选出强链接的点对图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的说明。

实施例1：如图1-8所示，一种基于聚集图的语义结构查询方法，包括如下步骤：

图聚集步骤：将得到的社交网络的原图和想要查询的语义结构星形图用BUS(Bottom-Up graph Summarization)聚集算法聚集成两个新的聚集图；

进一步地，所述数据预处理步骤，具体包括如下步骤：

步骤110：将庞大的社交网络中的每一员看作一个端点，若成员有关注的关系则视为两个端点之间有边存在，并构成一个原图(如图2所示)；

步骤120：将两个以上人员关注同一人员(如明星和其庞大的粉丝群体)的人员关系图表达为星形图(如图3所示)，星形图来表示想要查询的语义结构。

进一步地，所述图聚集步骤，具体包括如下步骤：

步骤210：将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图(如图4，5所示)，发现星形结构聚集之后都为超点与超点之间概率为1，其中一个超点内部只有一个点，另一个超点内部有大于等于2个数的点，且该超点内部为弱关联。

进一步地，所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组，具体为：

进一步地，所述匹配查询步骤，具体包括如下步骤：

步骤310：将得到的原图的聚集图用邻接矩阵来存储图信息；

所述步骤310，包括下列步骤311、312(如图6所示)：

步骤312：对角线上存储超点内部关系。

所述步骤320，包括下列步骤321、322、323(如图7所示)：

步骤321：在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对，即为超点与超点之间为强关联，输出这些超点对：{1，2，3}，{1，7，8}，{7，8，4，5，6}；

步骤322：判断超点对中是否满足一个超点内只有一个点，另一个超点内的点数大于等于2，输出符合要求的超点对{1，2，3}，{1，7，8}；

步骤323：判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2，输出符合的超点对{1，7，8}，即查询成功。

进一步地，所述BUS聚集算法包括如下步骤：

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于聚集图的语义结构查询方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于聚集图的语义结构查询方法，其特征在于：所述数据预处理步骤，具体包括如下步骤：

3.根据权利要求2所述的基于聚集图的语义结构查询方法，其特征在于：所述图聚集步骤，具体包括如下步骤：

4.根据权利要求2所述的基于聚集图的语义结构查询方法，其特征在于：所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组，具体为：

5.根据权利要求2所述的基于聚集图的语义结构查询方法，其特征在于：所述匹配查询步骤，具体包括如下步骤：

步骤310：将得到的原图的聚集图用邻接矩阵来存储图信息；

6.根据权利要求5所述的基于聚集图的语义结构查询方法，其特征在于：所述步骤310，包括下列步骤311、312：

步骤312：对角线上存储超点内部关系。

7.根据权利要求6所述的基于聚集图的语义结构查询方法，其特征在于：所述步骤320，包括下列步骤321、322、323：

8.根据权利要求3或4所述的基于聚集图的语义结构查询方法，其特征在于：所述BUS聚集算法包括如下步骤：