CN111046248A

CN111046248A - 一种两类基于近似度分布的分层图抽样方法

Info

Publication number: CN111046248A
Application number: CN201911308971.1A
Authority: CN
Inventors: 贺樑; 朱君鹏; 吴雯
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-21

Abstract

本发明公开了一种两类基于近似度分布的分层图抽样方法，其特点采用k‑means聚类算法获取图中节点的近似度分布，并给出k‑means算法中k的最优值，统计不同层内节点的个数，得出指定比例下某层抽取节点数目的阈值，然后在图中采用基于边和基于随机游走的抽样策略，利用上述阈值筛选抽出的节点，并根据导出子图技术获取完整抽样子图，导出子图技术能够保证抽样子图的局部完整性，最后采用常用指标评价抽样结果的准确性。本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息，抽样准确度高，有效解决了抽样有偏性的问题。

Description

一种两类基于近似度分布的分层图抽样方法

技术领域

本发明涉及图数据分析和应用技术领域，尤其是一种两类基于近似度分布的分层图抽样方法。

背景技术

随着，现实世界的众多应用与前所未有的方式和速度产生并积累着大量数据，图作为一种有效描述大数据的数据结构，扮演者越来越重要的角色。在社交网络分析、推荐网络分析等研究领域，许多计算问题都能转化为一个基于图的问题，如何准确地建模并高效地分析它们，逐渐成为数据分析领域的研究热点。在图模型中，自然界的实体被抽象为点，它们之间的关系被抽样成边，如何快速且高效地分析和挖掘图数据中蕴含的大量有价值的信息成为当前图数据分析领域的研究重点。不同学科从不同角度入手均进行了有价值地分析，计算机科学的飞速发展使得图分析与挖掘的研究工作取得了巨大的进展，优秀的研究成果层出不穷。

近几年，由于大规模图分析应用领域的飞速发展，致使图数据规模急剧增长，抽样技术作为有效地数据规约方法被广泛应用，这都推动了计算机科学家对图抽样算法的研究。目前，图抽样算法大致分为三种类型：基于点选择策略的随机抽样算法、基于边选择策略的随机抽样算法和基于图拓扑结构的抽样算法。早期对图抽样算法的研究局限于静态小规模图的抽样，它们通常假设图数据规模较小，并且能够全部放入主存。直到2006年，Leskovec首次提出了针对大规模图数据的抽样算法FFS，文中首次汇总了15个常见的抽样结果度量标准，同时该文指出，在抽样过程中，基于点选择策略的抽样算法易于偏向抽取低度节点，基于边选择策略的抽样算法易于偏向抽取高度节点，基于拓扑结构的抽样算法易于偏向抽取高度节点。同时还提出将15％和20％作为最佳的抽样比例，进一步增强了图分析领域人员对图抽样算法的认识。文中还指出，有偏抽样大大降低了抽样结果准确性。2010年，Gjoka提出了MHRW算法，该算法基于Markov-chain Monte Carlo(MCMC)算法，它被证明是实现无偏性图抽样的一个较好的解决方案。2016年，Luping Yu的论文总结了现有性能较优的图抽样算法，并采用真实世界的图数据集评估了算法的抽样性能。图抽样技术不仅在理论研究方面发展迅速，而且在图抽样应用方面也有诸多成果。Rafiei提出可以在大规模图中使用抽样技术高效地实现可视化。Yanhong Wu在2016年提出图抽样的可视化观点，该文指出，抽样方法应该重视图数据集中的高度节点，即高度节点应该被作为重要的可视化因子，该文针对高度节点提出了一系列假设，并通过实验验证了假设的正确性。

现有技术在一次抽样过程中存在着抽样有偏性的问题，抽样准确度差，想要提高抽样精确度，只能通过大量重复抽样，在大数据时代，重复多次抽样显得不切实际。

发明内容

本发明的目的是针对现有技术的不足而设计的一种两类基于近似度分布的分层图抽样方法，采用k-means聚类算法获取图中节点的近似度分布，利用不同层抽样节点数阈值筛选节点，以获取抽样子图中的特征参数，并评价抽样结果的准确性。通过使用图的度分布特性，自动获得图的近似度分布，从而避免通过统计获得节点的度分布，并给出了近似度分布的计算方法，统计不同层内节点的个数，得出指定比例下某层抽取节点的阈值，在大规模图中采用基本抽样算法，实现基于近似度分布的筛选策略，从而达到调整一次抽样过程中存在的抽样有偏性问题；接着利用导出子图技术，得到相对完整的局部子图，能够快速挖掘大规模图中隐藏的有价值的信息。

本发明的目的是这样实现的：一种两类基于近似度分布的分层图抽样方法，其特点具体包括以下步骤：

步骤一：采用k-means聚类算法获取图中节点的近似度分布，并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值，统计不同层内节点的个数，得出指定比例下某层抽取节点数目的阈值。

步骤二：在图中采用基于边和基于随机游走的抽样策略，利用上述阈值筛选抽出的节点。

步骤三：根据导出子图技术获取局部完整的抽样子图。

步骤四：获取抽样子图中的特征参数，评价抽样结果的准确性。

本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息，抽样准确度高，有效解决了抽样有偏性的问题，无需在大数据场景下进行多次重复抽样便可得到更为准确的评估结果，这在大数据时代显得尤为重要。

附图说明

图1为本发明流程示意图；

图2为本发明的k值选择图；

图3为实施例1的分层图算图。

具体实施方式

参阅附图1，本发明按下述步骤实现两类基于近似度分布的分层图抽样：

步骤一：采用k-means聚类算法获取图中节点的近似度分布；

参阅附图2，结合理论和实验给出k-means算法中k的最优值，统计不同层内节点的个数，得出指定比例下某层抽取节点数目的阈值。

步骤二：在图中采用基于边和基于随机游走的抽样策略，利用上述阈值筛选抽出的节点，这能够消除当前图抽样方法在一次抽样过程中存在的抽样有偏性问题，提高抽样准确度。

步骤三：根据导出子图技术获取完整抽样子图，导出子图技术能够保证抽样子图的局部完整性。

下面以具体实施为例对本发明作进一步阐述：

实施例1

将抽样子集定义为两个2元组(N,N_state)和(E,E_state)，其中：N_state和E_state分别表示数据集中点和边是否已经被抽取，使得能够方便地表示不放回抽样；N和E分别表示图中定义的节点与边。本发明通过使用图的度分布特性，自动获得图的近似度分布，从而避免通过统计获得节点的度分布，并给出了近似度分布的计算方法，统计不同层内节点的个数，得出指定比例下某层抽取节点的阈值；在大规模图中采用基本抽样算法，并实现基于近似度分布的筛选策略，从而达到调整一次抽样过程中存在的抽样有偏性问题；接着利用导出子图技术，得到相对完整的局部子图，能够快速挖掘大规模图中隐藏的有价值的信息，具体操作步骤如下：

步骤一：采用k-means聚类算法获取图中节点的近似度分布

参阅附图3，结合理论和实验给出k-means算法中k的最优值，统计不同层内节点的个数，得出指定比例下某层抽取节点数目的阈值。用统计学的观点来看，获取不同节点的度分布实际上是获取不同度数值在整个数据集中的数量，不同度的节点数目与节点度大小形成的曲线就是度分布曲线。由于不同的数据集，度大小范围不同，如果试图获取节点的精确度分布，耗时且没有必要，并且对于算法设计而言，可操作性不强。在图数据中，不同节点的度具有无标度特性，即不同节点的度服从幂律分布(近似80～20分布)，考虑是否能够高效地得到节点的近似度分布，随后依据节点的近似度分布给出整体的一个最优分割。本发明认为向量聚类算法能够高效地得到节点的近似度分布。在数据挖掘技术中，有许多向量聚类算法，如k-means、k-medoids、DBSCAN、HDBSCAN、EM等。DBSCAN、HDBSCAN、EM和k-medoids算法的时间复杂度均为多项式时间[5]，并且DBSCAN在使用过程中需要给出两个参数，其中一个参数是半径Eps，表示以给定点P为中心的圆形邻域的范围；另一个参数是以点P为中心的邻域内最少点的数量MinPts，对于不同数据集的不同度区间，这种参数设置显然难度极大，如果非要采用DBSCAN算法(考虑到DBSCAN算法聚类结果精确性高)，就必须要解决参数设置问题，这或许能够通过从不同数据集中训练学习获取，这种考虑主要是源于在算法设计过程中对算法精度和时间复杂度的折中。

本实施例选择使用k-means算法获取节点的近似度分布，主要有以下原因：首先k-means算法渐进时间复杂度近乎为线性时间，这使得新的图抽样算法不改变base-line算法的渐进时间复杂度；其次k-means算法被证明在实现数值型数据聚类时比其它算法有更多的优势，且简单、高效。使用k-means算法聚类时，需要设置簇数目k，当聚类结果未知时，轮廓系数能够较为准确地确定最优簇数目值。轮廓系数(Silhouette Coefficient)用来度量聚类结果中不同簇之间的分离程度，能够用来选择最佳的簇数目k，其定义如下述a式：

其中：i表示数据集中的任意数据对象,；a(i)表示i到同一簇内其它数据对象之间的平均距离(即数据挖掘技术中提出的cohesion，术语内聚度，用来表示同一簇内点的聚集程度)；b(i)表示i到其它簇数据对象之间的最小距离(即数据挖掘技术中提出的isolation，术语隔离度，表示不同簇间点的分离程度)，平均轮廓系数如下述b式定义:

步骤二：在图中采用基于边和基于随机游走的抽样策略

利用上述阈值筛选抽出的节点，这能够消除当前图抽样方法在一次抽样过程中存在的抽样有偏性问题，提高抽样准确度。

步骤三：根据导出子图技术获取完整抽样子图

导出子图技术能够保证抽样子图的局部完整性。

步骤四：评价抽样结果

获取抽样子图中的特征参数，评价抽样结果的准确性。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种两类基于近似度分布的分层图抽样方法，其特征在于该分层图抽样方法具体包括以下步骤：

步骤一：采用k-means聚类算法获取图中节点的近似度分布，并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值，统计不同层内节点的个数，得出指定比例下某层抽取节点数目的阈值；

步骤二：在图中采用基于边和基于随机游走的抽样策略，利用上述阈值筛选抽出的节点；

步骤三：利用导出子图技术获取局部完整的抽样子图；