CN111046248A - 一种两类基于近似度分布的分层图抽样方法 - Google Patents

一种两类基于近似度分布的分层图抽样方法 Download PDF

Info

Publication number
CN111046248A
CN111046248A CN201911308971.1A CN201911308971A CN111046248A CN 111046248 A CN111046248 A CN 111046248A CN 201911308971 A CN201911308971 A CN 201911308971A CN 111046248 A CN111046248 A CN 111046248A
Authority
CN
China
Prior art keywords
sampling
graph
nodes
subgraph
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911308971.1A
Other languages
English (en)
Inventor
贺樑
朱君鹏
吴雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201911308971.1A priority Critical patent/CN111046248A/zh
Publication of CN111046248A publication Critical patent/CN111046248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了一种两类基于近似度分布的分层图抽样方法,其特点采用k‑means聚类算法获取图中节点的近似度分布,并给出k‑means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值,然后在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,并根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性,最后采用常用指标评价抽样结果的准确性。本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题。

Description

一种两类基于近似度分布的分层图抽样方法
技术领域
本发明涉及图数据分析和应用技术领域,尤其是一种两类基于近似度分布的分层图抽样方法。
背景技术
随着,现实世界的众多应用与前所未有的方式和速度产生并积累着大量数据,图作为一种有效描述大数据的数据结构,扮演者越来越重要的角色。在社交网络分析、推荐网络分析等研究领域,许多计算问题都能转化为一个基于图的问题,如何准确地建模并高效地分析它们,逐渐成为数据分析领域的研究热点。在图模型中,自然界的实体被抽象为点,它们之间的关系被抽样成边,如何快速且高效地分析和挖掘图数据中蕴含的大量有价值的信息成为当前图数据分析领域的研究重点。不同学科从不同角度入手均进行了有价值地分析,计算机科学的飞速发展使得图分析与挖掘的研究工作取得了巨大的进展,优秀的研究成果层出不穷。
近几年,由于大规模图分析应用领域的飞速发展,致使图数据规模急剧增长,抽样技术作为有效地数据规约方法被广泛应用,这都推动了计算机科学家对图抽样算法的研究。目前,图抽样算法大致分为三种类型:基于点选择策略的随机抽样算法、基于边选择策略的随机抽样算法和基于图拓扑结构的抽样算法。早期对图抽样算法的研究局限于静态小规模图的抽样,它们通常假设图数据规模较小,并且能够全部放入主存。直到2006年,Leskovec首次提出了针对大规模图数据的抽样算法FFS,文中首次汇总了15个常见的抽样结果度量标准,同时该文指出,在抽样过程中,基于点选择策略的抽样算法易于偏向抽取低度节点,基于边选择策略的抽样算法易于偏向抽取高度节点,基于拓扑结构的抽样算法易于偏向抽取高度节点。同时还提出将15%和20%作为最佳的抽样比例,进一步增强了图分析领域人员对图抽样算法的认识。文中还指出,有偏抽样大大降低了抽样结果准确性。2010年,Gjoka提出了MHRW算法,该算法基于Markov-chain Monte Carlo(MCMC)算法,它被证明是实现无偏性图抽样的一个较好的解决方案。2016年,Luping Yu的论文总结了现有性能较优的图抽样算法,并采用真实世界的图数据集评估了算法的抽样性能。图抽样技术不仅在理论研究方面发展迅速,而且在图抽样应用方面也有诸多成果。Rafiei提出可以在大规模图中使用抽样技术高效地实现可视化。Yanhong Wu在2016年提出图抽样的可视化观点,该文指出,抽样方法应该重视图数据集中的高度节点,即高度节点应该被作为重要的可视化因子,该文针对高度节点提出了一系列假设,并通过实验验证了假设的正确性。
现有技术在一次抽样过程中存在着抽样有偏性的问题,抽样准确度差,想要提高抽样精确度,只能通过大量重复抽样,在大数据时代,重复多次抽样显得不切实际。
发明内容
本发明的目的是针对现有技术的不足而设计的一种两类基于近似度分布的分层图抽样方法,采用k-means聚类算法获取图中节点的近似度分布,利用不同层抽样节点数阈值筛选节点,以获取抽样子图中的特征参数,并评价抽样结果的准确性。通过使用图的度分布特性,自动获得图的近似度分布,从而避免通过统计获得节点的度分布,并给出了近似度分布的计算方法,统计不同层内节点的个数,得出指定比例下某层抽取节点的阈值,在大规模图中采用基本抽样算法,实现基于近似度分布的筛选策略,从而达到调整一次抽样过程中存在的抽样有偏性问题;接着利用导出子图技术,得到相对完整的局部子图,能够快速挖掘大规模图中隐藏的有价值的信息。
本发明的目的是这样实现的:一种两类基于近似度分布的分层图抽样方法,其特点具体包括以下步骤:
步骤一:采用k-means聚类算法获取图中节点的近似度分布,并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。
步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点。
步骤三:根据导出子图技术获取局部完整的抽样子图。
步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。
本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题,无需在大数据场景下进行多次重复抽样便可得到更为准确的评估结果,这在大数据时代显得尤为重要。
附图说明
图1为本发明流程示意图;
图2为本发明的k值选择图;
图3为实施例1的分层图算图。
具体实施方式
参阅附图1,本发明按下述步骤实现两类基于近似度分布的分层图抽样:
步骤一:采用k-means聚类算法获取图中节点的近似度分布;
参阅附图2,结合理论和实验给出k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。
步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,这能够消除当前图抽样方法在一次抽样过程中存在的抽样有偏性问题,提高抽样准确度。
步骤三:根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性。
步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。
下面以具体实施为例对本发明作进一步阐述:
实施例1
将抽样子集定义为两个2元组(N,Nstate)和(E,Estate),其中:Nstate和Estate分别表示数据集中点和边是否已经被抽取,使得能够方便地表示不放回抽样;N和E分别表示图中定义的节点与边。本发明通过使用图的度分布特性,自动获得图的近似度分布,从而避免通过统计获得节点的度分布,并给出了近似度分布的计算方法,统计不同层内节点的个数,得出指定比例下某层抽取节点的阈值;在大规模图中采用基本抽样算法,并实现基于近似度分布的筛选策略,从而达到调整一次抽样过程中存在的抽样有偏性问题;接着利用导出子图技术,得到相对完整的局部子图,能够快速挖掘大规模图中隐藏的有价值的信息,具体操作步骤如下:
步骤一:采用k-means聚类算法获取图中节点的近似度分布
参阅附图3,结合理论和实验给出k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。用统计学的观点来看,获取不同节点的度分布实际上是获取不同度数值在整个数据集中的数量,不同度的节点数目与节点度大小形成的曲线就是度分布曲线。由于不同的数据集,度大小范围不同,如果试图获取节点的精确度分布,耗时且没有必要,并且对于算法设计而言,可操作性不强。在图数据中,不同节点的度具有无标度特性,即不同节点的度服从幂律分布(近似80~20分布),考虑是否能够高效地得到节点的近似度分布,随后依据节点的近似度分布给出整体的一个最优分割。本发明认为向量聚类算法能够高效地得到节点的近似度分布。在数据挖掘技术中,有许多向量聚类算法,如k-means、k-medoids、DBSCAN、HDBSCAN、EM等。DBSCAN、HDBSCAN、EM和k-medoids算法的时间复杂度均为多项式时间[5],并且DBSCAN在使用过程中需要给出两个参数,其中一个参数是半径Eps,表示以给定点P为中心的圆形邻域的范围;另一个参数是以点P为中心的邻域内最少点的数量MinPts,对于不同数据集的不同度区间,这种参数设置显然难度极大,如果非要采用DBSCAN算法(考虑到DBSCAN算法聚类结果精确性高),就必须要解决参数设置问题,这或许能够通过从不同数据集中训练学习获取,这种考虑主要是源于在算法设计过程中对算法精度和时间复杂度的折中。
本实施例选择使用k-means算法获取节点的近似度分布,主要有以下原因:首先k-means算法渐进时间复杂度近乎为线性时间,这使得新的图抽样算法不改变base-line算法的渐进时间复杂度;其次k-means算法被证明在实现数值型数据聚类时比其它算法有更多的优势,且简单、高效。使用k-means算法聚类时,需要设置簇数目k,当聚类结果未知时,轮廓系数能够较为准确地确定最优簇数目值。轮廓系数(Silhouette Coefficient)用来度量聚类结果中不同簇之间的分离程度,能够用来选择最佳的簇数目k,其定义如下述a式:
Figure BDA0002323981340000051
其中:i表示数据集中的任意数据对象,;a(i)表示i到同一簇内其它数据对象之间的平均距离(即数据挖掘技术中提出的cohesion,术语内聚度,用来表示同一簇内点的聚集程度);b(i)表示i到其它簇数据对象之间的最小距离(即数据挖掘技术中提出的isolation,术语隔离度,表示不同簇间点的分离程度),平均轮廓系数如下述b式定义:
Figure BDA0002323981340000052
步骤二:在图中采用基于边和基于随机游走的抽样策略
利用上述阈值筛选抽出的节点,这能够消除当前图抽样方法在一次抽样过程中存在的抽样有偏性问题,提高抽样准确度。
步骤三:根据导出子图技术获取完整抽样子图
导出子图技术能够保证抽样子图的局部完整性。
步骤四:评价抽样结果
获取抽样子图中的特征参数,评价抽样结果的准确性。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (1)

1.一种两类基于近似度分布的分层图抽样方法,其特征在于该分层图抽样方法具体包括以下步骤:
步骤一:采用k-means聚类算法获取图中节点的近似度分布,并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值;
步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点;
步骤三:利用导出子图技术获取局部完整的抽样子图;
步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。
CN201911308971.1A 2019-12-18 2019-12-18 一种两类基于近似度分布的分层图抽样方法 Pending CN111046248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911308971.1A CN111046248A (zh) 2019-12-18 2019-12-18 一种两类基于近似度分布的分层图抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911308971.1A CN111046248A (zh) 2019-12-18 2019-12-18 一种两类基于近似度分布的分层图抽样方法

Publications (1)

Publication Number Publication Date
CN111046248A true CN111046248A (zh) 2020-04-21

Family

ID=70237598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911308971.1A Pending CN111046248A (zh) 2019-12-18 2019-12-18 一种两类基于近似度分布的分层图抽样方法

Country Status (1)

Country Link
CN (1) CN111046248A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487453A (zh) * 2020-12-07 2021-03-12 马力 一种基于中央协调方的数据安全共享方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487453A (zh) * 2020-12-07 2021-03-12 马力 一种基于中央协调方的数据安全共享方法及装置

Similar Documents

Publication Publication Date Title
Rieck et al. Clique community persistence: A topological visual analysis approach for complex networks
Cruz et al. Community detection and visualization in social networks: Integrating structural and semantic information
Latouche et al. Variational Bayes model averaging for graphon functions and motif frequencies inference in W-graph models
Cho et al. Authority-shift clustering: Hierarchical clustering by authority seeking on graphs
Wang et al. Shape detection from raw lidar data with subspace modeling
Bai et al. Design pattern modeling and extraction for CAD models
Chang et al. Relative centrality and local community detection
Wang et al. Point cloud simplification algorithm based on the feature of adaptive curvature entropy
Liu et al. A new clustering algorithm based on data field in complex networks
CN103914558A (zh) 一种基于时空统计的气象要素时空聚集模式挖掘方法
Zhang et al. Chameleon algorithm based on mutual k-nearest neighbors
Rajawat et al. Stochastic multidimensional scaling
CN104835174A (zh) 基于超图模式搜索的鲁棒模型拟合方法
Sun et al. Community detection based on information dynamics
CN111046248A (zh) 一种两类基于近似度分布的分层图抽样方法
Mathieu et al. Oversegmentation methods: a new evaluation
Liu et al. Target community detection with user’s preference and attribute subspace
Yang et al. Autonomous semantic community detection via adaptively weighted low-rank approximation
Purnawansyah et al. K-Means clustering implementation in network traffic activities
CN102855624A (zh) 一种基于广义数据场和Ncut算法的图像分割方法
Khan et al. vGraph: graph virtualization towards big data
Rodrigues et al. A complex networks approach for data clustering
Phillips Tessellation
Li et al. Integrating attributes of nodes solves the community structure partition effectively
Taheriyoun Testing the covariance function of stationary Gaussian random fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421