CN102750263A - 互联网超链接网络图数据的简化方法 - Google Patents

互联网超链接网络图数据的简化方法 Download PDF

Info

Publication number
CN102750263A
CN102750263A CN2012101779108A CN201210177910A CN102750263A CN 102750263 A CN102750263 A CN 102750263A CN 2012101779108 A CN2012101779108 A CN 2012101779108A CN 201210177910 A CN201210177910 A CN 201210177910A CN 102750263 A CN102750263 A CN 102750263A
Authority
CN
China
Prior art keywords
point
subgraph
next stage
abutment points
limit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101779108A
Other languages
English (en)
Other versions
CN102750263B (zh
Inventor
毛国勇
张永春
张燕红
高敏
廉春原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai long long Information Service Co., Ltd.
Original Assignee
Changzhou Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Institute of Technology filed Critical Changzhou Institute of Technology
Priority to CN201210177910.8A priority Critical patent/CN102750263B/zh
Publication of CN102750263A publication Critical patent/CN102750263A/zh
Application granted granted Critical
Publication of CN102750263B publication Critical patent/CN102750263B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种互联网超链接网络图数据的简化方法,该方法首先对所述超链接网络的图数据G0’,得到第一级简化子图G1’。再根据图的度序列确定第二级简化子图G2’的起点S2’,从S2’开始对G1’作宽度优先遍历,从G1’中选择点加入到G2’中,在G2’中选择点连接生成边,得到第二级简化子图G2’。再以从G1得到G2’的方法从G2’得到G3’,并以此类推得到最优简化子图G’。本发明方法得到的简化子图能够去除母图中的非关键点,有效地保留母图的拓扑结构,从而使子图相对于母图具备较好的代表性,且简化效率高。由于根据度序列确定起点及宽度优先遍历的计算量较小,因而本方法的执行速度快,而且可以对图进行分层次简化。

Description

互联网超链接网络图数据的简化方法
技术领域
本发明涉及一种互联网超链接网络图数据的简化方法。
背景技术
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。
在金融、生物信息、社会学、交通管理、互联网的超链接网络以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们通常先根据图的特性将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。
图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。
与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。
互联网的超链接网络中,近十几年来,随着互联网的普及和Web2·0技术的推动,网页数量增长迅猛,据CNNIC统计,2010年中国网页规模达到600亿,年增长率78.6%,而基于互联网的社交网络也后来居上,如全球最大的社交网络Facebook,已有约7亿用户,国内如QQ空间、人人网等,发展也异常迅猛。
真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,动辄有数十亿个顶点和上万亿条边。面对这样大规模的图数据,对海量数据处理技术提出了巨大挑战。以搜索引擎中常用的PageRank计算为例,一个网页的PageRank得分根据网页之间相互的超链接关系计算而得到。将网页用图顶点表示,网页之间的链接关系用有向边表示,按邻接表形式存储100亿个图顶点和600亿条边,假设每个顶点及出度边的存储空间占100字节,那么整个图的存储空间将超过1TB。如此大规模的图,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统集中式图数据管理的承受能力。针对大规模图数据的高效管理,对大规模图数据进行简化,已经成为急需解决的问题。
相关参考文献:
[1] 《图论导引》,美国: Gray chartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第1版,ISBN: 9787115161536;
[2] 《图论算法理论、实现及应用》,中国:王桂平,王衍,任嘉辰主编,北京大学出版社,2011年1月第1版,ISBN: 978-7-301-17578-1/TP·1122; 
[3] 《离散数学》,中国:左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年9月第一版,ISBN:7805130698, 9787805130699。
发明内容
本发明的目的是:一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种基于宽度优先遍历的大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前海量的互联网的超链接网络的图数据,提出一种新的基于宽度优先遍历的互联网的超链接网络的图数据的简化方法,通过该简化后的骨干节点和链接的网络,以解决互联网数据高效管理的问题。
本发明的原理是:互联网的超链接网络的大规模图数据由一些关键点以及连接这些点的边构成,从而能够体现原始图的拓扑结构。通过将母图中一些不重要的点和边去除,保留原始图中一些重要的关节点和关键边,得到的必定是具备代表性的缩略图。通过度序列确定起始点的时间复杂度最大为O(NlogN) ,宽度优先遍历的计算复杂度为O(M+N),两者相加远小于根据介数进行简化的方法的时间复杂度为O(MN)。其中,M为边的数目,N为节点的数目。因此,该方法的计算速度较快。
相关词汇解释
二元组的定义:
图G是一个二元组(V,E),其中V称为顶点集(也称为点的集合),E称为边集(也称为边的集合)。它们亦可写成V(G)和E(G)。 
??阶(Order):图G中顶集V的大小称作图G的阶。 
介数反映了相应的节点或者边在整个网络中的作用和影响力,是一个重要的全局几何量,具有很强的现实意义。
??度(Degree)是一个顶点的度是指与该顶点相关联的总边数。
参考文献[1]《图论导引》中第27页有有关度的定义,即:与某个点相关联的边的总数称为该点的度。
遍历的含义:所谓遍历(Traversal),是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。访问结点所做的操作依赖于具体的应用问题。遍历在二叉树上最重要的运算之一,是二叉树上进行其它运算之基础。当然遍历的概念也适合于多元素集合的情况,如数组。
图的遍历方法有深度优先遍历和宽度(广度)优先遍历。
图的宽度(广度)优先遍历是树的按层次遍历的推广,它的基本思想是:首先访问初始点vm,并将其标记为已访问过,接着访问vm的所有未被访问过的邻接点vm1,vm2,…, vmt,并均标记已访问过,然后再按照vm1,vm2,…, vmt的次序,访问每一个顶点的所有未被访问过的邻接点,并均标记为已访问过,依次类推,直到图中所有和初始点vi有路径相通的顶点都被访问过为止。参考文献[2]《图论算法理论、实现及应用》中第25页有宽度优先遍历的定义。
在参考文献[3]《离散数学》的第273、275页上有自回路的定义和平行边的定义;平行边也称为多重边。 
根据前述原理,实现本发明的技术方案是:一种基于宽度优先遍历的大规模图数据简化方法,包含以下步骤:
①对原始图G0进行去除自回路和平行边(多重边)的预处理,得到第一级简化子图G1=(V1,E1),其中V1为一级点的集合,E1为一级边的集合;所述一级点的集合V1为所述第一级简化子图G1的点的集合,所述一级边的集合E1为所述第一级简化子图G1的边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1母图GOi;i为初值等于1大于等于1的整数;
②选择所述母图中具有最优度的点作为下一级简化子图Gi+1的起点Si+1
③从所述起点S i+1开始对所述母图进行宽度优先遍历获得所述下一级简化子图Gi+1=(Vi+1,Ei+1),其中V i+1为下一级点的集合,E i+1为下一级边的集合;所述获得所述下一级简化子图Gi+1=(Vi+1,Ei+1)的方法包括以下步骤:
a:把所述起点S i+1及其直接邻接点加入到该级已遍历点的集合VTi+1中,并把所述起点Si+1加入到所述下一级点的集合Vi+1中;
b:若所述已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合Vi+1的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新的加入点及其直接邻接点加入到所述集合VTi+1中;
c:对于所述新的加入点,重复所述步骤b,直至遍历结束,以构成所述下一级简化子图Gi+1=(Vi+1,Ei+1);
④设所述下一级简化子图Gi+1为再下一级简化子图的母图GO(i+1),重复所述步骤②、③直至得到最优简化子图G。即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图点数的15%-45%
符合图数据分析环境的需求,即简化子图能够被图数据分析软件一次性载入。
进一步,获得所述步骤②中最优度的点的方法,包括如下步骤:
先选择度最多的点作为所述最优度的点。
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。
对于所述步骤②中,确定所述起点S i+1的具体方法是:按照度的数量对经第①步处理后的图数据(即所述第一级简化子图G1为第一母图)进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点Si+1,i为大于等于1等于1的整数,若为第二级简化子图,所述起始点为S2
所述步骤③中,从所述起点S2进行宽度优先遍历(搜索)生成第二级简化子图G2=(V2,E2)的方法是:根据第②步得到的所述起点S2,先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2i和S2ij加入到所述集合VT2中,其中x=1,2,3,…;y=1,2,3,…。
对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Nx,Nxy和Nxyk(x=1,2,3,…;y=1,2,3,…;k=1,2,3,…)加入到所述集合VT2中。
对新加入所述二级点的集合V2的点重复上述步骤③操作,直至所述集合VT2等于一级点的集合V1
第③步中,遍历结束的条件是:VT2=V1
第④步中,简化停止的条件是:得到最优简化子图G,即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图的点数的15%-45%。
若无法满足则根据上述步骤继续进行简化;遍历结束条件为VTi+1=Vi,也是所述宽度优先遍历结束。
采用上述方法的本发明能带来以下有益效果:
(1)度最多的点一般都是图中的关键点,从度最多的点开始作宽度优先遍历,去除关节点以外的非关键点,得到的子图具备较强的代表性。
(2)由于本方法通过选择度最多的点以及宽度优先遍历实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法的计算速度较快。
(3)由于采用本方法简化后的子图仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化,从而使本方法能应用于大规模图数据的简化。
(4)由于本方法简化结束的标准是:母图中的所有点都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。
(5)由于本方法可以分层次简化大规模图数据,因此可广泛应用于采用客户端/服务器结构,以及浏览器/服务器结构的大规模数据分析中,即将大规模图数据存放在远程服务器端,在客户端显示简化后的子图,用户根据自己的需求选择数据进行分析。
一种互联网超链接网络图数据的简化方法,包含以下步骤:
步骤一、对所述超链接网络的图数据G0’进行去除自回路和平行边的预处理,得到第一级简化子图G1’=(V1’,E1’),其中V1’为一级点的集合,E1’为一级边的集合;并设第n级简化子图Gn’为下一级简化子图Gn+1’的母图GOn’;n为大于等于1的整数;
所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中网页间的链接关系;
步骤二、选择所述母图GOn’中具有最优度的点作为下一级简化子图G n+1’的起点Sn+1’;其中度表示某个网页的链接关系,即为一网页与其他网页的链接总数,最优度的点为与其他网页超链接最多的网页;
步骤三、从所述起点S n+1’开始对所述母图进行宽度优先遍历,获得所述下一级简化子图Gn+1’=(Vn+1’,En+1’),其中Vn+1’为下一级点的集合,En+1’为下一级边的集合;所述获得所述下一级简化子图Gn+1’=(Vn+1’,En+1’)的方法包括以下步骤:
A:把所述起点Sn+1’及其直接邻接点加入到该级已遍历点的集合VTn+1’中,并把所述起点S n+1’加入到所述下一级点的集合Vn+1’中;
B:若已加入集合VTn+1’中的各直接邻接点的邻接点不在所述集合VT n+1’中,则将该直接邻接点作为所述集合V n+1’的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合E n+1’中,并将所述新的加入点及其直接邻接点加入到所述集合VTn+1’中;
C:对于所述新的加入点,重复所述步骤B,直至遍历结束,以构成所述下一级简化子图Gn+1’=(Vn+1’,En+1’);
步骤四、设所述下一级简化子图Gn+1’为再下一级简化子图的母图GO(n+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络,即最优超链接网络就是保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构;便于实现网络图数据的高效管理,便于对网络数据的存储、更新、查找等处理。
进一步,获得所述步骤二中最优度的点的方法,包括如下步骤:
先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。其中最优度的点为与其他网页连接最为关键的网页;
所述最优简化子图G’,即简化子图的规模符合图数据分析环境的需求,即简化子图能够被图数据分析软件一次性载入。简化子图的规模符合要求,保留介数较高的点或经过多次简化后最终保留的点数为原始图的点数的15%-45%。
最优超链接网络就是保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构。
采用上述方法的本发明能带来以下有益效果:
(1)度最多的点一般都是图中的关键网页,从度最多的网页开始作宽度优先遍历,去除关节点以外的非关键链接,得到的简化超链接网络具备较强的代表性。
(2)由于本方法通过选择超链接最多的网页以及宽度优先遍历实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法简化的速度较快。
(3)由于采用本方法简化后的超链接网络仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化。
(4)由于本方法简化结束的标准是:母图中的所有点(网页)都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。
(5)由于本方法可以分层次简化大规模图数据,因此可广泛应用于采用客户端/服务器结构,以及浏览器/服务器结构的大规模数据分析中,即将大规模图数据存放在远程服务器端,在客户端显示简化后的子图,用户可以很方便的根据自己的需求选择数据进行分析。
(6)最终获得最优超链接网络,即保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构。
(7)适用于大规模图的数据管理,通过保留的骨干节点和链接,建立高效的索引机制。
(8)层层简化后,保留原始图中骨干节点和连接,能够揭示超链接网络的成长机理,有助于分析超链接网络的特征。 
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1 为本发明方法图数据简化方法流程图;
图2 为本发明方法的实施例2的母图及简化后的子图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明:
实施例1
见图1,首先,去除图中的自回路和平行边(多重边)得到第一级简化子图G1。以所述第一级简化子图G1为第一级母图,按照度的数量对所述第一级母图数据进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点Si+1,i为大于等于1的整数,若为第二级简化子图,所述起始点为S2
从所述起点S i+1进行宽度优先遍历(搜索)生成下一级简化子图G i+1=(Vi+1,E i+1)的方法是:其中所述宽度优先遍历(搜索)的搜索方式就是对母图的各点进行逐一遍历,所以能搜索到每个点,即得出以下步骤:
a:把所述起点Si+1及其直接邻接点加入到该级遍历点的集合VTi+1中,并把所述起点Si+1加入到所述下一级点的集合Vi+1中;
b:若已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合V i+1的新的加入点,并连接所述已加入点与所述直接邻接点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新加入点及其直接邻接点加入到所述集合VTi+1中;
c:对于新的加入点,重复所述步骤b,以构成所述下一级简化子图G i+1=(Vi+1,Ei+1)。
具体的做法:
若生成第二级简化子图G2,则其起点为S2,先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2x和S2xy加入到所述集合VT2中,其中x=1,2,3,…;y=1,2,3,…。
对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Ni,Nij和Nxyk(x=1,2,3,…,n;y=1,2,3,…,n;k=1,2,3,…,n)加入到所述集合VT2中。
对新加入二级点的集合V2的点重复上述操作,直至所述集合VT2等于所述一级点的集合V1;根据上述步骤得到的所述二级点的集合V2及所述二级点的集合V2生成的相应边的集合E2;获得第二级简化子图G2=(V2,E2)。
如果所述第二级简化子图G2的规模符合用户的需求,则停止简化;否则以所述第二级简化子图G2为母图进行再次简化得到第三级简化子图G3,以此类推,得到最优简化子图G即简化子图的规模符合要求,即保留具有原始图中介数较多的点或经过多次简化后最终得到的子图能够被够被图数据分析软件一次性载入;保留的点数为原始图的点数的15%-45%。
实施例2
在实施例一的基础上,对图2进行简化;在本例中,原始图中有16个顶点和19条边(见附图2);
①度最多的点d被选择为起点作宽度优先遍历(搜索),将d及d的所有直接邻居加入到该级遍历点的集合VT2中,并将d加入到二级(也为下一级)点的集合V2中,则VT2=(a,b,c,d,k,l),V2=(d);
②考虑所述下一级点的集合V2中的点,如果它的直接邻接点中有邻接点不在所述集合VT2中,则将所述直接邻接点加入所述二级点的集合V2中,其中a的邻居都在所述集合VT2中,则不加入;而(b,c,k,l)加入所述二级点的集合V2,分别连接d与(b,c,k,l)生成4条边,将所述下一级点的集合V2中新加入点的(b,c,k,l)的邻居加入所述集合VT2,则所述集合VT2中的点为(a,b,c,d,k,l,m,n,e,q);
③考虑所述二级点的集合V2 中除起点外的点(b,c,k,l)(或者说是新加入的点),如果它们的直接邻接点中有邻接点不在所述集合VT2中,则将它们加入到所述二级点的集合V2中,如(c,k)的直接邻接点(n,e)有邻接点不在所述集合VT2中,将(n,e)加入所述二级点的集合V2,连接c和n,k和e生成边。将(n,e)的直接邻接点加入所述集合VT2,则所述集合VT2中的点为(a,b,c,d,k,l,m,n,e,q,f,p);
④考虑所述二级点的集合V2中新加入的点(n,e),e的直接邻接点f有邻接点不在所述集合VT2中, 而n的直接邻接点p的邻接点在所述集合VT2中,故将f加入所述二级点的集合V2,连接e和f生成边,将f的直接邻接点加入所述集合VT2中,则VT2=(a,b,c,d,k,l,m,n,e,q,f,p,i,g,h);
⑤考虑所述二级点的集合V2中新加入的点f,它的直接邻接点g的邻接点h在所述集合VT2中,它的直接邻接点h的邻接点g也在所述集合VT2中,故不考虑,而它的直接邻接点i有邻接点j不在所述集合VT2中,故加入j,连接f和j生成边,将j的邻居加入到所述集合VT2中,此时VT2=(a,b,c,d,k,l,m,n,e,q,f,p,i,g,h,j),与所述一级点的集合V1相等。即所述一级点的集合V1中的所有点都被遍历过,循环结束。上述搜索每个点的方法采用宽度优先遍历的方法。图2中,实线表示所述生成的边,即由所述二级点的集合V2所对应生成的所述边的集合E2;虚线的圆即为简化掉的顶点,实线圆为简化后保留的点的集合V2
简化后子图有9个顶点8条边,点的简化率为43.7%,边的简化率为57.9%。
表1  子图的代表性分析
Figure 308544DEST_PATH_IMAGE001
从表1中可以看出,原始图中介数较大的点都被保留,无介数的点被去除。
对上述简化子图再进行2次简化,得到表2。
表2对实施例2进行三次简化后结果
Figure 225685DEST_PATH_IMAGE002
实施例3
在实施例1、2的基础上,对表3中图数据二进行简化;本实施例中,图数据二的数据取自中国互联网的部分超链接网络,共有9999个点及14970条边,边点比为1.497;参考实施例1、2的具体实施过程以及图2,对互联网的部分超链接网络的图数据简化的具体实施过程,包含以下步骤:
步骤一、对所述超链接网络的图数据G0’进行去除自回路和平行边的预处理,得到第一级简化子图G1’=(V1’,E1’),其中V1’为一级点的集合,E1’为一级边的集合;并设第n级简化子图Gn’为下一级简化子图Gn+1’的母图GOn’;n为大于等于1的整数;
所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中的网页之间的连接关系;
步骤二、选择所述母图GOn’中具有最优度的点作为下一级简化子图G n+1’的起点S n+1’;其中最优度的点为与其他网页连接最为关键的网页,就是与其他网页相连最多的网页;
步骤三、从所述起点S n+1’开始对所述母图进行宽度优先遍历获得所述下一级简化子图G n+1’=(V n+1’,E n+1’),其中V n+1’为下一级点的集合,E n+1’为下一级边的集合;所述获得所述下一级简化子图G n+1’=(V n+1’,E n+1’)的方法包括以下步骤:
A:把所述起点S n+1’及其直接邻接点加入到该级已遍历点的集合VT n+1’中,并把所述起点S n+1’加入到所述下一级点的集合V n+1’中;
B:若已加入集合VT n+1’中的各直接邻接点的邻接点不在所述集合VT n+1’中,则将该直接邻接点作为所述集合V n+1’的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合E n+1’中,并将所述新的加入点及其直接邻接点加入到所述集合VT n+1’中;
C:对于所述新的加入点,重复所述步骤B,直至遍历结束,以构成所述下一级简化子图G n+1’=(V n+1’,E n+1’);
步骤四、设所述下一级简化子图G n+1’为再下一级简化子图的母图GO(n+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络。
进一步,获得所述步骤二中最优度的点的方法,包括如下步骤:
先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和小的点为所述最优度的点。其中最优度的点为与其他网页连接最为关键的网页;
所述最优简化子图G’,简化子图的规模符合要求,或简化子图能够被图数据分析软件一次性载入,或经过多次简化后最终保留的点数为原始图的点数的15%-45%。
最优超链接网络就是保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构。
对获取的骨干节点和链接的网络的有效性分析:
参考实施例2,介数较大的点为重要的点,即介数较大的点为骨干节点,该骨干节点直接的链接关系构成的网络具备较强的代表性;该实施例2中介数较大的点在简化过程中被保留,即意味着网络中的骨干节点在简化过程中被保留。
 
实施例4
在实施例1、2的基础上,见表3,图数据三的数据取自酵母的蛋白质相互作用网络,共有7403个点及19999条边,边点比为2.701,经过所述基于宽度优先遍历的大规模图数据的简化方法后,点数为452,边数为437,达到了优化的目的。
表3多层次简化结果
Figure 319936DEST_PATH_IMAGE003
经过实施例1-4的详细描述,可见本发明方法不仅能保留原始图的一些关键点,使简化后的子图具有较强的代表性,而且能够进行多层次简化,使本发明方法能够应用于大规模的图数据。
显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims (5)

1.一种互联网超链接网络图数据的简化方法,包含以下步骤:
步骤一、对所述超链接网络的图数据G0’进行去除自回路和平行边的预处理,得到第一级简化子图G1’=(V1’,E1’),V1’为一级点的集合, E1’为一级边的集合,所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中网页间的链接关系;并设第n级简化子图Gn’为下一级简化子图Gn+1’的母图GOn’;n为初值等于1的整数;
步骤二、选择所述母图GOn’中具有最优度的点作为下一级简化子图G n+1’的起点S n+1’,其中度为一网页与其他网页的链接总数,所述最优度的点为超链接总数最多的网页; 
步骤三、从所述起点S n+1’开始对所述母图进行宽度优先遍历,获得所述下一级简化子图G n+1’=(V n+1’,E n+1’),其中V n+1’为下一级点的集合,E n+1’为下一级边的集合; 
步骤四、设所述下一级简化子图G n+1’为再下一级简化子图的母图GO(n+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络。
2.根据权利要求1所述的互联网超链接网络图数据的简化方法,其特征在于:获得所述步骤二中最优度的点的方法,包括如下步骤:
先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。
3.根据权利要求1所述的互联网超链接网络图数据的简化方法,其特征在于:所述的获得所述下一级简化子图G n+1’=(Vn+1’,En+1’)的方法包括以下步骤:
A:把所述起点Sn+1’及其直接邻接点加入到该级已遍历点的集合VT n+1’中,并把所述起点S n+1’加入到所述下一级点的集合V n+1’中;
B:若已加入集合VTn+1’中的各直接邻接点的邻接点不在所述集合VTn+1’中,则将该直接邻接点作为所述集合V n+1’的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合E n+1’中,并将所述新的加入点及其直接邻接点加入到所述集合VTn+1’中;
C:对于所述新的加入点,重复所述步骤B,直至遍历结束,以构成所述下一级简化子图G n+1’=(V n+1’,E n+1’)。
4.一种基于宽度优先遍历的大规模图数据的简化方法,包含以下步骤:
①对原始图G0进行去除自回路和平行边的预处理,得到第一级简化子图G1=(V1,E1),其中V1为一级点的集合,E1为一级边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1的母图GOi;i为初值等于1的整数;
②选择所述母图GOi中具有最优度的点作为下一级简化子图Gi+1的起点Si+1; 
③从所述起点S i+1开始对所述母图进行宽度优先遍历获得所述下一级简化子图Gi+1=(Vi+1,Ei+1),其中Vi+1为下一级点的集合,E i+1为下一级边的集合;所述获得所述下一级简化子图Gi+1=(Vi+1,Ei+1)的方法包括以下步骤:
a:把所述起点Si+1及其直接邻接点加入到该级已遍历点的集合VTi+1中,并把所述起点Si+1加入到所述下一级点的集合Vi+1中;
b:若已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合Vi+1的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新的加入点及其直接邻接点加入到所述集合VTi+1中;
c:对于所述新的加入点,重复所述步骤b,直至遍历结束,以构成所述下一级简化子图Gi+1=(Vi+1,Ei+1);
④设所述下一级简化子图Gi+1为再下一级简化子图的母图GO(i+1),重复所述步骤②、③直至得到最优简化子图G。
5.根据权利要求4所述的大规模图数据的简化方法,其特征在于:获得所述步骤②中最优度的点的方法,包括如下步骤:
先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。
CN201210177910.8A 2012-05-31 2012-05-31 互联网超链接网络图数据的简化方法 Expired - Fee Related CN102750263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210177910.8A CN102750263B (zh) 2012-05-31 2012-05-31 互联网超链接网络图数据的简化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210177910.8A CN102750263B (zh) 2012-05-31 2012-05-31 互联网超链接网络图数据的简化方法

Publications (2)

Publication Number Publication Date
CN102750263A true CN102750263A (zh) 2012-10-24
CN102750263B CN102750263B (zh) 2014-10-22

Family

ID=47030459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210177910.8A Expired - Fee Related CN102750263B (zh) 2012-05-31 2012-05-31 互联网超链接网络图数据的简化方法

Country Status (1)

Country Link
CN (1) CN102750263B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915427A (zh) * 2015-06-15 2015-09-16 华中科技大学 一种基于广度优先遍历的图处理优化方法
WO2024104005A1 (zh) * 2022-11-15 2024-05-23 中移(成都)信息通信科技有限公司 医疗信息处理方法以及装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808430A (zh) * 2004-11-01 2006-07-26 西安迪戈科技有限责任公司 智能、图示和自动化互联网和计算机信息的检索和挖掘方法
CN102341802A (zh) * 2009-06-30 2012-02-01 国际商业机器公司 图的相似度计算系统、方法以及程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808430A (zh) * 2004-11-01 2006-07-26 西安迪戈科技有限责任公司 智能、图示和自动化互联网和计算机信息的检索和挖掘方法
CN102341802A (zh) * 2009-06-30 2012-02-01 国际商业机器公司 图的相似度计算系统、方法以及程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREI BRODER ET AL: "Graph structure in the Web", 《COMPUTER NETWORKS》, no. 33, 31 December 2000 (2000-12-31), pages 309 - 320 *
马蓉平,陈磊: "搜索推理技术与宽度优先搜索的实现", 《赤峰学院学报(自然科学版)》, vol. 25, no. 3, 31 March 2009 (2009-03-31), pages 42 - 43 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915427A (zh) * 2015-06-15 2015-09-16 华中科技大学 一种基于广度优先遍历的图处理优化方法
CN104915427B (zh) * 2015-06-15 2018-01-05 华中科技大学 一种基于广度优先遍历的图处理优化方法
WO2024104005A1 (zh) * 2022-11-15 2024-05-23 中移(成都)信息通信科技有限公司 医疗信息处理方法以及装置、设备及存储介质

Also Published As

Publication number Publication date
CN102750263B (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN105718528B (zh) 基于论文间引用关系的学术地图展示方法
CN102163226A (zh) 基于映射-化简和分词及邻接排序去重方法
CN107145526B (zh) 一种路网下地理社交关键字反最近邻查询处理方法
CN110134714A (zh) 一种适用于大数据迭代计算的分布式计算框架缓存索引
Li et al. An approach for approximate subgraph matching in fuzzy RDF graph
CN103530402A (zh) 一种基于改进的PageRank的微博关键用户识别方法
CN110719106B (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
CN102799625B (zh) 一种挖掘社交网络中话题核心圈的方法及系统
CN105515997B (zh) 基于bf_tcam实现零范围扩张的高效范围匹配方法
WO2013138441A1 (en) Systems, methods, and software for computing reachability in large graphs
CN113535788A (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN103810260A (zh) 基于拓扑特性的复杂网络社团发现方法
CN104700311B (zh) 一种社会网络中的邻域跟随社区发现方法
Deng et al. Lcjoin: Set containment join via list crosscutting
CN103856462A (zh) 一种会话的管理方法及系统
US20200104425A1 (en) Techniques for lossless and lossy large-scale graph summarization
CN105138527A (zh) 一种数据分类回归方法及装置
CN102750263B (zh) 互联网超链接网络图数据的简化方法
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
Setayesh et al. Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm
CN102750460B (zh) 分层简化大规模图数据的运算方法
Yang et al. On characterizing and computing the diversity of hyperlinks for anti-spamming page ranking
CN104820661A (zh) 一种基于业务对象的探索式数据分析系统
CN102419746A (zh) 三维搜索系统及三维搜索方法
CN105095239A (zh) 一种不确定图查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wen Chunjie

Inventor before: Mao Guoyong

Inventor before: Zhang Yongchun

Inventor before: Zhang Yanhong

Inventor before: Gao Min

Inventor before: Lian Chunyuan

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170905

Address after: 200080, 9, 1050 Daming Road, Shanghai, Hongkou District

Patentee after: Shanghai long ago Financial Information Service Co., Ltd.

Address before: 213011 No. 299 South Tongjiang Road, Tianning District, Jiangsu, Changzhou

Patentee before: Changzhou Polytechnic College

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 200080, 9, 1050 Daming Road, Shanghai, Hongkou District

Patentee after: Shanghai long long Information Service Co., Ltd.

Address before: 200080, 9, 1050 Daming Road, Shanghai, Hongkou District

Patentee before: Shanghai long ago Financial Information Service Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141022

Termination date: 20200531