CN104462374B - 一种广义最大度随机游走图抽样方法 - Google Patents

一种广义最大度随机游走图抽样方法 Download PDF

Info

Publication number
CN104462374B
CN104462374B CN201410749244.XA CN201410749244A CN104462374B CN 104462374 B CN104462374 B CN 104462374B CN 201410749244 A CN201410749244 A CN 201410749244A CN 104462374 B CN104462374 B CN 104462374B
Authority
CN
China
Prior art keywords
node
sample
random walk
algorithms
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410749244.XA
Other languages
English (en)
Other versions
CN104462374A (zh
Inventor
李荣华
邱宇轩
毛睿
秦璐
金檀
蔡涛涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201410749244.XA priority Critical patent/CN104462374B/zh
Publication of CN104462374A publication Critical patent/CN104462374A/zh
Priority to PCT/CN2015/081147 priority patent/WO2016090877A1/zh
Application granted granted Critical
Publication of CN104462374B publication Critical patent/CN104462374B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Software Systems (AREA)

Abstract

本发明公开一种广义最大度随机游走图抽样算法,在图上随机游走采集样本;根据采集得到的样本构造无偏估计;能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提升了从网络中采集样本点的整体效率。

Description

一种广义最大度随机游走图抽样方法
技术领域
本发明属于大图数据挖掘技术领域,尤其涉及一种广义最大度随 机游走图抽样方法。
背景技术
近年来,在线社交网络分析在学术界和工业界都引起了广泛关 注。在所有在线社交网络分析的相关研究中,一个最为基本的研究问 题是估计社交网络中的节点性质以及整个社交网络的拓扑特性。然 而,由于很多在线的社交网络公司,例如腾讯、新浪微博、Facebook 以及Twitter等,都没有向第三方发布其社交网络的图谱数据,并且 整个社交图谱数据的大小对于第三方来说往往都是未知的。因此,广 大从事社交网络分析的研究者和开发者都面临一个非常困难的数据 采集问题。这里的主要难点在于,如何设计和开发出一种简便的方法 来从一个“对于研究者不可见”的社交网络中提取出均匀的图节点样 本。
为了解决这一问题,目前在学术界有很多基于爬虫技术的网络抽 样方法被提出并广泛使用。可以把这些方法分为两大类:一类是基于 图遍历的方法,另一类则是基于随机游走的方法。基于图遍历的方法 主要是应用广度优先搜索(BFS,breadth-firstsearch)或者深度优 先搜索(DFS,depth-first search)采集节点。然而,这一类方法 的主要缺点是在采集节点的过程中,算法会偏向于度比较高的节点, 这显然与需要均匀的节点样本的目标不相符。并且,这一类算法对度 比较高的节点偏向多少无法从理论上刻画,因此很难纠正这一偏向, 进而无法得到均匀的节点样本。目前,这一类算法逐渐被学术界和工 业界弃用。基于随机游走的算法很好地解决了基于图遍历的算法的缺 陷,它们可以直接生成无偏的节点样本,或者生成有偏但是偏向性已 知的节点样本,故而这类算法在图采样中广受欢迎。目前有两种非常 流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游 走算法,称之为RW(re-weighted random walk)算法;第二种算法 是最大度随机游走算法,称之为MD(maximum-degree random walk) 算法。下面简要介绍这两种算法。
将网络抽象成一个图G=(V,E),其中n=|V|代表节点的个数,m=|E| 代表边的条数。令N(u)为节点u∈V的所有邻接节点的集合,du=|N(u)| 表示节点u的度。令f:V→R是一个定义在节点集V上的实值函数,表 示节点u的某种特性的值,例如节点的度,或者节点的某个属性值。 在估计网络特性的问题中,目标是估计整个网络中所有节点的f(u) 值的平均值,记为这里的πu=[1/n,...,1/n]表示均匀分 布。例如,如果定义f(u)=du,那么代表的是图G中节点度的平均 值。如果定义表示的是图G中节点 的度分布,这里是一个指示函数,如果du=d,则否则
在现有的文献中,RW和MD算法都能产生一个对的无偏估计。 RW算法是在图中执行一次随机游走来采集节点样本。众所周知,在一 个非周期性的无向连通图中采用随机游走所采集到的节点样本并不 是一个均匀分布。根据随机游走的稳定分布理论,节点被选取的概率 和节点的度成正比,也即对于u∈V,有πrw(u)=du/2m,这里的πrw表 示随机游走的稳定分布。因此,根据随机游走的采集样本策略,图中 每个节点被采集到的概率是不一样的,度大的节点被采集到的概率比 度小的节点被采集到的概率要大,也就是说随机游走的算法更偏向于 度比较高的节点。为了纠正这种偏向性,RW算法采用了一种重新加权 的策略。具体地,RW算法采用估计(S表示采集 到的样本节点的集合,wrw(u)∝1/du代表节点u的权值,其中∝表示正 比关系)来估计这一估计可以用重要性抽样(IS,important sampling)的框架来加以解释。具体地,IS框架采用的是相对比较容 易实现的试验分布来代替目标分布采集样本节点,然后采用重要性加 权来构造无偏估计。在RW算法中,目标分布是一个均匀分布πu,试验 分布是πrw。根据IS框架,节点u的重要性权值为 因此,根据IS框架,可以得到估 计并且在理论上可以证明是渐进无偏的。也即,当n→∞ 时的方差取决于f(u)wrw(u)的方差。当f(u)与 wrw(u)=πu(u)/πrw(u)无关时,的方差仅取决于πu(u)和πrw(u)的相近 程度。根据“刘氏法则”,基于IS框架的抽样算法的估计精度依赖于 试验分布与目标分布的卡方距离。二者的卡方距离越大,抽样算法的 估计精度就越差。这里卡方距离的定义如下:令p,q分别为试验分布 和目标分布,则p与q的卡方距离为varp(q(X)/p(X)),其中var表示方差。 MD算法是一个无偏的图抽样算法,它是从一个动态构造的规则图上随 机游走采集节点,该算法能够直接得到均匀的节点样本。其原理是, 通过在原始图的节点上加上自环,使得每个节点的度都等于图的最大 度,生成一个规则图(节点度都相等的图称之为规则图)。当随机游 走算法进行到节点u时,它以概率1/dmax从u节点的邻接节点集合N(u) 中随机选取一个节点,这里dmax表示图的最大度(度最大的节点的度)。 根据这一过程,对于节点u,该算法将以(dmax-du)/dmax的概率停留在 原来的节点u上。使用重要性抽样(IS,important sampling)的框 架,可知MD算法的试验分布πmd和目标分布πu=[1/n,...,1/n]一致。因此, MD算法可以直接采用样本的均值来估计并且该估计也是渐进 无偏的。
以上所述的算法中,根据IS框架,RW算法的试验分布πrw与节点的 度成正比,而目标分布是一个均匀分布πu。在很多现实的社交网络中, 网络的节点度往往并不均匀,而是呈现长尾现象。因此,在很多应用 中,RW算法的试验分布πrw和目标分布πu有很大的偏离。根据“刘氏 法则”,RW算法的有效性取决于πrw和πu的相近程度。所以在现实的 网络中,RW算法往往会产生有很大的偏差,这个问题被称为“大偏差 问题”(large deviation problem)。MD算法能够产生均匀的样本, 因此它能够避免RW算法的“大偏差问题”。但它会产生自环(self-loop),因而会产生很多重复的样本,并且这种情况在度比 较小的节点上显得尤为严重。而过多的重复样本,通常会导致较大的 估计方差,从而降低算法的估计精度,MD算法的这一缺陷被称为“重 复样本问题”(repeated samples problem)。另外,在现实的很多网络中,节点的最大度通常来说是未知的。为了解决这个问题,通常 的做法是将最大度设为一个非常大的常数,从而保证该常数要大于真 实的最大度。显然,这一方法会导致更多的自环,从而加重“重复样 本问题”。
发明内容
本发明提供一种广义最大度随机游走图抽样方法,能够有效地平 衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提 升了从网络中采集样本点的整体效率。
本发明通过以下技术手段实现:
一种广义最大度随机游走图抽样方法,包括以下步骤:
S1,在图上随机游走采集样本;采集到样本点集S;在图中随机选 择节点u设为初始节点,并且将计数器i置为1;使用du/max{du,C}作 为参数生成一个几何随机变量ξi并加入集合ξ;将节点u作为Si,并 加入样本点集S;从节点u的邻接节点中等概率随机选取一个节点v; 将节点v作为下一步的节点u,计数器i加1,返回采集到的样本点 集S和相应的几何随机变量集ξ;循环执行直至不满足条件;
S2,根据采集得到的样本构造无偏估计;构造无偏估计的公式为:
其中,Si表示算法收集到的第i个节点,ξi指用来表示样本Si的重复次 数。
其中,在图上随机游走采集样本的概率转移方程如下:
其中du表示节点u的度,C是一个非负整数。
以上的广义最大度随机游走算法,简称为GMD算法,能够有效地 解决从一个“隐藏”的在线社交网络中提取均匀样本的问题,它很好 地平衡了RW算法的“大偏差问题”,以及MD算法的“重复样本问题”。 基于此,GMD算法可以取代现有的广泛使用的RW以及MD算法来解决 在线社交网络的抽样问题。
附图说明
图1为待进行随机游走算法样本采集的示意图。
具体实施方式
以下将结合具体的附图对本发明具体的实施方式进行详细说明。
本发明提供了一种新的广义最大度随机游走算法,以下简称GMD 算法。
GMD算法在MD算法之上引入一个参数C(C为一个非负整数)来 控制自环的数目,它的概率转移方程如下:
其中C是一个非负整数。
具体地,GMD算法包括两个步骤:首先,通过上述的转移概率在 图上随机游走采集样本;其次,根据采集得到的样本构造无偏估计。 其中,第一步的详细过程如下所示:
输入:图G=(V,E)
输出:采集到的样本点集S
1在图中随机选择节点u设为初始节点,并且将计数器i置为1
2循环执行直至不满足条件
2.1使用du/max{du,C}作为参数生成一个几何随机 变量ξi并加入ξ;
2.2将节点u作为Si,并加入集合S;
2.3从u的邻接节点中等概率随机选取一个节点v;
2.4将节点v作为下一步的节点u
2.5计数器i加1
3返回采集到的样本点集S和相应的几何随机变量集ξ
在这一步骤中,由于采用了一个几何随机变量来模拟随机游走算 法在自环上停留的次数,使得随机游走算法不必真实地去游走自环, 从而提升了算法的效率。换句话说,该随机游走算法中的几何随机变 量ξi代表了样本Si的重复次数。
采集完节点样本后,GMD算法通过以下公式构造无偏估计:
其中,Si表示算法收集到的第i个节点,ξi指用来表示样本Si的重复次 数。
显然,相对于MD算法,GMD算法在每个图节点上添加的自环数要 少于MD算法。因此,GMD算法能够在一定程度上解决MD算法的“重复 样本问题”。而且,GMD算法还可以解决MD算法中的最大度未知的问题。 此外,还可以证明GMD算法的试验分布与目标分布(均匀分布)的卡 方距离较RW算法的试验分布与目标分布的卡方距离要小。因此,GMD 算法也能够在一定程度上解决RW算法的“大偏差问题”。
以下详细证明这个结论。
定理:其中的π(u)为均匀分布,即 π(u)=1/n。
证明:首先容易得到 。 同样地,有。因此,要证明定理成立,只需要证明成立即可。
具体地,有
根据定义,有πrw(v)/πrw(u)=dv/du
πgmd(v)/πgmd(u)=max{dv,C}/max{du,C}。
令g(u,v)=π2(u)[πgmd(v)/πgmd(u)-πrw(v)/πrw(u)]。
对任意u,v∈V,令h(u,v)=g(u,v)+g(v,u)。
为了证明只需证明h(u,v)≤0 即可。显然,当u=v时,有h(u,v)=0。当u≠v时,有:
不失一般性,令du≥dv。考虑 以下三种情况:
(1)如果du≥dv≥C,有h(u,v)=0;
(2)如果du≥C≥dv,有
(3)如果C≥du≥dv,有
综上所述,有h(u,v)≤0。
证明完毕。
以下进一步举例说明本发明。即通过介绍当C=0.5*dmax=4时, 广义最大度随机游走算法(GMD算法)从图1中抽取2个节点的具体实 施过程,以及通过抽取的样本节点估计图1中节点度的平均值的计算 过程来说明GMD算法的算法流程。抽取更多的节点样本,以及其它C值 的情况与本例类似。
(1)通过状态转移概率矩阵对图进行一次随机游走,采集节点样本集合。
输入:图1
输出:采集得到包含2个样本点的集合S
1在图中随机选择节点u设为初始节点。假设选择v1作为初始节 点,并且将计数器i置为1
2使用du/max{du,C}=dv1/max{dv1,C}=2/max{2,4}=0.5生成一个几 何随机变量ξ1并加入ξ;不妨假设这里生成的几何随机变量 ξ1=2。
3将节点v1作为S1加入集合S;
4从v1的邻接节点中等概率随机选取一个节点v。假设选择的邻 居节点为v4
5将v4作为下一步操作的初始节点
6使用du/max{du,C}=dv4/max{dv4,C}=8/max{8,4}=1生成一个几何 随机变量ξ2并加入ξ;不妨假设这里生成的几何随机变量 ξ2=1。
7将节点v4作为S2加入集合S;
8从v4的邻接节点中等概率随机选取一个节点v。将其作为下一 步操作的初始节点。
9样本点采集完毕,采集过程结束。此时S={v1,v4},ξ={2,1}
(2)对采集到的样本点集通过来 估计图1中节点度的平均值。这里 说明由这个样本集 估计图1中节点度的平均值为3.2。
由上可知,广义最大度随机游走方法,即GMD算法能够有效地解 决从一个“隐藏”的在线社交网络中提取均匀样本的问题,它很好地 平衡了RW算法的“大偏差问题”,以及MD算法的“重复样本问题”。 基于此,GMD算法可以取代现有的广泛使用的RW以及MD算法来解决 在线社交网络的抽样问题。

Claims (2)

1.一种广义最大度随机游走图抽样方法,包括以下步骤:
S1,在图上随机游走采集样本;采集到社交网络中的数据样本点集S ;在图中随机选择节点u设为初始节点,并且将计数器i置为1;使用作为参数生成一个几何随机变量并加入集合;将节点u作为,并加入样本点集S;从节点u的邻接节点中等概率随机选取一个节点v;将节点v作为下一步的节点u,计数器i加1,返回采集到的样本点集S和相应的几何随机变量集;循环执行直至不满足条件;
S2,根据采集得到的样本构造无偏估计;构造无偏估计的公式为:
其中,表示算法收集到的第i个节点,指用来表示样本的重复次数,是一个非负整数, 其中表示节点u的度,E为期望,πgmd指随机游走的稳定概率分布, f指用户感兴趣的量。
2.根据权利要求1所述的广义最大度随机游走图抽样方法,其特征在于:在图上随机游走采集样本的概率转移方程如下:
Puv代表的是从u点跳转到v的概率,其含义是当前采集的样本是u,那么Puv代表下一步采集样本v的概率,是一个非负整数。
CN201410749244.XA 2014-12-09 2014-12-09 一种广义最大度随机游走图抽样方法 Expired - Fee Related CN104462374B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410749244.XA CN104462374B (zh) 2014-12-09 2014-12-09 一种广义最大度随机游走图抽样方法
PCT/CN2015/081147 WO2016090877A1 (zh) 2014-12-09 2015-06-10 一种广义最大度随机游走图抽样算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410749244.XA CN104462374B (zh) 2014-12-09 2014-12-09 一种广义最大度随机游走图抽样方法

Publications (2)

Publication Number Publication Date
CN104462374A CN104462374A (zh) 2015-03-25
CN104462374B true CN104462374B (zh) 2018-06-05

Family

ID=52908409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410749244.XA Expired - Fee Related CN104462374B (zh) 2014-12-09 2014-12-09 一种广义最大度随机游走图抽样方法

Country Status (2)

Country Link
CN (1) CN104462374B (zh)
WO (1) WO2016090877A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462374B (zh) * 2014-12-09 2018-06-05 深圳大学 一种广义最大度随机游走图抽样方法
CN106713035B (zh) * 2016-12-23 2019-12-27 西安电子科技大学 一种基于分组测试的拥塞链路定位方法
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法
CN109658094B (zh) * 2017-10-10 2020-09-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
CN110019975B (zh) 2017-10-10 2020-10-16 创新先进技术有限公司 随机游走、基于集群的随机游走方法、装置以及设备
CN109547265A (zh) * 2018-12-29 2019-03-29 中国人民解放军国防科技大学 基于随机游走抽样的复杂网络局部免疫方法及系统
CN110196995B (zh) * 2019-04-30 2022-12-06 西安电子科技大学 一种基于带偏置随机游走的复杂网络特征提取方法
CN111147311B (zh) * 2019-12-31 2022-06-21 杭州师范大学 一种基于图嵌入的网络结构性差异量化方法
CN112132326B (zh) * 2020-08-31 2023-12-01 浙江工业大学 一种基于随机游走度惩罚机制的社交网络好友预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617609A (zh) * 2013-10-24 2014-03-05 上海交通大学 基于图论的k-means非线性流形聚类与代表点选取方法
CN103942308A (zh) * 2014-04-18 2014-07-23 中国科学院信息工程研究所 大规模社交网络社区的检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396855B2 (en) * 2010-05-28 2013-03-12 International Business Machines Corporation Identifying communities in an information network
US8719211B2 (en) * 2011-02-01 2014-05-06 Microsoft Corporation Estimating relatedness in social network
US8583659B1 (en) * 2012-07-09 2013-11-12 Facebook, Inc. Labeling samples in a similarity graph
US9661084B2 (en) * 2012-09-28 2017-05-23 7517700 Canada Inc. O/A Girih Method and system for sampling online communication networks
CN104462374B (zh) * 2014-12-09 2018-06-05 深圳大学 一种广义最大度随机游走图抽样方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617609A (zh) * 2013-10-24 2014-03-05 上海交通大学 基于图论的k-means非线性流形聚类与代表点选取方法
CN103942308A (zh) * 2014-04-18 2014-07-23 中国科学院信息工程研究所 大规模社交网络社区的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Estimating Network Parameters Using Random Walks;Colin Cooper 等;《2012 4th International Conference on Computational Aspects of Social Networks (CASoN)》;20121130;第33-40页 *
On the Estimation Accuracy of Degree Distributions from Graph Sampling;Ribeiro, B 等;《2012 IEEE 51ST ANNUAL CONFERENCE ON DECISION AND CONTROL (CDC)》;IEEE Conference on Decision and Control;20121031;第5240-5247页 *

Also Published As

Publication number Publication date
WO2016090877A1 (zh) 2016-06-16
CN104462374A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462374B (zh) 一种广义最大度随机游走图抽样方法
Bae et al. Identifying and ranking influential spreaders in complex networks by neighborhood coreness
Liu et al. Determination of multifractal dimensions of complex networks by means of the sandbox algorithm
CN102262681B (zh) 一种博客信息传播中识别关键博客集的方法
Cui et al. Detecting overlapping communities in networks using the maximal sub-graph and the clustering coefficient
CN101887460A (zh) 一种文献质量评估方法及应用
CN106651016B (zh) 一种热点话题下动态预测用户行为的系统及方法
Wu et al. Efficient overlapping community detection in huge real-world networks
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Liu et al. A new clustering algorithm based on data field in complex networks
Zhou et al. Core decomposition and maintenance in weighted graph
Khouzani et al. Identification of the effects of the existing network properties on the performance of current community detection methods
WO2016086634A1 (zh) 一种拒绝率可控的Metropolis-Hastings图抽样算法
Chen et al. Link prediction in signed networks based on connection degree
Dong Application of Big Data Mining Technology in Blockchain Computing
CN103491074A (zh) 僵尸网络检测方法及装置
Zhuo et al. Accurate detection of hierarchical communities in complex networks based on nonlinear dynamical evolution
CN112699302B (zh) 一种基于测地距离的实时推荐方法
Yuan et al. From complex network to skeleton: m _ j mj-modified topology potential for node importance identification
Mehdiabadi et al. Sampling from diffusion networks
Jiang et al. Robust size estimation of online social networks via subgraph sampling
Bales et al. Efficiency-modularity for finding communities and anticommunities in networks
Lu et al. Incremental algorithms for sampling dynamic graphs
Wang et al. Overlapping community detection algorithm based on seed diffusion
Tang et al. Information propagation with retweet probability on online social network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180605

Termination date: 20211209

CF01 Termination of patent right due to non-payment of annual fee