CN104462374B - 一种广义最大度随机游走图抽样方法 - Google Patents
一种广义最大度随机游走图抽样方法 Download PDFInfo
- Publication number
- CN104462374B CN104462374B CN201410749244.XA CN201410749244A CN104462374B CN 104462374 B CN104462374 B CN 104462374B CN 201410749244 A CN201410749244 A CN 201410749244A CN 104462374 B CN104462374 B CN 104462374B
- Authority
- CN
- China
- Prior art keywords
- node
- sample
- random walk
- algorithms
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
- Software Systems (AREA)
Abstract
本发明公开一种广义最大度随机游走图抽样算法,在图上随机游走采集样本;根据采集得到的样本构造无偏估计;能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提升了从网络中采集样本点的整体效率。
Description
技术领域
本发明属于大图数据挖掘技术领域,尤其涉及一种广义最大度随 机游走图抽样方法。
背景技术
近年来,在线社交网络分析在学术界和工业界都引起了广泛关 注。在所有在线社交网络分析的相关研究中,一个最为基本的研究问 题是估计社交网络中的节点性质以及整个社交网络的拓扑特性。然 而,由于很多在线的社交网络公司,例如腾讯、新浪微博、Facebook 以及Twitter等,都没有向第三方发布其社交网络的图谱数据,并且 整个社交图谱数据的大小对于第三方来说往往都是未知的。因此,广 大从事社交网络分析的研究者和开发者都面临一个非常困难的数据 采集问题。这里的主要难点在于,如何设计和开发出一种简便的方法 来从一个“对于研究者不可见”的社交网络中提取出均匀的图节点样 本。
为了解决这一问题,目前在学术界有很多基于爬虫技术的网络抽 样方法被提出并广泛使用。可以把这些方法分为两大类:一类是基于 图遍历的方法,另一类则是基于随机游走的方法。基于图遍历的方法 主要是应用广度优先搜索(BFS,breadth-firstsearch)或者深度优 先搜索(DFS,depth-first search)采集节点。然而,这一类方法 的主要缺点是在采集节点的过程中,算法会偏向于度比较高的节点, 这显然与需要均匀的节点样本的目标不相符。并且,这一类算法对度 比较高的节点偏向多少无法从理论上刻画,因此很难纠正这一偏向, 进而无法得到均匀的节点样本。目前,这一类算法逐渐被学术界和工 业界弃用。基于随机游走的算法很好地解决了基于图遍历的算法的缺 陷,它们可以直接生成无偏的节点样本,或者生成有偏但是偏向性已 知的节点样本,故而这类算法在图采样中广受欢迎。目前有两种非常 流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游 走算法,称之为RW(re-weighted random walk)算法;第二种算法 是最大度随机游走算法,称之为MD(maximum-degree random walk) 算法。下面简要介绍这两种算法。
将网络抽象成一个图G=(V,E),其中n=|V|代表节点的个数,m=|E| 代表边的条数。令N(u)为节点u∈V的所有邻接节点的集合,du=|N(u)| 表示节点u的度。令f:V→R是一个定义在节点集V上的实值函数,表 示节点u的某种特性的值,例如节点的度,或者节点的某个属性值。 在估计网络特性的问题中,目标是估计整个网络中所有节点的f(u) 值的平均值,记为这里的πu=[1/n,...,1/n]表示均匀分 布。例如,如果定义f(u)=du,那么代表的是图G中节点度的平均 值。如果定义则表示的是图G中节点 的度分布,这里是一个指示函数,如果du=d,则否则
在现有的文献中,RW和MD算法都能产生一个对的无偏估计。 RW算法是在图中执行一次随机游走来采集节点样本。众所周知,在一 个非周期性的无向连通图中采用随机游走所采集到的节点样本并不 是一个均匀分布。根据随机游走的稳定分布理论,节点被选取的概率 和节点的度成正比,也即对于u∈V,有πrw(u)=du/2m,这里的πrw表 示随机游走的稳定分布。因此,根据随机游走的采集样本策略,图中 每个节点被采集到的概率是不一样的,度大的节点被采集到的概率比 度小的节点被采集到的概率要大,也就是说随机游走的算法更偏向于 度比较高的节点。为了纠正这种偏向性,RW算法采用了一种重新加权 的策略。具体地,RW算法采用估计(S表示采集 到的样本节点的集合,wrw(u)∝1/du代表节点u的权值,其中∝表示正 比关系)来估计这一估计可以用重要性抽样(IS,important sampling)的框架来加以解释。具体地,IS框架采用的是相对比较容 易实现的试验分布来代替目标分布采集样本节点,然后采用重要性加 权来构造无偏估计。在RW算法中,目标分布是一个均匀分布πu,试验 分布是πrw。根据IS框架,节点u的重要性权值为 因此,根据IS框架,可以得到估 计并且在理论上可以证明是渐进无偏的。也即,当n→∞ 时而的方差取决于f(u)wrw(u)的方差。当f(u)与 wrw(u)=πu(u)/πrw(u)无关时,的方差仅取决于πu(u)和πrw(u)的相近 程度。根据“刘氏法则”,基于IS框架的抽样算法的估计精度依赖于 试验分布与目标分布的卡方距离。二者的卡方距离越大,抽样算法的 估计精度就越差。这里卡方距离的定义如下:令p,q分别为试验分布 和目标分布,则p与q的卡方距离为varp(q(X)/p(X)),其中var表示方差。 MD算法是一个无偏的图抽样算法,它是从一个动态构造的规则图上随 机游走采集节点,该算法能够直接得到均匀的节点样本。其原理是, 通过在原始图的节点上加上自环,使得每个节点的度都等于图的最大 度,生成一个规则图(节点度都相等的图称之为规则图)。当随机游 走算法进行到节点u时,它以概率1/dmax从u节点的邻接节点集合N(u) 中随机选取一个节点,这里dmax表示图的最大度(度最大的节点的度)。 根据这一过程,对于节点u,该算法将以(dmax-du)/dmax的概率停留在 原来的节点u上。使用重要性抽样(IS,important sampling)的框 架,可知MD算法的试验分布πmd和目标分布πu=[1/n,...,1/n]一致。因此, MD算法可以直接采用样本的均值来估计并且该估计也是渐进 无偏的。
以上所述的算法中,根据IS框架,RW算法的试验分布πrw与节点的 度成正比,而目标分布是一个均匀分布πu。在很多现实的社交网络中, 网络的节点度往往并不均匀,而是呈现长尾现象。因此,在很多应用 中,RW算法的试验分布πrw和目标分布πu有很大的偏离。根据“刘氏 法则”,RW算法的有效性取决于πrw和πu的相近程度。所以在现实的 网络中,RW算法往往会产生有很大的偏差,这个问题被称为“大偏差 问题”(large deviation problem)。MD算法能够产生均匀的样本, 因此它能够避免RW算法的“大偏差问题”。但它会产生自环(self-loop),因而会产生很多重复的样本,并且这种情况在度比 较小的节点上显得尤为严重。而过多的重复样本,通常会导致较大的 估计方差,从而降低算法的估计精度,MD算法的这一缺陷被称为“重 复样本问题”(repeated samples problem)。另外,在现实的很多网络中,节点的最大度通常来说是未知的。为了解决这个问题,通常 的做法是将最大度设为一个非常大的常数,从而保证该常数要大于真 实的最大度。显然,这一方法会导致更多的自环,从而加重“重复样 本问题”。
发明内容
本发明提供一种广义最大度随机游走图抽样方法,能够有效地平 衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提 升了从网络中采集样本点的整体效率。
本发明通过以下技术手段实现:
一种广义最大度随机游走图抽样方法,包括以下步骤:
S1,在图上随机游走采集样本;采集到样本点集S;在图中随机选 择节点u设为初始节点,并且将计数器i置为1;使用du/max{du,C}作 为参数生成一个几何随机变量ξi并加入集合ξ;将节点u作为Si,并 加入样本点集S;从节点u的邻接节点中等概率随机选取一个节点v; 将节点v作为下一步的节点u,计数器i加1,返回采集到的样本点 集S和相应的几何随机变量集ξ;循环执行直至不满足条件;
S2,根据采集得到的样本构造无偏估计;构造无偏估计的公式为:
其中,Si表示算法收集到的第i个节点,ξi指用来表示样本Si的重复次 数。
其中,在图上随机游走采集样本的概率转移方程如下:
其中du表示节点u的度,C是一个非负整数。
以上的广义最大度随机游走算法,简称为GMD算法,能够有效地 解决从一个“隐藏”的在线社交网络中提取均匀样本的问题,它很好 地平衡了RW算法的“大偏差问题”,以及MD算法的“重复样本问题”。 基于此,GMD算法可以取代现有的广泛使用的RW以及MD算法来解决 在线社交网络的抽样问题。
附图说明
图1为待进行随机游走算法样本采集的示意图。
具体实施方式
以下将结合具体的附图对本发明具体的实施方式进行详细说明。
本发明提供了一种新的广义最大度随机游走算法,以下简称GMD 算法。
GMD算法在MD算法之上引入一个参数C(C为一个非负整数)来 控制自环的数目,它的概率转移方程如下:
其中C是一个非负整数。
具体地,GMD算法包括两个步骤:首先,通过上述的转移概率在 图上随机游走采集样本;其次,根据采集得到的样本构造无偏估计。 其中,第一步的详细过程如下所示:
输入:图G=(V,E)
输出:采集到的样本点集S
1在图中随机选择节点u设为初始节点,并且将计数器i置为1
2循环执行直至不满足条件
2.1使用du/max{du,C}作为参数生成一个几何随机 变量ξi并加入ξ;
2.2将节点u作为Si,并加入集合S;
2.3从u的邻接节点中等概率随机选取一个节点v;
2.4将节点v作为下一步的节点u
2.5计数器i加1
3返回采集到的样本点集S和相应的几何随机变量集ξ
在这一步骤中,由于采用了一个几何随机变量来模拟随机游走算 法在自环上停留的次数,使得随机游走算法不必真实地去游走自环, 从而提升了算法的效率。换句话说,该随机游走算法中的几何随机变 量ξi代表了样本Si的重复次数。
采集完节点样本后,GMD算法通过以下公式构造无偏估计:
其中,Si表示算法收集到的第i个节点,ξi指用来表示样本Si的重复次 数。
显然,相对于MD算法,GMD算法在每个图节点上添加的自环数要 少于MD算法。因此,GMD算法能够在一定程度上解决MD算法的“重复 样本问题”。而且,GMD算法还可以解决MD算法中的最大度未知的问题。 此外,还可以证明GMD算法的试验分布与目标分布(均匀分布)的卡 方距离较RW算法的试验分布与目标分布的卡方距离要小。因此,GMD 算法也能够在一定程度上解决RW算法的“大偏差问题”。
以下详细证明这个结论。
定理:其中的π(u)为均匀分布,即 π(u)=1/n。
证明:首先容易得到 。 同样地,有。因此,要证明定理成立,只需要证明成立即可。
具体地,有
根据定义,有πrw(v)/πrw(u)=dv/du,
πgmd(v)/πgmd(u)=max{dv,C}/max{du,C}。
令g(u,v)=π2(u)[πgmd(v)/πgmd(u)-πrw(v)/πrw(u)]。
对任意u,v∈V,令h(u,v)=g(u,v)+g(v,u)。
为了证明只需证明h(u,v)≤0 即可。显然,当u=v时,有h(u,v)=0。当u≠v时,有:
不失一般性,令du≥dv。考虑 以下三种情况:
(1)如果du≥dv≥C,有h(u,v)=0;
(2)如果du≥C≥dv,有
(3)如果C≥du≥dv,有
综上所述,有h(u,v)≤0。
证明完毕。
以下进一步举例说明本发明。即通过介绍当C=0.5*dmax=4时, 广义最大度随机游走算法(GMD算法)从图1中抽取2个节点的具体实 施过程,以及通过抽取的样本节点估计图1中节点度的平均值的计算 过程来说明GMD算法的算法流程。抽取更多的节点样本,以及其它C值 的情况与本例类似。
(1)通过状态转移概率矩阵对图进行一次随机游走,采集节点样本集合。
输入:图1
输出:采集得到包含2个样本点的集合S
1在图中随机选择节点u设为初始节点。假设选择v1作为初始节 点,并且将计数器i置为1
2使用du/max{du,C}=dv1/max{dv1,C}=2/max{2,4}=0.5生成一个几 何随机变量ξ1并加入ξ;不妨假设这里生成的几何随机变量 ξ1=2。
3将节点v1作为S1加入集合S;
4从v1的邻接节点中等概率随机选取一个节点v。假设选择的邻 居节点为v4。
5将v4作为下一步操作的初始节点
6使用du/max{du,C}=dv4/max{dv4,C}=8/max{8,4}=1生成一个几何 随机变量ξ2并加入ξ;不妨假设这里生成的几何随机变量 ξ2=1。
7将节点v4作为S2加入集合S;
8从v4的邻接节点中等概率随机选取一个节点v。将其作为下一 步操作的初始节点。
9样本点采集完毕,采集过程结束。此时S={v1,v4},ξ={2,1}
(2)对采集到的样本点集通过来 估计图1中节点度的平均值。这里 说明由这个样本集 估计图1中节点度的平均值为3.2。
由上可知,广义最大度随机游走方法,即GMD算法能够有效地解 决从一个“隐藏”的在线社交网络中提取均匀样本的问题,它很好地 平衡了RW算法的“大偏差问题”,以及MD算法的“重复样本问题”。 基于此,GMD算法可以取代现有的广泛使用的RW以及MD算法来解决 在线社交网络的抽样问题。
Claims (2)
1.一种广义最大度随机游走图抽样方法,包括以下步骤:
S1,在图上随机游走采集样本;采集到社交网络中的数据样本点集S ;在图中随机选择节点u设为初始节点,并且将计数器i置为1;使用作为参数生成一个几何随机变量并加入集合;将节点u作为,并加入样本点集S;从节点u的邻接节点中等概率随机选取一个节点v;将节点v作为下一步的节点u,计数器i加1,返回采集到的样本点集S和相应的几何随机变量集;循环执行直至不满足条件;
S2,根据采集得到的样本构造无偏估计;构造无偏估计的公式为:
其中,表示算法收集到的第i个节点,指用来表示样本的重复次数,是一个非负整数, 其中表示节点u的度,E为期望,πgmd指随机游走的稳定概率分布, f指用户感兴趣的量。
2.根据权利要求1所述的广义最大度随机游走图抽样方法,其特征在于:在图上随机游走采集样本的概率转移方程如下:
Puv代表的是从u点跳转到v的概率,其含义是当前采集的样本是u,那么Puv代表下一步采集样本v的概率,是一个非负整数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410749244.XA CN104462374B (zh) | 2014-12-09 | 2014-12-09 | 一种广义最大度随机游走图抽样方法 |
PCT/CN2015/081147 WO2016090877A1 (zh) | 2014-12-09 | 2015-06-10 | 一种广义最大度随机游走图抽样算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410749244.XA CN104462374B (zh) | 2014-12-09 | 2014-12-09 | 一种广义最大度随机游走图抽样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462374A CN104462374A (zh) | 2015-03-25 |
CN104462374B true CN104462374B (zh) | 2018-06-05 |
Family
ID=52908409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410749244.XA Expired - Fee Related CN104462374B (zh) | 2014-12-09 | 2014-12-09 | 一种广义最大度随机游走图抽样方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104462374B (zh) |
WO (1) | WO2016090877A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462374B (zh) * | 2014-12-09 | 2018-06-05 | 深圳大学 | 一种广义最大度随机游走图抽样方法 |
CN106713035B (zh) * | 2016-12-23 | 2019-12-27 | 西安电子科技大学 | 一种基于分组测试的拥塞链路定位方法 |
CN107358534A (zh) * | 2017-06-29 | 2017-11-17 | 浙江理工大学 | 社交网络的无偏数据采集系统及采集方法 |
CN109658094B (zh) * | 2017-10-10 | 2020-09-18 | 阿里巴巴集团控股有限公司 | 随机游走、基于集群的随机游走方法、装置以及设备 |
CN110019975B (zh) | 2017-10-10 | 2020-10-16 | 创新先进技术有限公司 | 随机游走、基于集群的随机游走方法、装置以及设备 |
CN109547265A (zh) * | 2018-12-29 | 2019-03-29 | 中国人民解放军国防科技大学 | 基于随机游走抽样的复杂网络局部免疫方法及系统 |
CN110196995B (zh) * | 2019-04-30 | 2022-12-06 | 西安电子科技大学 | 一种基于带偏置随机游走的复杂网络特征提取方法 |
CN111147311B (zh) * | 2019-12-31 | 2022-06-21 | 杭州师范大学 | 一种基于图嵌入的网络结构性差异量化方法 |
CN112132326B (zh) * | 2020-08-31 | 2023-12-01 | 浙江工业大学 | 一种基于随机游走度惩罚机制的社交网络好友预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617609A (zh) * | 2013-10-24 | 2014-03-05 | 上海交通大学 | 基于图论的k-means非线性流形聚类与代表点选取方法 |
CN103942308A (zh) * | 2014-04-18 | 2014-07-23 | 中国科学院信息工程研究所 | 大规模社交网络社区的检测方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396855B2 (en) * | 2010-05-28 | 2013-03-12 | International Business Machines Corporation | Identifying communities in an information network |
US8719211B2 (en) * | 2011-02-01 | 2014-05-06 | Microsoft Corporation | Estimating relatedness in social network |
US8583659B1 (en) * | 2012-07-09 | 2013-11-12 | Facebook, Inc. | Labeling samples in a similarity graph |
US9661084B2 (en) * | 2012-09-28 | 2017-05-23 | 7517700 Canada Inc. O/A Girih | Method and system for sampling online communication networks |
CN104462374B (zh) * | 2014-12-09 | 2018-06-05 | 深圳大学 | 一种广义最大度随机游走图抽样方法 |
-
2014
- 2014-12-09 CN CN201410749244.XA patent/CN104462374B/zh not_active Expired - Fee Related
-
2015
- 2015-06-10 WO PCT/CN2015/081147 patent/WO2016090877A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617609A (zh) * | 2013-10-24 | 2014-03-05 | 上海交通大学 | 基于图论的k-means非线性流形聚类与代表点选取方法 |
CN103942308A (zh) * | 2014-04-18 | 2014-07-23 | 中国科学院信息工程研究所 | 大规模社交网络社区的检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
Estimating Network Parameters Using Random Walks;Colin Cooper 等;《2012 4th International Conference on Computational Aspects of Social Networks (CASoN)》;20121130;第33-40页 * |
On the Estimation Accuracy of Degree Distributions from Graph Sampling;Ribeiro, B 等;《2012 IEEE 51ST ANNUAL CONFERENCE ON DECISION AND CONTROL (CDC)》;IEEE Conference on Decision and Control;20121031;第5240-5247页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2016090877A1 (zh) | 2016-06-16 |
CN104462374A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462374B (zh) | 一种广义最大度随机游走图抽样方法 | |
Bae et al. | Identifying and ranking influential spreaders in complex networks by neighborhood coreness | |
Liu et al. | Determination of multifractal dimensions of complex networks by means of the sandbox algorithm | |
CN102262681B (zh) | 一种博客信息传播中识别关键博客集的方法 | |
Cui et al. | Detecting overlapping communities in networks using the maximal sub-graph and the clustering coefficient | |
CN101887460A (zh) | 一种文献质量评估方法及应用 | |
CN106651016B (zh) | 一种热点话题下动态预测用户行为的系统及方法 | |
Wu et al. | Efficient overlapping community detection in huge real-world networks | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Liu et al. | A new clustering algorithm based on data field in complex networks | |
Zhou et al. | Core decomposition and maintenance in weighted graph | |
Khouzani et al. | Identification of the effects of the existing network properties on the performance of current community detection methods | |
WO2016086634A1 (zh) | 一种拒绝率可控的Metropolis-Hastings图抽样算法 | |
Chen et al. | Link prediction in signed networks based on connection degree | |
Dong | Application of Big Data Mining Technology in Blockchain Computing | |
CN103491074A (zh) | 僵尸网络检测方法及装置 | |
Zhuo et al. | Accurate detection of hierarchical communities in complex networks based on nonlinear dynamical evolution | |
CN112699302B (zh) | 一种基于测地距离的实时推荐方法 | |
Yuan et al. | From complex network to skeleton: m _ j mj-modified topology potential for node importance identification | |
Mehdiabadi et al. | Sampling from diffusion networks | |
Jiang et al. | Robust size estimation of online social networks via subgraph sampling | |
Bales et al. | Efficiency-modularity for finding communities and anticommunities in networks | |
Lu et al. | Incremental algorithms for sampling dynamic graphs | |
Wang et al. | Overlapping community detection algorithm based on seed diffusion | |
Tang et al. | Information propagation with retweet probability on online social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180605 Termination date: 20211209 |
|
CF01 | Termination of patent right due to non-payment of annual fee |