CN104462374B

CN104462374B - 一种广义最大度随机游走图抽样方法

Info

Publication number: CN104462374B
Application number: CN201410749244.XA
Authority: CN
Inventors: 李荣华; 邱宇轩; 毛睿; 秦璐; 金檀; 蔡涛涛
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2018-06-05
Anticipated expiration: 2034-12-09
Also published as: WO2016090877A1; CN104462374A

Abstract

本发明公开一种广义最大度随机游走图抽样算法，在图上随机游走采集样本；根据采集得到的样本构造无偏估计；能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”，从而提升了从网络中采集样本点的整体效率。

Description

一种广义最大度随机游走图抽样方法

技术领域

本发明属于大图数据挖掘技术领域，尤其涉及一种广义最大度随机游走图抽样方法。

背景技术

近年来，在线社交网络分析在学术界和工业界都引起了广泛关注。在所有在线社交网络分析的相关研究中，一个最为基本的研究问题是估计社交网络中的节点性质以及整个社交网络的拓扑特性。然而，由于很多在线的社交网络公司，例如腾讯、新浪微博、Facebook 以及Twitter等，都没有向第三方发布其社交网络的图谱数据，并且整个社交图谱数据的大小对于第三方来说往往都是未知的。因此，广大从事社交网络分析的研究者和开发者都面临一个非常困难的数据采集问题。这里的主要难点在于，如何设计和开发出一种简便的方法来从一个“对于研究者不可见”的社交网络中提取出均匀的图节点样本。

为了解决这一问题，目前在学术界有很多基于爬虫技术的网络抽样方法被提出并广泛使用。可以把这些方法分为两大类：一类是基于图遍历的方法,另一类则是基于随机游走的方法。基于图遍历的方法主要是应用广度优先搜索(BFS，breadth-firstsearch)或者深度优先搜索(DFS，depth-first search)采集节点。然而，这一类方法的主要缺点是在采集节点的过程中，算法会偏向于度比较高的节点，这显然与需要均匀的节点样本的目标不相符。并且，这一类算法对度比较高的节点偏向多少无法从理论上刻画，因此很难纠正这一偏向，进而无法得到均匀的节点样本。目前，这一类算法逐渐被学术界和工业界弃用。基于随机游走的算法很好地解决了基于图遍历的算法的缺陷，它们可以直接生成无偏的节点样本，或者生成有偏但是偏向性已知的节点样本，故而这类算法在图采样中广受欢迎。目前有两种非常流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游走算法，称之为RW(re-weighted random walk)算法；第二种算法是最大度随机游走算法，称之为MD(maximum-degree random walk) 算法。下面简要介绍这两种算法。

将网络抽象成一个图G＝(V,E)，其中n＝|V|代表节点的个数，m＝|E| 代表边的条数。令N(u)为节点u∈V的所有邻接节点的集合，d_u＝|N(u)| 表示节点u的度。令f:V→R是一个定义在节点集V上的实值函数，表示节点u的某种特性的值，例如节点的度，或者节点的某个属性值。在估计网络特性的问题中，目标是估计整个网络中所有节点的f(u) 值的平均值，记为这里的π^u＝[1/n,...,1/n]表示均匀分布。例如，如果定义f(u)＝d_u,那么代表的是图G中节点度的平均值。如果定义则表示的是图G中节点的度分布，这里是一个指示函数，如果d_u＝d，则否则

在现有的文献中，RW和MD算法都能产生一个对的无偏估计。 RW算法是在图中执行一次随机游走来采集节点样本。众所周知，在一个非周期性的无向连通图中采用随机游走所采集到的节点样本并不是一个均匀分布。根据随机游走的稳定分布理论，节点被选取的概率和节点的度成正比，也即对于u∈V，有π^rw(u)＝d_u/2m，这里的π^rw表示随机游走的稳定分布。因此，根据随机游走的采集样本策略，图中每个节点被采集到的概率是不一样的，度大的节点被采集到的概率比度小的节点被采集到的概率要大，也就是说随机游走的算法更偏向于度比较高的节点。为了纠正这种偏向性，RW算法采用了一种重新加权的策略。具体地，RW算法采用估计(S表示采集到的样本节点的集合，w^rw(u)∝1/d_u代表节点u的权值，其中∝表示正比关系)来估计这一估计可以用重要性抽样(IS，important sampling)的框架来加以解释。具体地，IS框架采用的是相对比较容易实现的试验分布来代替目标分布采集样本节点，然后采用重要性加权来构造无偏估计。在RW算法中，目标分布是一个均匀分布π^u，试验分布是π^rw。根据IS框架，节点u的重要性权值为因此，根据IS框架，可以得到估计并且在理论上可以证明是渐进无偏的。也即，当n→∞ 时而的方差取决于f(u)w^rw(u)的方差。当f(u)与 w^rw(u)＝π^u(u)/π^rw(u)无关时，的方差仅取决于π^u(u)和π^rw(u)的相近程度。根据“刘氏法则”，基于IS框架的抽样算法的估计精度依赖于试验分布与目标分布的卡方距离。二者的卡方距离越大，抽样算法的估计精度就越差。这里卡方距离的定义如下：令p，q分别为试验分布和目标分布，则p与q的卡方距离为var_p(q(X)/p(X))，其中var表示方差。 MD算法是一个无偏的图抽样算法，它是从一个动态构造的规则图上随机游走采集节点，该算法能够直接得到均匀的节点样本。其原理是，通过在原始图的节点上加上自环，使得每个节点的度都等于图的最大度，生成一个规则图(节点度都相等的图称之为规则图)。当随机游走算法进行到节点u时，它以概率1/d_max从u节点的邻接节点集合N(u) 中随机选取一个节点，这里d_max表示图的最大度(度最大的节点的度)。根据这一过程，对于节点u，该算法将以(d_max-d_u)/d_max的概率停留在原来的节点u上。使用重要性抽样(IS，important sampling)的框架，可知MD算法的试验分布π^md和目标分布π^u＝[1/n,...,1/n]一致。因此， MD算法可以直接采用样本的均值来估计并且该估计也是渐进无偏的。

以上所述的算法中，根据IS框架，RW算法的试验分布π^rw与节点的度成正比，而目标分布是一个均匀分布π^u。在很多现实的社交网络中，网络的节点度往往并不均匀，而是呈现长尾现象。因此，在很多应用中，RW算法的试验分布π^rw和目标分布π^u有很大的偏离。根据“刘氏法则”，RW算法的有效性取决于π^rw和π^u的相近程度。所以在现实的网络中，RW算法往往会产生有很大的偏差，这个问题被称为“大偏差问题”(large deviation problem)。MD算法能够产生均匀的样本，因此它能够避免RW算法的“大偏差问题”。但它会产生自环(self-loop)，因而会产生很多重复的样本，并且这种情况在度比较小的节点上显得尤为严重。而过多的重复样本，通常会导致较大的估计方差，从而降低算法的估计精度，MD算法的这一缺陷被称为“重复样本问题”(repeated samples problem)。另外，在现实的很多网络中，节点的最大度通常来说是未知的。为了解决这个问题，通常的做法是将最大度设为一个非常大的常数，从而保证该常数要大于真实的最大度。显然，这一方法会导致更多的自环，从而加重“重复样本问题”。

发明内容

本发明提供一种广义最大度随机游走图抽样方法，能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”，从而提升了从网络中采集样本点的整体效率。

本发明通过以下技术手段实现：

一种广义最大度随机游走图抽样方法，包括以下步骤：

S1，在图上随机游走采集样本；采集到样本点集S；在图中随机选择节点u设为初始节点，并且将计数器i置为1；使用d_u/max{d_u,C}作为参数生成一个几何随机变量ξ_i并加入集合ξ；将节点u作为S_i，并加入样本点集S；从节点u的邻接节点中等概率随机选取一个节点v；将节点v作为下一步的节点u，计数器i加1，返回采集到的样本点集S和相应的几何随机变量集ξ；循环执行直至不满足条件；

S2，根据采集得到的样本构造无偏估计；构造无偏估计的公式为：

其中，S_i表示算法收集到的第i个节点，ξ_i指用来表示样本S_i的重复次数。

其中，在图上随机游走采集样本的概率转移方程如下：

其中d_u表示节点u的度，C是一个非负整数。

以上的广义最大度随机游走算法，简称为GMD算法，能够有效地解决从一个“隐藏”的在线社交网络中提取均匀样本的问题，它很好地平衡了RW算法的“大偏差问题”，以及MD算法的“重复样本问题”。基于此，GMD算法可以取代现有的广泛使用的RW以及MD算法来解决在线社交网络的抽样问题。

附图说明

图1为待进行随机游走算法样本采集的示意图。

具体实施方式

以下将结合具体的附图对本发明具体的实施方式进行详细说明。

本发明提供了一种新的广义最大度随机游走算法，以下简称GMD 算法。

GMD算法在MD算法之上引入一个参数C(C为一个非负整数)来控制自环的数目，它的概率转移方程如下：

其中C是一个非负整数。

具体地，GMD算法包括两个步骤：首先，通过上述的转移概率在图上随机游走采集样本；其次，根据采集得到的样本构造无偏估计。其中，第一步的详细过程如下所示：

输入：图G＝(V，E)

输出：采集到的样本点集S

1在图中随机选择节点u设为初始节点，并且将计数器i置为1

2循环执行直至不满足条件

2.1使用d_u/max{d_u,C}作为参数生成一个几何随机变量ξ_i并加入ξ；

2.2将节点u作为S_i，并加入集合S；

2.3从u的邻接节点中等概率随机选取一个节点v；

2.4将节点v作为下一步的节点u

2.5计数器i加1

3返回采集到的样本点集S和相应的几何随机变量集ξ

在这一步骤中，由于采用了一个几何随机变量来模拟随机游走算法在自环上停留的次数，使得随机游走算法不必真实地去游走自环，从而提升了算法的效率。换句话说，该随机游走算法中的几何随机变量ξ_i代表了样本S_i的重复次数。

采集完节点样本后，GMD算法通过以下公式构造无偏估计：

显然，相对于MD算法，GMD算法在每个图节点上添加的自环数要少于MD算法。因此，GMD算法能够在一定程度上解决MD算法的“重复样本问题”。而且，GMD算法还可以解决MD算法中的最大度未知的问题。此外，还可以证明GMD算法的试验分布与目标分布(均匀分布)的卡方距离较RW算法的试验分布与目标分布的卡方距离要小。因此，GMD 算法也能够在一定程度上解决RW算法的“大偏差问题”。

以下详细证明这个结论。

定理：其中的π(u)为均匀分布，即 π(u)＝1/n。

证明：首先容易得到。同样地，有。因此，要证明定理成立，只需要证明成立即可。

具体地，有

根据定义，有π^rw(v)/π^rw(u)＝d_v/d_u，

π^gmd(v)/π^gmd(u)＝max{d_v,C}/max{d_u,C}。

令g(u,v)＝π²(u)[π^gmd(v)/π^gmd(u)-π^rw(v)/π^rw(u)]。

对任意u,v∈V，令h(u,v)＝g(u,v)+g(v,u)。

为了证明只需证明h(u,v)≤0 即可。显然，当u＝v时,有h(u,v)＝0。当u≠v时，有：

不失一般性，令d_u≥d_v。考虑以下三种情况：

(1)如果d_u≥d_v≥C，有h(u,v)＝0；

(2)如果d_u≥C≥d_v，有

(3)如果C≥d_u≥d_v，有

综上所述，有h(u,v)≤0。

证明完毕。

以下进一步举例说明本发明。即通过介绍当C＝0.5*d_max＝4时，广义最大度随机游走算法(GMD算法)从图1中抽取2个节点的具体实施过程，以及通过抽取的样本节点估计图1中节点度的平均值的计算过程来说明GMD算法的算法流程。抽取更多的节点样本，以及其它C值的情况与本例类似。

(1)通过状态转移概率矩阵对图进行一次随机游走，采集节点样本集合。

输入：图1

输出：采集得到包含2个样本点的集合S

1在图中随机选择节点u设为初始节点。假设选择v₁作为初始节点，并且将计数器i置为1

2使用d_u/max{d_u,C}＝d_v1/max{d_v1,C}＝2/max{2,4}＝0.5生成一个几何随机变量ξ₁并加入ξ；不妨假设这里生成的几何随机变量 ξ₁＝2。

3将节点v1作为S₁加入集合S；

4从v₁的邻接节点中等概率随机选取一个节点v。假设选择的邻居节点为v₄。

5将v₄作为下一步操作的初始节点

6使用d_u/max{d_u,C}＝d_v4/max{d_v4,C}＝8/max{8,4}＝1生成一个几何随机变量ξ₂并加入ξ；不妨假设这里生成的几何随机变量 ξ₂＝1。

7将节点v4作为S₂加入集合S；

8从v₄的邻接节点中等概率随机选取一个节点v。将其作为下一步操作的初始节点。

9样本点采集完毕，采集过程结束。此时S＝{v₁，v₄}，ξ＝{2，1}

(2)对采集到的样本点集通过来估计图1中节点度的平均值。这里说明由这个样本集估计图1中节点度的平均值为3.2。

由上可知，广义最大度随机游走方法，即GMD算法能够有效地解决从一个“隐藏”的在线社交网络中提取均匀样本的问题，它很好地平衡了RW算法的“大偏差问题”，以及MD算法的“重复样本问题”。基于此，GMD算法可以取代现有的广泛使用的RW以及MD算法来解决在线社交网络的抽样问题。

Claims

1.一种广义最大度随机游走图抽样方法，包括以下步骤：

S1，在图上随机游走采集样本；采集到社交网络中的数据样本点集S ；在图中随机选择节点u设为初始节点，并且将计数器i置为1；使用作为参数生成一个几何随机变量并加入集合；将节点u作为，并加入样本点集S；从节点u的邻接节点中等概率随机选取一个节点v；将节点v作为下一步的节点u，计数器i加1，返回采集到的样本点集S和相应的几何随机变量集；循环执行直至不满足条件；

其中，表示算法收集到的第i个节点，指用来表示样本的重复次数，是一个非负整数, 其中表示节点u的度,E为期望，π^gmd指随机游走的稳定概率分布， f指用户感兴趣的量。

2.根据权利要求1所述的广义最大度随机游走图抽样方法，其特征在于：在图上随机游走采集样本的概率转移方程如下：

P_uv代表的是从u点跳转到v的概率,其含义是当前采集的样本是u，那么P_uv代表下一步采集样本v的概率，是一个非负整数。