CN110020087A

CN110020087A - 一种基于相似度估计的分布式PageRank加速方法

Info

Publication number: CN110020087A
Application number: CN201711481710.0A
Authority: CN
Inventors: 尤佳莉; 张欣; 薛寒星; 刘学
Original assignee: Beijing Scv Technology Co ltd; Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-16
Anticipated expiration: 2037-12-29
Also published as: CN110020087B

Abstract

本发明提供了一种基于相似度估计的分布式PageRank加速方法，所述方法包括：步骤1)以网络中的每个节点作为中心节点，构建中心节点与网络临近节点之间连接关系的子图；每个子图计算代表自身后继元集信息的特征向量；步骤2)当前子图计算相遇对象的后继元集和自身顶点集的相似度，根据预设阈值，决定是否将相遇对象的ID加入自身的候选列表；步骤3)当前子图将相遇对象的候选列表中子图加入自身候选列表，相遇对象将当前子图的候选列表中子图加入自身候选列表；步骤4)计算当前子图的顶点集与所有候选对象的后继元集的相似度，取相似度最大的作为下次正式相遇的对象；步骤5)根据相遇时两个子图之间的交互操作，计算并更新当前子图中所有的PageRank值。

Description

一种基于相似度估计的分布式PageRank加速方法

技术领域

本发明涉及计算机网络技术领域，特别涉及一种基于相似度估计的分布式PageRank加速方法。

背景技术

网络中用户终端设备的资源总量巨大，如智能手机、机顶盒、路由器、PC等设备所拥有的计算和存储资源，但这些资源仍然处于闲置状态，没有得到合理利用。而服务提供商部署的资源总量有限，会不断的出现服务瓶颈问题。我们希望通过网络节点周边的局部信息，准确快速的找到服务能力强、影响力大、真正距离用户近的终端设备部署内容资源。现有的局部信息逼近全局信息的方法收敛速度慢。因此，我们希望在仅增加少量通信开销的基础上，加速局部信息逼近全局信息的收敛速度，提高实用性。

传统PageRank计算方法通过链接到它的节点的数量以及它们的重要性来判断当前节点的重要性。这个递归的定义表明，它的计算代价是相当昂贵的，尤其是当网络中有海量节点的情况下，因为它需要迭代地计算整个网络拓扑组成的链接方阵的最大特征值对应的特征向量。而且原相遇过程是随机选择节点，所选节点不一定能提供最大的信息量。因此传统PageRank计算方法收敛速度慢，计算量大。

发明内容

本发明的目的在于为了克服分布式PageRank收敛速度慢和计算量大的问题，提供了一种基于相似度估计的分布式PageRank加速方法。该方法提出了预相遇过程，应用场景是使用分布式PageRank作为节点选择方法时，分布式PageRank加速收敛的问题。在使用PageRank作为节点选择方法时，由于计算全局PageRank非常耗时，网络局部也无法获知全局信息，因此会采用分布式PageRank方法，通过局部子图随机选择节点相遇的方法，逐渐逼近全局值。但如果只是随机选择节点，无法保证所选节点能提供最大的信息量，从而导致收敛速度慢。

为了实现上述目的，本发明提供了一种基于相似度估计的分布式PageRank加速方法，所述方法包括：

步骤1)以网络中的每个节点作为中心节点，构建中心节点与网络临近节点之间连接关系的子图；每个子图计算代表自身后继元集信息的特征向量；

步骤2)当前子图计算相遇对象的后继元集和自身顶点集的相似度，根据预设阈值，决定是否将相遇对象的ID加入自身的候选列表；

步骤3)当前子图将相遇对象的候选列表中子图加入自身候选列表，相遇对象将当前子图的候选列表中子图加入自身候选列表；

步骤4)计算当前子图的顶点集与所有候选对象的后继元集的相似度，取相似度最大的作为下次正式相遇的对象；

步骤5)根据相遇时两个子图之间的交互操作，计算并更新当前子图中所有的PageRank值；

步骤6)根据PageRank值的大小，对当前子图中所有节点降序排列，依次选择节点进行内容扩散，直至内容覆盖率满足要求或网络中已无剩余副本个数。

作为上述方法的一种改进，所述的步骤1)具体包括：

步骤101)以网络中的每个节点作为中心节点，构建中心节点与网络临近节点之间连接关系的子图；

子图用有向图G表示，G＝(V,E)，V＝{v₁,v₂,…,v_n}为顶点集，E＝{e₁,e₂,…,e_m}为边集；节点数目为n＝|V|，边数为m＝|E|；v_i∈V,(i＝1,2,…,n)，表示子图的一个节点；(v_i,v_j)∈E，表示节点v_i到节点v_j的一条有向边；

步骤102)计算每个子图的后继元集S：

S＝{u|u∈V∧(v,u)∈E∧u≠v}

步骤103)根据预设的映射方法将后继元集S映射为对应的特征向量；

映射方法为：Bloom filter、min-wise independent permutations或前两种的组合，或者进行自定义。

作为上述方法的一种改进，所述的步骤2)包括：

步骤201)设当前子图A选择子图B作为下次相遇的对象，计算子图B的后继元集S(B)和当前子图A的顶点集V(A)的相似度；

S(B)和V(A)的相似度是指当前子图A中节点是子图B中出链接的终点的比例，记作Containment(S(B),V(A))，计算公式如下：

对于v_i∈V(A)，检查v_i是否在子图B的后继元集S(B)中；若v_i在S(B)中存在，则计数器count加1；若v_i在S(B)中不存在，则计数器count保持不变；则S(B)和V(A)的相似度实际计算公式如下：

步骤202)给定阈值threshold，如果Containment(S(B),V(A))大于threshold，则当前子图A的候选列表缓存子图B的ID；

Threshold是根据应用需求而预设的参数，根据实际网络拓扑动态进行调整。

作为上述方法的一种改进，所述的步骤3)具体为：

当前子图A将相遇对象B的候选列表中子图加入自身候选列表，相遇对象B将当前子图A候选列表中子图加入自身候选列表；

这些ID被存储为下次相遇的候选对象，记作candidate(A)和candidate(B)：

candidate(A)＝candidate(B)＝IDs(A)∪IDs(B)

其中，IDs(A)和IDs(B)分别表示当前子图A的候选列表和子图B的候选列表。

作为上述方法的一种改进，所述的步骤4)包括：

步骤401)candidate(A)中的每个子图发送后继元集S(C)对应的特征向量给子图A；

步骤402)计算相似度Containment(S(C),V(A))；对candidate(A)中所有子图根据其相似度的值从大到小排序，然后取相似度最大的子图C作为下次相遇的对象；

步骤403)若当前子图A与子图C相遇后，当前子图A将C从自己的候选对象中删除。

作为上述方法的一种改进，所述的步骤5)包括：

步骤501)为子图额外增加一个全局节点w，表示除子图顶点集以外的其他所有节点的合集，最终形成的子图中节点数为n+1；

步骤502)计算子图中所有节点的节点间转移概率，并组成节点间转移概率矩阵：

其中：

其中，i和j表示子图中的节点，G表示当前子图，w表示全局节点，p_ij表示两个节点之间的节点间转移概率，p_iw表示节点与全局节点之间的节点间转移概率；out(r)表示节点r的出度，α(r)^t表示第t次相遇时节点r的PageRank值；

步骤503)初始化子图的PageRank稳态分布为其中，N表示整个网络的节点数目，n表示当前子图的节点数目；初始化转移概率矩阵的最后一行为：

步骤504)调整转移概率矩阵P为P'：

其中，ε是参数，ε∈[0,1]，一般取0.85；

计算矩阵P'的稳态分布α：

α向量就是子图所有节点对应的PageRank值；

步骤505)按照步骤1)至步骤4)的方法选出下次相遇的子图B；相遇时，对于子图B的每条边，如果终点在当前子图的顶点集中，且起点不在当前子图的顶点集中，则把该边加入到当前子图的全局节点中，转到步骤502)，每次相遇都迭代计算并更新一次当前子图所有节点的PageRank值；当相遇次数达到预设次数时，转入步骤6)。

作为上述方法的一种改进，所述的步骤6)包括：

根据步骤5)计算得到的PageRank值，对当前子图中所有节点降序排列，依次选择节点进行内容扩散，直至内容覆盖率满足要求或网络中已无剩余副本个数；所述内容覆盖率是指当前子图中已经存储内容的节点数目占总的节点数目的比例，记为Cov，取值范围为0≤Cov≤1；所述副本个数是预设参数，是指整个网络中的内容副本个数。

本发明的优势在于：

1、本发明的方法可以加速分布式PageRank的收敛速度，即达到相同的收敛精度只需要更少的相遇次数；从而加快找到服务能力强的节点的速度，以便后续进行内容扩散；

2、本发明的方法提出的预相遇过程，可通过计算其他子图的后继元集和自身顶点集的相似度，选择相似度最大的子图作为下次正式相遇的对象，最大化接收的有效信息量，从而减少相遇次数，加速分布式PageRank的收敛速度，从而加快选择节点的速度。

附图说明

图1为本发明的一种基于相似度估计的分布式PageRank加速方法的流程图；

图2为本发明的将后继元集S映射到对应的特征向量的示意图。

具体实施方式

下面结合附图和实施例对本发明所述的一种基于相似度估计的分布式PageRank加速方法进行详细说明。

如图1所示，本发明提出一种基于相似度估计的分布式PageRank加速方法，其步骤如下：

步骤1)每个子图计算代表自身后继元集信息的特征向量：

子图模型用有向图G表示，G＝(V,E)。V＝{v₁,v₂,…,v_n}为顶点集，E＝{e₁,e₂,…,e_m}为边集。节点数目为n＝|V|，边数为m＝|E|。v_i∈V,(i＝1,2,…,n)，表示子图的一个节点。(v_i,v_j)∈E，表示节点v_i到节点v_j的一条有向边；

计算子图的后继元集S。后继元集S定义为：

S＝{u|u∈V∧(v,u)∈E∧u≠v}

根据预设的方法，将后继元集S映射为对应的特征向量。映射方法可根据实际需求进行定义，包括：Bloom filter,min-wise independent permutations(MIPs)等一种或多种的组合，也可以自定义映射方法。

这里以Bloom filter方法为例，说明如何将后继元集S映射到对应的特征向量。具体包括：

创建一个m位BitSet，先将所有位初始化为0，然后选择k个不同的哈希函数。第i个哈希函数对后继元集S中每个元素e哈希的结果记为h_i(e)，且h_i(e)的范围是0到m-1；

对于元素e，分别计算h₁(e)，h₂(e)，…，h_k(e)。然后将BitSet的第h₁(e)，h₂(e)，…，h_k(e)位设为1，如图2所示，这样就将元素映射到BitSet数组中的k个二进制位了。在本专利所描述的应用场景下，小概率的哈希冲突是可以接受的。因为只需要对当前子图的顶点集与所有候选对象的后继元集的相似度做尽量准确的估计，所以并不需要百分之百的准确。

哈希函数的选择对性能的影响较大，应选择能近似等概率的将字符串映射到各个bit的哈希函数。k个哈希函数可以通过选择一个哈希函数，然后送入k个不同的参数得到。

步骤2)相遇时，当前子图计算相遇对象的后继元集和自身顶点集的相似度，根据预设阈值，决定是否将相遇对象的ID加入自身的候选列表：

假设子图A选择子图B作为下次相遇的对象。计算子图B的后继元集S(B)和子图A的顶点集V(A)的相似度。S(B)和V(A)的相似度是指子图A中节点是子图B中出链接的终点的比例，记作Containment(S(B),V(A))，理论计算公式如下：

这里，用步骤1)中生成的特征向量代表子图B的后继元集S(B)。这样子图B只需要发送一个很小的特征向量代表后继元集S(B)，而不需要发送所有的顶点集和边集信息，大大降低了网络通信开销。

对于v_i∈V(A)，根据预设方法，检查v_i是否在子图B的后继元集S(B)中。检查方法可根据实际需求进行定义，包括：Bloom filter,shingling algorithm等一种或多种的组合，也可以自定义检查方法。若v_i在S(B)中存在，则计数器count加1；若v_i在S(B)中不存在，则计数器count保持不变。则S(B)和V(A)的相似度实际计算公式如下：

这里以Bloom filter为例，说明如何检查v_i是否在子图B的后继元集S(B)中。对于v_i∈V(A)，分别计算h₁(v_i)，h₂(v_i)，…，h_k(v_i)。然后检查子图B的后继元集S对应的BitSet数组的第h₁(v_i)，h₂(v_i)，…，h_k(v_i)位是否为1，若全部位都是1，则认为v_i在S(B)中存在，计数器count加1；若其中任何一位不为1，则可判定v_i在S(B)中不存在，计数器count保持不变。

给定阈值threshold，如果Containment(S(B),V(A))大于threshold，则子图A缓存子图B的ID。Threshold是根据应用需求而预设的参数，可根据实际网络拓扑动态调整。

步骤3)当前子图和相遇对象交换各自的候选列表，存储为下次相遇的候选对象：

子图A和子图B交换各自的候选列表，这些ID被存储为下次相遇的候选对象，记作candidate(A)和candidate(B)：

candidate(A)＝candidate(B)＝IDs(A)∪IDs(B)

其中，IDs(A)和IDs(B)分别表示子图A的候选列表和子图B的候选列表。

步骤4)计算当前子图的顶点集与所有候选对象的后继元集的相似度，取相似度最大的作为下次正式相遇的对象：

candidate(A)中的每个子图C，发送后继元集S(C)对应的特征向量给子图A。这里子图C只需要发送一个很小的特征向量，而不需要发送所有的顶点集和边集信息，大大降低了网络通信开销；

计算相似度Containment(S(C),V(A))。对candidate(A)中所有子图根据其相似度的值从大到小排序，然后取相似度最大的子图C作为下次相遇的对象。子图B同理；

与子图C相遇后，将C从自己的候选对象中删除。

步骤5)根据相遇时，两个子图之间的交互操作，计算并更新当前子图中所有的PageRank值：

为子图额外增加一个全局节点w，表示除子图顶点集以外的其他所有节点的合集，最终形成的子图中节点数为n+1；

计算子图中所有节点的节点间转移概率，并组成节点间转移概率矩阵，具体包括：对于给定子图，所有节点的节点间转移概率矩阵表示为：

其中：

其中，i和j表示子图中的节点，G表示当前子图，w表示全局节点，p_ij表示两个节点之间的节点间转移概率,p_iw表示节点与全局节点之间的节点间转移概率。out(r)表示节点r的出度，α(r)^t表示第t次相遇时节点r的PageRank值；

初始化子图的PageRank稳态分布为其中，N表示整个网络的节点数目，n表示当前子图的节点数目；初始化转移概率矩阵的最后一行为：

调整转移概率矩阵P为P'：

其中，ε是参数，ε∈[0,1]，一般取0.85。

计算矩阵P'的稳态分布α：

α＝(α₁…α_n|α_w)^T

α向量就是子图所有节点对应的PageRank值。

按照步骤1)至步骤4)的方法选出下次相遇的子图(假设为子图B)。相遇时，对于子图B的每条边，如果终点在当前子图的顶点集中，且起点不在当前子图的顶点集中，则把该边加入到当前子图的全局节点中。转到步骤502)，每次相遇都迭代计算并更新一次当前子图所有节点的PageRank值。当相遇次数达到预设次数时，程序终止。相遇次数是根据应用需求而预设的参数。相遇次数参数的大小会影响逼近精度，一般地，相遇次数少，逼近精度低；相遇次数多，逼近精度越高。

最后根据PageRank值的大小，对当前子图中所有节点降序排列，依次选择节点进行内容扩散，直至内容覆盖率满足要求或网络中已无剩余副本个数。内容覆盖率是指当前子图中已经存储内容的节点数目(包括自己在内)占总的节点数目的比例，记为Cov，取值范围为0≤Cov≤1。副本个数是预设参数，是指整个网络中的内容副本个数。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于相似度估计的分布式PageRank加速方法，所述方法包括：

2.根据权利要求1所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤1)具体包括：

步骤102)计算每个子图的后继元集S：

S＝{u|u∈V∧(v,u)∈E∧u≠v}

3.根据权利要求2所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤2)包括：

4.根据权利要求3所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤3)具体为：

candidate(A)＝candidate(B)＝IDs(A)∪IDs(B)

5.根据权利要求1所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤4)包括：

6.根据权利要求4所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤5)包括：

其中：

步骤504)调整转移概率矩阵P为P'：

其中，ε是参数，ε∈[0^,1]，一般取0.85；

计算矩阵P'的稳态分布α：

α＝(α₁…α_n|α_w)^T

α向量就是子图所有节点对应的PageRank值；

7.根据权利要求1或6所述的基于相似度估计的分布式PageRank加速方法，其特征在于，所述的步骤6)包括：