CN107222410B

CN107222410B - 链接预测的方法、装置、终端及计算机可读存储介质

Info

Publication number: CN107222410B
Application number: CN201710530878.XA
Authority: CN
Inventors: 杜翠凤
Original assignee: GCI Science and Technology Co Ltd
Current assignee: GCI Science and Technology Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-09-15
Anticipated expiration: 2037-06-29
Also published as: CN107222410A

Abstract

本发明公开了一种链接预测的方法，包括：获取网络中从第一目标节点到第二目标节点的有效路径；对每一条有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度；相邻节点对包括一个发送节点和一个接收节点，相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度；对每一条有效路径，根据位于该有效路径中的所有相邻节点对的资源传递强度，计算该有效路径的传播概率值；将所有从第一目标节点到第二目标节点的有效路径的传播概率值相加，获得链接预测值；根据链接预测值预测第一目标节点和第二目标节点之间产生链接的可能性，能够提升网络中的链接预测的准确度。

Description

链接预测的方法、装置、终端及计算机可读存储介质

技术领域

本发明涉及网络处理领域，尤其涉及一种链接预测的方法、装置、终端及计算机可读存储介质。

背景技术

在网络科学研究中，常将某个实际问题抽象为一个网络(例如通信网络、社交网络、信息网络、电力网络和交通网络等等)，网络中包括节点和节点之间的连边。其中，节点之间的连边用来表示节点之间的某种联系。

链接预测是网络的重要研究方向，链接预测指的是，通过网络中已知的信息来对网络中尚未产生连边的两个节点预测其产生链接的可能性。链接预测具有重大的实际应用价值，例如在近几年发展非常迅速的在线社交网络中，链接预测可以基于当前的网络结构预测哪些现在尚未结交的用户“应该是朋友”，并将此结果作为“朋友推荐”发送给用户。

现有技术中主要存在以下几类链接预测方法：一类是基于节点间的相似性的链接预测方法，例如共同邻居法、AdamNc-Adar法、优先链接法和资源分配法；另一类是基于路径的相似性的链接预测，例如最短距离法和Katz法；还有一类是基于网络结构的最大似然估计的链接预测。然而，上述现有的链接预测方法的准确度较低。

发明内容

本发明实施例所要解决的技术问题在于，提供一种链接预测的方法、装置、终端及计算机可读存储介质，能够提升网络中的链接预测的准确度。

为了解决上述技术问题，本发明实施例提出了一种链接预测的方法，包括：

获取网络中从第一目标节点到第二目标节点的有效路径；

对每一条从所述第一目标节点到所述第二目标节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度；所述相邻节点对包括一个发送节点和一个接收节点，所述相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度；

对每一条从所述第一目标节点到所述第二目标节点的有效路径，根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值；

将所有从所述第一目标节点到所述第二目标节点的有效路径的传播概率值相加，获得链接预测值；

根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性。

优选地，所述分别计算位于该有效路径中的每一个相邻节点对的资源传递强度，具体为：

获取位于该有效路径中的所有所述相邻节点对；

对每一个所述相邻节点对，获取所述网络中从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径；

对每一条从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的传递占比；所述相邻节点对的传递占比为该相邻节点对中的接收节点的邻接度占该相邻节点对中的发送节点在所述网络中的所有邻居节点的邻接度的总和的比例；

对每一条从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径，分别根据位于该有效路径中的所有所述相邻节点对的传递占比，计算该有效路径的传递系数；

根据所有从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径的传递系数获得该相邻节点对的资源传递强度。

优选地，节点的邻接度为该节点在其所处网络中具有的邻居节点的个数。

优选地，所述分别根据位于该有效路径中的所有所述相邻节点对的传递占比，计算该有效路径的传递系数，具体为：

将位于该有效路径中的所有所述相邻节点对的传递占比相乘，获得该传播路径的传递系数。

优选地，所述根据所有从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径的传递系数获得该相邻节点对的资源传递强度，具体为：

通过以下公式获取获得该相邻节点对的资源传递强度：

其中，N为该邻居节点对中的发送节点，j为该邻居节点对的接收节点，q为发送节点N和接收节点j在所述网络中的共同邻居节点，C_ij为该邻居节点对的资源传递强度，P_ij为包含节点N和节点j的相邻节点对的传递占比，且P_ij也为从发送节点N直接到接收节点j的有效路径的传递系数，P_iq为包含发送节点N和共同邻居节点q的相邻节点对的传递占比，P_qj为包含共同邻居节点q和接收节点j的相邻节点对的传递占比，P_iq×P_qj为从发送节点N先到共同邻居节点q，再从共同邻居节点q到接收节点j的有效路径的传递系数。

优选地，所述根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值，具体为：

将位于该有效路径中的所有所述相邻节点对的资源传递强度相乘，获得该有效路径的传播概率值。

优选地，在网络中，从作为起点的一个节点到作为终点的另一个节点的路径有N条；该N条路径由有效路径和无效路径组成；N为正整数；

所述有效路径为：其中间节点集不包含所述N条路径中其他任意一条路径的非空集的中间节点集的路径；其中，一条路径的中间节点集为：在该路径的所有节点中去掉作为起点的一个节点和作为终点的一个节点后，剩余的节点所形成的集合。

为了解决上述技术问题，本发明实施例还提出了一种链接预测的装置，包括：

有效路径获取模块，用于获取网络中从第一目标节点到第二目标节点的有效路径；

资源传递强度计算模块，用于对每一条从所述第一目标节点到所述第二目标节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度；所述相邻节点对包括一个发送节点和一个接收节点，所述相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度；

传播概率计算模块，用于对每一条从所述第一目标节点到所述第二目标节点的有效路径，根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值；

预测值计算模块，用于将所有从所述第一目标节点到所述第二目标节点的有效路径的传播概率值相加，获得链接预测值；以及，

预测模块，用于根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性。

为了解决上述技术问题，本发明实施例还提出了一种链接预测的终端，所述终端包括：

一个或多个处理器；

存储装置。用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述实施例所提供的链接预测的方法。

为了解决上述技术问题，本发明实施例还提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的链接预测的方法。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的链接预测的方法、装置、终端及计算机可读存储介质，通过计算网络中两个待预测的目标节点的所有有效路径中的相邻节点对的资源传递强度，根据位于每一条有效路径中的所有相邻节点对的资源传递强度，计算相应的每一条有效路径的传播概率值，再根据所有有效路径的传递概率值之和来预测该两个待预测的目标节点之间产生链接的可能性。可见，本发明实施例充分考虑了两个待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响，能够有效地提升网络中的链接预测的准确性。

附图说明

图1是一个网络的拓扑结构图；

图2是另一个网络的拓扑结构图；

图3是本发明实施例提供的链接预测的方法的一个流程示意图；

图4是拓扑结构中结构洞的说明示意图；

图5是现有的基于资源分配的链接预测方法和本发明实施例提供的链接预测方法的效果对比图。

图6是本发明实施例提供的链接预测的装置的一个结构示意图；

图7是本发明实施例提供的链接预测的终端的一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实际应用中，很多数据(如移动通信网络数据、社会关系数据以及生物学数据)都能够通过网络进行描述，因此，网络中的链接预测有广泛的应用前景。例如，通过分析移动用户的通信网络，再引入时间序列算法，即可实现用户链接的动态预测和基于位置的社交网络的朋友关系预测等等。更具体地，网络链接和内容的局部社区发现方法结合网络中的链接预测，则可以推断中国航空网络演化机制等等。因此，设计具有扩展性强的网络中的链接预测模型，并应用于网络结构变化预测和网络节点关系预测，这具有重要的研究意义。

链接预测指的是，通过网络中已知的信息来对网络中尚未产生连边的两个节点预测其产生链接的可能性。从上述链接预测的定义可知，链接预测包括两个方面：一方面，预测未知链接，由于技术或者其他因素的限制，网络中的某些链接并不是都直接可见的，因此需要根据当前的网络结构来预测链接的存在概率，这种情况下，一般把网络形式转化成网络静态快照，而不考虑网络的发展变化。另一方面，预测未来出现的新链接，通过t时刻之间的链接关系，预测t+1时刻链接发生的可能性，这种情况下，一般把网络看成动态变化的。总的来说，链接预测就是通过节点之间的相互关系或者相互作用揭示网络的动态变化趋势。

现有技术中主要存在以下几类链接预测方法：一类是基于节点间的相似性的链接预测方法，例如共同邻居法、AdamNc-Adar法、优先链接法和资源分配法；另一类是基于路径的相似性的链接预测，例如最短距离法和Katz法；还有一类是基于网络结构的最大似然估计的链接预测。

然而，本发明人在实施本发明的过程中发现，对图1示出的网络，节点对NG和节点对NK是位于该网络中的两个节点对，其中，节点对NG包括一个发送节点N和一个接收节点G，节点对NK包括一个发送节点N和一个接收节点K。利用现有的链接预测方法，计算节点对NG的链接预测值score(N，G)和节点对NK的链接预测值score(N，K)，结果如下：

资源分配法：

共同邻居法：score(N，G)＝score(N，K)＝2

AdamNc-Adar法：

最短距离法：score(N，G)＝score(N，K)＝2

Katz算法：score(N，G)＝score(N，K)＝4β²+9β³+16β⁴

由此可见，由现有的链接预测方法得到的节点对NG的链接预测值和节点对NK的链接预测值是相同的，即节点对NG中的两个节点之间产生链接的可能性和节点对NK中的两个节点之间产生链接的可能性是相同的。但根据图1，可以理解的是，接收节点G较接收节点K具有更好的关系(如邻居节点的数量及邻居节点的拓扑结构)，因此，发送节点N在进行资源分配的过程中，相较于跟接收节点K产生链接，发送节点N肯定是更希望跟接收节点G产生链接的。因此，现有方法无法准确地预测节点对NG和节点对NK中的两个节点产生链接的可能性，即网络中的链接预测的准确度不高。

并且，发明人付诸创造性劳动后，发现节点对NG和节点对NK具有如下相同属性：节点对的发送节点与接收节点在网络中的共同邻居节点的数量相同、节点对的发送节点和接收节点与它们在网络中的共同邻居节点之间的链接关系相同、以及节点对的发送节点和接收节点在网络中的路径长度及路径条数相同。而现有的链接预测方法无法准确地体现出具有上述相同属性的两个节点对(如节点对NG和节点对NK)中的两个节点产生链接的可能性。并且，现有的链接预测方法之所以准确度不高，主要是因为它们忽视了待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响。

并且，目前大多数网络都具有稀疏性的特点，存在链接节点数量与不存在链接节点数量之间的差距很大，如果把链接问题堪称为分类问题的话，在预测的过程中将会遇到高度不平衡的问题。因此，链接预测的重点是如何解决链接预测中不平衡的问题，以便提高链接预测的准确性。基于上述发现，本发明提供的链接预测，主要是在加权网络中采用边的结构权重来衡量节点之间的相互关系，并结合共同邻居集合中节点间的紧密程度来描述网络的链接预测。

请参阅图3，是本发明实施例提供的链接预测的方法的一个流程示意图。本发明实施例提供的链接预测的方法，至少包括如下步骤：

S1、获取网络中从第一目标节点到第二目标节点的有效路径；

在本发明实施例中，网络中包含有若干个节点及这些节点之间的连边，且网络可以为各种类型的网络，如通话网络、社交网络、信息网络、电力网络和交通网络等等。需要说明是，在实际应用中，对于传统的社交网络，通常需要以较长的时间间隔来获取数据，例如半年到一年才获取一次数据，难以实时获取动态数据，但对于移动通话网络以及移动社交网络(如QQ和微信等)，可以以较短的时间间隔来获取数据，例如一个月或者更短的时间获取一次数据，即可以相当便利地从移动运行商获取相应社会网络的相关节点数据。因此，当将本发明实施例应用于移动通信网络及移动社交网络时，由于网络本身更具有动态性，其预测的结果也更具有时效性。

在本发明实施例中，第一目标节点和第二目标节点为网络中任意两个尚不存在连边的节点，即需要进行链接预测的对象。并且，在一个给定的网络中，从第一目标节点到第二目标节点通常具有若干条路径。可以理解的是，该网络的拓扑结构越复杂，这若干条路径的总条数就越多。然而，这若干条路径中可能有部分路径是无效的，因此，需要剔除掉无效路径，从这若干条路径中获取有效路径。

一般来说，在一个给定的网络中，从作为起点的一个节点到作为终点的另一个节点的路径有N条，该N条路径由有效路径和无效路径组成，N为正整数。优选地，有效路径指的是：其中间节点集不包含该N条路径中其他任意一条路径的中间节点集的路径；相应的，无效路径指的是：其中间节点集包含该N条路径中其他任意一条路径的非空集的中间节点集的路径；其中，一条路径的中间节点集为：在该路径的所有节点中去掉作为起点的一个节点和作为终点的一个节点后，剩余的节点所形成的集合。接下来举两个例子详细描述在此优选情况下的有效路径：

例1，在图1所示的网络中，从节点N到节点G的所有路径中，只有N-F-G和N-L-G两条路径为有效路径，而N-A-F-G和N-L-F-G等其他路径均为无效路径。具体地，路径N-F-G的中间节点集为{F}，它不包含从节点N到节点G的所有路径中其他任意一条路径的非空集的中间节点集，因此，N-F-G为有效路径，而路径N-A-F-G的中间节点集为{A、F}，它包含路径N-F-G的中间节点集{F}，因此，路径N-A-F-G为无效路径。同理，可以确定路径N-L-G为有效路径，路径N-L-F-G为无效路径，其他路径同理类推，此处不一一举例。

例2，在图3所示的网络中，从节点O到节点S一共有3条路径，分别为路径O-S，路径O-P-S和路径O-Q-R-S，这3条路径全都为有效路径。具体地，路径O-S的中间节点集为空集，空集必然不包含从节点O到节点S的所有路径中其他任意一条路径的非空集的中间节点集，因此，路径O-S为有效路径；路径O-P-S的中间节点集为{P}，它不包含从节点O到节点S的所有路径中其他任意一条路径的非空集的中间节点集，因此，路径O-P-S为有效路径；路径O-Q-R-S的中间节点集为{Q、R}，它不包含从节点O到节点S的所有路径中其他任意一条路径的非空集的中间节点集，因此，路径O-Q-R-S为有效路径。

需要说明的是，将满足上述条件的路径确定为有效路径仅为一种优选的实施方式。在实际应用中，可以根据用户需求，将满足其他预设条件的路径作为为有效路径，此处不作具体限定。例如，在一个给定网络中，从作为起点的一个节点到作为终点的另一个节点的路径有N条，N为正整数，可以将这N条路径全都确定为有效路径。另外，具体实施时，在一个给定网络中，确定了作为起点的节点和作为终点的节点，可以通过路径遍历的方式来获取作为起点的节点到作为终点的节点的有效路径。

S2、对每一条从所述第一目标节点到所述第二目标节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度；所述相邻节点对包括一个发送节点和一个接收节点，所述相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度；

需要说明的是，在一条路径中，位于该路径中的两个相邻的节点(两个具有直接连接关系的节点)即为一个相邻节点对。例如，图1示出的路径N-F-G中，节点N和节点F为一个相邻节点对，且根据路径方向，在相邻节点对NF中，节点N为发送节点，F为接收节点；节点F和节点G为另一个相邻节点对，且根据路径方向，在相邻节点对FG中，节点F为发送节点，G为接收节点。

在本发明实施例中，相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度。一个节点(下文以节点1代称)对另一个节点(下文以节点2代称)的资源传递强度，用于衡量节点1向节点2传递的资源与节点1向网络中它的其他邻居节点传递的资源的多少上的相对关系，例如，在图1示出的网络中，节点N具有A、B、C、D、M、E、F和L共8个邻居节点，且节点对NF的资源传递强度C_NF大于节点对NE的资源传递强度C_NE，则说明节点N在进行资源传递时，相较于应传递给节点E的资源，应传递给节点F的资源要更多一些。

在本发明实施例中，对每一条从第一目标节点到第二目标节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度。以图1示出的网络中，选定节点N为第一目标节点，节点G为第二目标节点为例(下文简称实例10)，具体实施时，从节点N到节点G的有效路径有两条，分别为有效路径N-F-G和有效路径N-L-G。对路径N-F-G，分别计算相邻节点对NF和相邻节点对FG的资源传递强度，对路径N-L-G，分别计算相邻节点对NL和相邻节点对LG的资源传递强度。

S3、对每一条从所述第一目标节点到所述第二目标节点的有效路径，根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值；

以实例10进行说明，步骤S3具体如下，对有效路径N-F-G，根据相邻节点对NF和相邻节点对FG的资源传递强度计算该有效路径的传播概率值；以及，对有效路径N-L-G，根据相邻节点对NL和相邻节点对LG的资源传递强度计算该有效路径的传播概率值。

另外，在一个优选的实施方式中，对一条路径来说，其传播概率值的计算方法可以为，将位于该路径中的所有所述相邻节点对的资源传递强度相乘，从而获得该路径的传播概率值。此处分两类路径进行说明，一类是仅包含起始节点和终止节点两个节点的直达路径，对于直达路径，由其起始节点和其终止节点组成的相邻节点对的资源传递强度即为该直达路径的传播概率值，例如图1示出的路径N-F，其唯一的相邻节点对NF的资源传递强度C_NF即为路径N-F的传播概率值；另一类是包含起始节点、终止节点以及至少一个中间节点的中转路径，对于中转路径，将位于该路径中的所有所述相邻节点对的资源传递强度相乘，相乘后得到的值即为该中转路径的传播概率值，例如图1示出的路径N-A-F，其相邻节点对NA的资源传递强度C_NA乘以其相邻节点对AF的资源传递强度C_AF，相乘后得到的C_NA×C_AF即为路径N-A-F的传播概率值。

需要说明的是，关于步骤S2和步骤S3的执行顺序，对从所述第一目标节点到所述第二目标节点的所有有效路径来说，可以先计算其中一条有效路径中的所有相邻节点对的资源传递强度，紧接着根据这条有效路径的所有其所有相邻节点对的资源传递强度计算这条有效路径的传播概率值，得到这条有效路径的传播概率值后，再对下一条有效路径进行同样的操作，得到下一条有效路径的传播概率值，依次类推，直至得到最后一条有效路径的传播概率值。但可以理解的是，也可以先计算得到所有有效路径中的全部相邻节点对的资源传递强度，再根据相应的相邻节点对的资源传递强度分别计算每一条有效路径的传播概率值，从而得到所有有效路径的传播概率值。

S4、将所有从所述第一目标节点到所述第二目标节点的有效路径的传播概率值相加，获得链接预测值；

以实例10进行说明，步骤S4具体为，将有效路径N-F-G和有效路径N-L-G的传播系数相加，从而获得链接预测值score(N,G)＝C_NF×C_FG+C_NL×C_LG。

S5、根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性。

在本发明实施例中，链接预测值用于预测第一目标节点和第二目标节点之间产生链接的可能性。链接预测值越大，则表明第一目标节点和第二目标节点之间产生链接的可能性越大，反之，链接预测值越小，则表明第一目标节点和第二目标节点之间产生链接的可能性越小。在实际应用中，可以预设链接预测阈值，若计算得到的链接预测值小于阈值，则认定相应的两个待预测的目标节点之间产生链接的可能性相当小，若计算得到的链接预测值大于阈值，则认定相应的两个待预测的目标节点之间产生链接的可能性较大。

综上所述，本发明实施例提供的链接预测的方法，通过计算网络中两个待预测的目标节点的所有有效路径中的相邻节点对的资源传递强度，根据位于每一条有效路径中的所有相邻节点对的资源传递强度，计算相应的每一条有效路径的传播概率值，再根据所有有效路径的传递概率值之和来预测该两个待预测的目标节点之间产生链接的可能性。可见，本发明实施例充分考虑了待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响，能够有效地提升网络中的链接预测的准确性。

为进一步对本发明的方案进行更详细的说明，下文对本发明的一些优选实施例进行具体描述或举例说明。

在上述实施例的基础上，所述分别计算位于该有效路径中的每一个相邻节点对的资源传递强度，具体包括：

获取位于该有效路径中的所有所述相邻节点对；

在本发明实施例中，相邻节点对的传递占比为该相邻节点对中的接收节点的邻接度占该相邻节点对中的发送节点在其所处网络中的所有邻居节点的邻接度的总和的比例。例如，在图1示出的网络中，相邻节点对NF的传递占比为该相邻节点对中的接收节点F的邻接度Q(F)占该相邻节点对中的发送节点N在其所处网络中的所有邻居节点的邻接度的总和

的比例，_τ(N)为节点N在图1示出的网络中的所有邻居节点的集合，且

相邻节点对NF的传递占比为

需要说明的是，相邻节点对的传递占比用于衡量该相邻节点对中的发送节点和接收节点的紧密程度，若相邻节点对的传递占比越大，则说明相邻节点对中的发送节点与接收节点的紧密程度越大。例如，在图1示出的网络中，相邻节点对NF的传递占比为P_NF大于相邻节点对NB的传递占比，则说明发送节点N与接收节点F的紧密程度要大于发送节点N与接收节点F的紧密程度。

在本发明实施例中，对一条路径来说，其传递系数的计算方法可以为，将位于该路径中的所有所述相邻节点对的传递占比相乘，从而获得该路径的传递系数。此处分两类路径进行说明，一类是仅包含起始节点和终止节点两个节点的直达路径，对于直达路径，由其起始节点和其终止节点组成的相邻节点对的传递占比即为该直达路径的传递系数，例如图1示出的路径N-F，其唯一的相邻节点对NF的传递占比P_NF即为路径N-F的传递系数；另一类是包含起始节点、终止节点以及至少一个中间节点的中转路径，对于中转路径，将位于该路径中的所有所述相邻节点对的传递占比相乘，相乘后得到的值即为该中转路径的传递系数，例如图1示出的路径N-A-F，其相邻节点对NA的传递占比P_NA乘以其相邻节点对AF的传递占比P_AF，相乘后得到的P_NA×P_AF即为路径N-A-F的传递系数。

需要说明的是，关于计算路径的相邻节点对的传递占比和计算路径的传递系数的顺序，对从一个相邻节点对的发送节点到该相邻节点对的接收节点的所有有效路径来说，可以先计算其中一条有效路径中的所有相邻节点对的传递占比，再根据这条有效路径的所有其所有相邻节点对的传递占比计算这条有效路径的传递系数，得到这条有效路径的传递系数后，再对下一条有效路径进行同样的操作，得到下一条有效路径的传递系数，依次类推，直至得到最后一条有效路径的传递系数。但可以理解的是，也可以先计算得到所有有效路径中的全部相邻节点对的传递占比，再根据相应的相邻节点对的传递占比分别计算每一条有效路径的传递系数。

在本发明实施例中，对一个相邻节点对来说，根据该相邻节点对的发送节点到该相邻节点对的接收节点的所有有效路径的传递系数即可计算得到该相邻节点对NF的资源传递强度。例如，通过结构洞的网格约束算法计算。

在上一个实施例的基础上，节点的邻接度为该节点在其所处网络中具有的邻居节点的个数。

需要说明的是，在一个给定的网络中，节点的邻接度的计算方式如下，节点i的邻接度

其中，_τ(i)为节点i在该网络中的所有邻居节点的集合，k(w)为节点w的度，进一步地，

G为该网络中的所有节点的集合，若节点w和节点j没有边相连时，a_wj＝0，若节点w和节点j有边相连时，a_wj＝1。由此可见，节点的邻接度即为该节点在其所处网络中具有的邻居节点的个数。

在上一个实施例的基础上，所述根据所有从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径的传递系数获得该相邻节点对的资源传递强度，具体为：

通过以下公式获取获得该相邻节点对的资源传递强度：

在本发明实施例中，通过基于结构洞的网格约束算法来计算相邻节点对的资源传递强度。

为了方便理解，下面先对结构洞的概念进行简单说明。结构洞是学者Burt在研究社会网络的竞争关系时提出的经典社会学理论，结构洞是指非冗余联系人之间存在的缺口，一旦结构洞存在，那么结构洞两边的联系人可以带来累加而非重叠的网络收益。如图4所示，节点V和节点U之间、节点V和节点X以及节点U和节点X之间存在结构洞，而作为充当联系角色的中间人“T”获得了更多的网络收益，因为节点V和节点U之间、节点V和节点X以及节点U和节点X之间的信息传播必须由中间人“T”来完成，因此在该网络中，中间人“T”的重要性大于其他节点。在评价一个网络结构的效率时，当两个网络结构的规模一样时，那么存在更多非冗余联系人的网络将提供更多的利益。在结构洞的理论分析中，存在多种对网络结构的衡量指标。例如，通过计算网络中一个节点的有效规模时，有效规模越大，说明网络的重复性越小，存在结构洞的可能性越大。还有测量结构洞时一个节点的效率，个体效率越高，说明它在网络中行动效率越高效，对其他个体的影响程度越大。

在本发明实施例中，计算第一目标节点到第二目标节点的链接预测值时，根据邻接度的占比来计算相邻节点对的传递占比，进而根据路径中各个相邻节点对的传递占比获得该路径的传递系数，以此来计算相应的相邻节点对的资源传递强度，即，将共同邻居节点的邻域属性引入了结构洞的网格约束系数算法中，以图1示出的网络为例，接收节点G较接收节点K具有更好的关系(如邻居节点的数量及邻居节点的拓扑结构)，因此，发送节点N在进行资源分配的过程中，分配给接收节点F的资源应比分配给接收节点E的资源多，以期与G产生链接关系，也就是说，本发明实施例中计算相邻节点对的资源传递强度的方法则更真实的反映了节点对其邻居节点应分配的资源的多少。综上，本发明实施例深层次地考虑了第一目标节点自身的拓扑结构、第二目标节点自身的拓扑结构以及第一目标节点与第二目标节点的共同邻居节点(即中间人)的拓扑结构对资源传递的影响，因此，能够有效地提升链接预测的准确度。

接下来，对图1示出的网络中的部分邻居节点对的资源传递强度的计算过程进行详细描述：

邻居节点对NE的资源传递强度：

邻居节点对NL的资源传递强度：

邻居节点对NF的资源传递强度：

邻居节点对NM的资源传递强度：

邻居节点对FG的资源传递强度：

邻居节点对LG的资源传递强度：

邻居节点对EK的资源传递强度：

邻居节点对MK的资源传递强度：

并且，基于上述邻居节点对的资源传递强度，对实施例10，计算得到的链接预测值score(N,G)＝C_NF×C_FG+C_NL×C_LG＝0.0643×0.0356+0.0335×0.0575＝0.00421。另外，选定节点N为第一目标节点，且节点K为第二目标节点时，计算得到的链接预测值score(N,K)＝C_NE×C_EK+C_NM×C_MK＝0.0447×0.0199+0.0196×0.0343＝0.0016。由此可见，根据计算得到的链接预测值，可以预测节点N和节点G之间存在连接的可能性大于节点N和节点K之间存在连接的可能性。从计算结果可知，对于具有上文所述相同属性的节点对NG和节点对NK，本发明实施例提供的链接预测方法能够更准确地预测它们所包含的两个节点间存在连接的可能性，即提升了网络中的链接预测的准确度。

在上述任一个实施例的基础上，在网络中，从作为起点的一个节点到作为终点的另一个节点之间存在由有效路径和无效路径组成的N条路径；N为大于或等于1的正整数；

所述有效路径为：其中间节点集不包含所述N条路径中其他任意一条路径的中间节点集的路径；其中，一条路径的中间节点集为：在该路径的所有节点中去掉作为起点的一个节点和作为终点的一个节点后，剩余的节点所形成的集合。

接下来，对通过本发明提供的链接预测方法对实施例10(在图1示出的网络结构中，选定节点N为第一目标节点，且节点G为第二目标节点，即需要预测尚未产生连边的节点N和节点G之间产生链接的可能性)进行预测的完整过程进行说明：

首先，获取图1所示网络中从节点N到节点G的有效路径，分别为有效路径N-F-G和有效路径N-L-G，分别计算这两条有效路径中所有相邻节点对的资源传递强度；

其中，对有效路径N-F-G，分别计算其相邻节点对NF和相邻节点对FG的资源传递强度；

具体地，对相邻节点对NF，获取图1所示网络中从该相邻节点对的发送节点N到该相邻节点对的接收节点F的有效路径，分别为有效路径N-F、有效路径N-A-F和有效路径N-L-F，分别计算这三条有效路径的传递系数；更具体地，对有效路径N-F，计算位于有效路径N-F的相邻节点对NF的传递占比P_NF，并直接将相邻节点对NF的传递占比P_NF作为有效路径N-F的传递系数P_NF；对于有效路径N-A-F，计算位于有效路径N-A-F的相邻节点对NA的传递占比P_NA和相邻节点对AF的传递占比P_AF，并将相邻节点对NA和相邻节点对AF的传递占比相乘，获得有效路径N-A-F的传递系数P_NA×P_AF；对于有效路径N-L-F，计算位于有效路径N-L-F的相邻节点对NL的传递占比P_NL和相邻节点对LF的传递占比P_LF，并将相邻节点对NL和相邻节点对LF的传递占比相乘，获得有效路径N-L-F的传递系数P_NL×P_LF；计算得到有效路径N-F、有效路径N-A-F和有效路径N-L-F的传递系数后，根据公式

计算得到相邻节点对NF的资源传递强度C_NF。

同理，再计算得到相邻节点对FG的资源传递强度C_FG；

进一步地，将相邻节点对NF和相邻节点对FG的资源传递强度相乘，得到有效路径N-F-G的传播概率值C_NF×C_FG；

同理，得到有效路径N-L-G的传播概率值C_NL×C_LG；

再进一步地，将有效路径N-F-G的传播概率值和有效路径N-L-G的传播概率值相加，得到链接预测值；score(N,G)＝C_NF×C_FG+C_NL×C_LG

最终，根据该链接预测值预测节点N和节点G之间产生链接的可能性。

接下来，以一个对比实验来说明本发明实施例提供的链接预测方法在实际应用过程中能起到的有益效果：

移动用户在发生移动业务的过程中，运营商会记录用户的各种业务信息，包括发生业务的用户ID、开始时间、结束时间、业务类型和接收ID等。本实验主要进行如下步骤：

第一步：提取某运营商5万用户3个月的业务量数据，并按照一定的规则预处理，得到满足数据分析条件的表格1；

表格1

发起ID	开始时间	结束时间	接收ID	用户业务类型
					189＊＊	20160801213209	20160801352024	186＊＊	通话
189＊＊	20160801352024	20160802362919	189＊＊	通话
					189＊＊	20160802122342	20160802122345	186＊＊	微信
189＊＊	20160802022300	20160802022315	189＊＊	QQ

第二步，结合用户间每月发生业务的频次剔除无效数据，考虑到本实验的重点是识别用户之间的链接关系，基于现实数据分析的结果，本实验设置用户间每个月的用户发生业务的频次为20，然后把联系大于20次的用户关系看成有效链接；

第三步，剔除无效数据后，按照日期把剩下的数据分为两部分，前45天作为训练集，后45天作为测试集。并且，设置现有的基于资源分配的链接预测方法的链接预测值(score值)的阈值为0.055，设置本发明实施例提供的链接预测方法的链接预测值的阈值为0.004。再分别根据用户的现有的基于资源分配的链接预测方法对应的模型(改进前模型)和本发明实施例提供的链接预测方法对应的模型(改进后模型)对训练集进行打分，得到一系列用户间的链接预测值，选择链接预测值大于阈值作为链接的候选集合。然后，将改进前模型得到的候选集合与测试集合的结果，和改进后模型得到的候选集合与测试集合的结果，相对应得进行对比，得到的正确率如图5所示，由图5示出的结果可见，本发明实施例提供的链接预测的方法能有效提高网络连接预测的准确性。

如图6所示，本发明实施例还提供一种链接预测的装置，用于执行上述任一实施例所述的链接预测的方法，所述链接预测的装置至少包括：

有效路径获取模块11，用于获取网络中从第一目标节点到第二目标节点的有效路径；

资源传递强度计算模块12，用于对每一条从所述第一目标节点到所述第二目标节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的资源传递强度；所述相邻节点对包括一个发送节点和一个接收节点，所述相邻节点对的资源传递强度为该相邻节点对中的发送节点对该相邻节点对中的接收节点的资源传递强度；

传播概率计算模块13，用于对每一条从所述第一目标节点到所述第二目标节点的有效路径，根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值；

预测值计算模块14，用于将所有从所述第一目标节点到所述第二目标节点的有效路径的传播概率值相加，获得链接预测值；以及，

预测模块15，用于根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性。

本发明实施例提供的链接预测的装置，通过计算网络中两个待预测的目标节点的所有有效路径中的相邻节点对的资源传递强度，根据位于每一条有效路径中的所有相邻节点对的资源传递强度，计算相应的每一条有效路径的传播概率值，再根据所有有效路径的传递概率值之和来预测该两个待预测的目标节点之间产生链接的可能性。可见，本发明实施例充分考虑了两个待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响，能够有效地提升网络中的链接预测的准确性。

如图7所示，本发明实施例还提供一种链接预测的终端200，所述终端包括：

一个或多个处理器201；

存储装置202，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器201执行，使得所述一个或多个处理器201实现上述任一实施例所提供的链接预测的方法。

本发明实施例提供的链接预测的终端200，通过计算网络中两个待预测的目标节点的所有有效路径中的相邻节点对的资源传递强度，根据位于每一条有效路径中的所有相邻节点对的资源传递强度，计算相应的每一条有效路径的传播概率值，再根据所有有效路径的传递概率值之和来预测该两个待预测的目标节点之间产生链接的可能性。可见，本发明实施例充分考虑了两个待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响，能够有效地提升网络中的链接预测的准确性。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所提供的链接预测的方法。

本发明实施例提供的计算机可读存储介质，其内存储的计算机程序在被处理器执行时通过计算网络中两个待预测的目标节点的所有有效路径中的相邻节点对的资源传递强度，根据位于每一条有效路径中的所有相邻节点对的资源传递强度，计算相应的每一条有效路径的传播概率值，再根据所有有效路径的传递概率值之和来预测该两个待预测的目标节点之间产生链接的可能性。可见，本发明实施例充分考虑了两个待预测的目标节点本身的拓扑结构以及它们的共同邻居节点的拓扑结构在节点间进行资源传播的过程中的影响，能够有效地提升网络中的链接预测的准确性。

示例性的，计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储装置202中，并由处理器201执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在链接预测的终端200中的执行过程。

另外，上述链接预测的终端200可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，并且上述链接预测的终端200可包括，但不仅限于处理器201和存储装置202。本领域技术人员可以理解，图7仅仅是链接预测的终端的示例，并不构成对链接预测的终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如链接预测的终端200还可以包括输入输出设备、网络接入设备、总线等。

其中，上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是链接预测的终端200的控制中心，利用各种接口和线路连接整个链接预测的终端200的各个部分。

其中，上述存储装置202可用于存储计算机程序和/或模块，处理器201通过运行或执行存储在存储装置内的计算机程序和/或模块，以及调用存储在存储装置202内的数据，实现链接预测的终端200的各种功能。存储装置可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储装置可以包括高速随机存取存储装置，还可以包括非易失性存储装置，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储装置件、闪存器件、或其他易失性固态存储装置件。

其中，如果链接预测的终端200集成的模块/单元以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储装置、只读存储装置(ROM，Read-Only Memory)、随机存取存储装置(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。

Claims

1.一种链接预测的方法，其特征在于，包括：

获取网络中从第一目标节点到第二目标节点的有效路径；

根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性；

其中，所述分别计算位于该有效路径中的每一个相邻节点对的资源传递强度，具体包括：

获取位于该有效路径中的所有所述相邻节点对；

对每一条从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径，分别计算位于该有效路径中的每一个相邻节点对的传递占比；

根据所有从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径的传递系数获得该相邻节点对的资源传递强度；

其中，所述获取网络中从第一目标节点到第二目标节点的有效路径，具体包括：

将所述第一目标节点到所述第二目标节点的目标路径中，中间节点集不包含所述目标路径中其他任意一条路径的中间节点集的路径作为有效路径；

将所述第一目标节点到所述第二目标节点的目标路径中，中间节点集包含所述目标路径中其他任意一条路径的非空集的中间节点集的路径作为无效路径；其中，一条路径的中间节点集为：在所述路径的所有节点中去掉作为起点的一个节点和作为终点的一个节点后，剩余的节点所形成的集合；

获取所述有效路径。

2.如权利要求1所述的链接预测的方法，其特征在于，所述相邻节点对的传递占比为该相邻节点对中的接收节点的邻接度占该相邻节点对中的发送节点在所述网络中的所有邻居节点的邻接度的总和的比例。

3.如权利要求2所述的链接预测的方法，其特征在于，节点的邻接度为该节点在其所处网络中具有的邻居节点的个数。

4.如权利要求3所述的链接预测的方法，其特征在于，所述分别根据位于该有效路径中的所有所述相邻节点对的传递占比，计算该有效路径的传递系数，具体为：

5.如权利要求4所述的链接预测的方法，其特征在于，所述根据所有从该相邻节点对的发送节点到该相邻节点对的接收节点的有效路径的传递系数获得该相邻节点对的资源传递强度，具体为：

通过以下公式获取获得该相邻节点对的资源传递强度：

6.如权利要求1所述的链接预测的方法，其特征在于，所述根据位于该有效路径中的所有所述相邻节点对的资源传递强度，计算该有效路径的传播概率值，具体为：

7.如权利要求1至6任一项所述的链接预测的方法，其特征在于，在网络中，从作为起点的一个节点到作为终点的另一个节点的路径有N条；该N条路径由有效路径和无效路径组成；N为正整数；

8.一种链接预测的装置，其特征在于，包括：

预测模块，用于根据所述链接预测值预测所述第一目标节点和所述第二目标节点之间产生链接的可能性；

获取位于该有效路径中的所有所述相邻节点对；

获取所述有效路径。

9.一种链接预测的终端，其特征在于，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7任一项所述的链接预测的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一项所述的链接预测的方法。