CN107193954A

CN107193954A - 一种基于贝叶斯估计和局部路径的链路预测方法

Info

Publication number: CN107193954A
Application number: CN201710366156.5A
Authority: CN
Inventors: 杨旭华; 张海丰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2017-09-22

Abstract

一种基于贝叶斯估计和局部路径的链路预测方法，建立网络模型，任取两个未直接连接的节点作为种子节点，分别计算它们之间存在和不存在连边的概率，根据二节点之间长度为2或3路径中间节点的度信息，分别计算二节点之间产生和不产生连边的概率，根据贝叶斯估计和局部路径，计算二节点之间长度为2和3路径的每一中间节点的似然值,相似性分数为所有中间节点似然值之和；遍历网络，用上述方法获取任意两个种子节点间相似性分数，将所有种子节点对按相似性分数降序排列，取前B个分数值对应节点对为预测连边。本发明根据贝叶斯估计，结合局部路径，区分两节点间局部路径中不同中间节点具有不同重要性，算法预测效果好。

Description

一种基于贝叶斯估计和局部路径的链路预测方法

技术领域

本发明涉及网络科学和链路预测领域，特别是指一种基于贝叶斯估计和局部路径的链路预测方法。

背景技术

现实生活中的复杂系统可以使用复杂网络进行研究，网络中的节点代表复杂系统中的个体，连边代表系统中节点之间的相互关系。链路预测是复杂网络的重要研究领域之一，因为链路预测可以对网络的演化过程中节点之间可能产生的链路进行预测，所有可以提前预判出网络的演化趋势，并且可以判断出网络中并不存在的“幽灵边”，能够更好的帮助研究人员研究网络的内在规律。

链路预测问题受到研究人员的广泛关注。相比较而言，基于网络结构的链路预测算法相对于基于网络节点属性信息的预测算法更加可靠、准确。共同邻居(CN)算法是一种基于网络结构的经典链路预测算法，这种算法又被称为结构等价算法，即节点之间有很多的共同邻居节点，那么这两个节点就越相似，在CN算法的基础之上衍生出的链路预测算法有Salton算法、Jaccard算法、Sorenson算法、HPI(大度节点有利指标)、HDI(大度节点不利指标)、LHN-I算法、AA算法和RA算法等等，其中Salton算法又被称为余弦相似性算法，Sorenson算法常被用于生态学数据的研究，HPI算法常被用来分析新陈代谢网络的拓扑相似性，AA算法的思想是度小的共同邻居节点的贡献大于度大的共同邻居节点，RA算法是在AA算法的基础之上，受资源分配过程的启发而提出来的；基于路径的相似性算法，主要包括了局部路径指标(Local Path，LP)、Katz算法LHN-II算法，这些算法克服了CN算法使用的网络有效信息过少的缺点，从全局的角度利用网络的有效信息，因此，一定程度上提高了链路预测的精确性。

上述的一些经典算法主要考虑的是网络中的拓扑结构特性，即两个节点之间的网络特征越相似，那么这两个节点之间越有可能产生链路，这些方法在很多网络中的仿真被证实是有效的，但是这些传统的经典算法大部分只考虑了没有直接连边的节点对之间长度为二的路径的中间节点的度数信息，并没有考虑长度大于二的路径的中间节点的属性，事实上网络中的这些属性对于节点对之间产生链路有很大的作用。传统的基于局部路径的算法考虑了长度为2和3的路径的中间节点的度数，但是，没有考虑节点的其他属性，从而无法有效区分中间节点对没有直接连边的节点对产生链路的贡献。

发明内容

为了克服现有的基于局部路径的链路预测方法只考虑路径长度等于2和3的路径的中间节点，并且只考虑这些节点的度数而导致的预测精度不高的不足，本发明提出了一种准确度较高的基于贝叶斯估计和局部路径的链路预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于贝叶斯估计和局部路径的链路预测方法，包括以下步骤：

步骤一：建立网络模型G(V,E)，V代表网络中的节点集合，E代表网络中的连边集合，网络的节点总数记为N,用U表示网络中节点对的集合，|U|＝N(N-1)/2表示网络中节点对的总数；

步骤二：任意选取网络中的两个节点x和y作为种子节点，计算它们之间存在直接连边的可能性：

其中，|E|表示网络中实际存在的连边总数，A₁表示x和y两个节点之间存在直接连边；

步骤三：计算网络中任意两个节点x和y之间不存在直接连边的概率：

其中，A₀表示x和y两个节点之间不存在直接连边；

步骤四：根据节点x和y之间长度为2或者3的路径的一个中间节点V_w的度信息，计算节点x和y之间产生连边的概率：

P(A₁|V_w)＝C_w

其中，C_w＝2E_w/k_w(k_w-1),k_w表示节点V_w的度数，E_w表示节点V_w的k_w个邻居节点之间实际存在的边数；

步骤五：根据节点x和y之间长度为2或者3的路径的一个中间节点V_w的度信息，计算节点x和y之间不产生连边的概率：

P(A₀|V_w)＝1-C_w；

步骤六：根据贝叶斯估计的方法，计算节点x和y之间长度为2和3的路径的任意一个中间节点V_w的似然值

步骤七：对节点x和y之间长度为2和3的路径的每一个中间节点，重复步骤四至步骤六，计算每一个中间节点的似然值

步骤八：计算节点x和y的相似性分数：

其中表示节点x和y之间长度为2的所有路径的一个中间节点，P表示该类型中间节点的数量；表示节点x和y之间长度为3的所有路径中的一个中间节点，Q表示该类型中间节点的数量，λ表示可调系数，λ∈[0,1)；

步骤九：遍历整个网络，对任意两个未连接节点，重复步骤二至步骤八，计算所有未连接节点对之间的相似性分数，并按照相似性分数值从高到低排列顺序，取前B个相似性分数值对应的节点对为预测连边，其中，B为设定的一个正整数，B≤D，D为网络中所有未连接节点对的总数。

本发明的有益效果为：考虑网络中两个未连接节点之间路径长度等于2或3的局部路径，区分网络中的中间节点的度数对产生链路的贡献，提出了一种基于贝叶斯估计和局部路径的链路预测方法，链路预测准确度较高。

附图说明

图1为网络中的任意一个不存在直接连边的节点对之间的不同中间节点对这个节点对之间产生链路的影响。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于贝叶斯估计和局部路径的链路预测方法，包括以下步骤：

步骤二：任意选取网络中的两个节点x和y作为种子节点，即图1中黑色圆点表示，计算它们之间存在直接连边的可能性：

步骤三：计算网络中任意两个节点x和y之间不存在直接连边的概率，如图1所示：

其中，A₀表示x和y两个节点之间不存在直接连边；

步骤四：根据节点x和y之间长度为2或者3的路径的一个中间节点V_w(如图1所示)的度信息，计算节点x和y之间产生连边的概率：

P(A₁|V_w)＝C_w

步骤五：根据节点x和y之间长度为2或者3的路径的一个中间节点V_w(如图1所示)的度信息，计算节点x和y之间不产生连边的概率：

P(A₀|V_w)＝1-C_w；

步骤八：计算节点x和y的相似性分数：

步骤九：遍历整个网络，对任意两个未连接节点，重复步骤二至步骤八，计算所有未连接节点对之间的相似性分数，并按照相似性分数值从高到低排列顺序，取前B个相似性分数值对应的节点对为预测连边，其中，B为设定的一个正整数，B≤D，D为网络中所有未连接节点对的数量。

如上所述，本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于贝叶斯估计和局部路径的链路预测方法，其特征在于：包括以下步骤：

其中，A₀表示x和y两个节点之间不存在直接连边；

P(A₁|V_w)＝C_w

P(A₀|V_w)＝1-C_w；

步骤八：计算节点x和y的相似性分数：