CN114970692A - 一种新颖的基于引力场的链路预测方法 - Google Patents

一种新颖的基于引力场的链路预测方法 Download PDF

Info

Publication number
CN114970692A
CN114970692A CN202210515265.XA CN202210515265A CN114970692A CN 114970692 A CN114970692 A CN 114970692A CN 202210515265 A CN202210515265 A CN 202210515265A CN 114970692 A CN114970692 A CN 114970692A
Authority
CN
China
Prior art keywords
node
nodes
network
link prediction
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210515265.XA
Other languages
English (en)
Inventor
杨燕琳
冶忠林
赵海兴
孟磊
仁青卓么
李格格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Normal University
Original Assignee
Qinghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Normal University filed Critical Qinghai Normal University
Priority to CN202210515265.XA priority Critical patent/CN114970692A/zh
Publication of CN114970692A publication Critical patent/CN114970692A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及链接预测技术领域,涉及一种新颖的基于引力场的链路预测方法,包括以下步骤:一、用节点的重要性来衡量万有引力方程中的质量属性,用节点之间的相似性来衡量万有引力方程中的距离属性;二、考虑节点间的直接和间接引力值,提出基于引力场的新型链接预测框架LPFGF,并得到节点间相似度框架计算方程;三、将LPFGF扩展到多种链路预测算法,形成了新的链路预测算法,并进行链路预测。本发明能较佳地进行链路预测。

Description

一种新颖的基于引力场的链路预测方法
技术领域
本发明涉及链接预测技术领域,具体地说,涉及一种新颖的基于引力场的链路预测方法。
背景技术
利用网络的特征、结构和节点信息来预测两个不相连的节点之间的链接概率的过程被称为链接预测。链接预测包括对隐性链接(存在于现实世界的网络中,但不易被观察到)和未来链接(不存在于网络中,但随着网络的发展和外部信息及其他因素的影响,未来可能会出现)的预测。
链接预测的应用给人类社会带来了极大的便利。例如,链接预测在社交网络中被用来预测两个互不相识的人将来成为朋友的可能性,在蛋白质相互作用网络中也被用来发现最有可能发生相互作用的蛋白质结构,然后做相互作用实验,可以提高实验成功率。随着数据的爆炸性增长,网络中的错误链接和隐性链接越来越多,通过链接预测方法可以纠正和删除错误的链接,显示隐性链接。链接预测在网络建模、推荐系统、节点分类、网络重建和知识获取等应用中也很常见。
引力场是空间中两个质量物体产生相互引力的模型。引力值由物体的质量、物体之间的距离和万有引力常数决定。当物体的质量越大,物体之间的距离越小,这两个物理之间的引力就越大。这与分析复杂网络中的节点与节点之间的相互作用很相似。当网络中节点的重要性越大,节点之间的距离越短,说明这两个节点之间的关系强度越大,从而说明这两个节点在未来连接的概率越高。因此,基于这样的考虑,引入万有引力方程来模拟复杂网络中节点之间的关系强度,并将解决节点之间未来连接概率的问题投射到物理空间来解决。
随着复杂网络的快速发展,链路预测得到了研究人员的广泛关注,并提出了不同的链路预测算法。目前,主要有以下三类。
第一类是基于节点相似度的链接预测算法。第二类是基于最大似然估计的链接预测算法。第三类是基于机器学习的链接预测算法。上述算法都是利用网络的局部信息结构或节点信息来计算节点对之间的连接概率,而不是从物理空间计算概率。目前,有一些关于将引力场引入复杂网络的研究。例如,从物理学的角度,将欧几里得空间中的数据点视为复杂网络中的节点,将数据对象之间的关联视为复杂网络中的节点关系,发现欧几里得空间中的数据结构与复杂网络的拓扑结构非常相似,并构建了一个二维静态数据的数据场,这给复杂网络研究界带来了很大的影响,使许多研究者从物理学的角度研究和分析复杂网络的拓扑特性。在万有引力公式中,质量是代表物体在引力场中的重要性的最基本属性。物体之间的引力随着物体质量的增加而增加。在复杂网络中,度是反映节点重要性的最直观的属性。利用节点的度来确定节点的重要性,然后在复杂网络中建立了一个引力场模型。他们将该模型应用于对节点的重要性进行排序的任务。然而,他们忽略了一些小度节点在网络中起着至关重要的作用,如连接两个团的桥节点,使用这个模型来评估节点的重要性很容易导致不准确的结果。
发明内容
本发明的内容是提供一种新颖的基于引力场的链路预测方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种新颖的基于引力场的链路预测方法,其包括以下步骤:
一、用节点的重要性来衡量万有引力方程中的质量属性,用节点之间的相似性来衡量万有引力方程中的距离属性;
二、考虑节点间的直接和间接引力值,提出基于引力场的新型链接预测框架LPFGF,并得到节点间相似度框架计算方程;
三、将LPFGF扩展到多种链路预测算法,形成了新的链路预测算法,并进行链路预测。
作为优选,步骤一中,网络G的凝聚度
Figure BDA0003639261800000031
被定义为节点数n和平均路径长度l的倒数,表示如下:
Figure BDA0003639261800000032
其中n≥2,Dij代表节点vi和vj之间的最短路径长度;
从方程(1)中发现,收缩节点vi后的网络凝聚度表示如下:
Figure BDA0003639261800000033
其中ki是vi的度,Γ(vi)是vi的邻居节点集合,Hij是节点vi被收缩后更新的距离矩阵;
从方程(1)和(2)中得出,如果一个节点的度数很大,而且该节点在网络中处于关键位置,收缩该节点后,整个网络将被压缩成一个更紧凑的网络,通过该节点的最短路径长度也将缩短;
为了量化节点vi对网络G的贡献,对节点重要性的定义如下:
Figure BDA0003639261800000034
其中
Figure BDA0003639261800000035
代表节点vi被收缩后的网络G的凝聚度;公式(3)为:收缩节点vi后的网络G的凝聚度减去收缩节点vi前的网络G的凝聚度,得到节点vi对网络G的贡献;
从公式(3)得出,节点的重要性与节点的程度和位置有关;收缩节点vi后,网络的凝聚度与节点vi的重要性成正比;
因此,为了实现节点重要性的归一化,节点vi的重要性定义如下:
Figure BDA0003639261800000041
其中,
Figure BDA0003639261800000042
代表收缩节点后网络的最大凝聚度值;当该值为1时,表明收缩该节点后,网络的凝聚度更强,节点在网络中更重要。
作为优选,步骤一中,使用节点重要性来衡量万有引力方程中的质量属性M,因此,有:
Ma=IMC(a),Mb=IMC(b) (5)
通用引力方程的距离属性r是由节点相似度S(a,b)确定,两个节点越相似,两个节点之间的距离就越短;有:
Figure BDA0003639261800000043
如果节点b和节点a相似,节点b在网络中重要性大,那么节点b对节点a产生的引力值就大,那么这两个节点之间的关系就密切;因此,引力值为:
Figure BDA0003639261800000044
G′为引力常数,由于G′存在于所有方程中,所以忽略;因此,节点a和b之间的引力值为:
Figure BDA0003639261800000045
用节点间的直接引力值来衡量节点间的关系强度,另外考虑节点间的间接引力值,使预测结果更加准确,即,首先计算目标节点的所有邻接节点对另一个目标节点产生的引力值之和,然后对直接引力值和间接引力值这两部分进行求和运算,从而得到节点间的相似度值。
作为优选,新型链接预测框架LPFGF中,分为模块1和模块2;
模块1中:
首先,输入网络G,然后将网络数据集划分为训练集和测试集;其次,计算邻接矩阵A;如果有一条连接vi和vj的边,则aij=1,否则aij=0;再次,通过邻接矩阵计算直接距离矩阵H,如果在vi和vj之间有一条边,则hij=1,否则hij=∞;接着,在收缩节点之前,应用Floyd算法来计算任意两个节点之间的最短路径,然后计算最短距离矩阵D;紧接着,通过矩阵D,计算收缩节点后的最短距离矩阵D′,然后通过公式(2)计算收缩后各节点的凝聚度,并计算凝聚度列向量矩阵I;最后,对I通过公式(4)计算各节点的重要性,并计算出重要性列向量矩阵I′;
模块2中:
首先,通过利用基于节点相似度的链接预测基准方法,得到相似度矩阵S;第二,将每个节点的重要性和两个节点之间的相似度值代入引力值公式;第三,考虑节点间的直接和间接引力值来评估节点间的关系强度,然后推导出节点间的相似度框架计算方程,得到相似度矩阵S′;最后,通过对S′进行归一化,得到归一化的相似性矩阵S″。
作为优选,链路预测基准方法为CN、AA、RA和LRW。
本发明利用节点收缩后的节点重要性来衡量万有引力方程中的质量属性,用引力来评价节点之间的关系强度,所提出的LPFGF算法框架可以成功地提高其他链接预测算法的预测性能,最大提高幅度为15%。本发明不仅考虑了小度节点重要性,而且克服了因删除节点而造成的网络断裂问题。
附图说明
图1为实施例1中一种新颖的基于引力场的链路预测方法的流程图;
图2为实施例1中收缩节点的示意图;
图3为实施例1中由节点3、4、5及其相邻节点组成的网络示意图;
图4为实施例1中LPFGF的算法框架示意图;
图5(a)为实施例1中Citeseer数据集的度分布示意图;
图5(b)为实施例1中DBLP数据集的度分布示意图;
图5(c)为实施例1中Cora数据集的度分布示意图;
图5(d)为实施例1中Wiki数据集的度分布示意图;
图6(a)为实施例1中Citeseer数据集使用NLPGF算法前后原始基准方法的平均AUC值比较示意图;
图6(b)为实施例1中在DBLP数据集使用NLPGF算法前后原始基准方法的平均AUC值比较示意图;
图6(c)为实施例1中在Cora数据集使用NLPGF算法前后原始基准方法的平均AUC值比较示意图;
图6(d)为实施例1中在Wiki数据集使用NLPGF算法前后原始基准方法的平均AUC值比较示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种新颖的基于引力场的链路预测方法,其包括以下步骤:
一、用节点的重要性来衡量万有引力方程中的质量属性,用节点之间的相似性来衡量万有引力方程中的距离属性;
二、考虑节点间的直接和间接引力值,提出基于引力场的新型链接预测框架LPFGF,并得到节点间相似度框架计算方程;
三、将LPFGF扩展到多种链路预测算法,形成了新的链路预测算法,并进行链路预测。将该框架扩展到CN、AA、PA和LRW等多种链路预测算法,形成了LPFGF-CN、LPFGF-AA、LPFGF-PA、LPFGF-LRW等链路预测算法。
相关定义
节点收缩:当收缩网络G中的任何节点vi,意味着将所有与vi相邻的ki个节点与vj合并,并且这ki条边现在直接与vi关联。G*vi代表收缩节点vi后的网络。图2显示了收缩节点v4的示意图。
链路预测:设G=(V,E)是一个无定向网络,U是网络G中可能存在的最大边数,其中U=|V|(|V|-1)/2,U-E是网络G中不存在的边集。所以,链接预测被描述为找出未来最有可能形成边的顶点对。在本实施例中,未连接的节点之间的相似度是由提出的链接预测方法计算出来的,从大到小排序。相似度值越高,连边概率就越高。
一种改进的节点重要性评估方法
网络G的凝聚度
Figure BDA0003639261800000075
被定义为节点数n和平均路径长度l的倒数,表示如下:
Figure BDA0003639261800000071
其中n≥2,Dij代表节点vi和vj之间的最短路径长度。
从方程(1)中发现,收缩节点vi后的网络凝聚度表示如下:
Figure BDA0003639261800000072
其中ki是vi的度,Γ(vi)是vi的邻居节点集合,Hij是节点vi被收缩后更新的距离矩阵。
可以从方程(1)和(2)中推断出,如果一个节点的度数很大,而且该节点在网络中处于关键位置,收缩该节点后,整个网络将被压缩成一个更紧凑的网络,通过该节点的最短路径长度也将缩短,说明该节点在网络中很重要。
为了量化节点vi对网络G的贡献,对节点重要性的定义如下。
Figure BDA0003639261800000073
其中
Figure BDA0003639261800000074
代表节点vi被收缩后的网络G的凝聚度。上面的公式(3)可以理解为:收缩节点vi后的网络G的凝聚度减去收缩节点vi前的网络G的凝聚度,得到节点vi对网络G的贡献。
从公式(3)可以看出,节点的重要性与节点的程度和位置有关。收缩节点vi后,网络的凝聚度与节点vi的重要性成正比。基于此,认为收缩节点后网络的凝聚度可以直接用来评估节点的重要性。
因此,为了实现节点重要性的归一化,节点vi的重要性定义如下:
Figure BDA0003639261800000081
其中,
Figure BDA0003639261800000082
代表收缩节点后网络的最大凝聚度值。当该值为1时,表明收缩该节点后,网络的凝聚度更强,节点在网络中更重要。
基于引力场的链接预测框架
普遍的引力方程定义如下:
Figure BDA0003639261800000083
其中G'是引力常数,M代表物体的属性,如质量和重要性,r是两个物体之间的距离。
复杂网络中的节点之间的关系强度,很像物体之间的引力。节点之间的关系取决于节点本身的程度、特征、间性和重要性,并取决于节点之间的距离。因此,用引力来评价节点之间的关系强度,并将节点之间的相似性问题投射到物理空间中来解决。
质量是能够反映物体在引力场中的重要性的最基本特征。在复杂网络中决定节点重要性的最重要的变量之一是节点度。然而,一些小度节点对网络也很重要,如连接两个团的桥节点。因此,使用基于节点收缩的改进的节点重要性评价方法来衡量万有引力方程中的质量属性M。因此,有:
Ma=IMC(a),Mb=IMC(b). (5)
通用引力方程的距离属性r是由节点相似度S(a,b)。两个节点越相似,两个节点之间的距离就越短。有:
Figure BDA0003639261800000091
如果节点b和节点a比较相似,节点b在网络中重要性较大,那么节点b对节点a产生的引力值就比较大,那么这两个节点之间的关系就比较密切。因此,引力值为:
Figure BDA0003639261800000092
为了区分网络G,这里的引力常数用G′表示。由于G′存在于所有方程中,所以它可以被忽略。因此,节点a和b之间的引力值为:
Figure BDA0003639261800000093
用节点间的直接引力值来衡量节点间的关系强度,另外考虑节点间的间接引力值,使预测结果更加准确,即,首先计算目标节点的所有邻接节点对另一个目标节点产生的引力值之和,然后对直接引力值和间接引力值这两部分进行求和运算,从而得到节点间的相似度值。
接下来,将用一个简单的例子来说明这个过程。图3显示的是一个由节点3、4、5及其相邻节点组成的人工网络。x的相邻节点的集合用Γ(x)表示。
(1)节点3和节点5之间的直接引力值为:
F35=IMC(5)·S(3,5), (9)
(2)节点3和节点5的邻居节点之间的引力值是:
F34=IMC(4)·S(3,4), (10)
F36=IMC(6)·S(3,6), (11)
F37=IMC(7)·S(3,7), (12)
F38=IMC(8)·S(3,8). (13)
(3)节点5与节点3的邻居节点之间的引力值为:
F51=IMC(1)·S(5,1), (14)
F52=IMC(2)·S(5,2), (15)
F54=IMC(4)·S(5,4). (16)
(4)将节点3和5之间的直接和间接引力值相加,得到节点3和5之间的相似度值为:
Figure BDA0003639261800000101
因此,根据公式(17),得到任意两个节点u和v之间的相似性算法框架方程为:
Figure BDA0003639261800000102
将这个算法框架应用于不同的链接预测算法,会得到不同的相似度结果。将这个相似性矩阵归一化,最后得到的相似性框架方程为:
Figure BDA0003639261800000103
其中|V|是网络中节点的数量。
此外,还提供了一个LPFGF的算法框架图。LPFGF的算法框架可以分为两个部分,如图4所示。各部分的具体描述如下。
新型链接预测框架LPFGF中,分为模块1和模块2;
模块1中:
首先,输入网络G,然后将网络数据集划分为训练集和测试集;其次,计算邻接矩阵A;如果有一条连接vi和vj的边,则aij=1,否则aij=0;再次,通过邻接矩阵计算直接距离矩阵H,如果在vi和vj之间有一条边,则hij=1,否则hij=∞;接着,在收缩节点之前,应用Floyd算法来计算任意两个节点之间的最短路径,然后计算最短距离矩阵D;紧接着,通过矩阵D,计算收缩节点后的最短距离矩阵D′,然后通过公式(2)计算收缩后各节点的凝聚度,并计算凝聚度列向量矩阵I;最后,对I通过公式(4)计算各节点的重要性,并计算出重要性列向量矩阵I′;
模块2中:
首先,通过利用基于节点相似度的链接预测基准方法,得到相似度矩阵S;第二,将每个节点的重要性和两个节点之间的相似度值代入引力值公式;第三,考虑节点间的直接和间接引力值来评估节点间的关系强度,然后推导出节点间的相似度框架计算方程,得到相似度矩阵S′;最后,通过对S′进行归一化,得到归一化的相似性矩阵S″。
链接预测基准方法为CN、AA、RA和LRW等。
实验结果与分析
实验数据集
Citeseer、DBLP、Cora和Wiki数据集,用于测试所提出的LPFGF算法框架是否是一个有效的预测框架,其拓扑学属性总结于表1,其中|V|表示节点数,|E|表示边的数量,|Y|表示网络标签的数量,K表示平均程度,D表示网络直径,L表示平均路径长度,P表示密度,C表示平均聚类系数。
表1四个数据集的拓扑特性
Figure BDA0003639261800000111
评价指标和基准方法
评价链接预测算法的预测精度的三个重要指标是AUC,Precision和RankingScore。本实施例通过AUC评价指标对链接预测性能进行评估。一般来说,AUC值应大于0.5,不超过1。
为了评价所提出的LPFGF算法框架的预测性能,利用了18种基于相似性的不同链接预测算法作为基准算法,并比较了这些算法在采用LPFGF框架前后的链接预测性能。此外,为了强调所提出的LPFGF框架的贡献,还提供了4个前经典网络表示学习模型的预测性能,即DeepWalk、Node2Vec、LINE和SDNE在链接预测任务上的预测性能作为比较。
度分布的可视化
度分布被定义为网络中节点度的概率分布。图5(a)、图5(b)、图5(c)、图5(d)显示了Citeseer、Cora、DBLP和Wiki的度分布。通过观察四个数据集的度分布,在Citeseer和Cora数据集上,大多数节点的度主要集中在0和10之间,而在DBLP和Wiki数据集上,大多数节点的度主要集中在10和50之间。根据节点的密度,结合表1中四个数据集的拓扑特性描述,可以发现Citeseer和Cora数据集是相对较稀疏的网络,而DBLP和Wiki数据集是相对较密集的网络。
实验结果
本实施例采用随机抽样的方法来划分四个数据集。四个数据集的训练比例分别设定为0.7、0.8和0.9。实施结果分别为进行10次实验后得到的平均值为最终结果。
表2和表3显示了应用LPFGF框架前后18个基于节点相似性的基准指标的预测结果,以证明LPFGF算法框架的可行性。
表2列出了相关工作中列出的原始链接预测基准算法的原始AUC值。AUC结果显示,在DBLP和Wiki数据集上,整体预测性能较好。在这四个数据集上,只有六种算法的链接预测准确率高于80%,占33.3%,它们是LP、Katz、LHNII、LRW、SRW和MFI,其中Katz和MFI算法的预测性能优于其他算法,其准确率在这四个数据集上高于90%。然而,CN、Salton、HPI和其他算法在Citeseer数据集上的预测精度很差,最低为65.8%。通过实验结果发现,与四种基于节点相似性的链接预测方法相比,基于路径的、基于随机游走的和其他的链接预测算法在预测性能方面比基于局部信息的算法更好。
表2原始链接预测算法的AUC值比较(%)
Figure BDA0003639261800000131
表3列出了在使用提出的LPFGF算法框架后基于节点相似性的链接预测基准方法的AUC值。观察表3的结果,在DBLP和Wiki数据集上,使用提出的LPFGF算法框架后,整体预测性能较好,AUC值基本达到90%以上。在这四个数据集上,有10种算法的链接预测精度高于80%,占55.6%,它们是Salton、HDI、LHNI、LP、Katz、LHNII、LNBCN、LRW、SRW和MFI。其中,Katz、LHNII和MFI算法在链接预测方面有较好的表现,其在四个数据集上的预测精度都高于90%。特别是在Citeseer数据集上,它们的准确率超过了93%。PA算法在Citeseer、DBLP和Wiki数据集上的结果接近于原始结果,而在Cora数据集上的结果则略有下降。与四种基于节点相似性的链接预测方法相比,发现这四种链接预测算法在应用LPFGF框架进行优化后,其性能都有一定程度的提高。相比之下,LPFGF框架在提高基于网络局部信息的链接预测基准方法的性能方面更为成功。
表3使用LPFGF框架优化后的原始链接预测算法的AUC值比较(%)
Figure BDA0003639261800000132
Figure BDA0003639261800000141
提供图6(a)、图6(b)、图6(c)、图6(d)作为原始基准方法在使用LPFGF算法框架前后的平均AUC值的对比图,这样可以更直观地看到原始基准方法在使用LPFGF算法框架前后的预测性能变化。平均AUC值是指每个数据集上AUC值的平均值。在图6(a)、图6(b)、图6(c)、图6(d)中,横轴代表原始基准方法,纵轴代表平均AUC值,带有三角形符号的折线代表使用LPFGF框架前原始基准方法的平均AUC值,带有玫瑰圆圈符号的折线代表使用LPFGF框架后原始基准方法的平均AUC值。
从图6(a)、图6(b)、图6(c)、图6(d)中可以看出,在使用所提出的LPFGF框架后,链接预测方法的预测性能得到了很大的提高。尤其是CN、Salton和HPI方法,在Citeseer和Cora数据集上的预测性能提高了15%。PA略有下降,但接近于原来的结果。LP、Katz、LRW和SRW在Citeseer和Cora数据集上略有改善,而在DBLP和Wiki数据集上基本相同。当PA算法被LPFGF框架优化后,它将节点收缩作为节点重要性评估方法。根据公式(2)和(4),节点的重要性不仅由其度决定,还由其位置决定。如果节点的度数很高,但它在网络中不处于关键位置,那么该节点可能不是至关重要的。PA算法只考虑了节点度对节点相似度的影响。因此,它导致了轻微的性能下降。因此,将节点间的相似性问题投射到物理空间中去解决是有效和可行的。
如表4所示,提供了所提出的算法,如LPFGF-CN、LPFGF-Salton、LPFGF-HPI等的预测性能与四种前经典网络表征学习模型的预测性能的比较,这四种模型是DeepWalk、Node2Vec、LINE和SDNE在训练率为0.8的Cora和Citeseer数据集上的预测。需要注意的是,除了原来的基准算法的预测性能高于这四种基于网络表征学习模型的链接预测外,其他的都列在表4中,这些算法都是由提出的LPFGF算法框架优化的。
表4 LPFGF框架和四种网络表示学习算法的AUC值比较(%)
Figure BDA0003639261800000151
表4显示,在提出的LPFGF算法框架优化后,其他经典链接预测算法的预测性能在一定程度上优于前期经典网络表征学习模型,这进一步说明提出的LPFGF框架是可行的、成功的。
时间复杂度分析
建议的算法框架分为两部分,每一部分都将单独考察其时间复杂性。第一部分是计算节点的重要性。计算节点重要性的过程需要使用Floyd算法计算最短距离矩阵,并在收缩节点后找到凝聚度矩阵,Floyd算法和找到凝聚度矩阵的时间复杂度分别为O(N3)和O(N2),因此,第一部分的整体时间复杂度为O(N3)。第二部分是计算归一化相似性矩阵,其中需要计算节点之间的直接引力和间接引力值,所以第二部分的时间复杂度为O(N3)。因此,所提出的LPFGF算法框架的总体时间复杂度为O(N3),与基于全局的节点相似性算法的时间复杂度相当,但所提出的LPFGF算法框架的链接预测性能要比基于全局的节点相似性算法好很多。
总结
本实施例首先引入万有引力方程来评价复杂网络中节点之间的关系强度,其次利用节点收缩法得到的节点重要性来衡量通用引力方程的质量属性,利用节点之间的相似度来衡量通用引力方程的距离属性,提出基于引力场的链接预测框架,简称LPFGF。然后,得到了节点之间的相似性方程,然后将节点之间的相似性问题投射到物理空间来解决。最后,在四个实际数据集上的仿真结果显示,利用LPFGF框架,大多数基于节点相似性的链接预测算法的预测性能都有一定程度的提高。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (5)

1.一种新颖的基于引力场的链路预测方法,其特征在于:包括以下步骤:
一、用节点的重要性来衡量万有引力方程中的质量属性,用节点之间的相似性来衡量万有引力方程中的距离属性;
二、考虑节点间的直接和间接引力值,提出基于引力场的新型链接预测框架LPFGF,并得到节点间相似度框架计算方程;
三、将LPFGF扩展到多种链路预测算法,形成了新的链路预测算法,并进行链路预测。
2.根据权利要求1所述的一种新颖的基于引力场的链路预测方法,其特征在于:步骤一中,网络G的凝聚度
Figure FDA0003639261790000013
被定义为节点数n和平均路径长度l的倒数,表示如下:
Figure FDA0003639261790000011
其中n≥2,Dij代表节点vi和vj之间的最短路径长度;
从方程(1)中发现,收缩节点vi后的网络凝聚度表示如下:
Figure FDA0003639261790000012
其中ki是vi的度,Γ(vi)是vi的邻居节点集合,Hij是节点vi被收缩后更新的距离矩阵;
从方程(1)和(2)中得出,如果一个节点的度数很大,而且该节点在网络中处于关键位置,收缩该节点后,整个网络将被压缩成一个更紧凑的网络,通过该节点的最短路径长度也将缩短;
为了量化节点vi对网络G的贡献,对节点重要性的定义如下:
Figure FDA0003639261790000021
其中
Figure FDA0003639261790000022
代表节点vi被收缩后的网络G的凝聚度;公式(3)为:收缩节点vi后的网络G的凝聚度减去收缩节点vi前的网络G的凝聚度,得到节点vi对网络G的贡献;
从公式(3)得出,节点的重要性与节点的程度和位置有关;收缩节点vi后,网络的凝聚度与节点vi的重要性成正比;
因此,为了实现节点重要性的归一化,节点vi的重要性定义如下:
Figure FDA0003639261790000023
其中,
Figure FDA0003639261790000024
代表收缩节点后网络的最大凝聚度值;当该值为1时,表明收缩该节点后,网络的凝聚度更强,节点在网络中更重要。
3.根据权利要求1所述的一种新颖的基于引力场的链路预测方法,其特征在于:步骤一中,使用节点重要性来衡量万有引力方程中的质量属性M,因此,有:
Ma=IMC(a),Mb=IMC(b) (5)
通用引力方程的距离属性r是由节点相似度S(a,b)确定,两个节点越相似,两个节点之间的距离就越短;有:
Figure FDA0003639261790000025
如果节点b和节点a相似,节点b在网络中重要性大,那么节点b对节点a产生的引力值就大,那么这两个节点之间的关系就密切;因此,引力值为:
Figure FDA0003639261790000026
G′为引力常数,由于G′存在于所有方程中,所以忽略;因此,节点a和b之间的引力值为:
Figure FDA0003639261790000031
用节点间的直接引力值来衡量节点间的关系强度,另外考虑节点间的间接引力值,使预测结果更加准确,即,首先计算目标节点的所有邻接节点对另一个目标节点产生的引力值之和,然后对直接引力值和间接引力值这两部分进行求和运算,从而得到节点间的相似度值。
4.根据权利要求3所述的一种新颖的基于引力场的链路预测方法,其特征在于:新型链接预测框架LPFGF中,分为模块1和模块2;
模块1中:
首先,输入网络G,然后将网络数据集划分为训练集和测试集;其次,计算邻接矩阵A;如果有一条连接vi和vj的边,则aij=1,否则aij=0;再次,通过邻接矩阵计算直接距离矩阵H,如果在vi和vj之间有一条边,则hij=1,否则hij=∞;接着,在收缩节点之前,应用Floyd算法来计算任意两个节点之间的最短路径,然后计算最短距离矩阵D;紧接着,通过矩阵D,计算收缩节点后的最短距离矩阵D′,然后通过公式(2)计算收缩后各节点的凝聚度,并计算凝聚度列向量矩阵I;最后,对I通过公式(4)计算各节点的重要性,并计算出重要性列向量矩阵I′;
模块2中:
首先,通过利用基于节点相似度的链接预测基准方法,得到相似度矩阵S;第二,将每个节点的重要性和两个节点之间的相似度值代入引力值公式;第三,考虑节点间的直接和间接引力值来评估节点间的关系强度,然后推导出节点间的相似度框架计算方程,得到相似度矩阵S′;最后,通过对S′进行归一化,得到归一化的相似性矩阵S″。
5.根据权利要求4所述的一种新颖的基于引力场的链路预测方法,其特征在于:链路预测基准方法为CN、AA、RA和LRW。
CN202210515265.XA 2022-05-11 2022-05-11 一种新颖的基于引力场的链路预测方法 Pending CN114970692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515265.XA CN114970692A (zh) 2022-05-11 2022-05-11 一种新颖的基于引力场的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515265.XA CN114970692A (zh) 2022-05-11 2022-05-11 一种新颖的基于引力场的链路预测方法

Publications (1)

Publication Number Publication Date
CN114970692A true CN114970692A (zh) 2022-08-30

Family

ID=82981758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515265.XA Pending CN114970692A (zh) 2022-05-11 2022-05-11 一种新颖的基于引力场的链路预测方法

Country Status (1)

Country Link
CN (1) CN114970692A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349786A1 (en) * 2017-06-01 2018-12-06 Northeastern University Link prediction based on 3-step connectivity
CN111310849A (zh) * 2020-02-27 2020-06-19 兰州大学 一种基于knn的有效链路预测方法
CN112860977A (zh) * 2021-03-18 2021-05-28 杭州师范大学 一种基于卷积神经网络的链路预测方法
CN113065974A (zh) * 2021-03-16 2021-07-02 西北工业大学 一种基于动态网络表示学习的链路预测方法
CN113792802A (zh) * 2021-09-16 2021-12-14 东北电力大学 基于聚类系数的叠加随机游走重力模型链路预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349786A1 (en) * 2017-06-01 2018-12-06 Northeastern University Link prediction based on 3-step connectivity
CN111310849A (zh) * 2020-02-27 2020-06-19 兰州大学 一种基于knn的有效链路预测方法
CN113065974A (zh) * 2021-03-16 2021-07-02 西北工业大学 一种基于动态网络表示学习的链路预测方法
CN112860977A (zh) * 2021-03-18 2021-05-28 杭州师范大学 一种基于卷积神经网络的链路预测方法
CN113792802A (zh) * 2021-09-16 2021-12-14 东北电力大学 基于聚类系数的叠加随机游走重力模型链路预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨燕琳: "基于节点高阶特征的链路预测算法", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Similar Documents

Publication Publication Date Title
CN110110094B (zh) 基于社交网络知识图谱的跨网络人物关联方法
Zarandi et al. Community detection in complex networks using structural similarity
CN103810288B (zh) 基于聚类算法对异构社会网络进行社区检测的方法
CN107784598A (zh) 一种网络社区发现方法
CN113255895B (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN108304380A (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN105825430A (zh) 一种基于异构社会网络的检测方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
Zanghi et al. Strategies for online inference of model-based clustering in large and growing networks
García-Pérez et al. Precision as a measure of predictability of missing links in real networks
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN109948242A (zh) 基于特征哈希的网络表示学习方法
CN107577742A (zh) 一种基于贝叶斯方法的多关系社交网络模式挖掘方法
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
Souravlas et al. Probabilistic community detection in social networks
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN103646118B (zh) 置信优势关系粗糙集模型及属性约简方法
Huang et al. Community detection algorithm for social network based on node intimacy and graph embedding model
Chung et al. Statistical Guarantees for Link Prediction using Graph Neural Networks
CN114970692A (zh) 一种新颖的基于引力场的链路预测方法
Amin et al. Advanced community identification model for social networks
CN109710812A (zh) 一种网络表征算法稳定性度量方法
Zardi et al. A multi-agent homophily-based approach for community detection in social networks
Ouyang et al. Grarep++: flexible learning graph representations with weighted global structural information
CN109495316A (zh) 一种融合邻接性和节点角色相似性的网络表征方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination