CN110858311A - 基于深度非负矩阵分解的链路预测方法及系统 - Google Patents

基于深度非负矩阵分解的链路预测方法及系统 Download PDF

Info

Publication number
CN110858311A
CN110858311A CN201810965340.6A CN201810965340A CN110858311A CN 110858311 A CN110858311 A CN 110858311A CN 201810965340 A CN201810965340 A CN 201810965340A CN 110858311 A CN110858311 A CN 110858311A
Authority
CN
China
Prior art keywords
matrix
network
coefficient
base
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810965340.6A
Other languages
English (en)
Other versions
CN110858311B (zh
Inventor
蔡菲
牟晓慧
陈杰
张鑫
李鲁锋
姚国标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN201810965340.6A priority Critical patent/CN110858311B/zh
Publication of CN110858311A publication Critical patent/CN110858311A/zh
Application granted granted Critical
Publication of CN110858311B publication Critical patent/CN110858311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于深度非负矩阵分解的链路预测方法及系统,包括:步骤(1):根据待预测网络节点之间的链接关系,给出网络邻接矩阵;步骤(2):预训练阶段:对网络邻接矩阵进行非负矩阵分解得到基矩阵和系数矩阵,然后再对系数矩阵进行若干次非负矩阵分解,从而将网络邻接矩阵分解成若干个基矩阵与一个系数矩阵相乘的形式;微调阶段:基于网络邻接矩阵、若干个基矩阵和一个系数矩阵建立损失函数,判断损失函数值是否小于容差,如果是,则进入步骤(3);如果否,则对基矩阵和系数矩阵进行微调;重新判断损失函数值是否小于容差;步骤(3):根据微调后的基矩阵和微调后的系数矩阵,计算网络相似矩阵;根据网络相似矩阵实现链路预测。

Description

基于深度非负矩阵分解的链路预测方法及系统
技术领域
本发明涉及基于深度非负矩阵分解的链路预测方法及系统。
背景技术
链路预测是近年来复杂网络中的研究热点之一,它能够帮助我们探索和理解复杂网络的演化机制。链路预测是预测网络中存在的但未观测到的节点之间的链接,或者预测网络当前节点之间的未来链接。
目前,复杂网络中,现有链路预测方法可分为两大类。第一类基于节点相似性的方法,认为两个节点之间相似性越大,它们之间存在链接的可能性就越大,其只依赖于网络拓扑结构,但预测能力有限。第二类方法是基于统计分析和概率论理论。这些方法通常假设网络有一个已知的结构。它们构建模型并且使用统计的方法去估计模型参数。利用这些参数去计算每个没有观测到的节点之间连边的形成概率。概率和统计方法主要分为概率关系模型和基于似然的模型两种类型。基于概率和统计的方法在网络分析中有许多优点,但是参数学习和推理却使计算复杂性大大增加,使得基于概率和统计的方法在应用领域受到很大局限。
目前,实际多数大型网络非常稀疏,网络的平均度远小于节点的数量,和观察到的边的数量远远小于网络中最大可能的边的数量。由于信息的有限性和网络的稀疏性,传统的链路预测方法很难获得良好的性能。
发明内容
为了解决现有技术的不足,本发明提供了基于深度非负矩阵分解的链路预测方法及系统,进一步提高了链路预测的预测精度。
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提出了基于深度非负矩阵分解的链路预测方法;
基于深度非负矩阵分解的链路预测方法,包括:
步骤(1):根据待预测网络节点之间的链接关系,给出网络邻接矩阵;
步骤(2):包括:预训练阶段和微调阶段;
预训练阶段:对网络邻接矩阵进行非负矩阵分解得到基矩阵和系数矩阵,然后再对系数矩阵进行若干次非负矩阵分解,从而将网络邻接矩阵分解成若干个基矩阵与一个系数矩阵相乘的形式;
微调阶段:基于网络邻接矩阵、若干个基矩阵和一个系数矩阵建立损失函数,判断损失函数值是否小于容差,如果是,则进入步骤(3);如果否,则对基矩阵和系数矩阵进行微调;重新判断损失函数值是否小于容差;
步骤(3):根据微调后的基矩阵和微调后的系数矩阵,计算网络相似矩阵;根据网络相似矩阵实现链路预测。
所述步骤(1)中,待预测网络,包括:若干个节点,节点之间设有连边;A代表待预测网络的网络邻接矩阵,对于网络邻接矩阵A中元素的取值:如果节点i和节点j之间有连边,则Aij=Aji=1,如果节点i和节点j之间没有连边,则Aij=Aji=0。
所述步骤(2)的预训练阶段步骤为:
步骤(201):对网络邻接矩阵A进行非负矩阵分解得到基矩阵和系数矩阵:
A≈W1H1
其中,表示不小于
Figure BDA0001774818530000022
的最小整数;R表示实数域;A表示网络邻接矩阵;W1表示第一层分解的基矩阵;H1表示第一层分解的系数矩阵;N表示网络邻接矩阵行数或列数;k1表示第一层隐特征的数量;
步骤(202):对系数矩阵H1进行非负矩阵分解:
H1≈W2H2
其中,
Figure BDA0001774818530000023
W2表示第二层分解的基矩阵;H2表示第二层分解的系数矩阵;k2表示第二层隐特征的数量;
步骤(203):对系数矩阵H2进行分解:
H2≈W3H3
其中,
Figure BDA0001774818530000024
W3表示第三层分解的基矩阵;H3表示第三层分解的系数矩阵;k3表示第三层隐特征的数量;
步骤(204):以此类推,经过第m次分解后,将网络邻接矩阵分解成若干个基矩阵与一个系数矩阵相乘的形式:
A≈W1W2W3...WmHm
其中,W1、W2、W3...Wm、Hm均为非负矩阵,
Figure BDA0001774818530000031
Wm表示第m层分解的基矩阵;Hm表示第m层分解的系数矩阵。
进一步的,基于网络邻接矩阵、若干个基矩阵和一个系数矩阵建立深度非负矩阵分解的损失函数:
Figure BDA0001774818530000032
其中,CDeep_NMF表示深度非负矩阵分解的损失函数;Wm-1表示第m-1个基矩阵;Tr表示矩阵的迹;AT表示网络邻接矩阵A的转置;
Figure BDA0001774818530000035
表示矩阵Hm的转置;W1 T表示矩阵W1的转置;W2 T表示矩阵W2的转置;W3 T表示矩阵W3的转置;Wm-1 T表示矩阵Wm-1的转置;Wm T表示矩阵Wm的转置;
进一步的,对基矩阵和系数矩阵进行微调的具体步骤为:
对第l个基矩阵Wl和第l个系数矩阵Hl交替迭代更新:
Ψ=W1W2W3…Wl-1
Figure BDA0001774818530000033
Figure BDA0001774818530000034
其中,l的取值范围是1到m;ΨT表示Ψ的转置;Ψ表示l-1个基矩阵的乘积;
⊙这个符号表示点乘,←表示利用箭头右边的值更新箭头左边的值;
Wl'表示更新后的第l个基矩阵;Hl'表示更新后的第l个系数矩阵。
进一步的,根据微调后的基矩阵和微调后的系数矩阵,计算网络相似矩阵:
A*=W1'W2'W3'...Wm'Hm';
其中,A*为网络相似矩阵;W1'、W2'、W3'...Wm'微调后的基矩阵;Hm'为微调后的系数矩阵。
进一步的,根据网络相似矩阵实现链路预测的具体步骤为:
基于相似矩阵A*中的每个元素的值,得到每个预测连边的分数值;将分数值从大到小排列,排在最前面的节点对出现连边的概率最大。
作为本发明的第二方面,提出了基于深度非负矩阵分解的链路预测系统;
基于深度非负矩阵分解的链路预测系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提出了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
本发明首先通过预训练对系数矩阵多次分解,得到一组基矩阵和一个系数矩阵相乘,进而构建损失函数。在分解过程中,确定每层隐特征的数量。然后,通过逐层分解作为预分解结果,再整体微调训练参数,从而实现逐层学习策略。逐层学习策略可以使不同层级间的参数进行“剖分”式学习,可以大大节省计算存储资源和时间,提高方法的泛化性能。最后,根据微调训练后的基矩阵和系数矩阵,计算网络相似矩阵,从而构建出基于深度非负矩阵分解的链路预测方法。
本发明可以在保证真实网络的深层隐结构信息的表达的同时使其可以获得更加丰富和全面的网络结构信息,从而进一步提高链路预测的预测精度。本发明在非负矩阵分解的基础上,应用多层分解方法,网络的层次结构信息可以被多层分解实现“剖分”式学习。借鉴自编码网络的无监督学习思想,采用预训练和微调两阶段进行链路预测。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为NFM示意图;
图2为深度NMF示意图;
图3(a)为在Yeast网络上的不同训练集比例下各方法的AUC值对比;
图3(b)为在Jazz实网络上的不同训练集比例下各方法的AUC值对比;
图3(c)为在PB网络上的不同训练集比例下各方法的AUC值对比;
图3(d)为在SmaGri网络上的不同训练集比例下各方法的AUC值对比;
图3(e)为在USAir网络上的不同训练集比例下各方法的AUC值对比;
图3(f)为在School网络上的不同训练集比例下各方法的AUC值对比;
图4(a)为在Yeast网络上的不同训练集比例下各方法的Precision值对比;
图4(b)为在Jazz网络上的不同训练集比例下各方法的Precision值对比;
图4(c)为在PB网络上的不同训练集比例下各方法的Precision值对比;
图4(d)为在SmaGri网络上的不同训练集比例下各方法的Precision值对比;
图4(e)为在USAir网络上的不同训练集比例下各方法的Precision值对比;
图4(f)为在School网络上的不同训练集比例下各方法的Precision值对比;
图5(a)为在Yeast网络上的不同训练集比例下的各方法的PP值(Prediction-Power)对比;
图5(b)为在Jazz网络上的不同训练集比例下的各方法的PP值对比;
图5(c)为在PB网络上的不同训练集比例下的各方法的PP值对比;
图5(d)为在SmaGri网络上的不同训练集比例下的各方法的PP值对比;
图5(e)为在USAir网络上的不同训练集比例下的各方法的PP值对比;
图5(f)为在School网络上的不同训练集比例下的各方法的PP值对比;
图6(a)为DNMF在Yeast网络上不同层数参数m的精度值对比;
图6(b)为DNMF在Jazz网络上不同层数参数m的精度值对比;
图6(c)为DNMF在PB网络上不同层数参数m的精度值对比;
图6(d)为DNMF在SmaGri网络上不同层数参数m的精度值对比;
图6(e)为DNMF在USAir网络上不同层数参数m的精度值对比;
图6(f)为DNMF在School网络上不同层数参数m的精度值对比;
图7为本发明的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
复杂网络中节点之间的关系除了依赖网络的拓扑属性之外,也依赖于网络节点的潜在属性和特征,而这些潜在属性和特征是不能直接从网络中观测到的。也就反映出,复杂网络结构复杂,同时网络中的节点也带有多个隐特征。
从网络节点的隐特征信息出发构建深度非负矩阵分解的链路预测,把原问题特征空间映射到维度更少的隐特征空间。矩阵分解方法能够提取隐特征,其本身也是一种降维方法。因此,矩阵分解也成为了隐特征提取的实现基础。在一个网络中,节点能够被投影到隐空间中,节点在隐空间中的位置决定着边节点之间产生链边的概率。从另外一个角度来看,复杂网络的相似矩阵能够被近似为两个低秩矩阵的积。如果我们约束两个矩阵中的元素为非负的,则可以通过非负矩阵分解获得相应解。
传统非负矩阵分解隐特征模型A≈WH。W和H是隐特征矩阵,分别称为基矩阵和系数矩阵。W和H的维度大小分别为N×k和k×N。在这里,k是隐特征的数量或者是矩阵A的秩。在系数矩阵H和我们原始邻接矩阵A之间的映射(也就是基矩阵W)之间包含了相当的复杂层次和结构信息。但传统非负矩阵分解的隐特征模型仍然是单层分解,使得预测性能受到限制。
链路预测是根据现有的网络结构信息预测潜在的边或未知的边,其已经成为复杂网络中的热点之一。然而,传统的隐特征模型只进行一层分解,不能充分描述复杂网络的深层隐结构信息。在本发明中,我们提出一个基于深度非负矩阵分解的链路预测方法DNMF。首先,通过对系数矩阵多次分解,得到一组基矩阵和一个系数矩阵相乘,进而构建深度非负矩阵分解的目标函数。其次,借鉴栈式自编码网络的训练方法思想,通过逐层分解作为预分解结果,然后再整体微调训练参数,从而实现逐层学习策略。最后,利用不同的基矩阵和系数矩阵得到相似矩阵。该方法可以在保证真实网络的深层隐结构信息的表达的同时使其可以获得更加丰富和全面的网络结构信息。通过对典型实际网络进行的实验表明,该方法具有比现有经典链路预测方法具有更好的预测性能。
网络由节点和边组成,给定一个无向无权网络G=(V,E),V和E分别表示网络中的节点和边的集合。N=|V|和M=|E|分别代表网络的节点和边的数量。A代表网络的邻接矩阵,如果节点i和节点j之间有连边,则Aij=Aji=1,如果节点i和节点j之间没有连边,则Aij=Aji=0。
针对链路预测问题,我们将网络的边划分为训练集和测试集,表示为Etrain和Etest。显然Etrain∪Etest=E并且
Figure BDA0001774818530000061
我们使用Atrain和Atest分别表示训练集的邻接矩阵和测试集的邻接矩阵,并且它们都以1或0为元素,并且Atrain+Atest=A。我们让L=|Etest|是测试集中的边数。因此,训练集边的数量为|Etrain|=M-L。在训练集之外,网络中的所有可能边的数量,我们将其表示为候选集,是
Figure BDA0001774818530000071
1.1非负矩阵分解
非负矩阵分解(NMF)是一种矩阵分解算法,它是一种使数据的隐结构更加显式化和减小其维数的方法。因此,它可以进一步应用于链路预测。给定一个网络邻接矩阵A∈RN ×N,可近似为W∈RN×K和H∈RK×N
A≈WH (1)
为了量化近似的质量,用欧氏距离平方的代价函数可以写成如下:
Figure BDA0001774818530000072
其中,W和H分别表示基矩阵和系数矩阵。
为了最小化代价函数,利用乘法更新规则,通过以下迭代规则交替求解矩阵W和H:
Figure BDA0001774818530000073
Figure BDA0001774818530000074
在这里,⊙表示点乘。
1.2深度非负矩阵分解
在非负矩阵分解的基础上,本发明提出了一种深度非负矩阵分解的算法DNMF(Deep NMF),如图7所示。通过对NMF分解的系数矩阵H进行多次分解,从而进一步融合了网络的多层结构信息,其分解示意图如图1和图2所示。
基于非负矩阵分解的优化目标函数是一个非凸优化问题,及其预测结果依赖于基矩阵W和系数矩阵H的初始值。传统的非负矩阵分解方法往往随机初始化W和H,但很容易进入局部最优解,这也可能导致欠拟合现象。在机器学习领域,自编码网络具有良好的学习能力。为了减少链路预测模型的训练时间,提高模型的泛化能力,我们从自编码网络的无监督学习方法中学习,因此采用了预训练和微调两阶段进行链路预测。
1)预训练的阶段
DNMF通过对系数矩阵的多重分解形成多层网络结构学习模型H的分解步骤如下:
步骤1:我们首先分解网络邻接矩阵A≈W1H1,W1∈RN×k1和H1∈Rk1×N
步骤2:步骤1后,系数矩阵H1可以分解H1≈W2H2,其中W2∈Rk1×k2和H1∈Rk2×N
步骤3:以此类推,m次分解后,网络邻接矩阵A≈W1W2W3…WmHm,并且W1,W2,…Wm,
Hm非负。
在系数矩阵H上进行m次分解后,矩阵A可以用m+1个因子表示,包括m个基矩阵和一个系数矩阵。每一次添加的基矩阵等价于添加一个额外的抽象层,去自动学习网络层次结构信息,进而更准确、更全面地探索隐特征。深度非负矩阵分解的损失函数可以表示为:
Figure BDA0001774818530000081
其中,W1,W2,…Wm≥0,Hm≥0。
在公式(5)中,让Λl=[λik]l和M=[ujk]分别作拉格朗的拉格朗乘数(W≥0,H≥0),其中,l=1,2,…m,λik≥0,ujk≥0。
拉格朗日函数可以表示为:
2)微调阶段
对公式(6)的目标函数求Wm和Hm的偏导数,其过程如下:
Figure BDA0001774818530000083
让Ψ=W1W2W3...Wm-1T=(W1W2W3...Wm-1)T,公式(7)和公式(8)可以改写如下:
Figure BDA0001774818530000092
Figure BDA0001774818530000093
使用KTT(Karush-Kuhn-Tucher)条件和ujkhjk=0,我们得到以下方程:
Figure BDA0001774818530000095
Figure BDA0001774818530000096
对Wm和Hm进行以下乘法更新规则:
Figure BDA0001774818530000098
1.3基于DNMF的链路预测算法
在输入网络数据时,本发明提出的链路预测算法有三个步骤。首先通过预训练对系数矩阵多次分解,得到一组基矩阵和一个系数矩阵相乘,进而构建深度隐特征模型的目标函数。在分解过程中,确定每层隐特征的数量。然后,通过逐层分解作为预分解结果,再整体微调训练参数,从而实现逐层学习策略。最后,根据微调训练后的基矩阵和系数矩阵重构网络,计算网络相似矩阵,从而构建出基于深度非负矩阵分解的链路预测方法。(算法1)。
Figure BDA0001774818530000099
Figure BDA0001774818530000101
1.4复杂性分析
在我们提出的算法中,最耗时的部分是更新基矩阵W和系数矩阵H,对于每一个迭代,
Figure BDA0001774818530000102
的时间复杂度是O(KN2+NK2),
Figure BDA0001774818530000103
的时间复杂度是O(NK2)。Niter是迭代次数。因此,算法的总时间复杂度为O(Niter((KN2+NK2))。
2实验和比较
2.1评价指标
为了验证该方法的性能,采用三种评价指标对所提出的方法和基本线方法的性能进行了比较。三个评价指标包括AUC,精度和预测能力(PP),定义如下:
1)AUC:AUC指标(area under the receiver operating characteristic curve,AUC)是从整体上衡量算法的准确度。AUC可以理解为在测试集中随机选择一条边的存在可能性估计值大于不存在边集随机选择一条边的存在可能性估计值的概率。AUC的具体计算方法如公式所示:
Figure BDA0001774818530000104
在这里,n表示独立比较的次数,n′表示n′次测试集中随机选择一条边的存在可能性估计值大于不存在边集随机选择一条边的存在可能性估计值,n″表示n″次测试集中随机选择一条边的存在可能性估计值等于不存在边集随机选择一条边的存在可能性估计值。
显然,如果所有的存在可能性估计值都是随机产生的,那么AUC≈0.5。所以,AUC>0.5显示了在多大程度上方法比随机选择性能好。
2)精度:精确度Precision指标定义为算法给出的最有可能存在的前L条预测边中预测正确的比值,其定义如下:
Figure BDA0001774818530000111
在这里,L是预测可能边的前L条边的数量,一般L取为测试集的边数。Lr是在前L条预测边中预测正确的数量。因此,可以看出精度值Precision越高,其算法的预测准确度越高。
3)预测能力(PP):为了刻画预测算法和随机预测之间的差别,提出了预测能力评价指标,其也被用于评价链路预测方法的整体预测效果。Prediction-Power指标值越大,说明其预测效果越好。预测能力Prediction-Power(PP)被定义为:
Figure BDA0001774818530000112
其中,PrecisionRandom是随机预测的精度值,也就是随机对预测边进行排列,其前L条边预测准确的比例,其平均随机预测的精度值约等于
Figure BDA0001774818530000113
其中N为网络中节点的数量,M为网络中边的数量。
2.2比较基准算法
为了验证本发明方法的性能,与10个传统的链路预测方法进行性能比较,包括NMF、Katz、ACT、CN、AA、CRA、RA、LP、PA和Jaccard。
2.3实验数据
为了验证本发明方法的性能,我们考虑以下10个真实世界的网络:爵士音乐家合作网络(Jazz),网络理论科学家合作网络(NS),美国政治博客网络(PB),电力网络(Power),路由器网络(Router),论文引用网络(SmaGri),蛋白质相互作用网络(Yeast),俱乐部网络(Karate),高校社交网络(School)。
2.4实验结果
为了测试本发明方法的性能,我们将该方法在10个实际网络中与10个传统方法进行了比较。首先,观察到的边随机分为训练集和测试集。这里,训练集被用于建立预测模型,而测试集仅用于验证在复杂网络链路预测的准确性。
将我们的方法(DNMF)与其它10个网络数据集的方法的AUC、Precision、PP进行了比较,AUC值、Precision值、PP值分别是运行100次的平均值。在我们的实验中,LP方法的参数α为0.0001,Katz方法的参数α为0.01,DNMF参数m为2。表1、表2、表3中分别给出了不同方法在10个真实网络上的AUC值、Precision值和PP值,每一列的最高值用黑色粗体表示,其训练集比例均为90%。
表1不同方法在10个真实网络上的AUC值
Figure BDA0001774818530000121
如表1所示,DNMF优于传统的NMF。此外,DNMF在4个真实的网络中拥有最高的AUC值,包括PB,SmaGri,Yeast和School。在Jazz,NS,USAir和Karate这几个网络中,我们提出的方法DNMF的AUC值也非常接近于最高值。
表2不同方法在10个真实网络上的Precision值
Figure BDA0001774818530000122
如表2所示,DNMF比传统的NMF更具有更好的Precision值。DNMF在Jazz,PB,Power,Router,SmaGri,USAir和Yeast这几个网络中拥有最好的Precision值,在Karate和School网络中仅次于CRA方法的精度值。总体来说,它表明,DNMF优于传统的非负矩阵分解和其他经典方法,特别是在稀疏网络上,如Router、PB、Yeast等。
表3不同方法在10个真实网络上的PP值
Figure BDA0001774818530000123
如表3所示,在所有网络中,每个方法的PP的平均值(mean值)在最后一列显示,其也被用于反映方法的整体性能。不同的方法按平均PP值大小倒序排列,由PP的mean值可以看出DNMF的整体性能在11种方法中表现最好。
为了准确地测试我们的方法的性能,我们还分析了在不同网络上不同训练集比例下的实验结果,在图3(a)-图3(f)、图4(a)-图4(f)、图5(a)-图5(f)中我们分别比较了在6个网络中不同的训练集下的11种方法的AUC值,Precision值,PP值,训练集的比例从0.3变换到0.9。这6个网络分别是Yeast、Jazz、PB、SmaGri、USAir和School。
图3(a)-图3(f)中表示了本发明所提出的DNMF在不同网络上,不同训练集比例下均具有良好的AUC值。图4(a)-图4(f)中表示了本发明所提出的DNMF在不同网络上,不同训练集比例具有良好的Precision值。图5(a)-图5(f)中表示了本发明所提出的DNMF在不同训练集比例条件下具有良好的预测能力。从结果可以看出,我们的方法在大多数网络上比其他方法更具有竞争力的性能。综上所述,对于大多数网络来说,所提出的方法DNMF比其他10种典型的预测方法具有更高的预测精度和鲁棒性。
2.5参数分析
为了分析参数层数m对算法DNMF的影响,我们选取已被广泛使用的Precision精度作为评价指标,并分别测试了在6个网络中不同训练集比例下m分别取为1,2,3,4时的DNMF的精度,其结果如图6(a)-图6(f)所示。这6个网络分别是Yeast、Jazz、PB、SmaGri、USAir和school。
从图6(a)-图6(f)可以看出,在大多数情况下,当m等于2时,DNMF的精度会比m为1,3,4时的DNMF的精度更高。因此,我们在通常情况下的实验中设置m=2。
真实网络往往是稀疏的,传统的单层非负矩阵不能完全描述复杂网络的深层隐结构。为了解决这个问题,本发明基于非负矩阵分解和网络的隐特征提出了一个新颖的基于深度非负矩阵分解的链路预测方法。作为非负矩阵分解隐特征模型的扩展,我们提出的链路预测方法DNMF不仅继承了其优点,也充分利用了多层分解获取网络多组织结构信息。为了验证该方法的性能,本发明选取了三个评价指标,分别为AUC,Precision和预测能力(PP)。对10个真实网络的实验结果表明,该模型方法可行性,有效性,具有一定的竞争力。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.基于深度非负矩阵分解的链路预测方法,其特征是,包括:
步骤(1):根据待预测网络节点之间的链接关系,给出网络邻接矩阵;
步骤(2):包括:预训练阶段和微调阶段;
预训练阶段:对网络邻接矩阵进行非负矩阵分解得到基矩阵和系数矩阵,然后再对系数矩阵进行若干次非负矩阵分解,从而将网络邻接矩阵分解成若干个基矩阵与一个系数矩阵相乘的形式;
微调阶段:基于网络邻接矩阵、若干个基矩阵和一个系数矩阵建立损失函数,判断损失函数值是否小于容差,如果是,则进入步骤(3);如果否,则对基矩阵和系数矩阵进行微调;重新判断损失函数值是否小于容差;
步骤(3):根据微调后的基矩阵和微调后的系数矩阵,计算网络相似矩阵;根据网络相似矩阵实现链路预测。
2.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
所述步骤(1)中,待预测网络,包括:若干个节点,节点之间设有连边;A代表待预测网络的网络邻接矩阵,对于网络邻接矩阵A中元素的取值:如果节点i和节点j之间有连边,则Aij=Aji=1,如果节点i和节点j之间没有连边,则Aij=Aji=0。
3.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
所述步骤(2)的预训练阶段步骤为:
步骤(201):对网络邻接矩阵A进行非负矩阵分解得到基矩阵和系数矩阵:
A≈W1H1
其中,
Figure FDA0001774818520000015
Figure FDA0001774818520000016
表示不小于
Figure FDA0001774818520000013
的最小整数;R表示实数域;A表示网络邻接矩阵;W1表示第一层分解的基矩阵;H1表示第一层分解的系数矩阵;N表示网络邻接矩阵行数或列数;k1表示第一层隐特征的数量;
步骤(202):对系数矩阵H1进行非负矩阵分解:
H1≈W2H2
其中,
Figure FDA0001774818520000014
W2表示第二层分解的基矩阵;H2表示第二层分解的系数矩阵;k2表示第二层隐特征的数量;
步骤(203):对系数矩阵H2进行分解:
H2≈W3H3
其中,
Figure FDA0001774818520000021
W3表示第三层分解的基矩阵;H3表示第三层分解的系数矩阵;k3表示第三层隐特征的数量;
步骤(204):以此类推,经过第m次分解后,将网络邻接矩阵分解成若干个基矩阵与一个系数矩阵相乘的形式:
A≈W1W2W3...WmHm
其中,W1、W2、W3...Wm、Hm均为非负矩阵,
Figure FDA0001774818520000022
Wm表示第m层分解的基矩阵;Hm表示第m层分解的系数矩阵。
4.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
基于网络邻接矩阵、若干个基矩阵和一个系数矩阵建立深度非负矩阵分解的损失函数:
其中,CDeep_NMF表示深度非负矩阵分解的损失函数;Wm-1表示第m-1个基矩阵;Tr表示矩阵的迹;AT表示网络邻接矩阵A的转置;
Figure FDA0001774818520000024
表示矩阵Hm的转置;W1 T表示矩阵W1的转置;W2 T表示矩阵W2的转置;W3 T表示矩阵W3的转置;Wm-1 T表示矩阵Wm-1的转置;Wm T表示矩阵Wm的转置。
5.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
对基矩阵和系数矩阵进行微调的具体步骤为:
对第l个基矩阵Wl和第l个系数矩阵Hl交替迭代更新:
Ψ=W1W2W3…Wl-1
Figure FDA0001774818520000031
其中,l的取值范围是1到m;ΨT表示Ψ的转置;Ψ表示l-1个基矩阵的乘积;
⊙这个符号表示点乘,←表示利用箭头右边的值更新箭头左边的值;
Wl'表示更新后的第l个基矩阵;Hl'表示更新后的第l个系数矩阵。
6.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
根据微调后的基矩阵和微调后的系数矩阵,计算网络相似矩阵:
A*=W1'W2'W3'...Wm'Hm';
其中,A*为网络相似矩阵;W1'、W2'、W3'...Wm'微调后的基矩阵;Hm'为微调后的系数矩阵。
7.如权利要求1所述的基于深度非负矩阵分解的链路预测方法,其特征是,
根据网络相似矩阵实现链路预测的具体步骤为:
基于相似矩阵A*中的每个元素的值,得到每个预测连边的分数值;将分数值从大到小排列,排在最前面的节点对出现连边的概率最大。
8.基于深度非负矩阵分解隐特征模型的链路预测系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
CN201810965340.6A 2018-08-23 2018-08-23 基于深度非负矩阵分解的链路预测方法及系统 Active CN110858311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810965340.6A CN110858311B (zh) 2018-08-23 2018-08-23 基于深度非负矩阵分解的链路预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965340.6A CN110858311B (zh) 2018-08-23 2018-08-23 基于深度非负矩阵分解的链路预测方法及系统

Publications (2)

Publication Number Publication Date
CN110858311A true CN110858311A (zh) 2020-03-03
CN110858311B CN110858311B (zh) 2022-08-09

Family

ID=69635071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965340.6A Active CN110858311B (zh) 2018-08-23 2018-08-23 基于深度非负矩阵分解的链路预测方法及系统

Country Status (1)

Country Link
CN (1) CN110858311B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966156A (zh) * 2021-03-23 2021-06-15 西安电子科技大学 基于结构扰动与线性优化的有向网络链路预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105025516A (zh) * 2015-07-23 2015-11-04 北京理工大学 高动态环境下的移动状态累积加权路由方法
US20160154895A1 (en) * 2013-09-19 2016-06-02 International Business Machines Coporation Graph matching
US20180048530A1 (en) * 2015-10-23 2018-02-15 Nec Europe Ltd. Method and system for supporting detection of irregularities in a network
CN108108854A (zh) * 2018-01-10 2018-06-01 中南大学 城市路网链路预测方法、系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160154895A1 (en) * 2013-09-19 2016-06-02 International Business Machines Coporation Graph matching
CN105025516A (zh) * 2015-07-23 2015-11-04 北京理工大学 高动态环境下的移动状态累积加权路由方法
US20180048530A1 (en) * 2015-10-23 2018-02-15 Nec Europe Ltd. Method and system for supporting detection of irregularities in a network
CN108108854A (zh) * 2018-01-10 2018-06-01 中南大学 城市路网链路预测方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEORGE TRIGEORGIS ET AL: ""A Deep Matrix Factorization Method for Learning Attribute Representations"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
WENJUN WANG ET AL: ""A perturbation-based framework for link prediction via non-negative matrix factorization"", 《SCIENTIFIC REPORTS》 *
姚飞亚: ""顶点带网络的链接预测"", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966156A (zh) * 2021-03-23 2021-06-15 西安电子科技大学 基于结构扰动与线性优化的有向网络链路预测方法
CN112966156B (zh) * 2021-03-23 2023-03-21 西安电子科技大学 基于结构扰动与线性优化的有向网络链路预测方法

Also Published As

Publication number Publication date
CN110858311B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN112567355B (zh) 用于知识库补全的端到端的结构感知卷积网络
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
CN112861936B (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN107590139B (zh) 一种基于循环矩阵翻译的知识图谱表示学习方法
Haff et al. Structure learning in Bayesian Networks using regular vines
CN111063398A (zh) 一种基于图贝叶斯优化的分子发现方法
CN115099219A (zh) 一种基于增强图卷积神经网络的方面级情感分析方法
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
Chen et al. Regularized multivariate regression models with skew-t error distributions
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
Shi et al. Transformer-based machine learning for fast sat solvers and logic synthesis
Hull Machine learning for economics and finance in tensorflow 2
US11914672B2 (en) Method of neural architecture search using continuous action reinforcement learning
CN110858311B (zh) 基于深度非负矩阵分解的链路预测方法及系统
CN114817571A (zh) 基于动态知识图谱的成果被引用量预测方法、介质及设备
CN112905809A (zh) 知识图谱学习方法和系统
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN115423076A (zh) 基于两步式框架的有向超图链式预测方法
CN114399048A (zh) 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统
CN115422321A (zh) 一种知识图谱复杂逻辑推理方法、组件和知识图谱的查询检索方法
Ziyaden et al. Long-context transformers: A survey
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant