CN112862070A

CN112862070A - 一种利用图神经网络和胶囊网络的链路预测系统

Info

Publication number: CN112862070A
Application number: CN202110088549.0A
Authority: CN
Inventors: 刘小洋; 叶舒; 李祥
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-28

Abstract

本发明提出了一种利用图神经网络和胶囊网络的链路预测系统，包括数据生成模块、数据转换模块、数据分类链接模块和数据展现模块；数据生成模块的数据生成输出端与数据转换模块的数据转换输入端相连，数据转换模块的数据转换输出端与数据分类链接模块的分类数据输入端相连，数据分类链接模块的分类数据输出端与数据展现模块的数据展现输入端相连；数据生成模块用于将采集的数据使用GNN对网络进行表示学习；数据转换模块用于通过转换块，将学习到节点特征转换成节点对特征图；数据分类链接模块用于借助胶囊网络对节点对特征图进行特征表示学习，捕获节点对的属性以用于图分类；数据展现模块用于展现数据。本发明优于所比较的方法，平均提高了约20％的准确率。

Description

一种利用图神经网络和胶囊网络的链路预测系统

技术领域

本发明涉及网络分析技术领域，尤其涉及一种利用图神经网络和胶囊网络的链路预测系统。

背景技术

在现实生活中，可以利用复杂网络对各种各样的复杂系统进行建模，例如社交，生物，信息和技术系统，其中网络中的节点代表个人或实体，链接或边则代表节点或实体之间的关系或相互作用。网络中的链路预测是指如何通过已知的网络节点以及网路结构等信息，预测网络中尚未产生连边的两个节点之间产生连接的可能性。这种预测不仅包含对未知链接即网络中实际存在但尚未被探测到的链路的预测，也包含了对未来链接(网络中目前不存在，但应该存在或者未来可能存在的链路)的预测。链路预测作为复杂网路分析中的一个基本问题，在许多领域都有广泛的应用。例如朋友推荐，电影推荐，知识图补全，代谢网络重建等。另外，在某些网络中，比如生物网络，电网和航空运输网络，如何找出在将来可能产生新链接的实体非常重要，同时也非常具有挑战性。

为了解决这个问题，来自不同领域的研究人员提出了许多链接预测方法或模型。一种简单而有效的链路预测方法被称为启发式方法。启发式方法计算一些启发式节点相似度得分作为链接的似然度，并且认为具有较高相似度分数的两个节点更有可能缺少链接。比如，Common Neighbors(CN)计算两个目标节点之间公共邻居的数量。Jaccard index，HubPromoted index，Hub Depressed index和局部Leicht-Holme-Newman index从不同的角度利用节点度数规范化CN的计算结果。Adam-Adar(AA)和Resource Allocation(RA)都认为不同程度的共同邻居对相似度的贡献不同。Preferential Attachment(PA)是由优先附着在生成进化无标度网络中的机制所激发的，它通过计算两个目标节点度的乘积来估计两个目标节点的相似度。现有的启发式方法可以根据计算分数所需邻居的最大跳数进行分类。例如，CN和PA是一阶启发式方法，因为它们只涉及两个目标节点的one-hop邻居。AA和RA是二阶启发式算法，因为它们是从目标节点的两跳邻域开始计算的。因此，将h阶启发式算法定义为那些需要知道目标节点的h-hop邻域的启发式算法。还有一些高阶启发式算法需要了解整个网络。比如Local Path(LP)，Katz，Cos，Average Commute Time(ACT)和Random Workwith Restart(RWR)。另一方面，基于机器学习的方法通过使用一些机器学习算法来确定节点之间链接的可能性。大量研究将链接预测视为二进制分类问题，通过基于观察到的网络信息来训练预测模型。这些方法通常需要生成一个由实例组成的训练集，每个实例都是具有特征和标签的节点对。而节点对的特征集通常由从网络中提取的一系列拓扑特征组成，标签则由它们之间是否存在链接来确定。其中一个相关研究方向是针对不同启发式方法的组合训练有监督的学习模型。例如，Ahmed et al.提出了一种机器学习框架，该框架使用分别代表通讯，社区，交互和信任的8个相似度指标，以及决策树等9个分类器来预测Twitter中的缺失链接。另外，近些年，一种用于图学习的新型神经网络——图神经网络得到了越来越多的研究人员关注。例如，Kipf和Welling提出了一个基于变分图自动编码器VGAE的无监督学习框架，该模型利用了隐变量，能够为无向图学习可解释的潜在表示，并在引文网络的链接预测任务中获得了较好的结果。

尽管这些方法可以在一定程度上解决网络中的链路预测问题，但是仍然存在一些不足。启发式方法在实践中能取得较好的效果，但它对可能存在的链接有很强的假设。例如，CN启发式方法假设，如果两个节点有许多共同邻居，它们就更有可能连接起来。这一假设在社交网络中可能是正确的，但在蛋白质-蛋白质相互作用(PPI)网络中被证明是错误的——两个拥有许多共同邻居的蛋白质实际上不太可能相互作用。另一方面，图的复杂性使得现有的深度学习算法在处理时面临着巨大的挑战。每个图都有一个大小可变的无序节点，图中的每个节点都有不同数量的相邻节点，导致一些重要的操作例如卷积，在图像上容易计算，但不再适合直接用于图。现有深度学习算法的一个核心假设是数据样本之间彼此独立。然而，对于图来说，情况并非如此，图中的每个数据样本或节点都会有边与图中其他实数据样本或节点相关，这些信息可用于捕获实例之间的相互依赖关系。

在过去的十年中，作为复杂网络分析的研究热点，链路预测问题引起了广泛的研究关注。为了解决这个问题，来自不同学科的研究人员提出了许多链路预测的方法或模型，主要分为启发性的方法，概率的方法以及机器学习方法。

启发式方法是一种传统的链路预测方法，由于其思想上具有简单性和需要较低的计算时间。对启发式方法的初步研究集中在利用基于图的度量，这可以在两个层次上看到：局部指标和全局指标，进一步分为局部指标、全局指标和准局部指标。局部指标在保持最佳预测性能的同时降低了资源利用率和计算复杂度，在实际应用中得到了广泛的应用。Xu和Yin将拓扑结构与计算的相似度评分相结合，Sun et al.则将拓扑结构与附加的社区信息相结合，局部相似度指标的Area Under ROC Curve(AUC)得分达到0.99，取得了更高的预测精度。Hou和Liu定义了不同网络的相似度，以解释不同网络中不同的预测行为。但是，通过开发一种相似度计算任务的并行算法，可以进一步改善局部指标。Wu et al.提出并研究了局部不对称聚类信息提高预测精度的能力。全局指标根据图的全局链接结构计算相似度评分，其中节点的路径距离大于2，全局指标利用了的整个网络对每个链接进行拓扑信息评分。Muniz et al.在他们的工作中提出了一种结合全局相似度指标和基于内容的度量来提高链接预测的性能。在大型网络的链路预测中，由于网络的高维性，全局相似性指标既耗时又计算复杂。尽管如此，Coskun和Koyuturk提出了一种基于全局的降维方法，并取得了较好的预测精度。在未来，仍然需要更可扩展的全局方法来处理分布式环境中的链路预测。准局部指标与全局指标一样使用额外的拓扑信息。根据路径距离不超过2的节点计算得分，这与局部指标类似。准局部指标，包括局部路径指标，局部随机游走和叠加随机游走，提供了模型复杂性和预测精度之间的折衷。与局部指标相比，它们可以获得更高的预测精度，因为它们考虑了额外的拓扑信息，同时获得更低的计算复杂度。Wang et al.使用社区信息用来提高链接预测精度。Liu et al.提出了一种度相关聚类能力路径(DCP)方法，其准确率和精密度都优于四种传统的基于共邻的聚类方法。准局部指标的性能高度依赖于数据集和应用。因此，可以进一步改进准局部指标，开发一种能够更准确、更稳定地计算整个网络相似度指标的算法。

概率方法通过建立与网络结构相适应的统计概率模型来解决链路预测问题。用参数指定的模型计算数学统计量，以生成每对节点的概率值。然后根据假设对概率值进行分类，其中节点对的概率值越高，节点对之间形成链路的可能性越高。现有链路预测概率方法，特别是在社交网络领域，分为四类，即概率张量因子分解模型、概率潜在变量模型、马尔可夫模型和链路标签模型。Gao et al.引入了概率张量因子分解模型，该模型是将概率矩阵因子分解扩展到张量因子分解版本。随后，Ermis和Cemgil引入了基于张量因子分解的考虑变分贝叶斯的概率张量因子分解模型，提高了在更大尺度网络中的预测性能。Yang etal.提出了概率潜在变量模型，该模型结合了矩阵的低秩近似和块结构的思想，比单独的原始方法即低秩近似，具有更好的预测精度。由于时间尺度与用户交互的结合，Das和Das提出了一种用于时变社交网络中链路预测的随机马尔可夫模型，其预测性能优于现有的动态链路预测。然而，使用概率模型的代价是，随着模型复杂性的增加，所设置的参数数量也会增加。Javari et al.引入了基于局部和全局网络结构的链路标签建模，以适应链路预测中的数据稀疏性问题。虽然概率模型比启发式方法表现出更好的预测性能，但在大规模网络上的应用往往导致计算时间长，这取决于模型的复杂性。

机器学习方法是进行链路预测分析的主要策略之一，在链路预测文献的研究人员中被广泛探索。机器学习策略可产生较高的预测性能，并且计算复杂度较低。目前，研究人员使用了不同的机器学习技术，包括监督学习、无监督学习和深度学习。Asil和Gurgen在加权网络中使用监督算法和模糊规则改进链路预测过程。Fu et al.采用RF，GBDT，SVM等监督学习的方法进行链接预测任务，重点研究加权网络。Ahmed et al.提出了一种监督学习框架，该框架使用代表社交网络连接、社区、交互和信任的8个相似度指标，以及DecisionTrees等9个分类器来预测Twitter中缺失的链接。Kipf和Welling提出了一个基于变分图自动编码器(VGAE)的无监督学习框架，该模型利用了隐变量，能够为无向图学习可解释的潜在表示，并在引文网络的链接预测任务中获得了较好的结果。Muniz et al.在权重计算中结合上下文和时间信息和拓扑数据，提高了链路预测方法的性能。Li et al.提出了一种深度学习方法，该方法显著降低了计算复杂度，增强了算法对大型网络的可扩展性。Zhang etal.通过使用深度神经网络引入新颖的深度学习框架来改善链接预测任务。Li et al.提出用于链接预测任务的深度动态网络嵌入，以专门为每个节点的演化模式建模。Mohan etal.使用批量同步并行编程模型开发并行算法，以预测丢失的链接并对新预测的链接进行排序。在性能方面，机器学习方法往往比启发性方法表现得更好。但对于大型网络，网络形成机制更为复杂，计算复杂度和时间都很高。随着社交网络以越来越高级的功能不断发展，需要一种有效的机器学习方法以进行链路预测。

许多研究人员对网络中的链路预测问题进行了研究，但在研究中仍存在一些不足。比如，在Ahmed et al.提出的有监督学习框架中，特征是人为预先设定，其特征的好坏对最后预测结果有较大影响。因此，对特征的预设定有较苛刻的要求。Kipf和Welling提出的方法中仅使用了GNN方法，虽然能从图中学习高质量的节点特征，但并未充分考虑如何将学习到的节点特征信息应用于链路预测问题中。

因此，为避免启发式方法的假设不适用于所有网络以及机器学习方法假设不适应于图的情况；为利用GNN在图上的特征学习优势，结合图的结构以及节点之间的信息，获取高质量的节点特征嵌入；为使用CapsNet提取边不同方面的属性信息，减少特征学习中的信息损失等情况，本发明专利提出了一种新颖的链路预测方法GCCL。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种利用图神经网络和胶囊网络的链路预测系统。

为了实现本发明的上述目的，本发明提供了一种利用图神经网络和胶囊网络的链路预测系统，包括数据生成模块、数据转换模块、数据分类链接模块和数据展现模块；

数据生成模块的数据生成输出端与数据转换模块的数据转换输入端相连，数据转换模块的数据转换输出端与数据分类链接模块的分类数据输入端相连，数据分类链接模块的分类数据输出端与数据展现模块的数据展现输入端相连；

数据生成模块用于将采集的数据使用GNN对网络进行表示学习，生成相应的节点特征；

数据转换模块用于通过转换块，将学习到节点特征转换成节点对特征图，作为胶囊网络的输入；

数据分类链接模块用于借助胶囊网络对节点对特征图进行特征表示学习，捕获节点对的属性以用于图分类；

数据展现模块用于展现数据。

进一步地，所述数据生成模块包括：

利用GNN提取节点的基本特征，若节点没有特征，则用单位矩阵作为节点属性。

进一步地，其利用GCN提取节点的基本特征的方法为：

其中，Z^l+1为l+1层的节点特征，Z^l为l层的节点特征；A为邻接矩阵；

为具有自环的无向图

为增加自环的度矩阵，(·)^-1/2表示逆矩阵的算术平方根，W^l为可训练的权重矩阵，σ(·)为激活函数，GCN(·)为图卷积运算。

进一步地，所述GCN选用2层GCN结构，并且在最后一层中不使用激活函数进行处理。

进一步地，所述数据转换模块包括：

提取所需节点对的特征表示进行Conversion运算生成相应的节点对特征图：

其中，

分别为节点x、y的节点特征嵌入向量，

表示实数域

上F′×1矩阵即实数域

上的F′维列向量，·^T表示转置，F′为第l+1层节点特征数量。

进一步地，所述数据分类链接模块包括：

将节点对特征图h_xy通过卷积层转换为初级胶囊的输入h_c，即对节点对特征图h_xy做局部特征提取：

h_c＝Conv(h_xy)＝Wh_xy+b，

其中，Conv(·)为向量卷积运算，W和b分别为卷积权重共享矩阵与偏置参数；

利用卷积胶囊层生成初级胶囊u：

u＝Convolutional capsule layer(h_c)

＝∑_{num_primary_caps}∑_{num_conv}Conv^num_conv(h_c)，

其中，Convolutional capsule layer(h_c)表示初级胶囊的输入h_c的卷积胶囊层，num_conv代表每个初级胶囊所包含的卷积单元数量；num_primary_caps为初级胶囊中的胶囊数量；Conv^num_conv(·)表示向量卷积运算的num_conv次方；

生成类胶囊v：

使用非线性squashing函数对向量长度作归一化处理，将范围缩小至0～1之间：

其中，s_j和v_j分别为胶囊j的输入与输出向量，||·||表示范数，||·||²表示范数的平方；

对于除第一层以外的所有胶囊，胶囊s_j的总输入是来自上一层胶囊中所有预测向量

的加权总和；而

由上一层胶囊的输出u_i乘以权重矩阵W_ij产生：

其中，u_i为上一层胶囊的输出，

为上一层胶囊的预测向量，c_ij是耦合系数，胶囊i和下一层中所有胶囊的耦合系数之和为1。

进一步地，所述数据分类链接模块还包括：

一个样本输出2个类胶囊，用v₁、v₂表示，通过比较v₁与v₂的向量长度，也就是模长来判断最终样本属于哪一类，从而判断是否存在链路；

所述v₁表示链接类，v₂代表非链接类。

进一步地，数据展现模块包括评估指标，评估指标包括以下之一或者任意组合指标：

所有正确预测的节点对的比例

预测为正例的节点对中，带有链接的节点对的实际数量所占的比例

正确预测的节点对在所有实际链接节点对中所占的比例

精度和召回率的调和平均值

预测错误率

预测值与实际值之间的偏差

其中，TP：样本的真实类别为正例，模型预测结果也为正例，

TN：样本的真实类别为反例，模型预测结果也为反例，

FP：样本的真实类别为反例，模型预测结果为正例，

FN：样本的真实类别为正例，模型预测结果为反例；

y_i、

分别代表样本i实际的类别标签和预测的类别标签，n为被预测的样本数量，||表示绝对值。

进一步地，数据展现模块还包括链路预测GCCL算法，链路预测GCCL算法包括：

由训练集构建的邻接矩阵A与节点特征矩阵X作为GCCL方法的输入，输出为代表每个类的胶囊v，其长度表示存在的可能性；

输入：网络G，节点特征矩阵X，分配给训练集和验证集的现有边的比例α，β；

输出：预测结果T；

S-A，U表示所有可能的边集合，U的值为网络G的所有节点对，E的值为网络G现在的所有边，所有尚未链接的边集合

等于U减E；

S-B，训练边集合E^train，验证边集合E^val的值为E边的验证集α，β的sample函数；训练边集合E^train和验证边集合E^val的交集为空集；

S-C，测试边集合E^test的值为已存在的边集合E减去训练边集合E^train再减去测试边集合E^val的差值；

S-D，尚未链接边的训练集U^train，尚未链接边的验证集U^val，尚未链接边的测试集U^test的值分别为来自的边缘

S-E，训练集D^train为训练边集合E^train与尚未链接边的训练集U^train的并集，验证集D^val为验证边集合E^val与尚未链接边的验证集U^val的并集，测试集D^test为测试边集合E^test与尚未链接边的测试集U^test的并集；

S-F，预测结果T为空集；

S-G，通过合并训练边集合E^train和所有尚未链接的边的集合

获得邻接矩阵A；

S-H，节点特征嵌入向量Z为GCN(A,X)，两层GCN定义为

S-I，进入循环，对于每个节点对(x,y)属于训练集D^train，训练集的节点对特征图

为Conversion(z_x,z_y)；

S-J，如果节点对(x,y)属于训练边集合E^train，

标记为1；否则

标记为0；

S-K，每个类的胶囊v为

的胶囊网络；

S-L，tag′为||v₁||、||v₂||中最大的值；

S-M，预测结果T为T与{(x,y),tag}的并集；

S-N，循环结束；

S-O，对验证集和测试集重复步骤S-H～S-L，类似于训练集；

其中，z_x、z_y分别为节点x、y的节点特征嵌入向量，|·|为集合的基数，

是具有自环的无向图

的邻接矩阵，A为邻接矩阵，

为增加自环的度矩阵，X代表节点特征矩阵，W⁰、W¹分别代表两层中权重共享矩阵；(·)^-1/2表示逆矩阵的算术平方根，GCN(·)为图卷积运算，v₁表示第一个类胶囊，v₂表示第二个类胶囊，||·||表示范数，ReLU(·)为非线性激活函数，Conversion(·)为转换运算，tag代表样本(x,y)的标签。

进一步地，所述链路预测GCCL算法包括时间复杂度分析：

所述S-A中网络G的所有节点对U的时间复杂度为O(N²)，

所述S-B～S-G的时间复杂度不大于O(N²)，

所述S-H的时间复杂度为O(M)，

所述S-I～S-J的时间复杂度为O(M)，

所述S-K的计算复杂度为O(Mqp)，

所述S-L～S-O运算复杂度不超过O(Mqp)，

所述链路预测GCCL算法的时间复杂度为O(N²+Mqp)；

|D^train|＝|E^train∪U^train|≤2αM，训练集D^train的基数等于训练边集合E^train与尚未链接边的训练集U^train的并集，且小于等于2αM；

|D^val|＝|E^val∪U^val|≤2βM，验证集D^val为验证边集合E^val与尚未链接边的验证集U^val的并集，且小于等于2αM；

|D^test|＝|E^test∪U^test|≤2(1-α-β)M；测试集D^test为测试边集合E^test与尚未链接边的测试集U^test的并集，且小于等于2(1-α-β)M；

其中，M为边的数量，q和p分别代表初级胶囊与类胶囊的胶囊数量，O(·)为时间复杂度运算。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1)避免了启发式方法的假设不适用于所有网络以及机器学习方法假设不适应于图的情况；2)利用GNN在图上的特征学习优势，结合图的结构以及节点之间的信息，获取高质量的节点特征嵌入；3)使用CapsNet提取边不同方面的属性信息，减少特征学习中的信息损失；4)提出的GCCL方法优于所比较的基准方法，并取得了SOTA的性能。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明提出的GCCL体系结构；

图2是本发明的混淆矩阵；

图3是本发明的5个网络的GCCL的准确性，F1得分，MAE，RMSE结果和15种启发式方法；

图4是本发明的GCCL与图神经网络方法在准确性，精确度，召回率和F1得分这三个网络上的比较；

图5是本发明GCCL与基于MAE和RMSE的图神经网络方法的比较；

图6是本发明GCCL的准确性和MAE与其他方法；

图7是本发明GCCL与其他方法在Cora网络上的混淆矩阵；

图8是本发明的5种不同嵌入的GCCL方法分别在Cora与INF网络上的混淆矩阵图；

图9是本发明的在9个网络上使用不同的GNN块的GCCL的准确性和RMSE结果；

图10是本发明的t-SNE可视化Cora类胶囊。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

1.准备工作

1.1问题描述

网络G＝(V,E)由节点的有限非空集合V和无序节点对的有限集合E所组成。网络可以为有向或无向的。在本发明专利中，将考虑简单无向网络，其中不存在多链接和自环。网络G的邻接矩阵A是一个N×N矩阵，如果顶点x与节点y链接，则(x,y)记为1，否则记为0。

1.2图神经网络CNN

1.2.1图卷积网络GCN

图卷积网络Graph convolutional network(GCN)是一种广泛使用的GNN体系结构，被选为本发明专利中的关键构建模块之一。在GCN的每一层，对每个节点及其相邻节点进行卷积操作，通过激活函数计算每个节点的新表示。这个过程可以写成：

其中，

是具有自环的无向图

的邻接矩阵，邻接矩阵A；(·)^-1/2表示逆矩阵的算术平方根，I_N为单位矩阵，

为增加自环的度矩阵，

为l层可训练的线性变换权重矩阵；GCN(·)表示图卷积运算，σ(·)表示激活函数，此处用ReLU(·)函数，ReLU(·)函数是激活函数的一种，其表达式为max(0,·)。H^l+1为l+1层的节点特征矩阵，H^l为l层的节点特征矩阵，并且初始层的节点特征矩阵H⁰＝X，

代表节点特征矩阵，每行对应一个节点的特征向量。N代表网络G中的节点数量，F和F′分别代表第l层和第l+1层节点特征数量。

一个完整的GNN通常堆叠l层来生成最终的节点特征嵌入向量Z。在Kipf&Welling提出的架构中，在GCN的第l层，每个节点提取的特征实际上考虑了相应步数内的所有相邻节点。所以l可以被认为是这一层节点感受野的大小。

1.2.2图注意力网络GAT

在上述GCN中，节点邻域以相等或预定义的权重进行聚合。然而，不同邻居的影响不同；因此，这些权重应该在训练中学习，而不是被预先决定。受注意力机制的启发，GAT假设相邻节点对中心节点的贡献不同，采用注意力机制来学习两个链接节点之间的相对权重。其图卷积运算定义如下所示：

其中，节点特征的输入集

为第1层的节点特征的输入集，

为第2层的节点特征的输入集，

为第l层的节点特征的输入集；

表示第j个节点的特征向量，为当前层的节点特征的输入集，

表示实数域

上的F维列向量，

为当前层的节点特征的输出集，节点特征的输出集

为第1层的节点特征的输出集，

为第2层的节点特征的输出集，

为第l层的节点特征的输出集。

是应用于每个节点的共享线性变换的权重矩阵即卷积权重共享矩阵，其中，F和F′分别代表第l层和第l+1层节点特征数量,

表示实数域

上F′×F矩阵。j为节点，

表示节点i的邻居节点，包含节点i。σ(·)表示激活函数，由注意力机制计算的系数α_ij可表示为：

其中，·^T和||分别表示转置和连接操作，softmax(·)为归一化指数函数；

为单层前馈神经网络的权重向量；

是应用于每个节点的共享线性变换的权重矩阵即卷积权重共享矩阵，LeakyReLU(·)为激活函数。k代表节点i所有的邻居节点集合。

表示第i个节点的特征向量，

表示第j个节点的特征向量，

表示第k个节点的特征向量。

另一方面，为了提高模型的性能与稳定性，建议采用multi-head attention，与Vaswani等类似。具体来说，由K个独立的注意机制执行式(2)的转换，然后将它们的特征串联起来，得到以下输出特征表示：

其中

表示由第kh个注意力机制计算的系数。另外，根据不同任务的需要，也可对其取平均：W^kh类似于GCN中的权重共享矩阵：

表示第j个节点的特征向量，为当前层的节点特征的输入集，

表示实数域

上的F维列向量，K表示独立的注意机制的个数。

3.2.3图自动编码器和变分图自动编码器GAE&VGAE

Graph autoencoders(GAE)是一种无监督的学习框架，它将节点或图编码到一个潜在的特征空间中，可用于学习网络嵌入或生成新图。一个完整的GAE框架分为两部分：Encoder和Decoder。在提出的GAE中，Encoder使用GCN对图中节点进行编码从而得到节点特征嵌入向量Z；Decoder则通过Encoder学习到的节点特征嵌入向量Z重新构造图的邻接矩阵。计算公式为：

其中节点特征嵌入向量Z＝H^l+1＝GCN(H^l,A)，H^l为l层的节点特征矩阵，H^l+1为l+1层的节点特征矩阵。

代表节点特征矩阵，

表示实数域

上N×F矩阵，N代表节点数，F为第l层节点特征数量；A为邻接矩阵，

为邻接矩阵A的对角矩阵；GCN(·)图卷积运算，·^T表示转置操作。

还以变分的方式训练GAE，即Variational graph autoencoders(VGAE)。与GAE不同之处在于Encoder部分：

其中矩阵μ＝GCN_μ(X,A)为由均值向量μ_i所组成的矩阵；同样地，logσ＝GCN_σ(X,A)为对数方差组成的矩阵。

代表节点特征矩阵，邻接矩阵A，diag()为对角矩阵，Z为节点特征嵌入向量，N是节点的数量，i为节点。

代表方差，z_i第i个节点的节点特征嵌入向量，

表示概率分布，q(·)为条件概率计算公式。

1.3胶囊网络Capsule network

Capsule的概念是由Hinton的团队提出的，最近在Sabour et al.，Hinton et al.和Kosiorek et al.中使用。CapsNet是在CNN的基础上开发的一种用于图像特征提取的网络。与传统CNN在特征图中使用标量值来表示特征的存在不同，CapsNet中的特征使用向量表示。在Sabour et al.中，胶囊的方向反映了特征的详细性质，胶囊的长度反映了不同特征存在的可能性。因此，使用非线性squashing函数来确保短向量长度缩小到几乎为0，长向量长度缩小到略小于1。

其中，s_j和v_j分别为胶囊j的输入与输出向量。||·||表示范数，||·||²表示范数的平方；

的加权总和；而

由上一层胶囊的输出u_i乘以权重矩阵W_ij产生。

其中，上一层胶囊的输出u_i，上一层胶囊的预测向量

c_ij是由迭代动态路由过程确定的耦合系数(coupling coefficients)。胶囊i和下一层中所有胶囊的耦合系数之和为1，由用于动态路由机制中的归一化指数routing softmax确定。其初始未归一化的概率logits b_ij是胶囊i与胶囊j耦合的对数先验概率，可以与所有其他权重同时进行学习。它们取决于两个胶囊的位置和类型，而不取决于当前的输入图像。

另一方面，层间的信息传输遵循动态路由机制。动态路由的具体流程如下。

其中，l为层数、l+1为层数，b_ij是胶囊i与胶囊j耦合的对数先验概率，r为迭代次数，上一层胶囊的预测向量

softmax(·)为归一化指数函数，squashing(·)为挤压函数，c_ij是由迭代动态路由过程确定的耦合系数，v_j为胶囊j的输出向量。

2.提出的方法

2.1提出的GCCL体系结构

在本节中，将介绍GCCL并展示将其应用于链路预测任务。图1显示了GCCL框架，它由3个主要部分组成：(1)图神经网络块：应用GNN提取不同感受野的局部顶点特征，在该块生成节点的隐变量表示。(2)转换块：通过对图神经块生成的节点隐变量表示的转换，产生每个节点对的特征图edge feature map。(3)CapsNet块：应用CapsNet对edge feature map进行处理，生成用以分类的类胶囊。每个块的详细信息将在下面说明。

受CapsNet的启发，本发明专利提出的GCCL采用胶囊网络并结合GNN，在从GNN中提取节点特征的基础上，通过Conversion Block生成节点对特征图(edge feature map)。然后，将节点对特征图作为CapsNet block的输入，最后输出用于分类的类胶囊。其中，在CapsNet block中，动态路由算法用于更新从一层到下一层胶囊之间的权值，从而将PrimaryCaps胶囊捕获的属性传播到下一层中合适的ClassCaps中。因此，每个edgefeature map最后分为多个类胶囊。每个类胶囊的长度代表属于此类的可能性。

2.1.1图神经网络块GNN block

首先，利用GNN提取节点的基本特征。对于没有特征的节点，本发明专利参照Kipf和Welling的做法，用单位矩阵作为节点属性。同时，使用GCN作为基础图卷积层：

其中，

为l+1层的节点特征，

表示实数域

上N×F′矩阵，N是节点的数量，F′是第l+1层节点特征数量；Z^l为l层的节点特征，初始层的节点特征Z⁰＝X，

代表节点特征矩阵，

表示实数域

上N×F矩阵，。

是具有自环的无向图

的邻接矩阵，A为邻接矩阵；

其中，

表示度矩阵中第i行，i列的元素，

表示度矩阵中第i行，j列的元素；度矩阵为对角矩阵，其元素值为邻接矩阵中每列或者每行元素值的总和。

为增加自环的度矩阵，(·)^-1/2表示逆矩阵的算术平方根，

为可训练的权重矩阵，作为第l层到第l+1层的过滤器。σ(·)为激活函数，在本发明专利中选用ReLU(·)作为非线性激活函数。本发明专利选用2层GCN结构，并且在最后一层中不使用激活函数进行处理。

2.1.2转换块Conversion block

在获取由GNN生成的节点特征嵌入向量Z后，提取所需节点对的特征表示进行Conversion运算生成相应的节点对特征图h_xy。其计算公式如下：

其中，z_x,

分别为节点x、y的节点特征嵌入向量，

表示实数域

上F′×1矩阵即实数域

上的F′维列向量。

表示节点x，y之间链接的特征嵌入，即节点对特征图edge feature map；

表示实数域

上F′×F′矩阵，·^T表示转置，F为第l层节点特征数量，F′为第l+1层节点特征数量。

2.1.3胶囊网络块CapsNet block

该块用于通过CapsNet对边进行分类。首先，将特征图edge feature map h_xy通过卷积层convolution layer转换为初级胶囊Primary capsules的输入h_c，即edge featuremap。该操作可视为对节点对特征图h_xy做局部特征提取。初级胶囊的输入h_c计算公式如下：

h_c＝Conv(h_xy)＝Wh_xy+b (12)

其中，Conv(·)为向量卷积运算，W和b分别为卷积权重共享矩阵与偏置参数。然后，利用卷积胶囊层Convolution capsule layer生成初级胶囊u，其定义为：

其中，num_conv代表每个初级胶囊Primary capsules所包含的卷积单元数量；num_primary_caps为Primary capsules中的capsules胶囊数量，Conv^num_conv(·)表示向量卷积运算的num_conv次方。最后，结合式(8)～式(9)以及dynamic routing algorithm动态路由算法生成Class capsules类胶囊v。CapsNet block相关细节如Algorithm 2所示。

节点对特征图h_xy，u表示初级胶囊，Conv(·)为向量卷积运算，Convolutionalcapsule layer(h_c)表示h_c的卷积胶囊层，W_ij为权重矩阵，

为上一层胶囊的预测向量，r表示迭代次数，v_j为胶囊j的输出向量。

2.2GCCL算法

为了使用GCCL算法，首先需要生成训练集，验证集和测试集。在这里，U表示所有可能的边集合，E表示所有已存在的边集合，

表示所有尚未链接的边的集合。当然，所有可能的边集合

接着，按照一定比例将E随机分为3个部分：训练边集合E^train，验证边集合E^val和测试边集合E^test用于训练，验证与测试，并且满足

和

但是，E^train只包含已存在的边。为了构建类分布均衡的训练集，可以从

中随机抽取与E^train相同数量的边，表示为尚未链接边的训练集U^train。训练集则为E^train和U^train的并集，即D^train＝E^train∪U^train。同时，即使使用类分布平衡的训练集，验证集和测试集的不平衡仍将影响F1-score等性能指标。因此，在生成验证集与测试集时，还要确保类分布的平衡。构建方法类似训练集的构建，从

中分别随机抽取与E^val，E^test相同数量的边，表示为尚未链接边的验证集U^val，尚未链接边的测试集U^test。最后生成相应的验证集D^val＝E^val∪U^val与测试集D^test＝E^test∪U^test。

在生成训练集，验证集和测试集之后。将由训练集构建的邻接矩阵A与相应的节点特征矩阵X作为本发明专利提出的GCCL architecture的输入，输出为代表每个类的胶囊v，其长度表示存在的可能性。因此，样本(本发明专利中为相应的节点对)的类别被预测为长度最大者。Algorithm 3展示了GCCL算法。

U表示所有可能的边集合，节点特征矩阵X，训练集的现有边的比例α，验证集的现有边的比例β，E表示所有已存在的边集合，

表示所有尚未链接的边的集合。训练边集合E^train，验证边集合E^val和测试边集合，尚未链接边的训练集U^train，尚未链接边的验证集U^val，尚未链接边的测试集U^test，训练集D^train，验证集D^val，测试集D^test，预测结果T，A为邻接矩阵，GCN(·)为图卷积运算，Conversion(·)为转换运算。|·|代表集合的基数，W⁰，W¹分别代表两层中权重共享矩阵。GCN()含义是图卷积运算，Conversion()含义是转换块计算。

为训练集的节点对特征图；

代表将

输入到胶囊网络中，得到v。v₁表示第一个类胶囊，v₂表示第二个类胶囊；||·||表示范数，此处可以用tag代表样本即节点对(x,y)的标签。x、y代表分别两个节点，而(x,y)代表节点对，即边。

2.3时间复杂度分析

3.实验结果与分析

3.1数据集

为了全面评估GCCL的有效性，实验使用了6个不同规模，不同领域的真实网络。这些用于实验的网络经过仔细选择，以涵盖范围广泛的属性，包括不同的大小，平均程度，聚类系数和异质性指数。其中INF是一个在展览中面对面接触的网络。EML是一个共享电子邮件的个人网络。YST是一个生物网络。KHN，GRQ和CGS是针对不同研究领域的合作作者网络。这些网络的基本拓扑特征信息列在表1中。其中N，|E|分别为节点数和边数。R，C分别是分类系数和聚类系数。ASPL表示平均最短路径长度，〈k〉为网络的平均度，D表示最大度数，H则为程度异质性。数据集来源于https：//noesis.ikor.org/datasets/link-prediction。

从表1中可以看出，这些网络均为简单无向网络并且拓扑特征是多种多样的。例如，GRQ的聚类系数偏高，而EML，YST和KHN的聚类系数偏低。另外，为了更全面地评估GCCL的性能，本发明专利还使用三个真实的引文网络数据集进行了实验：WebKB，Cora和CiteSeer。如表2所示。数据集来源于http：//www.cs.umd.edu/～sen/lbc-proj/LBC.html。

WebKB数据集包括一些科学出版物，分为五类；Cora数据集包含一些机器学习论文，这些论文分为七个类别中的一个，而CiteSeer数据集有六个类别标签。对于这三个数据集，除了删除文档频率小于10的单词外，还执行了词干提取和停止词删除操作。最后，WebKB数据集中有877个文档，1703个不同的单词以及1608个链接；Cora数据集有2708个文档，1433个不同的单词以及5429个链接；CiteSeer数据集中有3312个文档，3703个不同的单词以及4732个链接。其中，文档，链接和单词分别视为节点，边以及节点属性特征。

3.2评价指标

本发明专利将链路预测问题看作是一个二分类问题，如果节点对之间存在链接，则节点对的标签为正，否则为负。因此二分类任务中的大部分评估指标都可以用于链路预测评价。在介绍评估指标之前，首先介绍以下常用术语。

对二分类任务的评价可以表示为一个混淆矩阵，如图2所示。在混淆矩阵中：

True Positive(TP)：样本的真实类别为正例，模型预测结果也为正例；

True Negative(TN)：样本的真实类别为反例，模型预测结果也为反例；

False Positive(FP)：样本的真实类别为反例，模型预测结果为正例；

False Negative(FN)：样本的真实类别为正例，模型预测结果为反例。

接下来，将描述本发明专利中使用的6个评估指标。

Accuracy是所有正确预测的节点对的比例，定义为

Precision表示在预测为正例的节点对中，带有链接的节点对的实际数量所占的比例。精度值越大，预测性能越好。计算公式为

Recall是正确预测的节点对在所有实际链接节点对中所占的比例。数学上，

F1-score是精度和召回率的调和平均值，为

MAE(Mean Absolute Error)来反映预测错误率。该值越小，预测性能越好。MAE的数学表达式为

其中，y_i，

分别代表样本m实际的类别标签和预测的类别标签，n为被预测的样本数量，||表示绝对值。

RMSE(Root Mean Square Error)用于测量预测值与实际值之间的偏差。更明确地，

3.3基准方法

本小节将对用于与本发明专利提出的GCCL方法作比较的基准方法进行简要概述。

Heuristic approaches：本发明专利与15个流行的启发式基准方法进行比较。包括CN，Salton，Jaccard，Sorenson，HPI，HDI，LHN-I，PA，AA，RA，LP，Katz，ACT，Cos和RWR。具体的计算公式与时间复杂度见表3：

表3中Γ(x)，Γ(y)分别表示节点x、y的邻居节点集合；k(x)，k(y)分别代表节点x，y的度。λ为调节参数，需小于邻接矩阵最大特征值的倒数。A，I分别代表网络的邻接矩阵与单位矩阵。

表示矩阵L⁺中第x行，y列所对应的元素，

表示矩阵L⁺中第x行，x列所对应的元素，

表示矩阵L⁺中第y行，y列所对应的元素。另外，在表中，每种方法的计算复杂度用大O表示，其中N和〈k〉是节点数和网络的平均度。z代表x,y的公共邻居集合，k(z)代表相应的度，|·|为集合的基数。

Graph neural networks and embedding approaches：除本发明专利已介绍的GAE，VGAE和GAT三种GNN方法外，本发明专利将Spectral Clustering(SC)和Deep Walk(DW)两种嵌入方法加入比较。其中SC和DW都提供了节点特征嵌入向量Z。同时，使用式(6)来计算重建邻接矩阵元素的相应分数。值得一提的是，SC与DW都不支持节点属性的输入。

3.4实验设置

在接下里的实验中，参照Algorithm 3，随机选取85％，5％，15％的已存在的边分别用于训练集，验证集和测试集。验证集用于优化超参数。在所有实验中，对于GNN方法，本发明专利均使用2层模型用于从图中学习节点特征，维度分别为32和16。对于SC，使用机器学习库—scikit-learn(https：//scikit-learn.org/stable/)中的标准实现，除嵌入尺寸为128外，其余参数均使用默认参数。对于DW的每个训练周期：嵌入尺寸为128，每个节点10次随机游走且每次游走长度为80，上下文大小为10。CapsNet用于对节点对特征图的分类，大多数参数设置为默认值，以下参数除外。Primary capsule的卷积单元核设置为(7，7)；由于本发明专利所提出的GCCL方法将链路预测转换为图的二分类问题，因此最后的类别数，设置为2，即类胶囊个数为2。

3.5与启发式方法的比较

在本小节中，通过与15种现有的启发式方法比较来实施实验，以评估该方法的性能：CN，Salton，Jaccard，Sorenson，HPI，HDI，LHN-I，PA，AA，RA，LP，Katz，ACT，Cos和RWR。所有这些方法都可以归类为启发式方法。值得注意的是，由于用于本小节对比实验的网络均不包含节点属性特征。因此，对于GCCL，本发明专利使用单位矩阵替代节点属性特征。

表4中以CGS网络为例列出了不同方法的预测结果。对于每个评估指标，粗体字表示所有网络中的最佳性能。

从表4中：可以明显看出，在整个网络中，本发明专利提出的方法GCCL在准确性Accuracy、精确率和召回率的调和平均数F1-score、平均绝对误差MAE和均方根误差RMSE的指标下都获得了最佳性能。简而言之，GCCL取得的Accuracy与F1-score都高达0.93，而MAE与RMSE分别低至0.06与0.25。与启发式方法相比，这些结果相当不错。

为进一步证明本发明专利所提出方法的优越性，图3分别描述了其他5个网络在Accuracy、F1-score、MAE和RMSE方面的比较结果。

以图3(a)为例。图中的结果是启发式方法分别在5个网络中的Accuracy结果。显然，本发明专利提出的GCCL方法在所有网络中得到的值都是最高的；它的所有值都超过了80％，GRQ上甚至接近了94％，比同网络中的HPI(启发式方法中最优值)高出6.12％，比所有启发式方法平均高出22.24％。同样，从图3(c)所展示的MAE实验结果中可以发现，GCCL在所有实验网络中都取得了最小值，特别地，在GRQ与INF上都低于10％。类似的情况可以在图3(b)和图3(d)中发现。

3.6与图神经网络方法的比较

3.6.1具有节点属性的网络与图方法的比较

本小节实验方法类似上一节，唯一不同之处在于本小节所使用的实验网络包含节点属性特征。在本小节中和接下来的小节中，本发明专利进行了广泛的实验来全面分析本发明专利提出的GCCL方法的有效性。将GCCL与3种GNN方法(GAE，VGAE与GAT)进行比较。同时，加入了2种图嵌入方法：SC与DW。

表5列出了在6个评价指标下的6种方法在Cora网络上的实验结果。每个指标中的最优值由黑体字强调。

从表5中可以观察到，虽然Precision与Recall性能不是最佳的，但在Precision与Recall的综合指标F1-score上达到了最佳值。同时，在Accuracy指标上取得了最优值，平均提高了约15％；并且，相比其他方法，平均分别减少了41％的MAE和24％的RMSE。表明GCCL的平均性能优于其他方法。

此外，图4分别图形化地展示了本发明专利提出的GCCL方法与其余5个方法在六个网络上按照Accuracy，Precision，Recall和F1-score的指标进行比较的结果。

对于这4个指标，值越高表示预测效果越好。因此，离中心越远的点，在这些数字中结果越好。总而言之，从图4中可以观察到：基于这4种评价指标，本发明专利提出的GCCL方法在整体上胜过其他方法。

此外，图5描述了本发明专利的方法与其余5个方法在Cora，CiteSeer和WebKB网络上的MAE和RMSE的比较。

图5中，MAE和RMSE反映了预测错误率。分数越低，预测效果越好。从图5(a)～图5图(b)可以看出，在三个网络中，本发明专利提出的GCCL方法(红色，边框加粗)均比其他算法的分数小，甚至在MAE上的值均低于0.2。根据以上实验结果，可以得出结论，在具有节点特征属性的网路中，本发明专利所提出的GCCL方法优于GAT，DW等方法。

5.6.2在没有节点属性的网络上与启发式方法的比较

在本节中，通过将所提出的GCCL方法与其余的GNN方法在6个不包含节点属性的网络中所得的结果进行比较来评估所提出的GCCL方法的性能。同样，使用单位矩阵替代节点属性特征矩阵。因此，在本实验中，将启发式方法也加入对比。表6列出了六个网络的F1-score实验结果，并且，每个网络的最佳值用黑体字标出。

从表6中可以观察到，所提出的GCCL方法在INF，EML等6个网络上均取得了最佳的F1-score。相比其他所比较的方法，平均预测性能分别提高了18％，14％，24％，30％，34％和35％。

此外，图6(a)～图6(b)给出了在六个网络上所提出的GCCL方法与其他方法的Accuracy与MAE实验结果。

不难发现，GCCL在所有不具有节点属性的网络中不仅取得最优Accuracy，还取得最小MAE，甚至在GRQ网络中的MAE值远远小于其他所比较的方法。图6(a)～图6(b)的结果再次证明了本发明专利提出的GCCL方法的优越性与有效性。

图7详细的展示了每个方法具体的分类结果。在混淆矩阵中，左上，右上，左下和右下的数字分别代表的TN，FP，FN与TP。从图7中不难发现：在Cora中，CN，RWR等启发式以及SC方法拥有更小的FP值。而GAE，GAT等GNN和DW方法则具有更小的FN值，这似乎表明每个方法在分类中都具有各自的“倾向”。但从整体看来，本发明专利所提出的GCCL方法在总的正确分类数上远远超过了其他方法。

以上一系列实验结果证明，在不包含节点属性的网络中，本发明专利提出的GCCL方法同样能取得优于其他所比较方法的预测性能。

5.7GNN块在GCCL中的影响

不同的embedding方法会导致不同的结果。在我们看来，GNN块中所采用embedding方法对GCCL在链路预测任务中的表现有一定的影响。为了验证这一假设，在本小节进行了实验，并对比了GCCL方法在不同的GNN块中提取特征的预测结果。

图8中可以观察到：在INF网络中，DW_GCCL，GAE_GCCL和VGAE_GCCL相比其余两个方法(SC_GCCL和GAT_GCCL)的表现更加突出。类似地，在Cora网络中，GAT_GCCL的预测表现要优于其余四种方法。容易得证，无论对于包含节点属性的网络(Cora)，还是不包含节点特征属性的网络(INF)，在GCCL方法中采用不同GNN块的确会对最终的分类结果产生不同的影响。

为了进一步说明在GNN块中使用不同的嵌入方法对预测性能的影响，表7展示了不同嵌入的GCCL方法在9个网络中的F1-score预测结果。

表7中：可以看出，5种不同嵌入的GCCL方法在每个网络中的表现不同。比如，在INF与EML网络中，VGAE_GCCL的性能表现最优；而在Cora和CiteSeer网络中，取得最佳F1-score值的为GAT_GCCL。同时，图9(a)～图9(b)分别显示了在Accuracy与RMSE指标下的实验结果。

可以从图9(a)明显观察到：在INF，EML，GRQ，CiteSeer网络中，DW_GCCL，GAE_GCCL和VGAE_GCCL都达到了相对较优的Accuracy值。表明这三个方法在4个实验网络的预测性能相近。对于GAT_GCCL方法，虽然在EML，YST，KHN，GRQ等网络中表现稍差，但在Cora和CiteSeer网络上都取得了最佳性能，并且在WebKB网络中也取得相当不错的Accuracy值。同样，可以从图9(b)中发现类似的现象。

这一系列实验结果证实了本小节提出的假设。在我们看来，可能是由于以下原因引起的：(1)在GNN块所使用的嵌入方法中，设置不同的参数会产生不同的影响；(2)对于不同的嵌入方法，在不同的网络中表现出性能不同，因为网络的大小，平均度以及聚类系数等拓扑结构不同。

此外，为了验证节点对在每一个类胶囊存储着中的属性信息。t-SNE被用来形象化使用不同GNN块的GCCL方法所学习的图嵌入，如图10所示，每一列分别代表5种不同GNN块的GCCL方法。

图10中，第一行表示在代表0类(不链接)的胶囊中可以较好地区分出0类(红色)，SC_GCCL并未很好区分出来可能是由于SC在Cora数据集上并未学习到较好的节点特征引起的；同样，在第二行可以发现类似的现象；另外，将这两个类的胶囊结合，即属于0类的节点对使用代表0类的胶囊；属于1类的使用1类的胶囊。如第三行所示，用结合的胶囊很好地区分2类。结果表明不同的胶囊确实捕获了边的不同方向上的属性信息。

6.结论

本发明专利研究了GNN应用在链路预测中的不足问题。为此，本发明专利提出了一个新的方法，即GCCL。引入胶囊思想，利用CapsNet解决这个问题。设计了Conversion块，将链路预测问题转换成图的二分类问题。在GNN提取的节点特征基础上，通过Conversion提取每个节点对的特征图—edge feature map，受到CapsNet的启发，引入胶囊的概念，以向量形式提取特征。从而提取边不同方面的属性特征，这些属性特征能更好地表示边的特性。为了验证该方法的优越性，在一系列的评价指标下对9个网络进行了广泛地实验。实验结果表明：(1)在本发明专利提出的GCCL方法中，可以通过在GNN块中使用不同的节点特征学习方法提高预测性能；(2)不同的胶囊确实捕获了边的不同方向上的属性信息；(3)与各个启发式方法、图嵌入与图神经方法相比，本发明专利提出的GCCL方法在大多数情况下取得了最优性能。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。