CN117235032B

CN117235032B - 一种分布式链接预测方法及装置

Info

Publication number: CN117235032B
Application number: CN202311484753.XA
Authority: CN
Inventors: 朱仲书
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-05
Anticipated expiration: 2043-11-08
Also published as: CN117235032A

Abstract

本说明书实施例涉及一种分布式链接预测方法及装置，方法应用于分布式系统的多台工作设备中任意的第一工作设备，包括：获取全图数据的第一子图数据，第一子图中的数据可以是隐私数据，然后，使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i‑1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中，然后，从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到链接预测结果。

Description

一种分布式链接预测方法及装置

技术领域

本说明书一个或多个实施例涉及图处理领域，尤其涉及一种分布式链接预测方法及装置。

背景技术

近年来，作为表达现实世界中数据间复杂关系的工具，图数据受到了越来越广泛的关注，其中一个重要的应用是使用图神经网络（Graph Neural Networks, GNNs）对图中节点进行建模，然后用训练好的模型预测节点之间是否存在特定的边，即链接预测。图数据可以是隐私数据，例如，用户在交易过程中产生的数据。

随着图数据的规模持续扩展以及图模型的不断复杂化，对十亿甚至百亿级别的边执行链接预测任务需要非常多的资源。由于GNN的本质上是以信息传递的范式来逐层执行计算的，传统按样本逐条计算的模式在模型预测阶段时会引入大量的重复计算，从而限制其扩展性。

发明内容

本说明书一个或多个实施例描述了一种分布式链接预测方法及装置，旨在结合图神经网络的计算特点，将计算过程中产生的中间结果存入分布式文件系统中以重复使用，从而降低数据冗余，提高运行效率。

第一方面，提供了一种分布式链接预测方法，应用于分布式系统的多台工作设备中任意的第一工作设备，包括：

获取全图数据的第一子图数据；

使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中；所述分布式文件系统被所述多台工作设备共享；

从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到对于第一节点和第二节点之间关于目标关系的预测结果。

在一种可能的实施方式中，所述目标关系对应于所述全图数据中存在的目标边；所述预测结果指示，所述目标边的属性值。

在一种可能的实施方式中，所述第一节点和第二节点之间的目标关系构成第一假定边；所述预测结果指示，所述全图数据中是否存在所述第一假定边。

在一种可能的实施方式中，还包括：

获取待预测的假定边集合，其中包括连接到同一节点的多条假定边；

从所述假定边集合中提取所述第一假定边，根据所述第一假定边确定所述第一节点和第二节点。

在一种可能的实施方式中，还包括：

对于所述第一子图中的任一节点，使用图采样算法从其全部一跳邻居节点中确定N个邻居节点。

在一种可能的实施方式中，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，包括：

从分布式文件系统中获取各个节点及其N个邻居节点的i-1阶向量表示。

在一种可能的实施方式中，所述图采样算法包括：随机采样、均匀采样、按权重采样、按类型采样。

在一种可能的实施方式中，所述第一子图数据由分布式系统中的多台工作设备对所述全图数据执行图切分算法划分得到。

在一种可能的实施方式中，所述图切分算法包括：METIS、DistributedNE。

在一种可能的实施方式中，所述链接预测模型包括：多层神经网络MLP、TransE模型、TransH模型。

第二方面，提供了一种分布式链接预测装置，部署在分布式系统的多台工作设备中任意的第一工作设备上，包括：

获取单元，配置为，获取全图数据的第一子图数据；

向量计算单元，配置为，使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中；所述分布式文件系统被所述多台工作设备共享；

链接预测单元，配置为，从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到对于第一节点和第二节点之间关于目标关系的预测结果。

在一种可能的实施方式中，还包括：

邻居采样单元，配置为，对于所述第一子图中的任一节点，使用图采样算法从其全部一跳邻居节点中确定N个邻居节点。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书实施例提出的一种分布式链接预测方法及装置，方法结合图神经网络的计算特点，将计算过程中产生的中间结果存入分布式文件系统中以重复使用，从而降低数据冗余，提高运行效率和可扩展性，能够完成超大规模图数据的链接预测任务。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的常规GNN计算节点向量表示的示意图；

图2示出根据一个实施例的分布式链接预测方法的实施场景示意图；

图3示出根据一个实施例的分布式链接预测方法的流程图；

图4示出根据一个实施例的分布式链接预测装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在图推理中，链接预测任务是指根据已知的图结构和节点属性，给定两个节点，预测这两个节点之间是否存在代表某种特定关系的连接边。例如，给定两个自然人节点，预测两个节点之间是否存在代表夫妻关系的连接边。

链接预测任务依赖于对图中节点的编码表征。具体地，为进行链接预测，首先通过图神经网络GNN对图中节点进行编码，得到其编码表征；在预测时，根据两个给定节点的编码表征，利用预测网络，得到关于连接边的预测。

在常规的图神经网络GNN模型对节点的编码过程中，会批量采样图中每个节点的M跳邻居节点，然后使用M层GNN分别对每个节点进行聚合计算，得到每个节点的M阶向量表示。在这个过程中，对任意节点u的计算的中间结果会被直接丢弃，只保留节点u的最终的M阶向量表示。这样一来，在计算与节点u相邻的节点v的M阶向量表示时，便无法使用计算节点u的M阶向量表示时的中间结果，而是要从头开始重新计算一遍，从而效率低下，降低了整体的链接预测任务的效率。与此同时，批量采样图中每个节点的M跳邻居节点本身也会造成大量的数据冗余。

例如，图1示出根据一个实施例的常规GNN计算节点向量表示的示意图。如图1所示，使用2层GNN模型分别计算节点1和节点2的2阶向量表示。在对节点1和节点2分别进行2跳邻居子图采样时，节点3会同时被采样到节点1和节点2的2跳邻居子图中。在2层GNN模型计算节点1的2阶向量表示时，会产生对于节点3的1阶向量表示的中间计算结果，然而这个中间计算结果在完成节点1的2阶向量表示的计算后，便会被直接丢弃。后续计算节点2的2阶向量表示时，则又要重新计算一遍节点3的1阶向量表示，重复计算会导致整体的效率低下。进而影响后续链接预测任务的效率。

为了解决上述问题，图2示出根据一个实施例的分布式链接预测方法的实施场景示意图。在图2的示例中，用于进行链接预测任务的全图数据由图切分算法分割为多个子图，这些子图被分别发送给分布式系统中的多台工作设备。任意一台工作设备上都运行着一个K层图神经网络GNN。其中，第1层GNN用于根据子图中的各个节点及其多个邻居节点的初始向量表示（0阶向量表示），计算各个节点的1阶向量表示，并存入分布式文件系统中，该分布式文件系统中的数据可以由分布式系统中的多台工作设备共享。然后，第2层GNN在根据子图中的各个节点及其多个邻居节点的1阶向量表示计算2阶向量表示时，则无需从头开始计算，而是直接从分布式文件系统中获取即可，然后将计算得到的2阶向量表示再次存入分布式文件系统中，以此类推。第i层图神经网络从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，计算得到各个节点的i阶向量表示，然后存入分布式文件系统中。最后，第K层GNN将计算得到的各个节点的K阶向量表示存入分布式文件系统中，以供后续的链接预测模型使用。分布式系统中的多台工作设备分别执行上述步骤，便可以得到全图中所有节点的K阶向量表示，并保存在分布式文件系统中。

对于多条待预测边，其构成一个待预测边集合，原始的全图中的节点以及待预测边集合可以构成一个虚拟的图，将这个虚拟的图进行分片，使得具有相同节点的多条待预测边能够被分在同一个子集合中，得到多个包含待预测边的子集合，并将多个子集合分别发送给多台工作设备。任意一台工作设备上还运行着链接预测模型，对于子集合中的任意一条目标待预测边，从分布式文件系统中获取该目标待预测边的两个节点的K阶向量表示，并输入到链接预测模型中，得到对于该目标待预测边的预测结果。当该目标待预测边为原始的全图中已有的连接边时，预测结果可以是该连接边的属性值；当该目标待预测边为一条待确认是否存在的假定边时，预测结果可以是该假定边是否存在。

以下结合具体的实施例，描述上述分布式链接预测方法的具体实施步骤。图3示出根据一个实施例的分布式链接预测方法的流程图，所述方法的执行主体可以为任何具有计算、处理能力的平台或服务器或设备集群等。需要说明的是，所述分布式系统包含多台工作设备，图3仅展示了在任意的第一工作设备之上的实施步骤。分布式系统中的其它工作设备上的实施步骤可以参照图3中的步骤推出。

图3示出根据一个实施例的分布式链接预测方法，应用于分布式系统的多台工作设备中任意的第一工作设备，至少包括：步骤302，获取全图数据的第一子图数据；步骤306，使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中；所述分布式文件系统被所述多台工作设备共享；步骤312，从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到对于第一节点和第二节点之间关于目标关系的预测结果。

首先，在步骤302，获取全图数据的第一子图数据。

第一子图数据可以是图结构数据，仅仅指示子图中节点的连接关系，而不包含节点的向量表示，以节约存储资源。节点的向量表示可以从分布式文件系统中获取。

在一个实施例中，所述第一子图数据由分布式系统中的多台工作设备对所述全图数据执行图切分算法划分得到。可以使用多种图切分算法对全图进行划分，例如METIS、DistributedNE等等。通过使用图切分算法，可以使得全图中位置相邻的节点被划分到同一个子图中，由此一来，在后续的步骤306中采样各个节点的邻居节点时，便可以直接从单台工作设备的子图中进行采样，减少了工作设备之间的通信，进而提高运行效率。

然后，在步骤306，使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中；所述分布式文件系统被所述多台工作设备共享。

其中，任一节点的多个邻居节点为其直接邻居或一跳邻居节点。具体地，首先获取第一子图中各个节点及其多个邻居节点的初始向量表示（0阶向量表示），然后输入到第1层图神经网络中计算各个节点的1阶向量表示，并将各个节点的1阶向量表示存入分布式文件系统中。初始向量表示可以是one-hot编码特征，也可以是文本或图片经由对应编码器编码得到的嵌入向量，这里不做限定。

然后，从分布式文件系统中获取第一子图中各个节点及其多个邻居节点的1阶向量表示，并输入到第2层图神经网络中计算各个节点的2阶向量表示，并将各个节点的2阶向量表示存入分布式文件系统中。

以此类推，第i轮模型处理包括，从分布式文件系统中获取第一子图中各个节点及其多个邻居节点的i-1阶向量表示，并输入到第i层图神经网络中计算各个节点的i阶向量表示，并将各个节点的i阶向量表示存入分布式文件系统中。

所述分布式文件系统被多台工作设备共享。分布式系统中的多台工作设备分别执行步骤302和步骤306，便可以得到全图中所有节点的K阶向量表示，并保存在分布式文件系统中。

通过步骤302和步骤306使用分布式文件系统缓存每层图神经网络GNN计算过程中产生的中间数据，各个节点的中间计算结果可以在计算不同节点时得到复用，还可以在多台工作设备间共享，由此消除了传统GNN中大量的重复计算。例如，以图1为例，当采用上述实施例的方案时，节点3的1阶向量表示会存储在分布式文件系统中，供计算节点1以及节点2的2阶向量时读取使用。又例如，假定在全图数据中，节点A和节点B为二阶邻居，但被分别划分到第一工作设备和第二工作设备。则第一工作设备计算得到的节点A的中间阶向量，可以存入分布式文件系统，被第二工作设备读取来计算节点B的更高阶向量。

此外，根据上述实施例，工作设备只需要采集第一子图中任一节点的一跳邻居节点，而非传统GNN中的采集N跳邻居节点，在采样过程中进一步减少了计算量。

在一些可能的实施方式中，在步骤306之前，所述方法还包括步骤304，对于所述第一子图中的任一节点，使用图采样算法从其全部一跳邻居节点中确定N个邻居节点。

其中，所述图采样算法可以包括：随机采样、均匀采样、按权重采样、按类型采样。

此时，步骤306的从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示具体包括：从分布式文件系统中获取各个节点及其N个邻居节点的i-1阶向量表示。

通过使用图采样算法，可以防止在图数据规模过大时导致的数据膨胀。

最后，在步骤312，从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到对于第一节点和第二节点之间关于目标关系的预测结果。

在一个实施例中，所述目标关系对应于所述全图数据中存在的目标边；所述预测结果指示，所述目标边的属性值。

任意两个节点对应的实体之间可以同时存在多种关系，对应于图中的两个节点之间具有多条具有属性值的连接边。

链接预测模型的输出可以是一个概率值，指示所述目标边具有某种属性值的概率，当概率值大于预设的第一阈值时，预测结果为所述目标边具有该属性。

在另一个实施例中，所述第一节点和第二节点之间的目标关系构成第一假定边；所述预测结果指示，所述全图数据中是否存在所述第一假定边。

链接预测模型的输出可以是一个概率值，指示所述第一假定边存在的概率，当概率值大于预设的第二阈值时，预测结果为所述第一节点和第二节点之间存在所述第一假定边。

在一些可能的实施方式中，当所述第一节点和第二节点之间的目标关系为假定边时，所述方法还包括步骤308和步骤310。

在步骤308，获取待预测的假定边集合，其中包括连接到同一节点的多条假定边。

如前所述，对于多条待预测的假定边，其构成一个待预测边集合，原始的全图中的节点以及待预测边集合可以构成一个虚拟的图，将这个虚拟的图进行分片，使得具有相同节点的多条待预测边能够被分在同一个子集合中，得到多个待预测的假定边集合，任一工作设备获取对应的待预测的假定边集合。

然后，在步骤310，从所述假定边集合中提取所述第一假定边，根据所述第一假定边确定所述第一节点和第二节点。

在一个实施例中，所述链接预测模型包括：多层神经网络MLP（Multi-LayerPerceptron）、TransE（Translating Embeddings）模型、TransH（Translating onHyperplanes）模型。

本说明书实施例的子图采样和模型推理可以以流水线的模式并发执行，无需预先产出每个节点的N跳邻居子图数据，从而节约了子图采样的耗时。另外，一跳邻居子图实时产出实时消费，也无需额外存储资源。同时，本方案将中间计算结果缓存到分布式文件系统中，不依赖分布式计算的MapReduce框架，因此可以无缝适配各种图学习框架。

同时，本方案通过缓存中间结果的方式避免了传统GNN模型中大量的重复计算问题，从而提升了性能和扩展性。另外，由于多跳邻居的信息可以由缓存的中间结果表示，所以在执行子图采样时只需要一跳邻居即可，从而进一步减少了计算量。

根据另一方面的实施例，还提供一种分布式链接预测装置。图4示出根据一个实施例的分布式链接预测装置的示意性框图，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图4所示，所述装置400部署在分布式系统的多台工作设备中任意的第一工作设备上，包括：

获取单元401，配置为，获取全图数据的第一子图数据；

向量计算单元403，配置为，使用K层图神经网络对所述第一子图数据中的全部节点进行K轮模型处理，得到各个节点的K阶向量表示，其中，第i轮模型处理包括，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，将其输入到第i层图神经网络中，得到各个节点的i阶向量表示，将所述各个节点的i阶向量表示存入所述分布式文件系统中；所述分布式文件系统被所述多台工作设备共享；

链接预测单元404，配置为，从所述分布式文件系统中获取第一节点和第二节点的K阶向量表示，将其输入到链接预测模型中，得到对于第一节点和第二节点之间关于目标关系的预测结果。

在一些可能的实施方式中，还包括：

邻居采样单元402，配置为，对于所述第一子图中的任一节点，使用图采样算法从其全部一跳邻居节点中确定N个邻居节点。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一实施例所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一实施例所描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式链接预测方法，应用于分布式系统的多台工作设备中任意的第一工作设备，包括：

获取全图数据的第一子图数据；

2.根据权利要求1所述的方法，其中，所述目标关系对应于所述全图数据中存在的目标边；所述预测结果指示，所述目标边的属性值。

3.根据权利要求1所述的方法，其中，所述第一节点和第二节点之间的目标关系构成第一假定边；所述预测结果指示，所述全图数据中是否存在所述第一假定边。

4.根据权利要求3所述的方法，还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求5所述的方法，从分布式文件系统中获取各个节点及其多个邻居节点的i-1阶向量表示，包括：

7.根据权利要求5所述的方法，其中，所述图采样算法包括：随机采样、均匀采样、按权重采样、按类型采样。

8.根据权利要求1所述的方法，其中，所述第一子图数据由分布式系统中的多台工作设备对所述全图数据执行图切分算法划分得到。

9.根据权利要求8所述的方法，其中，所述图切分算法包括：METIS、DistributedNE。

10.根据权利要求1所述的方法，其中，所述链接预测模型包括：多层神经网络MLP、TransE模型、TransH模型。

11.一种分布式链接预测装置，部署在分布式系统的多台工作设备中任意的第一工作设备上，包括：

获取单元，配置为，获取全图数据的第一子图数据；

12.根据权利要求11所述的装置，还包括：

13.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项所述的方法。

14.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。