CN113835899B

CN113835899B - 针对分布式图学习的数据融合方法及装置

Info

Publication number: CN113835899B
Application number: CN202111413646.9A
Authority: CN
Inventors: 郭志强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-22
Anticipated expiration: 2041-11-25
Also published as: WO2023093355A1; CN113835899A

Abstract

本说明书实施例提供一种针对分布式图学习的数据融合方法及装置，用于通过分布式系统针对图数据的分布式图学习过程，分布式系统的单个设备预先分配有图数据的多个图节点以及相应的节点连接关系，其中，第一设备包括N个图节点以及M个镜像节点，单个镜像节点与N个图节点中的单个图节点互为邻居节点；在针对分布式图学习的数据融合过程中，第一设备一方面通过相互独立的多个镜像融合线程对M个镜像节点分别执行融合操作，并分别将镜像节点的镜像融合向量加入本地聚合数据序列，另一方面利用发送线程依次发送镜像融合向量，以供各个镜像节点的聚合过程互不依赖。这种方式可以提高分布式图学习过程中的数据融合效率。

Description

针对分布式图学习的数据融合方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及针对分布式图学习的数据融合方法及装置。

背景技术

图数据是一种描述各种实体之间关联关系的数据形式。图数据通常可以包括多个节点，各个节点分别对应各个业务实体。在业务实体具有预先定义关联属性的情况下，图数据的相应节点之间可以基于关联属性具有相应的关联关系。例如若干三元组表示的图数据中，三元组（a，r，b）表示节点a和节点b之间具有关联关系r。在形象化的图数据中，节点a和节点b通过点表示，节点a和节点b之间对应的关联关系r可以通过连接边表示。图数据通常可以通过图模型进行处理，即进行图学习。

图学习过程中，可以通过图模型处理图数据进行。图学习通常可以将图数据中各个节点的邻居节点信息融合到自身信息中，以考虑节点之间的相互影响。随着图学习技术的发展，图学习的应用也越来越广泛。在一些业务场景中，图数据的规模巨大，例如可以包括十亿级、百亿级的节点数量。针对巨大的节点规模，可以采用分布式图学习。即，将图数据分割存储在多个设备，然而，分布在不同设备上的节点之间，可能存在关联关系。则在将图数据中各个节点的邻居节点信息融合到自身信息的过程中，需要设备间的交互。

发明内容

本说明书一个或多个实施例描述了一种针对分布式图学习的数据融合方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供一种针对分布式图学习的数据融合方法，用于通过分布式系统针对图数据的分布式图学习过程，分布式系统的单个设备预先分配有所述图数据的多个图节点以及相应的节点连接关系，其中，第一设备包括N个图节点以及M个镜像节点，单个镜像节点与所述N个图节点中的单个图节点互为邻居节点；在针对分布式图学习的数据融合过程中，所述方法由所述第一设备执行，包括：通过相互独立的多个镜像融合线程对所述M个镜像节点分别执行以下融合操作：获取单个镜像节点的当前表征向量，其中，该单个镜像节点的当前表征向量由相应图节点所在设备提供；基于其当前表征向量及其在所述第一设备上的各个邻居节点的当前表征向量，确定该单个镜像节点的镜像融合向量，单个节点的表征向量用于描述相应图节点的属性信息；将所述镜像融合向量加入本地聚合数据序列；利用发送线程按顺序将所述本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新相应节点的当前表征向量。

在一个实施例中，所述图学习通过具有多层迭代结构的图模型处理所述图数据进行，所述融合操作对应所述图模型的单个层执行，在所述单个层是第一层的情况下，单个图节点的当前表征向量为由该单个图节点对应的实体的属性信息提取的特征向量，在所述单个层不是第一层的情况下，单个图节点的当前表征向量为对应于该单个图节点在前一层融合的属性信息的表征向量。

在一个实施例中，在单个镜像节点对应的图节点所在设备提供该图节点的当前表征向量的情况下，将该图节点记录至候选节点队列，所述候选节点队列用于存储本地镜像点或本地图节点的当前表征向量，并由各个融合线程按顺序单次获取单个当前表征向量。

在一个实施例中，所述单个镜像节点的镜像融合向量经由其在所述N个图节点中的邻居节点的当前表征向量的加和、求平均、加权求和、取中位数之一的方式确定。

在一个实施例中，所述N个图节点包括第一节点，所述第一节点对应有分布在S个设备的镜像节点以及本地的R个邻居节点，R大于或等于0，针对所述第一节点，所述方法还包括：通过多个本地融合线程中的单个本地融合线程融合所述R个邻居节点的当前表征向量与所述第一节点的当前表征向量，得到所述第一节点的本地融合向量；通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量，得到针对所述第一节点融合的属性信息，从而更新所述第一节点的当前表征向量。

在一个实施例中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：获取所述S个设备分别针对所述第一节点确定的S个镜像融合向量；将所述S个镜像融合向量与所述第一节点的本地融合向量进行融合。

在一个实施例中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：获取从所述S个设备中的单个设备接收到所述第一节点的单个镜像融合向量；将该单个镜像融合向量聚合到所述第一节点的镜像汇聚向量，直至对将S个设备发送的S个镜像融合向量聚合完毕，得到镜像聚合结果；将所述镜像聚合结果与所述第一节点的本地融合向量进行融合。

在一个实施例中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：响应于从S个设备中的单个设备接收到所述第一节点的单个镜像融合向量，将该当前融合贡献向量聚合到所述第一节点的本地融合向量，并用聚合结果更新第一节点的本地融合向量，直至对将S个设备发送的S个镜像融合向量聚合完毕。

在一个实施例中，所述第一设备针对所述T个邻居节点中的r个邻居节点设置有r个镜像节点，所述融合所述R个邻居节点的当前表征向量与所述第一节点的当前表征向量包括：获取所述r个镜像节点对应的r个图节点的当前表征向量；融合所述R个邻居节点、所述r个图节点的当前表征向量与所述第一节点的当前表征向量。

根据第二方面，提供一种针对分布式图学习的数据融合装置，用于通过分布式系统针对图数据的分布式图学习过程，分布式系统的单个设备预先分配有所述图数据的多个图节点以及相应的节点连接关系，其中，第一设备包括N个图节点以及M个镜像节点，单个镜像节点与所述N个图节点中的单个图节点互为邻居节点；所述装置设于所述第一设备，包括镜像融合单元和发送单元，在针对分布式图学习的数据融合过程中：

所述镜像融合单元，配置为通过相互独立的多个镜像融合线程对所述M个镜像节点分别执行以下融合操作：获取单个镜像节点的当前表征向量，其中，该单个镜像节点的当前表征向量由相应图节点所在设备提供；基于其当前表征向量及其在所述第一设备上的各个邻居节点的当前表征向量，确定该单个镜像节点的镜像融合向量，加入本地聚合数据序列，单个节点的表征向量用于描述相应图节点的属性信息；

所述发送单元，配置为利用发送线程按顺序将所述本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新所述第一节点的当前表征向量。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，在分布式图学习过程中，在各个设备设置本地图节点的邻居节点的镜像节点，并通过多个独立线程对镜像节点进行本地的信息融合，然后将融合结果汇聚到图节点所在设备，由图节点所在设备对各个融合结果进一步聚合。由于单个设备上，独立线程可以并行执行对各个镜像节点的本地信息融合，并且，各个线程的融合结果通过发送线程按照完成顺序提供给相应设备，而无需相互等待，从而可以提高分布式图学习的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出一个本说明书针对分布式图学习的一个具体实施架构示意图；

图2示出根据一个实施例的针对分布式图学习的数据融合方法流程图；

图3示出根据一个实施例的镜像融合流程示意图；

图4示出一个具体例子的针对分布式图学习的数据融合流程示意图；

图5示出根据一个实施例的针对分布式图学习的数据融合装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的技术方案进行描述。

本领域技术人员可以理解，图数据通常可以包括多个节点和节点之间的连接关系。图数据可以通过若干个三元组形如（a，r，b）的三元组形式表示，其中a、b表示两个节点，r表示两个节点之间的连接关系。图数据可以形象化表示为关系网络或知识图谱的形式，各个节点之间的连接关系通过连接边表示。

实践中，图数据中的各个节点分别对应与具体的业务场景相关联的各个实体。例如，在具体的业务场景是社区发现、用户分群之类与用户相关的情况下，图数据中的各个节点对应的各个业务实体例如可以是用户等。再例如，在论文分类、社交平台文章分类等的具体场景下，图数据中的各个节点对应的各个业务实体例如可以是文章等。在其他具体业务场景下，图数据对应的业务实体还可以是任意其他合理的实体，在此不作限定。一个图数据中可以对应一种或多种实体。

图数据中，单个节点对应的实体可以具有与业务相关的各种属性。例如：在用于用户消费信息推送的图数据中，对应于用户的业务实体，可以对应有年龄、收入、停留位置、消费习惯之类的属性；对应于文章的业务实体，可以对应有关键词、所属领域、文章篇幅之类的属性。在可选的实施例中，具有关联关系的两两节点，还可以具有关联属性，该关联属性也可以作为相应连接边的边属性。例如，通过社交行为关联的用户之间可以具有社交属性（如聊天频率、转账行为、发红包行为等），该社交属性即相应两个节点之间的关联属性，其可以作为相应两个节点之间的连接边的边属性。通过属性，可以提取出相应的特征数据，来表征相应的节点。从而节点属性和/或边属性可以通过特征向量表示。特征向量可以看作相应节点或连接边的初始表达向量。一份图数据中，至少包括各个节点的特征向量，在可选的业务场景中可以包括连接边的特征向量。

图数据可以通过各种图模型进行处理。图模型例如可以是图神经网络、RDF2Vec、威斯费勒-莱曼算法（Weisfeiler-Lehmankernels，WL）之类的业务模型。图模型通常可以考虑邻居节点之间的相互影响，针对单个节点，融合其邻居节点的特征向量得到最终的表达向量。在一个实施例中，融合邻居节点向量时仅考虑节点的特征向量，例如可以通过加和、求平均、加权平均、取中位数值、取最大值等任一方式融合单个节点的邻居节点向量。在另一个实施例中，融合邻居节点向量时不仅考虑节点的特征向量，还考虑连接边的特征向量，例如基于连接边向量确定邻居节点表达向量的权重、将连接边向量作为待融合的邻居向量等等。

在一个图神经网络的具体例子中，在单层神经网络，可以遍历各个节点。针对单个节点，通过预定方式设置邻居权重，来描述邻居节点对于该单个节点的重要程度。这里的预定方式例如可以是，邻居权重与节点的度负相关、与该单个节点和相应邻居节点的表达向量之间的相关度正相关等等。在图数据中包括连接边的特征向量的情况下，还可以利用连接边的特征向量确定邻居权重，在此不再赘述。进一步地，可以按照各个邻居节点的邻居权重对其当前表达向量进行加权求和，更新该单个节点的表达向量。例如，对于一个节点u在第k层的数据聚合过程表示为：

，其中

为第k层的参数矩阵（也是图学习过程需要确定的参数），v为节点u的单个邻居节点在第k-1层的表征向量，w为单个邻居节点在节点u聚合过程中的权重，b为常数参数。经过单层图神经网络的处理，各个节点的表达向量得到更新。而多层图神经网络的迭代，能够充分考虑多层邻居的影响因素，对单个节点给出最终的表达向量。

在图学习架构中，如果所使用的图数据包括超大规模的图节点（即图数据中的节点，使用图节点以和下文的镜像节点进行区分），如十亿级、百亿级的图节点，则可以将图学习架构部署为分布式图学习架构，并且通过图分区来将图节点数据分散到图学习架构中的各个分布式图学习设备上。在图节点被分散到各个分布式图学习设备过程中，可能存在大量邻接点。所谓邻接点，顾名思义，可以用于表示被分配到其中一个设备上，但和至少一个被分配到其他设备上的其他图节点具有关联关系的图节点。可以理解，对于临界点来说，在融合邻居信息的过程中，不仅涉及到本地节点，还涉及其他设备的节点。因此，如何更有效地融合邻接点的邻居信息，是分布式图学习中的重要组成部分。

图1示出了分布式部署的一个示例。如图1所示，部署在设备1的节点B、C、D、H，同时和部署在设备2上的节点有关联关系，则这些节点都可以称为邻接点。进一步地，对于邻接节点，可以将其所在设备称为该节点的主设备（或Master设备），该节点在该主设备中可以记为Master节点，下文直接称为图节点。另外，在邻接节点的其余邻居节点所在的其它图学习设备中，可以创建该邻接节点的镜像节点，或称为Mirror节点，如图1所示，由于被部署在设备1上的节点B、C、D、H，分别为部署在设备2上的节点“E、G”、“G”、“F、I”、“F、I”的邻居节点，因此可以在设备2创建相应的镜像节点B＇、C＇、D＇、H＇。

在图学习过程中，为了保持数据的统一性，可以将各个图节点的数据由其对应的主设备进行存储，其他设备在需要时从其主设备获取数据。也就是说，镜像节点所在设备不存储相应图节点的融合结果。而计算过程中，一个图节点如果存在镜像节点，则在镜像节点所在设备融合相应图节点在该设备本地的邻居节点数据，并汇聚到图节点所在设备，由图节点所在设备得到最终的聚合结果。以图1中的节点B为例，设备1为其主设备，在聚合其邻居信息时，可以由设备2从设备1获取节点B的当前表征向量，并确定其邻居节点E、G对节点B所提供的邻居信息（如记为当前融合贡献向量）。值得说明的是，图1仅示出了一个包含B的镜像节点的设备2，实际上，可以有多个这样的设备，由于包含某个图节点B的邻居节点而设置有该图节点的镜像节点。这些设备各自可以将本地对节点B所提供的邻居信息发送给设备1。设备1可以将这些信息融合，从而完成对图节点B的邻居信息的聚合。

以上结合图1描述了分布式图学习过程中，针对单个邻接点的邻居信息融合过程。实践中，还需要考虑多个邻接点。当图数据中大量邻接点同时进行计算时，可能出现通信等待、计算等待等问题，导致图学习的效率降低。

为此，本说明书提供一种通过并行网络线程实现的节点并发处理的方案，针对分布式图学习的节点信息融合过程，在单个设备上，可以对完成处理的镜像节点单独通知相应的图节点所在设备，降低等待时间，并且相互独立的线程之间可以并行执行，降低计算时间。如此，可以总体上提高分布式图学习的数据融合效率。

下面结合具体实施例详细描述本说明书的技术构思。

图2示出了本说明书一个实施例的针对分布式图学习的数据融合流程。该流程中，为了描述方便，从分布式系统中的第一设备角度进行描述。该第一设备具体可以是任何具有一定计算能力的计算机、系统、服务器等，如图1中的设备1、设备2。在分布式系统中，单个设备可以分配一定数量的图节点，以在图学习过程中作为这些图节点的主设备对它们的数据进行汇聚和存储。图数据的分配可以通过点切割或者边切割进行，各个设备上的图节点数量可以相等或不相等，在此均不做限定。

假设第一设备上分配的图节点数量为N（N为大于1的整数），这N个图节点中，单个图节点的邻居节点可以全部包含在第一设备的N个图节点中，也可以部分或全部分配在其他设备（如图1中设备1上的节点H的全部邻居节点被分配在其他设备）。对于后者，可以在第一设备设置该部分或全部邻居节点的镜像节点，同时，在其他设备设置该单个图节点的镜像节点。本说明书以第一设备的视角进行描述，对于第一设备而言，可以设置这N个图节点的、在这N个图节点之外的其他邻居节点的镜像节点。如图1所示，在设备2上设置图节点E、G、F、I的邻居节点B、C、D、H的镜像节点B＇、C＇、D＇、H＇。可以理解，图1仅为一个示例，实践中，也可以在设备1上设置图节点B、C、D、H的镜像节点E＇、G＇、F＇、I＇，而无需在设备2设置镜像节点B＇、C＇、D＇、H＇，或者在设备1上设置图节点E、G的镜像节点E＇、G＇而在设备2设置B、H镜像节点B＇、H＇，本说明书对此不作限定。在此可以假设第一设备上设置的镜像节点数量为M，其中，M为正整数，其数值根据实际业务情形确定，而和N不必然相关。

值得说明的是，第一设备可以是分布式系统中的任意设备。或者说，在分布式系统中，必然存在这样一个设备，其上被分配有多个（如N个）图节点，并包含至少一个（如M个）镜像节点，这样的设备可以作为这里的第一设备。可选地，第一设备上的图节点还可以在其他设备对应有镜像节点。其中，本说明书涉及的邻居节点可以是一阶邻居节点或多阶邻居节点，在此不做限定。

本领域技术人员可以理解，在利用图模型处理图数据过程中，通常可以通过在单个图节点的表达向量上融合其邻居节点表征向量，以聚合邻居信息而对图节点进行表达。该聚合过程可以是一次的过程，也可以是多次迭代（图模型为多层迭代结构）的过程。在此过程中，聚合邻居信息之前的节点表征向量作为相应图节点的当前表征向量，初始时，图节点的当前表征向量可以是经过节点属性信息提取的特征向量。在聚合邻居信息的过程需多次迭代的情况下，前一次迭代得到的节点表征向量为相应图节点的当前表征向量。其中，前一次迭代得到的节点表征向量也可以看作应于该单个图节点在前一层融合的属性信息的表征向量。在图模型为多层迭代结构的情况下，图2示出的流程可以对应图模型的单个层。

如图2所示，本说明书提供的针对分布式图学习的数据融合流程可以包括：步骤201，通过相互独立的多个镜像融合线程对M个镜像节点分别执行融合操作，并将得到的镜像融合向量加入本地聚合数据序列；步骤202，利用发送线程按顺序将本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新第一节点的当前表征向量。

一方面，通过步骤201，通过相互独立的多个镜像融合线程对M个镜像节点分别执行融合操作，并将得到的镜像融合向量加入本地聚合数据序列。

可以理解，线程（thread）是操作系统能够进行运算调度的最小单位，它可以被包含在进程之中，是进程中的实际运作单位。一个线程可以描述进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。

在本说明书的实施例中，第一设备上可以设有多个对镜像节点进行融合操作的线程，这些线程相互独立，这里可以称其为镜像融合线程。其中，镜像融合线程数量可以与镜像节点数量一致，也可以少于镜像节点数量，在此不做限定。例如，在第一设备具有100个CPU的情况下，至多可以同时运行100个镜像融合线程，用于执行180个镜像节点的融合操作。实践中，这种线程也可以根据待处理的镜像节点的数量动态变化，即，有多少个需要并行处理的镜像节点，建立多少个镜像节点融合线程，至多可以不超过设备的CPU数量。

在本步骤201中，可以响应于接收到一个镜像节点的数据，开启一个镜像融合线程，由该镜像融合线程获取该镜像节点的当前表征向量。各个镜像融合线程和镜像节点之间可以不设置固定对应关系。在一个实施例中，可以由第一设备在接收到本地镜像节点的当前表征向量的情况下，将当前表征向量与该镜像节点对应记录在候选节点序列或候选节点队列，如可以记为mirrorVertexQueue队列。该队列可以为各个镜像融合线程按照数据记录先后顺序依次提供数据。可选地，第一设备还可以将相应镜像节点记录为“准备”（ready）状态。

针对单个镜像节点，通过执行单个镜像融合线程，可以执行如图3所示的融合操作。参考图3所示，该融合操作可以包括以下步骤：

步骤301，获取单个镜像节点的当前表征向量。其中，该单个镜像节点的当前表征向量可以基于当前镜像融合线程的请求从该单个镜像节点对应的图节点所在设备获取，也可以由当前镜像融合线程从候选节点序列或候选节点队列获取，在此不作限定。

从前文的构思可知，在本说明书中，当前表征向量由相应图节点所在设备最终汇聚而成，镜像节点不存储相应图节点的当前表征向量数据，因此，进行本地计算时，镜像节点的当前表征向量可以从相应图节点所在设备获取。以图1中的节点B为示例，在融合图节点B的邻居向量信息时，可以由设备2提供镜像节点B＇与邻居节点E、G的融合信息（通过镜像融合向量表示），然后由设备1（节点B的主设备）对各个镜像节点的融合信息聚合，用于更新图节点B的当前表征向量。图节点的当前表征向量可以由镜像节点所在设备请求获取，也可以由图节点所在设备主动向其镜像节点所在设备下发获取，在此不做限定。

步骤302，基于其当前表征向量及其在第一设备上的各个邻居节点的当前表征向量，确定该单个镜像节点的镜像融合向量。这里，“其”指代当前镜像节点对应的图节点。单个镜像节点的当前融合向量，可以理解为在相应图节点的邻居信息融合过程中，该单个镜像节点所在设备相关的邻居节点对相应图节点的信息融合所贡献信息的表征。

其中，当前镜像节点的镜像融合向量可以由当前表征向量及其在N个图节点中的邻居节点的当前表征向量通过加和、求平均、加权求和、取中位数等等中的任一合理方式确定，在此不做限定。如图1中的镜像节点B＇，由设备2确定的镜像融合向量可以由图节点E、图节点G的当前表征向量通过加和、求平均、加权求和、取中位数等等中的任一方式确定。以加权求和为例，单个图节点对应的权重例如可以与其当前表征向量和该镜像节点的当前表征向量的相似度正相关。如对于图1中镜像节点B＇，由设备2确定的镜像融合向量为g（B＇）=Ww_（B＇~E）

+Ww_（B＇~G）

，其中，w_（B＇~E）、w_（B＇~G）分别表示图节点B的当前表征向量与图节点E、图节点G的当前表征向量的相似度确定的加权权重，W为当前的参数矩阵，

、

分别表示图节点E、图节点G的当前表征向量。

步骤303，将上述镜像融合向量加入本地聚合数据序列。

在确定单个镜像节点（如图1中的B＇）的在当前设备的镜像融合向量（如g（B＇））后，可以将其提供给相应图节点（如B）所在设备。为了减少计算等待和通信等待的耗时，本说明书的构思可以采用消息队列的方式，例如可以将各个镜像节点的镜像融合向量由各自的镜像融合线程在执行融合操作时加入本地聚合数据序列。该本地聚合数据序列用于存储本地镜像节点的当前融合贡献向量，例如存储于mirrorVertexGatherReadyQueue队列。可选地，还可以将相应镜像节点的状态设置为“完成”（Done）状态。

各个线程各自可以独立地按照图3示出的流程执行，以确定单个镜像节点的本地聚合数据，并加入本地聚合数据序列。其中，节点状态的记录有助于确保在各个环节能够针对各个节点的聚合操作充分进行，避免遗漏。

另一方面，在步骤202，利用发送线程按顺序将本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备。如此，可供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新相应节点的当前表征向量。

发送线程可以是用于向其他设备发送数据的通信线程。发送线程依次获取本地聚合数据序列（如mirrorVertexGatherReadyQueue队列）中的单个镜像融合向量，并将该单个镜像融合向量发送至所对应的图节点所在设备。例如，在获取到镜像节点B＇的镜像融合向量后，将其发送至图节点B所在设备，即设备1。

值得说明的是，为了减少等待，以上步骤201和步骤202可以并行执行。

对于图节点所在设备而言，其可以针对单个图节点，基于接收到的相应图节点的镜像融合向量，确定针对相应图节点融合的属性信息。该融合的属性信息可以通过向量表示，如记为融合向量，用于更新相应图节点的当前表征向量。例如，可以将相应图节点的各个镜像融合向量及本地邻居节点的当前表征向量一起汇聚，得到融合向量。为了对各个图节点并行执行，图节点所在设备也可以采用多个汇聚线程分别对各个图节点进行汇聚。此时，图2示出的流程还可以包括：通过多个本地融合线程中各个本地融合线程融合各个本地图节点在本地的邻居节点的当前表征向量。这里的本地邻居节点可以包含设在本地的镜像节点。

在第一设备中的至少一个图节点在其他设备具有镜像节点的情况下，第一设备可以通过本地融合线程，确定针对相应图节点融合的属性信息。

可以理解的是，在单个设备既包含在其他设备对应有镜像节点的图节点，又包含有分配在其他设备的图节点对应的镜像节点的情况下，如果针对镜像节点执行的融合操作和针对图节点执行的融合操作逻辑一致，例如都是加和，则镜像融合线程和本地融合线程可以通用。如此，更加有利于节约资源。

以第一设备上的N个图节点中的任一个图节点（以下称为第一节点）为例，假设设有该第一节点的镜像节点的设备数为S，本地的邻居节点数为R（R≥0，R=0表示本地无邻居节点，），则第一设备共可以接收到S条镜像融合向量。第一设备可以通过本地融合线程将这S条镜像融合向量与第一节点的当前表征向量、R个邻居节点的当前表征向量融合在一起，得到针对第一节点融合的属性信息作为融合结果。进一步地，通过融合结果可以更新第一节点的当前表征向量。

在一个可能的设计中，图2的流程还包括：通过多个本地融合线程中的单个本地融合线程融合R个邻居节点的当前表征向量与第一节点的当前表征向量，得到第一节点的本地融合向量；通过多个汇聚线程中的单个汇聚线程融合上述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量，得到针对第一节点融合的属性信息，从而更新第一节点的当前表征向量。

由于该融合过程相当于对各个设备上关于第一节点的本地邻居节点的融合结果的汇总聚合，这里可以将执行该汇聚融合操作的线程称为汇聚线程。第一设备可以包含多个汇聚线程，针对各个本地图节点，独立进行本地融合向量和S个镜像融合向量的融合。在融合本地融合向量和S个镜像融合向量的过程中，可以根据业务需求设置相应的融合方式。

在一个实施例中，可以在针对第一节点接收到S个镜像融合向量后，对本地融合向量和S个镜像融合向量一次性融合完毕。此时，在从S个设备分别获取到第一节点的S个镜像融合向量后，由单个汇聚线程对第一节点执行汇聚操作。该汇聚操作例如可以为：获取上述S个镜像融合向量，将S个当前融合贡献向量与第一节点的当前表征向量进行融合。以节点B为例，相应的融合方式例如为S个当前融合贡献向量与第一节点的当前表征向量的加和、平均、加权平均、取中位数、取最大值等等之一的方式。例如加和方式下为：h（B^k+1）=g₁（B ^k）+……+ g_s（B ^k）+ h（B^k），其中，k表示当前表征向量，k+1表示汇聚线程的融合结果， g表示镜像融合向量，g的下标表示设有节点B的镜像节点序号。这种实施方式可以节约线程调用次数，且聚合时能够综合考虑各个融合贡献向量的重要性。

在另一个实施例中，可以先对S个镜像融合向量按照接收顺序融合，得到镜像聚合结果，再将镜像聚合结果与第一节点的本地融合向量进行融合。此时，镜像融合向量例如为零向量，响应于从S个设备中的单个设备接收到第一节点的单个镜像融合向量，可以通过多个汇聚线程中的单个汇聚线程将该镜像融合向量聚合到第一节点的镜像融合向量，直至对将S个设备发送的S个镜像融合向量聚合完毕得到镜像聚合结果，将该镜像聚合结果与第一节点的本地融合向量进行融合，从而利用融合结果更新第一节点的当前表征向量。简而言之，该实施例提供的聚合方式下，每接收到一个镜像融合向量，调用一个汇聚线程，将该镜像融合向量与当前的镜像聚合结果融合，直至单个图节点的各个融合贡献向量融合完毕，得到针对该节点最终的镜像聚合结果与其本地融合向量一起聚合。这种聚合方式在汇聚过程中采用异步方式，可以按照数据反馈顺序进行处理，减少等待。

在又一个实施例中，还可以在得到第一节点的本地融合向量之后，响应于从S个设备中的单个设备接收到第一节点的一个镜像融合向量，则调用一次汇聚线程将该镜像融合向量聚合到第一节点的本地融合向量，并更新第一节点的本地融合向量，直至对将S个设备发送的S个当前融合贡献向量聚合完毕，则本轮次对第一节点的信息融合完毕。这种聚合方式可以按照数据反馈顺序异步融合信息，减少等待，并且直接得到结果，可以节约步骤。

在更多实施例中，还可以按照其他方式设置图节点的镜像融合向量与本地融合向量的聚合方式，在此不再赘述。在一个实施例中，在单个图节点的向量聚合完成后，还可以将该图节点的状态设置为“完成”（Done）状态，并加入节点更新队列，如masterVertexGatherDoneQueue队列，表示当前轮次的节点表征向量更新完毕。这种状态标记有利于各阶段的融合操作对所有节点充分执行。可选地，在下一轮次的迭代（如图模型的下一层）开始后，该节点更新队列中的数据可以被依次取出，并通过发送线程分发至各个镜像节点设备。

根据一个可能的设计，本地融合线程与镜像融合线程具有一致的逻辑，可以具有通用性，则在对本地进行镜像融合操作（针对镜像节点）的同时，也可以进行本地节点融合操作（针对本地图节点，如前文的master节点）。

回顾以上过程，本说明书实施例提供的方法，对于镜像节点或者图节点的数据融合过程中，可以通过多个线程并行执行，从而实现多点并发。另外，利用多个线程共享的本地聚合数据序列作为消息传递手段，将单个镜像节点在本地进行信息聚合得到的当前融合贡献向量排序，并由发送线程单独发出，以由相应图节点所在设备即使处理，实现节点之间的异步数据融合，减少等待。因此，以上实施例描述的方法可以提高分布式图学习过程中的数据聚合效率。

为了更明确表达本说明书技术构思所达到的技术效果，请参考图4所示。为了体现本说明书的技术构思，图4中以设备2为本说明是提供的分布式图学习的数据融合流程的执行主体为例，结合与设备1的交互，描述主要涉及思想。当然，设备2还可以与设备3等设备进行相似的交互，在此通过虚线箭头简略表示。

如图4所示，假设图节点B是被分配到设备1的图节点，而设备2可以对应有图节点B的镜像节点B＇。在一次邻居信息融合（如图模型某一次迭代）过程中，设备2可以从设备1获取节点B的当前表征向量，并加入候选节点队列。多个镜像融合线程执行过程中，依次从候选节点队列中取出各个候选节点的当前表征向量，并进行邻居节点信息融合。如图3所示，假设镜像融合线程n获取到了节点B的当前表征向量，则该线程n可以执行融合操作，确定镜像节点B＇在设备2的镜像融合向量，并存入本地聚合数据序列。这样，通过多个镜像融合线程，可以实现多个镜像节点并行融合。

另一方面，设备2还设置有发送线程，该发送线程可以从本地聚合数据序列中依次获取各个镜像融合向量，并发送至相应图节点所在设备。例如图4中，在获取到镜像节点B＇的镜像融合向量时，将其发送至图节点B所在的设备1。如图4所示，发送线程还可以向其他设备（如设备3）提供其他镜像节点的镜像融合向量，在此不再赘述。通过该发送线程，各个镜像节点的镜像融合向量无需相互等待，而是逐一发送，从而减少等待时长。

另外，发送线程和多个镜像融合线程还可以并行执行。从图4可以看出，这种通过队列和并行线程相结合的方式，可以缩减通信等待和数据融合的数据处理时长，从而提高分布式图学习的数据融合效率。

根据另一方面的实施例，还提供一种针对分布式图学习的数据融合装置。其中，进行图学习的分布式系统中的各个设备均可以设置有针对分布式图学习的数据融合装置。分布式系统的单个设备预先分配有所述图数据的多个图节点以及相应的节点连接关系。为了描述方便，以该装置设于分布式系统的任一个设备，称为第一设备，为例进行说明。假设第一设备包括N个图节点以及M个镜像节点，单个镜像节点与所述N个图节点中的单个图节点互为邻居节点。

如图5所示，针对分布式图学习的数据融合装置500包括镜像融合单元501和发送单元502，在针对分布式图学习的数据融合过程中：镜像融合单元501，配置为通过相互独立的多个镜像融合线程对M个镜像节点分别执行以下融合操作：获取单个镜像节点的当前表征向量，其中，该单个镜像节点的当前表征向量由相应图节点所在设备提供；基于其当前表征向量及其在第一设备上的各个邻居节点的当前表征向量，确定该单个镜像节点的镜像融合向量，加入本地聚合数据序列，单个节点的表征向量用于描述相应图节点的属性信息；发送单元502，配置为利用发送线程按顺序将本地聚合数据序列中已确定的像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新第一节点的当前表征向量。

在一个实施例中，图学习通过具有多层迭代结构的图模型处理图数据进行，融合操作对应图模型的单个层执行，在单个层是第一层的情况下，单个图节点的当前表征向量为由该单个图节点对应的实体的属性信息提取的特征向量，在单个层不是第一层的情况下，单个图节点的当前表征向量为对应于该单个图节点在前一层融合的属性信息的表征向量。

根据一个可选的实现方式，装置500还可以包括接收单元（未示出），配置为：在单个镜像节点对应的图节点所在设备提供该图节点的当前表征向量的情况下，将该图节点记录至候选节点队列，候选节点队列用于存储本地镜像点或本地图节点的当前表征向量，并由各个融合线程按顺序单次获取单个当前表征向量。

在一些实施方式下，单个镜像节点的镜像融合向量经由其在N个图节点中的邻居节点的当前表征向量的加和、求平均、加权求和、取中位数之一的方式确定。

根据一个可能的设计，假设N个图节点包括第一节点，第一节点对应有分布在S个设备的T个邻居节点以及本地的R个邻居节点，T大于或等于S，R大于或等于0，装置500还包括本地融合单元和汇聚单元（未示出）。其中，本地融合单元配置为：通过多个本地融合线程中的单个本地融合线程融合所述R个邻居节点的当前表征向量与第一节点的当前表征向量，得到第一节点的本地融合向量；汇聚单元配置为：通过多个汇聚线程中的单个汇聚线程融合本地融合向量以及S个设备分别针对第一节点确定的S个镜像融合向量，得到针对第一节点融合的属性信息，从而更新第一节点的当前表征向量。

在一个实施例中，汇聚单元进一步配置为：获取所述S个设备分别针对所述第一节点确定的S个镜像融合向量；将所述S个镜像融合向量与所述第一节点的本地融合向量进行融合包。

在另一个实施例中，汇聚单元进一步配置为：获取从S个设备中的单个设备接收到的第一节点的单个镜像融合向量；将该单个镜像融合向量聚合到第一节点的镜像汇聚向量，直至对将S个设备发送的S个镜像融合向量聚合完毕，得到镜像聚合结果；将镜像聚合结果与第一节点的本地融合向量进行融合。

在又一个实施例中，汇聚单元进一步配置为：响应于从S个设备中的单个设备接收到第一节点的单个镜像融合向量，将该当前融合贡献向量聚合到第一节点的本地融合向量，并用聚合结果更新第一节点的本地融合向量，直至对将S个设备发送的S个镜像融合向量聚合完毕。

值得说明的是，图5所示的装置500与图2描述的方法相对应，图2的方法实施例中的相应描述同样适用于装置500，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2等所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2等所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种针对分布式图学习的数据融合方法，用于通过分布式系统针对图数据的分布式图学习过程，分布式系统的单个设备预先分配有所述图数据的多个图节点以及相应的节点连接关系，其中，第一设备包括N个图节点以及M个镜像节点，单个镜像节点是其他设备上的相应图节点的镜像，单个镜像节点在其他设备上对应的单个图节点与所述N个图节点中的单个图节点互为邻居节点；在针对分布式图学习的数据融合过程中，所述方法由所述第一设备执行，包括：

通过相互独立的多个镜像融合线程对所述M个镜像节点分别执行以下融合操作：获取单个镜像节点的当前表征向量，其中，该单个镜像节点的当前表征向量由相应图节点所在设备提供；基于其当前表征向量及其在所述第一设备上的各个邻居节点的当前表征向量，确定该单个镜像节点的镜像融合向量，单个节点的表征向量用于描述相应图节点的属性信息；将所述镜像融合向量加入本地聚合数据序列；

利用发送线程按顺序将所述本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新相应图节点的当前表征向量。

2.根据权利要求1所述的方法，其中，所述图学习通过具有多层迭代结构的图模型处理所述图数据进行，所述融合操作对应所述图模型的单个层执行，在所述单个层是第一层的情况下，单个图节点的当前表征向量为由该单个图节点对应的实体的属性信息提取的特征向量，在所述单个层不是第一层的情况下，单个图节点的当前表征向量为对应于该单个图节点在前一层融合的属性信息的表征向量。

3.根据权利要求1所述的方法，其中，在单个镜像节点对应的图节点所在设备提供该图节点的当前表征向量的情况下，将该图节点记录至候选节点队列，所述候选节点队列用于存储本地镜像节点或本地图节点的当前表征向量，并由各个融合线程按顺序单次获取单个当前表征向量。

4.根据权利要求1所述的方法，其中，所述单个镜像节点的镜像融合向量经由其在所述N个图节点中的邻居节点的当前表征向量的加和、求平均、加权求和、取中位数之一的方式确定。

5.根据权利要求1所述的方法，其中，所述N个图节点包括第一节点，所述第一节点对应有分布在S个设备的镜像节点以及本地的R个邻居节点，R大于或等于0，针对所述第一节点，所述方法还包括：

通过多个本地融合线程中的单个本地融合线程融合所述R个邻居节点的当前表征向量与所述第一节点的当前表征向量，得到所述第一节点的本地融合向量；

通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量，得到针对所述第一节点融合的属性信息，从而更新所述第一节点的当前表征向量。

6.根据权利要求5所述的方法，其中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：获取所述S个设备分别针对所述第一节点确定的S个镜像融合向量；

将所述S个镜像融合向量与所述第一节点的本地融合向量进行融合。

7.根据权利要求5所述的方法，其中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：

获取从所述S个设备中的单个设备接收到所述第一节点的单个镜像融合向量；

将该单个镜像融合向量聚合到所述第一节点的镜像汇聚向量，直至对将S个设备发送的S个镜像融合向量聚合完毕，得到镜像聚合结果；

将所述镜像聚合结果与所述第一节点的本地融合向量进行融合。

8.根据权利要求5所述的方法，其中，所述通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量包括：

响应于从S个设备中的单个设备接收到所述第一节点的单个镜像融合向量，将该单个镜像融合向量聚合到所述第一节点的本地融合向量，并用聚合结果更新第一节点的本地融合向量，直至对将S个设备发送的S个镜像融合向量聚合完毕。

9.根据权利要求5所述的方法，其中，所述第一设备针对所述R个邻居节点中的r个邻居节点设置有r个镜像节点，所述融合所述R个邻居节点的当前表征向量与所述第一节点的当前表征向量包括：

获取所述r个镜像节点对应的r个图节点的当前表征向量；

融合所述R个邻居节点、所述r个图节点的当前表征向量与所述第一节点的当前表征向量。

10.一种针对分布式图学习的数据融合装置，用于通过分布式系统针对图数据的分布式图学习过程，分布式系统的单个设备预先分配有所述图数据的多个图节点以及相应的节点连接关系，其中，第一设备包括N个图节点以及M个镜像节点，单个镜像节点是其他设备上的相应图节点的镜像，单个镜像节点在其他设备上对应的单个图节点与所述N个图节点中的单个图节点互为邻居节点；所述装置设于所述第一设备，包括镜像融合单元和发送单元，在针对分布式图学习的数据融合过程中：

所述发送单元，配置为利用发送线程按顺序将所述本地聚合数据序列中已确定的镜像融合向量发送至相应镜像节点对应的图节点所在设备，以供相应图节点所在设备利用相应镜像融合向量确定针对相应图节点融合的属性信息，从而更新相应图节点的当前表征向量。

11.根据权利要求10所述的装置，其中，所述图学习通过具有多层迭代结构的图模型处理所述图数据进行，所述融合操作对应所述图模型的单个层执行，在所述单个层是第一层的情况下，单个图节点的当前表征向量为由该单个图节点对应的实体的属性信息提取的特征向量，在所述单个层不是第一层的情况下，单个图节点的当前表征向量为对应于该单个图节点在前一层融合的属性信息的表征向量。

12.根据权利要求10所述的装置，其中，所述装置还包括，接收单元，配置为在单个镜像节点对应的图节点所在设备提供该图节点的当前表征向量的情况下，将该图节点记录至候选节点队列，所述候选节点队列用于存储本地镜像节点或本地图节点的当前表征向量，并由各个融合线程按顺序单次获取单个当前表征向量。

13.根据权利要求10所述的装置，其中，所述单个镜像节点的镜像融合向量经由其在所述N个图节点中的邻居节点的当前表征向量的加和、求平均、加权求和、取中位数之一的方式确定。

14.根据权利要求10所述的装置，其中，所述N个图节点包括第一节点，所述第一节点对应有分布在S个设备的T个邻居节点以及本地的R个邻居节点，T大于或等于S，R大于或等于0，所述装置还包括本地融合单元和汇聚单元：

所述本地融合单元配置为：通过多个本地融合线程中的单个本地融合线程融合所述R个邻居节点的当前表征向量与所述第一节点的当前表征向量，得到所述第一节点的本地融合向量；

所述汇聚单元配置为：通过多个汇聚线程中的单个汇聚线程融合所述本地融合向量以及S个设备分别针对所述第一节点确定的S个镜像融合向量，得到针对所述第一节点融合的属性信息，从而更新所述第一节点的当前表征向量。

15.根据权利要求14所述的装置，其中，所述汇聚单元进一步配置为：

获取所述S个设备分别针对所述第一节点确定的S个镜像融合向量；

16.根据权利要求14所述的装置，其中，所述汇聚单元进一步配置为：

获取从所述S个设备中的单个设备接收到的所述第一节点的单个镜像融合向量；

17.根据权利要求14所述的装置，其中，所述汇聚单元还配置为：

18.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

19.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。