CN112288094A

CN112288094A - 联邦网络表示学习方法及系统

Info

Publication number: CN112288094A
Application number: CN202011072793.XA
Authority: CN
Inventors: 钟鸣; 陈佳; 翟成帅
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-29
Anticipated expiration: 2040-10-09
Also published as: CN112288094B

Abstract

本发明公开了一种联邦网络表示学习方法及系统，提出一种隐私保护的上下文节点采样的方法来生成训练节点对，通过多轮本地训练、分布式训练、全局聚合这三个步骤来学习每个数据拥有者的节点低维向量表示。本发明主要基于联邦学习的思想，考虑多个参与者所拥有的网络数据互补的特征和数据私密性问题，提出了一种联邦网络表示学习的表示学习方法及系统。本方法充分考虑多个参与者所拥有的网络共享部分相同的节点集的特性，通过隐私保护的上下文节点采样和联邦训练来让多个参与者在隐私保护的前提下共同协作来学习各自的节点向量表示。通过本发明，每个参与者获得的节点向量表示将比使用自己的网络单独训练更加有效。

Description

联邦网络表示学习方法及系统

技术领域

本发明属于计算机科学领域，涉及一种网络表示学习方法及系统，具体涉及一种联邦网络表示学习方法及系统。

背景技术

网络(Network)数据广泛存在于现实世界中，例如在金融科技场景中，将客户建模为网络中的节点，并将客户之间特定的交互(如信用担保、资金流转、股份持有)建模为连接节点的边，然后可以在此网络上可以进行各种网络分析来分析潜在的财务风险或团伙欺诈。网络表示学习(Network Representation Learning)旨为网络中的每个节点学习低维有效的向量表示，近来已经成为了最有效的网络分析基础工具之一，因为基于学习到的节点表示，可以利用一些成熟的机器学习算法来进行深入的网络数据的分析。

然而对于银行这类对隐私敏感的数据拥有者而言，网络表示学习的应用存在这一个重大挑战。对于每家银行，它只有一个孤立的客户交易网络。因为孤立的客户交易网络缺少了其他银行中相同用户之间的某些直接或间接交互，孤立的客户交易网络描绘的客户关系往往不是准确、完整的。例如，在银行1中客户A与客户B(已被识别为风险用户)不存在交易关系而在银行2中客户A与客户B之间存在一条交易关系，这种情况下银行1的客户交易网络无法准确的反映客户A和B的完整的交易关系，可能会忽视客户A也是有风险的。并且在现实世界中，出于对用户数据的隐私保护，银行之间无法进行直接的数据交换进行物理地合并每家银行持有的交易网络来获得一个完整的交易网络。

因此像银行这样的数据拥有者拥有互补的网络并且不允许交换原生数据，希望网络表示学习可以被“联邦”，即从一组分散在多个数据拥有者的网络(Network)学习出节点更加有效完整的表示而又不会侵犯数据隐私。

现有的网络表示学习方法如DeepWalk、node2vec等只考虑对单个孤立网络进行表示学习。近年来，联邦学习被提出用来在多个去中心化的数据拥有者之间训练共享模型而无需交换原生数据，很好的实现对每个数据拥有者的数据隐私的保护。但是现有的联邦学习只是针对非关系型数据，比如表格类数据，样本之间是独立同分布的，不能简单的扩展到网络(Network)这类关系型数据。所以，如何让多个共享一些相同节点的数据拥有者持有的网络数据能够协同学习出更加有效的节点表示是网络表示学习领域中一个具有挑战的问题。

发明内容

本发明为多个对隐私敏感数据拥有者持有的共享一些相同节点的多个网络，提供一种联邦网络表示的方法及系统，使得每个参与联邦网络表示学习的数据提供者能够从其他方所拥有的数据中获的更丰富的拓扑结构信息，获得到更有效节点表示，同时不会泄漏各方的数据隐私。

本发明的方法所采用的技术方案为：一种联邦网络表示学习方法，给定m个参与者提供的m个本地网络G₁，...，G_m和一个正整数d＜＜|V|；每个参与者P_i拥有一个本地网络G_i＝(V_i，E_i)，其中V_i代表网络的节点集，

表示节点之间的边集；对于任意的一个本地网络G_i一定存在另一个本地网络G_j使得

令G＝(V，E)＝(V1∪…∪V_m，E₁∪……∪E_m)表示所有由本地网络在逻辑上合并的全局网络；

所述方法包含隐私保护的上下文节点采样(privacy-preserved context nodesampling)和联邦训练(federated training)两个阶段。隐私保护的上下文节点采样是为了生成源-上下文节点对(source-context node pair)，这些节点对可以准确的描述了原始网络中节点之间的关系，用于作为训练数据。此阶段包含以下步骤：

步骤1：节点对齐；

对于任意两个参与者P_i和P_j利用已有的非对称加密算法RSA和散列算法进行节点对齐，即获得它们的共享的节点

与此同时P_i和P_j不会知道对方独有的节点的任何信息。

步骤2：本地采样；

对每个参与者P_i所持有的网络单独地应用随机游走策略来生成源-上下文节点对；所述随机游走策略为以网络中的每个节点u作为起点进行γ次长度为l的游走，获得固定长度节点序列，对于每一条节点序列中的每一个节点，取其前后窗口大小为w范围内的节点v作为上下文节点，从而获得若干类似于(u，v)的源-上下节点对作为本地训练样本

步骤3：分布式采样；

对任意共享部分相同节点集的两个参与者P_i和P_j所拥有的两个网络进行采样生成源-上下文节点对；对于每一个相同的节点c，在参与者P_i和P_j的网络中的节点c的w-order范围内的邻居节点集合分别表示为

和

与

组成源-上下文节点对；节点c的w-order范围是指离节点c最短距离不超过w跳的范围内的节点；其中，节点u的信息物理存储在参与者P_i，而节点v的信息存储在参与者P_j，这样的源-上下文节点对被称为分布式样本

使用随机唯一的样本ID来标识分布式样本，训练时通过对齐样本ID来重构真实的分布式样本；

步骤4：初始化节点向量表示；

每个参与者P_i根据其拥有的网络的节点集V_i随机初始化它们的向量表示，即随机初始化

其中，

表示参与者P_i中节点u的向量表示；

步骤5：训练本地样本；

每个参与者P_i应用负采样等价后的Skip-gram模型来训练其生成的本地样本

参与者P_i使用mini-batch梯度下降优化算法在本地优化

来更新节点的表示，优化后的

能够捕获参与者i本地的网络拓扑结构信息；

步骤6：训练分布式样本；

分布式样本的源节点和上下文节点的信息分别存储于两个参与者，在训练的过程中需要两个参与者和一个中立的服务器互相交换中间数据，训练期间的计算是在加法同态加密下完成的，保证数据隐私；

步骤7：全局聚合；

将任意两个参与者共享的相同节点集对应的节点向量表示进行聚合，然后将聚合后的节点表示推回给相应的参与者并更新对应的节点表示；训练过程总的损失的变化小于指定的阈值ε则停止训练，否则转到步骤5；其中，本地样本训练产生的损失和分布式样本产生的损失之和为训练过程总的损失。

本发明的系统所采用的技术方案是：一种联邦网络表示学习系统，其特征在于：包括网络数据加载模块、节点对齐模块、本地采样模块、分布式采样模块、本地样本训练模块、分布式样本训练模块、全局聚合模块、结束判断模块、存储模块和服务器；

所述网络数据加载模块，用于每个参与者P_i从磁盘里加载本地的节点和边信息到内存中形成本地网络G_i；

所述节点对齐模块，用于每个参与者P_i与其他任意参与者P_j进行节点对齐获得相同的节点集

所述本地采样模块，用于每个参与者P_i生成本地样本

以本地网络G_i中的每个节点为起点进行γ次长度为l的随机游走得到节点序列，在每个序列上滑动长度为w范围的窗口来为窗口内的中心节点生成上下文节点；

所述分布式采样模块，用于每个参与者P_i与其他任意拥有相同节点的参与者P_j共同生成分布式样本

此模块用P_i和P_j的共享相同的节点

作为桥梁，节点在两个参与者w-order范围内的邻居节点集互为上下文节点；在生成分布式样本的时候新增样本ID来标识分布式样本；

所述本地样本训练模块，用于每个参议者P_i训练本地样本

此模块使用负采样近似的Skip-gram来进行训练，用mini-batch梯度下降进行优化，来更新节点的表示；此模块完成训练之后还会将产生的损失

发送给服务器，将节点的向量表示输入分布式训练模块；

所述分布式样本训练模块，用于每个参与者P_i与其他任意拥有相同节点的参与者P_j，服务器共同训练分布式样本

此模块使用加法同态加密来完成损失

的计算并将其发送到服务器，同时用同态加密完成节点梯度的计算，保证了双方的数据隐私；将节点的向量表示输入全局聚合模块；

所述全局聚合模块，用于聚合被两个及两个以上参与者所共享的相同节点的向量表示；每个参与者P_i将

发送到服务器；服务器进行聚合然后将聚合后的节点向量表示传播给相应的参与者；参与者接收到聚合后的节点向量表示后更新本地相应的节点的向量表示；

所述结束判断模块，用于判断是否还需要进行训练；服务器接收参与者发送的本地样本训练损失和分布式样本训练的损失并计算总的损失；将上一轮的总的损失和当前总的损失相减，若差值小于给定阈值ε，则将停止信号设为真，并将其发送给各个参与者，然后停止运行；否则，将停止信号设为假，并将其发送给各个参与者，然后转到本地样本训练模块；参与者接收停止信号，若信号为真则将节点的向量表示输入到存储模块，否则转到本地样本训练模块；

所述存储模块，用于持久化学习的节点向量表示，以用于下游的机器学习任务。

本发明利用已有的加密算法如RSA为每个参与者生成本地样本和分布式样本，基于联邦学习的思想，通过进行多轮本地样本训练、分布式样本训练和全局聚合三个步骤，使得多个参与者所拥有的多个网络能够协作起来训练，每方获得的节点特征表示将比仅用自己的网络数据学到的特征表示更加有效，并且不会要求物理的合并多个参与者的原生数据，保护了数据隐私。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例的分布式采样流程图。

图3是本发明实施例的系统框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

参见图1，本实施例以m个参与者为例对本发明的流程进行一个具体的阐述，如下：假设有m个参与者参与联邦网络表示学习，每个参与者P_i拥有一个本地网络(localnetwork)C_i＝(V_i，E_i)，其中V_i代表网络的节点集，

表示节点之间的边集。对于任意的一个本地网络G_i一定存在另一个本地网络G_j使得

令G＝(V，E)＝(V₁∪…∪V_m，E₁∪……∪E_m)表示所有由本地网络在逻辑上合并的全局网络(global network)。显然，任意的本地网络G_i必须与其他至少一个本地网络共享一些相同的节点，否则G_i则是G中的一个孤立的连通分量而无法从联邦网络表示学习中获益。

联邦网络表示学习(Federated Network Embedding)：给定m个参与者提供的m个本地网络G₁，...，G_m和一个正整数d＜＜|V|，联邦网络表示学习的目的是学习一个统一的映射函数f：V→R^d，其中h_u＝f(u)表示节点u在嵌入空间里向量表示，与此同时不会把任意参与者的数据泄漏到其他参与者。通过联邦表示学习的向量表示尽量和直接从逻辑上的全局图G上应用普通的网络表示学习方法DeepWalk一样有效。每个参与者P_i最终会获得它自己的节点对应的向量表示

为了便于实施参考起见，本发明建议用下游的任务的性能来评判节点表示的有效性。

本发明提供的一种联邦网络表示学习方法，包括以下步骤：

步骤1：节点对齐；

对于任意两个参与者P_i和P_j需要在隐私保护的条件下获取它们共享的节点。

本实施例具体的实施过程如下：

与此同时P_i和P_j不会知道对方独有的节点的任何信息。

步骤2：本地采样(local sampling)。

本地采样是对每个参与者P_i所持有的网络单独地应用随机游走策略来生成源-上下文节点对。所述的随机游走策略为以网络中的每个节点u作为起点进行次长度为l的游走，这样就会产生很多固定长度节点序列。对于每一条节点序列中的每一个节点，取其前后窗口大小为w范围内的节点v作为上下文节点，这样就能得到大量的类似于(u，v)的源-上下节点对作为本地训练样本(local sample)

实施例具体的实施过程说明如下：

随机游走是从给定的起始节点出发，当到达某一个节点时，下一步将从该节点的邻居节点随机选取一个节点作为下一步到达的节点。通过这种随机游走的策略可以产生大量的节点序列，然后对于每条序列，在其上滑动长度为2w+1的窗口，窗口中心的节点作为源节点(source node)，窗口内的其他节点作为源节点的上下文节点(context node)。这一步骤每个参与者独立在本地运行的。一个实施例可能采用的采样参数集合比如γ＝10，w＝10，l＝80，每个参与者P_i应用上述采样参数进行本地样本采样即会获得本地训练样本

步骤3：分布式采样(distributed sampling)。

分布式采样是对于任意共享部分相同节点集的两个参与者P_i和P_j所拥有的两个网络进行采样生成源-上下文节点对的过程。对于每一个相同的节点c，在参与者P_i(P_j)的网络中的节点c的w-order范围内的邻居节点集合表示为

可以与

组成源-上下文节点对。节点c的w-order范围是指离节点c最短距离不超过w跳的范围内的节点；值得注意的是，节点u的信息物理存储在参与者P_i，而节点v的信息存储在参与者P_j，所以这样的源-上下文节点对被称为分布式样本(distributed sample)

为了保护各方的数据隐私，使用随机唯一的样本ID来标识分布式样本，训练时可以通过对齐样本ID来重构真实的分布式样本。

实施例具体的实施过程说明如下：

分布式采样是由任意两个共享部分相同节点集的两个参与者协作完成的，这里说明参与者P_i和P_j的分布式采样过程，参照图2，其他的两个参与者也有着相同的步骤。

首先，在步骤1中利用RSA非对称加密算法和散列算法进行节点对齐之后P_i和P_j都会获得自己与对方共享的节点集

与此同时P_i和P_j不会知道对方独有的节点的任何信息。对于节点集

中的节点c，其在G_i和G_j中w-order范围内的邻居节点集分别记为

和

对于逻辑上的全局图G来说，如果在其上进行随机游走，则

中的节点与

中的节点可能会被处于同一节点序列中并且处于长度为2w+1的窗口内，所以

中的任意节点u与

中的任意节点v互为上下文节点。对于节点c的w-order范围内的邻居可以通过从节点c出发进行t次长度为w的随机游走(RW)近似采样取得。逻辑上分布式样本集合为

中的每个节点c的邻居节点集

和

的笛卡尔积的并集，即

然后，由于

中的任意节点u与

中的任意节点v是处于两个参与者，它们不能相互暴露自己的节点ID，所以我们新增样本ID来标识分布式样本，这样在训练的时候即可通过样本ID的对齐来实现真正分布式样本的构建。P_i将

发送给P_j，然后P_j生成

个随机唯一的样本id集合S^ji并且发送给P_i(命名为S^ij)。

最后，P_i将S^ij中的一个元素对应分配给由把

中的元素重复

次的多重集中的一个元素即可得到逻辑上分布式样本的一半(partial sample)

同理，P_j将S^ji中的一个元素对应分配给由把

中的元素重复

次的多重集中的一个元素即可得到逻辑上分布式样本的另一半(partial sample)

明显，

和S^ij之间存在一种单射关系

其中，f^ij为函数即映射关系，(u，v)为自变量。

步骤4：节点向量表示的初始化。

节点向量表示也是即将要训练的模型的可学习的参数。每个参与者P_i根据其拥有的网络的节点集V_i随机初始化它们的向量表示，即可表示为

其中，

表示参与者P_i中节点u的向量表示。

此步骤每个参与者都是独立运行的。每个参与者P_i根据其节点数量|V_i|和节点向量表示的维度d，采用均匀或者高斯分布来初始化节点的向量表示。

步骤5：本地样本训练(local sample training)。

本地样本训练是每个参与者P_i应用负采样等价后的Skip-gram模型来训练其生成的本地样本

参与者P_i使用mini-batch梯度下降优化算法在本地优化

来更新节点的表示，优化后的

能够捕获参与者P_i本地的网络拓扑结构信息。

实施例具体的实施过程说明如下：

参与者具体的实施过程：

针对步骤2中每个参与者P_i中生成的本地样本

参与者P_i可以在本地独立地使用负采样近似后的Skip-gram的目标函数进行训练，这个步骤是所有参与者并行执行的，因为训练过程只用每个参与者在本地训练。具体的，每个参与者P_i本地样本训练的目标函数如下：

其中σ(x)＝1(1+exp(-x))，

表示参与者P_i中节点u的向量表示，n_k表示第k个负上下文节点；对于每个源-上下文节点对(u，v)都会从一个给定的概率分布中采样K个负上下文节点。为了便于实施参考起见，本发明建议采样负上下文节点的概率分布为

即每个节点被采样到的概率与其度数的

次幂成正比。参与者P_i可以使用mini-batch梯度下降优化算法在本地优化

来更新节点的表示，这样获得的节点表示能够捕获参与者本地网络的拓扑结构信息，同时，P_i会将

发送给服务器。这类似横向联邦学习的本地模型训练过程。

服务器具体的实施过程：服务器接收m个参与者本地样本训练产生的损失

步骤6：分布式样本训练(distributed sample training)。

分布式样本训练是用于训练分布式样本的过程。因为分布式样本的源节点和上下文节点的信息分别存储于两个参与者，在训练的过程中需要两个参与者和一个中立的服务器互相交换中间数据，训练期间的计算是在加法同态加密(additively homomorphicencryption)下完成的，从而保证了数据隐私。

步骤3中生成的分布式样本总是由两个参与者存储的信息共同构成，其中一个参与者存有分布式样本的源节点信息，而另外一个参与者存有分布式样本的上下文节点信息，这种数据分布类似纵向联邦学习场景下的数据分布，每一方只有训练样本的一部分特征(feature-partitioned)，训练过程类似纵向联邦学习。针对分布式样本，我们提出了一种分布式样本训练的方法。此处本发明仅考虑由参与者P_i与P_j共同构成的分布式样本的训练过程，其他的任意两个参与者的组合有着相同的训练过程。

实施例具体的实施过程说明如下：

首先，根据分布式样本ID(sid)(sid为分布式样本ID的代称)对

和

进行对齐，将有着相同分布式样本ID的源节点和上下文节点组合在一起形成逻辑上的分布式样本集

本发明采用的分布式训练的目标函数如下：

其中

表示参与者P_i和P_j之间的分布式样本的损失。这里本实施例没有采用像步骤4本地样本训练中的负采样，这样不仅可以减少计算的复杂度还可以使得在计算

的时候P_i和P_j有着相同的身份(对称)。对于P_i中的一个特定节点a和P_j中的一个特定节点b而言，它们的向量的表示的梯度计算如下：

其中I(x)为指示函数，当x为真时，则I(x)＝1，否则I(x)＝0。从上述公式可以看出计算P_i或P_j中节点的梯度需要对方所拥有的节点表示。然而实际上P_i和P_j之间不能相互直接泄漏它们的原始信息给对方，所以本发明使用Paillier加法同态加密算法来完成分布式样本训练的损失和梯度的计算。

利用二阶泰勒展开式在

处对上述损失函数中的

进行近似，得到：

对上述的

应用同态加密后可以表示为：

其中[[x]]代表对x进行加密操作。同样的，梯度的计算也相应更改为：

从上述梯度计算公式可以看出P_i和P_j的作用是对称的，所以在本发明提出的分布式训练过程中P_i和P_j的身份是等价的。

除了提供网络数据的这些参与者，分布式训练还需要一个中立的服务器来协调训练过程。服务器在训练开始会将用于加密的公钥发送给每个参与者。服务器在训练过程中负责接收加密后的模型更新值和损失，解密模型更新值并发送给相应参与者。Algorithm 1描述了分布式训练中任意参与者P_i的工作流程(1-13，21-26行)和服务器的工作流程(14-20行)。

步骤7：全局聚合。

全局聚合是将任意两个参与者共享的相同节点集对应的节点向量表示上传到服务器进行聚合，然后将聚合后的节点表示推回给相应的参与者并更新对应的节点表示。训练过程总的损失(本地样本训练产生的损失和分布式样本产生的损失之和)小于指定的阈值ε则停止训练，否则转到步骤5。

实施例具体的实施过程说明如下：

参与者具体的实施过程：在经历过步骤5中的本地样本训练和步骤6中的分布式样本训练，本地网络中节点对应的节点表示能够捕获对应节点在本地网络中的拓扑结构信息和部分和其他本地网络中的节点形成的邻域关系(分布式样本所反映的结构信息)。

表示参与者P_i与其他参与者共享的相同节点集。为了合并相同节点(至少被两个参与者所共享的相同节点)在多个本地网络所捕获的信息，每个参与者P_i会将

中每个节点的向量表示(步骤6训练完成之后的值)上传到服务器用FederatedAveraging算法进行全局聚合。对于

中的每个节点a，

表示节点a的向量表示

在参与者P_i进行本地样本训练和分布式样本训练时被更新的参数之和，可由公式(9)计算得到：

其中I(x)为指示函数，当x为真时，则I(x)＝1，否则I(x)＝0；

参与者P_i将

发送到服务器([[ID(a)]]表示加密后的节点ID)。P_i接收服务器聚合后的a节点表示h_a并更新本地的a节点表示。然后，P_i接收停止信号，如果停止信号为真，将学习到的节点向量的表示存储到本地，停止运行。否则，转到步骤5。

服务器具体的实施过程：服务器可以根据接收到的上述数据根据加密后的节点ID进行对齐后根据公式(10)进行全局聚合。n表示拥有节点a的参与者的数量。h_a代表者n个参与者中节点a的向量表示

全局聚合的结果。服务器完成全局聚合后会将

广播给这n个参与者，相应的参与者会更新共享节点a的向量表示以用于下一轮的训练。本发明建议也可以使用最新的聚合算法Secure Aggregation来进行全局聚合。

服务器会对在本地样本训练和分布式样本训练期间接收到的损失求和得到总的损失

如果上一轮得到的总损失L与当前的总损失L之差小于阈值ε则服务器设置停止信号为真，并给各个参与者发送停止信号，然后停止运行。否则，设置停止信号为假，并给各个参与者发送停止信号，然后转到步骤5。

本发明提供的方法，也可以利用模块化设计技术实现为相应系统。如图3所示，可建立联邦网络表示学习系统，系统中包含网络数据加载模块、节点对齐模块、本地采样模块、分布式采样模块、本地样本训练模块、分布式样本训练模块、全局聚合模块、结束判断模块、存储模块和服务器；

网络数据加载模块，用于每个参与者P_i从磁盘里加载本地的节点和边信息到内存中形成本地网络G_i；

节点对齐模块，用于每个参与者P_i与其他任意参与者P_j进行节点对齐获得相同的节点集

本地采样模块，用于每个参与者P_i生成本地样本

分布式采样模块，用于每个参与者P_i与其他任意拥有相同节点的参与者P_j共同生成分布式样本

此模块用P_i和P_j的共享相同的节点

作为桥梁，c节点在两个参与者w-order范围内的邻居节点集互为上下文节点；在生成分布式样本的时候新增样本ID来标识分布式样本；

本地样本训练模块，用于每个参议者P_i训练本地样本

发送给服务器，将节点的向量表示输入分布式训练模块；

分布式样本训练模块，用于每个参与者P_i与其他任意拥有相同节点的参与者P_j，服务器共同训练分布式样本

此模块使用加法同态加密来完成损失

全局聚合模块，用于聚合被两个及两个以上参与者所共享的相同节点的向量表示；每个参与者P_i将

发送到服务器；服务器用公式(10)进行聚合然后将聚合后的节点向量表示传播给相应的参与者；参与者接收到聚合后的节点向量表示后更新本地相应的节点的向量表示；

结束判断模块，用于判断是否还需要进行训练；服务器接收参与者发送的本地样本训练损失和分布式样本训练的损失并计算总的损失；将上一轮的总的损失和当前总的损失相减，若差值小于给定阈值ε，则将停止信号设为真，并将其发送给各个参与者，然后停止运行；否则，将停止信号设为假，并将其发送给各个参与者，然后转到本地样本训练模块；参与者接收停止信号，若信号为真则将节点的向量表示输入到存储模块，否则转到本地样本训练模块；

存储模块，用于持久化学习的节点向量表示，以用于下游的机器学习任务。

本发明主要基于联邦学习的思想，考虑多个参与者所拥有的网络数据互补的特征和数据私密性问题，提出了一种联邦网络表示学习的表示学习方法及系统。本方法充分考虑多个参与者所拥有的网络共享部分相同的节点集的特性，通过隐私保护的上下文节点采样和联邦训练来让多个参与者在隐私保护的前提下共同协作来学习各自的节点向量表示。通过本发明，每个参与者获得的节点向量表示将比使用自己的网络单独训练更加有效。

本发明提供的方法能够用计算机软件技术实现流程。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种联邦网络表示学习方法，给定m个参与者提供的m个本地网络G₁，...，G_m和一个正整数d＜＜|V|；每个参与者P_i拥有一个本地网络G_i＝(V_i，E_i)，其中V_i代表网络的节点集，

令G＝(V，E)＝(V₁∪…∪V_m，E₁∪……∪E_m)表示所有由本地网络在逻辑上合并的全局网络；

其特征在于，所述方法包括以下步骤：

步骤1：节点对齐；

与此同时P_i和P_j不会知道对方独有的节点的任何信息；

步骤2：本地采样；

步骤3：分布式采样；

和

与

步骤4：初始化节点向量表示；

其中，

表示参与者P_i中节点u的向量表示；

步骤5：训练本地样本；

参与者P_i使用mini-batch梯度下降优化算法在本地优化

来更新节点的表示，优化后的

能够捕获参与者i本地的网络拓扑结构信息；

步骤6：训练分布式样本；

步骤7：全局聚合；

2.根据权利要求1所述的联邦网络表示学习方法，其特征在于：在步骤1中，利用RSA非对称加密算法和散列算法进行节点对齐之后P_i和P_j都会获得自己与对方共享的节点集

与此同时P_i和P_j不会知道对方独有的节点的任何信息；对于节点集

中的节点c，其在G_i和G_j中ω-order范围内的邻居节点集分别记为

和

分布式样本集合为

中的每个节点c的邻居节点集

和

的笛卡尔积的并集，即

P_i将

发送给P_j，然后P_j生成

个随机唯一的样本id集合S^ji并且发送给P_i，记为S^ij；P_i将S^ij中的一个元素对应分配给由把

中的元素重复

次的多重集中的一个元素即可得到逻辑上分布式样本的一半

其中，sid表示分布式样本的id；同理，P_j将S^ji中的一个元素对应分配给由把

中的元素重复

次的多重集中的一个元素即可得到逻辑上分布式样本的另一半

和S^ij之间存在一种单射关系

其中，f^ij为函数即映射关系，(u，v)为自变量。

3.根据权利要求1所述的联邦网络表示学习方法，其特征在于：在步骤4中，每个参与者P_i根据其节点数量|V_i|和节点向量表示的维度d，采用均匀或者高斯分布来初始化节点的向量表示。

4.根据权利要求1所述的联邦网络表示学习方法，其特征在于：在步骤5中，针对步骤2中每个参与者P_i中生成的本地样本

参与者P_i在本地独立地使用负采样近似后的Skip-gram的目标函数进行训练，这个步骤是所有参与者并行执行的；每个参与者P_i本地样本训练的目标函数如下：

其中σ(x)＝1/(1+exp(-x))，

表示参与者P_i中节点u的向量表示，n_k表示第k个负上下文节点；对于每个源-上下文节点对(u，v)都会从一个给定的概率分布中采样K个负上下文节点；参与者P_i可以使用mini-batch梯度下降优化算法来在本地优化

来更新节点的表示。

5.根据权利要求1所述的联邦网络表示学习方法，其特征在于：在步骤6中，首先，根据分布式样本ID(sid)对

和

分布式训练的目标函数如下：

其中

和

分别表示参与者P_i和P_j之间的分布式样本的损失；

对于P_i中的一个特定节点a和P_j中的一个特定节点b而言，它们的向量的表示的梯度计算如下：

其中I(x)为指示函数，当x为真时，则I(x)＝1，否则I(x)＝0；

使用Paillier加法同态加密算法来完成分布式样本训练的损失和梯度的计算；利用二阶泰勒展开式在

处对上述损失函数中的

进行近似，得到：

对上述的

应用同态加密后表示为：

其中[[x]]代表对x进行加密操作；

同样的，梯度的计算也相应更改为：

6.根据权利要求1所述的联邦网络表示学习方法，其特征在于：在步骤7中，

表示参与者P_i与其他参与者共享的相同节点集，对于

中的每个节点a，

表示节点a的向量表示

在参与者P_i进行本地样本训练和分布式样本训练时被更新的次数之和，由公式(9)计算得到：

其中I(x)为指示函数，当x为真时，则I(x)＝1，否则I(x)＝0；

参与者P_i将

发送到服务器，[[ID(a)]]表示加密后的节点ID；P_i接收服务器聚合后的a节点表示h_a并更新本地的a节点表示；然后，P_i接收停止信号，如果停止信号为真，将学习到的节点向量的表示存储到本地，停止运行；否则，转到步骤5；

服务器根据接收到的上述数据根据加密后的节点ID进行对齐后根据公式(10)进行全局聚合；

其中，n表示拥有节点a的参与者的数量，h_a代表者n个参与者中节点a的向量表示

全局聚合的结果；

服务器完成全局聚合后会将

广播给这n个参与者，相应的参与者会更新共享节点a的向量表示以用于下一轮的训练；

如果上一轮得到的总损失L与当前的总损失L之差小于阈值ε则服务器设置停止信号为真，并给各个参与者发送停止信号，然后停止运行；否则，设置停止信号为假，并给各个参与者发送停止信号，然后转到步骤5。

7.一种联邦网络表示学习系统，其特征在于：包括网络数据加载模块、节点对齐模块、本地采样模块、分布式采样模块、本地样本训练模块、分布式样本训练模块、全局聚合模块、结束判断模块、存储模块和服务器；

所述本地采样模块，用于每个参与者P_i生成本地样本

此模块用P_i和P_j的共享相同的节点

所述本地样本训练模块，用于每个参议者P_i训练本地样本

发送给服务器，将节点的向量表示输入分布式训练模块；

此模块使用加法同态加密来完成损失