CN113779615A

CN113779615A - 一种安全的去中心化的图联邦学习方法

Info

Publication number: CN113779615A
Application number: CN202111344472.5A
Authority: CN
Inventors: 裴阳; 刘洋; 毛仁歆; 徐时峰; 朱振超
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2021-12-10
Anticipated expiration: 2041-11-15
Also published as: CN113779615B

Abstract

本发明公开了一种安全的去中心化的图联邦学习方法。它包括以下步骤：S1：将所有客户端依次编号，初始化图神经网络模型参数以及环形通信拓扑图发送到所有客户端；S2：每个客户端根据环形通信拓扑图确定一级邻居客户端、二级邻居客户端，并与其对应的每个二级邻居客户端进行密钥协商生成对应的共享密钥；S3：每个客户端对本地的图神经网络模型进行训练，更新本地的图神经网络模型参数；S4：每个客户端接收一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新；S5：重复执行步骤S3‑步骤S4，直到图神经网络模型收敛。本发明能够保护各个客户端的数据隐私和安全，减轻通信瓶颈，减少通信时间。

Description

一种安全的去中心化的图联邦学习方法

技术领域

本发明涉及图联邦学习技术领域，尤其涉及一种安全的去中心化的图联邦学习方法。

背景技术

在过去的几年中，神经网络的兴起与应用成功推动了模式识别和数据挖掘的研究。传统的深度学习方法在提取欧氏空间数据特征方面取得了巨大的成功，但实际场景中的数据很多都是从非欧式空间生成的数据，深度学习方法在此类数据上的表现难以令人满意，如图网络中每个节点的邻居节点的个数是不固定的，导致一些重要操作（例如卷积）在图像上很容易计算，但不再适合直接用于图。并且深度学习基于训练数据满足独立同分布的假设之上，样本之间不存在相互依赖关系，而图结构数据最大的特点便是不同节点之间存在许多相互依赖联系，这就导致了深度学习无法挖掘图数据的内在联系。针对于此类数据，图神经网络技术应运而生。此外，在数据日益增加，数据联系日益紧密的今天，由于用户隐私和法律法规等问题，许多数据之间不能互通，产生了许多“数据孤岛”。联邦学习（Federated Learning）这一概念由Google在2017年提出，旨在于解决跨设备之间的联合建模问题，该方案为上述问题提供了一种可行的解法。

目前的图联邦学习方案大多是基于Google提出的FedAvg算法上实现，系统结构由一个中心服务器和若干个客户端组成，中心服务器提供全局共享的模型，各客户端下载模型并在本地数据集上训练，更新本地模型参数，然后将更新后的模型参数发送给中心服务器聚合，中心服务器聚合后得到本次迭代的模型更新值，进行全局模型参数更新；以此循环。上述方案在全局模型聚合阶段客户端并未对发送到中心服务器的本地模型参数进行保护，以防止可能存在的信息泄漏；其次，负责聚合模型信息的中心服务器端要求是可信的中立的第三方机构，对于机构之间建模，这种可信的中立的第三方是很难保证的；最后，这种中心化的架构对中心服务器端的IO能力提出了很高的要求，所有客户端都必须等待全部客户端将模型参数上传中心服务器成功，然后中心服务器将更新后的全局模型参数分发至客户端，客户端才能进行下一次循环，这无疑是十分消耗时间的。

发明内容

本发明为了解决上述技术问题，提供了一种安全的去中心化的图联邦学习方法，其采用了去中心化的环形拓扑结构，移除了收集客户端模型信息的中心服务器节点，模型参数的通信进行了加密，保护了各个客户端的数据隐私和安全，减轻了通信瓶颈，减少了通信时间。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种安全的去中心化的图联邦学习方法，包括以下步骤：

S1：将参与图联邦学习的所有n个客户端依次编号为1、2、3……n，其中一个客户端作为训练发起方初始化图神经网络模型参数以及环形通信拓扑图，并将其发送到其他客户端；

S2：每个客户端根据环形通信拓扑图确定能与自身通信的一级邻居客户端以及能与一级邻居客户端通信的二级邻居客户端，每个客户端与其对应的每个二级邻居客户端进行密钥协商生成对应的共享密钥；

S3：每个客户端对本地的图神经网络模型进行训练，更新本地的图神经网络模型参数；

S4：每个客户端将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到一级邻居客户端，同时接收一级邻居客户端发送的图神经网络模型参数，根据一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新；

S5：重复执行步骤S3-步骤S4，直到所有客户端本地的图神经网络模型收敛。

在本方案中，参与图联邦学习的所有n个客户端根据环形通信拓扑图组成环形拓扑结构，n≥3，每个客户端都有两个一级邻居客户端，每个一级邻居客户端都对应有一个能够与自身通信的二级邻居客户端，即每个客户端都有两个二级邻居客户端。每个客户端都与它的每个二级邻居客户端进行密钥协商生成对应的共享密钥，即每个客户端会生成两个共享密钥，分别与两个二级邻居客户端对应。每个客户端要将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到两个一级邻居客户端，同时接收这两个一级邻居客户端发送的图神经网络模型参数，根据这两个一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新。所有n个客户端组成环形拓扑结构，每个客户端每次迭代后都可以学习到邻居客户端的图神经网络模型参数，假设离客户端g最远的客户端需要经过D个邻居客户端到达，那么经过D+1次迭代，客户端g就能学习到所有客户端的图神经网络模型参数。

本方案中每个客户端通过去中心化的安全聚合协议对模型参数的发送进行加密，移除了收集客户端模型信息的中心服务器节点，保护了客户端的数据隐私和安全，每个客户端都根据两个一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新，由于所有客户端组成环形拓扑结构，所以本方案的通信负载均衡，其他图联邦学习方案中是一个服务器对多个客户端通信，通信时服务器端通信IO压力很大，本方案中将通信平均到每个客户端，减轻了通信瓶颈，减少了通信时间。

作为优选，所述步骤S1中的环形通信拓扑图为矩阵A，

，

，

，

，1≤i≤n，1≤j≤n，

当i=j时，A_ij≠0，

其中，A_ij表示编号为i的客户端与编号为j的客户端之间的权重系数，如果A_ij≠0表示编号为i的客户端与编号为j的客户端能够通信，如果A_ij=0表示编号为i的客户端与编号为j的客户端不能够通信。

矩阵A是一个对称的矩阵。A_ii表示编号为i的客户端自身的权重系数。

表示矩阵A的每一行的和为1。

作为优选，所述步骤S2中某个编号为u的客户端与其对应的一个编号为v的二级邻居客户端进行密钥协商生成对应的共享密钥的方法包括以下步骤，1≤u≤n，1≤v≤n：

N1：编号为u的客户端与编号为v的二级邻居客户端根据预设的安全参数k，并使用KA.param算法生成Diffle-Hellman协议的公共参数pp，

；

N2：编号为u的客户端使用KA.gen算法和公共参数pp生成公钥私钥对

，

，将公钥

发送给编号为v的二级邻居客户端，

编号为v的二级邻居客户端使用KA.gen算法和公共参数pp生成公钥私钥对

，

，将公钥

发送给编号为u的客户端；

N3：编号为u的客户端根据KA.agree算法、私钥

、公钥

计算出共享密钥s_uv，

，编号为v的二级邻居客户端根据KA.agree算法、私钥

、公钥

计算出共享密钥s_vu，

，由于公钥私钥对

与公钥私钥对

都由同一个公共参数pp生成，所以s_uv=s_vu。

作为优选，所述步骤S4中客户端将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到某个一级邻居客户端的方法包括以下步骤：

客户端找出能与该一级邻居客户端通信的二级邻居客户端，并找出与该二级邻居客户端进行密钥协商生成的共享密钥，根据该共享密钥生成对应的加密噪声向量，将本地的图神经网络模型参数乘以该客户端与该一级邻居客户端之间的权重系数后再加上该加密噪声向量生成加密图神经网络模型参数，将该加密图神经网络模型参数发送到该一级邻居客户端。

作为优选，某个编号为u的客户端根据与编号为v的二级邻居客户端协商生成的共享密钥生成对应的加密噪声向量的方法包括以下步骤，1≤u≤n，1≤v≤n：

编号为u的客户端将共享密钥s_uv输入伪随机数生成器PRG，生成加密噪声向量p_uv，

，其中，当u＞v时，

，当u＜v时，

，即p_uv+p_vu=0。

某个编号为u的客户端将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到编号为w的一级邻居客户端的方法包括以下步骤，1≤w≤n：

编号为u的客户端找出能与编号为w的一级邻居客户端通信的编号为f的二级邻居客户端，1≤f≤n，找出与编号为f的二级邻居客户端进行密钥协商生成的加密噪声向量p_uf，编号为u的客户端将本地的图神经网络模型参数x_u乘以权重系数A_uw，再加上该加密噪声向量p_uf生成加密图神经网络模型参数

，

，并将其发送给编号为w 的一级邻居客户端。

作为优选，所述步骤S4中客户端接收一级邻居客户端发送的图神经网络模型参数，根据一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新的方法包括以下步骤：

客户端接收每个一级邻居客户端发送的加密图神经网络模型参数，将本地的图神经网络模型参数乘以自身的权重系数后再与所有接收到的加密图神经网络模型参数相加求和，得到新的图神经网络模型参数，并使用该新的图神经网络模型参数对本地的图神经网络模型进行更新。

某个编号为u的客户端接收编号为w的一级邻居客户端、编号为z的一级邻居客户端发送的图神经网络模型参数，根据编号为w的一级邻居客户端、编号为z的一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新的方法包括以下步骤，1≤z≤n：

编号为u的客户端接收到编号为w的一级邻居客户端发送的加密图神经网络模型参数

，接收到编号为z的一级邻居客户端发送的加密图神经网络模型参数

，编号为u的客户端计算出新的图神经网络模型参数

，由于p_wz+p_zw=0，所以

。

这里编号为u的客户端分别能够与编号为w的客户端、编号为z的客户端通信，所以编号为u的客户端也是编号为w的客户端的一级邻居客户端，编号为z的客户端是能够与编号为u的一级邻居客户端通信的二级邻居客户端，所以编号为w的一级邻居客户端发送给编号为u的客户端的加密图神经网络模型参数为

，同理对于编号为z的客户端来说，编号为w的客户端是能够与编号为u的一级邻居客户端通信的二级邻居客户端。

本发明的有益效果是：（1）采用了去中心化的环形拓扑结构，移除了收集客户端模型信息的中心服务器节点，模型参数的通信进行了加密，保护了各个客户端的数据隐私和安全。（2）将通信平均到每个客户端，减轻了通信瓶颈，减少了通信时间。

附图说明

图1是实施例的流程图；

图2是一种环形拓扑结构的结构示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种安全的去中心化的图联邦学习方法，如图1所示，包括以下步骤：

环形通信拓扑图为矩阵A，

，

，

，

，1≤i≤n，1≤j≤n，

当i=j时，A_ij≠0，

其中，A_ij表示编号为i的客户端与编号为j的客户端之间的权重系数，如果A_ij≠0 表示编号为i的客户端与编号为j的客户端能够通信，如果A_ij=0表示编号为i的客户端与编号为j的客户端不能够通信，矩阵A是一个对称的矩阵，A_ii表示编号为i的客户端自身的权重系数，

表示矩阵A的每一行的和为1；

某个编号为u的客户端与其对应的一个编号为v的二级邻居客户端进行密钥协商生成对应的共享密钥的方法包括以下步骤，1≤u≤n，1≤v≤n：

N1：编号为u的客户端与编号为v的二级邻居客户端根据预设的安全参数k（安全参数k是所有客户端都共同持有，并且保持一致），并使用KA.param算法生成Diffle-Hellman协议的公共参数pp，

；

，

，将公钥

发送给编号为v的二级邻居客户端，

，

，将公钥

发送给编号为u的客户端；

N3：编号为u的客户端根据KA.agree算法、私钥

、公钥

计算出共享密钥s_uv，

，编号为v的二级邻居客户端根据KA.agree算法、私钥

、公钥

计算出共享密钥s_vu，

，由于公钥私钥对

与公钥私钥对

都由同一个公共参数pp生成，所以s_uv=s_vu；

客户端将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到某个一级邻居客户端的方法包括以下步骤：

客户端找出能与该一级邻居客户端通信的二级邻居客户端，并找出与该二级邻居客户端进行密钥协商生成的共享密钥，根据该共享密钥生成对应的加密噪声向量，将本地的图神经网络模型参数乘以该客户端与该一级邻居客户端之间的权重系数后再加上该加密噪声向量生成加密图神经网络模型参数，将该加密图神经网络模型参数发送到该一级邻居客户端；

某个编号为u的客户端根据与编号为v的二级邻居客户端协商生成的共享密钥生成对应的加密噪声向量的方法包括以下步骤，1≤u≤n，1≤v≤n：

，其中，当u＞v时，

，当u＜v时，

，由于s_uv=s_vu，

，所以p_uv+p_vu=0；

客户端接收一级邻居客户端发送的图神经网络模型参数，根据一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新的方法包括以下步骤：

客户端接收每个一级邻居客户端发送的加密图神经网络模型参数，将本地的图神经网络模型参数乘以自身的权重系数后再与所有接收到的加密图神经网络模型参数相加求和，得到新的图神经网络模型参数，并使用该新的图神经网络模型参数对本地的图神经网络模型进行更新；

S5：重复执行步骤S3-步骤S4，直到作为训练发起方的客户端发现本地的图神经网络模型收敛，之后作为训练发起方的客户端发送停止信息给其他客户端。

在本方案中，整个全局图为G=(V,E)，参与图联邦学习的每个客户端都持有全局图的部分子图，编号为i的客户端拥有的子图为

，每个客户端在本地子图上进行图神经网络模型训练，并更新本地图神经网络模型参数。

参与图联邦学习的所有n个客户端根据环形通信拓扑图组成环形拓扑结构，n≥3，每个客户端都有两个一级邻居客户端，每个一级邻居客户端都对应有一个能够与自身通信的二级邻居客户端，即每个客户端都有两个二级邻居客户端。每个客户端都与它的每个二级邻居客户端进行密钥协商生成对应的共享密钥，即每个客户端会生成两个共享密钥，分别与两个二级邻居客户端对应。每个客户端要将本地的图神经网络模型参数通过去中心化的安全聚合协议发送到两个一级邻居客户端，同时接收这两个一级邻居客户端发送的图神经网络模型参数，根据这两个一级邻居客户端发送的图神经网络模型参数对本地的图神经网络模型进行更新。重复执行上述步骤直到作为训练发起方的客户端发现本地的图神经网络模型收敛，作为训练发起方的客户端发现本地的图神经网络模型收敛后发送停止信息给其他客户端，参与图联邦学习的所有n个客户端停止图联邦学习。

所有n个客户端组成环形拓扑结构，每个客户端每次迭代后都可以学习到邻居客户端的图神经网络模型参数，假设离客户端g最远的客户端需要经过D个邻居客户端到达，那么经过D+1次迭代，客户端g就能学习到所有客户端的图神经网络模型参数。由于所有n个客户端组成环形拓扑结构，每个客户端离最远的客户端的距离是一样的，所以当作为训练发起方的客户端发现本地的图神经网络模型收敛时，所有客户端本地的图神经网络模型都已经收敛。

，

，并将其发送给编号为w 的一级邻居客户端。

，编号为u的客户端计算出新的图神经网络模型参数

，由于p_wz+p_zw=0，所以

。由于

，

，所以

。

这里编号为u的客户端分别能够与编号为w的客户端、编号为z的客户端通信，所以对于编号为w的客户端来说：编号为u的客户端也是编号为w的客户端的一级邻居客户端，编号为z的客户端是能够与编号为u的一级邻居客户端通信的二级邻居客户端，所以编号为w 的一级邻居客户端发送给编号为u的客户端的加密图神经网络模型参数为

；同理对于编号为z的客户端来说：编号为w的客户端是能够与编号为 u的一级邻居客户端通信的二级邻居客户端。

例如：如图2所示，参与图联邦学习的客户端有4个，依次编号为1、2、3、4，环形通信拓扑图为矩阵A，

，

客户端1的一级邻居客户端是客户端2、客户端4，客户端3是能与一级邻居客户端2通信的二级邻居客户端，客户端3也是能与一级邻居客户端4通信的二级邻居客户端，客户端1与客户端3进行密钥协商，客户端2与客户端4进行密钥协商。

客户端1向一级邻居客户端2发送的加密图神经网络模型参数为

，向一级邻居客户端4发送的加密图神经网络模型参数为

，客户端1接收到一级邻居客户端2发送的加密图神经网络模型参数为

，客户端1接收到一级邻居客户端4发送的加密图神经网络模型参数为

，客户端1计算出新的图神经网络模型参数

，使用该新的图神经网络模型参数对本地的图神经网络模型进行更新。

4个客户端组成环形拓扑结构，每个客户端每次迭代后都可以学习到邻居客户端的图神经网络模型参数，离每个客户端最远的客户端都需要经过1个邻居到达，那么经过2次迭代，每个客户端就能学习到所有客户端的图神经网络模型参数。