CN115391576A

CN115391576A - 一种基于聚类的联邦图学习方法及系统

Info

Publication number: CN115391576A
Application number: CN202210836422.7A
Authority: CN
Inventors: 俞山青; 金士博; 章诗涵; 徐少聪; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-25

Abstract

一种基于聚类的联邦图学习方法，基于聚类聚合算法提升数据分布不均匀的图网络参与联邦学习获得的全局模型性能，所述方法包括步骤：S1：客户端通过各自的数据收集方式获取图数据，构建图网络并计算各类标签的结构差异性E，上传至服务器；S2：拥有不同分布数据的客户端在本地进行训练，直至模型收敛，以获得输出层的模型参数a_out并上传至服务器。服服务器将客户端上传的两个参数处理后作为划分客户端到不同的聚类簇的依据；S3:各客户端本地训练至一定批次时，上传其模型参数至服务器。服务器通过簇内聚合与簇间聚合更新全局模型参数并发送给各个客户端，客户端更新模型继续下一批次的训练，直至模型收敛。本发明能更好地完成节点分类，链路预测任务。

Description

一种基于聚类的联邦图学习方法及系统

技术领域

本发明涉及联邦图学习领域，更具体地说，涉及一种基于聚类的联邦图学习方法及系统。

背景技术

随着信息时代的到来，类似于社交网络的图数据以指数形式爆炸增长。图神经网络可以处理图上各种复杂的任务，例如节点分类、图分类、链路预测等。其优秀的性能让它得以广泛应用于各种现实场景，例如语义分割,推荐系统,文本分类,社会影响预测和大脑神经预测。和其他深度学习模型一样，图神经网络优越的性能也需要依赖于大量数据的训练。在单个数据持有方数据不足的情况下，集合多方数据对算法进行训练，能提高图神经网络的效果，但考虑到数据安全和隐私保护的问题，往往难以实现。因此，如何协调多方数据共同完成任务的同时又能保护数据隐私变得尤为重要。

在这种背景下，联邦学习应运而生，旨在通过共享梯度参数训练一个共同的全局模型以实现数据不出本地，从而实现数据隐私的保护。联邦学习在图像领域已经取得了不错的成果，能够广泛应用于目标检测、图像分类等领域中，但在图网络领域还处在不成熟的阶段。联邦学习使得边缘设备上的数据变得有价值，但边缘设备的数据之间往往分布差异较大，联邦平均聚合算法在该情况下表现不佳。

通过聚类将数据分布不同的图网络分配到不同的簇再进行聚合，可以有效地降低数据分布差异带来的影响的同时，保留联邦学习保护隐私的特点。并提高了全局模型的性能，使其能够优化推荐系统的准确率，跨机构检测金融犯罪行为等。

发明内容

本发明的目的在于提供了一种基于聚类的联邦图学习方法及系统。本发明结合了聚类和联邦图学习，能够有效降低由数据分布差异较大导致的对全局模型性能的影响。

本发明是针对非独立同分布的图网络数据，提供了一种联邦聚合的新思路。不再局限于传统的联邦平均聚合的算法，提出了一种基于聚类的联邦聚合算法，利用客户端本地训练得到的输出层的权重参数，发掘图网络隐藏的结构信息，与标签的结构性差异指标一起计算处理后，作为客户端聚类的依据。再进行分步聚合：簇内聚合与簇间聚合。

本发明的一种基于聚类的联邦图学习方法，包括如下步骤：

S1：客户端通过各自的数据收集方式获取图数据，构建图网络并计算各类标签的结构差异性E，上传至服务器；

S2：客户端利用图网络单独训练至模型收敛，获得输出层的模型参数a_out上传至服务器。服务器将客户端上传的两个参数处理后作为划分客户端到不同的聚类簇的依据；

S3：各客户端本地训练至一定批次时，上传其模型参数至服务器。服务器通过簇内聚合与簇间聚合更新全局模型参数并发送给各个客户端，客户端更新模型继续下一批次的训练，直至模型收敛。

优选地，所述步骤S1具体包括：

客户端计算图数据的各类标签的结构差异性e_l，具体公式如下：

其中，N_l表示图网络中某一类标签的节点数量，该标签的节点根据邻居节点数量被分为m类，第i类中的节点数量为k_i。最终获得一个L维向量E＝[e₁,e₂,e_l,…,e_L]并上传至服务器。

优选地，所述步骤S2具体包括：

S2.1：客户端均采用三层多头图注意力网络模型(GAT)进行训练，前两层用于压缩节点特征，最后一层为输出层；

S2.2：基于步骤S2.1的模型结构训练至收敛获得输出层注意力系数a_out上传至服务器。服务器对各客户端的a_out进行归一化后，再通过主成分分析法(PCA)将a_out的进行降维得到

具体公式如下：

其中μ为各客户端的a_out的平均值，σ为标准差。客户端

的维度由客户端数量确定。一般来说，客户端数量越多，所划分的聚类簇也越多。

u表示客户端p降维后的维度。服务器采用基于距离的聚类方法实现客户端的划分，具体公式如下：

其中，

p,v∈q且p≠v，q表示参与联邦学习的客户端的集合。flag_p,v表示客户端p,v之间的聚类信号，当flag_p,v＝1时表示两个客户端可以被分至同一个簇内，反之不能；δ为聚类的阈值,可根据具体情况调整。

优选地，所述步骤S3具体包括：

参与联邦学习的客户端在设定的训练批次内基于同态加密的方式加密上传各层GAT的模型参数W,a至服务器；服务器对各个聚类簇内的客户端进行聚合，获得各个簇的模型参数后再进行簇间聚合，最终获得全局模型参数。具体公式如下：

其中,

表示簇c内的客户端i在第t批次的权重参数和注意力系数，Q_c表示簇c内客户端的数量，r表示簇的数量。服务器将全局模型参数传回给各个客户端，客户端接收并解密全局模型参数。t＝t+2,使用该参数重复上述步骤，直至模型收敛。

一种基于聚类的联邦图学习系统，其特征在于：包括依次连接的参数获取与处理模块、聚类模块、联邦聚合模块；

所述参数获取与处理模块，用于收集并处理用作聚类的参数，具体包括：客户端各标签的结构性差异指标计算，客户端本地训练至收敛的模型输出层注意力系数的获取；

所述聚类模块，用于将各客户端上传的输出层注意力系数与标签的结构差异性指标进行计算处理，以此对拥有不同数据分布的客户端进行聚类。

所述联邦聚合模块，各客户端在训练至第t批次时，上传其各层的模型参数。服务器通过簇内聚合与簇间的聚合获得全局模型重新发送给各个客户端。客户端更新模型继续下一批次的训练，直至模型收敛。

本发明充分全面地捕捉标签分布不均匀的客户端在网络结构上的相似性，通过将各个客户端分配到不同的簇内分步聚合，提升了全局模型的性能，使其能更好地完成节点分类，链路预测等任务。

本发明的优点是，与现有技术相比，本申请的技术方案的有益效果是：利用本地训练至收敛的模型输出层注意力系数与标签的结构差异指标，发掘了数据分布不均的各客户端图网络之间隐藏的结构相似性，从而将各个客户端分配到不同的簇内分步聚合，提高了全局模型的性能，使其能更好地完成节点分类，链路预测等任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的框架图；

图2为本发明的总流程图；

图3为本发明的系统结构示意图；

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本发明中所述的“份”如无特别说明，均按质量份计。

应用本发明提供一种基于聚类的联邦图学习方法的用户音乐推荐方法，如图1所示，其步骤包括：

步骤S1：数据的获取与处理，并获取标签差异性E；

具体为：在一种推荐系统的应用场景下，以音乐流媒体平台LastFM为例，联邦学习的任务为目标用户音乐喜好的进行分类，从而推荐对应类型的音乐，属于节点分类任务。各客户端以各种方式获取LastFM音乐流媒体平台相关数据，提取其中的用户作为节点集合V，提取用户之间的友谊关系作为连边集合E，提取用户喜好的关键词作为特征X，并删除其中的孤立节点，构建图网络G(V,E,X)。由于获取数据的方式不尽不同，各客户端的节点往往重合度不高，且数据分布差异较大。此处选取十个具有一定数据量的客户端参与联邦学习，十个客户端内共有18种标签类型，各客户端各标签的节点数量如下表所示：

此后，客户端计算各自标签的结构差异性e_l，具体公式如下：

其中，N_l表示图网络中某一类标签的节点数量，该标签的节点根据邻居节点数量被分为m类，第i类中的节点数量为k_i。最终获得一个18维向量E＝[e₁,e₂,…,e₁₈]并上传至服务器。

步骤S2：客户端本地训练至收敛，获取输出层注意力系数a_out；

客户端将自身收集的图网络节点的特征输入到图注意力网络(GAT)中训练，训练过程中模型的参数不断通过反向传播更新。直至模型收敛，获取输出层的注意力系数a_out并上传。服务器对各客户端输出层的注意力系数a_out先进行z-score归一化，再进行主成分分析法(PCA)将a_out的进行降维得到

具体公式如下：

其中μ为各客户端的a_out的平均值，σ为标准差，PCA选择降至二维。对于客户端p而言，

然后计算客户端之间的聚类信号flag_p,v，划分客户端至不同的簇内，具体公式如下所示：

其中，d_p＝[d_p,1,d_p,2]，p,v∈q且p≠v，q表示参与联邦学习的客户端的数量。flag_p,v表示客户端p,v之间的聚类信号，当flag_p,v＝1时表示两个客户端可以被分至同一个簇内，根据计算可得，参与联邦学习的十个客户端将被分至四个聚类簇内。

步骤S3：参与联邦学习的客户端在设定的训练批次内基于同态加密的方式加密上传各层GAT的模型参数W,a至服务器；服务器对各个聚类簇内的客户端进行聚合，获得各个簇的模型参数后再进行簇间聚合，最终获得全局模型参数。具体公式如下：

其中,

表示簇c内的客户端i在第t批次的权重参数和注意力系数，Q_c表示簇c内客户端的数量，r表示簇的数量，此时r＝4。服务器将全局模型参数传回给各个客户端，客户端接收并解密全局模型参数。t＝t+2,使用该参数重复上述步骤，直至模型收敛。

不同聚合算法下的LastFM音乐流媒体平台上的节点分类准确率如下表所示：

客户端	单独训练	联邦平均聚合	聚类聚合
				1	0.3194	0.5290	0.5516
2	0.2790	0.5403	0.5597
				3	0.3226	0.5613	0.5710
4	0.3113	0.5468	0.5694
				5	0.4645	0.5339	0.5435
6	0.3484	0.5419	0.5468
				7	0.2694	0.5097	0.5290
8	0.4613	0.5242	0.5516
				9	0.3452	0.5500	0.5645
10	0.4065	0.5323	0.5629
				平均	0.3528	0.5369	0.5550

从结果可以看出，本公开提供的联邦聚合方法，对于数据分布不均匀的客户端之间的聚合的场景，能够为用户更精确地分类，从而实现更为精准地音乐喜好推荐。

步骤S4：输入新增用户特征至模型，实现音乐推荐；

当客户端获取新的用户网络或是在原有网络的基础上增加新的节点时，将新构建的图网络输入至训练好的模型中，获得新增节点的分类结果，进而推荐相对应类型的音乐。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。