CN115391576A - 一种基于聚类的联邦图学习方法及系统 - Google Patents
一种基于聚类的联邦图学习方法及系统 Download PDFInfo
- Publication number
- CN115391576A CN115391576A CN202210836422.7A CN202210836422A CN115391576A CN 115391576 A CN115391576 A CN 115391576A CN 202210836422 A CN202210836422 A CN 202210836422A CN 115391576 A CN115391576 A CN 115391576A
- Authority
- CN
- China
- Prior art keywords
- client
- server
- cluster
- model
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
一种基于聚类的联邦图学习方法,基于聚类聚合算法提升数据分布不均匀的图网络参与联邦学习获得的全局模型性能,所述方法包括步骤:S1:客户端通过各自的数据收集方式获取图数据,构建图网络并计算各类标签的结构差异性E,上传至服务器;S2:拥有不同分布数据的客户端在本地进行训练,直至模型收敛,以获得输出层的模型参数aout并上传至服务器。服服务器将客户端上传的两个参数处理后作为划分客户端到不同的聚类簇的依据;S3:各客户端本地训练至一定批次时,上传其模型参数至服务器。服务器通过簇内聚合与簇间聚合更新全局模型参数并发送给各个客户端,客户端更新模型继续下一批次的训练,直至模型收敛。本发明能更好地完成节点分类,链路预测任务。
Description
技术领域
本发明涉及联邦图学习领域,更具体地说,涉及一种基于聚类的联邦图学习方法及系统。
背景技术
随着信息时代的到来,类似于社交网络的图数据以指数形式爆炸增长。图神经网络可以处理图上各种复杂的任务,例如节点分类、图分类、链路预测等。其优秀的性能让它得以广泛应用于各种现实场景,例如语义分割,推荐系统,文本分类,社会影响预测和大脑神经预测。和其他深度学习模型一样,图神经网络优越的性能也需要依赖于大量数据的训练。在单个数据持有方数据不足的情况下,集合多方数据对算法进行训练,能提高图神经网络的效果,但考虑到数据安全和隐私保护的问题,往往难以实现。因此,如何协调多方数据共同完成任务的同时又能保护数据隐私变得尤为重要。
在这种背景下,联邦学习应运而生,旨在通过共享梯度参数训练一个共同的全局模型以实现数据不出本地,从而实现数据隐私的保护。联邦学习在图像领域已经取得了不错的成果,能够广泛应用于目标检测、图像分类等领域中,但在图网络领域还处在不成熟的阶段。联邦学习使得边缘设备上的数据变得有价值,但边缘设备的数据之间往往分布差异较大,联邦平均聚合算法在该情况下表现不佳。
通过聚类将数据分布不同的图网络分配到不同的簇再进行聚合,可以有效地降低数据分布差异带来的影响的同时,保留联邦学习保护隐私的特点。并提高了全局模型的性能,使其能够优化推荐系统的准确率,跨机构检测金融犯罪行为等。
发明内容
本发明的目的在于提供了一种基于聚类的联邦图学习方法及系统。本发明结合了聚类和联邦图学习,能够有效降低由数据分布差异较大导致的对全局模型性能的影响。
本发明是针对非独立同分布的图网络数据,提供了一种联邦聚合的新思路。不再局限于传统的联邦平均聚合的算法,提出了一种基于聚类的联邦聚合算法,利用客户端本地训练得到的输出层的权重参数,发掘图网络隐藏的结构信息,与标签的结构性差异指标一起计算处理后,作为客户端聚类的依据。再进行分步聚合:簇内聚合与簇间聚合。
本发明的一种基于聚类的联邦图学习方法,包括如下步骤:
S1:客户端通过各自的数据收集方式获取图数据,构建图网络并计算各类标签的结构差异性E,上传至服务器;
S2:客户端利用图网络单独训练至模型收敛,获得输出层的模型参数aout上传至服务器。服务器将客户端上传的两个参数处理后作为划分客户端到不同的聚类簇的依据;
S3:各客户端本地训练至一定批次时,上传其模型参数至服务器。服务器通过簇内聚合与簇间聚合更新全局模型参数并发送给各个客户端,客户端更新模型继续下一批次的训练,直至模型收敛。
优选地,所述步骤S1具体包括:
客户端计算图数据的各类标签的结构差异性el,具体公式如下:
其中,Nl表示图网络中某一类标签的节点数量,该标签的节点根据邻居节点数量被分为m类,第i类中的节点数量为ki。最终获得一个L维向量E=[e1,e2,el,…,eL]并上传至服务器。
优选地,所述步骤S2具体包括:
S2.1:客户端均采用三层多头图注意力网络模型(GAT)进行训练,前两层用于压缩节点特征,最后一层为输出层;
其中μ为各客户端的aout的平均值,σ为标准差。客户端的维度由客户端数量确定。一般来说,客户端数量越多,所划分的聚类簇也越多。u表示客户端p降维后的维度。服务器采用基于距离的聚类方法实现客户端的划分,具体公式如下:
其中,p,v∈q且p≠v,q表示参与联邦学习的客户端的集合。flagp,v表示客户端p,v之间的聚类信号,当flagp,v=1时表示两个客户端可以被分至同一个簇内,反之不能;δ为聚类的阈值,可根据具体情况调整。
优选地,所述步骤S3具体包括:
参与联邦学习的客户端在设定的训练批次内基于同态加密的方式加密上传各层GAT的模型参数W,a至服务器;服务器对各个聚类簇内的客户端进行聚合,获得各个簇的模型参数后再进行簇间聚合,最终获得全局模型参数。具体公式如下:
其中,表示簇c内的客户端i在第t批次的权重参数和注意力系数,Qc表示簇c内客户端的数量,r表示簇的数量。服务器将全局模型参数传回给各个客户端,客户端接收并解密全局模型参数。t=t+2,使用该参数重复上述步骤,直至模型收敛。
一种基于聚类的联邦图学习系统,其特征在于:包括依次连接的参数获取与处理模块、聚类模块、联邦聚合模块;
所述参数获取与处理模块,用于收集并处理用作聚类的参数,具体包括:客户端各标签的结构性差异指标计算,客户端本地训练至收敛的模型输出层注意力系数的获取;
所述聚类模块,用于将各客户端上传的输出层注意力系数与标签的结构差异性指标进行计算处理,以此对拥有不同数据分布的客户端进行聚类。
所述联邦聚合模块,各客户端在训练至第t批次时,上传其各层的模型参数。服务器通过簇内聚合与簇间的聚合获得全局模型重新发送给各个客户端。客户端更新模型继续下一批次的训练,直至模型收敛。
本发明充分全面地捕捉标签分布不均匀的客户端在网络结构上的相似性,通过将各个客户端分配到不同的簇内分步聚合,提升了全局模型的性能,使其能更好地完成节点分类,链路预测等任务。
本发明的优点是,与现有技术相比,本申请的技术方案的有益效果是:利用本地训练至收敛的模型输出层注意力系数与标签的结构差异指标,发掘了数据分布不均的各客户端图网络之间隐藏的结构相似性,从而将各个客户端分配到不同的簇内分步聚合,提高了全局模型的性能,使其能更好地完成节点分类,链路预测等任务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的框架图;
图2为本发明的总流程图;
图3为本发明的系统结构示意图;
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本发明中所述的“份”如无特别说明,均按质量份计。
应用本发明提供一种基于聚类的联邦图学习方法的用户音乐推荐方法,如图1所示,其步骤包括:
步骤S1:数据的获取与处理,并获取标签差异性E;
具体为:在一种推荐系统的应用场景下,以音乐流媒体平台LastFM为例,联邦学习的任务为目标用户音乐喜好的进行分类,从而推荐对应类型的音乐,属于节点分类任务。各客户端以各种方式获取LastFM音乐流媒体平台相关数据,提取其中的用户作为节点集合V,提取用户之间的友谊关系作为连边集合E,提取用户喜好的关键词作为特征X,并删除其中的孤立节点,构建图网络G(V,E,X)。由于获取数据的方式不尽不同,各客户端的节点往往重合度不高,且数据分布差异较大。此处选取十个具有一定数据量的客户端参与联邦学习,十个客户端内共有18种标签类型,各客户端各标签的节点数量如下表所示:
此后,客户端计算各自标签的结构差异性el,具体公式如下:
其中,Nl表示图网络中某一类标签的节点数量,该标签的节点根据邻居节点数量被分为m类,第i类中的节点数量为ki。最终获得一个18维向量E=[e1,e2,…,e18]并上传至服务器。
步骤S2:客户端本地训练至收敛,获取输出层注意力系数aout;
客户端将自身收集的图网络节点的特征输入到图注意力网络(GAT)中训练,训练过程中模型的参数不断通过反向传播更新。直至模型收敛,获取输出层的注意力系数aout并上传。服务器对各客户端输出层的注意力系数aout先进行z-score归一化,再进行主成分分析法(PCA)将aout的进行降维得到具体公式如下:
其中,dp=[dp,1,dp,2],p,v∈q且p≠v,q表示参与联邦学习的客户端的数量。flagp,v表示客户端p,v之间的聚类信号,当flagp,v=1时表示两个客户端可以被分至同一个簇内,根据计算可得,参与联邦学习的十个客户端将被分至四个聚类簇内。
步骤S3:参与联邦学习的客户端在设定的训练批次内基于同态加密的方式加密上传各层GAT的模型参数W,a至服务器;服务器对各个聚类簇内的客户端进行聚合,获得各个簇的模型参数后再进行簇间聚合,最终获得全局模型参数。具体公式如下:
其中,表示簇c内的客户端i在第t批次的权重参数和注意力系数,Qc表示簇c内客户端的数量,r表示簇的数量,此时r=4。服务器将全局模型参数传回给各个客户端,客户端接收并解密全局模型参数。t=t+2,使用该参数重复上述步骤,直至模型收敛。
不同聚合算法下的LastFM音乐流媒体平台上的节点分类准确率如下表所示:
客户端 | 单独训练 | 联邦平均聚合 | 聚类聚合 |
1 | 0.3194 | 0.5290 | 0.5516 |
2 | 0.2790 | 0.5403 | 0.5597 |
3 | 0.3226 | 0.5613 | 0.5710 |
4 | 0.3113 | 0.5468 | 0.5694 |
5 | 0.4645 | 0.5339 | 0.5435 |
6 | 0.3484 | 0.5419 | 0.5468 |
7 | 0.2694 | 0.5097 | 0.5290 |
8 | 0.4613 | 0.5242 | 0.5516 |
9 | 0.3452 | 0.5500 | 0.5645 |
10 | 0.4065 | 0.5323 | 0.5629 |
平均 | 0.3528 | 0.5369 | 0.5550 |
从结果可以看出,本公开提供的联邦聚合方法,对于数据分布不均匀的客户端之间的聚合的场景,能够为用户更精确地分类,从而实现更为精准地音乐喜好推荐。
步骤S4:输入新增用户特征至模型,实现音乐推荐;
当客户端获取新的用户网络或是在原有网络的基础上增加新的节点时,将新构建的图网络输入至训练好的模型中,获得新增节点的分类结果,进而推荐相对应类型的音乐。
所述参数获取与处理模块,用于收集并处理用作聚类的参数,具体包括:客户端各标签的结构性差异指标计算,客户端本地训练至收敛的模型输出层注意力系数的获取;
所述聚类模块,用于将各客户端上传的输出层注意力系数与标签的结构差异性指标进行计算处理,以此对拥有不同数据分布的客户端进行聚类。
所述联邦聚合模块,各客户端在训练至第t批次时,上传其各层的模型参数。服务器通过簇内聚合与簇间的聚合获得全局模型重新发送给各个客户端。客户端更新模型继续下一批次的训练,直至模型收敛。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (4)
1.一种基于聚类的联邦图学习方法,所述方法由中心服务器和至少一个客户端实现,所述方法包括如下步骤:
S1:客户端通过各自的数据收集方式获取图数据,构建图网络并计算各类标签的结构差异性E,上传至服务器;
S2:客户端利用图网络单独训练至模型收敛,获得输出层的模型参数aout上传至服务器。服务器将客户端上传的两个参数处理后作为划分客户端到不同的聚类簇的依据;
S3:各客户端本地训练至一定批次时,上传其模型参数至服务器。服务器通过簇内聚合与簇间聚合更新全局模型参数并发送给各个客户端,客户端更新模型继续下一批次的训练,直至模型收敛。
2.如权利要求1所述的一种基于聚类的联邦图学习方法,其特征在于,所述步骤S1具体包括客户端计算图数据的各类标签的结构差异性el,具体公式如下:
其中,Nl表示图网络中某一类标签的节点数量,该标签的节点根据邻居节点数量被分为m类,第i类中的节点数量为ki。最终获得一个L维向量E=[e1,e2,el,…,eL]并上传至服务器。
如权利要求1所述的一种基于聚类的联邦图学习方法,其特征在于,所述步骤S2具体包括:
S2.1:客户端均采用三层多头图注意力网络模型(GAT)进行训练,前两层用于压缩节点特征,最后一层为输出层;
其中μ为各客户端的aout的平均值,σ为标准差。客户端的维度由客户端数量确定。一般来说,客户端数量越多,所划分的聚类簇也越多。u表示客户端p降维后的维度。服务器采用基于距离的聚类方法实现客户端的划分,具体公式如下:
4.一种基于聚类的联邦图学习系统,其特征在于:包括依次连接的参数获取与处理模块、聚类模块、联邦聚合模块;
所述参数获取与处理模块,用于收集并处理用作聚类的参数,具体包括:客户端各标签的结构性差异指标计算,客户端本地训练至收敛的模型输出层注意力系数的获取;
所述聚类模块,用于将各客户端上传的输出层注意力系数与标签的结构差异性指标进行计算处理,以此对拥有不同数据分布的客户端进行聚类。
所述联邦聚合模块,各客户端在训练至第t批次时,上传其各层的模型参数。服务器通过簇内聚合与簇间的聚合获得全局模型重新发送给各个客户端。客户端更新模型继续下一批次的训练,直至模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836422.7A CN115391576A (zh) | 2022-07-15 | 2022-07-15 | 一种基于聚类的联邦图学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836422.7A CN115391576A (zh) | 2022-07-15 | 2022-07-15 | 一种基于聚类的联邦图学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115391576A true CN115391576A (zh) | 2022-11-25 |
Family
ID=84117658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210836422.7A Pending CN115391576A (zh) | 2022-07-15 | 2022-07-15 | 一种基于聚类的联邦图学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391576A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994226A (zh) * | 2023-03-21 | 2023-04-21 | 杭州金智塔科技有限公司 | 基于联邦学习的聚类模型训练系统及方法 |
CN116204599A (zh) * | 2023-05-06 | 2023-06-02 | 成都三合力通科技有限公司 | 基于联邦学习的用户信息分析系统及方法 |
CN116226540A (zh) * | 2023-05-09 | 2023-06-06 | 浙江大学 | 一种基于用户兴趣域的端到端联邦个性化推荐方法和系统 |
CN116502709A (zh) * | 2023-06-26 | 2023-07-28 | 浙江大学滨江研究院 | 一种异质性联邦学习方法和装置 |
CN117150416A (zh) * | 2023-10-27 | 2023-12-01 | 烟台大学 | 一种工业互联网异常节点的检测方法、系统、介质及设备 |
CN117808128A (zh) * | 2024-02-29 | 2024-04-02 | 浪潮电子信息产业股份有限公司 | 数据异构条件下的图像处理方法、联邦学习方法及装置 |
CN117808126A (zh) * | 2024-02-29 | 2024-04-02 | 浪潮电子信息产业股份有限公司 | 机器学习方法、装置、设备、联邦学习系统及存储介质 |
-
2022
- 2022-07-15 CN CN202210836422.7A patent/CN115391576A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994226A (zh) * | 2023-03-21 | 2023-04-21 | 杭州金智塔科技有限公司 | 基于联邦学习的聚类模型训练系统及方法 |
CN115994226B (zh) * | 2023-03-21 | 2023-10-20 | 杭州金智塔科技有限公司 | 基于联邦学习的聚类模型训练系统及方法 |
CN116204599A (zh) * | 2023-05-06 | 2023-06-02 | 成都三合力通科技有限公司 | 基于联邦学习的用户信息分析系统及方法 |
CN116204599B (zh) * | 2023-05-06 | 2023-10-20 | 成都三合力通科技有限公司 | 基于联邦学习的用户信息分析系统及方法 |
CN116226540A (zh) * | 2023-05-09 | 2023-06-06 | 浙江大学 | 一种基于用户兴趣域的端到端联邦个性化推荐方法和系统 |
CN116226540B (zh) * | 2023-05-09 | 2023-09-26 | 浙江大学 | 一种基于用户兴趣域的端到端联邦个性化推荐方法和系统 |
CN116502709A (zh) * | 2023-06-26 | 2023-07-28 | 浙江大学滨江研究院 | 一种异质性联邦学习方法和装置 |
CN117150416A (zh) * | 2023-10-27 | 2023-12-01 | 烟台大学 | 一种工业互联网异常节点的检测方法、系统、介质及设备 |
CN117150416B (zh) * | 2023-10-27 | 2024-03-08 | 烟台大学 | 一种工业互联网异常节点的检测方法、系统、介质及设备 |
CN117808128A (zh) * | 2024-02-29 | 2024-04-02 | 浪潮电子信息产业股份有限公司 | 数据异构条件下的图像处理方法、联邦学习方法及装置 |
CN117808126A (zh) * | 2024-02-29 | 2024-04-02 | 浪潮电子信息产业股份有限公司 | 机器学习方法、装置、设备、联邦学习系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115391576A (zh) | 一种基于聚类的联邦图学习方法及系统 | |
CN108665323B (zh) | 一种用于理财产品推荐系统的集成方法 | |
Wu et al. | Contextual bandits in a collaborative environment | |
CN108363804B (zh) | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 | |
Banerjee et al. | Multi-way clustering on relation graphs | |
Bhagat et al. | Node classification in social networks | |
Birlutiu et al. | Multi-task preference learning with an application to hearing aid personalization | |
CN109947987B (zh) | 一种交叉协同过滤推荐方法 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN107944485B (zh) | 基于聚类群组发现的推荐系统及方法、个性化推荐系统 | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN109034953B (zh) | 一种电影推荐方法 | |
WO2023231542A1 (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN113971440A (zh) | 一种基于深度聚类的无监督雷达信号分选方法 | |
CN113342994A (zh) | 一种基于无采样协作知识图网络的推荐系统 | |
CN113343077A (zh) | 一种融合用户兴趣时序波动的个性化推荐方法及系统 | |
Tian et al. | Clustering-based multiple imputation via gray relational analysis for missing data and its application to aerospace field | |
CN111611293A (zh) | 一种基于特征加权与MapReduce的离群数据挖掘方法 | |
CN113688281B (zh) | 一种基于深度学习行为序列的视频推荐方法及系统 | |
CN115481415A (zh) | 基于纵向联邦学习的通信成本优化方法、系统、设备及介质 | |
JP2010073195A (ja) | 協調フィルタリング処理方法および協調フィルタリング処理プログラム | |
Jyoti et al. | A review on recommendation system and web usage data mining using k-nearest neighbor (knn) method | |
Brahmbhatt et al. | Llp-bench: A large scale tabular benchmark for learning from label proportions | |
CN110717100A (zh) | 基于高斯嵌入表示技术的上下文感知推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |