CN116011597A - 一种基于图数据的个性化联邦学习方法及装置 - Google Patents
一种基于图数据的个性化联邦学习方法及装置 Download PDFInfo
- Publication number
- CN116011597A CN116011597A CN202310068461.1A CN202310068461A CN116011597A CN 116011597 A CN116011597 A CN 116011597A CN 202310068461 A CN202310068461 A CN 202310068461A CN 116011597 A CN116011597 A CN 116011597A
- Authority
- CN
- China
- Prior art keywords
- local
- global
- personalized
- parameters
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于图数据的个性化联邦学习方法及装置,方法包括:各客户端将初始自我图输入到本地模型的特征缩减层得到嵌入自我图,将嵌入自我图输入到本地个性化层并更新本地特征缩减参数和本地个性化参数;各客户端根据嵌入自我图得到平均自我图并将其与本地特征缩减参数上传至服务端;服务端根据所有本地特征缩减参数得到新一轮的全局特征缩减参数并下发,将平均自我图输入到全局个性化模型并更新全局个性化参数;各客户端根据新一轮的全局特征缩减参数更新本地特征缩减参数,根据本地、全局个性化参数和个性化融合系数得到新的本地个性化参数。本发明能对客户端本地图数据中特征与结构信息进行解耦和隐私保护,提升了客户端的个性化能力。
Description
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于图数据的个性化联邦学习方法及装置。
背景技术
图数据作为包含结构和特征信息的特殊信息载体,被广泛应用于图挖掘和机器学习中。然而,在实际应用场景中,图数据往往被存储在多个分布式方或设备中,由于利益冲突,这些图数据可能不会被直接共享,存在数据孤岛问题。
联邦学习是将机器学习技术的实现与直接数据共享的需求解耦的一项分布式机器学习技术,使得参与方在不需要上传本地数据的情况下,就可以协同构建更精确的模型,在保护隐私的模型协同训练中体现了巨大潜力。因此,联邦学习能够保护协同参与者的训练样本数据隐私,解决数据孤岛问题。
但现有联邦学习模型通常传输的是可被复原的数据信息,存在严重的隐私泄露隐患。此外,现有联邦学习模型并没有将联邦学习框架与图数据进行有机结合,不能对图数据中的特征信息与结构信息进行解耦及相应保护。
发明内容
本发明的目的是提供一种基于图数据的个性化联邦学习方法及装置,以解决现有联邦学习模型不能对图数据的特征信息与结构信息进行解耦且存在严重的隐私泄露隐患的技术问题。
本发明的目的,可以通过如下技术方案实现:
一种基于图数据的个性化联邦学习方法,包括以下步骤:
各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
可选地,各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图之前还包括:
各客户端对本地图数据中的图数据节点进行邻居采样操作,为所述图数据中每个节点生成对应的自我图。
可选地,各所述客户端对所述嵌入自我图进行数据增强得到平均自我图包括:
各所述客户端利用Mixup技术对所述嵌入自我图相应位置的节点特征进行平均操作得到平均自我图。
可选地,所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数包括:
所述服务端接收各所述客户端上传的所述本地特征缩减参数,将所有所述特征缩减参数进行平均操作得到新一轮的全局特征缩减参数。
可选地,各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数包括:
各所述客户端将所述新一轮的全局特征缩减参数作为新的所述本地特征缩减参数。
可选地,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数包括:
利用Φi=λi×Φ+(1-λi)×Φi得到新的本地个性化参数;
其中,λi为客户端i的本地模型中的个性化融合系数,等式右边的Φi为客户端i的本地模型中的本地个性化参数,Φ为全局个性化模型的全局个性化参数,等式左边的Φi为客户端i的本地模型中新的本地个性化参数。
可选地,所述特征缩减层为多层感知机。
可选地,所述本地个性化层采用图神经网络架构。
可选地,所述个性化融合系数基于推土距离进行评估。
本发明还提供了一种基于图数据的个性化联邦学习装置,包括:
客户端本地训练模块,用于各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
客户端上传模块,用于各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
服务端全局训练模块,用于所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
客户端全局训练模块,用于各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
本发明提供了一种基于图数据的个性化联邦学习方法及装置,其中方法包括:各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
有鉴如此,本发明带来的有益效果是:
本发明中各客户端对本地图数据进行采样生成对应的初始自我图集合,他人不能够通过得到的自我图集合恢复出原来的整张图数据信息,实现了对图数据结构信息的匿名化处理;并利用自我图形式进行联邦场景下的信息传输,能够将客户端的本地图数据中特征信息与结构信息进行解耦,实现了对客户端本地图数据中结构信息的隐私保护。同时,本发明利用数据增强技术来生成平均自我图,实现了对图数据特征信息的匿名化处理和隐私保护,有效增强了联邦学习模型的鲁棒性和隐私保护能力。此外,本发明中的个性化融合系数体现了客户端的本地图数据与服务端的全局图数据集之间的差异,充分提升了客户端的个性化能力。
本发明经过本地训练阶段和全局训练阶段的迭代更新,最终每个客户端都能得到一个适用于本地图数据的本地模型,该本地模型的特征缩减层借助了服务端更新本地特征缩减参数,本地个性化层充分考虑了本地图数据的个性化差异,并借助了全局个性化模型的全局个性化参数更新本地个性化参数,因此,各客户端使用该本地模型进行本地图数据的本地节点分类任务时,能够取得相当优异的图数据节点分类效果。
附图说明
图1为本发明方法的流程示意图;
图2为本发明对图数据中某个节点进行采样得到的自我图示例图;
图3为本发明装置的整体框架示意图;
图4为本发明装置实施例的结构示意图。
具体实施方式
术语解释:
联邦学习:联邦学习是将机器学习技术的实现与直接数据共享的需求解耦的一项分布式机器学习技术,在保护隐私的模型协同训练中体现了巨大潜力。联邦学习的关键思想是通过各个客户端的协同合作来最终在一个中心化的服务端上训练一个全局个性化模型。中心服务器初始化模型参数,执行若干轮,每轮选取多个客户端参与训练,接下来每个被选中的客户端同时在自己的本地根据服务器下发的本轮模型,用自己的数据训练自己的模型参数,并上传回服务器。服务器将收集来的各客户端的模型根据各方样本数量用加权平均的方式进行聚合,得到下一轮的全局个性化模型。
图神经网络:是一类深度学习方法,旨在对图描述的数据进行推理,是可以直接应用于图的神经网络,并提供了一种简单的方法来执行节点级、边缘级和图级预测任务。
FedAvg:是一种通信高效的算法,用于具有大量客户端的分布式训练。在FedAvg中,客户将数据保存在本地以保护隐私;中央参数服务器用于客户端之间的通信,该中央服务器将参数分发给每个客户端并从客户端收集更新的参数。
GraphSage:是一个在大图上进行归纳表示学习的经典图神经网络框架。GraphSage用于生成节点的低维向量表示,对于具有丰富节点属性信息的图尤其有用。
Ego-graph:即自我图,也称Ego图,是指一个包含所有与中心节点距离小于一定距离的节点的图。
Mixup技术:是一种数据增强技术,它对数据样本应用线性组合以生成附加数据。
本发明实施例提供了一种基于图数据的个性化联邦学习方法及装置,以解决现有联邦学习模型不能对图数据的特征信息与结构信息进行解耦且存在严重的隐私泄露隐患的技术问题。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
作为包含结构和特征信息的特殊信息载体,图被广泛应用于图挖掘和机器学习中,例如图神经网络。然而,在实际应用场景中,图数据往往被存储在多个分布式方或设备中,由于利益冲突,这些数据可能不会被直接共享。因此,人们提出了联邦场景下的图神经网络来解决这种数据孤岛问题,并保护每个参与方(或客户端)的隐私。然而各方之间不同的图数据分布,也就是所谓的数据异构性,可能会降低像FedAvg这样的朴素的联邦学习算法的性能。
以往的图神经网络工作场景集中在集中式节点表示学习上,没有考虑现实世界中普遍存在的数据孤岛情况。在传统的数据孤岛情况下,数据存储在多个分布式方之间,只允许私下访问。因此,如何协作将图与本地数据所有者分离,同时保护隐私,以训练高质量的基于图的模型是一个关键问题。
联邦学习是一种将机器学习的实现与直接数据共享的需求分离的技术,在保持数据隐私的同时,在协作训练模型方面显示出巨大的前景。联邦学习的关键思想是在本地数据所有者(或客户端)的贡献下,在中央服务器上训练全局模型。在处理图数据时,直观的想法是将朴素联邦算法与图神经网络直接结合。然而,基于权重聚合的朴素FL算法(如FedAvg)不能从图数据中的结构信息中获益,因此在图挖掘中可能性能较差。
此外,联邦图学习存在高度非独立的同分布(非IID)问题。在图挖掘任务中经常出现的客户端之间的统计异质性的情况下,单个全局模型可能无法很好地概括所有客户端的本地数据。因此,有必要将个性化集成到联邦图学习中,而不是训练单个共识模型。也就是说,客户将根据自己的数据集调整全局模型,并为个性化训练本地模型,称之为个性化联邦图学习。
个性化联邦图学习的现有技术方案主要包括:GraphFL是一种模型无关的元学习方法,设计用于少量学习。D-FedGNN是一个分布式联邦图框架,允许客户端之间的协作,而无需集中式服务器。FedSage+,它训练丢失的邻居生成器来恢复跨客户端的丢失边,主要针对在实践中不太常见的分布式子图系统。FedGL上传预测结果和节点全局信息的嵌入,FedGCN在客户端之间交换关于节点邻居的平均信息。其中,大部分现有技术方案存在严重的隐私问题,因为其他人能知道特定节点是否在某个客户端的本地数据集中。因此,现有技术方案对数据的结构和特征方面的匿名性保护等方面存在较大的改进空间。
请参阅图1,本申请提供了一种基于图数据的个性化联邦学习方法的实施例,包括以下步骤:
S100:各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
S200:各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
S300:所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
S400:各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
在步骤S100中,客户端会对本地图数据集中每个图数据进行统一形式的自我图采样,得到了相同形式的初始自我图集合,但他人无法通过该初始自我图集合完全恢复出原来的整张图数据的具体结构。初始自我图采样的过程为:客户端将图数据中的每个节点分别作为中心节点,按照指定的邻居节点个数对每一层的邻居节点进行采样,如果邻居节点的数量不够,则进行重复性的采样,经过采样最终图数据中的每个节点都可以得到相同形式的自我图,为本地图数据都能生成对应的自我图集合。客户端为本地图数据中的各节点生成了对应的初始自我图,图数据中所有节点对应的自我图的集合为该图数据对应的初始自我图集合,客户端经过采样操作最终得到与本地图数据集对应的初始自我图集合。
本实施例中,每个初始自我图都能够利用其特征和标签单独地放进本地模型中进行训练,对本地模型参数(包括本地特征缩减参数和本地个性化参数)进行更新。也就是说,图数据中的节点与初始自我图之间是匿名可信且相互等价的,他人也无法将某个初始自我图中的中心节点与原来图数据中的某个具体节点对应起来。
各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图之前还包括:各客户端对本地图数据中的图数据节点进行邻居采样操作,为图数据中每个节点生成对应的初始自我图。如图2所示,对图数据中每个节点进行采样得到的相同形式一阶初始自我图,其中,实线圆圈表示图数据中的一个中心节点,虚线圆圈为对该中心节点进行邻居采样得到的邻居节点,圆圈旁边的矩形块表示对应节点在图数据上初始的特征向量。
本实施例基于自我图(Ego-graph)的形式进行联邦框架下的信息交流,利用自我图完成了客户端的本地图数据中特征信息与结构信息的解耦,实现了对客户端本地图数据的结构信息的隐私保护。
参与联邦学习的各客户端都有对应的本地模型,本地模型包括特征缩减层和本地个性化层,其中,特征缩减层包括本地特征缩减参数,本地个性化层包括本地个性化参数,因此,客户端的本地模型参数包括本地特征缩减(Reduction Layers)参数和本地个性化参数。如图3所示,第i个客户端的本地模型中的本地特征缩减参数用Θi表示,第i个客户端的本地模型中的本地个性化参数用Φi表示。服务端的全局个性化模型中包括全局个性化层,全局个性化层中含有全局个性化参数,例如图3中用Φ表示。
本实施例提供的基于图数据的个性化联邦学习方法,联邦学习的整个训练过程可以分为本地训练阶段(Local Stage)和全局训练阶段(Global Stage)。
为了解决联邦场景下的图数据节点分类任务,本实施例中每个客户端都有自己独立训练的本地模型,在服务端中有一个所有客户端共同训练的全局模型。在客户端自己的本地模型中,包含有特征缩减层(Reduction Layers)以及个性化层(PersonalizationLayers)。在服务端中,帮助各客户端更新本地特征缩减层的参数,而在全局个性化模型的全局个性化层中有自己的全局个性化参数。在客户端中,特征缩减层由各客户端借助服务端进行本地特征缩减参数的平均更新,而本地个性化层中各客户端借助服务端的全局个性化参数进行更新。
本实施例中,客户端本地模型中特征缩减层的功能主要是提取各个客户端能够共享的底层公共信息,并且为图数据中的节点生成相应的低维嵌入,方便后续图数据挖掘的计算工作。在本实施例中,特征缩减层主要由多层感知机来实现。
个性化层的功能主要是进行图数据的高层图特征挖掘计算,进而进一步提取各客户端特有的个性化特征。在这个过程中,联邦学习模型能够有效提取图数据中的结构信息,进行有效的图数据挖掘。在本实施例中,个性化层主要由图神经网络架构进行实现,优选的实施方式,采用GraphSage图神经网络架构实现。
本实施例中的个性化层包括客户端本地模型的本地个性化层和服务端全局个性化模型的全局个性化层,本地个性化层和全局个性化层可以为具有相同结构的个性化层。其中,将嵌入自我图输入到本地个性化层进行本地高层图特征挖掘,并利用得到的本地高层图特征进行本地节点分类;将平均自我图输入到全局个性化层进行全局高层图特征挖掘,并利用得到的全局高层图特征进行全局节点分类。
本实施例基于自我图的联邦框架以充分利用图数据的结构信息,并通过在服务器中训练全局模型来处理非IID图数据;另外,通过在客户端结合全局和局部个性化参数,使全局模型适应其本地的局部数据集,已达到甚至超越现有技术的性能。同时,本实施例通过使用Mixup技术,能有效增强联邦学习模型的鲁棒性和隐私保护能力。
从训练流程来看,本实施例可以主要分为两个阶段:本地训练阶段(Local Stage)以及全局训练阶段(Global Stage)。
本地训练阶段主要包括步骤S100和步骤S200,对应图3中的①至②过程。在本地训练阶段中,各客户端会首先对自己的本地图数据中节点进行邻居采样操作,为图数据上的每个节点生成包含邻居节点的统一大小的自我图,进而生成与本地图数据集对应的自我图集合,然后将自我图集合中的自我图作为输入数据输入到客户端的本地模型中。
需要说明的是,各客户端对图数据中节点进行采样操作生成的自我图为初始自我图,如图3中的Ego-Graph with Raw Data xv,初始自我图具有该节点在原来图数据中的初始特征向量。
如图3所示,具体地,①:图数据中节点v对应的初始自我图xv首先进入客户端i的特征缩减层,此时特征缩减层的本地特征缩减参数为Θi,得到带有特征缩减后的嵌入自我图rv(Ego-Graph with Reduction Embedding)。然后,将该嵌入自我图rv进一步输入到本地模型的本地个性化层中,此时本地个性化层的本地个性化参数为Φi,得到节点v的最终嵌入,即生成节点v的本地高层图特征pv,并根据本地高层图特征pv进行本地节点分类任务,得到本地节点分类结果
②:在本地节点分类任务中,利用本地损失函数更新本地特征缩减参数Θi和本地个性化参数Φi,计算节点v的分类结果和节点v真实标签的交叉熵损失,之后利用该交叉熵损失通过梯度下降的形式更新本地模型的本地特征缩减参数Θi和本地个性化参数Φi。
此外,在本地模型的训练过程中,每个客户端i会对自己本地的嵌入自我图rv进行Mixup操作,将特征缩减后的嵌入自我图相应位置的节点特征进行平均操作,并最终得到平均后的平均自我图(Mashed Ego-graph with Reduction Embedding),例如图3中的r。各客户端将平均自我图上传到服务端,服务端利用各客户端上传的平均自我图进行训练,将平均自我图输入到全局个性化模型进行训练。由于Mixup操作对嵌入自我图的节点特征进行了平均,体现了整个模型对本地图数据中节点特征信息的隐私保护。
全局训练阶段主要包括步骤S300和S400,对应图3中的③至⑨过程。具体地,在全局训练阶段中,③:每个客户端首先会将自己的本地特征缩减参数Θi上传至服务端,以便后续利用服务端对本地特征缩减参数Θi进行更新。
④:同时,客户端还会上传本地训练过程中得到的平均自我图r,平均自我图将作为服务端的训练数据集用于对全局个性化模型进行训练。
⑤:服务端将所有客户端上传的所有本地特征缩减参数Θi进行平均操作,得到新一轮的全局特征缩减参数Θ。
⑥:然后,服务端将之前联邦平均得到新一轮的全局特征缩减参数(即新一轮的Θ)下发给各个客户端,以便对各客户端的本地特征缩减参数Θi进行更新,各客户端根据新一轮的全局特征缩减参数更新本地特征缩减参数Θi;优选的实施方式,客户端可以将本地特征缩减参数Θi替换为服务端下发的新一轮的全局特征缩减参数Θ,即新的Θi等于新一轮的Θ。
⑦:由于服务端全局个性化模型中的全局个性化层与客户端本地模型中的本地个性化层具有相同结构,因此,全局个性化模型可以通过全局个性化层进行全局高层图特征挖掘计算,将上传的平均自我图可以直接输入到全局个性化模型中得到全局高层图特征p,并利用全局高层图特征p进行全局节点分类任务,得到全局节点分类结果
⑧:在全局节点分类中,利用全局损失函数更新全局个性化模型的全局个性化参数Φ,全局任务损失同样采样交叉熵损失,通过梯度下降的形式对全局模型的全局个性化参数Φ进行更新。
⑨:而对于本地个性化层来说,客户端利用自己本地预先计算好的个性化融合系数,再按照本地个性化层参数以及全局个性化层参数进行线性加权,最终得到新一轮的本地个性化层参数,即得到新一轮的Φi。
本实施例中,各客户端的个性化融合系数是由其本地图数据集与上传到服务端的全局图数据集之间的差异确定的,二者差异越大,则个性化融合系数越大,客户端得到服务端的帮助也就越多;二者差异越小,则个性化融合系数越小,客户端自身的个性化空间也就越大。在本实施例中,客户端的本地图数据集和服务端的全局图数据集之间的差异主要使用推土距离(earth mover’s distance,EMD,又称Wasserstein距离)来进行评估,基于推土距离的个性化融合系数的设计充分提升了客户端的个性化能力。
需要说明的是,推土距离用来表示两个分布之间的相似程度。假设两个分布为两个有一定存土量的土堆,那么EMD就是将一个土堆转换为另一个土堆所需的最小总工作量,其中,工作量的定义是单位泥土的总量乘以它移动的距离。可以理解的是,通过确定EMD,即可确定客户端的本地图数据集和服务端的全局图数据集之间的差异。
具体地,各客户端根据本地个性化参数、全局个性化参数和个性化融合系数得到新的本地个性化参数包括:
利用Φi=λi×Φ+(1-λi)×Φi得到新的本地个性化参数;
其中,λi为客户端i的本地模型中的个性化融合系数,等式右边的Φi为客户端i的本地模型中的本地个性化参数,Φ为全局个性化模型的全局个性化参数,等式左边的Φi为客户端i的本地模型中新的本地个性化参数。
上述公式为本地模型的本地个性化参数动量更新的过程,本地模型利用个性化融合系数作为全局个性化参数的权重,和上一轮的本地个性化参数进行融合,得到新一轮的本地个性化参数。
本发明利用自我图的形式进行联邦场景下的信息传输,将特征信息与结构信息进行解耦;同时,在采样自我图的过程中,各客户端生成的自我图集合实现了结构信息的匿名化处理,他人不能够通过得到的自我图集合恢复出原来的整张图数据信息。此外,本发明也利用了Mixup技术来生成平均自我图,实现了特征信息的匿名化处理。本发明对于联邦场景下图数据的信息传递是匿名可信并且有效的。
本发明采用了自我图的形式进行联邦场景下的信息传输,实现了图数据结构信息的隐私保护;各客户端采用了Mixup的技术手段来生成平均自我图并用于训练服务端的全局模型,实现了联邦场景下图数据特征信息的隐私保护;同时,本发明提出了选择个性化融合系数的策略,由各个客户端的本地图数据与上传到服务端的全局图数据集间的差异确定个性化融合系数,使得客户端的本地模型具备优秀的个性化能力,适用于本地图数据,对本地图数据进行节点分类时能得到非常优异的节点分类效果。
本实施例提供的基于图数据的个性化联邦学习方法,各客户端对本地图数据进行采样生成对应的初始自我图集合,他人不能够通过得到的自我图集合恢复出原来的整张图数据信息,实现了对图数据结构信息的匿名化处理;并利用自我图形式进行联邦场景下的信息传输,能够将客户端的本地图数据中特征信息与结构信息进行解耦,实现了对客户端本地图数据中结构信息的隐私保护。同时,本发明利用数据增强技术来生成平均自我图,实现了对图数据特征信息的匿名化处理和隐私保护,有效增强了联邦学习模型的鲁棒性和隐私保护能力。此外,本发明中的个性化融合系数体现了客户端的本地图数据与服务端的全局图数据集之间的差异,充分提升了客户端的个性化能力。
本发明的整个联邦学习过程经过本地训练阶段和全局训练阶段的迭代更新,最终每个客户端都能得到一个适用于本地图数据的本地模型,该本地模型的特征缩减层借助了服务端更新本地特征缩减参数,本地个性化层充分考虑了本地图数据的个性化差异,并借助了全局模型的全局个性化参数更新本地个性化参数,因此,各客户端使用该本地模型进行本地图数据的本地节点分类任务时,能够取得相当优异的图数据节点分类效果。
请参阅图4,本发明还提供了一种基于图数据的个性化联邦学习装置的实施例,包括:
客户端本地训练模块11,用于各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
客户端上传模块22,用于各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
服务端全局训练模块33,用于所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
客户端全局训练模块44,用于各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
本实施例中,整个联邦学习模型经过本地训练阶段和全局训练阶段的迭代更新,最终每个客户端都能得到一个适用于本地图数据的局部模型(即本地模型),该局部模型借助了全局模型的帮助,而且充分考虑了本地图数据的个性化差异,因此,各客户端使用该本地模型进行本地图数据的本地节点分类任务时,能够取得相当优异的节点分类效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于图数据的个性化联邦学习方法,其特征在于,包括以下步骤:
各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
2.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图之前还包括:
各客户端对本地图数据中的图数据节点进行邻居采样操作,为所述图数据中每个节点生成对应的自我图。
3.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,各所述客户端对所述嵌入自我图进行数据增强得到平均自我图包括:
各所述客户端利用Mixup技术对所述嵌入自我图相应位置的节点特征进行平均操作得到平均自我图。
4.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数包括:
所述服务端接收各所述客户端上传的所述本地特征缩减参数,将所有所述本地特征缩减参数进行平均操作得到新一轮的全局特征缩减参数。
5.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数包括:
各所述客户端将所述新一轮的全局特征缩减参数作为新的所述本地特征缩减参数。
6.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数包括:
利用Φi=λi×Φ+(1-λi)×Φi得到新的本地个性化参数;
其中,λi为客户端i的本地模型中的个性化融合系数,等式右边的Φi为客户端i的本地模型中的本地个性化参数,Φ为全局个性化模型的全局个性化参数,等式左边的Φi为客户端i的本地模型中新的本地个性化参数。
7.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,所述特征缩减层为多层感知机。
8.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,所述本地个性化层采用图神经网络架构。
9.根据权利要求1所述的基于图数据的个性化联邦学习方法,其特征在于,所述个性化融合系数基于推土距离进行评估。
10.一种基于图数据的个性化联邦学习装置,其特征在于,包括:
客户端本地训练模块,用于各客户端将初始自我图输入到本地模型的特征缩减层得到特征缩减后的嵌入自我图,将所述嵌入自我图输入到本地模型的本地个性化层得到本地高层图特征并进行本地节点分类,利用本地损失函数更新本地特征缩减参数和本地个性化参数;其中,所述初始自我图是所述客户端对本地图数据中节点进行采样得到的,所述本地模型包括本地特征缩减参数和本地个性化参数;
客户端上传模块,用于各所述客户端对所述嵌入自我图进行数据增强得到平均自我图,将所述本地特征缩减参数和所述平均自我图上传至服务端;
服务端全局训练模块,用于所述服务端根据上传的所有所述本地特征缩减参数得到新一轮的全局特征缩减参数并下发给各所述客户端,将所述平均自我图输入到全局个性化模型得到全局高层图特征并进行全局节点分类,利用全局损失函数更新所述全局个性化模型的全局个性化参数;
客户端全局训练模块,用于各所述客户端根据所述新一轮的全局特征缩减参数更新所述本地特征缩减参数,根据所述本地个性化参数、所述全局个性化参数和个性化融合系数得到新的本地个性化参数;所述个性化融合系数是根据所述客户端的本地图数据与上传到所述服务端的全局图数据集之间的差异确定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068461.1A CN116011597A (zh) | 2023-02-06 | 2023-02-06 | 一种基于图数据的个性化联邦学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068461.1A CN116011597A (zh) | 2023-02-06 | 2023-02-06 | 一种基于图数据的个性化联邦学习方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116011597A true CN116011597A (zh) | 2023-04-25 |
Family
ID=86033519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310068461.1A Pending CN116011597A (zh) | 2023-02-06 | 2023-02-06 | 一种基于图数据的个性化联邦学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116011597A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688425A (zh) * | 2023-12-07 | 2024-03-12 | 重庆大学 | 面向Non-IID图数据的多任务图分类模型构建方法及系统 |
-
2023
- 2023-02-06 CN CN202310068461.1A patent/CN116011597A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688425A (zh) * | 2023-12-07 | 2024-03-12 | 重庆大学 | 面向Non-IID图数据的多任务图分类模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hesamifard et al. | Cryptodl: Deep neural networks over encrypted data | |
Ding et al. | A generalized deep neural network approach for digital watermarking analysis | |
Sotthiwat et al. | Partially encrypted multi-party computation for federated learning | |
EP4205344A1 (en) | System and method for privacy-preserving distributed training of neural network models on distributed datasets | |
CN113850272A (zh) | 基于本地差分隐私的联邦学习图像分类方法 | |
CN111681154B (zh) | 一种基于生成对抗网络的彩色图像隐写失真函数设计方法 | |
Chen et al. | Secure collaborative deep learning against GAN attacks in the Internet of Things | |
CN115310121B (zh) | 车联网中基于MePC-F模型的实时强化联邦学习数据隐私安全方法 | |
CN110660020A (zh) | 一种基于融合互信息的对抗生成网络的图像超分辨率方法 | |
Hsu et al. | A high-capacity QRD-based blind color image watermarking algorithm incorporated with AI technologies | |
CN111291411B (zh) | 基于卷积神经网络的安全视频异常检测系统及方法 | |
CN115660050A (zh) | 一种高效隐私保护的鲁棒联邦学习方法 | |
CN116011597A (zh) | 一种基于图数据的个性化联邦学习方法及装置 | |
Gupta et al. | Learner’s dilemma: IoT devices training strategies in collaborative deep learning | |
CN115186831B (zh) | 一种高效隐私保护的深度学习方法 | |
CN114362948B (zh) | 一种联邦衍生特征逻辑回归建模方法 | |
CN115481441A (zh) | 面向联邦学习的差分隐私保护方法及装置 | |
CN115481415A (zh) | 基于纵向联邦学习的通信成本优化方法、系统、设备及介质 | |
CN118041684A (zh) | 一种针对区域出租车订单需求的联邦预测方法 | |
Gad et al. | Joint Knowledge Distillation and Local Differential Privacy for Communication-Efficient Federated Learning in Heterogeneous Systems | |
Yang et al. | Fixed-time synchronization of complex-valued neural networks for image protection and 3D point cloud information protection | |
CN116595589A (zh) | 基于秘密共享机制的分布式支持向量机训练方法及系统 | |
CN116091891A (zh) | 图像识别方法及系统 | |
CN112613055A (zh) | 基于分布式云服务器和数图转换的图像处理系统及方法 | |
Zhang et al. | Confined gradient descent: Privacy-preserving optimization for federated learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |