CN115775026B - 一种基于组织相似度的联邦学习方法 - Google Patents

一种基于组织相似度的联邦学习方法 Download PDF

Info

Publication number
CN115775026B
CN115775026B CN202211685693.3A CN202211685693A CN115775026B CN 115775026 B CN115775026 B CN 115775026B CN 202211685693 A CN202211685693 A CN 202211685693A CN 115775026 B CN115775026 B CN 115775026B
Authority
CN
China
Prior art keywords
embedded
node
client
representing
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211685693.3A
Other languages
English (en)
Other versions
CN115775026A (zh
Inventor
胡春强
谢彪
邓绍江
夏晓峰
蔡斌
向涛
桑军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202211685693.3A priority Critical patent/CN115775026B/zh
Publication of CN115775026A publication Critical patent/CN115775026A/zh
Application granted granted Critical
Publication of CN115775026B publication Critical patent/CN115775026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于组织相似度的联邦学习方法,包括以下步骤:获取机构的本地子图,计算本地子图中各个节点的嵌入值;根据节点的嵌入值组成该机构本地子图的嵌入列表;中央服务器获取多个客户端的嵌入列表并在区块链上进行对比,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理;根据嵌入列表和度量公式分别获取各个客户端与中央服务器的相似度,筛选出相似度高于设定值的客户端为预选客户端,中央服务器与预选客户端共同参与联邦学习。本发明即不交换用户数据,又能筛选出用户数据符合训练需求的客户端,提高了联邦学习的训练效率和训练结果。

Description

一种基于组织相似度的联邦学习方法
技术领域
本发明属于联邦学习技术领域,具体涉及一种基于组织相似度的联邦学习方法。
背景技术
联邦学习是一种分布式机器学习,联邦学习对象包括一个中央服务器和多个客户端,在学习过程中多个客户端之间不需要交换本地个体或样本数据,仅通过将本地训练的模型参数或中间结果上传至中央服务器,再通过中央服务器构建基于虚拟融合数据下的全局模型,以此实现数据隐私保护和数据共享计算。当多个机构需要进行联邦学习时,由一个机构承担中央服务器的角色,邀请其他机构承担客户端的角色进行联邦学习。
现有技术中,为了保护用户数据的私密性,客户端之间不进行数据交换,中央服务器通过随机筛选的方式邀请客户端进行联邦学习;随机筛选的方式可能会导致筛选出的客户端数据量不平衡,客户端的关联性差,客户端的用户重复度低等问题,从而影响模型的训练效率和训练效果。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,提供一种基于组织相似度的联邦学习方法,即不交换用户数据,又能筛选出用户数据符合训练需求的客户端,提高了联邦学习的训练效率和训练结果。
为了实现本发明的上述目的,根据本发明的第一个方面,本发明提供了一种基于组织相似度的联邦学习方法,包括以下步骤:获取机构的本地子图,计算本地子图中各个节点的嵌入值;根据节点的嵌入值组成该机构本地子图的嵌入列表;中央服务器获取多个客户端的嵌入列表,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理;根据嵌入列表和度量公式分别获取各个客户端与中央服务器的相似度,筛选出相似度高于设定值的客户端为预选客户端,中央服务器与预选客户端共同参与联邦学习。
进一步地,所述度量公式如下:
Figure BDA0004020838160000021
Figure BDA0004020838160000022
其中,
Figure BDA0004020838160000023
表示机构i的嵌入列表,
Figure BDA0004020838160000024
表示机构j的嵌入列表,
Figure BDA0004020838160000025
表示机构i的嵌入列表中第x个节点嵌入值;
Figure BDA0004020838160000026
表示机构j的嵌入列表中第x个节点嵌入值。
进一步地,节点的嵌入值的计算过程具体为:识别本地子图中的连通分量,获取连通分量的嵌入系数,根据嵌入系数和嵌入公式计算该连通分量中每个节点的嵌入值;嵌入公式如下:
Figure BDA0004020838160000027
Figure BDA0004020838160000028
其中,c表示节点,ec表示节点c的嵌入值,Nc表示节点c的邻节点集合,p表示节点c的一个邻节点;Wc,p表示节点c与节点p的边权重,coef表示连通分量f的嵌入系数,Wf表示整个连通分量f的边权重。
进一步地,获取连通分量的嵌入系数过程如下:根据路径公式获取连通分量的平均最短路径长度,通过转换公式将平均最短路径长度转换为该连通分量的嵌入系数;转换公式如下:coef=(af-1)×(n/2);其中,coef表示连通分量的嵌入系数,af表示连通分量的平均最短路径长度,n表示连通分量中的节点数;路径公式如下:
Figure BDA0004020838160000031
Figure BDA0004020838160000032
其中,f表示连通分量,q表示连通分量中的任意一个节点,m表示连通分量中节点q能够到达的节点;d(q,m)表示从节点q至节点m的最短路径长度。
进一步地,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理的步骤具体为:若客户端嵌入列表的嵌入值个数与中央服务器嵌入列表的嵌入值个数不相同,则对嵌入值个数较少的嵌入列表进行补全,使两个嵌入列表的嵌入值个数相同,再对客户端嵌入列表的嵌入值进行排序,对中央服务器嵌入值列表的嵌入值进行排序;补全嵌入值个数较少的嵌入列表时使用的是该嵌入列表的所有嵌入值的平均值。
进一步地,中央服务器与预选客户端共同参与联邦学习的步骤具体为:中央服务器向预选客户端发送训练模型,预选客户端根据本地数据集对训练模型进行训练,获得模型梯度参数;将模型梯度参数依次进行剪裁处理、加噪处理后发送至中央服务器;中央服务器将所有预选客户端的模型梯度参数进行聚合获得全局模型参数,将全局模型参数进行加噪处理后分别发送给各个预选客户端进行新一轮的训练,直至训练模型收敛。
进一步地,训练模型为消息传递神经网络模型;训练模型的训练过程包括消息传递阶段和读出阶段;消息传递阶段具体为:获取本地子图中每个节点的当前特征及该节点的邻节点特征,根据第一聚合函数生成节点的聚合特征,根据聚合特征和更新公式更新节点的隐藏特征;读出阶段具体为:通过多层消息传递后,从最后一层的节点隐藏特征中计算特征向量并进行链接预测,完成一轮训练模型的训练。
进一步地,节点的隐藏特征的更新过程如下:
Figure BDA0004020838160000041
Figure BDA0004020838160000042
其中,k表示客户端,c表示节点,l是层索引,
Figure BDA0004020838160000043
表示客户端k第l+1层索引中节点c的隐藏特征,Uφ(·)为更新公式,
Figure BDA0004020838160000044
表示客户端k第l层索引中节点c的特征,
Figure BDA0004020838160000045
表示客户端k第l+1层索引中节点c的聚合特征;聚合特征的生成公式如下:
Figure BDA0004020838160000046
其中,AGG(·)表示第一聚合函数,Mθ(·)表示获得隐藏特征的消息生成函数,
Figure BDA0004020838160000047
表示客户端k第l层索引中节点c的特征,p表示节点c的邻节点,
Figure BDA0004020838160000048
表示客户端k第l层索引中邻节点p的特征,zc,p表示节点c和邻节点p的边特征,Nc表示节点c的邻节点集合。
进一步地,特征向量的计算公式如下:
Figure BDA0004020838160000049
Figure BDA00040208381600000410
其中,k表示客户端k,D是节点对D,节点对D包括两个节点c,
Figure BDA00040208381600000411
表示客户端k节点对D的隐藏特征之间的特征向量,Rδ为级联函数或池化函数中的一种;l表示层数,
Figure BDA00040208381600000412
表示客户端k第l层节点c的隐藏特征,
Figure BDA00040208381600000413
表示客户端k的节点对集合。
进一步地,剪裁处理的步骤具体为:
Figure BDA00040208381600000414
其中,t表示第t轮训练,k表示第k个客户端,
Figure BDA0004020838160000051
表示模型梯度参数,
Figure BDA0004020838160000052
表示剪裁后的模型梯度参数,C表示剪裁阈值。
本发明的技术原理及有益效果:本发明根据本地子图的节点生成嵌入值,并对嵌入值进行对齐、排序操作组成嵌入列表;使用度量方式根据嵌入列表评估两个本地子图的相似度;嵌入值模糊了本地子图中节点与节点之间的交互关系,因此不存在泄露用户隐私数据的问题。因此各个机构可以承担中央服务器的角色,按照需求选择一定相似度的其他机构并发起训练;与现有技术相比,本方案通过对比各个机构的相似度,能够过滤掉用户数据量不平衡的机构,筛选出数据关联性高、用户重复度高的机构作为客户端进行联邦学习,参与训练的各个客户端的数据关联度越高,学习过程中模型的收敛速度越快,提高模型的训练效率和训练效果。
附图说明
图1是本发明一种基于组织相似度的联邦学习方法的步骤示意图;
图2是本发明一种基于组织相似度的联邦学习方法的流程示意图;
图3是本发明训练模型的结构示意图;
图4是本发明一种基于组织相似度的联邦学习方法的联邦学习的示意图;
图5是现有技术的联邦学习的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
联邦学习是一种交互学习手段,由一个机构担任中央服务器的角色,其他多个机构分别担任客户端的角色,由中央服务器发送初始模型至每个客户端,客户端使用本地数据分别进行模型训练,将训练好的模型发送至中央服务器进行聚合,直至模型收敛完成训练,通过这种训练方式既能得到适用与多个机构的全局模型,又能避免机构之间的用户隐私数据发生泄露。
如附图1所示,本发明提供了一种基于组织相似度的联邦学习方法,包括以下步骤:
获取机构的本地子图,计算本地子图中各个节点的嵌入值;根据节点的嵌入值组成该机构本地子图的嵌入列表;
中央服务器获取多个客户端的嵌入列表,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理;根据嵌入列表和度量公式分别获取各个客户端与中央服务器的相似度,筛选出相似度高于设定值的客户端为预选客户端,中央服务器与预选客户端共同参与联邦学习;
所述度量公式如下:
Figure BDA0004020838160000071
其中,
Figure BDA0004020838160000072
表示机构i的嵌入列表,
Figure BDA0004020838160000073
表示机构j的嵌入列表,
Figure BDA0004020838160000074
表示机构i的嵌入列表中第x个节点嵌入值;
Figure BDA0004020838160000075
表示机构j的嵌入列表中第x个节点嵌入值。
本实施例中,以机构i为例,机构i的本地子图Gi为机构旗下用户的所有数据,本实施例中,这些数据包括用户、物品、用户给物品的评分,这些数据均被转换为本地子图Gi,本地子图包括用户节点、物品节点、节点之间的边和边的权重,其中节点之间的边表示用户与物品的交互关系,边的权重表示用户给物品的评分;Gi=(Vi,Ei),其中Vi表示本地子图中的节点集合,Vi=(Ui,Ii),Ui表示用户节点,Ii表示物品节点,Ei表示本地子图中的节点之间的交互,
Figure BDA0004020838160000076
Figure BDA0004020838160000077
Figure BDA0004020838160000078
表示用户Ui对物品Ii的评价。
如附图5所示,现有技术在进行联邦学习时,存在本地客户端数据量非常小的情况,只有一个用户节点和少量物品节点,导致训练模型效果较差,远不足以支撑神经网络模型训练,需要通过第三方来拓展数据量,但是这种拓展方法导致用户的隐私信息保护存在隐患。本实施例提出的本地子图,不仅包括了用户节点,还包括了物品节点、物品节点与用户节点的交互,在在数据的划分上做到了深度模拟。为联邦学习提供了足够的数据量、通信能力和计算能力,使得本方案的适用性和实用性更强。
优选地,节点的嵌入值的计算过程具体为:识别本地子图中的连通分量,连通分量可以定义为:在无向图中,若一个点与另一个点能够通过边连通,则这两个点及其连通的边、点组成连通分量;本实施例中,将本地子图输入Networkx软件的python工具包中获得该本地子图的连通分量;
获取连通分量的嵌入系数,根据嵌入系数和嵌入公式计算该连通分量中每个节点的嵌入值;
嵌入公式如下:
Figure BDA0004020838160000081
其中,c表示节点,ec表示节点c的嵌入值,Nc表示节点c的邻节点集合,p表示节点c的一个邻节点;Wc,p表示节点c与节点p的边权重,coef表示连通分量f的嵌入系数,Wf表示整个连通分量f的边权重。连通分量f的边权重为该连通分量中所有节点之间的边权重之和。
本实施例中,若本地子图中包括多个连通分量,则依次对每一个连通分量进行完整的节点嵌入值分析;通过上述步骤,完成所有连通分量的节点嵌入值计算后,使用键对表示为<c:ec>,其中c表示节点,ec表示该节点的嵌入值;由于节点属于用户隐私数据,因此我们单独提取节点的嵌入值形成机构本地子图的嵌入列表,作为计算相似度的基础。
优选地,获取连通分量的嵌入系数过程如下:获取连通分量的平均最短路径长度,通过转换公式将平均最短路径长度转换为该连通分量的嵌入系数;
转换公式如下:
coef=(af-1)×(n/2)
其中,coef表示连通分量的嵌入系数,af表示连通分量的平均最短路径长度,n表示连通分量中的节点数。转换公式中用平均最短路径长度减去1的原因是需要减去节点本身,乘以节点数除以2的原因是一条边的权重由两个节点平分。
优选地,获取连通分量的平均最短路径长度的步骤具体为:根据路径公式计算连通分量的平均最短路径长度;
路径公式如下:
Figure BDA0004020838160000091
其中,f表示连通分量,af表示连通分量f的平均最短路径长度,q表示连通分量中的任意一个节点,m表示连通分量中节点q能够到达的节点;d(q,m)表示从节点q至节点m的最短路径长度,n表示连通分量中的节点数。
本实施例中,最短路径长度使用单源最短路径计算方法获得,计算过程如下:
创建节点q到所有节点m的距离集合distSet,为所有节点m指定一个距离值,初始的距离值均为Infinite,节点q的初始距离值为0;
创建新的SPT(Shortest Path Tree)集合sptSet,集合sptSet用于存放包含在SPT中的节点;如果sptSet集合中并没有包含所有的节点m,则选中不包含在sptSet中的节点mu为当前sptSet集合中未确认的最短距离节点;将节点mu包含进sptSet;更新节点mu的所有邻节点的距离值;
由于嵌入列表不包括用户的隐私数据,可以将嵌入列表输入至区块链上的智能合约,每一个机构作为区块链的一个点,将其嵌入列表公开,机构与机构之间可以通过对比嵌入列表获得相似度,整个过程都在区块链上的智能合约中进行,全程收到监管,并且借助区块链的共识机制,达到去中心化的效果,保证对比的公开性和公平性,同时能够高效地发起对比和训练。在对比之前需要对两个机构的嵌入列表进行对齐排序处理;优选地,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理的步骤具体为:
若客户端嵌入列表的嵌入值个数与中央服务器嵌入列表的嵌入值个数不相同,则对嵌入值个数较少的嵌入列表进行补全,使两个嵌入列表的嵌入值个数相同,再对客户端嵌入列表的嵌入值进行排序,对中央服务器嵌入值列表的嵌入值进行排序;补全嵌入值个数较少的嵌入列表时使用的是该嵌入列表的所有嵌入值的平均值。
本实施例中,以机构i和机构j为例,机构i和机构j的本地子图分别为Gi和Gj,获得的嵌入列表分别为
Figure BDA0004020838160000101
Figure BDA0004020838160000102
在比对之前需要将嵌入列表对齐,使嵌入列表中的嵌入值个数相同,即
Figure BDA0004020838160000103
如果
Figure BDA0004020838160000104
Figure BDA0004020838160000105
则在嵌入列表
Figure BDA0004020838160000106
中补入嵌入值,补入嵌入值为嵌入列表
Figure BDA0004020838160000111
中所有节点嵌入值的平均值
Figure BDA0004020838160000112
补入数量为
Figure BDA0004020838160000113
个,使两个嵌入列表等长,然后再对两个嵌入列表分别排序,得到
Figure BDA0004020838160000114
Figure BDA0004020838160000115
Figure BDA0004020838160000116
均表示经过对齐排序处理后的嵌入列表。
本实施例中,当一个机构承担中央服务器的角色,需要获得多个客户端的相似度;如附图2所示,使用上述方法依次将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐处理、再对比获得相似度,相似度越高,联邦学习的效果越好。中央服务器可以根据相似度的计算结果得出训练策略,对相似度进行排序筛选出相似度高的客户端为预选客户端进行联邦学习。在本实施例中,中央服务器还可以结合该机构的主营业务等因素,参考是否要邀请预选客户端进行联邦学习,被邀请的机构也有权选择是否同意联邦学习。
如附图4所示,中央服务器与预选客户端共同参与联邦学习的步骤具体为:中央服务器向预选客户端发送训练模型,预选客户端根据本地数据集对训练模型进行训练,获得模型梯度参数;将模型梯度参数依次进行剪裁处理、加噪处理后发送至中央服务器;
如附图3所示,训练模型为消息传递神经网络模型;训练模型的训练过程包括消息传递阶段和读出阶段;
消息传递阶段具体为:获取本地子图中每个节点的当前特征及该节点的邻节点特征,根据第一聚合函数生成节点的聚合特征,根据聚合特征和更新公式更新节点的隐藏特征;
读出阶段具体为:通过多层消息传递后,从最后一层的节点隐藏特征中计算特征向量并进行链接预测,完成一轮训练模型的训练。
具体地,节点的隐藏特征的更新过程如下:
Figure BDA0004020838160000121
其中,k表示客户端,c表示节点,l是层索引,
Figure BDA0004020838160000122
表示客户端k第l+1层索引中节点c的隐藏特征,Uφ(·)为更新公式,
Figure BDA0004020838160000123
表示客户端k第l层索引中节点c的特征,
Figure BDA0004020838160000124
表示客户端k第l+1层索引中节点c的聚合特征;
聚合特征的生成公式如下:
Figure BDA0004020838160000125
其中,AGG(·)表示第一聚合函数,Mθ(·)表示获得隐藏特征的消息生成函数,
Figure BDA0004020838160000126
表示客户端k第l层索引中节点c的特征,p表示节点c的邻节点,
Figure BDA0004020838160000127
表示客户端k第l层索引中邻节点p的特征,zc,p表示节点c和邻节点p的边特征,Nc表示节点c的邻节点集合。本实施例中,第一聚合函数可以直接用简单的加和操作处理。
具体地,特征向量的计算公式如下:
Figure BDA0004020838160000128
其中,k表示客户端k,D是节点对D,节点对D包括两个节点c,
Figure BDA0004020838160000129
表示客户端k节点对D的隐藏特征之间的特征向量,Rδ为级联函数或池化函数中的一种;l表示层数,
Figure BDA00040208381600001210
表示客户端k第l层节点c的隐藏特征,
Figure BDA00040208381600001211
表示客户端k的节点对集合;本实施例中,池化函数可以是加和操作加上单层或多层感知器。
具体地,对于客户端k,在第t轮训练时,本地的模型梯度参数设为
Figure BDA0004020838160000131
在将本地的模型梯度参数上传至中央服务器之前还经过剪裁处理和加噪处理。
具体地,剪裁处理的步骤具体为:
Figure BDA0004020838160000132
其中,t表示第t轮训练,k表示第k个客户端,
Figure BDA0004020838160000133
表示第t轮训练客户端k的模型梯度参数,
Figure BDA0004020838160000134
表示第t轮训练客户端k剪裁后的模型梯度参数,C表示剪裁阈值,本实施例中,C可以人为设定,但是需要满足|Wi|≤C,其中,Wi表示模型梯度参数的原始梯度。
本实施例中,为了保证模型梯度参数的私密性和安全性,在剪裁后的模型梯度参数进行加噪处理,加噪处理过程如下:
Figure BDA0004020838160000135
其中,t表示第t轮训练,k表示第k个客户端,
Figure BDA0004020838160000136
表示第t轮训练客户端k剪裁后的模型梯度参数,
Figure BDA0004020838160000137
表示第t轮训练客户端k加噪处理后的模型梯度参数,
Figure BDA0004020838160000138
表示第t轮训练客户端k的噪声参数。
中央服务器将所有预选客户端的加噪后的模型梯度参数进行聚合获得全局模型参数,将全局模型参数进行加噪处理后分别发送给各个预选客户端进行新一轮的训练,直至训练模型收敛。
本实施例中,模型梯度参数使用第二聚合函数进行梯度聚合;第二聚合函数如下:
Figure BDA0004020838160000139
其中,t表示训练轮次,W(t)表示第t轮的全局模型参数,k表示客户端,
Figure BDA0004020838160000141
表示第t轮客户端k的模型梯度参数,K表示参加训练的客户端总数,Aggregate{}表示第二聚合函数,本实施例中,第二聚合函数可以是常用的FedAvg(联邦平均法),也可以是优化改进后的FedOpt、FedProx方法。
本实施例中,对全局模型参数进行加噪的过程如下:
Figure BDA0004020838160000142
其中,W(t)表示第t轮的全局模型参数,n(t)表示全局噪声参数,
Figure BDA0004020838160000143
表示加噪后的全局模型参数。
其中噪声参数
Figure BDA0004020838160000144
和全局噪声参数n(t)均为高斯噪声分布,
Figure BDA0004020838160000145
Figure BDA0004020838160000146
其中
Figure BDA0004020838160000147
表示高斯分布,选择噪声尺度σ≥c′Δs/∈;常数c′的取值为
Figure BDA0004020838160000148
Δs是由
Figure BDA0004020838160000149
给出的函数s()的灵敏度,函数s()是实值函数;∈,δ为随机数由中央服务器指定分发,随机数的大小根据隐私保护的力度设定;其中随机数∈∈(0,1)。
将加噪后的全局模型参数发送至各个客户端进行新一轮的训练,直至训练模型收敛后,各个客户端保留好训练模型在本地进行使用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于组织相似度的联邦学习方法,其特征在于,包括以下步骤:
获取机构的本地子图,计算本地子图中各个节点的嵌入值;根据节点的嵌入值组成该机构本地子图的嵌入列表;
中央服务器获取多个客户端的嵌入列表,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理;根据嵌入列表和度量公式分别获取各个客户端与中央服务器的相似度,筛选出相似度高于设定值的客户端为预选客户端,中央服务器与预选客户端共同参与联邦学习;
所述度量公式如下:
Figure FDA0004186370790000011
其中,
Figure FDA0004186370790000012
表示机构i的嵌入列表,
Figure FDA0004186370790000013
表示机构j的嵌入列表,
Figure FDA0004186370790000014
表示机构i的嵌入列表中第x个节点嵌入值;
Figure FDA0004186370790000015
表示机构j的嵌入列表中第x个节点嵌入值;
节点的嵌入值的计算过程具体为:识别本地子图中的连通分量,获取连通分量的嵌入系数,根据嵌入系数和嵌入公式计算该连通分量中每个节点的嵌入值;嵌入公式如下:
Figure FDA0004186370790000016
其中,c表示节点,ec表示节点c的嵌入值,Nc表示节点c的邻节点集合,p表示节点c的一个邻节点;Wc,p表示节点c与节点p的边权重,coef表示连通分量f的嵌入系数,Wf表示整个连通分量f的边权重;
获取连通分量的嵌入系数过程如下:根据路径公式获取连通分量的平均最短路径长度,通过转换公式将平均最短路径长度转换为该连通分量的嵌入系数;
转换公式如下:
coef=(af-1)×(n/2)
其中,coef表示连通分量的嵌入系数,af表示连通分量的平均最短路径长度,n表示连通分量中的节点数;
路径公式如下:
Figure FDA0004186370790000021
其中,f表示连通分量,q表示连通分量中的任意一个节点,m表示连通分量中节点q能够到达的节点;d(q,m)表示从节点q至节点m的最短路径长度。
2.根据权利要求1所述的一种基于组织相似度的联邦学习方法,其特征在于,分别将每个客户端的嵌入列表与中央服务器的嵌入列表进行对齐排序处理的步骤具体为:
若客户端嵌入列表的嵌入值个数与中央服务器嵌入列表的嵌入值个数不相同,则对嵌入值个数较少的嵌入列表进行补全,使两个嵌入列表的嵌入值个数相同,再对客户端嵌入列表的嵌入值进行排序,对中央服务器嵌入值列表的嵌入值进行排序;补全嵌入值个数较少的嵌入列表时使用的是该嵌入列表的所有嵌入值的平均值。
3.根据权利要求1所述的一种基于组织相似度的联邦学习方法,其特征在于,中央服务器与预选客户端共同参与联邦学习的步骤具体为:
中央服务器向预选客户端发送训练模型,预选客户端根据本地数据集对训练模型进行训练,获得模型梯度参数;将模型梯度参数依次进行剪裁处理、加噪处理后发送至中央服务器;
中央服务器将所有预选客户端的模型梯度参数进行聚合获得全局模型参数,将全局模型参数进行加噪处理后分别发送给各个预选客户端进行新一轮的训练,直至训练模型收敛。
4.根据权利要求3所述的一种基于组织相似度的联邦学习方法,其特征在于,训练模型为消息传递神经网络模型;训练模型的训练过程包括消息传递阶段和读出阶段;
消息传递阶段具体为:获取本地子图中每个节点的当前特征及该节点的邻节点特征,根据第一聚合函数生成节点的聚合特征,根据聚合特征和更新公式更新节点的隐藏特征;
读出阶段具体为:通过多层消息传递后,从最后一层的节点隐藏特征中计算特征向量并进行链接预测,完成一轮训练模型的训练。
5.根据权利要求4所述的一种基于组织相似度的联邦学习方法,其特征在于,节点的隐藏特征的更新过程如下:
Figure FDA0004186370790000031
其中,k表示客户端,c表示节点,l是层索引,
Figure FDA0004186370790000032
表示客户端k第l+1层索引中节点c的隐藏特征,Uφ(·)为更新公式,
Figure FDA0004186370790000033
表示客户端k第l层索引中节点c的特征,
Figure FDA0004186370790000034
表示客户端k第l+1层索引中节点c的聚合特征;
聚合特征的生成公式如下:
Figure FDA0004186370790000035
其中,AGG(·)表示第一聚合函数,Mθ(·)表示获得隐藏特征的消息生成函数,
Figure FDA0004186370790000036
表示客户端k第l层索引中节点c的特征,p表示节点c的邻节点,
Figure FDA0004186370790000037
表示客户端k第l层索引中邻节点p的特征,zc,p表示节点c和邻节点p的边特征,Nc表示节点c的邻节点集合。
6.根据权利要求4或5所述的一种基于组织相似度的联邦学习方法,其特征在于,特征向量的计算公式如下:
Figure FDA0004186370790000041
其中,k表示客户端k,D是节点对D,节点对D包括两个节点c,
Figure FDA0004186370790000042
表示客户端k节点对D的隐藏特征之间的特征向量,Rδ为级联函数或池化函数中的一种;l表示层数,
Figure FDA0004186370790000043
表示客户端k第l层节点c的隐藏特征,
Figure FDA0004186370790000044
表示客户端k的节点对集合。
7.根据权利要求3所述的一种基于组织相似度的联邦学习方法,其特征在于,剪裁处理的步骤具体为:
Figure FDA0004186370790000045
其中,t表示第t轮训练,k表示第k个客户端,
Figure FDA0004186370790000046
表示模型梯度参数,
Figure FDA0004186370790000047
表示剪裁后的模型梯度参数,C表示剪裁阈值。
CN202211685693.3A 2022-12-27 2022-12-27 一种基于组织相似度的联邦学习方法 Active CN115775026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211685693.3A CN115775026B (zh) 2022-12-27 2022-12-27 一种基于组织相似度的联邦学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211685693.3A CN115775026B (zh) 2022-12-27 2022-12-27 一种基于组织相似度的联邦学习方法

Publications (2)

Publication Number Publication Date
CN115775026A CN115775026A (zh) 2023-03-10
CN115775026B true CN115775026B (zh) 2023-05-16

Family

ID=85393009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211685693.3A Active CN115775026B (zh) 2022-12-27 2022-12-27 一种基于组织相似度的联邦学习方法

Country Status (1)

Country Link
CN (1) CN115775026B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186341B (zh) * 2023-04-25 2023-08-15 北京数牍科技有限公司 一种联邦图计算方法、装置、设备及存储介质
CN117476217B (zh) * 2023-12-26 2024-03-26 山东大学齐鲁医院 一种慢性心脏病病情发展趋势预测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488322A (zh) * 2020-12-15 2021-03-12 杭州电子科技大学 一种基于数据特征感知聚合的联邦学习模型训练方法
CN113297175A (zh) * 2021-05-26 2021-08-24 Oppo广东移动通信有限公司 数据处理方法、装置、系统和可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11362906B2 (en) * 2020-09-18 2022-06-14 Accenture Global Solutions Limited Targeted content selection using a federated learning system
CN112100295A (zh) * 2020-10-12 2020-12-18 平安科技(深圳)有限公司 基于联邦学习的用户数据分类方法、装置、设备及介质
CN112508205A (zh) * 2020-12-04 2021-03-16 中国科学院深圳先进技术研究院 一种联邦学习调度方法、装置及系统
CN114492833A (zh) * 2021-12-29 2022-05-13 上海智能网联汽车技术中心有限公司 基于梯度记忆的车联网联邦学习分层知识安全迁移方法
CN114925854A (zh) * 2022-04-02 2022-08-19 同济大学 一种基于梯度相似性度量的联邦学习节点选择方法及系统
CN114510652B (zh) * 2022-04-20 2023-04-07 宁波大学 一种基于联邦学习的社交协同过滤推荐方法
CN114781545B (zh) * 2022-05-10 2023-05-05 重庆大学 一种联邦学习方法及系统
CN115062710A (zh) * 2022-06-22 2022-09-16 西安电子科技大学 基于深度确定性策略梯度的联邦学习分类模型训练方法
CN115311478A (zh) * 2022-08-16 2022-11-08 悉科大创新研究(深圳)有限公司 一种基于图深度聚类的联邦影像分类方法、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488322A (zh) * 2020-12-15 2021-03-12 杭州电子科技大学 一种基于数据特征感知聚合的联邦学习模型训练方法
CN113297175A (zh) * 2021-05-26 2021-08-24 Oppo广东移动通信有限公司 数据处理方法、装置、系统和可读存储介质

Also Published As

Publication number Publication date
CN115775026A (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN115775026B (zh) 一种基于组织相似度的联邦学习方法
Jiao et al. Toward an automated auction framework for wireless federated learning services market
Silva et al. A graph-based friend recommendation system using genetic algorithm
CN106372072B (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN104778173B (zh) 目标用户确定方法、装置及设备
Arya et al. A novel TODIM‐VIKOR approach based on entropy and Jensen–Tsalli divergence measure for picture fuzzy sets in a decision‐making problem
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
Lin et al. A hybrid differential evolution algorithm for mixed-variable optimization problems
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
CN109583904A (zh) 异常操作检测模型的训练方法、异常操作检测方法及装置
CN107133690B (zh) 一种河湖水系连通工程方案优选排序方法
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN110705045B (zh) 一种利用网络拓扑特性构建加权网络的链路预测方法
CN110147427A (zh) 项目案件推送方法以及装置
CN110263236A (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
CN110502701B (zh) 引入注意力机制的好友推荐方法、系统和存储介质
Liu et al. Three-way decisions with single-valued neutrosophic decision theory rough sets based on grey relational analysis
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN114362948A (zh) 一种高效的联邦衍生特征逻辑回归建模方法
CN113868537A (zh) 一种基于多行为会话图融合的推荐方法
CN112435034A (zh) 一种基于多网络图聚合的营销套利黑产的识别方法
CN109981337B (zh) 面向数据开放共享的多源数据对齐方法
CN111415265A (zh) 生成式对抗网络的社交关系数据生成方法
CN115935079A (zh) 一种基于簇的图协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant