CN115190028A - 基于局域通信网络的去中心化联邦学习方法、装置和系统 - Google Patents
基于局域通信网络的去中心化联邦学习方法、装置和系统 Download PDFInfo
- Publication number
- CN115190028A CN115190028A CN202210686784.2A CN202210686784A CN115190028A CN 115190028 A CN115190028 A CN 115190028A CN 202210686784 A CN202210686784 A CN 202210686784A CN 115190028 A CN115190028 A CN 115190028A
- Authority
- CN
- China
- Prior art keywords
- client
- local
- communication network
- clients
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 10
- 238000007477 logistic regression Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000032839 leukemia Diseases 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 240000007472 Leucaena leucocephala Species 0.000 description 1
- 235000010643 Leucaena leucocephala Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于局域通信网络的去中心化联邦学习方法、装置和系统,属于联邦学习领域。包括:监测接收到的连接关系或者自身的连接关系是否变化,若是,重新确定局部通信网络的拓扑结构,更新权重矩阵,否则,不更新;综合所有相邻客户端发送的模型参数和本地模型参数,按照当前的权重矩阵加权更新本地模型参数;采用本地数据独立训练局部模型;一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。本发明通过对于局部通信网络的构建和更新机制,实现动态连接网络的去中心化联邦学习模型训练。
Description
技术领域
本发明属于联邦学习领域,更具体地,涉及基于局域通信网络的去中心化联邦学习方法、装置和系统。
背景技术
联邦学习旨在建立一个基于分布数据集的联邦学习模型,以应对数据孤岛问题。随着人工智能在各行业的应用落地,人们对于隐私和数据安全的关注度不断提高。如何在遵守更加严格的、新的隐私保护条例下,解决数据碎片化和数据隔离问题,是当前人工智能研究和实践中面临的首要挑战。人们对于数据失去掌控,以及对于增益分配效果不透明,加剧了所谓数据碎片化和孤岛分布的严重性。为了确保用户隐私和数据安全,各客户端交换模型信息的过程将会被精心的设计,使得没有客户端能够猜测到其他任何客户端的隐私数据内容。
CN113645197A公开了一种去中心化的联邦学习方法、装置及系统,其主要内容如下:在参与联邦学习的多个客户端之间建立全局通信网络,使得任意两个客户端之间存在通信路径;各客户端分别接收与其直接通信的其他客户端上一时刻的模型参数,并分别计算其得到的各上一时刻的模型参数与相应权重系数之间乘积的和,以及计算其上一时刻的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积,将其当前时刻的模型参数更新为和与第一乘积之间的差值;重复执行上述迭代更新操作,直至各客户端的局部模型的损失函数不高于相应的阈值,或者直至重复执行的次数达到最大迭代次数。然而,该方法存在以下缺陷和不足:
该方法是基于全连通网络,并要求整个网络结构固定不变。该方法无法适用于拥有新训练数据的新客户端的加入,导致全局模型无法及时更新和提升;整个网络中已经通信的客户端之间的连接一旦发生中断,会导致整体网络的泛化能力下降。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于局域通信网络的去中心化联邦学习方法、装置和系统,其目的在于允许新客户端加入和旧客户端退出的联邦学习,及时更新全局模型,提高泛化能力。
为实现上述目的,按照本发明的第一方面,提供了一种基于局域通信网络的去中心化联邦学习方法,该方法包括:
局域通信网络的构建:开始联邦学习时,在当前参与联邦学习的多个客户端之间建立局部通信网络,使得局部通信网络内任意两个客户端之间可达,所述当前参与联邦学习的多个客户端中至少一个存放有模型;
客户端模型参数更新:局部通信网络内的每个客户端内作以下处理:
S1.判断是否存在模型,若无模型,则向相邻客户端发送获取模型的请求;否则,进入S2;
S2.采用本地数据独立训练局部模型;
S3.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端;
S4.根据接收到的连接关系,确定局部通信网络的拓扑结构,并计算权重矩阵;
S5.综合所有相邻客户端发送的模型参数和本地模型参数,按照权重矩阵加权更新本地模型参数,进入S2;
局域通信网络的更新:
局部通信网络内的每个客户端内作以下处理:
T1.监测接收到的连接关系或者自身的连接关系是否发生变化,若是,则重新确定局部通信网络的拓扑结构,并更新权重矩阵,否则,不更新;
T2.综合所有相邻客户端发送的模型参数和本地模型参数,按照更新后的权重矩阵加权更新本地模型参数;
T3.采用本地数据独立训练局部模型;
T4.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
优选地,所述权重矩阵的计算过程如下:
(1)确定局部通信网络内所有客户端的数目;
(2)根据客户端数量和局部通信网络内各客户端的连接关系,为每两个所述客户端之间的通信路径设置相应的权重系数,得到权重矩阵;
所述权重系数满足:在迭代时刻t,若客户端k和客户端j直接通信,则客户端k和客户端j之间的权重系数Wkj(t)>0;否则,Wkj(t)=0;客户端k的权重系数Wkk(t)>0;K为参与联邦学习的客户端的数量,客户端k和客户端j为任意两个所述客户端;
(3)对当前累计局部通信网络对应的权重矩阵进行有效性判断,若有效,则仅新加入客户端或者旧客户端退出时触发权重矩阵的更新,其他情形均不更新,否则,持续更新。
优选地,对当前累计局部通信网络对应的权重矩阵进行有效性判断,具体如下:
t-b+1至t时段内累积的局域通信网络对应的权重矩阵记为:
其中,W(t)表示t时刻的权重矩阵,b为任意常数;当t<0时,Wb(t)=I;以及,任意t时,W0(t)=I,I表示单位矩阵;
若存在正常数B,使得λ=maxt≥Bλ(t)<1,则判定为有效;
有益效果:本发明通过判断判断权重矩阵是否满足maxt≥Bλ(t)<1,确定权重矩阵成立,而该条件的成立,反映了模型权重的有效性。因此,此方法可有效保证模型之间的权重聚合。
优选地,对于每个客户端k=1,…,K,更新规则是:
其中,t表示迭代的步数,wk(t)表示第k个客户端在第t步时的权重,K表示客户端数量,Wkj(t)表示在第t步时当前第k个客户端和第j个客户端传递过来的权重的加权系数,ηt>0为学习速率,可以任意选择初始条件wk(0)∈Rn,表示模型梯度函数。
有益效果:本发明通过上述优选方式进行更新,由于传递的模型权重需同自身更新梯度的结合进行模型的参数更新,实现了联邦学习的有效权重传递和参数更新。
优选地,所述第一预设条件为达到最大迭代次数或者达到预设的权重传递时间周期。
有益效果:本发明通过上述优选条件确定发送模型参数的时机,由于模型权重的传递和通信时间以及成本之间的抉择平衡,实现在不基于实时的传递模型参数情况下的联邦学习。
优选地,所述第二预设条件为达到预设的连接关系传递时间周期。
有益效果:本发明通过上述优选条件确定发送连接关系的时机,由于网络结构的节点的存在的动态更新,实现了可基于模型更新情况下的动态网络权重构建。
为实现上述目的,按照本发明的第二方面,提供了一种基于局域通信网络的去中心化联邦学习装置,用于第一客户端,所述第一客户端与一个或多个第二客户端参与联邦学习,包括:
建立模块,用于建立与所述一个或多个第二客户端之间的局域通信网络,使得局部通信网络内任意两个客户端之间可达,所述当前参与联邦学习的客户端中至少一个存放有模型;
所述去中心化联邦学习装置通过以下方式完成构建阶段的学习和客户端模型参数更新:
S1.判断是否存在模型,若无模型,则向相邻客户端发送获取模型的请求;否则,进入S2;
S2.采用本地数据独立训练局部模型;
S3.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端;
S4.根据接收到的连接关系,确定局部通信网络的拓扑结构,并计算权重矩阵;
S5.综合所有相邻客户端发送的模型参数和本地模型参数,按照权重矩阵加权更新本地模型参数,进入S2;
所述去中心化联邦学习装置通过以下方式完成更新阶段的学习:
T1.监测接收到的连接关系或者自身的连接关系是否发生变化,若是,则重新确定局部通信网络的拓扑结构,并更新权重矩阵,否则,不更新;
T2.综合所有相邻客户端发送的模型参数和本地模型参数,按照更新后的权重矩阵加权更新本地模型参数;
T3.采用本地数据独立训练局部模型;
T4.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
为实现上述目的,按照本发明的第三方面,提供了一种基于局域通信网络的去中心化的联邦学习系统,包括:参与联邦学习的多个客户端,所述多个客户端用于执行如第一方面所述的基于局域通信网络的去中心化的联邦学习方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明提出一种基于局域通信网络的去中心化联邦学习机制,通过对于局部通信网络的构建和更新机制,由于联邦学习网络中的网络节点在去中心的情况下会存在客户端节点的更新(客户端进入或退出)的问题,导致去中心的网络拓扑连接结构发生变换导致传统的去中化模型训练失效,实现动态连接网络的去中心化联邦学习模型训练。
附图说明
图1为本发明提供的一种基于局域通信网络的去中心化联邦学习方法流程图;
图2为现有技术中在不同的联邦学习框架中的关于客户端通信拓扑的关键概念。
图3为本发明实施例提供的A2数据集FedAvg、SL和DeceFL三种算法在Logistic回归/神经网络上的IID/非IID设置的性能;
图4为本发明实施例提供的A2数据集时具有时变连边的DeceFL和具有时变节点的DeceFL两种算法在Logistic回归/神经网络上的IID/非IID设置的性能;
图5为本发明实施例提供的CWRU基准数据集FedAvg、SL和DeceFL三种算法在Logistic回归/神经网络上的IID/非IID设置的性能。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
这样的优化问题在没有集中信息的情况下无法直接解决。但是,客户端希望使用相同的目标函数F协同训练模型其中,第k个客户端不将其数据发送给其他人。将性能差距定义为一个非负度量,它量化了集中模型和去中心模型之间的退化性能:
为了以去中心的方式解决优化问题,将客户端之间的通信网络建模为一个无向连接的图其中,表示客户端集,表示通信信道集,每个信道连接两个不同的客户端。对于每条边(i,j)∈ε,邻接矩阵W中对应的元素,即Wij表示第i个客户端与第j个客户端之间是否存在通信信道。具体来说,当Wij>0时,客户端i和j之间存在信息通信,而Wij=0表示没有。对于客户机i,当Wij>为0时,客户机j被称为客户机i的邻居。所有这些客户端的集合j都表示为即 定义局部损失函数作为用户指定的数据集上的损失函数,模型参数为然后可以重写为让客户端k持有全局变量w的本地副本,用wk∈Rn表示,用w=[w1;…;wK]∈RKn表示。具体来说,对于每个客户端k=1,……,K,本方法的更新规则是:
其中,ηt>0为学习速率,可以任意选择初始条件wk(0)∈Rn。每个客户端都与它的邻居(这是所有其他客户端的子集)共享它们的模型参数,而不是它们的数据。具体来说,每个客户端都在运行它的局部训练算法,例如,梯度下降,它只与邻居通信自己的全局参数的估计。一旦客户从邻近客户收到其他估计,它就会将其他估计取平均值,增加其局部梯度,并在下一次迭代中生成其估计。上述过程将被重复,直到收敛。在本系统中,每个客户端通过直接与邻居客户端进行接收和传输以及局部梯度计算来完成更新,而不需要在任何迭代中进行第三方中心客户端的聚合和传输。因此,它是完全分散的。
其中,W=[Wij]∈RK×K,In∈Rn×n为单位矩阵。
如图1所示,本发明提供了一种基于局域通信网络的去中心化联邦学习方法,该方法包括:局域通信网络的构建和更新。
局域通信网络的构建
建立模块,用于建立与所述一个或多个第二客户端之间的局域通信网络,使得局部通信网络内任意两个客户端之间可达,所述当前参与联邦学习的客户端中至少一个存放有模型;
所述去中心化联邦学习装置通过以下方式完成构建阶段的学习和客户端模型参数更新,具体为对于局部通信网络内的每个客户端内作以下处理:
S1.判断是否存在模型,若无模型,则向相邻客户端发送获取模型的请求;否则,进入S2。
S2.采用本地数据独立训练局部模型。
S3.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
所述第一预设条件为客户端模型权重传递的预设条件,具体地,按照一定的迭代次数传递一次或者预设的时间周期传递一次。
所述第二预设条件为客户端连接关系传递的预设条件,具体地,按照预设的时间周期传递一次。
S4.根据接收到的连接关系,确定局部通信网络的拓扑结构,并计算权重矩阵。
所述权重矩阵的计算过程如下:
(1)确定局部通信网络内所有客户端的数目;
(2)根据客户端数量和局部通信网络内各客户端的连接关系,计算权重矩阵。
为每两个所述客户端之间的通信路径设置相应的权重系数,所述权重系数满足:在迭代时刻t,客户端k和客户端j直接通信时,客户端k和客户端j之间的权重系数Wkj(t)>0;其他,Wkj(t)=0;客户端k的权重系数Wkk(t)>0;K为参与联邦学习的客户端的数量,客户端k和客户端j为任意两个所述客户端。
(3)此时通信网络图对任意时刻t,任意常数b,有限时间内累积连通图记为:
此时,对应的权重矩阵记为:
当t<0时,Wb(t)=I;以及,任意t时,W0(t)=I。
判断权重矩阵是否满足maxt≥Bλ(t)<1,其中, 是矩阵的模最大的奇异值,若是,权重矩阵成立,否则,进入(2),在迭代中更新权重矩阵并计算;其中,t表示迭代的步数,B表示一个正的常数,WB(t)表示权重系数形成对称的权重矩阵,K表示客户端数量,1K表示K阶分量全为1的向量,σmax表示最大的奇异值。
S5.综合所有相邻客户端发送的模型参数和本地模型参数,按照权重矩阵加权更新本地模型参数,进入S2。
整个构建的过程是迭代的。
局域通信网络的更新
局部通信网络内的每个客户端内作以下处理:
T1.监测接收到的连接关系或者自身的连接关系是否发生变化,若是,则重新确定局部通信网络的拓扑结构,并更新权重矩阵,否则,不更新。
T2.综合所有相邻客户端发送的模型参数和本地模型参数,按照更新后的权重矩阵加权更新本地模型参数。
对于每个客户端k=1,…,K,更新规则是:
其中,t表示迭代的步数,wk(t)表示第k个客户端在第t步时的权重,K表示客户端数量,Wkj表示在第t步时当前第k个客户端和第j个客户端传递过来的权重的加权系数,ηt>0为学习速率,可以任意选择初始条件wk(0)∈Rn,表示模型梯度函数。
T3.采用本地数据独立训练局部模型。
T4.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
情形1:新增客户。
若在局部通信网络中,新连入一个客户端,则其首先与其物理属性相连的客户端进行通信,并按照S1步骤开始进行处理,而其邻接的客户端则会按照T1中判断自身的连接关系有新增,则会从其局部通信网络的拓扑结构中添加新增的联通节点,并基于更新后的拓扑网络更新权重矩阵。
情形2:原客户端退出。
若在局部通信网络中,某个网络中的客户端退出,则其首先与其物理属性相连的客户端断连,而其邻接的客户端则会按照T1中判断自身的连接关系有变换(之前能通信上的节点不再传递信息,不能联通),则会从其局部通信网络的拓扑结构中删除不能联通的节点,并基于更新后的拓扑网络更新权重矩阵.
当所有客户端中局部模型训练完毕之后,各客户端利用训练后的局部模型处理其接收到的待处理数据,例如利用训练后的局部模型完成图像或文字的多分类目标。
下面结合实例来验证本发明的有效性和正确性。基于上述两个问题,采用本发明的方法设计具有不同个数客户端的联邦学习框架,考虑各客户端从训练/测试数据集中进行均匀随机采样的数据的划分方式,采用本实施例去中心化的联邦学习方法和具有中心服务器的联邦平均方法进行训练。需要指出的是,在模型训练和预测的过程中,本发明未使用非训练数据以外的数据样本。
数据预处理:数据预处理指的是对CWRU数据集进行了必要的数据预处理,包括类均衡和归一化,傅里叶变换特征提取。该数据集总共有10个类,它们的样本大小不同。因此,某些类的样本被删除,以平衡所有类的样本大小。原始数据为时间序列数据,首先每300个点分割一次,得到一个时间序列族。每个时间序列分别选择DE和FE特征,产生600个点。对于每个特征的每个时间序列样本,进行快速傅里叶变换(FFT),得到150个点。因此DE和FE的每个时间序列总共有300个点。使用FFT的目的是处理顺序数据的时间戳不匹配。FFT之后,训练和测试数据通过去除均值和缩放到单位方差进行归一化(测试数据通过训练的归一化器进行归一化)。
模型介绍:为了确保DeceFL能够很好地应用于深度神经网络(DNN)模型:对于DNN,每个节点每轮运行30个epoch,批处理大小为64。它使用SGD优化器,权重衰减系数为10-4。初始学习速率为0.1,每20个epoch学习率衰减一次(乘以衰减系数0.2)。该DNN有8个隐藏层,其维度分别为256、512、512、256、256、128、128、64。退出率设置为0.3。两种方法都使用Sigmoid作为输出层的激活函数进行二值分类(数据集A2),使用Softmax作为多类分类(数据集CWRU)。在聚合时,DeceFL的梯度更新系数为0.1。通过对所有方法的可视化收敛效果进行比较,确定了算法的总运行轮数。
性能评价指标:选择常用的性能度量“准确性”用于分类评估,计算公式如下:
其中,TP、TN、FP、FN分别表示真阳性、真阴性、假阳性和假阴性样本数量。
图2中介绍了在不同的联邦学习框架中的关于客户端通信拓扑的关键概念。其中,a介绍了经典联邦学习框架(FedAvg),需要一个中央服务器来接收和传输所有基本信息到其他客户端。它等价于一个没有中央服务器的全局连通网络,即网络中的每个客户端都可以从所有其他客户端接收信息。b中介绍了群学习框架(SL),不存在这样一个通用的中央服务器,但每次迭代都会选择一个可能不同的中央服务器。从数学上讲,它相当于具有不同中央服务器的FedAvg。c中介绍了去中心化联邦学习框架(DeceFL),在迭代中都不需要一个中央服务器,并且任意结构的时不变/时变拓扑都可以运行,实现经典的联邦学习和群学习统一框架。
第一、使用外周血单个核细胞(PBMC)转录组数据集,记为“A2”,作为一个基准示例,比较三个联邦学习框架:将样本分解为与每个节点相关联的非重叠训练数据集,以及一个全局测试数据集,用于测试构建在这些框架上的模型。实验设置与SL一致,将数据集按8:2的比例分为训练集和测试集,从训练集中获得每个节点所拥有的数据集。实验选择了L2正则化的Logistic回归模型和8层完全连接的深度神经网络。DeceFL从A2基准数据集预测白血病。其中,a将数据划分为所有客户端的IID样本。b将数据分为非IID不平衡样本。c中,FedAvg、SL和DeceFL的拓扑结构不同。当选择任何其他节点作为中央服务器时,SL的拓扑必须保持在每次迭代中,如d-g所示,三种算法在Logistic回归/神经网络上的IID/非IID设置的性能。
具体地,基准测试DeceFL、FedAvg和SL的IID设置数据集A2(图3),也就是说,每个节点的样本量是训练集样本容量除以节点的数量,并确保每个节点有相同数量的样品和积极的负样本的比例大约是1:1。DeceFL应用了具有不同连通概率值的多个连通图(p=0.3、0.5、0.7、0.9)。该基准测试表明,DeceFL可以达到与FedAvg和SL相同的性能,它们使用一个(临时)中央服务器从每个节点收集所有信息。由于去中心化的特性,FedAvg和SL只在DeceFL需要一定数量的迭代才能收敛的过渡时期表现得更好。其次,对数据集A2的非-IID设置重复进行类似的比较研究(图3中的b)。非-IID设置显式地设计了与每个节点关联的本地数据的样本大小和正负样本之间的比率。它允许以平衡/不平衡、充分/不足的本地培训数据为基准来衡量绩效。得到了与IID设置非常相似的结果,在DeceFL在去分权计算中达成一致后,DeceFL表现出与FedAvg和SL同等的性能。它也显示了DeceFL相对于SL的优越性,然而DeceFL在每次迭代中对所选择的中央服务器都需要大量的通信成本,并且很大程度上依赖于一个稳定的全连接通信结构的强假设。客户端或通信路径的任何一点故障都可能破坏整个SL流程,因为在每次迭代中,一个客户端都被委托从所有其他客户端收集信息。
第二、DeceFL从A2基准数据集预测白血病,如图4所示。其中,a,时变通信拓扑,由一系列时变通信拓扑图组成,其中每一个图都不连接,但固定周期内的总和图是连接的。b,随时间增加或删除节点的时变通信拓扑。c-d,使用Logistic回归在数据集A2的IID和非IID设置上使用通信连边变化图的DeceFL的性能,以及使用完整信息的FedAvg的参考性能。e-f,在数据集A2的IID和非IID设置上,使用Logistic回归的DeceFL与节点变化图的性能,以及使用完整信息的FedAvg的参考性能。
具体地,为了显示在对去中心化基础设施进行干预时DeceFL的良好功能,使用时变通信拓扑进行了两个实验,其中考虑了客户端故障和通信路径。首先,图4中a时变通信结构/图,即描述节点之间通信方式的邻接矩阵随时间变化。尽管被命名为去中心化框架,SL需要一个全连接的通信图;而DeceFL只要求IID和非IID实验中所示的连通图。这个时变实验进一步表明,DeceFL的条件甚至可以被弱化和一般化,以至于每一次的通信图都不需要连接,只要在一个固定的时间段内,任何一对节点之间都可以传输信息。令人惊讶的是,图4中c(IID)和图4中d(非-IID)的实验结果表明,DeceFL在这种情况下保持了与FedAvg相似的性能。换句话说,DeceFL可以如此强健,以至于小部分边的随机故障可能只会恶化DeceFL运行过程。第二次实验考虑了节点的切除和补充,如图4中b所示:前300次迭代,使用了6个节点的Erdos-Renyi连通图;然后在301-600次迭代中,通过增加2个节点,得到8个节点的图;在其余的迭代中,图被随机移除2个节点。图4中e、f的实验结果表明,在这种节点干预下,DeceFL具有与FedAvg相似的鲁棒性(不考虑节点干预)。两个实验表明DeceFL对计算基础设施干预的鲁棒性。
第三、基于DeceFL的CWRU基准数据集轴承故障检测。现代制造业深受人工智能技术的影响,计算能力和数据量都有了惊人的增长。为了提高生产效率和降低生产成本,机械加工过程中的故障诊断是一个重要的挑战。基于人工智能的算法具有检测故障位置甚至提前预测故障的潜力,可以用实时数据驱动的预测维护取代常规维护,进一步降低不必要的维护成本,保证可靠性。完全去中心化的框架DeceFL为多个工厂提供了一种开发全局模型的方法,该模型从局部的本地数据中产生互惠互利,而无需将数据诉诸于公共。将分布式的故障诊断方法应用于制造业,使用凯斯西储大学(CWRU)的轴承数据,其中包括方法部分规定的正常和故障轴承的滚珠轴承测试数据。具体来说,使用了三种类型的轴承数据:7英寸、14英寸和21英寸;并选择了驱动端缺陷,包括外圈缺陷、内圈缺陷和球缺陷。选择出现在中心位置的6类外部缺陷。因此,共有10种不同的情况:9种故障类型(3种轴承类型乘以3种缺陷类型)和正常情况。所有正在使用的数据以每秒12000个样品的速度收集,用于驱动端轴承实验。它是由4种类型的电机转速:1797转、1772转、1750转和1730转的数据留作测试。
假设有4家工厂,它们收集各自的私有全周期轴承数据。关于每个客户端的训练数据集的IID(图5中a)和非IID设置,如图5中b所示。其中考虑了10种方式的分类问题,9种故障案例(B007、IR007、OR007、B014、IR014、OR014、B021、IR021、OR021)和1种正常案例。学习方法有两种,正则化Logistic回归作为一种强凸方法,深度神经网络(DNN)作为一种非凸方法。在Logistic回归的使用中,正如在理论上所保证的,图5中d的DeceFL证实了其瞬态周期后的性能与FedAvg相同。对于DNN,作为一种非凸方法,虽然没有理论上的保证,图5中e、g的DeceFL表现出与FedAvg竞争的性能。图5中f的DeceFL和FedAvg在测试中略微的性能差距可能主要是由于所选择的DNN类型。总体而言,DeceFL在工业故障诊断应用的多种类分类方面表现出了具有竞争力的性能,在完全去中心化的框架中实现了(非)凸问题的研究,突破了数据隐私的障碍。
结果表明,与具有中心服务器的联邦平均方法相比,本实施例中去中心化的联邦学习方法在不同的数据集上都可以实现相似的精度。本发明实施例公开了一种去中心化的联邦学习方法,包括系统初始化、各客户端并行训练局部模型、模型参数发送、模型参数接收、模型参数更新等操作,克服了现有联邦学习参数服务器单点故障的缺点。同时,允许每次训练任务可以有不同的参与者加入或者退出,增加了联邦学习的鲁棒性。本发明在实现以上功能的同时,保证了联邦学习的性能,有效地改善了联邦学习的安全训练环境,具有广泛的应用前景。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于局域通信网络的去中心化联邦学习方法,其特征在于,该方法包括:
局域通信网络的构建:开始联邦学习时,在当前参与联邦学习的多个客户端之间建立局部通信网络,使得局部通信网络内任意两个客户端之间可达,所述当前参与联邦学习的多个客户端中至少一个存放有模型;
客户端模型参数更新:局部通信网络内的每个客户端内作以下处理:
S1.判断是否存在模型,若无模型,则向相邻客户端发送获取模型的请求;否则,进入S2;
S2.采用本地数据独立训练局部模型;
S3.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端;
S4.根据接收到的连接关系,确定局部通信网络的拓扑结构,并计算权重矩阵;
S5.综合所有相邻客户端发送的模型参数和本地模型参数,按照权重矩阵加权更新本地模型参数,进入S2;
局域通信网络的更新:
局部通信网络内的每个客户端内作以下处理:
T1.监测接收到的连接关系或者自身的连接关系是否发生变化,若是,则重新确定局部通信网络的拓扑结构,并更新权重矩阵,否则,不更新;
T2.综合所有相邻客户端发送的模型参数和本地模型参数,按照更新后的权重矩阵加权更新本地模型参数;
T3.采用本地数据独立训练局部模型;
T4.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
2.如权利要求1所述的方法,其特征在于,所述权重矩阵的计算过程如下:
(1)确定局部通信网络内所有客户端的数目;
(2)根据客户端数量和局部通信网络内各客户端的连接关系,为每两个所述客户端之间的通信路径设置相应的权重系数,得到权重矩阵;
所述权重系数满足:在迭代时刻t,若客户端k和客户端j直接通信,则客户端k和客户端j之间的权重系数Wkj(t)>0;否则,Wkj(t)=0;客户端k的权重系数K为参与联邦学习的客户端的数量,客户端k和客户端j为任意两个所述客户端;
(3)对当前累计局部通信网络对应的权重矩阵进行有效性判断,若有效,则仅新加入客户端或者旧客户端退出时触发权重矩阵的更新,其他情形均不更新,否则,持续更新。
5.如权利要求1所述的方法,其特征在于,所述第一预设条件为达到最大迭代次数或者达到预设的权重传递时间周期。
6.如权利要求1所述的方法,其特征在于,所述第二预设条件为达到预设的连接关系传递时间周期。
7.一种基于局域通信网络的去中心化联邦学习装置,用于第一客户端,所述第一客户端与一个或多个第二客户端参与联邦学习,其特征在于,包括:
建立模块,用于建立与所述一个或多个第二客户端之间的局域通信网络,使得局部通信网络内任意两个客户端之间可达,所述当前参与联邦学习的客户端中至少一个存放有模型;
所述去中心化联邦学习装置通过以下方式完成构建阶段的学习和客户端模型参数更新:
S1.判断是否存在模型,若无模型,则向相邻客户端发送获取模型的请求;否则,进入S2;
S2.采用本地数据独立训练局部模型;
S3.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端;
S4.根据接收到的连接关系,确定局部通信网络的拓扑结构,并计算权重矩阵;
S5.综合所有相邻客户端发送的模型参数和本地模型参数,按照权重矩阵加权更新本地模型参数,进入S2;
所述去中心化联邦学习装置通过以下方式完成更新阶段的学习:
T1.监测接收到的连接关系或者自身的连接关系是否发生变化,若是,则重新确定局部通信网络的拓扑结构,并更新权重矩阵,否则,不更新;
T2.综合所有相邻客户端发送的模型参数和本地模型参数,按照更新后的权重矩阵加权更新本地模型参数;
T3.采用本地数据独立训练局部模型;
T4.一旦满足第一预设条件,将已训练好的模型参数发送给各相邻客户端;一旦满足第二预设条件,将连接关系发送给各相邻客户端。
8.一种基于局域通信网络的去中心化的联邦学习系统,其特征在于,包括:参与联邦学习的多个客户端,所述多个客户端用于执行如权利要求1至6任一项所述的基于局域通信网络的去中心化的联邦学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686784.2A CN115190028B (zh) | 2022-06-16 | 2022-06-16 | 基于局域通信网络的去中心化联邦学习方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686784.2A CN115190028B (zh) | 2022-06-16 | 2022-06-16 | 基于局域通信网络的去中心化联邦学习方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115190028A true CN115190028A (zh) | 2022-10-14 |
CN115190028B CN115190028B (zh) | 2024-05-14 |
Family
ID=83513732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686784.2A Active CN115190028B (zh) | 2022-06-16 | 2022-06-16 | 基于局域通信网络的去中心化联邦学习方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115190028B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016212A (zh) * | 2022-12-26 | 2023-04-25 | 电子科技大学 | 一种带宽感知的去中心化联邦学习方法及装置 |
CN116016212B (zh) * | 2022-12-26 | 2024-06-04 | 电子科技大学 | 一种带宽感知的去中心化联邦学习方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212110A (zh) * | 2019-12-13 | 2020-05-29 | 清华大学深圳国际研究生院 | 一种基于区块链的联邦学习系统及方法 |
WO2021120676A1 (zh) * | 2020-06-30 | 2021-06-24 | 平安科技(深圳)有限公司 | 联邦学习网络下的模型训练方法及其相关设备 |
CN113033712A (zh) * | 2021-05-21 | 2021-06-25 | 华中科技大学 | 一种基于联邦学习的多用户协同训练人流统计方法及系统 |
-
2022
- 2022-06-16 CN CN202210686784.2A patent/CN115190028B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212110A (zh) * | 2019-12-13 | 2020-05-29 | 清华大学深圳国际研究生院 | 一种基于区块链的联邦学习系统及方法 |
WO2021120676A1 (zh) * | 2020-06-30 | 2021-06-24 | 平安科技(深圳)有限公司 | 联邦学习网络下的模型训练方法及其相关设备 |
CN113033712A (zh) * | 2021-05-21 | 2021-06-25 | 华中科技大学 | 一种基于联邦学习的多用户协同训练人流统计方法及系统 |
Non-Patent Citations (2)
Title |
---|
YE YUAN等: "DeFed: A Principled Decentralized and Privacy-Preserving Federated Learning Algorithm", 《MACHINE LEARNING (CS.LG)》, 30 October 2021 (2021-10-30) * |
王亚坤: "面向数据共享交换的联邦学习技术发展综述", 无人系统技术, no. 06, 15 November 2019 (2019-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016212A (zh) * | 2022-12-26 | 2023-04-25 | 电子科技大学 | 一种带宽感知的去中心化联邦学习方法及装置 |
CN116016212B (zh) * | 2022-12-26 | 2024-06-04 | 电子科技大学 | 一种带宽感知的去中心化联邦学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115190028B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107483251B (zh) | 一种基于分布式探针监测的网络业务异常侦测方法 | |
Li et al. | Data-driven bearing fault identification using improved hidden Markov model and self-organizing map | |
CN109948000B (zh) | 异质网络的异常目标检测方法、装置、设备及存储介质 | |
CN113645197B (zh) | 一种去中心化的联邦学习方法、装置及系统 | |
Wang et al. | On scalability and robustness limitations of real and asymptotic confidence bounds in social sensing | |
Ayadi et al. | A machine learning methods: Outlier detection in wsn | |
CN112926023A (zh) | 一种基于考虑气象因素p系统的输电网故障诊断方法 | |
CN115293256A (zh) | 一种由区块链辅助的联邦学习无线网络模型 | |
Suzuki et al. | On estimating communication delays using graph convolutional networks with semi-supervised learning | |
Salhab et al. | Social learning with sparse belief samples | |
Zhao et al. | Spatiotemporal graph convolutional recurrent networks for traffic matrix prediction | |
Chen et al. | Testing the structure of a Gaussian graphical model with reduced transmissions in a distributed setting | |
Wind et al. | Link prediction in weighted networks | |
Gautam et al. | Evolving clustering based data imputation | |
CN115190028A (zh) | 基于局域通信网络的去中心化联邦学习方法、装置和系统 | |
Ramakrishnan et al. | Comparative study between traditional and modified probabilistic neural networks | |
Heggi et al. | LSTM-NB: DoS Attack Detection On SDN With P4 Programmable Dataplane | |
Peng et al. | Classifying multiclass relationships between ASes using graph convolutional network | |
Dong et al. | Towards understanding and reducing graph structural noise for GNNs | |
Raval et al. | Distributed detection in neural network based multihop wireless sensor network | |
Georgatos et al. | Efficient fully distributed federated learning with adaptive local links | |
Ceci et al. | Signal and graph perturbations via total least-squares | |
Ruan et al. | Microwave link failures prediction via lstm-based feature fusion network | |
Mukherjee et al. | A statistical approach to dynamic synchrony analysis of neuronal ensemble spiking | |
Sharma et al. | Optimizing QoS parameters using computational intelligence in MANETS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |