CN117808125A - 模型聚合方法、装置、设备、联邦学习系统及存储介质 - Google Patents
模型聚合方法、装置、设备、联邦学习系统及存储介质 Download PDFInfo
- Publication number
- CN117808125A CN117808125A CN202410230004.2A CN202410230004A CN117808125A CN 117808125 A CN117808125 A CN 117808125A CN 202410230004 A CN202410230004 A CN 202410230004A CN 117808125 A CN117808125 A CN 117808125A
- Authority
- CN
- China
- Prior art keywords
- model
- cluster
- network model
- local
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 159
- 238000004220 aggregation Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012216 screening Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 53
- 241000854291 Dianthus carthusianorum Species 0.000 claims description 40
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 13
- 230000009471 action Effects 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Operations Research (AREA)
Abstract
本发明公开了一种模型聚合方法、装置、设备、联邦学习系统及存储介质,属于边缘计算领域,用于对边缘计算设备中待聚合的模型参数进行筛选,解决了不重要的模型参数传输影响模型训练效率以及模型精度的问题。分别确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度以及各个骨干网络层对于本地网络模型性能的第二影响程度,结合第一、第二影响程度对模型参数进行筛选,可剔除对本地网络模型性能影响较小的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
Description
技术领域
本发明涉及边缘计算领域,特别是涉及一种模型聚合方法、装置、设备、联邦学习系统及存储介质。
背景技术
联邦学习是一种新型的分布式学习框架,它允许多个设备在不共享原始数据的情况下,合作训练一个共享的全局网络模型,然而在全局网络模型的训练过程中,联邦学习需要在设备之间同步大量的模型参数,数据传输量较大,不但提升了数据传输成本,降低了模型训练效率,而且重要程度较低的模型参数会影响到模型精度。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种异构分布式计算的模型聚合方法、装置、设备、联邦学习系统及计算机可读存储介质,由于参考了模型参数以及骨干网络层对本地网络模型性能的影响程度,因此理论上可以剔除对本地网络模型性能影响较小并保留对本地网络模型性能影响较大的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
为解决上述技术问题,本发明提供了一种异构分布式计算的模型聚合方法,应用于联邦学习系统中的边缘计算设备,包括:
在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,所述中心服务器通过所述全局网络模型执行预设任务;
其中,所述预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
另一方面,确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度包括:
对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设扰动的情况下,确定所述本地网络模型的性能为扰动性能;
对于所述本地网络模型的任一个骨干网络层,将所述骨干网络层对应的扰动性能与所述本地网络模型的基准性能的差值,作为所述骨干网络层对于所述本地网络模型的性能的第二影响程度。
另一方面,对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设扰动的情况下,确定所述本地网络模型的性能为扰动性能包括:
对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设正向扰动的情况下,确定所述本地网络模型的性能为第一子扰动性能;
在所述骨干网络层的模型参数被施加预设负向扰动的情况下,确定所述本地网络模型的性能为第二子扰动性能;
将所述第一子扰动性能与所述第二子扰动性能的均值作为所述骨干网络层的扰动性能。
另一方面,所述预设正向扰动包括:
增加预设常数以及乘以预设放大系数中的一者;
所述预设负向扰动包括:
减去所述预设常数以及乘以预设缩小系数中的一者。
另一方面,确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度包括:
基于反向传播算法确定出所述本地网络模型中各个模型参数的梯度;
将所述梯度的绝对值作为模型参数对于所述本地网络模型的性能的第一影响程度。
另一方面,结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选包括:
根据所述第一影响程度对所述本地网络模型进行模型参数的第一次筛选;
根据所述第二影响程度确定出对所述本地网络模型的影响程度达标的若干个目标骨干网络层;
保留经过第一次筛选后的模型参数中,位于所述目标骨干网络层的模型参数。
另一方面,根据所述第一影响程度对所述本地网络模型进行模型参数的第一次筛选包括:
按照所述第一影响程度从高到低的顺序,保留第一预设数量个模型参数。
另一方面,根据所述第二影响程度确定出对所述本地网络模型的影响程度达标的若干个目标骨干网络层包括:
按照所述第二影响程度从高到低的顺序,保留第二预设数量个目标骨干网络层。
另一方面,在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练之前,该异构分布式计算的模型聚合方法还包括:
获取所述联邦学习系统中各边缘计算设备的分簇信息,其中,每一簇中的各个所述边缘计算设备的本地数据属于同一类别;
所述将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据所述分簇信息,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
另一方面,获取所述联邦学习系统中各边缘计算设备的分簇信息包括:
将本地网络模型对预设公共数据集的推理结果上传至中心服务器,以便所述中心服务器根据所述推理结果构建各个所述边缘计算设备之间的有权无向图,基于所述有权无向图中各条边的数值对各个所述边缘计算设备进行分簇,将所述边缘计算设备的分簇信息发送至各个所述边缘计算设备;
接收所述中心服务器发送的所述分簇信息。
另一方面,该异构分布式计算的模型聚合方法还包括:
接收所述中心服务器发送的各簇簇头的标识;其中,所述各簇簇头的标识为所述中心服务器根据各个所述边缘计算设备的通信性能和/或各个所述边缘计算设备与所述中心服务器的距离,基于通信效率优先原则,为各簇所述边缘计算设备确定出作为簇头的边缘计算设备,并确定出所述各簇簇头的标识;
根据所述分簇信息,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据所述分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
另一方面,根据所述分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
在本地迭代次数达到第一预设次数时,将筛选后的模型参数进行广播;
接收所述有权无向图中与自身具备连接关系且同簇的边缘计算设备的广播数据;
将接收到的模型参数与筛选后的模型参数的均值作为自身最新的模型参数继续进行本地网络模型的迭代训练;
在本地迭代次数达到第二预设次数时,将所述筛选后的模型参数的当前值发送至所在簇的簇头;
若自身为簇头,则将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合;
其中,所述分簇信息包括所述有权无向图以及各簇成员的标识,所述第一预设次数小于所述第二预设次数。
另一方面,利用本地数据集对所述本地网络模型进行迭代训练包括:
结合本地数据集以及本地模型参数损失函数,根据预设迭代更新公式对所述本地网络模型进行迭代训练;
所述预设迭代更新公式包括:
;
其中,为本地的第i个所述边缘计算设备在第t轮第l次迭代更新后的模型参数,i为边缘计算设备在簇中的序号,/>为第t轮第l次迭代更新前的模型参数,/>为第t轮第l次迭代更新的学习率,/>为哈密顿算子,/>为所述本地数据集中参与第t轮第l次迭代更新的数据样本,/>为第t轮第l次迭代更新的样本损失函数。
另一方面,所述本地模型参数损失函数包括:
;
其中,为本地的第i个所述边缘计算设备的模型参数,/>为/>的损失函数值,为所述本地数据集,/>为所述本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,/>为数据样本损失函数。
另一方面,将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型包括:
基于簇内聚合公式,将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
所述簇内聚合公式包括:
;
其中,为所在簇在第t轮的模型参数,/>为所在簇在簇内聚合完毕后的第t+1轮的模型参数,c为簇的序号,/>为超参数;/>为所在簇的邻域设备集合/>中的第j个边缘计算设备在第t轮第l次更新后的模型参数,/>为与簇内的第i个边缘计算设备在所述有权无向图中具备连接关系的边缘计算设备的邻域设备集合,i为边缘计算设备在簇中的序号,j为边缘计算设备在邻域设备集合内的序号,/>,/>为所在簇的边缘计算设备的总数量。
另一方面,将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合包括:
将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型以及全局损失函数进行全局网络模型的聚合;
所述全局损失函数包括:
;
其中,为全局网络模型的模型参数,/>为全局网络模型的模型参数的损失值,N为所述联邦学习系统中边缘计算设备的总数量,/>为簇Sk中的第i个边缘计算设备的模型参数,i∈(1,2,3...nk-1,nk),nk为簇Sk中边缘计算设备的总数量,k为簇的序号,k∈(1,2,3...C-1,C),C为所述联邦学习系统中簇的总数量。
为解决上述技术问题,本发明还提供了一种异构分布式计算的模型聚合方法,应用于联邦学习系统中的边缘计算设备,包括:
在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,中心服务器通过所述全局网络模型执行预设任务。
为解决上述技术问题,本发明还提供了一种异构分布式计算的模型聚合装置,应用于联邦学习系统中的边缘计算设备,包括:
边缘训练模块,用于在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
第一确定模块,用于确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
第二确定模块,用于确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
筛选模块,用于结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
传输模块,用于将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,中心服务器通过所述全局网络模型执行预设任务;
其中,所述预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
为解决上述技术问题,本发明还提供了一种异构分布式计算的模型聚合设备,应用于联邦学习系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述异构分布式计算的模型聚合方法的步骤。
为解决上述技术问题,本发明还提供了一种联邦学习系统,包括中心服务器;
还包括与所述中心服务器连接的多个如上所述的异构分布式计算的模型聚合设备。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述异构分布式计算的模型聚合方法的步骤。
有益效果:本发明提供了一种异构分布式计算的模型聚合方法,考虑到联邦学习系统的边缘计算设备中的各个模型参数与各个骨干网络层对于本地网络模型性能的影响程度存在差异,因此本发明可以分别确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度以及各个骨干网络层对于本地网络模型性能的第二影响程度,然后再结合第一影响程度与第二影响程度,对模型参数进行筛选,由于参考了模型参数以及骨干网络层对本地网络模型性能的影响程度,因此理论上可以剔除对本地网络模型性能影响较小并保留对本地网络模型性能影响较大的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
本发明还提供了一种异构分布式计算的模型聚合方法、装置、设备、联邦学习系统及计算机可读存储介质,具有如上异构分布式计算的模型聚合方法相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对相关技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种异构分布式计算的模型聚合方法的流程示意图;
图2为本发明提供的一种联邦学习系统的结构示意图;
图3为本发明提供的一种联邦学习系统的模型结构示意图;
图4为本发明提供的一种骨干网络层的影响程度确定方法的流程示意图;
图5为本发明提供的一种模型参数的影响程度确定方法的流程示意图;
图6为本发明提供的一种边缘计算设备间的有权无向图;
图7为本发明提供的一种边缘计算设备的簇结构示意图;
图8为本发明提供的一种异构分布式计算的模型聚合装置的结构示意图;
图9为本发明提供的一种异构分布式计算的模型聚合设备的结构示意图;
图10为本发明提供的一种计算机可读存储介质的结构示意图。
具体实施方式
本发明的核心是提供一种异构分布式计算的模型聚合方法、装置、设备、联邦学习系统及计算机可读存储介质,由于参考了模型参数以及骨干网络层对本地网络模型性能的影响程度,因此理论上可以剔除对本地网络模型性能影响较小并保留对本地网络模型性能影响较大的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明提供的一种异构分布式计算的模型聚合方法的流程示意图,该异构分布式计算的模型聚合方法应用于联邦学习系统中的边缘计算设备,包括:
S101:在利用中心服务器发送的全局网络模型对边缘计算设备的本地网络模型进行更新后,利用本地数据集对本地网络模型进行迭代训练;
具体的,考虑到如上背景技术中的技术问题,又结合考虑到边缘计算设备中包括的大量模型参数的重要性存在差别,因此可以在边缘计算设备上进行模型参数的筛选,将重要的模型参数进行传输聚合即可,可以降低数据传输量,从而提升模型训练效率以及模型精度,而边缘计算设备实际上可以利用中心服务器发送的全局网络模型对本地网络模型进行更新,并在本地进行迭代训练从而对模型参数进行更新,因此本发明实施例欲筛选的模型参数即为边缘计算设备的本地网络模型的模型参数,因此本步骤中首先可以在利用中心服务器发送的全局网络模型对边缘计算设备的本地网络模型进行更新后,利用本地数据集对本地网络模型进行迭代训练,以便得到最终迭代训练的本地网络模型的模型参数,并将其作为后续步骤的数据基础。
为了更好地对本发明实施例进行说明,请参考图2,图2为本发明提供的一种联邦学习系统的结构示意图,联邦学习系统中包括中心服务器以及多个边缘计算设备,各个边缘计算设备具备各自的本地数据,联邦学习系统的目的为:在不知晓各边缘计算设备本地数据的情况下,对各边缘计算设备的本地数据进行学习得到全局网络模型,以便通过全局网络模型完成特定的任务(例如图片分类等),在图2中,各个边缘计算设备被划分为了多个簇,每个簇中包括至少一个边缘计算设备。
作为一种可选的实施例,利用本地数据集对本地网络模型进行迭代训练包括:
结合本地数据集以及本地模型参数损失函数,根据预设迭代更新公式对本地网络模型进行迭代训练;
预设迭代更新公式包括:
;
其中,为本地的第i个边缘计算设备在第t轮第l次迭代更新后的模型参数,i为边缘计算设备在簇中的序号,/>为第t轮第l次迭代更新前的模型参数,/>为第t轮第l次迭代更新的学习率,/>为哈密顿算子,/>为本地数据集中参与第t轮第l次迭代更新的数据样本,/>为第t轮第l次迭代更新的样本损失函数。
具体的,可以采用SGD(Stochastic gradient descent,随机梯度下降)算法对本地网络模型进行迭代训练,通过如上的预设迭代更新公式能够高效准确地对本地网络模型进行迭代训练。
当然,除了如上的形式外,预设迭代更新公式还可以为其他具体形式,本发明实施例在此不做限定。
作为一种可选的实施例,本地模型参数损失函数包括:
;
其中,为本地的第i个边缘计算设备的模型参数,/>为/>的损失函数值,/>为本地数据集,/>为本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,为数据样本损失函数。
具体的,如上的本地模型参数损失函数具备精简以及准确的优点,其中的数据样本损失函数可以为多种形式,本发明实施例在此不做限定。
当然,除了上述具体形式外,本地模型参数损失函数还可以为其他类型,本发明实施例在此不做限定。
S102:确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度;
具体的,考虑到全局网络的性能直接受各个本地网络模型的性能的影响,且本地网络模型的模型性能只受各个模型参数的影响,且影响程度存在明显差异,因此理论上剔除影响程度较轻的模型参数,并不会影响本地网络模型的性能,因此本发明实施例中欲从“模型参数对本地网络模型性能影响”的角度出发进行模型参数的筛选工作,因此本步骤中可以确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度,以便将其作为后续步骤的数据基础进行模型参数的筛选工作。
S103:确定本地网络模型的各个骨干网络层对于本地网络模型性能的第二影响程度;
具体的,为了更好地对本发明实施例进行说明,请参考图3,图3为本发明提供的一种联邦学习系统的模型结构示意图,图中的输入数据为“图像:翘曲的头部”,以便图3中的模型对该输入图像进行分类。该模型结构包括骨干网络与域适应网络两部分,骨干网络可以是基于卷积神经网络的网络结构或者是基于transformer(深度自注意力变换网络)的网络结构。通过对不同边缘计算设备进行分簇,使相同数据分布或相同目标、功能的设备聚类。各个边缘计算设备共享骨干网络,同簇的边缘计算设备共享域适应网络。
其中,域适应网络是由多个全连接层构成的网络。由于域适应网络训练需要更大的参数量,并且有强数据拟合特性,不适用于大规模聚合,因此在本联邦学习系统中可以只进行骨干网络的聚合,而骨干网络中具体包括多个层,每一个骨干网络层上具备多个模型参数。
具体的,考虑到对于各个骨干网络层来说,每一个骨干网络层(该骨干网络层上整体的模型参数)对于本地网络模型性能的影响程度也存在差异,且该差异较为明显,也即部分骨干网络层对于本地网络模型的性能影响程度较低,因此也可以通过“骨干网络层对于本地网络模型性能的影响程度”,进行模型参数的筛选,因此本步骤中可以确定本地网络模型的各个骨干网络层对于本地网络模型性能的第二影响程度,以便将其作为后续步骤的数据基础。
S104:结合第一影响程度与第二影响程度,进行模型参数的筛选;
具体的,在具备(各个模型参数对模型性能的)第一影响程度与(各个骨干网络层对于模型性能的)第二影响程度后,便可以结合第一影响程度与第二影响程度,进行模型参数的筛选,从而降低模型参数的传输量,并且提升被传输的模型参数的精度。
其中,筛选指的是剔除部分模型参数而保留部分模型参数,并将筛选后的模型参数作为后续步骤的数据基础。
S105:将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,中心服务器通过全局网络模型执行预设任务;
其中,预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
其中,全局网络模型包括工业设备故障预测模型、网络安全分析模型以及图片分类模型中的一种,工业设备故障预测模型用于预测工业设备的故障,网络安全分析模型用于识别网络安全问题,图片分类模型用于对图片进行分类。
具体的,经过前述步骤的筛选之后,便可以将筛选之后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,由于根据两种影响程度进行了筛选,可以剔除掉重要程度低的模型参数,从而直接降低了模型参数的数据传输量,有利于提升模型聚合的效率以及精度。
本发明提供了一种异构分布式计算的模型聚合方法,考虑到联邦学习系统的边缘计算设备中的各个模型参数与各个骨干网络层对于本地网络模型性能的影响程度存在差异,因此本发明可以分别确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度以及各个骨干网络层对于本地网络模型性能的第二影响程度,然后再结合第一影响程度与第二影响程度,对模型参数进行筛选,由于参考了模型参数以及骨干网络层对本地网络模型性能的影响程度,因此理论上可以剔除对本地网络模型性能影响较小并保留对本地网络模型性能影响较大的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
在上述实施例的基础上:
作为一种可选的实施例,确定本地网络模型的各个骨干网络层对于本地网络模型性能的第二影响程度包括:
S201:对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设扰动的情况下,确定本地网络模型的性能为扰动性能;
S202:对于本地网络模型的任一个骨干网络层,将骨干网络层对应的扰动性能与本地网络模型的基准性能的差值,作为骨干网络层对于本地网络模型性能的第二影响程度。
具体的,为了更好地对本发明实施例进行说明,请参考图4,图4为本发明提供的一种骨干网络层的影响程度确定方法的流程示意图。
具体的,为了高效准确的对各个骨干网络层对于本地网络模型性能的第二影响程度进行确定,本发明实施例中首先可以对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设扰动的情况下,确定本地网络模型的性能为扰动性能,然后对于本地网络模型的任一个骨干网络层,将骨干网络层对应的扰动性能与本地网络模型的基准性能的差值,作为骨干网络层对于本地网络模型性能的第二影响程度,从而确定出本地网络模型中各个骨干网络层对于本地网络模型性能的第二影响程度,具体可以采用轮询的方式将未确定第二影响程度的一个骨干网络层作为待测骨干网络层,然后确定待测骨干网络层对于本地网络模型性能的第二影响程度。
其中,考虑到将待测骨干网络层的模型参数施加扰动,并通过本地网络模型的性能变化便可以确定出待测骨干网络层对于本地网络模型性能的第二影响程度,且该方式较为高效准确,因此本发明实施例中可以在待测骨干网络层的模型参数被施加预设扰动的情况下,确定本地网络模型的性能为扰动性能,并将扰动性能与本地网络模型的基准性能的差值,作为待测骨干网络层对于本地网络模型性能的第二影响程度,在这种情况下,如果扰动性能与本地网络模型的基准性能的差值过大,第二影响程度便越大,表示待测骨干网络层对于本地网络模型的影响程度较高。其中,若不存在未确定第二影响程度的骨干网络层,表示本次对于各个骨干网络层的轮询检测已经完毕,便可以结束轮询。
其中,本地网络模型的基准性能的获取方式可以为多种,例如可以基于最新迭代训练得到的模型参数并且在不改动模型参数的情况下,使用本地的测试数据集测试本地网络模型的模型性能,将其作为本地网络模型的基准性能等,本发明实施例在此不做限定。
作为一种可选的实施例,对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设扰动的情况下,确定本地网络模型的性能为扰动性能包括:
对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设正向扰动的情况下,确定本地网络模型的性能为第一子扰动性能;
在骨干网络层的模型参数被施加预设负向扰动的情况下,确定本地网络模型的性能为第二子扰动性能;
将第一子扰动性能与第二子扰动性能的均值作为骨干网络层的扰动性能。
具体的,考虑到对于模型参数的扰动通常是数值的调整,而对于模型参数数值的正向调整与负向调整,对于模型性能带来的改变可能存在较大差异,因此为了更加全面的衡量骨干网络层对于模型性能的影响程度,本发明实施例中的预设扰动可以包括预设正向扰动以及预设负向扰动,相应的可以在骨干网络层的模型参数被施加预设正向扰动的情况下,确定本地网络模型的性能为第一子扰动性能,在骨干网络层的模型参数被施加预设负向扰动的情况下,确定本地网络模型的性能为第二子扰动性能,并将第一子扰动性能与第二子扰动性能的均值作为骨干网络层的扰动性能,最终确定出扰动性能与本地网络模型的基准性能的差值,由于扰动性能包括了“施加正向扰动的第一子扰动性能”与“施加负向扰动的第二子扰动性能”,因此可以更加全面准确的衡量骨干网络层对于模型性能的影响程度,有利于提升模型参数的筛选准确度。
其中,正向扰动即为对模型参数数值的提升,负向扰动即为对模型参数数值的降低。
作为一种可选的实施例,预设正向扰动包括:
增加预设常数以及乘以预设放大系数中的一者;
预设负向扰动包括:
减去预设常数以及乘以预设缩小系数中的一者。
具体的,考虑到叠加预设常数或者乘以比例系数为高效快捷的两种调节方式,因此本发明实施例中的预设正向扰动以及预设负向扰动均可以采用叠加预设常数或者乘以比例系数中的任一种方式,也即预设正向扰动包括:增加预设常数以及乘以预设放大系数中的一者;预设负向扰动包括:减去预设常数以及乘以预设缩小系数中的一者。
其中,预设常数可以为正值,而预设放大系数可以为稍大于1(例如1至1.3之间的数值)的值,预设缩小系数则可以为稍小于1(例如0.7至1之间的数值)的值等,本发明实施例在此不做限定。
当然,除了该具体形式外,预设正向扰动与预设负向扰动还可以为其他形式,本发明实施例在此不做限定。
作为一种可选的实施例,确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度包括:
S301:基于反向传播算法确定出本地网络模型中各个模型参数的梯度;
S302:将梯度的绝对值作为模型参数对于本地网络模型性能的第一影响程度。
为了更好地对本发明实施例进行说明,请参考图5,图5为本发明提供的一种模型参数的影响程度确定方法的流程示意图。
具体的,参数的梯度是指损失函数对模型参数的偏导数向量。梯度指示了当模型参数发生小变化时,损失函数会如何变化。而梯度可以直接反映模型参数对于模型性能的影响,因此本发明实施例中可以基于反向传播算法确定出本地网络模型中各个模型参数的梯度,然后将梯度的绝对值作为模型参数对于本地网络模型性能的第一影响程度,如此可以高效且准确的评估第一影响程度。
其中,反向传播算法在每个设备上进行一次前向传播和一次反向传播。在前向传播中,根据本地网络模型的输入和当前被测试的模型参数计算本地网络模型的输出。然后,根据本地网络模型的输出和真实的标签计算损失函数。在反向传播中,可以根据损失函数计算被测试的模型参数的梯度,通过反向传播算法可以高效准确地确定出各个模型参数的梯度。
当然,除了该具体方式外,确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度还可以通过其他方式实现,本发明实施例在此不做限定。
作为一种可选的实施例,结合第一影响程度与第二影响程度,进行模型参数的筛选包括:
根据第一影响程度对本地网络模型进行模型参数的第一次筛选;
根据第二影响程度确定出对本地网络模型的影响程度达标的若干个目标骨干网络层;
保留经过第一次筛选后的模型参数中,位于目标骨干网络层的模型参数。
具体的,考虑到对于模型参数的筛选的精细化程度高于对于骨干网络层的筛选,或者说对于模型参数的筛选的准确度较高,若首先筛选掉某些骨干网络层(中各个的模型参数),那么即使该骨干网络层中存有少量重要的模型参数,也会直接被剔除掉,从而降低后续对模型参数筛选时剩余的模型参数的整体精度,影响了整体的筛选效果,不利于提升模型精度,因此本发明实施例中可以首先根据第一影响程度对本地网络模型进行模型参数的第一次筛选,使得各个模型参数都有机会参与“对模型参数直接的精细化筛选过程”,有利于提升模型参数的筛选效果,从而提升模型精度。
作为一种可选的实施例,根据第一影响程度对本地网络模型进行模型参数的第一次筛选包括:
按照第一影响程度从高到低的顺序,保留第一预设数量个模型参数。
具体的,考虑到第一影响程度本身就可以指代各个模型参数对于模型性能的影响程度,且通过对于第一影响程度进行数值排序后,可以准确地完成指定数量的模型参数的筛选,因此本发明实施例中可以按照第一影响程度从高到低的顺序,保留第一预设数量个模型参数。
其中,第一预设数量可以进行自主设定,且可以在需要时进行修改,例如,如果希望减少通信开销,可以选择一个较小的数值。如果希望提高模型的性能,可以选择一个较大的数值,本发明实施例在此不做限定。
当然,除了该种具体形式外,根据第一影响程度对本地网络模型进行模型参数的第一次筛选还可以为其他形式,本发明实施例在此不做限定。
作为一种可选的实施例,根据第二影响程度确定出对本地网络模型的影响程度达标的若干个目标骨干网络层包括:
按照第二影响程度从高到低的顺序,保留第二预设数量个目标骨干网络层。
具体的,考虑到第二影响程度本身就可以反映各个骨干网络层对于模型性能的影响程度,而通过对于第二影响程度进行数值排序后,可以方便快捷的进行指定数量的骨干网络层的保留,因此本发明实施例中可以按照第二影响程度从高到低的顺序,保留第二预设数量个目标骨干网络层。
其中,第二预设数量可以进行自主设定,且可以在需要时进行修改,本发明实施例在此不做限定。
当然,除了该种具体形式外,根据第二影响程度确定出对本地网络模型的影响程度达标的若干个目标骨干网络层还可以为其他形式,本发明实施例在此不做限定。
作为一种可选的实施例,在利用中心服务器发送的全局网络模型对边缘计算设备的本地网络模型进行更新后,利用本地数据集对本地网络模型进行迭代训练之前,该异构分布式计算的模型聚合方法还包括:
获取联邦学习系统中各边缘计算设备的分簇信息,其中,每一簇中的各个边缘计算设备的本地数据属于同一类别;
将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据分簇信息,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
具体的,联邦学习系统可以应用在多种领域,相应的边缘计算设备及其本地数据可以为多种类型,例如智能手机上的应用程序产生的用户行为数据,医疗设备收集的患者健康数据,以及工业设备记录的传感器数据等,然而,由于数据分布在不同的边缘计算设备上,因此各个边缘计算设备上的数据分布可能存在较大的异构性:
(1)设备异构性:各方设备的计算,存储,通信能力不一致;
(2)数据异构性:各方数据属于非独立同分布;
(3)模型异构性:各方学习的模型参数不一致。
具体的,以上异构性很可能会影响模型的训练效果,例如不同边缘计算设备上数据量的不同可能会导致模型偏向于数据量大的设备,从而影响模型的泛化性能,每个边缘计算设备各自为战、各自训练,由于单个边缘计算设备的数据量不足,极易使本地的域适应网络过拟合,违反了联邦学习通过见证大量的设备数据来提高区域范围内的设备泛化性能的核心理念。本发明又考虑到对各个边缘计算设备按照“簇内边缘计算设备的本地数据的类别相同的原则”进行分簇,然后在聚合过程中先进行簇内聚合,然后再对各簇的簇网络模型进行全局聚合的方式,首先可以使得同类数据集中在一起进行先聚合,提升了单类数据自我训练的数据量,避免本地的域适应网络过拟合,顺应了“联邦学习通过见证大量的设备数据来提高区域范围内的设备泛化性能的核心理念”,另外,通过分簇层级聚合的方式可以将模型聚合的工作的一部分分发到各簇中进行,有利于提升模型训练的效率,而且能够降低中心服务器的计算与通信开销。
具体的,基于以上思想,本发明实施例中的边缘计算设备可以获取联邦学习系统中各边缘计算设备的分簇信息,其中,每一簇中的各个边缘计算设备的本地数据属于同一类别,并且在对模型参数进行筛选后,可以根据分簇信息,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
作为一种可选的实施例,获取联邦学习系统中各边缘计算设备的分簇信息包括:
将本地网络模型对预设公共数据集的推理结果上传至中心服务器,以便中心服务器根据推理结果构建各个边缘计算设备之间的有权无向图;基于有权无向图中各条边的数值对各个边缘计算设备进行分簇;将边缘计算设备的分簇信息发送至各个边缘计算设备;
接收中心服务器发送的分簇信息。
具体的,为了更加高效准确的对大量边缘计算设备按照数据同性原则进行分簇,考虑到各个边缘计算设备采用本地数据训练得到的本地网络模型对于同一份公共数据集的推理结果,可以反映训练过程中采用的本地数据的相关性,例如具有同类数据的两个边缘计算设备的本地网络模型对于预设公共数据集的推理结果理论上具有较强的相似性,因此本发明实施例欲基于各个边缘计算设备的本地网络模型对于预设公共数据集的推理结果计算任意两组推理结果之间的相似性,进而构建出各个边缘计算设备之间的有权无向图,最终基于有权无向图进行数据同性簇的划分。
具体的,各个边缘计算设备在利用数据进行对本地网络模型进行若干次(例如1次)训练,对于中心服务器来说,可以通过多种方式确定出预设公共数据集(例如从公网搜寻公共数据,构建面向本联邦学习任务的预设公共数据集)。然后将预设公共数据集发送到各个边缘计算设备。边缘计算设备可以存储预设公共数据集,使用自训练的本地网络模型对预设公共数据集进行推理,获得推理结果,并将推理结果上传到中心服务器。在这里针对图像分类任务举例,假设预设公共数据集包含100类图像的分类任务,各个边缘计算设备会使用自己的训练数据,训练本地网络模型,因为边缘计算设备所使用的自有数据有数据异构性,即每个边缘计算设备数据有限,大多只包含有限类别的样本。因此,使用预设公共数据集进行推理的结构也各不相同,存在偏差。中心服务器可以使用各个边缘计算设备的推理结果建立有权无向图。
其中,构建有权无向图的基础为确定任意两个边缘计算设备的推理结果之间的相似性,相似性计算可以采用多种方法,本发明实施例以“Jaccard相似系数”进行举例,Jaccard相似系数常用于计算集合之间的相似度,也可以用于计算二值向量的相似度。对于两个二值向量A和B,Jaccard相似系数的计算公式为:相似度= |A ∩ B| / |A ∪ B|其中,A ∩ B表示向量A和B的交集,A ∪ B表示向量A和B的并集。例如A设备的分类结果是一个二值向量[1,0,0,0,……1,1,1,0],B设备的分类结果也是一个二值向量[0,1,1,0,……1,1,1,0],使用Jaccard相似系数可以计算A设备和B设备的结果相似度。中心服务器遍历各个边缘计算设备的推理结果,计算任意两个边缘计算设备的推理结果之间的相似性,根据相似性的值,构建边缘计算设备之间的边,例如,当两个边缘计算设备的推理结果之间的相似性的值大于预设相似性阈值P的时候,构建这两个相似的边缘计算设备之间的连接边,该条边的值即为其结果相似性的计算结果。当两个边缘计算设备的推理结果之间的相似性的值小于P的时候,构建这两个相似的边缘计算设备之间的连接边。中心服务器遍历各对边缘计算设备的结果,构建边缘计算设备之间的有权无向图,如图6所示,图6为本发明提供的一种边缘计算设备间的有权无向图,设备1-6均为联邦学习系统中的边缘计算设备,设备之间连接的边的数值即为两个边缘计算设备的推理结果之间的相似性值,基于该有权无向图便可以对边缘计算设备进行分簇。
具体的,基于有权无向图便对边缘计算设备进行分簇包括:
按照“初始化簇内的任一个边缘计算设备在有权无向图中至少存在一条与初始化簇内其他边缘计算设备之间的相似性值大于预设初始阈值的边”的规则,将各个边缘计算设备划分为多个初始化簇;为各个初始化簇确定标签,各个初始化簇的标签互不重复;遍历各个边缘计算设备,对于每个边缘计算设备,将该边缘计算设备的邻居设备(与该边缘计算设备在有权无向图中具备连接关系的边缘计算设备)的标签中,数量最多的标签,作为该边缘计算设备的新的标签;经过一次遍历后,若满足预设迭代终止条件(例如标签发生更新的边缘计算设备的数量小于预设数量或者迭代次数达到预设终止次数),将当前的同属于一个标签的边缘计算设备作为一簇,从而完成对于边缘计算设备的分簇,例如请参考图7,图7为本发明提供的一种边缘计算设备的簇结构示意图,标签A中的设备1与设备2为一簇,标签B中的设备3-6为另一簇。
其中,值得一提的是,分簇信息可以包括:各簇标签、各簇中包含的成员设备的标识(例如设备号)以及有权无向图,还可以包括各簇簇头的标识。
作为一种可选的实施例,该异构分布式计算的模型聚合方法还包括:
接收中心服务器发送的各簇簇头的标识;其中,各簇簇头的标识为中心服务器根据各个边缘计算设备的通信性能和/或各个边缘计算设备与中心服务器的距离,基于通信效率优先原则,为各簇边缘计算设备确定出作为簇头的边缘计算设备,并确定出各簇簇头的标识;
根据分簇信息,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
具体的,分簇的意义在于簇头可以首先对簇内各边缘计算设备的本地网络模型的模型参数进行簇内聚合得到簇网络模型,然后再由中心服务器对各个簇网络模型的模型参数进行聚合得到全局网络模型,这表示中心服务器需要与各个簇头进行通信,然而单个簇内不同边缘计算设备之间存在通信性能的差异,而且单个簇内不同边缘计算设备与中心服务器的距离也不同,也即单个簇内不同边缘计算设备与中心服务器的通信效率不同,为了提升通信效率,可以根据各个边缘计算设备的通信性能和/或各个边缘计算设备与中心服务器的距离,基于通信效率优先原则,为各簇边缘计算设备确定出作为簇头的边缘计算设备,有利于进一步提升模型聚合效率。
作为一种可选的实施例,根据分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
在本地迭代次数达到第一预设次数时,将筛选后的模型参数进行广播;
接收有权无向图中与自身具备连接关系且同簇的边缘计算设备的广播数据;
将接收到的模型参数与筛选后的模型参数的均值作为自身最新的模型参数继续进行本地网络模型的迭代训练;
在本地迭代次数达到第二预设次数时,将筛选后的模型参数的当前值发送至所在簇的簇头;
若自身为簇头,则将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
将簇网络模型发送至中心服务器,以便中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合;
其中,分簇信息包括有权无向图以及各簇成员的标识,第一预设次数小于第二预设次数。
具体的,考虑到在同一簇内,不同边缘计算设备的本地数据之间的相似度也存在小幅差异,也即在簇内也存在轻微的数据异构性,因此为了进一步提升模型精度,本发明实施例中欲在簇内的邻域设备之间进行模型参数的均值处理,然后再由簇头对簇内各边缘计算设备的模型参数进行聚合,因此本发明实施例中可以在本地迭代次数达到第一预设次数时,将筛选后的模型参数进行广播;接收有权无向图中与自身具备连接关系且同簇的边缘计算设备的广播数据;将接收到的模型参数与筛选后的模型参数的均值作为自身最新的模型参数继续进行本地网络模型的迭代训练;在本地迭代次数达到第二预设次数时,将筛选后的模型参数的当前值发送至所在簇的簇头;若自身为簇头,则将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型。
作为一种可选的实施例,利用本地数据集对本地网络模型进行迭代训练包括:
结合本地数据集以及本地模型参数损失函数,根据预设迭代更新公式对本地网络模型进行迭代训练;
预设迭代更新公式包括:
;
其中,为本地的第i个边缘计算设备在第t轮第l次迭代更新后的模型参数,i为边缘计算设备在簇中的序号,/>为第t轮第l次迭代更新前的模型参数,/>为第t轮第l次迭代更新的学习率,/>为哈密顿算子,/>为本地数据集中参与第t轮第l次迭代更新的数据样本,/>为第t轮第l次迭代更新的样本损失函数。
具体的,可以采用SGD(Stochastic gradient descent,随机梯度下降)算法对本地网络模型进行迭代训练,通过如上的预设迭代更新公式能够高效准确地对本地网络模型进行迭代训练。
当然,除了如上的形式外,预设迭代更新公式还可以为其他具体形式,本发明实施例在此不做限定。
作为一种可选的实施例,本地模型参数损失函数包括:
;
其中,为本地的第i个边缘计算设备的模型参数,/>为/>的损失函数值,/>为本地数据集,/>为本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,为数据样本损失函数。
具体的,如上的本地模型参数损失函数具备精简以及准确的优点,其中的数据样本损失函数可以为多种形式,本发明实施例在此不做限定。
当然,除了上述具体形式外,本地模型参数损失函数还可以为其他类型,本发明实施例在此不做限定。
作为一种可选的实施例,本地模型参数损失函数包括:
;
其中,为本地的第i个边缘计算设备的模型参数,/>为/>的损失函数值,/>为本地数据集,/>为本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,为数据样本损失函数。
具体的,如上的本地模型参数损失函数具备精简以及准确的优点,其中的数据样本损失函数可以为多种形式,本发明实施例在此不做限定。
当然,除了上述具体形式外,本地模型参数损失函数还可以为其他类型,本发明实施例在此不做限定。
作为一种可选的实施例,将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型包括:
基于簇内聚合公式,将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
簇内聚合公式包括:
;
其中,为所在簇在第t轮的模型参数,/>为所在簇在簇内聚合完毕后的第t+1轮的模型参数,c为簇的序号,/>为超参数;/>为所在簇的邻域设备集合/>中的第j个边缘计算设备在第t轮第l次更新后的模型参数,/>为与簇内的第i个边缘计算设备在有权无向图中具备连接关系的边缘计算设备的邻域设备集合,i为边缘计算设备在簇中的序号,j为边缘计算设备在邻域设备集合内的序号,/>,/>为所在簇的边缘计算设备的总数量。
具体的,通过如上的簇内聚合公式可以高效准确地实现对于簇网络模型的聚合,簇头可以将本簇内的簇网络模型的骨干网络模型发送至中心服务器,以便实现全局网络模型的聚合,簇内的域适应网络不进行参数聚合,可以将簇网络模型的域适应网络发送至簇内各个边缘计算设备,以便更新各边缘计算设备的域适应网络。
其中,值得一提的是,“轮”指的是:当完成一次边缘计算设备的本地模型更新、簇内聚合以及全局聚合的步骤,可以视作完成了一个训练轮次,简称一轮。
当然,除了如上形式外,簇内聚合公式还可以为其他具体形式,本发明实施例在此不做限定。
作为一种可选的实施例,将簇网络模型发送至中心服务器,以便中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合包括:
将簇网络模型发送至中心服务器,以便中心服务器依据各个簇的簇网络模型以及全局损失函数进行全局网络模型的聚合;
全局损失函数包括:
;
其中,为全局网络模型的模型参数,/>为全局网络模型的模型参数的损失值,N为联邦学习系统中边缘计算设备的总数量,/>为簇Sk中的第i个边缘计算设备的模型参数,i∈(1,2,3...nk-1,nk),nk为簇Sk中边缘计算设备的总数量,k为簇的序号,k∈(1,2,3...C-1,C),C为联邦学习系统中簇的总数量。
具体的,联邦学习系统的目标是对全局网络模型进行优化,通过如上的全局损失函数能够高效准确的对各个簇网络模型的模型参数进行聚合。
另外,每个簇可以反复进行簇内聚合的过程,并当簇内聚合次数达到预设次数的时候将簇网络模型的模型参数上传给中心服务器进行全局聚合,全局聚合的更新公式可以为:
;
其中,为第t+1轮聚合得到的全局网络模型的模型参数,/>为第c个簇在第t+1轮关于数据样本损失函数L的簇网络模型的模型参数,c为簇的序号。
另外,中心服务器可以将全局网络模型中的骨干网络模型的模型参数广播至各边缘计算设备,各边缘计算设备可以利用本地数据对本地网络模型进行训练,中心服务器可以在一定时机(例如全局网络模型的训练轮数达标时)时要求各边缘计算设备重新针对预设公共数据集给出推理结果,并基于推理结果重新进行分簇,并继续对全局网络模型进行聚合更新,直至全局网络模型收敛。
当然,除了上述具体形式外,全局损失函数还可以为其他具体形式,本发明实施例在此不做限定。
本发明还提供了一种异构分布式计算的模型聚合方法,应用于联邦学习系统中的边缘计算设备,包括:
在利用中心服务器发送的全局网络模型对边缘计算设备的本地网络模型进行更新后,利用本地数据集对本地网络模型进行迭代训练;
确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度;
确定本地网络模型的各个骨干网络层对于本地网络模型性能的第二影响程度;
结合第一影响程度与第二影响程度,进行模型参数的筛选;
将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,中心服务器通过全局网络模型执行预设任务。
对于本发明实施例提供的异构分布式计算的模型聚合方法的介绍请参照前述的异构分布式计算的模型聚合方法的实施例,本发明实施例在此不再赘述。
请参考图8,图8为本发明提供的一种异构分布式计算的模型聚合装置的结构示意图,该异构分布式计算的模型聚合装置应用于联邦学习系统中的边缘计算设备,包括:
边缘训练模块81,用于在利用中心服务器发送的全局网络模型对边缘计算设备的本地网络模型进行更新后,利用本地数据集对本地网络模型进行迭代训练;
第一确定模块82,用于确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度;
第二确定模块83,用于确定本地网络模型的各个骨干网络层对于本地网络模型性能的第二影响程度;
筛选模块84,用于结合第一影响程度与第二影响程度,进行模型参数的筛选;
传输模块85,用于将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,中心服务器通过全局网络模型执行预设任务;
其中,预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
作为一种可选的实施例,第二确定模块83包括:
第一确定子模块,用于对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设扰动的情况下,确定本地网络模型的性能为扰动性能;
第一动作模块,用于对于本地网络模型的任一个骨干网络层,将扰动性能与本地网络模型的基准性能的差值,作为骨干网络层对于本地网络模型性能的第二影响程度。
作为一种可选的实施例,第一确定子模块包括:
第二确定子模块,用于对于本地网络模型的任一个骨干网络层,在骨干网络层的模型参数被施加预设正向扰动的情况下,确定本地网络模型的性能为第一子扰动性能;
第三确定子模块,用于在骨干网络层的模型参数被施加预设负向扰动的情况下,确定本地网络模型的性能为第二子扰动性能;
第四确定子模块,用于将第一子扰动性能与第二子扰动性能的均值作为骨干网络层的扰动性能。
作为一种可选的实施例,预设正向扰动包括:
增加预设常数以及乘以预设放大系数中的一者;
预设负向扰动包括:
减去预设常数以及乘以预设缩小系数中的一者。
作为一种可选的实施例,第一确定模块82包括:
第五确定子模块,用于基于反向传播算法确定出本地网络模型中各个模型参数的梯度;
第六确定子模块,用于将梯度的绝对值作为模型参数对于本地网络模型性能的第一影响程度。
作为一种可选的实施例,筛选模块84包括:
第一筛选子模块,用于根据第一影响程度对本地网络模型进行模型参数的第一次筛选;
第七确定子模块,用于根据第二影响程度确定出对本地网络模型的影响程度达标的若干个目标骨干网络层;
第一保留模块,用于保留经过第一次筛选后的模型参数中,位于目标骨干网络层的模型参数。
作为一种可选的实施例,第一筛选子模块包括:
第二保留子模块,用于按照第一影响程度从高到低的顺序,保留第一预设数量个模型参数。
作为一种可选的实施例,第七确定子模块包括:
第三保留字模块,用于按照第二影响程度从高到低的顺序,保留第二预设数量个目标骨干网络层。
作为一种可选的实施例,该异构分布式计算的模型聚合装置还包括:
第一获取模块,用于获取联邦学习系统中各边缘计算设备的分簇信息,其中,每一簇中的各个边缘计算设备的本地数据属于同一类别;
传输模块85包括:
第一传输子模块,用于根据分簇信息,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
作为一种可选的实施例,第一获取模块包括:
第一上传模块,用于将本地网络模型对预设公共数据集的推理结果上传至中心服务器,以便中心服务器根据推理结果构建各个边缘计算设备之间的有权无向图;基于有权无向图中各条边的数值对各个边缘计算设备进行分簇;将边缘计算设备的分簇信息发送至各个边缘计算设备;
第一接收模块,用于接收中心服务器发送的分簇信息。
作为一种可选的实施例,该异构分布式计算的模型聚合装置还包括:
第二接收模块,用于接收中心服务器发送的各簇簇头的标识;其中,各簇簇头的标识为中心服务器根据各个边缘计算设备的通信性能和/或各个边缘计算设备与中心服务器的距离,基于通信效率优先原则,为各簇边缘计算设备确定出作为簇头的边缘计算设备,并确定出各簇簇头的标识;
第一传输子模块用于:
根据分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
作为一种可选的实施例,第一传输子模块包括:
广播模块,用于在本地迭代次数达到第一预设次数时,将筛选后的模型参数进行广播;
第三接收模块,用于接收有权无向图中与自身具备连接关系且同簇的边缘计算设备的广播数据;
第二动作模块,用于将接收到的模型参数与筛选后的模型参数的均值作为自身最新的模型参数继续进行本地网络模型的迭代训练;
第三动作模块,用于在本地迭代次数达到第二预设次数时,将筛选后的模型参数的当前值发送至所在簇的簇头;
第四动作模块,用于若自身为簇头,则将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
第五动作模块,用于将簇网络模型发送至中心服务器,以便中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合;
其中,分簇信息包括有权无向图以及各簇成员的标识,第一预设次数小于第二预设次数。
作为一种可选的实施例,利用本地数据集对本地网络模型进行迭代训练包括:
结合本地数据集以及本地模型参数损失函数,根据预设迭代更新公式对本地网络模型进行迭代训练;
预设迭代更新公式包括:
;
其中,为本地的第i个边缘计算设备在第t轮第l次迭代更新后的模型参数,i为边缘计算设备在簇中的序号,/>为第t轮第l次迭代更新前的模型参数,/>为第t轮第l次迭代更新的学习率,/>为哈密顿算子,/>为本地数据集中参与第t轮第l次迭代更新的数据样本,/>为第t轮第l次迭代更新的样本损失函数。
作为一种可选的实施例,本地模型参数损失函数包括:
;
其中,为本地的第i个边缘计算设备的模型参数,/>为/>的损失函数值,/>为本地数据集,/>为本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,为数据样本损失函数。
作为一种可选的实施例,第四动作模块包括:
基于簇内聚合公式,将接收到的簇内各边缘计算设备发送的模型参数与自身的筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
簇内聚合公式包括:
;
其中,为所在簇在第t轮的模型参数,/>为所在簇在簇内聚合完毕后的第t+1轮的模型参数,c为簇的序号,/>为超参数;/>为所在簇的邻域设备集合/>中的第j个边缘计算设备在第t轮第l次更新后的模型参数,/>为与簇内的第i个边缘计算设备在有权无向图中具备连接关系的边缘计算设备的邻域设备集合,i为边缘计算设备在簇中的序号,j为边缘计算设备在邻域设备集合内的序号,/>,/>为所在簇的边缘计算设备的总数量。
作为一种可选的实施例,第五动作模块用于:
将簇网络模型发送至中心服务器,以便中心服务器依据各个簇的簇网络模型以及全局损失函数进行全局网络模型的聚合;
全局损失函数包括:
;
其中,为全局网络模型的模型参数,/>为全局网络模型的模型参数的损失值,N为联邦学习系统中边缘计算设备的总数量,/>为簇Sk中的第i个边缘计算设备的模型参数,i∈(1,2,3...nk-1,nk),nk为簇Sk中边缘计算设备的总数量,k为簇的序号,k∈(1,2,3...C-1,C),C为联邦学习系统中簇的总数量。
对于本发明实施例提供的异构分布式计算的模型聚合装置的介绍请参照前述的异构分布式计算的模型聚合方法的实施例,本发明实施例在此不再赘述。
请参考图9,图9为本发明提供的一种异构分布式计算的模型聚合设备的结构示意图,该异构分布式计算的模型聚合设备包括:
存储器91,用于存储计算机程序;
处理器92,用于执行计算机程序时实现如前述实施例中异构分布式计算的模型聚合方法的步骤。
对于本发明实施例提供的异构分布式计算的模型聚合设备的介绍请参照前述的异构分布式计算的模型聚合方法的实施例,本发明实施例在此不再赘述。
本发明还提供了一种联邦学习系统,包括中心服务器;
还包括与中心服务器连接的多个如前述实施例中的异构分布式计算的模型聚合设备。
对于本发明实施例提供的联邦学习系统的介绍请参照前述的异构分布式计算的模型聚合方法的实施例,本发明实施例在此不再赘述。
请参考图10,图10为本发明提供的一种计算机可读存储介质的结构示意图,计算机可读存储介质100上存储有计算机程序101,计算机程序101被处理器92执行时实现如前述实施例中异构分布式计算的模型聚合方法的步骤。
对于本发明实施例提供的计算机可读存储介质的介绍请参照前述的异构分布式计算的模型聚合方法的实施例,本发明实施例在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (21)
1.一种异构分布式计算的模型聚合方法,应用于联邦学习系统中的边缘计算设备,其特征在于,包括:
在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,所述中心服务器通过所述全局网络模型执行预设任务;
其中,所述预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
2.根据权利要求1所述的异构分布式计算的模型聚合方法,其特征在于,确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度包括:
对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设扰动的情况下,确定所述本地网络模型的性能为扰动性能;
对于所述本地网络模型的任一个骨干网络层,将所述骨干网络层对应的扰动性能与所述本地网络模型的基准性能的差值,作为所述骨干网络层对于所述本地网络模型的性能的第二影响程度。
3.根据权利要求2所述的异构分布式计算的模型聚合方法,其特征在于,对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设扰动的情况下,确定所述本地网络模型的性能为扰动性能包括:
对于所述本地网络模型的任一个骨干网络层,在所述骨干网络层的模型参数被施加预设正向扰动的情况下,确定所述本地网络模型的性能为第一子扰动性能;
在所述骨干网络层的模型参数被施加预设负向扰动的情况下,确定所述本地网络模型的性能为第二子扰动性能;
将所述第一子扰动性能与所述第二子扰动性能的均值作为所述骨干网络层的扰动性能。
4.根据权利要求3所述的异构分布式计算的模型聚合方法,其特征在于,所述预设正向扰动包括:
增加预设常数以及乘以预设放大系数中的一者;
所述预设负向扰动包括:
减去所述预设常数以及乘以预设缩小系数中的一者。
5.根据权利要求1所述的异构分布式计算的模型聚合方法,其特征在于,确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度包括:
基于反向传播算法确定出所述本地网络模型中各个模型参数的梯度;
将所述梯度的绝对值作为模型参数对于所述本地网络模型的性能的第一影响程度。
6.根据权利要求1至5任一项所述的异构分布式计算的模型聚合方法,其特征在于,结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选包括:
根据所述第一影响程度对所述本地网络模型进行模型参数的第一次筛选;
根据所述第二影响程度确定出对所述本地网络模型的影响程度达标的若干个目标骨干网络层;
保留经过第一次筛选后的模型参数中,位于所述目标骨干网络层的模型参数。
7.根据权利要求6所述的异构分布式计算的模型聚合方法,其特征在于,根据所述第一影响程度对所述本地网络模型进行模型参数的第一次筛选包括:
按照所述第一影响程度从高到低的顺序,保留第一预设数量个模型参数。
8.根据权利要求6所述的异构分布式计算的模型聚合方法,其特征在于,根据所述第二影响程度确定出对所述本地网络模型的影响程度达标的若干个目标骨干网络层包括:
按照所述第二影响程度从高到低的顺序,保留第二预设数量个目标骨干网络层。
9.根据权利要求1所述的异构分布式计算的模型聚合方法,其特征在于,在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练之前,该异构分布式计算的模型聚合方法还包括:
获取所述联邦学习系统中各边缘计算设备的分簇信息,其中,每一簇中的各个所述边缘计算设备的本地数据属于同一类别;
所述将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据所述分簇信息,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
10.根据权利要求9所述的异构分布式计算的模型聚合方法,其特征在于,获取所述联邦学习系统中各边缘计算设备的分簇信息包括:
将本地网络模型对预设公共数据集的推理结果上传至中心服务器,以便所述中心服务器根据所述推理结果构建各个所述边缘计算设备之间的有权无向图,基于所述有权无向图中各条边的数值对各个所述边缘计算设备进行分簇,将所述边缘计算设备的分簇信息发送至各个所述边缘计算设备;
接收所述中心服务器发送的所述分簇信息。
11.根据权利要求10所述的异构分布式计算的模型聚合方法,其特征在于,该异构分布式计算的模型聚合方法还包括:
接收所述中心服务器发送的各簇簇头的标识;其中,所述各簇簇头的标识为所述中心服务器根据各个所述边缘计算设备的通信性能和/或各个所述边缘计算设备与所述中心服务器的距离,基于通信效率优先原则,为各簇所述边缘计算设备确定出作为簇头的边缘计算设备,并确定出所述各簇簇头的标识;
根据所述分簇信息,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
根据所述分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合。
12.根据权利要求11所述的异构分布式计算的模型聚合方法,其特征在于,根据所述分簇信息以及所在簇的簇头的标识,将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合包括:
在本地迭代次数达到第一预设次数时,将筛选后的模型参数进行广播;
接收所述有权无向图中与自身具备连接关系且同簇的边缘计算设备的广播数据;
将接收到的模型参数与筛选后的模型参数的均值作为自身最新的模型参数继续进行本地网络模型的迭代训练;
在本地迭代次数达到第二预设次数时,将所述筛选后的模型参数的当前值发送至所在簇的簇头;
若自身为簇头,则将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合;
其中,所述分簇信息包括所述有权无向图以及各簇成员的标识,所述第一预设次数小于所述第二预设次数。
13.根据权利要求1所述的异构分布式计算的模型聚合方法,其特征在于,利用本地数据集对所述本地网络模型进行迭代训练包括:
结合本地数据集以及本地模型参数损失函数,根据预设迭代更新公式对所述本地网络模型进行迭代训练;
所述预设迭代更新公式包括:
;
其中,为本地的第i个所述边缘计算设备在第t轮第l次迭代更新后的模型参数,i为边缘计算设备在簇中的序号,/>为第t轮第l次迭代更新前的模型参数,/>为第t轮第l次迭代更新的学习率,/>为哈密顿算子,/>为所述本地数据集中参与第t轮第l次迭代更新的数据样本,/>为第t轮第l次迭代更新的样本损失函数。
14.根据权利要求13所述的异构分布式计算的模型聚合方法,其特征在于,所述本地模型参数损失函数包括:
;
其中,为本地的第i个所述边缘计算设备的模型参数,/>为/>的损失函数值,/>为所述本地数据集,/>为所述本地数据集中参与迭代更新的数据样本,/>为数据样本的总数量,/>为数据样本损失函数。
15.根据权利要求12所述的异构分布式计算的模型聚合方法,其特征在于,将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型包括:
基于簇内聚合公式,将接收到的簇内各边缘计算设备发送的模型参数与自身的所述筛选后的模型参数的当前值进行聚合,得到所在簇的簇网络模型;
所述簇内聚合公式包括:
;
其中,为所在簇在第t轮的模型参数,/>为所在簇在簇内聚合完毕后的第t+1轮的模型参数,c为簇的序号,/>为超参数;/>为所在簇的邻域设备集合/>中的第j个边缘计算设备在第t轮第l次更新后的模型参数,/>为与簇内的第i个边缘计算设备在所述有权无向图中具备连接关系的边缘计算设备的邻域设备集合,i为边缘计算设备在簇中的序号,j为边缘计算设备在邻域设备集合内的序号,/>,/>为所在簇的边缘计算设备的总数量。
16.根据权利要求12所述的异构分布式计算的模型聚合方法,其特征在于,将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型进行全局网络模型的聚合包括:
将所述簇网络模型发送至所述中心服务器,以便所述中心服务器依据各个簇的簇网络模型以及全局损失函数进行全局网络模型的聚合;
所述全局损失函数包括:
;
其中,为全局网络模型的模型参数,/>为全局网络模型的模型参数的损失值,N为所述联邦学习系统中边缘计算设备的总数量,/>为簇Sk中的第i个边缘计算设备的模型参数,i∈(1,2,3...nk-1,nk),nk为簇Sk中边缘计算设备的总数量,k为簇的序号,k∈(1,2,3...C-1,C),C为所述联邦学习系统中簇的总数量。
17.一种异构分布式计算的模型聚合方法,应用于联邦学习系统中的边缘计算设备,其特征在于,包括:
在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,所述中心服务器通过所述全局网络模型执行预设任务。
18.一种异构分布式计算的模型聚合装置,应用于联邦学习系统中的边缘计算设备,其特征在于,包括:
边缘训练模块,用于在利用中心服务器发送的全局网络模型对所述边缘计算设备的本地网络模型进行更新后,利用本地数据集对所述本地网络模型进行迭代训练;
第一确定模块,用于确定所述本地网络模型的各个模型参数对于所述本地网络模型的性能的第一影响程度;
第二确定模块,用于确定所述本地网络模型的各个骨干网络层对于所述本地网络模型的性能的第二影响程度;
筛选模块,用于结合所述第一影响程度与所述第二影响程度,进行模型参数的筛选;
传输模块,用于将筛选后的模型参数在所述联邦学习系统内进行传输,以便进行邻域间聚合、簇网络模型以及全局网络模型的多层级聚合,所述中心服务器通过所述全局网络模型执行预设任务;
其中,所述预设任务包括预测工业设备的故障、识别网络安全问题以及对图片进行分类中的任一种。
19.一种异构分布式计算的模型聚合设备,应用于联邦学习系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至17任一项所述异构分布式计算的模型聚合方法的步骤。
20.一种联邦学习系统,其特征在于,包括中心服务器;
还包括与所述中心服务器连接的多个如权利要求19所述的异构分布式计算的模型聚合设备。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述异构分布式计算的模型聚合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410230004.2A CN117808125B (zh) | 2024-02-29 | 2024-02-29 | 模型聚合方法、装置、设备、联邦学习系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410230004.2A CN117808125B (zh) | 2024-02-29 | 2024-02-29 | 模型聚合方法、装置、设备、联邦学习系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117808125A true CN117808125A (zh) | 2024-04-02 |
CN117808125B CN117808125B (zh) | 2024-05-24 |
Family
ID=90430374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410230004.2A Active CN117808125B (zh) | 2024-02-29 | 2024-02-29 | 模型聚合方法、装置、设备、联邦学习系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808125B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181971A (zh) * | 2020-10-27 | 2021-01-05 | 华侨大学 | 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统、设备和可读存储介质 |
CN113055488A (zh) * | 2021-03-23 | 2021-06-29 | 重庆邮电大学 | 多层联邦深度强化学习的车辆边缘协作缓存方法及系统 |
WO2021204040A1 (zh) * | 2020-10-29 | 2021-10-14 | 平安科技(深圳)有限公司 | 联邦学习数据处理方法、装置、设备及存储介质 |
CN115329985A (zh) * | 2022-09-07 | 2022-11-11 | 北京邮电大学 | 无人集群智能模型训练方法、装置和电子设备 |
CN116416508A (zh) * | 2023-03-17 | 2023-07-11 | 西安电子科技大学广州研究院 | 一种加快全局联邦学习模型收敛的方法及联邦学习系统 |
CN116579417A (zh) * | 2023-05-10 | 2023-08-11 | 之江实验室 | 边缘计算网络中的分层个性化联邦学习方法、装置及介质 |
CN116894484A (zh) * | 2023-06-29 | 2023-10-17 | 山东浪潮科学研究院有限公司 | 一种联邦建模方法及系统 |
-
2024
- 2024-02-29 CN CN202410230004.2A patent/CN117808125B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181971A (zh) * | 2020-10-27 | 2021-01-05 | 华侨大学 | 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统、设备和可读存储介质 |
WO2021204040A1 (zh) * | 2020-10-29 | 2021-10-14 | 平安科技(深圳)有限公司 | 联邦学习数据处理方法、装置、设备及存储介质 |
CN113055488A (zh) * | 2021-03-23 | 2021-06-29 | 重庆邮电大学 | 多层联邦深度强化学习的车辆边缘协作缓存方法及系统 |
CN115329985A (zh) * | 2022-09-07 | 2022-11-11 | 北京邮电大学 | 无人集群智能模型训练方法、装置和电子设备 |
CN116416508A (zh) * | 2023-03-17 | 2023-07-11 | 西安电子科技大学广州研究院 | 一种加快全局联邦学习模型收敛的方法及联邦学习系统 |
CN116579417A (zh) * | 2023-05-10 | 2023-08-11 | 之江实验室 | 边缘计算网络中的分层个性化联邦学习方法、装置及介质 |
CN116894484A (zh) * | 2023-06-29 | 2023-10-17 | 山东浪潮科学研究院有限公司 | 一种联邦建模方法及系统 |
Non-Patent Citations (3)
Title |
---|
JIN WANG等: "An Affinity Propagation-Based Self-Adaptive Clustering Method for Wireless Sensor Networks", 《SENSORS (BASEL, SWITZERLAND)》, 30 June 2019 (2019-06-30), pages 1 - 15 * |
任杰等: "面向边缘设备的高能效深度学习任务调度策略", 《计算机学报》, 7 May 2020 (2020-05-07), pages 440 - 452 * |
马千飘等: "异构边缘计算环境下异步联邦学习的节点分组与分时调度策略", 《通信学报》, 8 December 2023 (2023-12-08), pages 15 * |
Also Published As
Publication number | Publication date |
---|---|
CN117808125B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Where to go next: A spatio-temporal LSTM model for next POI recommendation | |
Zhao et al. | Autoloss: Automated loss function search in recommendations | |
CN110675623A (zh) | 基于混合深度学习的短时交通流量预测方法、系统、装置 | |
CN105991397B (zh) | 信息传播方法和装置 | |
Hussain et al. | Intelligent traffic flow prediction using optimized GRU model | |
CN113591380B (zh) | 基于图高斯过程的交通流预测方法、介质及设备 | |
Quinn et al. | Efficient methods to compute optimal tree approximations of directed information graphs | |
CN115455471A (zh) | 提升隐私和鲁棒的联邦推荐方法、装置、设备及存储介质 | |
Ma et al. | Class-imbalanced learning on graphs: A survey | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
CN115599990A (zh) | 一种知识感知结合深度强化学习的跨域推荐方法及系统 | |
Schürch et al. | Correlated product of experts for sparse Gaussian process regression | |
Zhang et al. | A tree-structured multi-task model recommender | |
Li et al. | Dual-track spatio-temporal learning for urban flow prediction with adaptive normalization | |
CN117808125B (zh) | 模型聚合方法、装置、设备、联邦学习系统及存储介质 | |
CN116188834B (zh) | 基于自适应训练模型的全切片图像分类方法及装置 | |
CN115019342B (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN117010454A (zh) | 神经网络训练方法、装置、电子设备以及存储介质 | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 | |
CN115238134A (zh) | 用于生成图数据结构的图向量表示的方法及装置 | |
CN117829274B (zh) | 模型融合方法、装置、设备、联邦学习系统及存储介质 | |
CN117808126B (zh) | 机器学习方法、装置、设备、联邦学习系统及存储介质 | |
CN114070438A (zh) | 一种5g基站电磁信号的检测方法及系统 | |
CN114329231A (zh) | 对象特征处理方法、装置、电子设备及存储介质 | |
CN105894136A (zh) | 一种品类库存量的预测方法和预测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |