CN111582494A - 一种基于延迟处理的混合分布式机器学习更新方法 - Google Patents

一种基于延迟处理的混合分布式机器学习更新方法 Download PDF

Info

Publication number
CN111582494A
CN111582494A CN202010304796.5A CN202010304796A CN111582494A CN 111582494 A CN111582494 A CN 111582494A CN 202010304796 A CN202010304796 A CN 202010304796A CN 111582494 A CN111582494 A CN 111582494A
Authority
CN
China
Prior art keywords
updating method
machine learning
nodes
node
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010304796.5A
Other languages
English (en)
Other versions
CN111582494B (zh
Inventor
孙勇
胡冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010304796.5A priority Critical patent/CN111582494B/zh
Publication of CN111582494A publication Critical patent/CN111582494A/zh
Application granted granted Critical
Publication of CN111582494B publication Critical patent/CN111582494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于延迟处理的混合分布式机器学习更新方法。根据分布式集群中节点负载不均衡的情况构建分层通信拓扑结构;根据分层通信拓扑结构采用同步更新方法与异步更新方法相结合的混合分布式机器学习更新方法,组内相近的工作节点采用同步更新方法进行训练,各组间不相近的工作节点采用异步更新方法进行训练;所述的异步更新方法采用基于延迟处理的异步更新方法。本发明能够结合同步更新方法和异步更新方法,取长补短,能更好地达到收敛速度和收敛精度的平衡,具有较大的应用价值。

Description

一种基于延迟处理的混合分布式机器学习更新方法
技术领域
本发明设计分布式机器学习系统及更新方法,尤其是设计异步更新方法的一种基于延迟处理的混合分布式机器学习更新方法;
背景技术
分布式机器学习更新方法大致可以分为同步更新方法和异步更新方法两类:同步更新方法要求在每次迭代过程中执行同步等待至集群中所有的训练节点都完成训练任务后再进行下一次迭代,同步更新方法可以有效地保证各个训练节点的参数一致性并提供较好的收敛性能,但整个集群的训练速度受制于计算性能最慢的训练节点,训练节点出现宕机可能会导致这个训练任务的失败,集群的训练效率往往不高。异步更新方法取消强制同步等待过程,训练节点并行执行计算任务并通过服务器节点实现全局参数的维护和更新,大大提升训练速度和容灾能力,但存在使用过去某时刻的计算结果更新全局参数的梯度延迟问题,往往需要更多次迭代才能收敛,甚至无法收敛。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种基于延迟处理的混合分布式机器学习更新方法。本发明能够结合同步更新方法和异步更新方法,取长补短,能更好地达到收敛速度和收敛精度的平衡,具有较大的应用价值。
本发明采用的技术方案包括以下步骤:
1)根据分布式集群中节点负载不均衡的情况构建分层通信拓扑结构;
所述的分布式集群是指由众多服务器拓扑连接构成的分布式集群,其中的节点包括服务器节点和工作节点,服务器节点和工作节点相互连接通信,机器学习模型均存储在服务器节点和工作节点中并分布式计算运行,且机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习;
2)根据分层通信拓扑结构采用同步更新方法与异步更新方法相结合的混合分布式机器学习更新方法,组内相近的工作节点采用同步更新方法进行训练,各组间不相近的工作节点采用异步更新方法进行训练;
所述的异步更新方法采用基于延迟处理的异步更新方法,为改进的异步更新方法。
所述的服务器节点用于保存有机器学习模型结构和参数以及计算机器学习模型的权重参数,工作节点用于保存有机器学习模型结构和参数以及计算机器学习模型的中间梯度参数。
所述的步骤1)中,如图1所示,根据分布式集群中节点负载不均衡的情况,对所有工作节点按照与服务器节点的通信代价进行聚类分组,从而将与服务器节点的通信代价相近的工作节点聚类为一组,每一组内随机选择任意一节点作为中间节点,每组内所有工作节点产生的计算结果聚集存储到中间节点,并且不同组间的各个中间节点的计算结果同时聚集存储到服务器节点。
中间节点作为服务器节点和工作节点以外的其他节点,存储机器学习模型的中间梯度参数。
所述的聚集存储是进行求和后取平均值并存储平均值的操作。
机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习
所述的步骤2)中,具体为:
针对聚类分组后的每一组,组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到同一服务器节点,同时也存储到中间节点,服务器节点根据梯度更新权重参数,在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到组内各个工作节点,再由组内各个工作节点利用随机梯度下降更新方法更新计算下次迭代的梯度;
针对聚类分组后的不同组,每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到各自组的中间节点,各个中间节点将存储的梯度发送到同一服务器节点根据梯度更新权重参数,在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点,再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。
这样,组内相近的工作节点采用同步更新方法进行训练,各组间不相近的工作节点采用异步更新方法进行训练。
在采用同步更新方法训练处理时,每次迭代过程必须等待所有工作节点全部完成计算,将计算结果聚集存储到中间节点才进行下一次迭代;在采用同步更新方法训练处理时,由中间节点异步并行地将计算结果聚集存储到服务器节点。
所述的步骤2)中,基于延迟处理的异步更新方法具体为:
1)中间节点中采用随机梯度下降更新方法根据上次迭代获得的更新后的机器学习模型的权重参数,计算获得未延迟处理的梯度更新值g(wt)为:
wt+1=wt-ηg(wt)
其中,wt为第t次迭代时中间节点处的机器学习模型的权重参数,η为学习速率,g(wt)为第t次迭代时权重参数wt计算得到的梯度更新值;
2)将未延迟处理的梯度更新值g(wt)在wt处做泰勒展开获得基于延迟处理的梯度更新值g(wt+τ):
Figure BDA0002455351810000031
其中,
Figure BDA0002455351810000032
为机器学习模型的损失函数关于参数wt的黑塞矩阵;o()表示佩亚诺余项,In表示元素为1的n维向量;Wt+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数;服务器节点比工作节点、中间节点之间不是同步计算的,存在迭代次数差,τ表示服务器节点比中间节点之间的迭代次数之差;
所述的黑塞矩阵
Figure BDA0002455351810000033
采用以下公式计算获得,以黑塞矩阵的对角元素近似表示黑塞矩阵,降低运算和存储复杂度的同时保持算法精度:
Figure BDA0002455351810000034
其中,λ为调节方差和偏差的参数,λ=(0,1],以降低近似方差;⊙表示哈达玛乘积(element-wise product);
3)服务器节点中,采用异步随机梯度下降更新方法根据中间节点发送过来的基于延迟处理的梯度更新值g(wt+τ)计算更新后的机器学习模型的权重参数为:
Wt+τ+1=Wt+τ-ηg(wt+τ)
其中,Wt+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数;服务器节点比工作节点、中间节点之间不是同步计算的,存在迭代次数差,τ表示服务器节点比中间节点之间的迭代次数之差;
最终根据基于延迟处理的异步更新方法计算最终更新后的机器学习模型的权重参数为:
Wt+τ+1=Wt+τ-η(g(wt)+λg(wt)⊙g(wt)⊙(wt-Wt+τ))
具体实施中的机器学习模型采用卷积神经网络。
本发明根据与服务器节点的通信代价将分布式集群中的工作节点聚类分组,同组工作节点采用同步更新方法将计算结果聚合到中间节点,组间采用异步更新方法,构建了分层通信拓扑结构。同时对异步更新方法进行改进,添加延迟处理削弱梯度延迟对收敛精度的影响。
本发明的有益效果是:
本发明将同步更新方法和异步更新方法融合起来使用,优势互补,考虑到集群计算能力与通信性能的不均衡场景,采用分层训练结构,性能相近的训练节点归为一组进行同步训练,组间则进行基于延迟处理的异步训练,以有效减少梯度延迟带来的异步训练收敛性能损失,可以更好地实现训练速度和收敛性能间的平衡。
附图说明
图1是本发明系统结构示意图。
图2是实施例中分布式机器学习物理实验环境示意图。
图3是实施例中分布式机器学习实验环境对应的系统结构示意图。
表1是实施例中使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型的实验结果。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明的实施例及其实施过程如下:
为了证实本发明方法在分布式机器学习应用的有效性,使用实验进行验证:
如图2所示分布式集群由两台服务器组成,服务器间通过ssh进行相互通信,每台服务器有2块Tesla P40 GPU,整个分布式集群中有4个工作节点和1个服务器节点,其中服务器节点和工作节点1、工作节点2位于服务器1,工作节点3和工作节点4位于服务器2,分布式集群使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型。
根据分布式集群中节点负载不均衡的情况,对所有工作节点按照与服务器节点的通信代价进行聚类分组,工作节点3、工作节点4与服务器节点需进行跨服务器通信,通信代价更大,故如图3所示,将工作节点1与工作节点2分为一组其中选择工作节点1作为中间节点,工作节点3与工作节点4分为一组其中选择工作节点3作为中间节点,每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程等待所有工作节点全部完成计算后将计算出的梯度聚集存储到到中间节点。各个中间节点异步并行地将存储的梯度发送到同一服务器节点并采用基于延迟处理的异步更新方法根据梯度更新权重参数,在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点,再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。
本实施例的实验结果如下表:
表1
Figure BDA0002455351810000051
表1表示了使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型的实验结果。分布式机器学习训练集群使用同步更新方法,需要花费145000s经过40个epoch后收敛,准确率达到80.45%;使用异步更新方法,需要花费113875s经过75个epoch后收敛,准确率达到79.65%;使用本发明所述的一种基于延迟处理的混合分布式机器学习更新方法需要花费112650s经过75个epoch后收敛,准确率达到80.57%。
由此可见,本发明方法可以在最短的时间112650s内收敛并获得最好的准确率80.57%。本发明根据分布式集群中节点负载不均衡的情况,对所有工作节点按照与服务器节点的通信代价进行聚类分组,将同步更新方法和异步更新方法融合起来使用,优势互补,组内相近的工作节点采用同步更新方法进行训练,各组间不相近的工作节点采用基于延迟的异步更新方法进行训练,有效地减少梯度延迟带来的收敛性能损失,可以更好地实现训练速度和收敛性能间的平衡。
由此,一种基于延迟处理的混合分布式机器学习更新方法能够较好得实现训练速度与收敛性能间的平衡,具有较大的应用价值。上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (8)

1.一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:
1)根据分布式集群中节点负载不均衡的情况构建分层通信拓扑结构;
所述的分布式集群是指由众多服务器拓扑连接构成的分布式集群,其中的节点包括服务器节点和工作节点,机器学习模型均存储在服务器节点和工作节点中并分布式计算运行,且机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习;
2)根据分层通信拓扑结构采用同步更新方法与异步更新方法相结合的混合分布式机器学习更新方法,组内相近的工作节点采用同步更新方法进行训练,各组间不相近的工作节点采用异步更新方法进行训练;
所述的异步更新方法采用基于延迟处理的异步更新方法,为改进的异步更新方法。
2.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:所述的服务器节点用于保存有机器学习模型结构和参数以及计算机器学习模型的权重参数,工作节点用于保存有机器学习模型结构和参数以及计算机器学习模型的中间梯度参数。
3.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:所述的步骤1)中,根据分布式集群中节点负载不均衡的情况,对所有工作节点按照与服务器节点的通信代价进行聚类分组,从而将与服务器节点的通信代价相近的工作节点聚类为一组,每一组内随机选择任意一节点作为中间节点,每组内所有工作节点产生的计算结果聚集存储到中间节点,并且不同组间的各个中间节点的计算结果同时聚集存储到服务器节点。
4.根据权利要求3所述的一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:所述的聚集存储是进行求和后取平均值并存储平均值的操作。
5.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:所述的步骤2)中,具体为:
针对聚类分组后的每一组,组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到服务器节点,服务器节点根据梯度更新权重参数,在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到组内各个工作节点,再由组内各个工作节点利用随机梯度下降更新方法更新计算下次迭代的梯度;
针对聚类分组后的不同组,每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到各自组的中间节点,各个中间节点将存储的梯度发送到服务器节点根据梯度更新权重参数,在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点,再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。
6.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法,其特征在于:在采用同步更新方法训练处理时,每次迭代过程必须等待所有工作节点全部完成计算,将计算结果聚集存储到中间节点才进行下一次迭代;在采用同步更新方法训练处理时,由中间节点异步并行地将计算结果聚集存储到服务器节点。
7.根据权利要求1所述的一种基于延迟处理的分布式机器学习更新方法,其特征在于:所述的步骤2)中,基于延迟处理的异步更新方法具体为:
1)中间节点中采用随机梯度下降更新方法根据上次迭代获得的更新后的机器学习模型的权重参数,计算获得未延迟处理的梯度更新值g(wt)为:
wt+1=wt-ηg(wt)
其中,wt为第t次迭代时中间节点处的机器学习模型的权重参数,η为学习速率,g(wt)为第t次迭代时权重参数wt计算得到的梯度更新值;
2)将未延迟处理的梯度更新值g(wt)在wt处做泰勒展开获得基于延迟处理的梯度更新值g(wt+τ):
Figure FDA0002455351800000021
其中,
Figure FDA0002455351800000022
为机器学习模型的损失函数关于参数wt的黑塞矩阵;o()表示佩亚诺余项,In表示元素为1的n维向量;Wt+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数;τ表示服务器节点比中间节点之间的迭代次数之差;
所述的黑塞矩阵
Figure FDA0002455351800000023
采用以下公式计算获得:
Figure FDA0002455351800000024
其中,λ为调节方差和偏差的参数,λ=(0,1],⊙表示哈达玛乘积;
3)服务器节点中,采用异步随机梯度下降更新方法根据基于延迟处理的梯度更新值g(wt+τ)计算更新后的机器学习模型的权重参数为:
Wt+τ+1=Wt+τ-ηg(wt+τ)
其中,Wt+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数;τ表示服务器节点比中间节点之间的迭代次数之差。
8.根据权利要求1所述的一种基于延迟处理的分布式机器学习更新方法,其特征在于:所述的机器学习模型采用卷积神经网络。
CN202010304796.5A 2020-04-17 2020-04-17 一种基于延迟处理的混合分布式机器学习更新方法 Active CN111582494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010304796.5A CN111582494B (zh) 2020-04-17 2020-04-17 一种基于延迟处理的混合分布式机器学习更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010304796.5A CN111582494B (zh) 2020-04-17 2020-04-17 一种基于延迟处理的混合分布式机器学习更新方法

Publications (2)

Publication Number Publication Date
CN111582494A true CN111582494A (zh) 2020-08-25
CN111582494B CN111582494B (zh) 2023-07-07

Family

ID=72113091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010304796.5A Active CN111582494B (zh) 2020-04-17 2020-04-17 一种基于延迟处理的混合分布式机器学习更新方法

Country Status (1)

Country Link
CN (1) CN111582494B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112672368A (zh) * 2020-12-17 2021-04-16 深圳金信诺高新技术股份有限公司 一种CU Pool下动态部署CU的方法及系统
CN113570067A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 分布式系统的同步方法、装置及程序产品
WO2022088171A1 (en) * 2020-11-02 2022-05-05 Alibaba Group Holding Limited Neural processing unit synchronization systems and methods
CN116070720A (zh) * 2023-03-23 2023-05-05 山东海量信息技术研究院 基于分布式集群的数据处理方法、系统、设备及存储介质
CN117114146A (zh) * 2023-08-11 2023-11-24 南京信息工程大学 一种联邦学习模型中毒重建的方法、装置、介质及设备
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
CN108829441A (zh) * 2018-05-14 2018-11-16 中山大学 一种分布式深度学习的参数更新优化系统
US10152676B1 (en) * 2013-11-22 2018-12-11 Amazon Technologies, Inc. Distributed training of models using stochastic gradient descent
CN109508785A (zh) * 2018-10-29 2019-03-22 清华大学 一种用于神经网络训练的异步并行优化方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
US20190205745A1 (en) * 2017-12-29 2019-07-04 Intel Corporation Communication optimizations for distributed machine learning
AU2020100180A4 (en) * 2020-02-05 2020-03-12 Southwest University Effective Doubly-Accelerated Distributed Asynchronous Strategy for General Convex Optimization Problem

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152676B1 (en) * 2013-11-22 2018-12-11 Amazon Technologies, Inc. Distributed training of models using stochastic gradient descent
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
US20190205745A1 (en) * 2017-12-29 2019-07-04 Intel Corporation Communication optimizations for distributed machine learning
CN108829441A (zh) * 2018-05-14 2018-11-16 中山大学 一种分布式深度学习的参数更新优化系统
CN109508785A (zh) * 2018-10-29 2019-03-22 清华大学 一种用于神经网络训练的异步并行优化方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
AU2020100180A4 (en) * 2020-02-05 2020-03-12 Southwest University Effective Doubly-Accelerated Distributed Asynchronous Strategy for General Convex Optimization Problem

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINKUN GENG.ET.: "Horizontal or Vertical?: A Hybrid Approach to Large-Scale Distributed Machine Learning", pages 1 - 4 *
舒娜等: "分布式机器学习平台与算法综述", vol. 46, no. 3, pages 9 - 18 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088171A1 (en) * 2020-11-02 2022-05-05 Alibaba Group Holding Limited Neural processing unit synchronization systems and methods
CN112672368A (zh) * 2020-12-17 2021-04-16 深圳金信诺高新技术股份有限公司 一种CU Pool下动态部署CU的方法及系统
CN113570067A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 分布式系统的同步方法、装置及程序产品
CN113570067B (zh) * 2021-07-23 2022-08-02 北京百度网讯科技有限公司 分布式系统的同步方法、装置
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备
CN116070720A (zh) * 2023-03-23 2023-05-05 山东海量信息技术研究院 基于分布式集群的数据处理方法、系统、设备及存储介质
CN117114146A (zh) * 2023-08-11 2023-11-24 南京信息工程大学 一种联邦学习模型中毒重建的方法、装置、介质及设备
CN117114146B (zh) * 2023-08-11 2024-03-29 南京信息工程大学 一种联邦学习模型中毒重建的方法、装置、介质及设备

Also Published As

Publication number Publication date
CN111582494B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111582494A (zh) 一种基于延迟处理的混合分布式机器学习更新方法
US9852230B2 (en) Asynchronous message passing for large graph clustering
CN106297774B (zh) 一种神经网络声学模型的分布式并行训练方法及系统
CN109299781B (zh) 基于动量和剪枝的分布式深度学习系统
CN110262899A (zh) 基于Kubernetes集群的监控组件弹性伸缩方法、装置及受控终端
Prais et al. A topology processor that tracks network modifications
US20180211166A1 (en) Distributed deep learning device and distributed deep learning system
CN106156810A (zh) 通用机器学习算法模型训练方法、系统和计算节点
Hardiansyah et al. Solving economic load dispatch problem using particle swarm optimization technique
CN105511801B (zh) 数据存储的方法和装置
CN109818792B (zh) 一种基于二阶线性系统时变耦合复杂动态网络模型的控制器
CN104461748A (zh) 一种基于MapReduce的最优本地化任务调度方法
CN108334945A (zh) 深度神经网络的加速与压缩方法及装置
CN113132232A (zh) 一种能量路由优化方法
CN104301434A (zh) 一种基于集群的高速通信架构及方法
CN113224767A (zh) 直流微电网分布式次级控制中通信延迟的改进方法
CN112217652B (zh) 一种基于中心通信模式的网络拓扑装置及方法
CN116362327A (zh) 一种模型训练方法、系统及电子设备
Zhu et al. Random walk and first passage time on a weighted hierarchical network
CN111834996B (zh) 电网线损计算方法和装置
CN111858721B (zh) 一种基于优先级编码的分布式计算方法
CN114637278A (zh) 一种多领导者与切换拓扑下的多智能体容错编队跟踪控制方法
CN110752594A (zh) 基于改进凝聚层次聚类法的配电网路径优化方法
CN114205251B (zh) 基于时空特征的交换机链路资源预测方法
CN111095202A (zh) 基于注入节点带宽的并行处理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant