CN114819321A - 一种面向分布式机器学习的参数传输通信优化方法 - Google Patents

一种面向分布式机器学习的参数传输通信优化方法 Download PDF

Info

Publication number
CN114819321A
CN114819321A CN202210406535.3A CN202210406535A CN114819321A CN 114819321 A CN114819321 A CN 114819321A CN 202210406535 A CN202210406535 A CN 202210406535A CN 114819321 A CN114819321 A CN 114819321A
Authority
CN
China
Prior art keywords
parameter
synchronization
nodes
node
barrier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210406535.3A
Other languages
English (en)
Other versions
CN114819321B (zh
Inventor
王丽乐
王煜炜
刘敏
付艳波
王元卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology Big Data Research Institute
Zhengzhou University
Original Assignee
China Science And Technology Big Data Research Institute
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology Big Data Research Institute, Zhengzhou University filed Critical China Science And Technology Big Data Research Institute
Priority to CN202210406535.3A priority Critical patent/CN114819321B/zh
Publication of CN114819321A publication Critical patent/CN114819321A/zh
Application granted granted Critical
Publication of CN114819321B publication Critical patent/CN114819321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Multi Processors (AREA)

Abstract

本发明属于参数通信优化技术领域,具体涉及一种面向分布式机器学习的参数传输通信优化方法。该方法将间断同步并行方法分为参数服务器端和计算节点端两个部分,对于参数服务器端,采用K‑means聚类算法和预测机制对所有计算节点梯度完成的时间进行划分,实现同步屏障的不严格施加;将整体同步并行策略的同步滞后问题转化为同步屏障的施加问题,然后,基于梯度下降算法将计算节点的梯度计算并不断进行迭代收敛,利用同步屏障的不严格施加在参数服务器端对梯度进行聚合或计算。

Description

一种面向分布式机器学习的参数传输通信优化方法
技术领域
本发明属于参数通信优化技术领域,具体涉及一种面向分布式机器学习的参数传输通信优化方法。
背景技术
近些年来,分布式机器学习在计算机视觉、自然语言处理、推荐系统等领域获得了空前的成功,它通过将计算分散到多个计算节点上来减少训练时间,同时节点之间需要与参数服务器进行通信以同步模型参数。最经典的同步策略为整体同步并行策略,然而该策略存在严重的同步滞后问题,即快速节点需要等待慢速节点到达同步屏障(针对需要参数服务器聚合梯度的计算节点设定的时间屏障,使这些节点可以同步从而进行下一步骤)一起同步从而浪费时间。
分布式机器学习中整体同步并行方法下的训练流程就是各个计算节点使用本地策略训练数据,将迭代计算完成的本地梯度上传至参数服务器,随后进入通信屏障,等待所有的计算节点完成本地梯度计算并上传至参数服务器使得参数服务器完成全局策略参数更新,则解除通信屏障,所有的计算节点获取参数服务器下发的最新策略参数,进行下一轮迭代计算。然而整体同步并行策略的同步开销过高,在解决实际分布式机器学习的问题中不切实际。而且其在负载均衡的集群中,会出现某些随机的工作节点比其他节点慢,造成节点速度不均衡的问题。这大大的浪费了速度快的工作节点的计算能力,当系统规模庞大时,这一问题会更加严重。因此,设计一种解决同步滞后问题的参数同步方法至关重要。
发明内容
针对目前同步并行策略同步开销过高、其在负载均衡的集群中造成节点速度不均衡的缺陷和问题,本发明提供一种面向分布式机器学习的参数通信优化方法。
本发明解决其技术问题所采用的方案是:一种面向分布式机器学习的参数传输通信优化方法,其通过参数优化系统实现模型参数优化,其中参数优化系统包括计算节点模块和参数服务器模块,其通过间断同步模型实现模型参数间断同步并行;
参数服务器模块将新的全局模型参数wi下发至计算节点模块,计算节点模块接收到全局模型参数wi后,根据最新模型参数计算出本地局部梯度
Figure BDA0003602100330000021
Figure BDA0003602100330000022
{m:size of mini-batch M and(xi,yi)∈M}
式中:i为迭代次数;n为节点个数;wi为全局模型参数;
Figure BDA0003602100330000023
为局部梯度值;f((xi,yi),wi)为损失函数;
并将局部梯度
Figure BDA0003602100330000024
上传至参数服务器模块进行同步,同步完成后,接收计算节点的计算完成时间
Figure BDA0003602100330000025
以及同步屏障施加位置
Figure BDA0003602100330000026
同时将预测时间的节点和未参与同步的节点进行同步屏障预测,预测参与同步节点的下一轮计算完成时间点
Figure BDA0003602100330000027
Figure BDA0003602100330000028
式中:
Figure BDA0003602100330000029
为节点计算完成时间;
然后采用K-means聚类算法,以新、旧聚类中心的最大值>1/2L时结束算法迭代得到两个类簇
Figure BDA0003602100330000031
Figure BDA0003602100330000032
为同步屏障划分时间点;
参数服务器模块接收到计算节点上传的局部梯度后,对参与同步的节点的局部梯度进行聚合,计算得到全局梯度值
Figure BDA0003602100330000033
然后根据现有的全局模型参数ωi和全局梯度值gi计算得到最新的全局模型参数ωi+1
ωi+1=ωi+ηgi
式中:η为学习率;
广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
上述的面向分布式机器学习的参数传输通信优化方法,参数服务器模块分为数据同步线程、参数聚合线程和计算节点聚集线程三个线程,其中:数据同步线程用于同步局部梯度;计算节点聚集线程用于对同步屏障施加位置;参数聚合线程用来聚合计算节点的局部梯度,同时更新全局模型参数;三个线程同步进行实现数据处理。
上述的面向分布式机器学习的参数传输通信优化方法,参数聚合线程用来聚合计算节点的局部梯度,同时更新全局模型参数,其步骤为:
(1)在同步屏障后,参数聚合线程等待计算节点端发送的信号,确保所有需要同步的局部梯度值进入屏障,仍在计算或传输的局部梯度进入下一轮同步;
(2)将计算节点端进入同步屏障的梯度值进行聚合,计算得到本次迭代所需要的全局梯度值
Figure BDA0003602100330000041
(3)根据现有的模型参数、全局梯度值计算得到最新的全局模型参数ωi+1=ωi+ηgi
(4)广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
上述的面向分布式机器学习的参数传输通信优化方法,数据同步线程进行局部梯度同步,具体是:
(1)根据计算节点计算时间决定是否进入同步屏障,等待计算节点聚集线程发送信号,等待所有符合条件的节点进入屏障;
(2)符合条件的节点进入参数聚合线程进行聚合,完成全局梯度计算;剩余节点与同步后的节点一起进入下一轮迭代;
(3)根据节点计算时间在计算节点聚集线程中重新分类,计算同步屏障位置。
上述的面向分布式机器学习的参数传输通信优化方法,计算节点聚集线程对同步屏障施加位置,具体为:
(1)记录各节点计算时间,并进行标记;同时预测节点的下一轮迭代时间;
(2)使用K-means聚类方法,设定K=2,将标记时间进行划分;
(3)根据划分的时间段,将第一个聚类的最后一个时间节点设定为同步屏障施加位置;
(4)本轮迭代完成后,根据节点预测时间计算进行下一轮同步屏障位置。
上述的面向分布式机器学习的参数通信优化方法,K-means聚类包括以下步骤:
a、随机产生2个聚类中心;
b、计算各点到聚类中心点的距离,目标点划分到距离其最近的聚类中心;
c、更新聚类中心为类簇所有点的均值,计算新、旧聚类中心间距离的最大值;
d、判断新、旧聚类中心的最大值是否大于
Figure BDA0003602100330000051
若是,得到最终的两个点簇的任务分配,结束聚类;若否,循环步骤b-d。
本发明的有益效果:本发明将间断同步并行方法分为参数服务器端和计算节点端,其中对于参数服务器端,本发明采用K-means聚类算法和预测机制对所有计算节点梯度完成的时间进行划分,实现同步屏障的不严格施加,由此,将整体同步并行策略的同步滞后问题转化为同步屏障的施加问题。然后,基于梯度下降算法将计算节点的梯度计算然后不断进行迭代收敛,利用同步屏障的不严格施加在参数服务器端对梯度进行聚合或计算,不会浪费速度快的计算节点的计算能力,在缩短模型训练时间的同时保持模型精度。
附图说明
图1为本发明整体流程示意图。
图2为间断同步并行模型图。
图3为聚类算法流程图。
图4为同步屏障划分示意图。
具体实施方式
针对整体同步并行策略存在的快速节点需要等待慢速节点到达同步屏障(针对需要参数服务器聚合梯度的计算节点设定的时间屏障,使这些节点可以同步从而进行下一步骤)一起同步从而浪费时间的问题,本发明提出间断同步并行方法来解决该问题。下面结合附图和实施例对本发明进一步说明。
实施例1:本实施例提供一种面向分布式机器学习的参数传输通信优化方法,该系统包括参数服务器模块、计算节点模块和间接同步模型,参见图1-3。
参数服务器模块分为参数聚合线程、数据同步线程和计算节点聚集线程三个线程,三个线程同步进行实现数据处理。本实施例所有符号说明见表1。
表1 符号说明表
Figure BDA0003602100330000061
参数聚合线程用来聚合计算节点的局部梯度,同时更新全局模型参数;其步骤为:
(1)在同步屏障后,参数聚合线程等待计算节点端发送的信号,确保所有需要同步的局部梯度值进入屏障,仍在计算或传输的局部梯度进入下一轮同步;
(2)将计算节点端进入同步屏障的梯度值进行聚合,计算得到本次迭代所需要的全局梯度值
Figure BDA0003602100330000071
(3)根据现有的模型参数、全局梯度值计算得到最新的全局模型参数ωi+1=ωi+ηgi
(4)广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
数据同步线程用于同步局部梯度,其步骤为:
(1)根据计算节点计算时间决定是否进入同步屏障,等待计算节点聚集线程发送信号,等待所有符合条件的节点进入屏障;
(2)符合条件的节点进入参数聚合线程进行聚合,完成全局梯度计算;剩余节点与同步后的节点一起进入下一轮迭代;
(3)根据节点计算时间在计算节点聚集线程中重新分类,计算同步屏障位置。
计算节点聚集线程用于对同步屏障施加位置,其步骤为:
(1)记录各节点计算时间,并进行标记;同时预测节点的下一轮迭代时间;
(2)使用K-means聚类方法,设定K=2,将标记时间进行划分;
(3)根据划分的时间段,将第一个聚类的最后一个时间节点设定为同步屏障施加位置;
(4)本轮迭代完成后,根据节点预测时间计算进行下一轮同步屏障位置。
2、计算节点
计算节点端为同步模型中基础的步骤。
(1)计算节点从参数服务器接收到最新的全局模型参数wi
(2)根据最新模型参数计算出本地局部梯度,
Figure BDA0003602100330000081
{m:size of mini-batch M and(xi,yi)∈M}
(3)根据参数服务器的信号,判断本次迭代是否参与本次同步;
(4)将局部梯度
Figure BDA0003602100330000082
上传至参数服务器。
3、间断同步模型
(1)接收到计算节点的计算完成时间
Figure BDA0003602100330000083
以及同步屏障施加位置
Figure BDA0003602100330000084
(2)将局部梯度
Figure BDA0003602100330000085
上传至参数服务器;进行同步,同步完成后,返回步骤(1),同时将预测时间的节点和未参与同步的节点进行同步屏障预测;预测参与同步节点的下一轮计算完成时间点;
Figure BDA0003602100330000086
(3)采用K-means聚类算法,以新、旧聚类中心的最大值>
Figure BDA0003602100330000087
时结束算法迭代得到两个类簇
Figure BDA0003602100330000088
其中:L为最慢和最快节点间的时间差值,以
Figure BDA0003602100330000089
为同步屏障划分时间点。其中聚类过程为:
a、随机产生2个聚类中心;
b、计算各点到聚类中心点的距离,目标点划分到距离其最近的聚类中心;
c、更新聚类中心为类簇所有点的均值,计算新、旧聚类中心间距离的最大值;
d、判断新、旧聚类中心的最大值是否大于
Figure BDA0003602100330000091
若是,得到最终的两个点簇的任务分配,结束聚类;
若否,循环步骤b-d。
实施例2:本实施例提供一种面向分布式机器学习的参数传输通信优化方法,其通过参数优化系统实现模型参数间断同步并行,其中参数优化系统包括计算节点模块和参数服务器模块,其通过间断同步模型实现模型参数间断同步并行;
其中参数服务器模块将新的全局模型参数wi下发至计算节点模块,计算节点模块接收到全局模型参数wi后,根据最新模型参数计算出本地局部梯度
Figure BDA0003602100330000092
Figure BDA0003602100330000093
{m:size of mini-batch M and(xi,yi)∈M},
式中:i为迭代次数;n为节点个数;wi为全局模型参数;
Figure BDA0003602100330000094
为局部梯度值;f((xi,yi),wi)为损失函数;
并将局部梯度
Figure BDA0003602100330000095
上传至参数服务器模块进行同步,同步完成后接收计算节点的计算完成时间
Figure BDA0003602100330000096
以及同步屏障施加位置
Figure BDA0003602100330000097
同时将预测时间的节点和未参与同步的节点进行同步屏障预测,预测参与同步节点的下一轮计算完成时间点
Figure BDA0003602100330000098
Figure BDA0003602100330000099
式中:
Figure BDA0003602100330000101
为节点计算完成时间。
然后采用K-means聚类算法,以新、旧聚类中心的最大值>1/2L时结束算法迭代得到两个类簇
Figure BDA0003602100330000102
Figure BDA0003602100330000103
为同步屏障划分时间点;其中:L为最慢和最快节点间的时间差值。
参数服务器模块接收到计算节点上传的局部梯度后,对参与同步的节点的局部梯度进行聚合,计算全局梯度值
Figure BDA0003602100330000104
然后根据现有的全局模型参数和全局梯度值计算得到最新的全局模型参数ωi+1=ωi+ηgi,广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
实施例3:本实施例以六个计算节点和一个参数服务器节点为例,从计算本地梯度到参数聚合完成多线程处理,实现间断同步并行模型,具体如下:
1、计算节点(本实施例假设为节点1)
(1)计算节点从参数服务器接收到第1次全局模型参数w3
(2)根据最新模型参数计算出本地局部梯度,
Figure BDA0003602100330000105
{m:size of mini-batch M and(x3,y3)∈M}
(3)计算完成后发送信号到参数服务器,看是否符合当前同步标准。
(4)将局部梯度
Figure BDA0003602100330000106
上传至参数服务器。
2、同步屏障施加
(1)接收到计算节点完成时间
Figure BDA0003602100330000111
是worker n在第i次迭代的结束点;
(2)根据时间戳,使用聚类算法,得出第一个类簇为
Figure BDA0003602100330000112
则同步屏障施加位置为
Figure BDA0003602100330000113
标记为
Figure BDA0003602100330000114
(3)预测同步后的节点下一轮完成计算时间点:
Figure BDA0003602100330000115
(4)将预测时间点和
Figure BDA0003602100330000116
使用聚类算法,预测第2轮同步屏障施加时间;
(5)与步骤(4)同时进行,节点1、2、3、4将梯度传输,进行同步和聚合。
3、参数服务器
(1)接收到计算节点上传的局部梯度;
(2)对参与同步后的4个节点的梯度值进行聚合,计算全局梯度,
Figure BDA0003602100330000117
(3)更新全局模型参数ω4=ω3+ηg3,η为学习率;
(4)将更新后的全局参数下发至各个计算节点。
以上所述仅为本发明的较佳实施例,并不限制本发明,凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向分布式机器学习的参数传输通信优化方法,其特征在于:其通过参数优化系统实现模型参数间断同步并行,其中参数优化系统包括计算节点模块和参数服务器模块,其通过间断同步模型实现模型参数间断同步并行;
参数服务器模块将新的全局模型参数wi下发至计算节点模块,计算节点模块接收到全局模型参数wi后,根据最新模型参数计算出本地局部梯度
Figure FDA0003602100320000011
Figure FDA0003602100320000012
{m:size of mini-batch M and(xi,yi)∈M},
式中:i为迭代次数;n为节点个数;wi为全局模型参数;
Figure FDA0003602100320000013
为局部梯度值;f((xi,yi),wi)为损失函数;
并将局部梯度
Figure FDA0003602100320000014
上传至参数服务器模块进行同步,同步完成后接收计算节点的计算完成时间
Figure FDA0003602100320000015
以及同步屏障施加位置
Figure FDA0003602100320000016
同时将预测时间的节点和未参与同步的节点进行同步屏障预测,预测参与同步节点的下一轮计算完成时间点
Figure FDA0003602100320000017
Figure FDA0003602100320000018
式中:
Figure FDA0003602100320000019
为节点计算完成时间;
然后采用K-means聚类算法,以新、旧聚类中心的最大值>1/2L时结束算法迭代得到两个类簇
Figure FDA00036021003200000110
Figure FDA00036021003200000111
为同步屏障划分时间点;其中:L为最慢和最快节点间的时间差值;
参数服务器模块接收到计算节点上传的局部梯度后,对参与同步的节点的局部梯度进行聚合,计算全局梯度值
Figure FDA0003602100320000021
然后根据现有的全局模型参数和全局梯度值计算得到最新的全局模型参数ωi+1=ωi+ηgi,广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
2.根据权利要求1所述的面向分布式机器学习的参数传输通信优化方法,其特征在于:参数服务器模块分为数据同步线程、参数聚合线程和计算节点聚集线程三个线程,其中:数据同步线程用于同步局部梯度;计算节点聚集线程用于对同步屏障施加位置;参数聚合线程用来聚合计算节点的局部梯度,同时更新全局模型参数;三个线程同步进行实现数据处理。
3.根据权利要求2所述的面向分布式机器学习的参数传输通信优化方法,其特征在于:参数聚合线程用来聚合计算节点的局部梯度,同时更新全局模型参数,其步骤为:
(1)在同步屏障后,参数聚合线程等待计算节点端发送的信号,确保所有需要同步的局部梯度值进入屏障,仍在计算或传输的局部梯度进入下一轮同步;
(2)将计算节点端进入同步屏障的梯度值进行聚合,计算得到本次迭代所需要的全局梯度值
Figure FDA0003602100320000022
(3)根据现有的模型参数、全局梯度值计算得到最新的全局模型参数ωi+1=ωi+ηgi
(4)广播通知所有计算节点,同时将更新后的全局模型参数下发至计算节点。
4.根据权利要求2所述的面向分布式机器学习的参数传输通信优化方法,其特征在于:数据同步线程进行局部梯度同步,具体是:
(1)根据计算节点计算时间决定是否进入同步屏障,等待计算节点聚集线程发送信号,等待所有符合条件的节点进入屏障;
(2)符合条件的节点进入参数聚合线程进行聚合,完成全局梯度计算;剩余节点与同步后的节点一起进入下一轮迭代;
(3)根据节点计算时间在计算节点聚集线程中重新分类,计算同步屏障位置。
5.根据权利要求2所述的面向分布式机器学习的参数传输通信优化方法,其特征在于:计算节点聚集线程对同步屏障施加位置,具体为:
(1)记录各节点计算时间,并进行标记;同时预测节点的下一轮迭代时间;
(2)使用K-means聚类方法,设定K=2,将标记时间进行划分;
(3)根据划分的时间段,将第一个聚类的最后一个时间节点设定为同步屏障施加位置;
(4)本轮迭代完成后,根据节点预测时间计算进行下一轮同步屏障位置。
6.根据权利要求5所述的面向分布式机器学习的参数传输通信优化方法,其特征在于:K-means聚类包括以下步骤:
a、随机产生2个聚类中心;
b、计算各点到聚类中心点的距离,目标点划分到距离其最近的聚类中心;
c、更新聚类中心为类簇所有点的均值,计算新、旧聚类中心间距离的最大值;
d、判断新、旧聚类中心的最大值是否大于
Figure FDA0003602100320000041
若是,得到最终的两个点簇的任务分配,结束聚类;若否,循环步骤b-d。
CN202210406535.3A 2022-04-18 2022-04-18 一种面向分布式机器学习的参数传输通信优化方法 Active CN114819321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210406535.3A CN114819321B (zh) 2022-04-18 2022-04-18 一种面向分布式机器学习的参数传输通信优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210406535.3A CN114819321B (zh) 2022-04-18 2022-04-18 一种面向分布式机器学习的参数传输通信优化方法

Publications (2)

Publication Number Publication Date
CN114819321A true CN114819321A (zh) 2022-07-29
CN114819321B CN114819321B (zh) 2023-04-07

Family

ID=82537456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210406535.3A Active CN114819321B (zh) 2022-04-18 2022-04-18 一种面向分布式机器学习的参数传输通信优化方法

Country Status (1)

Country Link
CN (1) CN114819321B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990155A (zh) * 2019-11-29 2020-04-10 杭州电子科技大学 一种面向大规模安全监控的参数通信方法
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
CN112364913A (zh) * 2020-11-09 2021-02-12 重庆大学 一种基于核心数据集的联邦学习通信量优化方法及系统
US20210150269A1 (en) * 2019-11-18 2021-05-20 International Business Machines Corporation Anonymizing data for preserving privacy during use for federated machine learning
CN113342313A (zh) * 2021-05-21 2021-09-03 上海大学 一种基于参数服务器异步更新Spark MLlib中线性分类模型参数的方法
US20210367861A1 (en) * 2020-05-19 2021-11-25 Ab Initio Technology Llc Optimizing Communication in Distributed Computing Network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150269A1 (en) * 2019-11-18 2021-05-20 International Business Machines Corporation Anonymizing data for preserving privacy during use for federated machine learning
CN110990155A (zh) * 2019-11-29 2020-04-10 杭州电子科技大学 一种面向大规模安全监控的参数通信方法
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
US20210367861A1 (en) * 2020-05-19 2021-11-25 Ab Initio Technology Llc Optimizing Communication in Distributed Computing Network
CN112364913A (zh) * 2020-11-09 2021-02-12 重庆大学 一种基于核心数据集的联邦学习通信量优化方法及系统
CN113342313A (zh) * 2021-05-21 2021-09-03 上海大学 一种基于参数服务器异步更新Spark MLlib中线性分类模型参数的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HO QIRONG 等: "\"More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server\"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
阳瑞: ""面向分布式机器学习框架的通信优化技术研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN114819321B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110533183B (zh) 流水线分布式深度学习中异构网络感知的任务放置方法
WO2023240845A1 (zh) 一种分布式计算方法、系统、设备及存储介质
WO2018196631A1 (en) Training machine learning models on a large-scale distributed system using a job server
US9852230B2 (en) Asynchronous message passing for large graph clustering
CN106156810A (zh) 通用机器学习算法模型训练方法、系统和计算节点
CN109299781A (zh) 基于动量和剪枝的分布式深度学习系统
CN111274036A (zh) 一种基于速度预测的深度学习任务的调度方法
WO2024016542A1 (zh) 信息融合方法、数据通信方法、装置及电子设备和非易失性可读存储介质
CN110419050A (zh) 一种分布式机器学习的计算机系统
Cao et al. A parallel computing framework for large-scale air traffic flow optimization
CN115293342A (zh) 一种基于混合并行的深度卷积神经网络并行训练方法
CN109445386A (zh) 一种基于onba的云制造任务最短生产时间调度方法
KR20220098949A (ko) 딥러닝 모델 분산 학습 시스템 및 방법
CN111177892A (zh) 一种分布式仿真系统
CN114356578A (zh) 自然语言处理模型的并行计算方法、装置、设备及介质
Ko et al. An in-depth analysis of distributed training of deep neural networks
Geng et al. Accelerating distributed machine learning by smart parameter server
CN114819321B (zh) 一种面向分布式机器学习的参数传输通信优化方法
CN116501828B (zh) 基于非结构化数据集的服务器无感知向量查询方法和系统
CN113656494B (zh) 参数服务器的同步方法、系统及可读存储介质
CN111027671A (zh) 一种基于模型结构特性的分布式深度学习通信方法和系统
Kim et al. Scale-Train: A Scalable DNN Training Framework for a Heterogeneous GPU Cloud
CN115081619A (zh) 一种面向异构集群加速分布式训练的方法及系统
CN105975434B (zh) 面向异构系统的数据传输优化方法
WO2023184009A1 (en) Systems and methods for cluster-based parallel split learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared