CN112488324A - 一种基于版本控制的分布式机器学习模型更新方法 - Google Patents

一种基于版本控制的分布式机器学习模型更新方法 Download PDF

Info

Publication number
CN112488324A
CN112488324A CN202011555400.0A CN202011555400A CN112488324A CN 112488324 A CN112488324 A CN 112488324A CN 202011555400 A CN202011555400 A CN 202011555400A CN 112488324 A CN112488324 A CN 112488324A
Authority
CN
China
Prior art keywords
version
parameter
working node
control
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011555400.0A
Other languages
English (en)
Other versions
CN112488324B (zh
Inventor
郑嘉琦
韩宏健
陈贵海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202011555400.0A priority Critical patent/CN112488324B/zh
Publication of CN112488324A publication Critical patent/CN112488324A/zh
Application granted granted Critical
Publication of CN112488324B publication Critical patent/CN112488324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于版本控制的分布式机器学习模型更新方法,包括:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信;参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作;参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信;参数服务器发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新。本发明能够采用版本控制动态评估当前分布式系统的硬件效率和统计效率,并且采用在线强化学习方法动态追踪两者的最佳权衡以实现最优整体性能。

Description

一种基于版本控制的分布式机器学习模型更新方法
技术领域
本发明涉及分布式机器学习技术领域,具体而言涉及一种基于版本控制的分布式机器学习模型更新方法。
背景技术
机器学习技术在多种任务场景中取得了广泛的成功,但随着数据的膨胀和任务复杂性的增加,将海量数据并行分配到多个计算节点的分布式机器学习成为了高效且可行的解决方案。近年来,随着硬件设备和物联网技术的不断发展,越来越多的边缘设备可以参与分布式机器学习的计算,虽然更多设备的参与提高了系统整体的吞吐量和算力,但同时也增加了系统异构性从而对不同设备间的调度提出了挑战。
分布式机器学习具有两个性能指标,一方面,机器学习场景希望维护一定的模型更新一致性既统计效率(STE)从而降低收敛所需的迭代轮数;另一方面,分布式系统希望维护一定的系统吞吐量既硬件效率(HWE)从而降低每轮迭代计算所消耗的时间。可以看出系统的整体性能指标---收敛所消耗的时间收到这两个指标影响。
在分布式的场景下,传统的调度方法如完全同步(BSP)通过严格同步限制维护了良好的统计效率却限制了硬件效率;而完全异步(ASP)通过放松限制维护了最好的硬件效率却限制了统计效率。不同于传统计算,机器学习的支撑算法如随机梯度下降法(SGD)等往往具有一定的鲁棒性,不要求所采用的机器学习模型具有严格一致性。基于此,随后的改进调度算法如有限异步(SSP)和软同步(SP)均在寻找硬件效率和统计效率的权衡。然而,有限异步所依赖的设备性能近似假设以及软同步的静态同步参数设置使得它们难以应对复杂的甚至是动态的高系统异构性场景。
发明内容
本发明针对现有技术中的不足,提供一种基于版本控制的分布式机器学习模型更新方法,采用版本控制动态评估当前分布式系统的硬件效率和统计效率,并且采用在线强化学习方法动态追踪两者的最佳权衡以实现最优整体性能。
为实现上述目的,本发明采用以下技术方案:
一种基于版本控制的分布式机器学习模型更新方法,所述更新方法包括以下步骤:
S10,本地计算:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信;
S20,梯度通信:参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作;
S30,全局更新:参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信;
S40,参数通信:参数服务器根据步骤S20和步骤S30的控制结果发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新;
重复以上过程直到满足停止条件:分布式系统的收敛所消耗的时间小于预设时间阈值。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S10中,所述本地计算的过程包括如下步骤:
S11,工作节点将根据本地参数w和版本V(w)计算梯度以及梯度的版本:假设该工作节点m所使用的批大小为n,将参数的版本传递给工作节点V(m)←V(w),随后根据本地数据(xi,yi)和参数w计算出数据相关梯度
Figure BDA0002856982710000021
并进行本地梯度更新:
Figure BDA0002856982710000022
S12,工作节点m将梯度的版本信息V(m)压入push请求中,请求与参数服务器通信梯度和参数。
进一步地,步骤S20中,所述梯度通信包括如下步骤:
S21,参数服务器根据收集到的push请求中的版本信息,结合工作节点的梯度版本与参数服务器当前的全局参数版本差距进行合法性检查:若差距大于第一差距阈值则判定为曾经离线工作节点,发送丢弃回应;若差距小于第二差距阈值则判定为较快工作节点,发送跳过回应;否则,判定为正常工作节点,发送更新回应;所述第一差距阈值大于第二差距阈值;
S22,参数服务器将与步骤S21中判断为正常的工作节点进行参数通信以收集工作节点梯度。
进一步地,步骤S30中,所述全局更新包括如下步骤:
S31,参数服务器根据步骤S20的判断结果进行控制信息更新,根据更新后的控制信息和当前的控制阈值控制参数的更新和通信;
S32,参数服务器采用强化学习的方法生成自适应的控制阈值并更新当前控制阈值τ。
进一步地,步骤S31中,所述参数服务器根据步骤S20的判断结果进行控制信息更新,根据更新后的控制信息和当前的控制阈值控制参数的更新和通信的过程包括如下步骤:
S311,参数服务器根据步骤S20的判断结果进行版本延迟信息
Figure BDA0002856982710000023
更新以及等待队列
Figure BDA0002856982710000024
更新:对于已接收push请求的工作节点i,将其延迟信息di写为0,等待队列信息qi写为1;
S312,参数服务器根据步骤S311中的版本延迟信息
Figure BDA0002856982710000025
以及当前版本阈值τ判断是否进行全局更新以及参数通讯:若满足
Figure BDA0002856982710000026
则进行全局参数和版本的更新:
Figure BDA0002856982710000027
并且将更新后的参数和版本同在等待队列中的工作节点进行通信,否则将当前工作节点置于等待状态。
进一步地,更新过程中所采用的数据结构和操作为
Figure BDA0002856982710000028
进一步地,步骤S32中,所述参数服务器采用强化学习的方法生成自适应的控制阈值并更新当前控制阈值τ的过程包括如下步骤:
S321,参数服务器定期根据当前的控制阈值τ、收集到的版本延迟信息
Figure BDA0002856982710000029
以及其信息熵
Figure BDA0002856982710000031
根据奖赏函数计算出当前状态下的奖赏,进行Q表的更新;
S322,参数服务器采用强化学习算法产生新的动作,根据新的动作转移至新的状态,并根据该状态更新当前控制阈值τ用作后续的控制。
进一步地,步骤S321中,所述奖赏函数采用依赖于当前训练阶段的完全在线函数和采用离线数据驱动通过训练神经网络所得到拟合函数中的任意一种。
进一步地,步骤S40中,所述参数通信的过程包括如下步骤:
对工作节点接收到的控制信息进行判断:
若工作节点接收到参数服务器发送的丢弃回应则丢弃本地梯度并与参数服务器进行参数通信:
Figure BDA0002856982710000032
若工作节点接收到参数服务器发送的跳过回应则不更新本地参数记录梯度及其版本开始新一轮的梯度计算;若工作节点接收到参数服务器发送的的正常回应并向参数服务器发送梯度成功,则该工作节点根据接收到的来自参数服务器的全局参数和版本,进行本地参数和版本的更新:
Figure BDA0002856982710000033
wi,V(wi)分别是工作节点i收到的全局参数和版本。
本发明的有益效果是:
(1)本发明的一种基于版本控制的机器学习模型更新方法,相较于其他方法首次提出了追求最佳的硬件效率和统计效率的权衡概念,并且通过实时地追踪结合强化学习以实现这一权衡。
(2)从性能上来说,本方法通过强化学习解决了静态同步参数这一瓶颈从而动态自适应地实现最佳性能。
(3)同时在鲁棒性方面,得益于本方法采用的离线节点检测和较快节点跳过机制,本方法无需依靠任何性能和问题假设可以适配绝大多数异构甚至是动态异构的场景并且发挥最佳的系统性能。
附图说明
图1是本发明的基于版本控制的分布式机器学习模型更新方法的整体流程图。
图2是本发明的基于版本控制的模型更新流程图。
图3是本发明的基于版本控制的系统算法描述图。
图4是本发明的基于强化学习的自适应阈值调整算法描述图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
结合图1,本发明提及一种基于版本控制的分布式机器学习模型更新方法,所述更新方法包括以下步骤:
S10,本地计算:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信。
S20,梯度通信:参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作。
S30,全局更新:参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信。
S40,参数通信:参数服务器根据步骤S20和步骤S30的控制结果发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新。
重复以上过程直到满足停止条件:分布式系统的收敛所消耗的时间小于预设时间阈值。
本发明是一种基于版本控制的机器学习模型更新方法,如图1所示,主要包括如下步骤:工作节点首先根据本地参数和数据进行S10本地计算得到梯度和版本信息,随后发送push请求开始通信;参数服务器在接收到push请求后开始S20梯度通信通过检测梯度的版本合法性来决定是否收集该梯度;随后开始S30全局更新,通过控制信息控制后续的全局参数更新和通信并且使用强化学习自适应的调整控制阈值;最后根据S30结果进行S40参数通信;重复上述流程直到满足问题收敛条件。
其中具体的版本控制流程如图2所示,在S12工作节点发送完push请求后参数服务器将进入S21开始梯度的合法性检查。若该工作节点的梯度版本与参数服务器当前的全局参数版本差距过大则代表该节点为离线节点。由于离线节点版本过旧,本方法将发送丢弃回复,更新控制信息后发送最新全局参数和版本使离线节点开始新一轮计算。若该工作的梯度版本与参数服务器当前的全局参数版本差距很小则表示该工作节点为较快的工作节点,可以根据当前带宽情况可选择地接收较快工作节点地梯度,同时该较快工作节点无需更新本地参数直接开始新一轮计算。若该工作节点梯度版本合法,则参数服务器发送更新回复,收集该工作节点梯度并正常进入后续流程。然后参数服务器进入S30全局更新阶段,根据控制信息和控制阈值判断是否可以进行全局更新,若该工作节点参与更新后导致参数版本延迟超过延迟的阈值则不进行参数更新并将该工作节点放入等待队列中。若满足阈值则首先进入S32通过强化学习方法更新阈值,然后进入正常更新阶段S42。
其中图3为本发明所实现的一个基于版本控制的系统的算法描述,其中工作节点端在进行完S10本地计算后进入等待接收参数服务器回应阶段,根据接收到的不同回应进行不同的动作。接收到跳过回应则根据当前带宽情况可选择的进行本地梯度的发送,若收到跳过回应且选择发送则需要将梯度置为0,若选择不发送则采用增量式梯度更新
Figure BDA0002856982710000041
保留本地梯度数据(算法1第8行)。同时在参数服务器端每次发送跳过回复前均需要通过各个工作节点的计时器检测出离线节点,记录超时并从控制信息中将其移除以保证后续更新的正常进行(算法1第28行),后续通过版本信息检测出离线节点重连后将舍弃其梯度直接发送最新的全局参数和版本(算法1第32行)。
而表1为本发明所实现的一个基于版本控制的系统的关键数据结构和步骤表。
表1
Figure BDA0002856982710000051
本发明将参数和版本放入同一个数据结构(w,V(w))中用以方便后续计算,其中参数服务器负责全局参数和版本更新:
Figure BDA0002856982710000052
而工作节点的版本信息V(m)将单独保存方便参数服务器使用该信息进行控制的同时减少不必要的梯度通信。参数服务器的S30全局更新通过控制信息
Figure BDA0002856982710000053
Figure BDA0002856982710000054
以及延迟阈值τ来判断是否可以进行更新(算法1第19行),其中
Figure BDA0002856982710000055
记录着当前所有工作节点的版本延迟信息而
Figure BDA0002856982710000056
则记录着当前处于等待队列中的工作节点信息,通过对系统版本延迟的不大于阈值的控制从而维护系统的模型一致性进一步维护统计效率,同时阈值τ限制着系统的同步频率从而进一步控制系统的异构程度来实现对硬件效率的控制。本方法所提出的算法1的收敛性证明如下所示。
结合前人的收敛性证明,通过定义P工作节点的个数,η为学习率,L为李普希茨条件,γ为梯度的方差上界以及Nk作为每次参与更新的工作节点数,可以得到N=E[Nk]是平均每次参与更新的工作节点个数。在有τ作为系统版本延迟的保证下,只要满足LNη+2L22C≤1,
Figure BDA0002856982710000057
Figure BDA0002856982710000058
就可以得到本方法的收敛性证明:
Figure BDA0002856982710000059
通过设置合适的学习率:
Figure BDA00028569827100000510
就可以得到本发明所提出的算法1收敛性证明:
Figure BDA00028569827100000511
图4为本发明所采用的自适应控制阈值调整算法,本方法将控制阈值τ与状态空间进行绑定,并定义增加、减少和不改变阈值τ为动作空间,将追踪最佳的控制阈值转化为强化学习追求最大化统计效率加硬件效率这一问题。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种基于版本控制的分布式机器学习模型更新方法,其特征在于,所述更新方法包括以下步骤:
S10,本地计算:工作节点基于本地参数以及其版本进行梯度计算和版本传递,随后发送包含版本信息的push请求向服务器节点通信;
S20,梯度通信:参数服务器将根据push请求的版本信息判断所属工作节点的通信合法性,并进行相应的操作;
S30,全局更新:参数服务器收集梯度,并根据强化学习方法所得到的控制信息控制全局参数更新和通信;
S40,参数通信:参数服务器根据步骤S20和步骤S30的控制结果发送当前最新全局参数以及版本信息,接收到的工作节点进行本地参数以及版本的更新;
重复以上过程直到满足停止条件:分布式系统的收敛所消耗的时间小于预设时间阈值。
2.根据权利要求1所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S10中,所述本地计算的过程包括如下步骤:
S11,工作节点将根据本地参数w和版本V(w)计算梯度以及梯度的版本:假设该工作节点m所使用的批大小为n,将参数的版本传递给工作节点V(m)←V(w),随后根据本地数据(xi,yi)和参数w计算出数据相关梯度
Figure FDA0002856982700000011
并进行本地梯度更新:
Figure FDA0002856982700000012
S12,工作节点m将梯度的版本信息V(m)压入push请求中,请求与参数服务器通信梯度和参数。
3.根据权利要求1所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S20中,所述梯度通信包括如下步骤:
S21,参数服务器根据收集到的push请求中的版本信息,结合工作节点的梯度版本与参数服务器当前的全局参数版本差距进行合法性检查:若差距大于第一差距阈值则判定为曾经离线工作节点,发送丢弃回应;若差距小于第二差距阈值则判定为较快工作节点,发送跳过回应;否则,判定为正常工作节点,发送更新回应;所述第一差距阈值大于第二差距阈值;
S22,参数服务器将与步骤S21中判断为正常的工作节点进行参数通信以收集工作节点梯度。
4.根据权利要求1所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S30中,所述全局更新包括如下步骤:
S31,参数服务器根据步骤S20的判断结果进行控制信息更新,根据更新后的控制信息和当前的控制阈值控制参数的更新和通信;
S32,参数服务器采用强化学习的方法生成自适应的控制阈值并更新当前控制阈值τ。
5.根据权利要求4所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S31中,所述参数服务器根据步骤S20的判断结果进行控制信息更新,根据更新后的控制信息和当前的控制阈值控制参数的更新和通信的过程包括如下步骤:
S311,参数服务器根据步骤S20的判断结果进行版本延迟信息
Figure FDA0002856982700000013
更新以及等待队列
Figure FDA0002856982700000014
更新:对于已接收push请求的工作节点i,将其延迟信息di写为0,等待队列信息qi写为1;
S312,参数服务器根据步骤S311中的版本延迟信息
Figure FDA0002856982700000028
以及当前版本阈值τ判断是否进行全局更新以及参数通讯:若满足
Figure FDA0002856982700000021
则进行全局参数和版本的更新:
Figure FDA0002856982700000022
并且将更新后的参数和版本同在等待队列中的工作节点进行通信,否则将当前工作节点置于等待状态。
6.根据权利要求5所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,更新过程中所采用的数据结构和操作为
Figure FDA0002856982700000023
7.根据权利要求4所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S32中,所述参数服务器采用强化学习的方法生成自适应的控制阈值并更新当前控制阈值τ的过程包括如下步骤:
S321,参数服务器定期根据当前的控制阈值τ、收集到的版本延迟信息
Figure FDA0002856982700000024
以及其信息熵
Figure FDA0002856982700000025
根据奖赏函数计算出当前状态下的奖赏,进行Q表的更新;
S322,参数服务器采用强化学习算法产生新的动作,根据新的动作转移至新的状态,并根据该状态更新当前控制阈值τ用作后续的控制。
8.根据权利要求7所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S321中,所述奖赏函数采用依赖于当前训练阶段的完全在线函数和采用离线数据驱动通过训练神经网络所得到拟合函数中的任意一种。
9.根据权利要求3所述的基于版本控制的分布式机器学习模型更新方法,其特征在于,步骤S40中,所述参数通信的过程包括如下步骤:
对工作节点接收到的控制信息进行判断:
若工作节点接收到参数服务器发送的丢弃回应则丢弃本地梯度并与参数服务器进行参数通信:
Figure FDA0002856982700000026
若工作节点接收到参数服务器发送的跳过回应则不更新本地参数记录梯度及其版本开始新一轮的梯度计算;若工作节点接收到参数服务器发送的的正常回应并向参数服务器发送梯度成功,则该工作节点根据接收到的来自参数服务器的全局参数和版本,进行本地参数和版本的更新:
Figure FDA0002856982700000027
wi,V(wi)分别是工作节点i收到的全局参数和版本。
CN202011555400.0A 2020-12-24 2020-12-24 一种基于版本控制的分布式机器学习模型更新方法 Active CN112488324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011555400.0A CN112488324B (zh) 2020-12-24 2020-12-24 一种基于版本控制的分布式机器学习模型更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011555400.0A CN112488324B (zh) 2020-12-24 2020-12-24 一种基于版本控制的分布式机器学习模型更新方法

Publications (2)

Publication Number Publication Date
CN112488324A true CN112488324A (zh) 2021-03-12
CN112488324B CN112488324B (zh) 2024-03-22

Family

ID=74914395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011555400.0A Active CN112488324B (zh) 2020-12-24 2020-12-24 一种基于版本控制的分布式机器学习模型更新方法

Country Status (1)

Country Link
CN (1) CN112488324B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989561A (zh) * 2021-10-29 2022-01-28 河海大学 基于异步联邦学习的参数聚合更新方法、设备及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480027A (zh) * 2017-07-07 2017-12-15 上海诺悦智能科技有限公司 一种分布式深度学习运维系统
US20180101790A1 (en) * 2016-10-11 2018-04-12 International Business Machines Corporation Parameter version vectors used for deterministic replay of distributed execution of workload computations
US20180218257A1 (en) * 2017-01-27 2018-08-02 Hewlett Packard Enterprise Development Lp Memory side acceleration for deep learning parameter updates
CN108829441A (zh) * 2018-05-14 2018-11-16 中山大学 一种分布式深度学习的参数更新优化系统
CN109710289A (zh) * 2018-12-21 2019-05-03 南京邮电大学 基于深度强化学习算法的分布式参数服务器的更新方法
CN110245743A (zh) * 2019-05-23 2019-09-17 中山大学 一种异步分布式深度学习训练方法、装置及系统
US20190318268A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Distributed machine learning at edge nodes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101790A1 (en) * 2016-10-11 2018-04-12 International Business Machines Corporation Parameter version vectors used for deterministic replay of distributed execution of workload computations
US20180218257A1 (en) * 2017-01-27 2018-08-02 Hewlett Packard Enterprise Development Lp Memory side acceleration for deep learning parameter updates
CN107480027A (zh) * 2017-07-07 2017-12-15 上海诺悦智能科技有限公司 一种分布式深度学习运维系统
US20190318268A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Distributed machine learning at edge nodes
CN108829441A (zh) * 2018-05-14 2018-11-16 中山大学 一种分布式深度学习的参数更新优化系统
CN109710289A (zh) * 2018-12-21 2019-05-03 南京邮电大学 基于深度强化学习算法的分布式参数服务器的更新方法
CN110245743A (zh) * 2019-05-23 2019-09-17 中山大学 一种异步分布式深度学习训练方法、装置及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOOST VERBRAEKEN等: "A Survey on Distributed Machine Learning", 《ACM COMPUTING SURVEYS》, vol. 53, no. 2, 20 March 2020 (2020-03-20), pages 1 - 33, XP059015997, DOI: 10.1145/3377454 *
杜萌: "快速稀疏多元逻辑回归与分布式并行化", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》, no. 1, 15 January 2020 (2020-01-15), pages 002 - 1041 *
殷君茹: "分布式并行环境下林地落界数据快速统计技术研究", 《中国博士学位论文全文数据库 (农业科技辑)》, no. 5, 15 May 2016 (2016-05-15), pages 049 - 14 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989561A (zh) * 2021-10-29 2022-01-28 河海大学 基于异步联邦学习的参数聚合更新方法、设备及系统
CN113989561B (zh) * 2021-10-29 2024-04-16 河海大学 基于异步联邦学习的参数聚合更新方法、设备及系统

Also Published As

Publication number Publication date
CN112488324B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
Zhang et al. Improving cloud gaming experience through mobile edge computing
Low et al. Internet congestion control
CN111818570B (zh) 一种面向真实网络环境的智能拥塞控制方法及系统
US7280476B2 (en) Traffic control at a network node
CN111813506B (zh) 一种基于粒子群算法资源感知计算迁移方法、装置及介质
CN110855737B (zh) 一种一致性级别可控的自适应数据同步方法和系统
CN115529278A (zh) 基于多智能体强化学习的数据中心网络ecn自动调控方法
WO2008104221A1 (en) Method and apparatus for use in multiplayer server-based gaming
CN113573320B (zh) 边缘网络中基于改进的演员-评论家算法的sfc部署方法
Palazzi et al. On maintaining interactivity in event delivery synchronization for mirrored game architectures
CN113114581A (zh) 基于多智能体深度强化学习的tcp拥塞控制方法及装置
CN112488324A (zh) 一种基于版本控制的分布式机器学习模型更新方法
CN115314399B (zh) 一种基于逆强化学习的数据中心流量调度方法
CN113723619A (zh) 一种基于训练阶段感知策略的联邦学习训练方法
CN115150891B (zh) 一种基于移动边缘计算的中断概率辅助任务卸载优化方法
CN115277563B (zh) 一种基于离线强化学习的片上网络近似控制系统
CN112511256A (zh) 在线游戏中动态延迟优化的稳健同步方法
CN113608887B (zh) 一种数字孪生虚实网络信息实时交互方法
CN110929885A (zh) 一种面向智慧校园的分布式机器学习模型参数聚合方法
EP4024212A1 (en) Method for scheduling interference workloads on edge network resources
CN115115064A (zh) 一种半异步联邦学习方法及系统
Müller et al. A proxy server-network for real-time computer games
US8495238B1 (en) Facilitating self-tuning traffic shaping without a central traffic manager
CN113507405B (zh) 一种基于虚拟资源池的虚拟网络节点快速构建方法
Efraimidis et al. Window-games between TCP flows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant