CN114118437A - 一种面向微云中分布式机器学习的模型更新同步方法 - Google Patents

一种面向微云中分布式机器学习的模型更新同步方法 Download PDF

Info

Publication number
CN114118437A
CN114118437A CN202111163268.3A CN202111163268A CN114118437A CN 114118437 A CN114118437 A CN 114118437A CN 202111163268 A CN202111163268 A CN 202111163268A CN 114118437 A CN114118437 A CN 114118437A
Authority
CN
China
Prior art keywords
model
aggregation point
aggregation
intermediate aggregation
working node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111163268.3A
Other languages
English (en)
Other versions
CN114118437B (zh
Inventor
张煜晨
金琦轩
罗龙
孙罡
虞红芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111163268.3A priority Critical patent/CN114118437B/zh
Publication of CN114118437A publication Critical patent/CN114118437A/zh
Application granted granted Critical
Publication of CN114118437B publication Critical patent/CN114118437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2211/00Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
    • G06F2211/005Network, LAN, Remote Access, Distributed System

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向微云中分布式机器学习的模型更新同步方法,通过在所有微云中确定出中间聚合点集;然后确定出每一个工作节点对应的中间聚合点,并将所有工作节点中的本地模型上传至对应的中间聚合点,以使中间聚合点将接收到本地模型进行聚合得到聚合模型;将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型,将所述全局模型分发给所有工作节点,避免了使参数服务器成热点,减小了模型更新同步的延时,实现了快速地对微云中分布式机器学习模型参数进行更新与同步。

Description

一种面向微云中分布式机器学习的模型更新同步方法
技术领域
本发明属于人工智能技术领域,具体涉及一种面向微云中分布式机器学习的模型更新同步方法。
背景技术
近年来,机器学习技术促进了图像识别、自然语言处理等各种应用领域的快速发展,这类需要对海量数据进行处理以及对复杂模型的快速学习的需求推动了分布式机器学习的发展。
传统的分布式机器学习是以云为中心,其需要将用户的原始数据上传到超大规模的数据中心,这不仅会造成很高的通信开销,还会造成隐私问题,因此,越来越多的供应商开始利用微云在互联网边缘进行机器学习模型的训练,微云是部署在用户终端附近的微数据中心,在模型的训练过程中,微云会作为工作节点,将根据本地数据集训练的模型更新上传至参数服务器,参数服务器再将更新的全局模型分发给微云,尽管利用微云可以节省带宽,保护隐私,但由于现如今的网络中有大量的微云需要通过广域网进行模型的更新同步,并且为了模型能够收敛,需要大量的训练轮次,这会产生大量的数据。然而微云之间的广域网带宽通常很小,不足以支撑大量数据的传输。这种大量数据传输的需求与紧缺的带宽资源的冲突使得广域网下面向微云中分布式机器学习的模型的快速更新同步十分具有挑战性。
在现有技术中,大部分分布式机器学习系统是采用直接聚合的方式,所有的工作节点直接将更新的模型上传给参数服务器,这种方案容易使参数服务器成为一个热点,从而导致模型更新同步的延时。
因此,在面向微云的分布式机器学习中,如何快速地对模型进行更新与同步,是本领域技术人员有待解决的技术问题。
发明内容
本发明的目的是为了快速地对微云中分布式机器学习模型参数进行更新与同步,减小模型训练过程中的传输时间,提出了一种面向微云中分布式机器学习的模型更新同步方法。
本发明的技术方案为:一种面向微云中分布式机器学习的模型更新同步方法,包括以下步骤:
S1、在所有微云中确定出中间聚合点集;
S2、确定出每一个工作节点对应的中间聚合点,并将所有工作节点中的本地模型上传至对应的中间聚合点,以使中间聚合点将接收到的本地模型进行聚合得到聚合模型;
S3、将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型;
S4、将所述全局模型分发给所有工作节点;
其中,所述步骤S1-S3均是基于目标函数执行,工作节点集和所述中间聚合点集都属于网络节点集,所述网络节点集中每一个网络节点均和一个微云对应,所述中间聚合点是在所述网络节点集中除所述工作节点集外的剩余网络节点集中进行确定。
进一步地,所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短,通过如下公式表示:
minimizetagg=t′+t″
式中,minimize为减小至最低,tagg为从工作节点到参数服务器的总时间,t′为工作节点中本地模型传输至对应中间聚合点的时间,t″为中间聚合点中聚合模型传输至参数服务器的时间。
进一步地,确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定。
进一步地,所述第一约束条件具体为每个工作节点仅对应一个中间聚合点,当至少一个工作节点选择某网络节点作为中间聚合点,则将该网络节点确定为中间聚合点,所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间,所述第一约束条件如下式所示:
Figure BDA0003290585410000021
Figure BDA0003290585410000022
Figure BDA0003290585410000023
式中,i为工作节点,I为所有工作节点集,j为网络节点,V为所有微云的集合,xij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合,yj表示网络节点j是否作为中间聚合点,D为本地模型的数据量大小,cj为网络节点j的存储容量。
进一步地,所述步骤S2中将本地模型上传至对应的中间聚合点,具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽后,将所述本地模型上传至对应的中间聚合点。
进一步地,所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽,所述第二约束条件具体如下公式所示:
b′t′=D′;
Figure BDA0003290585410000031
Figure BDA0003290585410000032
式中,b′为工作节点到对应的中间聚合点被分配的带宽,D′为工作节点中本地模型的数据量大小,t′为工作节点中本地模型上传至对应的中间聚合点所需要的时间,i为工作节点,I为所有工作节点的集合,j为中间聚合点,V为所有微云的集合,e′为第一传输链路,
Figure BDA0003290585410000033
为工作节点i到对应的中间聚合点j的第k′条第一传输路径,
Figure BDA0003290585410000034
Figure BDA0003290585410000035
是否被用于传输本地模型,ce′为第一传输链路的带宽容量,E为所有微云之间的传输链路集合,xij表示工作节点i是否发送它的本地更新模型到中间聚合点j进行聚合。
进一步地,所述步骤S3中将聚合模型上传至参数服务器中,具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽后,将所述聚合模型上传至参数服务器。
进一步地,所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽,所述第三约束条件具体如下公式所示:
b″t″=D″;
Figure BDA0003290585410000036
Figure BDA0003290585410000037
式中,式中,n″为中间聚合点到参数服务器被分配的带宽,D″为中间聚合点中聚合模型的数据量,t″为中间聚合点中聚合模型上传至参数服务器所需要的时间,j为中间聚合点,V为所有微云的集合,e″为第二传输链路,
Figure BDA0003290585410000038
为中间聚合点j到参数服务器d的第k″条第二传输路径,
Figure BDA0003290585410000039
Figure BDA00032905854100000310
是否被用于传输聚合模型,ce″为第二传输链路的带宽容量,E为所有微云之间的传输链路集合,yj表示网络节点j是否作为中间聚合点。
进一步地,所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。
与现有技术相比,本发明具备以下有益效果:
本发明通过在所有微云中确定出中间聚合点集;然后确定出每一个工作节点对应的中间聚合点,并将所有工作节点中的本地模型上传至对应的中间聚合点,以使中间聚合点将接收到本地模型进行聚合得到聚合模型;将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型,将所述全局模型分发给所有工作节点,避免了使参数服务器成热点,减小了模型更新同步的延时,实现了快速地对微云中分布式机器学习模型参数进行更新与同步。
附图说明
图1所示为本发明实施例提供的一种面向微云中分布式机器学习的模型更新同步方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了快速地对微云中分布式机器学习模型参数进行更新与同步,本申请提出了一种面向微云中分布式机器学习的模型更新同步方法,如图1所示为本申请实施例提出的一种面向微云中分布式机器学习的模型更新同步方法的流程示意图,该方法包括以下步骤:
步骤S1、在所有微云中确定出中间聚合点集。
在本申请实施例中,先将所有微云间的广域网建模为一个有向图:G=(V,E),(V:所有工作节点,E:所有微云之间的链路)任意链路e∈E都有一定的带宽ce用于传输数据。
步骤S2、确定出每一个工作节点对应的中间聚合点,并将所有工作节点中的本地模型上传至对应的中间聚合点,以使中间聚合点将接收到的本地模型进行聚合得到聚合模型。
步骤S3、将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型。
其中,所述步骤S1-S3均是基于目标函数执行,工作节点集和所述中间聚合点集都属于网络节点集,所述网络节点集中每一个网络节点均和一个微云对应,所述中间聚合点是在所述网络节点集中除所述工作节点集外的剩余网络节点集中进行确定。
在本申请实施例中,所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短,通过如下公式表示:
minimizetagg=t′+t″
式中,minimize为减小至最低,tagg为从工作节点到参数服务器的总时间,t′为工作节点中本地模型传输至对应中间聚合点的时间,t″为中间聚合点中聚合模型传输至参数服务器的时间。
在本申请实施例中,确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定的,所述第一约束条件具体为每个工作节点仅对应一个中间聚合点,当至少一个工作节点选择某网络节点作为中间聚合点,则将该网络节点确定为中间聚合点,所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间,所述第一约束条件如下式所示:
Figure BDA0003290585410000051
Figure BDA0003290585410000052
Figure BDA0003290585410000053
式中,i为工作节点,I为所有工作节点集,j为网络节点,V为所有微云的集合,xij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合,yj表示网络节点j是否作为中间聚合点,D为本地模型的数据量大小,cj为网络节点j的存储容量。
在本申请实施例中,所述步骤S2中将本地模型上传至对应的中间聚合点,具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽(即决策出的工作节点的发送速率)后,将所述本地模型上传至对应的中间聚合点。
也即是说,先确定出中间聚合点,每个工作节点需要选择确定对应的中间聚合点,且需要确定出到达对应中间聚合点的第一传输路径,工作节点传输本地模型到对应中间聚合点的传输速率。
在本申请实施例中,所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽,所述第二约束条件具体如下公式所示:
b′t′=D′;
Figure BDA0003290585410000054
Figure BDA0003290585410000061
式中,b′为工作节点到对应的中间聚合点被分配的带宽,D′为工作节点中本地模型的数据量大小,t′为工作节点中本地模型上传至对应的中间聚合点所需要的时间,i为工作节点,I为所有工作节点的集合,j为中间聚合点,V为所有微云的集合,e′为第一传输链路,
Figure BDA0003290585410000062
为工作节点i到对应的中间聚合点j的第k′条第一传输路径,
Figure BDA0003290585410000063
Figure BDA0003290585410000064
是否被用于传输本地模型,ce′为第一传输链路的带宽容量,E为所有微云之间的传输链路集合,xij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合。
步骤S3、将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型。
在本申请实施例中,所述步骤S3中将聚合模型上传至参数服务器中,具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽(即决策出的中间聚合点的发送速率)后,将所述聚合模型上传至参数服务器。
在本申请实施例中,所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽,所述第三约束条件具体如下公式所示:
b″t″=D″;
Figure BDA0003290585410000065
Figure BDA0003290585410000066
式中,式中,n″为中间聚合点到参数服务器被分配的带宽,D″为中间聚合点中聚合模型的数据量大小,t″为中间聚合点中聚合模型上传至参数服务器所需要的时间,j为中间聚合点,V为所有微云的集合,e″为第二传输链路,
Figure BDA0003290585410000067
为中间聚合点j到参数服务器d的第k″条第二传输路径,
Figure BDA0003290585410000068
Figure BDA0003290585410000069
是否被用于传输聚合模型,ce″为第二传输链路的带宽容量,E为所有微云之间的传输链路集合,yj表示网络节点j是否作为中间聚合点。
每个中间聚合点需要确定出到达参数服务器的第二传输路径,中间聚合点传输聚合模型到参数服务器的传输速率,需要说明的是,第一传输链路和第二传输链路均是参数服务器和所有微云所在的拓扑结构中的链路。
步骤S4、将所述全局模型分发给所有工作节点。
在本申请实施例中,所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。
结合上述可知,本申请技术方案采用了分层聚合的架构,也即引入一层中间聚合点用于本地模型的聚合,该中间聚合点的确定结合了网络状态和模型更新同步的传输需求,以此减少网络中传输的流量,在本申请方案中,由工作节点将其本地模型上传至中间聚合点中,中间聚合点将接收到的多个本地模型进行聚合得到聚合模型,然后所有中间聚合点将其聚合模型上传到参数服务器中,从而使参数服务器得到所有工作节点上的本地模型。
另外,对全局模型分发阶段的传输过程是参数服务器向所有工作节点分发相同的数据,因此采用构建多播树的方式来加速传输。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (9)

1.一种面向微云中分布式机器学习的模型更新同步方法,其特征在于,包括以下步骤:
S1、在所有微云中确定出中间聚合点集;
S2、确定出每一个工作节点对应的中间聚合点,并将所有工作节点中的本地模型上传至对应的中间聚合点,以使中间聚合点将接收到的本地模型进行聚合得到聚合模型;
S3、将所有中间聚合点中的聚合模型上传至参数服务器中,以使所述参数服务器根据所有聚合模型确定出全局模型;
S4、将所述全局模型分发给所有工作节点;
其中,所述步骤S1-S3均是基于目标函数执行,工作节点集和所述中间聚合点集都属于网络节点集,所述网络节点集中每一个网络节点均和一个微云对应,所述中间聚合点是在所述网络节点集中除所述工作节点集外的剩余网络节点集中进行确定。
2.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短,通过如下公式表示:
minimizetagg=t′+t″
式中,minimize为减小至最低,tagg为从工作节点到参数服务器的总时间,t′为工作节点中本地模型传输至对应中间聚合点的时间,t″为中间聚合点中聚合模型传输至参数服务器的时间。
3.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定的。
4.如权利要求3所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述第一约束条件具体为每个工作节点仅对应一个中间聚合点,当至少一个工作节点选择某网络节点作为中间聚合点,则将该网络节点确定为中间聚合点,所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间,所述第一约束条件如下式所示:
Figure FDA0003290585400000011
Figure FDA0003290585400000012
Figure FDA0003290585400000013
式中,i为工作节点,I为所有工作节点集,j为网络节点,V为所有微云的集合,xij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合,yj表示网络节点j是否作为中间聚合点,D为本地模型的数据量大小,cj为网络节点j的存储容量。
5.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述步骤S2中将本地模型上传至对应的中间聚合点,具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽后,将所述本地模型上传至对应的中间聚合点。
6.如权利要求5所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽,所述第二约束条件具体如下公式所示:
b′t′=D′;
Figure FDA0003290585400000021
Figure FDA0003290585400000022
式中,b′为工作节点到对应的中间聚合点被分配的带宽,D′为工作节点中本地模型的数据量大小,t′为工作节点中本地模型上传至对应的中间聚合点所需要的时间,i为工作节点,I为所有工作节点的集合,j为中间聚合点,V为所有微云的集合,e′为第一传输链路,
Figure FDA0003290585400000023
为工作节点i到对应的中间聚合点j的第k′条第一传输路径,
Figure FDA0003290585400000024
Figure FDA0003290585400000025
是否被用于传输本地模型,ce′为第一传输链路的带宽容量,E为所有微云之间的传输链路集合,xij表示工作节点i是否发送它的本地更新模型到中间聚合点j进行聚合。
7.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述步骤S3中将聚合模型上传至参数服务器中,具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽后,将所述聚合模型上传至参数服务器。
8.如权利要求7所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽,所述第三约束条件具体如下公式所示:
b″t″=D″;
Figure FDA0003290585400000026
Figure FDA0003290585400000031
式中,式中,b″为中间聚合点到参数服务器被分配的带宽,D″为中间聚合点中聚合模型的数据量大小,t″为中间聚合点中聚合模型上传至参数服务器所需要的时间,j为中间聚合点,V为所有微云的集合,e″为第二传输链路,
Figure FDA0003290585400000032
为中间聚合点j到参数服务器d的第k″条第二传输路径,
Figure FDA0003290585400000033
Figure FDA0003290585400000034
是否被用于传输聚合模型,ce″为第二传输链路的带宽容量,E为所有微云之间的传输链路集合,yj表示网络节点j是否作为中间聚合点。
9.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法,其特征在于,所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。
CN202111163268.3A 2021-09-30 2021-09-30 一种面向微云中分布式机器学习的模型更新同步方法 Active CN114118437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111163268.3A CN114118437B (zh) 2021-09-30 2021-09-30 一种面向微云中分布式机器学习的模型更新同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111163268.3A CN114118437B (zh) 2021-09-30 2021-09-30 一种面向微云中分布式机器学习的模型更新同步方法

Publications (2)

Publication Number Publication Date
CN114118437A true CN114118437A (zh) 2022-03-01
CN114118437B CN114118437B (zh) 2023-04-18

Family

ID=80441314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111163268.3A Active CN114118437B (zh) 2021-09-30 2021-09-30 一种面向微云中分布式机器学习的模型更新同步方法

Country Status (1)

Country Link
CN (1) CN114118437B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109322A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods of Distributed Optimization
CN110287031A (zh) * 2019-07-01 2019-09-27 南京大学 一种减少分布式机器学习通信开销的方法
US20190318268A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Distributed machine learning at edge nodes
CN110601992A (zh) * 2019-09-20 2019-12-20 南方电网科学研究院有限责任公司 一种基于边缘计算的智能量测终端的数据处理方法及装置
US20200027033A1 (en) * 2018-07-19 2020-01-23 Adobe Inc. Updating Machine Learning Models On Edge Servers
CN111242282A (zh) * 2020-01-09 2020-06-05 中山大学 基于端边云协同的深度学习模型训练加速方法
CN112073496A (zh) * 2020-09-01 2020-12-11 武汉理工大学 地理分布式云中基于负载均衡的数据放置方法
CN112070240A (zh) * 2020-09-07 2020-12-11 清华大学 一种高效通信的分层联邦学习框架及其优化方法和系统
CN112528108A (zh) * 2019-09-17 2021-03-19 华为技术有限公司 一种模型训练系统、模型训练中梯度聚合的方法及装置
CN112702267A (zh) * 2021-01-21 2021-04-23 广东工业大学 分布式训练路由方法、系统、储存介质及计算机设备
CN112817653A (zh) * 2021-01-22 2021-05-18 西安交通大学 一种基于云边端的联邦学习计算卸载计算系统及方法
CN113159283A (zh) * 2021-03-31 2021-07-23 华为技术有限公司 一种基于联邦迁移学习的模型训练方法及计算节点
CN113177367A (zh) * 2021-05-28 2021-07-27 北京邮电大学 高能效的联邦学习方法、装置、边缘服务器及用户设备
CN113191505A (zh) * 2021-05-21 2021-07-30 电子科技大学 一种地理分布式机器学习参数服务器放置方法
CN113361721A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 模型训练方法、装置、电子设备、存储介质及程序产品
CN113422797A (zh) * 2021-05-11 2021-09-21 中国科学院计算技术研究所 一种用于车联网的更新地图的方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109322A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods of Distributed Optimization
US20190318268A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Distributed machine learning at edge nodes
US20200027033A1 (en) * 2018-07-19 2020-01-23 Adobe Inc. Updating Machine Learning Models On Edge Servers
CN110287031A (zh) * 2019-07-01 2019-09-27 南京大学 一种减少分布式机器学习通信开销的方法
CN112528108A (zh) * 2019-09-17 2021-03-19 华为技术有限公司 一种模型训练系统、模型训练中梯度聚合的方法及装置
CN110601992A (zh) * 2019-09-20 2019-12-20 南方电网科学研究院有限责任公司 一种基于边缘计算的智能量测终端的数据处理方法及装置
CN111242282A (zh) * 2020-01-09 2020-06-05 中山大学 基于端边云协同的深度学习模型训练加速方法
CN112073496A (zh) * 2020-09-01 2020-12-11 武汉理工大学 地理分布式云中基于负载均衡的数据放置方法
CN112070240A (zh) * 2020-09-07 2020-12-11 清华大学 一种高效通信的分层联邦学习框架及其优化方法和系统
CN112702267A (zh) * 2021-01-21 2021-04-23 广东工业大学 分布式训练路由方法、系统、储存介质及计算机设备
CN112817653A (zh) * 2021-01-22 2021-05-18 西安交通大学 一种基于云边端的联邦学习计算卸载计算系统及方法
CN113159283A (zh) * 2021-03-31 2021-07-23 华为技术有限公司 一种基于联邦迁移学习的模型训练方法及计算节点
CN113422797A (zh) * 2021-05-11 2021-09-21 中国科学院计算技术研究所 一种用于车联网的更新地图的方法及系统
CN113191505A (zh) * 2021-05-21 2021-07-30 电子科技大学 一种地理分布式机器学习参数服务器放置方法
CN113177367A (zh) * 2021-05-28 2021-07-27 北京邮电大学 高能效的联邦学习方法、装置、边缘服务器及用户设备
CN113361721A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 模型训练方法、装置、电子设备、存储介质及程序产品

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
DONGCHENG ZHAO等: "Security-SLA-guaranteed service function chain deployment in cloud-fog computing networks" *
FATÉMA ZAHRA BENCHARA等: "A new scalable distributed k-means algorithm based on Cloud micro-services for High-performance computing" *
GANG SUN等: "Energy-efficient and traffic-aware service function chaining orchestration in multi-domain networks" *
TIAN WANG等: "Edge-Based Communication Optimization for Distributed Federated Learning" *
朱聪聪: "基于抗泄漏同态加密的智能电网数据聚合协议研究" *
李宗航等: "地理分布式机器学习:超越局域的框架与技术" *
杨振宇等: "基于区块链技术的无线网络通信数据聚合隐私保护算法" *
罗龙: "软件定义网络中的数据传输和配置更新研究" *

Also Published As

Publication number Publication date
CN114118437B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111447083B (zh) 动态带宽和不可靠网络下的联邦学习架构及其压缩算法
CN111683381B (zh) 基于深度强化学习的端到端网络切片资源分配方法
CN113010305B (zh) 部署在边缘计算网络中的联邦学习系统及其学习方法
CN110968426B (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN110365568A (zh) 一种基于深度强化学习的虚拟网络映射方法
CN108684046B (zh) 一种基于随机学习的接入网服务功能链部署方法
CN112738820A (zh) 一种服务功能链的动态部署方法、装置及计算机设备
CN112202672A (zh) 一种基于业务服务质量需求的网络路由转发方法和系统
CN113378474B (zh) 一种基于贡献量的联邦学习客户机选择方法、系统及介质
CN111010341A (zh) 一种基于深度学习的覆盖网络路由决策方法
CN108566636B (zh) 面向不同用户偏好的d2d随机缓存布设方法
CN107454009B (zh) 面向数据中心的离线场景低带宽开销流量调度方案
CN107483355B (zh) 面向数据中心的在线场景低带宽开销流量调度方案
CN111885551B (zh) 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制
CN114118437B (zh) 一种面向微云中分布式机器学习的模型更新同步方法
CN113783798B (zh) 数据传输方法及系统、边缘服务设备
CN116132353A (zh) 基于ddqn的tsn路由选择方法
CN115115064A (zh) 一种半异步联邦学习方法及系统
CN114785692A (zh) 一种虚拟电厂聚合调控通信网络流量均衡方法及装置
CN114401192A (zh) 一种多sdn控制器协同训练方法
CN114492849A (zh) 一种基于联邦学习的模型更新方法及装置
CN109450809B (zh) 一种数据中心调度系统及方法
CN113015179A (zh) 基于深度q网络的网络资源选择方法、装置以及存储介质
CN116634388B (zh) 面向电力融合网络大数据边缘缓存与资源调度方法及系统
CN112822726B (zh) 一种Fog-RAN网络缓存放置问题的建模和决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant