CN115456194A - 基于异步联邦学习的模型训练控制方法、装置及系统 - Google Patents

基于异步联邦学习的模型训练控制方法、装置及系统 Download PDF

Info

Publication number
CN115456194A
CN115456194A CN202211025788.2A CN202211025788A CN115456194A CN 115456194 A CN115456194 A CN 115456194A CN 202211025788 A CN202211025788 A CN 202211025788A CN 115456194 A CN115456194 A CN 115456194A
Authority
CN
China
Prior art keywords
global model
model
global
training
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211025788.2A
Other languages
English (en)
Other versions
CN115456194B (zh
Inventor
刘吉
�田�浩
周瑞璞
窦德景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211025788.2A priority Critical patent/CN115456194B/zh
Publication of CN115456194A publication Critical patent/CN115456194A/zh
Priority to US18/098,514 priority patent/US20240086717A1/en
Application granted granted Critical
Publication of CN115456194B publication Critical patent/CN115456194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于异步联邦学习的模型训练控制方法、装置及系统。涉及数据处理技术领域,尤其涉及边缘计算、机器学习等技术领域。具体实现方案为:向多个边缘设备发送第一全局模型的第一参数;接收来自多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,第二全局模型是第一边缘设备根据本地数据集对第一全局模型训练完毕后得到的全局模型;在基于第二全局模型聚合得到第三全局模型的情况下,向多个边缘设备中的第二边缘设备下发第三全局模型的第三参数,第三全局模型是相对于第一全局模型的最新的全局模型,第二边缘设备是对第一全局模型尚未训练完毕的设备。根据本公开的方案,能提高模型训练的效率和精度。

Description

基于异步联邦学习的模型训练控制方法、装置及系统
技术领域
本公开涉及数据处理技术领域,尤其涉及边缘计算、机器学习等技术领域。
背景技术
随着各种边缘设备的增加,如智能手机、物联网设备、移动传感器设备等,越来越多的数据可用于不同人工智能应用中的深度学习模型训练。传统的模型训练方法将所有数据传输到服务器进行集中训练,会带来通信开销巨大、计算资源有限、隐私安全风险等诸多问题。联邦学习(Federated Learning,FL)可以有效解决这些问题。
在联邦学习中,通常由边缘设备负责模型训练,由服务器负责模型聚合。为了提高训练速度,出现了一种联邦学习的异步优化方案,服务器将全局模型发送到一些选定的边缘设备,这些边缘设备使用其本地数据更新接收到的全局模型;服务器无需等待所有边缘设备完成本地训练,可以在接收到任何边缘设备返回的全局模型后进行全局模型的聚合。虽然异步优化方案可以防止服务器等待速度慢的边缘设备,但是,基于联邦学习的模型训练效率和精度仍然有待提高。
发明内容
本公开提供了一种基于异步联邦学习的模型训练控制方法、装置及系统。
根据本公开的第一方面,提供了一种基于异步联邦学习的模型训练控制方法,包括:
向多个边缘设备发送第一全局模型的第一参数,第一全局模型是初始的全局模型;
接收来自多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,第二全局模型是第一边缘设备根据本地数据集对第一全局模型训练完毕后得到的全局模型;
在基于至少一个第二全局模型聚合得到第三全局模型的情况下,向多个边缘设备中的第二边缘设备下发第三全局模型的第三参数,第三全局模型是相对于第一全局模型的最新的全局模型,第二边缘设备是对第一全局模型尚未训练完毕的设备。
根据本公开的第二方面,一种基于异步联邦学习的模型训练控制方法,应用于第二边缘设备,包括:
接收基站发送的第一全局模型的第一参数,第一全局模型是第二边缘设备最初接收到的模型;
在基于本地数据集对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型,第三全局模型是基站确定出的最新的全局模型;
对第三全局模型和第四全局模型进行聚合,得到第五全局模型;
基于本地数据集对第五全局模型进行训练,得到第二全局模型。
根据本公开的第三方面,提供了一种基于异步联邦学习的模型训练控制方法,包括:
基站向多个边缘设备发送第一全局模型的第一参数,第一全局模型是初始的全局模型;
多个边缘设备基于各自的本地数据集分别对第一全局模型进行训练;
基站在接收到多个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,第三全局模型是相对于第一全局模型的最新的全局模型;
多个边缘设备中第二边缘设备在对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型;对第三全局模型和第四全局模型进行聚合,得到第五全局模型;基于本地数据集对第五全局模型进行训练,得到第二全局模型;向基站返回第二全局模型的第二参数。
根据本公开的第四方面,提供了一种基于异步联邦学习的模型训练控制装置,应用于基站,包括:
第一发送模块,用于向多个边缘设备发送第一全局模型的第一参数,第一全局模型是初始的全局模型;
第一接收模块,用于接收来自多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,第二全局模型是第一边缘设备根据本地数据集对第一全局模型训练完毕后得到的全局模型;
第一控制模块,用于在基于至少一个第二全局模型聚合得到第三全局模型的情况下,向多个边缘设备中的第二边缘设备下发第三全局模型的第三参数,第三全局模型是相对于第一全局模型的最新的全局模型,第二边缘设备是对第一全局模型尚未训练完毕的设备。
根据本公开的第五方面,提供了一种基于异步联邦学习的模型训练控制装置,应用于第二边缘设备,包括:
第二接收模块,用于接收基站发送的第一全局模型的第一参数,第一全局模型是第二边缘设备最初接收到的模型;
第三确定模块,用于在基于本地数据集对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型,第三全局模型是基站确定出的最新的全局模型;
第二聚合模块,用于对第三全局模型和第四全局模型进行聚合,得到第五全局模型;
第二控制模块,用于基于本地数据集对第五全局模型进行训练,得到第二全局模型。
根据本公开的第六方面,提供了一种基于异步联邦学习的模型训练控制系统,包括:
基站,用于发送第一全局模型的第一参数,第一全局模型是初始的全局模型;
多个边缘设备,用于基于各自的本地数据集分别对第一全局模型进行训练;
基站,还用于在接收到多个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,第三全局模型是相对于第一全局模型的最新的全局模型;
多个边缘设备,还用于多个边缘设备中第二边缘设备在对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型;对第三全局模型和第四全局模型进行聚合,得到第五全局模型;基于本地数据集对第五全局模型进行训练,得到第二全局模型;向基站返回第二全局模型的第二参数。
根据本公开的第七方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行上述第一方面和/或第二方面和/或第三方面所提供的方法。
根据本公开的第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行上述第一方面和/或第二方面和/或第三方面所提供的方法。
根据本公开的第九方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述第一方面和/或第二方面和/或第三方面所提供的方法。
根据本公开的技术方案,能提高模型训练的效率和精度。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1是根据本公开实施例的基于异步联邦学习的模型训练控制的架构图;
图2是根据本公开实施例的基于异步联邦学习的模型训练控制方法的流程示意图一;
图3是根据本公开实施例的基于异步联邦学习的模训练控制方法的流程示意图二;
图4是根据本公开实施例的第一全局模型变化为第二全局模型的过程示意图;
图5是根据本公开实施例的基于异步联邦学习的模训练控制方法的流程示意图三;
图6是根据本公开实施例的额外下发模型的框架示意图;
图7是根据本公开实施例的基于异步联邦学习的模型训练控制装置的示意图一;
图8是根据本公开实施例的基于异步联邦学习的模训练控制装置的示意图二;
图9是根据本公开实施例的基于异步联邦学习的模训练控制系统的示意图;
图10是根据本公开实施例的基于异步联邦学习的模型训练控制的场景示意图;
图11是用来实现本公开实施例的基于异步联邦学习的模型训练控制方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括"和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
联邦学习可以很好地解决边缘计算领域中的安全和隐私、边缘节点计算资源有限和通信开销等问题。边缘计算领域的联邦学习,存在两种联邦优化方案,即同步通信方案和异步通信方案。在同步训练中,服务器将全局模型发送到一些选定的边缘设备,这些设备使用其本地数据更新接收到的全局模型;服务器等待所选设备返回的更新后的全局模型,并聚合这些更新后的全局模型以获得新的全局模型。然而,大多数边缘设备的计算资源和通信能力有限,例如低电池能量、有限的计算能力和网络拥塞。在同步优化中训练和上传模型可能需要很长时间,因此整个联邦学习的训练过程效率低下。此外,同步联邦优化未能充分利用边缘设备的空闲时间进行模型训练。例如,未被选中的空闲设备在每个全局迭代期间都未被使用,或者某些设备在上传更新的本地模型后空闲并且可能不再被选中。相反,在异步方案中,服务器不需要等待所有设备完成本地训练,它可以在收到任何选定设备的更新后的全局模型后,立即更新全局模型。异步优化虽然可以防止服务器等待慢设备,但仍然无法充分利用空闲的边缘设备。此外,无论是同步优化还是异步优化,联邦学习还面临着非独立同分布的数据的问题。
采用边缘计算系统执行联邦学习任务,边缘计算系统包括一个基站(BaseStation,BS)和M个边缘设备。假设边缘设备和基站在整个联邦学习过程中的地理位置不变。我们将设备的空闲时间定义为:设备有足够的功率而没有其他本地任务的时间段。每个设备都使用其本地数据集来训练全局模型。由M个边缘设备组成的集合记为
Figure BDA0003815658010000061
每个边缘设备i拥有的本地数据集记为:
Figure BDA0003815658010000062
其中,
Figure BDA0003815658010000063
是本地数据集的样本数量,xi,d是设备i上的第d个样本,样本是维度为s的向量,yi,d是xi,d的标签,整个系统的全部数据集记为
Figure BDA0003815658010000064
Figure BDA0003815658010000065
数据总量记为
Figure BDA0003815658010000066
我们的整体的优化目标是使用所有边缘设备的本地数据
Figure BDA0003815658010000067
训练联邦学习的全局模型的权重w,使其对于某个损失函数的值最小,优化目标定义为:
Figure BDA0003815658010000068
其中,
Figure BDA0003815658010000071
是第i个设备的本地损失函数,满足:
Figure BDA0003815658010000072
其中,F(w,xi,d,yi,d)是w第k轮在设备i上的损失,定义为:
Figure BDA0003815658010000073
其中,f(w;xi,d,yi,d)是衡量w在设备i上数据样本(xi,d,yi,d)的损失的函数,常见的损失函数包括交叉熵损失函数(Cross-entropy loss function)、0-1损失函数(zero-oneloss)等。其中μ是正则参数,正则项用于控制本地模型wi,k和全局模型wk的差不至于太大。
作为一种实施方式,边缘计算系统可采用同步联邦学习框架(FedAvg)执行联邦学习任务。
联邦学习使用迭代的方式解决上述问题,第k轮包括如下几个步骤:
基站随机选取部分设备,下发当前的全局模型wk-1
每个设备i收到wk-1后,令wi,k(0)=wk-1,然后在其本地数据集
Figure BDA0003815658010000078
上面应用随机梯度下降算法(SGD)计算其本地模型wi,k
Figure BDA0003815658010000074
其中η是学习率,
Figure BDA0003815658010000075
是在从
Figure BDA0003815658010000076
中随机选取的一个mini_batch的数据集上面计算的梯度,批处理(batch)的大小记为b,τ是本地迭代次数,τ和b都是固定的系统参数。经过τ次迭代后,wi,k(τ)被上传给基站。
基站接收到本轮所有设备上传的全局模型wi,k后,将他们聚合,通常的做法是按照各个设备上面的数据集大小进行加权平均:
Figure BDA0003815658010000077
然后将wk上传给基站;
基站得到新的全局模型后,继续重复上述过程,开始第k+1轮的训练,直到得到一个满意的全局模型wK
作为另一种实施方式,边缘计算系统可采用异步联邦学习框架(FedAvg)执行联邦学习任务。
异步联邦学习是将设备间模型权重的传递改为异步通信方式,因此模型的聚合不需要等待其他设备的上传,设备训练好立即上传,基站收到后立即聚合。
示例性地,异步联邦优化算法(FedAsync)的执行过程包括:
基站:随机初始化一个初始的全局模型权重,然后基站异步地开启如下两个进程:
调度器(Scheduler):每隔一段时间触发新的设备参与训练,并将最新的全局模型权重发送给被触发的设备;
更新器(Updater):持续接收设备上传的本地模型权重,根据公式将其与最新的全局模型权重聚合,即产生新的全局模型权重。
设备:
工作器(Worker):持续等待基站的触发。一旦被触发,就接收最新的全局模型权重,然后在本地的数据集上开始迭代更新模型权重,把最新的本地模型权重发送给基站。
上述操作相互之间都是异步进行的,不存在时间的前后关系,因此异步的处理方式通常在时间上比同步的处理方式快,但是异步的处理方式也有其他问题,比如模型陈旧性问题等。这里,陈旧性是指设备上模型的过时使得收敛速度难以进一步提高。
本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,提出了一种基于异步联邦学习的模型训练控制方法,通过异步地下发额外的全局模型给边缘设备,能提高基于联邦学习的模型训练的效率和精度。
为了提高联邦学习的训练效率和模型精度,本公开提出了额外下发全局模型的异步联邦学习(Federated Learning with Additional Model Downloading,FedAMD)方案。FedAMD的关键思想是异步地下发额外的全局模型给边缘设备,边缘设备在训练中途将本地模型权重和最新的模型权重聚合,以达到提高准确率和收敛速度的效果。与传统的异步联邦学习方案相比,FedAMD使得边缘设备尽可能早地拿到最新的模型权重,加快了信息流转的速度,但是总耗时没有增加,这是FedAMD相比于传统异步联邦学习收敛更快和准确率更高的原因。
图1示出了基于异步联邦学习的模型训练控制的架构图,如图1所示,边缘设备中途会收到来自基站下发的最新的全局模型,边缘设备收到最新的全局模型后,会在训练的中途先聚合全局模型,然后在新的模型上面继续进行本地训练,边缘设备训练完毕立即上传基站。该架构包括基站和边缘设备,基站包括调度器和更新器,边缘设备包括协调器和工作器。
具体地,基站的处理流程如下:
首先,初始化,编译预先设计好的模型结构,并随机初始化一个初始的全局模型权重;
然后,基站异步地开启如下两个进程:
调度器:每隔一段时间触发新的设备参与训练,并将最新的全局模型权重发送给被触发的设备;
更新器:持续接收设备上传的本地模型权重,根据公式将其与最新的全局模型权重聚合,即产生新的全局模型权重。一旦有新的全局模型权重产生,立即广播给所有正在训练的设备。
具体地,边缘设备的处理流程如下:
协调器:持续等待基站额外下发的全局模型,一旦收到,立即终止Worker的本地模型的更新,将收到的全局模型权重与本地最新的模型权重聚合后,再通知Worker继续在聚合后的模型权重上完成接下来的训练。
工作器:持续等待基站的触发。一旦被触发,就接收最新的全局模型权重,然后在本地的数据集上开始迭代更新模型权重,然后把最新的本地模型权重发送给基站。
上述操作相互之间同样也都是异步进行的,不存在时间的前后关系。而且由于基站通常网络带宽较大,因此额外下发操作带来的耗时基本可以忽略,进而FedAMD相较于FedAsync时间花费上差不多,但是由于多了额外下发的模型,使得陈旧性带来的影响减弱,从而提高了收敛速度和精度。
本公开中所涉及的模型可以是图像处理模型,还可以是物体识别模型。其中,图像处理模型包括但不限于图像标注模型、图像分类模型等。以上仅为示例性说明,不作为对模型包括的全部可能的类型的限定,只是这里不做穷举。
本公开实施例提供了一种基于异步联邦学习的模型训练控制方法,图2是根据本公开实施例的基于异步联邦学习的模型训练控制方法的流程示意图,该基于异步联邦学习的模型训练控制方法可以应用于边缘计算系统中的基站。在一些可能的实现方式中,该基于异步联邦学习的模型训练控制方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示,该基于异步联邦学习的模型训练控制方法包括:
S201:向多个边缘设备发送第一全局模型的第一参数,第一全局模型是初始的全局模型;
S202:接收来自多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,第二全局模型是第一边缘设备根据本地数据集对第一全局模型训练完毕后得到的全局模型;
S203:在基于至少一个第二全局模型聚合得到第三全局模型的情况下,向多个边缘设备中的第二边缘设备下发第三全局模型的第三参数,第三全局模型是相对于第一全局模型的最新的全局模型,第二边缘设备是对第一全局模型尚未训练完毕的设备。
本公开实施例中,第一边缘设备是完成本轮训练任务的设备。
本公开实施例中,第二边缘设备是尚未完成本轮训练任务的设备。
本公开实施例中,第一参数包括模型的权重参数。进一步地,第一参数还可包括发出的全局模型的版本号。以上仅为示例性说明,不作为对第一参数包括的全部可能的参数的限定,只是这里不做穷举。
本公开实施例中,第二参数包括模型的权重参数。进一步地,第二参数还可包括设备训练所使用的全局模型的版本号。以上仅为示例性说明,不作为对第二参数包括的全部可能的参数的限定,只是这里不做穷举。
本公开实施例中,在基于至少一个第二全局模型聚合得到第三全局模型的情况下,还可向第一边缘设备返回的第二全局模型的第二参数,以使第一边缘设备对第二全局模型进行训练。如此,第一边缘设备完成对第一全局模型的训练后,无需等待第二边缘设备完成对第一全局模型的训练,通过向第一边缘设备返回的第二全局模型的第二参数,不仅能避免让第一边缘设备处于空闲态,还能够充分利用第一边缘设备的计算能力,使第一边缘设备对第二全局模型进行训练,从而能够提高模型的整体训练效率。
本公开实施例的技术方案,相对于第二边缘设备返回第二全局模型后再向第二边缘设备下发第三全局模型的训练方式而言,通过及时向第二边缘设备下发第三全局模型的第三参数,能够使第二边缘设备获知最新的全局模型,并结合最新的全局模型进行训练,可以有效地减轻陈旧性带来的影响,减少了因设备侧模型参数的陈旧性而引起的训练精度低的问题,能够充分利用第一边缘设备的处理速度,提高模型更新的速度,从而提升模型的整体训练效率。
在一些实施例中,上述方法还可包括:将多个边缘设备中尚未返回第二全局模型的边缘设备,确定为第二边缘设备。
如此,通过将多个边缘设备中尚未返回第二全局模型的所有边缘设备确定为第二边缘设备,进而向第二边缘设备返回第三全局模型的第三参数,能够提高所有第二边缘设备侧的模型的训练精度,从而有助于提高模型的整体训练精度。
在一些实施例中,上述方法还可包括:将多个边缘设备中尚未返回第二全局模型且发送模型请求的边缘设备,确定为第二边缘设备。该模型请求用于请求第三全局模型。
如此,通过将多个边缘设备中尚未返回所述第二全局模型且发送模型请求的边缘设备确定为第二边缘设备,进而向第二边缘设备返回第三全局模型的第三参数,能够根据第二边缘设备的需求发送最新的模型参数,有助于提高部分第二边缘设备侧的模型的训练精度,从而有助于提高模型的整体训练精度。
在一些实施例中,基于所述第二全局模型聚合得到第三全局模型,包括:响应于检测到所述第二全局模型的数量达到预设阈值,对所述第一全局模型和已接收到的所述第二全局模型进行聚合,得到所述第三全局模型。
本公开实施例中,预设阈值可根据需求如速度需求或精度需求进行设定或调整。
在一些实施方式中,若M个边缘设备中,第二全局模型的数量达到N,且N/M的数值大于一定阈值,则进行聚合处理,其中,N小于M。
在一些实施方式中,若M个边缘设备中,第二全局模型的数量达到N,且到达基站更新权重的时间,则进行聚合处理,其中,N小于M。
如此,能够在合适的时机生成第三全局模型,提高基站侧对模型训练速度和精度的控制能力。
本公开实施例提供了一种基于异步联邦学习的模型训练控制方法,图3是根据本公开实施例的基于异步联邦学习的模型训练控制方法的流程示意图,该基于异步联邦学习的模型训练控制方法可以应用于边缘计算系统中的第二边缘设备。在一些可能的实现方式中,该基于异步联邦学习的模型训练控制方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图3所示,该基于异步联邦学习的模型训练控制方法包括:
S301:接收基站发送的第一全局模型的第一参数,第一全局模型是第二边缘设备最初接收到的模型;
S302:在基于本地数据集对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型,第三全局模型是基站确定出的最新的全局模型;
S303:对第三全局模型和第四全局模型进行聚合,得到第五全局模型;
S304:基于本地数据集对第五全局模型进行训练,得到第二全局模型。
本公开实施例中,在S304之后,该方法还包括:第二边缘设备向基站返回第二全局模型的第二参数。
本公开实施例中,第二边缘设备是在接收到第一全局模型的第一参数之后,且向基站返回第二全局模型的第二参数之前的情况下,又接收到基站发送的第三全局模型的第三参数的边缘设备。
图4示出了第一全局模型变化为第二全局模型的过程示意图,如图4所示,第二边缘设备最初接收到第一全局模型,在本地训练过程中,第一全局模型变化成第四全局模型;第二边缘设备又接收到基站下发的第三全局模型,将第三全局模型和第四全局模型聚合成第五全局模型,然后将第五全局模型训练成第二全局模型。需要说明的是,在第一全局模型变化为第二全局模型的过程中,第四全局模型是接收第三全局模型之前生成的模型,第五全局模型是根据第三全局模型和第四全局模型生成的模型。在第一全局模型变化为第二全局模型的过程中,可多次接收第三全局模型,第四全局模型和第五全局模型的数量均与第三全局模型的数量相同。
应理解,图4所示的示意图仅仅是示例性而不是限制性的,并且其是可扩展的,本领域技术人员可以基于图4的例子进行各种显而易见的变化和/或替换,得到的技术方案仍属于本公开实施例的公开范围。
本公开实施例所述的技术方案,相对于第二边缘设备返回第二全局模型后再获取第三全局模型的训练方式而言,第二边缘设备及时获知最新的全局模型,并结合最新的全局模型进行训练,可以有效地减轻设备侧模型参数的陈旧性带来的影响,减少了因设备侧模型参数的陈旧性而引起的训练精度低的问题,提升了第二边缘设备向基站返回的第二全局模型的第二参数的精度,从而有助于提升模型的整体训练效率。
在一些实施例中,该方法还包括:在基于本地数据集对第一全局模型进行训练的过程中,向基站发送模型请求,该模型请求用于请求第三全局模型。
如此,第二边缘设备可根据需求主动向基站发出模型请求,可便于根据训练情况确定发出模型请求的时间,提高了第二边缘设备的自主性。
在一些实施例中,该方法还包括:在基于本地数据集对第一全局模型进行训练的过程中,被动接收基站发送的第三全局模型的第三参数。
如此,第二边缘设备被动接收基站发送的第三全局模型的第三参数,不会漏掉基站发送的第三全局模型的第三参数,能有效减轻第二边缘设备的模型参数的陈旧性,进而提高第二边缘设备训练出的第二全局模型的精度。
在一些实施例中,确定第四全局模型,包括:将第二边缘设备当前训练得到的最新的模型确定为第四全局模型,该第四全局模型是训练完毕之前得到的全局模型。
在一些实施方式中,假模型A和模型B都是第二边缘设备在基于第一全局模型进行训练过程中产生的模型,若第二边缘设备在训练得到模型A之后,训练得到模型A的下一个全局模型B之前,接收到第三全局模型的第三参数,则将该模型A确定为第四全局模型。
在另一些实施方式中,假模型C是第二边缘设备在基于第一全局模型进行训练过程中产生的模型,若第二边缘设备在训练得到模型C的过程中,接收到第三全局模型的第三参数,则待模型C训练完毕后,将该模型C确定为第四全局模型。
如此,将第二边缘设备当前训练得到的最新的模型,与基站发送的第三全局模型的第三参数进行聚合,能有效减轻第二边缘设备的模型参数的陈旧性带来的影响,进而提高第二边缘设备训练出的第二全局模型的精度。
本公开实施例提供了一种基于异步联邦学习的模型训练控制方法,图5是根据本公开实施例的基于异步联邦学习的模型训练控制方法的流程示意图,该基于异步联邦学习的模型训练控制方法可以应用于边缘计算系统。在一些可能的实现方式中,该基于异步联邦学习的模型训练控制方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图5所示,该基于异步联邦学习的模型训练控制方法包括:
S501:基站向多个边缘设备发送第一全局模型的第一参数,所述第一全局模型是初始的全局模型;
S502:所述多个边缘设备基于各自的本地数据集分别对所述第一全局模型进行训练;
S503:所述基站在接收到所述多个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,所述第三全局模型是相对于所述第一全局模型的最新的全局模型;
S504:所述多个边缘设备中第二边缘设备在对所述第一全局模型进行训练的过程中,响应于接收到所述基站发送的第三全局模型的第三参数,确定第四全局模型;对所述第三全局模型和所述第四全局模型进行聚合,得到第五全局模型;基于所述本地数据集对所述第五全局模型进行训练,得到第二全局模型;向所述基站返回所述第二全局模型的第二参数。
本公开实施例所述的技术方案,基站及时向第二边缘设备下发第三全局模型的第三参数,能够使第二边缘设备获知最新的全局模型,并结合最新的全局模型进行训练,减少了因设备侧模型参数的陈旧性而引起的训练精度低的问题,能够充分利用第一边缘设备的处理速度,提高模型更新的速度,从而提升模型的整体训练效率。
考虑到实际的网络情况和应用场景,例如边缘设备使用有线或者无线网络进行通信,本公开提出了两种具体的通信协议,分别是边缘设备被动接收额外下发的全局模型和边缘设备主动请求额外下发的全局模型。图6示出了额外下发模型的框架示意图,如图6所示,该框架包括位于基站的全局模型下发模块、位于设备侧的被动接收全局模型模块和主动接收全局模型模块。需要说明的是,对于边缘计算系统中的M个边缘设备,可以全部选择被动接收全局模型,也可全部选择主动请求全局模型,还可以部分设备选择被动接收全局模型,部分选择主动请求全局模型。
a)全局模型下发模块
在联邦学习中,基站通常拥有较大的下行带宽和较大的功率,因此额外下发全局模型的成本较低。基于此,发明人对传统的异步联邦学习进行了改进,增加了额外下发全局模型这一步骤。此外,由于模型更新较快,新模型的下发可以有效地减轻边缘设备侧的模型陈旧性给模型训练带来的影响。
b)被动接收全局模型模块
在FedAsync的基础上,加上下发全局模型的步骤,这样实现简单并且有一定的效果,而且在下行带宽充足的场景下,这一步的消耗是可以接受的,以此换取额外的时间节省和精度提升无疑是值得的。
算法1描述的是设备被动接收全局模型的算法,设备运行此算法,基站要做的是每当有新的全局模型出现,则立即广播给所有正在训练的设备。
算法1的输入是本轮的全局模型,输出是更新τ轮的本地模型。其余的是系统参数。
算法1的伪代码可参考如下描述:
Figure BDA0003815658010000151
Figure BDA0003815658010000161
下面,对算法1的伪代码进行解释。
第1行:设备本地训练期间,异步地接收基站下发的最新全局模型。
异步地接收最新全局模型这一操作和后面的操作之间是并行的,没有时间的前后关系。
第2行:设备给wi,k(0)赋值为基站下发的本轮全局模型权重wk
第3-11行:循环τ次,每次循环之前,第4-8行先判断是否有新的全局模型权重下发,如果有,那么第5行先用b和β计算βk,这是第6行的本地聚合权重。然后,第7行根据该新的全局模型权重的下发时机,即j,更新κ,这个参数最终要和训练好的本地模型权重一起上传给基站,用来表征设备的落后程度。第9行,读取设备的本地数据。第10行是做梯度下降操作,更新本地模型权重。
第12行:τ轮后完成本地训练,将τ次迭代后的本地模型赋值给要传往基站的变量。
第13行:输出训练后的本地模型权重。
通过算法1,能解决FedAsync中存在设备陈旧性的问题。边缘设备被动接收额外下发的全局模型,这种方式设计简单,容易实现。
c)主动请求全局模型模块
被动接收的方式可能存在模型陈旧,网络带宽占用大等问题,因此发明人又提出了设备主动请求全局模型的方式,以减少网络带宽的占用,除了需要额外发送请求,相比于设备被动接受,此方式的网络带宽的占用会大大降低。
算法2描述的是设备主动向基站请求最新的全局模型,设备训练到第ε轮的时候,新的全局模型已经下发完毕,设备用这个新模型聚合后继续本地训练。
算法2描述的是设备主动请求全局模型下发的算法,设备运行此算法,基站要做的是每当有新的全局模型出现且有设备发出请求,则立即将最新的全局模型权重广播给发出请求的设备。
算法2的输入是本轮的全局模型,输出是更新τ轮的本地模型。其余的是系统参数。
算法2的伪代码可参考如下描述:
Input:
Figure BDA0003815658010000171
Figure BDA0003815658010000181
下面,对算法2的伪代码进行解释。
第1行:计算基站下发新的全局模型的用时,相当于几次本地迭代的用时,即δ,用模型下发时间除以每次本地迭代的时间(即模型计算时间除以τ,在本式中τ翻了上去),这个参数表示我们应该提前多少个本地迭代去请求基站,从而在传输过程中可以继续本地训练而不用浪费时间去等待。
第2行:设备给wi,k(0)赋值为基站下发的本轮全局模型权重wk
第3-11行:循环τ次,每次循环之前,第4-6行先判断j是否还有δ次就到了ε,如果是,那么地5行异步地向基站发送下发额外全局模型的请求。地7-11行判断是否到了ε而且此时已经接收到了最新的全局模型,如果是,就开始本地聚合,第8行先用b和β计算βk,这是第9行的本地聚合权重。然后第10行根据额外模型下发的时机,即j,更新κ,这个参数最终要和训练好的本地模型权重一起上传给基站,用来表征设备的落后程度。第12行是读取设备的本地数据。第13行是做梯度下降操作,更新本地模型权重。
第15行:τ轮后完成本地训练,将τ次迭代后的本地模型赋值给要传往基站的变量。
第16行:输出训练后的本地模型权重。
通过算法2,能解决FedAsync中存在设备陈旧性的问题。边缘设备主动请求额外下发的全局模型,能节省网络资源。
应理解,图6所示的示意图仅仅是示例性而不是限制性的,并且其是可扩展的,本领域技术人员可以基于图6的例子进行各种显而易见的变化和/或替换,得到的技术方案仍属于本公开实施例的公开范围。
本公开实施例提供了基于异步联邦学习的模型训练控制装置,应用于基站,如图7所示,该装置可以包括:第一发送模块701,用于向多个边缘设备发送第一全局模型的第一参数,第一全局模型是初始的全局模型;第一接收模块702,用于接收来自多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,第二全局模型是第一边缘设备根据本地数据集对第一全局模型训练完毕后得到的全局模型;第一控制模块703,用于在基于第二全局模型聚合得到第三全局模型的情况下,向多个边缘设备中的第二边缘设备下发第三全局模型的第三参数,第三全局模型是相对于第一全局模型的最新的全局模型,第二边缘设备是对第一全局模型尚未训练完毕的设备。
在一些实施例中,该装置还可包括:第一确定模块704(图7未示出),用于将多个边缘设备中尚未返回第二全局模型的边缘设备,确定为第二边缘设备。
在一些实施例中,该装置还可包括:第二确定模块705(图7未示出),用于将多个边缘设备中尚未返回第二全局模型且发送模型请求的边缘设备,确定为第二边缘设备,模型请求用于请求第三全局模型。
在一些实施例中,该装置还可包括:第一聚合模块706(图7未示出),用于响应于检测到第二全局模型的数量达到预设阈值,对第一全局模型和已接收到的第二全局模型进行聚合,得到第三全局模型。
本领域技术人员应当理解,本公开实施例的基于异步联邦学习的模型训练控制装置中各处理模块的功能,可参照前述的应用于基站的基于异步联邦学习的模型训练控制方法的相关描述而理解,本公开实施例的基于异步联邦学习的模型训练控制装置中各处理模块,可通过实现本公开实施例所述的功能的模拟电路而实现,也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。
本公开实施例的基于异步联邦学习的模型训练控制装置,能提高模型训练的效率和精度。
本公开实施例提供了基于异步联邦学习的模型训练控制装置,应用于第二边缘设备,如图8所示,该装置可以包括:第二接收模块801,用于接收基站发送的第一全局模型的第一参数,第一全局模型是第二边缘设备最初接收到的模型;第三确定模块802,用于在基于本地数据集对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型,第三全局模型是基站确定出的最新的全局模型;第二聚合模块803,用于对第三全局模型和第四全局模型进行聚合,得到第五全局模型;第二控制模块804,用于基于本地数据集对第五全局模型进行训练,得到第二全局模型。
在一些实施例中,该装置还可包括:第三控制模块805(图8未示出),用于在基于本地数据集对第一全局模型进行训练的过程中,向基站发送模型请求,模型请求用于请求第三全局模型。
在一些实施例中,该装置还可包括:第四控制模块806(图8未示出),用于在基于本地数据集对第一全局模型进行训练的过程中,被动接收基站发送的第三全局模型的第三参数。
在一些实施例中,该第三确定模块802,用于:将第二边缘设备当前训练得到的最新的模型确定为第四全局模型,第四全局模型是训练完毕之前得到的全局模型。
本领域技术人员应当理解,本公开实施例的基于异步联邦学习的模型训练控制装置中各处理模块的功能,可参照前述的基于异步联邦学习的模型训练控制方法的相关描述而理解,本公开实施例的应用于边缘设备的基于异步联邦学习的模型训练控制装置中各处理模块,可通过实现本公开实施例所述的功能的模拟电路而实现,也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。
本公开实施例的基于异步联邦学习的模型训练控制装置,能提高模型训练的效率和精度。
本公开实施例提供了基于异步联邦学习的模型训练控制系统,如图9所示,该系统包括:基站,用于发送第一全局模型的第一参数,该第一全局模型是初始的全局模型;M个边缘设备,用于基于各自的本地数据集分别对第一全局模型进行训练;基站,还用于在接收到M个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,第三全局模型是相对于第一全局模型的最新的全局模型;M个边缘设备,还用于M个边缘设备中第二边缘设备在对第一全局模型进行训练的过程中,响应于接收到基站发送的第三全局模型的第三参数,确定第四全局模型;对第三全局模型和第四全局模型进行聚合,得到第五全局模型;基于本地数据集对第五全局模型进行训练,得到第二全局模型;向基站返回第二全局模型的第二参数。
本公开实施例的基于异步联邦学习的模型训练控制系统,能提高模型训练的效率和精度。
本公开实施例还提供了基于异步联邦学习的模型训练的场景示意图,如图10所示,电子设备如云服务器向各终端发送第一全局模型的第一参数;各终端利用各自的本地数据集对第一全局模型进行训练;电子设备在接收到部分终端返回的第二全局模型的第二参数的情况下,基于第二全局模型进行聚合,得到第三全局模型;电子设备向尚未返回第二全局模型的第二参数的终端,下发第三全局模型的第三参数。其中,各终端可主动请求或被动接收第三全局模型的第三参数。
本公开不对终端和电子设备的个数进行限定,实际应用中可包括多个终端、多个电子设备。
应理解,图10所示的场景图仅仅是示意性而非限制性的,本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换,得到的技术方案仍属于本公开实施例的公开范围。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(Random Access Memory,RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如基于异步联邦学习的模型训练控制方法。例如,在一些实施例中,基于异步联邦学习的模型训练控制方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的基于异步联邦学习的模型训练控制方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于异步联邦学习的模型训练控制方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(Application-Specific Standard Products,ASSP)、芯片上系统的系统(System on Chip,SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)或者液晶显示器(Liquid Crystal Display,LCD)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种基于异步联邦学习的模型训练控制方法,应用于基站,包括:
向多个边缘设备发送第一全局模型的第一参数,所述第一全局模型是初始的全局模型;
接收来自所述多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,所述第二全局模型是所述第一边缘设备根据本地数据集对所述第一全局模型训练完毕后得到的全局模型;
在基于至少一个所述第二全局模型聚合得到第三全局模型的情况下,向所述多个边缘设备中的第二边缘设备下发所述第三全局模型的第三参数,所述第三全局模型是相对于所述第一全局模型的最新的全局模型,所述第二边缘设备是对所述第一全局模型尚未训练完毕的设备。
2.根据权利要求1所述的方法,还包括:
将所述多个边缘设备中尚未返回所述第二全局模型的边缘设备,确定为所述第二边缘设备。
3.根据权利要求1所述的方法,还包括:
将所述多个边缘设备中尚未返回所述第二全局模型且发送模型请求的边缘设备,确定为所述第二边缘设备,所述模型请求用于请求所述第三全局模型。
4.根据权利要求1所述的方法,其中,所述基于所述第二全局模型聚合得到第三全局模型,包括:
响应于检测到所述第二全局模型的数量达到预设阈值,对所述第一全局模型和已接收到的所述第二全局模型进行聚合,得到所述第三全局模型。
5.一种基于异步联邦学习的模型训练控制方法,应用于第二边缘设备,包括:
接收基站发送的第一全局模型的第一参数,所述第一全局模型是所述第二边缘设备最初接收到的模型;
在基于本地数据集对所述第一全局模型进行训练的过程中,响应于接收到所述基站发送的第三全局模型的第三参数,确定第四全局模型,所述第三全局模型是所述基站确定出的最新的全局模型;
对所述第三全局模型和所述第四全局模型进行聚合,得到第五全局模型;
基于所述本地数据集对所述第五全局模型进行训练,得到第二全局模型。
6.根据权利要求5所述的方法,还包括:
在基于本地数据集对所述第一全局模型进行训练的过程中,向所述基站发送模型请求,所述模型请求用于请求所述第三全局模型。
7.根据权利要求5所述的方法,还包括:
在基于本地数据集对所述第一全局模型进行训练的过程中,被动接收所述基站发送的所述第三全局模型的第三参数。
8.根据权利要求5所述的方法,其中,所述确定第四全局模型,包括:
将所述第二边缘设备当前训练得到的最新的模型确定为所述第四全局模型,所述第四全局模型是训练完毕之前得到的全局模型。
9.一种基于异步联邦学习的模型训练控制方法,包括:
基站向多个边缘设备发送第一全局模型的第一参数,所述第一全局模型是初始的全局模型;
所述多个边缘设备基于各自的本地数据集分别对所述第一全局模型进行训练;
所述基站在接收到所述多个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,所述第三全局模型是相对于所述第一全局模型的最新的全局模型;
所述多个边缘设备中第二边缘设备在对所述第一全局模型进行训练的过程中,响应于接收到所述基站发送的第三全局模型的第三参数,确定第四全局模型;对所述第三全局模型和所述第四全局模型进行聚合,得到第五全局模型;基于所述本地数据集对所述第五全局模型进行训练,得到第二全局模型;向所述基站返回所述第二全局模型的第二参数。
10.一种基于异步联邦学习的模型训练控制装置,应用于基站,包括:
第一发送模块,用于向多个边缘设备发送第一全局模型的第一参数,所述第一全局模型是初始的全局模型;
第一接收模块,用于接收来自所述多个边缘设备中第一边缘设备返回的第二全局模型的第二参数,所述第二全局模型是所述第一边缘设备根据本地数据集对所述第一全局模型训练完毕后得到的全局模型;
第一控制模块,用于在基于至少一个所述第二全局模型聚合得到第三全局模型的情况下,向所述多个边缘设备中的第二边缘设备下发所述第三全局模型的第三参数,所述第三全局模型是相对于所述第一全局模型的最新的全局模型,所述第二边缘设备是对所述第一全局模型尚未训练完毕的设备。
11.根据权利要求10所述的装置,还包括:
第一确定模块,用于将所述多个边缘设备中尚未返回所述第二全局模型的边缘设备,确定为所述第二边缘设备。
12.根据权利要求10所述的装置,还包括:
第二确定模块,用于将所述多个边缘设备中尚未返回所述第二全局模型且发送模型请求的边缘设备,确定为所述第二边缘设备,所述模型请求用于请求所述第三全局模型。
13.根据权利要求10所述的装置,还包括:
第一聚合模块,第一用于响应于检测到所述第二全局模型的数量达到预设阈值,对所述第一全局模型和已接收到的所述第二全局模型进行聚合,得到所述第三全局模型。
14.一种基于异步联邦学习的模型训练控制装置,应用于第二边缘设备,包括:
第二接收模块,用于接收基站发送的第一全局模型的第一参数,所述第一全局模型是所述第二边缘设备最初接收到的模型;
第三确定模块,用于在基于本地数据集对所述第一全局模型进行训练的过程中,响应于接收到所述基站发送的第三全局模型的第三参数,确定第四全局模型,所述第三全局模型是所述基站确定出的最新的全局模型;
第二聚合模块,用于对所述第三全局模型和所述第四全局模型进行聚合,得到第五全局模型;
第二控制模块,用于基于所述本地数据集对所述第五全局模型进行训练,得到第二全局模型。
15.根据权利要求14所述的装置,还包括:
第三控制模块,用于在基于本地数据集对所述第一全局模型进行训练的过程中,向所述基站发送模型请求,所述模型请求用于请求所述第三全局模型。
16.根据权利要求14所述的装置,还包括:
第四控制模块,用于在基于本地数据集对所述第一全局模型进行训练的过程中,被动接收所述基站发送的所述第三全局模型的第三参数。
17.根据权利要求14所述的装置,其中,所述第三确定模块,用于:
将所述第二边缘设备当前训练得到的最新的模型确定为所述第四全局模型,所述第四全局模型是训练完毕之前得到的全局模型。
18.一种基于异步联邦学习的模型训练控制系统,包括:
基站,用于发送第一全局模型的第一参数,所述第一全局模型是初始的全局模型;
多个边缘设备,用于基于各自的本地数据集分别对所述第一全局模型进行训练;
所述基站,还用于在接收到所述多个边缘设备中第一边缘设备返回的第二全局模型的第二参数的情况下,确定第三全局模型,所述第三全局模型是相对于所述第一全局模型的最新的全局模型;
所述多个边缘设备,还用于所述多个边缘设备中第二边缘设备在对所述第一全局模型进行训练的过程中,响应于接收到所述基站发送的第三全局模型的第三参数,确定第四全局模型;对所述第三全局模型和所述第四全局模型进行聚合,得到第五全局模型;基于所述本地数据集对所述第五全局模型进行训练,得到第二全局模型;向所述基站返回所述第二全局模型的第二参数。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202211025788.2A 2022-08-25 2022-08-25 基于异步联邦学习的模型训练控制方法、装置及系统 Active CN115456194B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211025788.2A CN115456194B (zh) 2022-08-25 2022-08-25 基于异步联邦学习的模型训练控制方法、装置及系统
US18/098,514 US20240086717A1 (en) 2022-08-25 2023-01-18 Model training control method based on asynchronous federated learning, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211025788.2A CN115456194B (zh) 2022-08-25 2022-08-25 基于异步联邦学习的模型训练控制方法、装置及系统

Publications (2)

Publication Number Publication Date
CN115456194A true CN115456194A (zh) 2022-12-09
CN115456194B CN115456194B (zh) 2023-09-01

Family

ID=84298910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211025788.2A Active CN115456194B (zh) 2022-08-25 2022-08-25 基于异步联邦学习的模型训练控制方法、装置及系统

Country Status (2)

Country Link
US (1) US20240086717A1 (zh)
CN (1) CN115456194B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113095407A (zh) * 2021-04-12 2021-07-09 哈尔滨理工大学 一种降低通信次数的高效异步联邦学习方法
CN113902128A (zh) * 2021-10-12 2022-01-07 中国人民解放军国防科技大学 改善边缘设备利用效率的异步联邦学习方法、装置及介质
WO2022026294A1 (en) * 2020-07-28 2022-02-03 Futurewei Technologies, Inc. Massively scalable, resilient, and adaptive federated learning system
CN114065863A (zh) * 2021-11-18 2022-02-18 北京百度网讯科技有限公司 联邦学习的方法、装置、系统、电子设备及存储介质
CN114118444A (zh) * 2021-12-01 2022-03-01 杭州电子科技大学 一种利用启发式算法降低联邦学习中设备空跑时间的方法
CN114491623A (zh) * 2021-12-30 2022-05-13 北京邮电大学 一种基于区块链的异步联邦学习方法及系统
WO2022099512A1 (zh) * 2020-11-11 2022-05-19 北京小米移动软件有限公司 数据处理方法及装置、通信设备和存储介质
CN114666274A (zh) * 2022-03-17 2022-06-24 广州广电运通金融电子股份有限公司 异步模式训练的联邦学习方法、设备、系统及可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022026294A1 (en) * 2020-07-28 2022-02-03 Futurewei Technologies, Inc. Massively scalable, resilient, and adaptive federated learning system
WO2022099512A1 (zh) * 2020-11-11 2022-05-19 北京小米移动软件有限公司 数据处理方法及装置、通信设备和存储介质
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113095407A (zh) * 2021-04-12 2021-07-09 哈尔滨理工大学 一种降低通信次数的高效异步联邦学习方法
CN113902128A (zh) * 2021-10-12 2022-01-07 中国人民解放军国防科技大学 改善边缘设备利用效率的异步联邦学习方法、装置及介质
CN114065863A (zh) * 2021-11-18 2022-02-18 北京百度网讯科技有限公司 联邦学习的方法、装置、系统、电子设备及存储介质
CN114118444A (zh) * 2021-12-01 2022-03-01 杭州电子科技大学 一种利用启发式算法降低联邦学习中设备空跑时间的方法
CN114491623A (zh) * 2021-12-30 2022-05-13 北京邮电大学 一种基于区块链的异步联邦学习方法及系统
CN114666274A (zh) * 2022-03-17 2022-06-24 广州广电运通金融电子股份有限公司 异步模式训练的联邦学习方法、设备、系统及可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUJING CHEN等: "Asynchronous Online Federated Learning for Edge Devices with Non-IID Data", 《ARXIV:1911.02134V3》, pages 1 - 11 *
ZHIFENG JIANG等: "Towards Efficient Synchronous Federated Training: A Survey on System Optimization Strategies", 《 IEEE TRANSACTIONS ON BIG DATA》, vol. 9, no. 2, pages 437 - 454, XP011936425, DOI: 10.1109/TBDATA.2022.3177222 *
蔡玲双: "多用户协同的移动边缘计算资源优化研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, pages 136 - 1752 *
高胜等: "一种基于区块链的隐私保护异步联邦学习", 《中国科学:信息科学》, vol. 51, no. 10, pages 1755 - 1774 *

Also Published As

Publication number Publication date
US20240086717A1 (en) 2024-03-14
CN115456194B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN112561078B (zh) 分布式的模型训练方法及相关装置
CN114298322B (zh) 联邦学习方法和装置、系统、电子设备、计算机可读介质
CN114065863B (zh) 联邦学习的方法、装置、系统、电子设备及存储介质
US11521057B2 (en) Learning system and learning method
CN112561079A (zh) 分布式的模型训练装置、方法及计算机程序产品
CN112560996A (zh) 用户画像识别模型训练方法、设备、可读存储介质及产品
CN113222118B (zh) 神经网络训练方法、装置、电子设备、介质和程序产品
CN114936323A (zh) 图表示模型的训练方法、装置及电子设备
CN112528160A (zh) 智能推荐、模型训练方法、装置、电子设备及存储介质
CN115456194A (zh) 基于异步联邦学习的模型训练控制方法、装置及系统
CN110837395B (zh) 多gpu并行训练的归一化处理方法、装置和系统
CN115600693A (zh) 机器学习模型训练方法、识别方法、相关装置及电子设备
CN113408641B (zh) 资源生成模型的训练与服务资源的生成方法、装置
CN114758130A (zh) 图像处理及模型训练方法、装置、设备和存储介质
CN114742035A (zh) 基于注意力机制优化的文本处理方法、网络模型训练方法
CN114067415A (zh) 回归模型的训练方法、对象评估方法、装置、设备和介质
CN115860077B (zh) 状态数据的处理方法、装置、设备以及存储介质
CN116187473B (zh) 联邦学习方法、装置、电子设备和计算机可读存储介质
CN113963433B (zh) 运动搜索方法、装置、电子设备及存储介质
CN115660034B (zh) 分布式模型训练的方法、装置和系统
CN115018009B (zh) 对象描述方法、网络模型的训练方法及装置
CN116011693A (zh) 一种路径确定方法、装置、计算机设备和存储介质
CN114418123A (zh) 一种模型降噪方法、装置、电子设备及存储介质
CN114282663A (zh) 模型保存方法、装置、电子设备、路侧设备及云控平台
CN115952874A (zh) 联邦学习方法、装置、服务器、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant