CN113887748B - 在线联邦学习任务分配方法、装置、联邦学习方法及系统 - Google Patents

在线联邦学习任务分配方法、装置、联邦学习方法及系统 Download PDF

Info

Publication number
CN113887748B
CN113887748B CN202111482767.9A CN202111482767A CN113887748B CN 113887748 B CN113887748 B CN 113887748B CN 202111482767 A CN202111482767 A CN 202111482767A CN 113887748 B CN113887748 B CN 113887748B
Authority
CN
China
Prior art keywords
training
task
online
data
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111482767.9A
Other languages
English (en)
Other versions
CN113887748A (zh
Inventor
鲁剑锋
刘海波
段佳昂
戴情
杨沙沙
李冰
张烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202111482767.9A priority Critical patent/CN113887748B/zh
Publication of CN113887748A publication Critical patent/CN113887748A/zh
Application granted granted Critical
Publication of CN113887748B publication Critical patent/CN113887748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统,在给定联邦学习训练框架下,将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段,通过Lyapunov优化理论和深度强化学习的计算,提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配方法,由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段,导致不能解决在线联邦学习中数据非独立同分布的技术问题。

Description

在线联邦学习任务分配方法、装置、联邦学习方法及系统
技术领域
本发明属于新型感知计算领域,更具体地,涉及一种在线联邦学习任务分配方法、装置、联邦学习方法及系统。
背景技术
为了分析大量数据并提取有用的信息,基于机器学习方法,已经提出了越来越多的应用程序,例如自动驾驶,人脸识别,语音识别等。这些应用程序之所以成功,主要是因为训练过程机器学习模型使用大量数据集。但是,随着数据量的快速增长,传统的将所有数据上传到云服务器进行集中训练的机器学习方法,不仅给存储空间带来很大的负载压力,而且给用户的隐私保护带来了挑战。联邦学习的分布式学习方法解决了这个问题。联邦学习使边缘节点可以协作地训练全局模型,而无需共享原始数据集。云服务器只需要收集每个边缘节点训练的模型参数,然后聚合模型并更新参数。这种模式的优点如下:首先,用于模型训练的数据集以分布式形式分布在各个边缘节点中,这减轻了服务器存储负载。其次,不需要将所有数据集都上传到服务器,以确保不会泄露用户的隐私。最后,与集中式学习相比,联邦学习还节省了数据通信的开销,因为与原始数据的上传和下载相比,上传和下载模型参数的开销最小。
然而,联邦学习中依然存在诸多问题亟待解决。例如分布式训练流程中依然存在泄露敏感信息的隐私保护难题,网络资源有限而终端设备数量庞大导致的通信费用高问题,由于硬件条件、网络结构差异带来的系统异构性挑战,以及数据结构、分布不同导致的非独立同分布问题等。相比于其它难题,非独立同分布数据制约着联邦学习的性能瓶颈,影响着联邦学习技术在不同领域之间的交叉融合和深入创新。针对联邦学习中非独立同分布数据带来的性能瓶颈挑战,相关研究工作也提出了一些优化改进算法,大部分现有研究工作只考虑静态环境下,在一些数据集如MNIST、CIFAR-10等,如何优化聚合方式来提高联邦学习在数据非独立同分布时的性能,而未涉及到动态环境下边缘节点的差异性以及不同选择策略带来的性能影响。因此,如何在动态环境下兼顾边缘节点的差异性以及非独立同分布数据特征的异构性进行数据建模、分析和评估,是解决联邦学习在不同领域交叉融合和深入创新所必须解决的关键问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统,其目的在于,在给定联邦学习训练框架下,将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段,通过Lyapunov优化理论和深度强化学习的计算,提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配机制,由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段,导致不能解决在线联邦学习中数据非独立同分布的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种在线联邦学习任务分配方法,其包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;
(2)采用强化学习模型根据步骤(1)获得的边缘节点的数据集状态选择进行任务训练的边缘节点;
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述强化学习模型采用马尔科夫决策。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成,其中损失值为每个节点的估计网络参数的梯度损失的加权和。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述无模型增强学习算法为深度Q网络,并采用贝尔曼方程估计Q函数估计的更新差值。
优选地,所述在线联邦学习任务分配方法,其步骤(3)所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化。
按照本发明的另一个方面,提供了一种在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
按照本发明的另一个方面,提供了一种面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照本发明提供的的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
按照本发明的另一个方面,提供了一种面向非独立同分布数据的在线联邦学习系统,其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明将联邦学习中的面向非独立同分布的任务分配问题设计为基于Lyapunov优化理论和深度强化学习的优化问题,该优化问题分成了两部分。第一部分,针对边缘节点数据的未来信息无法预测问题,基于Lyapunov优化理论仅依靠当前信息来制定独立的在线控制策略。第二阶段,针对边缘节点数据分布不遵循独立同分布原则问题,基于深度强化学习制定在线任务分配策略。
本发明提出了对于数据非独立同分布的有效的算法,将Lyapunov优化与深度强化学习(DRL)相结合,为动态原始数据的变化设计最优控制策略,以探索数据非独立同分布对训练收敛的影响,通过DRL学习过程选择最优的节点集合,降低非独立同分布对收敛速率产生的影响。
从理论方面严格证明了策略可行性,并且,基于MNIST和FashionMNIST两个数据集,将本文提出的策略与Fedavg对比,从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。本文发现该算法与MNIST数据集上的Fedavg相比可提高35%,与FashionMNIST数据集上的Fedavg相比可提高23%。
附图说明
图1是本发明提供的在线联邦学习任务分配方法训练示意图。
图2是本发明实施例应用本发明提供的在线联邦学习训练方法的边缘计算系统结构示意图。
图3是在MNIST数据集中考察非独立同分布程度对收敛速度的影响;其中图3中的(a)为γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签;图3中的(b)为γ=0.8表示80%的数据属于一个标签,其余20%是随机的。图3中的(c)为γ=1表示每个边缘节点中的所有数据都属于同一标签。
图4是FashionMNIST数据集中考察非独立同分布程度对收敛速度的影响;其中图4中的(a)为γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签;图4中的(b)为γ=0.8表示80%的数据属于一个标签,其余20%是随机的。图4中的(c)为γ=1表示每个边缘节点中的所有数据都属于同一标签。
图5是不同轮次大小对准确率的影响关系图;考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响,并在不同的偏差程度下探索对数据收敛产生影响。
图6是不同批次大小对准确性的影响关系图;其中图6中的(a)为γ=0.5表示数据集中50%的数据是随机分布的其余的属于一个标签;图6中的(b)为
Figure 278530DEST_PATH_IMAGE001
表示80%的数据属于一个标签,其余20%是随机的。
图7是不同节点数量对收敛回合的影响。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
目前存在许多研究提供了诸如Stackelberg博弈、机器学习等方法,以加速联邦学习收敛回合和提高训练效果。然而,目前存在两个阻止这些研究扩展到处理联邦学习中的非独立同分布(非独立同分布)的数据的在线任务分配问题的主要原因:(i)在每个阶段,边缘节点的数据集是在线的,每个阶段都有新感知的数据,也有消耗的数据;(ii)每个边缘节点的数据分布是不遵循独立同分布原则的,边缘节点按照自己的偏好来选择数据进行感知。总之,边缘节点和服务器这些关系之间是在线的,不完全信息的。非独立同分布数据的在线任务分配问题在联邦学习应用程序中是非常常见的,然而,这个问题比较复杂以至于还没有很好地解决方案。目前主要都集中于解决独立同分布或者线下的特殊情况。
以下为实施例:
本发明提供的在线联邦学习任务分配方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;具体为:
中央服务器发布训练任务,并获取当前时间片
Figure 606743DEST_PATH_IMAGE002
内所有
Figure 497470DEST_PATH_IMAGE003
个有意愿执行任务的边缘节点集合
Figure 936542DEST_PATH_IMAGE004
及每个边缘节点的数据集状态
Figure 478381DEST_PATH_IMAGE005
,获得边缘节点集合
Figure 993807DEST_PATH_IMAGE006
的状态为
Figure 621098DEST_PATH_IMAGE007
(2)采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;所述强化学习模型采用马尔科夫决策,具体为:
将步骤(1)中的边缘节点集合
Figure 863860DEST_PATH_IMAGE006
的状态
Figure 525786DEST_PATH_IMAGE008
,作为马尔科夫决策过程
Figure 943604DEST_PATH_IMAGE009
的状态
Figure 792612DEST_PATH_IMAGE010
,即
Figure 839065DEST_PATH_IMAGE011
,采用马尔科夫决策过程决定最优动作策略
Figure 902967DEST_PATH_IMAGE012
;其中
Figure 743884DEST_PATH_IMAGE013
为动作空间,即当前时间片
Figure 80188DEST_PATH_IMAGE002
内对边缘节点集合
Figure 664753DEST_PATH_IMAGE006
采用的动作策略
Figure 786424DEST_PATH_IMAGE014
的所有可能值,所述动作策略
Figure 798242DEST_PATH_IMAGE014
为对边缘节点集合
Figure 887421DEST_PATH_IMAGE006
中每一边缘节点选择或放弃采用该边缘节点执行所述任务训练;
Figure 10098DEST_PATH_IMAGE015
为惩罚函数,
Figure 251854DEST_PATH_IMAGE016
,即
Figure 434574DEST_PATH_IMAGE017
Figure 745469DEST_PATH_IMAGE018
为时间片
Figure 406258DEST_PATH_IMAGE002
执行动作
Figure 499591DEST_PATH_IMAGE014
后的单次惩罚;其中
Figure 853212DEST_PATH_IMAGE019
是折扣因子,用来控制学习系统对于长期还是短期学习过程的决策行为。当
Figure 651404DEST_PATH_IMAGE020
时,表示学习系统只考虑当前的行为结果;当
Figure 381463DEST_PATH_IMAGE021
时,表示学习系统考虑未来长期的最优动作策略。
采用的状态转移方程为:
Figure 332232DEST_PATH_IMAGE022
其中,
Figure 653492DEST_PATH_IMAGE023
表示在时间片
Figure 938980DEST_PATH_IMAGE024
时的状态、
Figure 223462DEST_PATH_IMAGE025
表示在时间片
Figure 278006DEST_PATH_IMAGE024
时的动作,
Figure 973429DEST_PATH_IMAGE026
表示从状态
Figure 746213DEST_PATH_IMAGE023
选择动作
Figure 568807DEST_PATH_IMAGE025
会转移到状态
Figure 477857DEST_PATH_IMAGE027
的概率,
Figure 609761DEST_PATH_IMAGE028
Figure 604262DEST_PATH_IMAGE029
为对现有数据进行统计获得的当前状态为
Figure 962037DEST_PATH_IMAGE030
时执行动作策略
Figure 725594DEST_PATH_IMAGE031
下一时间片状态为
Figure 28399DEST_PATH_IMAGE032
的概率。
优选采用无模型增强学习算法例如深度Q网络估计惩罚值
Figure 510196DEST_PATH_IMAGE033
,其中采用Q函数估计惩罚值
Figure 674592DEST_PATH_IMAGE033
Figure 558235DEST_PATH_IMAGE034
其中,
Figure 31942DEST_PATH_IMAGE035
为学习率,当前时间片的惩罚值
Figure 1035DEST_PATH_IMAGE018
由两部分组成,Lyapunov漂移
Figure 969122DEST_PATH_IMAGE036
和损失值
Figure 707271DEST_PATH_IMAGE037
组成,前时间片的惩罚值
Figure 148616DEST_PATH_IMAGE018
写作:
Figure 355738DEST_PATH_IMAGE038
其中,
Figure 111204DEST_PATH_IMAGE039
为权重,
Figure 969439DEST_PATH_IMAGE040
其中损失值
Figure 519369DEST_PATH_IMAGE041
为每个节点的估计网络参数的梯度损失的加权和,写作:
Figure 210857DEST_PATH_IMAGE042
其中选择最优的
Figure 770014DEST_PATH_IMAGE043
个节点来训练任务,即采用梯度下降方法训练参数,
Figure 482755DEST_PATH_IMAGE044
优选方案,分别对Lyapunov漂移
Figure 469166DEST_PATH_IMAGE045
和损失值
Figure 385300DEST_PATH_IMAGE041
采用深度Q网络的Q函数进行估计,具体地,采用贝尔曼方程估计Lyapunov漂移
Figure 482569DEST_PATH_IMAGE045
和损失值
Figure 49817DEST_PATH_IMAGE041
的Q函数估计的更新差值,以迭代更新Lyapunov漂移
Figure 207129DEST_PATH_IMAGE045
和损失值
Figure 610559DEST_PATH_IMAGE041
的Q函数估计值,如下:
Figure 511519DEST_PATH_IMAGE046
Figure 198852DEST_PATH_IMAGE047
其中,
Figure 527066DEST_PATH_IMAGE048
为Lyapunov漂移
Figure 417792DEST_PATH_IMAGE045
的Q函数估计的更新差值,
Figure 856864DEST_PATH_IMAGE049
为损失值
Figure 398704DEST_PATH_IMAGE041
的Q函数估计的更新差值,
Figure 897818DEST_PATH_IMAGE040
Figure 272911DEST_PATH_IMAGE028
所述采用马尔科夫决策过程决定最优动作策略
Figure 515674DEST_PATH_IMAGE012
,即计算采用动作空间
Figure 708758DEST_PATH_IMAGE013
的不同动作策略
Figure 129506DEST_PATH_IMAGE050
的Q值,并选择Q值最小的动作策略作为最优动作策略
Figure 244093DEST_PATH_IMAGE012
Figure 290546DEST_PATH_IMAGE051
采用贪婪算法,求解最优动作策略
Figure 541399DEST_PATH_IMAGE052
,如下:
Figure 133048DEST_PATH_IMAGE053
其中,
Figure 734931DEST_PATH_IMAGE054
为在状态
Figure 319496DEST_PATH_IMAGE030
下采取行动
Figure 237904DEST_PATH_IMAGE055
的Lyapunov漂移
Figure 249723DEST_PATH_IMAGE045
采用参数为
Figure 338902DEST_PATH_IMAGE056
的相应Q函数的参数进行估计,得到的Lyapunov漂移
Figure 232819DEST_PATH_IMAGE045
的Q函数值的估计;
Figure 458264DEST_PATH_IMAGE057
为在状态
Figure 906562DEST_PATH_IMAGE030
下采取行动
Figure 217458DEST_PATH_IMAGE055
的损失值
Figure 894558DEST_PATH_IMAGE041
采用参数为
Figure 36827DEST_PATH_IMAGE058
的相应Q函数的参数进行估计,得到的损失值
Figure 390447DEST_PATH_IMAGE041
的Q函数值的估计。
Figure 939372DEST_PATH_IMAGE056
为,
Figure 669430DEST_PATH_IMAGE058
为损失值
Figure 869467DEST_PATH_IMAGE041
的Q函数的参数。
因为状态空间中的状态数量实在太过庞大以至于无法量化的建立一个动作价值函数来准确的反应每一个状态和动作,需要用深度强化学习来生成一个估计器来更新动作效益函数即Q值函数的参数。Lyapunov漂移
Figure 393990DEST_PATH_IMAGE045
的Q函数的参数
Figure 430210DEST_PATH_IMAGE056
和损失值
Figure 698380DEST_PATH_IMAGE041
的Q函数的参数
Figure 752924DEST_PATH_IMAGE058
,按照以下方法更新:
Figure 713927DEST_PATH_IMAGE059
Figure 765672DEST_PATH_IMAGE060
初始的Lyapunov漂移
Figure 571954DEST_PATH_IMAGE045
的Q函数的参数
Figure 481004DEST_PATH_IMAGE056
和损失值
Figure 98061DEST_PATH_IMAGE041
的Q函数的参数
Figure 358141DEST_PATH_IMAGE058
,按照以下方法获取:
观察多组当前状态
Figure 968114DEST_PATH_IMAGE023
和采取行动
Figure 997250DEST_PATH_IMAGE031
后的更新后状态
Figure 50788DEST_PATH_IMAGE027
,并观测获取时间片
Figure 532585DEST_PATH_IMAGE061
Figure 946249DEST_PATH_IMAGE024
之间的长期奖励
Figure 829891DEST_PATH_IMAGE045
和损失值
Figure 54330DEST_PATH_IMAGE041
,作为训练样本,采用梯度下降法训练用于估计Lyapunov漂移和损失值Q值的深度强化学习模型,分别获得Lyapunov漂移
Figure 23423DEST_PATH_IMAGE045
的Q函数的参数
Figure 975199DEST_PATH_IMAGE056
和损失值
Figure 978927DEST_PATH_IMAGE041
的Q函数的参数
Figure 168075DEST_PATH_IMAGE058
;其中时间片
Figure 624464DEST_PATH_IMAGE061
Figure 379930DEST_PATH_IMAGE024
之间的Lyapunov漂移
Figure 723318DEST_PATH_IMAGE045
和损失值
Figure 538828DEST_PATH_IMAGE041
,表示为:
Figure 482513DEST_PATH_IMAGE062
Figure 41670DEST_PATH_IMAGE063
根据给定最优动作策略
Figure 505144DEST_PATH_IMAGE052
下,根据每个有意愿执行任务节点的数据集状态和最优动作策略
Figure 225975DEST_PATH_IMAGE052
,选择进行任务训练的m个边缘节点;
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;具体为:
对于进行任务训练的边缘节点,基于Lyapunov优化,确定单位时间片内准入数据量和消耗数据量,从而最优准入控制策略、任务分配策略、队列更新策略;所述最优准入控制策略,即边缘节点集合中每个节点的数据进入量的集合;所述任务分配策略,即边缘节点集合中每个节点的数据输出量的集合;所述队列更新策略,即按照最后准入控制策略和任务分配策略收集数据及消耗数据实现的每个节点的数据队列更新。
Lyapunov优化,即使得单位时间片内Lyapunov漂移界限
Figure 656956DEST_PATH_IMAGE064
和损失函数
Figure 754225DEST_PATH_IMAGE065
同时最小化。对于当前时间片的数据集初始状态
Figure 337784DEST_PATH_IMAGE066
,确定单位时间片内Lyapunov漂移界限
Figure 963938DEST_PATH_IMAGE064
和损失函数
Figure 882215DEST_PATH_IMAGE065
最小化时,二者与边缘节点数据集状态
Figure 783175DEST_PATH_IMAGE067
的关系如下:
所述Lyapunov漂移界限
Figure 952732DEST_PATH_IMAGE064
最小化,即:
Figure 280945DEST_PATH_IMAGE068
其中,
Figure 420940DEST_PATH_IMAGE069
是边缘节点的数据集状态,
Figure 125590DEST_PATH_IMAGE070
是边缘节点的数据量,
Figure 214900DEST_PATH_IMAGE071
是边缘节点
Figure 714015DEST_PATH_IMAGE072
在时间片
Figure 341305DEST_PATH_IMAGE024
内最大数据量感知速率,
Figure 334800DEST_PATH_IMAGE073
是边缘节点的数据量阈值,
Figure 731146DEST_PATH_IMAGE074
是边缘节点
Figure 401162DEST_PATH_IMAGE072
在时间片
Figure 250169DEST_PATH_IMAGE024
内准入数据量,
Figure 781776DEST_PATH_IMAGE075
是边缘节点
Figure 298208DEST_PATH_IMAGE072
在时间片
Figure 139125DEST_PATH_IMAGE024
内消耗数据量;
所述损失函数
Figure 741008DEST_PATH_IMAGE065
最小化,即:
Figure 73375DEST_PATH_IMAGE076
其中,
Figure 444314DEST_PATH_IMAGE077
是边缘节点
Figure 456132DEST_PATH_IMAGE072
中训练数据的分布;
Figure 279732DEST_PATH_IMAGE078
是损失函数,
Figure 418720DEST_PATH_IMAGE079
是训练输出结果,
Figure 644165DEST_PATH_IMAGE080
是实际结果;
Figure 826885DEST_PATH_IMAGE081
是权重;
Figure 403360DEST_PATH_IMAGE082
Figure 877198DEST_PATH_IMAGE083
是学习速率,
Figure 160411DEST_PATH_IMAGE084
对于边缘节点
Figure 576349DEST_PATH_IMAGE085
,其数据进入量
Figure 125273DEST_PATH_IMAGE086
按照如下方法确定:
Figure 855332DEST_PATH_IMAGE087
其中,
Figure 789790DEST_PATH_IMAGE073
是边缘节点的数据量阈值,
Figure 579891DEST_PATH_IMAGE088
是边缘节点
Figure 613182DEST_PATH_IMAGE072
在时间片
Figure 881352DEST_PATH_IMAGE024
内最大数据量感知速率。
获得每个边缘节点中允许进入到队列中的数据量,即:
Figure 935896DEST_PATH_IMAGE089
对于边缘节点
Figure 896899DEST_PATH_IMAGE085
,其数据输出量
Figure 154836DEST_PATH_IMAGE075
按照如下方法确定:
Figure 961118DEST_PATH_IMAGE090
获得每个边缘节点中训练消耗的数据量,即:
Figure 135747DEST_PATH_IMAGE091
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态;具体为
根据最优动作策略
Figure 2072DEST_PATH_IMAGE052
,各边缘节点采用消耗数据量的进行该训练任务的训练,并感知准入数据量的数据。
根据准入控制策略、任务分配策略、队列更新策略,更新边缘节点
Figure 12884DEST_PATH_IMAGE085
的数据集状态
Figure 622857DEST_PATH_IMAGE092
,从而更新边缘节点集合
Figure 651993DEST_PATH_IMAGE093
的在下一时间片的数据集初始状态
Figure 689219DEST_PATH_IMAGE094
所述更新边缘节点
Figure 187328DEST_PATH_IMAGE085
的数据集状态
Figure 600992DEST_PATH_IMAGE092
具体为:
Figure 484634DEST_PATH_IMAGE095
本发明提供的在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
本发明提供的面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照本发明提供的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
本发明提供的面向非独立同分布数据的在线联邦学习系统,其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。
以下为实施例效果测试:
本实施例采用仿真实验,具体如下:
本发明针对非独立同分布数据对联邦学习的收敛精度问题,提出了一种基于深度强化学习的任务分配策略LDRL-Fed,以提高面向非独立同分布数据的收敛速率精度。通过PyTorch来实现提出的LDRL-Fed,并使用运行实际PyTorch模型的大量设备对其进行验证。本实施例假设K
Figure 958341DEST_PATH_IMAGE096
,γ用来表示数据集的非独立同分布程度。模型和数据集的设置如下:
本文介绍了两个 CNN 模型广泛使用的数据集:
l MNIST。本文将训练集设置为具有两个5×5卷积层的 CNN 模型,第一层有20个输出通道,第二层有50个输出通道。对于每个边缘节点,每个轮次都是5。
l FashionMNIST。本文训练具有两个5×5卷积层的CNN模型。第一层具有16个输出通道,第二层具有32个输出通道。对于每个边缘节点,每个轮次都是5。
基准对比试验:本文使用独立同分布数据分布作为基准对比实验,并使用FedAvg作为比较组来评估LDRL-Fed。实验结果如图3所示,表明,与Fedavg算法相比,LDRL-Fed可以将MNIST上的通信回合减少多达35%,将FashionMNIST减少多达23%。
非独立同分布数据测试:针对于非独立同分布数据分布的不同程度,图4描绘了非独立同分布数据分布的不同程度对通信回合产生的影响。γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签。γ=0.8表示80%的数据属于一个标签,其余20%是随机的。
Figure 471974DEST_PATH_IMAGE097
表示每个边缘节点中的所有数据都属于同一标签。本实施例完成了图3中的MNIST和图4中的FMNIST如结果所示,不同程度的非独立同分布将对通信回合产生一定的影响。非独立同分布程度越高,通信周期越长,收敛速度越慢。LDRL-Fed可有效减少通信回合的次数。
针对于轮次和批次大小,图3显示了不同轮次和批次大小对准确率的影响。本文考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响。分别考虑从1到5的时间,如图5所示,本文可以看到,当数据分布差异较小时,例如,偏差γ=0和γ=0.5,增加时间不能提高精度的收敛速度,但在100发回合内,增加时间甚至会导致准确性下降。当数据分布完全不同时,γ=0.8。轮次的增加仍然对数据收敛产生影响,其中数据准确率随轮次的增加而增加。然后,本文在图6中验证了批次大小对准确性的影响,发现批次越大,效果越差,因为批次大小设置越大,将消耗数据集中可用数据的速度越快。新到达的数据量不足以支持每轮太多的批量。因此,适当的批次大小是最合适的。
针对于节点数量,图6不同节点数量对收敛回合的影响。在本小节中,本文探讨了节点数与精度收敛回合之间的关系。可选任务的最大数量K设置为10、20、30、40、50。图7显示,增加每轮完成任务的节点数量不会减少通信次数,甚至会增加通信次数。
在本发明中,我们提出基于Lyapunov优化理论和深度强化学习的理论框架,以减少通信回合,来实现良好的收敛效果。首先,边缘计算中的在线联邦学习问题被建模为基于Lyapunov优化理论的动态的队列模型组成的在线联邦学习问题。其次,针对于非独立同分布问题,将Lyapunov优化理论与DRL相结合,为动态原始数据的变化设计最优控制策略,以探索数据非独立同分布对训练收敛的影响,通过DRL学习过程选择最优的节点集合,降低非独立同分布对收敛速率产生的影响。最后,基于MNIST和FashionMNIST两个数据集,将本文提出的策略与FedAvg对比,从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。最重要的是,我们的方法实现了良好的性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种在线联邦学习任务分配方法,其特征在于,包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;
(2)采用强化学习模型根据步骤(1)获得的边缘节点的数据集状态选择进行任务训练的边缘节点;
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化;
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态。
2.如权利要求1所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述强化学习模型采用马尔科夫决策。
3.如权利要求2所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成,其中损失值为每个节点的估计网络参数的梯度损失的加权和。
4.如权利要求3所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。
5.如权利要求4所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述无模型增强学习算法为深度Q网络,并采用贝尔曼方程估计Q函数估计的更新差值。
6.一种在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其特征在于,包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
7.一种面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其特征在于,包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照如权利要求1至5任意一项所述的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
8.一种面向非独立同分布数据的在线联邦学习系统,其特征在于,包括中央服务器、多个边缘节点、以及如权利要求6所述的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。
CN202111482767.9A 2021-12-07 2021-12-07 在线联邦学习任务分配方法、装置、联邦学习方法及系统 Active CN113887748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111482767.9A CN113887748B (zh) 2021-12-07 2021-12-07 在线联邦学习任务分配方法、装置、联邦学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111482767.9A CN113887748B (zh) 2021-12-07 2021-12-07 在线联邦学习任务分配方法、装置、联邦学习方法及系统

Publications (2)

Publication Number Publication Date
CN113887748A CN113887748A (zh) 2022-01-04
CN113887748B true CN113887748B (zh) 2022-03-01

Family

ID=79015829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111482767.9A Active CN113887748B (zh) 2021-12-07 2021-12-07 在线联邦学习任务分配方法、装置、联邦学习方法及系统

Country Status (1)

Country Link
CN (1) CN113887748B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115694877B (zh) * 2022-08-30 2023-08-15 电子科技大学长三角研究院(衢州) 一种基于联邦偏好学习的空间众包任务分配方法
CN115357402B (zh) * 2022-10-20 2023-01-24 北京理工大学 一种边缘智能优化方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
CN111866954A (zh) * 2020-07-21 2020-10-30 重庆邮电大学 一种基于联邦学习的用户选择和资源分配方法
CN112202928A (zh) * 2020-11-16 2021-01-08 绍兴文理学院 传感边缘云区块链网络可信卸载协作节点选择系统及方法
EP3828783A1 (en) * 2019-11-28 2021-06-02 Secondmind Limited Parallelised training of machine learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3828783A1 (en) * 2019-11-28 2021-06-02 Secondmind Limited Parallelised training of machine learning models
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
CN111866954A (zh) * 2020-07-21 2020-10-30 重庆邮电大学 一种基于联邦学习的用户选择和资源分配方法
CN112202928A (zh) * 2020-11-16 2021-01-08 绍兴文理学院 传感边缘云区块链网络可信卸载协作节点选择系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
联邦学习可视化:挑战与框架;潘如晟等;《计算机辅助设计与图形学学报》(第04期);全文 *

Also Published As

Publication number Publication date
CN113887748A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
CN108021451A (zh) 一种雾计算环境下的自适应容器迁移方法
CN113064879A (zh) 数据库参数调整方法、装置及计算机可读存储介质
CN106228265B (zh) 基于改进粒子群优化的总拖期运输计划调度方法
Wu et al. Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT
Tong et al. DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment
CN104539601A (zh) 动态网络攻击过程可靠性分析方法及系统
Wang et al. Deepaalo: Auto-adjusting demotion thresholds for information-agnostic coflow scheduling
CN107590538B (zh) 一种基于在线序列学习机的危险源识别方法
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
Wang et al. A study of situation awareness-based resource management scheme in cloud environment
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
CN115640852B (zh) 联邦学习参与节点选择优化方法、联邦学习方法及系统
Tao et al. DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks
CN114675975B (zh) 一种基于强化学习的作业调度方法、装置及设备
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
CN113641496B (zh) 基于深度强化学习的dids任务调度优化方法
Liu et al. Efficient multi-user for task offloading and server allocation in mobile edge computing systems
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
Zhang et al. Optimizing federated edge learning on non-IID data via neural architecture search
CN104537224A (zh) 基于自适应学习算法的多状态系统可靠性分析方法及系统
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
Wang et al. Optimal path selection for logistics transportation based on an improved ant colony algorithm
CN112306641B (zh) 一种用于虚拟机迁移模型的训练方法
CN114401192A (zh) 一种多sdn控制器协同训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant