CN113887748A - 在线联邦学习任务分配方法、装置、联邦学习方法及系统 - Google Patents
在线联邦学习任务分配方法、装置、联邦学习方法及系统 Download PDFInfo
- Publication number
- CN113887748A CN113887748A CN202111482767.9A CN202111482767A CN113887748A CN 113887748 A CN113887748 A CN 113887748A CN 202111482767 A CN202111482767 A CN 202111482767A CN 113887748 A CN113887748 A CN 113887748A
- Authority
- CN
- China
- Prior art keywords
- training
- task
- online
- data
- edge nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统,在给定联邦学习训练框架下,将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段,通过Lyapunov优化理论和深度强化学习的计算,提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配方法,由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段,导致不能解决在线联邦学习中数据非独立同分布的技术问题。
Description
技术领域
本发明属于新型感知计算领域,更具体地,涉及一种在线联邦学习任务分配方法、装置、联邦学习方法及系统。
背景技术
为了分析大量数据并提取有用的信息,基于机器学习方法,已经提出了越来越多的应用程序,例如自动驾驶,人脸识别,语音识别等。这些应用程序之所以成功,主要是因为训练过程机器学习模型使用大量数据集。但是,随着数据量的快速增长,传统的将所有数据上传到云服务器进行集中训练的机器学习方法,不仅给存储空间带来很大的负载压力,而且给用户的隐私保护带来了挑战。联邦学习的分布式学习方法解决了这个问题。联邦学习使边缘节点可以协作地训练全局模型,而无需共享原始数据集。云服务器只需要收集每个边缘节点训练的模型参数,然后聚合模型并更新参数。这种模式的优点如下:首先,用于模型训练的数据集以分布式形式分布在各个边缘节点中,这减轻了服务器存储负载。其次,不需要将所有数据集都上传到服务器,以确保不会泄露用户的隐私。最后,与集中式学习相比,联邦学习还节省了数据通信的开销,因为与原始数据的上传和下载相比,上传和下载模型参数的开销最小。
然而,联邦学习中依然存在诸多问题亟待解决。例如分布式训练流程中依然存在泄露敏感信息的隐私保护难题,网络资源有限而终端设备数量庞大导致的通信费用高问题,由于硬件条件、网络结构差异带来的系统异构性挑战,以及数据结构、分布不同导致的非独立同分布问题等。相比于其它难题,非独立同分布数据制约着联邦学习的性能瓶颈,影响着联邦学习技术在不同领域之间的交叉融合和深入创新。针对联邦学习中非独立同分布数据带来的性能瓶颈挑战,相关研究工作也提出了一些优化改进算法,大部分现有研究工作只考虑静态环境下,在一些数据集如MNIST、CIFAR-10等,如何优化聚合方式来提高联邦学习在数据非独立同分布时的性能,而未涉及到动态环境下边缘节点的差异性以及不同选择策略带来的性能影响。因此,如何在动态环境下兼顾边缘节点的差异性以及非独立同分布数据特征的异构性进行数据建模、分析和评估,是解决联邦学习在不同领域交叉融合和深入创新所必须解决的关键问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统,其目的在于,在给定联邦学习训练框架下,将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段,通过Lyapunov优化理论和深度强化学习的计算,提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配机制,由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段,导致不能解决在线联邦学习中数据非独立同分布的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种在线联邦学习任务分配方法,其包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;
(2)采用强化学习模型根据步骤(1)获得的边缘节点的数据集状态选择进行任务训练的边缘节点;
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述强化学习模型采用马尔科夫决策。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成,其中损失值为每个节点的估计网络参数的梯度损失的加权和。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。
优选地,所述在线联邦学习任务分配方法,其步骤(2)所述无模型增强学习算法为深度Q网络,并采用贝尔曼方程估计Q函数估计的更新差值。
优选地,所述在线联邦学习任务分配方法,其步骤(3)所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化。
按照本发明的另一个方面,提供了一种在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
按照本发明的另一个方面,提供了一种面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照本发明提供的的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
按照本发明的另一个方面,提供了一种面向非独立同分布数据的在线联邦学习系统,其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明将联邦学习中的面向非独立同分布的任务分配问题设计为基于Lyapunov优化理论和深度强化学习的优化问题,该优化问题分成了两部分。第一部分,针对边缘节点数据的未来信息无法预测问题,基于Lyapunov优化理论仅依靠当前信息来制定独立的在线控制策略。第二阶段,针对边缘节点数据分布不遵循独立同分布原则问题,基于深度强化学习制定在线任务分配策略。
本发明提出了对于数据非独立同分布的有效的算法,将Lyapunov优化与深度强化学习(DRL)相结合,为动态原始数据的变化设计最优控制策略,以探索数据非独立同分布对训练收敛的影响,通过DRL学习过程选择最优的节点集合,降低非独立同分布对收敛速率产生的影响。
从理论方面严格证明了策略可行性,并且,基于MNIST和FashionMNIST两个数据集,将本文提出的策略与Fedavg对比,从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。本文发现该算法与MNIST数据集上的Fedavg相比可提高35%,与FashionMNIST数据集上的Fedavg相比可提高23%。
附图说明
图1是本发明提供的在线联邦学习任务分配方法训练示意图。
图2是本发明实施例应用本发明提供的在线联邦学习训练方法的边缘计算系统结构示意图。
图3是在MNIST数据集中考察非独立同分布程度对收敛速度的影响;其中图3(a)为γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签;图3(b)为γ=0.8表示80%的数据属于一个标签,其余20%是随机的。图3(c)为γ=1表示每个边缘节点中的所有数据都属于同一标签。
图4是FashionMNIST数据集中考察非独立同分布程度对收敛速度的影响;其中图4(a)为γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签;图4(b)为γ=0.8表示80%的数据属于一个标签,其余20%是随机的。图4(c)为γ=1表示每个边缘节点中的所有数据都属于同一标签。
图5是不同轮次大小对准确率的影响关系图;考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响,并在不同的偏差程度下探索对数据收敛产生影响。
图7是不同节点数量对收敛回合的影响。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
目前存在许多研究提供了诸如Stackelberg博弈、机器学习等方法,以加速联邦学习收敛回合和提高训练效果。然而,目前存在两个阻止这些研究扩展到处理联邦学习中的非独立同分布(非独立同分布)的数据的在线任务分配问题的主要原因:(i)在每个阶段,边缘节点的数据集是在线的,每个阶段都有新感知的数据,也有消耗的数据;(ii)每个边缘节点的数据分布是不遵循独立同分布原则的,边缘节点按照自己的偏好来选择数据进行感知。总之,边缘节点和服务器这些关系之间是在线的,不完全信息的。非独立同分布数据的在线任务分配问题在联邦学习应用程序中是非常常见的,然而,这个问题比较复杂以至于还没有很好地解决方案。目前主要都集中于解决独立同分布或者线下的特殊情况。
以下为实施例:
本发明提供的在线联邦学习任务分配方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;具体为:
(2)采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;所述强化学习模型采用马尔科夫决策,具体为:
将步骤(1)中的边缘节点集合的状态,作为马尔科夫决策过程的状态,即,采用马尔科夫决策过程决定最优动作策略;其中为动作空间,即当前时间片内对边缘节点集合采用的动作策略的所有可能值,所述动作策略为对边缘节点集合中每一边缘节点选择或放弃采用该边缘节点执行所述任务训练;为惩罚函数,,即,为时间片执行动作后的单次惩罚;其中是折扣因子,用来控制学习系统对于长期还是短期学习过程的决策行为。当时,表示学习系统只考虑当前的行为结果;当时,表示学习系统考虑未来长期的最优动作策略。
采用的状态转移方程为:
优选方案,分别对Lyapunov漂移和损失值采用深度Q网络的Q函数进行估计,具体地,采用贝尔曼方程估计Lyapunov漂移和损失值的Q函数估计的更新差值,以迭代更新Lyapunov漂移和损失值的Q函数估计值,如下:
其中,为在状态下采取行动的Lyapunov漂移采用参数为的相应Q函数的参数进行估计,得到的Lyapunov漂移的Q函数值的估计;为在状态下采取行动的损失值采用参数为的相应Q函数的参数进行估计,得到的损失值的Q函数值的估计。为,为损失值的Q函数的参数。
因为状态空间中的状态数量实在太过庞大以至于无法量化的建立一个动作价值函数来准确的反应每一个状态和动作,需要用深度强化学习来生成一个估计器来更新动作效益函数即Q值函数的参数。Lyapunov漂移的Q函数的参数和损失值的Q函数的参数,按照以下方法更新:
观察多组当前状态和采取行动后的更新后状态,并观测获取时间片到之间的长期奖励和损失值,作为训练样本,采用梯度下降法训练用于估计Lyapunov漂移和损失值Q值的深度强化学习模型,分别获得Lyapunov漂移的Q函数的参数和损失值的Q函数的参数;其中时间片到之间的Lyapunov漂移和损失值,表示为:
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;具体为:
对于进行任务训练的边缘节点,基于Lyapunov优化,确定单位时间片内准入数据量和消耗数据量,从而最优准入控制策略、任务分配策略、队列更新策略;所述最优准入控制策略,即边缘节点集合中每个节点的数据进入量的集合;所述任务分配策略,即边缘节点集合中每个节点的数据输出量的集合;所述队列更新策略,即按照最后准入控制策略和任务分配策略收集数据及消耗数据实现的每个节点的数据队列更新。
Lyapunov优化,即使得单位时间片内Lyapunov漂移界限和损失函数同时最小化。对于当前时间片的数据集初始状态,确定单位时间片内Lyapunov漂移界限和损失函数最小化时,二者与边缘节点数据集状态的关系如下:
获得每个边缘节点中允许进入到队列中的数据量,即:
获得每个边缘节点中训练消耗的数据量,即:
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态;具体为
本发明提供的在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
本发明提供的面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照本发明提供的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
本发明提供的面向非独立同分布数据的在线联邦学习系统,其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。
以下为实施例效果测试:
本实施例采用仿真实验,具体如下:
本发明针对非独立同分布数据对联邦学习的收敛精度问题,提出了一种基于深度强化学习的任务分配策略LDRL-Fed,以提高面向非独立同分布数据的收敛速率精度。通过PyTorch来实现提出的LDRL-Fed,并使用运行实际PyTorch模型的大量设备对其进行验证。本实施例假设K,γ用来表示数据集的非独立同分布程度。模型和数据集的设置如下:
本文介绍了两个 CNN 模型广泛使用的数据集:
l MNIST。本文将训练集设置为具有两个5×5卷积层的 CNN 模型,第一层有20个输出通道,第二层有50个输出通道。对于每个边缘节点,每个轮次都是5。
l FashionMNIST。本文训练具有两个5×5卷积层的CNN模型。第一层具有16个输出通道,第二层具有32个输出通道。对于每个边缘节点,每个轮次都是5。
基准对比试验:本文使用独立同分布数据分布作为基准对比实验,并使用FedAvg作为比较组来评估LDRL-Fed。实验结果如图3所示,表明,与Fedavg算法相比,LDRL-Fed可以将MNIST上的通信回合减少多达35%,将FashionMNIST减少多达23%。
非独立同分布数据测试:针对于非独立同分布数据分布的不同程度,图4描绘了非独立同分布数据分布的不同程度对通信回合产生的影响。γ=0.5表示数据集中50%的数据是随机分布的,其余的属于一个标签。γ=0.8表示80%的数据属于一个标签,其余20%是随机的。表示每个边缘节点中的所有数据都属于同一标签。本实施例完成了图3中的MNIST和图4中的FMNIST如结果所示,不同程度的非独立同分布将对通信回合产生一定的影响。非独立同分布程度越高,通信周期越长,收敛速度越慢。LDRL-Fed可有效减少通信回合的次数。
针对于轮次和批次大小,图3显示了不同轮次和批次大小对准确率的影响。本文考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响。分别考虑从1到5的时间,如图5所示,本文可以看到,当数据分布差异较小时,例如,偏差γ=0和γ=0.5,增加时间不能提高精度的收敛速度,但在100发回合内,增加时间甚至会导致准确性下降。当数据分布完全不同时,γ=0.8。轮次的增加仍然对数据收敛产生影响,其中数据准确率随轮次的增加而增加。然后,本文在图6中验证了批次大小对准确性的影响,发现批次越大,效果越差,因为批次大小设置越大,将消耗数据集中可用数据的速度越快。新到达的数据量不足以支持每轮太多的批量。因此,适当的批次大小是最合适的。
针对于节点数量,图6不同节点数量对收敛回合的影响。在本小节中,本文探讨了节点数与精度收敛回合之间的关系。可选任务的最大数量K设置为10、20、30、40、50。图7显示,增加每轮完成任务的节点数量不会减少通信次数,甚至会增加通信次数。
在本发明中,我们提出基于Lyapunov优化理论和深度强化学习的理论框架,以减少通信回合,来实现良好的收敛效果。首先,边缘计算中的在线联邦学习问题被建模为基于Lyapunov优化理论的动态的队列模型组成的在线联邦学习问题。其次,针对于非独立同分布问题,将Lyapunov优化理论与DRL相结合,为动态原始数据的变化设计最优控制策略,以探索数据非独立同分布对训练收敛的影响,通过DRL学习过程选择最优的节点集合,降低非独立同分布对收敛速率产生的影响。最后,基于MNIST和FashionMNIST两个数据集,将本文提出的策略与FedAvg对比,从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。最重要的是,我们的方法实现了良好的性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种在线联邦学习任务分配方法,其特征在于,包括以下步骤:
(1)发布训练任务,并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态;
(2)采用强化学习模型根据步骤(1)获得的边缘节点的数据集状态选择进行任务训练的边缘节点;
(3)对于步骤(2)中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量;
(4)各边缘节点根据步骤(3)确定的消耗数据量进行所述训练任务的训练,根据步骤(3)确定的准入数据量感知数据,完成数据队列更新并确定该边缘节点下一时间片的数据集状态。
2.如权利要求1所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述强化学习模型采用马尔科夫决策。
3.如权利要求2所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成,其中损失值为边缘节点的估计网络参数的梯度损失的加权和。
4.如权利要求3所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。
5.如权利要求4所述的在线联邦学习任务分配方法,其特征在于,步骤(2)所述无模型增强学习算法为深度Q网络,并采用贝尔曼方程估计Q函数估计的更新差值。
6.如权利要求3所述的在线联邦学习任务分配方法,其特征在于,步骤(3)所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化。
7.一种在线联邦学习任务分配装置,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其特征在于,包括边缘节点选择模块、以及边缘节点感知控制模块;
所述边缘节点选择模块,用于根据中央服务器发布的训练任务,获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态,并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点;
所述边缘节点感知控制模块,用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量,控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。
8.一种面向非独立同分布数据的在线联邦学习训练方法,应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统,其特征在于,包括以下步骤:
所述中央服务器向所有边缘节点发布任务;
按照如权利要求1至7任意一项所述的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务;
所述进行任务训练的边缘节点执行训练任务并更新数据集状态后,将训练结果提交到中央服务器;
所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,并判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务。
9.一种面向非独立同分布数据的在线联邦学习系统,其特征在于,包括中央服务器、多个边缘节点、以及如权利要求7所述的在线联邦学习任务分配装置;
所述中央服务器,用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果,判断所述训练结果是否达到训练要求,如达到要求,则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练,否则重新发布任务;
所述边缘节点,用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111482767.9A CN113887748B (zh) | 2021-12-07 | 2021-12-07 | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111482767.9A CN113887748B (zh) | 2021-12-07 | 2021-12-07 | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887748A true CN113887748A (zh) | 2022-01-04 |
CN113887748B CN113887748B (zh) | 2022-03-01 |
Family
ID=79015829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111482767.9A Active CN113887748B (zh) | 2021-12-07 | 2021-12-07 | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887748B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357402A (zh) * | 2022-10-20 | 2022-11-18 | 北京理工大学 | 一种边缘智能优化方法和装置 |
CN115694877A (zh) * | 2022-08-30 | 2023-02-03 | 电子科技大学长三角研究院(衢州) | 一种基于联邦偏好学习的空间众包任务分配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
CN111866954A (zh) * | 2020-07-21 | 2020-10-30 | 重庆邮电大学 | 一种基于联邦学习的用户选择和资源分配方法 |
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
EP3828783A1 (en) * | 2019-11-28 | 2021-06-02 | Secondmind Limited | Parallelised training of machine learning models |
-
2021
- 2021-12-07 CN CN202111482767.9A patent/CN113887748B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3828783A1 (en) * | 2019-11-28 | 2021-06-02 | Secondmind Limited | Parallelised training of machine learning models |
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
CN111866954A (zh) * | 2020-07-21 | 2020-10-30 | 重庆邮电大学 | 一种基于联邦学习的用户选择和资源分配方法 |
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
Non-Patent Citations (1)
Title |
---|
潘如晟等: "联邦学习可视化:挑战与框架", 《计算机辅助设计与图形学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115694877A (zh) * | 2022-08-30 | 2023-02-03 | 电子科技大学长三角研究院(衢州) | 一种基于联邦偏好学习的空间众包任务分配方法 |
CN115694877B (zh) * | 2022-08-30 | 2023-08-15 | 电子科技大学长三角研究院(衢州) | 一种基于联邦偏好学习的空间众包任务分配方法 |
CN115357402A (zh) * | 2022-10-20 | 2022-11-18 | 北京理工大学 | 一种边缘智能优化方法和装置 |
CN115357402B (zh) * | 2022-10-20 | 2023-01-24 | 北京理工大学 | 一种边缘智能优化方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113887748B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Dynamic spectrum interaction of UAV flight formation communication with priority: A deep reinforcement learning approach | |
CN113064879B (zh) | 数据库参数调整方法、装置及计算机可读存储介质 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
CN108021451A (zh) | 一种雾计算环境下的自适应容器迁移方法 | |
Zhao et al. | Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC | |
CN113608855B (zh) | 一种边缘计算中服务功能链放置的强化学习方法 | |
Wang et al. | Deepaalo: Auto-adjusting demotion thresholds for information-agnostic coflow scheduling | |
Tao et al. | Drl-driven digital twin function virtualization for adaptive service response in 6g networks | |
CN111767991B (zh) | 一种基于深度q学习的测控资源调度方法 | |
Wang et al. | A study of situation awareness-based resource management scheme in cloud environment | |
CN115640852B (zh) | 联邦学习参与节点选择优化方法、联邦学习方法及系统 | |
Wong et al. | State-space decomposition for reinforcement learning | |
CN115865914A (zh) | 车辆边缘计算中基于联邦深度强化学习的任务卸载方法 | |
CN116501483A (zh) | 基于多智能体强化学习的车辆边缘计算任务调度方法 | |
CN113516163B (zh) | 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质 | |
CN113641496A (zh) | 基于深度强化学习的dids任务调度优化方法 | |
Xue et al. | An improved extreme learning machine based on variable-length particle swarm optimization | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
Zhang et al. | Optimizing federated edge learning on Non-IID data via neural architecture search | |
CN112306641B (zh) | 一种用于虚拟机迁移模型的训练方法 | |
Omland | Deep Reinforcement Learning for Computation Offloading in Mobile Edge Computing | |
Qian et al. | A Reinforcement Learning-based Orchestrator for Edge Computing Resource Allocation in Mobile Augmented Reality Systems | |
Chen et al. | Structure-enhanced deep reinforcement learning for optimal transmission scheduling | |
CN117350607B (zh) | 改进型knn算法模型的国际物流运输路径规划系统 | |
Zhou et al. | Adaptive Data Transmission and Computing for Vehicles in the Internet-of-Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |