CN114022731A - 基于drl的联邦学习节点选择方法 - Google Patents
基于drl的联邦学习节点选择方法 Download PDFInfo
- Publication number
- CN114022731A CN114022731A CN202111293775.9A CN202111293775A CN114022731A CN 114022731 A CN114022731 A CN 114022731A CN 202111293775 A CN202111293775 A CN 202111293775A CN 114022731 A CN114022731 A CN 114022731A
- Authority
- CN
- China
- Prior art keywords
- node
- learning
- time slot
- time
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于DRL的联邦学习节点选择方法;包括:根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;根据联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;对联邦学习成本最小目标函数进行求解,实现对n个节点的选取;通过该方法能够有效降低联邦学习系统的训练时间,提高聚合模型的精确度。
Description
技术领域
本发明属于计算机应用技术领域,特别是基于DRL的联邦学习节点选择方法。
背景技术
与传统的以云为中心的机器学习训练方法相比,以联邦学习架构在移动边缘网络进行的模型训练具有四大优点:高效利用网络资源、隐私安全、低延迟、可扩展性高。然而,在大规模复杂的移动边缘网络中,涉及具有不同约束的异构设备。这给大规模实施机器学习带来了通信成本、资源分配以及隐私和安全方面的挑战。首先,即使不再需要向云服务器发送原始数据,但由于参与训练的模型具有高维属性以及通信资源有限,如何降低通信时延,提高通信质量仍然值得关注。其次,部分节点的本地学习时间长、宽带小,且多轮训练之后损失函数会偏离合理范围,如何将这些节点排除,灵活调度使用分布式的计算资源是亟待解决的问题。由此可知,如何进行联邦学习的参与节点的合理选择是解决上述问题的关键。
专利公布号为CN112668128A的《联邦学习系统中终端设备节点的选择方法及装置》中,从训练准确度和终端设备能耗两个方面衡量联邦学习系统的质量,未考虑终端设备的资源及训练过程的设备能耗等因素,导致联邦学习效率和准确性较差。专利公布号为CN113206887A的《边缘计算下针对数据与设备异构性加速联邦学习的方法》中,通过选择拥有非独立同分布程度较低的数据集的终端设备参与训练,提升模型的准确性,但是降低了非独立同分布的数据影响,适用面比较窄,当满足专利要求的数据相对较少时,很可能出现训练精度急剧下降的情况。专利公布号为CN113128706A的《一种基于标签量信息的联邦学习节点选择方法及系统》中,当控制模型训练的单轮最大耗时,能保证一定的联邦学习的通信效率,但是没有采用深度强化学习等智能技术,每一轮次需要重新全局计算,不能很好的适应动态变化的边缘网络。
因此,如何基于边缘网络中使用联邦学习架构进行机器学习的场景,提出一种参与节点的智能选择方案,从而降低联邦学习系统的训练时间,提高聚合模型的精确度,成为当前研究的关键问题。
发明内容
鉴于上述问题,本发明提供一种至少解决上述部分技术问题的基于深度强化学习(Deep Reinforcement Learning,DRL)的联邦学习节点选择方法,通过该方法能够有效降低联邦学习系统的训练时间,提高聚合模型的精确度。
本发明实施例提供了基于DRL的联邦学习节点选择方法,包括:
S1、根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;
S2、根据所述联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;
S3、对所述联邦学习成本最小目标函数进行求解,实现对所述n个节点的选取。
进一步地,所述联邦学习时间成本模型,包括训练时间成本模型和通信时间成本模型;表示为:
其中,表示时隙t下节点i的本地学习时间;τi表示节点i的可用计算资源,单位为GFLOPS/KB;di表示节点i承担的计算任务,单位为KB;表示时隙t下节点i的通信时间;表示服务器m覆盖的第i个本地节点的带宽,单位为Mbps;表示训练时隙i之后节点i需要上传服务器的数据大小,单位为KB;表示联邦学习时间成本模型,即时隙t下n个节点耗费时间的平均值。
进一步地,步骤S1中,所述节点精度损失成本模型,表示为:
进一步地,步骤S2中,所述联邦学习成本最小目标函数,表示为:
进一步地,所述S3具体包括:
S31、使用马尔科夫决策过程将所述联邦学习成本最小目标函数转换为奖励函数最大目标函数;
S32、通过DDPG算法对所述奖励函数最大目标函数进行求解。
进一步地,步骤S31中,所述奖励函数最大目标函数,表示为:
其中,公式(12)表示累计奖励;γ∈(0,1]表示奖励折扣因子;T表示总时隙。
与现有技术人相比,本发明记载的基于DRL的联邦学习节点选择方法,具有如下有益效果:
1.根据联邦学习架构在移动边缘网络中应用所遇到的问题,建立成本模型,设计训练时间和聚合模型精度两个指标衡量联邦学习系统的训练质量,以便于从参与训练的节点中选出合适的节点,从而有效降低联邦学习系统的训练时间,提高聚合模型的精确度。
2.建立一个DDPG的马尔科夫决策过程形式化描述节点选择过程,将上述指标的组合优化问题转化为奖励函数的最大化问题;大大提高了计算效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于DRL的联邦学习节点选择方法流程图。
图2为本发明实施例提供的联邦学习过程框架图。
图3为本发明实施例提供的DDPG算法框架图。
图4为本发明实施例提供的算法对训练时间的影响结果图。
图5为本发明实施例提供的算法对训练精度的影响结果图。
图6为本发明实施例提供的算法对全局损失的影响结果图。
图7为本发明实施例提供的算法对服务器宽带占用的影响结果图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1所示,本发明实施例提供了基于DRL的联邦学习节点选择方法,具体包括如下步骤:
S1、根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;
S2、根据联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;
S3、对联邦学习成本最小目标函数进行求解,实现对n个节点的选取。
下面分别对上述各个步骤进行详细的说明。
在上述步骤S1中,首先构建一个边缘网络场景,该场景中包括多个服务器,每个服务器覆盖有n个本地节点;之后在该场景下分析联邦学习过程,参见图2所示,发现联邦学习过程具体包括:
步骤一、服务器所覆盖的n个本地节点分别从服务器中下载最新状态联邦学习模型;
步骤二、每个本地节点均利用本地数据对最新状态联邦学习模型进行训练,并将训练后的最新状态联邦学习模型通过加密梯度上传至服务器;
步骤三、服务器对接收到的n个训练后的最新状态联邦学习模型进行聚合更新,形成新一轮最新状态联邦学习模型;
步骤四、循环执行步骤步骤一至步骤步骤三;
根据上述联邦学习模型,构建联邦学习时间成本模型和节点精度损失成本模型;其中,联邦学习时间成本模型包括训练时间成本模型和通信时间成本模型;
根据上述步骤二中每个本地节点均利用本地数据对最新状态联邦学习模型进行训练,构建训练时间成本模型,表示为:
其中,表示时隙t下节点i的本地学习时间;τi表示节点i的可用计算资源,单位为GFLOPS/KB;di表示节点i承担的计算任务,以输入数据的大小来衡量,单位为KB;例如对于DNN模型,以VGGNET-16为示例,单个任务(图片)的输入大小通常为147kB,所需的计算量为约16GFLOPS。所以上式的学习时间单位是GFLOPS。
根据上述步骤二中将训练后的最新状态联邦学习模型通过加密梯度上传至服务器,构建通信时间成本模型,表示为:
在上述步骤S2中,
联邦学习成本最小目标函数,表示为:
其中,Ct(λt)表示时隙t下联邦学习的总成本;表示时隙t下节点i的选择状态;表示时隙t下节点i被选中参与联邦学习;表示时隙t下节点i未被选中;该联邦学习成本最小目标函数表示通过优化参与联邦学习的节点选择方案使得系统的总成本Ct(λt)最低;
对联邦学习成本最小目标函数构建约束条件:
公式(7)表示每轮训练结束之后,节点与服务器通信不能超过服务器的负载能力;公式(8)表示参与联邦学习的节点与服务器的距离应保持在一定范围内,其中r0表示该范围的上限。
在上述步骤S3中,具体包括:
S31、使用马尔科夫决策过程将联邦学习成本最小目标函数转换为奖励函数最大目标函数;
s(t)={β(t)、τ(t)、p(t)、λ(t-1)} (9)
策略P:策略P是一个从状态空间S到动作空间A的映射P:S→A。所以时隙t要采取的动作可用λt=P(st)计算出来。在DDPG算法中,这一部分工作由神经网络完成。输入是系统状态,输出就是将要采用的动作。
奖励函数R:系统通过奖励函数来评估动作的效果。定义如下:
其中,公式(12)表示累计奖励;γ∈(0,1]表示奖励折扣因子;T表示总时隙。
节点选择的目标是最大限度地减少联合学习的总成本。对于DRL模型,目标是找到最多最大累计奖励(最小化总累积成本)的λ:
S32、通过DDPG算法对奖励函数最大目标函数进行求解。
本发明采用DDPG对边缘服务器进行训练,以使服务器智能选择参与联邦学习的节点,达到训练时延短,训练模型精度高的目标;参见图3所示,DDPG由三个主要模块组成:主要网络(primary network),目标网络(target network),重放内存(replay memory);主要网络和目标网络的结构一致:θμ和θQ分别是actor DNN和critic DNN的参数;重放内存用来存储培训网络的经验转换信息。转换信息包含当前状态st,状态下采取的动作λt,下一个状态st+1和相应的奖励R(st,λt)。DDPG通过使用目标网络提供客观值并从重放内存中随机获取经验来提高培训稳定性。
图3中编号1-9的含义如下:
1:actor DNN根据策略从动作空间A选择一个动作λt=μ(st|θμ),交给仿真环境执行该动作;
2:仿真环境执行该动作之后,状态从st变成st+1,并返回奖励R(st,λt)和新状态;
3:actor DNN将转换信息(st,λt,st+1,R(st,λt)存储在重放内存中;
4:从重放内存中随机取样mini-batch的数据参与两个目标网络的训练;
5:计算主要网络参数θQ的梯度;
6:根据式(17)更新critic DNN中的参数θQ;
7:根据式(18)计算主要网络参数θμ的梯度;
8:根据式(19)更新actor DNN中的参数θμ;
9:使用主要网络参数θμ、θQ软更新目标网络参数θμ′、θQ′
回到编号1继续循环。
critic DNN的训练:
上述编号5和6中,criticDNN对所选动作进行评估,并将评估值与从目标网络获得的客观值进行比较,损失函数定义为这两者差值的平方均值,然后以最小化损失函数为目的来训练自己的参数θQ。
所选动作的评估值由下列的动作值函数得到:
Q(st,λt|θQ)=E[R(st,λt)+γQ(st+1,μ(st+1|θQ))] (14)
从目标网络由以下公式得到y:
y=R(st,λt)+γQ′(st+1,μ′(st+1|θμ′|θQ′) (15)
critic DNN以最小化损失函数为目的更新网络参数,损失函数LQ(θQ)定义如下:
LQ(θQ)=E[(y-Q(st,λt|θQ))] (16)
其中Q(·)为公式(14)中的动作的评估值,y为公式(15)得到的值,
通过随机梯度下降来训练θQ。θQ由以下式子进行更新:
其中α是critic DNN的学习率,k为经过的时隙个数。
actor DNN的训练:
上述编号7和8中,actor DNN的目标就是得到最佳的节点选择动作。输入是当前状态st,输出的要采取的动作λt。动作λt通过映射λ=μ(st|θμ)由当前的状态st得到。actor DNN的参数θμ代表了探索的策略。利用随机梯度下降来训练参数θμ,完整的梯度定义如下:
每个训练轮次中,还需要随机从重放内存中随机抽取经验来更新参数θμ。
其中αμ是actor DNN的训练率,θ′μ是抽取的经验参数。
完整的DDPG节点选择算法伪代码如下:
输入:随机初始化主要网络中,actorDNN的参数θμ和critic DNN的参数θQ;设置目标网络的两个参数θμT=θμ、θQT=θQ;初始化重放内存;初始化α、γ、λ0=[1……1]
本发明实施例提供了基于DRL的联邦学习节点选择方法,通过排除本地学习时间长、带宽小的节点,提高联邦学习模型聚合速度;以及排除多轮训练之后损失函数偏离合理范围的节点,大大提升聚合模型的质量;最终结果参见图4-图7。
图7中的左图是联邦学习有“坏节点”参与的情况,即多轮训练后损失函数偏离合理范围的情况。仿真情况下,各节点带宽设置为2-4Mbps,总带宽在20-40Mbps之间。可以看到左图中,在进行节点选择之前,服务器总带宽为24Mbps,符合参数设置范围。但是,在3/5个“坏节点”参与联邦学习并经过节点选择之后,总带宽迅速下降为15Mbps/9Mbps,而各节点平均带宽波动不大。这是因为算法直接抛弃了“坏节点”,所以参与联邦学习的节点分别减少到了7/5个,占用服务器的总带宽也就相应减少。但是节点选择过程对于那些正常节点没有影响,所以参与联邦学习的节点平均带宽没有发生太大变化。
右图是联邦学习有“慢节点”参与的情况,即本地学习时间长、宽带小的情况。与“坏节点”参与联邦学习的情况不同的是,可以看到在进行节点选择前后,节点总的带宽的减少几乎可以忽略不计,始终在17.5Mbps附近;而平均带宽则稳步提高,每个节点分配的带宽资源从1.7Mbps上升到了3.3Mbps。同样是因为算法直接抛弃了“慢节点”,所以参与联邦学习的节点分别减少到了7/5个,总带宽也就相应减少。但是根据仿真参数设置,“慢节点”的带宽仅为0.1Mbps,所以即使不再让“慢节点”参与联邦学习,总带宽资源也只减少了0.3/0.5Mbps,但可以有效提高平均带宽。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.基于DRL的联邦学习节点选择方法,其特征在于,包括:
S1、根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;
S2、根据所述联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;
S3、对所述联邦学习成本最小目标函数进行求解,实现对所述n个节点的选取。
5.如权利要求1所述的基于DRL的联邦学习节点选择方法,其特征在于,所述S3具体包括:
S31、使用马尔科夫决策过程将所述联邦学习成本最小目标函数转换为奖励函数最大目标函数;
S32、通过DDPG算法对所述奖励函数最大目标函数进行求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293775.9A CN114022731A (zh) | 2021-11-03 | 2021-11-03 | 基于drl的联邦学习节点选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293775.9A CN114022731A (zh) | 2021-11-03 | 2021-11-03 | 基于drl的联邦学习节点选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022731A true CN114022731A (zh) | 2022-02-08 |
Family
ID=80060098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111293775.9A Pending CN114022731A (zh) | 2021-11-03 | 2021-11-03 | 基于drl的联邦学习节点选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022731A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640852A (zh) * | 2022-09-09 | 2023-01-24 | 湖南工商大学 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
WO2024108601A3 (zh) * | 2022-11-25 | 2024-07-25 | 北京小米移动软件有限公司 | 终端选择方法、模型训练方法、装置及系统 |
-
2021
- 2021-11-03 CN CN202111293775.9A patent/CN114022731A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640852A (zh) * | 2022-09-09 | 2023-01-24 | 湖南工商大学 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
WO2024108601A3 (zh) * | 2022-11-25 | 2024-07-25 | 北京小米移动软件有限公司 | 终端选择方法、模型训练方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220114475A1 (en) | Methods and systems for decentralized federated learning | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN113467952B (zh) | 一种分布式联邦学习协同计算方法及系统 | |
CN113098714B (zh) | 基于强化学习的低时延网络切片方法 | |
CN108873936B (zh) | 一种基于势博弈的飞行器自主编队方法 | |
CN114022731A (zh) | 基于drl的联邦学习节点选择方法 | |
CN116541106B (zh) | 计算任务卸载方法、计算设备及存储介质 | |
CN114598667B (zh) | 一种基于联邦学习的设备选择与资源分配方法 | |
Xu et al. | Decentralized machine learning through experience-driven method in edge networks | |
CN113312177B (zh) | 一种基于联邦学习的无线边缘计算系统、优化方法 | |
CN117376355B (zh) | 基于超图的b5g海量物联网资源分配方法及系统 | |
CN116187483A (zh) | 模型训练方法、装置、设备、介质和程序产品 | |
Liu et al. | Fine-grained offloading for multi-access edge computing with actor-critic federated learning | |
Zhang et al. | Multi-agent deep reinforcement learning for online request scheduling in edge cooperation networks | |
CN117707795B (zh) | 基于图的模型划分的边端协同推理方法及系统 | |
Yan et al. | A task offloading algorithm with cloud edge jointly load balance optimization based on deep reinforcement learning for unmanned surface vehicles | |
Liu et al. | Multi-agent federated reinforcement learning strategy for mobile virtual reality delivery networks | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN113094180B (zh) | 无线联邦学习调度优化方法及装置 | |
Chen et al. | Enhanced hybrid hierarchical federated edge learning over heterogeneous networks | |
Ren et al. | Learning automata-based data aggregation tree construction framework for cyber-physical systems | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN116843016A (zh) | 一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质 | |
Wang et al. | Deep reinforcement learning based resource allocation for cloud native wireless network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |