CN114980127A - 雾无线接入网中基于联邦强化学习的计算卸载方法 - Google Patents

雾无线接入网中基于联邦强化学习的计算卸载方法 Download PDF

Info

Publication number
CN114980127A
CN114980127A CN202210551356.9A CN202210551356A CN114980127A CN 114980127 A CN114980127 A CN 114980127A CN 202210551356 A CN202210551356 A CN 202210551356A CN 114980127 A CN114980127 A CN 114980127A
Authority
CN
China
Prior art keywords
user
fog node
task
fog
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210551356.9A
Other languages
English (en)
Other versions
CN114980127B (zh
Inventor
张玲玲
张敏
陶云蔚
陈颖琦
鹿奕
蒋雁翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210551356.9A priority Critical patent/CN114980127B/zh
Publication of CN114980127A publication Critical patent/CN114980127A/zh
Application granted granted Critical
Publication of CN114980127B publication Critical patent/CN114980127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种雾无线接入网中基于联邦强化学习的计算卸载方法,包括:1、初始化云中心的模型权重参数并分发给各雾节点,初始化模型训练周期和训练步数;2、每个雾节点接收用户的卸载请求,作出卸载决策与资源分配动作;3、各雾节点下的用户执行卸载决策,计算相应的时延与能耗,得到奖励与下一状态并存储在回放缓存中;4、雾节点从回放缓存中随机采样,更新网络模型参数;5、一个训练周期结束后,对各个雾节点的模型权重参数进行联合更新,进入下一个周期。本发明降低用户任务执行的时延与能耗,降低计算复杂度与系统开销,更好地保护用户数据隐私。

Description

雾无线接入网中基于联邦强化学习的计算卸载方法
技术领域
本发明属于移动通信系统中边缘网络的计算卸载领域,尤其涉及雾无线接入网中基于联邦强化学习的计算卸载方法。
背景技术
随着大量的智能设备接入无线网络,无线数据流量呈爆炸式增长,这给传统的云无线接入网带来了很大的挑战。雾无线接入网应运而生,它把计算、存储、网络等资源下放到更接近用户端的雾节点。为了应对用户设备的计算能力和可用能量限制,用户可以将计算任务卸载到邻近的雾节点,以此支持移动设备上的计算密集型、延迟敏感型应用。然而,雾节点的计算、通信等资源有限,可能无法同时为所有用户设备提供服务。在此情况下,需要合理设计计算卸载策略以提高用户的服务质量。
现有的计算卸载方法主要分为两类,一类是传统的基于优化的方法,一类是基于机器学习的方法。传统方法几乎都以假设能够获得完整的系统模型和各个状态的状态转移概率为前提,这样的假设在现实场景中过于理想。此外,一旦网络状态等环境信息发生变化,此类求解过程需要重复进行,计算复杂度较高且灵活性差。为了应对复杂且动态变化的环境,机器学习尤其是强化学习被越来越多地应用。然而,大多数强化学习都基于离散的动作空间,不适于处理计算卸载中的资源分配连续动作。此外,这些强化学习大多以集中式的方法进行训练。该模式下云中心需消耗大量计算、存储资源来管理大规模的模型,其与用户之间的通信也会加重网络负担。另外,用户为了保护安全与隐私,可能并不愿意上传自己的数据到云端。
发明内容
本发明目的在于提供一种雾无线接入网中基于联邦强化学习的计算卸载方法,以解决用户任务执行时延与能耗成本高,对动态网络环境的适应性差,资源加性浪费高,用户隐私没有得到良好保护的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种雾无线接入网中基于联邦强化学习的计算卸载方法,包括以下步骤:
步骤1、初始化深度确定性策略梯度的模型参数,包括演员在线网络π(s;θπ)的参数θπ,评论家在线网络Q(s,a;θQ)的参数θQ,演员目标网络π′(s;θπ)的参数θπ′,评论家目标网络Q′(s,a;θQ)的参数θQ′,其中s为状态,a为动作;初始化回放缓存
Figure BDA0003650138000000021
训练周期数T,每个周期的训练步数l;
步骤2、在第t个时隙,各个雾节点接收覆盖范围内所有用户的任务卸载请求,构建任务卸载状态st,并根据状态st对用户的任务卸载请求作出卸载决策与资源分配动作at={x(t),y(t),z(t)},其中x(t)表示所有用户的任务卸载决策,y(t)表示所有用户的计算资源分配,z(t)表示所有用户的通信资源分配;
步骤3、用户根据雾节点的决策执行动作at,并分别计算执行动作的时延与能耗,得到奖励rt与下一状态st+1,并将此转换过程的信号(st,at,rt,st+1)存储在回放缓存
Figure BDA0003650138000000022
中;
步骤4、从回放缓存
Figure BDA0003650138000000023
中随机选取样本进行网络参数更新,并转入下一个时隙;
步骤5、一个训练周期结束后,对各个雾节点的模型权重参数进行联合更新,进入下一个周期。
进一步的,步骤2具体包括以下步骤:
步骤2.1、在第t个时隙,雾节点n接收覆盖范围内用户m的任务卸载请求,构建当前任务卸载状态:
Figure BDA0003650138000000024
其中,
Figure BDA0003650138000000025
是所有用户任务的大小的集合,
Figure BDA0003650138000000026
表示雾节点n下用户m的计算任务大小,
Figure BDA0003650138000000027
是所有用户任务所需的计算资源量,
Figure BDA0003650138000000028
为雾节点n下用户m的计算任务所需的计算资源,
Figure BDA0003650138000000029
是雾节点n的地理位置,
Figure BDA00036501380000000210
是所有用户的地理位置,
Figure BDA00036501380000000211
是所有用户与雾节点n的信道增益,
Figure BDA00036501380000000212
是用户m与雾节点n之间的信道增益,计算方式如下:
Figure BDA00036501380000000213
其中,dm,n(t)是用户m与雾节点n之间的距离,α是路损指数;
步骤2.2、雾节点n的演员在线网络根据当前任务卸载状态与策略选择一个动作,并添加随机高斯噪声得到该时隙的卸载决策与资源分配动作:
Figure BDA0003650138000000031
其中,
Figure BDA0003650138000000032
为高斯噪声;
步骤2.3、雾节点n服务的用户根据卸载决策与资源分配动作at={x(t),y(t),z(t)}选择任务执行方式,其中
Figure BDA0003650138000000033
为雾节点n所有用户的任务卸载决策,
Figure BDA0003650138000000034
为雾节点n下用户m的卸载决策,
Figure BDA0003650138000000035
为雾节点n所有用户的计算资源分配,
Figure BDA0003650138000000036
为雾节点n下用户m的计算资源分配,
Figure BDA0003650138000000037
为雾节点n所有用户的通信资源分配,
Figure BDA0003650138000000038
为雾节点n下用户m的通信资源分配;
步骤2.4、若
Figure BDA0003650138000000039
则用户m的计算任务在本地设备上执行;若
Figure BDA00036501380000000310
则用户m的计算任务利用分配的资源卸载到雾节点n上执行。
进一步的,步骤3具体包括以下步骤:
步骤3.1、若雾节点n下用户m的任务本地执行,则本地计算时延为:
Figure BDA00036501380000000311
相应地,任务执行的用户设备能耗为:
Figure BDA00036501380000000312
其中,
Figure BDA00036501380000000313
为雾节点n下用户m的计算任务所需的计算资源,
Figure BDA00036501380000000314
为用户m的CPU频率,
Figure BDA00036501380000000315
为用户设备m每个CPU的能量消耗系数;
步骤3.2、若雾节点n下用户m的任务卸载到雾节点执行,任务计算时延为:
Figure BDA00036501380000000316
其中,fn为雾节点n的CPU频率,
Figure BDA00036501380000000317
为雾节点n给用户m分配的计算资源比例;
步骤3.3、考虑OFDMA,计算用户m的上行数据率为:
Figure BDA00036501380000000318
其中,
Figure BDA00036501380000000319
为雾节点n下用户m的通信资源分配,Bn为雾节点n提供的总的带宽,
Figure BDA00036501380000000320
是用户m的传输功率,
Figure BDA0003650138000000041
为用户m与雾节点n之间的信道增益,σ2为背景噪声功率;
步骤3.4、基于用户m的上行数据率,用户m将任务卸载到雾节点n的传输时延为:
Figure BDA0003650138000000042
其中,
Figure BDA0003650138000000043
表示用户m的计算任务大小;对应的用户传输能耗为:
Figure BDA0003650138000000044
其中,
Figure BDA0003650138000000045
为用户m将任务卸载到雾节点n的传输时延;由于计算结果与任务数据相比小得多,计算结果从雾节点回传到用户的时延与能耗被忽略,基于此,用户m将任务卸载到雾节点n的执行时延为雾节点计算时延与传输时延之和:
Figure BDA0003650138000000046
其中,
Figure BDA0003650138000000047
为用户m将任务卸载到雾节点n的执行时延,
Figure BDA0003650138000000048
为用户m将任务卸载到雾节点n的计算时延,
Figure BDA0003650138000000049
为用户m将任务卸载到雾节点n的传输时延;
步骤3.5、计算雾节点n下所有用户的任务执行时延为:
Figure BDA00036501380000000410
相应地,所有用户的能耗为:
Figure BDA00036501380000000411
步骤3.6、基于时延与能耗,雾节点n下所有用户的任务执行成本为:
Figure BDA00036501380000000412
其中,ω和
Figure BDA00036501380000000413
为控制时延能耗均衡的权重因子,满足
Figure BDA00036501380000000414
基于用户任务执行的总体成本,计算雾节点n执行动作at获得的奖励为:
rt=-Cn(t);
步骤3.7、雾节点n执行动作at后,获得新的状态st+1,将此转换过程产生的信号(st,at,rt,st+1)存储在回放缓存
Figure BDA00036501380000000415
中。
进一步的,步骤4具体包括以下步骤:
步骤4.1、从回放缓存
Figure BDA0003650138000000051
中随机选取K个样本{(si,ai,ri,si+1),i∈{1,2,…,K}},通过最小化损失函数L更新评论家在线网络,即:
Figure BDA0003650138000000052
其中,yi为目标Q值,计算方式如下:
yi=ri+γQ′(si+1,π′(si+1;θπ′);θQ′),
其中,γ为折扣因子,γ∈[0,1];
步骤4.2、采用随机梯度下降法更新演员在线网络:
Figure BDA0003650138000000053
其中,
Figure BDA0003650138000000054
为函数Q(s,a;θQ)对于动作a的梯度,
Figure BDA0003650138000000055
为策略函数π(s;θπ)对参数θπ的梯度,i∈{1,2,…,K}表示样本序号,si表示第i个样本状态;
步骤4.3、采用软更新的方式分别更新评论家与演员的目标网络参数:
θQ′←τθQ+(1-τ)θQ′
θπ′←τθπ+(1-τ)θπ′
其中,τ为软更新系数。
进一步的,步骤5具体包括以下步骤:
步骤5.1、一个训练周期结束后,每个雾节点将本地训练的模型权重Hn(j)上传到云中心;
步骤5.2、云中心根据接收的所有雾节点的模型参数,通过联邦平均法聚合得到新的全局模型:
Figure BDA0003650138000000056
步骤5.3、云中心将更新的模型权重分发给所有雾节点,以进行下一训练周期的训练过程。
本发明的雾无线接入网中基于联邦强化学习的计算卸载方法,具有以下优点:
1、本发明在每个雾节点采用深度强化学习进行计算卸载与资源分配,能够以较少信息感知环境,可以适应雾无线网中复杂、动态变化的网络环境,灵活性很高。
2、本发明采用强化学习中基于策略的深度确定性策略梯度方法进行卸载决策与资源分配,对应权利要求步骤2,直接产生动作,对资源分配的连续动作有良好的适用性,避免了离散化的高维动作空间带来的复杂度高、收敛慢的问题。
3、本发明在雾节点间采用联邦学习进行模型的训练,对应权利要求步骤5,避免了集中式训练中计算复杂度、系统开销随着雾节点与用户数量的增加而增加的问题,减轻了网络通信负担,且保护了用户数据隐私。
附图说明
图1为本发明的雾无线接入网中基于联邦强化学习的计算卸载方法流程示意图;
图2为本发明的与集中式训练方法、深度Q学习方法进行对比的仿真结果图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种雾无线接入网中基于联邦强化学习的计算卸载方法做进一步详细的描述。
如图1所示为本发明的雾无线接入网中基于联邦强化学习的计算卸载方法流程图,包括如下步骤:
S1:初始化深度确定性策略梯度的模型参数,包括演员在线网络π(s;θπ)的参数θπ,评论家在线网络Q(s,a;θQ)的参数θQ,演员目标网络π′(s;θπ)的参数θπ′,评论家目标网络Q′(s,a;θQ)的参数θQ′,其中s为状态,a为动作;初始化回放缓存B,训练周期数T,每个周期的训练步数l。
S2:在第t个时隙,各个雾节点接收覆盖范围内所有用户的任务卸载请求,构建任务卸载状态st,并根据状态st对用户的任务卸载请求作出卸载决策与资源分配动作at={x(t),y(t),z(t)},其中x(t)表示所有用户的任务卸载决策,y(t)表示所有用户的计算资源分配,z(t)表示所有用户的通信资源分配,具体包括:
S2-1:在第t个时隙,雾节点n接收覆盖范围内用户m的任务卸载请求,构建当前任务卸载状态:
Figure BDA0003650138000000061
其中,
Figure BDA0003650138000000071
是所有用户任务的大小的集合,
Figure BDA0003650138000000072
表示雾节点n下用户m的计算任务大小,
Figure BDA0003650138000000073
是所有用户任务所需的计算资源量,
Figure BDA0003650138000000074
为雾节点n下用户m的计算任务所需的计算资源,
Figure BDA0003650138000000075
是雾节点n的地理位置,
Figure BDA0003650138000000076
是所有用户的地理位置,
Figure BDA0003650138000000077
是所有用户与雾节点n的信道增益,
Figure BDA0003650138000000078
是用户m与雾节点n之间的信道增益,计算方式如下:
Figure BDA0003650138000000079
其中,dm,n(t)是用户m与雾节点n之间的距离,α是路损指数;;
S2-2:雾节点n的演员在线网络根据当前任务卸载状态与策略选择一个动作,并添加随机高斯噪声得到该时隙的卸载决策与资源分配动作:
Figure BDA00036501380000000710
其中,
Figure BDA00036501380000000711
为高斯噪声;
S2-3:雾节点n服务的用户根据卸载决策与资源分配动作at={x(t),y(t),z(t)}选择任务执行方式,其中
Figure BDA00036501380000000712
为雾节点n所有用户的任务卸载决策,
Figure BDA00036501380000000713
为雾节点n下用户m的卸载决策,
Figure BDA00036501380000000714
为雾节点n所有用户的计算资源分配,
Figure BDA00036501380000000715
为雾节点n下用户m的计算资源分配,
Figure BDA00036501380000000716
为雾节点n所有用户的通信资源分配,
Figure BDA00036501380000000717
为雾节点n下用户m的通信资源分配;
S2-4:若
Figure BDA00036501380000000718
则用户m的计算任务在本地设备上执行;若
Figure BDA00036501380000000719
则用户m的计算任务利用分配的资源卸载到雾节点n上执行。
S3:用户根据雾节点的决策执行动作at,并分别计算执行动作的时延与能耗,得到奖励rt与下一状态st+1,并将此转换过程的信号(st,at,rt,st+1)存储在回放缓存
Figure BDA00036501380000000720
中,具体包括:
S3-1:若雾节点n下用户m的任务本地执行,则本地计算时延为:
Figure BDA00036501380000000721
相应地,任务执行的用户设备能耗为:
Figure BDA00036501380000000722
其中,
Figure BDA0003650138000000081
为雾节点n下用户m的计算任务所需的计算资源,
Figure BDA0003650138000000082
为用户m的CPU频率,
Figure BDA0003650138000000083
为用户设备m每个CPU的能量消耗系数;
S3-2:若雾节点n下用户m的任务卸载到雾节点执行,任务计算时延为:
Figure BDA0003650138000000084
其中,fn为雾节点n的CPU频率,
Figure BDA0003650138000000085
为雾节点n给用户m分配的计算资源比例;
S3-3:考虑OFDMA,计算用户m的上行数据率为:
Figure BDA0003650138000000086
其中,
Figure BDA0003650138000000087
为雾节点n下用户m的通信资源分配,Bn为雾节点n提供的总的带宽,
Figure BDA0003650138000000088
是用户m的传输功率,
Figure BDA0003650138000000089
为用户m与雾节点n之间的信道增益,σ2为背景噪声功率;
S3-4:基于用户m的上行数据率,用户m将任务卸载到雾节点n的传输时延为:
Figure BDA00036501380000000810
其中,
Figure BDA00036501380000000811
表示用户m的计算任务大小;对应的用户传输能耗为:
Figure BDA00036501380000000812
其中,
Figure BDA00036501380000000813
为用户m将任务卸载到雾节点n的传输时延;由于计算结果与任务数据相比小得多,计算结果从雾节点回传到用户的时延与能耗被忽略,基于此,用户m将任务卸载到雾节点n的执行时延为雾节点计算时延与传输时延之和:
Figure BDA00036501380000000814
其中,
Figure BDA00036501380000000815
为用户m将任务卸载到雾节点n的执行时延,
Figure BDA00036501380000000816
为用户m将任务卸载到雾节点n的计算时延,
Figure BDA00036501380000000817
为用户m将任务卸载到雾节点n的传输时延。
S3-5:计算雾节点n下所有用户的任务执行时延为:
Figure BDA00036501380000000818
相应地,所有用户的能耗为:
Figure BDA0003650138000000091
S3-6:基于时延与能耗,雾节点n下所有用户的任务执行成本为:
Figure BDA0003650138000000092
其中,ω和
Figure BDA0003650138000000093
为控制时延能耗均衡的权重因子,满足
Figure BDA0003650138000000094
基于用户任务执行的总体成本,计算雾节点n执行动作at获得的奖励为:
rt=-Cn(t);
S3-7:雾节点n执行动作at后,获得新的状态st+1,将此转换过程产生的信号(st,at,rt,st+1)存储在回放缓存
Figure BDA0003650138000000095
中。
S4:从回放缓存
Figure BDA0003650138000000096
中随机选取样本进行网络参数更新,并转入下一个时隙,具体包括:
S4-1:从回放缓存
Figure BDA0003650138000000097
中随机选取K个样本{(si,ai,ri,si+1),i∈{1,2,…,K}},通过最小化损失函数L更新评论家在线网络,即:
Figure BDA0003650138000000098
其中,yi为目标Q值,计算方式如下:
yi=ri+γQ′(si+1,π′(si+1;θπ′);θQ′),
其中,γ为折扣因子,γ∈[0,1];
S4-2:采用随机梯度下降法更新演员在线网络:
Figure BDA0003650138000000099
其中,
Figure BDA00036501380000000910
为函数Q(s,a;θQ)对于动作a的梯度,
Figure BDA00036501380000000911
为策略函数π(s;θπ)对参数θπ的梯度,i∈{1,2,…,K}表示样本序号,si表示第i个样本状态;
S4-3:采用软更新的方式分别更新评论家与演员的目标网络参数:
θQ′←τθQ+(1-τ)θQ′
θπ′←τθπ+(1-τ)θπ′
其中,τ为软更新系数。
S5:一个训练周期结束后,对各个雾节点的模型权重参数进行联合更新,进入下一个周期,具体包括:
S5-1:一个训练周期结束后,每个雾节点将本地训练的模型权重Hn(j)上传到云中心;
S5-2:云中心根据接收的所有雾节点的模型参数,通过联邦平均法聚合得到新的全局模型:
Figure BDA0003650138000000101
S5-3:云中心将更新的模型权重分发给所有雾节点,以进行下一训练周期的训练过程。
由附图2的仿真结果可得,与集中式深度确定性策略梯度、集中式深度Q学习、联邦深度Q学习方法相比,本发明的联邦深度确定性策略梯度方法收敛速度更快,获得的平均系统奖励更高,说明本发明所提方法性能最佳,明显降低用户任务的时延与能耗。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (5)

1.一种雾无线接入网中基于联邦强化学习的计算卸载方法,其特征在于,包括以下步骤:
步骤1、初始化深度确定性策略梯度的模型参数,包括演员在线网络π(s;θπ)的参数θπ,评论家在线网络Q(s,a;θQ)的参数θQ,演员目标网络π′(s;θπ)的参数θπ′,评论家目标网络Q′(s,a;θQ)的参数θQ′,其中s为状态,a为动作;初始化回放缓存B,训练周期数T,每个周期的训练步数l;
步骤2、在第t个时隙,各个雾节点接收覆盖范围内所有用户的任务卸载请求,构建任务卸载状态st,并根据状态st对用户的任务卸载请求作出卸载决策与资源分配动作at={x(t),y(t),z(t)},其中x(t)表示所有用户的任务卸载决策,y(t)表示所有用户的计算资源分配,z(t)表示所有用户的通信资源分配;
步骤3、用户根据雾节点的决策执行动作at,并分别计算执行动作的时延与能耗,得到奖励rt与下一状态st+1,并将此转换过程的信号(st,at,rt,st+1)存储在回放缓存
Figure FDA0003650137990000011
中;
步骤4、从回放缓存
Figure FDA0003650137990000012
中随机选取样本进行网络参数更新,并转入下一个时隙;
步骤5、一个训练周期结束后,对各个雾节点的模型权重参数进行联合更新,进入下一个周期。
2.根据权利要求1所述的雾无线接入网中基于联邦强化学习的计算卸载方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1、在第t个时隙,雾节点n接收覆盖范围内用户m的任务卸载请求,构建当前任务卸载状态:
Figure FDA0003650137990000013
其中,
Figure FDA0003650137990000014
是所有用户任务的大小的集合,
Figure FDA0003650137990000015
表示雾节点n下用户m的计算任务大小,
Figure FDA0003650137990000016
是所有用户任务所需的计算资源量,
Figure FDA0003650137990000017
为雾节点n下用户m的计算任务所需的计算资源,
Figure FDA0003650137990000018
是雾节点n的地理位置,
Figure FDA0003650137990000019
是所有用户的地理位置,
Figure FDA00036501379900000110
是所有用户与雾节点n的信道增益,
Figure FDA00036501379900000111
是用户m与雾节点n之间的信道增益,计算方式如下:
Figure FDA0003650137990000021
其中,dm,n(t)是用户m与雾节点n之间的距离,α是路损指数;
步骤2.2、雾节点n的演员在线网络根据当前任务卸载状态与策略选择一个动作,并添加随机高斯噪声得到该时隙的卸载决策与资源分配动作:
Figure FDA0003650137990000022
其中,
Figure FDA0003650137990000023
为高斯噪声;
步骤2.3、雾节点n服务的用户根据卸载决策与资源分配动作at={x(t),y(t),z(t)}选择任务执行方式,其中
Figure FDA0003650137990000024
为雾节点n所有用户的任务卸载决策,
Figure FDA0003650137990000025
为雾节点n下用户m的卸载决策,
Figure FDA0003650137990000026
为雾节点n所有用户的计算资源分配,
Figure FDA0003650137990000027
为雾节点n下用户m的计算资源分配,
Figure FDA0003650137990000028
为雾节点n所有用户的通信资源分配,
Figure FDA0003650137990000029
为雾节点n下用户m的通信资源分配;
步骤2.4、若
Figure FDA00036501379900000210
则用户m的计算任务在本地设备上执行;若
Figure FDA00036501379900000211
则用户m的计算任务利用分配的资源卸载到雾节点n上执行。
3.根据权利要求2所述的雾无线接入网中基于联邦强化学习的计算卸载方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1、若雾节点n下用户m的任务本地执行,则本地计算时延为:
Figure FDA00036501379900000212
相应地,任务执行的用户设备能耗为:
Figure FDA00036501379900000213
其中,
Figure FDA00036501379900000214
为雾节点n下用户m的计算任务所需的计算资源,
Figure FDA00036501379900000215
为用户m的CPU频率,
Figure FDA00036501379900000216
为用户设备m每个CPU的能量消耗系数;
步骤3.2、若雾节点n下用户m的任务卸载到雾节点执行,任务计算时延为:
Figure FDA00036501379900000217
其中,fn为雾节点n的CPU频率,
Figure FDA0003650137990000031
为雾节点n给用户m分配的计算资源比例;
步骤3.3、考虑OFDMA,计算用户m的上行数据率为:
Figure FDA0003650137990000032
其中,
Figure FDA0003650137990000033
为雾节点n下用户m的通信资源分配,Bn为雾节点n提供的总的带宽,
Figure FDA0003650137990000034
是用户m的传输功率,
Figure FDA0003650137990000035
为用户m与雾节点n之间的信道增益,σ2为背景噪声功率;
步骤3.4、基于用户m的上行数据率,用户m将任务卸载到雾节点n的传输时延为:
Figure FDA0003650137990000036
其中,
Figure FDA0003650137990000037
表示用户m的计算任务大小;对应的用户传输能耗为:
Figure FDA0003650137990000038
其中,
Figure FDA0003650137990000039
为用户m将任务卸载到雾节点n的传输时延;由于计算结果与任务数据相比小得多,计算结果从雾节点回传到用户的时延与能耗被忽略,基于此,用户m将任务卸载到雾节点n的执行时延为雾节点计算时延与传输时延之和:
Figure FDA00036501379900000310
其中,
Figure FDA00036501379900000311
为用户m将任务卸载到雾节点n的执行时延,
Figure FDA00036501379900000312
为用户m将任务卸载到雾节点n的计算时延,
Figure FDA00036501379900000313
为用户m将任务卸载到雾节点n的传输时延;
步骤3.5、计算雾节点n下所有用户的任务执行时延为:
Figure FDA00036501379900000314
相应地,所有用户的能耗为:
Figure FDA00036501379900000315
步骤3.6、基于时延与能耗,雾节点n下所有用户的任务执行成本为:
Figure FDA00036501379900000316
其中,ω和
Figure FDA00036501379900000317
为控制时延能耗均衡的权重因子,满足
Figure FDA00036501379900000318
基于用户任务执行的总体成本,计算雾节点n执行动作at获得的奖励为:
rt=-Cn(t);
步骤3.7、雾节点n执行动作at后,获得新的状态st+1,将此转换过程产生的信号(st,at,rt,st+1)存储在回放缓存
Figure FDA0003650137990000041
中。
4.根据权利要求3所述的雾无线接入网中基于联邦强化学习的计算卸载方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1、从回放缓存
Figure FDA0003650137990000042
中随机选取K个样本{(si,ai,ri,si+1),i∈{1,2,…,K}},通过最小化损失函数L更新评论家在线网络,即:
Figure FDA0003650137990000043
其中,yi为目标Q值,计算方式如下:
yi=ri+γQ′(si+1,π′(si+1;θπ′);θQ′),
其中,γ为折扣因子,γ∈[0,1];
步骤4.2、采用随机梯度下降法更新演员在线网络:
Figure FDA0003650137990000044
其中,
Figure FDA0003650137990000045
为函数Q(s,a;θQ)对于动作a的梯度,
Figure FDA0003650137990000046
为策略函数π(s;θπ)对参数θπ的梯度,i∈{1,2,…,K}表示样本序号,si表示第i个样本状态;
步骤4.3、采用软更新的方式分别更新评论家与演员的目标网络参数:
θQ′←τθQ+(1-τ)θQ′
θπ′←τθπ+(1-τ)θπ′
其中,τ为软更新系数。
5.根据权利要求4所述的雾无线接入网中基于联邦强化学习的计算卸载方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1、一个训练周期结束后,每个雾节点将本地训练的模型权重Hn(j)上传到云中心;
步骤5.2、云中心根据接收的所有雾节点的模型参数,通过联邦平均法聚合得到新的全局模型:
Figure FDA0003650137990000051
步骤5.3、云中心将更新的模型权重分发给所有雾节点,以进行下一训练周期的训练过程。
CN202210551356.9A 2022-05-18 2022-05-18 雾无线接入网中基于联邦强化学习的计算卸载方法 Active CN114980127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210551356.9A CN114980127B (zh) 2022-05-18 2022-05-18 雾无线接入网中基于联邦强化学习的计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210551356.9A CN114980127B (zh) 2022-05-18 2022-05-18 雾无线接入网中基于联邦强化学习的计算卸载方法

Publications (2)

Publication Number Publication Date
CN114980127A true CN114980127A (zh) 2022-08-30
CN114980127B CN114980127B (zh) 2024-07-02

Family

ID=82984755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210551356.9A Active CN114980127B (zh) 2022-05-18 2022-05-18 雾无线接入网中基于联邦强化学习的计算卸载方法

Country Status (1)

Country Link
CN (1) CN114980127B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618963A (zh) * 2022-10-20 2023-01-17 重庆移通学院 一种基于优化方向引导的无线联邦学习异步训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951869A (zh) * 2019-03-01 2019-06-28 重庆邮电大学 一种基于云雾混合计算的车联网资源分配方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
US20200314659A1 (en) * 2019-04-01 2020-10-01 Commscope Technologies Llc Methods and systems for resource planning in a shared spectra
CN112866006A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 一种基于时延能耗权衡的云雾融合网络多目标任务卸载方法
CN113992770A (zh) * 2021-10-29 2022-01-28 东南大学 雾无线接入网中基于策略的联邦强化学习的协作缓存方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951869A (zh) * 2019-03-01 2019-06-28 重庆邮电大学 一种基于云雾混合计算的车联网资源分配方法
US20200314659A1 (en) * 2019-04-01 2020-10-01 Commscope Technologies Llc Methods and systems for resource planning in a shared spectra
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN112866006A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 一种基于时延能耗权衡的云雾融合网络多目标任务卸载方法
CN113992770A (zh) * 2021-10-29 2022-01-28 东南大学 雾无线接入网中基于策略的联邦强化学习的协作缓存方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
居晓琴;: "基于机器学习的物联网应用动态安全卸载策略", 网络空间安全, no. 09, 16 September 2020 (2020-09-16) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618963A (zh) * 2022-10-20 2023-01-17 重庆移通学院 一种基于优化方向引导的无线联邦学习异步训练方法

Also Published As

Publication number Publication date
CN114980127B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN112601197B (zh) 一种基于非正交多址的车联网络中资源优化方法
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN109391681B (zh) 基于mec的v2x移动性预测与内容缓存卸载方案
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN111031102B (zh) 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法
Feng et al. Collaborative data caching and computation offloading for multi-service mobile edge computing
CN109862592B (zh) 一种基于多基站协作的移动边缘计算环境下资源管理和调度方法
Zhang et al. Novel edge caching approach based on multi-agent deep reinforcement learning for internet of vehicles
CN113055487B (zh) 一种基于vmec服务网络选择的迁移方法
Zhang et al. Computing resource allocation scheme of IOV using deep reinforcement learning in edge computing environment
CN115209426B (zh) 一种边缘车联网内数字孪生服务器动态部署方法
Wu et al. A mobile edge computing-based applications execution framework for Internet of Vehicles
CN112153145A (zh) 5g边缘环境下面向车联网的计算任务卸载方法及装置
CN113076177B (zh) 一种边缘计算环境下的虚拟机动态迁移方法
CN114626298A (zh) 无人机辅助车联网中高效缓存和任务卸载的状态更新方法
CN114980127B (zh) 雾无线接入网中基于联邦强化学习的计算卸载方法
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
Liu et al. Learning based fluctuation-aware computation offloading for vehicular edge computing system
Wang et al. Joint offloading decision and resource allocation in vehicular edge computing networks
CN110290539A (zh) 基于用户移动感知和资源预留的移动增强现实应用的资源分配装置及其工作方法
He et al. A DDPG hybrid of graph attention network and action branching for multi-scale end-edge-cloud vehicular orchestrated task offloading
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
CN115022188B (zh) 一种电力边缘云计算网络中的容器放置方法及系统
CN116248688A (zh) 一种基于深度强化学习的空地协同服务迁移方法
Ren et al. An approximation algorithm for joint data uploading and task offloading in IoV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant