CN112954736A - 基于策略的无线携能物联网设备的计算卸载 - Google Patents
基于策略的无线携能物联网设备的计算卸载 Download PDFInfo
- Publication number
- CN112954736A CN112954736A CN201911258082.9A CN201911258082A CN112954736A CN 112954736 A CN112954736 A CN 112954736A CN 201911258082 A CN201911258082 A CN 201911258082A CN 112954736 A CN112954736 A CN 112954736A
- Authority
- CN
- China
- Prior art keywords
- workload
- mec
- offload
- energy
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0215—Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
- H04W28/0221—Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices power availability or consumption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0231—Traffic management, e.g. flow control or congestion control based on communication conditions
- H04W28/0236—Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/52—Allocation or scheduling criteria for wireless resources based on load
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
- H04W16/225—Traffic simulation tools or models for indoor or short range network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/70—Services for machine-to-machine communication [M2M] or machine type communication [MTC]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于策略的无线携能物联网设备的计算卸载,1)建立系统模型所述系统模型包括一个混合接入点HAP和N个用户设备的无线传感器网络,能够独立地感知和处理数据;用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算MEC服务器,完成工作负载后,MEC服务器将将处理过的数据返回给用户设备;2)设计基于策略的混合MEC卸载DRL方法。本发明提出一种基于策略的无线携能物联网设备的计算卸载,解决混合移动边缘计算网络的卸载问题,通过与网络环境的交互,优化每个边缘物联网用户的能量收集时间和不同卸载方案之间的工作负载及时间分配。
Description
技术领域
本发明属于无线通信领域,涉及一种基于策略的无线携能物联网设备的计算卸载。
背景技术
无线物联网设备可用于数据采集和决策,如由于医疗监控的可穿戴传感器。由于计算能力有限,低功耗物联网设备可以选择性地将耗电计算卸载到附近的计算服务器。但由于射频载波信号的发射,射频无线电的功率消耗通常很高。因此,基于射频通信的数据卸载对于低功耗物联网设备来说可能是负担不起的,亟需一种高效的方法根据信道条件和能量状态来平衡其数据卸载和计算中的功耗。
发明内容
本发明提出一种基于策略的无线携能物联网设备的计算卸载,解决混合移动边缘计算网络的卸载问题,通过与网络环境的交互,优化每个边缘物联网用户的能量收集时间和不同卸载方案之间的工作负载及时间分配。
本发明解决上述问题的技术方案是:一种基于策略的无线携能物联网设备的计算卸载,其特殊之处在于,包括以下步骤:
1)建立系统模型
所述系统模型包括一个混合接入点HAP和N个用户设备的无线传感器网络,能够独立地感知和处理数据;用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算MEC服务器,完成工作负载后,MEC服务器将将处理过的数据返回给用户设备;
2)设计基于策略的混合MEC卸载DRL方法。
进一步地,所述系统模型具体为:
设N={1,2,…,N}表示所有边节点的集合,Si表示i∈N的第i个边节点;每个节点都配有一个天线,能够以恒定的发射功率从HAP收集能量;HAP和节点Si之间的复杂上下行信道分别用hi∈C和gi∈C表示;每个Si被分配一个时隙ti用于其数据卸载,并且能够在同一时隙中收集能量;每个边缘节点Si的工作负载由Li给出,Li定义为要在MEC服务器上本地或远程处理的数据比特数。
进一步地,所述系统模型的卸载步骤包括:
1.1)混合MEC卸载
从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行;在被动模式下,HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号:一部分入射射频信号被反射回来,而另一部分仍被天线捕获并转换成能量;将每个时隙ti划分为三个子时隙,第一个子时隙th,j被用于用户设备获取射频功率,以维持本地计算和数据卸载的能量消耗;后面的两个子槽ta,j和tp,j分别用于主动和被动模式下的数据卸载;
1.2)工作量分配
每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配;不同的计算方案具有不同的处理能力和能量消耗。因此,MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况,将工作负载最优地划分到三种方案:
a.主动卸载方案:
ra,i=B log2(1+pa,i|hi|2/σ2) (1)
其中B表示活动数据传输的带宽。pa,i和ra,i之间的关系表示为:
b.被动卸载方案:
对于被动卸载,HAP处的后向散射信号可以表示为y(n,i)=αgib(n)hix(n),其中x(n)表示HAP发射的载波信号,b(n)∈{0,1}是二元反向散射信息,这里α表示后向散射发射器的反射系数,由天线的负载阻抗决定。假设完全干扰抵消,则可以从接收信号中减去来自HAP的直接传输。因此,我们可以简单地将被动模式中的数据速率近似为rp,i=B log(1+|αgihi|2/σ2)。显然,反向散射速率rp,i小于有源射频通信。然而,通过无线能量收集,反向散射通信的功耗是可以忽略和可持续的。这意味着,当能量足够时,边缘设备更喜欢使用高速射频通信,而当能量不足时,则转向反向散射通信。
c.本地计算:
边缘设备还可以在数据卸载的同时进行本地计算,我们允许不同的边缘设备具有不同的计算能力,让fi表示设备处理器的计算速度(CPU周期/秒),每个CPU周期的功耗可以用kfi 2来描述,其中常数系数k表示计算的能量效率,设0≤tl,i≤1表示本地计算的时间分配;然后,局部计算的总能耗可以用el,i=kfi 3tl,i建模,设φ>0表示处理一个单位工作负载所需的周期数;因此,可以在本地处理的信息位数有其中rl,i=fi/φ表示本地计算中的处理速率,我们假设参数fi和φ对不同的用户设备是固定的;因此,能量消耗el,i在本地计算中只与时间和工作量分配有关即
1.3)MEC卸载价格
通过将工作负载卸载到MEC服务器,边缘节点使用MEC服务器的信道资源来接收工作负载并返回结果,同时也消耗了MEC服务器的CPU资源来执行计算任务。所以MEC服务器还需要对使用其MEC卸载服务的每个用户收费。让表示以主动和被动模式卸载到MEC服务器的总工作量。MEC卸载服务的价格包括两部分。第一部分为信道资源的使用,其与负载卸载率成正比,更高的卸载速率意味着将分配更多的信道资源(例如,带宽和能耗)来接收工作负载。另一部分取决于工作负载的总数,其表示计算资源的成本,例如CPU周期和占用内存。因此,MEC服务器将其价格设置如下:
其中,μo表示单位信道价格,ρo表示单位计算价格。可以适当调整单价μo和ρo,以确保可以在其资源限制内处理所有卸载的工作负载。
进一步地,所述步骤2)中,个人用户可以根据其本地观察结果进行卸载决策,在第一个时隙,让表示能量收集和不同计算方案之间的时间分配,设分别表示本地计算之间的工作量分配,主动卸载和被动卸载,目标是通过优化每个时隙中的时间和工作负载分配策略来优化用户的总体性能。特别地,我们将性能指标定义如下:
这里,恒定权重w表示用户对使用MEC卸载服务的偏好;(3)中的第一项表示MEC卸载和本地计算中的能量效率,定义为总工作量除以总能耗;第二项是使用MEC卸载服务的成本;包括以下步骤:
2.1)联合时间和工作量分配;
2.2)MEC卸载问题的MDP重构;
2.3)基于策略的MEC卸载DRL。
进一步地,步骤2.1)联合时间和工作量分配,具体为
边缘用户在每个时隙中的工作负载必须在固定的延迟界限之前完成。假设每个时隙都有单位长度,我们只需要th,i+ta,i+tp,i≤1。有三种方案必须满足用户的服务需求:
我们有和如果工作负载约束(4)不成立,则可能会发生工作负载中断,这意味着在第i个时隙中生成的工作负载不能在延迟界限内成功处理。由于不同方案的计算能力不同,因此需要对工作负载进行最优分配,以最小化工作负载中断概率。
不同的计算方案在能量消耗上也有所不同。特别是,本地计算在CPU周期中消耗功率。主动卸载在射频通信中消耗高功率。无源卸载的功耗远小于射频通信的功耗,可以省略。因此,一个时隙的总能耗由来表示。分别对应于本地计算和主动卸载。让Ei表示第i个时隙中的可用能量。因此,下一时隙中的剩余能量可以。简单地表示如下:
Ei+1=min(Emax,(Ei+ηp0|gi|2th,i-ei)+) (5)
其中Emax表示电池容量,η表示能量转换效率,p0表示电池的发射功率。到此,我们可以制定如下性能优化问题:
s.t.th,i+ta,i+tp,i≤1, (6b)
目标函数中的期望值适用于随机工作负载和信道状态的所有实例。显然,问题(6)由于其随机性和非凸结构而很难解决,特别是目标函数和约束都是非凸的。(5)中的电池动态意味着一种非常复杂的动态优化方法。工作量的不确定性也使得优化对于实时实现来说是不切实际的。
进一步地,步骤2.2)MEC卸载问题的MDP重构,具体为:
面对上述实际挑战,传统的基于模型的优化技术变得非常不灵活和低效。接下来,我们采用无模型DRL方法对不确定网络环境下的MEC卸载决策进行优化。DRL扩展了传统的用于求解大动作和状态空间的马尔可夫决策过程(MDP)的强化学习方法。MEC卸载问题的MDP框架可以用元组来定义。
表示系统状态,表示网络环境的观察集。对于每个边缘用户,系统状态包括随机工作负载在每个时隙的开头,能量e∈{0,1,…,E}表示电池内存储的电量中,和有限状态信道条件c∈{0,1,…,C}是定义为的连续动作空间,其中表示工作负载分配,t对应于能量收集、本地计算、主动和被动卸载之间的时间分配t=(th,tl,ta,tp)∈(0,1)。是状态转移概率函数,表示给定当前状态和卸载动作ai∈A时下一个状态的分布。该信息对于决策者通常是不确定的,并且必须在与环境的交互期间被学习。是评价每个状态的行为质量的奖励函数,定义如下
当工作负载已经成功完成时xi=1,否则xi=0,这就浪费了计算资源。
给定信道条件、能量状态和工作负载的动态,每个用户设备将相应地选择其动作,以最大化累积的回报。其中γ表示折扣因子。强化学习为寻找对应动作的每个网络状态最优策略提供了一种解决方案π*:使状态值函数V(s)最大化。在一个小的、有限的状态空间下,Q-learning算法可以得到最优策略。在部分对于每个状态,最优的作用是使Q值函数最大化,然后通过当前Q值与其目标yi之间的差值更新Q值,如下所示:
Qi+1(si,ai)=Qi(si,ai)+τi[yi-Qi(si,ai)]
进一步地,步骤2.3)基于策略的MEC卸载DRL,具体为:
当状态空间和动作空间较大时,Q-learning算法变得不稳定,甚至无法收敛。在这一部分中,我们引入DRL来学习最优的MEC卸载策略,通过使用深度神经网络DNN作为Q值函数的逼近器。主要有基于值的DRL方法和基于策略的DRL方法。一般说来,基于值的方法,如DQN及其变体,适用于离散的动作空间,而连续动作空间则更好地通过基于策略的方法来处理。
考虑到MEC的连续卸载决策,我们采用基于策略的DRL方法来学习最优的时间和工作量分配策略。深层确定性策略梯度(DDPG)利用DNN的经验重放和目标Q网络,将DQN和确定性策略梯度在行动者-评论者(actor-critic)框架中相结合,使学习更加稳定和鲁棒。基于策略的DRL以梯度方向更新参数策略,以直接改进值函数,可以重写为其中dπ(s)是策略πθ的平稳状态分布。DDPG依赖于确定性策略梯度定理,该定理简化了梯度计算如下所示
(8)中的策略梯度激励了actor-critic框架。actor网络对应于渐变方向上的策略参数θ的更新:
其中Q(st,at|wt)表示具有DNN权值的参数化Q函数,为了更好地探索学习,我们在π(st|θt)中加入了随机噪声Nt来构造该行为。Critic网络通过更新DNN权重来估计Q值,如下所示:
其中,δt=yt-Qw(st,at|wt)表示Qw(st,at|wt)与其目标yt之间的时间差误差。参数aθ和aw被视为参数更新的步长.很明显,在学习过程中,actor网络和critic网络都可以被DNN近似,并且相互依赖。
对于critic网络,Q网络的训练类似于DQN方法,从经验回放记忆中抽取一个小批量。DDPG还采用了在线和目标网络,以确保学习的稳定性。DNN训练旨在最大限度地减少损失函数:
其中yt由yt=rt+γQ(st+1,π(st+1|θ′t)|w′t)更新,训练样本(st,at,rt,st+1)是从小批中提取的。对于较小的更新速率τ,目标网络的参数w′t和θ′t由下列规则更新:
w′t+1=γwt+(1-γ)w′t (10)
θ′t+1=γθt+(1-γ)θ′t (11)
本发明的优点:
(1)本发明允许每个设备既可以通过传统射频通信也可以使用低功率反向散射通信卸载数据,这使得每个设备中在动态的工作量、信道状态和能量供应环境中可以更灵活地优化卸载策略;
(2)本发明依赖基于策略的DRL方法来解决actor-critic框架中的连续控制问题;
(3)本发明通过与网络环境的交互,优化每个用户的能量获取时间和不同卸载方案间的工作负载分配;
(4)经过数值评估,本发明相对于已有的传统方法在奖励性能、稳定性和学习速度方面均取得了显著地改善。
附图说明
图1用于能量收获物联网设备的混合MEC卸载,(a)为MEC中无线功率混合数据卸载,(b)为MEC的时间分配;
图2为DDPG算法工作流程;
图3为DDPG和DQN方法的性能比较;(a)不同算法完成的工作量,(b)不同计算方案的工作量
图4为不同算法的性能比较;(a)为不同算法的奖励性能,(b)为不同算法的中断性能。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
本方案的主要内容包括系统模型、基于策略的混合移动边缘计算卸载DRL方法。详细方案设计如下:
1)系统模型
考虑一个具有一个混合接入点(HAP)和N个用户设备的无线传感器网络,能够独立地感知和处理数据。用户设备可以设想为医疗保健监控的可穿戴设备。这些信息可以在不同的采样速率下进行采样,以节省能源,保持一定的精度要求。通过机器学习算法可以对感知信息进行局部或远程分析。用于分类、预测和决策,通常是计算密集型的。为了帮助他们的数据处理,用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算(MEC)服务器。完成工作负载后,MEC服务器将将处理过的数据返回给用户设备。图1说明了该系统模型。
设N={1,2,…,N}表示所有边节点的集合,Si表示i∈N的第i个边节点。每个节点都配有一个天线,能够以恒定的发射功率从HAP收集能量。HAP和节点Si之间的复杂上下行信道分别用hi∈C和gi∈C表示。每个Si被分配一个时隙ti用于其数据卸载,并且能够在同一时隙中收集能量。每个边缘节点Si的工作负载由Li给出,Li定义为要在MEC服务器上本地或远程处理的数据比特数。我们假设每个设备的工作负载在每个时隙的开始生成,并且必须在数据帧结束前进行处理。
1.1)混合MEC卸载
从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行。在被动模式下,HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号。一部分入射射频信号被反射回来,而另一部分仍被天线捕获并转换成能量。我们假设每个用户仅具有一个天线,因此它只能在一个无线电模式下发射或者从HAP吸收能量。通过调节负载阻抗,可以实现被动和主动模式之间的切换。我们进一步将每个时隙ti划分为三个子时隙,如图1(b)所示。第一个子时隙th,j被用于用户设备获取射频功率,以维持本地计算和数据卸载的能量消耗。后面的两个子槽ta,j和tp,j分别用于主动和被动模式下的数据卸载。除了数据卸载之外,用户设备还可以执行本地计算。与数据卸载同时进行,如图1(b)所示。
1.2)工作量分配
每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配。不同的计算方案具有不同的处理能力和能量消耗。因此,MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况,将工作负载最优地划分到三种方案。
a.主动卸载方案:
ra,i=B log2(1+pa,i|hi|2/σ2) (1)
其中B表示活动数据传输的带宽。pa,i和ra,i之间的关系表示为:
b.被动卸载方案:
对于被动卸载,HAP处的后向散射信号可以表示为y(n,i)=αgib(n)hix(n),其中x(n)表示HAP发射的载波信号,b(n)∈{0,1}是二元反向散射信息。这里α表示后向散射发射器的反射系数,由天线的负载阻抗决定。假设完全干扰抵消,则可以从接收信号中减去来自HAP的直接传输。因此,我们可以简单地将被动模式中的数据速率近似为rp,i=B log(1+|αgihi|2/σ2)。显然,反向散射速率rp,i小于有源射频通信。然而,通过无线能量收集,反向散射通信的功耗是可以忽略和可持续的。这意味着,当能量足够时,边缘设备更喜欢使用高速射频通信,而当能量不足时,则转向反向散射通信。
c.本地计算:
边缘设备还可以在数据卸载的同时进行本地计算。我们允许不同的边缘设备具有不同的计算能力。让fi表示设备处理器的计算速度(CPU周期/秒)。每个CPU周期的功耗可以用kfi 2来描述,其中常数系数k表示计算的能量效率。设0≤tl,i≤1表示本地计算的时间分配。然后,局部计算的总能耗可以用el,i=kfi 3tl,i建模,设φ>0表示处理一个单位工作负载所需的周期数。因此,可以在本地处理的信息位数有其中rl,i=fi/φ表示本地计算中的处理速率。我们假设参数fi和φ对不同的用户设备是固定的。因此,能量消耗el,i在本地计算中只与时间和工作量分配有关即
1.3)MEC卸载价格
通过将工作负载卸载到MEC服务器,边缘节点使用MEC服务器的信道资源来接收工作负载并返回结果,同时也消耗了MEC服务器的CPU资源来执行计算任务。所以MEC服务器还需要对使用其MEC卸载服务的每个用户收费。让表示以主动和被动模式卸载到MEC服务器的总工作量。MEC卸载服务的价格包括两部分。第一部分为信道资源的使用,其与负载卸载率成正比,更高的卸载速率意味着将分配更多的信道资源(例如,带宽和能耗)来接收工作负载。另一部分取决于工作负载的总数,其表示计算资源的成本,例如CPU周期和占用内存。因此,MEC服务器将其价格设置如下:
其中,μo表示单位信道价格,ρo表示单位计算价格。可以适当调整单价μo和ρo,以确保可以在其资源限制内处理所有卸载的工作负载。
2)基于策略的混合MEC卸载DRL方法
个人用户可以根据其本地观察结果进行卸载决策。以下我们将重点放在单个用户上,并力求最大限度地提高其长期性能。在第一个时隙,让 表示能量收集和不同计算方案之间的时间分配。设分别表示本地计算之间的工作量分配,主动卸载和被动卸载。我们的目标是通过优化每个时隙中的时间和工作负载分配策略来优化用户的总体性能。特别地,我们将性能指标定义如下:
这里,恒定权重w表示用户对使用MEC卸载服务的偏好。(3)中的第一项表示MEC卸载和本地计算中的能量效率,定义为总工作量除以总能耗。第二项是使用MEC卸载服务的成本。
2.1)联合时间和工作量分配
边缘用户在每个时隙中的工作负载必须在固定的延迟界限之前完成。假设每个时隙都有单位长度,我们只需要th,i+ta,i+tp,i≤1。有三种方案必须满足用户的服务需求:
我们有和如果工作负载约束(4)不成立,则可能会发生工作负载中断,这意味着在第i个时隙中生成的工作负载不能在延迟界限内成功处理。由于不同方案的计算能力不同,因此需要对工作负载进行最优分配,以最小化工作负载中断概率。
不同的计算方案在能量消耗上也有所不同。特别是,本地计算在CPU周期中消耗功率。主动卸载在射频通信中消耗高功率。无源卸载的功耗远小于射频通信的功耗,可以省略。因此,一个时隙的总能耗由来表示。分别对应于本地计算和主动卸载。让Ei表示第i个时隙中的可用能量。因此,下一时隙中的剩余能量可以。简单地表示如下:
Ei+1=min(Emax,(Ei+ηp0|gi|2th,i-ei)+) (5)
其中Emax表示电池容量,η表示能量转换效率,p0表示电池的发射功率。到此,我们可以制定如下性能优化问题:
s.t.th,i+ta,i+tp,i≤1, (6b)
目标函数中的期望值适用于随机工作负载和信道状态的所有实例。显然,问题(6)由于其随机性和非凸结构而很难解决,特别是目标函数和约束都是非凸的。(5)中的电池动态意味着一种非常复杂的动态优化方法。工作量的不确定性也使得优化对于实时实现来说是不切实际的。
2.2)MEC卸载问题的MDP重构
面对上述实际挑战,传统的基于模型的优化技术变得非常不灵活和低效。接下来,我们采用无模型DRL方法对不确定网络环境下的MEC卸载决策进行优化。DRL扩展了传统的用于求解大动作和状态空间的马尔可夫决策过程(MDP)的强化学习方法。MEC卸载问题的MDP框架可以用元组来定义。
表示系统状态,表示网络环境的观察集。对于每个边缘用户,系统状态包括随机工作负载在每个时隙的开头,能量e∈{0,1,…,E}表示电池内存储的电量中,和有限状态信道条件c∈{0,1,…,C}是定义为的连续动作空间,其中表示工作负载分配,t对应于能量收集、本地计算、主动和被动卸载之间的时间分配t=(th,tl,ta,tp)∈(0,1)。是状态转移概率函数,表示给定当前状态和卸载动作ai∈A时下一个状态的分布。该信息对于决策者通常是不确定的,并且必须在与环境的交互期间被学习。是评价每个状态的行为质量的奖励函数,定义如下
当工作负载已经成功完成时xi=1,否则xi=0,这就浪费了计算资源。
给定信道条件、能量状态和工作负载的动态,每个用户设备将相应地选择其动作,以最大化累积的回报。其中γ表示折扣因子。强化学习为寻找对应动作的每个网络状态最优策略提供了一种解决方案π*:使状态值函数v(s)最大化。在一个小的、有限的状态空间下,Q-learning算法可以得到最优策略。在部分对于每个状态,最优的作用是使Q值函数最大化,然后通过当前Q值与其目标yi之间的差值更新Q值,如下所示:
Qi+1(si,ai)=Qi(si,ai)+τi[yi-Qi(si,ai)]
2.3)基于策略的MEC卸载DRL
当状态空间和动作空间较大时,Q-learning算法变得不稳定,甚至无法收敛。在这一部分中,我们引入DRL来学习最优的MEC卸载策略,通过使用深度神经网络DNN作为Q值函数的逼近器。主要有基于值的DRL方法和基于策略的DRL方法。一般说来,基于值的方法,如DQN及其变体,适用于离散的动作空间,而连续动作空间则更好地通过基于策略的方法来处理。
考虑到MEC的连续卸载决策,我们采用基于策略的DRL方法来学习最优的时间和工作量分配策略。深层确定性策略梯度(DDPG)利用DNN的经验重放和目标Q网络,将DQN和确定性策略梯度在行动者-评论者(actor-critic)框架中相结合,使学习更加稳定和鲁棒。基于策略的DRL以梯度方向更新参数策略,以直接改进值函数,可以重写为其中dπ(s)是策略πθ的平稳状态分布。DDPG依赖于确定性策略梯度定理,该定理简化了梯度计算如下所示
(8)中的策略梯度激励了actor-critic框架。actor网络对应于渐变方向上的策略参数θ的更新:
其中Q(st,at|wt)表示具有DNN权值的参数化Q函数,为了更好地探索学习,我们在π(st|θt)中加入了随机噪声Nt来构造该行为。Critic网络通过更新DNN权重来估计Q值,如下所示:
其中,δt=yt-Qw(st,at|wt)表示Qw(st,at|wt)与其目标yt之间的时间差误差。参数aθ和aw被视为参数更新的步长.很明显,在学习过程中,actor网络和critic网络都可以被DNN近似,并且相互依赖。
对于critic网络,Q网络的训练类似于DQN方法,从经验回放记忆中抽取一个小批量。DDPG还采用了在线和目标网络,以确保学习的稳定性。DNN训练旨在最大限度地减少损失函数:
其中yt由yt=rt+γQ(st+1,π(st+1|θ′t)|w′t)更新,训练样本(st,at,rt,st+1)是从小批中提取的。对于较小的更新速率τ,目标网络的参数w′t和θ′t由下列规则更新:
w′t+1=γwt+(1-γ)w′t (10)
θ′t+1=γθt+(1-γ)θ′t (11)
基于DDPG的MEC卸载算法的工作流程如图2所示。
本方案对DDPG算法的性能进行了仿真实验评估。HAP的发射功率设为p0=10mW,能量转换效率为η=0.6。信道在一个时隙内保持静态,并在不同的时隙中遵循有限状态的马尔可夫链。我们假设每个用户的工作负载是在0和50kbits之间随机生成的。恒定电路功率设为pc=10μW。噪声功率为σ2=-110dBm,带宽为B=400kHz。
图3(a)显示了不同MEC卸载算法完成的总工作量。贪心算法(greedy scheme)表示用户总是选择短视动作来最大化即时奖励。在收敛过程中,DDPG和基于DQN的MEC卸载方案都比贪心算法好很多。此外,DDPG算法的总报酬总是高于DQN算法。观察到DDPG法和DQN法训练30k后均达到收敛值。虽然DDPG算法没有显示出更好的学习速度,但它通常具有更稳定的学习速度。如图3(a)所示。图3(b)示出分配给不同计算方案的工作负载,包括本地计算、主动和被动卸载。在25k次之前,三个方案中的工作负载动态地变化,因此在早期阶段的工作量中断概率将很高。最初,本地计算完成了工作负载的最大部分。此外,被动卸载方案比主动卸载方案的工作量大。这意味着边缘设备最初没有足够的能量供应,更倾向于低能耗的本地计算和被动卸载方案。发生25k次训练后,归属于主动卸载方案的工作量继续增加。这是因为边缘节点逐渐改善了其时间分配策略,并收获了更多的RF功率以维持其主动卸载。
图4(a)显示了不同算法的总奖励(即能源效率减去MEC卸载服务的价格)。显然与贪心算法和传统的DQN方法相比,用于连续时间和工作量分配的DDPG算法获得了最高的奖励。通常,DQN方法必须通过有线的离散集来近似连续的动作空间,这不可避免地会带来量化误差,并导致性能下降。与DQN算法相比,DDPG算法可以对连续决策变量进行更精确的控制。如图4(b)所示,该算法在奖励和中断概率方面均具有稳定的学习曲线,从而也证明了这一点。DDPG算法中的精确控制可以最小化其中断性能,即几乎每个时隙中的所有工作负载都可以成功完成。
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的系统领域,均同理包括在本发明的保护范围内。
Claims (7)
1.一种基于策略的无线携能物联网设备的计算卸载,其特征在于,包括以下步骤:
1)建立系统模型
所述系统模型包括一个混合接入点HAP和N个用户设备的无线传感器网络,能够独立地感知和处理数据;用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算MEC服务器,完成工作负载后,MEC服务器将将处理过的数据返回给用户设备;
2)设计基于策略的混合MEC卸载DRL方法。
2.根据权利要求1所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
所述系统模型具体为:
设N={1,2,…,N}表示所有边节点的集合,Si表示i∈N的第i个边节点;每个节点都配有一个天线,能够以恒定的发射功率从HAP收集能量;HAP和节点Si之间的复杂上下行信道分别用hi∈C和gi∈C表示;每个Si被分配一个时隙ti用于其数据卸载,并且能够在同一时隙中收集能量;每个边缘节点Si的工作负载由Li给出,Li定义为要在MEC服务器上本地或远程处理的数据比特数。
3.根据权利要求2所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
所述系统模型的卸载步骤包括:
1.1)混合MEC卸载
从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行;在被动模式下,HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号:一部分入射射频信号被反射回来,而另一部分仍被天线捕获并转换成能量;将每个时隙ti划分为三个子时隙,第一个子时隙th,i被用于用户设备获取射频功率,以维持本地计算和数据卸载的能量消耗;后面的两个子槽ta,j和tp,j分别用于主动和被动模式下的数据卸载;
1.2)工作量分配
每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配;不同的计算方案具有不同的处理能力和能量消耗;因此,MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况,将工作负载最优地划分到三种方案:
a.主动卸载方案:
ra,i=B log2(1+pa,i|hi|2/σ2) (1)
其中B表示活动数据传输的带宽,pa,i和ra,i之间的关系表示为:
b.被动卸载方案:
对于被动卸载,HAP处的后向散射信号可以表示为y(n,i)=αgib(n)hix(n),其中x(n)表示HAP发射的载波信号,b(n)∈{0,1}是二元反向散射信息,这里α表示后向散射发射器的反射系数,由天线的负载阻抗决定;假设完全干扰抵消,则可以从接收信号中减去来自HAP的直接传输;因此,将被动模式中的数据速率近似为rp,i=B log(1+|αgihi|2/σ2);显然,反向散射速率rp,i小于有源射频通信;然而,通过无线能量收集,反向散射通信的功耗是可以忽略和可持续的;
c.本地计算:
边缘设备还可以在数据卸载的同时进行本地计算,允许不同的边缘设备具有不同的计算能力,让fi表示设备处理器的计算速度(CPU周期/秒),每个CPU周期的功耗可以用kfi 2来描述,其中常数系数k表示计算的能量效率,设0≤tl,i≤1表示本地计算的时间分配;然后,局部计算的总能耗可以用建模,设φ>0表示处理一个单位工作负载所需的周期数;因此,可以在本地处理的信息位数有其中rl,i=fi/φ表示本地计算中的处理速率,假设参数fi和φ对不同的用户设备是固定的;因此,能量消耗el,i在本地计算中只与时间和工作量分配有关即
1.3)MEC卸载价格
通过将工作负载卸载到MEC服务器,边缘节点使用MEC服务器的信道资源来接收工作负载并返回结果,同时也消耗了MEC服务器的CPU资源来执行计算任务;所以MEC服务器还需要对使用其MEC卸载服务的每个用户收费;让表示以主动和被动模式卸载到MEC服务器的总工作量;MEC卸载服务的价格包括两部分:第一部分为信道资源的使用,其与负载卸载率成正比,更高的卸载速率意味着将分配更多的信道资源来接收工作负载,另一部分取决于工作负载的总数,其表示计算资源的成本,因此,MEC服务器将其价格设置如下:
其中,μo表示单位信道价格,ρo表示单位计算价格。
4.根据权利要求3所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
所述步骤2)中,个人用户可以根据其本地观察结果进行卸载决策,在第一个时隙,让表示能量收集和不同计算方案之间的时间分配,设分别表示本地计算之间的工作量分配,主动卸载和被动卸载,目标是通过优化每个时隙中的时间和工作负载分配策略来优化用户的总体性能,将性能指标定义如下:
这里,恒定权重w表示用户对使用MEC卸载服务的偏好;(3)中的第一项表示MEC卸载和本地计算中的能量效率,定义为总工作量除以总能耗;第二项是使用MEC卸载服务的成本;包括以下步骤:
2.1)联合时间和工作量分配;
2.2)MEC卸载问题的MDP重构;
2.3)基于策略的MEC卸载DRL。
5.根据权利要求4所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
步骤2.1)联合时间和工作量分配,具体为
边缘用户在每个时隙中的工作负载必须在固定的延迟界限之前完成;假设每个时隙都有单位长度,则需要th,i+ta,i+tp,i≤1;有三种方案必须满足用户的服务需求:
有和如果工作负载约束(4)不成立,则可能会发生工作负载中断,在第i个时隙中生成的工作负载不能在延迟界限内成功处理;由于不同方案的计算能力不同,因此需要对工作负载进行最优分配,以最小化工作负载中断概率;
不同的计算方案在能量消耗上也有所不同;本地计算在CPU周期中消耗功率,主动卸载在射频通信中消耗高功率,无源卸载的功耗远小于射频通信的功耗,可以省略,因此,一个时隙的总能耗由来表示,分别对应于本地计算和主动卸载,让Ei表示第i个时隙中的可用能量,因此,下一时隙中的剩余能量可以,简单地表示如下:
Ei+1=min(Emax,(Ei+ηp0|gi|2th,i-ei)+) (5)
其中Emax表示电池容量,η表示能量转换效率,p0表示电池的发射功率,到此,可以制定如下性能优化问题:
s.t.th,i+ta,i+tp,i≤1, (6b)
目标函数中的期望值适用于随机工作负载和信道状态的所有实例。
6.根据权利要求5所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
步骤2.2)MEC卸载问题的MDP重构,具体为:
表示系统状态,表示网络环境的观察集;对于每个边缘用户,系统状态包括随机工作负载在每个时隙的开头,能量e∈{0,1,…,E}表示电池内存储的电量中,和有限状态信道条件c∈{0,1,…,C}是定义为的连续动作空间,其中表示工作负载分配,t对应于能量收集、本地计算、主动和被动卸载之间的时间分配t=(th,tl,ta,tp)∈(0,1);是状态转移概率函数,表示给定当前状态和卸载动作ai∈A时下一个状态的分布;该信息对于决策者通常是不确定的,并且必须在与环境的交互期间被学习;是评价每个状态的行为质量的奖励函数,定义如下
当工作负载已经成功完成时xi=1,否则xi=0;
给定信道条件、能量状态和工作负载的动态,每个用户设备将相应地选择其动作,以最大化累积的回报;其中γ表示折扣因子;强化学习为寻找对应动作的每个网络状态最优策略提供了一种解决方案使状态值函数V(s)最大化;在一个小的、有限的状态空间下,Q-learning算法可以得到最优策略;在部分对于每个状态,最优的作用是使Q值函数最大化,然后通过当前Q值与其目标yi之间的差值更新Q值,如下所示:
Qi+1(si,ai)=Qi(si,ai)+τi[yi-Qi(si,ai)]
7.根据权利要求6所述的一种基于策略的无线携能物联网设备的计算卸载,其特征在于:
步骤2.3)基于策略的MEC卸载DRL,具体为:
采用基于策略的DRL方法来学习最优的时间和工作量分配策略,深层确定性策略梯度DDPG利用DNN的经验重放和目标Q网络,将DQN和确定性策略梯度在行动者-评论者actor-critic框架中相结合,,基于策略的DRL以梯度方向更新参数策略,以直接改进值函数,可以重写为其中dπ(s)是策略πθ的平稳状态分布,DDPG依赖于确定性策略梯度定理,该定理简化了梯度计算如下所示
(8)中的策略梯度激励了actor-critic框架;actor网络对应于渐变方向上的策略参数θ的更新:
其中Q(st,at|wt)表示具有DNN权值的参数化Q函数,在π(st|θt)中加入了随机噪声Nt来构造该行为,Critic网络通过更新DNN权重来估计Q值,如下所示:
其中,δt=yt-Qw(st,at|wt)表示Qw(st,at|wt)与其目标yt之间的时间差误差;参数aθ和aw被视为参数更新的步长,在学习过程中,actor网络和critic网络都可以被DNN近似,并且相互依赖;
对于critic网络,Q网络的训练类似于DQN方法,从经验回放记忆中抽取一个小批量;DDPG还采用了在线和目标网络,以确保学习的稳定性;DNN训练旨在最大限度地减少损失函数:
其中yt由yt=rt+γQ(st+1,π(st+1|θ′t)|w′t)更新,训练样本(st,at,rt,st+1)是从小批中提取的;对于较小的更新速率τ,目标网络的参数w′t和θ′t由下列规则更新:
w′t+1=γwt+(1-γ)w′t (10)
θ′t+1=γθt+(1-γ)θ′t (11)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258082.9A CN112954736A (zh) | 2019-12-10 | 2019-12-10 | 基于策略的无线携能物联网设备的计算卸载 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258082.9A CN112954736A (zh) | 2019-12-10 | 2019-12-10 | 基于策略的无线携能物联网设备的计算卸载 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112954736A true CN112954736A (zh) | 2021-06-11 |
Family
ID=76225498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258082.9A Pending CN112954736A (zh) | 2019-12-10 | 2019-12-10 | 基于策略的无线携能物联网设备的计算卸载 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112954736A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN114024639A (zh) * | 2021-11-09 | 2022-02-08 | 重庆邮电大学 | 一种无线多跳网络中分布式信道分配方法 |
CN114116061A (zh) * | 2021-11-26 | 2022-03-01 | 内蒙古大学 | 一种移动边缘计算环境下的工作流任务卸载方法及系统 |
CN114222318A (zh) * | 2021-12-08 | 2022-03-22 | 重庆邮电大学 | 一种认知无线供电反向散射通信网络鲁棒优化方法 |
CN114513855A (zh) * | 2022-02-23 | 2022-05-17 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114615261A (zh) * | 2022-01-25 | 2022-06-10 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114845363A (zh) * | 2022-04-18 | 2022-08-02 | 中山大学·深圳 | 一种反射面辅助的低功耗数据卸载方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018154355A1 (en) * | 2017-02-23 | 2018-08-30 | Nokia Technologies Oy | Method and apparatus for capturing user or user equipment parameters in a multi-access edge computing system |
CN110062026A (zh) * | 2019-03-15 | 2019-07-26 | 重庆邮电大学 | 移动边缘计算网络中资源分配和计算卸载联合优化方案 |
-
2019
- 2019-12-10 CN CN201911258082.9A patent/CN112954736A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018154355A1 (en) * | 2017-02-23 | 2018-08-30 | Nokia Technologies Oy | Method and apparatus for capturing user or user equipment parameters in a multi-access edge computing system |
CN110062026A (zh) * | 2019-03-15 | 2019-07-26 | 重庆邮电大学 | 移动边缘计算网络中资源分配和计算卸载联合优化方案 |
Non-Patent Citations (1)
Title |
---|
YUTONG XIE等: "Backscatter-Assisted Computation Offloading for Energy Harvesting IoT Devices via Policy-based Deep Reinforcement Learning", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS WORKSHOPS IN CHINA (ICCC WORKSHOPS)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113448425B (zh) * | 2021-07-19 | 2022-09-09 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN114024639A (zh) * | 2021-11-09 | 2022-02-08 | 重庆邮电大学 | 一种无线多跳网络中分布式信道分配方法 |
CN114024639B (zh) * | 2021-11-09 | 2024-01-05 | 成都天软信息技术有限公司 | 一种无线多跳网络中分布式信道分配方法 |
CN114116061A (zh) * | 2021-11-26 | 2022-03-01 | 内蒙古大学 | 一种移动边缘计算环境下的工作流任务卸载方法及系统 |
CN114116061B (zh) * | 2021-11-26 | 2023-08-18 | 内蒙古大学 | 一种移动边缘计算环境下的工作流任务卸载方法及系统 |
CN114222318A (zh) * | 2021-12-08 | 2022-03-22 | 重庆邮电大学 | 一种认知无线供电反向散射通信网络鲁棒优化方法 |
CN114222318B (zh) * | 2021-12-08 | 2023-12-12 | 国网冀北电力有限公司秦皇岛供电公司 | 一种认知无线供电反向散射通信网络鲁棒优化方法 |
CN114615261B (zh) * | 2022-01-25 | 2024-03-26 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114615261A (zh) * | 2022-01-25 | 2022-06-10 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114513855A (zh) * | 2022-02-23 | 2022-05-17 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114513855B (zh) * | 2022-02-23 | 2024-04-19 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114845363A (zh) * | 2022-04-18 | 2022-08-02 | 中山大学·深圳 | 一种反射面辅助的低功耗数据卸载方法及系统 |
CN114845363B (zh) * | 2022-04-18 | 2023-09-12 | 中山大学·深圳 | 一种反射面辅助的低功耗数据卸载方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112954736A (zh) | 基于策略的无线携能物联网设备的计算卸载 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN110928654B (zh) | 一种边缘计算系统中分布式的在线任务卸载调度方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
Xie et al. | Backscatter-assisted computation offloading for energy harvesting IoT devices via policy-based deep reinforcement learning | |
Nath et al. | Multi-user multi-channel computation offloading and resource allocation for mobile edge computing | |
CN114340016B (zh) | 一种电网边缘计算卸载分配方法及系统 | |
CN107708152B (zh) | 异构蜂窝网络的任务卸载方法 | |
CN112672382B (zh) | 混合协作计算卸载方法、装置、电子设备及存储介质 | |
CN116390161A (zh) | 一种移动边缘计算中基于负载均衡的任务迁移方法 | |
Wang et al. | Joint service caching, resource allocation and computation offloading in three-tier cooperative mobile edge computing system | |
CN114980039A (zh) | D2d协作计算的mec系统中的随机任务调度和资源分配方法 | |
CN116366576A (zh) | 算力网络资源调度方法、装置、设备及介质 | |
Bi et al. | Stable online computation offloading via lyapunov-guided deep reinforcement learning | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN115665869A (zh) | 基于边缘计算和有向无环图的多用户协作平台及其方法 | |
CN116209084A (zh) | 一种能量收集mec系统中任务卸载和资源分配方法 | |
Binh et al. | Value-based reinforcement learning approaches for task offloading in delay constrained vehicular edge computing | |
CN113747507B (zh) | 一种面向5g超密集网络的计算资源管理方法及装置 | |
Xie et al. | Backscatter-aided hybrid data offloading for mobile edge computing via deep reinforcement learning | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN115696587A (zh) | 一种资源分配方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |