CN112954736A

CN112954736A - 基于策略的无线携能物联网设备的计算卸载

Info

Publication number: CN112954736A
Application number: CN201911258082.9A
Authority: CN
Inventors: 谢雨彤; 刘洋; 龚世民; 陆柳村; 汪漪; 刘毅; 肖钟凯
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-11

Abstract

本发明涉及一种基于策略的无线携能物联网设备的计算卸载，1)建立系统模型所述系统模型包括一个混合接入点HAP和N个用户设备的无线传感器网络，能够独立地感知和处理数据；用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算MEC服务器，完成工作负载后，MEC服务器将将处理过的数据返回给用户设备；2)设计基于策略的混合MEC卸载DRL方法。本发明提出一种基于策略的无线携能物联网设备的计算卸载，解决混合移动边缘计算网络的卸载问题，通过与网络环境的交互，优化每个边缘物联网用户的能量收集时间和不同卸载方案之间的工作负载及时间分配。

Description

基于策略的无线携能物联网设备的计算卸载

技术领域

本发明属于无线通信领域，涉及一种基于策略的无线携能物联网设备的计算卸载。

背景技术

无线物联网设备可用于数据采集和决策，如由于医疗监控的可穿戴传感器。由于计算能力有限，低功耗物联网设备可以选择性地将耗电计算卸载到附近的计算服务器。但由于射频载波信号的发射，射频无线电的功率消耗通常很高。因此，基于射频通信的数据卸载对于低功耗物联网设备来说可能是负担不起的，亟需一种高效的方法根据信道条件和能量状态来平衡其数据卸载和计算中的功耗。

发明内容

本发明提出一种基于策略的无线携能物联网设备的计算卸载，解决混合移动边缘计算网络的卸载问题，通过与网络环境的交互，优化每个边缘物联网用户的能量收集时间和不同卸载方案之间的工作负载及时间分配。

本发明解决上述问题的技术方案是：一种基于策略的无线携能物联网设备的计算卸载，其特殊之处在于，包括以下步骤：

1)建立系统模型

所述系统模型包括一个混合接入点HAP和N个用户设备的无线传感器网络，能够独立地感知和处理数据；用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算MEC服务器，完成工作负载后，MEC服务器将将处理过的数据返回给用户设备；

2)设计基于策略的混合MEC卸载DRL方法。

进一步地，所述系统模型具体为：

设N＝{1，2，…，N}表示所有边节点的集合，S_i表示i∈N的第i个边节点；每个节点都配有一个天线，能够以恒定的发射功率从HAP收集能量；HAP和节点S_i之间的复杂上下行信道分别用h_i∈C和g_i∈C表示；每个S_i被分配一个时隙t_i用于其数据卸载，并且能够在同一时隙中收集能量；每个边缘节点S_i的工作负载由L_i给出，L_i定义为要在MEC服务器上本地或远程处理的数据比特数。

进一步地，所述系统模型的卸载步骤包括：

1.1)混合MEC卸载

从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行；在被动模式下，HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号：一部分入射射频信号被反射回来，而另一部分仍被天线捕获并转换成能量；将每个时隙t_i划分为三个子时隙，第一个子时隙t_h，j被用于用户设备获取射频功率，以维持本地计算和数据卸载的能量消耗；后面的两个子槽t_a，j和t_p，j分别用于主动和被动模式下的数据卸载；

1.2)工作量分配

每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配；不同的计算方案具有不同的处理能力和能量消耗。因此，MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况，将工作负载最优地划分到三种方案：

a.主动卸载方案：

设p_a，i为主动卸载时用户S_i的发射功率。HAP处的接收信号是

其中s(t)表示具有单位功率的信息，而ν_d～CN(0，σ²)是HAP处的噪声，然后，活动模式下的数据速率有

r_a，i＝B log₂(1+p_a，i|h_i|²/σ²) (1)

其中B表示活动数据传输的带宽。p_a，i和r_a，i之间的关系表示为：

因此，主动模式下的总功耗由

给出，其中p_c，i表示激励电路的恒定功率；

b.被动卸载方案：

对于被动卸载，HAP处的后向散射信号可以表示为y(n，i)＝αg_ib(n)h_ix(n)，其中x(n)表示HAP发射的载波信号，b(n)∈{0，1}是二元反向散射信息，这里α表示后向散射发射器的反射系数，由天线的负载阻抗决定。假设完全干扰抵消，则可以从接收信号中减去来自HAP的直接传输。因此，我们可以简单地将被动模式中的数据速率近似为r_p，i＝B log(1+|αg_ih_i|²/σ²)。显然，反向散射速率r_p，i小于有源射频通信。然而，通过无线能量收集，反向散射通信的功耗是可以忽略和可持续的。这意味着，当能量足够时，边缘设备更喜欢使用高速射频通信，而当能量不足时，则转向反向散射通信。

c.本地计算：

边缘设备还可以在数据卸载的同时进行本地计算，我们允许不同的边缘设备具有不同的计算能力，让f_i表示设备处理器的计算速度(CPU周期/秒)，每个CPU周期的功耗可以用kf_i ²来描述，其中常数系数k表示计算的能量效率，设0≤t_l，i≤1表示本地计算的时间分配；然后，局部计算的总能耗可以用e_l，i＝kf_i ³t_l，i建模，设φ＞0表示处理一个单位工作负载所需的周期数；因此，可以在本地处理的信息位数有

其中r_l，i＝f_i/φ表示本地计算中的处理速率，我们假设参数f_i和φ对不同的用户设备是固定的；因此，能量消耗e_l，i在本地计算中只与时间和工作量分配有关即

1.3)MEC卸载价格

通过将工作负载卸载到MEC服务器，边缘节点使用MEC服务器的信道资源来接收工作负载并返回结果，同时也消耗了MEC服务器的CPU资源来执行计算任务。所以MEC服务器还需要对使用其MEC卸载服务的每个用户收费。让

表示以主动和被动模式卸载到MEC服务器的总工作量。MEC卸载服务的价格包括两部分。第一部分为信道资源的使用，其与负载卸载率成正比，更高的卸载速率意味着将分配更多的信道资源(例如，带宽和能耗)来接收工作负载。另一部分取决于工作负载的总数，其表示计算资源的成本，例如CPU周期和占用内存。因此，MEC服务器将其价格设置如下：

其中，μ_o表示单位信道价格，ρ_o表示单位计算价格。可以适当调整单价μ_o和ρ_o，以确保可以在其资源限制内处理所有卸载的工作负载。

进一步地，所述步骤2)中，个人用户可以根据其本地观察结果进行卸载决策，在第一个时隙，让

表示能量收集和不同计算方案之间的时间分配，设

分别表示本地计算之间的工作量分配，主动卸载和被动卸载，目标是通过优化每个时隙中的时间和工作负载分配策略

来优化用户的总体性能。特别地，我们将性能指标定义如下：

这里，恒定权重w表示用户对使用MEC卸载服务的偏好；(3)中的第一项表示MEC卸载和本地计算中的能量效率，定义为总工作量除以总能耗；第二项是使用MEC卸载服务的成本；包括以下步骤：

2.1)联合时间和工作量分配；

2.2)MEC卸载问题的MDP重构；

2.3)基于策略的MEC卸载DRL。

进一步地，步骤2.1)联合时间和工作量分配，具体为

边缘用户在每个时隙中的工作负载必须在固定的延迟界限之前完成。假设每个时隙都有单位长度，我们只需要t_h，i+t_a，i+t_p，i≤1。有三种方案必须满足用户的服务需求：

我们有

和

如果工作负载约束(4)不成立，则可能会发生工作负载中断，这意味着在第i个时隙中生成的工作负载不能在延迟界限内成功处理。由于不同方案的计算能力不同，因此需要对工作负载进行最优分配，以最小化工作负载中断概率。

不同的计算方案在能量消耗上也有所不同。特别是，本地计算在CPU周期中消耗功率。主动卸载在射频通信中消耗高功率。无源卸载的功耗远小于射频通信的功耗，可以省略。因此，一个时隙的总能耗由

来表示。分别对应于本地计算和主动卸载。让E_i表示第i个时隙中的可用能量。因此，下一时隙中的剩余能量可以。简单地表示如下：

E_i+1＝min(E_max，(E_i+ηp₀|g_i|²t_h，i-e_i)⁺) (5)

其中E_max表示电池容量，η表示能量转换效率，p₀表示电池的发射功率。到此，我们可以制定如下性能优化问题：

s.t.t_h，i+t_a，i+t_p，i≤1， (6b)

目标函数中的期望值适用于随机工作负载和信道状态的所有实例。显然，问题(6)由于其随机性和非凸结构而很难解决，特别是目标函数和约束都是非凸的。(5)中的电池动态意味着一种非常复杂的动态优化方法。工作量的不确定性也使得优化对于实时实现来说是不切实际的。

进一步地，步骤2.2)MEC卸载问题的MDP重构，具体为：

面对上述实际挑战，传统的基于模型的优化技术变得非常不灵活和低效。接下来，我们采用无模型DRL方法对不确定网络环境下的MEC卸载决策进行优化。DRL扩展了传统的用于求解大动作和状态空间的马尔可夫决策过程(MDP)的强化学习方法。MEC卸载问题的MDP框架可以用元组

来定义。

表示系统状态，表示网络环境的观察集。对于每个边缘用户，系统状态

包括随机工作负载

在每个时隙的开头，能量e∈{0，1，…，E}表示电池内存储的电量中，和有限状态信道条件c∈{0，1，…，C}是定义为

的连续动作空间，其中

表示工作负载分配，t对应于能量收集、本地计算、主动和被动卸载之间的时间分配t＝(t_h，t_l，t_a，t_p)∈(0，1)。

是状态转移概率函数，表示给定当前状态

和卸载动作a_i∈A时下一个状态

的分布。该信息对于决策者通常是不确定的，并且必须在与环境的交互期间被学习。

是评价每个状态的行为质量的奖励函数，定义如下

当工作负载已经成功完成时x_i＝1，否则x_i＝0，这就浪费了计算资源。

给定信道条件、能量状态和工作负载的动态，每个用户设备将相应地选择其动作，以最大化累积的回报。其中γ表示折扣因子。强化学习为寻找对应动作

的每个网络状态

最优策略提供了一种解决方案π^*：

使状态值函数V(s)最大化。在一个小的、有限的状态空间下，Q-learning算法可以得到最优策略。在部分对于每个状态，最优的作用是使Q值函数

最大化，然后通过当前Q值与其目标y_i之间的差值更新Q值，如下所示：

Q_i+1(s_i，a_i)＝Q_i(s_i，a_i)+τ_i[y_i-Q_i(s_i，a_i)]

其中，τ_i可以被看作是一个步长，而目标值y_i是由

来计算的。

进一步地，步骤2.3)基于策略的MEC卸载DRL，具体为：

当状态空间和动作空间较大时，Q-learning算法变得不稳定，甚至无法收敛。在这一部分中，我们引入DRL来学习最优的MEC卸载策略，通过使用深度神经网络DNN作为Q值函数的逼近器。主要有基于值的DRL方法和基于策略的DRL方法。一般说来，基于值的方法，如DQN及其变体，适用于离散的动作空间，而连续动作空间则更好地通过基于策略的方法来处理。

考虑到MEC的连续卸载决策，我们采用基于策略的DRL方法来学习最优的时间和工作量分配策略。深层确定性策略梯度(DDPG)利用DNN的经验重放和目标Q网络，将DQN和确定性策略梯度在行动者-评论者(actor-critic)框架中相结合，使学习更加稳定和鲁棒。基于策略的DRL以梯度方向更新参数策略，以直接改进值函数，可以重写为

其中d^π(s)是策略π_θ的平稳状态分布。DDPG依赖于确定性策略梯度定理，该定理简化了梯度计算

如下所示

其中，π_θ(s)在状态s上产生单个确定性动作，而不是在动作空间上的分布。因此，通过对历史轨迹进行采样，可以有效地实现

的估计。

(8)中的策略梯度激励了actor-critic框架。actor网络对应于渐变方向上的策略参数θ的更新：

其中Q(s_t，a_t|w_t)表示具有DNN权值的参数化Q函数，为了更好地探索学习，我们在π(s_t|θ_t)中加入了随机噪声N_t来构造该行为。Critic网络通过更新DNN权重来估计Q值，如下所示：

其中，δ_t＝y_t-Q_w(s_t，a_t|w_t)表示Q_w(s_t，a_t|w_t)与其目标y_t之间的时间差误差。参数a_θ和a_w被视为参数更新的步长.很明显，在学习过程中，actor网络和critic网络都可以被DNN近似，并且相互依赖。

对于critic网络，Q网络的训练类似于DQN方法，从经验回放记忆中抽取一个小批量。DDPG还采用了在线和目标网络，以确保学习的稳定性。DNN训练旨在最大限度地减少损失函数：

其中y_t由y_t＝r_t+γQ(s_t+1，π(s_t+1|θ′_t)|w′_t)更新，训练样本(s_t，a_t，r_t，s_t+1)是从小批中提取的。对于较小的更新速率τ，目标网络的参数w′_t和θ′_t由下列规则更新：

w′_t+1＝γw_t+(1-γ)w′_t (10)

θ′_t+1＝γθ_t+(1-γ)θ′_t (11)

本发明的优点：

(1)本发明允许每个设备既可以通过传统射频通信也可以使用低功率反向散射通信卸载数据，这使得每个设备中在动态的工作量、信道状态和能量供应环境中可以更灵活地优化卸载策略；

(2)本发明依赖基于策略的DRL方法来解决actor-critic框架中的连续控制问题；

(3)本发明通过与网络环境的交互，优化每个用户的能量获取时间和不同卸载方案间的工作负载分配；

(4)经过数值评估，本发明相对于已有的传统方法在奖励性能、稳定性和学习速度方面均取得了显著地改善。

附图说明

图1用于能量收获物联网设备的混合MEC卸载，(a)为MEC中无线功率混合数据卸载，(b)为MEC的时间分配；

图2为DDPG算法工作流程；

图3为DDPG和DQN方法的性能比较；(a)不同算法完成的工作量，(b)不同计算方案的工作量

图4为不同算法的性能比较；(a)为不同算法的奖励性能，(b)为不同算法的中断性能。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

本方案的主要内容包括系统模型、基于策略的混合移动边缘计算卸载DRL方法。详细方案设计如下：

1)系统模型

考虑一个具有一个混合接入点(HAP)和N个用户设备的无线传感器网络，能够独立地感知和处理数据。用户设备可以设想为医疗保健监控的可穿戴设备。这些信息可以在不同的采样速率下进行采样，以节省能源，保持一定的精度要求。通过机器学习算法可以对感知信息进行局部或远程分析。用于分类、预测和决策，通常是计算密集型的。为了帮助他们的数据处理，用户设备可以通过HAP卸载他们的感知数据和工作负载到附近的移动边缘计算(MEC)服务器。完成工作负载后，MEC服务器将将处理过的数据返回给用户设备。图1说明了该系统模型。

设N＝{1，2，…，N}表示所有边节点的集合，S_i表示i∈N的第i个边节点。每个节点都配有一个天线，能够以恒定的发射功率从HAP收集能量。HAP和节点S_i之间的复杂上下行信道分别用h_i∈C和g_i∈C表示。每个S_i被分配一个时隙t_i用于其数据卸载，并且能够在同一时隙中收集能量。每个边缘节点S_i的工作负载由L_i给出，L_i定义为要在MEC服务器上本地或远程处理的数据比特数。我们假设每个设备的工作负载在每个时隙的开始生成，并且必须在数据帧结束前进行处理。

1.1)混合MEC卸载

从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行。在被动模式下，HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号。一部分入射射频信号被反射回来，而另一部分仍被天线捕获并转换成能量。我们假设每个用户仅具有一个天线，因此它只能在一个无线电模式下发射或者从HAP吸收能量。通过调节负载阻抗，可以实现被动和主动模式之间的切换。我们进一步将每个时隙t_i划分为三个子时隙，如图1(b)所示。第一个子时隙t_h，j被用于用户设备获取射频功率，以维持本地计算和数据卸载的能量消耗。后面的两个子槽t_a，j和t_p，j分别用于主动和被动模式下的数据卸载。除了数据卸载之外，用户设备还可以执行本地计算。与数据卸载同时进行，如图1(b)所示。

1.2)工作量分配

每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配。不同的计算方案具有不同的处理能力和能量消耗。因此，MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况，将工作负载最优地划分到三种方案。

a.主动卸载方案：

设p_a，i为主动卸载时用户S_i的发射功率。HAP处的接收信号是

其中s(t)表示具有单位功率的信息，而ν_d～CN(0，σ²)是HAP处的噪声。然后，活动模式下的数据速率有

r_a，i＝B log₂(1+p_a，i|h_i|²/σ²) (1)

因此，主动模式下的总功耗由

给出，其中p_c，i表示激励电路的恒定功率。

b.被动卸载方案：

对于被动卸载，HAP处的后向散射信号可以表示为y(n，i)＝αg_ib(n)h_ix(n)，其中x(n)表示HAP发射的载波信号，b(n)∈{0，1}是二元反向散射信息。这里α表示后向散射发射器的反射系数，由天线的负载阻抗决定。假设完全干扰抵消，则可以从接收信号中减去来自HAP的直接传输。因此，我们可以简单地将被动模式中的数据速率近似为r_p，i＝B log(1+|αg_ih_i|²/σ²)。显然，反向散射速率r_p，i小于有源射频通信。然而，通过无线能量收集，反向散射通信的功耗是可以忽略和可持续的。这意味着，当能量足够时，边缘设备更喜欢使用高速射频通信，而当能量不足时，则转向反向散射通信。

c.本地计算：

边缘设备还可以在数据卸载的同时进行本地计算。我们允许不同的边缘设备具有不同的计算能力。让f_i表示设备处理器的计算速度(CPU周期/秒)。每个CPU周期的功耗可以用kf_i ²来描述，其中常数系数k表示计算的能量效率。设0≤t_l，i≤1表示本地计算的时间分配。然后，局部计算的总能耗可以用e_l，i＝kf_i ³t_l，i建模，设φ＞0表示处理一个单位工作负载所需的周期数。因此，可以在本地处理的信息位数有

其中r_l，i＝f_i/φ表示本地计算中的处理速率。我们假设参数f_i和φ对不同的用户设备是固定的。因此，能量消耗e_l，i在本地计算中只与时间和工作量分配有关即

1.3)MEC卸载价格

2)基于策略的混合MEC卸载DRL方法

个人用户可以根据其本地观察结果进行卸载决策。以下我们将重点放在单个用户上，并力求最大限度地提高其长期性能。在第一个时隙，让

表示能量收集和不同计算方案之间的时间分配。设

分别表示本地计算之间的工作量分配，主动卸载和被动卸载。我们的目标是通过优化每个时隙中的时间和工作负载分配策略

这里，恒定权重w表示用户对使用MEC卸载服务的偏好。(3)中的第一项表示MEC卸载和本地计算中的能量效率，定义为总工作量除以总能耗。第二项是使用MEC卸载服务的成本。

2.1)联合时间和工作量分配

我们有

和

E_i+1＝min(E_max，(E_i+ηp₀|g_i|²t_h，i-e_i)⁺) (5)

s.t.t_h，i+t_a，i+t_p，i≤1， (6b)

2.2)MEC卸载问题的MDP重构

来定义。

包括随机工作负载

的连续动作空间，其中

是状态转移概率函数，表示给定当前状态

和卸载动作a_i∈A时下一个状态

是评价每个状态的行为质量的奖励函数，定义如下

的每个网络状态

最优策略提供了一种解决方案π^*：

Q_i+1(s_i，a_i)＝Q_i(s_i，a_i)+τ_i[y_i-Q_i(s_i，a_i)]

其中，τ_i可以被看作是一个步长，而目标值y_i是由

来计算的。

2.3)基于策略的MEC卸载DRL

如下所示

的估计。

w′_t+1＝γw_t+(1-γ)w′_t (10)

θ′_t+1＝γθ_t+(1-γ)θ′_t (11)

基于DDPG的MEC卸载算法的工作流程如图2所示。

本方案对DDPG算法的性能进行了仿真实验评估。HAP的发射功率设为p₀＝10mW，能量转换效率为η＝0.6。信道在一个时隙内保持静态，并在不同的时隙中遵循有限状态的马尔可夫链。我们假设每个用户的工作负载是在0和50kbits之间随机生成的。恒定电路功率设为p_c＝10μW。噪声功率为σ²＝-110dBm，带宽为B＝400kHz。

图3(a)显示了不同MEC卸载算法完成的总工作量。贪心算法(greedy scheme)表示用户总是选择短视动作来最大化即时奖励。在收敛过程中，DDPG和基于DQN的MEC卸载方案都比贪心算法好很多。此外，DDPG算法的总报酬总是高于DQN算法。观察到DDPG法和DQN法训练30k后均达到收敛值。虽然DDPG算法没有显示出更好的学习速度，但它通常具有更稳定的学习速度。如图3(a)所示。图3(b)示出分配给不同计算方案的工作负载，包括本地计算、主动和被动卸载。在25k次之前，三个方案中的工作负载动态地变化，因此在早期阶段的工作量中断概率将很高。最初，本地计算完成了工作负载的最大部分。此外，被动卸载方案比主动卸载方案的工作量大。这意味着边缘设备最初没有足够的能量供应，更倾向于低能耗的本地计算和被动卸载方案。发生25k次训练后，归属于主动卸载方案的工作量继续增加。这是因为边缘节点逐渐改善了其时间分配策略，并收获了更多的RF功率以维持其主动卸载。

图4(a)显示了不同算法的总奖励(即能源效率减去MEC卸载服务的价格)。显然与贪心算法和传统的DQN方法相比，用于连续时间和工作量分配的DDPG算法获得了最高的奖励。通常，DQN方法必须通过有线的离散集来近似连续的动作空间，这不可避免地会带来量化误差，并导致性能下降。与DQN算法相比，DDPG算法可以对连续决策变量进行更精确的控制。如图4(b)所示，该算法在奖励和中断概率方面均具有稳定的学习曲线，从而也证明了这一点。DDPG算法中的精确控制可以最小化其中断性能，即几乎每个时隙中的所有工作负载都可以成功完成。

以上所述仅为本发明的实施例，并非以此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的保护范围内。

Claims

1.一种基于策略的无线携能物联网设备的计算卸载，其特征在于，包括以下步骤：

1)建立系统模型

2)设计基于策略的混合MEC卸载DRL方法。

2.根据权利要求1所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

所述系统模型具体为：

3.根据权利要求2所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

所述系统模型的卸载步骤包括：

1.1)混合MEC卸载

从每个用户卸载到MEC服务器的数据可以在被动反向散射通信或主动射频通信中执行；在被动模式下，HAP的波束形成提供用于边缘节点执行反向散射通信的载波信号：一部分入射射频信号被反射回来，而另一部分仍被天线捕获并转换成能量；将每个时隙t_i划分为三个子时隙，第一个子时隙t_h，i被用于用户设备获取射频功率，以维持本地计算和数据卸载的能量消耗；后面的两个子槽t_a，j和t_p，j分别用于主动和被动模式下的数据卸载；

1.2)工作量分配

每个时隙产生的工作负载可以在本地计算、主动卸载和被动卸载之间进行分配；不同的计算方案具有不同的处理能力和能量消耗；因此，MEC卸载方案的设计目的是根据工作负载的动态特性、信道条件和各边缘设备的能量供应情况，将工作负载最优地划分到三种方案：

a.主动卸载方案：

设p_a，i为主动卸载时用户S_i的发射功率；HAP处的接收信号是

r_a，i＝B log₂(1+p_a，i|h_i|²/σ²) (1)

其中B表示活动数据传输的带宽，p_a，i和r_a，i之间的关系表示为：

因此，主动模式下的总功耗由

给出，其中p_c，i表示激励电路的恒定功率；

b.被动卸载方案：

对于被动卸载，HAP处的后向散射信号可以表示为y(n，i)＝αg_ib(n)h_ix(n)，其中x(n)表示HAP发射的载波信号，b(n)∈{0，1}是二元反向散射信息，这里α表示后向散射发射器的反射系数，由天线的负载阻抗决定；假设完全干扰抵消，则可以从接收信号中减去来自HAP的直接传输；因此，将被动模式中的数据速率近似为r_p，i＝B log(1+|αg_ih_i|²/σ²)；显然，反向散射速率r_p，i小于有源射频通信；然而，通过无线能量收集，反向散射通信的功耗是可以忽略和可持续的；

c.本地计算：

边缘设备还可以在数据卸载的同时进行本地计算，允许不同的边缘设备具有不同的计算能力，让f_i表示设备处理器的计算速度(CPU周期/秒)，每个CPU周期的功耗可以用kf_i ²来描述，其中常数系数k表示计算的能量效率，设0≤t_l，i≤1表示本地计算的时间分配；然后，局部计算的总能耗可以用

建模，设φ＞0表示处理一个单位工作负载所需的周期数；因此，可以在本地处理的信息位数有

其中r_l，i＝f_i/φ表示本地计算中的处理速率，假设参数f_i和φ对不同的用户设备是固定的；因此，能量消耗e_l，i在本地计算中只与时间和工作量分配有关即

1.3)MEC卸载价格

通过将工作负载卸载到MEC服务器，边缘节点使用MEC服务器的信道资源来接收工作负载并返回结果，同时也消耗了MEC服务器的CPU资源来执行计算任务；所以MEC服务器还需要对使用其MEC卸载服务的每个用户收费；让

表示以主动和被动模式卸载到MEC服务器的总工作量；MEC卸载服务的价格包括两部分：第一部分为信道资源的使用，其与负载卸载率成正比，更高的卸载速率意味着将分配更多的信道资源来接收工作负载，另一部分取决于工作负载的总数，其表示计算资源的成本，因此，MEC服务器将其价格设置如下：

其中，μ_o表示单位信道价格，ρ_o表示单位计算价格。

4.根据权利要求3所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

所述步骤2)中，个人用户可以根据其本地观察结果进行卸载决策，在第一个时隙，让

表示能量收集和不同计算方案之间的时间分配，设

来优化用户的总体性能，将性能指标定义如下：

2.1)联合时间和工作量分配；

2.2)MEC卸载问题的MDP重构；

2.3)基于策略的MEC卸载DRL。

5.根据权利要求4所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

步骤2.1)联合时间和工作量分配，具体为

边缘用户在每个时隙中的工作负载必须在固定的延迟界限之前完成；假设每个时隙都有单位长度，则需要t_h，i+t_a，i+t_p，i≤1；有三种方案必须满足用户的服务需求：

有

和

如果工作负载约束(4)不成立，则可能会发生工作负载中断，在第i个时隙中生成的工作负载不能在延迟界限内成功处理；由于不同方案的计算能力不同，因此需要对工作负载进行最优分配，以最小化工作负载中断概率；

不同的计算方案在能量消耗上也有所不同；本地计算在CPU周期中消耗功率，主动卸载在射频通信中消耗高功率，无源卸载的功耗远小于射频通信的功耗，可以省略，因此，一个时隙的总能耗由

来表示，分别对应于本地计算和主动卸载，让E_i表示第i个时隙中的可用能量，因此，下一时隙中的剩余能量可以，简单地表示如下：

E_i+1＝min(E_max，(E_i+ηp₀|g_i|²t_h，i-e_i)⁺) (5)

其中E_max表示电池容量，η表示能量转换效率，p₀表示电池的发射功率，到此，可以制定如下性能优化问题：

s.t.t_h，i+t_a，i+t_p，i≤1， (6b)

目标函数中的期望值适用于随机工作负载和信道状态的所有实例。

6.根据权利要求5所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

步骤2.2)MEC卸载问题的MDP重构，具体为：

采用无模型DRL方法对不确定网络环境下的MEC卸载决策进行优化，DRL扩展了传统的用于求解大动作和状态空间的马尔可夫决策过程(MDP)的强化学习方法，MEC卸载问题的MDP框架可以用元组

来定义；

表示系统状态，表示网络环境的观察集；对于每个边缘用户，系统状态

包括随机工作负载

的连续动作空间，其中

表示工作负载分配，t对应于能量收集、本地计算、主动和被动卸载之间的时间分配t＝(t_h，t_l，t_a，t_p)∈(0，1)；

是状态转移概率函数，表示给定当前状态

和卸载动作a_i∈A时下一个状态

的分布；该信息对于决策者通常是不确定的，并且必须在与环境的交互期间被学习；

是评价每个状态的行为质量的奖励函数，定义如下

当工作负载已经成功完成时x_i＝1，否则x_i＝0；

给定信道条件、能量状态和工作负载的动态，每个用户设备将相应地选择其动作，以最大化累积的回报；其中γ表示折扣因子；强化学习为寻找对应动作

的每个网络状态

最优策略提供了一种解决方案

使状态值函数V(s)最大化；在一个小的、有限的状态空间下，Q-learning算法可以得到最优策略；在部分对于每个状态，最优的作用是使Q值函数

Q_i+1(s_i，a_i)＝Q_i(s_i，a_i)+τ_i[y_i-Q_i(s_i，a_i)]

其中，τ_i可以被看作是一个步长，而目标值y_i是由

来计算的。

7.根据权利要求6所述的一种基于策略的无线携能物联网设备的计算卸载，其特征在于：

步骤2.3)基于策略的MEC卸载DRL，具体为：

采用基于策略的DRL方法来学习最优的时间和工作量分配策略，深层确定性策略梯度DDPG利用DNN的经验重放和目标Q网络，将DQN和确定性策略梯度在行动者-评论者actor-critic框架中相结合，，基于策略的DRL以梯度方向更新参数策略，以直接改进值函数，可以重写为

其中d^π(s)是策略π_θ的平稳状态分布，DDPG依赖于确定性策略梯度定理，该定理简化了梯度计算

如下所示

其中，π_θ(s)在状态s上产生单个确定性动作，而不是在动作空间上的分布；因此，通过对历史轨迹进行采样，可以有效地实现

的估计；

(8)中的策略梯度激励了actor-critic框架；actor网络对应于渐变方向上的策略参数θ的更新：

其中Q(s_t，a_t|w_t)表示具有DNN权值的参数化Q函数，在π(s_t|θ_t)中加入了随机噪声N_t来构造该行为，Critic网络通过更新DNN权重来估计Q值，如下所示：

其中，δ_t＝y_t-Q_w(s_t，a_t|w_t)表示Q_w(s_t，a_t|w_t)与其目标y_t之间的时间差误差；参数a_θ和a_w被视为参数更新的步长，在学习过程中，actor网络和critic网络都可以被DNN近似，并且相互依赖；

对于critic网络，Q网络的训练类似于DQN方法，从经验回放记忆中抽取一个小批量；DDPG还采用了在线和目标网络，以确保学习的稳定性；DNN训练旨在最大限度地减少损失函数：

其中y_t由y_t＝r_t+γQ(s_t+1，π(s_t+1|θ′_t)|w′_t)更新，训练样本(s_t，a_t，r_t，s_t+1)是从小批中提取的；对于较小的更新速率τ，目标网络的参数w′_t和θ′_t由下列规则更新：

w′_t+1＝γw_t+(1-γ)w′_t (10)

θ′_t+1＝γθ_t+(1-γ)θ′_t (11)。