CN109121221B

CN109121221B - 一种无线能量分配和用户调度的方法

Info

Publication number: CN109121221B
Application number: CN201811266827.1A
Authority: CN
Inventors: 唐岚; 郭德邻; 时占; 张兴敢
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-12-17
Anticipated expiration: 2038-10-29
Also published as: CN109121221A

Abstract

本发明公开了一种无线能量分配和用户调度的方法，包括1个以可充电电池和能量收集装置供电的基站，N个配有能量采集装置的用户，并且基站发射端只知道信道的估计值，包括如下步骤：基站对用户发射射频信号，并选择一个用户进行信息接收，其他用户可以从射频信号中获取能量以供使用。本发明使系统在满足用户能量收集约束以及基站能量到达的因果约束的条件下，进行用户调度和能量分配，使得系统获得最大的吞吐量。

Description

一种无线能量分配和用户调度的方法

技术领域

本发明属于无线通信领域，具体涉及一种可再生能源供能的通信系统(简称“系统”)中最优化能量分配和用户调度方法，更涉及一种基于强化学习(ReinforcementLearning)的在线学习最优化能量分配和用户选择策略的方法。

背景技术

随着5g和物联网的发展,越来越多的复杂的无线通信网络被建立起来，包括数以百计的电池驱动的节点。不幸的是,这些无线终端的电池容量是有限的,需要手动充电和更换,导致劳动力成本增加。在某些危险地区,有些设备不方便来取代，这使得通讯设备不可持续工作。随着人类环境保护意识的增加,人们更加关注绿色能源在无线通信的使用。能量采集(Energy harvesting)是一种很有前途的方法来减少碳排放。因此,配备有能量采集装置的通信系统吸引了大量研究人员的注意。

但目前,基于能量采集的无线通信系统面临两个挑战。首先,由于周边环境的不确定性，采集到的能量是不稳定的(如风能或者太阳能)。这意味着通信系统可能面临着能源短缺的风险，从而导致不可靠。其次,在每一个时刻,可用的能量是十分有限的,尽管在未来可能收集到更多的能量。因此如何分配这些能量，发送多少或者发送给谁等等问题，都需要研究。

目前的能量最优化分配方法大多数都是基于凸优化方法。但是这种方法都需要系统环境的所有信息，如发射器知道过去至将来任意时刻的信道信息，因此这在实际中是不可能的。通常来说，无线通信中信道的变化可视为一个随机过程，是一个动态问题，从而很难再使用凸优化方法解决问题。因此，寻找一种适用的算法来使系统的性能达到我们的要求具有重要意义。

发明内容

本发明的目的在于弥补上述现有技术的不足，提出一种无线能量分配和用户调度的方法，使系统在满足用户能量收集约束条件以及基站能量到达的因果约束的条件下，进行用户调度和能量分配，使得系统获得最大的吞吐量。

本发明采用的技术方案为一种无线能量分配和用户调度的方法，包括1个以可充电电池和能量收集装置供电的基站，N个配有能量采集装置的用户，并且基站发射端只知道信道的估计值，包括如下步骤：

(1)通信系统在K个时隙中进行，在第k个时隙，所述基站对N个用户发射射频信号,其中发射的能量为T_k，只有一个用户被选作进行信息接收，其余的用户进行能量接收；

(2)所述基站由可充电电池供电，所述能量收集装置为可充电电池充电，在下个时隙存入到可充电电池中供基站使用，能量到达过程为一阶马尔科夫过程，发射的能量T_k小于当前的可充电电池的电量B_k；

(3)根据当前观测的通信系统状态，来选择进行用户调度和能量分配，选择最佳的用户和最合适的能量以发送，从而在满足用户能量收集约束条件的情况下达到最大的吞吐量。

进一步的，所述步骤(2)中，在时隙k收集的能量为Eh_k，下一时隙的电池电量为B_k+1＝min{B_k+Eh_k-T_k,B_max},而能量采集的一阶马尔科夫过程表示为Pr(Eh_k|Eh_k-1,…Eh₁)＝P(Eh_k|Eh_k-1)，其中B_max是电池容量，P(.|.)是条件概率。

进一步的，所述步骤(3)中，还包含以下步骤：

1)将信道离散化，使得信道功率增益只有有限个值；

2)通过强化学习方法和二分法来优化能量T_k和用户n的选择，选择最优的能量和用户从而使得通信系统在满足用户收集能量的约束下达到最大的吞吐量。若系统模型已知，我们将使用策略迭代算法在当前的拉格朗日乘子λ下计算出最优的吞吐量和能量收集量，再用二分法对λ进行更新，如此反复，直到得出满足条件的λ，然后计算出当前的吞吐量和能量收集量。若系统模型位置，则我们将采取一种叫做Q-learning的强化学习算法去计算出在当前λ下最优的吞吐量和能量收集量，同样再用二分法对λ进行更新，如此反复，直到得出满足条件的λ，然后计算出当前的吞吐量和能量收集量。

本发明的有益效果为：

本发明提出了基于能量采集的多用户通信系统中的无线能量分配和用户调度方法。通过配合使用强化学习方法和二分法来得到最优的能量分配和用户选择，从而使得系统在满足用户收集能量的约束下达到最大的吞吐量。

附图说明

图1是本发明的系统模型图；

图2是本发明的策略迭代算法程序流程图；

图3是本发明的Q-learning算法框图；

图4是本发明的总体算法示意图；

图5是λ为0时改变电池容量对吞吐量的影响示意图；

图6策略迭代算法和Q-learning算法的结果对比的示意图；

图7是λ对吞吐量影响以及Q-learning算法和策略迭代算法比较示意图。

图8是λ对能量收集影响和Q-learning算法和策略迭代算法比较示意图。

具体实施方式

如图1所示，我们所考虑的通信系统是由一个配有能量采集模块进行采能并且以电池供电的基站和N个由电池供能的用户终端所组成的，其中用户终端能对射频能量进行采能或者进行信息传输。基站和每个用户之间都是单天线传输。此外我们在用户终端上采取了时分接受模块，即在同一时刻只能进行能量收集或者信息接受中的一种功能。

(1)我们认为通信系统在K个时隙中进行，并且将每个时隙的时间长度归一化为1。在第k∈{1,2,…K}个时隙，基站对N个用户发射射频信号,其中发射的能量为T_k，只有一个用户被选作进行信息接收，其余的用户进行能量接收。为了便于描述，那么我们引入一个变量ρ_k(n)∈{0,1},

n,第k个时隙时,第n个用户被选为进行信息接受用ρ_k(n)＝1表示，ρ_k(n)＝0代表该用户被选为进行能量收集，并且

若用户n在时隙k进行信息接收，那么用户n接收的互信息量为

其中h_k(n)是第n∈{1,2,…,N}个用户在时隙k的信道功率增益，N_n是加性高斯白噪声的功率谱密度,W是信道带宽。若用户n在时隙k进行能量收集，则收集的能量为

Q_k(n)＝ξ_nT_kh_k(n) (2),

其中ξ_n是用户n的能量接收效率，0<ξ_n<1。

(2)在时隙k收集的能量为Eh_k，下一时隙的电池电量为B_k+1＝min{B_k+Eh_k-T_k,B_max},而能量采集的一阶马尔科夫过程表示为Pr(Eh_k|Eh_k-1,…Eh₁)＝P(Eh_k|Eh_k-1)，其中B_max是电池容量，P(.|.)是条件概率。

(3)我们将信道离散为FSMC(finite state Markov channel,有限状态马尔科夫信道)模型,即信道功率增益只有有限个值而非连续值。认为

是信道功率增益的观测值，定义向量h_k＝[h(1),…,h_k(N)]为N个用户在时隙k的信道功率增益,我们认为不同的用户之间是相互独立的，那么两个相邻时隙间的信道功率增益转移概率可表示为

其中∏...表示连乘符。我们将N个用户的信道功率增益的联合观测值用向量

来表示，那么同样可以得出信道观测值的转移概率为

在此引入状态的定义:在时隙k时的状态为S_k＝[h_k,B_k,Eh_k]。由于我们只知道信道功率增益的观测值，那么类似的可以定义观测状态为

包含了所有当前系统的已知信息，包括

我们用

表示状态空间，即

其中

是状态空间

的长度。由于无法获得真实的信道功率增益，使得基站无法知道准确的互信息量，因此我们使用互信息量的数学期望值，其定义为

其中E[.|.]是基于条件数学期望值。让我们考虑无限时隙的情况，即K→∞时，如果单纯的进行累加，将会得到发散的式子从而无法求解,所以我们采用带有折扣因子的总吞吐量，其表示为

其中γ是折扣因子，是一个小于1且接近于1的常数，以确保(4)式不会发散至无穷大并且具有实际意义。同理我们可以将能量收集的数学期望表示为

那么每个用户平均收集的总折扣能量为

考虑无穷个时隙的情况，我们要使N个用户总的折扣吞吐量最大，并且能量收集也得满足Q_sum≥Q_req。则我们的问题可以表示为如下一个带约束的优化问题：

st:C1:Q_sum≥Q_req

可以发现，我们的问题(7)是一个MDP(Markov decision process,马尔科夫决策过程)，即下一个系统状态的概率是取决于当前系统状态和执行的动作。系统模型已知的时候，MDP可以用表示用一个四元组<S,A,P,R>表示。MDP四元组由下面四个部分组成：

1)状态空间

状态空间是系统状态观测值的集合

第k个时隙的状态观测值可表示为S_k＝[h_k,B_k,Eh_k]。<S,A,P,R>

2)动作空间

第k个时隙发射的能量

此外，我们用ρ_k＝[ρ_k(1),ρ_k(2),...,ρ_k(N)]表示用户选择向量。而第k个时隙的动作可表示为A_k＝[T_k,ρ_k]。我们用集合

表示动作空间。

3)转移概率P:我们定义P是状态转移概率集。我们用P(s′|s,a)表示在当前状态为s时执行动作a后，下个时隙状态转移到s′的概率。

4)及时奖赏函数R:R是奖励函数,我们使用R(s′|s,a)表示在当前状态为s时执行动作a，下个时隙状态转移到s′的奖赏值。由于本问题中即时奖励与下一个时隙的状态无关，因此可以将其重写为R(s,a)。本发明的具体奖励函数将在后面介绍。

为了解决问题(7),我们首先构造一个拉格朗日函数J(λ)＝G_sum+λQ_sum，得到

其中

接下来，对于J(λ)，首先在给定λ时，并在满足约束C2至C5的情况下，求出的J(λ)最大值，即求解：

st:C2,C3,C4,C5

求解问题(10)的具体方法将在随后介绍。然后就可以找出关于给定λ时，在(Q,G)平面上给定λ的最优可行点(Q_sum(λ),G_sum(λ))，那么G_sum(λ)就是在给定收集能量约束目标Q_sum(λ)的情况下的可达到的最大值。我们要找到一个λ^o使得Q_sum(λ^o)＝Q_req，而本发明由于是状态和动作是离散值，最后不一定能满足Q_sum(λ^o)＝Q_req，则我们可以取

求解我们分为两个步骤：(1)首先给定一个λ，求出对应于此时的(Q_sum(λ),G_sum(λ))，(2)使用二分法去更新λ，最终求得符合条件的λ^o。从而求解问题(7)，达到我们的优化目的。

接下来，我们首先对问题(10)进行求解，对于系统模型已知时，即系统MDP四元组是已知的，那么上述问题(10)的最优值的求解可以看作一个基于模型的强化学习任务，那么就可以用策略迭代(Policy Iteration)算法求解问题(10)。

策略迭代法，顾名思义肯定和策略有关，我们定义π为策略，而策略是一个从状态到动作的映射，即

当然还可能有随机策略，策略迭代法中的策略为固定策略。

策略迭代法的思想是首先评估当前策略下的值函数，然后进行策略改进，不断循环策略评估和策略改进，直至策略不再发生变化，即得到了使得状态值函数最大的最优策略。对问题(10)使用策略迭代算法即可得到在给定λ时最大的J(λ)值和使J(λ)最大的最优策略π^*。状态值函数(state-value function)V^π(s)的含义就是从状态s开始，一直执行策略π所能带来的奖赏。若起始状态是s，那关于问题(10)的状态值函数为

式(11)叫做γ折扣累计奖赏,由于MDP具有马尔科夫性质，即下一时刻的系统的状态仅有当前的系统状态所决定，不依赖于以往任何状态，所以状态值函数具有很简单的递归形式。一般的，给定策略π，对于γ折扣累计奖赏，状态值函数分别具有如下递归形式：

对于一个策略是否是最优策略，我们首先要对其做出评估，得出在这个策略下的值函数。对于(12)，在系统状态已知时，R和P是已知的,那么未知数只有状态值函数，所以其实是一个解线性方程组的问题。一般的，采用数值方法求解比较符合我们的目的。我们采用如下更新规则去求解状态状态值函数：

其中V(s)的迭代初始值可以为任意值。

但是在上述部分，供评估的策略π是一个随机给定的策略，一般不是最优的，那么我们需要对策略做出改进。从而得到最优策略

最优策略π^*使得按照这个最优策略进行决策，总能得到最大的期望奖赏，即

由于我们需要改进动作，先给出状态-动作值函数Q的定义。

策略改进只需要在选择当前策略时采用贪心策略，即将动作改变为当前最优的动作。值函数对于策略的每一点改进都是单调的，那么可以放心的将策略改进为

π′(s)＝argmax_aQ^π(s,a) (15)

不断循环策略评估和策略改进，直到策略不再发生变化，此时策略即为最优策略。

那么我们将策略评估和策略改进算法结合起来，就得到了策略迭代算法，策略迭代算法的流程图由图2给出。当得到最优策略π^*后，就可以根据最优策略计算当前λ下的Q_sum(λ)和G_sum(λ)。其计算方法相当于对目前的最优策略进行一次策略评估。但是在计算Q_sum(λ)时，需要将及时回报函数改为

而在计算G_sum(λ)时及时回报函数改为

然后其他流程和策略评估过程一致。

我们根据最优策略计算得到Q_sum(λ)和G_sum(λ)后，我们将利用二分法求得

很显然，λ将Q_sum加入到奖赏函数中，λ就是一个权重，随着λ的增加，发射器在做决策时更加侧重于增大Q_sum的值，那么所求得的最优策略在使得J(λ)最大时更倾向做决策使Q_sum越大，所以Q_sum(λ)是随着λ递增而递增的，而G_sum(λ)是随着λ递增而减小的。可得G_sum(Q_sum)是一个单调递减的曲线。受到单调性的启发，那么我们可以通过结合使用策略迭代方法和二分法去逼近最优解。其详细描述将会在对Q-learning算法说明完毕之后说明。

但是系统模型是不一定可以事先知道的，假设我们的发射器在做决策前并不知道状态转移概率，即不知道P(s′|s,a)，也不知道采取某个动作将会带来多少及时收益R(s,a,λ)，只有在完成了某个动作后，才会得到环境所反馈的及时回报，和下一个时隙的状态。即便我们不知道系统模型，但只要这个问题是一个MDP问题，我们就能用Q-learning算法去学习得到最优的策略。

Q-learning是一种异策略的时序差分学习方法，具有蒙特卡洛方法和动态规划的思想。Q-learning第一步就是初始化所有的动作状态值(action-state value)，即对所有的

将Q(s,a)都初始化为一个任意值，则可以将初始化的值视为一个Q表格，每个状态-动作对都对应着一个Q值。

很显然，任意初始化的动作状态值一般不会是真正的动作状态值。而Q-learning就是一种能不断更新Q表格的算法，并且随着算法的进行，Q表格最终将会收敛至Q^π*(s,a)。Q-learning是学习一步都会对Q表中的一个值进行一次更新。而每一个时隙的更新步骤如下：

1.在时隙k时，状态为

执行动作

2.观察下一时隙的状态

和及时奖赏

3.更新Q表：Q(s,a)←Q(s,a)+α(R(s,a,λ)+γmax_a′Q(s′,a′)-Q(s,a))

其中α是学习率，是一个小于1大于0的值。一般来说在算法进行的初期稍微大一些，而算法进行的后期更希望它小一些，这样时常能获得更好的收敛性。在Q-learning中，首先选择一个动作，然后执行上述三步，从而就能不断更新Q值了。如果当前的Q值时最优的Q值，即Q(s,a)＝Q^π*(s,a)，那么我们在状态

选取动作时只需按照贪心算法，选取值Q表中值最大的动作即可，即a＝argmax_aQ(s,a),但是当前的Q值只是最优Q值的一个估计值，并不一定是真实的最优值，那么当前选择动作时就面临着一个探索和利用之间平衡的问题。所以我们采用ε-greedy策略，ε是一个小于1的正数，ε-greedy策略就是以ε的概率随机选择动作，而以1-ε的概率选取当前状态下对应Q表中最大值的那个动作。Q-learning算法见图3，其中x_stop是预设的算法停止步数。而获得最优策略后，同样需要计算Q_sum(λ)和G_sum(λ)，在不知道系统转移概率时，计算Q_sum(λ)和G_sum(λ)的算法流程图与Q-learning相似，只需要在选取动作时，从原来的ε-greedy策略改为给定的策略π即可。其流程如下：

1.

初始化V(s)为任意值,初始化一个状态s,并输入策略π，计数符x＝0

2.选取动作a＝π(s),并且执行动作，得到奖赏r(s,a)和下一个时隙的状态s′。

3.更新状态值函数：V(s)←V(s)+α(r(s,a,λ)+γV(s′)-V(s))

4.x←x+1,若x>x_stop,那么结束过程。否则s←s′，然后回到第2步。

不断执行以上四步即可计算出Q_sum(λ)和G_sum(λ)。计算Q_sum(λ)时，及时回报函数r(s,a)为R_Q(s,a)，G_sum(λ)的及时回报函数r(s,a)为R_G(s,a)。

然后我们需要结合使用二分法去获取我们所需要的λ。I.首先将一个较小的值赋给拉格朗日乘子λ，这个较小值为λ_low，利用策略迭代法或者Q-learning算法，得到在拉格朗日乘子λ＝λ_low时的最优策略π^*，其中此时的最优策略π^*是可以使J(λ_low)达到最大值的策略；然后再根据该最优策略计算出当前的Q_sum(λ_low)和G_sum(λ_low)，并确保选中的λ_low使得Q_sum(λ_low)≤Q_req；其中Q_sum(λ_low)和G_sum(λ_low)表示在给定λ_low时所求得的总折扣能量收集量和总折扣吞吐量。II.然后将一个较大的值赋给拉格朗日乘子λ，这个较大值为λ_high，利用策略迭代法或者Q-learning算法，得到在拉格朗日乘子λ＝λ_high时的最优策略π^*，此时的最优策略π^*是使J(λ_high)达到最大值的策略，然后再根据最优策略计算出Q_sum(λ_high)和G_sum(λ_high)，并确保选中的λ_high可以使得Q_sum(λ_high)≤Q_req；其中Q_sum(λ_high)和G_sum(λ_high)表示在给定λ＝λ_high时所求得的总折扣能量收集量和总折扣吞吐量。III.再通过二分法更新λ，更新方式如下：

然后将λ_new赋值给λ。IV.最后对更新后的λ＝λ_new使用策略迭代法或者Q-learning算法，得到当前的最优策略π^*，然后再根据最优策略计算出当前的Q_sum(λ_new)和G_sum(λ_new)；如果Q_sum(λ_new)≥Q_req,那么将λ_new的值赋给λ_high，否则赋给λ_low；然后返回第III步；当Q_sum(λ)和Q_req的差值很小，或者Q_sum(λ)随着算法的进行也不再改变时，算法停止，输出此时的λ值和在当前λ的情况下求出的策略π^*。此时的策略π^*即为我们所求。其算法的详细流程图见图4所示。

最后我们进行了仿真，图5是在固定λ＝0的情况下，展示了改变电池容量B_max对吞吐量的影响，并且以随机策略作为参照。可以发现，在采取了我们的优化算法后，其吞吐量明显高于执行随机策略带来的吞吐量。

图6我们分别对4个用户和6个用户使用Q-learning算法和策略迭代算法进行仿真。其纵坐标是总折扣吞吐量的期望值，横坐标是(N-1)个用户收集的平均折扣能量。可以发现策略迭代算法就是Q-learning算法的上界。并且随着用户数的增多，收集的能量越多，因为有更多的空闲用户参与到能量收集中来。

图7和图8是我们研究了改变λ的值，研究λ分别对吞吐量和收集能量的影响，并且同样使用了Q-learning算法和策略迭代算法。可以发现随着λ的增加，收集的能量越多，而吞吐量越少。而且Q-learning算法产生的曲线和策略迭代算法产生的曲线十分相近。

Claims

1.一种无线能量分配和用户调度的方法，包括1个以可充电电池和能量收集装置供电的基站，N个配有能量采集装置的用户，并且基站发射端只知道信道的观测值，包括如下步骤：

(1)通信系统在K个时隙中进行，并且将每个时隙的时间长度归一化为1，在第k∈{1，2，...K}个时隙，基站对N个用户发射射频信号，其中发射的能量为T_k，只有一个用户被选作进行信息接收，其余的用户进行能量接收，为了便于描述，引入一个变量ρ_k(n)∈{0，1}，

n，第k个时隙时，第n个用户被选为进行信息接收用ρ_k(n)＝1表示，ρ_k(n)＝0代表该用户被选为进行能量收集，并且

若用户n在时隙k进行信息接收，那么用户n接收的互信息量I_k(n)为

其中h_k(n)是第n∈{1，2，...，N}个用户在时隙k的信道功率增益，N_n是加性高斯白噪声的功率谱密度，W是信道带宽，若用户n在时隙k进行能量收集，则收集的能量Q_k(n)为

Q_k(n)＝ξ_nT_kh_k(n)，

其中ξ_n是用户n的能量接收效率，0＜ξ_n＜1，在时隙k收集的能量为Eh_k，下一时隙的电池电量为B_k+1＝min{B_k+Eh_k-T_k，B_max}，其中B_max是电池容量，认为

是信道功率增益的观测值，定义向量h_k＝[h(1)，...，h_k(N)]为N个用户在时隙k的信道功率增益，定义N个用户的信道功率增益的联合观测值为向量

在时隙k时的状态为S_k＝[h_k，B_k，Eh_k]，定义观测状态为

用

表示状态空间，即

其中

是状态空间

的长度，互信息量的数学期望值定义为

其中E[.|.]是基于条件数学期望值，考虑无限时隙的情况，即K→∞时，如果单纯的进行累加，将会得到发散的式子从而无法求解，所以采用带有折扣因子的总吞吐量G_sum，其表示为

或者称G_sum为总折扣吞吐量，其中γ是折扣因子，是一个小于1且接近于1的常数，可以将能量收集的数学期望表示为

那么每个用户平均收集的总折扣能量为

或者称Q_sum为总折扣能量收集量；

(2)根据当前观测的通信系统状态，来选择进行用户调度和能量分配，选择最佳的用户和最合适的能量以发送，从而在满足用户能量收集约束条件的情况下达到最大的吞吐量；

所述步骤(2)中，还包含以下步骤：

1)通过强化学习方法和二分法来优化能量T_k和用户n的选择，从而使得通信系统在满足用户能量收集约束条件以及基站能量到达的因果约束的要求下，使得系统获得最大的吞吐量；

所述步骤1)中，还包含以下步骤：

11)将一个较小的值赋给拉格朗日乘子λ，所述较小的值为λ_low，利用策略迭代法或者Q-learning算法，得到在拉格朗日乘子λ＝λ_low时的最优策略π^*，其中拉格朗日乘子λ＝λ_low时的最优策略π^*是使[G_sum(λ_low)+λ_lowQ_sum(λ_low)]达到最大值的策略；然后再根据所述最优策略计算出当前的Q_sum(λ_low)和G_sum(λ_low)，并确保选中的λ_low使得Q_sum(λ_low)≤Q_req，Q_req是所需要达到的能量收集值；其中Q_sum(λ_low)和G_sum(λ_low)分别表示在给定λ_low时所求得的总折扣能量收集量和总折扣吞吐量；

12)将一个较大的值赋给拉格朗日乘子λ，所述较大的值为λ_high，利用策略迭代法或者Q-learning算法，得到拉格朗日乘子λ＝λ_high时的最优策略π^*，其中拉格朗日乘子λ＝λ_high时的最优策略π^*是使[G_sum(λ_high)+λ_highQ_sum(λ_high)]达到最大值的策略，然后再根据最优策略计算出Q_sum(λ_high)和G_sum(λ_high)，并确保选中的λ_high使得Q_sum(λ_high)≤Q_req；其中Q_sum(λ_high)和G_sum(λ_high)分别表示在给定λ＝λ_high时所求得的总折扣能量收集量和总折扣吞吐量；

13)通过二分法更新λ，更新方式如下：

然后将λ_new赋值给λ；

14)再对更新后的λ＝λ_new使用策略迭代法或者Q-learning算法，得到当前的最优策略π^*，然后再根据最优策略计算出当前的Q_sum(λ_new)和G_sum(λ_new)；如果Q_sum(λ_new)≥Q_req，那么将λ_new的值赋给λ_high，否则赋给λ_low；然后返回第13)步，直到所得的结果满足要求。

2.根据权利要求1所述的一种无线能量分配和用户调度的方法，其特征在于：所述步骤11)中，还包含以下步骤：

111)定义状态空间

状态空间是系统状态观测值的集合

其中

是状态空间

的长度，第k个时隙的状态观测值可表示为S_k＝[h_k，B_k，Eh_k]；定义动作空间

第k个时隙发射的能量

此外，用ρ_k＝[ρ_k(1)，ρ_k(2)，...，ρ_k(N)]表示用户选择向量，而第k个时隙的动作可表示为A_k＝[T_k，ρ_k]，用集合

表示动作空间，其中

是状态空间

的长度；

112)选择使用策略迭代法还是Q-learning算法取决于当前通信系统的状态转移概率是否已知，若已知则采用策略迭代算法，若未知，则采用Q-learning算法；

113)所述策略迭代法包括两个步骤：策略评估步骤和策略改进步骤；所述策略评估步骤是一个迭代的过程，迭代式V是关于状态s的函数，表达式为：

其中R是及时奖赏函数，γ是折扣因子，P(s′|s，π(s))是状态转移概率，π是策略，

是状态空间，s和s′表示状态状态空间

中的任意元素；首先将V(s)对所有

进行初始化为任意值，然后利用上述迭代式对所有状态

进行更新V(s)的值，不断进行更新后的V(s)将会趋近于真实状态值函数V^π(s)，此时将V(s)的值赋给V^π(s)；而策略改进步骤是对所有的状态采取贪婪策略：

其中arg表示反函数，Q^π(s，a)是状态动作值函数，表达式为：

114)对于Q-learning，首先初始化Q表格，对每一个状态动作对(s，a)初始化Q(s，a)为任意值，所述任意值的集合为一个Q表格，Q-learning算法每次都更新Q表格中的一个值，每一次的更新过程分为以下三步：I.状态为s时，根据ε-greedy策略选取动作a，并执行；II.观察下一时隙的状态s′，和及时奖赏R(s，a，λ)；III.更新Q表：

其中←是将箭头右边的值赋给左边，α是学习率，是一个小于1大于0的值。