CN109121221B - 一种无线能量分配和用户调度的方法 - Google Patents

一种无线能量分配和用户调度的方法 Download PDF

Info

Publication number
CN109121221B
CN109121221B CN201811266827.1A CN201811266827A CN109121221B CN 109121221 B CN109121221 B CN 109121221B CN 201811266827 A CN201811266827 A CN 201811266827A CN 109121221 B CN109121221 B CN 109121221B
Authority
CN
China
Prior art keywords
energy
sum
strategy
value
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811266827.1A
Other languages
English (en)
Other versions
CN109121221A (zh
Inventor
唐岚
郭德邻
时占
张兴敢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811266827.1A priority Critical patent/CN109121221B/zh
Publication of CN109121221A publication Critical patent/CN109121221A/zh
Application granted granted Critical
Publication of CN109121221B publication Critical patent/CN109121221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J50/00Circuit arrangements or systems for wireless supply or distribution of electric power
    • H02J50/20Circuit arrangements or systems for wireless supply or distribution of electric power using microwaves or radio frequency waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/121Wireless traffic scheduling for groups of terminals or users

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无线能量分配和用户调度的方法,包括1个以可充电电池和能量收集装置供电的基站,N个配有能量采集装置的用户,并且基站发射端只知道信道的估计值,包括如下步骤:基站对用户发射射频信号,并选择一个用户进行信息接收,其他用户可以从射频信号中获取能量以供使用。本发明使系统在满足用户能量收集约束以及基站能量到达的因果约束的条件下,进行用户调度和能量分配,使得系统获得最大的吞吐量。

Description

一种无线能量分配和用户调度的方法
技术领域
本发明属于无线通信领域,具体涉及一种可再生能源供能的通信系统(简称“系统”)中最优化能量分配和用户调度方法,更涉及一种基于强化学习(ReinforcementLearning)的在线学习最优化能量分配和用户选择策略的方法。
背景技术
随着5g和物联网的发展,越来越多的复杂的无线通信网络被建立起来,包括数以百计的电池驱动的节点。不幸的是,这些无线终端的电池容量是有限的,需要手动充电和更换,导致劳动力成本增加。在某些危险地区,有些设备不方便来取代,这使得通讯设备不可持续工作。随着人类环境保护意识的增加,人们更加关注绿色能源在无线通信的使用。能量采集(Energy harvesting)是一种很有前途的方法来减少碳排放。因此,配备有能量采集装置的通信系统吸引了大量研究人员的注意。
但目前,基于能量采集的无线通信系统面临两个挑战。首先,由于周边环境的不确定性,采集到的能量是不稳定的(如风能或者太阳能)。这意味着通信系统可能面临着能源短缺的风险,从而导致不可靠。其次,在每一个时刻,可用的能量是十分有限的,尽管在未来可能收集到更多的能量。因此如何分配这些能量,发送多少或者发送给谁等等问题,都需要研究。
目前的能量最优化分配方法大多数都是基于凸优化方法。但是这种方法都需要系统环境的所有信息,如发射器知道过去至将来任意时刻的信道信息,因此这在实际中是不可能的。通常来说,无线通信中信道的变化可视为一个随机过程,是一个动态问题,从而很难再使用凸优化方法解决问题。因此,寻找一种适用的算法来使系统的性能达到我们的要求具有重要意义。
发明内容
本发明的目的在于弥补上述现有技术的不足,提出一种无线能量分配和用户调度的方法,使系统在满足用户能量收集约束条件以及基站能量到达的因果约束的条件下,进行用户调度和能量分配,使得系统获得最大的吞吐量。
本发明采用的技术方案为一种无线能量分配和用户调度的方法,包括1个以可充电电池和能量收集装置供电的基站,N个配有能量采集装置的用户,并且基站发射端只知道信道的估计值,包括如下步骤:
(1)通信系统在K个时隙中进行,在第k个时隙,所述基站对N个用户发射射频信号,其中发射的能量为Tk,只有一个用户被选作进行信息接收,其余的用户进行能量接收;
(2)所述基站由可充电电池供电,所述能量收集装置为可充电电池充电,在下个时隙存入到可充电电池中供基站使用,能量到达过程为一阶马尔科夫过程,发射的能量Tk小于当前的可充电电池的电量Bk
(3)根据当前观测的通信系统状态,来选择进行用户调度和能量分配,选择最佳的用户和最合适的能量以发送,从而在满足用户能量收集约束条件的情况下达到最大的吞吐量。
进一步的,所述步骤(2)中,在时隙k收集的能量为Ehk,下一时隙的电池电量为Bk+1=min{Bk+Ehk-Tk,Bmax},而能量采集的一阶马尔科夫过程表示为Pr(Ehk|Ehk-1,…Eh1)=P(Ehk|Ehk-1),其中Bmax是电池容量,P(.|.)是条件概率。
进一步的,所述步骤(3)中,还包含以下步骤:
1)将信道离散化,使得信道功率增益只有有限个值;
2)通过强化学习方法和二分法来优化能量Tk和用户n的选择,选择最优的能量和用户从而使得通信系统在满足用户收集能量的约束下达到最大的吞吐量。若系统模型已知,我们将使用策略迭代算法在当前的拉格朗日乘子λ下计算出最优的吞吐量和能量收集量,再用二分法对λ进行更新,如此反复,直到得出满足条件的λ,然后计算出当前的吞吐量和能量收集量。若系统模型位置,则我们将采取一种叫做Q-learning的强化学习算法去计算出在当前λ下最优的吞吐量和能量收集量,同样再用二分法对λ进行更新,如此反复,直到得出满足条件的λ,然后计算出当前的吞吐量和能量收集量。
本发明的有益效果为:
本发明提出了基于能量采集的多用户通信系统中的无线能量分配和用户调度方法。通过配合使用强化学习方法和二分法来得到最优的能量分配和用户选择,从而使得系统在满足用户收集能量的约束下达到最大的吞吐量。
附图说明
图1是本发明的系统模型图;
图2是本发明的策略迭代算法程序流程图;
图3是本发明的Q-learning算法框图;
图4是本发明的总体算法示意图;
图5是λ为0时改变电池容量对吞吐量的影响示意图;
图6策略迭代算法和Q-learning算法的结果对比的示意图;
图7是λ对吞吐量影响以及Q-learning算法和策略迭代算法比较示意图。
图8是λ对能量收集影响和Q-learning算法和策略迭代算法比较示意图。
具体实施方式
如图1所示,我们所考虑的通信系统是由一个配有能量采集模块进行采能并且以电池供电的基站和N个由电池供能的用户终端所组成的,其中用户终端能对射频能量进行采能或者进行信息传输。基站和每个用户之间都是单天线传输。此外我们在用户终端上采取了时分接受模块,即在同一时刻只能进行能量收集或者信息接受中的一种功能。
(1)我们认为通信系统在K个时隙中进行,并且将每个时隙的时间长度归一化为1。在第k∈{1,2,…K}个时隙,基站对N个用户发射射频信号,其中发射的能量为Tk,只有一个用户被选作进行信息接收,其余的用户进行能量接收。为了便于描述,那么我们引入一个变量ρk(n)∈{0,1},
Figure BDA0001845071050000034
n,第k个时隙时,第n个用户被选为进行信息接受用ρk(n)=1表示,ρk(n)=0代表该用户被选为进行能量收集,并且
Figure BDA0001845071050000031
若用户n在时隙k进行信息接收,那么用户n接收的互信息量为
Figure BDA0001845071050000032
其中hk(n)是第n∈{1,2,…,N}个用户在时隙k的信道功率增益,Nn是加性高斯白噪声的功率谱密度,W是信道带宽。若用户n在时隙k进行能量收集,则收集的能量为
Qk(n)=ξnTkhk(n) (2),
其中ξn是用户n的能量接收效率,0<ξn<1。
(2)在时隙k收集的能量为Ehk,下一时隙的电池电量为Bk+1=min{Bk+Ehk-Tk,Bmax},而能量采集的一阶马尔科夫过程表示为Pr(Ehk|Ehk-1,…Eh1)=P(Ehk|Ehk-1),其中Bmax是电池容量,P(.|.)是条件概率。
(3)我们将信道离散为FSMC(finite state Markov channel,有限状态马尔科夫信道)模型,即信道功率增益只有有限个值而非连续值。认为
Figure BDA0001845071050000033
是信道功率增益的观测值,定义向量hk=[h(1),…,hk(N)]为N个用户在时隙k的信道功率增益,我们认为不同的用户之间是相互独立的,那么两个相邻时隙间的信道功率增益转移概率可表示为
Figure BDA0001845071050000041
其中∏...表示连乘符。我们将N个用户的信道功率增益的联合观测值用向量
Figure BDA0001845071050000042
来表示,那么同样可以得出信道观测值的转移概率为
Figure BDA0001845071050000043
在此引入状态的定义:在时隙k时的状态为Sk=[hk,Bk,Ehk]。由于我们只知道信道功率增益的观测值,那么类似的可以定义观测状态为
Figure BDA0001845071050000044
Figure BDA0001845071050000045
包含了所有当前系统的已知信息,包括
Figure BDA0001845071050000046
我们用
Figure BDA0001845071050000047
表示状态空间,即
Figure BDA0001845071050000048
Figure BDA0001845071050000049
其中
Figure BDA00018450710500000410
是状态空间
Figure BDA00018450710500000411
的长度。由于无法获得真实的信道功率增益,使得基站无法知道准确的互信息量,因此我们使用互信息量的数学期望值,其定义为
Figure BDA00018450710500000412
其中E[.|.]是基于条件数学期望值。让我们考虑无限时隙的情况,即K→∞时,如果单纯的进行累加,将会得到发散的式子从而无法求解,所以我们采用带有折扣因子的总吞吐量,其表示为
Figure BDA00018450710500000413
其中γ是折扣因子,是一个小于1且接近于1的常数,以确保(4)式不会发散至无穷大并且具有实际意义。同理我们可以将能量收集的数学期望表示为
Figure BDA00018450710500000414
那么每个用户平均收集的总折扣能量为
Figure BDA00018450710500000415
考虑无穷个时隙的情况,我们要使N个用户总的折扣吞吐量最大,并且能量收集也得满足Qsum≥Qreq。则我们的问题可以表示为如下一个带约束的优化问题:
Figure BDA00018450710500000416
st:C1:Qsum≥Qreq
Figure BDA00018450710500000417
Figure BDA00018450710500000418
Figure BDA00018450710500000419
Figure BDA00018450710500000420
可以发现,我们的问题(7)是一个MDP(Markov decision process,马尔科夫决策过程),即下一个系统状态的概率是取决于当前系统状态和执行的动作。系统模型已知的时候,MDP可以用表示用一个四元组<S,A,P,R>表示。MDP四元组由下面四个部分组成:
1)状态空间
Figure BDA0001845071050000051
状态空间是系统状态观测值的集合
Figure BDA0001845071050000052
第k个时隙的状态观测值可表示为Sk=[hk,Bk,Ehk]。<S,A,P,R>
2)动作空间
Figure BDA0001845071050000053
第k个时隙发射的能量
Figure BDA0001845071050000054
此外,我们用ρk=[ρk(1),ρk(2),...,ρk(N)]表示用户选择向量。而第k个时隙的动作可表示为Ak=[Tkk]。我们用集合
Figure BDA0001845071050000055
表示动作空间。
3)转移概率P:我们定义P是状态转移概率集。我们用P(s′|s,a)表示在当前状态为s时执行动作a后,下个时隙状态转移到s′的概率。
4)及时奖赏函数R:R是奖励函数,我们使用R(s′|s,a)表示在当前状态为s时执行动作a,下个时隙状态转移到s′的奖赏值。由于本问题中即时奖励与下一个时隙的状态无关,因此可以将其重写为R(s,a)。本发明的具体奖励函数将在后面介绍。
为了解决问题(7),我们首先构造一个拉格朗日函数J(λ)=Gsum+λQsum,得到
Figure BDA0001845071050000056
其中
Figure BDA0001845071050000057
接下来,对于J(λ),首先在给定λ时,并在满足约束C2至C5的情况下,求出的J(λ)最大值,即求解:
Figure BDA0001845071050000058
st:C2,C3,C4,C5
求解问题(10)的具体方法将在随后介绍。然后就可以找出关于给定λ时,在(Q,G)平面上给定λ的最优可行点(Qsum(λ),Gsum(λ)),那么Gsum(λ)就是在给定收集能量约束目标Qsum(λ)的情况下的可达到的最大值。我们要找到一个λo使得Qsumo)=Qreq,而本发明由于是状态和动作是离散值,最后不一定能满足Qsumo)=Qreq,则我们可以取
Figure BDA0001845071050000059
求解我们分为两个步骤:(1)首先给定一个λ,求出对应于此时的(Qsum(λ),Gsum(λ)),(2)使用二分法去更新λ,最终求得符合条件的λo。从而求解问题(7),达到我们的优化目的。
接下来,我们首先对问题(10)进行求解,对于系统模型已知时,即系统MDP四元组是已知的,那么上述问题(10)的最优值的求解可以看作一个基于模型的强化学习任务,那么就可以用策略迭代(Policy Iteration)算法求解问题(10)。
策略迭代法,顾名思义肯定和策略有关,我们定义π为策略,而策略是一个从状态到动作的映射,即
Figure BDA0001845071050000061
当然还可能有随机策略,策略迭代法中的策略为固定策略。
策略迭代法的思想是首先评估当前策略下的值函数,然后进行策略改进,不断循环策略评估和策略改进,直至策略不再发生变化,即得到了使得状态值函数最大的最优策略。对问题(10)使用策略迭代算法即可得到在给定λ时最大的J(λ)值和使J(λ)最大的最优策略π*。状态值函数(state-value function)Vπ(s)的含义就是从状态s开始,一直执行策略π所能带来的奖赏。若起始状态是s,那关于问题(10)的状态值函数为
Figure BDA0001845071050000062
式(11)叫做γ折扣累计奖赏,由于MDP具有马尔科夫性质,即下一时刻的系统的状态仅有当前的系统状态所决定,不依赖于以往任何状态,所以状态值函数具有很简单的递归形式。一般的,给定策略π,对于γ折扣累计奖赏,状态值函数分别具有如下递归形式:
Figure BDA0001845071050000063
对于一个策略是否是最优策略,我们首先要对其做出评估,得出在这个策略下的值函数。对于(12),在系统状态已知时,R和P是已知的,那么未知数只有状态值函数,所以其实是一个解线性方程组的问题。一般的,采用数值方法求解比较符合我们的目的。我们采用如下更新规则去求解状态状态值函数:
Figure BDA0001845071050000064
其中V(s)的迭代初始值可以为任意值。
但是在上述部分,供评估的策略π是一个随机给定的策略,一般不是最优的,那么我们需要对策略做出改进。从而得到最优策略
Figure BDA0001845071050000065
最优策略π*使得按照这个最优策略进行决策,总能得到最大的期望奖赏,即
Figure BDA0001845071050000071
由于我们需要改进动作,先给出状态-动作值函数Q的定义。
Figure BDA0001845071050000072
策略改进只需要在选择当前策略时采用贪心策略,即将动作改变为当前最优的动作。值函数对于策略的每一点改进都是单调的,那么可以放心的将策略改进为
π′(s)=argmaxaQπ(s,a) (15)
不断循环策略评估和策略改进,直到策略不再发生变化,此时策略即为最优策略。
那么我们将策略评估和策略改进算法结合起来,就得到了策略迭代算法,策略迭代算法的流程图由图2给出。当得到最优策略π*后,就可以根据最优策略计算当前λ下的Qsum(λ)和Gsum(λ)。其计算方法相当于对目前的最优策略进行一次策略评估。但是在计算Qsum(λ)时,需要将及时回报函数改为
Figure BDA0001845071050000073
而在计算Gsum(λ)时及时回报函数改为
Figure BDA0001845071050000074
然后其他流程和策略评估过程一致。
我们根据最优策略计算得到Qsum(λ)和Gsum(λ)后,我们将利用二分法求得
Figure BDA0001845071050000075
很显然,λ将Qsum加入到奖赏函数中,λ就是一个权重,随着λ的增加,发射器在做决策时更加侧重于增大Qsum的值,那么所求得的最优策略在使得J(λ)最大时更倾向做决策使Qsum越大,所以Qsum(λ)是随着λ递增而递增的,而Gsum(λ)是随着λ递增而减小的。可得Gsum(Qsum)是一个单调递减的曲线。受到单调性的启发,那么我们可以通过结合使用策略迭代方法和二分法去逼近最优解。其详细描述将会在对Q-learning算法说明完毕之后说明。
但是系统模型是不一定可以事先知道的,假设我们的发射器在做决策前并不知道状态转移概率,即不知道P(s′|s,a),也不知道采取某个动作将会带来多少及时收益R(s,a,λ),只有在完成了某个动作后,才会得到环境所反馈的及时回报,和下一个时隙的状态。即便我们不知道系统模型,但只要这个问题是一个MDP问题,我们就能用Q-learning算法去学习得到最优的策略。
Q-learning是一种异策略的时序差分学习方法,具有蒙特卡洛方法和动态规划的思想。Q-learning第一步就是初始化所有的动作状态值(action-state value),即对所有的
Figure BDA0001845071050000081
将Q(s,a)都初始化为一个任意值,则可以将初始化的值视为一个Q表格,每个状态-动作对都对应着一个Q值。
很显然,任意初始化的动作状态值一般不会是真正的动作状态值。而Q-learning就是一种能不断更新Q表格的算法,并且随着算法的进行,Q表格最终将会收敛至Qπ*(s,a)。Q-learning是学习一步都会对Q表中的一个值进行一次更新。而每一个时隙的更新步骤如下:
1.在时隙k时,状态为
Figure BDA0001845071050000082
执行动作
Figure BDA0001845071050000083
2.观察下一时隙的状态
Figure BDA0001845071050000084
和及时奖赏
Figure BDA0001845071050000085
3.更新Q表:Q(s,a)←Q(s,a)+α(R(s,a,λ)+γmaxa′Q(s′,a′)-Q(s,a))
其中α是学习率,是一个小于1大于0的值。一般来说在算法进行的初期稍微大一些,而算法进行的后期更希望它小一些,这样时常能获得更好的收敛性。在Q-learning中,首先选择一个动作,然后执行上述三步,从而就能不断更新Q值了。如果当前的Q值时最优的Q值,即Q(s,a)=Qπ*(s,a),那么我们在状态
Figure BDA0001845071050000086
选取动作时只需按照贪心算法,选取值Q表中值最大的动作即可,即a=argmaxaQ(s,a),但是当前的Q值只是最优Q值的一个估计值,并不一定是真实的最优值,那么当前选择动作时就面临着一个探索和利用之间平衡的问题。所以我们采用ε-greedy策略,ε是一个小于1的正数,ε-greedy策略就是以ε的概率随机选择动作,而以1-ε的概率选取当前状态下对应Q表中最大值的那个动作。Q-learning算法见图3,其中xstop是预设的算法停止步数。而获得最优策略后,同样需要计算Qsum(λ)和Gsum(λ),在不知道系统转移概率时,计算Qsum(λ)和Gsum(λ)的算法流程图与Q-learning相似,只需要在选取动作时,从原来的ε-greedy策略改为给定的策略π即可。其流程如下:
1.
Figure BDA0001845071050000087
初始化V(s)为任意值,初始化一个状态s,并输入策略π,计数符x=0
2.选取动作a=π(s),并且执行动作,得到奖赏r(s,a)和下一个时隙的状态s′。
3.更新状态值函数:V(s)←V(s)+α(r(s,a,λ)+γV(s′)-V(s))
4.x←x+1,若x>xstop,那么结束过程。否则s←s′,然后回到第2步。
不断执行以上四步即可计算出Qsum(λ)和Gsum(λ)。计算Qsum(λ)时,及时回报函数r(s,a)为RQ(s,a),Gsum(λ)的及时回报函数r(s,a)为RG(s,a)。
然后我们需要结合使用二分法去获取我们所需要的λ。I.首先将一个较小的值赋给拉格朗日乘子λ,这个较小值为λlow,利用策略迭代法或者Q-learning算法,得到在拉格朗日乘子λ=λlow时的最优策略π*,其中此时的最优策略π*是可以使J(λlow)达到最大值的策略;然后再根据该最优策略计算出当前的Qsumlow)和Gsumlow),并确保选中的λlow使得Qsumlow)≤Qreq;其中Qsumlow)和Gsumlow)表示在给定λlow时所求得的总折扣能量收集量和总折扣吞吐量。II.然后将一个较大的值赋给拉格朗日乘子λ,这个较大值为λhigh,利用策略迭代法或者Q-learning算法,得到在拉格朗日乘子λ=λhigh时的最优策略π*,此时的最优策略π*是使J(λhigh)达到最大值的策略,然后再根据最优策略计算出Qsumhigh)和Gsumhigh),并确保选中的λhigh可以使得Qsumhigh)≤Qreq;其中Qsumhigh)和Gsumhigh)表示在给定λ=λhigh时所求得的总折扣能量收集量和总折扣吞吐量。III.再通过二分法更新λ,更新方式如下:
Figure BDA0001845071050000091
然后将λnew赋值给λ。IV.最后对更新后的λ=λnew使用策略迭代法或者Q-learning算法,得到当前的最优策略π*,然后再根据最优策略计算出当前的Qsumnew)和Gsumnew);如果Qsumnew)≥Qreq,那么将λnew的值赋给λhigh,否则赋给λlow;然后返回第III步;当Qsum(λ)和Qreq的差值很小,或者Qsum(λ)随着算法的进行也不再改变时,算法停止,输出此时的λ值和在当前λ的情况下求出的策略π*。此时的策略π*即为我们所求。其算法的详细流程图见图4所示。
最后我们进行了仿真,图5是在固定λ=0的情况下,展示了改变电池容量Bmax对吞吐量的影响,并且以随机策略作为参照。可以发现,在采取了我们的优化算法后,其吞吐量明显高于执行随机策略带来的吞吐量。
图6我们分别对4个用户和6个用户使用Q-learning算法和策略迭代算法进行仿真。其纵坐标是总折扣吞吐量的期望值,横坐标是(N-1)个用户收集的平均折扣能量。可以发现策略迭代算法就是Q-learning算法的上界。并且随着用户数的增多,收集的能量越多,因为有更多的空闲用户参与到能量收集中来。
图7和图8是我们研究了改变λ的值,研究λ分别对吞吐量和收集能量的影响,并且同样使用了Q-learning算法和策略迭代算法。可以发现随着λ的增加,收集的能量越多,而吞吐量越少。而且Q-learning算法产生的曲线和策略迭代算法产生的曲线十分相近。

Claims (2)

1.一种无线能量分配和用户调度的方法,包括1个以可充电电池和能量收集装置供电的基站,N个配有能量采集装置的用户,并且基站发射端只知道信道的观测值,包括如下步骤:
(1)通信系统在K个时隙中进行,并且将每个时隙的时间长度归一化为1,在第k∈{1,2,...K}个时隙,基站对N个用户发射射频信号,其中发射的能量为Tk,只有一个用户被选作进行信息接收,其余的用户进行能量接收,为了便于描述,引入一个变量ρk(n)∈{0,1},
Figure FDA0003244573810000011
n,第k个时隙时,第n个用户被选为进行信息接收用ρk(n)=1表示,ρk(n)=0代表该用户被选为进行能量收集,并且
Figure FDA0003244573810000012
若用户n在时隙k进行信息接收,那么用户n接收的互信息量Ik(n)为
Figure FDA0003244573810000013
其中hk(n)是第n∈{1,2,...,N}个用户在时隙k的信道功率增益,Nn是加性高斯白噪声的功率谱密度,W是信道带宽,若用户n在时隙k进行能量收集,则收集的能量Qk(n)为
Qk(n)=ξnTkhk(n),
其中ξn是用户n的能量接收效率,0<ξn<1,在时隙k收集的能量为Ehk,下一时隙的电池电量为Bk+1=min{Bk+Ehk-Tk,Bmax},其中Bmax是电池容量,认为
Figure FDA0003244573810000014
是信道功率增益的观测值,定义向量hk=[h(1),...,hk(N)]为N个用户在时隙k的信道功率增益,定义N个用户的信道功率增益的联合观测值为向量
Figure FDA0003244573810000015
在时隙k时的状态为Sk=[hk,Bk,Ehk],定义观测状态为
Figure FDA0003244573810000016
Figure FDA00032445738100000111
表示状态空间,即
Figure FDA0003244573810000017
Figure FDA0003244573810000018
其中
Figure FDA00032445738100000113
是状态空间
Figure FDA00032445738100000112
的长度,互信息量的数学期望值定义为
Figure FDA0003244573810000019
其中E[.|.]是基于条件数学期望值,考虑无限时隙的情况,即K→∞时,如果单纯的进行累加,将会得到发散的式子从而无法求解,所以采用带有折扣因子的总吞吐量Gsum,其表示为
Figure FDA00032445738100000110
或者称Gsum为总折扣吞吐量,其中γ是折扣因子,是一个小于1且接近于1的常数,可以将能量收集的数学期望表示为
Figure FDA0003244573810000021
那么每个用户平均收集的总折扣能量为
Figure FDA0003244573810000022
或者称Qsum为总折扣能量收集量;
(2)根据当前观测的通信系统状态,来选择进行用户调度和能量分配,选择最佳的用户和最合适的能量以发送,从而在满足用户能量收集约束条件的情况下达到最大的吞吐量;
所述步骤(2)中,还包含以下步骤:
1)通过强化学习方法和二分法来优化能量Tk和用户n的选择,从而使得通信系统在满足用户能量收集约束条件以及基站能量到达的因果约束的要求下,使得系统获得最大的吞吐量;
所述步骤1)中,还包含以下步骤:
11)将一个较小的值赋给拉格朗日乘子λ,所述较小的值为λlow,利用策略迭代法或者Q-learning算法,得到在拉格朗日乘子λ=λlow时的最优策略π*,其中拉格朗日乘子λ=λlow时的最优策略π*是使[Gsumlow)+λlowQsumlow)]达到最大值的策略;然后再根据所述最优策略计算出当前的Qsumlow)和Gsumlow),并确保选中的λlow使得Qsumlow)≤Qreq,Qreq是所需要达到的能量收集值;其中Qsumlow)和Gsumlow)分别表示在给定λlow时所求得的总折扣能量收集量和总折扣吞吐量;
12)将一个较大的值赋给拉格朗日乘子λ,所述较大的值为λhigh,利用策略迭代法或者Q-learning算法,得到拉格朗日乘子λ=λhigh时的最优策略π*,其中拉格朗日乘子λ=λhigh时的最优策略π*是使[Gsumhigh)+λhighQsumhigh)]达到最大值的策略,然后再根据最优策略计算出Qsumhigh)和Gsumhigh),并确保选中的λhigh使得Qsumhigh)≤Qreq;其中Qsumhigh)和Gsumhigh)分别表示在给定λ=λhigh时所求得的总折扣能量收集量和总折扣吞吐量;
13)通过二分法更新λ,更新方式如下:
Figure FDA0003244573810000023
然后将λnew赋值给λ;
14)再对更新后的λ=λnew使用策略迭代法或者Q-learning算法,得到当前的最优策略π*,然后再根据最优策略计算出当前的Qsumnew)和Gsumnew);如果Qsumnew)≥Qreq,那么将λnew的值赋给λhigh,否则赋给λlow;然后返回第13)步,直到所得的结果满足要求。
2.根据权利要求1所述的一种无线能量分配和用户调度的方法,其特征在于:所述步骤11)中,还包含以下步骤:
111)定义状态空间
Figure FDA0003244573810000031
状态空间是系统状态观测值的集合
Figure FDA0003244573810000032
Figure FDA0003244573810000033
其中
Figure FDA0003244573810000034
是状态空间
Figure FDA0003244573810000035
的长度,第k个时隙的状态观测值可表示为Sk=[hk,Bk,Ehk];定义动作空间
Figure FDA00032445738100000318
第k个时隙发射的能量
Figure FDA0003244573810000036
Figure FDA0003244573810000037
此外,用ρk=[ρk(1),ρk(2),...,ρk(N)]表示用户选择向量,而第k个时隙的动作可表示为Ak=[Tk,ρk],用集合
Figure FDA0003244573810000038
表示动作空间,其中
Figure FDA0003244573810000039
是状态空间
Figure FDA00032445738100000310
的长度;
112)选择使用策略迭代法还是Q-learning算法取决于当前通信系统的状态转移概率是否已知,若已知则采用策略迭代算法,若未知,则采用Q-learning算法;
113)所述策略迭代法包括两个步骤:策略评估步骤和策略改进步骤;所述策略评估步骤是一个迭代的过程,迭代式V是关于状态s的函数,表达式为:
Figure FDA00032445738100000311
其中R是及时奖赏函数,γ是折扣因子,P(s′|s,π(s))是状态转移概率,π是策略,
Figure FDA00032445738100000312
是状态空间,s和s′表示状态状态空间
Figure FDA00032445738100000313
中的任意元素;首先将V(s)对所有
Figure FDA00032445738100000314
进行初始化为任意值,然后利用上述迭代式对所有状态
Figure FDA00032445738100000315
进行更新V(s)的值,不断进行更新后的V(s)将会趋近于真实状态值函数Vπ(s),此时将V(s)的值赋给Vπ(s);而策略改进步骤是对所有的状态采取贪婪策略:
Figure FDA00032445738100000316
其中arg表示反函数,Qπ(s,a)是状态动作值函数,表达式为:
Figure FDA00032445738100000317
114)对于Q-learning,首先初始化Q表格,对每一个状态动作对(s,a)初始化Q(s,a)为任意值,所述任意值的集合为一个Q表格,Q-learning算法每次都更新Q表格中的一个值,每一次的更新过程分为以下三步:I.状态为s时,根据ε-greedy策略选取动作a,并执行;II.观察下一时隙的状态s′,和及时奖赏R(s,a,λ);III.更新Q表:
Figure FDA0003244573810000041
Figure FDA0003244573810000042
其中←是将箭头右边的值赋给左边,α是学习率,是一个小于1大于0的值。
CN201811266827.1A 2018-10-29 2018-10-29 一种无线能量分配和用户调度的方法 Active CN109121221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811266827.1A CN109121221B (zh) 2018-10-29 2018-10-29 一种无线能量分配和用户调度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811266827.1A CN109121221B (zh) 2018-10-29 2018-10-29 一种无线能量分配和用户调度的方法

Publications (2)

Publication Number Publication Date
CN109121221A CN109121221A (zh) 2019-01-01
CN109121221B true CN109121221B (zh) 2021-12-17

Family

ID=64855737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811266827.1A Active CN109121221B (zh) 2018-10-29 2018-10-29 一种无线能量分配和用户调度的方法

Country Status (1)

Country Link
CN (1) CN109121221B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI714496B (zh) 2020-04-13 2020-12-21 國立清華大學 無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105848266A (zh) * 2016-05-13 2016-08-10 江苏科技大学 能耗最小化的多天线通信网络循环能量采集方法
CN106850028A (zh) * 2017-02-21 2017-06-13 哈尔滨工业大学 一种基于swipt系统的联合波束形成方法
CN108650710A (zh) * 2018-05-18 2018-10-12 广东工业大学 基于混合多址接入的无线供能通信网络的资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9226304B2 (en) * 2014-03-10 2015-12-29 Origin Wireless, Inc. Time-reversal wireless paradigm for internet of things

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105848266A (zh) * 2016-05-13 2016-08-10 江苏科技大学 能耗最小化的多天线通信网络循环能量采集方法
CN106850028A (zh) * 2017-02-21 2017-06-13 哈尔滨工业大学 一种基于swipt系统的联合波束形成方法
CN108650710A (zh) * 2018-05-18 2018-10-12 广东工业大学 基于混合多址接入的无线供能通信网络的资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multiuser Scheduling Schemes for Simultaneous Wireless Information and Power Transfer Over Fading Channels;Rania Morsi,Diomidis S. Michalopoulos,Robert Schober;《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS,》;20150430;第14卷(第4期);全文 *
Online Resource Allocation for Energy Harvesting Downlink Multiuser Systems: Precoding With Modulation, Coding Rate, and Subchannel Selection;Weiliang Zeng,Yahong Rosa Zheng,Robert Schober;《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》;20151031;第14卷(第10期);第I-III节 *

Also Published As

Publication number Publication date
CN109121221A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN110113190A (zh) 一种移动边缘计算场景中卸载时延优化方法
Yang et al. Distributed optimization and games: A tutorial overview
Yuan et al. Optimal harvest-use-store strategy for energy harvesting wireless systems
CN113610303A (zh) 一种负荷预测方法及系统
CN111628855A (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
Kong et al. Effect of automatic hyperparameter tuning for residential load forecasting via deep learning
CN111598721A (zh) 一种基于强化学习和lstm网络的负荷实时调度方法
Tutuncuoglu et al. Communicating using an energy harvesting transmitter: Optimum policies under energy storage losses
Madhja et al. Adaptive wireless power transfer in mobile ad hoc networks
CN109121221B (zh) 一种无线能量分配和用户调度的方法
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
Bacinoglu et al. Finite-horizon energy-efficient scheduling with energy harvesting transmitters over fading channels
Venkatakrishnan et al. An efficient energy management in smart grid based on IOT using ROAWFSA technique
Han et al. An autonomous control technology based on deep reinforcement learning for optimal active power dispatch
Eksin et al. Demand response with communicating rational consumers
Luan et al. Cooperative power consumption in the smart grid based on coalition formation game
Bistritz et al. Smart greedy distributed allocation in microgrids
Kawashima et al. Distributed mode scheduling for coordinated power balancing
CN117119486A (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
Liang et al. Optimal energy cooperation policy in fusion center-based sustainable wireless sensor networks
CN113743012A (zh) 一种多用户场景下的云-边缘协同模式任务卸载优化方法
Kim et al. RL-based transmission completion time minimization with energy harvesting for time-varying channels
Bistritz et al. Smart greedy distributed energy allocation: a random games approach
CN106713013B (zh) 能量收集网络数据发送方法及系统
Sachan et al. BEAR: Reinforcement learning for throughput aware borrowing in energy harvesting systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant