CN109272167B - 一种基于uudn和q神经网络的绿色能量合作方法 - Google Patents

一种基于uudn和q神经网络的绿色能量合作方法 Download PDF

Info

Publication number
CN109272167B
CN109272167B CN201811172576.0A CN201811172576A CN109272167B CN 109272167 B CN109272167 B CN 109272167B CN 201811172576 A CN201811172576 A CN 201811172576A CN 109272167 B CN109272167 B CN 109272167B
Authority
CN
China
Prior art keywords
energy
neural network
uudn
state
aps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811172576.0A
Other languages
English (en)
Other versions
CN109272167A (zh
Inventor
朵春红
李永倩
李宝罡
吕亚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201811172576.0A priority Critical patent/CN109272167B/zh
Publication of CN109272167A publication Critical patent/CN109272167A/zh
Application granted granted Critical
Publication of CN109272167B publication Critical patent/CN109272167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种以用户为中心的超密集网络中的绿色能量合作方法。以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。该场景建模为马尔可夫决策过程,在每个时隙中只有访问接入点的当前和过去状态信息可用。为了最大限度地提高系统的能源效率,本发明提出一种基于Q学习的强化学习方法进行可再生能源的合作。为了解决强化学习中的连续状态离散动作问题,本发明提出了一种采用三层BP神经网络作为逼近器的Q神经网络。仿真结果表明,系统的能量效率与访问接入点和用户的密度有关,所提出的方案能够满足用户的需求,提高系统的能源效率。

Description

一种基于UUDN和Q神经网络的绿色能量合作方法
技术领域
本发明涉及通信领域,尤指一种基于UUDN和Q神经网络的绿色能量合作方法。
背景技术
通信行业作为国家支柱产业为我国的经济和社会发展作出了巨大的贡献。随着网络规模不断扩大,用户不断增加,能耗也与日俱增。而可再生能源在能量供应过程中,具有分布广泛、无碳排放的特点,因此,将可再生能源(如太阳能等)引入移动通信网络受到了广泛的关注。
随着5G移动网络的迅速发展,以用户为中心的超密集网络(UUDN:User-centricUDN)已成为研究的热点。UUDN需要越来越多的接入点(AP:Access Points)来满足用户的业务需求。AP的数量可能超过用户的数量,而以用户为中心的设计是未来网络的一个重要原则,从而形成了以用户为中心的UUDN。为了减少AP的运行费用,可以采用能量获取技术(EH:Energy Harvesting)来获取可再生能源。AP可以使用所获取的可再生能量来给电池充电,从而延缓UDN的网络寿命。
以太阳能为例,光照充足的地方可能导致可再生能源的浪费,光照不足的地方还得需要其他方式的能量供给。采用能量获取技术的UUDN(EH-UDUN)和能量合作技术已经被广大学者进行了广泛的研究。在EH-UUDN中,每个AP可以从周围环境中获取能量。通过使用能量收发器,每个AP可以在一个时隙中向其他节点发送能量,并且在另一个时隙中接收来自其他节点的能量,从而可以优化网络上的可用能量的利用率。在文献Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and traffic management in cellular networkswith renewable energy[C].IEEE Global Communications Conference,2016中,作者利用李雅普诺夫优化框架研究了能源合作和流量管理。而在文献Dong Y,Chen Z,FanP.Capacity Region of Gaussian Multiple-Access Channels with Energy Harvestingand Energy Cooperation[J].IEEE Access,2017(5):1570-1578.则提出了用户也可以进行能量协作的观点,这些与传统K-用户高斯MAC的容量区域的能量合作是一致的。在文献LiY,YinC.Joint Energy Cooperation and Resource Allocationin C-RANs withHybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)中,作者研究了混合电源(包括传统电网和可再生能源)的云无线接入网络的联合可再生能源合作和资源分配。文献Xu B,Chen Y,Carrión J R,etal.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNetsTowards Green 5G[J].IEEE Journal on Selected Areas in Communications,2017,2758-2770.中主要研究具有非正交多址的能量合作的双层异构网络中的资源分配,其中基站由可再生能源和传统电网供电。作者提出了一种基于Q学习的强化学习方法,通过能量共享实现发射端的能量协作。
然而将无模型强化学习算法与非线性函数逼近器相结合,或与非策略学习相结合,会导致Q网络发散。因而有必要进一步研究。
发明内容
为解决上述问题,本发明主要目的在于,提出一种基于Q学习的强化学习方法,以解决强化学习中连续状态离散动作的问题,以能够满足用户的需求,从而提高系统的能效。该方法亦可看做是马尔可夫决策过程(MDP:Markov decision process)。
为实现上述目的,本发明的一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中,其包含步骤:
1)首先依能量共享实现发射端的能量协作建立MDP模型,利用AP分组算法将多个AP组织成APG,以满足UUDN的以用户为中心的设计;
2)其次,采用一种Q神经网络进行能量合作以解决强化学习中连续状态离散动作的问题;
即采用基于Q学习的强化学习方法进行可再生能源的合作以使系统能效最大化,并且该强化学习方法是将神经网络作为非线性函数逼近器以解决强化学习中连续状态离散动作的问题。
其中较佳的,所述Q神经网络是使用三层BP神经网络,且该方法进一步是可通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。
其中较佳的,是以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。该场景建模为马尔可夫决策过程,在每个时隙中只有访问接入点的当前和过去状态信息可用。
其中较佳的,该方法利用ε贪婪策略保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*
其中较佳的,步骤1)所述建模步骤如下:
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电;假设时隙长度为T,在t=0时,初始UE和AP的位置遵循齐次泊松点过程;假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量;Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量;假设信道状态信息H(t)在同一时隙中保持不变;在UUDN中,满足λAPUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度;
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量;
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值;
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列;
A4:对于每个AP,在一个时隙内获取的能量是有限的;
A5:每个AP有三种状态:开启、休眠和关闭;
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的;而AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
④APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入;
⑤当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入;
⑥当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充;
APi在时隙t内传输的数据量为Ri(t)*(1TS),数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0;
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χT ij(t);χ∈[0,1]是两个AP之间的能量转移效率;
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束,APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS:
Figure BDA0001822911400000051
APi的电池能量队列长度如下:
Figure BDA0001822911400000052
此外还应考虑AP的能效EE,EE定义为AP发送的数据总量除以AP的功耗;
对于每个AP,考虑两个部分:
Figure BDA0001822911400000053
是基本功率,
Figure BDA0001822911400000054
是发射功率;
当AP处于开启状态并服务某个UE时,
Figure BDA0001822911400000055
其中β代表AP的馈线和功率放大器的功率消耗;
当AP处于睡眠状态并不提供任何服务时,
Figure BDA0001822911400000056
当AP由于低能量而关闭时,
Figure BDA0001822911400000057
综上所述,AP功率表示为
Figure BDA0001822911400000058
因此,AP的EE表示为
Figure BDA0001822911400000059
基于UUDN的热点区域中的所有AP的EE表示为:
Figure BDA00018229114000000510
其中较佳的,步骤2)具体步骤为:
该步骤是采用三层BP神经网络作为Q学习算法的非线性函数逼近器;
网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值,神经网络的输入和输出参数之间的关系描述为:
Figure BDA0001822911400000061
采用直接梯度下降法对BP网络的参数进行训练,将误差定义为e=r+γminQ(s',a;ω)-Q(s,a;ω);
网络权值更新规则是
Figure BDA0001822911400000062
其中
Figure BDA0001822911400000063
是梯度信息,l是网络权重的学习率;
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长;
AP的三种状态:
Figure BDA0001822911400000064
系统回报函数与当前时隙的速率有关,定义为
Figure BDA0001822911400000065
其中
Figure BDA0001822911400000066
代表一个APG中的AP数量。
其中较佳的,基于所述神经网络的能量合作如下所示:
使用随机权重初始化动作-值函数Q
初始化st=[Bmode,E(t),B(t),H(t),Q(t)]
repeat
按照ε概率选择随机动作at
otherwise选择at=maxaQ*(st,a;ω)
执行动作at并观察回报rt
设置
Figure BDA0001822911400000071
根据
Figure BDA0001822911400000072
执行梯度下降法
Figure BDA0001822911400000073
设置st+1=st
Untils t+1是终止状态。
本发明有益效果在于,本发明提出的一种Q神经网络(QNN:Qneural network),它采用了三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。并可通过在每次迭代中最小化损失函数来训练QNN。另外ε贪婪策略可以保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*。经仿真结果表明,本发明的系统能量效率与AP和用户的密度有关,该方案能够满足用户的需求,提高系统的能效。
附图说明
图1系统建模示意图;
图2 AP的能量状态示意图;
图3不同能量获取概率下的系统平均吞吐率图;
图4不同学习率对应的回报曲线;
图5不同学习率对应的系统平均回报曲线;
图6系统能效与AP密度的关系;
图7系统能效与用户密度的关系。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案做进一步具体的说明。
本发明的理念在于首先是提出了一种基于Q学习的强化学习方法,该方法可看做是马尔可夫决策过程(MDP:Markov decision process)。
并且为了解决强化学习中连续状态离散动作的问题,本发明提出了一种Q神经网络(QNN:Qneural network),它优选采用三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。
并可通过在每次迭代中最小化损失函数来训练QNN。
ε贪婪策略可以保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*
发明人经仿真结果表明,本发明的系统能量效率与AP和用户的密度有关,且本发明的该技术方案能够满足用户的需求,提高系统的能效。
以下以具体实施例详细说明之:
1)系统建模;
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电。假设时隙长度为T。在t=0时,初始UE和AP的位置遵循齐次泊松点过程。假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量。Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量。假设信道状态信息H(t)在同一时隙中保持不变。在UUDN中,满足λAPUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度。如图1所示,为本发明的系统建模示意图。
为了研究网络的性能极限,我们考虑以下假设(A1-A5)。
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量。
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值。
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列。
A4:对于每个AP,在一个时隙内获取的能量是有限的。
A5:每个AP有三种状态:开启、休眠和关闭。
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的,但显然这是一种能量浪费。如图2所示,为AP的能量状态示意图,AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
①APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入。
②当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入。
③当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充。
图2所示APi在时隙t内传输的数据量为Ri(t)*(1TS)。数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0。
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χTij(t)。χ∈[0,1]是两个AP之间的能量转移效率。
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束(APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS):
Figure BDA0001822911400000101
APi的电池能量队列长度如下:
Figure BDA0001822911400000102
此外还应考虑AP的能效(EE:Energy-Efficient),EE定义为AP发送的数据总量除以AP的功耗。
对于每个AP,我们考虑两个部分:
Figure BDA0001822911400000103
是基本功率,
Figure BDA0001822911400000104
是发射功率。
当AP处于开启状态并服务某个UE时,
Figure BDA0001822911400000105
其中β代表AP的馈线和功率放大器的功率消耗。
当AP处于睡眠状态并不提供任何服务时,
Figure BDA0001822911400000106
当AP由于低能量而关闭时,
Figure BDA0001822911400000107
0<α<1。实际上,AP在关闭状态下消耗大约为基本功率的十分之一。
综上所述,AP功率表示为
Figure BDA0001822911400000108
因此,AP的EE表示为
Figure BDA0001822911400000109
基于UUDN的热点区域中的所有AP的EE表示为:
Figure BDA00018229114000001010
3基于Q神经网络的能量合作
强化学习用于解决各种优化问题,以下本发明首先介绍传统的Q学习方法,满足MDP模型。智能体Agent不断地观察环境状态,采取行动,接受奖励,感知下一状态,并通过经验来改变其策略。
Figure BDA00018229114000001011
其中st属于环境状态空间,at是系统动作空间,
Figure BDA00018229114000001012
Figure BDA00018229114000001013
分别表示通过执行动作at将状态从st转移到st+1的状态转移概率和立即奖励。系统不需要知道其他的先验信息,该算法可以通过学习改变回报值并收敛到最优策略。Q值函数可以用下列公式更新:
Figure BDA0001822911400000111
其中(st,at)是MDP中的状态动作对,st+1是t+1时隙的状态,rt是t时隙的奖励,δ(0<δ<1)是控制收敛速度的学习因子,γ(0<γ<1)是折扣因子。当i→∞,算法收敛到最优动作值函数Qi→Q*
EH-UUDN中的能量合作可以看作是一个多智能体合作的系统。本发明只考虑一个AP分组(APG)内的能量合作,其中AP不是孤立的,而是相互影响和相互制约的。传统的Q学习算法使用表来存储Q值,由于状态空间是连续的,所以需要存储无限多的Q值。为了解决强化学习中连续状态离散动作的问题,我们采用神经网络结构来存储Q值函数。带有ω权重的神经网络函数逼近器称为Q神经网络(QNN)。可以通过最小化每次迭代的损失函数来训练QNN。
因此,本发明的以具体实施是采用了三层BP神经网络以对传统的Q学习算法进行了改进。网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值。神经网络的输入和输出参数之间的关系描述为:
Figure BDA0001822911400000112
采用直接梯度下降法[15]对BP网络的参数进行训练,将误差定义为:
e=r+γmin Q(s',a;ω)-Q(s,a;ω)
网络权值更新规则是
Figure BDA0001822911400000113
其中
Figure BDA0001822911400000114
是梯度信息,l是网络权重的学习率。
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],如表2所示。动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长[16]
表2AP的三种状态
Figure BDA0001822911400000121
奖励旨在实现能量合作,选择合适的能量分配策略的主要目的是提高EH-UUDN的吞吐量。因此,系统回报函数与当前时隙的速率有关,可定义为
Figure BDA0001822911400000122
其中
Figure BDA0001822911400000123
代表一个APG中的AP数量。
基于QNN的能量合作如表3所示。
表3 QNN算法
Figure BDA0001822911400000124
为了验证本发明上述技术方案效果,发明人进行了仿真测试,结果如下:
该仿真目的是要证明以用户为中心的QNN算法的有效性。考虑1Km*1Km的热点区域。AP和用户的位置满足独立齐次泊松点过程。λAP=700users/Km2,λUE=200users/Km2。AP的服务半径为20m,最大传输功率是24dBm,基本功率是20mW,最大获取能量为3e,电池的最大容量为10e,最大数据量为1Mbit。信道状态满足瑞利分布。网络结构是只有一个隐含层的神经网络。网络的输入层为AP的状态st=[Bmode,E(t),B(t),H(t),Q(t)],输入层有5个神经元,在输入之前对数据进行归一化:Bmode=Bmode/2,Ei(t)=Ei(t)/3,Bb(t)=Bb(t)/10,Qi(t)=Qi(t)/1M。隐含层有128个神经元,输出层有10个神经元,对应于10个离散动作(发射功率)。
当Bmode=Bsleep时,AP不能为任何用户服务,不能发送任何数据,因此随着越来越多的AP转向休眠状态,系统吞吐量会降低。如图3所示,为不同能量获取概率下的系统平均吞吐率图,这两条线代表了不同能量获取概率的平均系统吞吐量,
Figure BDA0001822911400000131
的平均系统吞吐量高于
Figure BDA0001822911400000132
学习速率控制在每轮训练中添加到参数的损失大小。一般认为,学习速率越大,算法越快达到最优值。然而,学习速率太大,不能在最优值附近引起震荡,学习速率太小,不能使学习速度达到最优值,这可能不是很长时间收敛。结果在图4中示出,并且纵向轴是相应学习步骤的奖励。图4为不同学习率对应的回报曲线示意图。
学习率控制着在每次训练时加到参数上损失的大小,一般认为学习率大,算法更快达到最优值,但是学习率太大可能会造成在最优值附近震荡学习率小达到最优值的速度慢,可能长时间无法收敛。如图4所示,纵轴是相应学习步的回报。在图5中,
Figure BDA0001822911400000141
图5为不同学习率对应的系统平均回报曲线。
如图6所示,为系统能效与AP密度的关系。图6显示了不同AP密度的EE性能,不同的曲线表示从λAP=400users/Km2到λAP=1000users/Km2的各种AP密度下的系统EE。随着AP密度的增加,一方面,组间干扰和组内干扰将导致整个网络的系统吞吐量下降,另一方面,AP消耗更多的电路功率,导致EE性能逐渐降低,所以在图5中所有曲线会逐渐下降。
如图7所示,为系统能效与用户密度的关系。图7显示了不同用户密度的EE性能,不同的曲线表示从λUE=100users/Km2到λUE=700users/Km2的各种用户密度下的系统EE。随着用户密度的增加,所有曲线的EE性能先上升到峰值,然后逐渐下降。当用户密度太小时,AP电路功率的比例增大,导致能量效率低下。随着用户数量的增加,能效达到最大值。用户密度越大,接收电路能量消耗越大,导致EE性能下降。
综上所述,本发明主要研究由可再生能源驱动的EH-UUDN中的能量合作问题。该问题可看作MDP模型。首先提出AP分组算法,将多个AP组织成APG,以满足UDN的以用户为中心的设计。其次,为了使系统能效最大化,采用基于Q学习的强化学习方法。为了解决强化学习中连续状态离散动作的问题,本发明将神经网络作为非线性函数逼近器。QNN使用三层BP神经网络,并通过最小化在每次迭代中变化的损失函数序列来训练网络。仿真结果表明,系统的能量效率与AP和UE的密度有关,所提出的方案能够满足用户的需求,提高系统EE。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
本发明的参考文献:
[1]Chen S,Qin F,Hu B,et al.User-centric ultra-dense networks for 5G:challenges,methodologies,and directions[J].IEEE Wireless Communications,2018,23(2):78-85.
[2]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.
[3]Tang S,Tan L.Reward Rate Maximization and Optimal TransmissionPolicy of EH Device With Temporal Death in EH-WSNs[M].IEEE Press,2017.
[4]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.
[5]Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and trafficmanagement in cellular networks with renewable energy[C].IEEE GlobalCommunications Conference,2016.
[6]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.
[7]LiY,Yin C.Joint Energy Cooperation and Resource Allocationin C-RANs with Hybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)
[8]Xu B,Chen Y,Carrión J R,et al.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNets Towards Green 5G[J].IEEE Journal onSelected Areas in Communications,2017,2758-2770.
[9]Duo C,Li B,Li Y,et al.Energy Cooperation in Ultradense NetworkPowered by Renewable Energy Based on Cluster and Learning Strategy[J].Wireless Communications&Mobile Computing,2017(5):1-10.
[10]Lv Y,Li B,et al.Energy Cooperation in CoMP SystemBased on Q-learning[C]//2017 11th IEEE International Conference on Anti-counterfeiting,Security,and Identification.2017:90-94
[11]Tsitsiklis J N,Roy B V.An analysis of temporal-differencelearning with function approximation[J].IEEE Transactions on AutomaticControl,2002,42(5):674-690.
[12]Baird L.Residual Algorithms:Reinforcement Learning with FunctionApproximation[J].Machine Learning Proceedings,1995:30-37.
[13]Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with DeepReinforcement Learning[J].Computer Science,2013.
[14]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control throughdeep reinforcement learning.[J].Nature,2015,518(7540):529.
[15]Lv Y,Li B,Zhao W,et al.Multi-base Station Energy CooperationBased on Nash Q-LearningAlgorithm[M]//5G for Future Wireless Networks.2018.
[16]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.

Claims (6)

1.一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中,其特征在于,包含步骤:
1)首先依能量共享实现发射端的能量协作建立MDP模型,利用AP分组算法将多个AP组织成APG,以满足UUDN的以用户为中心的设计;
其建模步骤如下:
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电;假设时隙长度为T,在t=0时,初始UE和AP的位置遵循齐次泊松点过程;假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量;Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量;假设信道状态信息H(t)在同一时隙中保持不变;在UUDN中,满足λAPUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度;
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量;
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值;
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列;
A4:对于每个AP,在一个时隙内获取的能量是有限的;
A5:每个AP有三种状态:开启、休眠和关闭;
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的;而AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
①APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入;
②当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入;
③当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充;
APi在时隙t内传输的数据量为Ri(t)*(1TS),数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0;
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χTij(t);χ∈[0,1]是两个AP之间的能量转移效率;
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束,APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS:
Figure FDA0002952795620000021
APi的电池能量队列长度如下:
Figure FDA0002952795620000022
考虑AP的能效EE,EE定义为AP发送的数据总量除以AP的功耗;
对于每个AP,考虑两个部分:Pi 0是基本功率,Pi T是发射功率;
当AP处于开启状态并服务某个UE时,Pi=Pi 0+βPi T,其中β代表AP的馈线和功率放大器的功率消耗;
当AP处于睡眠状态并不提供任何服务时,Pi=Pi 0
当AP由于低能量而关闭时,Pi=αPi 0,0<α<1;
综上所述,AP功率表示为Pi(ρ)=ΔPi Tρ+(1-α)Pi 0ρ+αPi 0
因此,AP的EE表示为:
Figure FDA0002952795620000031
基于UUDN的热点区域中的所有AP的EE表示为:
Figure FDA0002952795620000032
2)其次,采用一种Q神经网络进行能量合作以解决强化学习中连续状态离散动作的问题;
即采用基于Q学习的强化学习方法进行可再生能源的合作以使系统能效最大化,并且该强化学习方法是将神经网络作为非线性函数逼近器以解决强化学习中连续状态离散动作的问题;
具体步骤为:
该步骤是采用三层BP神经网络作为Q学习算法的非线性函数逼近器;
网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值,神经网络的输入和输出参数之间的关系描述为:
Figure FDA0002952795620000033
采用直接梯度下降法对BP网络的参数进行训练,将误差定义为e=r+γmin Q(s',a;ω)-Q(s,a;ω);
网络权值更新规则是
Figure FDA0002952795620000034
其中
Figure FDA0002952795620000035
是梯度信息,l是网络权重的学习率;
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长;
AP的三种状态:
Figure FDA0002952795620000041
系统回报函数与当前时隙的速率有关,定义为
Figure FDA0002952795620000042
其中
Figure FDA0002952795620000043
代表一个APG中的AP数量。
2.根据权利要求1所述的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,所述Q神经网络是使用三层BP神经网络。
3.根据权利要求2所述的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,该方法进一步是通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。
4.根据权利要求3所述的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。
5.根据权利要求4所述的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于:该方法利用ε贪婪策略保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*
6.根据权利要求3所述的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,基于所述神经网络的能量合作如下所示:
使用随机权重初始化动作-值函数Q
初始化st=[Bmode,E(t),B(t),H(t),Q(t)]
repeat
按照ε概率选择随机动作at
otherwise选择at=maxaQ*(st,a;ω)
执行动作at并观察回报rt
设置
Figure FDA0002952795620000051
根据
Figure FDA0002952795620000052
执行梯度下降法
Figure FDA0002952795620000053
设置st+1=st
Untils t+1是终止状态。
CN201811172576.0A 2018-10-09 2018-10-09 一种基于uudn和q神经网络的绿色能量合作方法 Active CN109272167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811172576.0A CN109272167B (zh) 2018-10-09 2018-10-09 一种基于uudn和q神经网络的绿色能量合作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811172576.0A CN109272167B (zh) 2018-10-09 2018-10-09 一种基于uudn和q神经网络的绿色能量合作方法

Publications (2)

Publication Number Publication Date
CN109272167A CN109272167A (zh) 2019-01-25
CN109272167B true CN109272167B (zh) 2021-04-20

Family

ID=65196174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811172576.0A Active CN109272167B (zh) 2018-10-09 2018-10-09 一种基于uudn和q神经网络的绿色能量合作方法

Country Status (1)

Country Link
CN (1) CN109272167B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311996A (zh) * 2020-03-27 2020-06-19 湖南有色金属职业技术学院 基于大数据的线上教育信息化教学系统
TWI714496B (zh) 2020-04-13 2020-12-21 國立清華大學 無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台
CN113473245B (zh) * 2021-06-11 2022-04-08 吉林大学 基于可再生能源und视频流等待时间优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105438A (zh) * 2017-04-20 2017-08-29 成都瑞沣信息科技有限公司 一种基于QoS的数能一体传输策略设计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105438A (zh) * 2017-04-20 2017-08-29 成都瑞沣信息科技有限公司 一种基于QoS的数能一体传输策略设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Energy Cooperation in CoMP System Based on Q-learning;Yabo Lv 等;《IEEE》;20171231;91-94 *
Energy Cooperation in Energy Harvesting Communications;Berk Gurakan等;《IEEE》;20131231;4884-4896 *
Energy Cooperation in Ultradense Network Powered by;Chunhong Duo 等;《Wireless Communications and Mobile Computing》;20171130;1-8 *

Also Published As

Publication number Publication date
CN109272167A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
Zhou et al. Energy-efficient resource allocation for energy harvesting-based cognitive machine-to-machine communications
CN108737057B (zh) 基于深度学习的多载波认知noma资源分配方法
Ahmed et al. Power allocation for an energy harvesting transmitter with hybrid energy sources
CN107087305B (zh) 一种基于能量收集的终端直通通信资源管理方案
Minasian et al. Energy harvesting cooperative communication systems
CN108770007A (zh) 基于noma的无线携能通信系统多目标优化方法
CN110430613B (zh) 多载波非正交多址接入系统基于能效的资源分配方法
CN109272167B (zh) 一种基于uudn和q神经网络的绿色能量合作方法
CN107426773B (zh) 无线异构网络中面向能效的分布式资源分配方法和装置
CN103997740B (zh) 基于效用优化的认知协作网络联合资源分配方法
CN109831808B (zh) 一种基于机器学习的混合供电c-ran的资源分配方法
CN111586646B (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN106304111A (zh) 基于能量采集中继站的异构蜂窝网络功率指派方法
Xu et al. Deep reinforcement learning-based resource allocation strategy for energy harvesting-powered cognitive machine-to-machine networks
CN104796900A (zh) 基于拍卖理论的蜂窝网络中d2d通信资源分配方法
Zeng et al. An MDP-based wireless energy harvesting decision strategy for mobile device in edge computing
Wang Energy-efficient resource allocation optimization algorithm in industrial IoTs scenarios based on energy harvesting
CN109787737B (zh) 一种基于混合能量采集的多用户资源优化方法
CN108650710B (zh) 基于混合多址接入的无线供能通信网络的资源分配方法
Zhang et al. Outage analysis and optimization in single-and multiuser wireless energy harvesting networks
He et al. A novel distributed resource allocation scheme for wireless-powered cognitive radio Internet of Things networks
Feng et al. Energy-efficient joint optimization of channel assignment, power allocation, and relay selection based on hypergraph for uplink mMTC networks
CN110691383A (zh) 一种资源分配方法及装置
Yang et al. An energy-efficient scheme for multirelay cooperative networks with energy harvesting
CN106712813B (zh) 基于网络生命周期门限选择天线的mimo中继选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant