CN109272167A - 一种基于uudn和q神经网络的绿色能量合作方法 - Google Patents
一种基于uudn和q神经网络的绿色能量合作方法 Download PDFInfo
- Publication number
- CN109272167A CN109272167A CN201811172576.0A CN201811172576A CN109272167A CN 109272167 A CN109272167 A CN 109272167A CN 201811172576 A CN201811172576 A CN 201811172576A CN 109272167 A CN109272167 A CN 109272167A
- Authority
- CN
- China
- Prior art keywords
- energy
- neural network
- uudn
- state
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000003306 harvesting Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000001172 regenerating effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010042135 Stomatitis necrotising Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000008585 noma Diseases 0.000 description 1
- 230000021715 photosynthesis, light harvesting Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种以用户为中心的超密集网络中的绿色能量合作方法。以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。该场景建模为马尔可夫决策过程,在每个时隙中只有访问接入点的当前和过去状态信息可用。为了最大限度地提高系统的能源效率,本发明提出一种基于Q学习的强化学习方法进行可再生能源的合作。为了解决强化学习中的连续状态离散动作问题,本发明提出了一种采用三层BP神经网络作为逼近器的Q神经网络。仿真结果表明,系统的能量效率与访问接入点和用户的密度有关,所提出的方案能够满足用户的需求,提高系统的能源效率。
Description
技术领域
本发明涉及通信领域,尤指一种基于UUDN和Q神经网络的绿色能量合作方法。
背景技术
通信行业作为国家支柱产业为我国的经济和社会发展作出了巨大的贡献。随着网络规模不断扩大,用户不断增加,能耗也与日俱增。而可再生能源在能量供应过程中,具有分布广泛、无碳排放的特点,因此,将可再生能源(如太阳能等)引入移动通信网络受到了广泛的关注。
随着5G移动网络的迅速发展,以用户为中心的超密集网络(UUDN:User-centricUDN)已成为研究的热点。UUDN需要越来越多的接入点(AP:Access Points)来满足用户的业务需求。AP的数量可能超过用户的数量,而以用户为中心的设计是未来网络的一个重要原则,从而形成了以用户为中心的UUDN。为了减少AP的运行费用,可以采用能量获取技术(EH:Energy Harvesting)来获取可再生能源。AP可以使用所获取的可再生能量来给电池充电,从而延缓UDN的网络寿命。
以太阳能为例,光照充足的地方可能导致可再生能源的浪费,光照不足的地方还得需要其他方式的能量供给。采用能量获取技术的UUDN(EH-UDUN)和能量合作技术已经被广大学者进行了广泛的研究。在EH-UUDN中,每个AP可以从周围环境中获取能量。通过使用能量收发器,每个AP可以在一个时隙中向其他节点发送能量,并且在另一个时隙中接收来自其他节点的能量,从而可以优化网络上的可用能量的利用率。在文献Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and traffic management in cellular networkswith renewable energy[C].IEEE Global Communications Conference,2016中,作者利用李雅普诺夫优化框架研究了能源合作和流量管理。而在文献Dong Y,Chen Z,FanP.Capacity Region of Gaussian Multiple-Access Channels with Energy Harvestingand Energy Cooperation[J].IEEE Access,2017(5):1570-1578.则提出了用户也可以进行能量协作的观点,这些与传统K-用户高斯MAC的容量区域的能量合作是一致的。在文献LiY,YinC.Joint Energy Cooperation and Resource Allocationin C-RANs withHybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)中,作者研究了混合电源(包括传统电网和可再生能源)的云无线接入网络的联合可再生能源合作和资源分配。文献Xu B,Chen Y,Carrión J R,etal.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNetsTowards Green 5G[J].IEEE Journal on Selected Areas in Communications,2017,2758-2770.中主要研究具有非正交多址的能量合作的双层异构网络中的资源分配,其中基站由可再生能源和传统电网供电。作者提出了一种基于Q学习的强化学习方法,通过能量共享实现发射端的能量协作。
然而将无模型强化学习算法与非线性函数逼近器相结合,或与非策略学习相结合,会导致Q网络发散。因而有必要进一步研究。
发明内容
为解决上述问题,本发明主要目的在于,提出一种基于Q学习的强化学习方法,以解决强化学习中连续状态离散动作的问题,以能够满足用户的需求,从而提高系统的能效。该方法亦可看做是马尔可夫决策过程(MDP:Markov decision process)。
为实现上述目的,本发明的一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中,其包含步骤:
1)首先依能量共享实现发射端的能量协作建立MDP模型,利用AP分组算法将多个AP组织成APG,以满足UUDN的以用户为中心的设计;
2)其次,采用一种Q神经网络进行能量合作以解决强化学习中连续状态离散动作的问题;
即采用基于Q学习的强化学习方法进行可再生能源的合作以使系统能效最大化,并且该强化学习方法是将神经网络作为非线性函数逼近器以解决强化学习中连续状态离散动作的问题。
其中较佳的,所述Q神经网络是使用三层BP神经网络,且该方法进一步是可通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。
其中较佳的,是以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。该场景建模为马尔可夫决策过程,在每个时隙中只有访问接入点的当前和过去状态信息可用。
其中较佳的,该方法利用ε贪婪策略保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*。
其中较佳的,步骤1)所述建模步骤如下:
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电;假设时隙长度为T,在t=0时,初始UE和AP的位置遵循齐次泊松点过程;假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量;Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量;假设信道状态信息H(t)在同一时隙中保持不变;在UUDN中,满足λAP/λUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度;
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量;
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值;
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列;
A4:对于每个AP,在一个时隙内获取的能量是有限的;
A5:每个AP有三种状态:开启、休眠和关闭;
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的;而AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
④APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入;
⑤当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入;
⑥当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充;
APi在时隙t内传输的数据量为Ri(t)*(1TS),数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0;
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χT ij(t);χ∈[0,1]是两个AP之间的能量转移效率;
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束,APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS:
APi的电池能量队列长度如下:
此外还应考虑AP的能效EE,EE定义为AP发送的数据总量除以AP的功耗;
对于每个AP,考虑两个部分:是基本功率,是发射功率;
当AP处于开启状态并服务某个UE时,其中β代表AP的馈线和功率放大器的功率消耗;
当AP处于睡眠状态并不提供任何服务时,
当AP由于低能量而关闭时,
综上所述,AP功率表示为
因此,AP的EE表示为
基于UUDN的热点区域中的所有AP的EE表示为:
其中较佳的,步骤2)具体步骤为:
该步骤是采用三层BP神经网络作为Q学习算法的非线性函数逼近器;
网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值,神经网络的输入和输出参数之间的关系描述为:
采用直接梯度下降法对BP网络的参数进行训练,将误差定义为e=r+γminQ(s',a;ω)-Q(s,a;ω);
网络权值更新规则是其中是梯度信息,l是网络权重的学习率;
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长;
AP的三种状态:
系统回报函数与当前时隙的速率有关,定义为其中代表一个APG中的AP数量。
其中较佳的,基于所述神经网络的能量合作如下所示:
使用随机权重初始化动作-值函数Q
初始化st=[Bmode,E(t),B(t),H(t),Q(t)]
repeat
按照ε概率选择随机动作at
otherwise选择at=maxaQ*(st,a;ω)
执行动作at并观察回报rt
设置
根据
执行梯度下降法
设置st+1=st
Untils t+1是终止状态。
本发明有益效果在于,本发明提出的一种Q神经网络(QNN:Qneural network),它采用了三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。并可通过在每次迭代中最小化损失函数来训练QNN。另外ε贪婪策略可以保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*。经仿真结果表明,本发明的系统能量效率与AP和用户的密度有关,该方案能够满足用户的需求,提高系统的能效。
附图说明
图1系统建模示意图;
图2 AP的能量状态示意图;
图3不同能量获取概率下的系统平均吞吐率图;
图4不同学习率对应的回报曲线;
图5不同学习率对应的系统平均回报曲线;
图6系统能效与AP密度的关系;
图7系统能效与用户密度的关系。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案做进一步具体的说明。
本发明的理念在于首先是提出了一种基于Q学习的强化学习方法,该方法可看做是马尔可夫决策过程(MDP:Markov decision process)。
并且为了解决强化学习中连续状态离散动作的问题,本发明提出了一种Q神经网络(QNN:Qneural network),它优选采用三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。
并可通过在每次迭代中最小化损失函数来训练QNN。
ε贪婪策略可以保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*。
发明人经仿真结果表明,本发明的系统能量效率与AP和用户的密度有关,且本发明的该技术方案能够满足用户的需求,提高系统的能效。
以下以具体实施例详细说明之:
1)系统建模;
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电。假设时隙长度为T。在t=0时,初始UE和AP的位置遵循齐次泊松点过程。假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量。Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量。假设信道状态信息H(t)在同一时隙中保持不变。在UUDN中,满足λAP/λUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度。如图1所示,为本发明的系统建模示意图。
为了研究网络的性能极限,我们考虑以下假设(A1-A5)。
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量。
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值。
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列。
A4:对于每个AP,在一个时隙内获取的能量是有限的。
A5:每个AP有三种状态:开启、休眠和关闭。
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的,但显然这是一种能量浪费。如图2所示,为AP的能量状态示意图,AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
①APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入。
②当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入。
③当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充。
图2所示APi在时隙t内传输的数据量为Ri(t)*(1TS)。数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0。
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χTij(t)。χ∈[0,1]是两个AP之间的能量转移效率。
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束(APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS):
APi的电池能量队列长度如下:
此外还应考虑AP的能效(EE:Energy-Efficient),EE定义为AP发送的数据总量除以AP的功耗。
对于每个AP,我们考虑两个部分:是基本功率,是发射功率。
当AP处于开启状态并服务某个UE时,其中β代表AP的馈线和功率放大器的功率消耗。
当AP处于睡眠状态并不提供任何服务时,
当AP由于低能量而关闭时,0<α<1。实际上,AP在关闭状态下消耗大约为基本功率的十分之一。
综上所述,AP功率表示为
因此,AP的EE表示为
基于UUDN的热点区域中的所有AP的EE表示为:
3基于Q神经网络的能量合作
强化学习用于解决各种优化问题,以下本发明首先介绍传统的Q学习方法,满足MDP模型。智能体Agent不断地观察环境状态,采取行动,接受奖励,感知下一状态,并通过经验来改变其策略。
其中st属于环境状态空间,at是系统动作空间,和分别表示通过执行动作at将状态从st转移到st+1的状态转移概率和立即奖励。系统不需要知道其他的先验信息,该算法可以通过学习改变回报值并收敛到最优策略。Q值函数可以用下列公式更新:
其中(st,at)是MDP中的状态动作对,st+1是t+1时隙的状态,rt是t时隙的奖励,δ(0<δ<1)是控制收敛速度的学习因子,γ(0<γ<1)是折扣因子。当i→∞,算法收敛到最优动作值函数Qi→Q*。
EH-UUDN中的能量合作可以看作是一个多智能体合作的系统。本发明只考虑一个AP分组(APG)内的能量合作,其中AP不是孤立的,而是相互影响和相互制约的。传统的Q学习算法使用表来存储Q值,由于状态空间是连续的,所以需要存储无限多的Q值。为了解决强化学习中连续状态离散动作的问题,我们采用神经网络结构来存储Q值函数。带有ω权重的神经网络函数逼近器称为Q神经网络(QNN)。可以通过最小化每次迭代的损失函数来训练QNN。
因此,本发明的以具体实施是采用了三层BP神经网络以对传统的Q学习算法进行了改进。网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值。神经网络的输入和输出参数之间的关系描述为:
采用直接梯度下降法[15]对BP网络的参数进行训练,将误差定义为:
e=r+γmin Q(s',a;ω)-Q(s,a;ω)
网络权值更新规则是其中是梯度信息,l是网络权重的学习率。
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],如表2所示。动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长[16]。
表2AP的三种状态
奖励旨在实现能量合作,选择合适的能量分配策略的主要目的是提高EH-UUDN的吞吐量。因此,系统回报函数与当前时隙的速率有关,可定义为其中代表一个APG中的AP数量。
基于QNN的能量合作如表3所示。
表3 QNN算法
为了验证本发明上述技术方案效果,发明人进行了仿真测试,结果如下:
该仿真目的是要证明以用户为中心的QNN算法的有效性。考虑1Km*1Km的热点区域。AP和用户的位置满足独立齐次泊松点过程。λAP=700users/Km2,λUE=200users/Km2。AP的服务半径为20m,最大传输功率是24dBm,基本功率是20mW,最大获取能量为3e,电池的最大容量为10e,最大数据量为1Mbit。信道状态满足瑞利分布。网络结构是只有一个隐含层的神经网络。网络的输入层为AP的状态st=[Bmode,E(t),B(t),H(t),Q(t)],输入层有5个神经元,在输入之前对数据进行归一化:Bmode=Bmode/2,Ei(t)=Ei(t)/3,Bb(t)=Bb(t)/10,Qi(t)=Qi(t)/1M。隐含层有128个神经元,输出层有10个神经元,对应于10个离散动作(发射功率)。
当Bmode=Bsleep时,AP不能为任何用户服务,不能发送任何数据,因此随着越来越多的AP转向休眠状态,系统吞吐量会降低。如图3所示,为不同能量获取概率下的系统平均吞吐率图,这两条线代表了不同能量获取概率的平均系统吞吐量,的平均系统吞吐量高于
学习速率控制在每轮训练中添加到参数的损失大小。一般认为,学习速率越大,算法越快达到最优值。然而,学习速率太大,不能在最优值附近引起震荡,学习速率太小,不能使学习速度达到最优值,这可能不是很长时间收敛。结果在图4中示出,并且纵向轴是相应学习步骤的奖励。图4为不同学习率对应的回报曲线示意图。
学习率控制着在每次训练时加到参数上损失的大小,一般认为学习率大,算法更快达到最优值,但是学习率太大可能会造成在最优值附近震荡学习率小达到最优值的速度慢,可能长时间无法收敛。如图4所示,纵轴是相应学习步的回报。在图5中,图5为不同学习率对应的系统平均回报曲线。
如图6所示,为系统能效与AP密度的关系。图6显示了不同AP密度的EE性能,不同的曲线表示从λAP=400users/Km2到λAP=1000users/Km2的各种AP密度下的系统EE。随着AP密度的增加,一方面,组间干扰和组内干扰将导致整个网络的系统吞吐量下降,另一方面,AP消耗更多的电路功率,导致EE性能逐渐降低,所以在图5中所有曲线会逐渐下降。
如图7所示,为系统能效与用户密度的关系。图7显示了不同用户密度的EE性能,不同的曲线表示从λUE=100users/Km2到λUE=700users/Km2的各种用户密度下的系统EE。随着用户密度的增加,所有曲线的EE性能先上升到峰值,然后逐渐下降。当用户密度太小时,AP电路功率的比例增大,导致能量效率低下。随着用户数量的增加,能效达到最大值。用户密度越大,接收电路能量消耗越大,导致EE性能下降。
综上所述,本发明主要研究由可再生能源驱动的EH-UUDN中的能量合作问题。该问题可看作MDP模型。首先提出AP分组算法,将多个AP组织成APG,以满足UDN的以用户为中心的设计。其次,为了使系统能效最大化,采用基于Q学习的强化学习方法。为了解决强化学习中连续状态离散动作的问题,本发明将神经网络作为非线性函数逼近器。QNN使用三层BP神经网络,并通过最小化在每次迭代中变化的损失函数序列来训练网络。仿真结果表明,系统的能量效率与AP和UE的密度有关,所提出的方案能够满足用户的需求,提高系统EE。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
本发明的参考文献:
[1]Chen S,Qin F,Hu B,et al.User-centric ultra-dense networks for 5G:challenges,methodologies,and directions[J].IEEE Wireless Communications,2018,23(2):78-85.
[2]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.
[3]Tang S,Tan L.Reward Rate Maximization and Optimal TransmissionPolicy of EH Device With Temporal Death in EH-WSNs[M].IEEE Press,2017.
[4]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.
[5]Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and trafficmanagement in cellular networks with renewable energy[C].IEEE GlobalCommunications Conference,2016.
[6]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.
[7]LiY,Yin C.Joint Energy Cooperation and Resource Allocationin C-RANs with Hybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)
[8]Xu B,Chen Y,Carrión J R,et al.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNets Towards Green 5G[J].IEEE Journal onSelected Areas in Communications,2017,2758-2770.
[9]Duo C,Li B,Li Y,et al.Energy Cooperation in Ultradense NetworkPowered by Renewable Energy Based on Cluster and Learning Strategy[J].Wireless Communications&Mobile Computing,2017(5):1-10.
[10]Lv Y,Li B,et al.Energy Cooperation in CoMP SystemBased on Q-learning[C]//2017 11th IEEE International Conference on Anti-counterfeiting,Security,and Identification.2017:90-94
[11]Tsitsiklis J N,Roy B V.An analysis of temporal-differencelearning with function approximation[J].IEEE Transactions on AutomaticControl,2002,42(5):674-690.
[12]Baird L.Residual Algorithms:Reinforcement Learning with FunctionApproximation[J].Machine Learning Proceedings,1995:30-37.
[13]Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with DeepReinforcement Learning[J].Computer Science,2013.
[14]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control throughdeep reinforcement learning.[J].Nature,2015,518(7540):529.
[15]Lv Y,Li B,Zhao W,et al.Multi-base Station Energy CooperationBased on Nash Q-LearningAlgorithm[M]//5G for Future Wireless Networks.2018.
[16]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.
Claims (8)
1.一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中,其特征在于,包含步骤:
1)首先依能量共享实现发射端的能量协作建立MDP模型,利用AP分组算法将多个AP组织成APG,以满足UUDN的以用户为中心的设计;
2)其次,采用一种Q神经网络进行能量合作以解决强化学习中连续状态离散动作的问题;
即采用基于Q学习的强化学习方法进行可再生能源的合作以使系统能效最大化,并且该强化学习方法是将神经网络作为非线性函数逼近器以解决强化学习中连续状态离散动作的问题。
2.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,所述Q神经网络是使用三层BP神经网络。
3.根据权利要求所述2的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,该方法进一步是通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。
4.根据权利要求所述3的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,以用户为中心的超密集网络中的访问接入点配备有能量获取单元,且仅由可再生能源供电。该场景建模为马尔可夫决策过程,在每个时隙中只有访问接入点的当前和过去状态信息可用。
5.根据权利要求所述4的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于:该方法利用ε贪婪策略保证算法的收敛性,并且这种值迭代算法收敛到最优动作值函数,即当i→∞,Qi→Q*。
6.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,步骤1)所述建模步骤如下:
考虑EH-UUDN的下行链路,其中UE和AP是随机定位的,并且每个AP配备有能量获取单元和可再充电电池,AP仅由可再生能源供电;假设时隙长度为T,在t=0时,初始UE和AP的位置遵循齐次泊松点过程;假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP,以及能量接收单元用于接收由其他AP发送的能量;Ei(t)表示APi在时隙t内获取的能量,Bi(t)表示APi在时隙t的电池容量;假设信道状态信息H(t)在同一时隙中保持不变;在UUDN中,满足λAP/λUE>>1,其中λAP和λUE分别代表热点区域中的AP和UE的密度;
A1:每个AP的能量缓冲器是有限的,Bmax代表电池的最大容量;
A2:每个AP的数据缓冲器是有限的,Dmax代表可存储数据的最大值;
A3:{Ei(t),i=1,2,3,...}是遍历的,独立的和同分布的序列;
A4:对于每个AP,在一个时隙内获取的能量是有限的;
A5:每个AP有三种状态:开启、休眠和关闭;
在EH-UUDN,当所有的AP都处于开启状态时,信号覆盖率是最大的;而AP有三种状态:开启、休眠和关闭,其所对应的能量也分为三种情况:
①APi的电池容量满足Bi(t)≥Bsleep,此时AP处于开启状态,用户可接入;
②当电池容量满足Boff≤Bi(t)<Bsleep时,AP进入休眠状态,此状态可以节约能源,并继续获取绿色能量,用户无法接入;
③当电池容量满足Bi(t)<Boff时,无论是在开启状态还是休眠状态下,AP都应自动进入关闭状态,并等待能量补充;
APi在时隙t内传输的数据量为Ri(t)*(1TS),数据队列长度为Qi(t+1)=[Qi(t)-Ri(t)]++Di(t),其中Di(t)表示APi在时隙期t内的数据流量,[x]+=max{0,x},Qi(0)=0;
Tij(t)表示从APi到APj的发送能量,则APj的接收能量为χT ij(t);χ∈[0,1]是两个AP之间的能量转移效率;
每个AP消耗的总能量不应超过电池的总电量,在时隙t遵循功耗约束,APi的发送能量是Pi(t)*(1TS),并且在功率和能量之间转换时省略了隐式乘法1TS:
APi的电池能量队列长度如下:
考虑AP的能效EE,EE定义为AP发送的数据总量除以AP的功耗;
对于每个AP,考虑两个部分:Pi 0是基本功率,Pi T是发射功率;
当AP处于开启状态并服务某个UE时,Pi=Pi 0+βPi T,其中β代表AP的馈线和功率放大器的功率消耗;
当AP处于睡眠状态并不提供任何服务时,Pi=Pi 0;
当AP由于低能量而关闭时,Pi=αPi 0,0<α<1;
综上所述,AP功率表示为Pi(ρ)=ΔPi Tρ+(1-α)Pi 0ρ+αPi 0,
因此,AP的EE表示为:
基于UUDN的热点区域中的所有AP的EE表示为:
7.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,步骤2)具体步骤为:
该步骤是采用三层BP神经网络作为Q学习算法的非线性函数逼近器;
网络的输入参数是一个APG内所有AP的状态,输出参数是每个可能动作的Q值,神经网络的输入和输出参数之间的关系描述为:
采用直接梯度下降法对BP网络的参数进行训练,将误差定义为e=r+γminQ(s',a;ω)-Q(s,a;ω);
网络权值更新规则是其中是梯度信息,l是网络权重的学习率;
在t时隙,AP的状态由一个五元组构成:st=[Bmode,E(t),B(t),H(t),Q(t)],其中Bmode表示AP的三种状态:[on,sleep,off],相应的取值为[2,1,0],动作at=q(t),q(t)∈{0,e,2e,...,Bmax},e是能量的基本单位,即一个步长;
AP的三种状态:
系统回报函数与当前时隙的速率有关,定义为其中代表一个APG中的AP数量。
8.根据权利要求所述3的一种基于UUDN和Q神经网络的绿色能量合作方法,其特征在于,基于所述神经网络的能量合作如下所示:
使用随机权重初始化动作-值函数Q
初始化st=[Bmode,E(t),B(t),H(t),Q(t)]
repeat
按照ε概率选择随机动作at
otherwise选择at=maxaQ*(st,a;ω)
执行动作at并观察回报rt
设置
根据
执行梯度下降法
设置st+1=st
Untilst+1是终止状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811172576.0A CN109272167B (zh) | 2018-10-09 | 2018-10-09 | 一种基于uudn和q神经网络的绿色能量合作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811172576.0A CN109272167B (zh) | 2018-10-09 | 2018-10-09 | 一种基于uudn和q神经网络的绿色能量合作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109272167A true CN109272167A (zh) | 2019-01-25 |
CN109272167B CN109272167B (zh) | 2021-04-20 |
Family
ID=65196174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811172576.0A Active CN109272167B (zh) | 2018-10-09 | 2018-10-09 | 一种基于uudn和q神经网络的绿色能量合作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109272167B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311996A (zh) * | 2020-03-27 | 2020-06-19 | 湖南有色金属职业技术学院 | 基于大数据的线上教育信息化教学系统 |
CN113473245A (zh) * | 2021-06-11 | 2021-10-01 | 吉林大学 | 基于可再生能源und视频流等待时间优化方法 |
US11323167B2 (en) | 2020-04-13 | 2022-05-03 | National Tsing Hua University | Communication time allocation method using reinforcement learning for wireless powered communication network and base station |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105438A (zh) * | 2017-04-20 | 2017-08-29 | 成都瑞沣信息科技有限公司 | 一种基于QoS的数能一体传输策略设计方法 |
-
2018
- 2018-10-09 CN CN201811172576.0A patent/CN109272167B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105438A (zh) * | 2017-04-20 | 2017-08-29 | 成都瑞沣信息科技有限公司 | 一种基于QoS的数能一体传输策略设计方法 |
Non-Patent Citations (3)
Title |
---|
BERK GURAKAN等: "Energy Cooperation in Energy Harvesting Communications", 《IEEE》 * |
CHUNHONG DUO 等: "Energy Cooperation in Ultradense Network Powered by", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》 * |
YABO LV 等: "Energy Cooperation in CoMP System Based on Q-learning", 《IEEE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311996A (zh) * | 2020-03-27 | 2020-06-19 | 湖南有色金属职业技术学院 | 基于大数据的线上教育信息化教学系统 |
US11323167B2 (en) | 2020-04-13 | 2022-05-03 | National Tsing Hua University | Communication time allocation method using reinforcement learning for wireless powered communication network and base station |
CN113473245A (zh) * | 2021-06-11 | 2021-10-01 | 吉林大学 | 基于可再生能源und视频流等待时间优化方法 |
CN113473245B (zh) * | 2021-06-11 | 2022-04-08 | 吉林大学 | 基于可再生能源und视频流等待时间优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109272167B (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | Content-centric sparse multicast beamforming for cache-enabled cloud RAN | |
Tang et al. | Minimum throughput maximization for multi-UAV enabled WPCN: A deep reinforcement learning method | |
CN108737057B (zh) | 基于深度学习的多载波认知noma资源分配方法 | |
Zhang et al. | Power allocation in multi-cell networks using deep reinforcement learning | |
Zhang et al. | Energy-efficient resource allocation in uplink NOMA systems with deep reinforcement learning | |
Guo et al. | Multi-agent reinforcement learning-based distributed channel access for next generation wireless networks | |
CN109272167A (zh) | 一种基于uudn和q神经网络的绿色能量合作方法 | |
Fan et al. | D2D power control based on supervised and unsupervised learning | |
Wang et al. | Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC | |
CN109831808B (zh) | 一种基于机器学习的混合供电c-ran的资源分配方法 | |
CN110300417B (zh) | 无人机通信网络的能量效率优化方法和装置 | |
CN113395723B (zh) | 基于强化学习的5g nr下行调度时延优化系统 | |
Ren et al. | DDPG based computation offloading and resource allocation for MEC systems with energy harvesting | |
Dinh et al. | Energy efficient resource allocation optimization in fog radio access networks with outdated channel knowledge | |
Tan et al. | Resource allocation of fog radio access network based on deep reinforcement learning | |
CN103781166B (zh) | 异构无线网络协作通信系统中的移动终端功率分配方法 | |
Qiu et al. | Subchannel assignment and power allocation for time-varying fog radio access network with NOMA | |
Ouyang | Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN | |
Liu et al. | Computation offloading and resource allocation in unmanned aerial vehicle networks | |
Zhou et al. | Dynamic channel allocation for multi-UAVs: A deep reinforcement learning approach | |
Tian et al. | Asynchronous federated learning empowered computation offloading in collaborative vehicular networks | |
Duan et al. | Resource allocation optimisation for delay‐sensitive traffic in energy harvesting cloud radio access network | |
Wang et al. | Deep reinforcement learning based joint partial computation offloading and resource allocation in mobility-aware MEC system | |
CN106060876A (zh) | 一种异构无线网络均衡负载的方法 | |
CN108307510A (zh) | 一种异构小区网络中的功率分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |