CN109272167A

CN109272167A - 一种基于uudn和q神经网络的绿色能量合作方法

Info

Publication number: CN109272167A
Application number: CN201811172576.0A
Authority: CN
Inventors: 朵春红; 李永倩; 李宝罡; 吕亚波
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-01-25
Anticipated expiration: 2038-10-09
Also published as: CN109272167B

Abstract

本发明公开了一种以用户为中心的超密集网络中的绿色能量合作方法。以用户为中心的超密集网络中的访问接入点配备有能量获取单元，且仅由可再生能源供电。该场景建模为马尔可夫决策过程，在每个时隙中只有访问接入点的当前和过去状态信息可用。为了最大限度地提高系统的能源效率，本发明提出一种基于Q学习的强化学习方法进行可再生能源的合作。为了解决强化学习中的连续状态离散动作问题，本发明提出了一种采用三层BP神经网络作为逼近器的Q神经网络。仿真结果表明，系统的能量效率与访问接入点和用户的密度有关，所提出的方案能够满足用户的需求，提高系统的能源效率。

Description

一种基于UUDN和Q神经网络的绿色能量合作方法

技术领域

本发明涉及通信领域，尤指一种基于UUDN和Q神经网络的绿色能量合作方法。

背景技术

通信行业作为国家支柱产业为我国的经济和社会发展作出了巨大的贡献。随着网络规模不断扩大,用户不断增加,能耗也与日俱增。而可再生能源在能量供应过程中,具有分布广泛、无碳排放的特点，因此,将可再生能源(如太阳能等)引入移动通信网络受到了广泛的关注。

随着5G移动网络的迅速发展，以用户为中心的超密集网络(UUDN：User-centricUDN)已成为研究的热点。UUDN需要越来越多的接入点(AP:Access Points)来满足用户的业务需求。AP的数量可能超过用户的数量，而以用户为中心的设计是未来网络的一个重要原则，从而形成了以用户为中心的UUDN。为了减少AP的运行费用，可以采用能量获取技术(EH:Energy Harvesting)来获取可再生能源。AP可以使用所获取的可再生能量来给电池充电，从而延缓UDN的网络寿命。

以太阳能为例，光照充足的地方可能导致可再生能源的浪费，光照不足的地方还得需要其他方式的能量供给。采用能量获取技术的UUDN(EH-UDUN)和能量合作技术已经被广大学者进行了广泛的研究。在EH-UUDN中，每个AP可以从周围环境中获取能量。通过使用能量收发器，每个AP可以在一个时隙中向其他节点发送能量，并且在另一个时隙中接收来自其他节点的能量，从而可以优化网络上的可用能量的利用率。在文献Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and traffic management in cellular networkswith renewable energy[C].IEEE Global Communications Conference,2016中，作者利用李雅普诺夫优化框架研究了能源合作和流量管理。而在文献Dong Y,Chen Z,FanP.Capacity Region of Gaussian Multiple-Access Channels with Energy Harvestingand Energy Cooperation[J].IEEE Access,2017(5):1570-1578.则提出了用户也可以进行能量协作的观点，这些与传统K-用户高斯MAC的容量区域的能量合作是一致的。在文献LiY,YinC.Joint Energy Cooperation and Resource Allocationin C-RANs withHybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)中，作者研究了混合电源(包括传统电网和可再生能源)的云无线接入网络的联合可再生能源合作和资源分配。文献Xu B,Chen Y,Carrión J R,etal.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNetsTowards Green 5G[J].IEEE Journal on Selected Areas in Communications,2017,2758-2770.中主要研究具有非正交多址的能量合作的双层异构网络中的资源分配，其中基站由可再生能源和传统电网供电。作者提出了一种基于Q学习的强化学习方法，通过能量共享实现发射端的能量协作。

然而将无模型强化学习算法与非线性函数逼近器相结合，或与非策略学习相结合，会导致Q网络发散。因而有必要进一步研究。

发明内容

为解决上述问题，本发明主要目的在于，提出一种基于Q学习的强化学习方法，以解决强化学习中连续状态离散动作的问题，以能够满足用户的需求，从而提高系统的能效。该方法亦可看做是马尔可夫决策过程(MDP:Markov decision process)。

为实现上述目的，本发明的一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中，其包含步骤：

1)首先依能量共享实现发射端的能量协作建立MDP模型，利用AP分组算法将多个AP组织成APG，以满足UUDN的以用户为中心的设计；

2)其次，采用一种Q神经网络进行能量合作以解决强化学习中连续状态离散动作的问题；

即采用基于Q学习的强化学习方法进行可再生能源的合作以使系统能效最大化，并且该强化学习方法是将神经网络作为非线性函数逼近器以解决强化学习中连续状态离散动作的问题。

其中较佳的，所述Q神经网络是使用三层BP神经网络，且该方法进一步是可通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。

其中较佳的，是以用户为中心的超密集网络中的访问接入点配备有能量获取单元，且仅由可再生能源供电。该场景建模为马尔可夫决策过程，在每个时隙中只有访问接入点的当前和过去状态信息可用。

其中较佳的，该方法利用ε贪婪策略保证算法的收敛性，并且这种值迭代算法收敛到最优动作值函数，即当i→∞，Q_i→Q^*。

其中较佳的，步骤1)所述建模步骤如下：

考虑EH-UUDN的下行链路，其中UE和AP是随机定位的，并且每个AP配备有能量获取单元和可再充电电池，AP仅由可再生能源供电；假设时隙长度为T，在t＝0时，初始UE和AP的位置遵循齐次泊松点过程；假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP，以及能量接收单元用于接收由其他AP发送的能量；E_i(t)表示AP_i在时隙t内获取的能量，B_i(t)表示AP_i在时隙t的电池容量；假设信道状态信息H(t)在同一时隙中保持不变；在UUDN中，满足λ_AP/λ_UE＞＞1，其中λ_AP和λ_UE分别代表热点区域中的AP和UE的密度；

A1：每个AP的能量缓冲器是有限的，B_max代表电池的最大容量；

A2：每个AP的数据缓冲器是有限的，D_max代表可存储数据的最大值；

A3：{E_i(t),i＝1,2,3,...}是遍历的，独立的和同分布的序列；

A4:对于每个AP，在一个时隙内获取的能量是有限的；

A5：每个AP有三种状态：开启、休眠和关闭；

在EH-UUDN，当所有的AP都处于开启状态时，信号覆盖率是最大的；而AP有三种状态：开启、休眠和关闭，其所对应的能量也分为三种情况：

④AP_i的电池容量满足B_i(t)≥B_sleep，此时AP处于开启状态，用户可接入；

⑤当电池容量满足B_off≤B_i(t)＜B_sleep时，AP进入休眠状态，此状态可以节约能源，并继续获取绿色能量，用户无法接入；

⑥当电池容量满足B_i(t)＜B_off时，无论是在开启状态还是休眠状态下，AP都应自动进入关闭状态，并等待能量补充；

AP_i在时隙t内传输的数据量为R_i(t)*(1TS)，数据队列长度为Q_i(t+1)＝[Q_i(t)-R_i(t)]⁺+D_i(t)，其中D_i(t)表示AP_i在时隙期t内的数据流量，[x]⁺＝max{0,x}，Q_i(0)＝0；

T_ij(t)表示从AP_i到AP_j的发送能量，则AP_j的接收能量为χ^T _ij(t)；χ∈[0,1]是两个AP之间的能量转移效率；

每个AP消耗的总能量不应超过电池的总电量，在时隙t遵循功耗约束，AP_i的发送能量是P_i(t)*(1TS)，并且在功率和能量之间转换时省略了隐式乘法1TS：

AP_i的电池能量队列长度如下：

此外还应考虑AP的能效EE，EE定义为AP发送的数据总量除以AP的功耗；

对于每个AP，考虑两个部分：是基本功率，是发射功率；

当AP处于开启状态并服务某个UE时，其中β代表AP的馈线和功率放大器的功率消耗；

当AP处于睡眠状态并不提供任何服务时，

当AP由于低能量而关闭时，

综上所述，AP功率表示为

因此，AP的EE表示为

基于UUDN的热点区域中的所有AP的EE表示为：

其中较佳的，步骤2)具体步骤为：

该步骤是采用三层BP神经网络作为Q学习算法的非线性函数逼近器；

网络的输入参数是一个APG内所有AP的状态，输出参数是每个可能动作的Q值，神经网络的输入和输出参数之间的关系描述为：

采用直接梯度下降法对BP网络的参数进行训练，将误差定义为e＝r+γminQ(s',a；ω)-Q(s,a；ω)；

网络权值更新规则是其中是梯度信息,l是网络权重的学习率；

在t时隙，AP的状态由一个五元组构成：s_t＝[B_mode,E(t),B(t),H(t),Q(t)]，其中B_mode表示AP的三种状态：[on,sleep,off]，相应的取值为[2,1,0]，动作a_t＝q(t)，q(t)∈{0,e,2e,...,B_max}，e是能量的基本单位，即一个步长；

AP的三种状态：

系统回报函数与当前时隙的速率有关，定义为其中代表一个APG中的AP数量。

其中较佳的，基于所述神经网络的能量合作如下所示：

使用随机权重初始化动作-值函数Q

初始化s_t＝[B_mode,E(t),B(t),H(t),Q(t)]

repeat

按照ε概率选择随机动作a_t

otherwise选择a_t＝max_aQ*(s_t,a；ω)

执行动作a_t并观察回报r_t

设置

根据

执行梯度下降法

设置s_t+1＝s_t

Until^s _t+1是终止状态。

本发明有益效果在于，本发明提出的一种Q神经网络(QNN:Qneural network)，它采用了三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。并可通过在每次迭代中最小化损失函数来训练QNN。另外ε贪婪策略可以保证算法的收敛性，并且这种值迭代算法收敛到最优动作值函数，即当i→∞，Q_i→Q^*。经仿真结果表明，本发明的系统能量效率与AP和用户的密度有关，该方案能够满足用户的需求，提高系统的能效。

附图说明

图1系统建模示意图；

图2 AP的能量状态示意图；

图3不同能量获取概率下的系统平均吞吐率图；

图4不同学习率对应的回报曲线；

图5不同学习率对应的系统平均回报曲线；

图6系统能效与AP密度的关系；

图7系统能效与用户密度的关系。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案做进一步具体的说明。

本发明的理念在于首先是提出了一种基于Q学习的强化学习方法，该方法可看做是马尔可夫决策过程(MDP:Markov decision process)。

并且为了解决强化学习中连续状态离散动作的问题，本发明提出了一种Q神经网络(QNN:Qneural network)，它优选采用三层BP神经网络作为逼近器来提高Q学习算法的泛化能力。

并可通过在每次迭代中最小化损失函数来训练QNN。

ε贪婪策略可以保证算法的收敛性，并且这种值迭代算法收敛到最优动作值函数，即当i→∞，Q_i→Q^*。

发明人经仿真结果表明，本发明的系统能量效率与AP和用户的密度有关，且本发明的该技术方案能够满足用户的需求，提高系统的能效。

以下以具体实施例详细说明之：

1)系统建模；

考虑EH-UUDN的下行链路，其中UE和AP是随机定位的，并且每个AP配备有能量获取单元和可再充电电池，AP仅由可再生能源供电。假设时隙长度为T。在t＝0时，初始UE和AP的位置遵循齐次泊松点过程。假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP，以及能量接收单元用于接收由其他AP发送的能量。E_i(t)表示AP_i在时隙t内获取的能量，B_i(t)表示AP_i在时隙t的电池容量。假设信道状态信息H(t)在同一时隙中保持不变。在UUDN中，满足λ_AP/λ_UE＞＞1，其中λ_AP和λ_UE分别代表热点区域中的AP和UE的密度。如图1所示，为本发明的系统建模示意图。

为了研究网络的性能极限，我们考虑以下假设(A1-A5)。

A1：每个AP的能量缓冲器是有限的，B_max代表电池的最大容量。

A2：每个AP的数据缓冲器是有限的，D_max代表可存储数据的最大值。

A3：{E_i(t),i＝1,2,3,...}是遍历的，独立的和同分布的序列。

A4:对于每个AP，在一个时隙内获取的能量是有限的。

A5：每个AP有三种状态：开启、休眠和关闭。

在EH-UUDN，当所有的AP都处于开启状态时，信号覆盖率是最大的，但显然这是一种能量浪费。如图2所示，为AP的能量状态示意图，AP有三种状态：开启、休眠和关闭，其所对应的能量也分为三种情况：

①AP_i的电池容量满足B_i(t)≥B_sleep，此时AP处于开启状态，用户可接入。

②当电池容量满足B_off≤B_i(t)＜B_sleep时，AP进入休眠状态，此状态可以节约能源，并继续获取绿色能量，用户无法接入。

③当电池容量满足B_i(t)＜B_off时，无论是在开启状态还是休眠状态下，AP都应自动进入关闭状态，并等待能量补充。

图2所示AP_i在时隙t内传输的数据量为R_i(t)*(1TS)。数据队列长度为Q_i(t+1)＝[Q_i(t)-R_i(t)]⁺+D_i(t)，其中D_i(t)表示AP_i在时隙期t内的数据流量，[x]⁺＝max{0,x}，Q_i(0)＝0。

T_ij(t)表示从AP_i到AP_j的发送能量，则AP_j的接收能量为χT_ij(t)。χ∈[0,1]是两个AP之间的能量转移效率。

每个AP消耗的总能量不应超过电池的总电量，在时隙t遵循功耗约束(AP_i的发送能量是P_i(t)*(1TS)，并且在功率和能量之间转换时省略了隐式乘法1TS)：

AP_i的电池能量队列长度如下：

此外还应考虑AP的能效(EE:Energy-Efficient)，EE定义为AP发送的数据总量除以AP的功耗。

对于每个AP，我们考虑两个部分：是基本功率，是发射功率。

当AP处于开启状态并服务某个UE时，其中β代表AP的馈线和功率放大器的功率消耗。

当AP处于睡眠状态并不提供任何服务时，

当AP由于低能量而关闭时，0＜α＜1。实际上，AP在关闭状态下消耗大约为基本功率的十分之一。

综上所述，AP功率表示为

因此，AP的EE表示为

基于UUDN的热点区域中的所有AP的EE表示为：

3基于Q神经网络的能量合作

强化学习用于解决各种优化问题，以下本发明首先介绍传统的Q学习方法，满足MDP模型。智能体Agent不断地观察环境状态，采取行动，接受奖励，感知下一状态，并通过经验来改变其策略。

其中s_t属于环境状态空间，a_t是系统动作空间，和分别表示通过执行动作a_t将状态从s_t转移到s_t+1的状态转移概率和立即奖励。系统不需要知道其他的先验信息，该算法可以通过学习改变回报值并收敛到最优策略。Q值函数可以用下列公式更新：

其中(s_t,a_t)是MDP中的状态动作对，s_t+1是t+1时隙的状态，r_t是t时隙的奖励，δ(0＜δ＜1)是控制收敛速度的学习因子，γ(0＜γ＜1)是折扣因子。当i→∞，算法收敛到最优动作值函数Q_i→Q^*。

EH-UUDN中的能量合作可以看作是一个多智能体合作的系统。本发明只考虑一个AP分组(APG)内的能量合作，其中AP不是孤立的，而是相互影响和相互制约的。传统的Q学习算法使用表来存储Q值，由于状态空间是连续的，所以需要存储无限多的Q值。为了解决强化学习中连续状态离散动作的问题，我们采用神经网络结构来存储Q值函数。带有ω权重的神经网络函数逼近器称为Q神经网络(QNN)。可以通过最小化每次迭代的损失函数来训练QNN。

因此，本发明的以具体实施是采用了三层BP神经网络以对传统的Q学习算法进行了改进。网络的输入参数是一个APG内所有AP的状态，输出参数是每个可能动作的Q值。神经网络的输入和输出参数之间的关系描述为：

采用直接梯度下降法^[15]对BP网络的参数进行训练，将误差定义为：

e＝r+γmin Q(s',a；ω)-Q(s,a；ω)

网络权值更新规则是其中是梯度信息,l是网络权重的学习率。

在t时隙，AP的状态由一个五元组构成：s_t＝[B_mode,E(t),B(t),H(t),Q(t)]，其中B_mode表示AP的三种状态：[on,sleep,off]，相应的取值为[2,1,0]，如表2所示。动作a_t＝q(t)，q(t)∈{0,e,2e,...,B_max}，e是能量的基本单位，即一个步长^[16]。

表2AP的三种状态

奖励旨在实现能量合作，选择合适的能量分配策略的主要目的是提高EH-UUDN的吞吐量。因此，系统回报函数与当前时隙的速率有关，可定义为其中代表一个APG中的AP数量。

基于QNN的能量合作如表3所示。

表3 QNN算法

为了验证本发明上述技术方案效果，发明人进行了仿真测试，结果如下：

该仿真目的是要证明以用户为中心的QNN算法的有效性。考虑1Km*1Km的热点区域。AP和用户的位置满足独立齐次泊松点过程。λ_AP＝700users/Km²，λ_UE＝200users/Km²。AP的服务半径为20m，最大传输功率是24dBm，基本功率是20mW，最大获取能量为3e，电池的最大容量为10e，最大数据量为1Mbit。信道状态满足瑞利分布。网络结构是只有一个隐含层的神经网络。网络的输入层为AP的状态s_t＝[B_mode,E(t),B(t),H(t),Q(t)]，输入层有5个神经元，在输入之前对数据进行归一化：B_mode＝B_mode/2,E_i(t)＝E_i(t)/3,B_b(t)＝B_b(t)/10,Q_i(t)＝Q_i(t)/1M。隐含层有128个神经元，输出层有10个神经元，对应于10个离散动作(发射功率)。

当B_mode＝B_sleep时,AP不能为任何用户服务，不能发送任何数据，因此随着越来越多的AP转向休眠状态，系统吞吐量会降低。如图3所示，为不同能量获取概率下的系统平均吞吐率图，这两条线代表了不同能量获取概率的平均系统吞吐量，的平均系统吞吐量高于

学习速率控制在每轮训练中添加到参数的损失大小。一般认为，学习速率越大，算法越快达到最优值。然而，学习速率太大，不能在最优值附近引起震荡，学习速率太小，不能使学习速度达到最优值，这可能不是很长时间收敛。结果在图4中示出，并且纵向轴是相应学习步骤的奖励。图4为不同学习率对应的回报曲线示意图。

学习率控制着在每次训练时加到参数上损失的大小，一般认为学习率大，算法更快达到最优值，但是学习率太大可能会造成在最优值附近震荡学习率小达到最优值的速度慢，可能长时间无法收敛。如图4所示，纵轴是相应学习步的回报。在图5中，图5为不同学习率对应的系统平均回报曲线。

如图6所示，为系统能效与AP密度的关系。图6显示了不同AP密度的EE性能，不同的曲线表示从λ_AP＝400users/Km²到λ_AP＝1000users/Km²的各种AP密度下的系统EE。随着AP密度的增加，一方面，组间干扰和组内干扰将导致整个网络的系统吞吐量下降，另一方面，AP消耗更多的电路功率，导致EE性能逐渐降低，所以在图5中所有曲线会逐渐下降。

如图7所示，为系统能效与用户密度的关系。图7显示了不同用户密度的EE性能，不同的曲线表示从λ_UE＝100users/Km²到λ_UE＝700users/Km²的各种用户密度下的系统EE。随着用户密度的增加，所有曲线的EE性能先上升到峰值，然后逐渐下降。当用户密度太小时，AP电路功率的比例增大，导致能量效率低下。随着用户数量的增加，能效达到最大值。用户密度越大，接收电路能量消耗越大，导致EE性能下降。

综上所述，本发明主要研究由可再生能源驱动的EH-UUDN中的能量合作问题。该问题可看作MDP模型。首先提出AP分组算法，将多个AP组织成APG，以满足UDN的以用户为中心的设计。其次，为了使系统能效最大化，采用基于Q学习的强化学习方法。为了解决强化学习中连续状态离散动作的问题，本发明将神经网络作为非线性函数逼近器。QNN使用三层BP神经网络，并通过最小化在每次迭代中变化的损失函数序列来训练网络。仿真结果表明，系统的能量效率与AP和UE的密度有关，所提出的方案能够满足用户的需求，提高系统EE。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

本发明的参考文献：

[1]Chen S,Qin F,Hu B,et al.User-centric ultra-dense networks for 5G:challenges,methodologies,and directions[J].IEEE Wireless Communications,2018,23(2):78-85.

[2]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.

[3]Tang S,Tan L.Reward Rate Maximization and Optimal TransmissionPolicy of EH Device With Temporal Death in EH-WSNs[M].IEEE Press,2017.

[4]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.

[5]Hyun-Suk Lee,Jang-Won Lee.Energy cooperation and trafficmanagement in cellular networks with renewable energy[C].IEEE GlobalCommunications Conference,2016.

[6]Dong Y,Chen Z,Fan P.Capacity Region of Gaussian Multiple-AccessChannels with Energy Harvesting and Energy Cooperation[J].IEEE Access,2017(5):1570-1578.

[7]LiY,Yin C.Joint Energy Cooperation and Resource Allocationin C-RANs with Hybrid Energy Sources.2017 IEEE/CIC International Conference onCommunications in China(ICCC)

[8]Xu B,Chen Y,Carrión J R,et al.Resource Allocation in Energy-Cooperation Enabled Two-tier NOMA HetNets Towards Green 5G[J].IEEE Journal onSelected Areas in Communications,2017,2758-2770.

[9]Duo C,Li B,Li Y,et al.Energy Cooperation in Ultradense NetworkPowered by Renewable Energy Based on Cluster and Learning Strategy[J].Wireless Communications&Mobile Computing,2017(5):1-10.

[10]Lv Y,Li B,et al.Energy Cooperation in CoMP SystemBased on Q-learning[C]//2017 11th IEEE International Conference on Anti-counterfeiting,Security,and Identification.2017:90-94

[11]Tsitsiklis J N,Roy B V.An analysis of temporal-differencelearning with function approximation[J].IEEE Transactions on AutomaticControl,2002,42(5):674-690.

[12]Baird L.Residual Algorithms:Reinforcement Learning with FunctionApproximation[J].Machine Learning Proceedings,1995:30-37.

[13]Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with DeepReinforcement Learning[J].Computer Science,2013.

[14]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control throughdeep reinforcement learning.[J].Nature,2015,518(7540):529.

[15]Lv Y,Li B,Zhao W,et al.Multi-base Station Energy CooperationBased on Nash Q-LearningAlgorithm[M]//5G for Future Wireless Networks.2018.

[16]Ortiz A,Alshatri H,Weber T,et al.Multi-Agent ReinforcementLearning for Energy Harvesting Two-Hop Communications with Full Cooperation[J].2017.

Claims

1.一种基于UUDN和Q神经网络的绿色能量合作方法,应用于以用户为中心的超密集网络中的由可再生能源驱动的EH-UUDN中，其特征在于，包含步骤：

2.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，所述Q神经网络是使用三层BP神经网络。

3.根据权利要求所述2的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，该方法进一步是通过最小化在每次迭代中变化的损失函数序列来训练所述神经网络。

4.根据权利要求所述3的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，以用户为中心的超密集网络中的访问接入点配备有能量获取单元，且仅由可再生能源供电。该场景建模为马尔可夫决策过程，在每个时隙中只有访问接入点的当前和过去状态信息可用。

5.根据权利要求所述4的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于：该方法利用ε贪婪策略保证算法的收敛性，并且这种值迭代算法收敛到最优动作值函数，即当i→∞，Q_i→Q^*。

6.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，步骤1)所述建模步骤如下：

考虑EH-UUDN的下行链路，其中UE和AP是随机定位的，并且每个AP配备有能量获取单元和可再充电电池，AP仅由可再生能源供电；假设时隙长度为T，在t＝0时，初始UE和AP的位置遵循齐次泊松点过程；假设每个AP还配备有能量发送单元用于将一些收获的可再生能量发送到其他AP，以及能量接收单元用于接收由其他AP发送的能量；E_i(t)表示APⁱ在时隙t内获取的能量，B_i(t)表示APⁱ在时隙t的电池容量；假设信道状态信息H(t)在同一时隙中保持不变；在UUDN中，满足λ_AP/λ_UE＞＞1，其中λ_AP和λ_UE分别代表热点区域中的AP和UE的密度；

A3：{E_i(t),i＝1,2,3,...}是遍历的，独立的和同分布的序列；

A4:对于每个AP，在一个时隙内获取的能量是有限的；

A5：每个AP有三种状态：开启、休眠和关闭；

①APⁱ的电池容量满足B_i(t)≥B_sleep，此时AP处于开启状态，用户可接入；

②当电池容量满足B_off≤B_i(t)＜B_sleep时，AP进入休眠状态，此状态可以节约能源，并继续获取绿色能量，用户无法接入；

③当电池容量满足B_i(t)＜B_off时，无论是在开启状态还是休眠状态下，AP都应自动进入关闭状态，并等待能量补充；

APⁱ在时隙t内传输的数据量为R_i(t)*(1TS)，数据队列长度为Q_i(t+1)＝[Q_i(t)-R_i(t)]⁺+D_i(t)，其中D_i(t)表示APⁱ在时隙期t内的数据流量，[x]⁺＝max{0,x}，Q_i(0)＝0；

T_ij(t)表示从APⁱ到AP^j的发送能量，则AP^j的接收能量为χ^T _ij(t)；χ∈[0,1]是两个AP之间的能量转移效率；

每个AP消耗的总能量不应超过电池的总电量，在时隙t遵循功耗约束，APⁱ的发送能量是P_i(t)*(1TS)，并且在功率和能量之间转换时省略了隐式乘法1TS：

APⁱ的电池能量队列长度如下：

考虑AP的能效EE，EE定义为AP发送的数据总量除以AP的功耗；

对于每个AP，考虑两个部分：P_i ⁰是基本功率，P_i ^T是发射功率；

当AP处于开启状态并服务某个UE时，P_i＝P_i ⁰+βP_i ^T，其中β代表AP的馈线和功率放大器的功率消耗；

当AP处于睡眠状态并不提供任何服务时，P_i＝P_i ⁰；

当AP由于低能量而关闭时，P_i＝αP_i ⁰,0＜α＜1；

综上所述，AP功率表示为P_i(ρ)＝ΔP_i ^Tρ+(1-α)P_i ⁰ρ+αP_i ⁰，

因此，AP的EE表示为：

基于UUDN的热点区域中的所有AP的EE表示为：

7.根据权利要求所述1的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，步骤2)具体步骤为：

AP的三种状态：

8.根据权利要求所述3的一种基于UUDN和Q神经网络的绿色能量合作方法，其特征在于，基于所述神经网络的能量合作如下所示：

使用随机权重初始化动作-值函数Q

初始化s_t＝[B_mode,E(t),B(t),H(t),Q(t)]

repeat

按照ε概率选择随机动作a_t

otherwise选择a_t＝max_aQ*(s_t,a；ω)

执行动作a_t并观察回报r_t

设置

根据

执行梯度下降法

设置s_t+1＝s_t

Untils_t+1是终止状态。