CN109413746A

CN109413746A - 一种混合能源供能的通信系统中最优化能量分配方法

Info

Publication number: CN109413746A
Application number: CN201811266580.3A
Authority: CN
Inventors: 唐岚; 时占; 郭德邻; 张兴敢
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-03-01
Anticipated expiration: 2038-10-29
Also published as: CN109413746B

Abstract

本发明公开了一种混合能源供能的通信系统中最优化能量分配方法，所述通信系统的发射机由电网和可变电池混合供能，所述可变电池由能量收集设备从环境中收集能量来充电，包括如下步骤：使用二分查找法，寻找到最小的电网供能D_min，同时通信系统的平均吞吐量能够达到指定要求；在每一次查找的电网供能D中，使用在线学习的方法来获得最优的能量分配策略。本发明使得系统可以在尽可能使用最少的电网能量的情况下，系统的平均吞吐量可以达到指定要求。

Description

一种混合能源供能的通信系统中最优化能量分配方法

技术领域

本发明属于无线通信领域，具体涉及一种混合能源供能的通信系统中最优化能量分配方法，更涉及一种基于强化学习(Reinforcement Learning)的在线学习最优化能量分配策略的方法。

背景技术

在现代社会中，通信系统已经占据了重要地位。通信系统已经进入许多领域，并在其中扮演者重要角色。但是，由于通信系统应用的越来越广泛，通信流量的大规模增长，导致对通信基站的也要求也更多了。最明显的就是通信基站的分布更广泛了，通信基站的数量也更多了，因此导致了通信基站的供电环境更复杂了。

在传统通信系统中，大多数通信设备由电池或电网供电。但随着绿色能源和可持续能源的发展，将这些能源用于通信系统已成为一种有吸引力的选择。在这种情况下，能量收集技术已成为一种很有前途的通信系统技术，可以用来改善传统的能源供应。能量收集技术可以从环境中获取绿色能源和可持续能源，如风能，太阳能和其他能源。然而，这些能量收集的效率受环境的影响很大，并且通常效率是非常低的。因此，如何使用这些收获的能量仍然需要我们研究。

目前的能量最优化分配方法研究大多数都是基于凸优化以及动态规划方法。但是这两种方法都需要环境的相关先验知识，以一种理想的假设来解决相关问题，因此这是不现实的。而且当考虑的环境复杂化以后，很难再使用凸优化以及动态规划方法解决问题。因此，寻找一种更有效的算法进行能量分配来使系统的性能最大化具有重要意义。

发明内容

本发明的目的在于弥补上述现有技术的不足，提出一种混合能源供能的通信系统(简称“系统”)中在线学习最优化能量分配策略的方法，本发明使得系统可以在尽可能使用最少的电网能量的情况下，系统的平均吞吐量可以达到指定要求。

本发明采用的技术方案为一种混合能源供能的通信系统中最优化能量分配方法，所述通信系统的发射机由电网和可变电池混合供能，所述可变电池由能量收集设备从环境中收集能量来充电，包括如下步骤：

(1)使用二分查找法，寻找到最小的电网供能D_min，同时通信系统的平均吞吐量能够达到指定要求；

(2)在每一次查找的电网供能D中，使用在线学习的方法来获得最优的能量分配策略。

进一步的，所述步骤(2)中，包括如下步骤：

1)若系统的状态-动作空间维数为小规模或中等规模，而且状态空间能够离散化，使用强化学习中的Q-Learning(Q-学习)算法来在线学习策略；

2)若系统的状态-动作空间维数为大规模或者状态空间不能离散化，使用深度强化学习中的DQN(Deep Q-Network)算法来在线学习策略。

进一步的，所述步骤1)中，包括如下步骤：

1、将状态-动作对离散化，其中表示系统可获得的状态，包含可用能量E_k(包括可变电池能量B_k以及电网供能D)，可获得的信道状态以及收集的能量H_k。p_k表示系统的发射功率大小。其中k表示时间，同时也表示迭代次数。

同时满足：

B_k+1＝min(max(0,B_k-T*p_k)+H_k,B_max)

式中B_k+1是k+1时刻的可变电池能量，B_k是k时刻的可变电池能量，T表示每个时间点的持续时间，B_max表示可变电池能量的最大值。

2、为了获得最优的策略，需要计算出每个状态-动作对的最优Q-值，第k次迭代形式如下：

式中，表示第k+1次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的学习率大小，表示状态-动作对为时的瞬时吞吐量，β表示折扣因子。

进一步的，所述步骤2)中，包括如下步骤：

1、将所获得的系统状态通过BP神经网络，计算出每个动作对应的Q-值，通过∈-greedy策略选择动作p_k，再计算系统瞬时吞吐量然后系统进入下一个时间点的状态同时需要将这个过程中的数据存储在经验池区域。

2、为了获得最优的策略，需要获得最优的BP神经网络,因此从经验池区域随机选取数据使用BP学习算法来训练这个BP神经网络。

本发明的有益效果为：

本发明提出了在线学习最优化能量策略的方法，通过二分查找法可以快速找到最小电网能量，同时通过Q-Learning或者DQN找到最优能量分配策略，这样可以减少问题对环境先验知识的需求，更加符合实际，而且，DQN算法可以很好地应用在复杂的环境中，既可以解决维数灾问题，也可以高效的找到最优策略。

附图说明

图1是本发明的系统模型图；

图2是本发明的Q-Learning算法流程图；

图3是本发明的DQN算法框图；

图4是本发明的用二分查找法获得最小电网能量的示意图；

图5是本发明中信道估计因子对系统影响的示意图。

具体实施方式

如图1所示，我们考虑具有能量收集设备的点对点通信系统。对于系统的发射机，电网和可变电池混合供能来传输数据，而可变电池由能量收集设备从环境中收集能量来充电；数据是预先存储在缓冲区中，而且缓冲区中总有数据用于传输；传输的数据是通过准静态瑞利衰落信道传输到接收器的。

我们考虑一个无限时间范围内的离散动态系统，将时间离散化为时间点k∈κ＝{1,2,…,K},K→∞，并且每个时间点的持续时间为T。在每个时间点k∈κ，系统的真实状态为s_k,但是发射机可获得的是系统的观测状态因此发射机只能基于系统观测状态确定发送功率p_k。

在系统中，系统观测状态由可用能量E_k(包括可变电池能量B_k以及电网供能D)，可获得的信道状态以及收集的能量H_k组成；而系统真实状态s_k由可用能量E_k，真实信道状态γ_k以及收集的能量H_k组成。

其中，而且

式中，h_k分别表示观测信道增益和真实信道增益，n_k表示信道估计误差，ρ为信道估计误差因子，而且h_k,n_k均是高斯复信号且h_k～N(μ,σ²),n_k～N(0,σ²)。

则当ρ≠0时：

其中，f.(·)表示概率密度函数；I₀(·)是0阶第一类贝塞尔修正函数。

我们考虑的系统是一个动态系统，因此系统的状态是随时间变化而变化的。首先，我们分析系统可变电池能量状态的动态过程。在每个时间点k∈κ，可变电池能量为B_k，而在第(k+1)时间点，可变电池能量B_k+1根据下式更新。

B_k+1＝min(max(0,B_k-T*p_k)+H_k,B_max)(3)

式中,B_max为可变电池的最大存储能量。

其次，我们分析信道状态以及能量收集状态的动态过程。实际上，信道状态以及能量收集状态的动态过程是由环境动态变化而变化的。于发射机来说，由于并不知道环境的相关先验知识，因此信道状态以及能量收集状态的动态过程是未知的。另外，我们假设能量收集状态动态过程仅受环境条件的影响，可以看作独立于信道状态动态过程。此外，我们假设H_k是离散变量，即在任何时间点k∈κ，H_k∈H＝{H^[1],H^[2],…,H^[t]},其中H^[i](i∈(1,t))表示在时间点k时收集的能量H_k的可能取值大小。

综上所述，本系统要解决的问题可以概述为：在每个时间点k∈κ，发射机可以获得系统观测状态为然后发射机根据观测状态采用功率p_k来发射数据，然后系统状态动态变化转移到下一个时间点的系统观测状态在这个过程中，发射机发射了数据，出现了瞬时吞吐量因此为了使这一段时间κ＝{1,2,…,K}上的总平均吞吐量(π表示当前遵循的能量分配策略)最大，我们必须决定出各个时间点上的功率p_k大小，也即能量分配策略π，从而使总平均吞吐量最大。另外，在该系统中，发射机的供能还有电网的参与，我们的要求是尽可能少地使用电网能量。

由于准静态瑞利衰落信道，系统在每个时间点k∈κ上发射数据后的吞吐量可以表示为：

因此在整个时间κ＝{1,2,…,K}上，系统的总平均吞吐量为：

式中,表示系统的初始观测状态，对发射机来说是已知的。

则系统在初始状态为时的最优的总平均吞吐量可以表示为：

式中π^*表示最优的能量分配策略。

上述问题其实包括两个子问题：一是获得最小的电网能量，二是获得最优的能量分配策略。

在第一个问题中，为了获得最小的电网能量，采取二分查找法解决。在电网供能范围内，不断地使用二分查找法。在每次查找的电网供能上，使用Q-Learning或DQN算法获得最优能量分配策略。然后判断是否满足要求，直到查找结束。二分查找法优点是比较次数少，查找速度快，平均性能好，可以快速有效地找到满足要求的最小电网能量。

因此，问题的核心是第二个子问题，即如何获得最优的能量分配策略。我们将这个问题看成无模型的强化学习问题，并使用强化学习中的Q-Learning算法或者DQN算法来解决。若系统的状态-动作空间维数为小规模或中等规模，而且状态空间能够离散化，使用强化学习中的Q-Learning(Q-学习)算法来在线学习策略；若系统的状态-动作空间维数为大规模或者状态空间不能离散化，使用深度强化学习中的DQN(Deep Q-Network)算法可以更好地解决问题。具体步骤如下：

根据贝尔曼最优性方程，可以将系统平均吞吐量的最优化问题(6)转化为求：

式中，表示系统在观测状态为中的第i个元素的情况下遵循最优策略π^*时的最优总平均吞吐量,是个转移概率，表示系统的动态过程。β表示折扣因子，位于区间0≤β<1。

再根据Q-因子的定义以及公式(7)，可以得到Q-Learning算法的表示最优Q-值的迭代公式：

式中表示在时间点(k+1)的系统观测状态是中的第n个元素。

这个迭代公式的学习率为η的小步长迭代公式：

但是由于实际中这个先验知识并不知道，因此我们构造一种随机方式来消除对这个先验知识的需要。具体来讲，在公式(9)中，对所有可能取值的期望被单个可能的样本所替代,因而导出下列Q-值的迭代更新公式：

更新公式(10)仅应用于当前状态-动作对对允许的其他状态-动作对，Q-值仍保持不变。经过无数次的迭代更新，所有状态-动作对的Q-值都将趋近于公式(8)中最优Q-值。这样可以根据学习到的Q-值来决定能量分配策略。

Q-Learning算法的具体做法如下：首先，状态空间必须离散化。其中E_k包括可变电池B_k和电网供能D,而电网供能D是个常数，因此离散化可变电池B_k即可。将可变电池B_k的值范围被分为X个区间其中是预定义的阈值。同样将信道观测状态的值范围被分为M个区间其中是预定义的阈值。其次，动作空间p_k也需要离散化为其中p^[i](i∈(1,m))表示在时间点k时发射功率p_k的可能取值大小。然后根据图2的Q-Learning算法流程图执行。其中Q-table是个以状态-动作为表格行列的二维表，用来存储每个状态-动作对的Q-值。β表示折扣因子，位于区间0≤β<1。通过调节β可以控制学习系统对它自己行的短期和长期结果考虑的程度。在极端情况下，当β＝0时，系统是短视的，它只考虑它的行动的当前结果，这对考虑长期效率的问题来说是不可取的。当β接近1时，未来的效益在采取最优动作时变得更为重要。η是很小的学习率参数，位于区间0<η<1。而且η的取值影响着算法的收敛与否。一个保证算法收敛的时变学习率参数样本为

其中，t表示学习次数，α，ξ为正数。

在选择动作时，学习阶段使用的是∈-greedy策略，而在测试阶段使用贪心策略。系统的下一动作由于环境先验知识的未知，因此使用随机方式来消除对这个先验知识的需要。

当学习过程中，必须对学到的策略进行测试用来评估学习的效果。通过计算出平均吞吐量公式(5)用来评估此时的策略。具体步骤与学习阶段大致一致，唯一的区别就是动作选择的不同，学习阶段使用的是∈-greedy策略。而在测试阶段使用贪心策略。

Q-Learning算法简单且计算效率高，可以快速迭代得到最优的Q-值，但是它的弊端也很明显，其一，Q-Learning算法只能处理状态-动作对为中等规模的问题，否则，将会产生维数灾问题；其二，Q-Learning算法只能解决离散状态问题，但是实际中的问题大多是连续的。因此在处理一些低维离散状态问题时可以使用Q-Learning算法，而在处理那些大规模状态或连续状态问题时，就必须采用其他算法，比如DQN算法。

在DQN算法中，目标是求取出一个最优的BP神经网络Q_BP，也即使

其中，表示所有的状态-动作对。表示的是公式(8)中的最优Q-值。

通过这个最优的BP神经网络Q_BP，我们可以知道在相应状态下的最优动作，也即能量分配策略。为了获得最优的BP神经网络Q_BP，实质上是使Q_BP的参数θ不断地更新至最优参数θ^*。

由DQN算法框图(参见图3)知道，在每次更新过程中，神经网络Q_BP将从环境中获得的系统状态作为输入，然后神经网络Q_BP输出动作空间p_k的Q-值，通过当前能量分配策略选择当前的最优动作，然后神经网络Q_BP等待下一时间点系统状态的到来。在这个过程中，为了使神经网络Q_BP不断趋向于最优的。因此，神经网络Q_BP的参数θ需要在这个过程中被被学习更新，参数θ的更新依赖于经验池,另一个BP神经网络T_Q_BP,以及DQN误差函数。

经验池的作用是存储以前的经验知识，具体来说也即是把每个时间步神经网络Q_BP与环境交互得到的转移样本存储到回放记忆单元,要训练时就随机拿出一些来训练。

神经网络T_Q_BP的结构与Q_BP相同，唯一不同的是参数。具体地，Q_BP表示当前系统的状态的Q-值，而T_Q_BP则表示该状态的最优Q-值。T_Q_BP的参数θ^′有Q_BP的参数θ每隔一定时间步传递得到。

DQN误差函数表示当前系统状态的值函数与最优值的误差大小。因此DQN误差函数定义为：

L(θ)＝E{(Q^*(s_x+1,p_x+1)-Q_BP(s_x,p_x；θ))²} (10)

更新参数θ采用的是BP学习算法。BP学习算法包括两个过程：一是正向传播，二是反向传播。首先从经验池中拿出一些经验知识来训练，将这些经验知识正向传播经过神经网络Q_BP以及T_Q_BP计算得到DQN误差函数。然后，将DQN误差函数用梯度下降法反向传播经过神经网络Q_BP就可以更新参数θ。通过不断的学习，参数θ将会得到优化使得神经网络Q_BP的可以输出最优的策略。

DQN算法的具体做法如下：首先，由于DQN可以处理连续状态空间问题，因此系统的状态空间不需要离散化。但是DQN不能处理连续动作的问题，因此动作空间p_k还是必须离散化为p_k∈p＝{p^[1],p^[2],…,p^[m]}。然后根据图3的DQN算法框图执行。在每次更新过程中，神经网络Q_BP将从环境中获得的系统状态作为输入，然后输出动作空间p_k的Q-值，通过当前能量分配策略选择当前的最优动作，然后神经网络Q_BP等待下一时间点系统状态的到来，进行下一次学习。在这个学习过程中，使用BP学习算法来优化更新BP神经网络Q_BP的参数θ。在选择动作时，DQN算法与Q-Learning算法一样，学习阶段使用的是∈-greedy策略，测试阶段使用贪心策略。因此，DQN算法同样需要对学到的策略进行测试用来评估学习的效果，具体过程更Q-Learning一样。

最后，将上述系统在python环境中进行仿真，可以得到用二分查找法查找最小电网供能的结果(参见图4)以及不同信道误差因子对系统学习效果的影响(参见图5)。

Claims

1.一种混合能源供能的通信系统中最优化能量分配方法，所述通信系统的发射机由电网和可变电池混合供能，所述可变电池由能量收集设备从环境中收集能量来充电，包括如下步骤：

2.根据权利要求1所述的一种混合能源供能的通信系统中最优化能量分配方法，其特征在于，所述步骤(2)中，包括如下步骤：

1)若系统的状态-动作空间维数为小规模或中等规模，而且状态空间能够离散化，使用强化学习中的Q-Learning算法来在线学习策略；

2)若系统的状态-动作空间维数为大规模或者状态空间不能离散化，使用深度强化学习中的DQN算法来在线学习策略。

3.根据权利要求2所述的一种混合能源供能的通信系统中最优化能量分配方法，其特征在于，所述步骤1)中，包括如下步骤：

11)将状态-动作对离散化，其中表示系统可获得的状态，包含可用能量E_k，所述可用能量E_k包括可变电池能量B_k以及电网供能D，可获得的信道状态以及收集的能量Hk，pk表示系统的发射功率大小，其中k表示时间，同时也表示迭代次数；

同时满足：

B_k+1＝min(max(0，B_k-T*p_k)+H_k，B_max)

式中，B_k+1是k+1时刻的可变电池能量，B_k是k时刻的可变电池能量，T表示每个时间点的持续时间，B_max表示可变电池能量的最大值；

12)计算出每个状态-动作对的最优Q-值，第k次迭代形式如下：

式中，表示第k+1次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的最优Q-值，表示第k次的状态-动作对为时的学习率大小，表示状态-动作对为时的瞬时吞吐量，B表示折扣因子。

4.根据权利要求3所述的一种混合能源供能的通信系统中最优化能量分配方法，其特征在于，所述步骤2)中，包括如下步骤：

21)将所获得的系统状态通过BP神经网络，计算出每个动作对应的Q-值，通过策略∈-greedy选择动作pk，再计算系统瞬时吞吐量然后系统进入下一个时间点的状态同时将数据存储在经验池区域；

22)获得最优的BP神经网络：从所述经验池区域随机选取数据使用BP学习算法来训练所述BP神经网络。