CN109413746A - 一种混合能源供能的通信系统中最优化能量分配方法 - Google Patents
一种混合能源供能的通信系统中最优化能量分配方法 Download PDFInfo
- Publication number
- CN109413746A CN109413746A CN201811266580.3A CN201811266580A CN109413746A CN 109413746 A CN109413746 A CN 109413746A CN 201811266580 A CN201811266580 A CN 201811266580A CN 109413746 A CN109413746 A CN 109413746A
- Authority
- CN
- China
- Prior art keywords
- energy
- state
- communication system
- optimal
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004891 communication Methods 0.000 title claims abstract description 30
- 238000009826 distribution Methods 0.000 title claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000033001 locomotion Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 230000009897 systematic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种混合能源供能的通信系统中最优化能量分配方法,所述通信系统的发射机由电网和可变电池混合供能,所述可变电池由能量收集设备从环境中收集能量来充电,包括如下步骤:使用二分查找法,寻找到最小的电网供能Dmin,同时通信系统的平均吞吐量能够达到指定要求;在每一次查找的电网供能D中,使用在线学习的方法来获得最优的能量分配策略。本发明使得系统可以在尽可能使用最少的电网能量的情况下,系统的平均吞吐量可以达到指定要求。
Description
技术领域
本发明属于无线通信领域,具体涉及一种混合能源供能的通信系统中最优化能量分配方法,更涉及一种基于强化学习(Reinforcement Learning)的在线学习最优化能量分配策略的方法。
背景技术
在现代社会中,通信系统已经占据了重要地位。通信系统已经进入许多领域,并在其中扮演者重要角色。但是,由于通信系统应用的越来越广泛,通信流量的大规模增长,导致对通信基站的也要求也更多了。最明显的就是通信基站的分布更广泛了,通信基站的数量也更多了,因此导致了通信基站的供电环境更复杂了。
在传统通信系统中,大多数通信设备由电池或电网供电。但随着绿色能源和可持续能源的发展,将这些能源用于通信系统已成为一种有吸引力的选择。在这种情况下,能量收集技术已成为一种很有前途的通信系统技术,可以用来改善传统的能源供应。能量收集技术可以从环境中获取绿色能源和可持续能源,如风能,太阳能和其他能源。然而,这些能量收集的效率受环境的影响很大,并且通常效率是非常低的。因此,如何使用这些收获的能量仍然需要我们研究。
目前的能量最优化分配方法研究大多数都是基于凸优化以及动态规划方法。但是这两种方法都需要环境的相关先验知识,以一种理想的假设来解决相关问题,因此这是不现实的。而且当考虑的环境复杂化以后,很难再使用凸优化以及动态规划方法解决问题。因此,寻找一种更有效的算法进行能量分配来使系统的性能最大化具有重要意义。
发明内容
本发明的目的在于弥补上述现有技术的不足,提出一种混合能源供能的通信系统(简称“系统”)中在线学习最优化能量分配策略的方法,本发明使得系统可以在尽可能使用最少的电网能量的情况下,系统的平均吞吐量可以达到指定要求。
本发明采用的技术方案为一种混合能源供能的通信系统中最优化能量分配方法,所述通信系统的发射机由电网和可变电池混合供能,所述可变电池由能量收集设备从环境中收集能量来充电,包括如下步骤:
(1)使用二分查找法,寻找到最小的电网供能Dmin,同时通信系统的平均吞吐量能够达到指定要求;
(2)在每一次查找的电网供能D中,使用在线学习的方法来获得最优的能量分配策略。
进一步的,所述步骤(2)中,包括如下步骤:
1)若系统的状态-动作空间维数为小规模或中等规模,而且状态空间能够离散化,使用强化学习中的Q-Learning(Q-学习)算法来在线学习策略;
2)若系统的状态-动作空间维数为大规模或者状态空间不能离散化,使用深度强化学习中的DQN(Deep Q-Network)算法来在线学习策略。
进一步的,所述步骤1)中,包括如下步骤:
1、将状态-动作对离散化,其中表示系统可获得的状态,包含可用能量Ek(包括可变电池能量Bk以及电网供能D),可获得的信道状态以及收集的能量Hk。pk表示系统的发射功率大小。其中k表示时间,同时也表示迭代次数。
同时满足:
Bk+1=min(max(0,Bk-T*pk)+Hk,Bmax)
式中Bk+1是k+1时刻的可变电池能量,Bk是k时刻的可变电池能量,T表示每个时间点的持续时间,Bmax表示可变电池能量的最大值。
2、为了获得最优的策略,需要计算出每个状态-动作对的最优Q-值,第k次迭代形式如下:
式中,表示第k+1次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的学习率大小,表示状态-动作对为时的瞬时吞吐量,β表示折扣因子。
进一步的,所述步骤2)中,包括如下步骤:
1、将所获得的系统状态通过BP神经网络,计算出每个动作对应的Q-值,通过∈-greedy策略选择动作pk,再计算系统瞬时吞吐量然后系统进入下一个时间点的状态同时需要将这个过程中的数据存储在经验池区域。
2、为了获得最优的策略,需要获得最优的BP神经网络,因此从经验池区域随机选取数据使用BP学习算法来训练这个BP神经网络。
本发明的有益效果为:
本发明提出了在线学习最优化能量策略的方法,通过二分查找法可以快速找到最小电网能量,同时通过Q-Learning或者DQN找到最优能量分配策略,这样可以减少问题对环境先验知识的需求,更加符合实际,而且,DQN算法可以很好地应用在复杂的环境中,既可以解决维数灾问题,也可以高效的找到最优策略。
附图说明
图1是本发明的系统模型图;
图2是本发明的Q-Learning算法流程图;
图3是本发明的DQN算法框图;
图4是本发明的用二分查找法获得最小电网能量的示意图;
图5是本发明中信道估计因子对系统影响的示意图。
具体实施方式
如图1所示,我们考虑具有能量收集设备的点对点通信系统。对于系统的发射机,电网和可变电池混合供能来传输数据,而可变电池由能量收集设备从环境中收集能量来充电;数据是预先存储在缓冲区中,而且缓冲区中总有数据用于传输;传输的数据是通过准静态瑞利衰落信道传输到接收器的。
我们考虑一个无限时间范围内的离散动态系统,将时间离散化为时间点k∈κ={1,2,…,K},K→∞,并且每个时间点的持续时间为T。在每个时间点k∈κ,系统的真实状态为sk,但是发射机可获得的是系统的观测状态因此发射机只能基于系统观测状态确定发送功率pk。
在系统中,系统观测状态由可用能量Ek(包括可变电池能量Bk以及电网供能D),可获得的信道状态以及收集的能量Hk组成;而系统真实状态sk由可用能量Ek,真实信道状态γk以及收集的能量Hk组成。
其中,而且
式中,hk分别表示观测信道增益和真实信道增益,nk表示信道估计误差,ρ为信道估计误差因子,而且hk,nk均是高斯复信号且hk~N(μ,σ2),nk~N(0,σ2)。
则当ρ≠0时:
其中,f.(·)表示概率密度函数;I0(·)是0阶第一类贝塞尔修正函数。
我们考虑的系统是一个动态系统,因此系统的状态是随时间变化而变化的。首先,我们分析系统可变电池能量状态的动态过程。在每个时间点k∈κ,可变电池能量为Bk,而在第(k+1)时间点,可变电池能量Bk+1根据下式更新。
Bk+1=min(max(0,Bk-T*pk)+Hk,Bmax)(3)
式中,Bmax为可变电池的最大存储能量。
其次,我们分析信道状态以及能量收集状态的动态过程。实际上,信道状态以及能量收集状态的动态过程是由环境动态变化而变化的。于发射机来说,由于并不知道环境的相关先验知识,因此信道状态以及能量收集状态的动态过程是未知的。另外,我们假设能量收集状态动态过程仅受环境条件的影响,可以看作独立于信道状态动态过程。此外,我们假设Hk是离散变量,即在任何时间点k∈κ,Hk∈H={H[1],H[2],…,H[t]},其中H[i](i∈(1,t))表示在时间点k时收集的能量Hk的可能取值大小。
综上所述,本系统要解决的问题可以概述为:在每个时间点k∈κ,发射机可以获得系统观测状态为然后发射机根据观测状态采用功率pk来发射数据,然后系统状态动态变化转移到下一个时间点的系统观测状态在这个过程中,发射机发射了数据,出现了瞬时吞吐量因此为了使这一段时间κ={1,2,…,K}上的总平均吞吐量(π表示当前遵循的能量分配策略)最大,我们必须决定出各个时间点上的功率pk大小,也即能量分配策略π,从而使总平均吞吐量最大。另外,在该系统中,发射机的供能还有电网的参与,我们的要求是尽可能少地使用电网能量。
由于准静态瑞利衰落信道,系统在每个时间点k∈κ上发射数据后的吞吐量可以表示为:
因此在整个时间κ={1,2,…,K}上,系统的总平均吞吐量为:
式中,表示系统的初始观测状态,对发射机来说是已知的。
则系统在初始状态为时的最优的总平均吞吐量可以表示为:
式中π*表示最优的能量分配策略。
上述问题其实包括两个子问题:一是获得最小的电网能量,二是获得最优的能量分配策略。
在第一个问题中,为了获得最小的电网能量,采取二分查找法解决。在电网供能范围内,不断地使用二分查找法。在每次查找的电网供能上,使用Q-Learning或DQN算法获得最优能量分配策略。然后判断是否满足要求,直到查找结束。二分查找法优点是比较次数少,查找速度快,平均性能好,可以快速有效地找到满足要求的最小电网能量。
因此,问题的核心是第二个子问题,即如何获得最优的能量分配策略。我们将这个问题看成无模型的强化学习问题,并使用强化学习中的Q-Learning算法或者DQN算法来解决。若系统的状态-动作空间维数为小规模或中等规模,而且状态空间能够离散化,使用强化学习中的Q-Learning(Q-学习)算法来在线学习策略;若系统的状态-动作空间维数为大规模或者状态空间不能离散化,使用深度强化学习中的DQN(Deep Q-Network)算法可以更好地解决问题。具体步骤如下:
根据贝尔曼最优性方程,可以将系统平均吞吐量的最优化问题(6)转化为求:
式中,表示系统在观测状态为中的第i个元素的情况下遵循最优策略π*时的最优总平均吞吐量,是个转移概率,表示系统的动态过程。β表示折扣因子,位于区间0≤β<1。
再根据Q-因子的定义以及公式(7),可以得到Q-Learning算法的表示最优Q-值的迭代公式:
式中表示在时间点(k+1)的系统观测状态是中的第n个元素。
这个迭代公式的学习率为η的小步长迭代公式:
但是由于实际中这个先验知识并不知道,因此我们构造一种随机方式来消除对这个先验知识的需要。具体来讲,在公式(9)中,对所有可能取值的期望被单个可能的样本所替代,因而导出下列Q-值的迭代更新公式:
更新公式(10)仅应用于当前状态-动作对对允许的其他状态-动作对,Q-值仍保持不变。经过无数次的迭代更新,所有状态-动作对的Q-值都将趋近于公式(8)中最优Q-值。这样可以根据学习到的Q-值来决定能量分配策略。
Q-Learning算法的具体做法如下:首先,状态空间必须离散化。其中Ek包括可变电池Bk和电网供能D,而电网供能D是个常数,因此离散化可变电池Bk即可。将可变电池Bk的值范围被分为X个区间其中是预定义的阈值。同样将信道观测状态的值范围被分为M个区间其中是预定义的阈值。其次,动作空间pk也需要离散化为 其中p[i](i∈(1,m))表示在时间点k时发射功率pk的可能取值大小。然后根据图2的Q-Learning算法流程图执行。其中Q-table是个以状态-动作为表格行列的二维表,用来存储每个状态-动作对的Q-值。β表示折扣因子,位于区间0≤β<1。通过调节β可以控制学习系统对它自己行的短期和长期结果考虑的程度。在极端情况下,当β=0时,系统是短视的,它只考虑它的行动的当前结果,这对考虑长期效率的问题来说是不可取的。当β接近1时,未来的效益在采取最优动作时变得更为重要。η是很小的学习率参数,位于区间0<η<1。而且η的取值影响着算法的收敛与否。一个保证算法收敛的时变学习率参数样本为
其中,t表示学习次数,α,ξ为正数。
在选择动作时,学习阶段使用的是∈-greedy策略,而在测试阶段使用贪心策略。系统的下一动作由于环境先验知识的未知,因此使用随机方式来消除对这个先验知识的需要。
当学习过程中,必须对学到的策略进行测试用来评估学习的效果。通过计算出平均吞吐量公式(5)用来评估此时的策略。具体步骤与学习阶段大致一致,唯一的区别就是动作选择的不同,学习阶段使用的是∈-greedy策略。而在测试阶段使用贪心策略。
Q-Learning算法简单且计算效率高,可以快速迭代得到最优的Q-值,但是它的弊端也很明显,其一,Q-Learning算法只能处理状态-动作对为中等规模的问题,否则,将会产生维数灾问题;其二,Q-Learning算法只能解决离散状态问题,但是实际中的问题大多是连续的。因此在处理一些低维离散状态问题时可以使用Q-Learning算法,而在处理那些大规模状态或连续状态问题时,就必须采用其他算法,比如DQN算法。
在DQN算法中,目标是求取出一个最优的BP神经网络QBP,也即使
其中,表示所有的状态-动作对。表示的是公式(8)中的最优Q-值。
通过这个最优的BP神经网络QBP,我们可以知道在相应状态下的最优动作,也即能量分配策略。为了获得最优的BP神经网络QBP,实质上是使QBP的参数θ不断地更新至最优参数θ*。
由DQN算法框图(参见图3)知道,在每次更新过程中,神经网络QBP将从环境中获得的系统状态作为输入,然后神经网络QBP输出动作空间pk的Q-值,通过当前能量分配策略选择当前的最优动作,然后神经网络QBP等待下一时间点系统状态的到来。在这个过程中,为了使神经网络QBP不断趋向于最优的。因此,神经网络QBP的参数θ需要在这个过程中被被学习更新,参数θ的更新依赖于经验池,另一个BP神经网络T_QBP,以及DQN误差函数。
经验池的作用是存储以前的经验知识,具体来说也即是把每个时间步神经网络QBP与环境交互得到的转移样本存储到回放记忆单元,要训练时就随机拿出一些来训练。
神经网络T_QBP的结构与QBP相同,唯一不同的是参数。具体地,QBP表示当前系统的状态的Q-值,而T_QBP则表示该状态的最优Q-值。T_QBP的参数θ′有QBP的参数θ每隔一定时间步传递得到。
DQN误差函数表示当前系统状态的值函数与最优值的误差大小。因此DQN误差函数定义为:
L(θ)=E{(Q*(sx+1,px+1)-QBP(sx,px;θ))2} (10)
更新参数θ采用的是BP学习算法。BP学习算法包括两个过程:一是正向传播,二是反向传播。首先从经验池中拿出一些经验知识来训练,将这些经验知识正向传播经过神经网络QBP以及T_QBP计算得到DQN误差函数。然后,将DQN误差函数用梯度下降法反向传播经过神经网络QBP就可以更新参数θ。通过不断的学习,参数θ将会得到优化使得神经网络QBP的可以输出最优的策略。
DQN算法的具体做法如下:首先,由于DQN可以处理连续状态空间问题,因此系统的状态空间不需要离散化。但是DQN不能处理连续动作的问题,因此动作空间pk还是必须离散化为pk∈p={p[1],p[2],…,p[m]}。然后根据图3的DQN算法框图执行。在每次更新过程中,神经网络QBP将从环境中获得的系统状态作为输入,然后输出动作空间pk的Q-值,通过当前能量分配策略选择当前的最优动作,然后神经网络QBP等待下一时间点系统状态的到来,进行下一次学习。在这个学习过程中,使用BP学习算法来优化更新BP神经网络QBP的参数θ。在选择动作时,DQN算法与Q-Learning算法一样,学习阶段使用的是∈-greedy策略,测试阶段使用贪心策略。因此,DQN算法同样需要对学到的策略进行测试用来评估学习的效果,具体过程更Q-Learning一样。
最后,将上述系统在python环境中进行仿真,可以得到用二分查找法查找最小电网供能的结果(参见图4)以及不同信道误差因子对系统学习效果的影响(参见图5)。
Claims (4)
1.一种混合能源供能的通信系统中最优化能量分配方法,所述通信系统的发射机由电网和可变电池混合供能,所述可变电池由能量收集设备从环境中收集能量来充电,包括如下步骤:
(1)使用二分查找法,寻找到最小的电网供能Dmin,同时通信系统的平均吞吐量能够达到指定要求;
(2)在每一次查找的电网供能D中,使用在线学习的方法来获得最优的能量分配策略。
2.根据权利要求1所述的一种混合能源供能的通信系统中最优化能量分配方法,其特征在于,所述步骤(2)中,包括如下步骤:
1)若系统的状态-动作空间维数为小规模或中等规模,而且状态空间能够离散化,使用强化学习中的Q-Learning算法来在线学习策略;
2)若系统的状态-动作空间维数为大规模或者状态空间不能离散化,使用深度强化学习中的DQN算法来在线学习策略。
3.根据权利要求2所述的一种混合能源供能的通信系统中最优化能量分配方法,其特征在于,所述步骤1)中,包括如下步骤:
11)将状态-动作对离散化,其中表示系统可获得的状态,包含可用能量Ek,所述可用能量Ek包括可变电池能量Bk以及电网供能D,可获得的信道状态以及收集的能量Hk,pk表示系统的发射功率大小,其中k表示时间,同时也表示迭代次数;
同时满足:
Bk+1=min(max(0,Bk-T*pk)+Hk,Bmax)
式中,Bk+1是k+1时刻的可变电池能量,Bk是k时刻的可变电池能量,T表示每个时间点的持续时间,Bmax表示可变电池能量的最大值;
12)计算出每个状态-动作对的最优Q-值,第k次迭代形式如下:
式中,表示第k+1次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的最优Q-值,表示第k次的状态-动作对为时的学习率大小,表示状态-动作对为时的瞬时吞吐量,B表示折扣因子。
4.根据权利要求3所述的一种混合能源供能的通信系统中最优化能量分配方法,其特征在于,所述步骤2)中,包括如下步骤:
21)将所获得的系统状态通过BP神经网络,计算出每个动作对应的Q-值,通过策略∈-greedy选择动作pk,再计算系统瞬时吞吐量然后系统进入下一个时间点的状态同时将数据存储在经验池区域;
22)获得最优的BP神经网络:从所述经验池区域随机选取数据使用BP学习算法来训练所述BP神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811266580.3A CN109413746B (zh) | 2018-10-29 | 2018-10-29 | 一种混合能源供能的通信系统中最优化能量分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811266580.3A CN109413746B (zh) | 2018-10-29 | 2018-10-29 | 一种混合能源供能的通信系统中最优化能量分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109413746A true CN109413746A (zh) | 2019-03-01 |
CN109413746B CN109413746B (zh) | 2021-07-30 |
Family
ID=65470275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811266580.3A Active CN109413746B (zh) | 2018-10-29 | 2018-10-29 | 一种混合能源供能的通信系统中最优化能量分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109413746B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110017184A (zh) * | 2019-04-01 | 2019-07-16 | 华电电力科学研究院有限公司 | 一种基于强化学习算法的分布式余压发电系统及其控制方法 |
CN110991125A (zh) * | 2019-11-19 | 2020-04-10 | 沃太能源南通有限公司 | 二阶电路中电路元件参数辨识方法、装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104066165A (zh) * | 2014-06-26 | 2014-09-24 | 南京邮电大学 | 一种基于能量收集方式的无线通信功率分配方法 |
US20160325680A1 (en) * | 2015-05-04 | 2016-11-10 | Kamama, Inc. | System and method of vehicle sensor management |
CN107171701A (zh) * | 2017-04-19 | 2017-09-15 | 西安电子科技大学 | 一种MassiveMIMO系统基于混合能量采集的功率分配方法 |
-
2018
- 2018-10-29 CN CN201811266580.3A patent/CN109413746B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104066165A (zh) * | 2014-06-26 | 2014-09-24 | 南京邮电大学 | 一种基于能量收集方式的无线通信功率分配方法 |
US20160325680A1 (en) * | 2015-05-04 | 2016-11-10 | Kamama, Inc. | System and method of vehicle sensor management |
CN107171701A (zh) * | 2017-04-19 | 2017-09-15 | 西安电子科技大学 | 一种MassiveMIMO系统基于混合能量采集的功率分配方法 |
Non-Patent Citations (2)
Title |
---|
C.K.HO 等: "《Optimal Energy Allocation for Wireless Communications With Energy Harvesting Constraints》", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 * |
POL BLASCO 等: "《A Learning Theoretic Approach to Energy Harvesting Communication System Optimization》", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110017184A (zh) * | 2019-04-01 | 2019-07-16 | 华电电力科学研究院有限公司 | 一种基于强化学习算法的分布式余压发电系统及其控制方法 |
CN110017184B (zh) * | 2019-04-01 | 2024-02-27 | 华电电力科学研究院有限公司 | 一种基于强化学习算法的分布式余压发电系统及其控制方法 |
CN110991125A (zh) * | 2019-11-19 | 2020-04-10 | 沃太能源南通有限公司 | 二阶电路中电路元件参数辨识方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109413746B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Adaptive transmission scheduling in wireless networks for asynchronous federated learning | |
CN110968426B (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN106855957A (zh) | 基于相似日和最小二乘支持向量机的工厂母线负荷预测 | |
CN109919356B (zh) | 一种基于bp神经网络区间需水预测方法 | |
Zhong et al. | Ant colony optimization algorithm for lifetime maximization in wireless sensor network with mobile sink | |
CN107067190A (zh) | 基于深度强化学习的微电网电能交易方法 | |
Li et al. | Deep reinforcement learning-based mobility-aware robust proactive resource allocation in heterogeneous networks | |
CN108710948A (zh) | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 | |
CN109413746A (zh) | 一种混合能源供能的通信系统中最优化能量分配方法 | |
Meng et al. | Deep reinforcement learning-based topology optimization for self-organized wireless sensor networks | |
CN114626306B (zh) | 一种园区分布式能源调控信息新鲜度保障方法及系统 | |
CN110060176A (zh) | 电力物联网智能配电方法、可读存储介质和终端 | |
Hu et al. | Edge intelligence for real-time data analytics in an IoT-based smart metering system | |
Dai et al. | Mobile crowdsensing for data freshness: A deep reinforcement learning approach | |
CN116187483A (zh) | 模型训练方法、装置、设备、介质和程序产品 | |
Liang et al. | Method of bidirectional LSTM modelling for the atmospheric temperature | |
Dinani et al. | Gossip learning of personalized models for vehicle trajectory prediction | |
Liu et al. | Federated and meta learning over non-wireless and wireless networks: A tutorial | |
CN105072671B (zh) | 一种高级量测体系网络中传感器节点的自适应调度方法 | |
Tang et al. | Energy-efficient sensory data collection based on spatiotemporal correlation in IoT networks | |
Zhao et al. | Energy-efficient and fair IoT data distribution in decentralised federated learning | |
CN115329985B (zh) | 无人集群智能模型训练方法、装置和电子设备 | |
CN113365222B (zh) | 一种基于可持续数据采集的移动传感器智能轨迹设计方法 | |
CN110705756A (zh) | 一种基于输入凸神经网络的电力能耗优化控制方法 | |
CN115395502A (zh) | 一种光伏电站功率预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |