CN105072671B - 一种高级量测体系网络中传感器节点的自适应调度方法 - Google Patents
一种高级量测体系网络中传感器节点的自适应调度方法 Download PDFInfo
- Publication number
- CN105072671B CN105072671B CN201510381808.3A CN201510381808A CN105072671B CN 105072671 B CN105072671 B CN 105072671B CN 201510381808 A CN201510381808 A CN 201510381808A CN 105072671 B CN105072671 B CN 105072671B
- Authority
- CN
- China
- Prior art keywords
- value
- sensor node
- behavior
- state
- behavior value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000002708 enhancing effect Effects 0.000 claims abstract description 41
- 230000006399 behavior Effects 0.000 claims description 101
- 230000008569 process Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 7
- 230000005611 electricity Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 10
- 238000005259 measurement Methods 0.000 abstract description 8
- 238000005265 energy consumption Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 210000004744 fore-foot Anatomy 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种高级量测体系网络中传感器节点的自适应调度方法,该方法基于增强学习算法创建调度表,各传感器节点依据调度表工作,并以较小的概率探索,如发现更优结果时则更新调度表,从而实现了高级量测体系网络中传感器节点的自适应学习和调度,提高了各个位置上的传感器节点的能量效率,从而降低了传感器节点的能量消耗,增加了传感器节点的生存时间。
Description
技术领域
本发明涉及智能电网领域,具体的说是一种高级量测体系网络中传感器节点的自适应调度方法。
背景技术
在智能电网中,高级量测体系(AMI)是用来测量、采集、传送、储存、分析和应用客户用电信息,实现需求响应、双向互动,支持客户合理用电、节约用电的技术体系。与传统用电信息采集系统相比,高级量测体系不但能实现对计量点电能、电流、电压、功率因数、负荷曲线等电气参量信息的采集,同时还可以通过智能传感网络采集非计量点的数据,如用户侧设备运行状态、分布式电源运行信息、有序充放电监控信息、智能楼宇/小区用能信息等。
高级量测体系的末梢智能传感器网络具有传感识别设备种类多、数量大、实时性要求高等特点,由于电网负荷具有时间性和季节性波峰、波谷特性,从而引起末梢智能传感器网络具有其他无线传感器网络所不具有的流量负载特性,为了有效的利用能量,节点传感识别设备的通信模块在大部分时间需要保持在睡眠模式,只有在接收和发送数据时才周期性的进入侦听模式。在实际运行中,当网络负载比较稳定时,靠近汇聚点的节点由于需要转发更多的数据,因而需要更长的侦听时间,想反,距离汇聚节点较远的节点则应该更多的处于睡眠状态。但是,现有的调度系统没有考虑这种情况,没有为不同位置的传感器节点分配不同的占空比。同样的,在网络拓扑结构比较稳定时,现有调度系统也没有考虑到由于电网负荷波峰波谷效应造成的末梢网络流量负载的变化,因此,现有的调度系统不能很好的适应网络负载和拓扑的变化,从而影响网络节点的能量效率和时延。
面对智能传感器网络这一新型高级量测体系末梢网络,如何在确保信息实时、稳定传送的同时,尽可能减少传感器节点自身消耗的能量、延长传感器节点生存时间,是高级量测体系网络中传感器应用的重要问题。
本发明基于增强学习算法开发出了一种传感器节点的自适应调度方法。下面首先对“增强学习”进行简单介绍,正如文献《增强学习:导论》中所指出,增强学习源自人类认知学和动物学习心理学,采用了在人类或动物学习中经常体现的“尝试与失败”机制,通过在学习过程中获得的评价性反馈信号(即回报函数),寻找未来回报最大化的最优策略。增强学习算法的特点是不需要指定任务怎样实现,而是通过反馈信号是有利回报还是惩罚来寻找最优策略以最大化目标评价函数。与其它机器学习算法不同,增强学习不是建立在对问题世界一组观察的样本集合的基础上,而是将对动态变化的环境的适应作为一个学习过程。目前对增强学习的研究主要建立在马尔科夫过程(Markov)的基础上,优化求解模型,主要集中在提高计算效率上,但对其机理的研究还有很大的差距。增强学习的含义通常有两个方面,一是将增强学习本身作为一类问题,二是解决这类问题的方法的集合。在本申请中,主要采用第二种含义,即采用统计和动态规划的方法来获得对某一状态下某一行为回报函数值的评价,并据此获得在所有状态下行为的最优策略的方法作为增强学习。
在文献《一种能量感知传感器通信中接近最优的增强学习框架》中,对增强学习问题的求解提出了一种Actor-Critic算法,实现了一种接近最优的点对点通信框架。在文献《RL-MAC:一种基于增强学习算法的无线传感器网络MAC层协议》中,提出了一种自适应的无线传感器网络MAC层协议,通过将MAC层的自适应调度问题映射为一类增强学习问题,通过采用Q-learning的求解方法,得到近似最优的自适应调度集合,实现了一种高吞吐量、低能量消耗的无线传感器网络MAC层协议。Q-learning算法是适用于求解决策优化的目标函数为折扣回报的无限马尔科夫决策过程的一类增强学习问题,但包括文献《在增强学习问题中采用折扣回报还是平均期望回报:R-learning与Q-learning的实际案例比较》在内的一些机器学习领域的研究表明,在增强学习问题的求解中,最重要的是选取合适的回报函数,与采用折扣回报函数相比,选取平均期望回报更接近希望解决的实际问题,同时证明了文献《一种最大化非折扣回报的增强学习算法》所提出的,R-learning将平均期望回报作为决策优化目标函数求解无限马尔科夫决策过程这类增强学习问题,在真实环境中优于Q-learning。但R-learning算法在求解某些增强学习问题时会遇到收敛性问题,因此需要作出适应性的调整。
发明内容
本发明要解决的技术问题是提供一种高级量测体系网络中传感器节点的自适应调度方法,该调度方法在确保信息实时、稳定传输的同时,能够最大限度降低各传感器节点的能量消耗、延长传感器节点的生存时间。
为解决上述技术问题,本发明的高级量测体系网络中传感器节点的自适应调度方法的特点是包括创建调度表并依据调度表工作,调度表的创建过程包括如下步骤:
步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取历史电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信息负载曲线;
步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用ε-贪婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数;
步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并依据增强学习算法的回报函数得出前一周期行为值的回报值;
步骤4)利用前一周期行为值的回报值对通过R-learning算法得出的传感器节点的状态-行为值表进行修正,并根据ε-贪婪策略选择下一周期的行为值;
步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为值表中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均值,得出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节点得到一个状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。
步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。
步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时,设计新的行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值函数。
所述行为搜索策略公式为:
nb表示当前队列长度,nmax是队列的最大值,actionmax是行为集合的最大值,Ls是当前区域历史负荷预测状态,Lmax是前一日历史负荷曲线的最大值,b是当重传次数超过设定的门限值时所取的调整值;
aestimation计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间,此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。
所述的ε-贪婪策略包括:
实际选取的行为值为a,取值子空间为[aestimation-5,aestimation+5],若1-ε>random[0,1],则a=aε,否则,以等概率从[aestimation-5,aestimation+5]中任选一个作为行为值a,random[0,1]为区间[0,1]上的随机数。
步骤3)中的回报函数定义为r,回报值为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到;传感器节点能量效率和无线通信繁忙程度因子rE为:
ns和nr表示一个周期内的发包数量和收包数量,n'b和nb表示在t+1周期和t周期的队列长度,B是队列空间的长度,Eframe是一个周期内消耗的能量;
传感器邻居节点平均传输时延rL为:
k表示节点i的邻居节点的数量,ti表示节点i的平均时延。
根据多目标优化算法,回报函数表示为:
rE0和rL0分别是rE和rL的最大值。
传感器节点通过R-learning算法的公式表示如下,行为值函数满足:
s'表示下一周期的状态;
平均期望ρ满足:
和β表示对当前和未来行为值函数及平均回报ρ估计的加权值;
调度策略探索结束条件指连续一段时间的平均回报ρ之差小于10-4,依据最大化平均回报ρ的原则,找到的最优策略(π:S→A),即状态→行为值映射集合作为传感器节点的调度表。
该调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点根据调度表工作的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调度表进行更新。
所述较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则更新调度表中的状态-行为值。
本发明的有益效果是:由于电网负荷具有时间性和季节性波峰、波谷特性,其末梢智能传感器网络具有其他无线传感器网络所不具有的流量负载特性,为了有效的利用有限的电池能量,通过基于R-learning的方法实现了高级量测体系网络中传感器节点的自适应学习和调度,消除了传感器节点固定占空比所带来的不适应流量负载变化的缺点,通过传感器节点的动态感知能力,根据不同时期的流量负载特性,生成当前接近最优的调度表,从而提高了各个位置上的传感器节点的能量效率,降低了传感器节点的能量消耗,增加了传感器节点的生存时间,提高了高级量测体系网络的实用性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明:
图1为本发明中调度表创建过程的流程示意图;
图2为本发明中调度表更新过程的流程示意图;
图3为本发明的整体流程示意图;
图4为增强学习算法的简化模型结构示意图。
具体实施方式
参照附图,该高级量测体系网络中传感器节点的自适应调度方法包括创建调度表并依据调度表工作,其中,调度表的创建过程包括如下步骤:
步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取历史电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信息负载曲线;
步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用ε-贪婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数;
步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并依据增强学习算法的回报函数得出前一周期行为值的回报值。
步骤4)利用前一周期行为值的回报值对通过R-learning算法得出的传感器节点的状态-行为值表进行修正,并根据ε-贪婪策略选择下一周期的行为值;
步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为值表中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均值,得出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节点得到一个接近于最优的状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。
其中,步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。
在步骤2)中,获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时,设计新的行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值函数。
行为搜索策略公式为:
nb表示当前队列长度,nmax是队列的最大值,actionmax是行为集合的最大值,Ls是当前区域历史负荷预测状态,Lmax是前一日历史负荷曲线的最大值,b是当重传次数超过设定的门限值时所取的调整值;
aestimation计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间,此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。
ε-贪婪策略包括:
实际选取的行为值为a,取值子空间为[aestimation-5,aestimation+5],若1-ε>random[0,1],则a=aε,否则,以等概率从[aestimation-5,aestimation+5]中任选一个作为行为值a,random[0,1]为区间[0,1]上的随机数。
步骤3)中的回报函数定义为r,回报值为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到。
在本发明中,主要目标有两个:首先,最大化能量利用效率,即最小化平均发送每个包所消耗的能量。其次,最小化节点的平均传输时延,其又包括两部分,即最小化数据包在传感器节点存储队列的等待时间和最小化传感器节点邻居节点的平均传输时延。因此,回报函数由两个独立的部分组成,分别反映了本发明的两个目标。
根据在高级量测体系网络中传感器节点工作的特点,其中对于传感器节点能量效率和无线通信繁忙程度因子,其根据在一个周期初始阶段及结束阶段队列长度的不同,分为四种情况。情况一:初始阶段队列长度不为0,且结束阶段队列长度大于初始阶段队列长度,说明此时传感器节点无线通信较为繁忙,计算公式为收发包数量和与本周期消耗能量的比值与队列繁忙程度因子进行加权。情况二:初始阶段队列长度不为0,且结束阶段队列长度小于等于初始阶段队列长度,说明此时传感器节点无线通信较为空闲,计算公式为收发包数量和与本周期消耗能量的比值。情况三:初始阶段队列长度为0,且结束阶段队列长度不为0,说明此时传感器节点无线通信较为繁忙,计算公式为无线通信繁忙程度因子。情况四:初始阶段队列长度为0,且结束阶段队列长度也为0,说明此时传感器节点工作状态较优,定义此时传感器节点能量效率和无线通信繁忙程度因子为1。传感器节点平均传输时延为传感器节点i所有邻居节点传输时延的平均值。回报函数涉及的加权因子均需根据传感器节点实际工作环境的不同进行调优。依据前述内容,传感器节点能量效率和无线通信繁忙程度因子rE用公式表示为:
ns和nr表示一个周期内的发包数量和收包数量,n'b和nb表示在t+1周期和t周期的队列长度,B是队列空间的长度,Eframe是一个周期内消耗的能量;
传感器邻居节点平均传输时延rL为:
k表示节点i的邻居节点的数量,ti表示节点i的平均时延。
根据多目标优化算法,回报函数表示为:
rE0和rL0分别是rE和rL的最大值。
传感器节点通过R-learning算法的公式表示如下,行为值函数满足:
s'表示下一周期的状态;
平均期望ρ满足:
和β表示对当前和未来行为值函数及平均回报ρ估计的加权值;
调度策略探索结束条件指连续一段时间的平均回报ρ之差小于10-4,依据最大化平均回报ρ的原则,找到的最优策略(π:S→A),即状态→行为值映射集合作为传感器节点的调度表。
上述步骤可参照附图1的流程图,图1中:
步骤S101),每日零时,用户或关口智能电能表将前一天24小时电气参量信息负载曲线广播给各传感器节点;与此同时,各传感器节点读取自身队列长度和数据重传次数;
步骤S102),各传感器节点根据当前周期队列长度、数据重传次数、负荷曲线,使用ε-策略获取当前周期行为值;
步骤S103),下一周期传感节点根据能量效率和数据传送时延获得前一周期行为值的回报值;
步骤S104),传感器节点通过R-learning算法更新传感器节点的状态-行为表并根据ε-策略选择下一周期的行为值;
步骤S105),判断传感器节点是否符合调度策略探索结束条件;
步骤S106),如果S105)为真则传感器节点得到一个接近于最优的状态→行为值映射集合即调度表,否则循环执行步骤S103)。
本发明的调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点根据调度表工作的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调度表进行更新。其中,较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则更新调度表中的状态-行为值。对于调度表的更新过程,可参照图2,在图2中:
步骤S201),传感器节点根据调度表工作,并以较小的概率(如5%的概率)探索新的状态-行为值;
步骤S202),判断传感器节点是否获得更好的状态-行为值;
步骤S203),如果S202为真则更新调度表,否则执行步骤S201)。
前述为本发明的步骤过程,下面对本发明的原理进行分析。首先对本发明调度方法所使用的相关概念进行介绍。
(1)增强学习
增强学习源自人类认知学和动物学习心理学,采用了在人类或动物学习中经常体现的“尝试与失败”机制,通过在学习过程中获得的评价性反馈信号(即回报函数),寻找未来回报最大化的最优策略。增强学习算法的特点是不需要指定任务怎样实现,而是通过反馈信号是有利回报还是惩罚来寻找最优策略以最大化目标评价函数。与其它机器学习算法不同,增强学习不是建立在对问题世界一组观察的样本集合的基础上,而是将对动态变化的环境的适应作为一个学习过程。增强学习的含义通常有两个方面,一是将增强学习本身作为一类问题,二是解决这类问题的方法的集合。在本发明的研究中,主要是将采用统计和动态规划的方法来获得对某一状态下某一行为回报函数值的评价,并据此获得在所有状态下行为的最优策略的方法作为增强学习。在增强学习的实际应用中,最常采用的模型是马尔科夫模型,在此模型的基础上,增强学习的简化模型结构如图4所示。
图4中,增强学习模块接收当前环境状态的输入,根据内部的推理机制,执行相应的动作。在此动作的作用下,环境进入下一状态。模块接收环境新的状态并获得对上一动作的反馈值(即回报值)。其目的是通过合理的评价准则,学习到一个满足需求最优策略(π:S→A)。假定环境符合马尔可夫性,则增强学习问题可以通过马尔可夫决策过程(MarkovDecision Process,MDP)建模,下面给出其定义。
定义1:一个马尔科夫决策过程从数学角度可以用一个五元组来表示,即{S,A,r,P,J},其中S是有限或连续状态空间,包含决策过程所有可能的状态集合,A为有限或连续行为空间,是每一个状态所有可能的动作的集合。R是一个回报函数(S×A→R),P是马尔科夫决策过程的状态转移概率,满足如下的马尔科夫性和齐次性:
J为决策优化的目标函数。
根据定义1,状态转移概率P满足如下等式:
决策优化的目标函数J主要有两种类型:
折扣回报:
平均期望回报:
在本发明中,重点研究平均期望回报函数,这是因为有研究证明,平均期望回报与折扣回报相比更接近于真实问题。为优化马尔科夫决策过程的性能目标评价函数,在动态规划和增强学习方法中都定义了马尔科夫决策过程的策略和状态值函数的定义。
定义2:(MDP过程的马尔科夫性)策略π=(π0,π1,…πn)满足公式:
sn和an分别为马尔科夫决策过程在时刻n的状态集和行为集,则称π为马尔科夫策略。若对于任意n≥1,有πn=π0,则称马尔科夫策略π为平稳的,简称平稳策略。
增强学习算法的主要的目的是找到最优策略π*,以最大化目标函数J。因此,需要定义状态值函数Vπ(s)和行为值函数Qπ(s,a)。
假设π为平稳策略,状态值函数Vπ(s)表示为:
其中,数学期望Eπ{}定义在状态转移概率P和平稳策略π的分布上。ρπ表示根据决策策略π获得的平均期望回报Ja。行为值函数Qπ(s,a)与状态值函数Vπ(s)相似,表示以状态st开始并且执行行为at所获得平均期望回报。
根据上面的公式,最优化策略π*可以用如下公式表示:
π*=argπmaxVπ(s)
状态值函数V*(s)和行为值函数Q*(s,a)当满足最优化策略π*时,满足公式:
根据动态规划的有关理论,V*(s)和Q*(s,a)分别满足如下的贝尔曼方程:
对于模型已知(即状态转移概率已知)的马尔科夫决策过程,利用动态规划的值迭代和策略迭代等算法可以求解最优值函数和最优策略。但在本发明实际应用的高级量测网络应用场景中,由于模型未知,传统的动态规划方法无法进行求解,而增强学习成为一种有效的求解手段。
(2)问题建模
增强学习算法通过行为值函数Q(s',a')来代替对状态转移概率P的需要,解决了动态规划在实际应用中所面临的困难。为了解决本发明面临的传感器节点自适应调度最优化问题,将自适应调度问题映射为一个马尔科夫决策过程,将R-learning算法用公式表示如下,
行为值函数的学习:
s'表示下一时刻的状态。显然下一时刻的状态s'是根据状态转移概率P出现的。
平均期望ρ的学习:
和β表示对当前和未来行为值函数及平均回报ρ估计的加权值。
但将R-learning算法直接应用于本发明时,会遇到收敛性的问题,这是由于增强学习模块无法完全感知环境的状态信息,即使此时环境可以被建模为马尔可夫决策过程,由于对环境状态的感知的不准确,对于状态的差异无法有效的区分。在这种问题的解决中,如果不对R-learning算法进行任何改进就加以应用的话,算法将很难收敛,造成找不到最优解的情况发生。这种部分感知问题理论上属于非马尔可夫型环境,在这种模型中,不仅需要考虑动作的不确定性,同时必须考虑状态的不确定性,这种描述更接近于现实世界。解决这类部分感知问题的基本思路是将部分可以感知的环境转换为马尔科夫决策过程,被定义为POMDP(Partially Observable Markov Decision Process),最后通过预测模型法不断地逼近现实环境,但预测模型往往随着环境复杂程度的增加,预测模型呈现爆炸性增长,导致算法的计算量过大而不可行。因此对于这类问题的解决主要通过提出一些逼近算法对标准的、MDP建模的增强学习算法进行微调这种思路。由于传感器计算能力的限制,算法必须建立在简单、有效地基础上,本发明主要通过考虑高级量测网络本身的一些特性参数与R-learning算法相结合,减少了算法收敛所需要的迭代次数,这样既可以保证得到接近最优的策略,同时可以有效的增加算法本身的收敛速度。
在本发明的自适应调度方法中,对于调度表的创建是通过预测当前区域电网负荷状态、当前节点队列大小、当前节点能量效率、当前节点吞吐量等环境信息,自适应的决定在下一个周期内节点的行为(即占空比)。当一个周期结束,节点将得到一个回报值,根据得到的回报值,节点根据一定的探索策略(如ε-策略)在下一周期选择行为,一系列与回报相对应的行为将被迭代的生成,在这一过程中,一个性能更优的调度表被生成。
调度学习模块需要提供的定义如下:
状态集:节点的状态向量表示如下:
(nb,L)∈S
状态向量是队列长度nb和历史区域电网负荷预测状态L的集合。历史区域电网负荷预测状态L由当前时间和前一天区域负荷曲线比对产生,前一天区域负荷曲线由电能计量器每天定时发送到末梢传感器节点,当传感节点需要获取自身所处状态时,根据当前时间与前一天的负荷曲线判断自身所处状态。
L∈{Lmax波峰、Lmin波谷、Lmean均值、Lmax-mean波峰-均值、Lmean-max均值-波峰、Lmin-mean波谷-均值、Lmean-min均值-波谷}
行为集:行为被定义为通过预先分配激活时间产生的占空比。因此一个值比较大的行为意味着为节点在一个周期内分配更多的激活时间,这将会导致更高的吞吐量、更小的时延和消耗更多的能量。
回报函数:回报函数定义为r。本发明的目标有两个:首先,最大化能量效率,即最小化发送每个包所消耗的能量。其次,最小化节点的平均传输时延。因此,回报函数由两个独立的部分组成,反映了本发明的两个目标。
根据多目标优化算法,回报函数可以如下所示:
rE表示能量效率,rL反映了所有邻居节点的平均时延。rE和rL表示如下:
ns和nr表示一个周期内的发包数量和收包数量,n'b和nb表示在t+1周期和t周期的队列长度。B是队列空间的长度,Eframe是一个周期内消耗的能量。
k表示节点i的邻居节点的数量,ti表示节点i的平均时延。rE0和rL0分别是rE和rL的最大值。
在R-learning过程中,在每个周期的结束,节点计算回报函数值,更新行为值并根据ε-策略选择下一周期的行为,目的是平衡状态-行为对的探索以及修正最优策略。R-learning算法流程为:
初始化ρ和Q(s,a),对任意s,a
重复循环:s←当前状态;
根据ε-策略选择s状态下的行为a;
执行行为a,获得回报r及下一时刻状态s';
如果然后:
在此算法流程的基础上,本章根据POMDP模型的特点,根据ε-策略选择当前状态下的行为时,设计了新的行为搜索策略,即通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间,这样可以减少算法逼近最优解所需要的迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值函数,同时这也符合高级量测体系网络的工作特性。搜索策略公式如下:
nb表示当前队列长度,nmax是队列的最大值,actionmax是行为集合的最大值,Ls是当前区域历史负荷预测状态,Lmax是前一日历史负荷曲线的最大值,b是当重传次数超过设定的门限值时所取的调整值。当aestimation计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间。
最后通过ε-贪婪策略选取下一周期的行为值,实际选取的行为值为a,取值子空间
为[aestimation-5,aestimation+5],若1-ε>
random[0,1],则a=aε,否则,以等概率从[aestimation-5,aestimation+5]中任选一个作为行为值
a,random[0,1]为区间[0,1]上的随机数。所述行为值a指当前周期传感器节点所需的时间
片数。
调度策略探索结束条件指连续的一段时间的平均回报ρ之差小于10-4,即平均回报趋近于收敛。这表明调度表的变化已经趋近于稳定,此时得到的调度表接近于最优调度策略。
综上所述,本发明不限于上述具体实施方式。本领域技术人员,在不脱离本发明的精神和范围的前提下,可做若干的更改和修饰。本发明的保护范围应以本发明的权利要求为准。
Claims (9)
1.一种高级量测体系网络中传感器节点的自适应调度方法,其特征是包括创建调度表并依据调度表工作,调度表的创建过程包括如下步骤:
步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取历史电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信息负载曲线;
步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用ε-贪婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数;
步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并依据增强学习算法的回报函数得出前一周期行为值的回报值;历史电气参量信息负载曲线、自身队列长度、数据重传次数共同组成传感器节点当前周期的状态值,行为值是指当前周期传感器节点所需的时间片数,生成状态-行为值表;
步骤4)利用前一周期行为值的回报值对通过增强学习算法得出的传感器节点的状态-行为值表进行修正,并根据ε-贪婪策略选择下一周期的行为值;
步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为值表中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均值,得出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节点得到一个最终的状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。
2.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。
3.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时,设计新的行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值函数。
4.如权利要求3所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是所述行为搜索策略公式为:
nb表示当前队列长度,nmax是队列的最大值,actionmax是行为集合的最大值,Ls是当前区域历史负荷预测状态,Lm是前一日历史负荷曲线的最大值,Th是数据重传次数的门限值,即数据平均重传次数,b是当重传次数超过设定的门限值时所取的调整值;是小于1的调整因子,作为队列状态与负荷曲线状态之间比例关系的加权;
aestimation计算得到后,将[aestimation-5,aestimation+5]作为行为值的取值子空间,此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。
5.如权利要求4所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是所述的包括:
实际选取的行为值为a,取值子空间为[aestimation-5,aestimation+5],行为值函数Q(s,a)表示以状态s开始并且执行行为a所获得平均期望回报;ε为随机选择一个行为值的概率,若1-ε>random[0,1],则a=aε,否则,以等概率从[aestimation-5,aestimation+5]中ε-贪婪策略任选一个作为行为值a,random[0,1]为区间[0,1]上的随机数。
6.如权利要求5所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是步骤3)中回报函数的回报值定义为r,为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到;传感器节点能量效率和无线通信繁忙程度因子rE为:
ns和nr表示一个周期内的发包数量和收包数量,n'b和nb表示在t+1周期和t周期的队列长度,B是队列空间的长度,Eframe是一个周期内消耗的能量;
传感器邻居节点平均传输时延rL为:
k表示节点i的邻居节点的数量,ti表示节点i的平均时延,η是加权值。
7.如权利要求6所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是传感器节点通过增强学习算法的公式表示如下,行为值函数满足:
s'表示下一周期的状态值,a'表示下一周期的行为值;
平均回报ρ满足:
和β均为小于1的调整因子,表示对当前和未来行为值函数及平均回报ρ估计的加权;
调度策略探索结束条件指连续一段时间的平均回报ρ之差小于10-4,依据最大化平均回报ρ的原则,找到的最优策略(π:S→A),即状态→行为值映射集合作为传感器节点的调度表;s是当前状态值,a为选取的行为值;π是指最优策略中达到最优解时映射集合的一个标示;S为当前状态值的集合;A为选取的行为值的集合。
8.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是该调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点根据调度表工作的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调度表进行更新。
9.如权利要求8所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是所述较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则更新调度表中的状态-行为值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510381808.3A CN105072671B (zh) | 2015-06-30 | 2015-06-30 | 一种高级量测体系网络中传感器节点的自适应调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510381808.3A CN105072671B (zh) | 2015-06-30 | 2015-06-30 | 一种高级量测体系网络中传感器节点的自适应调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105072671A CN105072671A (zh) | 2015-11-18 |
CN105072671B true CN105072671B (zh) | 2018-11-23 |
Family
ID=54501915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510381808.3A Expired - Fee Related CN105072671B (zh) | 2015-06-30 | 2015-06-30 | 一种高级量测体系网络中传感器节点的自适应调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105072671B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105959353A (zh) * | 2016-04-22 | 2016-09-21 | 广东石油化工学院 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
CN106295637B (zh) * | 2016-07-29 | 2019-05-03 | 电子科技大学 | 一种基于深度学习与强化学习的车辆识别方法 |
JP6851952B2 (ja) * | 2017-10-24 | 2021-03-31 | 株式会社日立製作所 | データ収集装置及びデータ収集方法 |
CN108737382B (zh) * | 2018-04-23 | 2020-10-09 | 浙江工业大学 | 基于Q-Learning的SVC编码HTTP流媒体自适应方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101959244A (zh) * | 2010-09-29 | 2011-01-26 | 浙江工业大学 | 一种适用于无线传感网的层次型路由控制方法 |
CN104037761A (zh) * | 2014-06-25 | 2014-09-10 | 南方电网科学研究院有限责任公司 | 一种agc功率多目标随机优化分配方法 |
CN104320324A (zh) * | 2014-11-18 | 2015-01-28 | 中国科学技术大学 | 一种基于链路干扰的虚拟网络映射方法 |
-
2015
- 2015-06-30 CN CN201510381808.3A patent/CN105072671B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101959244A (zh) * | 2010-09-29 | 2011-01-26 | 浙江工业大学 | 一种适用于无线传感网的层次型路由控制方法 |
CN104037761A (zh) * | 2014-06-25 | 2014-09-10 | 南方电网科学研究院有限责任公司 | 一种agc功率多目标随机优化分配方法 |
CN104320324A (zh) * | 2014-11-18 | 2015-01-28 | 中国科学技术大学 | 一种基于链路干扰的虚拟网络映射方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105072671A (zh) | 2015-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023201916A1 (zh) | 一种分布式灵活资源聚合控制装置及控制方法 | |
Wang et al. | Wireless big data computing in smart grid | |
Zhao et al. | Spatiotemporal charging scheduling in wireless rechargeable sensor networks | |
Zou et al. | Wireless sensor network routing method based on improved ant colony algorithm | |
CN105072671B (zh) | 一种高级量测体系网络中传感器节点的自适应调度方法 | |
Ding et al. | Study on energy consumption optimization scheduling for internet of things | |
Wu et al. | Solar Wireless Sensor Network Routing Algorithm Based on Multi-Objective Particle Swarm Optimization. | |
CN102682349A (zh) | 一种用电量智能预测系统及方法 | |
CN106532751B (zh) | 一种分布式电源能效优化方法及系统 | |
Liu et al. | Multistep prediction-based adaptive dynamic programming sensor scheduling approach for collaborative target tracking in energy harvesting wireless sensor networks | |
CN109167671A (zh) | 一种面向量子密钥分发业务的配用通信系统均衡负载调度算法 | |
CN102969720B (zh) | 一种能够在智能电网中应用的负载动态控制和分析方法 | |
Han et al. | Impacts of traveling paths on energy provisioning for industrial wireless rechargeable sensor networks | |
Hu et al. | Edge intelligence for real-time data analytics in an IoT-based smart metering system | |
Li et al. | Coordinated state‐estimation method for air‐conditioning loads to provide primary frequency regulation service | |
Wakaiki et al. | A control-theoretic approach for cell zooming of energy harvesting small cell networks | |
Umair et al. | Energy management of smart homes over fog-based IoT architecture | |
CN110677892A (zh) | 一种无线传感器网络循环充电方法及系统 | |
Tang et al. | Energy-efficient sensory data collection based on spatiotemporal correlation in IoT networks | |
Ibrahim | Enhanced power management scheme for embedded road side units | |
Xu et al. | Research on a demand response interactive scheduling model of home load groups | |
Fan et al. | Study on load monitoring and demand side management strategy based on Elman neural network optimized by sparrow search algorithm | |
Yu et al. | An intelligent scheduling approach for electric power generation | |
Aydin et al. | Energy management for age of information control in solar-powered IoT end devices | |
Jin et al. | Deployment optimization for target perpetual coverage in energy harvesting wireless sensor network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181123 Termination date: 20200630 |