CN105072671B

CN105072671B - 一种高级量测体系网络中传感器节点的自适应调度方法

Info

Publication number: CN105072671B
Application number: CN201510381808.3A
Authority: CN
Inventors: 谭虎; 王建玲; 马建生; 孙秀云; 李文波; 李明明; 王小亮; 郑冬仙; 金志强; 徐亭亭; 刘刚; 张薇伟; 徐力; 付明义; 王珂
Original assignee: State Grid Corp of China SGCC; Weifang Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Weifang Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2018-11-23
Anticipated expiration: 2035-06-30
Also published as: CN105072671A

Abstract

本发明涉及一种高级量测体系网络中传感器节点的自适应调度方法，该方法基于增强学习算法创建调度表，各传感器节点依据调度表工作，并以较小的概率探索，如发现更优结果时则更新调度表，从而实现了高级量测体系网络中传感器节点的自适应学习和调度，提高了各个位置上的传感器节点的能量效率，从而降低了传感器节点的能量消耗，增加了传感器节点的生存时间。

Description

一种高级量测体系网络中传感器节点的自适应调度方法

技术领域

本发明涉及智能电网领域，具体的说是一种高级量测体系网络中传感器节点的自适应调度方法。

背景技术

在智能电网中，高级量测体系(AMI)是用来测量、采集、传送、储存、分析和应用客户用电信息，实现需求响应、双向互动，支持客户合理用电、节约用电的技术体系。与传统用电信息采集系统相比，高级量测体系不但能实现对计量点电能、电流、电压、功率因数、负荷曲线等电气参量信息的采集，同时还可以通过智能传感网络采集非计量点的数据，如用户侧设备运行状态、分布式电源运行信息、有序充放电监控信息、智能楼宇/小区用能信息等。

高级量测体系的末梢智能传感器网络具有传感识别设备种类多、数量大、实时性要求高等特点，由于电网负荷具有时间性和季节性波峰、波谷特性，从而引起末梢智能传感器网络具有其他无线传感器网络所不具有的流量负载特性，为了有效的利用能量，节点传感识别设备的通信模块在大部分时间需要保持在睡眠模式，只有在接收和发送数据时才周期性的进入侦听模式。在实际运行中，当网络负载比较稳定时，靠近汇聚点的节点由于需要转发更多的数据，因而需要更长的侦听时间，想反，距离汇聚节点较远的节点则应该更多的处于睡眠状态。但是，现有的调度系统没有考虑这种情况，没有为不同位置的传感器节点分配不同的占空比。同样的，在网络拓扑结构比较稳定时，现有调度系统也没有考虑到由于电网负荷波峰波谷效应造成的末梢网络流量负载的变化，因此，现有的调度系统不能很好的适应网络负载和拓扑的变化，从而影响网络节点的能量效率和时延。

面对智能传感器网络这一新型高级量测体系末梢网络，如何在确保信息实时、稳定传送的同时，尽可能减少传感器节点自身消耗的能量、延长传感器节点生存时间，是高级量测体系网络中传感器应用的重要问题。

本发明基于增强学习算法开发出了一种传感器节点的自适应调度方法。下面首先对“增强学习”进行简单介绍，正如文献《增强学习：导论》中所指出，增强学习源自人类认知学和动物学习心理学，采用了在人类或动物学习中经常体现的“尝试与失败”机制，通过在学习过程中获得的评价性反馈信号(即回报函数)，寻找未来回报最大化的最优策略。增强学习算法的特点是不需要指定任务怎样实现，而是通过反馈信号是有利回报还是惩罚来寻找最优策略以最大化目标评价函数。与其它机器学习算法不同，增强学习不是建立在对问题世界一组观察的样本集合的基础上，而是将对动态变化的环境的适应作为一个学习过程。目前对增强学习的研究主要建立在马尔科夫过程(Markov)的基础上，优化求解模型，主要集中在提高计算效率上，但对其机理的研究还有很大的差距。增强学习的含义通常有两个方面，一是将增强学习本身作为一类问题，二是解决这类问题的方法的集合。在本申请中，主要采用第二种含义，即采用统计和动态规划的方法来获得对某一状态下某一行为回报函数值的评价，并据此获得在所有状态下行为的最优策略的方法作为增强学习。

在文献《一种能量感知传感器通信中接近最优的增强学习框架》中，对增强学习问题的求解提出了一种Actor-Critic算法，实现了一种接近最优的点对点通信框架。在文献《RL-MAC:一种基于增强学习算法的无线传感器网络MAC层协议》中，提出了一种自适应的无线传感器网络MAC层协议，通过将MAC层的自适应调度问题映射为一类增强学习问题，通过采用Q-learning的求解方法，得到近似最优的自适应调度集合，实现了一种高吞吐量、低能量消耗的无线传感器网络MAC层协议。Q-learning算法是适用于求解决策优化的目标函数为折扣回报的无限马尔科夫决策过程的一类增强学习问题，但包括文献《在增强学习问题中采用折扣回报还是平均期望回报：R-learning与Q-learning的实际案例比较》在内的一些机器学习领域的研究表明，在增强学习问题的求解中，最重要的是选取合适的回报函数，与采用折扣回报函数相比，选取平均期望回报更接近希望解决的实际问题，同时证明了文献《一种最大化非折扣回报的增强学习算法》所提出的，R-learning将平均期望回报作为决策优化目标函数求解无限马尔科夫决策过程这类增强学习问题，在真实环境中优于Q-learning。但R-learning算法在求解某些增强学习问题时会遇到收敛性问题，因此需要作出适应性的调整。

发明内容

本发明要解决的技术问题是提供一种高级量测体系网络中传感器节点的自适应调度方法，该调度方法在确保信息实时、稳定传输的同时，能够最大限度降低各传感器节点的能量消耗、延长传感器节点的生存时间。

为解决上述技术问题，本发明的高级量测体系网络中传感器节点的自适应调度方法的特点是包括创建调度表并依据调度表工作，调度表的创建过程包括如下步骤：

步骤1)传感器节点读取自身队列长度和数据重传次数，并从关口智能电表获取历史电气参量信息负载曲线；历史电气参量信息负载曲线是指上一时间区域的电气参量信息负载曲线；

步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数，并使用ε-贪婪策略获取当前周期的行为值；行为值是指当前周期传感器节点所需的时间片数；

步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延，并依据增强学习算法的回报函数得出前一周期行为值的回报值；

步骤4)利用前一周期行为值的回报值对通过R-learning算法得出的传感器节点的状态-行为值表进行修正，并根据ε-贪婪策略选择下一周期的行为值；

步骤5)重复步骤3)和步骤4)，在上一时间区域内，计算在步骤3)时状态-行为值表中所有回报值的平均值，同时计算在步骤4)时状态-行为值表中所有回报值的平均值，得出上述两个平均值的差值，当该差值满足调度策略探索结束条件的标准时，传感器节点得到一个状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。

步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。

步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时，设计新的行为搜索策略，该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间，以减少逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数。

所述行为搜索策略公式为：

n_b表示当前队列长度，n_max是队列的最大值，action_max是行为集合的最大值，L_s是当前区域历史负荷预测状态，L_max是前一日历史负荷曲线的最大值，b是当重传次数超过设定的门限值时所取的调整值；

a_estimation计算得到后，将其前后区间长度为5子区间的作为行为值的取值子空间，此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。

所述的ε-贪婪策略包括：

实际选取的行为值为a,取值子空间为[a_estimation-5,a_estimation+5]，若1-ε>random[0,1]，则a＝a_ε，否则，以等概率从[a_estimation-5,a_estimation+5]中任选一个作为行为值a，random[0,1]为区间[0,1]上的随机数。

步骤3)中的回报函数定义为_r，回报值为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到；传感器节点能量效率和无线通信繁忙程度因子r_E为：

n_s和n_r表示一个周期内的发包数量和收包数量，n'_b和n_b表示在t+1周期和t周期的队列长度，B是队列空间的长度，E_frame是一个周期内消耗的能量；

传感器邻居节点平均传输时延r_L为：

k表示节点i的邻居节点的数量，t_i表示节点i的平均时延。

根据多目标优化算法，回报函数表示为：

r_E0和r_L0分别是r_E和r_L的最大值。

传感器节点通过R-learning算法的公式表示如下，行为值函数满足：

s'表示下一周期的状态；

平均期望ρ满足：

和β表示对当前和未来行为值函数及平均回报ρ估计的加权值；

调度策略探索结束条件指连续一段时间的平均回报ρ之差小于10^-4，依据最大化平均回报ρ的原则，找到的最优策略(π：S→A)，即状态→行为值映射集合作为传感器节点的调度表。

该调度方法还包括调度表的更新过程，调度表的更新过程为：传感器节点根据调度表工作的同时，以较小的概率探索新的状态-行为值，当发现更优的结果时对调度表进行更新。

所述较小的概率为5％的概率，发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时，如果发现Q(s,a)的值优于已创建的调度表中的最优值时，则更新调度表中的状态-行为值。

本发明的有益效果是：由于电网负荷具有时间性和季节性波峰、波谷特性，其末梢智能传感器网络具有其他无线传感器网络所不具有的流量负载特性，为了有效的利用有限的电池能量，通过基于R-learning的方法实现了高级量测体系网络中传感器节点的自适应学习和调度，消除了传感器节点固定占空比所带来的不适应流量负载变化的缺点，通过传感器节点的动态感知能力，根据不同时期的流量负载特性，生成当前接近最优的调度表，从而提高了各个位置上的传感器节点的能量效率，降低了传感器节点的能量消耗，增加了传感器节点的生存时间，提高了高级量测体系网络的实用性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明：

图1为本发明中调度表创建过程的流程示意图；

图2为本发明中调度表更新过程的流程示意图；

图3为本发明的整体流程示意图；

图4为增强学习算法的简化模型结构示意图。

具体实施方式

参照附图，该高级量测体系网络中传感器节点的自适应调度方法包括创建调度表并依据调度表工作，其中，调度表的创建过程包括如下步骤：

步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延，并依据增强学习算法的回报函数得出前一周期行为值的回报值。

步骤5)重复步骤3)和步骤4)，在上一时间区域内，计算在步骤3)时状态-行为值表中所有回报值的平均值，同时计算在步骤4)时状态-行为值表中所有回报值的平均值，得出上述两个平均值的差值，当该差值满足调度策略探索结束条件的标准时，传感器节点得到一个接近于最优的状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。

其中，步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。

在步骤2)中，获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时，设计新的行为搜索策略，该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间，以减少逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数。

行为搜索策略公式为：

ε-贪婪策略包括：

步骤3)中的回报函数定义为r，回报值为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到。

在本发明中，主要目标有两个：首先，最大化能量利用效率，即最小化平均发送每个包所消耗的能量。其次，最小化节点的平均传输时延，其又包括两部分，即最小化数据包在传感器节点存储队列的等待时间和最小化传感器节点邻居节点的平均传输时延。因此，回报函数由两个独立的部分组成，分别反映了本发明的两个目标。

根据在高级量测体系网络中传感器节点工作的特点，其中对于传感器节点能量效率和无线通信繁忙程度因子，其根据在一个周期初始阶段及结束阶段队列长度的不同，分为四种情况。情况一：初始阶段队列长度不为0，且结束阶段队列长度大于初始阶段队列长度，说明此时传感器节点无线通信较为繁忙，计算公式为收发包数量和与本周期消耗能量的比值与队列繁忙程度因子进行加权。情况二：初始阶段队列长度不为0，且结束阶段队列长度小于等于初始阶段队列长度，说明此时传感器节点无线通信较为空闲，计算公式为收发包数量和与本周期消耗能量的比值。情况三：初始阶段队列长度为0，且结束阶段队列长度不为0，说明此时传感器节点无线通信较为繁忙，计算公式为无线通信繁忙程度因子。情况四：初始阶段队列长度为0，且结束阶段队列长度也为0，说明此时传感器节点工作状态较优，定义此时传感器节点能量效率和无线通信繁忙程度因子为1。传感器节点平均传输时延为传感器节点i所有邻居节点传输时延的平均值。回报函数涉及的加权因子均需根据传感器节点实际工作环境的不同进行调优。依据前述内容，传感器节点能量效率和无线通信繁忙程度因子r_E用公式表示为：

传感器邻居节点平均传输时延r_L为：

k表示节点i的邻居节点的数量，t_i表示节点i的平均时延。

根据多目标优化算法，回报函数表示为：

r_E0和r_L0分别是r_E和r_L的最大值。

s'表示下一周期的状态；

平均期望ρ满足：

上述步骤可参照附图1的流程图，图1中：

步骤S101)，每日零时，用户或关口智能电能表将前一天24小时电气参量信息负载曲线广播给各传感器节点；与此同时，各传感器节点读取自身队列长度和数据重传次数；

步骤S102)，各传感器节点根据当前周期队列长度、数据重传次数、负荷曲线，使用ε-策略获取当前周期行为值；

步骤S103)，下一周期传感节点根据能量效率和数据传送时延获得前一周期行为值的回报值；

步骤S104)，传感器节点通过R-learning算法更新传感器节点的状态-行为表并根据ε-策略选择下一周期的行为值；

步骤S105)，判断传感器节点是否符合调度策略探索结束条件；

步骤S106)，如果S105)为真则传感器节点得到一个接近于最优的状态→行为值映射集合即调度表，否则循环执行步骤S103)。

本发明的调度方法还包括调度表的更新过程，调度表的更新过程为：传感器节点根据调度表工作的同时，以较小的概率探索新的状态-行为值，当发现更优的结果时对调度表进行更新。其中，较小的概率为5％的概率，发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时，如果发现Q(s,a)的值优于已创建的调度表中的最优值时，则更新调度表中的状态-行为值。对于调度表的更新过程，可参照图2，在图2中：

步骤S201)，传感器节点根据调度表工作，并以较小的概率(如5％的概率)探索新的状态-行为值；

步骤S202)，判断传感器节点是否获得更好的状态-行为值；

步骤S203)，如果S202为真则更新调度表，否则执行步骤S201)。

前述为本发明的步骤过程，下面对本发明的原理进行分析。首先对本发明调度方法所使用的相关概念进行介绍。

(1)增强学习

增强学习源自人类认知学和动物学习心理学，采用了在人类或动物学习中经常体现的“尝试与失败”机制，通过在学习过程中获得的评价性反馈信号(即回报函数)，寻找未来回报最大化的最优策略。增强学习算法的特点是不需要指定任务怎样实现，而是通过反馈信号是有利回报还是惩罚来寻找最优策略以最大化目标评价函数。与其它机器学习算法不同，增强学习不是建立在对问题世界一组观察的样本集合的基础上，而是将对动态变化的环境的适应作为一个学习过程。增强学习的含义通常有两个方面，一是将增强学习本身作为一类问题，二是解决这类问题的方法的集合。在本发明的研究中，主要是将采用统计和动态规划的方法来获得对某一状态下某一行为回报函数值的评价，并据此获得在所有状态下行为的最优策略的方法作为增强学习。在增强学习的实际应用中，最常采用的模型是马尔科夫模型，在此模型的基础上，增强学习的简化模型结构如图4所示。

图4中，增强学习模块接收当前环境状态的输入，根据内部的推理机制，执行相应的动作。在此动作的作用下，环境进入下一状态。模块接收环境新的状态并获得对上一动作的反馈值(即回报值)。其目的是通过合理的评价准则，学习到一个满足需求最优策略(π：S→A)。假定环境符合马尔可夫性，则增强学习问题可以通过马尔可夫决策过程(MarkovDecision Process，MDP)建模，下面给出其定义。

定义1：一个马尔科夫决策过程从数学角度可以用一个五元组来表示，即{S,A,r,P,J}，其中S是有限或连续状态空间，包含决策过程所有可能的状态集合，A为有限或连续行为空间，是每一个状态所有可能的动作的集合。R是一个回报函数(S×A→R)，P是马尔科夫决策过程的状态转移概率，满足如下的马尔科夫性和齐次性：

J为决策优化的目标函数。

根据定义1，状态转移概率P满足如下等式：

决策优化的目标函数J主要有两种类型：

折扣回报：

平均期望回报：

在本发明中，重点研究平均期望回报函数，这是因为有研究证明，平均期望回报与折扣回报相比更接近于真实问题。为优化马尔科夫决策过程的性能目标评价函数，在动态规划和增强学习方法中都定义了马尔科夫决策过程的策略和状态值函数的定义。

定义2：(MDP过程的马尔科夫性)策略π＝(π₀,π₁,…π_n)满足公式：

s_n和a_n分别为马尔科夫决策过程在时刻n的状态集和行为集，则称π为马尔科夫策略。若对于任意n≥1，有π_n＝π₀，则称马尔科夫策略π为平稳的，简称平稳策略。

增强学习算法的主要的目的是找到最优策略π^*，以最大化目标函数J。因此，需要定义状态值函数V^π(s)和行为值函数Q^π(s,a)。

假设π为平稳策略，状态值函数V^π(s)表示为：

其中，数学期望E_π{}定义在状态转移概率P和平稳策略π的分布上。ρ^π表示根据决策策略π获得的平均期望回报J_a。行为值函数Q^π(s,a)与状态值函数V^π(s)相似，表示以状态s_t开始并且执行行为a_t所获得平均期望回报。

根据上面的公式，最优化策略π^*可以用如下公式表示：

π^*＝arg_πmaxV^π(s)

状态值函数V^*(s)和行为值函数Q^*(s,a)当满足最优化策略π^*时，满足公式：

根据动态规划的有关理论，V^*(s)和Q^*(s,a)分别满足如下的贝尔曼方程：

对于模型已知(即状态转移概率已知)的马尔科夫决策过程，利用动态规划的值迭代和策略迭代等算法可以求解最优值函数和最优策略。但在本发明实际应用的高级量测网络应用场景中，由于模型未知，传统的动态规划方法无法进行求解，而增强学习成为一种有效的求解手段。

(2)问题建模

增强学习算法通过行为值函数Q(s',a')来代替对状态转移概率P的需要，解决了动态规划在实际应用中所面临的困难。为了解决本发明面临的传感器节点自适应调度最优化问题，将自适应调度问题映射为一个马尔科夫决策过程，将R-learning算法用公式表示如下，

行为值函数的学习：

s'表示下一时刻的状态。显然下一时刻的状态s'是根据状态转移概率P出现的。

平均期望ρ的学习：

和β表示对当前和未来行为值函数及平均回报ρ估计的加权值。

但将R-learning算法直接应用于本发明时，会遇到收敛性的问题，这是由于增强学习模块无法完全感知环境的状态信息，即使此时环境可以被建模为马尔可夫决策过程，由于对环境状态的感知的不准确，对于状态的差异无法有效的区分。在这种问题的解决中，如果不对R-learning算法进行任何改进就加以应用的话，算法将很难收敛，造成找不到最优解的情况发生。这种部分感知问题理论上属于非马尔可夫型环境，在这种模型中，不仅需要考虑动作的不确定性，同时必须考虑状态的不确定性，这种描述更接近于现实世界。解决这类部分感知问题的基本思路是将部分可以感知的环境转换为马尔科夫决策过程，被定义为POMDP(Partially Observable Markov Decision Process)，最后通过预测模型法不断地逼近现实环境，但预测模型往往随着环境复杂程度的增加，预测模型呈现爆炸性增长，导致算法的计算量过大而不可行。因此对于这类问题的解决主要通过提出一些逼近算法对标准的、MDP建模的增强学习算法进行微调这种思路。由于传感器计算能力的限制，算法必须建立在简单、有效地基础上，本发明主要通过考虑高级量测网络本身的一些特性参数与R-learning算法相结合，减少了算法收敛所需要的迭代次数，这样既可以保证得到接近最优的策略，同时可以有效的增加算法本身的收敛速度。

在本发明的自适应调度方法中，对于调度表的创建是通过预测当前区域电网负荷状态、当前节点队列大小、当前节点能量效率、当前节点吞吐量等环境信息，自适应的决定在下一个周期内节点的行为(即占空比)。当一个周期结束，节点将得到一个回报值，根据得到的回报值，节点根据一定的探索策略(如ε-策略)在下一周期选择行为，一系列与回报相对应的行为将被迭代的生成，在这一过程中，一个性能更优的调度表被生成。

调度学习模块需要提供的定义如下：

状态集：节点的状态向量表示如下：

(n_b,L)∈S

状态向量是队列长度n_b和历史区域电网负荷预测状态L的集合。历史区域电网负荷预测状态L由当前时间和前一天区域负荷曲线比对产生，前一天区域负荷曲线由电能计量器每天定时发送到末梢传感器节点，当传感节点需要获取自身所处状态时，根据当前时间与前一天的负荷曲线判断自身所处状态。

L∈{L_max波峰、L_min波谷、L_mean均值、L_max-mean波峰-均值、L_mean-max均值-波峰、L_min-mean波谷-均值、L_mean-min均值-波谷}

行为集：行为被定义为通过预先分配激活时间产生的占空比。因此一个值比较大的行为意味着为节点在一个周期内分配更多的激活时间，这将会导致更高的吞吐量、更小的时延和消耗更多的能量。

回报函数：回报函数定义为r。本发明的目标有两个：首先，最大化能量效率，即最小化发送每个包所消耗的能量。其次，最小化节点的平均传输时延。因此，回报函数由两个独立的部分组成，反映了本发明的两个目标。

根据多目标优化算法，回报函数可以如下所示：

r_E表示能量效率，r_L反映了所有邻居节点的平均时延。r_E和r_L表示如下：

n_s和n_r表示一个周期内的发包数量和收包数量，n'_b和n_b表示在t+1周期和t周期的队列长度。B是队列空间的长度，E_frame是一个周期内消耗的能量。

k表示节点i的邻居节点的数量，t_i表示节点i的平均时延。r_E0和r_L0分别是r_E和r_L的最大值。

在R-learning过程中，在每个周期的结束，节点计算回报函数值，更新行为值并根据ε-策略选择下一周期的行为，目的是平衡状态-行为对的探索以及修正最优策略。R-learning算法流程为：

初始化ρ和Q(s,a)，对任意s，a

重复循环：s←当前状态；

根据ε-策略选择s状态下的行为a；

执行行为a，获得回报r及下一时刻状态s'；

如果然后：

在此算法流程的基础上，本章根据POMDP模型的特点，根据ε-策略选择当前状态下的行为时，设计了新的行为搜索策略，即通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间，这样可以减少算法逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数，同时这也符合高级量测体系网络的工作特性。搜索策略公式如下：

n_b表示当前队列长度，n_max是队列的最大值，action_max是行为集合的最大值，L_s是当前区域历史负荷预测状态，L_max是前一日历史负荷曲线的最大值，b是当重传次数超过设定的门限值时所取的调整值。当a_estimation计算得到后，将其前后区间长度为5子区间的作为行为值的取值子空间。

最后通过ε-贪婪策略选取下一周期的行为值，实际选取的行为值为a,取值子空间为[a_estimation-5,a_estimation+5]，若1-ε> random[0,1]，则a＝a_ε，否则，以等概率从[a_estimation-5,a_estimation+5]中任选一个作为行为值 a，random[0,1]为区间[0,1]上的随机数。所述行为值a指当前周期传感器节点所需的时间片数。

调度策略探索结束条件指连续的一段时间的平均回报ρ之差小于10^-4，即平均回报趋近于收敛。这表明调度表的变化已经趋近于稳定，此时得到的调度表接近于最优调度策略。

综上所述，本发明不限于上述具体实施方式。本领域技术人员，在不脱离本发明的精神和范围的前提下，可做若干的更改和修饰。本发明的保护范围应以本发明的权利要求为准。

Claims

1.一种高级量测体系网络中传感器节点的自适应调度方法，其特征是包括创建调度表并依据调度表工作，调度表的创建过程包括如下步骤：

步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延，并依据增强学习算法的回报函数得出前一周期行为值的回报值；历史电气参量信息负载曲线、自身队列长度、数据重传次数共同组成传感器节点当前周期的状态值，行为值是指当前周期传感器节点所需的时间片数，生成状态-行为值表；

步骤4)利用前一周期行为值的回报值对通过增强学习算法得出的传感器节点的状态-行为值表进行修正，并根据ε-贪婪策略选择下一周期的行为值；

步骤5)重复步骤3)和步骤4)，在上一时间区域内，计算在步骤3)时状态-行为值表中所有回报值的平均值，同时计算在步骤4)时状态-行为值表中所有回报值的平均值，得出上述两个平均值的差值，当该差值满足调度策略探索结束条件的标准时，传感器节点得到一个最终的状态→行为值映射集合,该状态→行为值映射集合即为需要创建的调度表。

2.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。

3.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时，设计新的行为搜索策略，该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间，以减少逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数。

4.如权利要求3所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述行为搜索策略公式为：

n_b表示当前队列长度，n_max是队列的最大值，action_max是行为集合的最大值，L_s是当前区域历史负荷预测状态，L_m是前一日历史负荷曲线的最大值，T_h是数据重传次数的门限值,即数据平均重传次数，b是当重传次数超过设定的门限值时所取的调整值；是小于1的调整因子，作为队列状态与负荷曲线状态之间比例关系的加权；

a_estimation计算得到后，将[a_estimation-5,a_estimation+5]作为行为值的取值子空间，此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。

5.如权利要求4所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述的包括：

实际选取的行为值为a,取值子空间为[a_estimation-5,a_estimation+5]，行为值函数Q(s,a)表示以状态s开始并且执行行为a所获得平均期望回报；ε为随机选择一个行为值的概率，若1-ε＞random[0,1]，则a＝a_ε，否则，以等概率从[a_estimation-5,a_estimation+5]中ε-贪婪策略任选一个作为行为值a，random[0,1]为区间[0,1]上的随机数。

6.如权利要求5所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤3)中回报函数的回报值定义为r，为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到；传感器节点能量效率和无线通信繁忙程度因子r_E为：

传感器邻居节点平均传输时延r_L为：

k表示节点i的邻居节点的数量，t_i表示节点i的平均时延，η是加权值。

7.如权利要求6所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是传感器节点通过增强学习算法的公式表示如下，行为值函数满足：

s'表示下一周期的状态值，a'表示下一周期的行为值；

平均回报ρ满足：

和β均为小于1的调整因子，表示对当前和未来行为值函数及平均回报ρ估计的加权；

调度策略探索结束条件指连续一段时间的平均回报ρ之差小于10^-4，依据最大化平均回报ρ的原则，找到的最优策略(π：S→A)，即状态→行为值映射集合作为传感器节点的调度表；s是当前状态值，a为选取的行为值；π是指最优策略中达到最优解时映射集合的一个标示；S为当前状态值的集合；A为选取的行为值的集合。

8.如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是该调度方法还包括调度表的更新过程，调度表的更新过程为：传感器节点根据调度表工作的同时，以较小的概率探索新的状态-行为值，当发现更优的结果时对调度表进行更新。

9.如权利要求8所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述较小的概率为5％的概率，发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时，如果发现Q(s,a)的值优于已创建的调度表中的最优值时，则更新调度表中的状态-行为值。