CN109462858A

CN109462858A - 一种无线传感器网络参数自适应调节方法

Info

Publication number: CN109462858A
Application number: CN201711089171.6A
Authority: CN
Inventors: 刘元安; 李尚南; 张洪光; 范文浩; 吴帆
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2019-03-12

Abstract

本发明公开了一种无线传感器网络参数自适应调节方法，使用星型网络拓扑模型，传感器网络由传感器节点与协调器构成，节点用于采集传感器数据，协调器作为整个传感器网络的汇聚设备，用于收集节点上传的传感器数据。无线传感器网络通信中采用的是基于时隙CSMA/CA的802.15.4协议，并利用Q‑learning学习算法对协议的参数设置进行动态优化，可以有效地解决802.15.4协议对位置网络环境的适应性问题，并在提高网络服务质量的同时，有效地降低了网络的开销，使其成为一种适应性强、实时性高、服务质量好的无线传感器网络的优化方法。

Description

一种无线传感器网络参数自适应调节方法

技术领域

本发明涉及无线传感器网络的MAC层接入技术和Q学习算法，基于 IEEE 802.15.4通信协议中基本的MAC接入机制CSMA/CA技术，通过Q学习算法对该接入机制的重要参数进行调节，从而优化无线传感器网络的服务质量。具体是一种无线传感器网络中基于分布式Q学习的参数自适应调节方法。

背景技术

在低时延确定性的无线传感器网络中，基于CSMA/CA接入机制的802.15.4 协议得到了广泛应用。但由于CSMA/CA是竞争型的MAC协议，各个节点在接入信道和发送数据的时候可能会发生碰撞，因此需要进行空闲信道检测、退避和重传。在标准的CSMA/CA机制中，退避和重传次数一般设为默认值，并且无法针对不同的网络进行动态设置，这就造成了在某些信道状况不佳、服务质量要求较高的通信环境中无法满足要求的问题。由于应用的需要，目前对MAC层接入协议的研究中，也提出了一些调节网络参数以适应通信指标要求的调节方法。这些调节方法多数需要由传感器节点根据通信质量向协调器节点发送配置请求帧，请求分配相应的通信资源，而协调器根据各个节点发送的请求帧为节点分配优先级或时隙。这种优化方法的优点是协调器可以根据节点信息的重要性提供差异化服务，并且分配专用时隙可以有效地避免因为碰撞造成的丢包等问题。但由于增加了配置请求帧和配置帧的，导致网络整体的能耗以及通信的复杂度大大上升，对于使用电池供电的传感器节点来说，会导致网络的寿命缩短。因此，一个可以对网络参数进行自适应调节的接入机制优化方法是迫切的现实需求。

在现在的自适应调节方法中，各种学习算法是研究的热点。其中Q学习算法由于是无模型的学习算法，可以有多个代理，学习机制是分布式的，并且算法复杂度较低，因此得到了广泛的应用。使用Q学习算法的应用由于无需和环境中的其他智能体进行信息交换，而是通过自身获得的奖励对每个“状态-动作”对的 Q值进行更新。

考虑到无线传感器网络是一种能量有限并且低时延确定性的网络，结合Q 学习算法来优化网络的有效传输率和时延显得十分有应用价值。

发明内容

本发明提出一种无线传感器网络中基于Q学习的参数自适应调节方法，该方法结合CSMA/CA接入机制的特点来满足网络有效传输率和时延的要求，采用Q 学习算法，可以有效地提高算法的收敛速率，减少计算的复杂度，是一种开销较小的参数设置方法。

一种无线传感器网络中基于Q学习的参数自适应调节方法，以网络通信时延 D以及网络有效传输率R作为目标函数，以传感器节点作为智能体，以无线传感器网络的环境状态作为Q学习的环境状态集合S，每次通信中各个节点的通信参数的设置动作作为智能体代理的动作集合A，以传感器网络节点所采用的通信参数与其的通信时延以及有效传输率之间的对应关系作为各个传感器节点的瞬时反馈奖励函数，采用分布式Q学习迭代算法对网络中各个节点的通信参数进行设置，在迭代过程中设置探索策略函数。

由于假设环境状态不发生改变，因此转移概率公式和Q值函数的迭代公式属于已知公式。

在一次发送过程中，子节点需要进行两次空闲信道检测，在两次信道检测结果均为空闲的情况下才可以进行发送。一般将第一次和第二次空闲信道检测失败的概率之和设为x。如果信道检测失败，则会进入退避周期，随机退避一段时间，在退避结束之后，又会重新进行空闲信道检测。退避的次数是有限制的，其必须小于最大退避次数m，在退避次数到达m时，则本次发送失败。而如果成功接入信道并发送了数据帧，但没有收到协调器返回的ACK时，则传感器节点会进行重传，重传的步骤与正常发送的步骤相同。若重传次数达到最大重传次数n 时，则本次发送失败。这里将在每一次发送(包括正常的发送和重传)中成功接入信道但因为数据帧传输失败而进入下一次重传或发送失败的概率设为y。

在第t次数据传输中，单个无线传感器节点的有效传输率R(t)和时延D(t)的计算方式如下所示：

其中y＝P_c(1-x^m+1)。

其中T_s为数据帧成功发送的时间，T_c为数据帧传输中发生碰撞的时间，而表示的是近似的退避周期，其可以重写为：

其中S_b指的是时间单元aUnitBackoffPeriod(20个符号)。γ＝max(α,(1-α)β)，α和β分别指的是第一次和第二次空闲信道检测失败的概率，m为最大退避次数，W₀指的是第一次退避中的最小退避时间。

从公式(1)、(2)和(3)可以看出，由于假设环境状态不发生改变，因此 CCA检测失败概率x、传输失败概率(即传感器节点成功接入信道并发送数据给协调器，但未接收到协调器返回的ACK的概率)y、最小退避时间W₀，以及数据帧成功发送的时间T_s和数据帧传输中发生碰撞的时间T_c均为常数不发生改变，有效传输率和时延只与最大退避次数m和最大重传次数n有关。

以网络通信时延D以及网络有效传输率R作为目标函数，具体计算公式如下：

其中R_min为网络有效传输率所允许的最小值，该值根据实际的通信情况进行决定。

其中D_max为网络通信时延所允许的最大值。

所述探索策略是最简单的ε-greedy作为动作选择策略，它使用随机接收准则进动作作选择，每次除选择估计价值最优的动作外，还以一个较小的概率有限度地接收估计价值次优的动作，这使得搜索算法有可能跳出搜索空间中局部最优子空间的陷阱，寻找到最优的动作选择策略。其探索策略公式为：

“探索”即随机策略，是为了对“状态-动作”空间实现遍历，从而避免算法收敛于一个局部最优解，其概率为ε；而“利用”即贪婪策略，即智能体以概率1-ε选择该策略，并从查找表中选择对应Q值最大的动作作为下一个学习周期中智能体所采用的动作。其可以防止学习过程过于震荡而不收敛。

所述在无线传感器网络中采用分布式Q学习算法对各个传感器节点的通信参数进行优化的具体过程如下：

步骤1：初始化各个动作的Q值，一般情况下将它们都初始化为0；

步骤2：观察现状态s；

步骤3：通过Q(s,a)求出策略π(s,a)，从而对探索新动作和利用现在动作的概率进行平衡；

步骤4：根据代理策略π(s,a)选择一个动作a；

步骤5：执行动作a并观察所得到的奖励r和下一个状态s′；

步骤6：使用公式Q_t(a)＝Q_t-1(a)+α_t[r_t-Q_t-1(a)]对Q(s,a)的值进行更新；

步骤7：将现状态s变为s′；

步骤8：重复4—8的步骤:，直到Q(s,a)的值收敛

Q值的更新公式为Q_t(a)＝Q_t-1(a)+α_t[r_t-Q_t-1(a)]，其中其中α_t为学习速率， r_t为奖励。

学习速率α_t决定了Q学习算法的收敛速率，α_t越大，“状态-动作”对的收敛速率也越快。但收敛速率过快会导致学习算法出现局部最优解的问题。因此，一般情况下令学习速率α_t＝0.1，以保证学习算法能够正常地工作。

根据通信的实际要求，我们将网络有效传输率R所允许的最小值R_min设置为 99％，即在100个数据帧中只允许1个丢帧存在。

根据Q学习的机制，Q值是瞬时更新的，因此每一成功收包或者丢包都会给予动作相应的奖励与惩罚。由于有效传输率的阈值R_min＝99％，则我们要保证Q 值在有效传输率低于为99％的情况下为负值，而在99％的情况下为正值。这样才能够保证满足要求的动作即(m,n)的Q值可以收敛到1，而不满足要求的动作的 Q值则会收到惩罚收敛为负值或0。

若有限传输率的阈值为R_min＝99％，则对于收包的奖励和丢包的惩罚应该满足：成功接收99个数据帧而丢失一个数据帧时，该动作的Q值大于0；而成功 98个数据帧而丢失2个数据帧时，该动作的Q值小于0；

根据有效传输率和Q值的关系，可以计算处动作在收包时获得的奖励和丢包时受到的惩罚之间的关系。本专利将收包获得的奖励设为1，则丢包所受到的惩罚r_p需要满足

可以求出惩罚r_p的取值范围为[5,8]。

根据惩罚r_p的取值范围，可知r_p共有4中取值。但由于在r_p＝5的情况下，成功接收99个数据帧而丢失一个数据帧时的Q值最大，便于算法收敛，因此将惩罚r_p的值设为5。

根据传感器节点采用不同的通信参数设置动作a所产生的不同结果，奖励函数r_t的值设定如下。

本发明提出了一种基于分布式Q学习算法的无线传感器网络参数自适应调节方法，以规定的传感器节点的通信时延和有效传输率的阈值为目标，无线传感器网络中各个节点依据每种参数设置所获得的通信质量参数进行学习并最终适应，将该过程映射成分布式多智能体Q学习过程，并通过使用ε-greedy贪婪算法的分布式Q学习算法来逼近到最佳最佳参数设置。本发明可以有效地提高算法的收敛速率，减少计算的复杂度，是一种开销较小的无线传感器网络通信参数设置方法。

附图说明

图1是本发明实施方法中基于Q-learning算法的Q值更新机制示意图。

图2是本发明实施方式中基于Q-learning算法的传感器网络参数调节方法示意图。

图3是本发明的摘要附图。

具体实施方式

下面结合具体实例对本发明的具体实施方式作进一步说明：

步骤S101：初始化网络拓扑与通信机制。本发明给定一个星型无线传感器网络，如图1所示，其由1个协调器节点和n个传感器子节点构成。所有传感器节点均采用CSMA/CA接入机制访问信道，CSMA/CA算法的流程图如图2所示。在传感器节点成功接入信道进行发送，但未能收到协调器返回的ACK的时候，传感器节点会进行重传，重传机制如图3所示。

步骤S102：选择学习算法并设置学习算法的优化目标。各个传感器节点均使用Q学习算法对自己与协调器之间通信的有线传输率和时延进行调节，学习速率为α_t，并且在计算每个“状态-动作”对的Q值时，不考虑之前具有最佳Q 值的“状态-动作”对的Q值，因此令其折扣因子γ的值为0。探索策略采用的是ε-greedy贪婪策略，。所使用的网络模型如图1所示，各个传感器节点通过无线信道与协调器节点进行通信。

步骤S103：选择学习算法的策略更新机制并设置优化函数参数。在本发明中，学习速率α_t＝0.1，这是为了防止学习速率过快导致局部最优解的情况产生。其次ε-greedy探索策略所采用的探索概率的值ε＝0.1，这是为了避免探索概率过高而导致Q值无法收敛。

由于本调节机制的优化目标为无线传感器网络的有效传输率和时延，而有效传输率并不是一个瞬时值，而是在进行一定次数的通信之后求得的平均值。而在每次通信之后都需要求出奖励r_t的值，并且要求的有效传输率必然十分接近于1。因此，传输失败所获的惩罚必然要大于成功传输所获得的奖励，这样才能使所有动作的Q值得到收敛。

在我们所使用的Q值更新函数Q_t(a)＝Q_t-1(a)+α_t[r_t-Q_t-1(a)]中，按照上文的叙述，针对不同的通信情况需要设置不同的奖励和惩罚的参数r_t，其具体的设置如下所示：

步骤S104：根据优化目标设置充分学习门限。由于本调节方法使用的是Q 学习算法，根据我们的Q值更新公式，服务质量最佳的动作的Q值在经过学习之后会收敛到1。但在实际上，该Q值只是无限接近于1而无法达到1，并且随着Q值更新次数的增长，Q值的增长也更加缓慢。如果对收敛时Q值的大小要求过高，会导致学习阶段过长影响通信的时延以及能耗。因此需要设置充分学习门限ξ用于确认Q值是否已经收敛。其次ξ的值也不能设置的过低，导致探索新动作的概率过低，从而出现局部最优解的情况。。

步骤S105：使用学习算法对优化目标进行优化。本部分设计本发明一种基于分布式Q学习的无线传感器网络参数自适应调节方法，具体步骤如下：

1、初始化：在t＝0时刻，将无线传感器网络中所有的传感器节点的“状态- 动作”对的Q值函数Q_t(S,a_i)＝0，其中a_i∈A(a)，是动作集合A中的动作之一，在我们的调节机制中，其代表的是各个传感器节点在通信中采用的通信参数即最大退避次数m和最大重传次数n的组合，即a＝(m,n)。由于0≤m≤5，0≤n≤7，因此a_i共有48种组合。充分学习门限值设为ξ；

2、在整个学习过程中，对于所有的节点，重复下面第3～6步，直到有动作的Q值满足Q_t(S,a_i)＞ξ；

3、使用ε-greedy贪婪策略，根据动作集合A中所有动作的Q值Q_t(S,a_i)求出策略π(s,a)，从而对探索新动作和利用现在动作的概率进行平衡；

4、根据策略π(s,a)在动作集合A中选择一个动作a_t，用于确定在接下来的发送中采用的通信参数的设置。

5、执行动作a_t，即按照选择的m和n的组合进行发送，根据通信的服务质量即时延和丢包计算出奖励或惩罚r_t的值，若传感器节点未收到协调器返回的 ACK帧，则惩罚r_t的值为-5，若成功接收但时延超过了要求，则惩罚r_t的值为-1，若成功接收，且时延满足要求，则奖励r_t的值为1；

6、使用公式Q_t+1(a)＝Q_t(a)+α_t[r_t-Q_t(a)]对Q_t(S,a_i)的值进行更新。

步骤S106：结束学习并固定通信参数设置。依据充分学习门限结束学习算法。当Q值达到充分学习门限之后，结束学习算法，之后按Q值最大的通信参数进行通信。

Claims

1.一种无线传感器网络参数自适应调节方法，其特征在于，使用Q学习算法，对基于星型拓扑、采用基于CSMA/CA接入机制的IEEE 802.15.4通信协议的无线传感器网络中各个传感器节点的最大退避次数和最大重传次数进行动态调节，以满足传感器节点有效传输率和时延的要求。

在本星型网络拓扑模型，传感器网络由传感器节点与协调器构成，节点用于采集传感器数据，协调器作为整个传感器网络的汇聚设备，用于收集节点上传的传感器数据。在传感器网络中，传感器节点使用的是精简功能节点(RFD)，它们只能与协调器节点进行信息交互，即传感器节点之间不能进行直接通信，传感器节点如果向获取网络中其他节点的信息，则只能通过协调器进行转发。

本自适应调节方法以网络通信时延D以及网络有效传输率R作为目标函数，以传感器节点作为智能体，以无线传感器网络的环境状态S(t)作为Q学习的环境状态集合S，每次通信中各个节点的通信参数的设置动作A(t)作为智能体代理的动作集合A，以传感器网络节点所采用的通信参数与其的通信时延以及有效传输率之间的对应关系作为各个传感器节点的瞬时反馈奖励函数，采用分布式Q学习迭代算法对网络中各个节点的通信参数进行设置，在迭代过程中设置探索策略函数π(s,a)。其中，由于我们研究的场景是无线传感器网络对未知环境的自适应能力，而不是无线传感器网络对动态变化的通信环境的适应能力，因此作为状态S(t)基本上不会因时间t的变化而发生改变。

综上，本自适应调节方法的具体实施步骤如下所示：

步骤2：观察现状态s；

步骤4：根据代理策略π(s,a)选择一个动作a；

步骤5：执行动作a并观察所得到的奖励r和下一个状态s′；

步骤6：使用Q值更新公式对Q(s,a)的值进行更新；

步骤7：将现状态s变为s′；

步骤8：重复4—8的步骤:，直到Q(s,a)的值收敛。

2.根据权利要求1所述的无线传感器网络参数自适应调节方法，其特征在于，无线传感器网络通信中采用的是基于时隙CSMA/CA的802.15.4协议。在无线传感器网络中，各个节点是使用竞争型的MAC协议进行信道接入的。在接入信道之前，节点首先会进行两次空闲信道检测(CCA)，其目的在于避免两个传感器节点同时接入信道导致数据帧发生碰撞，导致节点的有效传输率下降以及通信时延上升。如果两次空闲信道检测中有一次的结果为信道繁忙，则会进入退避阶段。在退避阶段，节点处于睡眠状态或空闲状态。在退避阶段结束之后，传感器节点又会进行两次空闲信道检测。若又检测出信道繁忙，则重复进行退避和空闲信道检测。当退避的次数达到最大退避次数，而传感器节点仍未接入信道，则认为本次发送失败。若在达到最大退避次数之前成功接入信道，则传感器节点会将配置好的数据帧发送给协调器节点，并等待协调器节点返回ACK确认帧。若在规定的时间内未收到协调器返回的确认帧，则认为发送失败，于是会重新进入信道接入阶段，进行重传。若重传次数达到无线传感器网络设置的最大重传次数仍未收到协调器返回的确认帧，则会认为本次发送失败。若收到了确认帧，则本次发送成功，传感器节点等待下一次发送。

3.根据权利要求2所述，在无线传感器网络的通信中，最大退避次数和最大重传次数是影响传感器节点通信质量的主要指标，两者设置的值越大，则传感器节点通信的可靠性也会越高。但两者并不是可以无限增加的，两者都有各自的取值范围。最大退避次数可以取的最大值为5，而最大重传次数可以取的最大值为7。除此之外，随着最大退避次数和最大重传次数的上升，传感器节点的通信时延也会大大上升。因此，为了保证传感器节点的时延参数不超过要求的阈值，需要对最大退避次数和最大重传次数的值进行调节。

4.根据权力要求1所述，本无线传感器网络参数自适应调节方法的特征在于，使用Q学习算法对传感器节点的最大退避次数和最大重传次数进行动态调节，以满足传感器节点有效传输率和时延的要求。Q-learning是一种无模型的强化学习技术。具体来说，可以使用Q-learning来为任何给定的(有限的)马尔可夫决策过程(MDP)找到最佳的动作选择策略。它通过学习一个动作值函数，最终给出在给定状态下采取给定动作的预期效用，然后遵循最优策略。策略是代理在选择动作时遵循的规则。当这样的动作值函数被学习时，可以通过简单地选择每个状态中具有最高值的动作来构建最优策略。Q-learning算法的问题模型由一个代理、状态S和每个状态的动作集合A构成。通过执动作作集合A中的一个动作a，代理可以从一个状态转移到另一个状态。在特定状态下执动作作为代理提供奖励(数值得分)。代理的目标是最大化其总奖励。它通过学习哪个动作对于每个状态是最佳的来最大化总奖励。对于每个状态来说，最适合的动作是具有最高长期奖励的动作。该奖励是从当前状态开始的所有未来步骤的奖励的预期值的加权和。

5.根据权利要求1所述的方法，其特征在于，动作A(t)内所设置的通信参数包括CSMA/CA接入机制中的最大退避次数m以及最大重传次数n。因此可以将动作集合A表示为A＝{(m,n)|0≤m≤5,0≤n≤7}。

6.根据权利要求2所述的方法，其特征在于，所述目标函数的表达形式，具体如下：

R(V)≤R_min, (2a)

D(V)≤D_max, (2b)

V₀≤V≤V_m. (2c)

其中V＝(m,n)代表的是网络中的各个设备节点的状态，其形式是由两个决策变量所构成的变量集合，实际上，V表示的是通过Q-learning算法收敛后得到的最大退避次数和最大重传次数的取值。

R(V)是每一个超帧中传感器网络的可靠性，而R_min,是所能允许的最小收包率；而D(V)是每一个成功接收的数据帧所需的时延，而D_max是所能允许的最大时延。V₀≤V≤V_m的约束限制了MAC参数的有效范围。根据CSMA/CA机制，m的默认值为4，其取值范围为0-5；最大重传次数n的默认值为3，其取值范围为0-7。

7.根据权利要求2所述的方法，其特征在于，所使用的探索策略是最简单的ε-greedy作为动作选择策略，它使用随机接收准则进动作作选择，每次除选择估计价值最优的动作外，还以一个较小的概率有限度地接收估计价值次优的动作，这使得搜索算法有可能跳出搜索空间中局部最优子空间的陷阱，寻找到最优的动作选择策略。其探索策略公式为：

π₁表示随机策略，即智能体以概率ε选择该策略并从所有动作集合中随机选择一个动作；而π₂表示贪婪策略，即智能体以概率1-ε选择该策略，并从查找表中选择对应Q值最大的动作作为下一个学习周期中智能体所采用的动作。

8.根据权利要求1-7所述的方法，其特征在于，Q值的更新公式为:Q_t(a)＝Q_t-1(a)+α_t[r_t-Q_t-1(a)]，其中其中α_t为学习速率，r_t为奖励。

本文将学习速率α_t设置为0.1，从而使Q值的收敛速率既能保证Q学习算法不会出现局部最优解的问题，也能够保证无线传感器网络中的节点不会因为收敛速率过慢而导致能量与时间的浪费。

而为了保证有效传输率R≥R_min能有实际应用价值，本文将R_min设置为99％。该设置既可以保证丢包不会影响正常通信，同时也保证了Q学习算法收敛的阈值不会过高而导致Q值收敛的时间过长。

9.根据权力要求8所述，为了保证有效传输率的阈值为R_min＝99％，本文将传感器节点成功传输数据所获得的奖励r_a设为1，而传感器节点传输数据失败所得到的惩罚r_p设为-5，从而可以满足传感器节点的有效传输率大于99％时，通过学习算法更新得到的Q值大于0，而有效传输率小于99％时，得到的Q值小于0。

10.根据权力要求3所述，为了保证通信时延满足通信要求，本文将传感器节点成功传输数据并且时延小于阈值所获得的奖励r_a设为1，而传感器节点传输数据成功但时延超过阈值所得到的惩罚r_p设为-1，使各个传感器节点通过Q学习算法获得满足时延要求的通信参数设置。

因此，根据传感器节点采用不同的通信参数设置动作a所产生的不同结果，奖励r_t的值设定如下：