CN109660374A

CN109660374A - 一种基于智能时隙选择的信道接入方法

Info

Publication number: CN109660374A
Application number: CN201710946295.5A
Authority: CN
Inventors: 张洪光; 王怡浩; 吴帆; 范文浩; 刘元安; 谢刚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2019-04-19
Anticipated expiration: 2037-10-11
Also published as: CN109660374B

Abstract

本发明公布了一种基于智能时隙选择的信道接入方法和装置。主要解决了无线传感器网络中网络的动态拓扑性与信道的高效利用无法同时存在的问题。所述方法包括：对无线传感器网络进行模型建立，完成无线传感器网络环境与强化学习方法相结合；确定自定义的帧结构以及时隙数量；初始化状态值向量V(s)以及时隙选择概率P_i；依据时隙选择概率P_i选择时隙进行发送，根据信道接入的反馈情况更新各时隙的奖励值；然后根据各个节点的奖励更新对应时隙的状态值v以及资格迹δ；更新完毕以后，对各个节点状态进行评估，当V_i＞V_th时，认为该节点在第i个时隙处于稳定状态，最后根据以上的状态评估结果以及状态值，调整玻尔兹曼策略的温度因子参数，选择该节点的最优时隙进行发送。本发明实施例，即保证了无线传感器网络的信道利用率，又提高了无线传感器网络的可靠性，具有广泛的应用价值。

Description

一种基于智能时隙选择的信道接入方法

技术领域

本发明属于无线传感器网络技术领域，特别涉及一种基于智能时隙选择的信道接入方法。

背景技术

近年来，无线传感器网络成为当前信息领域中研究的热点之一，可用于特殊环境实现信号的采集、处理和发送。无线传感器网络作为一种全新的信息获取和处理技术，由于其规模小、能耗低等特点，在现实生活中得到了越来越广泛的应用。

目前，无线传感器网络中MAC(Medium Access Control，介质访问控制) 层协议采用的信道接入方式主要有两种：一是CSMA/CA(Carrier Sense Multiple Access withCollision Avoidance，载波侦听多路访问/冲突避免)机制，一种是 TDMA(Time DivisionMultiple Access，时分多址)机制。CSMA/CA机制主要应用于节点随机接入的场景中，各节点通过竞争的方式接入信道，通过随机退避以及确认重传等机制保证网络的服务质量，因此网络的自适应能力强；但在高流量下信道利用率低，只适用于数据量少的无线传感器网络。TDMA机制通过信标帧同步分配时隙的方式接入信道，在信标帧中包含超帧信息和每个传感器节点的时隙信息。主要应用于有控制节点对其他节点进行调度的场景，这种机制对时间同步要求严格，故在节点之间需要大量的交互信息，由于信标帧中包括的超帧信息和时隙信息是固定不变的，因此对突发时间没有处理能力，动态拓扑性差。

随着人工智能技术的不断发展，将其应用于无线传感器网络以提高网络性能得到了越来越多的兴趣，目前人工智能的一个分支强化学习RL (Reinforcement Learning)已应用于无线传感器网络的路由、任务调度以及休眠机制等各个方面。强化学习RL的目的是通过与周围环境的试错互动来估计每个状态-动作对的长期回报。RL方法采用无监督和在线学习，通过无监督的学习，不需要外界监督学习过程；因此，决策者(或代理人)必须自己努力学习有关周围环境的知识。通过在线学习，决策者(或代理人)在正常运行的同时获取知识；因此，强化学习方法并不需要在训练之间收集环境的数据集。强化学习是一个多功能和通用的解决方案。

发明内容

本发明实施例提供一种基于智能时隙选择的信道接入方法，以综合两种传统的信道接入方法的优势，提高无线传感器网络的信道利用率与动态拓扑性。

为达到上述目的，本发明实施例提供了基于智能时隙选择的信道接入方法，应用于无线传感器网络中的传感器节点，方法包括：

根据无线传感器网络环境进行模型建立，将强化学习应用到无线传感器网络的环境之中；

具体的，根据强化学习中元素定义时隙分配问题，Agent表示具有独立决策能力的传感器节点，环境(Environment)表示传感器节点周围的信道环境，动作(Action)表示节点选择某一时隙进行数据传输，状态(State)有两层含义：一是表示传感器节点的状态，一是表示无线传感器网络的状态，策略 (Policy)表示Agent在某一状态下以何种方式选择下一个时隙；

利用状态值函数来表示传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报，这样将智能时隙选择问题转化为学习节点最优策略问题；

根据状态值函数表示节点从起始状态开始遵循最优策略获得的最大折扣累积回报，从而可以反推出最优策略。

在无线传感器网络节点接入信道之前，需要初始化每个节点的状态参数的参数值以及时隙选择的概率；

具体的，采用S-ALOHA帧结构，其中S-ALOHA将时间分成重复帧，在每一帧中包括固定数量的时隙作为系统宽度参数，节点之间的同步时间被嵌入到协调器发送的ACK包中，这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息；

需要说明的是，节点的时隙应该被适当设置以便允许每个节点都有机会具有唯一的时隙，时隙的数量不能少于网络中节点的个数，在单跳网络中，节点的时隙数量被设置为传感器网络中节点的数量为最优，在多跳网络中，可以根据节点的密度、网络的拓扑结构以及路由节点的数量等相关参数综合分析得出。

每个节点需要维护一个状态值向量，每个时隙绑定一个对应的状态值，初始化起始状态值向量，并且初始化起始时隙选择概率；

具体的，每个节点在帧中的每个时隙都应该有一个独立的值，即状态值函数，代表传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。在初始状态下，每个节点的时隙对应的状态值相等，且均为零，同时，其对应的概率也均等，意味着初始阶段随机接入。

根据时隙被选择的概率抽取某一时隙作为该节点下一次发送的时隙，然后在该时隙处接入信道；

具体的，在学习过程中，按照一定的策略(Policy)选择下一个动作，如果传输成功则奖励为正，传输失败则奖励为负(即惩罚)，这样具有高状态值的时隙会被优先选择，通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输。

根据接入信道的情况(成功或者失败)对各个时隙所绑定的状态值进行更新，具体步骤包括：

根据信道接入情况给予对应时隙奖惩，接入成功的时隙会收到一个正的奖励，接入失败的时隙会收到一个负的反馈；

根据确定的奖惩情况，采用时间差分(TD)学习方法对各个时隙的状态值进行更新。

具体的，每个时隙对应的状态值函数是传感器节点WSN信道环境不断试错学习的一个长期化的折扣累积回报。学习的最终目的是找到一个最优策略，使得每个节点拥有一个最大累积回报的状态，

其中，在状态值更新中引入资格迹，使时间差分(TD)学习方法更有效率和更快收敛，因此，节点在维护一个状态值向量的同时也需要维护一个资格迹向量。

具体而言，资格迹模拟了一个短期记忆过程，资格迹表示对该事件的一个随时间逐渐衰减的记忆。资格大小的不同会导致不同的更新幅度，具有较大资格的时隙会获得较大的更新幅度，即其分配到较大的时间信度；同样地，资格小的时隙将会获得较小的时间信度，表示该时隙获得奖励或惩罚较小。资格迹就是用来追踪每个时隙对与该传感器节点而言选择接入信道的资格大小。

根据节点的历史接入信息，确定下一阶段智能时隙选择的步骤，包括：

将每个节点的各时隙的状态值维护为一个状态值向量；

根据节点的状态值向量，利用玻尔兹曼策略对状态值向量中的各值进行综合评估。

具体的，将智能时隙选择分为三个阶段，通过设置温度因子使玻尔兹曼策略对各时隙状态值的差值不敏感，即各个时隙尽量均等选择；中期阶段，通过设置温度因子使得玻尔兹曼策略对各时隙状态值的差值表现敏感，即尽可能多选择状态值较大的时隙进行发送；稳定阶段，调节温度因子使得非最优值的时隙的选择概率尽可能小。

需要说明的是，节点接入信道的整个过程是一个分布式的学习过程。各个节点各自学习，学习过程会导致一个节点的每个时隙都具有不同的状态值。由状态值函数迭代方程可知，每个节点的状态值更新只与该节点的传输历史以及当前传输的质量有关，与其他节点的任何因素都无关，故一个节点的信道接入、退出或者损坏对其他节点的数据传输无影响，因此，所有传感器节点的学习是分布式，互不影响。

利用时间差分(TD)学习方法使得整个网络区域的所有节点都寻找到属于自己的唯一时隙，它的行为类似于基于调度的网络，但不需要对每个时隙中的节点优先级进行调度信息交换。

具体的，当网络收敛于稳定状态时，节点实现完美的调度，并具有相同的服务质量。

需要说明的是，学习算法能够适应节点死亡或其他节点部署时网络拓扑的变化。当节点死机时，其首选时隙将自动变为可供其他人使用。新加入的节点将从头开始学习，但是将会比整个网络被初始化更快地达到最佳稳定状态，因为它们正在从稳定的环境中学习并且可以更容易地找到唯一的时隙。网络在经过一段时间的学习收敛后，在稳态下实现完美的调度。

为达到上述目的，本发明实施例提供了一种基于智能时隙选择的信道接入装置，应用于无线传感器网络中的节点设备，所述装置包括：

发送模块：用于生成自定义的超帧结构，所述的超帧包括：所有用于传感器节点数据发送的时隙和同步信息；

接收模块：用于接收确认帧以及同步信息；以使每个传感器节点能够评估自己的信道接入状况以及进行同步；

判断模块：用于根据收到的确认帧信息分别判断节点在该时隙是否成功传输数据；

状态值更新模块：根据判断模块的输出信息(成功或者失败)确定该时隙的奖惩情况，利用TD Learning状态值更新公式计算该时隙新的状态值；

状态评估模块：根据节点的历史信道接入状况以及状态值的大小评估该节点是否已经处于稳定状态下；

时隙选择模块：用于根据节点状态信息选择下一阶段该节点发送数据的时隙，对各节点的状态值向量综合评估，获得下一阶段该节点发送的时隙。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于智能时隙选择的信道接入方法的一种流程示意图；

图2为本发明实施例提供的强化学习与时隙选择的关系示意图；

图3为本发明实施例提供的基于智能时隙选择的信道接入装置的结构示意图；

图4为本发明实施例提供的基于强化学习的帧结构示意图；

图5为本发明实施例提供的基于智能时隙选择的信道接入方法的节点状态变化示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

依据附图，对本发明的技术方案作具体说明。

所述基于智能时隙选择的信道接入方法，包括以下步骤：

S101，对无线传感器网络进行模型建立。

具体的，根据强化学习中元素定义时隙分配问题，Agent表示具有独立决策能力的传感器节点，环境(Environment)表示传感器节点周围的信道环境，动作(Action)表示节点选择某一时隙进行数据传输，状态(State)有两层含义：一是表示传感器节点的状态，一是表示无线传感器网络的状态，策略 (Policy)表示Agent在某一状态下以何种方式选择下一个时隙。

具体的，根据强化学习中的元素定义时隙分配问题，N为每一帧中时隙的固定数量，S为网络的状态集合，R表示回报函数，π表示节点的探索策略，即节点选择下一阶段时隙所采用的方法，V^π(s)表示值函数，又被称为效用函数，是回报函数的一种累积效应，P为状态转移概率，P＝f(x，a，x′)表示从状态 x采取动作a装移到状态x′的概率。

示例性的，每个节点都维护一个状态值向量，节点学习的最终目的是找到学习的最终目的是找到一个最优策略π^*(s)，使得每个节点拥有一个最大累积回报的状态即V^π(s_k)，其中状态值函数V^π(s)表示从状态s开始依据学习策略π选择时隙进行传输所获得的期望总回报：

其中，V^*(s)表示节点从状态s开始遵循最优策略π^*(s)时获得的最大折扣累积回报，从而可以反推出最优策略π^*(s)，定义如下：

在给定R(s，a)和P(s，a，s′)的情况下，最优策略π^*(s)就可以确定。

S102，确定目标帧格式以及节点的时隙。

具体的，采用S-ALOHA帧结构，其中S-ALOHA将时间分成重复帧，在每一帧中包括固定数量的时隙作为系统宽度参数，节点之间的同步时间被嵌入到协调器发送的ACK包中，这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息。

需要说明的是，节点的时隙应该被适当设置以便允许每个节点都有机会具有唯一的时隙，在单跳网络中，节点的时隙数量被设置为传感器网络中节点的数量为最优，在多跳网络中，可以根据节点的密度、网络的拓扑结构以及路由节点的数量等相关参数综合分析得出。

S103，初始化状态值向量V(s)以及时隙选择概率。

具体的，每个节点在帧中的每个时隙都应该有一个独立的值，即状态值函数V^π(s)，是传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。这个状态值应初始化为零，相应的概率应该均等，分别表示为：

示例性的，每一帧有n个时隙，第i个时隙对应于一个状态值V_i(s)，其初始值全为0。

其中，表示第i个节点中第k个时隙对应的状态值，表示第i个节点选取第k个时隙在下一阶段进行数据发送的概率，显然，在初始状态下，每个节点的时隙对应的状态值相等，且均为零，同时，其对应的概率也均等，意味着初始阶段随机接入。

S104，选择时隙进行发送，根据信道接入的反馈情况更新奖励R。

具体的，所有节点都是随机接入的，在信道接入过程中存在竞争和碰撞，故节点接入信道的情况就分为两种，一种是接入信道成功，即成功发送数据，另一种则是接入信道失败，数据无法传输。当成功传输时，R取+1的奖励，否则R取-1的奖励，具体表示如下：

需要说明的是，在网络中的所有节点都是随机接入的，在学习过程中，按照一定的策略选择下一个动作，如果传输成功则奖励为正，传输失败则奖励为负(即惩罚)，具有高V值的时隙是被优先选择的，通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输，它的行为将类似于基于调度的网络，但不需要对每个时隙中节点的优先级进行调度信息交换。

S105，根据各个节点的奖励更新状态值v以及资格迹δ。

需要说明的是，资格迹就是用来追踪每个时隙对于该传感器节点而言选择接入信道的资格大小，状态值的更新表达式如下所示：

其中，V_t(i)表示t时刻在时隙i处的值函数，e_t(i)表示t时刻在时隙i处的资格，即其对于产生δ的一个贡献度，α表示学习率，资格大小的不同会导致不同的更新幅度，具有较大资格的时隙会获得较大的更新幅度，即其分配到较大的时间信度；同样地，资格小的时隙将会获得较小的时间信度，表示该时隙获得奖励或惩罚较小。

需要说明的是，通常资格迹根据衰减因子λ(0≤λ≤1)的乘积指数衰减，具体表示为：

其中，若t时刻仍选择时隙i进行传输，这说明该时隙在进行时隙选择时具有较大的资格，反之亦然。

S106，对各个节点状态进行评估。

具体的，传感器节点在与周围信道环境不断交互的过程中更新自身的状态值向量，某一时隙的状态值也代表了该时隙对于其节点而言的一个长期回报，一个时隙对应的状态值越大，代表了该时隙对于其节点而言长期回报越大，即节点选择该时隙接入信道获得的收益最大，同时一个节点的稳定状态不仅与该节点的接入历史相关，也与当前环境有关，故为评估一个节点是否处于稳定条件下有两个条件，定义如下：

V_i≥V_th&&N_i≥N_th (8)

其中，V_th表示状态值的阈值，若第i个时隙的状态大于阈值(V_i≥V_th)，说明该时隙的接入历史符合节点稳定的条件；N_th表示最近成功接入次数的阈值，代表了最近无线传感器网络信道环境的一个变化，如果第i个时隙最近连续接入的次数超过了阈值(N_i≥N_th)，则满足了节点在第i个时隙处于稳定状态的环境条件，当两个条件均满足，则判定该节点在第i个时隙处于稳定状态。

示例性的，每个节点每帧有10个时隙，先选择其中三个节点进行说明，在初始阶段，所有状态值为0，资格值为1，其中节点1在时隙2处发送成功，节点2在时隙4处发送成功，节点3在时隙7处发送失败；经过N轮以后，节点1在时隙2处的状态值为0.998，节点2在时隙7处的状态值为0.998，节点 3在时隙10处的状态值为0.998，均达到收敛阈值V_th＝0.998，因此，认为节点 1收敛于时隙2处，即节点1在时隙2处处于稳定状态，节点2收敛于时隙7 处，节点收敛于时隙10处。

需要说明的是，上述示例只是在10个时隙中找到3个节点的稳定时隙，但同样也适用于10个节点，每个节点都可以找到属于自己的稳定时隙。最终达到了整个无线传感器网络的稳定状态。

S107，根据S106步骤的状态评估结果以及状态值，调整玻尔兹曼策略的温度因子参数，选择该节点的最优时隙进行发送。

具体的，玻尔兹曼策略是强化学习中常用的探索策略，典型的玻尔兹曼分布策略有模拟退火和Softmax方法，相对于贪心策略中对于非最优解没有区分的问题，玻尔兹曼分布策略的情况有所改善，这类算法充分考虑整个非最优的值函数分布，其设置了一个温度因子(Temperature)τ，动作被选择的概率与其值函数密切相关。在状态s下动作a被选择的概率表示：

其中，温度因子τ＞1。当τ设置较大时，动作被选择的概率较平均，当τ较小时，动作被选择的概率差异相对大一些。这样就将状态值函数变成了V值的分级函数。贪婪行为仍然具有最高的选择概率，但其他所有行为按照其估算值进行排名和加权。

示例性的，在学习的初期阶段，由于对环境无任何先验知识，故将温度因子τ设置较大，节点在各个时隙处随机接入，尽量忽略各状态值的差异；随着节点不断学习，对周围环境有一个认知，则将温度因子τ逐渐减小，使得节点充分利用学习到的知识，开始重视各状态值之间的差异；到最终快稳定的阶段，温度因子降到最小，充分利用学习到的最大值的时隙，整个网络趋于稳定状态，具体的选择时隙概率如下所示：

需要说明的是，各节点需要不断重复上述S101至S107步骤，最终各个节点都会收敛于属于自己的时隙，各不冲突，使得整个网络属于稳定状态。

需要说明的是，传感器节点独立学习，整个学习过程会导致一个节点的每个时隙都具有不同的状态值V，值函数的迭代方程如下：

V_t+1(i)＝V_t(i)+αδ_t(i)e_i(i) (11)

具体的，由状态值函数迭代方程可知，每个节点的状态值更新只与该节点的传输历史以及当前传输的质量有关，与其他节点的任何因素都无关，故一个节点的信道接入、退出或者损坏对其他节点的数据传输无影响，因此，所有传感器节点的学习是分布式，互不影响。通过这种学习过程使得整个网络区域的所有节点都寻找到属于自己的唯一时隙，它的行为类似于基于调度的网络，但不需要对每个时隙中的节点优先级进行调度信息交换或确定。

需要说明的是，学习算法能够适应节点死亡或其他节点部署时网络拓扑的变化。当节点损坏或者停止工作时，其首选时隙将自动变为可供其他节点使用。对于新加入的节点而言，将从头开始学习，但是将会比整个网络重新被初始化更快地达到最佳稳定状态，因为它们正在从稳定的环境中学习并且可以更容易地找到唯一的时隙。网络在经过一段时间的学习收敛后，在稳态下实现完美的调度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于智能时隙选择的信道接入方法，其特征在于，其步骤包括：

第一步，根据无线传感器网络环境进行模型建立，将强化学习应用到无线传感器网络的环境之中。将无线传感器节点抽象成具有一定决策能力的Agent，使时间差分(TD)强化学习与信道接入相结合，并对时间差分(TD)强化学习的奖惩函数进行改进；

第二步，根据节点数量确定目标帧格式，确定帧结构的同步信息与时隙数量，以范围内节点的数量确定帧格式中时隙的数量，并将用于节点之间同步的信息嵌入ACK确认帧中；

第三步，每个节点维护一个状态值向量，为每个时隙绑定一个对应的状态值，初始化节点的状态值向量，使节点从零开始学习，并且初始化起始时隙选择概率，使得节点在起始阶段随机接入；

第四步，每个节点依据概率随机接入信道，通过信道接入反馈情况更新奖励，当节点接入成功之后，反馈一个正的奖励，若节点接入失败，则会收到一个负的惩罚；

第五步，根据第四步接入信道的情况与奖励，利用时间差分(TD)强化学习方法对该时隙对应的状态值向量进行更新，同时为了体现时隙接入信道的一个资格，对其资格迹也进行更新及维护，更新如下：

其中，V_t(i)表示t时刻在时隙i处的值函数，e_t(i)表示t时刻在时隙i处的资格，即其对于产生δ的一个贡献度，α表示学习率。

第六步，根据道接入情况，以及各节点的状态值向量，评估该节点是否已经在某个时隙保持稳定状态。

第七步，利用评估结果以及状态值向量，通过调整玻尔兹曼策略的温度因子参数τ，充分考虑节点中各时隙的V值分布，获得不同情况下的时隙选择概率，时隙选择概率定义：

2.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，所述的网络环境模型建立，具体是，首先根据强化学习中元素定义时隙分配问题，Agent表示具有独立决策能力的传感器节点，环境(Environment)表示传感器节点周围的信道环境，动作(Action)表示节点选择某一时隙进行数据传输，状态(State)有两层含义：一是表示传感器节点的状态，一是表示无线传感器网络的状态，策略(Policy)表示Agent在某一状态下以何种方式选择下一个时隙。

利用状态值函数来表示传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报，这样将智能时隙选择问题转化为学习节点最优策略问题，可以定义状态值函数如下：

其中，R(s，a_i)为状态s下选择时隙i动作的期望回报，P(s，a，s′)表示节点选择时隙i后从状态s转移到状态s′的概率，折扣因子γ∈[0，1]表示当前汇报和长期回报的重要程度。

根据V^*(s)，节点从状态s开始遵循最优策略π^*(s)时获得的最大折扣累积回报，从而可以反推出最优策略π^*(s)，表达式如下所示：

3.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，确定目标帧格式以及节点的时隙数量，具体的是，采用S-ALOHA帧结构，其中S-ALOHA将时间分成重复帧，在每一帧中包括固定数量的时隙作为系统宽度参数，节点之间的同步时间被嵌入到协调器发送的ACK包中，这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息。

4.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，每个节点需要维护一个状态值向量，每个时隙绑定一个对应的状态值，初始化起始状态值向量，并且初始化起始时隙选择概率，具体的是，每个节点在帧中的每个时隙都应该有一个独立的值，即状态值函数V^π(s)，是传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。初始化时分别表示为：

其中，V_i ^k表示第i个节点中第k个时隙对应的状态值，表示第i个节点选取第k个时隙在下一阶段进行数据发送的概率，显然，在初始状态下，每个节点的时隙对应的状态值相等，且均为零，同时，其对应的概率也均等，意味着初始阶段随机接入。

5.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，所述的依据概率选择时隙接入信道，并且通过信道接入反馈情况更新奖励函数，具体的是，在学习过程中，按照一定的策略(Policy)选择下一个动作，如果传输成功则奖励为正，传输失败则奖励为负(即惩罚)，这样具有高状态值的时隙会被优先选择，通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输，然后根据传输的结果更新奖励函数，定义如下：

其中，如果信道接入成功，给予+1的奖励，如果信道接入失败，给予-1的惩罚。

6.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，所述的根据节点接入信道情况以及奖励函数对该节点的状态值向量进行更新，对其资格迹也进行更新。具体是，首先节点根据当前探索获得的反馈即奖惩R，计算状态值值函数的旧值与新估计的误差，即TD error，定义如下：

δ＝r+γV(s′)-V(s) (6)

学习算法根据的δ值更新值函数向量V中的每个值，具体状态值的更新形式如下：

具体的，资格大小的不同会导致不同的更新幅度，具有较大资格的时隙会获得较大的更新幅度，即其分配到较大的时间信度；同样地，资格小的时隙将会获得较小的时间信度，表示该时隙获得奖励或惩罚较小。

具体的，资格迹就是用来追踪每个时隙对与该传感器节点而言选择接入信道的资格大小。通常资格迹根据衰减因子λ(0≤λ≤1)的乘积指数衰减，在本发明中采用累加迹，定义为：

若t时刻仍选择时隙i进行传输，这说明该时隙在进行时隙选择时具有较大的资格，反之亦然。

7.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，所述的根据历史信道接入情况，评估该节点是否已经在某个时隙保持稳定状态，具体是，传感器节点在与周围信道环境不断交互的过程中更新自身的状态值向量，某一时隙的状态值也代表了该时隙对于其节点而言的一个长期回报，一个时隙对应的状态值越大，代表了该时隙对于其节点而言长期回报越大，即节点选择该时隙接入信道获得的收益最大，同时一个节点的稳定状态不仅与该节点的接入历史相关，也与当前环境有关，故为评估一个节点是否处于稳定条件下有两个条件，定义如下：

V_i≥V_th&&N_i≥N_th (9)

8.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，调整玻尔兹曼策略的温度因子参数，选择当前环境下该节点的最优时隙进行发送，具体是，根据节点状态评估结果以及当前节点的状态向量，调整玻尔兹曼策略中的温度因子参数，从而得到各个时隙的一个选择概率，其中时隙选择概率函数定义如下：

其中，V_t(i，k)表示t时刻k节点在第i个时隙处的状态值，τ为温度因子(Temperature)。

具体的，玻尔兹曼策略充分考虑到了一个节点中各时隙的V值分布，在节点的学习初期，由于对环境无任何先验知识，故将温度因子τ设置较大，节点在各个时隙随机接入，随着节点不断学习，其对周围环境有了一个认知，则将温度因子τ逐渐减小，使得节点充分利用学习到的知识，等节点处于稳定状态时，将温度因子τ减小到足够小以保证节点充分利用稳定时隙。保障了算法的收敛性以及保持算法较好性能。

9.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，节点接入信道的整个过程是一个分布式的学习过程，具体是，各个节点各自学习，学习过程会导致一个节点的每个时隙都具有不同的状态值V，值函数的迭代方程如下：

V_t+1(i)＝V_t(i)+αδ_t(i)e_t(i) (11)

具体的，每个节点的状态值更新只与该节点的传输历史以及当前传输的质量有关，与其他节点的任何因素都无关，故一个节点的信道接入、退出或者损坏对其他节点的数据传输无影响，因此，所有传感器节点的学习是分布式，互不影响。

其中，传感器网络的拓扑可以动态变化，不会影响网络的整个传输效率，学习算法能够适应节点死亡或其他节点部署时网络拓扑的变化。当节点损坏或者停止工作时，其首选时隙将自动变为可供其他节点使用。

具体的，对于新加入的节点而言，将从头开始学习，但是将会比整个网络重新被初始化更快地达到最佳稳定状态，因为它们正在从稳定的环境中学习并且可以更容易地找到唯一的时隙。网络在经过一段时间的学习收敛后，在稳态下实现完美的调度。当只有少数节点没有收敛时，它们具有基于传输历史的寻找时隙的能力。

10.根据权利要求1所述的基于智能时隙选择的信道接入方法，其特征在于，所述装置包括：

发送模块，用于生成自定义的超帧结构，所述的超帧包括：所有用于传感器节点数据发送的时隙和同步信息；

接收模块，用于接收确认帧以及同步信息；以使每个传感器节点能够评估自己的信道接入状况以及进行同步；

判断模块，用于根据收到的确认帧信息分别判断节点在该时隙是否成功传输数据；

状态值更新模块，根据判断模块的输出信息(成功或者失败)确定该时隙的奖惩情况，利用TD Learning状态值更新公式计算该时隙新的状态值；

状态评估模块，根据节点的历史信道接入状况以及状态值的大小评估该节点是否已经处于稳定状态下；

时隙选择模块，用于根据节点状态信息选择下一阶段该节点发送数据的时隙，对各节点的状态值向量综合评估，获得下一阶段该节点发送的时隙。