CN103974366A

CN103974366A - 一种基于增强学习的无线体域网路由方法

Info

Publication number: CN103974366A
Application number: CN201410176028.0A
Authority: CN
Inventors: 陈志�; 宝磊; 王东; 岳文静; 朱彦沛; 高阳阳; 高显强
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-04-28
Filing date: 2014-04-28
Publication date: 2014-08-06
Anticipated expiration: 2034-04-28
Also published as: CN103974366B

Abstract

本发明提供一种基于增强学习的无线体域网自组织路由方法，该方法将人体节点看成是智能化节点，将整个无线体域网构成类似多智能化节点的系统，在实施中综合考虑节点跳数、位置、人体节点的剩余能量、节点通信损耗能量，采用Q学习算法建立或更新Q值表，寻找最优路径。本发明能够在保证数据顺利传输的基础上，防止无线体域网部分节点过早死亡，均衡了网络能量，提高了网络生存周期。

Description

一种基于增强学习的无线体域网路由方法

技术领域

本发明涉及一种无线体域网路由方法，主要利用增强学习来解决提高无线体域网的能量效率问题，属于无线体域网、机器学习的交叉技术应用领域。

背景技术

微电子、计算机和无线通信技术的进步，推动了低功耗多功能传感器的快速发展，使其在微小体积内能够集成信息采集，数据处理，和无线通信等多种功能，无线体域网是由部署在监测人体区域内的廉价微型传感器节点组成，通过无线通信方式形成的一个多跳的自组织网络系统，其目的是协作感知，采集和处理网络覆盖人体区域中感知对象的信息，并发送给观察者。如果说因特网构成了逻辑上的信息世界，改变了人与人之间的沟通方式，那么无线体域网网络就是将逻辑上的信息世界与客观上的物理世界融合在一起，改变人类与自然界的交互方式。人们可以通过传感器网络客观的感知世界，从而极大地扩展了现有网络的功能和人类认识世界的能力。因此无线体域网在未来的应用中有着巨大的潜力。

网络的迅猛发展，对于网络的使用范围越来越宽广，而集传感器技术、微机电系统技术、无线通信技术、嵌入式计算机技术、分布式信息处理技术和无线通信技术于一体的无线传感器网络就成为当今研究的热点。无线体域网网络是一个多学科交叉的综合性科学研究领域，对于其人体网络所分布的区域内的各种身体指标和检测对象的信息能够进行实吋的监控、感知和采集，并且将这些信息先进行处理，然后通过无线方式传输给监控主机或者需要使用这些信息的医护人员。

无线体域网网络是一种自组织网络，它通过路由算法以多跳的方式传送信息。路由算法在无线体域网中发挥着重要作用，它对各节点的能耗，寿命以及质量起着决定性的作用。建立理想路由的前提是要探测到传感器网络的拓扑结构。

增强学习(Q学习)是这样的一种学习方式，它是一个通过与环境的不断交互得到反馈，从而不断试错，最终找到最优解的过程。增强学习算法分为有模型学习算法以及无模型学习算法，本人通过调研国内外文献，发现比较与无线体域网相近的无线传感网以及无线自组织网络中的路由算法。增强学习的算法一开始是根据瞬时分差算法，并将特征值设置为0改进而来的，也是只考虑一步状态。根据智能化节点所处环境的不同，在网络系统中马尔可夫决策实际上就是指智能化节点从当前的某一状态转换到下一个状态的状态转移概率和立即回报值，这些值仅取决于目前的状态以及后续动作，以前的状态对于这些参数及函数没有任何影响。动态规划算法也是基于马尔科夫决策过程的，同时也是基于模型化的，属于有模型学习折扣型的技术，动态规划法则利用值函数寻求最优解，利用相关函数即可适用迭代法。动态规划法是基于有模型的增强学习算法，系统利用动态规划法必须有特定的环境被感知到，在无线体域网中，环境是可变的，并不适用于动态规划方法。

增强学习算法是由沃特金森在1989年提出的增强学习算法，作为马尔可夫过程的一种，是马尔科夫决策过程的不同变换形式，被业内专家也称作是离策略瞬时分差学习。增强学习算法相对于其他学习算法来说是较为简单的，并且非常方便研究人员使用，原因在于增强学习函数收敛速度较快，这也使得增强学习算法成为近期研究的重点以及热点，在增强学习领域，被称作引领增强学习发展的风向标。

增强学习的实质上就是将智能化节点通过对其状态和动作这两个比较对来重新计算增强学习中所包含的值函数，并进行新的学习，在与环境的交互中，不断更新Q值表，最终找到最终最优解方法。

在增强学习算法中，系统中智能化节点都已设置完成，不断感知周围环境，首先初始化内部Q值表，智能化节点在t时刻，处于某一状态S下以特定概率选择目前为止最高的Q值表，得到关于状态、动作、奖赏值、以及概率组成的四元组，利于增强学习函数进行收敛。

综上所述，Q值的更新根据不断的迭代学习才可以获得Q值的最优解，那么只要无线体域网中的智能化节点达到了系统所要求的目标状态，可以认为第一次学习结束，即将进入第二次学习状态，这样周而复始的迭代，使得无线体域网智能化节点不断地感知周围环境进行学习，不断循环整个学习过程，直到取得最优Q值解，完成整个的增强学习过程。

增强学习应用在多个领域，其中有智能化足球、排课系统、以及网络中的路由选择都有利用增强学习算法的先例，实现自身系统的最优目标。以网络系统为例，目前定向扩散路由、智能蜂群路由都是利用增强学习算法延长网络生存周期的例子。目前已证明增强学习算法在无线传感器网络以及无线自组织网络中的可行性，在此研究基础上，发现无线体域网与以上网络有着极大的相似性，并且鉴于增强学习算法可以运用在小型规模系统的网络中，并且无需指导就可完成自身学习改进。将增强学习算法融入到无线体域网网络中，网络系统中的智能化节点可快速选择路由构成网络，减少能量损耗，延长网络生存周期。

发明内容

技术问题：本发明的目的是提供一种基于增强学习的无线体域网路由方法，解决上述问题。无线体域网节点一般要监测人体状况，诸如血压、体温、脉搏等，但节点一般供电受限，一旦能量耗尽，人体的重要数据得不到有效传递，所以高效的路由规划是非常重要的网络设计问题之一。

技术方案：本发明所述的基于增强学习的无线体域网自组织路由方法利用增强学习算法，在考虑节点剩余能量以及通信所要消耗的能量的基础上，节点不断向邻居节点发送学习包，从而获得所需回报值，选择累积回报值最高的路径为最优路径。

本发明所述的基于增强学习的无线体域网路由方法步骤如下：

步骤1：用户在人体上部署汇聚节点和传感器节点，在传感器节点中指定需要发送人体消息的源节点，在每个传感器节点上预先存储其邻居传感器节点的编号和位置、到邻居传感器节点的通信能耗值；

步骤2：用户启动汇聚节点和所有传感器节点，指定网络运行的最大轮次t，汇聚节点定义一系列Q值，依次为Q、Q₁、Q₂、…、Q_k、…、Q_t，这些值均设置为0，k表示路径选择的当前轮次，Q是汇聚节点一个变量，Qi是汇聚节点第i轮对应的变量；每个传感器节点定义一个集合D和一个Q值，该集合存放邻居节点号和对应的已计算好的到该邻居节点的回报值，最初所有回报值为0；然后设置每个传感器节点的Q值为0，对于传感器节点i，它到邻居节点j的回报值R(j)是邻居节点j的剩余能量R_j与传感器节点i到邻居节点j的传输能耗值E_i,j＝(2LE₁+LE_adθ)e^{hop(j)/hop(i)}的比值，其中i和j是节点的编号，E₁表示线路发送或接收数据损耗的能量，hop(i)表示节点i到汇聚节点的跳数，hop(j)表示的是节点j到汇聚节点的跳数，d表示的是两节点之间的距离，L代表着发送信息的比特数，E_a是能量放大系数，一般来说E_a取值小于1；θ是一个参数，用户设定阈值d0，当d小于d₀时，_θ取值为2，当d大于d₀时，_θ取值为4，所述Q值是存储在汇聚节点或传感器节点中的一个数值，用于选择后续路径；

步骤3：当网络运行的最大轮次超过t时，网络停止工作；当网络运行的最大轮次没有超过t时，需要发送人体消息的源节点从集合D中依次取每一个邻居节点判定到该邻居节点的回报值是否为0，若源节点到该邻居节点的回报值不为0，则取下一个邻居节点进行判定；若源节点到该邻居节点的回报值为0，则源节点向该邻居节点发送握手信息，当在用户指定的阈值时间内收到该邻居节点回复的握手信息，则计算源节点到该邻居节点的回报值，当在用户指定的阈值时间内没有收到该邻居节点的回复信息，则将源节点到该邻居节点的回报值置为-1；需要发送人体消息的源节点完成判定到每一个邻居节点的回报值是否为0的工作后，将回报值最大的任意一个邻居节点确定为下一跳路由节点，设置Q值为上述的最大的回报值，将该Q值发送给确定好的下一跳路由节点；

步骤4：当前已确定好的下一跳路由节点是传感器节点，进入步骤5；当前已确定好的下一跳路由节点是汇聚节点，进入步骤6；

步骤5：已确定好的作为下一跳路由节点的当前传感器节点将接收到的上一跳路由节点发送来的Q值赋值给自己的Q值，并向其邻居节点广播发送握手信息，当在用户指定的阈值时间内收到该邻居节点回复的握手信息，则计算当前传感器节点到其邻居节点的回报值，当在用户指定的阈值时间内没有收到该邻居节点的回复信息，则将当前传感器节点到该邻居节点的回报值置为-1；当前传感器节点完成判定到每一个邻居节点的回报值是否为0的工作后，将回报值最大的任意一个邻居节点确定为下一跳路由节点，将上述最大的回报值增加到当前传感器节点Q值中，当前传感器节点将该更新后的Q值发送给确定好的下一跳路由节点，进入步骤4；

步骤6：已确定好的下一跳路由节点是汇聚节点，则表示寻址成功，汇聚节点将接收到的上一跳路由节点发送来的Q值赋值给自己的Q值，若汇聚节点首次接收到上一跳路由节点发送来的Q值，则自己的Q值赋值给Q1；否则，汇聚节点在第k次接收到上一跳路由节点发送来的Q值，通过Q_k＝(1-α)Q_k-1+αmaxQ计算获取Q_k；所述α是学习因子，由用户指定，其取值范围在0-1之间，取值越大，学习效率越高，感知环境的能力越强，但相反会引起数据收发的延迟；maxQ是汇聚节点在第i次接收到上一跳路由节点发送来的Q值时，Q₁、Q₂、…、Q_k-1中的最大值；Q_k代表汇聚节点在i次更新所得到的数值，Q_k-1代表汇聚节点在第k-1次更新所得到的数值；

步骤7：用户指定一轮稳定传输信息的时间阈值T，汇聚节点选取Q₁、Q₂、…、Q_k中最大值对应的路径向源节点发送通知消息，让源节点在时间阈值T范围内沿着上述路径稳定传输信息；源节点稳定传输信息，当传输信息的时间超过时间阈值T时，进入步骤3。

有益效果：本发明提出了一种基于Q学习的无线体域网自组织路由方法。通过使用本发明所提出的路由方法实现无线体域网的路径寻优，也就是综合考虑节点的剩余能量以及通信所需损耗能量，所设计的基于Q学习的无线体域网自组织路由方法能够很好得解决网络中能量消耗不均匀的问题，从而延长网络生存周期。具体来说，本发明所述的方法具有如下的有益效果：

(1)本发明所述的基于Q学习的无线体域网自组织路由方法，够很好得解决网络中能量消耗不均匀的问题，节省网络能量。

(2)本发明所述的基于Q学习的无线体域网自组织路由方法，综合考虑节点的剩余能量以及通信所需损耗能量，实现无线体域网的路径寻优。

(3)本发明所述的基于Q学习的无线体域网自组织路由方法，采用Q学习机制提出的路由算法，随着节点数的增大，网络生存周期越来越大，所消耗的路由能量逐渐减小，选择的路由的机会增多，通过不断得更新回报值，选择最优路径，网络生存周期也得到了提高。

(4)本发明所述的基于Q学习的无线体域网自组织路由方法，根据路径的剩余能量、跳数、节点距离等因素，采取回报值进行评价下一跳的选择，采用此方法，无线传感器网络的传输可靠性会比现有方法略有提高。

附图说明

图1.基于增强学习的无线体域网路由方法流程图，

图2.体域网节点拓扑图。

具体实施方式

下面根据附图和实施例对本发明作更详细的描述。

所述无线体域网由一个汇聚节点和多个传感器节点组成，所有节点被部署在一个人体区域内，如图2体域网节点拓扑图所示，所构成的网络具有如下要求：(1)所有节点根据人体生理性分布，任意一个节点在固定后不发生移动；(2)汇聚节点位于腰部位置，该节点与传感器节点相比能力充足；(3)所有节点相对人体不发生移动，人体可以发生移动；(4)所有节点之间的通信是双向的；(5)传感器节点直接或者以多跳的方式向汇聚节点传输消息；(6)无线体域网的结构是单层结构。

图1给出本发明所述方法的流程图，以图2为实例，其具体实施方式为：

步骤1：用户在人体上部署汇聚节点和传感器节点，在具体实施中，每个传感器节点都记录下其邻居传感器节点编号及到邻居传感器节点的能耗值，同时设定每个传感器节点的能耗阈值。

步骤2：位于人体腰部的汇聚节点以相同的周期向相邻的节点发送学习评估消息，初始化无线体域网环境，启动所有传感器节点，并设置每个传感器节点的回报值为0。

步骤3：在具体实施中，传感器节点定义一个集合D，用以存放已经进行学习的节点信息，17号节点向邻居节点6、节点9、节点16发送学习信息，并且判断该节点是否存在于集合D,分别计算其到每个邻居节点的回报值节点6反馈给节点17的回报值最大，从而选取回报值高的邻居节点6号节点作为下一跳路由的传感器节点。

步骤4：传感器节点从选取的邻居节点出发按照步骤3的方法计算该节点自身邻居节点，探测下一跳路由，依次寻址，直到找到最终的汇聚节点14号节点。

步骤5：路径选择完毕后，存储下这条路径的Q值Q_i＝(1-α)Q_i-1+αmaxQ。当选取路径中的传感器节点9或节点10的剩余能量低于设定的阈值时，则按照选取的路径反向向源传感器节点发送消息，使节点放弃选择这条路径，而是选取Q值次大的6、7、10路径作为发送信息的路径。

步骤6：节点17选取Q值大的路径向汇聚传感器节点进行稳定传输信息过程，同时更新每个传感器节点的剩余能量信息。

步骤7：汇聚节点14号节点周期性发送学习消息，源节点根据其消息探测路径、选取路径、以及发送消息到汇聚节点，节点汇报值的改变影响了Q值的大小，Q值更新后存储于汇聚节点中。

Claims

1.一种基于增强学习的无线体域网路由方法，其特征在于该方法所包含的步骤为：

步骤2：用户启动汇聚节点和所有传感器节点，指定网络运行的最大轮次t，汇聚节点定义一系列Q值，依次为Q、Q1、Q2、…、Qk、…、Qt，这些值均设置为0，k表示路径选择的当前轮次，Q是汇聚节点一个变量，Qi是汇聚节点第i轮对应的变量；每个传感器节点定义一个集合D和一个Q值，该集合存放邻居节点号和对应的已计算好的到该邻居节点的回报值，最初所有回报值为0；然后设置每个传感器节点的Q值为0，对于传感器节点i，它到邻居节点j的回报值R(j)是邻居节点j的剩余能量Rj与传感器节点i到邻居节点j的传输能耗值E_i,j＝(2LE₁+LE_ad^θ)e^{hop(j)/hop(i)}的比值，其中i和j是节点的编号，E1表示线路发送或接收数据损耗的能量，hop(i)表示节点i到汇聚节点的跳数，hop(j)表示的是节点j到汇聚节点的跳数，d表示的是两节点之间的距离，L代表着发送信息的比特数，E_a是能量放大系数，一般来说E_a取值小于1；θ是一个参数，用户设定阈值d0，当d小于d0时，θ取值为2，当d大于d0时，θ取值为4，所述Q值是存储在汇聚节点或传感器节点中的一个数值，用于选择后续路径；

步骤6：已确定好的下一跳路由节点是汇聚节点，则表示寻址成功，汇聚节点将接收到的上一跳路由节点发送来的Q值赋值给自己的Q值，若汇聚节点首次接收到上一跳路由节点发送来的Q值，则自己的Q值赋值给Q1；否则，汇聚节点在第k次接收到上一跳路由节点发送来的Q值，通过Q_k＝(1-α)Q_k-1+αmaxQ计算获取Q_k；所述α是学习因子，由用户指定，其取值范围在0-1之间，取值越大，学习效率越高，感知环境的能力越强，但相反会引起数据收发的延迟；maxQ是汇聚节点在第i次接收到上一跳路由节点发送来的Q值时，Q1、Q2、…、Qk-1中的最大值；Q_k代表汇聚节点在i次更新所得到的数值，Q_k-1代表汇聚节点在第k-1次更新所得到的数值；

步骤7：用户指定一轮稳定传输信息的时间阈值T，汇聚节点选取Q1、Q2、…、Qk中最大值对应的路径向源节点发送通知消息，让源节点在时间阈值T范围内沿着上述路径稳定传输信息；源节点稳定传输信息，当传输信息的时间超过时间阈值T时，进入步骤3。