CN113141592A

CN113141592A - 一种长生命周期的水声传感器网络自适应多路径路由机制

Info

Publication number: CN113141592A
Application number: CN202110388409.5A
Authority: CN
Inventors: 申晓红; 王超; 何欢; 王海燕
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-11
Filing date: 2021-04-11
Publication date: 2021-07-20
Anticipated expiration: 2041-04-11
Also published as: CN113141592B

Abstract

本发明提供了一种长生命周期的水声传感器网络自适应多路径路由机制，针对水下传感器网络节点移动性导致的链路质量下降以及各节点网络负载不均衡等问题，将网络建模为一个多智能体系统，每个节点作为一个智能体，通过直接与环境进行交互，并与其他智能体进行信息共享，高效地学习环境信息以适应网络拓扑的动态变化，智能体依据信道优劣，在邻居节点集中选择使未来奖励最大化的最佳中继节点集以确定数据包的最优传输路径，使网络在单一路径和多路径路由间进行动态切换以提高数据包的投递率，从而最大化地减少网络开销以提高能量利用率，提高包投递率以提升网络鲁棒性，平衡网络负载以延长网络生命周期。

Description

一种长生命周期的水声传感器网络自适应多路径路由机制

技术领域

本发明属于水声传感器网络技术领域，是一种可感知网络信道状态、延长网络寿命的多路径自适应路由协议，涉及多智能体协作的强化学习等算法。

背景技术

近年来，水声传感器网络随海洋信息应用领域的不断扩大而取得了很大的进步，在海洋军事、海洋环境与气象研究、海洋资源开发等方面具有重要的应用。一方面，水声传感器网络以水声信号为传输信息媒介，具有带宽低、传输延迟大等特点，导致以电磁波等为媒介的陆地传感器网络协议无法直接应用于水声传感器网络中。另一方面，水下环境复杂恶劣，节点频繁移动导致网络拓扑产生动态变化，且水下部署网络成本高昂，使得水声传感器网络的研究比在陆地的研究更加困难。

水声传感器网络路由协议按照路由决策方式分为分簇式和多跳式。分簇式路由中，将整个网络按照不同的分簇方法分成相应的簇，每个簇中选举一个簇头节点，簇间和簇内路由构成了整个网络的互联互通，但是簇的重构及维护开销大，且簇头节点作为网络的关键节点，其失效将导致路由失败。而多跳式路由中，没有固定的关键节点，网络中的所有节点都作为一个独立的个体，分别计算到达下一跳节点的路由，节点间相互交换路由信息，进行数据信息传输。其单个节点的失效并不会带来整个网络的瘫痪，可增强网络的鲁棒性，延长网络的生命周期。

然而，由于水下环境复杂恶劣，节点频繁移动使得网络拓扑动态变化，导致节点间链路质量下降甚至无法通信。基于强化学习的路由算法可很好的适应水下环境带来的网络拓扑变化，通过智能体与环境的不断交互，找到使长期累积奖赏最大化的路由策略，以实现网络路由性能的优化。

在现有的基于强化学习的水声传感器网络路由协议中，往往采用单智能体建模，借助Q学习算法建立目标函数以缓解网络资源的消耗速度，在不同网络需求下提高相应的网络性能，如节点能耗、传输延时以及包投递率等。但是，单智能体系统只是依据节点自身周围的环境信息做出判断，节点之间缺少信息交互，导致信息利用率低且易陷入局部最优化，进而忽略网络整体的路由性能，如为进一步节省能耗，导致某些关键节点过度使用而使整个网络瘫痪等。

基于多智能体强化学习的网络结构，每个智能体不仅关注节点自身与环境的交互，也与其他智能体进行合作学习，通过不同节点之间的信息交互实现动态路由选择。在Xinge Li等人提出的基于多智能体强化学习的水下光传感器网络路由协议中，考虑了链路质量和节点剩余能量，一定程度上增强了网络动态拓扑的适应性并延长了网络寿命，但该方法对通信链路的不对称性以及信道的不稳定性考虑不足。

发明内容

为了克服现有技术的不足，本发明提供一种长生命周期的水声传感器网络自适应多路径路由机制，是一种基于多智能体强化学习框架，感知链路质量的自适应多路径多跳式水声传感器网络路由协议，能够提高网络包投递率以及动态拓扑鲁棒性，平衡网络负载以延长网络生命周期。

本发明解决其技术问题所采用的技术方案包括以下步骤：

第一步，对网络进行建模，在N个节点组成的水声传感器网络中，对于每一个节点i，其邻居节点集合N_i＝{j₁,j₂,…}能够与节点i直接进行数据传输；

第二步，确定节点的状态空间S_i＝{busy,idle}，如果节点i有数据包需要处理，则S_i处于busy状态，反之，节点i处于idle状态；

确定节点的动作空间A_i＝{{j₁},{j₂},…,{j₁,j₂},…,{j₁,j₂,…}}_i，其中j₁、j₂…表示节点i的邻居节点，A_i中的元素表示节点i的中继节点集合；

第三步，构造奖励函数

表示智能体在状态s时，执行动作a后，从环境中获取的直接奖励，其中，g是常数，表示传输数据包的代价；E_resm(s_j)是节点i在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值，每个节点都存储有其相邻节点的初始能量，节点依据其邻居节点所发送数据包的次数计算邻居节点的剩余能量；E_init(s_i)是节点i的初始能量；L_non是对节点i丢失数据包的惩罚；k表示数据包当前的传输次数；K表示数据包的最大传输次数；

第四步，构造链路状态概率矩阵

其中，S_rec,j表示节点j接收到的数据包的信号强度，S_tra,i表示节点i发送该数据包的信号强度；

第五步，更新在状态s_i时，采取动作a_i得到的期望总回报

其中，γ表示折扣因子，决定了未来奖励对系统的重要程度；j_m是节点i选择的构成下一跳中继节点集合A_i中包含的任一节点；j_n属于邻居节点集合N_i，但不属于当前节点状态的中继节点集合a_i；ω₁和ω₂分别表示节点i采取的动作a_i所对应的中继节点集合与未选中的邻居节点集合关于当前总回报的权值；

表示在当前状态s_i下执行动作a_i时中继节点集合带来的累积奖励；

表示当前状态s_i下执行动作a_i时未选中的邻居节点集和带来的累积奖励；

第六步，设计数据包结构，数据包中除有效负载外，还包括数据包ID、源节点ID、Sink节点ID、当前节点V值、下一跳节点ID、所有邻居节点ID及链路状态概率，其中，数据包ID和源节点ID表示对数据包进行唯一标识；Sink节点ID表示数据包的目的节点ID；当前节点V值表示本节点的状态值，即

下一跳节点ID表示当前节点从其邻居节点中选择的所有中继节点的ID；除此之外，每个节点都存储有其邻居节点的V值以及到达各邻居节点的链路状态概率，并依据数据包的包头信息以及HELLO包信息进行相关更新；

第七步，当节点i需要对数据包进行处理时，将执行数据包转发操作；

第八步，节点i在时间段τ内对数据包p的传输进行监听。

所述的常数g取值为-1，L_non设定为绝对值大于100的负数。

所述的第四步中，将发送数据包的功率设为定值，仅依据所接受的数据包的信号强度确认节点i到节点j的链路状态概率，节点i的数据包包头中广播的是P(j,i)，即由节点j传输数据包至节点i的链路状态，节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。

所述的数据包转发操作包括以下步骤：给数据包增加头部信息；如果节点i缺少其邻居节点N_i信息，发送广播包以确定其邻居节点；如果节点i已知邻居节点N_i，初始化k＝0，当k＜K时，s_i＝busy，对于该状态的每一个可选动作a∈A_i(s)更新当前Q(s_i,a_i)；并依据ε-greedy策略，选取max Q(s_i,a_i)所对应的动作a_i或随机选取动作a_i；计算节点i的V值

节点i将数据包发给a_i所包含的节点；如果在时间段τ内数据包p的传输被节点i监听到，则节点i成功传输数据包p至下一跳节点；若没有监听到，节点i对数据包p进行重传，k值加1；若k≥K，则节点i传输数据包p失败，节点i将丢弃该数据包p。

所述的监听首先提取数据包p的包头信息，并更新所存储的邻居节点V值；如果数据包p的下一跳节点的列表中包含节点j，节点j接收整个数据包p，并更新数据包p的头部信息以进行其后传输；否则，节点j丢弃数据包p。

本发明的有益效果是：能够在复杂多变的水下环境中，使节点间进行信息可靠、高效地传输。在水声传感器网络中，各节点通过直接与环境进行交互，并与其他智能体进行信息共享，可高效地学习环境信息，适应网络拓扑的动态变化，并依信道优劣在单一路径和多路径路由间进行切换，能够极大的提高网络的投递率和吞吐量，降低网络时延。同时，该路由协议通过平衡网络负载，可节省水下传感器的能耗，延长网络生命周期。因此，本发明大大提高了水下传感器网络节点间的路由效率，为水声传感器网络通信提供了一种有效的方式，对水声传感器网络的进一步研究和发展具有重要意义。

附图说明

图1是本发明的多智能体强化学习网络框架示意图；

图2是本发明仿真的网络拓扑示意图；

图3是本发明整体路由进程设计示意图；

图4是本发明的仿真结果示意图，其中，(a)是信道状态较差时的各节点剩余能量示意图，(b)是信道状态较好时的各节点剩余能量示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明针对水下传感器网络节点移动性导致的链路质量下降以及各节点网络负载不均衡等问题，提出了一种自适应水声传感器网络路由协议，将网络建模为一个多智能体系统，设计了基于多智能体强化学习的路由协议，每个节点作为一个智能体，通过直接与环境进行交互，并与其他智能体进行信息共享，高效地学习环境信息以适应网络拓扑的动态变化，智能体依据信道优劣，在邻居节点集中选择使未来奖励最大化的最佳中继节点集以确定数据包的最优传输路径，使网络在单一路径和多路径路由间进行动态切换以提高数据包的投递率，从而最大化地减少网络开销以提高能量利用率，提高包投递率以提升网络鲁棒性，平衡网络负载以延长网络生命周期。

本发明的主要步骤如下：

第一步：基于多智能体强化学习对网络进行建模

水声传感器网络由N个节点组成，对于每一个节点i，其邻居节点集合如(1)式所示：

N_i＝{j₁,j₂,…} (1)

即，节点j₁、节点j₂为节点i的邻居节点，可与节点i直接进行数据传输。

该发明的路由过程可建模为马尔可夫决策过程，如(2)式所示：

p(s_t+1|s_t,a_t,…,s₀,a₀)＝p(s_t+1|s_t,a_t) (2)

即下一个时刻的状态s_t+1只和当前时刻的状态s_t以及动作a_t相关，而与之前的动作和状态无关，其中p为状态s_t到s_t+1的状态转移概率。因此，节点只需关注当前状态，维护成本大大降低，以对网络性能进行优化。

第二步：确定节点的状态空间和动作空间

每个节点都作为一个独立智能体，通过与节点周围环境进行信息交流，并与邻居智能体进行信息共享，在可选的动作集中选取使未来累计奖励最大的最佳动作，由此确定数据包传输的最优路径。节点的状态空间和动作空间如下：

(1)状态空间：S_i＝{busy,idle}，如果节点i有数据包需要处理，则它处于busy状态，反之，节点i处于idle状态。

(2)动作空间：A_i＝{{j₁},{j₂},…,{j₁,j₂},…,{j₁,j₂,…}}_i，其中j₁,j₂,…表示节点i的邻居节点，A_i中的元素表示节点i的中继节点集合，由节点i的邻居节点集合的非空子集组成。

第三步：构造奖励函数

奖励函数表示智能体在状态s时，执行动作a后，从环境中获取的直接奖励，如(3)式所示：

其中，g是常数(此处取值为-1)，表示传输数据包的代价，使智能体选择到达目的节点(Sink)相对短的路径；E_resm(s_j)是节点i在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值，每个节点都存储有其相邻节点的初始能量，节点依据其邻居节点所发送数据包的次数计算邻居节点的剩余能量；E_init(s_i)是节点i的初始能量；L_non是对节点i丢失数据包的惩罚，被设定为绝对值大于100的负数；k表示数据包当前的传输次数；K表示数据包的最大传输次数，其值基于网络当前流量动态设定。

第四步：构造链路状态概率矩阵

由于水下链路的不对称性，即P(i,j)≠P(j,i)，因此，用链路状态概率来衡量两节点间的通信链路质量，如(4)式所示：

其中，i为当前数据包发送节点，j为节点i的邻居节点，S_rec,j表示节点j接收到的数据包的信号强度，S_tra,i表示节点i发送该数据包的信号强度。仿真中，将发送数据包的功率设为定值，仅依据所接受的数据包的信号强度，即可确认i→j的链路状态概率。节点i的数据包包头中广播(与其他节点共享)的是P(j,i)，即由节点j传输数据包至节点i的链路j→i的状态。节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。

第五步：值函数的更新

强化学习的目标是，找到能使长期累积奖励最大化的策略。其基本算法Q学习的基本更新公式，如(5)式所示：

其中，Q(s,a)表示在状态s时，采取动作a得到的期望总回报；α表示学习速率且α∈[0,1]，决定了Q值函数的更新速度；γ表示折扣因子且γ∈[0,1]，该值决定了未来奖励对系统的重要程度，γ＝0时系统仅考虑当前奖励，易导致局部最优而忽略全局性能；γ＝1时，系统争取长期奖励，但并不能准确评估未来奖励。

依典型的Q学习更新公式可知，只考虑当前节点的最大收益(即只追求最小跳数)，将使网络中某些节点因过度使用而提前衰亡，导致网络瘫痪(定义网络生命周期为网络中第一个节点死亡的时间)。本发明中，多智能体强化学习的目标是最大化网络生命周期并提高包投递率。因此，在传统Q值函数的更新中引入其他智能体的V值，实现全局最优，取α＝1，具体表达式如(6)所示：

其中，j_m是节点i选择的构成下一跳中继节点集合A_i中包含的任一节点；j_n属于邻居节点集合N_i，但不属于当前节点状态的中继节点集合a_i；ω₁和ω₂分别表示节点i采取的动作a_i所对应的中继节点集合与未选中的邻居节点集合关于当前总回报的权值；其中

表示在当前状态s_i下执行动作a_i时中继节点集合带来的累积奖励，使节点智能地选择下一跳中继节点集合，依信道优劣在单一路径和多路径路由间进行切换，提高包投递率以提升网络鲁棒性；

表示当前状态s_i下执行动作a_i时未选中的邻居节点集和带来的累积奖励，使当前节点与其他节点进行信息共享，高效地学习环境信息以适应网络拓扑的动态变化，也使得节点在满足信息可靠性传输的情况下减少节点稳定性冗余度，最大化地减少网络开销以提高能量利用率，平衡网络负载以延长网络生命周期。

第六步：包结构设计

为了满足本文中算法需要，设计了包含如下信息的数据包结构，阴影部分为数据包的有效负载，如表1所示。

表1数据包结构

数据包ID
	源节点ID
Sink节点ID
	当前节点V值
下一跳节点ID列表
	所有邻居节点ID及链路状态概率
数据包负载

其中，数据包ID和源节点ID，表示对数据包进行唯一标识；Sink节点ID，表示数据包的目的节点ID；当前节点V值，表示本节点的状态值，即

下一跳节点ID，表示当前节点从其邻居节点中选择的所有中继节点的ID；所有邻居节点ID及链路状态概率，其所需空间大小，取决于该节点的邻居节点的数量。

除此之外，每个节点都存储有其邻居节点的V值以及到达各邻居节点的链路状态概率，并依据数据包的包头信息以及HELLO包信息进行相关更新，即每个节点都需维护与其邻居节点相关的V值表和链路状态概率表。

第七步：数据包的转发

当节点i需要对数据包进行处理时，将执行数据包转发操作，如下所示：

①给数据包增加头部信息；

②如果节点i已知邻居节点N_i：

·初始化k＝0，当k＜K时，s_i＝busy，对于该状态的每一个可选动作a∈A_i(s)，依据式(6)更新当前Q(s_i,a_i)；并依据ε-greedy策略选择动作，即生成随机数rand(0,1)，若该随机数小于等于ε，选取max Q(s_i,a_i)所对应的动作a_i，否则，节点将随机选取动作a_i；

·计算节点i的V值：

·节点i将数据包p发给a_i所包含的节点；

·如果在时间段τ内数据包p的传输被节点i监听到，则节点i成功传输数据包p至下一跳节点；若没有监听到，节点i对数据包p进行重传，即k＝k+1；若k≥K，则节点i传输数据包p失败，节点i将丢弃该数据包p；

③如果节点i缺少其邻居节点N_i信息，将发送广播包以确定其邻居节点。

若节点i已知其邻居节点集合N_i，则选取最优动作集合转发数据包；若节点i无其邻居节点集合信息，则发送广播包确定其邻居节点集合N_i。此外，节点i发送广播包也由“邻居时间T”决定，“邻居时间T”是一个定值，表示节点周期性地发送广播包获得邻居节点信息。τ的值是数据包p传输到下一跳节点的最大往返时间的函数。为减少网络流量及节点能耗，节点对数据包的传输采用隐性确认的方法，即数据包传输后，发送端监听信道，若在τ时间段内监听到数据包，则节点i本次传输数据包成功，否则，将重新传输。只有Sink节点是显性确认，因为Sink节点不在对数据包进行中继。

第八步：数据包的监听和接收

节点i在时间段τ内对数据包p的传输进行监听，如下所示：

①提取数据包p的包头信息，并更新所存储的邻居节点V值；

②如果数据包p的下一跳节点的列表中包含节点j，节点j接收整个数据包p，并更新数据包p的头部信息以进行其后传输；否则，节点j丢弃数据包p。

该协议整体路由进程如图3所示，依据数据包的待需处理类型，节点的busy状态分为两种，即从MAC层到来的需接收的数据包和从应用层到来的需发送的数据包。该路由协议基于多智能体强化学习，通过智能体自身对周围环境的感知以及智能体间信息的共享，可高效地适应水下变化的环境状态。节点周期性地广播HELLO包，使智能体适应水下环境大幅度改变所带来的网络拓扑的大范围动态变化，并确定以及更新其邻居节点。节点在数据包转发时，由信号强度所确定的链路状态概率P，反映了当前链路的优劣，使节点适应水下环境小幅度改变所带来的网络拓扑的小范围动态变化。

下面以图2所示网络拓扑图为例，给出基于多智能体强化学习的水声传感器网络路由协议的具体实施方案。

依据图2提供的水声传感器网络节点场景图，节点之间利用声信号进行信息传输。节点1为发送节点(依据自身业务需求发送数据信息)，节点2-7为普通节点，节点8为Sink节点。

具体实施步骤如下：

第一步：基于多智能体强化学习对网络进行建模

该水声传感器网络由8个节点组成，对于节点1，其邻居节点集合可表示为：N₁＝{2,3,4}。即，节点2，3，4为节点1的邻居节点，可与节点1直接进行数据传输。同样，节点2，其邻居节点集合可表示为：N₂＝{1,5,6}。

该发明的路由过程被建模为马尔可夫决策过程，即节点5的状态动作值和动作值只与其邻居节点集合N₅＝{2,3,8}的动作值有关，而与其非直接相连的节点无关。因此，节点5只需关注其直接邻居节点，路由维护成本大大降低，以便提升网络性能。

第二步：确定节点的状态空间和动作空间

每个节点都作为一个独立智能体，通过与节点周围环境进行信息交流，并与邻居智能体进行信息共享，在可选的动作集中选取使未来累计奖励最大的最佳动作，由此确定数据包传输的最优路径。节点1的状态空间和动作空间如下：

(1)状态空间：S₁＝{busy,idle}.如果节点1有数据包需要处理，则它处于busy状态，反之，节点1处于idle状态。

(2)动作空间：A₁＝{{2},{3},{4},{2,3},{2,4},{3,4},{2,3,4}}₁，由节点1的邻居节点集合的非空子集组成，其内元素均表示节点1的中继节点集合。

第三步：构造奖励函数

依据式(3)，可得智能体1在状态busy时，执行动作a₁后，从环境中获取的直接奖励，如式(7)所示：

其中，g＝1表示传输数据包的代价，使智能体选择到达Sink相对短的路径；E_resm(s_j)是是节点1在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值；E_init(s_i)是节点i的初始能量，普通节点的初始能量相同，设为500；L_non是对节点i丢失数据包的惩罚，被设定为绝对值很大的负数；k表示数据包当前的传输次数；K＝[5,8]表示数据包的最大传输次数，其值基于网络当前流量动态设定。

第四步：构造链路状态概率矩阵

由于水下链路的不对称性，即P(i,j)≠P(j,i)。以节点1和节点2为例，用来衡量两节点间的通信链路质量的链路状态概率，如是(8)所示：

其中，1为发送节点，2为接收节点，S_rec，2表示节点2接收到的数据包的信号强度，S_tra，1表示节点1发送该数据包的信号强度。仿真中，将发送数据包的功率设为定值，只依据所接受的数据包的信号强度，即可确认1→2的链路状态概率。

第五步：值函数的更新

当数据包到达节点5时，节点5的状态，由idle切换为busy，此时其邻居节点集合为N₅＝{2,3,8}，所选动作为a₅＝{3,8}.依式(6)，其中，ω₁＝0.9，ω₂＝0.1，γ＝0.7，可知，其Q值的计算，如式(9)所示：

V值的计算，如式(10)所示：

第六步：包结构设计

当节点1发送的数据包时，其包头部具体信息为：数据包ID与源节点ID构成数据包p的唯一标识；源节点ID：节点1的ID；Sink节点ID：节点2的ID；当前节点V值：节点1的V值；下一跳节点ID列表：如此时节点1所选择的动作为a₁＝{2,3}，则下一跳节点ID列表包含节点2和节点3的ID；所有邻居节点ID及链路状态概率：

邻居节点ID	节点2ID	节点3ID	节点4ID
				链路状态概率	P(2,1)	P(3,1)	P(4,1)

节点1包头部的链路状态概率表示的是其邻居节点到节点1的链路情况，目的是为了方便其邻居节点自身链路状态的更新。

除此之外，节点1也存储有其邻居节点的V值(V2，V3，V4)以及到达各邻居节点的链路状态概率(P(1,2)，P(1,3)，P(1,4))，并依据数据包的包头信息以及HELLO包信息进行相关更新，即节点1需维护与其邻居节点相关的V值表和链路状态概率表。

第七步：数据包的转发

当节点1需要对数据包进行处理时，将依据算法1执行数据包转发操作，具体步骤如下：

(1)节点1给数据包增加头部信息；

(2)对于节点1的每一个动作，计算所有的Q值；

(3)依据ε-greedy策略选择动作；

(4)将节点1的V值更新为

(5)节点1将数据包发给所选动作a₁所包含的节点；

(6)对数据包的传输进行监听。

第八步：数据包的监听和接收

节点1将数据包发给节点2，在时间段τ内对数据包p的传输进行监听。节点2接收到数据包后，提取包头信息，并更新所存储的邻居节点(节点1,5,6)的V值。若节点1的下一跳节点集合中不包含节点2，节点2丢弃数据包p。若节点1的下一跳节点集合中包含节点2，节点2接收整个数据包p，并更新数据包p的头部信息以进行其后传输，此时，节点2发送数据包p给其动作a₂所包含的节点，此时节点1监听到节点2发送的数据包p，则认为节点1到节点2的数据包p发送成功。

本发明的整体路由进程如图3所示，依据数据包的待需处理类型，分别对从MAC层到来的需接收的数据包和从应用层到来的需发送的数据包进行处理。针对以上过程采用Matlab对其性能进行仿真。如图2所示设置网络，由8个节点组成，其中一个是Sink节点。普通传感器节点根据其业务需求随机向Sink节点发送采集数据。图4(a)为信道状态较差时的仿真结果，是本发明所采取的算法与Q学习算法在初始节点发送相同数量数据包后所得的各节点剩余能量的比较。图4(b)为信道状态很好时的仿真结果。由各节点的剩余能量图可明显观察到，该算法各节点剩余能量比Q学习算法各节点剩余能量高且分布更加均衡，可见该算法可更有效的节省节点能量以延长网络生命周期。综上所述，本发明所提出的基于多智能体强化学习的长生命周期水声传感器网络自适应多路径路由协议可很好地改善网络性能。

Claims

1.一种长生命周期的水声传感器网络自适应多路径路由机制，其特征在于，包括以下步骤：

第三步，构造奖励函数

第四步，构造链路状态概率矩阵

第五步，更新在状态s_i时，采取动作a_i得到的期望总回报

第八步，节点i在时间段τ内对数据包p的传输进行监听。

2.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制，其特征在于，所述的常数g取值为-1，L_non设定为绝对值大于100的负数。

3.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制，其特征在于，所述的第四步中，将发送数据包的功率设为定值，仅依据所接受的数据包的信号强度确认节点i到节点j的链路状态概率，节点i的数据包包头中广播的是P(j,i)，即由节点j传输数据包至节点i的链路状态，节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。

4.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制，其特征在于，所述的数据包转发操作包括以下步骤：给数据包增加头部信息；如果节点i缺少其邻居节点N_i信息，发送广播包以确定其邻居节点；如果节点i已知邻居节点N_i，初始化k＝0，当k＜K时，s_i＝busy，对于该状态的每一个可选动作a∈A_i(s)更新当前Q(s_i,a_i)；并依据ε-greedy策略，选取max Q(s_i,a_i)所对应的动作a_i或随机选取动作a_i；计算节点i的V值

5.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制，其特征在于，所述的监听首先提取数据包p的包头信息，并更新所存储的邻居节点V值；如果数据包p的下一跳节点的列表中包含节点j，节点j接收整个数据包p，并更新数据包p的头部信息以进行其后传输；否则，节点j丢弃数据包p。