CN112867089B

CN112867089B - 基于信息重要度和q学习算法的水声网络路由选择方法

Info

Publication number: CN112867089B
Application number: CN202011623741.7A
Authority: CN
Inventors: 陈友淦; 熊长静; 朱建英; 张檬; 张小康; 陈东升; 许肖梅
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-04-05
Anticipated expiration: 2040-12-31
Also published as: CN112867089A

Abstract

基于信息重要度和Q学习算法的水声网络路由选择方法，涉及水声网络。将信息重要度引入多跳水声传感网络，将信息重要度等级作为第一优先条件、将中继节点剩余能量作为第二优先条件，用Q学习算法选择最佳路由：对信息重要度等级高的信息，选到较短的路由，确保重要信息快速、准确传输到水面基站；对信息重要度等级较低的信息，选择剩余能量充足的中继节点，避免某些中继节点重复多次利用，导致节点死亡过快、出现能量空洞。选择用于Q学习算法的节点数仅为全网存活节点总数1/7，避免对全网存活节点探索，缩短Q学习迭代算法的候选节点集范围，找到最佳路由所需的探索次数减少，节约算法运行时间、节约水下节点功耗，延长水声网络生命周期。

Description

基于信息重要度和Q学习算法的水声网络路由选择方法

技术领域

本发明涉及水声网络，尤其涉及一种基于信息重要度和Q学习算法的水声网络路由选择方法。

背景技术

随着智慧海洋概念的提出和发展，为缓解陆地资源短缺的问题，利用水声传感网络进行海洋资源的探索和开发逐渐成为重要的研究方向。

在恶劣的海洋环境中，由于传感器节点电池更换难度大且更换成本大，水下传感器节点的能耗效率，一直是水声传感网络设计中极具挑战性的关键问题。研究表明，通过多跳传输实现远距离传输的技术手段，可降低水声传感网系统整体的能量消耗(W.Zhang,etal.Analysis of a Linear Multi-hop Underwater Acoustic Network[J].IEEE Journalof Oceanic Engineering,2010,35(4):961-970.)。考虑利用多跳水声传感网络进行水下数据搜集的场景，由于水下网络拓扑结构是随洋流运动而动态变化的，在海底信源节点S和水面基站BS之间的每一个传感器节点均有可能成为中继节点R为其转发数据。在多跳水声传感网络中，如何迅速合理地选择出最优多跳传输路径，同时兼顾节点数据的信息重要度/优先级、节点能耗的均衡等需求，是避免水声网络出现能量空洞、延长水声传感网络寿命的关键所在。

随着机器学习的发展，鉴于Q学习算法的优点，Hu等(T.Hu,et al.QELAR:AMachine-Learning-Based Adaptive Routing Protocol for Energy-Efficient andLifetime-Extended Underwater Sensor Networks[J].IEEE Trans.on MobileComputing,2010,9(6):796-809)将Q学习算法用于多跳水声传感网络的路由选择优化，提高了能耗效率并延长了网络寿命，但相应的路由节点会由于其最优性而频繁被选择，进而造成网络中的能量空洞问题。张德干等(张德干,等.一种基于Q-Learning策略的自适应移动物联网路由新算法[J].电子学报,2018,46(10):23-30)将Q学习算法用于移动物联网路由选择，但移动物联网与水声传感网络存在较大差异；考虑水声数据本身的信息重要度问题，Xiong等(C.Xiong,et al.Routing Design Based on Data Importance Rating inUnderwater Acoustic Sensor Networks[C].In Proc.of IEEE ICSPCC 2020,Taipa,Macau,China,Aug.21-23,2020)提出将水声数据的信息重要度进行分级，然后基于不同重要等级进行多跳水声传感网络的路由选择，但其所选的多跳传输路径较长、死亡中继节点较多，本发明将结合Q学习算法，以有效解决这些问题。

发明内容

本发明的目的在于提供可兼顾水声数据节点信息重要度与中继节点剩余能量情况，采用Q学习算法进行多跳路由选择优化，提高系统整体能耗效率，同时避免水声传感网络路由选择热门中继节点容易造成能量空洞问题，进而延长水声传感网络寿命的一种基于信息重要度和Q学习算法的水声网络路由选择方法。

本发明包括以下步骤：

1)在水声传感网络中，包含N_s个信源节点S_i(i＝1,2,…,N_s)、N_R个中继节点R_i’(i’＝1,2,3,…,N_R)和1个水面基站BS；信源节点S_i负责搜集声学数据，中继节点R_i’负责将信源节点搜集的声学数据信息，通过多跳方式传输至水面基站BS；设每个中继节点的初始能量均为E₀；

2)选择一个信源节点S_i开始进行多跳传输，信源节点S_i对搜集到的声学数据的信息重要度进行判定，根据信息重要度将数据分级，包括“一级，二级，三级，四级”四个信息重要度等级IL，分别表示为IL＝1，IL＝2，IL＝3，IL＝4；从一级到四级，代表数据的信息重要度越来越高；用IL_i表示信源S_i搜集到的数据的信息重要度等级；

3)在所有中继节点R_i’中选出满足节点剩余能量要求的中继节点R′组成集合Ω；所述满足节点剩余能量要求，是指集合Ω中的任意中继节点

的剩余能量

应满足以下要求：

其中，

表示中继节点R_i’的剩余能量，

表示水声传感网络中所有中继节点的平均剩余能量；

4)连接信源节点S_i与水面基站BS，作出最小虚拟传输路径线段VTP_min，在集合Ω中选择满足节点位置要求的N_Ψ个中继节点R″组成子集Ψ，即

所述满足节点位置要求，是指子集Ψ中的中继节点

的位置应满足以下要求：

其中，

表示子集Ψ中的中继节点

到最小虚拟传输路径线段VTP_min的距离，

表示集合Ω中子集Ψ的补集中的中继节点

到最小虚拟传输路径线段VTP_min的距离；

所述选择中继节点

的数量N_Ψ满足：

其中，N_R为水声传感网络中所有中继节点的总数，N_d为水声传感网络中死亡中继节点的数量，符合

表示向下取整；

5)根据信源节点S_i搜集到的数据的信息重要度等级IL_i和子集Ψ中继节点

的剩余能量

确定中继节点

的发送功率P_i；中继节点

的发送功率P_i所对应的选择系数K_i如下：

其中，E₀为每个中继节点的初始能量；

设定选择系数K_i的阈值为μ₁和μ₂，发送功率P_i的阈值为η₁、η₂和η₃，其中μ₂>μ₁，η₃>η₂>η₁；当K_i≥μ₂时，设置发送功率P_i＝η₃；当μ₂＞K_i≥μ₁时，设置发送功率P_i＝η₂；当K_i＜μ₁时，设置发送功率P_i＝η₁；当发送功率P_i小于中继节点

的最低发送功率η_min,i时，P_i＝η_min,i；

中继节点

最低发送功率η_min,i的计算可根据声纳方程，由中继节点

到最低发送功率η_min,i对应的中继节点

之间的距离

确定，子集Λ是中继节点

的最低发送功率对应中继节点候选集，即

应满足以下目标函数和约束条件：

其中，

表示中继节点

与水面基站BS的距离，

表示中继节点

与水面基站BS的距离，

表示中继节点

到子集Λ中任意中继节点R_c的距离；

6)建立中继节点集合Θ，该中继集合Θ中包括信源节点S_i、子集Ψ中的N_Ψ个中继节点

水面基站BS，共计N_Ψ+2个节点；设置Q学习算法的学习效率为α，探索次数为explore，分别设置Q矩阵和奖励矩阵Reward，两个矩阵大小都为(N_Ψ+2)×(N_Ψ+2)，初始Q矩阵为(N_Ψ+2)×(N_Ψ+2)的零矩阵，Q矩阵不断更新，以记录每一步探索之后的成果并作为最终路由选择的依据；奖励矩阵Reward的设置由每一跳是否成功进行、每一跳对于整体的意义决定，是更新Q矩阵的重要依据；

奖励矩阵Reward设置如下：

6.1)设奖励矩阵Reward大小为(N_Ψ+2)×(N_Ψ+2)，具体如下所示：

其中，第一行代表数据从信源节点S_i传输到其余节点的行为是否可行的标记，即对数据从Si传输到Si、N_Ψ个中继节点

和水面基站BS是否可行进行判决和标记；类似地，第二行至第N_Ψ+1行依次代表数据从N_Ψ个中继节点

传输到其余节点的行为是否可行的标记，第N_Ψ+2行代表数据从水面基站BS传输到其余节点的行为是否可行的标记；

6.2)若m,n∈Θ，对数据从节点m传输到节点n的行为是否可行的标记规定如下：

若奖励矩阵Reward(m,n)＝-1，代表数据从节点m传输到节点n的行为，没有意义或无法正常进行；若奖励矩阵Reward(m,n)＝100，代表数据从节点m传输到节点n的行为，可以正常进行，且使数据直接到达水面基站BS，即节点n是水面基站BS，且节点m可以顺利传输信息至水面基站BS；若奖励矩阵Reward(m,n)为其它值，代表数据从节点m传输到节点n的行为，有意义且可以正常进行，但数据目前暂未最终传输到水面基站BS；

6.3)奖励矩阵Reward(m,n)的标记，存在以下特殊关系：

Reward(m,m)＝-1(m＝S_i，1，2，...，N_Ψ)；Reward(BS,m)＝-1(m＝S_i，1，2，...，N_Ψ)，Reward(BS,BS)＝100，Reward(m,S_i)＝-1(m＝S_i，1，2，...，N_Ψ，BS)；若中继节点

使用发送功率P_i时信号可传输的距离，大于中继节点

到水面基站BS的距离，则

反之则

结合步骤5)所述，若中继节点R″′在

的发送功率P_i对应的信号可传输的距离范围内，且R″′在集合Λ中，记R″′∈X，Х是Λ的子集合，则：

反之，则

探索次数explore设置如下：

explore＝[N_Ψ ^3.5]

其中N_Ψ为子集Ψ中的中继节点

数量；

7)更新Q矩阵，每次探索之后Q矩阵都会更新，具体探索步骤如下：

7.1)随机选择集合Θ中的一个节点作为当前节点CN；

7.2)若当前节点CN并不是水面基站BS，从Reward矩阵中CN所在那一行选择一个后续节点NN，后续节点NN满足Reward(CN,NN)>0；若是水面基站BS，则跳到步骤7.6)；

7.3)按下列目标函数和约束条件更新Q矩阵：

其中Q′(CN,NN)为更新后的Q值，α为步骤6)所述的学习效率，Q(NN,NPN_c)表示后续节点NN到集合Γ中任意节点NPN_c对应的Q值，集合Γ是节点NN可能到达的后续节点的集合；

7.4)设置后续节点NN为新的CN；

7.5)重复步骤7.2)～步骤7.4)，直至当前节点CN为水面基站BS，完成一次探索；

7.6)重复步骤7.1)～步骤7.5)，直至探索次数达到explore为止，Q矩阵更新完成；

8)根据步骤7)中更新完成的Q矩阵，进行路由选择：

为描述方便，设多跳传输路径为：

其中

(j＝1,2,3,…,N_c)表示在子集Ψ的中继节点

中最终选择的中继节点；

8.1)对于第j跳传输而言，数据从中继节点

传输到中继节点

(当j＝0时，

表示信源节点Si；当j＝Nc+1时，

表示水面基站BS)，路由选择时选择

的具体要求如下：

8.2)j＝j+1，利用Q矩阵重复步骤8.1)，直至信源节点S_i的数据多跳传输到水面基站BS为止；

9)信息更新，i＝i+1，重复步骤2)～步骤8)，直到N_s个所有信源节点S_i全部完成水声数据传输为止。

本发明兼顾水声数据节点信息重要度与中继节点剩余能量情况，结合Q学习算法进行多跳路由选择优化，一方面可平衡网络中各节点的能量消耗，避免水声传感网络路由选择热门中继节点容易造成能量空洞问题，进而延长水声传感网络的生命周期；另一方面还可以确保重要的数据信息及时、准确地传输到水面基站。

本发明具有以下突出优点：

1)将信息重要度概念引入多跳水声传感网络，将信息重要度等级作为第一优先条件、将中继节点剩余能量作为第二优先条件，用Q学习算法选择最佳路由：对于信息重要度等级高的信息，可以选到较短的路由，确保重要信息快速、准确地传输到水面基站；对于信息重要度等级较低的信息，可以选择剩余能量充足的中继节点，避免某些中继节点重复多次利用，导致节点死亡过快、出现能量空洞问题。

2)针对水下节点能量受限、水声传输时延大的特点，本发明选择用于Q学习算法的节点数仅为全网存活节点总数的1/7，避免对全网存活节点进行探索，大大缩短Q学习迭代算法的候选节点集范围，找到最佳路由所需要的探索次数也大大减少，因此节约算法运行时间、节约水下节点功耗，延长水声网络生命周期。

3)将信源节点S_i与水面基站BS连线的虚拟传输路径线段，作为最优路由的基准线，可确保在信息重要度等级和节点剩余能量要求均满足的条件下，最终所选择的路由最短。

附图说明

图1为本发明基于信息重要度和Q学习算法的水声网络路由选择方法流程图。

图2为本发明实施例中水声传感网络的拓扑图。

图3为本发明基于信息重要度和Q学习算法的水声网络路由选择方法中继节点选择模型图。

图4为本发明基于信息重要度和Q学习算法的水声网络路由选择方法与动态最小功率法的传输距离对比图。

图5为本发明基于信息重要度和Q学习算法的水声网络路由选择方法与动态最小功率法的死亡节点对比图。

具体实施方式

下面结合附图和具体实施例对本发明做详细描述。

本发明在多跳水声传感网络中，将信息重要度等级作为第一优先条件、将中继节点剩余能量作为第二优先条件，用Q学习算法选择最佳路由，一方面可平衡系统整体能量消耗，避免能量洞的问题，延长水声通信网络的生命周期；另一方面可以确保重要的信息可准确、及时地传输到水面基站。具体包括以下步骤：

1)在水声传感网络中，包含N_s个信源节点S_i(i＝1,2,…,N_s)、N_R个中继节点R_i’(i’＝1,2,3,…,N_R)和1个水面基站BS，如图2所示，设N_s＝10、N_R＝100；信源节点S_i负责搜集声学数据，中继节点R_i’负责将信源节点搜集的声学数据信息，通过多跳方式传输至水面基站BS；设每个中继节点的初始能量均为E₀。

2)选择一个信源节点S_i开始进行多跳传输，信源节点S_i对搜集到的声学数据的信息重要度进行判定，根据信息重要度将数据分级，包括“一级，二级，三级，四级”四个信息重要度等级IL，分别表示为IL＝1，IL＝2，IL＝3，IL＝4；从一级到四级，代表数据的信息重要度越来越高；用IL_i表示信源S_i搜集到的数据的信息重要度等级；在仿真分析中，不失一般性地，可假设一级和四级的数量分别设置为总数的10％，二级和三级的数量分别设置为总数的40％，四个等级的信息数量大致服从正态分布。

的剩余能量

应满足以下要求：

其中

表示中继节点R_i’的剩余能量，

表示水声传感网络中所有中继节点的平均剩余能量。

所述满足节点位置要求，是指子集Ψ中的中继节点

的位置应满足以下要求：

其中

表示子集Ψ中的中继节点

到最小虚拟传输路径线段VTP_min的距离，

表示集合Ω中子集Ψ的补集中的中继节点

到最小虚拟传输路径线段VTP_min的距离；

所述选择中继节点

的数量N_Ψ满足：

其中N_R为水声传感网络中所有中继节点的总数，N_d为水声传感网络中死亡中继节点的数量，符合

表示向下取整。

如图3所示，首先选出满足能量要求的节点组成集合Ω；目前网络中死亡的中继节点为9个，存活的中继节点数为91，则需要从集合Ω中选择13个中继节点组成集合Ψ，选出的节点为◇1至◇13。

的剩余能量

确定中继节点

的发送功率P_i；中继节点

的发送功率P_i所对应的选择系数K_i如下：

其中E₀为每个中继节点的初始能量。

设定选择系数K_i的阈值为μ₁和μ₂，发送功率P_i的阈值为η₁、η₂和η₃，其中μ₂>μ₁，η₃>η₂>η₁。当K_i≥μ₂时，设置发送功率P_i＝η₃；当μ₂＞K_i≥μ₁时，设置发送功率P_i＝η₂；当K_i＜μ₁时，设置发送功率P_i＝η₁；当发送功率P_i小于中继节点

的最低发送功率η_min,i时，P_i＝η_min,i。

中继节点

最低发送功率η_min,i的计算可根据声纳方程，由中继节点

到最低发送功率η_min,i对应的中继节点

之间的距离

确定，子集Λ是中继节点

的最低发送功率对应中继节点候选集，即

应满足以下目标函数和约束条件：

其中，

表示中继节点

与水面基站BS的距离，

表示中继节点

与水面基站BS的距离，

表示中继节点

到子集Λ中任意中继节点R_c的距离。

水面基站BS，共计N_Ψ+2个节点；设置Q学习算法的学习效率为α，探索次数为explore，分别设置Q矩阵和奖励矩阵Reward，两个矩阵大小都为(N_Ψ+2)×(N_Ψ+2)，初始Q矩阵为(N_Ψ+2)×(N_Ψ+2)的零矩阵，Q矩阵不断更新，以记录每一步探索之后的成果并作为最终路由选择的依据；奖励矩阵Reward的设置由每一跳是否成功进行、每一跳对于整体的意义决定，是更新Q矩阵的重要依据。

奖励矩阵Reward设置如下：

6.1)设奖励矩阵Reward大小为(N_Ψ+2)×(N_Ψ+2)，具体如下所示：

6.3)奖励矩阵Reward(m,n)的标记，存在以下特殊关系：

使用发送功率P_i时信号可传输的距离，大于中继节点

到水面基站BS的距离，则

反之则

结合步骤5)所述，若中继节点R″′在

反之，则

探索次数explore设置如下：

explore＝[N_Ψ ^3.5]

其中，N_Ψ为子集Ψ中的中继节点

数量。

7.1)随机选择集合Θ中的一个节点作为当前节点CN；

7.2)若当前节点CN并不是水面基站BS，从Reward矩阵中CN所在那一行选择一个后续节点NN(next node)，后续节点NN满足Reward(CN，NN)>0；若是水面基站BS，则跳到步骤7.6)；

7.3)按下列目标函数和约束条件更新Q矩阵：

其中，Q′(CN,NN)为更新后的Q值，α为步骤8)所述的学习效率，Q(NN,NPN_c)表示后续节点NN到集合Γ中任意节点NPN_c对应的Q值，集合Γ是节点NN可能到达的后续节点的集合；

7.4)设置后续节点NN为新的CN；

7.6)重复步骤7.1)～步骤7.5)，直至探索次数达到explore为止，Q矩阵更新完成。

8)根据步骤7)中更新完成的Q矩阵，进行路由选择：

为描述方便，设多跳传输路径为

其中

(j＝1,2,3,…,N_c)表示在子集Ψ的中继节点

中最终选择的中继节点。

8.1)对于第j跳传输而言，数据从中继节点

传输到中继节点

(当j＝0时，

表示信源节点Si；当j＝Nc+1时，

表示水面基站BS)，路由选择时选择

的具体要求如下：

8.2)j＝j+1，利用Q矩阵重复步骤8.1)，直至信源节点S_i的数据多跳传输到水面基站BS为止。

图1为本发明基于信息重要度和Q学习算法的水声网络路由选择方法流程图，给出了上述步骤2)～步骤9)的全过程。图3为本发明基于信息重要度和Q学习算法的水声网络路由选择方法中继节点选择模型图，阐述了步骤步骤4)～步骤8)的过程。

下面对本发明所述方法的可行性进行计算机仿真验证。

以下是对于本发明所述方法仿真结果的分析。为验证本发明基于信息重要度和Q学习算法的水声网络路由选择方法的效果，在后续分析中，将结合Xiong等(C.Xiong,etal.Routing Design Based on Data Importance Rating in Underwater AcousticSensor Networks[C].In Proc.of IEEE ICSPCC 2020,Taipa,Macau,China,Aug.21-23,2020)提出的基于节点信息重要度的动态最小功率法，作为对比算法。仿真参数设置如下：海域范围为10km×10km，数据包大小为1024bit，数据速率为160bps，载波频率为10kHz，海洋背景噪声为60dB，接收端能成功译码的最低信噪比为25dB，中继节点初始能量E₀为0.1J，K_i的阈值μ₁为1.8，μ₂为0.4，发射声源级P_i的阈值η₁为140dB，η₂为137dB，η₃为134dB，信源节点数量N_s＝10，中继节点数量N_R＝100，仿真轮次为500。

1)多跳传输距离对比

图4为本发明基于信息重要度和Q学习算法的水声网络路由选择方法与动态最小功率法的传输距离对比图。由图4可见，采用本发明基于信息重要度和Q学习算法的水声网络路由选择方法，重要信息的多跳传输距离明显减少，可确保信源节点S_i中的重要信息及时、准确地传输到水面基站BS；不同信息重要度等级的信息，其传输距离的差异更加明显，这说明对于不同信息重要度等级信息所选择的最优多跳传输路径有明显不同，可避免多次重复利用同一条路径，进而避免该条路径上的中继节点能耗较快，出现能量空洞现象。

2)死亡节点对比

图5为本发明基于信息重要度和Q学习算法的水声网络路由选择方法与动态最小功率法的死亡节点对比图。由如图5可见，本发明基于信息重要度分级和Q学习算法的水声网络路由选择方法，死亡节点数明显少于对比算法动态最小功率法。进一步说明，基于信息重要度分级和结合Q学习算法，可以有效降低中继节点死亡过快，进而延长整个多跳水声传感网络的网络寿命。

综上，从两种方案对比来看，本发明基于信息重要度和Q学习算法的水声网络路由选择方法可以更好地找到最优多跳传输路径，一方面可平衡网络中各节点的能量消耗，避免水声传感网络路由选择热门中继节点容易造成能量空洞问题，进而延长水声传感网络的生命周期；另一方面还可以确保重要的数据信息及时、准确地传输到水面基站。

本发明将信息重要度概念引入多跳水声传感网络，将信息重要度等级作为第一优先条件、将中继节点剩余能量作为第二优先条件，用Q学习算法选择最佳路由：对于信息重要度等级高的信息，可以选到较短的路由，确保重要信息快速、准确地传输到水面基站；对于信息重要度等级较低的信息，可以选择剩余能量充足的中继节点，避免某些中继节点重复多次利用，导致节点死亡过快、出现能量空洞问题。此外，针对水下节点能量受限、水声传输时延大的特点，选择用于Q学习算法的节点数仅为全网存活节点总数的1/7，避免对全网存活节点进行探索，大大缩短Q学习迭代算法的候选节点集范围，找到最佳路由所需要的探索次数也大大减少，因此节约算法运行时间、节约水下节点功耗，延长水声网络生命周期。

Claims

1.基于信息重要度和Q学习算法的水声网络路由选择方法，其特征在于包括以下步骤：

2)选择一个信源节点S_i开始进行多跳传输，信源节点S_i对搜集到的声学数据的信息重要度进行判定，根据信息重要度将数据分级，包括“一级、二级、三级、四级”四个信息重要度等级IL，分别表示为IL＝1，IL＝2，IL＝3，IL＝4；从一级到四级，代表数据的信息重要度越来越高；用IL_i表示信源S_i搜集到的数据的信息重要度等级；

3)在所有中继节点R_i’中选出满足节点剩余能量要求的中继节点

组成集合Ω；

所述满足节点剩余能量要求，是指集合Ω中的任意中继节点

的剩余能量

应满足以下要求：

其中，

表示中继节点R_i’的剩余能量，

表示水声传感网络中所有中继节点的平均剩余能量；

4)连接信源节点S_i与水面基站BS，作出最小虚拟传输路径线段VTP_min，在集合Ω中选择满足节点位置要求的N_Ψ个中继节点

组成子集Ψ，即

所述满足节点位置要求，是指子集Ψ中的中继节点

的位置应满足以下要求：

其中，

表示子集Ψ中的中继节点

到最小虚拟传输路径线段VTP_min的距离，

表示集合Ω中子集Ψ的补集中的中继节点

到最小虚拟传输路径线段VTP_min的距离；

的剩余能量

确定中继节点

的发送功率P_i；

6)建立中继节点集合Θ，该中继节点集合Θ中包括信源节点S_i、子集Ψ中的N_Ψ个中继节点

7)更新Q矩阵，每次探索之后Q矩阵都会更新；

8)根据步骤7)中更新完成的Q矩阵，进行路由选择；

9)信息更新，i＝i+1，重复步骤2)～步骤8)，直到N_s个信源节点S_i全部完成水声数据传输为止。

2.如权利要求1所述基于信息重要度和Q学习算法的水声网络路由选择方法，其特征在于在步骤4)中，所述中继节点

的数量N_Ψ满足：

其中，N_R为水声传感网络中所有中继节点的总数，N_d为水声传感网络中死亡中继节点的数量，符号

表示向下取整。

3.如权利要求1所述基于信息重要度和Q学习算法的水声网络路由选择方法，其特征在于在步骤5)中，所述中继节点

的发送功率P_i所对应的选择系数K_i如下：

其中，E₀为每个中继节点的初始能量；

的最低发送功率η_min,i时，P_i＝η_min,i；

中继节点

最低发送功率η_min,i的计算根据声纳方程，由中继节点

到最低发送功率η_min,i对应的中继节点

之间的距离

确定，子集Λ是中继节点

的最低发送功率对应中继节点候选集，即

应满足以下目标函数和约束条件：

s.t.

其中，

表示中继节点

与水面基站BS的距离，

表示中继节点

与水面基站BS的距离，

表示中继节点

到子集Λ中任意中继节点R_c的距离。

4.如权利要求1所述基于信息重要度和Q学习算法的水声网络路由选择方法，其特征在于在步骤6)中，所述奖励矩阵Reward的设置具体如下：

4.1)设奖励矩阵Reward大小为(N_Ψ+2)×(N_Ψ+2)，如下所示：

4.2)若m,n∈Θ，对数据从节点m传输到节点n的行为是否可行的标记规定如下：

若奖励矩阵Reward(m,n)＝-1，代表数据从节点m传输到节点n的行为，没有意义或无法正常进行；若奖励矩阵Reward(m,n)＝100，代表数据从节点m传输到节点n的行为，正常进行，且使数据直接到达水面基站BS，即节点n是水面基站BS，且节点m顺利传输信息至水面基站BS；若奖励矩阵Reward(m,n)为其它值，代表数据从节点m传输到节点n的行为，有意义且正常进行，但数据目前暂未最终传输到水面基站BS；

4.3)奖励矩阵Reward(m,n)的标记，存在以下特殊关系：