CN115002865A

CN115002865A - 基于q学习和数据分级的水声网络动态计算簇头路由方法

Info

Publication number: CN115002865A
Application number: CN202210638987.4A
Authority: CN
Inventors: 陈友淦; 涂申奥; 周娜娜; 朱秀玲; 江涵希; 熊艺程; 高榜君; 许肖梅
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-02
Anticipated expiration: 2042-06-07
Also published as: CN115002865B

Abstract

基于Q学习和数据分级的水声网络动态计算簇头路由方法，涉及水声通信网络。将水下节点分簇，设簇头CH节点为计算簇头，负责计算数据传输的最优路径以及Q值表的存储，非簇头节点负责数据信号传输。根据水声网络节点的初始位置，选择初始簇头CH节点，再根据非簇头节点的能量变化率选择备用簇头。根据数据优先级程度不同进行数据分级，选择不同的数据传输模式，以保证较高数据优先级的节点优先传输；当初始计算簇头CH节点的剩余能量接近于阈值时，其与备用簇头进行任务交接，优化簇内节点能量的均匀分布，对水声通信网络能量资源的分配进行更加合理的规划，实现水声通信网络基于Q学习和数据优先级的水声通信能耗和时延优化功能。

Description

基于Q学习和数据分级的水声网络动态计算簇头路由方法

技术领域

本发明涉及水下通信，尤其是涉及一种基于Q学习和数据分级的水声网络动态计算簇头路由方法。

背景技术

近年来，水声通信网络在海洋环境保护、水下探测、海洋灾害监测、近海作业和海洋军事活动等方面有着广阔的应用前景，引起各国政府、工业界和学术界的高度重视。高效、低功耗的路由方法，作为水下无线传感器网络设计中的重要组成部分，它能保证数据包的快速可靠传输，已成为水声通信网络的研究热点。

水声通信是目前海洋中实现数据远距离可靠传输最为稳健的技术手段。由于水下传感器节点由难以更换的内置电池供电，且数据传输路径的不均匀性容易导致某些节点能量过早耗尽造成网络寿命缩短，因此延长水声网络寿命是最迫切的需求。同时，水声通信网络由于数据量大、传输速率低，容易造成网络堵塞。与陆地无线传感器网络相比，由于水声信道的固有属性，水声通信网络存在诸如能量利用率低、端到端时延长、丢包率和系统能量消耗高、网络拓扑结构适应性差等难题。为此，传统的陆基无线传感器网络路由算法，无法直接应用于水声通信网络，必须针对水声通信网络的固有特性进行路由算法的特殊设计。此外，随着海洋物联网的发展，水声通信网络感知的水下数据量越来越庞大，针对有限的水下资源，如何结合水下信息的不同数据优先级进行数据分级，进而设计合适的路由算法具有重要意义。目前，水声通信网络路由算法研究中，少有考虑数据分级问题。

Y.Lu等人(Y.Lu；R.He；X.Chen；B.Lin and C.Yu,“Energy-Efficient Depth-Based Opportunistic Routing with Q-Learning for Underwater Wireless SensorNetworks”,Sensors 2020,20,1025.)提出一种基于Q学习和深度的能量高效机会路由算法，以保证水声通信网络的节能和数据传输的可靠。该算法结合Q学习技术和机会路由算法的优点，在能量消耗、平均网络开销和报文投递率等方面提高网络性能，但却没有对空洞节点有效利用，使水声通信网络剩余能量的分布不均匀。T.Hu等人(T.Hu and Y.Fei,“QELAR:A Machine-Learning-Based Adaptive Routing Protocol for Energy-Efficient andLifetime-Extended Underwater Sensor Networks”,IEEE Trans.Mobile Comput.,vol.9,no.6,Jun.2010.)提出一种基于强化学习的自适应、节能、生命周期感知的路由方法QELAR。该协议采用通用的MAC协议，旨在通过设计使传感器节点的剩余能量分布更加均匀，以延长网络生命周期。但该方案中，节点之间互相交换信息使能量损耗增大，增加无效损耗。Y.Su等人(Y.Su,R.Fan,X.i Fu and Z.Jin,“DQELR:An Adaptive Deep Q-Network-Based Energy-and Latency-Aware Routing Protocol Design for UnderwaterAcoustic Sensor Networks”,IEEE Access,vol.7,pp.9091-9104,Jan.2019.)提出一种基于深度Q网络的自适应能量和时延感知路由方法(DQELR)，以延长水声通信网络的网络生存时间。还设计广播和单播通信机制的混合，以减少网络开销；具有更低的能耗和严格的时延限制，可以延长水声通信网络中的网络寿命。Z.Jin等人(Z.Jin；Y.Ma；Y.Su；Shuo Li andX.Fu,“A Q-Learning-Based Delay-Aware Routing Algorithm to Extend the Lifetimeof Underwater Sensor Networks”,Sensors 2017,17,1660.)提出一种基于Q学习的延迟感知路由(QDAR)算法来延长水声通信网络的生命周期。在QDAR中，设计一个适应动态环境的数据采集阶段。通过Q学习技术的应用，QDAR可以确定全局最优的下一跳，而不是采用贪婪模式进行下一跳。但由于每次路径设计都需要借助信源节点，可能会增大传播延迟，降低传输速率，导致网络堵塞。

综上，在针对水声通信网络设计具体的路由算法的相关文献中，目前在路由算法方面的专门研究尚存在诸多问题，且未见结合数据优先级特性进行水声通信网络的网络寿命延长和时延优化策略的相关研究。

发明内容

本发明的目的在于针对水声通信网络高时延、节点剩余能量分布不均匀和节点能量供应受限等难题，提供一种基于Q学习和数据分级的水声网络动态计算簇头路由方法。所提方法通过引入动态计算簇头的概念：在分簇阶段，选择初始簇头负责计算并协调数据传输，当其剩余能量接近阈值时，更换为备用簇头以达到延长网络寿命的目的；在协调数据传输阶段，将基于Q学习和数据分级的方式来安排数据传输路径，以达到避免网络堵塞的目的。

本发明包括以下步骤：

1)在整个水声通信网络中，对于在水下环境中随机分布的一系列节点，初始时刻选择任意K个节点作为簇中心，遍历所有的节点，根据公式(1)按照距离最近原则，将这些点分配到这K个簇中心附近形成K个簇；然后，根据公式(2)重新计算每个簇的簇中心，重新进行分簇，直到每次分簇的结果保持不变；在每个簇中，选取距离簇中心距离最近的节点为初始簇头CH节点；在实际应用中，可设置一个最大迭代次数，当达到最大迭代次数时终止计算便可得到较为理想的结果；

式中，D表示节点s_n与簇中心

的距离；

表示节点s_n的坐标，且x⁽ⁿ⁾、y⁽ⁿ⁾分别为节点s_n的横、纵坐标；

为第Cⁿ个簇中心的坐标，m_k为第Cⁿ个簇中的节点数量；

2)进行簇的初始化操作，确定簇内各节点的状态，初始簇头CH节点广播以通知簇内其余节点有关簇头的信息，初始簇头CH节点向临近节点发出一个包含簇头标志的空白数据包；当簇内其余节点接收到此数据包时，识别到簇头标志后，向数据包添加自身信息(包含节点深度、初始剩余能量)，并根据接收到此数据包的顺序节点对自己编号且附在数据包上；最后，当初始簇头CH节点接收到此数据包后，依据编号顺序建立初始Q值表，并根据编号检查是否遗漏节点；若遗漏节点，则再进行一次广播，直到不存在遗漏节点为止；

3)在Q学习的框架中，π策略指的是在此策略下每个状态s_i∈S和动作a_i∈A(s_i)，都对应一个固定的在状态s_i时采取动作a_i的概率为π(s_i，a_i)，其中S表示状态空间，A(s_i)表示状态s_i对应的动作空间；Q学习的核心是状态-动作对即Q(s，a)的值，在策略π下，设在状态s_t时采取动作a_t，并在其后遵循最优策略所能获得的预期回报为Q^*(s_t，a_t)：

它可以通过迭代来近似：

其中，α∈(0，1]，表示学习效率，它决定Q值的更新率；r_t表示处于状态s_t时，采取动作a_t可收到的回报；

表示从状态s_t采取动作a_t到下一个状态s_t+1的概率；γ表示折扣因子，用来对未来收到的奖励进行打折扣，并且由于最近的行为对当前价值的影响大于未来的行为，其取值范围为[0，1)；当γ设置为0时，系统只考虑当前的奖励，其行为类似于贪婪算法，但局部最优不一定会导致全局最优；当γ设定为1时，系统就会争取长期的高回报，然而，未来的奖励无法准确估计，因此，良好的表现是不能保证的；为此，需要平衡这两个因素，γ的典型值可设在0.5到0.99之间；

因此，考虑簇头CH节点计算奖励函数的r_t公式为：

r_t＝-g-β₁c(s_n)+β₂d(s_n) (5)

β₁+β₂＝1 (8)

其中，g表示持续惩罚；β₁、β₂分别表示奖励权重；c(s_n)表示有关节点s_n剩余能量的奖励，d(s_n)表示有关节点s_n深度的奖励；E_res(s_n)表示节点s_n的剩余能量，E_init(s_n)表示节点s_n的初始能量；D_(CH)表示簇头CH节点的深度，

表示节点s_n的深度；

节点深度

信息在进行簇的初始化操作时获得，节点剩余能量E_res(s_n)信息在进行或完成数据的传输时获得；

由于在最开始的一段时间内(簇内各节点初始剩余能量相同)，初始簇头在计算Q值表时，深度奖励的权重β₂增大，剩余能量奖励权重β₁减小；当簇内剩余能量的方差大于阈值C(C为常数)时，深度奖励的权重β₂减小，剩余能量奖励权重β₁增大；在实际运用中，阈值C往往根据水声网络的节点数量、节点初始剩余能量进行设置；

4)在整个水声通信网络中，各个簇头CH节点负责根据其余节点信息计算并更新Q值表，从而得出数据在各个簇头所属簇内的最佳传输途径；各个簇内非簇头节点负责数据传递和与所属簇的簇头进行信息交流；当任一节点开始传输数据时，首先判断数据的优先级进行数据分级，从而选择数据的传输方式，节点与所属簇头CH节点交换信号，簇头CH节点根据信息计算后将其返还给该节点，从而根据计算结果在簇内节点间完成数据传输；

在步骤4)中，考虑节点所传输的数据分级计算公式为：

在步骤4)中，数据的传输方式为两种类型：

设有传输数据需求的节点为s₀，节点s₀所属簇的簇头CH节点为CH₁，其余各簇簇头CH节点依次为CH₂，CH₃，...，CH_K，其余非簇头节点为s₁，s₂，...，s_n；

为避免单个节点在同一时间内参与多次数据传输从而造成信号堵塞，要求簇头CH节点在计算某条最优路径时，将参与此次最优路径的决策节点标记ψ＝1(表示这些节点需要完成传输数据的任务)，当簇头CH节点接收到节点返回的ACK数据包(包含该节点剩余能量信息)后，簇头CH节点更新Q值表，并将此节点标记为ψ＝0；简而言之，ψ＝0表示该节点处于待机状态，即没有传输任务；ψ＝1表示该节点处于工作状态，即有传输任务；要求簇头CH节点在计算某条最优路径时，只允许ψ＝0的非簇头节点参与计算；

①当θ＝1即传输的数据优先级较高时，簇内节点执行以下传输步骤：

(1)节点s₀会向簇头CH₁节点发送包含数据头和自身信息的数据包；

步骤(1)中的数据包包含传输数据的优先级θ＝1、数据头和节点s₀的剩余能量信息；其中，数据头为待传输数据的编号；

(2)当簇头CH₁节点收到来自节点s₀的数据包时，读取数据的优先级信息，并结合数据包中节点剩余能量信息对Q值表进行更新；

(3)簇头CH₁节点计算本簇内数据传输的最优路径并将信号返还给节点s₀，同时，簇头CH₁节点，向深度更浅的簇头CH₂节点，传输包含数据传输的最优路径末端节点s₁的编号信息和数据头的信息；此时，簇头CH₁节点将参与本簇内此次数据传输最优路径的节点标记为ψ＝1；

步骤(3)中簇头CH₁节点返还给节点s₀的信号，包含数据在本簇内沿最优路径传输节点的编号顺序；

(4)节点s₀接收到由簇头CH₁节点返还的信号后，开始沿簇内最优路径传输数据，直至数据传输至本簇内数据传输最优路径的末端节点s₁处；

步骤(4)中，每当沿最优路径传输数据的节点完成传输任务时，向簇头CH₁节点发生包含节点剩余能量信息的ACK数据包；簇头CH₁节点接收到ACK数据包后，将该节点标记为ψ＝0；

(5)簇头CH₂节点接收信息后，根据Q值表计算数据在本簇内的最优路径，并将信号传给本簇与上一簇最优路径末端节点s₁连接的初始节点s₂，同时簇头CH₂节点向更浅的簇头CH₂节点传输包含最优路径末端节点s₃信息和数据头的信息；

(6)节点s₂向上一簇内数据传输的最优路径末端节点s₁发送接收信号，然后节点s₂接收来自节点s₁的数据后，开始沿本簇内数据传输最优路径传输数据，直至数据传输至本簇内数据传输最优路径的末端节点s₃处；

(7)重复迭代步骤(3)～(6)直至没有更浅的簇头CH节点，最终由最后一簇的数据传输最优路径的末端节点s_n向Sink节点传输数据；

②当θ＝0即传输的数据优先级较低时，簇内节点执行以下传输步骤：

步骤(1)中的数据包包含传输数据的优先级θ＝0、数据头和节点s₀的剩余能量信息；其中，数据头为待传输数据的编号；

(3)簇头CH₁节点计算本簇内数据传输的最优路径，并将信号返还给节点s₀；此时，簇头CH₁节点将参与本簇内此次数据传输最优路径的节点标记为ψ＝1；节点s₀接受到由簇头CH₁节点返还的信号后，开始沿簇内最优路径传输数据；

步骤(3)中，每当沿最优路径传输数据的节点完成传输任务时，向簇头CH₁节点发生包含节点剩余能量信息的ACK数据包；簇头CH₁节点接收到ACK数据包后，将该节点标记为ψ＝0；

(4)当数据传输到本簇内数据传输最优路径末端节点s₁后，节点s₁向深度更浅的其它簇的近邻节点s₂(排除簇头CH节点)发送包含数据头和数据优先级信息的数据包；

(5)近邻节点s₂收到数据包后，向本簇簇头CH₂节点转发包含数据头和数据优先级信息的数据包；

(6)簇头CH₂节点接收数据包后，根据是否存在优先级较高数据的传输需求，判断是否进行最优路径计算；

(6.1)若有优先级较高数据的传输需求，簇头CH₂节点向近邻节点s₂发送等待信号，近邻节点s₂再转发此信号给节点s₁，节点s₁保留数据进行等待直至近邻节点s₂发送接收信号；

(6.2)若无优先级较高数据的传输需求，簇头CH₂节点根据Q值表计算在本簇内数据传输的最优路径并向近邻节点s₂发送信号；此时近邻节点s₂向节点s₁发送接收信号，然后近邻节点s₂接收来自节点s₁的数据后，开始沿本簇内数据传输最优路径传输数据；

步骤(6.2)中簇头CH₂节点返还给节点s₂的信号包含数据在本簇内沿最优路径传输节点的编号顺序；

(7)重复迭代步骤(4)～(6)直至没有深度更浅的簇头CH节点，最终由最后一簇的数据传输最优路径的末端节点s_n向Sink节点传输数据；

5)当节点判断数据的优先级后，节点将选择数据的传输方式以完成数据传递；在簇头CH节点计算最优路径的过程中，簇头CH节点的剩余能量会随时间的增加而减小；当簇头CH节点剩余能量E_res(CH)低于阈值E_ave时，初始簇头CH节点将失去计算功能并将自身信息和各非簇头节点信息传递给备用簇头，并开始传输数据和数据头信息，备用簇头接收到初始簇头的信息后，启用计算功能并广播通知簇内节点簇头已发生改变，同时，开始寻找备用簇头；

步骤5)中，考虑替换簇头CH节点有关的能量阈值计算公式为：

式中，E_res(CH)表示簇头CH节点的剩余能量，E_res(s_i)表示节点s_i的剩余能量，n_k表示当前簇内非簇头节点的数量；

在簇头CH节点计算最优路径的过程中，簇头CH节点的剩余能量会随时间的增加而减小，通过动态簇头的替换，有利于水声通信网络寿命的延长；

在选择备用簇头的阶段，结合非簇头节点能量变化率因素，尽量选择可能为空洞的潜在节点作为后续阶段的备用簇头；簇头CH节点根据其余节点能量变化率定时更新各非簇头节点的V值，选择V值最小的非簇头节点为备用簇头；其中，V值表示各非簇头节点可能作为备用簇头的预期值；

步骤5)中，考虑非簇头节点的V值计算公式为：

式中，E_init(s_n)表示节点s_n的初始能量，E_res(s_n)表示节点s_n的剩余能量；

当簇头CH节点剩余能量E_res(CH)低于阈值E_ave(由公式(10)计算所得)时，初始簇头CH节点失去计算功能，并将自身信息和各非簇头节点信息传递给备用簇头，同时开始传输数据和数据头信息，随即成为非簇头节点；备用簇头接收完初始簇头CH节点的信息后，启用计算功能；随即成为簇头CH节点，并且同时广播通知簇内其余节点簇头已发生改变；

当簇头CH节点替换上一簇头CH节点后，簇头CH节点开始寻找备用簇头；如此循环进行协议全程动态簇头的选择和替换，以延长水声通信网络的寿命。

本发明具有以下突出优点：

1)本发明可以有效降水声通信网络中通信的时延和能耗，并在一定程度上解决水下节点剩余能量分布不均的问题。

2)本发明考虑到水下水声通信网络的高时延、高能耗、网络寿命短难题，提出基于Q学习的动态计算簇头跨簇协调数据传输，通过动态簇头根据剩余能量、深度计算最优数据传输路径，簇内其余节点只负责传输数据和发送信息，同时，结合数据的优先级选择不同的数据传输模式有助于减少能量损耗、节约计算资源，延长水下水声网络寿命、减少端到端传输时延，以提升水声通信网络路由算法性能。

3)本发明根据传输数据的优先级不同，提出数据分级机制，不同优先级数据采用不同的数据传输方式，以减少水声通信网络的通信时延和避免网络堵塞。

附图说明

图1为水下水声通信网络构架场景图。

图2为水下水声通信网络数据传输模式流程图。

图3为水下水声通信网络随机节点的坐标分布图。

图4为水下水声通信网络数据传输动态计算簇头跨簇协调最优路径仿真分析结果图。

具体实施方式

下面结合附图和具体实施例对本发明做详细描述。

如图1所示，本发明实施例包括以下步骤：

1)在整个水声通信网络中，对于在水下环境中随机分布的一系列节点，初始时刻选择任意K个节点作为簇中心，遍历所有的节点，根据公式(1)按照距离最近原则，将这些点分配到这K个簇中心附近形成K个簇。然后，根据公式(2)重新计算每个簇的簇中心，重新进行分簇，直到每次分簇的结果保持不变。在每个簇中，选取距离簇中心距离最近的节点为初始簇头CH节点。在实际应用中，可设置一个最大迭代次数，当达到最大迭代次数时终止计算便可得到较为理想的结果。

式中，D表示节点s_n与簇中心

的距离；

为第Cⁿ个簇中心的坐标，m_k为第Cⁿ个簇中的节点数量。

2)进行簇的初始化操作，确定簇内各节点的状态，初始簇头CH节点广播以通知簇内其余节点有关簇头的信息，初始簇头CH节点向临近节点发出一个包含簇头标志的空白数据包。当簇内其余节点接收到此数据包时，识别到簇头标志后，向数据包添加自身信息(包含节点深度、初始剩余能量)，并根据接收到此数据包的顺序节点对自己编号且附在数据包上。最后，当初始簇头CH节点接收到此数据包后，依据编号顺序建立初始Q值表，并根据编号检查是否遗漏节点。若遗漏节点，则再进行一次广播，直到不存在遗漏节点为止。

3)在Q学习的框架中，π策略指的是在此策略下每个状态s_i∈S和动作a_i∈A(s_i)，都对应一个固定的在状态s_i时采取动作a_i的概率为π(s_i，a_i)，其中S表示状态空间，A(s_i)表示状态s_i对应的动作空间。Q学习的核心是状态-动作对即Q(s，a)的值，在策略π下，设在状态s_t时采取动作a_t，并在其后遵循最优策略所能获得的预期回报为Q^*(s_t，a_t)：

它可以通过迭代来近似：

表示从状态s_t采取动作a_t到下一个状态s_t+1的概率；γ表示折扣因子，用来对未来收到的奖励进行打折扣，并且由于最近的行为对当前价值的影响大于未来的行为，其取值范围为[0，1)。当γ设置为0时，系统只考虑当前的奖励，其行为类似于贪婪算法，但局部最优不一定会导致全局最优；当γ设定为1时，系统就会争取长期的高回报，然而，未来的奖励无法准确估计，因此，良好的表现是不能保证的。为此，需要平衡这两个因素，γ的典型值可设在0.5到0.99之间。

因此，考虑簇头CH节点计算奖励函数的r_t公式为：

r_t＝-g-β₁c(sn)+β₂d(s_n) (5)

β₁+β₂＝1 (8)

其中，g表示持续惩罚。β₁、β₂分别表示奖励权重。c(s_n)表示有关节点s_n剩余能量的奖励，d(s_n)表示有关节点s_n深度的奖励。E_res(s_n)表示节点s_n的剩余能量，E_init(s_n)表示节点s_n的初始能量。D_(CH)表示簇头CH节点的深度，

表示节点s_n的深度。

节点深度

信息在进行簇的初始化操作时获得，节点剩余能量E_res(s_n)信息在进行或完成数据的传输时获得。

由于在最开始的一段时间内(簇内各节点初始剩余能量相同)，初始簇头在计算Q值表时，深度奖励的权重β₂增大，剩余能量奖励权重β₁减小；当簇内剩余能量的方差大于阈值C(C为常数)时，深度奖励的权重β₂减小，剩余能量奖励权重β₁增大。在实际运用中，阈值C往往根据水声网络的节点数量、节点初始剩余能量进行设置。

4)在整个水声通信网络中，各个簇头CH节点负责根据其余节点信息计算并更新Q值表，从而得出数据在各个簇头所属簇内的最佳传输途径。各个簇内非簇头节点负责数据传递和与所属簇的簇头进行信息交流。当任一节点开始传输数据时，首先判断数据的优先级进行数据分级，从而选择数据的传输方式，节点与所属簇头CH节点交换信号，簇头CH节点根据信息计算后将其返还给该节点，从而根据计算结果在簇内节点间完成数据传输。

在步骤4)中，考虑节点所传输的数据分级计算公式为：

在步骤4)中，数据的传输方式为两种类型：

设有传输数据需求的节点为s₀，节点s₀所属簇的簇头CH节点为CH₁，其余各簇簇头CH节点依次为CH₂，CH₃，...，CH_K，其余非簇头节点为s₁，s₂，...，s_n。

为避免单个节点在同一时间内参与多次数据传输从而造成信号堵塞，要求簇头CH节点在计算某条最优路径时，将参与此次最优路径的决策节点标记ψ＝1(表示这些节点需要完成传输数据的任务)，当簇头CH节点接收到节点返回的ACK数据包(包含该节点剩余能量信息)后，簇头CH节点更新Q值表，并将此节点标记为ψ＝0。简而言之，ψ＝0表示该节点处于待机状态，即没有传输任务；ψ＝1表示该节点处于工作状态，即有传输任务。要求簇头CH节点在计算某条最优路径时，只允许ψ＝0的非簇头节点参与计算。

步骤(1)中的数据包包含传输数据的优先级θ＝1、数据头和节点s₀的剩余能量信息。其中，数据头为待传输数据的编号。

(3)簇头CH₁节点计算本簇内数据传输的最优路径并将信号返还给节点s₀，同时，簇头CH₁节点，向深度更浅的簇头CH₂节点，传输包含数据传输的最优路径末端节点s₁的编号信息和数据头的信息。此时，簇头CH₁节点将参与本簇内此次数据传输最优路径的节点标记为ψ＝1。

步骤(3)中簇头CH₁节点返还给节点s₀的信号，包含数据在本簇内沿最优路径传输节点的编号顺序。

(4)同时，节点s₀接收到由簇头CH₁节点返还的信号后，开始沿簇内最优路径传输数据，直至数据传输至本簇内数据传输最优路径的末端节点s₁处；

步骤(4)中，每当沿最优路径传输数据的节点完成传输任务时，向簇头CH₁节点发生包含节点剩余能量信息的ACK数据包。簇头CH₁节点接收到ACK数据包后，将该节点标记为ψ＝0。

(5)簇头CH₂节点接收信息后，根据Q值表计算数据在本簇内的最优路径，并将信号传给本簇与上一簇最优路径末端节点s₁连接的初始节点s₂，同时簇头CH₂节点向更浅的簇头CH₂节点传输包含最优路径末端节点s₃信息和数据头的信息。

(6)节点s₂向上一簇内数据传输的最优路径末端节点s₁发送接收信号，然后节点s₂接收来自节点s₁的数据后，开始沿本簇内数据传输最优路径传输数据，直至数据传输至本簇内数据传输最优路径的末端节点s₃处。

(7)重复迭代步骤(3)～(6)直至没有更浅的簇头CH节点，最终由最后一簇的数据传输最优路径的末端节点s_n向Sink节点传输数据。

步骤(1)中的数据包包含传输数据的优先级θ＝0、数据头和节点s₀的剩余能量信息。其中，数据头为待传输数据的编号。

(3)簇头CH₁节点计算本簇内数据传输的最优路径，并将信号返还给节点s₀。此时，簇头CH₁节点将参与本簇内此次数据传输最优路径的节点标记为ψ＝1。节点s₀接受到由簇头CH₁节点返还的信号后，开始沿簇内最优路径传输数据；

步骤(3)中，每当沿最优路径传输数据的节点完成传输任务时，向簇头CH₁节点发生包含节点剩余能量信息的ACK数据包。簇头CH₁节点接收到ACK数据包后，将该节点标记为ψ＝0。

(6)簇头CH₂节点接收数据包后，根据是否存在优先级较高数据的传输需求，判断是否进行最优路径计算。

(6.1)若有优先级较高数据的传输需求，簇头CH₂节点向近邻节点s₂发送等待信号，近邻节点s₂再转发此信号给节点s₁，节点s₁保留数据进行等待直至近邻节点s₂发送接收信号。

(6.2)若无优先级较高数据的传输需求，簇头CH₂节点根据Q值表计算在本簇内数据传输的最优路径并向近邻节点s₂发送信号。此时近邻节点s₂向节点s₁发送接收信号，然后近邻节点s₂接收来自节点s₁的数据后，开始沿本簇内数据传输最优路径传输数据。

步骤(6.2)中簇头CH₂节点返还给节点s₂的信号包含数据在本簇内沿最优路径传输节点的编号顺序。

(7)重复迭代步骤(4)～(6)直至没有深度更浅的簇头CH节点，最终由最后一簇的数据传输最优路径的末端节点s_n向Sink节点传输数据。

5)当节点判断数据的优先级后，节点将选择数据的传输方式以完成数据传递。在簇头CH节点计算最优路径的过程中，簇头CH节点的剩余能量会随时间的增加而减小。当簇头CH节点剩余能量E_res(CH)低于阈值E_ave时，初始簇头CH节点将失去计算功能并将自身信息和各非簇头节点信息传递给备用簇头，并开始传输数据和数据头信息，备用簇头接收到初始簇头的信息后，启用计算功能并广播通知簇内节点簇头已发生改变，同时，开始寻找备用簇头。

步骤5)中，考虑替换簇头CH节点有关的能量阈值计算公式为：

式中，E_res(CH)表示簇头CH节点的剩余能量，E_res(s_i)表示节点s_i的剩余能量，n_k表示当前簇内非簇头节点的数量。

在簇头CH节点计算最优路径的过程中，簇头CH节点的剩余能量会随时间的增加而减小，通过动态簇头的替换，有利于水声通信网络寿命的延长。

在选择备用簇头的阶段，结合非簇头节点能量变化率因素，尽量选择可能为空洞的潜在节点作为后续阶段的备用簇头。簇头CH节点根据其余节点能量变化率定时更新各非簇头节点的V值，选择V值最小的非簇头节点为备用簇头。其中，V值表示各非簇头节点可能作为备用簇头的预期值。

步骤5)中，考虑非簇头节点的V值计算公式为：

式中，E_init(s_n)表示节点s_n的初始能量，E_res(s_n)表示节点s_n的剩余能量。

当簇头CH节点剩余能量E_res(CH)低于阈值E_ave(由公式(10)计算所得)时，初始簇头CH节点失去计算功能，并将自身信息和各非簇头节点信息传递给备用簇头，同时开始传输数据和数据头信息，随即成为非簇头节点；备用簇头接收完初始簇头CH节点的信息后，启用计算功能。随即成为簇头CH节点，并且同时广播通知簇内其余节点簇头已发生改变。

当簇头CH节点替换上一簇头CH节点后，簇头CH节点开始寻找备用簇头。如此循环进行协议全程动态簇头的选择和替换，以延长水声通信网络的寿命。

下面对本发明所述方法的可行性进行计算机仿真验证。

仿真平台为MATLAB_R2021b。

如图3所示，随机布置水下传感器节点网络拓扑模型，共40个节点。

参数设置如下：簇头数量K＝5；非簇头节点数n＝35；节点总数n+K＝40；探索迭代次数ε_max＝10000；学习效率α＝0.9；折扣因子γ＝0.8；持续惩罚g＝0.1；奖励权重β₁＝0.4；奖励权重β₂＝0.6；Q值表初始化为7×7的零矩阵。

通过图3可知，该水声通信网络拓扑模型共有5个簇。

以某一簇为例，介绍仿真过程。

(1)设置各非簇头节点的奖励矩阵R_7×7，其奖励值设置规则如下：

①当节点s_i的传输距离小于节点s_i和节点s_j的几何距离时，R(s_i，s_j)＝-1000；

②当节点s_i的传输距离大于节点s_i和节点s_j的几何距离时，由公式(5～7)可知：

R(s_i，s_j)＝-g-β₁c(s_j)+β₂d(s_j)

其中，g表示持续惩罚。β₁、β₂分别表示奖励权重。c(s_j)表示有关节点s_j剩余能量的奖励，d(s_j)表示有关节点s_j深度的奖励。E_res(s_j)表示节点s_j的剩余能量，E_init(s_j)表示节点s_j的初始能量。D_(CH)表示簇头CH节点的深度，

表示节点s_j的深度。

(2)在簇头CH节点计算数据传输最优路径之前，根据簇内各非簇节点的剩余能量和节点与Sink节点之间的距离，选择本簇内数据传输最优路径的末端节点s_N，即ρ值最大的非簇头节点。其公式为：

式中，E_res(s_i)表示节点s_i的剩余能量，E_init(s_i)表示节点s_i的初始能量，

表示节点s_i与Sink节点之间的距离。

(3)更新簇头CH节点的Q矩阵，每次探索迭代后Q矩阵都会更新一次，直至矩阵收敛。具体步骤如下：

①随机选择一个簇内非簇头节点s_i，从奖励矩阵R矩阵中的第i-1行(即该节点所在的行)随机选择下一个节点s′_i，由公式(4)可知更新规则为：

其中，Q′(s_i，s′_i)为更新后的Q值，α、γ分别是前面设置过的学习效率和折扣因子，Ψ表示满足R(s′_i，s″_i)＞-1000的点组成的集合。

②重复步骤①，直至矩阵达到收敛为止。

(4)当某一节点需要传输数据时，簇头CH节点根据Q值表进行最优路径计算。

①选择信源节点s₀，设多跳路径为：s₀→s₁→s₂→…→s_i→s_i+1→…→s_N

②数据从节点s_i传至下一个节点s_i+1

选择下一个节点的要求是：Q(s_i，s_i+1)＝max{Q(s_i，s_1～N)}；

③重复步骤②，直至i＝N，即为完成最优路径的计算；

(5)当本簇内数据传送至最优路径的末端节点时，深度更浅的簇头CH节点根据簇内各非簇节点的剩余能量和节点与末端节点之间的距离，选择更浅簇内数据传输最优路径的初始节点，即σ值最大的非簇头节点。其公式为：

表示节点s_i与末端节点之间的距离。

(6)重复步骤(3)～(5)，直至数据传输至Sink节点。

图4所示为水下水声通信网络数据传输跨簇协调最优路径仿真分析结果图，其中S₁和S₂为信源节点，Sink为目的节点。X、Y轴的单位为m(米)。

以S₁为信源节点时，第一簇内的最优路径为L₁＝[1，5，7]，第二簇内的最优路径为L₂＝[8，10，12，13]，第三簇内的最优路径为L₃＝[15，21]，随后数据传输至Sink节点。

以S₂为信源节点时，第一簇内的最优路径为L₁＝[23，25，27，28]，第二簇内的最优路径为L₂＝[29，32，34，35]，第三簇内的最优路径为L₃＝[18，20]，随后数据传输至Sink节点。

Claims

1.基于Q学习和数据分级的水声网络动态计算簇头路由方法，其特征在于包括以下步骤：

1)在整个水声通信网络中，对于在水下环境中随机分布的一系列节点，初始时刻选择任意K个节点作为簇中心，遍历所有的节点，根据公式(1)按照距离最近原则，将这些点分配到这K个簇中心附近形成K个簇；根据公式(2)重新计算每个簇的簇中心，重新进行分簇，直到每次分簇的结果保持不变；在每个簇中，选取距离簇中心距离最近的节点为初始簇头CH节点；在实际应用中，设置一个最大迭代次数，当达到最大迭代次数时终止计算得到较为理想的结果；

式中，D表示节点s_n与簇中心

的距离；

为第Cⁿ个簇中心的坐标，m_k为第Cⁿ个簇中的节点数量；

2)簇的初始化操作，确定簇内各节点的状态，初始簇头CH节点广播以通知簇内其余节点有关簇头的信息，初始簇头CH节点向临近节点发出一个包含簇头标志的空白数据包；当簇内其余节点接收到此数据包时，识别到簇头标志后，向数据包添加自身信息，自身信息包含节点深度、初始剩余能量，根据接收到此数据包的顺序节点对自己编号且附在数据包上；最后，当初始簇头CH节点接收到此数据包后，依据编号顺序建立初始Q值表，根据编号检查是否遗漏节点；若遗漏节点，则再进行一次广播，直到不存在遗漏节点为止；

3)在Q学习的框架中，π策略指在此策略下每个状态s_i∈S和动作a_i∈A(s_i)，都对应一个固定的在状态s_i时采取动作a_i的概率为π(s_i,a_i)，其中，S表示状态空间，A(s_i)表示状态s_i对应的动作空间；Q学习的核心是状态-动作对即Q(s,a)的值，在策略π下，设在状态s_t时采取动作a_t，并在其后遵循最优策略所能获得的预期回报为Q^*(s_t,a_t)：

通过迭代来近似：

其中，α∈(0,1]，表示学习效率，决定Q值的更新率；r_t表示处于状态s_t时，采取动作a_t可收到的回报；

表示从状态s_t采取动作a_t到下一个状态s_t+1的概率；γ表示折扣因子，用于对未来收到的奖励进行打折扣，并且由于最近的行为对当前价值的影响大于未来的行为，其取值范围为[0,1)；当γ设置为0时，系统只考虑当前的奖励，行为类似于贪婪算法，但局部最优不一定会导致全局最优；当γ设定为1时，系统会争取长期的高回报，然而，未来的奖励无法准确估计，因此，良好的表现是不能保证的；为此，需要平衡这两个因素，γ的典型值设在0.5到0.99之间；

考虑簇头CH节点计算奖励函数的r_t公式为：

r_t＝-g-β₁c(s_n)+β₂d(s_n) (5)

β₁+β₂＝1 (8)

表示节点s_n的深度；

节点深度

由于在最开始的一段时间内(簇内各节点初始剩余能量相同)，初始簇头在计算Q值表时，深度奖励的权重β₂增大，剩余能量奖励权重β₁减小；当簇内剩余能量的方差大于阈值C时，深度奖励的权重β₂减小，剩余能量奖励权重β₁增大；在实际运用中，阈值C往往根据水声网络的节点数量、节点初始剩余能量进行设置；其中，C为常数；

考虑节点所传输的数据分级计算公式为：

考虑替换簇头CH节点有关的能量阈值计算公式为：

2.如权利要求1所述基于Q学习和数据分级的水声网络动态计算簇头路由方法，其特征在于在步骤4)中，所述数据的传输方式为两种类型：

设有传输数据需求的节点为s₀，节点s₀所属簇的簇头CH节点为CH₁，其余各簇簇头CH节点依次为CH₂，CH₃，…，CH_K，其余非簇头节点为s₁，s₂，…，s_n；

(1)节点s₀会向簇头CH₁节点发送包含数据头和自身信息的数据包；数据包包含传输数据的优先级θ＝1、数据头和节点s₀的剩余能量信息；其中，数据头为待传输数据的编号；

(3)簇头CH₁节点计算本簇内数据传输的最优路径并将信号返还给节点s₀，同时，簇头CH₁节点，向深度更浅的簇头CH₂节点，传输包含数据传输的最优路径末端节点s₁的编号信息和数据头的信息；此时，簇头CH₁节点将参与本簇内此次数据传输最优路径的节点标记为ψ＝1；簇头CH₁节点返还给节点s₀的信号，包含数据在本簇内沿最优路径传输节点的编号顺序；

每当沿最优路径传输数据的节点完成传输任务时，向簇头CH₁节点发生包含节点剩余能量信息的ACK数据包；簇头CH₁节点接收到ACK数据包后，将该节点标记为ψ＝0；

(1)节点s₀会向簇头CH₁节点发送包含数据头和自身信息的数据包；数据包包含传输数据的优先级θ＝0、数据头和节点s₀的剩余能量信息；其中，数据头为待传输数据的编号；

(4)当数据传输到本簇内数据传输最优路径末端节点s₁后，节点s₁向深度更浅的其它簇的近邻节点s₂发送包含数据头和数据优先级信息的数据包；其它簇的近邻节点s₂排除簇头CH节点；

3.如权利要求1所述基于Q学习和数据分级的水声网络动态计算簇头路由方法，其特征在于在步骤5)中，所述备用簇头的选取和簇头CH节点和备用簇头替换的影响因素如下：

(1)在簇头CH节点计算最优路径的过程中，簇头CH节点的剩余能量会随时间的增加而减小，通过动态簇头的替换，有利于水声通信网络寿命的延长；

考虑非簇头节点的V值计算公式为：

(2)当簇头CH节点剩余能量E_res(CH)低于阈值E_ave(由公式(10)计算所得)时，初始簇头CH节点失去计算功能，并将自身信息和各非簇头节点信息传递给备用簇头，同时开始传输数据和数据头信息，随即成为非簇头节点；备用簇头接收完初始簇头CH节点的信息后，启用计算功能；随即成为簇头CH节点，并且同时广播通知簇内其余节点簇头已发生改变；

(3)当簇头CH节点替换上一簇头CH节点后，簇头CH节点开始寻找备用簇头；如此循环进行协议全程动态簇头的选择和替换，以延长水声通信网络的寿命。