CN113691391B

CN113691391B - 基于q学习的节点数量可变水声网络介质访问控制方法

Info

Publication number: CN113691391B
Application number: CN202110791390.9A
Authority: CN
Inventors: 陈友淦; 黄伟迪; 张文翔; 万磊; 陈柯宇; 张小康; 许肖梅
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2022-05-17
Anticipated expiration: 2041-07-13
Also published as: CN113691391A

Abstract

基于Q学习的节点数量可变水声网络介质访问控制方法，涉及水声网络。将汇聚节点搜集水声传感器节点所感知数据的传输过程分为若干个时隙，运用Q学习算法，结合汇聚节点的反馈信号、传感器节点数量变化情况，通过合理设置奖励机制，针对Q矩阵的一整行(即子矩阵)进行整体的奖励子矩阵设计，而非逐个元素更新Q矩阵，将时隙合理分配给各传感器节点，使数据在传输过程中不会受到其它传感器节点的影响，避免汇聚节点数据搜集冲突。本发明所提方法具有学习速度快、吞吐量高、能耗节约、抗干扰能力强的特点，可解决节点死亡或者位置漂移导致的节点减少时的时隙冗余问题或节点增加时的时隙不足问题，确保水声数据传输的成功率和水声网络高吞吐量。

Description

基于Q学习的节点数量可变水声网络介质访问控制方法

技术领域

本发明涉及水声网络，尤其是涉及一种基于Q学习的节点数量可变水声网络介质访问控制方法。

背景技术

近年来，无论是在军事方面还是在民用方面，占据地球表面积71％的海洋日益成为世界关注的焦点。作为海洋物联网的重要组成部分，水声网络也逐渐成为重要的研究热点之一。

水声网络由大量电池供电的水声传感器节点构成，然而在海洋环境下，节点的电池更换难度大、成本高，且水声信道传播时延长、信道容量小、可靠性低。这要求水声网络进行数据传输必须采用高效节能的协议。水声网络介质访问控制协议是，多个用户/节点共享同一水声信道介质，分配介质使用权的协议，是水声网络进行正常工作的重要协议。

针对水声网络数据传输能耗高、海洋信道条件不稳定的问题，Ahmed等(Ahmed F,et al.,A Time-Slotted Data Gathering Medium Access Control Protocol Using Q-Learning for Underwater Acoustic Sensor Networks[J].IEEE Access,2021,9(1):48742-48752.)从能耗和复杂度等角度出发，将Q学习算法用于水声网络介质访问控制协议，允许节点智能选择退避槽，并相应调度数据包传输，以避免数据传输冲突。但该协议存在收敛速度慢、抗干扰能力弱、节点数量无法大动态变化等问题，且在节点数目较多的水声网络，其性能也会有所下降。当前，水声网络和人工智能的结合大部分集中在路由优化设计方面，仅有个别研究关注其在介质访问控制协议方面的研究。目前，Q学习与水声网络介质访问控制协议结合的研究中，尚未见海洋信道环境动态变化导致可接入节点数量变化时，如何优化Q学习设计，以确保水声网络维持高吞吐量、快学习速度和强鲁棒性的方法。

发明内容

本发明的目的在于针对水声网络能耗有限、吞吐量低和海洋信道环境大动态变化等问题，利用Q学习算法，通过优化设计奖励机制，提供一种拥有高学习速度和节能的介质访问控制方法，在水声网络节点数量变化的情况下，仍可实现复杂度低、吞吐量高、抗干扰能力强的新型介质访问控制协议，优化水声信道介质资源使用权分配方案，提升网络性能的基于Q学习的节点数量可变水声网络介质访问控制方法。

本发明包括以下步骤：

1)参数初始化：

考虑一个水声网络，包含M个传感器节点(以下简称“节点”)和1个信宿(以下简称“信宿”)，节点从海洋环境中感知信息，信宿负责搜集节点感知的声学数据。

设信宿的数据搜集过程分为N个时隙，为确保每个节点都拥有一个时隙将数据发送给信宿，可令时隙数N与水声网络节点数M相等；设Q学习算法中，应用于介质访问控制的Q矩阵为M×N的矩阵，Q矩阵的行m(m＝1,2,…,M)表示节点序号，Q矩阵的列n(n＝1,2,…,N)表示时隙序号；因此，Q(m,n)表示节点m选择第n个时隙发送数据这一动作所对应的Q值；Q值越大表示节点m选择第n个时隙发送数据的优先度越大，即，节点m会选择Q矩阵第m行中Q值最高的时隙发送数据；若第m行中出现多个相同的最高Q值，则会在第m行最高Q值的多个时隙中随机选择一个时隙发送数据；为降低节点运算复杂度，每个节点内部只需存储表示自己选择发送时隙的那一行子矩阵，即节点m只需存储大小为1×N的子矩阵Q_m，其中Q＝[Q₁；Q₂；…；Q_m；…；Q_M-1；Q_M]；设每个节点的数据帧格式相同、长度相同，时隙的时间长度也相同，且时隙的时间长度等于水声最大传播时延加数据帧长度；

初始化迭代次数i＝0，最大迭代次数为K，初始Q值表为M×N的零矩阵。

2)当数据搜集开始，信宿记录各个时隙的接收情况，若在某个时隙内没有成功接收到完整数据，信宿会记下该时隙为未成功；在传输结束时，信宿会广播一个反馈信号给所有节点。该反馈信号，包含网络内的时隙数N和未成功的时隙信息(包括该时隙内数据冲突、因信道状态差无法成功接收数据、无节点发送数据/时隙空闲状态三种情况)。

3)奖励机制设计：

当收到信宿的反馈信号之后，节点m会根据发送时自身选择第n个时隙发送数据这一动作，结合反馈信号里的未成功时隙信息，针对Q矩阵的第m行(即节点m内部存储Q矩阵的子矩阵Q_m)，获得不同的奖励子矩阵R_m(m,:)。R_m(m,:)表示节点m选择第n个时隙发送数据这一动作后结合反馈信号而获得的奖励子矩阵。

奖励子矩阵R_m(m,:)的设置如下：

①若节点m所选择的第n个时隙发送成功，且n≠N(即第n个时隙不是最后一个时隙)，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为正值+|Ψ|，以确保Q_m(m,n)值增加。

②若节点m所选择的第n个时隙发送成功，且n＝N(即第n个时隙是最后一个时隙)，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为负值-δ·|Ψ|，其中δ属于(0,1)，以确保Q_m(m,n)值缓慢变化，最后略低于零。

③若节点m所选择的第n个时隙发送失败，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为0，以确保Q_m(m,n)值趋于0。

④若是节点m选择第n个时隙以外的时隙n_其它发送成功，那么节点m的奖励子矩阵R_m(m,:)中的元素R_m(m,n_其它)为负值-|Ψ|，其中n_其它≠n，以确保Q_m(m,n_其它)值减小。

⑤若是节点m选择第n个时隙以外的时隙n_其它发送失败，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n_其它)为0，其中n_其它≠n，以确保Q_m(m,n_其它)值趋于0。

4)按照Q学习公式Q_m(m,:)←(1-γ)·Q_m(m,:)+γ·R_m(m,:)更新Q值表，其中，γ是学习速率，取值为(0,1]，子矩阵R_m是大小与子矩阵Q_m相同的奖励子矩阵。

5)i＝i+1，若达到最大迭代次数K或Q值表不再变化或反馈信号中无未成功的时隙信息，则到达稳定状态，否则重复步骤2)至步骤4)。

6)根据迭代得到的最终Q值表，让节点m选择Q值最大所对应的时隙n_max发送数据给信宿，完成水声信道介质资源使用权分配任务。

7)在步骤2)至步骤4)中，当存在新的1个节点加入水声网络时(即，M＝M+1)，该新节点的序号为(M+1)，节点(M+1)收到信宿的反馈信号后，执行以下步骤：

7.1)根据反馈信号里的时隙数N，初始化新节点的子矩阵Q_M+1为1×(N+1)的零矩阵。

7.2)接着，新节点尚未发送数据，根据反馈信号，对子矩阵Q_M+1进行更新，更新方法与步骤3)至步骤4)相同。

7.3)在步骤7.2)中，更新后的子矩阵Q_M+1的最高值是Q_M+1(M+1,N+1)，重复步骤2)开始新的一轮传输。信宿在第(N+1)个时隙接收到新节点(M+1)的数据后，更新反馈信号中的时隙数N为(N+1)。

7.4)其它节点m收到更新后的反馈信号后，将Q值表扩展为1×(N+1)子矩阵Q_m，第(N+1)个元素Q_m(m,N+1)值为0。

7.5)对网络内除新节点以外的其余M个节点，执行步骤7.4)。

8)在步骤2)～步骤4)中，当1个节点退出水声网络时(即，M＝M-1)，执行以下步骤：

8.1)若在第n个时隙发送数据的节点m退出水声网络，则信宿在第n个时隙未接收到数据，标记第n个时隙为未成功，并通过反馈信号广播给网络中剩余的所有节点。

8.2)剩余的所有节点根据反馈信号更新各自的子矩阵Q_k，其中k＝1,2,…,M，且k≠m，经过步骤2)～步骤4)的多次迭代，所有节点的子矩阵Q_k(:,n)值为0。

8.3)因为在最后一个时隙(即第N个时隙)发送数据的节点对应的Q值略低于0，所以下一轮传输过程中，该节点将会在第n个时隙发送数据。

8.4)执行了步骤8.3)后，信宿从第n个时隙未接收到数据，变为最后一个时隙(即第N个时隙)未接收到数据；当最后一个时隙未接收到数据的次数超过设置的最大阈值时，更新反馈信号中的网络时隙数N为(N-1)。

8.5)其它节点k收到更新后的反馈信号后，删除Q值表的第N列，将子矩阵Q_k删减为1×(N-1)。

本发明兼顾吞水声网络吐量和能耗方面，根据前一轮的时隙分配情况，结合Q学习算法，利用反馈信号中的信息对下一轮的时隙分配进行优化，从而提高水声数据传输的成功率和网络吞吐量。由于节点能量耗尽导致个别节点死亡、洋流运动导致节点位置漂移等原因，导致水声网络节点数量变化时，本发明所提方案解决节点减少时隙冗余的问题和节点增加时隙不足的问题，确保水声网络高吞吐量。

本发明具有以下突出优点：

1)在节点数量较多的大规模水声网络中，传统的介质访问控制协议为协调各个节点传输，能量消耗大、吞吐量低。本发明所述基于Q学习的节点数量可变水声网络介质访问控制方法，针对Q矩阵的一整行(即子矩阵)进行奖励子矩阵设计，而非逐个元素更新Q矩阵，可提高Q学习的效率，具有学习速度快、吞吐量高、能耗节约、抗干扰能力强的特点，适用于各种规模水声网络。

2)针对海洋环境复杂，链路忽而失效忽而有效，以及水下节点在应用过程中被人为的回收和下放，水声网络节点数量变化，利用本发明所提Q学习方案进行时隙分配，有效适应节点数量变化，维持高吞吐量，确保系统稳健性。

3)将计算放在每个节点内部进行，每个节点只需存储Q矩阵中的一行(即第m个节点只需存储子矩阵Q_m)，降低节点的存储复杂度，提高运算速度；同时，对于信宿而言无需存储整个Q值表，减少信宿的能耗，提高了网络整体寿命。

附图说明

图1为水声网络拓扑图。图中包含1个信宿和20个节点。

图2为本发明基于Q学习的节点数量可变水声隙网络介质访问控制方法的Q值变化示例。

图3为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的节点传输过程流程图。

图4为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的信宿工作流程图。

图5为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的网络吞吐量在不同网络规模下的对比图。

图6为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的发送成功率在不同网络规模下的对比图。

图7为本发明基于Q学习的节点数量可变水声网络介质访问控制方法在节点数增加时的网络吞吐量变化图。

图8为本发明基于Q学习的节点数量可变水声网络介质访问控制方法在节点数减少时的网络吞吐量变化图。

具体实施方式

下面结合附图和具体实施例对本发明做详细描述。

1)考虑一个水声网络，包含M＝20个传感器节点(以下简称“节点”)和1个信宿(以下简称“信宿”)，如图1所示。节点从海洋环境中感知信息，信宿负责搜集节点感知的声学数据。

设信宿的数据搜集过程分为N＝20个时隙，为确保每个节点都拥有一个时隙将数据发送给信宿，可令时隙数与水声网络节点数相等。设Q学习算法中，应用于介质访问控制的Q矩阵为20×20的矩阵，Q矩阵的行m(m＝1,2,…,M)表示节点序号，Q矩阵的列n(n＝1,2,…,N)表示时隙序号。Q(m,n)表示节点m选择第n个时隙发送数据这一动作所对应的Q值；Q值越大表示节点m选择第n个时隙发送数据的优先度越大。若一行中出现多个相同的最高Q值，则节点会在该行最高Q值的多个时隙中随机选择一个时隙发送数据。为降低节点运算复杂度，每个节点内部只需存储表示自己选择发送时隙的那一行子矩阵，即节点m只需存储大小为1×N的子矩阵Q_m，其中Q＝[Q₁；Q₂；…；Q_m；…；Q_M-1；Q_M]。如节点A存储Q矩阵的第一行，记为Q_A。设每个节点的数据帧格式相同、长度相同，时隙的时间长度也相同，且时隙的时间长度等于水声最大传播时延加数据帧长度。

初始化迭代次数i＝0，最大迭代次数为K＝20，初始Q值表为20×20的零矩阵。

2)当数据搜集开始，信宿记录各个时隙的接收情况。若在某个时隙内没有成功接收到完整数据，信宿会记下该时隙为未成功。在传输结束时，信宿会广播一个反馈信号给所有节点。该反馈信号，包含网络内的时隙数20和未成功的时隙信息(包括该时隙内数据冲突、因信道状态差无法成功接收数据、无节点发送数据/时隙空闲状态三种情况)。

在本实施例中，如图2所示，设第10个时隙和第15个时隙发送数据未成功。

3)奖励机制设计：

奖励子矩阵R_m(m,:)的设置如下：

在本实施例中，设Q值范围在正负5之间，则Ψ＝5。节点A在第5时隙发送数据，节点B在第10时隙发送数据，节点C在第20时隙发送数据。第10时隙和第15时隙因为冲突发送未成功。其它时隙则属于发送成功。那么：节点A选择的第5个时隙发送成功，所以奖励子矩阵R_A(A,:)中的元素R_A(A,5)为+5，Q_A(A,5)值增加；节点C选择的第20个时隙发送成功，所以奖励子矩阵R_C(C,:)中的元素R_C(C,20)为-1，Q_C(C,5)值缓慢变化，最后略低于零；节点B选择的第10个时隙发送失败，所以奖励子矩阵R_B(B,:)中的元素R_B(B,10)为0，Q_B(B,10)值趋于0；节点A选择第5个时隙发送，第20个时隙发送成功，所以奖励子矩阵R_A(A,:)中的元素R_A(A,20)为-5，Q_A(A,20)值减小；节点A选择第5个时隙发送，第10个时隙发送失败，所以奖励子矩阵R_A(A,:)中的元素R_A(A,10)为0，Q_A(A,10)值趋于0。节点A的子矩阵Q_A的变化情况如图2所示。

4)按照Q学习公式Q_m(m,:)←(1-γ)·Q_m(m,:)+γ·R_m(m,:)更新Q值表，其中，γ是学习速率，取值为(0,1]，设为0.2，子矩阵R_m是大小与子矩阵Q_m相同的奖励子矩阵。

7)在步骤2)至步骤4)中，当存在新的1个节点加入水声网络时(即，M＝M+1)，该新节点的序号为(M+1)。设稳定状态下，水声网络内节点数M＝20，设新节点D加入水声网络，此时水声网络节点数为21。新节点D收到信宿的反馈信号后，执行以下步骤：

7.1)根据反馈信号里的时隙数20，初始化新节点D的子矩阵Q_D为1×(20+1)的零矩阵。

7.2)接着，新节点尚未发送数据，根据反馈信号，对子矩阵Q_D进行更新，更新方法与步骤3)～步骤4)相同。

7.3)因为在稳定网络下，所有节点正常传输，时隙分配互不冲突，所以在步骤7.2)中，所有节点都发送成功，更新后的子矩阵Q_D的最高值是Q_D(D,21)，也就是新节点D会在第21个时隙发送数据。重复步骤2)开始新的一轮传输。信宿在第21个时隙接收到新节点D的数据后，更新反馈信号中的时隙数20为21。

7.4)其它节点m收到更新后的反馈信号后，将Q值表扩展为1×21子矩阵Q_m，第21个元素Q_m(m,21)值为0。

7.5)对网络内除新节点D以外的其余20个节点，执行步骤7.4)。

8)在步骤2)至步骤4)中，当1个节点退出原有20个节点的水声网络时，比如节点B退出水声网络。执行以下步骤：

8.1)若在第10个时隙发送数据的节点B退出水声网络，则信宿在第10个时隙未接收到数据，标记第10个时隙为未成功，并通过反馈信号广播给网络中剩余的所有节点。

8.2)剩余的所有节点根据反馈信号更新各自的子矩阵Q_k，除了节点B的子矩阵Q_B(节点B退出水声网络，因此不会收到反馈信号，存储在节点B内部子矩阵Q_B丢失)，经过步骤2)至步骤4)的多次迭代，所有节点的子矩阵Q_k(:,10)值为0。

8.3)设节点C原本在最后一个时隙(即第20个时隙)发送数据，所以节点C对应的Q_C(C,20)值略低于0，所以下一轮传输过程中，节点C将会在第10个时隙发送数据。

8.4)执行步骤8.3)后，信宿从第10个时隙未接收到数据，变为第20个时隙未接收到数据。当最后一个时隙未接收到数据的次数超过设置的最大阈值时(比如第20个时隙连续3次没有接收到信号)，则更新反馈信号中的网络时隙数20为19。

8.5)其它节点m收到更新后的反馈信号后，删除Q值表的第20列，将子矩阵Q_m删减为1×19。

图3为本发明所述基于Q学习的节点数量可变水声网络介质访问控制方法的节点传输过程流程图，对应上述步骤1)、步骤3)和步骤4)。图4为Q本发明所述基于Q学习的节点数量可变水声网络介质访问控制方法的信宿工作流程图，对应上述步骤2)、步骤7)和步骤8)。

下面对本发明所述方法的可行性进行计算机仿真验证。

在距离信宿1500米的有效通信范围内，随机分布5至50个节点。仿真参数设置如下：水下声速为1500米每秒，节点和信宿的传输速率为1000比特每秒，数据帧和反馈信号格式相同、长度均设为1000比特。时隙长度均相同，设为2秒。若节点往信宿发送的数据传输5次之后还失败，将丢弃该数据，重新发送新的数据。仿真时间为一个小时。对比算法为S-ALOHA和CSMA/CA。

以下是本发明所述方法仿真结果的分析。

1)网络吞吐量对比

图5为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的网络吞吐量在不同网络规模下的对比图。由图5可见，本发明基于Q学习的节点数量可变水声网络介质访问控制方法的网络吞吐量明显高于另外两种对比算法。利用Q学习完成水声信道介质资源使用权分配任务，可减少控制帧的收发，缩短信道空闲时间，提高网络吞吐量。

2)发送成功率对比

图6为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的发送成功率在不同网络规模下的对比图。由图6可见，本发明基于Q学习的节点数量可变水声网络介质访问控制方法的发送成功率高于另外两种对比算法。在节点数量多的情况下，利用Q学习分配水声信道介质资源，在稳定阶段能够有效避免冲突，提高成功率，因此网络吞吐量也较高。

3)节点增加分析

从10个节点开始，设每传输10次后有1个新节点加入水声网络，直到50个节点。图7为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的在节点数目增加网络吞吐量变化图。可见，当水声网络节点数目增加，本发明基于Q学习的节点数量可变水声网络介质访问控制方法在不影响本身网络内节点正常传输的情况下，可对新加入节点进行有效水声信道介质资源分配，且学习速度快，经过1轮的学习水声网络吞吐量即可达到稳定。

4)节点减少分析

从50个节点开始，设每传输10次后有1个节点退出水声网络，直到剩余10个节点。图8为本发明基于Q学习的节点数量可变水声网络介质访问控制方法的在节点数目减少网络吞吐量变化图。若最后1个时隙连续3次没有接收到信号，信宿将减少反馈信号中的网络内节点数目。可见，当水声网络节点数目减少，本发明基于Q学习的节点数量可变水声网络介质访问控制方法，由于特殊的Q值更新机制，最后1个时隙发送成功节点的Q值略低于0，发送未成功的时隙Q值趋0，因此可实现将时隙安排聚集在传输过程前面的效果。识别出水声网络节点数目减少后，通过删除最后1个时隙，以达到高吞吐量的效果。学习速度与退出水声网络节点本身的时隙有关：若退出水声网络的节点本身在最后1个时隙发送数据，则学习速度较快，约3轮；若退出水声网络的节点不在最后1个时隙发送数据，则学习速度较慢，约6轮。

通过上述三种仿真方案对比可见，基于Q学习的节点数量可变水声网络介质访问控制方法拥有更高的吞吐量和更高的成功率。一方面，介质访问控制协议能有效避免数据冲突，缩短空闲时间，提高网络吞吐量；另一方面，所设计的Q学习算法中每个节点只需存储Q矩阵中的一行，复杂度低，计算简单，抗干扰能力强，只需少量控制帧的收发，即可有效提高成功率。

本发明将机器算法引入水声网络介质访问控制协议，利用Q学习完成水声信道介质资源使用权分配任务，使水声网络能在节点数目变化的情况下，有效适应节点数量变化，维持高吞吐量，确保系统稳健性。当前，水声网络和人工智能的结合大部分集中在路由优化设计方面，仅有个别研究关注其在介质访问控制协议方面的研究。在海洋信道环境动态变化导致可接入节点数量变化时，如何结合Q学习算法，优化设计奖励机制，确保水声网络维持高吞吐量、快学习速度和强鲁棒性的方法，具有重要应用价值。针对上述问题，本发明通过优化Q学习设计，使节点可变水声网络的介质访问控制协议具有学习速度快、吞吐量高、能耗省、抗干扰能力强、适用于各类网络节点规模的优点。

Claims

1.基于Q学习的节点数量可变水声网络介质访问控制方法，其特征包括以下步骤：

1）参数初始化：

考虑一个水声网络，包含M个传感器节点和1个信宿，节点从海洋环境中感知信息，信宿负责搜集节点感知的声学数据；

设信宿的数据搜集过程分为N个时隙，为确保每个节点都拥有一个时隙将数据发送给信宿，可令时隙数N与水声网络节点数M相等；设Q学习算法中，应用于介质访问控制的Q矩阵为M×N的矩阵，Q矩阵的行m表示节点序号，m的取值为1,2,…,M；Q矩阵的列n表示时隙序号，n的取值为1,2,…,N；因此，Q(m,n)表示节点m选择第n个时隙发送数据这一动作所对应的Q值；Q值越大表示节点m选择第n个时隙发送数据的优先度越大；即，节点m会选择Q矩阵第m行中Q值最高的时隙发送数据；若第m行中出现多个相同的最高Q值，则会在第m行最高Q值的多个时隙中随机选择一个时隙发送数据；为降低节点运算复杂度，每个节点内部只需存储表示自己选择发送时隙的那一行子矩阵，即节点m只需存储大小为1×N的子矩阵Q_m，其中Q=[Q₁; Q₂; …; Q_m; …; Q_M-1; Q_M]；设每个节点的数据帧格式相同、长度相同，时隙的时间长度也相同，且时隙的时间长度等于水声最大传播时延加数据帧长度；

初始化迭代次数i=0，最大迭代次数为K，初始Q值表为M×N的零矩阵；

2）当数据搜集开始，信宿记录各个时隙的接收情况；若在某个时隙内没有成功接收到完整数据，信宿会记下该时隙为未成功；在传输结束时，信宿会广播一个反馈信号给所有节点；该反馈信号，包含网络内的时隙数N和未成功的时隙信息；

3）奖励机制设计：

当收到信宿的反馈信号之后，节点m会根据发送时自身选择第n个时隙发送数据这一动作，结合反馈信号里的未成功时隙信息，Q矩阵的第m行就是节点m内部存储Q矩阵的子矩阵Q_m，针对Q矩阵的第m行获得不同的奖励子矩阵R_m(m,:)；R_m(m,:)表示节点m选择第n个时隙发送数据这一动作后结合反馈信号而获得的奖励子矩阵；

奖励子矩阵R_m(m,:)的设置如下：

①若节点m所选择的第n个时隙发送成功，且n≠N ，即第n个时隙不是最后一个时隙，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为正值+|Ψ|，以确保Q_m(m,n)值增加；

②若节点m所选择的第n个时隙发送成功，且n=N，即第n个时隙是最后一个时隙，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为负值-δ·|Ψ|，其中δ属于(0, 1)，以确保Q_m(m,n)值缓慢变化，最后略低于零；

③若节点m所选择的第n个时隙发送失败，那么奖励子矩阵R_m(m,:)中的元素R_m(m,n)为0，以确保Q_m(m,n)值趋于0；

④若是节点m选择第n个时隙以外的时隙n_其它发送成功，那么节点m的奖励子矩阵R_m(m,:)中的元素R_m(m, n_其它)为负值-|Ψ|，其中n_其它≠n，以确保Q_m(m, n_其它)值减小；

⑤若是节点m选择第n个时隙以外的时隙n_其它发送失败，那么奖励子矩阵R_m(m,:)中的元素R_m(m, n_其它)为0，其中n_其它≠n，以确保Q_m(m, n_其它)值趋于0；

4）按照Q学习公式Q_m(m,:) ← (1-γ)·Q_m(m,:) + γ·R_m(m,:)更新Q值表，其中，γ是学习速率，取值为(0, 1]，子矩阵R_m是大小与子矩阵Q_m相同的奖励子矩阵；

5）i=i+1，若达到最大迭代次数K或Q值表不再变化或反馈信号中无未成功的时隙信息，则到达稳定状态，否则重复步骤2）至步骤4）；

6）根据迭代得到的最终Q值表，让节点m选择Q值最大所对应的时隙n_max发送数据给信宿，完成水声信道介质资源使用权分配任务。

2.如权利要求1所述基于Q学习的节点数量可变水声网络介质访问控制方法，其特征在于在步骤2）至步骤4）中，当存在新的1个节点加入水声网络时，该新节点的序号为(M+1)，节点(M+1)收到信宿的反馈信号后，执行以下步骤：

7.1）根据反馈信号里的时隙数N，初始化新节点的子矩阵Q_M+1为1×(N+1)的零矩阵；

7.2）接着，新节点尚未发送数据，根据反馈信号，对子矩阵Q_M+1进行更新，更新方法与步骤3）至步骤4）相同；

7.3）在步骤7.2）中，更新后的子矩阵Q_M+1的最高值是Q_M+1(M+1, N+1)，重复步骤2）开始新的一轮传输；信宿在第(N+1)个时隙接收到新节点(M+1)的数据后，更新反馈信号中的时隙数N为(N+1)；

7.4）其它节点m收到更新后的反馈信号后，将Q值表扩展为1×(N+1)子矩阵Q_m，第(N+1)个元素Q_m(m, N+1)值为0；

7.5）对网络内除新节点以外的其余M个节点，执行步骤7.4）。

3.如权利要求1所述基于Q学习的节点数量可变水声网络介质访问控制方法，其特征在于在步骤2）至步骤4）中，当1个节点退出水声网络时，执行以下步骤：

8.1）若在第n个时隙发送数据的节点m退出水声网络，则信宿在第n个时隙未接收到数据，标记第n个时隙为未成功，并通过反馈信号广播给网络中剩余的所有节点；

8.2）剩余的所有节点根据反馈信号更新各自的子矩阵Q_k，其中k=1,2,…,M，且k≠m，经过步骤2）至步骤4）的多次迭代，所有节点的子矩阵Q_k(:, n)值为0；

8.3）因为在最后一个时隙即第N个时隙发送数据的节点对应的Q值略低于0，所以下一轮传输过程中，该节点将会在第n个时隙发送数据；

8.4）执行了步骤8.3）后，信宿从第n个时隙未接收到数据，变为最后一个时隙即第N个时隙未接收到数据；当最后一个时隙未接收到数据的次数超过设置的最大阈值时，更新反馈信号中的网络时隙数N为(N-1)；

8.5）其它节点k收到更新后的反馈信号后，删除Q值表的第N列，将子矩阵Q_k删减为1×(N-1)。