CN113301032B

CN113301032B - 一种基于Q-Learning的水声网络MAC协议切换方法

Info

Publication number: CN113301032B
Application number: CN202110531551.0A
Authority: CN
Inventors: 赵瑞琴; 王娟; 申晓红; 张奕然; 梅毫迪; 王超; 张裕昌
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-09-13
Anticipated expiration: 2041-05-17
Also published as: CN113301032A

Abstract

本发明提供了一种基于Q‑Learning的水声网络MAC协议切换方法，建立了集中式水声网络MAC协议切换的马尔科夫模型，通过建立业务量等级与MAC协议类型的联合模型描述网络状态，构造网络的综合性能作为回报函数，对当前状态进行实时价值评价，通过在不同场景下选择最优MAC协议，实现网络综合性能的最优化。本发明减小控制开销，使得网络对业务量、拓扑的变化能进行有效适应，选择最优MAC协议，可在业务量、网络拓扑改变的场景下灵活在TDMA与Slot ALOHA协议间进行切换，综合利用两协议的优势、避免两协议的不足，具有最高的综合性能。

Description

一种基于Q-Learning的水声网络MAC协议切换方法

技术领域

本发明涉及水下通信组网领域，具体涉及水声学，网络接入协议，尤其是一种水声网络MAC协议切换方法。

背景技术

地球上海洋总面积约为3.6亿平方公里，约占地球表面积的71％，海洋中蕴含着丰富的生物、医药、矿产等资源。在陆地资源日益饱和的情况合理开发并利用海洋资源对人类的生存发展和社会活动起到至关重要的作用。为了满足人类对水下空间的探索，水声网络(Underwater Acoustic Networks，UAN)逐渐得到发展。其中，介质接入控制(MediumAccess Control，MAC)协议主要解决网络中不同用户如何高效合理共享有限信道资源的问题，其对信道的使用方式起决定性作用，对网络的利用效率和吞吐量等性能有着远大的影响，对网络的高效信息交互起着至关重要的作用。

根据网络节点对信道的不同使用方式，可将MAC协议分为竞争型与非竞争型两类。不同类型的MAC协议在网络不同业务负载下具有不同的性能优势，其中，TDMA协议作为一种典型的非竞争MAC协议，具有简单灵活且对频率、码字资源容忍等特点，在窄带水声信道下具有良好的工程应用前景。它固有的信道非竞争共享属性也可保证其能在网络重业务负载下高效无冲突的完成数据传输，实现较高的吞吐效率，但同样也受制于此特点，使得其在网络轻业务负载下不能高效灵活地分配信道资源，具有较高的时延开销。相似的，Slot ALOHA协议作为一种典型的竞争型MAC协议，具有信道接入灵活等特点，可在网络业务负载轻时以较低的时延高效完成数据传输，具有较高的吞吐效率，但当网络业务负载较重时，各节点对信道的竞争程度加剧，使得数据冲突严重，难以有效担负重负载下大量数据的传输协调任务，吞吐效率较低。另外，水声网络节点在执行水下数据收集、区域搜索等任务时，其网络拓扑会随任务需求及海洋环境而不断改变，变化的拓扑结构会进一步影响各MAC协议对信道的利用效率，改变各节点数据包的冲突情况，使得各MAC协议的吞吐量、时延及丢包率等性能变化更为复杂，为综合利用不同MAC协议的优势，保证网络的高效信道接入提供了更多挑战。

单一的MAC协议难以在网络不同业务负载、拓扑下始终提供高效的信道接入服务，需要通过协议切换的方式在最优切换点进行协议切换以增强网络对不同场景的适应性，提升网络在不同业务负载、拓扑下的信道接入性能。因为强化学习方法具有良好的环境适应特点而被广泛研究，这种方法通常针对具体的问题建立特定的马尔科夫决策模型，根据性能优化的目标设计特定的回报函数，通过智能体与环境的动态交互评估更新状态动作的价值，从而获得当前场景下最优策略。然而，在目前对水下MAC切换方法的研究中，缺乏在业务负载与拓扑同时改变的复杂场景下，基于强化学习方法对TDMA与Slot ALOHA协议切换的建模研究，可以通过对复杂场景下的MAC切换问题进行强化学习建模，使网络在与环境交互的过程中实现最优协议切换，提升水声网络对不同业务负载、拓扑场景的适应能力，持续获得较优的信道接入性能。

发明内容

为了克服现有技术的不足，本发明提供一种基于Q-Learning的水声网络MAC协议切换方法。针对水声网络业务量动态变化的特点，建立了集中式水声网络MAC协议切换的马尔科夫模型。该方法通过建立业务量等级与MAC协议类型的联合模型描述网络状态，构造网络的综合性能作为回报函数，对当前状态进行实时价值评价，通过在不同场景下选择最优MAC协议，实现网络综合性能的最优化；针对水声网络的长传播时延特点，设计了一种集中式MAC协议切换的帧结构及时隙参数，使MAC层既可承载网络产生的最大业务负载，也具有较低的时间开销，为水下MAC协议切换提供了更高的可操作性与稳定性。

本发明解决其技术问题所采用的技术方案的步骤如下：

步骤1：在包含N个节点的单跳水声网络中，节点间最大通信距离为d_max(m)，声速为c(m/s)，信道速率为R(bps)，数据包长度为packet_length(bit)，各节点单位时间最多产生的数据包个数为λ_max(pk/s)；

MAC切换协议的帧格式包括数据帧与控制帧两部分，各节点在数据帧与单跳网络中的任意节点按照特定类型的MAC协议交互数据，主控节点在控制帧中的汇聚时隙完成网络状态信息的收集，并在决策时隙对下一数据帧的MAC协议进行决策；帧总长度的计算公式如式(1)所示：

frame_length＝data_slot_length+control_slot_length (1)

其中，frame_length为总帧长(s)；data_slot_length为数据帧长(s)，由式(3)计算得到；control_slot_length为控制帧长(s)，由式(2)计算得到；

步骤2：集中式水声网络MAC切换的马尔科夫决策模型建立如下：

步骤2.1：将网络业务负载按轻重程度均匀分为n级，各业务负载分级为：Traffic₀,…,Traffic_i,…,Traffic_n-1，其中Traffic_i表示业务负载等级为i，此时网络业务量λ∈[i·λ_max/n,(i+1)·λ_max/n)；然后将不同的业务负载分级与两种协议类型两两组合，即可构建出联合网络协议类型与业务负载估计的状态模型，该状态模型使两种协议的价值在业务负载维度得到新的展现，因此，状态集为S＝{Traffic₀_TDMA,Traffic₀_SlotALOHA,…,Traffic_i_TDMA,Traffic_i_SlotALOHA,…,Traffic_n-1_TDMA,Traffic_n-1_SlotALOHA}；设置各状态的动作包含两种，分别为：切换协议或保持当前协议不做切换，即有动作集A＝{SWITCH,NOTSWITCH}；

步骤2.2：相对全面的对网络性能进行考量，在不同的场景下都能保持高的综合性能，采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合，将综合指标大小作为每一帧MAC性能的指示，则得回报函数如式(7)所示：

其中，Throughput表示全网各节点在一帧内的平均吞吐量，由(8)式计算得出；ETE_delay表示全网各节点在一帧内的平均端到端时延，由(9)式计算得出；DPR表示全网各节点在一帧内的平均丢包率，由(10)式计算得出；Throughput_max表示全网各节点在一帧内的最大平均吞吐量，有Throughput_max＝λ_max·packet_length；ETE_delay_max表示全网各节点在一帧内的最大平均端到端时延，有

w₁、w₂、w₃分别表示各项指标的权重系数，有w₁≥0、w₂≤0、w₃≤0，具体数值根据实际网络对不同性能指标的侧重需求设置；

其中，Num_pr为全网各节点一帧内平均成功接收的数据包数量；

ETE_delay＝t_recv-t_send (9)

其中，t_recv表示接收节点收到数据包的时间；t_send表示发送节点产生数据包的时间；

其中，Num_dp表示全网各节点丢弃的数据包数量；Num_sp表示全网各节点发送的数据包数量；

步骤2.3：网络采用ε-贪婪策略选择动作，当网络每次通过选择动作与环境交互后，根据环境给与的回报值Reward，使用式(12)对状态动作值进行更新，以此实现不同场景下协议价值的最优估计：

其中，q′(s,a)表示更新后的状态动作值；γ∈[0,1]是衰减因子，其值的大小反映了智能体对自身动作产生回报的长期效果的考量程度；α∈[0,1]是学习率，其值越接近于0表示历史价值对状态价值的影响越大，越接近于1表示当前收益对状态价值影响越大；s′表示网络在状态s下执行动作a后跳转的状态；a′表示网络在状态s′下选择的动作；

步骤3：切换过程如下：

步骤3.1：设置初始协议，初始动作a₀，初始化各状态动作值q(s,a)，初始化参数α、γ、ε；

步骤3.2：各节点按照所选协议类型(TDMA协议或Slot ALOHA协议)在数据帧传输数据，并在汇聚时隙将本节点统计的吞吐量、端到端时延、收发数据包数量及节点当前位置信息发送给主控节点；

步骤3.3：主控节点按照式(13)所示，根据各节点发送数据包的数量与最大业务负载时所能发送的数据包数量的比值估计出全网业务负载λ_estimate，并如式(14)所示，用业务负载估计值乘业务负载分级数n得出当前网络的业务量等级i；

i＝[λ_estimate·n] (14)

其中，λ_estimate为估计出的全网业务负载；i为估计出的网络当前业务量等级；[]表示向下取整；

将网络当前业务分级Traffic_i与当前帧所运行的协议类型(TDMA协议或SlotALOHA协议)相组合确定其当前状态s，即s＝Traffic_i_TDMA或s＝Traffic_i_SlotALOHA；

步骤3.4：主控节点通过对各节点的吞吐量、端到端时延、收发数据包数量进行平均，得到全网平均各项性能指标，由式(7)求出上一动作的回报值Reward；

步骤3.5：主控节点按照式(12)对上一状态所选择的动作的价值进行更新；

步骤3.6：主控节点按照式(11)的策略选择下一帧需运行的协议。

为了保证帧有效承载网络最大业务负载，并且具有低的时间开销，帧格式中各时隙长度的计算步骤如下：

步骤1.1：控制帧采用主控节点处无隙接收的汇聚方式，由主控节点根据其与网络中各非主控节点间的距离信息调度各非主控节点的汇聚时刻，并将决策结果向各非主控节点进行广播，控制帧的时隙长度control_slot_length由式(2)计算得到：

其中，distance_error为主控节点与其余节点的距离误差容忍值(m)；

步骤1.2：为保证MAC层可承载网络最大的业务负载，数据帧长需要结合节点的最大业务负载等参数确定，将全网各节点使用TDMA协议完成一轮数据传输的总时长作为数据帧的长度；即有：

data_slot_length＝tdma_slot_length·N (3)

其中，tdma_slot_length为TDMA协议中单个节点的时隙长度，由式(4)计算得到；

对于TDMA协议，各节点在数据帧中仅拥有一个数据发送时隙，在其余时隙仅进行数据接收，因此，为了使TDMA协议下各节点可在数据发送时隙有效承载网络业务负载，时隙长度tdma_slot_length由式(4)计算得到：

对于Slot ALOHA协议，各节点在各时隙都可进行数据收发，因此，Slot ALOHA协议的单个时隙长度slot_aloha_length由式(5)计算得到；数据帧中包含的Slot ALOHA时隙个数M以数据帧长度为约束，由式(6)计算确定；

其中，slot_aloha_length表示Slot ALOHA协议的单个时隙长度；M表示数据帧中包含的Slot ALOHA时隙个数；[]表示向下取整；

所述ε-贪婪策略的表达式如式(11)所示：

其中，ε∈(0,1)表示对环境探索的概率，取0＜ε≤0.01；s∈S表示网络当前状态；a∈A表示网络选择的动作；q(s,a)表示状态动作值，是网络对当前状态s下选择动作a的价值估计。

所述衰减因子γ取0＜γ≤0.3。

所述学习率α取0.8≤α＜1。

本发明的有益效果在于：

1、采用一种集中式MAC切换帧结构，将数据帧与控制帧分别设计，数据帧可兼容不同类型的MAC协议，设计合适的帧长以有效承载网络最大业务负荷；控制帧中汇聚时隙采用接收节点处无隙接收的汇聚方式，减小控制开销。

2、针对TDMA、Slot ALOHA协议在不同业务量、不同网络拓扑下性能动态变化、各有优势的特点，对MAC切换过程建立了马尔可夫决策过程模型，将网络协议、环境中的业务量因素联合构造网络状态，并采用Q-Learning算法对状态动作值及时更新，使得网络对业务量、拓扑的变化能进行有效适应，选择最优MAC协议；

这些特点使得本发明能有效保持网络在不同业务量、拓扑下高的综合性能。通过OPNET仿真验证，本发明可在业务量、网络拓扑改变的场景下灵活在TDMA与Slot ALOHA协议间进行切换，综合利用两协议的优势、避免两协议的不足，具有最高的综合性能。

附图说明

图1是本发明总体协议切换结构图。

图2是6节点水声网络固定拓扑图。

图3是6节点水声网络拓扑改变图。

图4是网络业务量随时间的变化图。

图5是固定拓扑下业务量改变时网络综合性能变化图。

图6是拓扑、业务量都改变时网络综合性能变化图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

图1为本发明的总体协议切换结构图。更具体地，在图2与图3两种场景中，具体参数设置为：单跳水声网络包含N＝6个节点，设节点间最大通信距离d_max＝5000(m)，声速c＝1500(m/s)，信道速率R＝2048(bps)，数据包长度packet_length＝256(bit)，各节点单位时间最多产生的数据包个数λ_max＝1(pk/s)，主控节点与其余节点的距离误差容忍值distance_error＝100(m)。则本集中式MAC切换方法可按以下步骤执行。

步骤1：本MAC切换协议的帧格式包括数据帧与控制帧两部分，各节点在数据帧可与单跳网络中的任意节点按照特定类型的MAC协议交互数据，主控节点在控制帧中的汇聚时隙完成网络状态信息的收集，并在决策时隙对下一数据帧的MAC协议进行决策。帧总长度的计算公式如式(1)所示：

frame_length＝data_slot_length+control_slot_length (1)

其中，frame_length为总帧长(s)；data_slot_length为数据帧长(s)，可由式(3)计算得到；control_slot_length为控制帧长(s)，可由式(2)计算得到。

为了保证帧有效承载网络最大业务负载，并且具有低的时间开销，帧格式中各时隙长度的计算步骤如下。

步骤1.2：为保证MAC层可承载网络最大的业务负载，数据帧长需要结合节点的最大业务负载等参数来确定，且本发明中，将全网各节点使用TDMA协议完成一轮数据传输的总时长作为数据帧的长度。即有：

data_slot_length＝tdma_slot_length·N (3)

其中，tdma_slot_length为TDMA协议中单个节点的时隙长度，可由式(4)计算得到。

对于TDMA协议，各节点在数据帧中仅拥有一个数据发送时隙，在其余时隙仅进行数据接收，因此，为了使TDMA协议下各节点可在数据发送时隙有效承载网络业务负载，其时隙长度tdma_slot_length可由式(4)计算得到。

因此，由(3)式可得data_slot_length＝105(s)，并且，由(1)式可得frame_length＝112.8(s)。

对于Slot ALOHA协议，各节点在各时隙都可进行数据收发，因此，Slot ALOHA协议的单个时隙长度slot_aloha_length可由式(5)计算得到。数据帧中包含的Slot ALOHA时隙个数M也可以数据帧长度为约束，由式(6)计算确定。

其中，slot_aloha_length表示Slot ALOHA协议的单个时隙长度；M表示数据帧中包含的Slot ALOHA时隙个数；[]表示向下取整。

步骤2：集中式水声网络MAC切换的马尔科夫决策模型可建立如下：

步骤2.1：设网络业务负载按轻重程度进行均匀分为n＝10级，可得各业务负载分级为：Traffic₀,…,Traffic_i,…,Traffic₉，其中Traffic_i表示业务负载等级为i，此时网络业务量λ∈[i/10,(i+1)/10)；，然后将不同的业务负载分级与两种协议类型两两组合，即可构建出联合网络协议类型与业务负载估计的状态模型，该模型可以使两种协议的价值在业务负载维度得到新的展现，因此，状态集为

S＝{Traffic₀_TDMA,Traffic₀_SlotALOHA,…,Traffic_i_TDMA,Traffic_i_SlotALOHA,…,Traffic₉_TDMA,Traffic₉_SlotALOHA}。设置各状态的动作包含两种，分别为：切换协议或保持当前协议不做切换，即有动作集A＝{SWITCH,NOTSWITCH}。

步骤2.2：本MAC切换方法希望能相对全面的对网络性能进行考量，在不同的场景下都能保持高的综合性能，因此采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合，将综合指标大小作为每一帧MAC性能的指示。则可得回报函数如式(7)所示。

其中，Throughput表示全网各节点在一帧内的平均吞吐量，可由(8)式计算得出；ETE_delay表示全网各节点在一帧内的平均端到端时延，可由(9)式计算得出；DPR表示全网各节点在一帧内的平均丢包率，可由(10)式计算得出；Throughput_max表示全网各节点在一帧内的最大平均吞吐量，本方法中有

Throughput_max＝λ_max·packet_length＝256(bps)；ETE_delay_max表示全网各节点在一帧内的最大平均端到端时延，本发明中有

w₁、w₂、w₃分别表示各项指标的权重系数，有w₁≥0、w₂≤0、w₃≤0；由于吞吐量指标在一定程度上综合了体现了丢包率与时延性能，实际中通常期望网络在较高的吞吐量的基础上，还能具有较低的时延与丢包率。因此此处设置w₁＝2，w₂＝-1，w₃＝-1，以此为例讨论切换协议对网络综合性能的改善。

其中，Num_pr为全网各节点一帧内平均成功接收的数据包数量。

ETE_delay＝t_recv-t_send (9)

其中，t_recv表示接收节点收到数据包的时间；t_send表示发送节点产生数据包的时间。

其中，Num_dp表示全网各节点丢弃的数据包数量；Num_sp表示全网各节点发送的数据包数量。

步骤2.3：网络采用ε-贪婪策略选择动作，该策略π的表达式如式(11)所示。

其中，ε∈(0,1)表示对环境探索的概率，本方法以ε＝0.01为例进行性能讨论；s∈S表示网络当前状态；a∈A表示网络选择的动作；q(s,a)表示状态动作值，是网络对当前状态s下选择动作a的价值估计。当网络每次通过选择动作与环境交互后，可根据环境给与的回报值Reward，使用式(12)对状态动作值进行更新，以此实现不同场景下协议价值的最优估计。

其中，γ∈[0,1]是衰减因子，α∈[0,1]是学习率，本方法设置γ＝0.2，α＝0.95；s′表示网络在状态s下执行动作a后跳转的状态；a′表示网络在状态s′下选择的动作。

步骤3：本方法的切换过程如下。

步骤3.1：设置初始协议为TDMA协议，初始动作a₀＝NOTSWITCH，初始化各状态动作值q(s,NOTSWITCH)＝-1，q(s,SWITCH)＝1，初始化参数α＝0.95、γ＝0.2、ε＝0.01；

i＝[λ_estimate·n]＝[10·λ_estimate] (14)

其中，λ_estimate为估计出的全网业务负载；i为估计出的网络当前业务量等级；[]表示向下取整。

步骤3.4：主控节点通过对各节点的吞吐量、端到端时延、收发数据包数量进行平均，得到全网平均各项性能指标，由(7)式即可求出上一动作的回报值Reward；

步骤3.5：主控节点按照(12)式对上一状态所选择的动作的价值进行更新。

步骤3.6：主控节点按照(11)式的策略选择下一帧需运行的协议。

设置网络业务量随时间的变化情况如图4所示，在OPNET仿真软件中分别对图2固定的拓扑场景与图3移动拓扑场景进行本发明方法的性能仿真，其中图3中白色曲线为节点移动轨迹，由OPNET中的Random Waypoint移动模型随机生成，得到网络的综合性能曲线分别如图5、图6所示。可以看出，相比TDMA与Slot ALOHA协议，本发明方法能在业务量、拓扑变化的场景下能取得更优的网络综合性能。

Claims

1.一种基于Q-Learning的水声网络MAC协议切换方法，其特征在于包括下述步骤：

步骤1：在包含N个节点的单跳水声网络中，节点间最大通信距离为d_max，声速为c，信道速率为R，数据包长度为packet_length，各节点单位时间最多产生的数据包个数为λ_max；

frame_length＝data_slot_length+control_slot_length (1)

其中，frame_length为总帧长；data_slot_length为数据帧长；control_slot_length为控制帧长；

步骤2.1：将网络业务负载按轻重程度均匀分为n级，各业务负载分级为：Traffic₀,…,Traffic_i,…,Traffic_n-1，其中Traffic_i表示业务负载等级为i，此时网络业务量λ∈[i·λ_max/n,(i+1)·λ_max/n)；然后将不同的业务负载分级与两种协议类型两两组合，两种协议类型分别为TDMA协议以及Slot ALOHA协议，即可构建出联合网络协议类型与业务负载估计的状态模型，该状态模型使两种协议的价值在业务负载维度得到新的展现，因此，状态集为S＝{Traffic₀_TDMA,Traffic₀_SlotALOHA,…,Traffic_i_TDMA,Traffic_i_SlotALOHA,…,Traffic_n-1_TDMA,Traffic_n-1_SlotALOHA}；设置各状态的动作包含两种，分别为：切换协议或保持当前协议不做切换，即有动作集A＝{SWITCH,NOTSWITCH}；

步骤2.2：采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合，将综合指标大小作为每一帧MAC性能的指示，则得回报函数如式(7)所示：

其中，Throughput表示全网各节点在一帧内的平均吞吐量；ETE_delay表示全网各节点在一帧内的平均端到端时延，DPR表示全网各节点在一帧内的平均丢包率，Throughput_max表示全网各节点在一帧内的最大平均吞吐量，有Throughput_max＝λ_max·packet_length；ETE_delay_max表示全网各节点在一帧内的最大平均端到端时延，有