CN113301032B - 一种基于Q-Learning的水声网络MAC协议切换方法 - Google Patents

一种基于Q-Learning的水声网络MAC协议切换方法 Download PDF

Info

Publication number
CN113301032B
CN113301032B CN202110531551.0A CN202110531551A CN113301032B CN 113301032 B CN113301032 B CN 113301032B CN 202110531551 A CN202110531551 A CN 202110531551A CN 113301032 B CN113301032 B CN 113301032B
Authority
CN
China
Prior art keywords
network
node
length
protocol
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110531551.0A
Other languages
English (en)
Other versions
CN113301032A (zh
Inventor
赵瑞琴
王娟
申晓红
张奕然
梅毫迪
王超
张裕昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110531551.0A priority Critical patent/CN113301032B/zh
Publication of CN113301032A publication Critical patent/CN113301032A/zh
Application granted granted Critical
Publication of CN113301032B publication Critical patent/CN113301032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/324Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the data link layer [OSI layer 2], e.g. HDLC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/18Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Communication Control (AREA)

Abstract

本发明提供了一种基于Q‑Learning的水声网络MAC协议切换方法,建立了集中式水声网络MAC协议切换的马尔科夫模型,通过建立业务量等级与MAC协议类型的联合模型描述网络状态,构造网络的综合性能作为回报函数,对当前状态进行实时价值评价,通过在不同场景下选择最优MAC协议,实现网络综合性能的最优化。本发明减小控制开销,使得网络对业务量、拓扑的变化能进行有效适应,选择最优MAC协议,可在业务量、网络拓扑改变的场景下灵活在TDMA与Slot ALOHA协议间进行切换,综合利用两协议的优势、避免两协议的不足,具有最高的综合性能。

Description

一种基于Q-Learning的水声网络MAC协议切换方法
技术领域
本发明涉及水下通信组网领域,具体涉及水声学,网络接入协议,尤其是一种水声网络MAC协议切换方法。
背景技术
地球上海洋总面积约为3.6亿平方公里,约占地球表面积的71%,海洋中蕴含着丰富的生物、医药、矿产等资源。在陆地资源日益饱和的情况合理开发并利用海洋资源对人类的生存发展和社会活动起到至关重要的作用。为了满足人类对水下空间的探索,水声网络(Underwater Acoustic Networks,UAN)逐渐得到发展。其中,介质接入控制(MediumAccess Control,MAC)协议主要解决网络中不同用户如何高效合理共享有限信道资源的问题,其对信道的使用方式起决定性作用,对网络的利用效率和吞吐量等性能有着远大的影响,对网络的高效信息交互起着至关重要的作用。
根据网络节点对信道的不同使用方式,可将MAC协议分为竞争型与非竞争型两类。不同类型的MAC协议在网络不同业务负载下具有不同的性能优势,其中,TDMA协议作为一种典型的非竞争MAC协议,具有简单灵活且对频率、码字资源容忍等特点,在窄带水声信道下具有良好的工程应用前景。它固有的信道非竞争共享属性也可保证其能在网络重业务负载下高效无冲突的完成数据传输,实现较高的吞吐效率,但同样也受制于此特点,使得其在网络轻业务负载下不能高效灵活地分配信道资源,具有较高的时延开销。相似的,Slot ALOHA协议作为一种典型的竞争型MAC协议,具有信道接入灵活等特点,可在网络业务负载轻时以较低的时延高效完成数据传输,具有较高的吞吐效率,但当网络业务负载较重时,各节点对信道的竞争程度加剧,使得数据冲突严重,难以有效担负重负载下大量数据的传输协调任务,吞吐效率较低。另外,水声网络节点在执行水下数据收集、区域搜索等任务时,其网络拓扑会随任务需求及海洋环境而不断改变,变化的拓扑结构会进一步影响各MAC协议对信道的利用效率,改变各节点数据包的冲突情况,使得各MAC协议的吞吐量、时延及丢包率等性能变化更为复杂,为综合利用不同MAC协议的优势,保证网络的高效信道接入提供了更多挑战。
单一的MAC协议难以在网络不同业务负载、拓扑下始终提供高效的信道接入服务,需要通过协议切换的方式在最优切换点进行协议切换以增强网络对不同场景的适应性,提升网络在不同业务负载、拓扑下的信道接入性能。因为强化学习方法具有良好的环境适应特点而被广泛研究,这种方法通常针对具体的问题建立特定的马尔科夫决策模型,根据性能优化的目标设计特定的回报函数,通过智能体与环境的动态交互评估更新状态动作的价值,从而获得当前场景下最优策略。然而,在目前对水下MAC切换方法的研究中,缺乏在业务负载与拓扑同时改变的复杂场景下,基于强化学习方法对TDMA与Slot ALOHA协议切换的建模研究,可以通过对复杂场景下的MAC切换问题进行强化学习建模,使网络在与环境交互的过程中实现最优协议切换,提升水声网络对不同业务负载、拓扑场景的适应能力,持续获得较优的信道接入性能。
发明内容
为了克服现有技术的不足,本发明提供一种基于Q-Learning的水声网络MAC协议切换方法。针对水声网络业务量动态变化的特点,建立了集中式水声网络MAC协议切换的马尔科夫模型。该方法通过建立业务量等级与MAC协议类型的联合模型描述网络状态,构造网络的综合性能作为回报函数,对当前状态进行实时价值评价,通过在不同场景下选择最优MAC协议,实现网络综合性能的最优化;针对水声网络的长传播时延特点,设计了一种集中式MAC协议切换的帧结构及时隙参数,使MAC层既可承载网络产生的最大业务负载,也具有较低的时间开销,为水下MAC协议切换提供了更高的可操作性与稳定性。
本发明解决其技术问题所采用的技术方案的步骤如下:
步骤1:在包含N个节点的单跳水声网络中,节点间最大通信距离为dmax(m),声速为c(m/s),信道速率为R(bps),数据包长度为packet_length(bit),各节点单位时间最多产生的数据包个数为λmax(pk/s);
MAC切换协议的帧格式包括数据帧与控制帧两部分,各节点在数据帧与单跳网络中的任意节点按照特定类型的MAC协议交互数据,主控节点在控制帧中的汇聚时隙完成网络状态信息的收集,并在决策时隙对下一数据帧的MAC协议进行决策;帧总长度的计算公式如式(1)所示:
frame_length=data_slot_length+control_slot_length (1)
其中,frame_length为总帧长(s);data_slot_length为数据帧长(s),由式(3)计算得到;control_slot_length为控制帧长(s),由式(2)计算得到;
步骤2:集中式水声网络MAC切换的马尔科夫决策模型建立如下:
步骤2.1:将网络业务负载按轻重程度均匀分为n级,各业务负载分级为:Traffic0,…,Traffici,…,Trafficn-1,其中Traffici表示业务负载等级为i,此时网络业务量λ∈[i·λmax/n,(i+1)·λmax/n);然后将不同的业务负载分级与两种协议类型两两组合,即可构建出联合网络协议类型与业务负载估计的状态模型,该状态模型使两种协议的价值在业务负载维度得到新的展现,因此,状态集为S={Traffic0_TDMA,Traffic0_SlotALOHA,…,Traffici_TDMA,Traffici_SlotALOHA,…,Trafficn-1_TDMA,Trafficn-1_SlotALOHA};设置各状态的动作包含两种,分别为:切换协议或保持当前协议不做切换,即有动作集A={SWITCH,NOTSWITCH};
步骤2.2:相对全面的对网络性能进行考量,在不同的场景下都能保持高的综合性能,采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合,将综合指标大小作为每一帧MAC性能的指示,则得回报函数如式(7)所示:
Figure BDA0003068065880000031
其中,Throughput表示全网各节点在一帧内的平均吞吐量,由(8)式计算得出;ETE_delay表示全网各节点在一帧内的平均端到端时延,由(9)式计算得出;DPR表示全网各节点在一帧内的平均丢包率,由(10)式计算得出;Throughputmax表示全网各节点在一帧内的最大平均吞吐量,有Throughputmax=λmax·packet_length;ETE_delaymax表示全网各节点在一帧内的最大平均端到端时延,有
Figure BDA0003068065880000032
w1、w2、w3分别表示各项指标的权重系数,有w1≥0、w2≤0、w3≤0,具体数值根据实际网络对不同性能指标的侧重需求设置;
Figure BDA0003068065880000033
其中,Numpr为全网各节点一帧内平均成功接收的数据包数量;
ETE_delay=trecv-tsend (9)
其中,trecv表示接收节点收到数据包的时间;tsend表示发送节点产生数据包的时间;
Figure BDA0003068065880000041
其中,Numdp表示全网各节点丢弃的数据包数量;Numsp表示全网各节点发送的数据包数量;
步骤2.3:网络采用ε-贪婪策略选择动作,当网络每次通过选择动作与环境交互后,根据环境给与的回报值Reward,使用式(12)对状态动作值进行更新,以此实现不同场景下协议价值的最优估计:
Figure BDA0003068065880000042
其中,q′(s,a)表示更新后的状态动作值;γ∈[0,1]是衰减因子,其值的大小反映了智能体对自身动作产生回报的长期效果的考量程度;α∈[0,1]是学习率,其值越接近于0表示历史价值对状态价值的影响越大,越接近于1表示当前收益对状态价值影响越大;s′表示网络在状态s下执行动作a后跳转的状态;a′表示网络在状态s′下选择的动作;
步骤3:切换过程如下:
步骤3.1:设置初始协议,初始动作a0,初始化各状态动作值q(s,a),初始化参数α、γ、ε;
步骤3.2:各节点按照所选协议类型(TDMA协议或Slot ALOHA协议)在数据帧传输数据,并在汇聚时隙将本节点统计的吞吐量、端到端时延、收发数据包数量及节点当前位置信息发送给主控节点;
步骤3.3:主控节点按照式(13)所示,根据各节点发送数据包的数量与最大业务负载时所能发送的数据包数量的比值估计出全网业务负载λestimate,并如式(14)所示,用业务负载估计值乘业务负载分级数n得出当前网络的业务量等级i;
Figure BDA0003068065880000043
i=[λestimate·n] (14)
其中,λestimate为估计出的全网业务负载;i为估计出的网络当前业务量等级;[]表示向下取整;
将网络当前业务分级Traffici与当前帧所运行的协议类型(TDMA协议或SlotALOHA协议)相组合确定其当前状态s,即s=Traffici_TDMA或s=Traffici_SlotALOHA;
步骤3.4:主控节点通过对各节点的吞吐量、端到端时延、收发数据包数量进行平均,得到全网平均各项性能指标,由式(7)求出上一动作的回报值Reward;
步骤3.5:主控节点按照式(12)对上一状态所选择的动作的价值进行更新;
步骤3.6:主控节点按照式(11)的策略选择下一帧需运行的协议。
为了保证帧有效承载网络最大业务负载,并且具有低的时间开销,帧格式中各时隙长度的计算步骤如下:
步骤1.1:控制帧采用主控节点处无隙接收的汇聚方式,由主控节点根据其与网络中各非主控节点间的距离信息调度各非主控节点的汇聚时刻,并将决策结果向各非主控节点进行广播,控制帧的时隙长度control_slot_length由式(2)计算得到:
Figure BDA0003068065880000051
其中,distance_error为主控节点与其余节点的距离误差容忍值(m);
步骤1.2:为保证MAC层可承载网络最大的业务负载,数据帧长需要结合节点的最大业务负载等参数确定,将全网各节点使用TDMA协议完成一轮数据传输的总时长作为数据帧的长度;即有:
data_slot_length=tdma_slot_length·N (3)
其中,tdma_slot_length为TDMA协议中单个节点的时隙长度,由式(4)计算得到;
对于TDMA协议,各节点在数据帧中仅拥有一个数据发送时隙,在其余时隙仅进行数据接收,因此,为了使TDMA协议下各节点可在数据发送时隙有效承载网络业务负载,时隙长度tdma_slot_length由式(4)计算得到:
Figure BDA0003068065880000052
对于Slot ALOHA协议,各节点在各时隙都可进行数据收发,因此,Slot ALOHA协议的单个时隙长度slot_aloha_length由式(5)计算得到;数据帧中包含的Slot ALOHA时隙个数M以数据帧长度为约束,由式(6)计算确定;
Figure BDA0003068065880000061
Figure BDA0003068065880000062
其中,slot_aloha_length表示Slot ALOHA协议的单个时隙长度;M表示数据帧中包含的Slot ALOHA时隙个数;[]表示向下取整;
所述ε-贪婪策略的表达式如式(11)所示:
Figure BDA0003068065880000063
其中,ε∈(0,1)表示对环境探索的概率,取0<ε≤0.01;s∈S表示网络当前状态;a∈A表示网络选择的动作;q(s,a)表示状态动作值,是网络对当前状态s下选择动作a的价值估计。
所述衰减因子γ取0<γ≤0.3。
所述学习率α取0.8≤α<1。
本发明的有益效果在于:
1、采用一种集中式MAC切换帧结构,将数据帧与控制帧分别设计,数据帧可兼容不同类型的MAC协议,设计合适的帧长以有效承载网络最大业务负荷;控制帧中汇聚时隙采用接收节点处无隙接收的汇聚方式,减小控制开销。
2、针对TDMA、Slot ALOHA协议在不同业务量、不同网络拓扑下性能动态变化、各有优势的特点,对MAC切换过程建立了马尔可夫决策过程模型,将网络协议、环境中的业务量因素联合构造网络状态,并采用Q-Learning算法对状态动作值及时更新,使得网络对业务量、拓扑的变化能进行有效适应,选择最优MAC协议;
这些特点使得本发明能有效保持网络在不同业务量、拓扑下高的综合性能。通过OPNET仿真验证,本发明可在业务量、网络拓扑改变的场景下灵活在TDMA与Slot ALOHA协议间进行切换,综合利用两协议的优势、避免两协议的不足,具有最高的综合性能。
附图说明
图1是本发明总体协议切换结构图。
图2是6节点水声网络固定拓扑图。
图3是6节点水声网络拓扑改变图。
图4是网络业务量随时间的变化图。
图5是固定拓扑下业务量改变时网络综合性能变化图。
图6是拓扑、业务量都改变时网络综合性能变化图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
图1为本发明的总体协议切换结构图。更具体地,在图2与图3两种场景中,具体参数设置为:单跳水声网络包含N=6个节点,设节点间最大通信距离dmax=5000(m),声速c=1500(m/s),信道速率R=2048(bps),数据包长度packet_length=256(bit),各节点单位时间最多产生的数据包个数λmax=1(pk/s),主控节点与其余节点的距离误差容忍值distance_error=100(m)。则本集中式MAC切换方法可按以下步骤执行。
步骤1:本MAC切换协议的帧格式包括数据帧与控制帧两部分,各节点在数据帧可与单跳网络中的任意节点按照特定类型的MAC协议交互数据,主控节点在控制帧中的汇聚时隙完成网络状态信息的收集,并在决策时隙对下一数据帧的MAC协议进行决策。帧总长度的计算公式如式(1)所示:
frame_length=data_slot_length+control_slot_length (1)
其中,frame_length为总帧长(s);data_slot_length为数据帧长(s),可由式(3)计算得到;control_slot_length为控制帧长(s),可由式(2)计算得到。
为了保证帧有效承载网络最大业务负载,并且具有低的时间开销,帧格式中各时隙长度的计算步骤如下。
步骤1.1:控制帧采用主控节点处无隙接收的汇聚方式,由主控节点根据其与网络中各非主控节点间的距离信息调度各非主控节点的汇聚时刻,并将决策结果向各非主控节点进行广播,控制帧的时隙长度control_slot_length由式(2)计算得到:
Figure BDA0003068065880000081
步骤1.2:为保证MAC层可承载网络最大的业务负载,数据帧长需要结合节点的最大业务负载等参数来确定,且本发明中,将全网各节点使用TDMA协议完成一轮数据传输的总时长作为数据帧的长度。即有:
data_slot_length=tdma_slot_length·N (3)
其中,tdma_slot_length为TDMA协议中单个节点的时隙长度,可由式(4)计算得到。
对于TDMA协议,各节点在数据帧中仅拥有一个数据发送时隙,在其余时隙仅进行数据接收,因此,为了使TDMA协议下各节点可在数据发送时隙有效承载网络业务负载,其时隙长度tdma_slot_length可由式(4)计算得到。
Figure BDA0003068065880000082
因此,由(3)式可得data_slot_length=105(s),并且,由(1)式可得frame_length=112.8(s)。
对于Slot ALOHA协议,各节点在各时隙都可进行数据收发,因此,Slot ALOHA协议的单个时隙长度slot_aloha_length可由式(5)计算得到。数据帧中包含的Slot ALOHA时隙个数M也可以数据帧长度为约束,由式(6)计算确定。
Figure BDA0003068065880000083
Figure BDA0003068065880000084
其中,slot_aloha_length表示Slot ALOHA协议的单个时隙长度;M表示数据帧中包含的Slot ALOHA时隙个数;[]表示向下取整。
步骤2:集中式水声网络MAC切换的马尔科夫决策模型可建立如下:
步骤2.1:设网络业务负载按轻重程度进行均匀分为n=10级,可得各业务负载分级为:Traffic0,…,Traffici,…,Traffic9,其中Traffici表示业务负载等级为i,此时网络业务量λ∈[i/10,(i+1)/10);,然后将不同的业务负载分级与两种协议类型两两组合,即可构建出联合网络协议类型与业务负载估计的状态模型,该模型可以使两种协议的价值在业务负载维度得到新的展现,因此,状态集为
S={Traffic0_TDMA,Traffic0_SlotALOHA,…,Traffici_TDMA,Traffici_SlotALOHA,…,Traffic9_TDMA,Traffic9_SlotALOHA}。设置各状态的动作包含两种,分别为:切换协议或保持当前协议不做切换,即有动作集A={SWITCH,NOTSWITCH}。
步骤2.2:本MAC切换方法希望能相对全面的对网络性能进行考量,在不同的场景下都能保持高的综合性能,因此采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合,将综合指标大小作为每一帧MAC性能的指示。则可得回报函数如式(7)所示。
Figure BDA0003068065880000091
其中,Throughput表示全网各节点在一帧内的平均吞吐量,可由(8)式计算得出;ETE_delay表示全网各节点在一帧内的平均端到端时延,可由(9)式计算得出;DPR表示全网各节点在一帧内的平均丢包率,可由(10)式计算得出;Throughputmax表示全网各节点在一帧内的最大平均吞吐量,本方法中有
Throughputmax=λmax·packet_length=256(bps);ETE_delaymax表示全网各节点在一帧内的最大平均端到端时延,本发明中有
Figure BDA0003068065880000092
w1、w2、w3分别表示各项指标的权重系数,有w1≥0、w2≤0、w3≤0;由于吞吐量指标在一定程度上综合了体现了丢包率与时延性能,实际中通常期望网络在较高的吞吐量的基础上,还能具有较低的时延与丢包率。因此此处设置w1=2,w2=-1,w3=-1,以此为例讨论切换协议对网络综合性能的改善。
Figure BDA0003068065880000101
其中,Numpr为全网各节点一帧内平均成功接收的数据包数量。
ETE_delay=trecv-tsend (9)
其中,trecv表示接收节点收到数据包的时间;tsend表示发送节点产生数据包的时间。
Figure BDA0003068065880000102
其中,Numdp表示全网各节点丢弃的数据包数量;Numsp表示全网各节点发送的数据包数量。
步骤2.3:网络采用ε-贪婪策略选择动作,该策略π的表达式如式(11)所示。
Figure BDA0003068065880000103
其中,ε∈(0,1)表示对环境探索的概率,本方法以ε=0.01为例进行性能讨论;s∈S表示网络当前状态;a∈A表示网络选择的动作;q(s,a)表示状态动作值,是网络对当前状态s下选择动作a的价值估计。当网络每次通过选择动作与环境交互后,可根据环境给与的回报值Reward,使用式(12)对状态动作值进行更新,以此实现不同场景下协议价值的最优估计。
Figure BDA0003068065880000104
其中,γ∈[0,1]是衰减因子,α∈[0,1]是学习率,本方法设置γ=0.2,α=0.95;s′表示网络在状态s下执行动作a后跳转的状态;a′表示网络在状态s′下选择的动作。
步骤3:本方法的切换过程如下。
步骤3.1:设置初始协议为TDMA协议,初始动作a0=NOTSWITCH,初始化各状态动作值q(s,NOTSWITCH)=-1,q(s,SWITCH)=1,初始化参数α=0.95、γ=0.2、ε=0.01;
步骤3.2:各节点按照所选协议类型(TDMA协议或Slot ALOHA协议)在数据帧传输数据,并在汇聚时隙将本节点统计的吞吐量、端到端时延、收发数据包数量及节点当前位置信息发送给主控节点;
步骤3.3:主控节点按照式(13)所示,根据各节点发送数据包的数量与最大业务负载时所能发送的数据包数量的比值估计出全网业务负载λestimate,并如式(14)所示,用业务负载估计值乘业务负载分级数n得出当前网络的业务量等级i;
Figure BDA0003068065880000111
i=[λestimate·n]=[10·λestimate] (14)
其中,λestimate为估计出的全网业务负载;i为估计出的网络当前业务量等级;[]表示向下取整。
将网络当前业务分级Traffici与当前帧所运行的协议类型(TDMA协议或SlotALOHA协议)相组合确定其当前状态s,即s=Traffici_TDMA或s=Traffici_SlotALOHA;
步骤3.4:主控节点通过对各节点的吞吐量、端到端时延、收发数据包数量进行平均,得到全网平均各项性能指标,由(7)式即可求出上一动作的回报值Reward;
步骤3.5:主控节点按照(12)式对上一状态所选择的动作的价值进行更新。
步骤3.6:主控节点按照(11)式的策略选择下一帧需运行的协议。
设置网络业务量随时间的变化情况如图4所示,在OPNET仿真软件中分别对图2固定的拓扑场景与图3移动拓扑场景进行本发明方法的性能仿真,其中图3中白色曲线为节点移动轨迹,由OPNET中的Random Waypoint移动模型随机生成,得到网络的综合性能曲线分别如图5、图6所示。可以看出,相比TDMA与Slot ALOHA协议,本发明方法能在业务量、拓扑变化的场景下能取得更优的网络综合性能。

Claims (5)

1.一种基于Q-Learning的水声网络MAC协议切换方法,其特征在于包括下述步骤:
步骤1:在包含N个节点的单跳水声网络中,节点间最大通信距离为dmax,声速为c,信道速率为R,数据包长度为packet_length,各节点单位时间最多产生的数据包个数为λmax
MAC切换协议的帧格式包括数据帧与控制帧两部分,各节点在数据帧与单跳网络中的任意节点按照特定类型的MAC协议交互数据,主控节点在控制帧中的汇聚时隙完成网络状态信息的收集,并在决策时隙对下一数据帧的MAC协议进行决策;帧总长度的计算公式如式(1)所示:
frame_length=data_slot_length+control_slot_length (1)
其中,frame_length为总帧长;data_slot_length为数据帧长;control_slot_length为控制帧长;
步骤2:集中式水声网络MAC切换的马尔科夫决策模型建立如下:
步骤2.1:将网络业务负载按轻重程度均匀分为n级,各业务负载分级为:Traffic0,…,Traffici,…,Trafficn-1,其中Traffici表示业务负载等级为i,此时网络业务量λ∈[i·λmax/n,(i+1)·λmax/n);然后将不同的业务负载分级与两种协议类型两两组合,两种协议类型分别为TDMA协议以及Slot ALOHA协议,即可构建出联合网络协议类型与业务负载估计的状态模型,该状态模型使两种协议的价值在业务负载维度得到新的展现,因此,状态集为S={Traffic0_TDMA,Traffic0_SlotALOHA,…,Traffici_TDMA,Traffici_SlotALOHA,…,Trafficn-1_TDMA,Trafficn-1_SlotALOHA};设置各状态的动作包含两种,分别为:切换协议或保持当前协议不做切换,即有动作集A={SWITCH,NOTSWITCH};
步骤2.2:采用线性加权法对无量纲化后的吞吐量、端到端时延、丢包率指标进行综合,将综合指标大小作为每一帧MAC性能的指示,则得回报函数如式(7)所示:
Figure FDA0003729950330000011
其中,Throughput表示全网各节点在一帧内的平均吞吐量;ETE_delay表示全网各节点在一帧内的平均端到端时延,DPR表示全网各节点在一帧内的平均丢包率,Throughputmax表示全网各节点在一帧内的最大平均吞吐量,有Throughputmax=λmax·packet_length;ETE_delaymax表示全网各节点在一帧内的最大平均端到端时延,有
Figure FDA0003729950330000021
w1、w2、w3分别表示各项指标的权重系数,有w1≥0、w2≤0、w3≤0;
Figure FDA0003729950330000022
其中,Numpr为全网各节点一帧内平均成功接收的数据包数量;
ETE_delay=trecv-tsend (9)
其中,trecv表示接收节点收到数据包的时间;tsend表示发送节点产生数据包的时间;
Figure FDA0003729950330000023
其中,Numdp表示全网各节点丢弃的数据包数量;Numsp表示全网各节点发送的数据包数量;
步骤2.3:网络采用ε-贪婪策略选择动作,ε表示环境探索的概率,所述ε-贪婪策略的表达式如式(11)所示:
Figure FDA0003729950330000024
其中,ε∈(0,1)表示对环境探索的概率,s∈S表示网络当前状态;a∈A表示网络选择的动作;q(s,a)表示状态动作值,是网络对当前状态s下选择动作a的价值估计;
当网络每次通过选择动作与环境交互后,根据环境给与的回报值Reward,使用式(12)对状态动作值进行更新,以此实现不同场景下协议价值的最优估计:
Figure FDA0003729950330000025
其中,q′(s,a)表示更新后的状态动作值;γ∈[0,1]是衰减因子,α∈[0,1]是学习率,s′表示网络在状态s下执行动作a后跳转的状态;a′表示网络在状态s′下选择的动作;
步骤3:切换过程如下:
步骤3.1:设置初始协议,初始动作a0,初始化各状态动作值q(s,a),初始化参数α、γ、ε;
步骤3.2:各节点按照所选协议类型在数据帧传输数据,并在汇聚时隙将本节点统计的吞吐量、端到端时延、收发数据包数量及节点当前位置信息发送给主控节点;
步骤3.3:主控节点按照式(13)所示,根据各节点发送数据包的数量与最大业务负载时所能发送的数据包数量的比值估计出全网业务负载λestimate,并如式(14)所示,用业务负载估计值乘业务负载分级数n得出当前网络的业务量等级i;
Figure FDA0003729950330000031
i=[λestimate·n] (14)
其中,λestimate为估计出的全网业务负载;i为估计出的网络当前业务量等级;[]表示向下取整;
将网络当前业务分级Traffici与当前帧所运行的协议类型相组合确定其当前状态s,即s=Traffici_TDMA或s=Traffici_SlotALOHA;
步骤3.4:主控节点通过对各节点的吞吐量、端到端时延、收发数据包数量进行平均,得到全网平均各项性能指标,由式(7)求出上一动作的回报值Reward;
步骤3.5:主控节点按照式(12)对上一状态所选择的动作的价值进行更新;
步骤3.6:主控节点按照式(11)的策略选择下一帧需运行的协议。
2.根据权利要求1所述的一种基于Q-Learning的水声网络MAC协议切换方法,其特征在于:
帧格式中各时隙长度的计算步骤如下:
步骤1.1:控制帧采用主控节点处无隙接收的汇聚方式,由主控节点根据其与网络中各非主控节点间的距离信息调度各非主控节点的汇聚时刻,并将决策结果向各非主控节点进行广播,控制帧的时隙长度control_slot_length由式(2)计算得到:
Figure FDA0003729950330000032
其中,distance_error为主控节点与其余节点的距离误差容忍值;
步骤1.2:将全网各节点使用TDMA协议完成一轮数据传输的总时长作为数据帧的长度;即有:
data_slot_length=tdma_slot_length·N (3)
其中,tdma_slot_length为TDMA协议中单个节点的时隙长度,由式(4)计算得到;
对于TDMA协议,各节点在数据帧中仅拥有一个数据发送时隙,在其余时隙仅进行数据接收,因此,为了使TDMA协议下各节点可在数据发送时隙有效承载网络业务负载,时隙长度tdma_slot_length由式(4)计算得到:
Figure FDA0003729950330000041
对于Slot ALOHA协议,各节点在各时隙都可进行数据收发,因此,Slot ALOHA协议的单个时隙长度slot_aloha_length由式(5)计算得到;数据帧中包含的Slot ALOHA时隙个数M以数据帧长度为约束,由式(6)计算确定;
Figure FDA0003729950330000042
Figure FDA0003729950330000043
其中,slot_aloha_length表示Slot ALOHA协议的单个时隙长度;M表示数据帧中包含的Slot ALOHA时隙个数;[]表示向下取整。
3.根据权利要求1所述的一种基于Q-Learning的水声网络MAC协议切换方法,其特征在于:
所述环境探索的概率ε取0<ε≤0.01。
4.根据权利要求1所述的一种基于Q-Learning的水声网络MAC协议切换方法,其特征在于:
所述衰减因子γ取0<γ≤0.3。
5.根据权利要求1所述的一种基于Q-Learning的水声网络MAC协议切换方法,其特征在于:
所述学习率α取0.8≤α<1。
CN202110531551.0A 2021-05-17 2021-05-17 一种基于Q-Learning的水声网络MAC协议切换方法 Active CN113301032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110531551.0A CN113301032B (zh) 2021-05-17 2021-05-17 一种基于Q-Learning的水声网络MAC协议切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110531551.0A CN113301032B (zh) 2021-05-17 2021-05-17 一种基于Q-Learning的水声网络MAC协议切换方法

Publications (2)

Publication Number Publication Date
CN113301032A CN113301032A (zh) 2021-08-24
CN113301032B true CN113301032B (zh) 2022-09-13

Family

ID=77322286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110531551.0A Active CN113301032B (zh) 2021-05-17 2021-05-17 一种基于Q-Learning的水声网络MAC协议切换方法

Country Status (1)

Country Link
CN (1) CN113301032B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114423083B (zh) * 2022-01-21 2024-05-03 厦门大学 基于q学习和数据重要度的水声网络介质访问控制方法
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法
CN114584226B (zh) * 2022-03-24 2024-04-19 王剑 低能耗高吞吐水声容断容迟网络通讯方法
CN114938530B (zh) * 2022-06-10 2023-03-21 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN115767785B (zh) * 2022-10-22 2024-02-27 西安电子科技大学 自组织网络中基于深度强化学习的mac协议切换方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7570593B1 (en) * 2003-06-30 2009-08-04 Hrl Laboratories, Llc Interference-resilient joint MAC and routing scheme for wireless ad-hoc networks
CN106028459A (zh) * 2016-05-17 2016-10-12 中国人民解放军海军航空工程学院 基于双重优先级的导航传感器网络mac协议实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487183B1 (en) * 2001-12-21 2002-11-26 Nortel Networks Limited Activity based resource assignment medium access control protocol
WO2015035286A1 (en) * 2013-09-09 2015-03-12 Arizona Board Of Regents On Behalf Of Arizona State University Topology-and load-aware (tla) resource allocation for a medium access control (mac) protocol
CN104796959B (zh) * 2015-05-08 2018-03-20 东南大学 一种簇结构多载波水声传感器网络的混合型mac协议方法
CN110351252A (zh) * 2019-06-19 2019-10-18 南京航空航天大学 一种可同步切换的无人机自组网自适应媒体接入控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7570593B1 (en) * 2003-06-30 2009-08-04 Hrl Laboratories, Llc Interference-resilient joint MAC and routing scheme for wireless ad-hoc networks
CN106028459A (zh) * 2016-05-17 2016-10-12 中国人民解放军海军航空工程学院 基于双重优先级的导航传感器网络mac协议实现方法

Also Published As

Publication number Publication date
CN113301032A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113301032B (zh) 一种基于Q-Learning的水声网络MAC协议切换方法
CN112383922B (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN101267404B (zh) 一种Ad Hoc网络中基于助理的分簇方法
CN103052129B (zh) 一种无线多跳中继网络中节能路由及功率分配方法
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN102438313B (zh) 一种基于认知无线电通信盟的调度方法
CN113691391B (zh) 基于q学习的节点数量可变水声网络介质访问控制方法
Lin et al. Multi-access edge computing-based vehicle-vehicle-RSU data offloading over the multi-RSU-overlapped environment
Zhang et al. A load-based hybrid MAC protocol for underwater wireless sensor networks
Qiu et al. Maintaining links in the highly dynamic fanet using deep reinforcement learning
CN115665227A (zh) 一种普适的异构融合算网资源智慧适配网络架构及方法
CN111741520B (zh) 一种基于粒子群的认知水声通信系统功率分配方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN113727278B (zh) 一种路径规划方法、接入网设备及飞行控制设备
Radha et al. Transmission distance in MAC protocol for wireless sensor networks
CN109152079B (zh) 一种针对tsch网络的时隙调度和信道分配方法
Zhang et al. A concurrent transmission enabled cooperative MAC protocol for vehicular ad hoc networks
CN104753783B (zh) 基于车载短距离通信网的快收敛蚁群路由建立方法
Geethu et al. Improving energy efficiency performance of ALOHA based underwater acoustic sensor networks
Chen et al. Cross layer design of heterogeneous virtual MIMO radio networks with multi-optimization
CN108990128B (zh) 移动网络中基于移动感知的路由设计方法
Bodakunta et al. Internet of aquatic powered by an efficient cross-layer technique in underwater wireless sensor networks
CN117395328B (zh) 一种时频调度mac协议方法、装置及设备
CN115987833B (zh) 一种水声传感器网络性能评估方法、装置、设备及介质
CN102056181B (zh) 协作通信系统中基于自适应的权重簇头分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant