CN111601398B - 一种基于增强学习的自组织网介质访问控制方法 - Google Patents

一种基于增强学习的自组织网介质访问控制方法 Download PDF

Info

Publication number
CN111601398B
CN111601398B CN202010424179.9A CN202010424179A CN111601398B CN 111601398 B CN111601398 B CN 111601398B CN 202010424179 A CN202010424179 A CN 202010424179A CN 111601398 B CN111601398 B CN 111601398B
Authority
CN
China
Prior art keywords
time slot
node
reservation
information
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010424179.9A
Other languages
English (en)
Other versions
CN111601398A (zh
Inventor
冷甦鹏
杨奕波
黄晓燕
夏露源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010424179.9A priority Critical patent/CN111601398B/zh
Publication of CN111601398A publication Critical patent/CN111601398A/zh
Application granted granted Critical
Publication of CN111601398B publication Critical patent/CN111601398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于增强学习的自组织网介质访问控制方法,应用于无线网络领域,针对现有技术普遍未考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题;本发明帧结构设计上采用了时隙交织方案,使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松;同时采用多时隙预约机制,使得网络节点在每周期只需发送一次控制帧并预约随后多个周期的信息时隙,交互流程简单易实现,控制开销小;并基于增强学习的多时隙选取算法自适应调整每段时隙选取概率,产生更优化的时隙选取策略,从而减少时隙竞争冲突,提高时隙分配效率,进一步优化介质访问控制方法的竞争成功率、传输带宽、传输时延、丢包率等性能。

Description

一种基于增强学习的自组织网介质访问控制方法
技术领域
本发明属于无线网络领域,特别涉及一种基于增强学习的多时隙选取技术。
背景技术
自组织(Ad hoc)网络是无线网络环境下的一种无需依靠固定通信设施就能自我建立、自我维护的多跳通信系统,具有很强的鲁棒性和抗毁能力。自组织网络非常适合应用于无人机通信、车联网场景、环境监测等无线网络场景。
MAC(Medium Access Control)介质访问控制方法是负责节点共享和接入有限的信道资源的关键所在,其性能优劣直接影响网络的整体性能。通常情况下,相比于传统的随机竞争介质访问控制方法,基于TDMA(Time Division Multiple Access)方式的介质访问控制方法具有更好的网络性能,更加适用于Ad hoc网络。TDMA介质访问控制方法主要分为固定分配、动态分配和前两者混合型的方式。固定方式分配方式简单易实现,但通常不适用于网络通信性能要求较高的应用场景。动态分配方式通常具有良好的网络性能,相关研究较多,应用场景广泛。固定与动态结合的混合分配方式在吞吐量、时延方面都有一定的提升,但复杂度以及控制开销也较大。
自组织网络领域中提出了两种经典的动态TDMA介质访问控制方法,这两种方法分别代表了两种信道分配方法。一种是基于竞争接入的FPRP(Five Phase ReservationProtocol)介质访问控制方法,FPRP的五步预约方法解决了隐藏终端问题,具有时隙复用的特性。另一种是在竞争接入的基础上,引入节点相互协商占用信道方法的E-TDMA(Evolutionary-TDMA)介质访问控制方法,该方法除了具有FPRP的优点外,还适用于单播和广播业务,时隙利用率更高。不少动态TDMA介质访问控制方法在其中一种介质访问控制方法基础上进行相关改进,或者在一定程度上采用与其中一种方案相类似的分配方法。
在基于TDMA的介质访问控制方法的研究过程中,需考虑硬件设备在传输、处理和分析分组的时延性能。不少TDMA介质访问控制方法如FPRP、E-TDMA以及相关改进介质访问控制方法要求在紧邻的下一时隙其他节点能及时接收解析该分组信号,并完成数据计算,生成响应控制分组,这对物理设备时延性能要求过高而不适用于实际的网络场景,从而产生介质访问控制方法的实用性的问题。如何降低TDMA介质访问控制方法对物理设备时延性能的要求,是解决介质访问控制方法实用性的关键之一。
TDMA介质访问控制方法通常配置相应的时隙分配算法,时隙分配算法对介质访问控制方法的吞吐量、公平性、时延等性能都有重要影响。当前自组织网中已有大量较为成熟的信道竞争预约算法被提出,相关算法的进一步优化遇到一定瓶颈,需寻求不同的优化思路。增强学习技术非常适用于实时控制任务和优化问题,而且在动态网络的优化能力将有可能超过传统网络算法。现已有一些增强学习应用于通信领域的例子,Alnwaimi等采用基于增强学习的算法解决了蜂窝网络场景中的资源分配和用户接入的问题(DynamicHeterogeneous Learning Games for Opportunistic Access in LTE-Based Macro/Feratocel1Deployments)。檀华丽等利用增强学习技术提出一种节点着色算法来解决TDMA信道资源分配问题(无线传感器网络中多信道TDMA调度算法研究)。在CSMA/CA场景下,杜艾芊提出一种基于Q学习的竞争窗口调整算法。网络性能影响因素较为复杂,以上算法普遍未考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题,将增强学习技术应用于分布式网络节点多时隙选取场景,能使得时隙选取算法较为全面的考虑环境影响因素,并从其中自适应学习到更优化的多时隙选取策略,基于增强学习的多时隙选取方法具有重要研究价值和挑战性。
发明内容
为解决上述技术问题,本发明提出一种基于增强学习的自组织网介质访问控制方法。
本发明采用的技术方案为:一种基于增强学习的自组织网介质访问控制方法,基于的帧结构包括:控制信道与数据信道;控制信道包括接入时隙与预约时隙,数据信道包括多个信息时隙;
如图3所示,所述方法包括:
S1、在自组织网环境中,节点通过FPRP机制在接入时隙竞争预约时隙占用权;
S2、如果节点获取预约时隙占用权,则在预约时隙周期性的与邻居节点交互控制信息,控制信息包含两跳范围内信息时隙占用情况和两跳范围内节点负载信息,并根据时隙有限状态机维护时隙状态;如果节点未获取FS时隙占用,则返回步骤S1;
S3、如果节点有数据需要发送,节点根据自身负载计算得到随后TCycMAX个周期需要预约的信息时隙数nSlotNum,TCycMAX表示预约轮数并预先设定为固定值,然后执行步骤S4;如果节点无数据需要发送,则执行步骤S5;
S4、节点通过时隙竞争情况评估算法计算得出时隙竞争情况评估值,并将需预约信息时隙数nSlotNum和时隙竞争情况评估值作为输入值,通过基于增强学习的多时隙选取算法,运算得出随后TCycMAX个周期需选取预约的空闲信息时隙;
S5、节点构造预约控制报文,在控制时隙广播预约控制报文;包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息
S6、如果节点在下一次广播控制信息前,没有邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突,则表示节点预约成功,节点获得正奖赏值;如果节点在下一次广播控制信息前,收到邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突,则表示节点预约失败,节点获得负奖赏值;通过奖赏更新基于增强学习的多时隙选取算法相关参数;
S7、如果节点成功预约信息时隙,则在相应信息时隙发送数据分组;
S8、若节点接收到所占用预约时隙的冲突控制报文,则返回执行步骤S1;否则执行步骤S9;
S9、若节点需退出网络,则结束流程,否则返回步骤S2。
所述接入时隙的结构包括五个阶段,依次为:预约请求阶段、冲突报告阶段、预约确认阶段、预约应答阶段、打包/消除阶段,记预约请求阶段为RR、冲突报告阶段为CR、预约确认阶段为RC、预约应答阶段为RA、打包/消除阶段为P/E。
所述接入时隙中的五个阶段采用交替排列的形式,具体的:对于连续的k个接入时隙;第1个预约请求阶段位于第1个接入时隙,第k个预约请求阶段位于第k个接入时隙,第k-1个预约请求阶段位于第k-1个接入时隙;第1个冲突报告阶段位于第2个接入时隙,第k个冲突报告阶段位于第1个接入时隙,第k-1个冲突报告阶段位于第k个接入时隙;第1个预约确认阶段位于第3个接入时隙,第k个预约确认阶段位于第2个接入时隙,第k-1个预约确认阶段位于第1个接入时隙;第1个预约应答阶段位于第4个接入时隙,第k个预约应答阶段位于第3个接入时隙,第k-1个预约应答阶段位于第2个接入时隙;第1个打包/消除阶段位于第5个接入时隙,第k个打包/消除阶段位于第4个接入时隙,第k-1个打包/消除阶段位于第3个接入时隙;
所述k大于或等于5;
第一个接入时隙的结构包括:第1个预约请求阶段、第k个冲突报告阶段、第k-1个预约确认阶段、第k-2个预约应答阶段、第k-3个打包/消除阶段;
第k个接入时隙的结构包括:第k个预约请求阶段、第k-1个冲突报告阶段、第k-2个预约确认阶段、第k-3个预约应答阶段、第k-4个打包/消除阶段;
本发明的有益效果:本发明在帧结构设计上采用了时隙交织方案,使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松。同时该方法采用多时隙预约机制,使得网络节点在每周期只需发送一次控制帧并预约随后多个周期的信息时隙,交互流程简单易实现,控制开销小。本发明的信道分配方法利用增强学习算法较好的自适应动态调整能力和复杂状态处理能力,将增强学习算法DDPG(Deep Deterministic PolicyGradient)与多时隙选取算法相结合,提出基于增强学习的多时隙选取算法。ME-TDMA(Multicycle enhanced TDMA)节点可获取每段信息时隙上可参与竞争的节点数量和邻居节点的负载信息,这两种因素影响着不同时隙的竞争冲突概率。在此基础上,基于增强学习的多时隙选取算法自适应调整每段时隙选取概率,产生更优化的时隙选取策略,从而减少时隙竞争冲突,提高时隙分配效率,进一步优化介质访问控制方法的竞争成功率、传输带宽、传输时延、丢包率等性能;本发明的方法具备以下优点:
1、本发明使用时隙交织的方法将帧周期内预约时隙与信息时隙进行交替排列,在此基础上,配合提出多周期预约方法(ME-TDMA),在一段预约时隙中可预约随后多个周期的信息时隙;使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松,增加了介质访问控制方法的实用性。
2、本发明提出动态TDMA时隙预约的多时隙选取算法,该算法结合增强学习技术,使各分布式网络节点在每次预约中能够选取多个时隙。在选取预约时隙时,考虑了竞争节点数量和节点负载的差异对不同时隙竞争冲突概率的影响。
附图说明
图1ME-TDMA信道控制访问方法的帧结构图;
图2AS时隙结构图;
图3ME-TDMA信道控制访问方法的运行流程图;
图4时隙有限状态机图;
图5为预约控制报文所包含内容的示意图;
图6为Neigh字段、FCState字段、SlotState字段、LoadState字段包含内容的示意图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
本发明提出的ME-TDMA(Multicycle enhanced TDMA)信道控制访问方法的帧结构如图1所示包括控制信道CCH(Control Channel)和数据信道DCH(Data Channel),帧周期由控制时隙和信息时隙交织而成,表现为一段CCH和一段DCH在时间维度上交替排列。在无线自组织网络中,网络节点通过控制信道接入网络,在控制信道进行控制报文的交互,每个节点利用数据信道进行数据业务的传输。AS表示接入时隙,FS表示预约时隙,控制信道由AS和FS时隙构成。IS表示信息时隙,数据信道由多个IS时隙构成。AS时隙为接入信道,节点通过FPRP竞争机制获取FS时隙占用权。FS时隙用于节点交互预约控制报文。
网络节点在AS时隙通过FPRP竞争机制,竞争相应FS时隙的占用权。如图2所示,为AS时隙的组成结构,RR表示预约请求阶段,CR表示冲突报告阶段,RC表示预约确认阶段,RA表示预约应答阶段,P/E表示打包/消除阶段。这5个阶段的时隙也相互交织,如RR1位于AS1,CR1位于AS2,RC1位于AS3,RA1位于AS4,P/E1位于AS5,因此AS1由RR1、CRk、RCk-1、RAk-2、P/Ek-3组成,AS2由RR2、CR1、RCk、RAk-1、P/Ek-2组成,因此AS3由RR3、CR2、RC1、RAk、P/Ek-1组成,因此AS4由RR4、CR3、RC2、RA1、P/Ek组成,因此AS5由RR5、CR4、RC3、RA2、P/E1组成,其他时隙同理依次进行交替排列。节点经过RRk、CRk、RCk、RAk、P/Ek五个阶段后,竞争成功则获得序号为k的FSk时隙占用权,并长期占有该FS时隙。网络节点在所有FS时隙接收邻居节点广播的预约控制报文,获取两跳范围内节点负载情况,同时收集预约控制报文包含的信息时隙状态,更新随后TCycMAX个周期所有信息时隙状态值。TCycMAX表示最大预约周期数量。FS时隙状态使用图4的时隙有限状态机进行时隙状态维护。本实施例中k的取值为大于或等于5。
ME-TDMA信道控制访问方法的每段信息时隙IS需经过TCycMAX轮帧周期完成预约协商,TCycMAX预先设定为固定值。假设当前帧周期为T,节点在T帧周期发送包含T+1、T+2...、T+TCycMAX帧周期信息时隙状态的预约控制报文,其中包含T+1帧周期第TCycMAX轮预约的时隙状态,T+2帧周期第TCycMAX-1轮预约的时隙状态,同理依次类推,直至T+TCycMAX帧周期第1轮预约的时隙状态。每个信息时隙需经过TCycMAX轮帧周期完成预约过程。多周期预约机制使得节点在每个帧周期只需广播一次控制报文,交互流程简单易实现。
节点在控制信道发送的预约控制报文为固定格式,包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息。表1为预约控制报文中需包含的具体信息,表2为Neigh字段、FCState字段、SlotState字段、LoadState字段格式。如图5、图6所示为预约控制报文所包含内容的示意图。
表1预约控制报文格式
Figure BDA0002498044870000061
表2Neigh字段、FCState字段、SlotState字段、LoadState字段格式
Figure BDA0002498044870000062
NebFalN字段生成方法:设当前节点为m_Node,邻居节点为Neb_Node,该邻居节点的竞争状态对应NebFalN二进制的第k位。m_Node节点根据邻居节点Neb_Node的预约控制报文,若Neb_Node在信息时隙ISk状态为空闲态,则将对应NebFalN二进制的第k位置为1,其他状态则为0。
nSlotNum的计算如公式1所示,其中selfLoad表示节点负载值,slotFree表示该周期空闲信息时隙数,SU表示单位信息时隙传输容量。
Figure BDA0002498044870000063
本发明中基于增强学习的多时隙选取算法实施如下:
学习模型-状态集合S:
Figure BDA0002498044870000071
在多时隙选取场景中,需要考虑每个信息时隙竞争情况和时隙占用情况,
Figure BDA0002498044870000072
表示信息时隙竞争情况评估值,t表示周期值。frt表示在t周期时空闲信息时隙数量,nst表示节点需预约信息时隙数量。
Figure BDA0002498044870000073
结构上为1×ISNum的矩阵,ISNum表示帧周期内信息时隙的数量。
规定
Figure BDA0002498044870000074
如公式3所示,其中nni表示信息时隙两跳范围内竞争情况评估值,竞争情况评估值基于竞争节点数量和竞争节点需预约时隙数量计算得出。竞争情况评估值越大竞争产生冲突的概率越高。
Figure BDA0002498044870000075
本发明提出的
Figure BDA0002498044870000076
竞争情况评估算法基于邻居的负载和时隙的状态信息进行评估。其中,TCycMAX表示最大预约周期数同时也表示信息时隙需经过的预约轮数。NebState表示两跳范围内的邻居节点在每个信息时隙上是否参与竞争的情况。NebLoadNumNode表示两跳范围内的邻居节点需预约的信息时隙数量。SlotState表示节点自身的信息时隙状态。NebFreeSlotSumNode表示两跳范围内邻居节点可参与竞争的时隙总数。
Figure BDA0002498044870000077
Figure BDA0002498044870000081
学习模型-动作集合A:动作集合A是各信息时隙的选取概率。pcn表示选取信息时隙i的概率值,
Figure BDA0002498044870000082
表示选取各信息时隙的概率。
Figure BDA0002498044870000083
Figure BDA0002498044870000084
学习模型-奖励函数R:ai表示在信息时隙i获取的奖励值,选取成功则为正奖励,选取的时隙产生预约冲突则为负奖励。
Figure BDA0002498044870000085
Figure BDA0002498044870000086
基于增强学习的多时隙选取算法具体实施如下,其中参数需满足的条件:1)0<α(θ)<1;2)0<α(α)<1;3)0≤γ≤1。
Figure BDA0002498044870000087
Figure BDA0002498044870000091
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (6)

1.一种基于增强学习的自组织网介质访问控制方法,其特征在于,基于的帧结构包括:控制信道与数据信道;控制信道包括接入时隙与预约时隙,数据信道包括多个信息时隙;所述接入时隙的结构包括五个阶段,依次为:预约请求阶段、冲突报告阶段、预约确认阶段、预约应答阶段、打包/消除阶段,所述接入时隙中的五个阶段采用交替排列的形式;
所述方法包括以下步骤:
S1、在自组织网环境中,节点通过FPRP机制在接入时隙竞争预约时隙占用权;
S2、如果节点获取预约时隙占用权,则在预约时隙周期性的与邻居节点交互控制信息,控制信息包含两跳范围内信息时隙占用情况和两跳范围内节点负载信息,并根据时隙有限状态机维护时隙状态;如果节点未获取FS时隙占用权,则返回步骤S1;
S3、如果节点有数据需要发送,节点根据自身负载计算得到随后TCycMAX个周期需要预约的信息时隙数nSlotNum,TCycMAX表示预约轮数并预先设定为固定值,然后执行步骤S4;如果节点无数据需要发送,则执行步骤S5;
S4、节点通过时隙竞争情况评估算法计算得出时隙竞争情况评估值,并将需预约信息时隙数nSlotNum和时隙竞争情况评估值作为输入值,通过基于增强学习的多时隙选取算法,运算得出随后TCycMAX个周期需选取预约的空闲信息时隙;步骤S4所述基于增强学习的多时隙选取算法的学习模型-状态集合S:
Figure FDA0003496148970000011
其中,
Figure FDA0003496148970000012
表示信息时隙竞争情况评估值,t表示周期值,frt表示在t周期时信息空闲时隙数量,nst表示节点需预约时隙数量,
Figure FDA0003496148970000013
结构上为1×ISNum的矩阵,ISNum表示帧周期内信息时隙的数量
S5、节点构造预约控制报文,在控制时隙广播预约控制报文;所述预约控制报文包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息
S6、如果节点在下一次广播控制信息前,没有邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突,则表示节点预约成功,执行步骤S7;如果节点在下一次广播控制信息前,收到邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突,则表示节点预约失败,执行步骤S8;
S7、如果节点成功预约信息时隙,则在相应信息时隙发送数据分组;
S8、若节点接收到所占用预约时隙的冲突控制报文,则返回执行步骤S1;否则执行步骤S9;
S9、若节点需退出网络,则结束流程,否则返回步骤S2。
2.根据权利要求1所述的一种基于增强学习的自组织网介质访问控制方法,其特征在于,对于连续的k个接入时隙;第1个预约请求阶段位于第1个接入时隙,第k个预约请求阶段位于第k个接入时隙,第k-1个预约请求阶段位于第k-1个接入时隙;第1个冲突报告阶段位于第2个接入时隙,第k个冲突报告阶段位于第1个接入时隙,第k-1个冲突报告阶段位于第k个接入时隙;第1个预约确认阶段位于第3个接入时隙,第k个预约确认阶段位于第2个接入时隙,第k-1个预约确认阶段位于第1个接入时隙;第1个预约应答阶段位于第4个接入时隙,第k个预约应答阶段位于第3个接入时隙,第k-1个预约应答阶段位于第2个接入时隙;第1个打包/消除阶段位于第5个接入时隙,第k个打包/消除阶段位于第4个接入时隙,第k-1个打包/消除阶段位于第3个接入时隙。
3.根据权利要求2所述的一种基于增强学习的自组织网介质访问控制方法,其特征在于,所述k大于或等于5;
第一个接入时隙的结构包括:第1个预约请求阶段、第k个冲突报告阶段、第k-1个预约确认阶段、第k-2个预约应答阶段、第k-3个打包/消除阶段;
第k个接入时隙的结构包括:第k个预约请求阶段、第k-1个冲突报告阶段、第k-2个预约确认阶段、第k-3个预约应答阶段、第k-4个打包/消除阶段。
4.根据权利要求3所述的一种基于增强学习的自组织网介质访问控制方法,其特征在于,
Figure FDA0003496148970000021
的计算式为:
Figure FDA0003496148970000022
其中,nni表示信息时隙两跳范围内竞争情况评估值,i=1,2,…,ISNum。
5.根据权利要求4所述的一种基于增强学习的自组织网介质访问控制方法,其特征在于,nni的计算式为:
Figure FDA0003496148970000023
其中,NebLoadNumNode表示两跳范围内的邻居节点需预约的信息时隙数量,NebFreeSlotNumNode表示两跳范围内邻居节点可参与竞争的时隙总数,CompleteNode表示参与竞争的节点集合,Node表示该集合中的节点。
6.根据权利要求5所述的一种基于增强学习的自组织网介质访问控制方法,其特征在于,步骤S6还包括:若节点预约成功,则节点获得正奖赏值;若节点预约失败,则节点获得负奖赏值;根据正奖赏值或负奖赏值更新基于增强学习的多时隙选取算法的学习模型-奖励函数R:
Figure FDA0003496148970000031
Figure FDA0003496148970000032
其中,ai表示在信息时隙i获取的奖励值,其他情况为信息时隙i空闲或者已被成功预约。
CN202010424179.9A 2020-05-19 2020-05-19 一种基于增强学习的自组织网介质访问控制方法 Active CN111601398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010424179.9A CN111601398B (zh) 2020-05-19 2020-05-19 一种基于增强学习的自组织网介质访问控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010424179.9A CN111601398B (zh) 2020-05-19 2020-05-19 一种基于增强学习的自组织网介质访问控制方法

Publications (2)

Publication Number Publication Date
CN111601398A CN111601398A (zh) 2020-08-28
CN111601398B true CN111601398B (zh) 2022-04-01

Family

ID=72187455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010424179.9A Active CN111601398B (zh) 2020-05-19 2020-05-19 一种基于增强学习的自组织网介质访问控制方法

Country Status (1)

Country Link
CN (1) CN111601398B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN114938530B (zh) * 2022-06-10 2023-03-21 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN117295074B (zh) * 2023-11-27 2024-03-26 天津七一二通信广播股份有限公司 基于邻居节点时隙占用的tdma动态时隙分配方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105873130A (zh) * 2016-05-30 2016-08-17 电子科技大学 一种用于多跳自组织网络的时隙竞争方法
CN107567103A (zh) * 2017-10-27 2018-01-09 国网四川省电力公司电力应急中心 一种自组织网络基于业务负载的时隙按需分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8295162B2 (en) * 2006-05-16 2012-10-23 At&T Intellectual Property I, L.P. System and method to achieve sub-second routing performance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105873130A (zh) * 2016-05-30 2016-08-17 电子科技大学 一种用于多跳自组织网络的时隙竞争方法
CN107567103A (zh) * 2017-10-27 2018-01-09 国网四川省电力公司电力应急中心 一种自组织网络基于业务负载的时隙按需分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于TDMA的无冲突动态时隙分配算法;崔可嘉,孙昕;《计算机工程》;20141031;全文 *

Also Published As

Publication number Publication date
CN111601398A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111601398B (zh) 一种基于增强学习的自组织网介质访问控制方法
CN108235437B (zh) 一种无线移动自组织网络信道时隙调度分配方法
US7046639B2 (en) System and method for ad hoc network access employing the distributed election of a shared transmission schedule
CN108834182B (zh) 基于令牌环的无线自组网mac层信道接入和资源预留方法
CN103051410B (zh) 一种自组织时分多址接入协议时隙利用率的提高方法
CN113613339B (zh) 基于深度强化学习的多优先级无线终端的信道接入方法
CN102724764A (zh) 用于车载无线自组织网络的自适应mac协议
CN105554887A (zh) 一种基于tdma的无线mesh网络分布式资源分配的方法
Lin et al. Distributed multi-channel MAC protocol for VANET: An adaptive frame structure scheme
CN114585103B (zh) 一种业务感知的智能信道接入控制方法
CN110225593B (zh) 一种分布式tdma协议中的随机数闲置时隙竞争方法
CN111328052B (zh) 一种高密度无线网络中信道资源分配方法
Rao et al. Self-adaptive implicit contention window adjustment mechanism for QoS optimization in wireless sensor networks
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Wang et al. Reliability optimization for channel resource allocation in multihop wireless network: A multigranularity deep reinforcement learning approach
Lei et al. A dynamic TDMA-based MAC protocol with QoS guarantees for fully connected ad hoc networks
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
Suman et al. A Dynamic TDMA Slot Scheduling (DTSS) scheme for efficient channel allocation in tactical ad hoc networks
Şahin et al. Scheduling out-of-coverage vehicular communications using reinforcement learning
Deng et al. Distributed resource allocation based on timeslot reservation in high-density VANETs
CN106912110B (zh) 一种单发多收空口资源分配方法
Gao et al. Cluster-based interference-free MAC protocol with load aware in software defined VANET
Lei et al. QoS-oriented media access control using reinforcement learning for next-generation WLANs
Lenka et al. An efficient dynamic slot scheduling algorithm for WSN MAC: A distributed approach
Cirimelli-Low et al. Key-Activation Multiple Access (KAMA)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant