CN111601398B

CN111601398B - 一种基于增强学习的自组织网介质访问控制方法

Info

Publication number: CN111601398B
Application number: CN202010424179.9A
Authority: CN
Inventors: 冷甦鹏; 杨奕波; 黄晓燕; 夏露源
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2022-04-01
Anticipated expiration: 2040-05-19
Also published as: CN111601398A

Abstract

本发明公开一种基于增强学习的自组织网介质访问控制方法，应用于无线网络领域，针对现有技术普遍未考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题；本发明帧结构设计上采用了时隙交织方案，使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松；同时采用多时隙预约机制，使得网络节点在每周期只需发送一次控制帧并预约随后多个周期的信息时隙，交互流程简单易实现，控制开销小；并基于增强学习的多时隙选取算法自适应调整每段时隙选取概率，产生更优化的时隙选取策略，从而减少时隙竞争冲突，提高时隙分配效率，进一步优化介质访问控制方法的竞争成功率、传输带宽、传输时延、丢包率等性能。

Description

一种基于增强学习的自组织网介质访问控制方法

技术领域

本发明属于无线网络领域，特别涉及一种基于增强学习的多时隙选取技术。

背景技术

自组织(Ad hoc)网络是无线网络环境下的一种无需依靠固定通信设施就能自我建立、自我维护的多跳通信系统，具有很强的鲁棒性和抗毁能力。自组织网络非常适合应用于无人机通信、车联网场景、环境监测等无线网络场景。

MAC(Medium Access Control)介质访问控制方法是负责节点共享和接入有限的信道资源的关键所在，其性能优劣直接影响网络的整体性能。通常情况下，相比于传统的随机竞争介质访问控制方法，基于TDMA(Time Division Multiple Access)方式的介质访问控制方法具有更好的网络性能，更加适用于Ad hoc网络。TDMA介质访问控制方法主要分为固定分配、动态分配和前两者混合型的方式。固定方式分配方式简单易实现，但通常不适用于网络通信性能要求较高的应用场景。动态分配方式通常具有良好的网络性能，相关研究较多，应用场景广泛。固定与动态结合的混合分配方式在吞吐量、时延方面都有一定的提升，但复杂度以及控制开销也较大。

自组织网络领域中提出了两种经典的动态TDMA介质访问控制方法，这两种方法分别代表了两种信道分配方法。一种是基于竞争接入的FPRP(Five Phase ReservationProtocol)介质访问控制方法，FPRP的五步预约方法解决了隐藏终端问题，具有时隙复用的特性。另一种是在竞争接入的基础上，引入节点相互协商占用信道方法的E-TDMA(Evolutionary-TDMA)介质访问控制方法，该方法除了具有FPRP的优点外，还适用于单播和广播业务，时隙利用率更高。不少动态TDMA介质访问控制方法在其中一种介质访问控制方法基础上进行相关改进，或者在一定程度上采用与其中一种方案相类似的分配方法。

在基于TDMA的介质访问控制方法的研究过程中，需考虑硬件设备在传输、处理和分析分组的时延性能。不少TDMA介质访问控制方法如FPRP、E-TDMA以及相关改进介质访问控制方法要求在紧邻的下一时隙其他节点能及时接收解析该分组信号，并完成数据计算，生成响应控制分组，这对物理设备时延性能要求过高而不适用于实际的网络场景，从而产生介质访问控制方法的实用性的问题。如何降低TDMA介质访问控制方法对物理设备时延性能的要求，是解决介质访问控制方法实用性的关键之一。

TDMA介质访问控制方法通常配置相应的时隙分配算法，时隙分配算法对介质访问控制方法的吞吐量、公平性、时延等性能都有重要影响。当前自组织网中已有大量较为成熟的信道竞争预约算法被提出，相关算法的进一步优化遇到一定瓶颈，需寻求不同的优化思路。增强学习技术非常适用于实时控制任务和优化问题,而且在动态网络的优化能力将有可能超过传统网络算法。现已有一些增强学习应用于通信领域的例子，Alnwaimi等采用基于增强学习的算法解决了蜂窝网络场景中的资源分配和用户接入的问题(DynamicHeterogeneous Learning Games for Opportunistic Access in LTE-Based Macro/Feratocel1Deployments)。檀华丽等利用增强学习技术提出一种节点着色算法来解决TDMA信道资源分配问题(无线传感器网络中多信道TDMA调度算法研究)。在CSMA/CA场景下，杜艾芊提出一种基于Q学习的竞争窗口调整算法。网络性能影响因素较为复杂，以上算法普遍未考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题，将增强学习技术应用于分布式网络节点多时隙选取场景，能使得时隙选取算法较为全面的考虑环境影响因素，并从其中自适应学习到更优化的多时隙选取策略，基于增强学习的多时隙选取方法具有重要研究价值和挑战性。

发明内容

为解决上述技术问题，本发明提出一种基于增强学习的自组织网介质访问控制方法。

本发明采用的技术方案为：一种基于增强学习的自组织网介质访问控制方法，基于的帧结构包括：控制信道与数据信道；控制信道包括接入时隙与预约时隙，数据信道包括多个信息时隙；

如图3所示，所述方法包括：

S1、在自组织网环境中，节点通过FPRP机制在接入时隙竞争预约时隙占用权；

S2、如果节点获取预约时隙占用权，则在预约时隙周期性的与邻居节点交互控制信息，控制信息包含两跳范围内信息时隙占用情况和两跳范围内节点负载信息，并根据时隙有限状态机维护时隙状态；如果节点未获取FS时隙占用，则返回步骤S1；

S3、如果节点有数据需要发送，节点根据自身负载计算得到随后T_CycMAX个周期需要预约的信息时隙数nSlotNum，T_CycMAX表示预约轮数并预先设定为固定值，然后执行步骤S4；如果节点无数据需要发送，则执行步骤S5；

S4、节点通过时隙竞争情况评估算法计算得出时隙竞争情况评估值,并将需预约信息时隙数nSlotNum和时隙竞争情况评估值作为输入值，通过基于增强学习的多时隙选取算法，运算得出随后T_CycMAX个周期需选取预约的空闲信息时隙；

S5、节点构造预约控制报文，在控制时隙广播预约控制报文；包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息

S6、如果节点在下一次广播控制信息前，没有邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突，则表示节点预约成功，节点获得正奖赏值；如果节点在下一次广播控制信息前，收到邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突，则表示节点预约失败，节点获得负奖赏值；通过奖赏更新基于增强学习的多时隙选取算法相关参数；

S7、如果节点成功预约信息时隙，则在相应信息时隙发送数据分组；

S8、若节点接收到所占用预约时隙的冲突控制报文，则返回执行步骤S1；否则执行步骤S9；

S9、若节点需退出网络，则结束流程，否则返回步骤S2。

所述接入时隙的结构包括五个阶段，依次为：预约请求阶段、冲突报告阶段、预约确认阶段、预约应答阶段、打包/消除阶段，记预约请求阶段为RR、冲突报告阶段为CR、预约确认阶段为RC、预约应答阶段为RA、打包/消除阶段为P/E。

所述接入时隙中的五个阶段采用交替排列的形式，具体的：对于连续的k个接入时隙；第1个预约请求阶段位于第1个接入时隙，第k个预约请求阶段位于第k个接入时隙，第k-1个预约请求阶段位于第k-1个接入时隙；第1个冲突报告阶段位于第2个接入时隙，第k个冲突报告阶段位于第1个接入时隙，第k-1个冲突报告阶段位于第k个接入时隙；第1个预约确认阶段位于第3个接入时隙，第k个预约确认阶段位于第2个接入时隙，第k-1个预约确认阶段位于第1个接入时隙；第1个预约应答阶段位于第4个接入时隙，第k个预约应答阶段位于第3个接入时隙，第k-1个预约应答阶段位于第2个接入时隙；第1个打包/消除阶段位于第5个接入时隙，第k个打包/消除阶段位于第4个接入时隙，第k-1个打包/消除阶段位于第3个接入时隙；

所述k大于或等于5；

第一个接入时隙的结构包括：第1个预约请求阶段、第k个冲突报告阶段、第k-1个预约确认阶段、第k-2个预约应答阶段、第k-3个打包/消除阶段；

第k个接入时隙的结构包括：第k个预约请求阶段、第k-1个冲突报告阶段、第k-2个预约确认阶段、第k-3个预约应答阶段、第k-4个打包/消除阶段；

本发明的有益效果：本发明在帧结构设计上采用了时隙交织方案，使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松。同时该方法采用多时隙预约机制，使得网络节点在每周期只需发送一次控制帧并预约随后多个周期的信息时隙，交互流程简单易实现，控制开销小。本发明的信道分配方法利用增强学习算法较好的自适应动态调整能力和复杂状态处理能力，将增强学习算法DDPG(Deep Deterministic PolicyGradient)与多时隙选取算法相结合，提出基于增强学习的多时隙选取算法。ME-TDMA(Multicycle enhanced TDMA)节点可获取每段信息时隙上可参与竞争的节点数量和邻居节点的负载信息，这两种因素影响着不同时隙的竞争冲突概率。在此基础上，基于增强学习的多时隙选取算法自适应调整每段时隙选取概率，产生更优化的时隙选取策略，从而减少时隙竞争冲突，提高时隙分配效率，进一步优化介质访问控制方法的竞争成功率、传输带宽、传输时延、丢包率等性能；本发明的方法具备以下优点：

1、本发明使用时隙交织的方法将帧周期内预约时隙与信息时隙进行交替排列，在此基础上，配合提出多周期预约方法(ME-TDMA)，在一段预约时隙中可预约随后多个周期的信息时隙；使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松，增加了介质访问控制方法的实用性。

2、本发明提出动态TDMA时隙预约的多时隙选取算法，该算法结合增强学习技术，使各分布式网络节点在每次预约中能够选取多个时隙。在选取预约时隙时，考虑了竞争节点数量和节点负载的差异对不同时隙竞争冲突概率的影响。

附图说明

图1ME-TDMA信道控制访问方法的帧结构图；

图2AS时隙结构图；

图3ME-TDMA信道控制访问方法的运行流程图；

图4时隙有限状态机图；

图5为预约控制报文所包含内容的示意图；

图6为Neigh字段、FCState字段、SlotState字段、LoadState字段包含内容的示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明提出的ME-TDMA(Multicycle enhanced TDMA)信道控制访问方法的帧结构如图1所示包括控制信道CCH(Control Channel)和数据信道DCH(Data Channel)，帧周期由控制时隙和信息时隙交织而成，表现为一段CCH和一段DCH在时间维度上交替排列。在无线自组织网络中，网络节点通过控制信道接入网络，在控制信道进行控制报文的交互，每个节点利用数据信道进行数据业务的传输。AS表示接入时隙，FS表示预约时隙，控制信道由AS和FS时隙构成。IS表示信息时隙，数据信道由多个IS时隙构成。AS时隙为接入信道，节点通过FPRP竞争机制获取FS时隙占用权。FS时隙用于节点交互预约控制报文。

网络节点在AS时隙通过FPRP竞争机制，竞争相应FS时隙的占用权。如图2所示，为AS时隙的组成结构，RR表示预约请求阶段，CR表示冲突报告阶段，RC表示预约确认阶段，RA表示预约应答阶段，P/E表示打包/消除阶段。这5个阶段的时隙也相互交织，如RR₁位于AS₁，CR₁位于AS₂，RC₁位于AS₃，RA₁位于AS₄，P/E₁位于AS₅，因此AS₁由RR₁、CR_k、RC_k-1、RA_k-2、P/E_k-3组成，AS₂由RR₂、CR₁、RC_k、RA_k-1、P/E_k-2组成，因此AS₃由RR₃、CR₂、RC₁、RA_k、P/E_k-1组成，因此AS₄由RR₄、CR₃、RC₂、RA₁、P/E_k组成，因此AS₅由RR₅、CR₄、RC₃、RA₂、P/E₁组成，其他时隙同理依次进行交替排列。节点经过RR_k、CR_k、RC_k、RA_k、P/E_k五个阶段后，竞争成功则获得序号为k的FS_k时隙占用权，并长期占有该FS时隙。网络节点在所有FS时隙接收邻居节点广播的预约控制报文，获取两跳范围内节点负载情况，同时收集预约控制报文包含的信息时隙状态，更新随后T_CycMAX个周期所有信息时隙状态值。T_CycMAX表示最大预约周期数量。FS时隙状态使用图4的时隙有限状态机进行时隙状态维护。本实施例中k的取值为大于或等于5。

ME-TDMA信道控制访问方法的每段信息时隙IS需经过T_CycMAX轮帧周期完成预约协商,T_CycMAX预先设定为固定值。假设当前帧周期为T，节点在T帧周期发送包含T+1、T+2...、T+T_CycMAX帧周期信息时隙状态的预约控制报文，其中包含T+1帧周期第T_CycMAX轮预约的时隙状态，T+2帧周期第T_CycMAX-1轮预约的时隙状态，同理依次类推，直至T+T_CycMAX帧周期第1轮预约的时隙状态。每个信息时隙需经过T_CycMAX轮帧周期完成预约过程。多周期预约机制使得节点在每个帧周期只需广播一次控制报文，交互流程简单易实现。

节点在控制信道发送的预约控制报文为固定格式，包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息。表1为预约控制报文中需包含的具体信息，表2为Neigh字段、FCState字段、SlotState字段、LoadState字段格式。如图5、图6所示为预约控制报文所包含内容的示意图。

表1预约控制报文格式

表2Neigh字段、FCState字段、SlotState字段、LoadState字段格式

NebFalN字段生成方法：设当前节点为m_Node,邻居节点为Neb_Node,该邻居节点的竞争状态对应NebFalN二进制的第k位。m_Node节点根据邻居节点Neb_Node的预约控制报文，若Neb_Node在信息时隙IS_k状态为空闲态，则将对应NebFalN二进制的第k位置为1，其他状态则为0。

nSlotNum的计算如公式1所示，其中selfLoad表示节点负载值，slotFree表示该周期空闲信息时隙数，SU表示单位信息时隙传输容量。

本发明中基于增强学习的多时隙选取算法实施如下：

学习模型-状态集合S：

在多时隙选取场景中，需要考虑每个信息时隙竞争情况和时隙占用情况，

表示信息时隙竞争情况评估值，t表示周期值。fr_t表示在t周期时空闲信息时隙数量，ns_t表示节点需预约信息时隙数量。

结构上为1×ISNum的矩阵，ISNum表示帧周期内信息时隙的数量。

规定

如公式3所示，其中nn_i表示信息时隙两跳范围内竞争情况评估值，竞争情况评估值基于竞争节点数量和竞争节点需预约时隙数量计算得出。竞争情况评估值越大竞争产生冲突的概率越高。

本发明提出的

竞争情况评估算法基于邻居的负载和时隙的状态信息进行评估。其中，T_CycMAX表示最大预约周期数同时也表示信息时隙需经过的预约轮数。NebState表示两跳范围内的邻居节点在每个信息时隙上是否参与竞争的情况。NebLoadNum_Node表示两跳范围内的邻居节点需预约的信息时隙数量。SlotState表示节点自身的信息时隙状态。NebFreeSlotSum_Node表示两跳范围内邻居节点可参与竞争的时隙总数。

学习模型-动作集合A：动作集合A是各信息时隙的选取概率。pc_n表示选取信息时隙i的概率值，

表示选取各信息时隙的概率。

学习模型-奖励函数R：a_i表示在信息时隙i获取的奖励值，选取成功则为正奖励，选取的时隙产生预约冲突则为负奖励。

基于增强学习的多时隙选取算法具体实施如下，其中参数需满足的条件：1)0＜α^(θ)＜1；2)0＜α^(α)＜1；3)0≤γ≤1。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于增强学习的自组织网介质访问控制方法，其特征在于，基于的帧结构包括：控制信道与数据信道；控制信道包括接入时隙与预约时隙，数据信道包括多个信息时隙；所述接入时隙的结构包括五个阶段，依次为：预约请求阶段、冲突报告阶段、预约确认阶段、预约应答阶段、打包/消除阶段，所述接入时隙中的五个阶段采用交替排列的形式；

所述方法包括以下步骤：

S2、如果节点获取预约时隙占用权，则在预约时隙周期性的与邻居节点交互控制信息，控制信息包含两跳范围内信息时隙占用情况和两跳范围内节点负载信息，并根据时隙有限状态机维护时隙状态；如果节点未获取FS时隙占用权，则返回步骤S1；

S4、节点通过时隙竞争情况评估算法计算得出时隙竞争情况评估值,并将需预约信息时隙数nSlotNum和时隙竞争情况评估值作为输入值，通过基于增强学习的多时隙选取算法，运算得出随后T_CycMAX个周期需选取预约的空闲信息时隙；步骤S4所述基于增强学习的多时隙选取算法的学习模型-状态集合S：

其中，

表示信息时隙竞争情况评估值，t表示周期值，fr_t表示在t周期时信息空闲时隙数量，ns_t表示节点需预约时隙数量，

结构上为1×ISNum的矩阵，ISNum表示帧周期内信息时隙的数量

S5、节点构造预约控制报文，在控制时隙广播预约控制报文；所述预约控制报文包含节点负载信息、节点时隙状态信息、邻居信息、邻居负载等信息

S6、如果节点在下一次广播控制信息前，没有邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突，则表示节点预约成功，执行步骤S7；如果节点在下一次广播控制信息前，收到邻居节点的预约控制报文通告节点所选取预约的信息时隙发生预约冲突，则表示节点预约失败，执行步骤S8；

S9、若节点需退出网络，则结束流程，否则返回步骤S2。

2.根据权利要求1所述的一种基于增强学习的自组织网介质访问控制方法，其特征在于，对于连续的k个接入时隙；第1个预约请求阶段位于第1个接入时隙，第k个预约请求阶段位于第k个接入时隙，第k-1个预约请求阶段位于第k-1个接入时隙；第1个冲突报告阶段位于第2个接入时隙，第k个冲突报告阶段位于第1个接入时隙，第k-1个冲突报告阶段位于第k个接入时隙；第1个预约确认阶段位于第3个接入时隙，第k个预约确认阶段位于第2个接入时隙，第k-1个预约确认阶段位于第1个接入时隙；第1个预约应答阶段位于第4个接入时隙，第k个预约应答阶段位于第3个接入时隙，第k-1个预约应答阶段位于第2个接入时隙；第1个打包/消除阶段位于第5个接入时隙，第k个打包/消除阶段位于第4个接入时隙，第k-1个打包/消除阶段位于第3个接入时隙。

3.根据权利要求2所述的一种基于增强学习的自组织网介质访问控制方法，其特征在于，所述k大于或等于5；

第k个接入时隙的结构包括：第k个预约请求阶段、第k-1个冲突报告阶段、第k-2个预约确认阶段、第k-3个预约应答阶段、第k-4个打包/消除阶段。

4.根据权利要求3所述的一种基于增强学习的自组织网介质访问控制方法，其特征在于，

的计算式为：

其中，nn_i表示信息时隙两跳范围内竞争情况评估值，i＝1,2,…,ISNum。

5.根据权利要求4所述的一种基于增强学习的自组织网介质访问控制方法，其特征在于，nn_i的计算式为：

其中，NebLoadNum_Node表示两跳范围内的邻居节点需预约的信息时隙数量，NebFreeSlotNum_Node表示两跳范围内邻居节点可参与竞争的时隙总数，CompleteNode表示参与竞争的节点集合，Node表示该集合中的节点。

6.根据权利要求5所述的一种基于增强学习的自组织网介质访问控制方法，其特征在于，步骤S6还包括：若节点预约成功，则节点获得正奖赏值；若节点预约失败，则节点获得负奖赏值；根据正奖赏值或负奖赏值更新基于增强学习的多时隙选取算法的学习模型-奖励函数R：

其中，a_i表示在信息时隙i获取的奖励值，其他情况为信息时隙i空闲或者已被成功预约。