CN111050413A

CN111050413A - 一种基于自适应调整策略的无人机csma接入方法

Info

Publication number: CN111050413A
Application number: CN201911337708.5A
Authority: CN
Inventors: 张庭辉; 秦爽; 冯钢
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-21
Anticipated expiration: 2039-12-23
Also published as: CN111050413B

Abstract

本发明公开了一种基于自适应调整策略的无人机CSMA接入方法，包括：建立通信连接前，无人机agent对自身的接入状态及接入策略进行初始化；当有数据包要传输时，侦听无人机自组织网络中各信道的忙闲情况；在可用信道中选取一条接入成功率最高的信道；无人机根据随机策略分布采样当下的接入策略并执行接入无人机自组织网络中；无人机执行接入策略后获得传输反馈，得到相应的策略回报，同时接入状态发生转移；无人机根据状态转移与获得的即时回报进行接入策略的更新；经过一段时间的迭代学习，各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略；本方法相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各节点对信道使用的公平性。

Description

一种基于自适应调整策略的无人机CSMA接入方法

技术领域

本发明涉及无人机自组织网络领域，具体地，涉及一种基于自适应调整策略的无人机CSMA接入方法。

背景技术

无人机具有用途多样、灵活性强、自主控制等优势，在军用、民用领域得到了广泛的关注和发展。多无人机系统协同应用比单个无人机系统具备可生存性更强、可扩展性更高、完成任务更快等优势，但同时也带来了诸多技术挑战，其中最为关键的一点就是多无人机间的协同通信，如何设计适应未来发展需求、高效的多无人机通信网络已成为亟待解决的问题。

当前对无人机网络的研究大多都基于中央控制场景，其中无人机依靠地面控制中心或卫星进行通信，或是无人机作为中继节点来协助地面蜂窝网络的通信。随着多无人机协同应用的快速发展，基于中央控制的无人机网络无法为军事与民用场景提供更全面的服务。大量研究表明，自组织网络架构最适用于无人机间的协同通信。与传统的无线自组织网络相比，无人机自组织网络具有自身的独特性，包括节点的高速移动、网络拓扑的高动态性以及节点的稀疏性，这些特征为设计适用于UAVNET的媒体访问控制机制时带来了很多挑战。

MAC协议控制UAV节点对公共无线电资源的使用，极大地影响节点对信道的接入成功率等网络性能。传统的用于自组织网络(Ad-Hoc Network)的MAC协议可以大致分为两类：基于调度的(例如TDMA、FDMA、CDMA和令牌)和基于竞争的(例如ALOHA、CSMA)。基于调度的MAC协议需要某种集中式控制机制，由于无人机网络节点的高动态性很难进行信道资源的统一调配，所以此类协议不太适用于UAVNET场景，而基于竞争的MAC协议立足于分布式信道接入，因而更契合UAVNET的场景需求。IEEE 802.11DCF是一种基于预约竞争的MAC层机制，使用带冲突避免的载波侦听多址接入协议(CSMA/CA)通过RTS/CTS机制解决自组网中隐终端和暴露终端的问题，但接入过程会有一定的预约开销。另外一种p-坚持CSMA接入协议(p-persistent CSMA)基于随机竞争，避免了预约的开销问题，但和CSMA/CA同时面临着另外一个挑战，就是如何有效降低接入碰撞。

近年来对于UAVNET的媒体访问控制机制的研究还相对较少。文献Cai Y,Yu F R,Li J,et al.Medium Access Control for Unmanned Aerial Vehicle(UAV)Ad-HocNetworks With Full-Duplex Radios and Multipacket Reception Capability[J].IEEETransactions on Vehicular Technology,2013,62(1):390-394提出了一种结合了全双工和多分组接收的基于令牌的MAC协议，该协议通过令牌传递对信道信息进行定期更新，从而有效提高了多UAV系统的吞吐量，但信道周期性更新需要很大开销。文献Li J,Zhou Y,Lamont L,et al.A token circulation scheme for code assignment and cooperativetransmission scheduling in CDMA-based UAV ad hoc networks[J].WirelessNetworks,2013,19(6):1469-1484.假设每个无人机节点具有多用户感知能力，其MAC层采用了一种令牌循环方案来解决隐藏节点的查找、码元分配和协作传输等问题。文献Chen J,Xu Y,Zhang Y,et al.Distributed Joint Channel-Slot Selection for Multi-UAVNetworks:A Game-Theoretic Learning Approach[J].IEEE Access,2017,PP(99):1-1.定义了不同无人机的干扰域，并采用博弈论的方法实现分布式无人机节点的随机接入，但需要复杂的初始化机制。

因此，现有技术中的无人机CSMA接入机制或方法存在接入碰撞率高、自适应性差的技术问题。

发明内容

本发明提供了一种基于自适应调整策略的无人机CSMA接入方法，目的是解决现有技术中存在的接入碰撞率高、自适应性差的技术问题，并且本方法能够实现低碰撞率、高吞吐量且不影响各无人机对信道使用的公平性。

人工智能技术(Artificial Intelligence，AI)的兴起启发本发明可以引入一定的机器学习手段来为UAVNET设计高效的MAC协议。本发明的目标是通过动态调整无人机的媒体访问概率，最大化各无人机节点的成功传输率，从而提高系统吞吐量，这是一个典型的动态环境中的随机优化问题。机器学习中强化学习(Reinforcement Learning，RL)是一种有效解决这类随机优化问题的方式，其求解基于马尔科夫决策过程(MDP)，在该过程中，决策体与环境进行交互，采取每个行动后可以获得一定奖励，然后根据奖励调整后续决策。决策体通过不断重复这一过程以获得最大的长期累加回报。在UAVNET的MAC协议中优化媒体访问概率的问题有连续的动作空间，而强化学习中的Actor-Critic算法对于解决此类动作空间连续的问题特别有效，因此可以加以运用。

随着无人机(unmanned aerial vehicle,UAV)技术的飞速发展和多无人机协同应用的兴起，无人机自组织网络(UAV Ad-Hoc Network，UAVNET)的研究得到广泛关注。无人机网络的去中心化与拓扑的高动态性使其在MAC(Media Access Control)层更适合采用DCF(Distributed Coordination Function)模式下基于竞争的CSMA(Carrier SenseMultiple Access)随机接入协议。

本发明提出了一种基于Actor-Critic算法的无人机自组网的MAC层访问控制方法，称为AC-CSMA方法。本发明将每个UAV建模为没有网络先验信息(如网络中的活跃节点个数、其余节点接入策略)的决策体。各无人机决策体结合历史接入经验如连续碰撞次数、信道闲置时间等，通过与环境交互学习到自适应性较高的接入策略。通过拟合评估值函数，本发明为无人机群设计了一种有效的智能MAC协议，数值仿真结果表明，所提出的AC-CSMA机制在接入成功率等性能上优于传统的自组网MAC协议，并且具有合理的复杂度与通信开销。

为实现上述发明目的，本发明提供了一种基于自适应调整策略的无人机CSMA接入方法，所述方法应用于无人机自组织网络场景下无人机接入无线信道，所述方法包括：

步骤1：在发送无人机与接收无人机建立通信连接前，无人机agent对自身的接入状态及接入策略进行初始化；

步骤2：当无人机有数据包要传输时，侦听无人机自组织网络中各信道的忙闲情况；

步骤3：基于各信道的忙闲情况判断信道是否可用，在可用信道中选取一条接入成功率最高的信道；

步骤4：无人机根据随机策略分布采样当下的接入策略并执行接入无线信道；

步骤5：无人机执行接入策略后获得传输反馈，得到相应的策略回报，同时接入状态发生转移；

步骤6：无人机根据状态转移与获得的即时回报进行接入策略的更新；

返回步骤2经过一段时间的迭代学习，各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略。

在分簇无人机自组织网络MAC层采用的动态CSMA机制中，多个无人机在有数据传输需求时根据自己的接入策略竞争有限的信道资源，再根据接入结果反馈作接入策略的调整，以更适应当前的网络环境。本发明中的一种基于自适应调整策略的CSMA接入方法是以无人机作为决策体，在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下，结合历史接入经验如连续碰撞次数、信道闲置时间等，通过强化学习手段与环境交互，以决策-反馈-调整的模式迭代更新策略参数，从而学习到自适应性较高的接入策略。

从单个无人机角度说明本方法的具体执行步骤如下(以第n个无人机为例)：

1)建立通信连接前，无人机agent对自身的接入状态及接入策略进行初始化。接入状态包含当前信道的侦听结果与以往信道的接入经验，考虑T时隙范围内N个无人机共享M个可用信道，各无人机根据动态CSMA协议竞争获取信道。以第n个无人机为例，其在t时隙侦听到第m个信道的情况用

来表征，0表示信道空闲，1表示信道忙。对于过往的信道接入经验，每个节点维持一个大小为T_Δ的经验窗口以记录过去的传输情况(成功传输或接入碰撞)，每个时隙结束时更新，第n个无人机t时隙对第m个信道维持的经验窗口表征为

这样一来，单个无人机可初始化状态向量

并且针对每条信道提取出初始的状态特征向量

其中，

表征空闲信道的个数，φ₂与φ₃分别表示连续碰撞次数与信道的连续置闲数，可根据经验窗口计数得出。对于每个无人机来说，每个接入状态s会有一个评判值V(s)，大小与该状态的特征向量有关，可将这一状态值函数V(s)用参数θ进行线性近似：V_θ(s)＝θ^Tφ(s)，对参数θ进行初始化。接入策略为CSMA-persistent协议中的闲时接入概率

将其参数化为接入状态特征向量的线性函数

对参数ξ进行初始化。

2)有数据包要传输时，侦听各信道的忙闲情况：第n个无人机在t时隙侦听到第m个信道的情况为

侦听结束后，节点n可以知道可用信道的集合，记为

该集合若为空则证明无信道空闲，则节点推迟传输。否则，执行下一步。

3)在可用信道中选取一条接入成功率最高的信道。无人机agent根据参数化的策略

计算每条可用信道当前最优的概率策略

选择一条接入概率最大的信

4)根据随机策略分布

采样当下的接入策略并执行。强化学习方式是边探索边利用的一个过程，以一定分布进行策略采样，再通过采样结果的反馈进行策略调整，使其趋近于当前环境下的最优策略。这里根据高斯分布进行接入策略采样，选取当下的闲时接入概率为

用来表征

是无人机在某个状态下采取的动作，具体是根据高斯分布N(μ(s^t)，σ)进行动作选择，其中μ是高斯分布的均值，σ是标准差。μ(s_t)＝ξ^Tφ(s_t)是在状态s^t下最有可能被选中的动作，σ表征了在状态s^t下探索所有动作的遍历程度。使用高斯分布可以使强化学习过程中的探索(寻找更优的动作)与利用(使用目前找到的最优动作)得到很好的平衡。无人机根据persistent-CSMA协议以概率

接入信道传输数据，以概率

推迟接入传输。

5)无人机执行接入决策后获得传输反馈，得到相应的决策回报，同时接入状态发生转移。无人机执行接入决策后，或是传输成功或是接入冲突或是接入延迟，会得到相应的结果反馈，并得到即时回报

同时无人机的接入状态发生变化，转移到新的接入状态后更新状态特征向量

6)无人机根据状态转移与获得的即时回报进行策略的更新。策略的更新是在强化学习中的Actor-Critic框架下以策略梯度法来进行的，在此框架下，每个无人机根据Actor生成的当前策略选择一个动作如上述步骤4)所述，然后在与其他无人机采取的联合动作下，从一个接入状态转移到另一个接入状态，并获地相应的即时回报如上述步骤5)所述。Critic将对转移到的状态进行状态值函数估计，来评判该状态的价值，相当于对选择的策略进行评估，这里使用TD误差(计算TD误差

其中γ∈[0，1)是折扣因子)来判断当前采取的动作是否对长期的优化目标起到了改善作用。然后Actor根据Critic给出的评判采用策略梯度法调整下次的接入策略：

其中α_actor是策略迭代的学习率，

表示当前状态，

表示状态

下采取的动作。

7)返回步骤2)，经过一段时间的迭代学习，各无人机agent可以学习到最适应于当前网络环境的接入策略。这样可以有效降低接入冲突，从而对网络的吞吐量等性能产生积极影响。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提出一种基于强化学习的AC-CSMA智能接入方法，以无人机作为决策体，在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下，结合历史接入经验如连续碰撞次数、信道闲置时间等，通过与环境交互学习到自适应性较高的接入策略。数值仿真显示所提出的智能接入机制在UAVNET场景下相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各无人机对信道使用的公平性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是分簇自组网节点示意图；

图2是自组织网络CSMA信道接入流程示意图；

图3是AC框架示意图；

图4是仿真场景设定示意图；

图5是单信道接入成功率仿真示意图；

图6是收敛性示意图；

图7是多信道接入成功率示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

实施例

本发明实施例首先对无人机自组织网络模型进行介绍：

考虑N个无人机节点构成的自组织网络，其被划分为W个簇。无人机节点集合表示为

簇的集合表示为

不同簇内的无人机节点共享有限的信道资源。根据频谱划分出M(M＜N)个信道，每个信道具有相同的带宽。根据基于随机竞争的CSMA协议要求，每一条可用信道又被划分为多个时隙。信道集合表示为

各条信道的时隙划分表示为

每一个无人机节点再有数据要发送时，会在某个时隙选择一个可用信道进行接入。当两个或多个节点在同一时隙选择接入同一信道时，发生干扰碰撞。

接入干扰可以划分为两类：簇内干扰与簇间干扰。参考文献Chen J,Wu Q,Xu Y,etal.Distributed Demand-aware Channel-slot Selection for Multi-UAV Networks:AGame-theoretic Learning Approach[J].IEEE Access,2018,PP(99):1-1.，本发明可以定义不同无人机的的干扰域如下。一方面，同一簇内的节点间由于距离较近必然会互相干扰，假设第n个节点属于簇C_w(1＜w＜W)，那同簇内的其他节点可以表示为

另一方面，簇间节点间的干扰受距离限制。定义两簇C_w与C_k的簇间距离为

如果该距离小于门限距离d₀，则两个簇被视为临近簇，信道资源的接入会互相干扰。簇C_w的临近簇集合可表示为

则节点n所在簇的临近簇内的其他节点集合可表示为

如图1所示，一个简单的自组网包含6个节点，分为三簇，节点1除了接入受到同簇内其他节点的干扰(节点2、3)，同时还受到其临近簇内节点(节点4、5)的影响，而节点6由于距离远故影响不到节点1的信道资源接入，故可与节点1实现信道的共用。

先对本发明实施例中的无人机网络的CSMA接入机制进行介绍：

本发明旨在为UAV Ad-Hoc网络设计一种动态的MAC机制以最大化系统的吞吐量。CSMA是Ad-Hoc网络中使用最广泛的一类MAC协议，它是一类站点在传输之前先侦听信道情况的多路访问协议。CSMA协议有三种机制，分别是非坚持CSMA、1-坚持CSMA、p-坚持CSMA，其中p-坚持CSMA应用最为广泛，也是本发明所提出的AC-CSMA机制的基础。在p-坚持CSMA机制中，当一个站点有数据包要发送时，首先会监听信道，如果侦听到信道繁忙，则将推迟传输；如果侦听到信道空闲，则以概率p传输数据，以1-p的概率将传输推迟，站点会重复此过程，直到数据成功传输。当两个或多个站点同时访问某一信道时，将发生接入碰撞。在这样的CSMA协议中，碰撞是不可能绝对避免的，碰撞的次数将会严重影响吞吐量的大小，而影响碰撞性能的关键因素就是闲时接入概率p的值。

在传统的CSMA协议中，每个站点的闲时接入概率p的值是相同的，并且值是相对固定的，因此很难适应无人机网络的高动态场景。本发明期望每个无人机能够根据网络环境自适应地调整闲时接入概率，并且不同无人机根据自身业务与所受的干扰情况维持不同的闲时接入概率，每个无人机对不同信道也维持不同的闲时接入概率。本发明用

表示第n个无人机在t时隙对第m个信道维持的闲时接入概率值。

在用于UAVNET的动态CSMA机制中，当无人机有数据包要发送时，它会侦听所有信道的空闲情况。第n个无人机在t时隙侦听到第m个信道的情况用

来表征，0表示信道空闲，1表示信道忙。值得一提的是，由于干扰域的不同和信道的可复用性，不同簇内的无人机所侦听到的信道情况会有所不同。

侦听结束后，节点n可以知道可用信道的集合，记为

该集合若为空则证明无信道空闲，则节点推迟传输。否则，根据多信道CSMA协议，选取空闲信道中之前接入成功率最高的一条，以闲时接入概率

选择是否进行接入。为了获得更好的性能，每个无人机都会根据传输结果和历史经验不断调整其闲时接入概率。单个无人机的接入步骤如图2所示。

由于无人机作为网络节点的特殊性，每个UAV在任一时隙最多只能接入一个信道进行数据传输。为了更好的对比性能，本发明考虑数据包积压的情况，即每个无人机不断有数据要进行传输。如第二节所述，考虑N个无人机共享M个可用信道，各无人机根据动态CSMA协议·竞争获取信道，在此过程中提高系统吞吐量的关键是如何自适应调整闲时接入概率

从而降低接入碰撞。

定义决策变量

1表示节点n决定以概率

进行接入，0表示延迟接入，根据多信道CSMA协议，每个UAV在侦听结束后选择空闲信道中具有最高闲时接入概率的信道进行接入尝试，无人机n对多个信道的接入决策可表示为：

因为单个节点同一时隙最多只能接入一个信道，故有

在CSMA协议中，当节点n接入时，是以概率

传输数据，而以概率

延迟传输，碰撞发生于多个节点同时选择统一信道传输数据，所以节点n成功传输的概率可表示为：

每个节点通过在线调整其闲时接入概率

来优化其接入决策，尽可能地避免接入碰撞，提高成功传输的概率。因为自组织网络的分布式特性(网络先验信息如竞争节点个数、其余节点接入策略未知)，以及网络状态的波动性，通过静态求解的方式计算最优概率的方法很难实现，故可采用机器学习中强化学习的方法通过与环境的交互，对接入概率进行动态调优。

接入决策调整的依据主要有两个，一个是当前侦听到的信道状态，一个是过往的接入经验。当前侦听到的信道状态如前述用

来表征，过往的信道接入经验，每个节点维持一个大小为T_Δ的经验窗口以记录过去的传输情况(成功传输或接入碰撞)，每个时隙结束时更新，表征为：

是节点n在时隙t的接入情况，1表示成功传输，0表示信道置闲，-1表示碰撞。

每个无人机的随机接入是一个动态决策的过程。选择的接入策略(闲时接入概率

)会决定接入结果的好坏(成功传输或接入碰撞)，同时会影响接入环境(信道的拥挤程度)。访问结果和环境信息会反馈到决策无人机，作为无人机调整下一次接入策略的依据。这一过程可以很好地建模为马尔科夫决策过程(MDP)，并且可以通过使用基于强化学习(Reinforcement Learning,RL)的算法来解决。

无人机信道接入的MDP设定：

自组织网络多个节点竞争有限信道资源的问题可以建模为一个具有连续动作空间的多元马尔科夫决策问题，可表示为M＝<N，S，A₁，…，A_N，T，R₁，…，R_N>，N表示竞争节点数，S表示状态，A表示多元动作集，T表示转移概率，R表示回报函数。结合前述的接入场景，可对各参数作如下定义：

状态S描述接入环境，可定义为

包含当前信道的侦听结果与以往信道的接入经验。从状态集中，本发明可以提取出状态特征向量

其中

表征空闲信道的个数，φ₂与φ₃分别表示连续碰撞次数与信道的连续置闲数，可以从经验窗口信息计数得来。

动作A描述各节点的接入决策，通过闲时接入概率

来定义。策略的选择可以基于一定的分布

表示在状态

下根据策略参数

选取动作

的概率。

转移概率T表示从某一状态转移到下一状态的概率，在多无人机节点随机接入场景下，状态的转移是由多个无人机的联合行为决定的。表示为

在接入场景中该参数是未知的。

即时回报r要反映决策目标，要通过即时回报引导决策朝着低碰撞率的方向演进，可设定当传输成功时回报为1，延迟传输回报为0，接入碰撞惩罚为C(-1＜C＜＜0)。与此同时，折扣累积回报的期望可以表示为状态值函数：

其中γ∈[0，1)是折扣因子，表示未来状态需当前状态做出折扣贡献。此外，用来评估在状态s下采取动作a的效益的状态-动作值函数可表示为：

MDP模型的优化目标是找到参数化的策略π_ξ，优化一段时间t到t+T的累积回报值

这一优化目标与前述的最大化UAV长期的接入成功率的诉求是一致的。假设MDP过程从初始状态s^t∈S开始，根据策略

执行一系列动作，形成一组状态行为序列：

к～{s^t，a^t，s^t+1，a^t+1，…，s^t+T，a^t+T}， (6)

这一状态行为轨迹由于每一步策略的随机性是多样的。用

和R(к)表示状态行为轨迹形成的概率和累积回报，则本发明的优化目标就是使这个过程累积回报的期望值最大，目标函数可写为：

其中

考虑到本发明的MDP中具有连续的动作空间，所以式(7)的优化目标可以重写为：

基于学习的AC-CSMA机制：

如前所述，MDP问题可以通过RL算法来求解，决策体通过与环境交互优化其行为。在这其中，如图3所示的AC框架专门用来求解连续动作空间MDP问题。

每个无人机根据Actor生成的当前策略选择一个动作，然后在与其他无人机采取的联合动作下，从一个接入状态转移到另一个接入状态，并获地相应的即时回报。Critic将对选择的动作进行评估，使用TD误差来判断当前采取的动作是否对长期的优化目标起到了改善作用。然后Actor根据TD误差调整下次的接入策略，以加快迭代过程找到适应于当前环境的最佳策略。

Actor-策略梯度更新：

在AC算法中，Actor不断调整策略以改善决策效益。在无人机随机接入的MDP问题中，策略指的是接入信道的概率策略

用

进行参数化。这样策略调整的过程就是参数

更新的过程，本发明期望参数

可以朝着改善目标(7)的方向更新。在RL中，最经典的就是使用策略梯度理论进行更新：

其中α_actor是策略迭代的学习速率。梯度

可以由下式进行估计,

其中A^π(s，a)表示优势函数可以由下式计算：

A^π(s，a)＝Q^π(s，a)-V^π(s). (11)

本发明使用高斯分布作为动作选择的随机策略模型：

其中μ(s)是均值，σ是标准差。μ(s)是在状态s下最有可能被选中的动作，σ表征了在状态s下探索所有动作的遍历程度。使用高斯分布可以使强化学习过程中的探索(寻找更优的动作)与利用(使用目前找到的最优动作)得到很好的平衡。

根据高斯分布的策略模型，μ(s)实际上是本发明最终学习出来的s状态下的最优动作，通过ξ参数化策略，本质上是要参数化μ(s)，为降低学习的复杂度，采用线性函数进行策略参数化：

μ(s_t)＝ξ^Tφ(s_t)， (13)

其中φ(s)＝(φ₁，φ₂，φ₃)^T是系统状态S的特征向量，，ξ^T＝(ξ₁，ξ₂，ξ₃)通过上述策略梯度迭代进行更新。这样一来，可以得到策略

的梯度如下：

Critic-值函数近似：

在AC的强化学习模型中，critic的作用是估计值函数，使其越来越精确。通过对值函数的估计，可以使actor策略的迭代更有效。

在原始的强化学习框架中，由于状态集的离散性且维数很小，可以通过维持表格进行状态值的更新，但在本发明所关注的无人机随机接入的MDP模型中，状态空间较大，很难以表格形式进行存储更新，所以状态值的更新只能通过值函数近似的方式。常用的近似方式有线性近似和非线性近似，相比于非线性近似来说，线性近似简单且收敛较快，因此采用后者进行值函数近似，表示如下：

V_θ(s)＝θ^Tφ(s) (15)

其中φ(s)同前述为状态s处的特征向量，θ^T＝(θ₁，θ₂，θ₃)为参数向量。值函数的更新主要是通过迭代更新参数向量。

为了对参数θ进行有效更新，引入对状态值的估计值与真实值的TD(temporaldifference)偏差：

δ_t＝V^π(s^t)-V_θ(s^t)， (16)

其中V^π(s^t)＝r^t+1+γV_θ(s^t+1)，是根据自举的方式计算得出。Critic的目标是使值函数的近似越来越准确从而指导Actor策略调优，也就相当于最小化对状态值的估计值与真实值的TD偏差，该优化目标可表示为：

通过梯度下降法朝着上述优化目标进行更新θ如下：

其中α_critic是状态值函数更新的学习速率。

在更新状态值函数的过程中，本发明可以使用资格迹e^t加速学习过程，使用资格迹的参数更新步骤如下：

e_t＝γλe_t-1+φ(s)， (19)

θ_new＝θ_old+α_criticδ_te_t， (20)

其中λ∈[0，1)是资格迹因子。

Actor-Critic机制：

Actor-Critic算法是上述Actor和Critic的结合。Actor根据Critic近似的状态值更新自身的策略参数，Critic根据Actor选取的动作引发的状态转移来迭代更新自身的值函数参数。在AC框架中，本发明可以用(16)中的TD偏差代替(10)中的优势函数，这样可以提升Actor的迭代速度。这样一来，(9-10)中的策略迭代可重写为：

在UAVNET中CSMA接入场景下，每个无人机节点作为一个agent执行AC算法，通过自身的参数更新来优化自身的策略(即闲时接入概率)。

在本发明的Actor-Critic算法中，由于值函数(critic)和策略(actor)都是线性模型，因此值函数参数θ和策略参数

的更新复杂度在时间上和空间上分别为O(T)和O(M)，这对于UAV网络中的MAC接入场景是有优势的。

数值仿真结果及分析：

在本部分中，本发明将所提出的AC-CSMA机制与传统的CSMA机制进行接入成功率的性能对比，并通过仿真验证算法的收敛性。本发明分别对单信道场景与多信道场景进行了数值仿真。考虑一个如图4所示包含10个节点的无人机自组织网络，分为三个簇，三个簇中的无人机个数分别为3,2,5。仿真设定如下表：

表1仿真场景参数

表2AC算法参数

本发明首先进行了单信道(M＝1)情况下的仿真，将本发明提出的AC-CSMA智能接入机制与传统CSMA接入机制、以及随机接入机制进行对比，结果如图5。仿真显示随机接入机制性能最差，因为没有考虑任何场景因素。在训练初期，传统的CSMA可以实现更高的成功接入率，这是由于本发明提出的AC-CSMA机制需要一定时间的训练与学习。在后期AC-CSMA机制要优于传统的CSMA，因为一段时间结束后，各节点已收敛出适应相应场景的接入策略。

之后进行了策略参数收敛性的仿真，如图6所示在一定时隙内，各节点的策略参数均可以收敛。并且由于各簇内无人机受到的干扰程度不同，收敛结果也有所差异。

对于多信道情况的仿真，与单信道结果类似，如图7，经过一段时间训练，AC-CSMA机制可获得更高的接入成功率。

本发明提出一种基于强化学习的AC-CSMA智能接入机制，以无人机节点作为决策agent，在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下，结合历史接入经验如连续碰撞次数、信道闲置时间等，通过与环境交互学习到自适应性较高的接入策略。数值仿真显示所提出的智能接入机制在相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各节点对信道使用的公平性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自适应调整策略的无人机CSMA接入方法，所述方法应用于无人机自组织网络场景下无人机接入无线信道，其特征在于，所述方法包括：

2.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，步骤1中单个无人机的接入状态包含当前信道的侦听结果与以往信道的接入经验，考虑T时隙范围内N个无人机共享M个可用信道，各无人机根据动态CSMA协议竞争获取信道，以第n个无人机为例，其在t时隙侦听到第m个信道的情况用

来表征，0表示信道空闲，1表示信道忙；对于过往的信道接入经验，每个节点维持一个大小为T_Δ的经验窗口以记录过去的传输情况，每个时隙结束时更新，第n个无人机t时隙对第m个信道维持的经验窗口表征为

单个无人机可初始化状态向量：

并且针对每条信道提取出初始的状态特征向量

其中，

表征空闲信道的个数，φ₂与φ₃分别表示连续碰撞次数与信道的连续置闲数，可根据经验窗口计数得出；对于每个无人机来说，每个接入状态s会有一个评判值V(s)，大小与该状态的特征向量有关，可将这一状态值函数V(s)用参数θ进行线性近似：V_θ(s)＝θ^Tφ(s)，对参数θ进行初始化；接入策略为CSMA-persistent协议中的闲时接入概率

将其参数化为接入状态特征向量的线性函数ξ^Tφ(s^t)，对参数ξ进行初始化。

3.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，步骤2包括：第n个无人机在t时隙侦听到第m个信道的情况为

侦听结束后，节点n可以获得可用信道的集合，记为

该集合若为空则证明无信道空闲，则节点推迟传输；否则，执行下一步。

4.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，步骤3包括：无人机agent根据参数化的策略ξ^Tφ(s^t)计算每条可用信道当前最优的概率策略

选择一条接入概率最大的信

5.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，步骤4中根据高斯分布进行接入策略采样，选取当下的闲时接入概率为

用来表征

是无人机在某个状态下采取的动作，具体是根据高斯分布N(μ(s^t)，σ)进行动作选择，其中μ是高斯分布的均值，σ是标准差；μ(s_t)＝ξ^Tφ(s_t)是在状态s^t下最有可能被选中的动作，σ表征了在状态s^t下探索所有动作的遍历程度；无人机根据persistent-CSMA协议以概率

接入信道传输数据，以概率

推迟接入传输。

6.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，所述步骤5包括：无人机执行接入策略后，或是传输成功或是接入冲突或是接入延迟，得到相应的结果反馈，并得到即时回报

7.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，步骤6中策略的更新是在强化学习中的Actor-Critic框架下以策略梯度法来进行的，在此框架下，每个无人机根据Actor的当前策略π_ξ选择一个动作，然后在与其他无人机采取的联合动作下，从一个接入状态转移到另一个接入状态，并获地相应的即时回报；Critic将对转移到的状态进行状态值函数估计，来评判该状态的价值，使用TD误差δ_t来判断当前采取的动作是否对长期的优化目标起到了改善作用；然后Actor根据Critic给出的评判采用策略梯度法调整下次的接入策略：

其中α_actor是策略迭代的学习率，

表示当前状态，

表示状态

下采取的动作。

8.根据权利要求7所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，计算TD误差的方式为：

其中γ∈[0，1)是折扣因子。

9.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法，其特征在于，策略迭代方式为：

其中，U(π_ξ)表示状态-行为轨迹累积回报的期望值，也是无人机接入决策所要最大化的优化目标，ξ_old表示原本的策略参数，ξ_new表示更新后的策略参数。