CN111050413B - 一种基于自适应调整策略的无人机csma接入方法 - Google Patents

一种基于自适应调整策略的无人机csma接入方法 Download PDF

Info

Publication number
CN111050413B
CN111050413B CN201911337708.5A CN201911337708A CN111050413B CN 111050413 B CN111050413 B CN 111050413B CN 201911337708 A CN201911337708 A CN 201911337708A CN 111050413 B CN111050413 B CN 111050413B
Authority
CN
China
Prior art keywords
access
unmanned aerial
aerial vehicle
strategy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911337708.5A
Other languages
English (en)
Other versions
CN111050413A (zh
Inventor
张庭辉
秦爽
冯钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911337708.5A priority Critical patent/CN111050413B/zh
Publication of CN111050413A publication Critical patent/CN111050413A/zh
Application granted granted Critical
Publication of CN111050413B publication Critical patent/CN111050413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于自适应调整策略的无人机CSMA接入方法,包括:建立通信连接前,无人机agent对自身的接入状态及接入策略进行初始化;当有数据包要传输时,侦听无人机自组织网络中各信道的忙闲情况;在可用信道中选取一条接入成功率最高的信道;无人机根据随机策略分布采样当下的接入策略并执行接入无人机自组织网络中;无人机执行接入策略后获得传输反馈,得到相应的策略回报,同时接入状态发生转移;无人机根据状态转移与获得的即时回报进行接入策略的更新;经过一段时间的迭代学习,各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略;本方法相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各节点对信道使用的公平性。

Description

一种基于自适应调整策略的无人机CSMA接入方法
技术领域
本发明涉及无人机自组织网络领域,具体地,涉及一种基于自适应调整策略的无人机CSMA接入方法。
背景技术
无人机具有用途多样、灵活性强、自主控制等优势,在军用、民用领域得到了广泛的关注和发展。多无人机系统协同应用比单个无人机系统具备可生存性更强、可扩展性更高、完成任务更快等优势,但同时也带来了诸多技术挑战,其中最为关键的一点就是多无人机间的协同通信,如何设计适应未来发展需求、高效的多无人机通信网络已成为亟待解决的问题。
当前对无人机网络的研究大多都基于中央控制场景,其中无人机依靠地面控制中心或卫星进行通信,或是无人机作为中继节点来协助地面蜂窝网络的通信。随着多无人机协同应用的快速发展,基于中央控制的无人机网络无法为军事与民用场景提供更全面的服务。大量研究表明,自组织网络架构最适用于无人机间的协同通信。与传统的无线自组织网络相比,无人机自组织网络具有自身的独特性,包括节点的高速移动、网络拓扑的高动态性以及节点的稀疏性,这些特征为设计适用于UAVNET的媒体访问控制机制时带来了很多挑战。
MAC协议控制UAV节点对公共无线电资源的使用,极大地影响节点对信道的接入成功率等网络性能。传统的用于自组织网络(Ad-Hoc Network)的MAC协议可以大致分为两类:基于调度的(例如TDMA、FDMA、CDMA和令牌)和基于竞争的(例如ALOHA、CSMA)。基于调度的MAC协议需要某种集中式控制机制,由于无人机网络节点的高动态性很难进行信道资源的统一调配,所以此类协议不太适用于UAVNET场景,而基于竞争的MAC协议立足于分布式信道接入,因而更契合UAVNET的场景需求。IEEE 802.11DCF是一种基于预约竞争的MAC层机制,使用带冲突避免的载波侦听多址接入协议(CSMA/CA)通过RTS/CTS机制解决自组网中隐终端和暴露终端的问题,但接入过程会有一定的预约开销。另外一种p-坚持CSMA接入协议(p-persistent CSMA)基于随机竞争,避免了预约的开销问题,但和CSMA/CA同时面临着另外一个挑战,就是如何有效降低接入碰撞。
近年来对于UAVNET的媒体访问控制机制的研究还相对较少。文献Cai Y,Yu F R,Li J,et al.Medium Access Control for Unmanned Aerial Vehicle(UAV)Ad-HocNetworks With Full-Duplex Radios and Multipacket Reception Capability[J].IEEETransactions on Vehicular Technology,2013,62(1):390-394提出了一种结合了全双工和多分组接收的基于令牌的MAC协议,该协议通过令牌传递对信道信息进行定期更新,从而有效提高了多UAV系统的吞吐量,但信道周期性更新需要很大开销。文献Li J,Zhou Y,Lamont L,et al.A token circulation scheme for code assignment and cooperativetransmission scheduling in CDMA-based UAV ad hoc networks[J].WirelessNetworks,2013,19(6):1469-1484.假设每个无人机节点具有多用户感知能力,其MAC层采用了一种令牌循环方案来解决隐藏节点的查找、码元分配和协作传输等问题。文献Chen J,Xu Y,Zhang Y,et al.Distributed Joint Channel-Slot Selection for Multi-UAVNetworks:A Game-Theoretic Learning Approach[J].IEEE Access,2017,PP(99):1-1.定义了不同无人机的干扰域,并采用博弈论的方法实现分布式无人机节点的随机接入,但需要复杂的初始化机制。
因此,现有技术中的无人机CSMA接入机制或方法存在接入碰撞率高、自适应性差的技术问题。
发明内容
本发明提供了一种基于自适应调整策略的无人机CSMA接入方法,目的是解决现有技术中存在的接入碰撞率高、自适应性差的技术问题,并且本方法能够实现低碰撞率、高吞吐量且不影响各无人机对信道使用的公平性。
人工智能技术(Artificial Intelligence,AI)的兴起启发本发明可以引入一定的机器学习手段来为UAVNET设计高效的MAC协议。本发明的目标是通过动态调整无人机的媒体访问概率,最大化各无人机节点的成功传输率,从而提高系统吞吐量,这是一个典型的动态环境中的随机优化问题。机器学习中强化学习(Reinforcement Learning,RL)是一种有效解决这类随机优化问题的方式,其求解基于马尔科夫决策过程(MDP),在该过程中,决策体与环境进行交互,采取每个行动后可以获得一定奖励,然后根据奖励调整后续决策。决策体通过不断重复这一过程以获得最大的长期累加回报。在UAVNET的MAC协议中优化媒体访问概率的问题有连续的动作空间,而强化学习中的Actor-Critic算法对于解决此类动作空间连续的问题特别有效,因此可以加以运用。
随着无人机(unmanned aerial vehicle,UAV)技术的飞速发展和多无人机协同应用的兴起,无人机自组织网络(UAV Ad-Hoc Network,UAVNET)的研究得到广泛关注。无人机网络的去中心化与拓扑的高动态性使其在MAC(Media Access Control)层更适合采用DCF(Distributed Coordination Function)模式下基于竞争的CSMA(Carrier SenseMultiple Access)随机接入协议。
本发明提出了一种基于Actor-Critic算法的无人机自组网的MAC层访问控制方法,称为AC-CSMA方法。本发明将每个UAV建模为没有网络先验信息(如网络中的活跃节点个数、其余节点接入策略)的决策体。各无人机决策体结合历史接入经验如连续碰撞次数、信道闲置时间等,通过与环境交互学习到自适应性较高的接入策略。通过拟合评估值函数,本发明为无人机群设计了一种有效的智能MAC协议,数值仿真结果表明,所提出的AC-CSMA机制在接入成功率等性能上优于传统的自组网MAC协议,并且具有合理的复杂度与通信开销。
为实现上述发明目的,本发明提供了一种基于自适应调整策略的无人机CSMA接入方法,所述方法应用于无人机自组织网络场景下无人机接入无线信道,所述方法包括:
步骤1:在发送无人机与接收无人机建立通信连接前,无人机agent对自身的接入状态及接入策略进行初始化;
步骤2:当无人机有数据包要传输时,侦听无人机自组织网络中各信道的忙闲情况;
步骤3:基于各信道的忙闲情况判断信道是否可用,在可用信道中选取一条接入成功率最高的信道;
步骤4:无人机根据随机策略分布采样当下的接入策略并执行接入无线信道;
步骤5:无人机执行接入策略后获得传输反馈,得到相应的策略回报,同时接入状态发生转移;
步骤6:无人机根据状态转移与获得的即时回报进行接入策略的更新;
返回步骤2经过一段时间的迭代学习,各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略。
在分簇无人机自组织网络MAC层采用的动态CSMA机制中,多个无人机在有数据传输需求时根据自己的接入策略竞争有限的信道资源,再根据接入结果反馈作接入策略的调整,以更适应当前的网络环境。本发明中的一种基于自适应调整策略的CSMA接入方法是以无人机作为决策体,在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下,结合历史接入经验如连续碰撞次数、信道闲置时间等,通过强化学习手段与环境交互,以决策-反馈-调整的模式迭代更新策略参数,从而学习到自适应性较高的接入策略。
从单个无人机角度说明本方法的具体执行步骤如下(以第n个无人机为例):
1)建立通信连接前,无人机agent对自身的接入状态及接入策略进行初始化。接入状态包含当前信道的侦听结果与以往信道的接入经验,考虑T时隙范围内N个无人机共享M个可用信道,各无人机根据动态CSMA协议竞争获取信道。以第n个无人机为例,其在t时隙侦听到第m个信道的情况用
Figure BDA0002331402620000031
来表征,0表示信道空闲,1表示信道忙。对于过往的信道接入经验,每个节点维持一个大小为TΔ的经验窗口以记录过去的传输情况(成功传输或接入碰撞),每个时隙结束时更新,第n个无人机t时隙对第m个信道维持的经验窗口表征为
Figure BDA0002331402620000041
这样一来,单个无人机可初始化状态向量
Figure BDA0002331402620000042
并且针对每条信道提取出初始的状态特征向量
Figure BDA0002331402620000043
其中,
Figure BDA0002331402620000044
表征空闲信道的个数,φ2与φ3分别表示连续碰撞次数与信道的连续置闲数,可根据经验窗口计数得出。对于每个无人机来说,每个接入状态s会有一个评判值V(s),大小与该状态的特征向量有关,可将这一状态值函数V(s)用参数θ进行线性近似:Vθ(s)=θTφ(s),对参数θ进行初始化。接入策略为CSMA-persistent协议中的闲时接入概率
Figure BDA00023314026200000415
将其参数化为接入状态特征向量的线性函数
Figure BDA00023314026200000418
对参数ξ进行初始化。
2)有数据包要传输时,侦听各信道的忙闲情况:第n个无人机在t时隙侦听到第m个信道的情况为
Figure BDA0002331402620000045
侦听结束后,节点n可以知道可用信道的集合,记为
Figure BDA0002331402620000046
该集合若为空则证明无信道空闲,则节点推迟传输。否则,执行下一步。
3)在可用信道中选取一条接入成功率最高的信道。无人机agent根据参数化的策略
Figure BDA00023314026200000417
计算每条可用信道当前最优的概率策略
Figure BDA0002331402620000047
选择一条接入概率最大的信
Figure BDA0002331402620000048
4)根据随机策略分布
Figure BDA00023314026200000416
采样当下的接入策略并执行。强化学习方式是边探索边利用的一个过程,以一定分布进行策略采样,再通过采样结果的反馈进行策略调整,使其趋近于当前环境下的最优策略。这里根据高斯分布进行接入策略采样,选取当下的闲时接入概率为
Figure BDA0002331402620000049
Figure BDA00023314026200000410
用来表征
Figure BDA00023314026200000411
是无人机在某个状态下采取的动作,具体是根据高斯分布N(μ(st),σ)进行动作选择,其中μ是高斯分布的均值,σ是标准差。μ(st)=ξTφ(st)是在状态st下最有可能被选中的动作,σ表征了在状态st下探索所有动作的遍历程度。使用高斯分布可以使强化学习过程中的探索(寻找更优的动作)与利用(使用目前找到的最优动作)得到很好的平衡。无人机根据persistent-CSMA协议以概率
Figure BDA00023314026200000412
接入信道传输数据,以概率
Figure BDA00023314026200000413
推迟接入传输。
5)无人机执行接入决策后获得传输反馈,得到相应的决策回报,同时接入状态发生转移。无人机执行接入决策后,或是传输成功或是接入冲突或是接入延迟,会得到相应的结果反馈,并得到即时回报
Figure BDA00023314026200000414
同时无人机的接入状态发生变化,转移到新的接入状态后更新状态特征向量
Figure BDA0002331402620000051
6)无人机根据状态转移与获得的即时回报进行策略的更新。策略的更新是在强化学习中的Actor-Critic框架下以策略梯度法来进行的,在此框架下,每个无人机根据Actor生成的当前策略选择一个动作如上述步骤4)所述,然后在与其他无人机采取的联合动作下,从一个接入状态转移到另一个接入状态,并获地相应的即时回报如上述步骤5)所述。Critic将对转移到的状态进行状态值函数估计,来评判该状态的价值,相当于对选择的策略进行评估,这里使用TD误差(计算TD误差
Figure BDA0002331402620000052
其中γ∈[0,1)是折扣因子)来判断当前采取的动作是否对长期的优化目标起到了改善作用。然后Actor根据Critic给出的评判采用策略梯度法调整下次的接入策略:
Figure BDA0002331402620000053
其中αactor是策略迭代的学习率,
Figure BDA0002331402620000054
表示当前状态,
Figure BDA0002331402620000055
表示状态
Figure BDA0002331402620000056
下采取的动作。
7)返回步骤2),经过一段时间的迭代学习,各无人机agent可以学习到最适应于当前网络环境的接入策略。这样可以有效降低接入冲突,从而对网络的吞吐量等性能产生积极影响。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提出一种基于强化学习的AC-CSMA智能接入方法,以无人机作为决策体,在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下,结合历史接入经验如连续碰撞次数、信道闲置时间等,通过与环境交互学习到自适应性较高的接入策略。数值仿真显示所提出的智能接入机制在UAVNET场景下相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各无人机对信道使用的公平性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是分簇自组网节点示意图;
图2是自组织网络CSMA信道接入流程示意图;
图3是AC框架示意图;
图4是仿真场景设定示意图;
图5是单信道接入成功率仿真示意图;
图6是收敛性示意图;
图7是多信道接入成功率示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
实施例
本发明实施例首先对无人机自组织网络模型进行介绍:
考虑N个无人机节点构成的自组织网络,其被划分为W个簇。无人机节点集合表示为
Figure BDA0002331402620000065
簇的集合表示为
Figure BDA0002331402620000063
不同簇内的无人机节点共享有限的信道资源。根据频谱划分出M(M<N)个信道,每个信道具有相同的带宽。根据基于随机竞争的CSMA协议要求,每一条可用信道又被划分为多个时隙。信道集合表示为
Figure BDA0002331402620000064
各条信道的时隙划分表示为
Figure BDA0002331402620000066
每一个无人机节点再有数据要发送时,会在某个时隙选择一个可用信道进行接入。当两个或多个节点在同一时隙选择接入同一信道时,发生干扰碰撞。
接入干扰可以划分为两类:簇内干扰与簇间干扰。参考文献Chen J,Wu Q,Xu Y,etal.Distributed Demand-aware Channel-slot Selection for Multi-UAV Networks:AGame-theoretic Learning Approach[J].IEEE Access,2018,PP(99):1-1.,本发明可以定义不同无人机的的干扰域如下。一方面,同一簇内的节点间由于距离较近必然会互相干扰,假设第n个节点属于簇Cw(1<w<W),那同簇内的其他节点可以表示为
Figure BDA0002331402620000061
另一方面,簇间节点间的干扰受距离限制。定义两簇Cw与Ck的簇间距离为
Figure BDA0002331402620000062
如果该距离小于门限距离d0,则两个簇被视为临近簇,信道资源的接入会互相干扰。簇Cw的临近簇集合可表示为
Figure BDA0002331402620000071
则节点n所在簇的临近簇内的其他节点集合可表示为
Figure BDA0002331402620000072
如图1所示,一个简单的自组网包含6个节点,分为三簇,节点1除了接入受到同簇内其他节点的干扰(节点2、3),同时还受到其临近簇内节点(节点4、5)的影响,而节点6由于距离远故影响不到节点1的信道资源接入,故可与节点1实现信道的共用。
先对本发明实施例中的无人机网络的CSMA接入机制进行介绍:
本发明旨在为UAV Ad-Hoc网络设计一种动态的MAC机制以最大化系统的吞吐量。CSMA是Ad-Hoc网络中使用最广泛的一类MAC协议,它是一类站点在传输之前先侦听信道情况的多路访问协议。CSMA协议有三种机制,分别是非坚持CSMA、1-坚持CSMA、p-坚持CSMA,其中p-坚持CSMA应用最为广泛,也是本发明所提出的AC-CSMA机制的基础。在p-坚持CSMA机制中,当一个站点有数据包要发送时,首先会监听信道,如果侦听到信道繁忙,则将推迟传输;如果侦听到信道空闲,则以概率p传输数据,以1-p的概率将传输推迟,站点会重复此过程,直到数据成功传输。当两个或多个站点同时访问某一信道时,将发生接入碰撞。在这样的CSMA协议中,碰撞是不可能绝对避免的,碰撞的次数将会严重影响吞吐量的大小,而影响碰撞性能的关键因素就是闲时接入概率p的值。
在传统的CSMA协议中,每个站点的闲时接入概率p的值是相同的,并且值是相对固定的,因此很难适应无人机网络的高动态场景。本发明期望每个无人机能够根据网络环境自适应地调整闲时接入概率,并且不同无人机根据自身业务与所受的干扰情况维持不同的闲时接入概率,每个无人机对不同信道也维持不同的闲时接入概率。本发明用
Figure BDA0002331402620000073
表示第n个无人机在t时隙对第m个信道维持的闲时接入概率值。
在用于UAVNET的动态CSMA机制中,当无人机有数据包要发送时,它会侦听所有信道的空闲情况。第n个无人机在t时隙侦听到第m个信道的情况用
Figure BDA0002331402620000074
来表征,0表示信道空闲,1表示信道忙。值得一提的是,由于干扰域的不同和信道的可复用性,不同簇内的无人机所侦听到的信道情况会有所不同。
侦听结束后,节点n可以知道可用信道的集合,记为
Figure BDA0002331402620000075
该集合若为空则证明无信道空闲,则节点推迟传输。否则,根据多信道CSMA协议,选取空闲信道中之前接入成功率最高的一条,以闲时接入概率
Figure BDA0002331402620000076
选择是否进行接入。为了获得更好的性能,每个无人机都会根据传输结果和历史经验不断调整其闲时接入概率。单个无人机的接入步骤如图2所示。
由于无人机作为网络节点的特殊性,每个UAV在任一时隙最多只能接入一个信道进行数据传输。为了更好的对比性能,本发明考虑数据包积压的情况,即每个无人机不断有数据要进行传输。如第二节所述,考虑N个无人机共享M个可用信道,各无人机根据动态CSMA协议·竞争获取信道,在此过程中提高系统吞吐量的关键是如何自适应调整闲时接入概率
Figure BDA0002331402620000081
从而降低接入碰撞。
定义决策变量
Figure BDA0002331402620000082
1表示节点n决定以概率
Figure BDA0002331402620000083
进行接入,0表示延迟接入,根据多信道CSMA协议,每个UAV在侦听结束后选择空闲信道中具有最高闲时接入概率的信道进行接入尝试,无人机n对多个信道的接入决策可表示为:
Figure BDA0002331402620000084
因为单个节点同一时隙最多只能接入一个信道,故有
Figure BDA0002331402620000085
在CSMA协议中,当节点n接入时,是以概率
Figure BDA0002331402620000086
传输数据,而以概率
Figure BDA0002331402620000087
延迟传输,碰撞发生于多个节点同时选择统一信道传输数据,所以节点n成功传输的概率可表示为:
Figure BDA0002331402620000088
每个节点通过在线调整其闲时接入概率
Figure BDA0002331402620000089
来优化其接入决策,尽可能地避免接入碰撞,提高成功传输的概率。因为自组织网络的分布式特性(网络先验信息如竞争节点个数、其余节点接入策略未知),以及网络状态的波动性,通过静态求解的方式计算最优概率的方法很难实现,故可采用机器学习中强化学习的方法通过与环境的交互,对接入概率进行动态调优。
接入决策调整的依据主要有两个,一个是当前侦听到的信道状态,一个是过往的接入经验。当前侦听到的信道状态如前述用
Figure BDA00023314026200000810
来表征,过往的信道接入经验,每个节点维持一个大小为TΔ的经验窗口以记录过去的传输情况(成功传输或接入碰撞),每个时隙结束时更新,表征为:
Figure BDA00023314026200000811
Figure BDA00023314026200000812
是节点n在时隙t的接入情况,1表示成功传输,0表示信道置闲,-1表示碰撞。
每个无人机的随机接入是一个动态决策的过程。选择的接入策略(闲时接入概率
Figure BDA00023314026200000813
)会决定接入结果的好坏(成功传输或接入碰撞),同时会影响接入环境(信道的拥挤程度)。访问结果和环境信息会反馈到决策无人机,作为无人机调整下一次接入策略的依据。这一过程可以很好地建模为马尔科夫决策过程(MDP),并且可以通过使用基于强化学习(Reinforcement Learning,RL)的算法来解决。
无人机信道接入的MDP设定:
自组织网络多个节点竞争有限信道资源的问题可以建模为一个具有连续动作空间的多元马尔科夫决策问题,可表示为M=<N,S,A1,…,AN,T,R1,…,RN>,N表示竞争节点数,S表示状态,A表示多元动作集,T表示转移概率,R表示回报函数。结合前述的接入场景,可对各参数作如下定义:
状态S描述接入环境,可定义为
Figure BDA0002331402620000091
包含当前信道的侦听结果与以往信道的接入经验。从状态集中,本发明可以提取出状态特征向量
Figure BDA0002331402620000092
其中
Figure BDA0002331402620000093
表征空闲信道的个数,φ2与φ3分别表示连续碰撞次数与信道的连续置闲数,可以从经验窗口信息计数得来。
动作A描述各节点的接入决策,通过闲时接入概率
Figure BDA0002331402620000094
来定义。策略的选择可以基于一定的分布
Figure BDA0002331402620000095
表示在状态
Figure BDA0002331402620000096
下根据策略参数
Figure BDA00023314026200000912
选取动作
Figure BDA0002331402620000097
的概率。
转移概率T表示从某一状态转移到下一状态的概率,在多无人机节点随机接入场景下,状态的转移是由多个无人机的联合行为决定的。表示为
Figure BDA0002331402620000098
在接入场景中该参数是未知的。
即时回报r要反映决策目标,要通过即时回报引导决策朝着低碰撞率的方向演进,可设定当传输成功时回报为1,延迟传输回报为0,接入碰撞惩罚为C(-1<C<<0)。与此同时,折扣累积回报的期望可以表示为状态值函数:
Figure BDA0002331402620000099
其中γ∈[0,1)是折扣因子,表示未来状态需当前状态做出折扣贡献。此外,用来评估在状态s下采取动作a的效益的状态-动作值函数可表示为:
Figure BDA00023314026200000910
MDP模型的优化目标是找到参数化的策略πξ,优化一段时间t到t+T的累积回报值
Figure BDA00023314026200000911
这一优化目标与前述的最大化UAV长期的接入成功率的诉求是一致的。假设MDP过程从初始状态st∈S开始,根据策略
Figure BDA00023314026200000914
执行一系列动作,形成一组状态行为序列:
к~{st,at,st+1,at+1,…,st+T,at+T}, (6)
这一状态行为轨迹由于每一步策略的随机性是多样的。用
Figure BDA00023314026200000913
和R(к)表示状态行为轨迹形成的概率和累积回报,则本发明的优化目标就是使这个过程累积回报的期望值最大,目标函数可写为:
Figure BDA0002331402620000101
其中
Figure BDA0002331402620000102
考虑到本发明的MDP中具有连续的动作空间,所以式(7)的优化目标可以重写为:
Figure BDA0002331402620000103
基于学习的AC-CSMA机制:
如前所述,MDP问题可以通过RL算法来求解,决策体通过与环境交互优化其行为。在这其中,如图3所示的AC框架专门用来求解连续动作空间MDP问题。
每个无人机根据Actor生成的当前策略选择一个动作,然后在与其他无人机采取的联合动作下,从一个接入状态转移到另一个接入状态,并获地相应的即时回报。Critic将对选择的动作进行评估,使用TD误差来判断当前采取的动作是否对长期的优化目标起到了改善作用。然后Actor根据TD误差调整下次的接入策略,以加快迭代过程找到适应于当前环境的最佳策略。
Actor-策略梯度更新:
在AC算法中,Actor不断调整策略以改善决策效益。在无人机随机接入的MDP问题中,策略指的是接入信道的概率策略
Figure BDA00023314026200001012
Figure BDA0002331402620000109
进行参数化。这样策略调整的过程就是参数
Figure BDA00023314026200001010
更新的过程,本发明期望参数
Figure BDA00023314026200001011
可以朝着改善目标(7)的方向更新。在RL中,最经典的就是使用策略梯度理论进行更新:
Figure BDA0002331402620000104
其中αactor是策略迭代的学习速率。梯度
Figure BDA0002331402620000105
可以由下式进行估计,
Figure BDA0002331402620000106
其中Aπ(s,a)表示优势函数可以由下式计算:
Aπ(s,a)=Qπ(s,a)-Vπ(s). (11)
本发明使用高斯分布作为动作选择的随机策略模型:
Figure BDA0002331402620000107
其中μ(s)是均值,σ是标准差。μ(s)是在状态s下最有可能被选中的动作,σ表征了在状态s下探索所有动作的遍历程度。使用高斯分布可以使强化学习过程中的探索(寻找更优的动作)与利用(使用目前找到的最优动作)得到很好的平衡。
根据高斯分布的策略模型,μ(s)实际上是本发明最终学习出来的s状态下的最优动作,通过ξ参数化策略,本质上是要参数化μ(s),为降低学习的复杂度,采用线性函数进行策略参数化:
μ(st)=ξTφ(st), (13)
其中φ(s)=(φ1,φ2,φ3)T是系统状态S的特征向量,,ξT=(ξ1,ξ2,ξ3)通过上述策略梯度迭代进行更新。这样一来,可以得到策略
Figure BDA0002331402620000115
的梯度如下:
Figure BDA0002331402620000111
Critic-值函数近似:
在AC的强化学习模型中,critic的作用是估计值函数,使其越来越精确。通过对值函数的估计,可以使actor策略的迭代更有效。
在原始的强化学习框架中,由于状态集的离散性且维数很小,可以通过维持表格进行状态值的更新,但在本发明所关注的无人机随机接入的MDP模型中,状态空间较大,很难以表格形式进行存储更新,所以状态值的更新只能通过值函数近似的方式。常用的近似方式有线性近似和非线性近似,相比于非线性近似来说,线性近似简单且收敛较快,因此采用后者进行值函数近似,表示如下:
Vθ(s)=θTφ(s) (15)
其中φ(s)同前述为状态s处的特征向量,θT=(θ1,θ2,θ3)为参数向量。值函数的更新主要是通过迭代更新参数向量。
为了对参数θ进行有效更新,引入对状态值的估计值与真实值的TD(temporaldifference)偏差:
δt=Vπ(st)-Vθ(st), (16)
其中Vπ(st)=rt+1+γVθ(st+1),是根据自举的方式计算得出。Critic的目标是使值函数的近似越来越准确从而指导Actor策略调优,也就相当于最小化对状态值的估计值与真实值的TD偏差,该优化目标可表示为:
Figure BDA0002331402620000112
通过梯度下降法朝着上述优化目标进行更新θ如下:
Figure BDA0002331402620000113
其中αcritic是状态值函数更新的学习速率。
在更新状态值函数的过程中,本发明可以使用资格迹et加速学习过程,使用资格迹的参数更新步骤如下:
et=γλet-1+φ(s), (19)
θnew=θoldcriticδtet, (20)
其中λ∈[0,1)是资格迹因子。
Actor-Critic机制:
Actor-Critic算法是上述Actor和Critic的结合。Actor根据Critic近似的状态值更新自身的策略参数,Critic根据Actor选取的动作引发的状态转移来迭代更新自身的值函数参数。在AC框架中,本发明可以用(16)中的TD偏差代替(10)中的优势函数,这样可以提升Actor的迭代速度。这样一来,(9-10)中的策略迭代可重写为:
Figure BDA0002331402620000121
Figure BDA0002331402620000122
在UAVNET中CSMA接入场景下,每个无人机节点作为一个agent执行AC算法,通过自身的参数更新来优化自身的策略(即闲时接入概率)。
在本发明的Actor-Critic算法中,由于值函数(critic)和策略(actor)都是线性模型,因此值函数参数θ和策略参数
Figure BDA0002331402620000125
的更新复杂度在时间上和空间上分别为O(T)和O(M),这对于UAV网络中的MAC接入场景是有优势的。
数值仿真结果及分析:
在本部分中,本发明将所提出的AC-CSMA机制与传统的CSMA机制进行接入成功率的性能对比,并通过仿真验证算法的收敛性。本发明分别对单信道场景与多信道场景进行了数值仿真。考虑一个如图4所示包含10个节点的无人机自组织网络,分为三个簇,三个簇中的无人机个数分别为3,2,5。仿真设定如下表:
表1仿真场景参数
Figure BDA0002331402620000123
表2AC算法参数
Figure BDA0002331402620000124
Figure BDA0002331402620000131
本发明首先进行了单信道(M=1)情况下的仿真,将本发明提出的AC-CSMA智能接入机制与传统CSMA接入机制、以及随机接入机制进行对比,结果如图5。仿真显示随机接入机制性能最差,因为没有考虑任何场景因素。在训练初期,传统的CSMA可以实现更高的成功接入率,这是由于本发明提出的AC-CSMA机制需要一定时间的训练与学习。在后期AC-CSMA机制要优于传统的CSMA,因为一段时间结束后,各节点已收敛出适应相应场景的接入策略。
之后进行了策略参数收敛性的仿真,如图6所示在一定时隙内,各节点的策略参数均可以收敛。并且由于各簇内无人机受到的干扰程度不同,收敛结果也有所差异。
对于多信道情况的仿真,与单信道结果类似,如图7,经过一段时间训练,AC-CSMA机制可获得更高的接入成功率。
本发明提出一种基于强化学习的AC-CSMA智能接入机制,以无人机节点作为决策agent,在网络先验信息如竞争节点个数、其余节点接入策略等未知的情况下,结合历史接入经验如连续碰撞次数、信道闲置时间等,通过与环境交互学习到自适应性较高的接入策略。数值仿真显示所提出的智能接入机制在相比于传统的接入机制可以实现低碰撞率、高吞吐量且不影响各节点对信道使用的公平性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于自适应调整策略的无人机CSMA接入方法,所述方法应用于无人机自组织网络场景下无人机接入无线信道,其特征在于,所述方法包括:
步骤1:在发送无人机与接收无人机建立通信连接前,无人机agent对自身的接入状态及接入策略进行初始化;
步骤2:当无人机有数据包要传输时,侦听无人机自组织网络中各信道的忙闲情况;
步骤3:基于各信道的忙闲情况判断信道是否可用,在可用信道中选取一条接入成功率最高的信道;
步骤4:无人机根据随机策略分布采样当下的接入策略并执行接入无线信道;
步骤5:无人机执行接入策略后获得传输反馈,得到相应的策略回报,同时接入状态发生转移;
步骤6:无人机根据状态转移与获得的即时回报进行接入策略的更新;
返回步骤2经过一段时间的迭代学习,各无人机agent学习到最适应于当前无人机自组织网络环境的接入策略;
步骤1中单个无人机的接入状态包含当前信道的侦听结果与以往信道的接入经验,考虑T时隙范围内N个无人机共享M个可用信道,各无人机根据动态CSMA协议竞争获取信道,以第n个无人机为例,其在t时隙侦听到第m个信道的情况用
Figure FDA0003124008850000011
来表征,0表示信道空闲,1表示信道忙;对于过往的信道接入经验,每个节点维持一个大小为TΔ的经验窗口以记录过去的传输情况,每个时隙结束时更新,第n个无人机t时隙对第m个信道维持的经验窗口表征为
Figure FDA0003124008850000012
单个无人机可初始化状态向量:
Figure FDA0003124008850000013
并且针对每条信道提取出初始的状态特征向量
Figure FDA0003124008850000014
其中,
Figure FDA0003124008850000015
表征空闲信道的个数,φ2与φ3分别表示连续碰撞次数与信道的连续置闲数,可根据经验窗口计数得出;对于每个无人机来说,每个接入状态s会有一个评判值V(s),大小与该状态的特征向量有关,可将这一状态值函数V(s)用参数θ进行线性近似:Vθ(s)=θTφ(s),对参数θ进行初始化;接入策略为CSMA-persistent协议中的闲时接入概率
Figure FDA0003124008850000016
将其参数化为接入状态特征向量的线性函数ξTφ(st),对参数ξ进行初始化;
步骤2包括:第n个无人机在t时隙侦听到第m个信道的情况为
Figure FDA0003124008850000017
侦听结束后,节点n可以获得可用信道的集合,记为
Figure FDA0003124008850000018
该集合若为空则证明无信道空闲,则节点推迟传输;否则,执行下一步;
步骤3包括:无人机agent根据参数化的策略ξTφ(st)计算每条可用信道当前最优的概率策略
Figure FDA0003124008850000021
选择一条接入概率最大的信道
Figure FDA0003124008850000022
步骤4中根据高斯分布进行接入策略采样,选取当下的闲时接入概率为
Figure FDA0003124008850000023
Figure FDA0003124008850000024
用来表征
Figure FDA0003124008850000025
是无人机在某个状态下采取的动作,具体是根据高斯分布N(μ(st),σ)进行动作选择,其中μ是高斯分布的均值,σ是标准差;μ(st)=ξTφ(st)是在状态st下最有可能被选中的动作,σ表征了在状态st下探索所有动作的遍历程度;无人机根据persistent-CSMA协议以概率
Figure FDA0003124008850000026
接入信道传输数据,以概率
Figure FDA0003124008850000027
推迟接入传输;
步骤6中策略的更新是在强化学习中的Actor-Critic框架下以策略梯度法来进行的,在此框架下,每个无人机根据Actor的当前策略πξ选择一个动作,然后在与其他无人机采取的联合动作下,从一个接入状态转移到另一个接入状态,并获地相应的即时回报;Critic将对转移到的状态进行状态值函数估计,来评判该状态的价值,使用TD误差δt来判断当前采取的动作是否对长期的优化目标起到了改善作用;然后Actor根据Critic给出的评判采用策略梯度法调整下次的接入策略:
Figure FDA0003124008850000028
其中αactor是策略迭代的学习率,
Figure FDA0003124008850000029
表示当前状态,
Figure FDA00031240088500000210
表示状态
Figure FDA00031240088500000211
下采取的动作。
2.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,所述步骤5包括:无人机执行接入策略后,或是传输成功或是接入冲突或是接入延迟,得到相应的结果反馈,并得到即时回报
Figure FDA00031240088500000212
同时无人机的接入状态发生变化,转移到新的接入状态后更新状态特征向量
Figure FDA00031240088500000213
3.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,计算TD误差的方式为:
Figure FDA00031240088500000214
其中γ∈[0,1)是折扣因子。
4.根据权利要求1所述的基于自适应调整策略的无人机CSMA接入方法,其特征在于,策略迭代方式为:
Figure FDA00031240088500000215
Figure FDA00031240088500000216
其中,U(πξ)表示状态-行为轨迹累积回报的期望值,也是无人机接入决策所要最大化的优化目标,ξold表示原本的策略参数,ξnew表示更新后的策略参数,αactor是策略迭代的学习率,
Figure FDA00031240088500000217
表示当前状态,
Figure FDA00031240088500000218
表示状态
Figure FDA00031240088500000219
下采取的动作,δt表示TD误差。
CN201911337708.5A 2019-12-23 2019-12-23 一种基于自适应调整策略的无人机csma接入方法 Active CN111050413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911337708.5A CN111050413B (zh) 2019-12-23 2019-12-23 一种基于自适应调整策略的无人机csma接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911337708.5A CN111050413B (zh) 2019-12-23 2019-12-23 一种基于自适应调整策略的无人机csma接入方法

Publications (2)

Publication Number Publication Date
CN111050413A CN111050413A (zh) 2020-04-21
CN111050413B true CN111050413B (zh) 2021-08-10

Family

ID=70237459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911337708.5A Active CN111050413B (zh) 2019-12-23 2019-12-23 一种基于自适应调整策略的无人机csma接入方法

Country Status (1)

Country Link
CN (1) CN111050413B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512129A (zh) * 2021-01-17 2021-03-16 海南大学 基于纳什均衡的水下信道竞争机制
CN113259877A (zh) * 2021-07-02 2021-08-13 武汉威泰科技发展有限公司 一种无线自组网广告同步方法和系统
CN115811801A (zh) * 2021-09-15 2023-03-17 华为技术有限公司 通信方法以及相关装置
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN114599115A (zh) * 2022-02-16 2022-06-07 东南大学 一种无人机自组织网络信道接入方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724680A (zh) * 2012-06-11 2012-10-10 西安交通大学 分布式认知网络中基于马尔科夫预测的多信道感知顺序优化方法
CN105636212A (zh) * 2015-12-22 2016-06-01 熊猫电子集团有限公司 一种tdscdma系统中无线资源自适应分配的方法
CN107426775A (zh) * 2017-05-22 2017-12-01 东南大学 一种面向高能效异构网络的分布式多用户接入方法
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264586B2 (en) * 2016-12-09 2019-04-16 At&T Mobility Ii Llc Cloud-based packet controller and methods for use therewith
KR102535213B1 (ko) * 2018-01-23 2023-05-22 한국전자통신연구원 채널 간섭 분석에 기반한 무인기 제어 및 비-임무용 통신 채널 선택 방법 및 장치
CN110493826B (zh) * 2019-08-28 2022-04-12 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724680A (zh) * 2012-06-11 2012-10-10 西安交通大学 分布式认知网络中基于马尔科夫预测的多信道感知顺序优化方法
CN105636212A (zh) * 2015-12-22 2016-06-01 熊猫电子集团有限公司 一种tdscdma系统中无线资源自适应分配的方法
CN107426775A (zh) * 2017-05-22 2017-12-01 东南大学 一种面向高能效异构网络的分布式多用户接入方法
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Leader-following consensus of multiple unmanned aerial vehicles with input constraints and local coordinate frames";feng gang;《IEEE》;20160929;全文 *
"Multi-UAV Automatic Dynamic Obstacle Avoidance with Experience-shared A2C";Han Xiao;《IEEE》;20191205;全文 *
"基于强化学习的无线网络智能接入控制技术";严牧;《中兴通讯技术》;20180322;全文 *
"面向海量机器类通信(mMTC)的无线接入控制";冯钢;《重庆邮电大学学报(自然科学版)》;20171015;全文 *

Also Published As

Publication number Publication date
CN111050413A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111050413B (zh) 一种基于自适应调整策略的无人机csma接入方法
Guo et al. Multi-agent reinforcement learning-based distributed channel access for next generation wireless networks
Han et al. Reinforcement learning for efficient and fair coexistence between LTE-LAA and Wi-Fi
Jiang et al. Traffic prediction and random access control optimization: Learning and non-learning-based approaches
Pajarinen et al. Optimizing spatial and temporal reuse in wireless networks by decentralized partially observable Markov decision processes
CN113316174B (zh) 一种非授权频谱智能接入方法
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Kotagiri et al. Distributed convolutional deep reinforcement learning based OFDMA MAC for 802.11 ax
CN114599115A (zh) 一种无人机自组织网络信道接入方法
Wang et al. A fairness-enhanced intelligent MAC scheme using Q-learning-based bidirectional backoff for distributed vehicular communication networks
Liu et al. Channel access optimization in unlicensed spectrum for downlink URLLC: Centralized and federated DRL approaches
Qiao et al. Topology-transparent scheduling based on reinforcement learning in self-organized wireless networks
Zheng et al. An adaptive backoff selection scheme based on Q-learning for CSMA/CA
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
Grebien et al. Super-resolution estimation of UWB channels including the dense component—an SBL-inspired approach
CN117715219A (zh) 基于深度强化学习的空时域资源分配方法
Zerguine et al. Intelligent CW Selection Mechanism Based on Q-Learning (MISQ).
CN113286374A (zh) 调度方法、调度算法的训练方法及相关系统、存储介质
CN115811788A (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
CN115315020A (zh) 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN114916087A (zh) 一种vanet系统中基于印度自助餐过程的动态频谱接入方法
Şahin et al. Scheduling out-of-coverage vehicular communications using reinforcement learning
Mondal et al. Station grouping mechanism using machine learning approach for ieee 802.11 ah
Priya et al. Improving the quality of service (qos) and resource allocation in vehicular platoon using meta-heuristic optimization algorithm
CN115134026B (zh) 一种基于平均场的智能非授权频谱接入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant