CN114499648A - 基于多智能体协作的无人机集群网络智能多跳路由方法 - Google Patents

基于多智能体协作的无人机集群网络智能多跳路由方法 Download PDF

Info

Publication number
CN114499648A
CN114499648A CN202210240571.7A CN202210240571A CN114499648A CN 114499648 A CN114499648 A CN 114499648A CN 202210240571 A CN202210240571 A CN 202210240571A CN 114499648 A CN114499648 A CN 114499648A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
node
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210240571.7A
Other languages
English (en)
Other versions
CN114499648B (zh
Inventor
白金祥
林艳
张一晋
范祥瑞
李骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210240571.7A priority Critical patent/CN114499648B/zh
Priority claimed from CN202210240571.7A external-priority patent/CN114499648B/zh
Publication of CN114499648A publication Critical patent/CN114499648A/zh
Application granted granted Critical
Publication of CN114499648B publication Critical patent/CN114499648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体协作的无人机集群网络智能多跳路由方法,该方法为:无人机节点采用∈贪婪策略选择中继节点,在网络环境部分可观测的场景下实现最佳路由选择;同时在基于对邻居节点队列与位置信息观测下,运用协同多智能体价值分解网络方法,通过计算联合价值函数的时间差分误差以更新单个无人机节点的评估网络参数,最终学习到无人机节点路由策略并智能地选择中继节点,最大程度上降低传输时延。本发明针对无人机集群网络中的高动态拓扑特点,通过无人机之间的协同认知能力在最短路径基础上绕开高负载节点,实现智能路由选择;相较于传统独立Q学习能够学习到更优的路由策略,有效地降低了无人机在复杂变化环境下的通信传输时延。

Description

基于多智能体协作的无人机集群网络智能多跳路由方法
技术领域
本发明涉及无线通信技术领域,特别是一种基于多智能体协作的无人机集群网络智能多跳路由方法。
背景技术
无人飞行器集群(unmanned aerial vehicle swarm,UAVs)网络是由一定数量的无人飞行器(unmanned aerial vehicle,UAV)组成,由于无人飞行器集群网络具有迅速组网、高可靠性、高伸缩性、抗毁能力强以及单节点可替代性等特点,在学术界以及工业界都得到了广泛的研究。目前,无人机集群在边境监控、环境监测等民用领域以及侦查、监视、搜救等军用领域得到广泛的应用(N.Zhao W.Lu M.Sheng et al.UAV-Assisted EmergencyNetworks inDisasters[J].IEEE Wireless Communication,2019 26(1):45-51)。
然而,无人飞行器集群网络具有能量受限、拓扑结构变化快、节点密度低、敌方干扰等特点,需要设计具有控制时延、间歇链路强健、保证可靠性以及适应复杂网络环境的无人机集群网络智能多跳路由方法。
同时,随着互联网通信技术的高速发展,传统路由转发算法越来越难以满足用户高度差异化的服务质量需求,而人工智能技术的蓬勃发展,智能路由技术也处于飞速发展阶段。强化学习作为人工智能的重要分支,在解决和环境交互过程中的自主决策和控制问题上发挥了自身重大优势与潜力。有学者通过将强化学习中的传统Q学习算法运用到具有不规则、不对称的网络负载求解(F.Li,X.Song,H.Chen,X.Li,Y.Wang.HierarchicalRouting for Vehicular Ad Hoc Networks via Reinforcement Learning[J].IEEETransactions on Vehicular Technology,2019,68(2):1852-1865.)当通信网络建模更加复杂与动态时,单智能体深度强化学习方法也被应用于路由决策问题(X.Guo,H.Lin,Z.Liand M.Peng.Deep-Reinforcement-Learning-Based QoS-Aware Secure Routing forSDN-IoT.IEEE Internet of Things Journal,2020,7(7):6242-6251.)随着更多节点以及更高维度状态信息,单智能体强化学习算法复杂度过高,又有学者构建路由决策的POMDP模型,利用多智能体算法加快训练收敛速度(C.Lu,Z.Wang,W.Ding,G.Li,S.Liu andL.Cheng.MARVEL:Multi-agent reinforcement learning for VANET delayminimization[J].China Communications,2021,18(6):1-11.)。目前关于无人机集群网络智能多跳路由研究初具规模但尚不成熟,例如难以有效的降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化所导致的时延。
发明内容
本发明的目的在于提供一种收敛速度更快、性能更优的基于多智能体协作的无人机集群网络智能多跳路由方法,以降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化导致的时延,在实际应用场景中快速学习到最优策略以及提高训练稳定性,实现无人机集群网络低时延通信需求。
实现本发明目的的技术解决方案为:一种基于多智能体协作的无人机集群网络智能多跳路由方法,包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择。
本发明与现有技术相比,其显著优点为:(1)相比于集中式算法,基于多智能体学习的价值分解网络(Value-Decomposition Networks,VDN)的路由算法有效降低了计算复杂度,提高了算法的可拓展性;(2)相较于传统独立多智能体强化学习算法(IndependentQ-Learning,IQL),基于VDN的路由算法考虑到了无人机节点之间存在的合作关系,通过让多智能体间相互协作来实现全局目标,缓解传统独立多智能体学习方法的非平稳训练问题。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于多智能体协作的无人机集群网络智能多跳路由方法流程图。
图2为本发明实施例的无人机网络系统模型示意图。
图3为本发明实施例中无人机网络的累积奖励随时隙的变化图。
图4为本发明实施例中无人机网络的平均时延随时隙数的变化图。
图5为本发明实施例中无人机网络平均时延与传统路由算法在不同数据包负载数目下的比较图。
具体实施方式
在考虑无人机集群网络中节点高速移动,拓扑变化频繁,本发明将多智能体学习的价值分解网络(Value-Decomposition Networks,VDN)运用到无人机集群网络通信领域,减少了网络通信时延,适应部分信息交互下的拓扑以及网络负载变化。
本发明一种基于多智能体协作的无人机集群网络智能多跳路由方法,是一种集中式训练分布式执行的多智能体路由算法,结合图1,具体包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择。
进一步地,将连续的训练时间离散为多个时隙,用
Figure BDA0003540979080000031
来表示第t个时隙;假设网络中有M个无人机,用集合
Figure BDA0003540979080000032
来表示。
进一步地,步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互,具体包括:
无人机自身评估网络包括三层隐含层,其中:第一层为全连接层,输入维度为无人机观测神经元个数,输出维度为自定义的隐藏层神经元个数;第二层为门控循环单元网络层,用来维护内部状态和随时间积累的观察值;第三层为全连接层,其输出维度为每个无人机动作空间大小,采用ReLU函数作为各层间的激活函数,无人机网络初始化各个相连神经元之间的权重,从而完成无人机的评估网络构建。
进一步地,步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作,具体为:
(2.1)定义
Figure BDA0003540979080000033
为联合观测集合,满足
Figure BDA0003540979080000034
每个无人机i从系统环境St中获取的当前时刻t的观测oi,t为:
oi,t={Dsti,t,Ni,t,dist}
其中Dsti,t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码,Ni,t为当前节点i观测到的邻居节点队列大小的集合,dist为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合;
无人机节点i在当前时刻t的历史信息表示为:
hi,t={{oi,0,ai,0},{oi,1,ai,1},…,{oi,t-1,ai,t-1},{oi,t,ai,t}}
每个智能体的行为历史由过去时刻的观测和动作选择组合来组成;
(2.2)定义
Figure BDA0003540979080000041
为联合动作集合,满足
Figure BDA0003540979080000042
无人机节点i在当前时刻t能够选择的动作集合为:
Figure BDA0003540979080000043
其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点。
进一步地,步骤3所述的无人机根据相关动作选择中继节点,得到环境反馈的全局奖励,具体为:
定义R为联合奖励函数,表示为无人机个体奖励之和:
Figure BDA0003540979080000044
当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时,系统环境在t+1时刻所产生的个体奖励值ri,t为:
当邻居节点j为当前数据包的目标节点d时,ri,t=C,其中C为一个常数;
当该邻居节点j的队列容量达到最大时,即当前所发送数据包无法被接收时,rit=-C;
否则当所选择邻居节点为能够正常接收数据包的中继节点时,奖励函数为:
ri,t=exp(-ω1len(queue(aj,t))-ω2distance(aj,t,d))
其中len(queue(aj,t))是所选择邻居节点自身队列大小,反映数据包的等待时延;distance(aj,t,d)是所选择邻居节点与目标节点之间的距离,反映数据包的传输时延;ω1,ω2是权重系数。
进一步地,步骤4所述的当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新,具体为:
系统的联合价值函数是由个体价值函数的线性聚合,通过对个体动作价值函数线性相加求得联合动作价值函数:
Figure BDA0003540979080000051
其中τ为观测与历史联合信息,
Figure BDA0003540979080000052
a为联合动作
Figure BDA0003540979080000053
w为网络参数;
由此,计算得到无人机网络的回报估计值:
U←r+γmaxaQ(τ′,a;w目标)
其中γ为折扣因子;
通过更新参数w最小化时间差分误差:
Figure BDA0003540979080000054
同时,由于目标网络更新周期影响算法收敛以及最终表现性能,采用软更新的方式更新目标网络参数:
Wtarget=lr*Weval+(1-lr)*Wtarget
其中weval为评估网络参数,wtarget初始化为评估网络参数的拷贝,lr为学习率;
当无人机集群网络中有数据包任务待转发时,依次执行步骤1、步骤2和步骤3,在无人机策略训练阶段执行步骤4,当训练达到一定次数时,全局累积奖励收敛达到最大值,此时学习到无人机节点的最优多跳路由策略,表明每个节点在当前局部观测以及历史观测与动作下应该如何选取最优中继节点传输数据包。
实施例
本发明的一个实施例具体描述如下,仿真在操作系统为Windows 10的计算机下基于python编程,具体场景为:
将无人机集群的通信拓扑状态表示为图
Figure BDA0003540979080000055
其中
Figure BDA0003540979080000056
表示无人机节点集合,
Figure BDA0003540979080000057
为边集合,边ei,j∈ε表示无人机
Figure BDA0003540979080000058
可以直接与无人机
Figure BDA0003540979080000059
相互通信。无人机采用随机路点移动模型,图G的拓扑结构是动态变化的。每个无人机节点拥有自身的发送队列,表述为
Figure BDA00035409790800000510
其中um=(srcm,dstm,Lm)为队列中第m个待发送数据包,srcm为该数据包的源节点,dstm为该数据包的目的节点,Lm为该数据包的大小。将时间离散化为时隙t∈{1,2,…,T},在无人机集群中,每个无人机节点既可以是发送节点也可以是接收节点,无人机节点将待发送数据包保存至发送队列中,每个时隙仅能将一个数据包转发给其邻居节点,若超出节点队列大小,邻居节点会丢弃该数据包。在初始化阶段,随机生成k个数据包,具有随机的源节点以及目标节点并分发至对应源节点,后续仿真过程中不产生额外数据包,当完成所有数据包转发或者达到最大仿真时隙时,仿真结束,系统模型如图2所示。具体仿真参数如表1所示:
表1网络中主要仿真参数示意表
通信区域 300m×300m
无人机节点数 10个
无人机速度 [2m/s,5m/s]
通信范围 130m
数据包数目k 100-180个
节点存储容量 20个数据包
如图3所示,在训练初期由于训练不足,平均累计奖励较低,随着时隙的增加,平均累计奖励逐渐增加并收敛,进一步地可以观察到,基于VDN算法在平均累计奖励收敛速度以及收敛值性能由于其他智能算法。
如图4所示,基于软更新的VDN算法平均时延性能明显优于其他智能算法,验证了所提方案的优越性。此性能优势的原因可以归结为以下两个方面:1、基于VDN的路由方法性能表现强于基于IQL的路由方法,这是由于采用全局奖励更新独立的智能体网络造成严重的非平稳现象,导致算法的收敛遇到困难;2、基于软更新的VDN路由算法自适应调节目标网络参数,解决传统VDN算法中目标网络周期性的更新影响收敛效果的问题。
由图5可知,当对无人机网络拓扑采用动态迪杰斯特拉最短路径算法时,在初始化网络负载较小时,动态迪杰斯特拉最短路径算法反而取得了相较于基于软更新的VDN路由算法更好的性能,这是由于基于VDN路由算法充分考虑了网络的等待时延所可能造成的影响而选择绕过较为拥挤的节点,而在负载较小的情况下,数据包只需要按照最短路径传输数据包极可以达到较好的性能,选择绕开拥挤节点反而造成了时延上的增加;但随着初始化网络负载的水平的增加,动态迪杰斯特拉最短路径算法的时延呈指数型上升,而基于VDN路由算法能够很好地绕开拥挤节点,平均网络负载,达到更好的时延性能。
综上所述,本发明将多智能体学习的价值分解网络(Value-DecompositionNetworks,VDN)运用到无人机集群网络通信领域,降低网络通信时延,适应部分信息交互下的拓扑以及网络负载变化。

Claims (6)

1.一种基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择。
2.根据权利要求1所述的基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,将连续的训练时间离散为多个时隙,用
Figure FDA0003540979070000011
来表示第t个时隙;假设网络中有M个无人机,用集合
Figure FDA0003540979070000012
来表示。
3.根据权利要求2所述的基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互,具体包括:
无人机自身评估网络包括三层隐含层,其中:第一层为全连接层,输入维度为无人机观测神经元个数,输出维度为自定义的隐藏层神经元个数;第二层为门控循环单元网络层,用来维护内部状态和随时间积累的观察值;第三层为全连接层,其输出维度为每个无人机动作空间大小,采用ReLU函数作为各层间的激活函数,无人机网络初始化各个相连神经元之间的权重,从而完成无人机的评估网络构建。
4.根据权利要求2所述的基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作,具体为:
(2.1)定义
Figure FDA0003540979070000013
为联合观测集合,满足
Figure FDA0003540979070000014
每个无人机i从系统环境St中获取的当前时刻t的观测oi,t为:
oi,t={Dsti,t,Ni,t,dist}
其中Dsti,t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码,Ni,t为当前节点i观测到的邻居节点队列大小的集合,dist为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合;
无人机节点i在当前时刻t的历史信息表示为:
hi,t={{oi,0,ai,0},{oi,1,ai,1},...,{oi,t-1,ai,t-1},{oi,t,ai,t}}
每个智能体的行为历史由过去时刻的观测和动作选择组合来组成;
(2.2)定义
Figure FDA0003540979070000021
为联合动作集合,满足
Figure FDA0003540979070000022
无人机节点i在当前时刻t能够选择的动作集合为:
Figure FDA0003540979070000023
其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点。
5.根据权利要求2所述的基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,步骤3所述的无人机根据相关动作选择中继节点,得到环境反馈的全局奖励,具体为:
定义R为联合奖励函数,表示为无人机个体奖励之和:
Figure FDA0003540979070000024
当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时,系统环境在t+1时刻所产生的个体奖励值ri,t为:
当邻居节点j为当前数据包的目标节点d时,ri,t=C,其中C为一个常数;
当该邻居节点j的队列容量达到最大时,即当前所发送数据包无法被接收时,ri,t=-C;
否则当所选择邻居节点为能够正常接收数据包的中继节点时,奖励函数为:
ri,t=exp(-ω1len(queue(aj,t))-ω2distance(aj,t,d))
其中len(queue(aj,t))是所选择邻居节点自身队列大小,反映数据包的等待时延;distance(aj,t,d)是所选择邻居节点与目标节点之间的距离,反映数据包的传输时延;ω1,ω2是权重系数。
6.根据权利要求2所述的基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,步骤4所述的当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新,具体为:
系统的联合价值函数是由个体价值函数的线性聚合,通过对个体动作价值函数线性相加求得联合动作价值函数:
Figure FDA0003540979070000031
其中τ为观测与历史联合信息,
Figure FDA0003540979070000032
a为联合动作
Figure FDA0003540979070000033
w为网络参数;
由此,计算得到无人机网络的回报估计值:
U←r+γmaxaQ(τ′,a;w目标)
其中γ为折扣因子;
通过更新参数w最小化时间差分误差:
Figure FDA0003540979070000034
同时,由于目标网络更新周期影响算法收敛以及最终表现性能,采用软更新的方式更新目标网络参数:
wtarget=lr*weval+(1-lr)*wtarget
其中weval为评估网络参数,wtarget初始化为评估网络参数的拷贝,lr为学习率;
当无人机集群网络中有数据包任务待转发时,依次执行步骤1、步骤2和步骤3,在无人机策略训练阶段执行步骤4,当训练达到一定次数时,全局累积奖励收敛达到最大值,此时学习到无人机节点的最优多跳路由策略,表明每个节点在当前局部观测以及历史观测与动作下应该如何选取最优中继节点传输数据包。
CN202210240571.7A 2022-03-10 基于多智能体协作的无人机集群网络智能多跳路由方法 Active CN114499648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210240571.7A CN114499648B (zh) 2022-03-10 基于多智能体协作的无人机集群网络智能多跳路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210240571.7A CN114499648B (zh) 2022-03-10 基于多智能体协作的无人机集群网络智能多跳路由方法

Publications (2)

Publication Number Publication Date
CN114499648A true CN114499648A (zh) 2022-05-13
CN114499648B CN114499648B (zh) 2024-05-24

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN116319511A (zh) * 2022-12-21 2023-06-23 南京航空航天大学 基于最短路径树图联盟形成算法的通信连接方法和系统
CN116600265A (zh) * 2023-06-02 2023-08-15 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN116709255A (zh) * 2023-08-04 2023-09-05 中国人民解放军军事科学院系统工程研究院 一种不完全信息条件下的中继无人机分布式选择方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160269274A1 (en) * 2014-01-15 2016-09-15 Honeywell International Inc. Routing based on length of time of available connection
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN111065105A (zh) * 2019-12-30 2020-04-24 电子科技大学 一种面向无人机网络切片的分布式智能路由方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112804726A (zh) * 2021-01-06 2021-05-14 南京理工大学 一种基于地理位置的多智能体强化学习路由算法
CN113645589A (zh) * 2021-07-09 2021-11-12 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160269274A1 (en) * 2014-01-15 2016-09-15 Honeywell International Inc. Routing based on length of time of available connection
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN111065105A (zh) * 2019-12-30 2020-04-24 电子科技大学 一种面向无人机网络切片的分布式智能路由方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112804726A (zh) * 2021-01-06 2021-05-14 南京理工大学 一种基于地理位置的多智能体强化学习路由算法
CN113645589A (zh) * 2021-07-09 2021-11-12 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒯振然;王少尉;: "强化学习框架下移动自组织网络分步路由算法", 国防科技大学学报, no. 04, 11 August 2020 (2020-08-11) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN116319511A (zh) * 2022-12-21 2023-06-23 南京航空航天大学 基于最短路径树图联盟形成算法的通信连接方法和系统
CN116319511B (zh) * 2022-12-21 2023-11-10 南京航空航天大学 基于最短路径树图联盟形成算法的通信连接方法和系统
CN116600265A (zh) * 2023-06-02 2023-08-15 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN116600265B (zh) * 2023-06-02 2024-04-05 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN116709255A (zh) * 2023-08-04 2023-09-05 中国人民解放军军事科学院系统工程研究院 一种不完全信息条件下的中继无人机分布式选择方法
CN116709255B (zh) * 2023-08-04 2023-10-31 中国人民解放军军事科学院系统工程研究院 一种不完全信息条件下的中继无人机分布式选择方法

Similar Documents

Publication Publication Date Title
Tang et al. Survey on machine learning for intelligent end-to-end communication toward 6G: From network access, routing to traffic control and streaming adaption
Liu et al. QMR: Q-learning based multi-objective optimization routing protocol for flying ad hoc networks
Zheng et al. Adaptive communication protocols in flying ad hoc network
Yang et al. Q-learning-based fuzzy logic for multi-objective routing algorithm in flying ad hoc networks
Wang et al. An energy-efficient distributed adaptive cooperative routing based on reinforcement learning in wireless multimedia sensor networks
Zheng et al. A mobility and load aware OLSR routing protocol for UAV mobile ad-hoc networks
Zhao et al. An intelligent fuzzy-based routing scheme for software-defined vehicular networks
Torkestani et al. A link stability-based multicast routing protocol for wireless mobile ad hoc networks
Kumar et al. Bayesian coalition game for the internet of things: an ambient intelligence-based evaluation
CN113163466B (zh) 基于模糊决策树的自适应鱼群寻路包路由方法
Budyal et al. ANFIS and agent based bandwidth and delay aware anycast routing in mobile ad hoc networks
CN111510956B (zh) 一种基于分簇和增强学习的混合路由方法、海洋通信系统
CN110161861B (zh) 基于模糊神经网络的飞行器自组网路由决策方法及装置
Amiri et al. Retracted article: Improved AODV based on Topsis and fuzzy algorithms in vehicular ad-hoc networks
Lim et al. Q-learning based stepwise routing protocol for multi-uav networks
Romaniuk et al. Objective control functions of FANET communication nodes of land-air network
CN114828146A (zh) 一种基于神经网络和迭代学习的无人集群地理位置路由方法
Qiao et al. Dynamic self-organizing leader-follower control in a swarm mobile robots system under limited communication
Singh et al. ABNT: Adaptive beaconing and neighbor timeout for geographical routing in UAV networks
CN112672398A (zh) 一种基于自适应kalman预测的3D-GPSR路由方法
CN116939761A (zh) 一种基于强化学习的空地协同路由方法
CN115278905B (zh) 一种用于无人机网络传输的多节点通信时机确定方法
CN114499648B (zh) 基于多智能体协作的无人机集群网络智能多跳路由方法
CN114499648A (zh) 基于多智能体协作的无人机集群网络智能多跳路由方法
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Jun

Inventor after: Lin Yan

Inventor after: Zhang Yijin

Inventor after: Bai Jinxiang

Inventor after: Fan Xiangrui

Inventor before: Bai Jinxiang

Inventor before: Lin Yan

Inventor before: Zhang Yijin

Inventor before: Fan Xiangrui

Inventor before: Li Jun

CB03 Change of inventor or designer information
GR01 Patent grant