CN114499648B - 基于多智能体协作的无人机集群网络智能多跳路由方法 - Google Patents
基于多智能体协作的无人机集群网络智能多跳路由方法 Download PDFInfo
- Publication number
- CN114499648B CN114499648B CN202210240571.7A CN202210240571A CN114499648B CN 114499648 B CN114499648 B CN 114499648B CN 202210240571 A CN202210240571 A CN 202210240571A CN 114499648 B CN114499648 B CN 114499648B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- node
- network
- data packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000003993 interaction Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000009916 joint effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 7
- 238000000354 decomposition reaction Methods 0.000 abstract description 5
- 230000019771 cognition Effects 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/22—Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多智能体协作的无人机集群网络智能多跳路由方法,该方法为:无人机节点采用∈贪婪策略选择中继节点,在网络环境部分可观测的场景下实现最佳路由选择;同时在基于对邻居节点队列与位置信息观测下,运用协同多智能体价值分解网络方法,通过计算联合价值函数的时间差分误差以更新单个无人机节点的评估网络参数,最终学习到无人机节点路由策略并智能地选择中继节点,最大程度上降低传输时延。本发明针对无人机集群网络中的高动态拓扑特点,通过无人机之间的协同认知能力在最短路径基础上绕开高负载节点,实现智能路由选择;相较于传统独立Q学习能够学习到更优的路由策略,有效地降低了无人机在复杂变化环境下的通信传输时延。
Description
技术领域
本发明涉及无线通信技术领域,特别是一种基于多智能体协作的无人机集群网络智能多跳路由方法。
背景技术
无人飞行器集群(unmanned aerial vehicle swarm,UAVs)网络是由一定数量的无人飞行器(unmanned aerial vehicle,UAV)组成,由于无人飞行器集群网络具有迅速组网、高可靠性、高伸缩性、抗毁能力强以及单节点可替代性等特点,在学术界以及工业界都得到了广泛的研究。目前,无人机集群在边境监控、环境监测等民用领域以及侦查、监视、搜救等军用领域得到广泛的应用(N.Zhao W.Lu M.Sheng et al.UAV-Assisted EmergencyNetworks inDisasters[J].IEEE Wireless Communication,2019 26(1):45-51)。
然而,无人飞行器集群网络具有能量受限、拓扑结构变化快、节点密度低、敌方干扰等特点,需要设计具有控制时延、间歇链路强健、保证可靠性以及适应复杂网络环境的无人机集群网络智能多跳路由方法。
同时,随着互联网通信技术的高速发展,传统路由转发算法越来越难以满足用户高度差异化的服务质量需求,而人工智能技术的蓬勃发展,智能路由技术也处于飞速发展阶段。强化学习作为人工智能的重要分支,在解决和环境交互过程中的自主决策和控制问题上发挥了自身重大优势与潜力。有学者通过将强化学习中的传统Q学习算法运用到具有不规则、不对称的网络负载求解(F.Li,X.Song,H.Chen,X.Li,Y.Wang.HierarchicalRouting for Vehicular Ad Hoc Networks via Reinforcement Learning[J].IEEETransactions on Vehicular Technology,2019,68(2):1852-1865.)当通信网络建模更加复杂与动态时,单智能体深度强化学习方法也被应用于路由决策问题(X.Guo,H.Lin,Z.Liand M.Peng.Deep-Reinforcement-Learning-Based QoS-Aware Secure Routing forSDN-IoT.IEEE Internet of Things Journal,2020,7(7):6242-6251.)随着更多节点以及更高维度状态信息,单智能体强化学习算法复杂度过高,又有学者构建路由决策的POMDP模型,利用多智能体算法加快训练收敛速度(C.Lu,Z.Wang,W.Ding,G.Li,S.Liu andL.Cheng.MARVEL:Multi-agent reinforcement learning for VANET delayminimization[J].China Communications,2021,18(6):1-11.)。目前关于无人机集群网络智能多跳路由研究初具规模但尚不成熟,例如难以有效的降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化所导致的时延。
发明内容
本发明的目的在于提供一种收敛速度更快、性能更优的基于多智能体协作的无人机集群网络智能多跳路由方法,以降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化导致的时延,在实际应用场景中快速学习到最优策略以及提高训练稳定性,实现无人机集群网络低时延通信需求。
实现本发明目的的技术解决方案为:一种基于多智能体协作的无人机集群网络智能多跳路由方法,包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择。
本发明与现有技术相比,其显著优点为:(1)相比于集中式算法,基于多智能体学习的价值分解网络(Value-Decomposition Networks,VDN)的路由算法有效降低了计算复杂度,提高了算法的可拓展性;(2)相较于传统独立多智能体强化学习算法(IndependentQ-Learning,IQL),基于VDN的路由算法考虑到了无人机节点之间存在的合作关系,通过让多智能体间相互协作来实现全局目标,缓解传统独立多智能体学习方法的非平稳训练问题。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于多智能体协作的无人机集群网络智能多跳路由方法流程图。
图2为本发明实施例的无人机网络系统模型示意图。
图3为本发明实施例中无人机网络的累积奖励随时隙的变化图。
图4为本发明实施例中无人机网络的平均时延随时隙数的变化图。
图5为本发明实施例中无人机网络平均时延与传统路由算法在不同数据包负载数目下的比较图。
具体实施方式
在考虑无人机集群网络中节点高速移动,拓扑变化频繁,本发明将多智能体学习的价值分解网络(Value-Decomposition Networks,VDN)运用到无人机集群网络通信领域,减少了网络通信时延,适应部分信息交互下的拓扑以及网络负载变化。
本发明一种基于多智能体协作的无人机集群网络智能多跳路由方法,是一种集中式训练分布式执行的多智能体路由算法,结合图1,具体包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择。
进一步地,将连续的训练时间离散为多个时隙,用来表示第t个时隙;假设网络中有M个无人机,用集合/>来表示。
进一步地,步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互,具体包括:
无人机自身评估网络包括三层隐含层,其中:第一层为全连接层,输入维度为无人机观测神经元个数,输出维度为自定义的隐藏层神经元个数;第二层为门控循环单元网络层,用来维护内部状态和随时间积累的观察值;第三层为全连接层,其输出维度为每个无人机动作空间大小,采用ReLU函数作为各层间的激活函数,无人机网络初始化各个相连神经元之间的权重,从而完成无人机的评估网络构建。
进一步地,步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作,具体为:
(2.1)定义为联合观测集合,满足/>每个无人机i从系统环境St中获取的当前时刻t的观测oi,t为:
oi,t={Dsti,t,Ni,t,dist}
其中Dsti,t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码,Ni,t为当前节点i观测到的邻居节点队列大小的集合,dist为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合;
无人机节点i在当前时刻t的历史信息表示为:
hi,t={{oi,0,ai,0},{oi,1,ai,1},…,{oi,t-1,ai,t-1},{oi,t,ai,t}}
每个智能体的行为历史由过去时刻的观测和动作选择组合来组成;
(2.2)定义为联合动作集合,满足/>无人机节点i在当前时刻t能够选择的动作集合为:
其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点。
进一步地,步骤3所述的无人机根据相关动作选择中继节点,得到环境反馈的全局奖励,具体为:
定义R为联合奖励函数,表示为无人机个体奖励之和:
当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时,系统环境在t+1时刻所产生的个体奖励值ri,t为:
当邻居节点j为当前数据包的目标节点d时,ri,t=C,其中C为一个常数;
当该邻居节点j的队列容量达到最大时,即当前所发送数据包无法被接收时,ri,t=-C;
否则当所选择邻居节点为能够正常接收数据包的中继节点时,奖励函数为:
ri,t=exp(-ω1len(queue(aj,t))-ω2distance(aj,t,d))
其中len(queue(aj,t))是所选择邻居节点自身队列大小,反映数据包的等待时延;distance(aj,t,d)是所选择邻居节点与目标节点之间的距离,反映数据包的传输时延;ω1,ω2是权重系数。
进一步地,步骤4所述的当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新,具体为:
系统的联合价值函数是由个体价值函数的线性聚合,通过对个体动作价值函数线性相加求得联合动作价值函数:
其中τ为观测与历史联合信息,a为联合动作/>w为网络参数;
由此,计算得到无人机网络的回报估计值:
U←r+γmaxaQ(τ′,a;w目标)
其中γ为折扣因子;
通过更新参数w最小化时间差分误差:
同时,由于目标网络更新周期影响算法收敛以及最终表现性能,采用软更新的方式更新目标网络参数:
Wtarget=lr*Weval+(1-lr)*Wtarget
其中weval为评估网络参数,wtarget初始化为评估网络参数的拷贝,lr为学习率;
当无人机集群网络中有数据包任务待转发时,依次执行步骤1、步骤2和步骤3,在无人机策略训练阶段执行步骤4,当训练达到一定次数时,全局累积奖励收敛达到最大值,此时学习到无人机节点的最优多跳路由策略,表明每个节点在当前局部观测以及历史观测与动作下应该如何选取最优中继节点传输数据包。
实施例
本发明的一个实施例具体描述如下,仿真在操作系统为Windows 10的计算机下基于python编程,具体场景为:
将无人机集群的通信拓扑状态表示为图其中/>表示无人机节点集合,/>为边集合,边ei,j∈ε表示无人机/>可以直接与无人机相互通信。无人机采用随机路点移动模型,图G的拓扑结构是动态变化的。每个无人机节点拥有自身的发送队列,表述为/>其中um=(srcm,dstm,Lm)为队列中第m个待发送数据包,srcm为该数据包的源节点,dstm为该数据包的目的节点,Lm为该数据包的大小。将时间离散化为时隙t∈{1,2,…,T},在无人机集群中,每个无人机节点既可以是发送节点也可以是接收节点,无人机节点将待发送数据包保存至发送队列中,每个时隙仅能将一个数据包转发给其邻居节点,若超出节点队列大小,邻居节点会丢弃该数据包。在初始化阶段,随机生成k个数据包,具有随机的源节点以及目标节点并分发至对应源节点,后续仿真过程中不产生额外数据包,当完成所有数据包转发或者达到最大仿真时隙时,仿真结束,系统模型如图2所示。具体仿真参数如表1所示:
表1网络中主要仿真参数示意表
通信区域 | 300m×300m |
无人机节点数 | 10个 |
无人机速度 | [2m/s,5m/s] |
通信范围 | 130m |
数据包数目k | 100-180个 |
节点存储容量 | 20个数据包 |
如图3所示,在训练初期由于训练不足,平均累计奖励较低,随着时隙的增加,平均累计奖励逐渐增加并收敛,进一步地可以观察到,基于VDN算法在平均累计奖励收敛速度以及收敛值性能由于其他智能算法。
如图4所示,基于软更新的VDN算法平均时延性能明显优于其他智能算法,验证了所提方案的优越性。此性能优势的原因可以归结为以下两个方面:1、基于VDN的路由方法性能表现强于基于IQL的路由方法,这是由于采用全局奖励更新独立的智能体网络造成严重的非平稳现象,导致算法的收敛遇到困难;2、基于软更新的VDN路由算法自适应调节目标网络参数,解决传统VDN算法中目标网络周期性的更新影响收敛效果的问题。
由图5可知,当对无人机网络拓扑采用动态迪杰斯特拉最短路径算法时,在初始化网络负载较小时,动态迪杰斯特拉最短路径算法反而取得了相较于基于软更新的VDN路由算法更好的性能,这是由于基于VDN路由算法充分考虑了网络的等待时延所可能造成的影响而选择绕过较为拥挤的节点,而在负载较小的情况下,数据包只需要按照最短路径传输数据包极可以达到较好的性能,选择绕开拥挤节点反而造成了时延上的增加;但随着初始化网络负载的水平的增加,动态迪杰斯特拉最短路径算法的时延呈指数型上升,而基于VDN路由算法能够很好地绕开拥挤节点,平均网络负载,达到更好的时延性能。
综上所述,本发明将多智能体学习的价值分解网络(Value-DecompositionNetworks,VDN)运用到无人机集群网络通信领域,降低网络通信时延,适应部分信息交互下的拓扑以及网络负载变化。
Claims (1)
1.一种基于多智能体协作的无人机集群网络智能多跳路由方法,其特征在于,包括以下步骤:
步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互;
步骤2、每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作;
步骤3、无人机根据相关动作选择中继节点,得到环境反馈的全局奖励;
步骤4、当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新;
步骤5、当未达到时间限制时,返回步骤2,否则转步骤6进入实施阶段;
步骤6、在实施阶段,由每个无人机根据自身已经收敛的最优策略π*进行路由选择;
将连续的训练时间离散为多个时隙,用来表示第t个时隙;假设网络中有M个无人机,用集合/>来表示;
步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互,具体包括:
无人机自身评估网络包括三层隐含层,其中:第一层为全连接层,输入维度为无人机观测神经元个数,输出维度为自定义的隐藏层神经元个数;第二层为门控循环单元网络层,用来维护内部状态和随时间积累的观察值;第三层为全连接层,其输出维度为每个无人机动作空间大小,采用ReLU函数作为各层间的激活函数,无人机网络初始化各个相连神经元之间的权重,从而完成无人机的评估网络构建;
步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测,结合历史交互信息作为输入,通过评估网络输出各个动作Q值,再根据行为策略生成相关动作,具体为:
(2.1)定义为联合观测集合,满足/>每个无人机i从系统环境St中获取的当前时刻t的观测oi,t为:
oi,t={Dsti,t,Ni,t,dist}
其中Dsti,t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码,Ni,t为当前节点i观测到的邻居节点队列大小的集合,dist为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合;
无人机节点i在当前时刻t的历史信息表示为:
hi,t={{oi,0,ai,0},{oi,1,ai,1},…,{oi,t-1,ai,t-1},{oi,t,ai,t}}
每个智能体的行为历史由过去时刻的观测和动作选择组合来组成;
(2.2)定义为联合动作集合,满足/>无人机节点i在当前时刻t能够选择的动作集合为:
其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点;
步骤3所述的无人机根据相关动作选择中继节点,得到环境反馈的全局奖励,具体为:
定义R为联合奖励函数,表示为无人机个体奖励之和:
当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时,系统环境在t+1时刻所产生的个体奖励值ri,t为:
当邻居节点j为当前数据包的目标节点d时,ri,t=C,其中C为一个常数;
当该邻居节点j的队列容量达到最大时,即当前所发送数据包无法被接收时,ri,t=-C;
否则当所选择邻居节点为能够正常接收数据包的中继节点时,奖励函数为:
ri,t=exp(-ω1len(queue(αj,t))-ω2distance(aj,t,d))
其中len(queue(aj,t))是所选择邻居节点自身队列大小,反映数据包的等待时延;distance(aj,t,d)是所选择邻居节点与目标节点之间的距离,反映数据包的传输时延;ω1,ω2是权重系数;
步骤4所述的当前时隙结束后,地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数,进行梯度计算与反传,并对各无人机节点评估网络进行更新,具体为:
系统的联合价值函数是由个体价值函数的线性聚合,通过对个体动作价值函数线性相加求得联合动作价值函数:
其中τ为观测与历史联合信息,a为联合动作/>w为网络参数;
由此,计算得到无人机网络的回报估计值:
U←r+γmaxaQ(τ′,a;w目标)
其中γ为折扣因子;
通过更新参数w最小化时间差分误差:
同时,由于目标网络更新周期影响算法收敛以及最终表现性能,采用软更新的方式更新目标网络参数:
wtarget=lr*weval+(1-lr)*wtarget
其中weval为评估网络参数,wtarget初始化为评估网络参数的拷贝,lr为学习率;
当无人机集群网络中有数据包任务待转发时,依次执行步骤1、步骤2和步骤3,在无人机策略训练阶段执行步骤4,当训练达到一定次数时,全局累积奖励收敛达到最大值,此时学习到无人机节点的最优多跳路由策略,表明每个节点在当前局部观测以及历史观测与动作下应该如何选取最优中继节点传输数据包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210240571.7A CN114499648B (zh) | 2022-03-10 | 2022-03-10 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210240571.7A CN114499648B (zh) | 2022-03-10 | 2022-03-10 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114499648A CN114499648A (zh) | 2022-05-13 |
CN114499648B true CN114499648B (zh) | 2024-05-24 |
Family
ID=81487185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210240571.7A Active CN114499648B (zh) | 2022-03-10 | 2022-03-10 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114499648B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115484205B (zh) * | 2022-07-12 | 2023-12-01 | 北京邮电大学 | 确定性网络路由与队列调度方法及装置 |
CN115412992A (zh) * | 2022-07-25 | 2022-11-29 | 电子科技大学长三角研究院(衢州) | 一种分布式协同进化方法、uav及其智能路由方法、装置 |
CN116319511B (zh) * | 2022-12-21 | 2023-11-10 | 南京航空航天大学 | 基于最短路径树图联盟形成算法的通信连接方法和系统 |
CN116600265B (zh) * | 2023-06-02 | 2024-04-05 | 东南大学 | 一种基于多智能体qmix算法的无人艇自组网路由方法 |
CN116709255B (zh) * | 2023-08-04 | 2023-10-31 | 中国人民解放军军事科学院系统工程研究院 | 一种不完全信息条件下的中继无人机分布式选择方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108040353A (zh) * | 2017-12-18 | 2018-05-15 | 北京工业大学 | 一种q学习的无人机集群智能地理路由方法 |
CN111065105A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种面向无人机网络切片的分布式智能路由方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112804726A (zh) * | 2021-01-06 | 2021-05-14 | 南京理工大学 | 一种基于地理位置的多智能体强化学习路由算法 |
CN113645589A (zh) * | 2021-07-09 | 2021-11-12 | 北京邮电大学 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9473235B2 (en) * | 2014-01-15 | 2016-10-18 | Honeywell International Inc. | Routing based on length of time of available connection |
-
2022
- 2022-03-10 CN CN202210240571.7A patent/CN114499648B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108040353A (zh) * | 2017-12-18 | 2018-05-15 | 北京工业大学 | 一种q学习的无人机集群智能地理路由方法 |
CN111065105A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种面向无人机网络切片的分布式智能路由方法 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112804726A (zh) * | 2021-01-06 | 2021-05-14 | 南京理工大学 | 一种基于地理位置的多智能体强化学习路由算法 |
CN113645589A (zh) * | 2021-07-09 | 2021-11-12 | 北京邮电大学 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
Non-Patent Citations (1)
Title |
---|
强化学习框架下移动自组织网络分步路由算法;蒯振然;王少尉;;国防科技大学学报;20200811(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114499648A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114499648B (zh) | 基于多智能体协作的无人机集群网络智能多跳路由方法 | |
Yang et al. | An optimization routing protocol for FANETs | |
Yang et al. | Q-learning-based fuzzy logic for multi-objective routing algorithm in flying ad hoc networks | |
Zhao et al. | An intelligent fuzzy-based routing scheme for software-defined vehicular networks | |
CN109803344A (zh) | 一种无人机网络拓扑及路由联合构建方法 | |
Alam et al. | Joint topology control and routing in a UAV swarm for crowd surveillance | |
CN113163466B (zh) | 基于模糊决策树的自适应鱼群寻路包路由方法 | |
Budyal et al. | ANFIS and agent based bandwidth and delay aware anycast routing in mobile ad hoc networks | |
CN110161861B (zh) | 基于模糊神经网络的飞行器自组网路由决策方法及装置 | |
Hosseinzadeh et al. | A greedy perimeter stateless routing method based on a position prediction mechanism for flying ad hoc networks | |
Hosseinzadeh et al. | A novel Q-learning-based routing scheme using an intelligent filtering algorithm for flying ad hoc networks (FANETs) | |
CN114828146A (zh) | 一种基于神经网络和迭代学习的无人集群地理位置路由方法 | |
Liu et al. | AR-GAIL: Adaptive routing protocol for FANETs using generative adversarial imitation learning | |
CN116963225B (zh) | 一种面向流媒体传输的无线mesh网络路由方法 | |
Yang et al. | RS-DRL-based offloading policy and UAV trajectory design in F-MEC systems | |
CN115278905B (zh) | 一种用于无人机网络传输的多节点通信时机确定方法 | |
CN116170854A (zh) | 一种基于深度强化学习dqn的dqn-olsr路由方法 | |
Budyal et al. | Intelligent agent based delay aware QoS unicast routing in mobile ad hoc networks | |
Hosseinzadeh et al. | A smart filtering-based adaptive optimized link state routing protocol in flying ad hoc networks for traffic monitoring | |
Mao et al. | A SDN-Based Dynamic Routing for Multi-UAV Network Based on Bidirectional A-Star Algorithm | |
Toorchi et al. | Deep reinforcement learning enhanced skeleton based pipe routing for high-throughput transmission in flying ad-hoc networks | |
Akella et al. | Distributed Q-Learning-Based UAV-Assisted Small World Wireless Network for Energy-Efficient and Delay-Critical Data Transmission | |
Li et al. | Anti-jamming transmission in softwarization UAV network: a federated deep reinforcement learning approach | |
CN117119555B (zh) | 一种月面探索时变拓扑群节点自适应组网路由方法及系统 | |
Tang et al. | A Distributed and Adaptive Routing Protocol for UAV-aided Emergency Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Jun Inventor after: Lin Yan Inventor after: Zhang Yijin Inventor after: Bai Jinxiang Inventor after: Fan Xiangrui Inventor before: Bai Jinxiang Inventor before: Lin Yan Inventor before: Zhang Yijin Inventor before: Fan Xiangrui Inventor before: Li Jun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |