CN114499648B

CN114499648B - 基于多智能体协作的无人机集群网络智能多跳路由方法

Info

Publication number: CN114499648B
Application number: CN202210240571.7A
Authority: CN
Inventors: 李骏; 林艳; 张一晋; 白金祥; 范祥瑞
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2024-05-24
Anticipated expiration: 2042-03-10
Also published as: CN114499648A

Abstract

本发明公开了一种基于多智能体协作的无人机集群网络智能多跳路由方法，该方法为：无人机节点采用∈贪婪策略选择中继节点，在网络环境部分可观测的场景下实现最佳路由选择；同时在基于对邻居节点队列与位置信息观测下，运用协同多智能体价值分解网络方法，通过计算联合价值函数的时间差分误差以更新单个无人机节点的评估网络参数，最终学习到无人机节点路由策略并智能地选择中继节点，最大程度上降低传输时延。本发明针对无人机集群网络中的高动态拓扑特点，通过无人机之间的协同认知能力在最短路径基础上绕开高负载节点，实现智能路由选择；相较于传统独立Q学习能够学习到更优的路由策略，有效地降低了无人机在复杂变化环境下的通信传输时延。

Description

基于多智能体协作的无人机集群网络智能多跳路由方法

技术领域

本发明涉及无线通信技术领域，特别是一种基于多智能体协作的无人机集群网络智能多跳路由方法。

背景技术

无人飞行器集群(unmanned aerial vehicle swarm,UAVs)网络是由一定数量的无人飞行器(unmanned aerial vehicle,UAV)组成，由于无人飞行器集群网络具有迅速组网、高可靠性、高伸缩性、抗毁能力强以及单节点可替代性等特点，在学术界以及工业界都得到了广泛的研究。目前，无人机集群在边境监控、环境监测等民用领域以及侦查、监视、搜救等军用领域得到广泛的应用(N.Zhao W.Lu M.Sheng et al.UAV-Assisted EmergencyNetworks inDisasters[J].IEEE Wireless Communication,2019 26(1):45-51)。

然而，无人飞行器集群网络具有能量受限、拓扑结构变化快、节点密度低、敌方干扰等特点，需要设计具有控制时延、间歇链路强健、保证可靠性以及适应复杂网络环境的无人机集群网络智能多跳路由方法。

同时，随着互联网通信技术的高速发展，传统路由转发算法越来越难以满足用户高度差异化的服务质量需求，而人工智能技术的蓬勃发展，智能路由技术也处于飞速发展阶段。强化学习作为人工智能的重要分支，在解决和环境交互过程中的自主决策和控制问题上发挥了自身重大优势与潜力。有学者通过将强化学习中的传统Q学习算法运用到具有不规则、不对称的网络负载求解(F.Li,X.Song,H.Chen,X.Li，Y.Wang.HierarchicalRouting for Vehicular Ad Hoc Networks via Reinforcement Learning[J].IEEETransactions on Vehicular Technology,2019,68(2):1852-1865.)当通信网络建模更加复杂与动态时，单智能体深度强化学习方法也被应用于路由决策问题(X.Guo,H.Lin,Z.Liand M.Peng.Deep-Reinforcement-Learning-Based QoS-Aware Secure Routing forSDN-IoT.IEEE Internet of Things Journal,2020,7(7):6242-6251.)随着更多节点以及更高维度状态信息，单智能体强化学习算法复杂度过高，又有学者构建路由决策的POMDP模型，利用多智能体算法加快训练收敛速度(C.Lu,Z.Wang,W.Ding,G.Li,S.Liu andL.Cheng.MARVEL:Multi-agent reinforcement learning for VANET delayminimization[J].China Communications,2021,18(6):1-11.)。目前关于无人机集群网络智能多跳路由研究初具规模但尚不成熟，例如难以有效的降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化所导致的时延。

发明内容

本发明的目的在于提供一种收敛速度更快、性能更优的基于多智能体协作的无人机集群网络智能多跳路由方法，以降低无人飞行器集群网络由于节点高速移动、拓扑频繁变化导致的时延，在实际应用场景中快速学习到最优策略以及提高训练稳定性，实现无人机集群网络低时延通信需求。

实现本发明目的的技术解决方案为：一种基于多智能体协作的无人机集群网络智能多跳路由方法，包括以下步骤：

步骤1、每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互；

步骤2、每个时隙无人机节点与邻居节点交互获取局部观测，结合历史交互信息作为输入，通过评估网络输出各个动作Q值，再根据行为策略生成相关动作；

步骤3、无人机根据相关动作选择中继节点，得到环境反馈的全局奖励；

步骤4、当前时隙结束后，地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数，进行梯度计算与反传，并对各无人机节点评估网络进行更新；

步骤5、当未达到时间限制时，返回步骤2，否则转步骤6进入实施阶段；

步骤6、在实施阶段，由每个无人机根据自身已经收敛的最优策略π*进行路由选择。

本发明与现有技术相比，其显著优点为：(1)相比于集中式算法，基于多智能体学习的价值分解网络(Value-Decomposition Networks，VDN)的路由算法有效降低了计算复杂度，提高了算法的可拓展性；(2)相较于传统独立多智能体强化学习算法(IndependentQ-Learning，IQL)，基于VDN的路由算法考虑到了无人机节点之间存在的合作关系，通过让多智能体间相互协作来实现全局目标，缓解传统独立多智能体学习方法的非平稳训练问题。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于多智能体协作的无人机集群网络智能多跳路由方法流程图。

图2为本发明实施例的无人机网络系统模型示意图。

图3为本发明实施例中无人机网络的累积奖励随时隙的变化图。

图4为本发明实施例中无人机网络的平均时延随时隙数的变化图。

图5为本发明实施例中无人机网络平均时延与传统路由算法在不同数据包负载数目下的比较图。

具体实施方式

在考虑无人机集群网络中节点高速移动，拓扑变化频繁，本发明将多智能体学习的价值分解网络(Value-Decomposition Networks，VDN)运用到无人机集群网络通信领域，减少了网络通信时延，适应部分信息交互下的拓扑以及网络负载变化。

本发明一种基于多智能体协作的无人机集群网络智能多跳路由方法，是一种集中式训练分布式执行的多智能体路由算法，结合图1，具体包括以下步骤：

步骤6、在实施阶段，由每个无人机根据自身已经收敛的最优策略π^*进行路由选择。

进一步地，将连续的训练时间离散为多个时隙，用来表示第t个时隙；假设网络中有M个无人机，用集合/>来表示。

进一步地，步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互，具体包括：

无人机自身评估网络包括三层隐含层，其中：第一层为全连接层，输入维度为无人机观测神经元个数，输出维度为自定义的隐藏层神经元个数；第二层为门控循环单元网络层，用来维护内部状态和随时间积累的观察值；第三层为全连接层，其输出维度为每个无人机动作空间大小，采用ReLU函数作为各层间的激活函数，无人机网络初始化各个相连神经元之间的权重，从而完成无人机的评估网络构建。

进一步地，步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测，结合历史交互信息作为输入，通过评估网络输出各个动作Q值，再根据行为策略生成相关动作，具体为：

(2.1)定义为联合观测集合，满足/>每个无人机i从系统环境S_t中获取的当前时刻t的观测o_i,t为：

o_i，t＝{Dst_i，t，N_i，t，dis_t}

其中Dst_i，t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码，N_i，t为当前节点i观测到的邻居节点队列大小的集合，dis_t为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合；

无人机节点i在当前时刻t的历史信息表示为：

h_i，t＝{{o_i，0，a_i，0}，{o_i，1，a_i，1}，…，{o_i，t-1，a_i，t-1}，{o_i，t，a_i，t}}

每个智能体的行为历史由过去时刻的观测和动作选择组合来组成；

(2.2)定义为联合动作集合，满足/>无人机节点i在当前时刻t能够选择的动作集合为：

其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点。

进一步地，步骤3所述的无人机根据相关动作选择中继节点，得到环境反馈的全局奖励，具体为：

定义R为联合奖励函数，表示为无人机个体奖励之和：

当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时，系统环境在t+1时刻所产生的个体奖励值r_i，t为：

当邻居节点j为当前数据包的目标节点d时，r_i，t＝C，其中C为一个常数；

当该邻居节点j的队列容量达到最大时，即当前所发送数据包无法被接收时，r_i，_t＝-C；

否则当所选择邻居节点为能够正常接收数据包的中继节点时，奖励函数为：

r_i，t＝exp(-ω₁len(queue(a_j，t))-ω₂distance(a_j，t，d))

其中len(queue(a_j，t))是所选择邻居节点自身队列大小，反映数据包的等待时延；distance(a_j，t，d)是所选择邻居节点与目标节点之间的距离，反映数据包的传输时延；ω₁，ω₂是权重系数。

进一步地，步骤4所述的当前时隙结束后，地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数，进行梯度计算与反传，并对各无人机节点评估网络进行更新，具体为：

系统的联合价值函数是由个体价值函数的线性聚合，通过对个体动作价值函数线性相加求得联合动作价值函数：

其中τ为观测与历史联合信息，a为联合动作/>w为网络参数；

由此，计算得到无人机网络的回报估计值：

U←r+γmax_aQ(τ′,a；w_目标)

其中γ为折扣因子；

通过更新参数w最小化时间差分误差：

同时，由于目标网络更新周期影响算法收敛以及最终表现性能，采用软更新的方式更新目标网络参数：

Wta_rget＝lr*W_eval+(1-lr)*W_target

其中w_eval为评估网络参数，w_target初始化为评估网络参数的拷贝，lr为学习率；

当无人机集群网络中有数据包任务待转发时，依次执行步骤1、步骤2和步骤3，在无人机策略训练阶段执行步骤4，当训练达到一定次数时，全局累积奖励收敛达到最大值，此时学习到无人机节点的最优多跳路由策略，表明每个节点在当前局部观测以及历史观测与动作下应该如何选取最优中继节点传输数据包。

实施例

本发明的一个实施例具体描述如下，仿真在操作系统为Windows 10的计算机下基于python编程，具体场景为：

将无人机集群的通信拓扑状态表示为图其中/>表示无人机节点集合，/>为边集合，边e_i,j∈ε表示无人机/>可以直接与无人机相互通信。无人机采用随机路点移动模型，图G的拓扑结构是动态变化的。每个无人机节点拥有自身的发送队列，表述为/>其中u_m＝(src_m,dst_m,L_m)为队列中第m个待发送数据包，src_m为该数据包的源节点，dst_m为该数据包的目的节点，L_m为该数据包的大小。将时间离散化为时隙t∈{1,2,…,T}，在无人机集群中，每个无人机节点既可以是发送节点也可以是接收节点，无人机节点将待发送数据包保存至发送队列中，每个时隙仅能将一个数据包转发给其邻居节点，若超出节点队列大小，邻居节点会丢弃该数据包。在初始化阶段，随机生成k个数据包，具有随机的源节点以及目标节点并分发至对应源节点，后续仿真过程中不产生额外数据包，当完成所有数据包转发或者达到最大仿真时隙时，仿真结束，系统模型如图2所示。具体仿真参数如表1所示：

表1网络中主要仿真参数示意表

通信区域	300m×300m
		无人机节点数	10个
无人机速度	[2m/s,5m/s]
		通信范围	130m
数据包数目k	100-180个
		节点存储容量	20个数据包

如图3所示，在训练初期由于训练不足，平均累计奖励较低，随着时隙的增加，平均累计奖励逐渐增加并收敛，进一步地可以观察到，基于VDN算法在平均累计奖励收敛速度以及收敛值性能由于其他智能算法。

如图4所示，基于软更新的VDN算法平均时延性能明显优于其他智能算法，验证了所提方案的优越性。此性能优势的原因可以归结为以下两个方面：1、基于VDN的路由方法性能表现强于基于IQL的路由方法，这是由于采用全局奖励更新独立的智能体网络造成严重的非平稳现象，导致算法的收敛遇到困难；2、基于软更新的VDN路由算法自适应调节目标网络参数，解决传统VDN算法中目标网络周期性的更新影响收敛效果的问题。

由图5可知，当对无人机网络拓扑采用动态迪杰斯特拉最短路径算法时，在初始化网络负载较小时，动态迪杰斯特拉最短路径算法反而取得了相较于基于软更新的VDN路由算法更好的性能，这是由于基于VDN路由算法充分考虑了网络的等待时延所可能造成的影响而选择绕过较为拥挤的节点，而在负载较小的情况下，数据包只需要按照最短路径传输数据包极可以达到较好的性能，选择绕开拥挤节点反而造成了时延上的增加；但随着初始化网络负载的水平的增加，动态迪杰斯特拉最短路径算法的时延呈指数型上升，而基于VDN路由算法能够很好地绕开拥挤节点，平均网络负载，达到更好的时延性能。

综上所述，本发明将多智能体学习的价值分解网络(Value-DecompositionNetworks，VDN)运用到无人机集群网络通信领域，降低网络通信时延，适应部分信息交互下的拓扑以及网络负载变化。

Claims

1.一种基于多智能体协作的无人机集群网络智能多跳路由方法，其特征在于，包括以下步骤：

步骤6、在实施阶段，由每个无人机根据自身已经收敛的最优策略π^*进行路由选择；

将连续的训练时间离散为多个时隙，用来表示第t个时隙；假设网络中有M个无人机，用集合/>来表示；

步骤1所述每个无人机初始化自身评估网络并周期性与邻居节点进行信息交互，具体包括：

无人机自身评估网络包括三层隐含层，其中：第一层为全连接层，输入维度为无人机观测神经元个数，输出维度为自定义的隐藏层神经元个数；第二层为门控循环单元网络层，用来维护内部状态和随时间积累的观察值；第三层为全连接层，其输出维度为每个无人机动作空间大小，采用ReLU函数作为各层间的激活函数，无人机网络初始化各个相连神经元之间的权重，从而完成无人机的评估网络构建；

步骤2所述每个时隙无人机节点与邻居节点交互获取局部观测，结合历史交互信息作为输入，通过评估网络输出各个动作Q值，再根据行为策略生成相关动作，具体为：

o_i,t＝{Dst_i,t,N_i,t,dis_t}

其中Dst_i,t为当前无人机节点i在当前时刻t所发数据包的目标节点的独热编码，N_i,t为当前节点i观测到的邻居节点队列大小的集合，dis_t为当前节点i根据网络中其它节点所发送的GPS信息计算得到的与其它节点之间距离的集合；

无人机节点i在当前时刻t的历史信息表示为：

h_i,t＝{{o_i,0,a_i,0},{o_i,1,a_i,1},…,{o_i,t-1,a_i,t-1},{o_i,t,a_i,t}}

其中Neighbour(i)指当前无人机节点i的通信范围内邻居节点；

步骤3所述的无人机根据相关动作选择中继节点，得到环境反馈的全局奖励，具体为：

定义R为联合奖励函数，表示为无人机个体奖励之和：

当无人机节点i在选择自身的邻居节点j作为下一跳节点并完成数据包传输时，系统环境在t+1时刻所产生的个体奖励值r_i,t为：

当邻居节点j为当前数据包的目标节点d时，r_i,t＝C，其中C为一个常数；

当该邻居节点j的队列容量达到最大时，即当前所发送数据包无法被接收时，r_i,t＝-C；

r_i,t＝exp(-ω₁len(queue(α_j,t))-ω₂distance(a_j,t,d))

其中len(queue(a_j,t))是所选择邻居节点自身队列大小，反映数据包的等待时延；distance(a_j,t,d)是所选择邻居节点与目标节点之间的距离，反映数据包的传输时延；ω₁，ω₂是权重系数；

步骤4所述的当前时隙结束后，地面控制站通过对当前时隙收集的无人机的个体动作价值函数得到联合价值函数，进行梯度计算与反传，并对各无人机节点评估网络进行更新，具体为：

其中τ为观测与历史联合信息，a为联合动作/>w为网络参数；

由此，计算得到无人机网络的回报估计值：

U←r+γmax_aQ(τ′,a；w_目标)

其中γ为折扣因子；

通过更新参数w最小化时间差分误差：

w_target＝lr*w_eval+(1-lr)*w_target