CN113645589B

CN113645589B - 一种基于反事实策略梯度的无人机集群路由计算方法

Info

Publication number: CN113645589B
Application number: CN202110774836.7A
Authority: CN
Inventors: 姚海鹏; 王尊梁; 买天乐; 忻向军; 张尼; 韩宝磊; 江亮
Original assignee: Beijing University of Posts and Telecommunications; 6th Research Institute of China Electronics Corp
Current assignee: Beijing University of Posts and Telecommunications; 6th Research Institute of China Electronics Corp
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2024-05-17
Anticipated expiration: 2041-07-09
Also published as: CN113645589A

Abstract

本发明公开一种基于反事实策略梯度的无人机集群路由计算方法，包括采用一种COMA动态自适应的强化学习算法，所述COMA算法采用了“集中式训练‑分布式执行”的混合架构。能够有效针对网络节点动态性高、网内流量波动性大的路由场景，COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡，进而实现高效而稳定的智能路由策略；能够更好地动态调正路由策略，实现对网络状态的全局最优响应。关于数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点的设计，该设计不仅解决了多智能体环境下动作空间较大的问题，还提高了算法的稳定性，一定程度上减少了节点移动性对训练造成的干扰。

Description

一种基于反事实策略梯度的无人机集群路由计算方法

技术领域

本发明涉及无人机技术领域，尤其涉及一种基于反事实策略梯度的无人机集群路由计算方法。

背景技术

对于网络路由问题而言，其根本任务是向用户提供端到端的服务质量保证。对此，如何权衡路由方法的性能与开销是其中的核心科学问题。此外，网络流量的波动性、节点的动态性也对路由算法的鲁棒性提出了较高的挑战。

因此仅从路由方法的核心思路出发，介绍与本方案最相关的背压路由方法与Q-routing路由方法，包括：

1)背压路由的核心思路在于将缓存队列应用于网内设备，并使用Lyapunovoptimization优化方法对设备的缓存队列进行最优控制，形成高效的拥塞控制方法。通俗来讲，“背压”(back pressure)即在网内多跳传输数据包的场景下，通过衡量相邻节点之间缓存队列的拥塞梯度差(队列长度差)，选择最优的下一跳节点，以完成动态路由转发过程。由于其基于“最大化拥塞梯度差”进行拥塞控制的传输特点，背压算法在高网络负载情况下具有高吞吐量的优良特征。

2.Q-routing算法基于经典的Q值强化学习方法，并创新性地将其与路由相结合，形成了具备细粒度的流量感知能力的高效路由智能算法。Q-routing将网络内各节点视为分布式的智能体，通过将端到端传输时间抽象为q值，并借助q值决策数据包每跳的节点间传输过程，来自适应地避免网络拥塞的产生，形成较低端到端延迟的健壮性智能路由方法。其核心单步更新公式如下:

Q_x(s，a)＝(1-η)Q_x(s，a)+η·[r(s，a)+t_as]

3.最后，在经典算法中还存在着以Dijkstra算法、Bellman-Ford算法为代表的基于最短路径的路由算法，均是以带宽和跳数进行路由的选择和收敛。

考虑到现有的智能路由方法应用场景大多为固定的静态拓扑结构，而动态性网络节点的高效路由方法仍然有待探索。

发明内容

本方案提出了一种基于反事实策略梯度的无人机集群路由计算方法，用于在通过其集中式训练分布式执行的混合架构，在高动态节点的网络环境中形成鲁棒且稳定的高效路由方法。

一种基于反事实策略梯度的无人机集群路由计算方法，包括采用一种COMA动态自适应的强化学习算法，所述COMA算法采用了“集中式训练-分布式执行”的混合架构，所有智能体共享一个联合的critic network，并分别维护一个actor network并只基于在路由中进行局部观察。

COMA算法通过比较智能体遵循当前actor network进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报，用以解决多智能体信用分配问题，其信用分配机制的核心更新公式如下:

其中，Q(s,u)代表所有智能体在当前状态下基于联合动作u的整体Q值，而后一项通过求加权平均的方式，计算了智能体a进行所有动作的“平均效用值”(权重即为当前智能体a对应各个行为的概率，由该智能体维护的actor网络提供)，用该值来近似代替智能体a的“默认效用值”；因此，前后两项相减的意义在于:在全局的整体Q值中，用于探索智能体a的独立回报值。

进一步地，结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式；因此，对于各无人机在每个训练步骤中进行的路由转发过程，主要由三部分构成:

1)状态值:[当前数据包终点{区域id+节点id}|当前节点{区域id+节点id}|当前节点缓存]；

2)动作值:[下一跳节点的区域id](在传输范围内，可选区域即当前区域与相邻区域)；

3)单步奖励:t1*(当前节点缓存-下一跳区域平均缓存)+t2*(下一跳离终点更近/更远)；

进一步地，对于无人机每个训练步骤中的动作选择，数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点。

本发明的有益效果包括：

1)能够有效针对网络节点动态性高、网内流量波动性大的路由场景，COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡，进而实现高效而稳定的智能路由策略；能够更好地动态调正路由策略，实现对网络状态的全局最优响应。

2)关于数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点的设计，该设计不仅解决了多智能体环境下动作空间较大的问题，还提高了算法的稳定性，一定程度上减少了节点移动性对训练造成的干扰。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1为本发明涉及的一种基于反事实策略梯度的无人机集群路由计算方法的核心算法流程图；

图2为本发明中3D空间中移动性较高的无人机群场景示意图；

图3为本发明中围绕网络平均生存时间的技术效果直观分析图；

图4为本发明中围绕数据包的成功传输比率的技术效果直观分析图；

图5为本发明中围绕累计奖励值曲线的技术效果直观分析图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1所示，一种基于反事实策略梯度的无人机集群路由计算方法，包括采用一种COMA动态自适应的强化学习算法，所述COMA算法采用了“集中式训练-分布式执行”的混合架构，所有智能体共享一个联合的critic network，并分别维护一个actor network并只基于在路由中进行局部观察。

请参阅图2所示，将正方体环境基于空间分布划分为8个区域，并为每个区域至少部署1个无人机，本场景中共10架无人机。认为区域0、区域2、区域4和区域6的无人机处于悬停状态，而其他6架无人机处于移动状态，这样的设计在保证算法稳定的前提下对环境的动态性进行了最大化。设置每轮训练时，各无人机已经预先缓存10个数据包，并且每个单步训练都会对各无人机生成随机终点的1个新数据包，认为单轮结束条件为达到最大轮次数值或某无人机的缓存占用满，即发生网络拥塞。

对上文所述的场景与算法模型，我们围绕网络平均生存时间、数据包成功传输比率、平均累计奖励值这三个方面因素进行了技术效果的直观分析。

请参阅图3所示，随着训练轮次的提高，虽然COMA算法的平均生存时间无法达到背压路由的40个step，但其最终仍可以达到约34个step，而随机方法的平均生存时间仅可达到约30个step。

请参阅图4所示，在上述流量压力较大的场景下，COMA算法最终传输比率可达到16％，远高于背压路由的9％与随机方法的8％。

请参阅图5所示，可以看到，针对上述复杂场景，COMA算法的奖励函数曲线的收敛值是三个方法中最高的。

综合分析上述三方面，可以得出以下结论:针对上述网络节点动态性高、网内流量波动性大的路由场景，COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡，进而实现高效而稳定的智能路由策略。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于反事实策略梯度的无人机集群路由计算方法，包括采用一种COMA动态自适应的强化学习算法，其特征在于：所述COMA算法采用了“集中式训练-分布式执行”的混合架构，所有智能体共享一个联合的critic network，并分别维护一个actor network并只基于在路由中进行局部观察；

其中，Q(s,u)代表所有智能体在当前状态下基于联合动作u的整体Q值，而后一项通过求加权平均的方式，计算了智能体a进行所有动作的“平均效用值”，用该值来近似代替智能体a的“默认效用值”；因此，前后两项相减的意义在于:在全局的整体Q值中，用于探索智能体a的独立回报值；

结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式；因此，对于各无人机在每个训练步骤中进行的路由转发过程，主要由三部分构成:

3)单步奖励:t1*(当前节点缓存-下一跳区域平均缓存)+t2*(下一跳离终点更近/更远)。

2.根据权利要求1所述一种基于反事实策略梯度的无人机集群路由计算方法，其特征在于，对于无人机每个训练步骤中的动作选择，数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点。