CN113495578A

CN113495578A - 一种基于数字孪生式训练的集群航迹规划强化学习方法

Info

Publication number: CN113495578A
Application number: CN202111041443.1A
Authority: CN
Inventors: 雷磊; 沈高青; 蔡圣所; 宋晓勤; 张莉涓; 朱晓浪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-12
Anticipated expiration: 2041-09-07
Also published as: CN113495578B

Abstract

本发明公开了一种基于数字孪生式训练的集群航迹规划强化学习方法，该方法将无人机集群航迹规划问题的状态空间进行分类，并设计相应的子Actor网络用于处理不同类别的状态信息。为了驱动集群更好的完成航迹规划任务，该方法设计了五种不同的奖励信号，最终的奖励函数是五种奖励信号的线性耦合。同时，该方法设计了一种基于数字孪生的无人机集群航迹规划深度强化学习方法的仿真训练体系架构，构建无人机集群数字孪生系统；深度强化学习方法运行于孪生决策模型中，并利用集群孪生仿真模型和孪生连接通道，进行深度强化学习网络模型的训练和部署。本发明的仿真结果证明了该方法的有效性。

Description

一种基于数字孪生式训练的集群航迹规划强化学习方法

技术领域

本发明属于无人机集群航迹规划领域，特别涉及基于数字孪生式训练的集群航迹规划强化学习方法。

背景技术

过去的十年里，无人机在航空摄影、搜索和救援、目标跟踪、森林防火、人群监控和农业喷洒等诸多军事和民用领域得到了广泛应用。如果有多架无人机以集群的方式协同工作，可以更加高效的执行这些任务。对于无人机集群系统而言，而无人机集群航迹规划是实现多无人机协同的重要前提，一组无人机以集群的方式自主的从起点运动到终点。

传统的集群航迹规划方法大多是基于控制理论的。这些算法通常是针对特定场景设计的，当场景发生变化时，它们的性能会迅速下降。并且，这些算法通常假设环境信息对所有无人机都可用，这在现实世界中是不实际的。

近年来，机器学习（Machine Learning，ML），特别是深度学习（Deep Learning,DL）随着计算能力的增长，越来越多地被用于解决一些复杂问题，为无人机集群航迹规划问题提供了另一种解决方案。强化学习（Reinforcement Learning, RL）作为一种机器学习方法，适用于处理序列决策问题。最近，结合DL和RL的深度强化学习（Deep ReinforcementLearning, DRL）的出现，极大地提高了RL解决大规模复杂问题的能力，并在围棋等游戏领域取得了巨大成功。

集群航迹规划问题和游戏问题一样，也是一个顺序决策问题。然而，由于航迹规划问题的部分可观测性，如何利用深度强化学习实现无人机集群航迹规划仍然存在诸多困难。本发明即在上述背景下展开。同时，由于非线性和不确定因素的影响，很难为集群航迹规划问题建立高保真的仿真环境。在仿真环境中，从DRL方法中学习到的策略不能直接部署在现实世界的无人机上。其次，如果使用真实世界的无人机来训练DRL模型，由于数据采集效率低下，训练速度缓慢，仿真与现实之间的差异问题限制了DRL在集群航迹规划问题中的应用。

为了解决上述问题，我们将注意力转向数字孪生（Digital Twin, DT）技术。DT是真实世界中的物理模型在信息域中的高保真镜像，根据历史数据、传感器数据及时反映真实世界的状态变化。DT已广泛应用于智能城市、智能制造和健康管理。借助DT，机器学习方法可以很容易地获得真实世界的高保真状态信息，用于模型训练。然而，如何将DT应用于无人机集群航迹规划的DRL训练体系架构尚未有人研究。

发明内容

本发明的目的是针对无人机集群航迹规划问题，提出一种基于数字孪生式训练的集群航迹规划强化学习方法，从而有效提高无人机集群自主航迹规划的能力。为了实现该目的，本发明公开了一种基于数字孪生式训练的集群航迹规划强化学习方法，所采用的步骤是：

步骤1：构建无人机集群航迹规划问题的状态空间和动作空间，状态空间由三部分组成，包括目标位置状态信息，障碍物位置状态信息和邻居节点状态信息；动作空间为无人机的速度大小和方向；

步骤2：设计无人机集群航迹规划问题深度强化学习方法的奖励函数，奖励函数包括五部分，分别为无人机接近目标奖励，无人机与障碍物之间的防碰撞奖励，无人机与邻居节点之间的协同奖励，无人机的运动奖励以及边界奖励，最终的奖励函数为上述五者的线性耦合；

步骤3：设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构，深度强化学习网络采用Actor-Critic网络架构，其中Actor网络分为4个子网络，分别是前进子网络，协同子网络，避障子网络和耦合子网络；

步骤4：搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构，无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道，无人机集群航迹规划深度强化学习方法运行于孪生决策模型中，并利用孪生物理实体、孪生仿真模型和孪生连接通道，进行深度强化学习模型的训练和部署。

进一步，构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为：

无人机i在第t个时间步长内的观测信息由三部分组成，第一部分是目标位置状态信息，为了削弱模型对目标绝对位置的敏感性，本发明采用了相对位置{G - u_i,t}代替了目标的绝对位置，同理，在第二部分和第三部分的观测信息中也采用了这个方法；第二部分是障碍物位置状态信息，假设无人机感知范围内存在障碍物，则无人机i在第t个时间步长内的障碍物位置观测信息为｛o₁ - u_i,t, o₂ - u_i,t, …, o_k - u_i,t}；第三部分是邻居节点观测信息，无人机i在第t个时间步长内的邻居节点观测信息表示为{u_1,t - u_i,t, u_2,t - u_i,t,…, u_j,t - u_i,t}，这里

，

表示无人机i的邻居节点集；综上，无人机i在第t个时间步长内的状态空间表示为s _i,t = {G - u_i,t, o₁ - u_i,t, o₂ - u_i,t, …, o_k - u_i,t, u_1,t -u_i,t, u_2,t - u_i,t, …, u_j,t - u_i,t}；

为了使无人机的飞行轨迹更加平滑，采用了连续动作空间，无人机i在第t个时间步长内动作空间表示为a _i,t = {v, θ}，其中v表示速度的大小，范围从v _min到v _max，θ表示速度的方向，该方向受无人机的最大转向角限制。

进一步，设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为：

（1）接近目标奖励：该奖励用于引导无人机朝向目标方向，其基本思想是，在一个时间步长内，朝向目标方向的移动距离尽可能大，因此，无人机i在第t个时间步长内接近目标的奖励定义为：

(1)

其中，ω _appro是一个正常数；

（2）防碰撞奖励：此奖励用于引导无人机与障碍物和邻居保持安全距离，无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为：

(2)

这里，

(3)

(4)

其中，ω _obs和ω _nei表示正常数，d ₃表示无人机与障碍物之间的安全距离，d ₁表示为无人机与邻居之间的安全距离，

表示障碍物集合；

（3）协同奖励：该奖励用于引导无人机与邻居保持连通性，以便在集群运动过程中建立更好的协同效果，无人机i在第t个时间步长内与邻居协同的奖励定义为：

(5)

其中，d ₂表示无人机的通信距离，ω _connec表示一个正常数；

（4）运动奖励：该奖励用于引导无人机用更少的时间完成集群航迹规划任务，无人机i在第t个时间步长内的运动奖励定义为：

(6)

其中ω _step表示一个正常数；

（5）边界奖励：该奖励用于引导无人机避免距离边界太近，无人机i在第t个时间步长内的边界奖励定义为：

(7)

其中ω _hor和ω _ver为正常数，d _hor和d _ver为无人机到水平和垂直边界的最小距离，当它们大于边长的0.05倍时，设置为零；

综上，无人机i在第t个时间步长内的整体奖励函数定义为：

(8)。

进一步，设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为：

BCDDPG使用Actor-Critic网络架构，其中，Actor网络直接输出预期动作， Critic网络近似动作值函数，用于评估Actor网络输出动作的质量；

BCDDPG的Actor网络由多个子网络组成，对于集群航迹规划问题而言，无人机的状态信息s可以分为以下三类：

（1）当前时间步长内目标的相对位置，表示为s _f；

（2）当前时间步长内其邻居节点的相对位置，表示为s _c；

（3）当前时间步长内的障碍物的相对位置，表示为s _o；

BCDDPG使用三个不同的子Actor网络来处理三类状态信息，子Actor网络1、2和3分别采用s _f、s _c和s _o作为输入，并输出对应的子动作a _f、a _c和a _o；同时，子Actor网络中采用了Long-Short Term Memory神经网络处理状态信息，以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测；子Actor网络4将状态s，子动作a _f、a _c和a _o联立组成一个新向量作为输入，并输出最终动作a。

进一步，搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为：

（1）、搭建孪生物理实体：由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体，无人机在计算和存储方面受到资源限制，无法高效率的完成DRL模型的训练，每架无人机配备多个传感器，能实时感知环境状态；

搭建孪生仿真模型：中央服务器利用从真实世界接收的数据，通过仿真和建模，建立无人机集群系统的高保真孪生仿真模型，中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型，孪生仿真模型可获得全局状态信息，用于提高DRL算法的训练速度和有效性；

搭建孪生决策模型：DRL算法部署在孪生决策模型中，用于为集群航迹规划问题提供决策服务，孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息，并利用中央服务器强大的计算性能，实时输出无人机集群航迹规划问题的控制策略，DRL算法在执行阶段可借助孪生仿真模型不断更新和改进，实现DRL算法的持续进化；

搭建孪生连接通道：孪生连接通道是连接物理域和信息域的桥梁，二者之间可以通过4G/5G、移动AP或卫星等方式建立通信链路，孪生连接通道是双向的，一方面，孪生物理实体将传感器数据传输到中央服务器，用于孪生仿真模型构建，另一方面，中央服务器将DRL算法生成的控制策略输出到孪生物理实体，用于指导无人机集群运动，一旦DRL算法完成训练阶段，可借助孪生连接通道快速部署到现实世界的多无人机系统中，并以分布式方式执行；

（2）、借助于无人机集群数字孪生系统，无人机集群航迹规划深度强化学习方法采用“集中式训练，分布式执行，持续进化”的方式实现模型的快速训练和部署；

在训练阶段，孪生物理实体上的高精度传感器采集环境状态信息，通过孪生连接通道将数据传输至孪生仿真模型；孪生仿真模型根据采集到的环境状态信息更新自身状态，并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练；孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练；

在执行阶段，孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上；孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务；同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练，并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上，实现深度强化学习方法的持续进化。

附图说明

图1是本发明提出的无人机集群数字孪生系统框图；

图2是本发明提出的基于数字孪生的深度强化学习分布式决策框架图；

图3是本发明提出的深度强化学习方法的网络架构图；

图4是集群规模为6时本发明与现有方法的仿真结果对比图；

图5是集群规模为9时本发明与现有方法的仿真结果对比图；

图6是集群规模为12时本发明与现有方法的仿真结果对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

在后面的叙述中，本说明书将本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法简记为BCDDPG（Behavior Coupling Deep Deterministic PolicyGradient）。

BCDDPG首先设定了以下运行条件：

1、考虑任务区域大小为L _x×L _y，任务区域中存在N架无人机、M个障碍物和一个目标，每个无人机都配备有定位设备，并知道自己的位置；无人机之间可以通过无线收发器进行通信，以交换位置和速度等信息；

2、无人机集群在t时刻的位置和速度表示为U_t = (u_1,t, u_2,t, u_3,t … u_N,t)和V_t =(v_1,t, v_2,t, v_3,t … v_N,t)；同样，障碍物和目标的位置表示为O = (o₁, o₂, o₃ … o_M)和G；根据预设分布，无人机集群初始位置位于起始点，并打算沿实时规划轨迹移动到目标点；障碍物在任务区域中随机分布；一旦无人机与障碍物之间的距离小于感知距离，无人机就可以通过传感器确定障碍物的位置；

3、为了满足RL的要求，采用了离散时间尺度；即无人机在每个时间步长决策一次，确定下一时间步长的速度。

以上述条件为基础，本发明提出的BCDDPG已经在Linux操作系统Ubuntu中获得了实现，仿真结果证明了该方法的有效性。BCDDPG的具体实施步骤为：

步骤1：构建无人机集群航迹规划问题的状态空间和动作空间。状态空间由三部分组成，包括目标位置状态信息，障碍物位置状态信息和邻居节点状态信息；动作空间为无人机的速度大小和方向。

在经典RL中，要解决的问题通常被描述为马尔可夫决策过程（Markov DecisionProcess, MDP）。MDP必须满足马尔可夫性，即智能体的下一个状态仅取决于智能体的当前状态和智能体选择的动作。如果认为无人机看作智能体，则无人机集群航迹规划问题也满足马尔可夫特性。无人机的下一个状态仅取决于当前状态和无人机选择的动作。因此，我们可以使用RL来解决无人机集群航迹规划问题。

对于MDP问题而言，状态信息通常指智能体所处状态的所有可能性。然而，在无人机集群航迹规划场景中，由于传感器和通信的限制，每个无人机无法感知环境的全部信息。实际上，它是一个部分可观测马尔可夫决策过程（Partial Observation Markov DecisionProcess, POMDP）。无人机i在第t个时间步长内的观测信息由三部分组成。第一部分是目标位置状态信息。为了削弱模型对目标绝对位置的敏感性，本发明采用了相对位置{G - u_i,t}代替了目标的绝对位置，同理，在第二部分和第三部分的观测信息中也采用了这个方法。第二部分是障碍物位置状态信息。假设无人机感知范围内存在障碍物，则无人机i在第t个时间步长内的障碍物位置观测信息为｛o₁ - u_i,t, o₂ - u_i,t, …, o_k - u_i,t}。第三部分是邻居节点观测信息。无人机i在第t个时间步长内的邻居节点观测信息表示为{u_1,t - u_i,t,u_2,t - u_i,t, …, u_j,t - u_i,t}，这里

，

表示无人机i的邻居节点集。综上，无人机i在第t个时间步长内的状态空间表示为s _i,t = {G - u_i,t, o₁ - u_i,t, o₂ - u_i,t, …, o_k -u_i,t, u_1,t - u_i,t, u_2,t - u_i,t, …, u_j,t - u_i,t}。

为了使无人机的飞行轨迹更加平滑，本发明采用了连续动作空间。无人机i在第t个时间步长内动作空间表示为a _i,t = {v, θ}，其中v表示速度的大小，范围从v _min到v _max，θ表示表示速度的方向，该方向受无人机的最大转向角限制。

步骤2：设计无人机集群航迹规划问题深度强化学习方法的奖励函数。奖励函数包括五部分，分别为无人机接近目标奖励，无人机与障碍物之间的防碰撞奖励，无人机与邻居节点之间的协同奖励，无人机的运动奖励以及边界奖励，最终的奖励函数为上述五者的线性耦合。

奖励信号会加强智能体的行为。一个好的奖励函数可以缩短算法的收敛时间。对于无人机集群航迹规划任务而言，其主要目的包括三个方面：尽快到达目标，不与障碍物和邻居发生碰撞，与邻居保持适当的距离。基于上述目的，奖励函数定义如下：

（1）接近目标奖励：该奖励用于引导无人机朝向目标方向。其基本思想是，在一个时间步长内，朝向目标方向的移动距离尽可能大。因此，无人机i在第t个时间步长内接近目标的奖励定义为：

(1)

其中，ω _appro是一个正常数。

（2）防碰撞奖励：此奖励用于引导无人机与障碍物和邻居保持安全距离。无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为：

(2)

这里，

(3)

(4)

表示障碍物集合。

（3）协同奖励：该奖励用于引导无人机与邻居保持连通性，以便在集群运动过程中建立更好的协同效果。无人机i在第t个时间步长内与邻居协同的奖励定义为：

(5)

其中，d ₂表示无人机的通信距离，ω _connec表示一个正常数。

(6)

其中ω _step表示一个正常数。

(7)

其中ω _hor和ω _ver为正常数，d _hor和d _ver为无人机到水平和垂直边界的最小距离，当它们大于边长的0.05倍时，设置为零。

综上，无人机i在第t个时间步长内的整体奖励函数定义为：

(8)。

步骤3：设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构。深度强化学习网络采用Actor-Critic（演员-评论家）网络架构，其中Actor网络分为4个子网络，分别是前进子网络，协同子网络，避障子网络和耦合子网络。

对于传统的无模型RL方法，动作值函数通常存储在Q表中。然而，Q表的使用决定了这些方法只能解决离散和低维状态和动作空间的问题。最近，人们将DL和RL结合起来，产生了深度Q网络（DQN）算法，该算法使用Q网络来近似连续状态空间的作用值函数。虽然Q网络的使用使DQN能够解决高维状态空间的问题，但它只能处理离散的低维动作空间。深度确定性策略梯度法（Deep Deterministic Policy Gradient, DDPG）是一种直接输出动作而不是输出动作值函数的深度强化学习方法，能够处理连续动作空间问题。本发明在DDPG的基础上提出了一种新的DRL方法称为BCDDPG来解决具有连续动作空间的集群航迹规划问题。

附图2展示了数字孪生驱动下的BCDDPG算法架构。每个智能体都有自己的孪生决策模型。孪生决策模型使用从孪生仿真模型中提取状态信息作为输入，并将下一个时间步要执行的动作输出到孪生仿真模型。BCDDPG的孪生决策模型使用Actor-Critic网络架构。

BCDDPG使用Actor网络直接输出预期动作，而不是使用Q网络输出所有可能动作（如DQN）的动作值。Actor网络在当前状态和特定动作之间建立映射，从而使BCDDPG能够处理连续动作空间。也就是说，Actor网络就是策略网络。由于输出动作在每个时间步都是确定性的，随机策略就变成了确定性策略，这也解释了BCDDPG中“确定性”的含义。为了训练Actor网络，BCDDPG采用Critic网络来近似动作值函数。Critic网络用于评估Actor网络输出动作的质量。

BCDDPG的Actor网络由多个子网络组成。对于集群航迹规划问题而言，无人机的状态信息s可以分为以下三类：

（1）目标在当前时间步长内的相对位置，决定了无人机在下一时间步长内的主要前进方向，表示为s _f；

（2）当前时间步长内其邻居节点的相对位置，表示为s _c。它决定了无人机是否应靠近其邻居以避免落后，或远离其邻居以避免碰撞，并驱动无人机尽可能与邻居保持一致的速度；

（3）当前时间步长内的障碍物的相对位置，表示为s _o，决定了无人机是否应远离障碍物以避免碰撞。

无人机的最终行为取决于这三类状态信息的综合影响。在集群运动过程中，每一类状态信息的影响权重是时变的。如果直接将所有的状态信息输入到一个Actor网络中，很难正确区分它们并输出最佳的策略。事实上，无人机的最终行为可以看作前进行为、协同行为和避障行为三种行为的耦合。如附图3所示，BCDDPG使用三个不同的子Actor网络来处理三类状态信息。子Actor网络1、2和3分别采用s _f、s _c和s _o作为输入，并输出对应的子动作a _f、a _c和a _o。同时，子Actor网络中采用了长短期记忆（Long-Short Term Memory, LSTM）神经网络处理状态信息，以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测。子Actor网络4将状态s，子动作a _f、a _c和a _o联立组成一个新向量作为输入，并输出最终动作a。这种先分解后耦合的方法可以帮助Actor网络结构更好地了解无人机的环境状态，从而生成更高质量的策略。

为了支持DRL算法的有效训练，并为集群航迹规划问题提供实时智能决策能力，本发明提出了一种基于数字孪生的集群航迹规划深度强化学习方法的仿真训练体系架构。该体系架构是借助于无人机集群数字孪生系统实现的。如附图1所示，无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道。

本发明搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为：

本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法的性能已经在Linux操作系统Ubuntu中进行了仿真验证。仿真实验中采用相对大小描述任务区域、无人机、目标位置和障碍物之间的比例关系。任务区域的范围设置为[-1, 1]，无人机的尺寸设置为0.01，目标尺寸设置为0.05，障碍物的尺寸在范围[0.10, 0.15]内随机分布。无人机集群的任务是以协同运动的方式从起点移动到目标点，同时避免与障碍物碰撞。在每一个幕内，无人机的最大移动步长为150，步长大小为1s，强化学习整个训练过程包含2×10⁶步。附图4、5、6给出了在集群规模（即无人机节点数量）分别为6、9和12时，本发明提出的无人机集群航迹规划深度强化学习方法的训练结果与现有的强化学习方法训练结果的对比。由附图4、5、6所示的仿真结果可以看出，本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法相较于现有的无人机集群航迹规划方法可以获得更好的协同效果。

本发明中未作详细描述的内容属于本领域专业技术人员公知的现有技术。