CN113495578A - 一种基于数字孪生式训练的集群航迹规划强化学习方法 - Google Patents

一种基于数字孪生式训练的集群航迹规划强化学习方法 Download PDF

Info

Publication number
CN113495578A
CN113495578A CN202111041443.1A CN202111041443A CN113495578A CN 113495578 A CN113495578 A CN 113495578A CN 202111041443 A CN202111041443 A CN 202111041443A CN 113495578 A CN113495578 A CN 113495578A
Authority
CN
China
Prior art keywords
twin
unmanned aerial
aerial vehicle
cluster
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111041443.1A
Other languages
English (en)
Other versions
CN113495578B (zh
Inventor
雷磊
沈高青
蔡圣所
宋晓勤
张莉涓
朱晓浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111041443.1A priority Critical patent/CN113495578B/zh
Publication of CN113495578A publication Critical patent/CN113495578A/zh
Application granted granted Critical
Publication of CN113495578B publication Critical patent/CN113495578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于数字孪生式训练的集群航迹规划强化学习方法,该方法将无人机集群航迹规划问题的状态空间进行分类,并设计相应的子Actor网络用于处理不同类别的状态信息。为了驱动集群更好的完成航迹规划任务,该方法设计了五种不同的奖励信号,最终的奖励函数是五种奖励信号的线性耦合。同时,该方法设计了一种基于数字孪生的无人机集群航迹规划深度强化学习方法的仿真训练体系架构,构建无人机集群数字孪生系统;深度强化学习方法运行于孪生决策模型中,并利用集群孪生仿真模型和孪生连接通道,进行深度强化学习网络模型的训练和部署。本发明的仿真结果证明了该方法的有效性。

Description

一种基于数字孪生式训练的集群航迹规划强化学习方法
技术领域
本发明属于无人机集群航迹规划领域,特别涉及基于数字孪生式训练的集群航迹规划强化学习方法。
背景技术
过去的十年里,无人机在航空摄影、搜索和救援、目标跟踪、森林防火、人群监控和农业喷洒等诸多军事和民用领域得到了广泛应用。如果有多架无人机以集群的方式协同工作,可以更加高效的执行这些任务。对于无人机集群系统而言,而无人机集群航迹规划是实现多无人机协同的重要前提,一组无人机以集群的方式自主的从起点运动到终点。
传统的集群航迹规划方法大多是基于控制理论的。这些算法通常是针对特定场景设计的,当场景发生变化时,它们的性能会迅速下降。并且,这些算法通常假设环境信息对所有无人机都可用,这在现实世界中是不实际的。
近年来,机器学习(Machine Learning,ML),特别是深度学习(Deep Learning,DL)随着计算能力的增长,越来越多地被用于解决一些复杂问题,为无人机集群航迹规划问题提供了另一种解决方案。强化学习(Reinforcement Learning, RL)作为一种机器学习方法,适用于处理序列决策问题。最近,结合DL和RL的深度强化学习(Deep ReinforcementLearning, DRL)的出现,极大地提高了RL解决大规模复杂问题的能力,并在围棋等游戏领域取得了巨大成功。
集群航迹规划问题和游戏问题一样,也是一个顺序决策问题。然而,由于航迹规划问题的部分可观测性,如何利用深度强化学习实现无人机集群航迹规划仍然存在诸多困难。本发明即在上述背景下展开。同时,由于非线性和不确定因素的影响,很难为集群航迹规划问题建立高保真的仿真环境。在仿真环境中,从DRL方法中学习到的策略不能直接部署在现实世界的无人机上。其次,如果使用真实世界的无人机来训练DRL模型,由于数据采集效率低下,训练速度缓慢,仿真与现实之间的差异问题限制了DRL在集群航迹规划问题中的应用。
为了解决上述问题,我们将注意力转向数字孪生(Digital Twin, DT)技术。DT是真实世界中的物理模型在信息域中的高保真镜像,根据历史数据、传感器数据及时反映真实世界的状态变化。DT已广泛应用于智能城市、智能制造和健康管理。借助DT,机器学习方法可以很容易地获得真实世界的高保真状态信息,用于模型训练。然而,如何将DT应用于无人机集群航迹规划的DRL训练体系架构尚未有人研究。
发明内容
本发明的目的是针对无人机集群航迹规划问题,提出一种基于数字孪生式训练的集群航迹规划强化学习方法,从而有效提高无人机集群自主航迹规划的能力。为了实现该目的,本发明公开了一种基于数字孪生式训练的集群航迹规划强化学习方法,所采用的步骤是:
步骤1:构建无人机集群航迹规划问题的状态空间和动作空间,状态空间由三部分组成,包括目标位置状态信息,障碍物位置状态信息和邻居节点状态信息;动作空间为无人机的速度大小和方向;
步骤2:设计无人机集群航迹规划问题深度强化学习方法的奖励函数,奖励函数包括五部分,分别为无人机接近目标奖励,无人机与障碍物之间的防碰撞奖励,无人机与邻居节点之间的协同奖励,无人机的运动奖励以及边界奖励,最终的奖励函数为上述五者的线性耦合;
步骤3:设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构,深度强化学习网络采用Actor-Critic网络架构,其中Actor网络分为4个子网络,分别是前进子网络,协同子网络,避障子网络和耦合子网络;
步骤4:搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道,无人机集群航迹规划深度强化学习方法运行于孪生决策模型中,并利用孪生物理实体、孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署。
进一步,构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为:
无人机i在第t个时间步长内的观测信息由三部分组成,第一部分是目标位置状态信息,为了削弱模型对目标绝对位置的敏感性,本发明采用了相对位置{G - u i,t }代替了目标的绝对位置,同理,在第二部分和第三部分的观测信息中也采用了这个方法;第二部分是障碍物位置状态信息,假设无人机感知范围内存在障碍物,则无人机i在第t个时间步长内的障碍物位置观测信息为{o1 - u i,t , o2 - u i,t , …, o k - u i,t };第三部分是邻居节点观测信息,无人机i在第t个时间步长内的邻居节点观测信息表示为{u1,t - u i,t , u2,t - u i,t ,…, u j,t - u i,t },这里
Figure 234347DEST_PATH_IMAGE001
Figure 616918DEST_PATH_IMAGE002
表示无人机i的邻居节点集;综上,无人机i在第t个时间步长内的状态空间表示为s i,t = {G - u i,t , o1 - u i,t , o2 - u i,t , …, o k - u i,t , u1,t -u i,t , u2,t - u i,t , …, u j,t - u i,t };
为了使无人机的飞行轨迹更加平滑,采用了连续动作空间,无人机i在第t个时间步长内动作空间表示为a i,t = {v, θ},其中v表示速度的大小,范围从v minv maxθ表示速度的方向,该方向受无人机的最大转向角限制。
进一步,设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为:
(1)接近目标奖励:该奖励用于引导无人机朝向目标方向,其基本思想是,在一个时间步长内,朝向目标方向的移动距离尽可能大,因此,无人机i在第t个时间步长内接近目标的奖励定义为:
Figure 688779DEST_PATH_IMAGE003
(1)
其中,ω appro是一个正常数;
(2)防碰撞奖励:此奖励用于引导无人机与障碍物和邻居保持安全距离,无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为:
Figure 2690DEST_PATH_IMAGE004
(2)
这里,
Figure 869015DEST_PATH_IMAGE005
(3)
Figure 270041DEST_PATH_IMAGE006
(4)
其中,ω obsω nei表示正常数,d 3表示无人机与障碍物之间的安全距离,d 1表示为无人机与邻居之间的安全距离,
Figure 880014DEST_PATH_IMAGE007
表示障碍物集合;
(3)协同奖励:该奖励用于引导无人机与邻居保持连通性,以便在集群运动过程中建立更好的协同效果,无人机i在第t个时间步长内与邻居协同的奖励定义为:
Figure 33783DEST_PATH_IMAGE008
(5)
其中,d 2表示无人机的通信距离,ω connec表示一个正常数;
(4)运动奖励:该奖励用于引导无人机用更少的时间完成集群航迹规划任务,无人机i在第t个时间步长内的运动奖励定义为:
Figure 71010DEST_PATH_IMAGE009
(6)
其中ω step表示一个正常数;
(5)边界奖励:该奖励用于引导无人机避免距离边界太近,无人机i在第t个时间步长内的边界奖励定义为:
Figure 21648DEST_PATH_IMAGE010
(7)
其中ω horω ver为正常数,d hord ver为无人机到水平和垂直边界的最小距离,当它们大于边长的0.05倍时,设置为零;
综上,无人机i在第t个时间步长内的整体奖励函数定义为:
Figure 310678DEST_PATH_IMAGE011
(8)。
进一步,设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为:
BCDDPG使用Actor-Critic网络架构,其中,Actor网络直接输出预期动作, Critic网络近似动作值函数,用于评估Actor网络输出动作的质量;
BCDDPG的Actor网络由多个子网络组成,对于集群航迹规划问题而言,无人机的状态信息s可以分为以下三类:
(1)当前时间步长内目标的相对位置,表示为s f
(2)当前时间步长内其邻居节点的相对位置,表示为s c
(3)当前时间步长内的障碍物的相对位置,表示为s o
BCDDPG使用三个不同的子Actor网络来处理三类状态信息,子Actor网络1、2和3分别采用s f s c s o 作为输入,并输出对应的子动作a f a c a o ;同时,子Actor网络中采用了Long-Short Term Memory神经网络处理状态信息,以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测;子Actor网络4将状态s,子动作a f a c a o 联立组成一个新向量作为输入,并输出最终动作a
进一步,搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为:
(1)、搭建孪生物理实体:由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体,无人机在计算和存储方面受到资源限制,无法高效率的完成DRL模型的训练,每架无人机配备多个传感器,能实时感知环境状态;
搭建孪生仿真模型:中央服务器利用从真实世界接收的数据,通过仿真和建模,建立无人机集群系统的高保真孪生仿真模型,中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型,孪生仿真模型可获得全局状态信息,用于提高DRL算法的训练速度和有效性;
搭建孪生决策模型:DRL算法部署在孪生决策模型中,用于为集群航迹规划问题提供决策服务,孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息,并利用中央服务器强大的计算性能,实时输出无人机集群航迹规划问题的控制策略,DRL算法在执行阶段可借助孪生仿真模型不断更新和改进,实现DRL算法的持续进化;
搭建孪生连接通道:孪生连接通道是连接物理域和信息域的桥梁,二者之间可以通过4G/5G、移动AP或卫星等方式建立通信链路,孪生连接通道是双向的,一方面,孪生物理实体将传感器数据传输到中央服务器,用于孪生仿真模型构建,另一方面,中央服务器将DRL算法生成的控制策略输出到孪生物理实体,用于指导无人机集群运动,一旦DRL算法完成训练阶段,可借助孪生连接通道快速部署到现实世界的多无人机系统中,并以分布式方式执行;
(2)、借助于无人机集群数字孪生系统,无人机集群航迹规划深度强化学习方法采用“集中式训练,分布式执行,持续进化”的方式实现模型的快速训练和部署;
在训练阶段,孪生物理实体上的高精度传感器采集环境状态信息,通过孪生连接通道将数据传输至孪生仿真模型;孪生仿真模型根据采集到的环境状态信息更新自身状态,并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练;孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练;
在执行阶段,孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上;孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务;同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练,并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上,实现深度强化学习方法的持续进化。
附图说明
图1是本发明提出的无人机集群数字孪生系统框图;
图2是本发明提出的基于数字孪生的深度强化学习分布式决策框架图;
图3是本发明提出的深度强化学习方法的网络架构图;
图4是集群规模为6时本发明与现有方法的仿真结果对比图;
图5是集群规模为9时本发明与现有方法的仿真结果对比图;
图6是集群规模为12时本发明与现有方法的仿真结果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
在后面的叙述中,本说明书将本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法简记为BCDDPG(Behavior Coupling Deep Deterministic PolicyGradient)。
BCDDPG首先设定了以下运行条件:
1、考虑任务区域大小为L x ×L y ,任务区域中存在N架无人机、M个障碍物和一个目标,每个无人机都配备有定位设备,并知道自己的位置;无人机之间可以通过无线收发器进行通信,以交换位置和速度等信息;
2、无人机集群在t时刻的位置和速度表示为U t = (u1,t , u2,t , u3,t … u N,t )和V t =(v1,t , v2,t , v3,t … v N,t );同样,障碍物和目标的位置表示为O = (o1, o2, o3 … o M )和G;根据预设分布,无人机集群初始位置位于起始点,并打算沿实时规划轨迹移动到目标点;障碍物在任务区域中随机分布;一旦无人机与障碍物之间的距离小于感知距离,无人机就可以通过传感器确定障碍物的位置;
3、为了满足RL的要求,采用了离散时间尺度;即无人机在每个时间步长决策一次,确定下一时间步长的速度。
以上述条件为基础,本发明提出的BCDDPG已经在Linux操作系统Ubuntu中获得了实现,仿真结果证明了该方法的有效性。BCDDPG的具体实施步骤为:
步骤1:构建无人机集群航迹规划问题的状态空间和动作空间。状态空间由三部分组成,包括目标位置状态信息,障碍物位置状态信息和邻居节点状态信息;动作空间为无人机的速度大小和方向。
在经典RL中,要解决的问题通常被描述为马尔可夫决策过程(Markov DecisionProcess, MDP)。MDP必须满足马尔可夫性,即智能体的下一个状态仅取决于智能体的当前状态和智能体选择的动作。如果认为无人机看作智能体,则无人机集群航迹规划问题也满足马尔可夫特性。无人机的下一个状态仅取决于当前状态和无人机选择的动作。因此,我们可以使用RL来解决无人机集群航迹规划问题。
对于MDP问题而言,状态信息通常指智能体所处状态的所有可能性。然而,在无人机集群航迹规划场景中,由于传感器和通信的限制,每个无人机无法感知环境的全部信息。实际上,它是一个部分可观测马尔可夫决策过程(Partial Observation Markov DecisionProcess, POMDP)。无人机i在第t个时间步长内的观测信息由三部分组成。第一部分是目标位置状态信息。为了削弱模型对目标绝对位置的敏感性,本发明采用了相对位置{G - u i,t }代替了目标的绝对位置,同理,在第二部分和第三部分的观测信息中也采用了这个方法。第二部分是障碍物位置状态信息。假设无人机感知范围内存在障碍物,则无人机i在第t个时间步长内的障碍物位置观测信息为{o1 - u i,t , o2 - u i,t , …, o k - u i,t }。第三部分是邻居节点观测信息。无人机i在第t个时间步长内的邻居节点观测信息表示为{u1,t - u i,t ,u2,t - u i,t , …, u j,t - u i,t },这里
Figure 459900DEST_PATH_IMAGE001
Figure 136869DEST_PATH_IMAGE002
表示无人机i的邻居节点集。综上,无人机i在第t个时间步长内的状态空间表示为s i,t = {G - u i,t , o1 - u i,t , o2 - u i,t , …, o k -u i,t , u1,t - u i,t , u2,t - u i,t , …, u j,t - u i,t }。
为了使无人机的飞行轨迹更加平滑,本发明采用了连续动作空间。无人机i在第t个时间步长内动作空间表示为a i,t = {v, θ},其中v表示速度的大小,范围从v minv maxθ表示表示速度的方向,该方向受无人机的最大转向角限制。
步骤2:设计无人机集群航迹规划问题深度强化学习方法的奖励函数。奖励函数包括五部分,分别为无人机接近目标奖励,无人机与障碍物之间的防碰撞奖励,无人机与邻居节点之间的协同奖励,无人机的运动奖励以及边界奖励,最终的奖励函数为上述五者的线性耦合。
奖励信号会加强智能体的行为。一个好的奖励函数可以缩短算法的收敛时间。对于无人机集群航迹规划任务而言,其主要目的包括三个方面:尽快到达目标,不与障碍物和邻居发生碰撞,与邻居保持适当的距离。基于上述目的,奖励函数定义如下:
(1)接近目标奖励:该奖励用于引导无人机朝向目标方向。其基本思想是,在一个时间步长内,朝向目标方向的移动距离尽可能大。因此,无人机i在第t个时间步长内接近目标的奖励定义为:
Figure 230595DEST_PATH_IMAGE003
(1)
其中,ω appro是一个正常数。
(2)防碰撞奖励:此奖励用于引导无人机与障碍物和邻居保持安全距离。无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为:
Figure 447950DEST_PATH_IMAGE004
(2)
这里,
Figure 327044DEST_PATH_IMAGE005
(3)
Figure 706073DEST_PATH_IMAGE006
(4)
其中,ω obsω nei表示正常数,d 3表示无人机与障碍物之间的安全距离,d 1表示为无人机与邻居之间的安全距离,
Figure 365725DEST_PATH_IMAGE007
表示障碍物集合。
(3)协同奖励:该奖励用于引导无人机与邻居保持连通性,以便在集群运动过程中建立更好的协同效果。无人机i在第t个时间步长内与邻居协同的奖励定义为:
Figure 245825DEST_PATH_IMAGE008
(5)
其中,d 2表示无人机的通信距离,ω connec表示一个正常数。
(4)运动奖励:该奖励用于引导无人机用更少的时间完成集群航迹规划任务,无人机i在第t个时间步长内的运动奖励定义为:
Figure 104059DEST_PATH_IMAGE009
(6)
其中ω step表示一个正常数。
(5)边界奖励:该奖励用于引导无人机避免距离边界太近,无人机i在第t个时间步长内的边界奖励定义为:
Figure 60514DEST_PATH_IMAGE010
(7)
其中ω horω ver为正常数,d hord ver为无人机到水平和垂直边界的最小距离,当它们大于边长的0.05倍时,设置为零。
综上,无人机i在第t个时间步长内的整体奖励函数定义为:
Figure 4199DEST_PATH_IMAGE011
(8)。
步骤3:设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构。深度强化学习网络采用Actor-Critic(演员-评论家)网络架构,其中Actor网络分为4个子网络,分别是前进子网络,协同子网络,避障子网络和耦合子网络。
对于传统的无模型RL方法,动作值函数通常存储在Q表中。然而,Q表的使用决定了这些方法只能解决离散和低维状态和动作空间的问题。最近,人们将DL和RL结合起来,产生了深度Q网络(DQN)算法,该算法使用Q网络来近似连续状态空间的作用值函数。虽然Q网络的使用使DQN能够解决高维状态空间的问题,但它只能处理离散的低维动作空间。深度确定性策略梯度法(Deep Deterministic Policy Gradient, DDPG)是一种直接输出动作而不是输出动作值函数的深度强化学习方法,能够处理连续动作空间问题。本发明在DDPG的基础上提出了一种新的DRL方法称为BCDDPG来解决具有连续动作空间的集群航迹规划问题。
附图2展示了数字孪生驱动下的BCDDPG算法架构。每个智能体都有自己的孪生决策模型。孪生决策模型使用从孪生仿真模型中提取状态信息作为输入,并将下一个时间步要执行的动作输出到孪生仿真模型。BCDDPG的孪生决策模型使用Actor-Critic网络架构。
BCDDPG使用Actor网络直接输出预期动作,而不是使用Q网络输出所有可能动作(如DQN)的动作值。Actor网络在当前状态和特定动作之间建立映射,从而使BCDDPG能够处理连续动作空间。也就是说,Actor网络就是策略网络。由于输出动作在每个时间步都是确定性的,随机策略就变成了确定性策略,这也解释了BCDDPG中“确定性”的含义。为了训练Actor网络,BCDDPG采用Critic网络来近似动作值函数。Critic网络用于评估Actor网络输出动作的质量。
BCDDPG的Actor网络由多个子网络组成。对于集群航迹规划问题而言,无人机的状态信息s可以分为以下三类:
(1)目标在当前时间步长内的相对位置,决定了无人机在下一时间步长内的主要前进方向,表示为s f
(2)当前时间步长内其邻居节点的相对位置,表示为s c 。它决定了无人机是否应靠近其邻居以避免落后,或远离其邻居以避免碰撞,并驱动无人机尽可能与邻居保持一致的速度;
(3)当前时间步长内的障碍物的相对位置,表示为s o ,决定了无人机是否应远离障碍物以避免碰撞。
无人机的最终行为取决于这三类状态信息的综合影响。在集群运动过程中,每一类状态信息的影响权重是时变的。如果直接将所有的状态信息输入到一个Actor网络中,很难正确区分它们并输出最佳的策略。事实上,无人机的最终行为可以看作前进行为、协同行为和避障行为三种行为的耦合。如附图3所示,BCDDPG使用三个不同的子Actor网络来处理三类状态信息。子Actor网络1、2和3分别采用s f s c s o 作为输入,并输出对应的子动作a f a c a o 。同时,子Actor网络中采用了长短期记忆(Long-Short Term Memory, LSTM)神经网络处理状态信息,以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测。子Actor网络4将状态s,子动作a f a c a o 联立组成一个新向量作为输入,并输出最终动作a。这种先分解后耦合的方法可以帮助Actor网络结构更好地了解无人机的环境状态,从而生成更高质量的策略。
步骤4:搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道,无人机集群航迹规划深度强化学习方法运行于孪生决策模型中,并利用孪生物理实体、孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署。
为了支持DRL算法的有效训练,并为集群航迹规划问题提供实时智能决策能力,本发明提出了一种基于数字孪生的集群航迹规划深度强化学习方法的仿真训练体系架构。该体系架构是借助于无人机集群数字孪生系统实现的。如附图1所示,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道。
本发明搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为:
(1)、搭建孪生物理实体:由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体,无人机在计算和存储方面受到资源限制,无法高效率的完成DRL模型的训练,每架无人机配备多个传感器,能实时感知环境状态;
搭建孪生仿真模型:中央服务器利用从真实世界接收的数据,通过仿真和建模,建立无人机集群系统的高保真孪生仿真模型,中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型,孪生仿真模型可获得全局状态信息,用于提高DRL算法的训练速度和有效性;
搭建孪生决策模型:DRL算法部署在孪生决策模型中,用于为集群航迹规划问题提供决策服务,孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息,并利用中央服务器强大的计算性能,实时输出无人机集群航迹规划问题的控制策略,DRL算法在执行阶段可借助孪生仿真模型不断更新和改进,实现DRL算法的持续进化;
搭建孪生连接通道:孪生连接通道是连接物理域和信息域的桥梁,二者之间可以通过4G/5G、移动AP或卫星等方式建立通信链路,孪生连接通道是双向的,一方面,孪生物理实体将传感器数据传输到中央服务器,用于孪生仿真模型构建,另一方面,中央服务器将DRL算法生成的控制策略输出到孪生物理实体,用于指导无人机集群运动,一旦DRL算法完成训练阶段,可借助孪生连接通道快速部署到现实世界的多无人机系统中,并以分布式方式执行;
(2)、借助于无人机集群数字孪生系统,无人机集群航迹规划深度强化学习方法采用“集中式训练,分布式执行,持续进化”的方式实现模型的快速训练和部署;
在训练阶段,孪生物理实体上的高精度传感器采集环境状态信息,通过孪生连接通道将数据传输至孪生仿真模型;孪生仿真模型根据采集到的环境状态信息更新自身状态,并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练;孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练;
在执行阶段,孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上;孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务;同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练,并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上,实现深度强化学习方法的持续进化。
本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法的性能已经在Linux操作系统Ubuntu中进行了仿真验证。仿真实验中采用相对大小描述任务区域、无人机、目标位置和障碍物之间的比例关系。任务区域的范围设置为[-1, 1],无人机的尺寸设置为0.01,目标尺寸设置为0.05,障碍物的尺寸在范围[0.10, 0.15]内随机分布。无人机集群的任务是以协同运动的方式从起点移动到目标点,同时避免与障碍物碰撞。在每一个幕内,无人机的最大移动步长为150,步长大小为1s,强化学习整个训练过程包含2×106步。附图4、5、6给出了在集群规模(即无人机节点数量)分别为6、9和12时,本发明提出的无人机集群航迹规划深度强化学习方法的训练结果与现有的强化学习方法训练结果的对比。由附图4、5、6所示的仿真结果可以看出,本发明提出的基于数字孪生式训练的集群航迹规划强化学习方法相较于现有的无人机集群航迹规划方法可以获得更好的协同效果。
本发明中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,所采用的步骤是:
步骤1:构建无人机集群航迹规划问题的状态空间和动作空间,状态空间由三部分组成,包括目标位置状态信息,障碍物位置状态信息和邻居节点状态信息;动作空间为无人机的速度大小和方向;
步骤2:设计无人机集群航迹规划问题深度强化学习方法的奖励函数,奖励函数包括五部分,分别为无人机接近目标奖励,无人机与障碍物之间的防碰撞奖励,无人机与邻居节点之间的协同奖励,无人机的运动奖励以及边界奖励,最终的奖励函数为上述五者的线性耦合;
步骤3:设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构,深度强化学习网络采用Actor-Critic网络架构,其中Actor网络分为4个子网络,分别是前进子网络,协同子网络,避障子网络和耦合子网络;
步骤4:搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道,无人机集群航迹规划深度强化学习方法运行于孪生决策模型中,并利用孪生物理实体、孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署。
2.根据权利要求1所述的一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为:
无人机i在第t个时间步长内的观测信息由三部分组成,第一部分是目标位置状态信息,为了削弱模型对目标绝对位置的敏感性,本发明采用了相对位置{G - u i,t }代替了目标的绝对位置,同理,在第二部分和第三部分的观测信息中也采用了这个方法;第二部分是障碍物位置状态信息,假设无人机感知范围内存在障碍物,则无人机i在第t个时间步长内的障碍物位置观测信息为{o1 - u i,t , o2 - u i,t , …, o k - u i,t };第三部分是邻居节点观测信息,无人机i在第t个时间步长内的邻居节点观测信息表示为{u1,t - u i,t , u2,t - u i,t ,…, u j,t - u i,t },这里
Figure 539285DEST_PATH_IMAGE001
Figure 590286DEST_PATH_IMAGE002
表示无人机i的邻居节点集;综上,无人机i在第t个时间步长内的状态空间表示为s i,t = {G - u i,t , o1 - u i,t , o2 - u i,t , …, o k - u i,t , u1,t -u i,t , u2,t - u i,t , …, u j,t - u i,t };
为了使无人机的飞行轨迹更加平滑,采用了连续动作空间,无人机i在第t个时间步长内动作空间表示为a i,t = {v, θ},其中v表示速度的大小,范围从v minv maxθ表示速度的方向,该方向受无人机的最大转向角限制。
3.根据权利要求2所述的一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为:
(1)接近目标奖励:该奖励用于引导无人机朝向目标方向,其基本思想是,在一个时间步长内,朝向目标方向的移动距离尽可能大,因此,无人机i在第t个时间步长内接近目标的奖励定义为:
Figure 670238DEST_PATH_IMAGE003
(1)
其中,ω appro是一个正常数;
(2)防碰撞奖励:此奖励用于引导无人机与障碍物和邻居保持安全距离,无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为:
Figure 430384DEST_PATH_IMAGE004
(2)
这里,
Figure 228575DEST_PATH_IMAGE005
(3)
Figure 161896DEST_PATH_IMAGE006
(4)
其中,ω obsω nei表示正常数,d 3表示无人机与障碍物之间的安全距离,d 1表示为无人机与邻居之间的安全距离,
Figure 223918DEST_PATH_IMAGE007
表示障碍物集合;
(3)协同奖励:该奖励用于引导无人机与邻居保持连通性,以便在集群运动过程中建立更好的协同效果,无人机i在第t个时间步长内与邻居协同的奖励定义为:
Figure 279598DEST_PATH_IMAGE008
(5)
其中,d 2表示无人机的通信距离,ω connec表示一个正常数;
(4)运动奖励:该奖励用于引导无人机用更少的时间完成集群航迹规划任务,无人机i在第t个时间步长内的运动奖励定义为:
Figure 768349DEST_PATH_IMAGE009
(6)
其中ω step表示一个正常数;
(5)边界奖励:该奖励用于引导无人机避免距离边界太近,无人机i在第t个时间步长内的边界奖励定义为:
Figure 911885DEST_PATH_IMAGE010
(7)
其中ω horω ver为正常数,d hord ver为无人机到水平和垂直边界的最小距离,当它们大于边长的0.05倍时,设置为零;
综上,无人机i在第t个时间步长内的整体奖励函数定义为:
Figure 232008DEST_PATH_IMAGE011
(8)。
4.根据权利要求3所述的一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为:
BCDDPG使用Actor-Critic网络架构,其中,Actor网络直接输出预期动作, Critic网络近似动作值函数,用于评估Actor网络输出动作的质量;
BCDDPG的Actor网络由多个子网络组成,对于集群航迹规划问题而言,无人机的状态信息s可以分为以下三类:
(1)当前时间步长内目标的相对位置,表示为s f
(2)当前时间步长内其邻居节点的相对位置,表示为s c
(3)当前时间步长内的障碍物的相对位置,表示为s o
BCDDPG使用三个不同的子Actor网络来处理三类状态信息,子Actor网络1、2和3分别采用s f s c s o 作为输入,并输出对应的子动作a f a c a o ;同时,子Actor网络中采用了Long-Short Term Memory神经网络处理状态信息,以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测;子Actor网络4将状态s,子动作a f a c a o 联立组成一个新向量作为输入,并输出最终动作a
5.根据权利要求4所述的一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为:
(1)、搭建孪生物理实体:由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体,无人机在计算和存储方面受到资源限制,无法高效率的完成DRL模型的训练,每架无人机配备多个传感器,能实时感知环境状态;
搭建孪生仿真模型:中央服务器利用从真实世界接收的数据,通过仿真和建模,建立无人机集群系统的高保真孪生仿真模型,中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型,孪生仿真模型可获得全局状态信息,用于提高DRL算法的训练速度和有效性;
搭建孪生决策模型:DRL算法部署在孪生决策模型中,用于为集群航迹规划问题提供决策服务,孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息,并利用中央服务器强大的计算性能,实时输出无人机集群航迹规划问题的控制策略,DRL算法在执行阶段可借助孪生仿真模型不断更新和改进,实现DRL算法的持续进化;
搭建孪生连接通道:孪生连接通道是连接物理域和信息域的桥梁,二者之间可以通过4G/5G、移动AP或卫星等方式建立通信链路,孪生连接通道是双向的,一方面,孪生物理实体将传感器数据传输到中央服务器,用于孪生仿真模型构建,另一方面,中央服务器将DRL算法生成的控制策略输出到孪生物理实体,用于指导无人机集群运动,一旦DRL算法完成训练阶段,可借助孪生连接通道快速部署到现实世界的多无人机系统中,并以分布式方式执行;
(2)、借助于无人机集群数字孪生系统,无人机集群航迹规划深度强化学习方法采用“集中式训练,分布式执行,持续进化”的方式实现模型的快速训练和部署;
在训练阶段,孪生物理实体上的高精度传感器采集环境状态信息,通过孪生连接通道将数据传输至孪生仿真模型;孪生仿真模型根据采集到的环境状态信息更新自身状态,并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练;孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练;
在执行阶段,孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上;孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务;同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练,并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上,实现深度强化学习方法的持续进化。
CN202111041443.1A 2021-09-07 2021-09-07 一种基于数字孪生式训练的集群航迹规划强化学习方法 Active CN113495578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111041443.1A CN113495578B (zh) 2021-09-07 2021-09-07 一种基于数字孪生式训练的集群航迹规划强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111041443.1A CN113495578B (zh) 2021-09-07 2021-09-07 一种基于数字孪生式训练的集群航迹规划强化学习方法

Publications (2)

Publication Number Publication Date
CN113495578A true CN113495578A (zh) 2021-10-12
CN113495578B CN113495578B (zh) 2021-12-10

Family

ID=77995987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111041443.1A Active CN113495578B (zh) 2021-09-07 2021-09-07 一种基于数字孪生式训练的集群航迹规划强化学习方法

Country Status (1)

Country Link
CN (1) CN113495578B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687659A (zh) * 2021-10-26 2021-11-23 武汉鼎元同立科技有限公司 一种基于数字孪生的最优轨迹生成方法及系统
CN114047745A (zh) * 2021-10-13 2022-02-15 广州城建职业学院 机器人运动控制方法、机器人、计算机装置和存储介质
CN114281103A (zh) * 2021-12-14 2022-04-05 中国运载火箭技术研究院 一种零交互通信的飞行器集群协同搜索方法
CN114756052A (zh) * 2022-03-31 2022-07-15 电子科技大学 一种基于无人机群的多目标协同追踪方法
CN114964268A (zh) * 2022-07-29 2022-08-30 白杨时代(北京)科技有限公司 一种无人机导航方法及装置
CN115098941A (zh) * 2022-05-31 2022-09-23 复旦大学 面向智能算法敏捷部署的无人机数字孪生控制方法和平台
CN115186370A (zh) * 2022-05-18 2022-10-14 广东海洋大学 一种基于深度学习训练模型的工程叉车迁移学习系统
CN115391924A (zh) * 2022-11-01 2022-11-25 北京航空航天大学 一种数字孪生环境下智能卫星的深度强化学习设计方法
CN115421505A (zh) * 2022-11-04 2022-12-02 北京卓翼智能科技有限公司 一种无人机集群系统及无人机
CN115525058A (zh) * 2022-10-24 2022-12-27 哈尔滨工程大学 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN115599129A (zh) * 2022-11-07 2023-01-13 北京卓翼智能科技有限公司(Cn) 一种无人机集群系统及无人机
CN115811529A (zh) * 2022-11-18 2023-03-17 中国电子技术标准化研究院 无人集群系统架构方法
CN116047934A (zh) * 2023-01-13 2023-05-02 北京卓翼智能科技有限公司 一种无人机集群的实时仿真方法、系统以及电子设备
CN116661503A (zh) * 2023-08-02 2023-08-29 中国人民解放军96901部队 一种基于多智能体安全强化学习的集群航迹自动规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053085A (zh) * 2020-09-16 2020-12-08 四川大学 一种基于数字孪生的机场场面运行管理系统及方法
CN112171669A (zh) * 2020-09-21 2021-01-05 西安交通大学 一种脑-机协作数字孪生强化学习控制方法及系统
CN112419775A (zh) * 2020-08-12 2021-02-26 华东师范大学 基于强化学习的数字孪生智慧停车方法及系统
CN112936267A (zh) * 2021-01-29 2021-06-11 华中科技大学 一种人机协作智能制造方法及系统
WO2021160686A1 (en) * 2020-02-10 2021-08-19 Deeplife Generative digital twin of complex systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021160686A1 (en) * 2020-02-10 2021-08-19 Deeplife Generative digital twin of complex systems
CN112419775A (zh) * 2020-08-12 2021-02-26 华东师范大学 基于强化学习的数字孪生智慧停车方法及系统
CN112053085A (zh) * 2020-09-16 2020-12-08 四川大学 一种基于数字孪生的机场场面运行管理系统及方法
CN112171669A (zh) * 2020-09-21 2021-01-05 西安交通大学 一种脑-机协作数字孪生强化学习控制方法及系统
CN112936267A (zh) * 2021-01-29 2021-06-11 华中科技大学 一种人机协作智能制造方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUNZHENG LI 等: "Digital_Twin_Enhanced_Assembly_Based_on_Deep_Reinforcement_Learning", 《11TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND TECHNOLOGY (ICIST)》 *
KE ZHANG 等: "Adaptive_Digital_Twin_and_Multiagent_Deep_Reinforcement_Learning_for_Vehicular_Edge_Computing_and_Networks", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
ZIJIE REN 等: "Strengthening_Digital_Twin_Applications_based_on_Machine_Learning_for_Complex_Equipment", 《DESIGN, AUTOMATION AND TEST IN EUROPE CONFERENCE》 *
杨能俊: "基于数字孪生的离散制造车间自适应调度方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047745A (zh) * 2021-10-13 2022-02-15 广州城建职业学院 机器人运动控制方法、机器人、计算机装置和存储介质
CN113687659A (zh) * 2021-10-26 2021-11-23 武汉鼎元同立科技有限公司 一种基于数字孪生的最优轨迹生成方法及系统
CN113687659B (zh) * 2021-10-26 2022-01-25 武汉鼎元同立科技有限公司 一种基于数字孪生的最优轨迹生成方法及系统
CN114281103A (zh) * 2021-12-14 2022-04-05 中国运载火箭技术研究院 一种零交互通信的飞行器集群协同搜索方法
CN114281103B (zh) * 2021-12-14 2023-09-29 中国运载火箭技术研究院 一种零交互通信的飞行器集群协同搜索方法
CN114756052A (zh) * 2022-03-31 2022-07-15 电子科技大学 一种基于无人机群的多目标协同追踪方法
CN115186370A (zh) * 2022-05-18 2022-10-14 广东海洋大学 一种基于深度学习训练模型的工程叉车迁移学习系统
CN115098941A (zh) * 2022-05-31 2022-09-23 复旦大学 面向智能算法敏捷部署的无人机数字孪生控制方法和平台
CN115098941B (zh) * 2022-05-31 2023-08-04 复旦大学 面向智能算法敏捷部署的无人机数字孪生控制方法和平台
CN114964268A (zh) * 2022-07-29 2022-08-30 白杨时代(北京)科技有限公司 一种无人机导航方法及装置
CN115525058A (zh) * 2022-10-24 2022-12-27 哈尔滨工程大学 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN115391924B (zh) * 2022-11-01 2023-03-03 北京航空航天大学 一种数字孪生环境下智能卫星的深度强化学习设计方法
CN115391924A (zh) * 2022-11-01 2022-11-25 北京航空航天大学 一种数字孪生环境下智能卫星的深度强化学习设计方法
CN115421505B (zh) * 2022-11-04 2023-03-17 北京卓翼智能科技有限公司 一种无人机集群系统及无人机
CN115421505A (zh) * 2022-11-04 2022-12-02 北京卓翼智能科技有限公司 一种无人机集群系统及无人机
CN115599129A (zh) * 2022-11-07 2023-01-13 北京卓翼智能科技有限公司(Cn) 一种无人机集群系统及无人机
CN115811529A (zh) * 2022-11-18 2023-03-17 中国电子技术标准化研究院 无人集群系统架构方法
CN116047934A (zh) * 2023-01-13 2023-05-02 北京卓翼智能科技有限公司 一种无人机集群的实时仿真方法、系统以及电子设备
CN116661503A (zh) * 2023-08-02 2023-08-29 中国人民解放军96901部队 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN116661503B (zh) * 2023-08-02 2023-10-13 中国人民解放军96901部队 一种基于多智能体安全强化学习的集群航迹自动规划方法

Also Published As

Publication number Publication date
CN113495578B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
Hu et al. Voronoi-based multi-robot autonomous exploration in unknown environments via deep reinforcement learning
McEnroe et al. A survey on the convergence of edge computing and AI for UAVs: Opportunities and challenges
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN104881043B (zh) 一种针对多动态目标的多无人机智能协同察打方法
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Li et al. Trajectory planning for UAV based on improved ACO algorithm
Chen et al. Driving maneuvers prediction based autonomous driving control by deep Monte Carlo tree search
Xu et al. Two-layer distributed hybrid affine formation control of networked Euler–Lagrange systems
CN110471426A (zh) 基于量子狼群算法的无人驾驶智能车自动避碰方法
CN113253733B (zh) 一种基于学习和融合的导航避障方法、装置及系统
CN112947575B (zh) 基于深度强化学习的无人机集群多目标搜索方法及系统
Tang et al. A joint global and local path planning optimization for UAV task scheduling towards crowd air monitoring
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN113612528B (zh) 一种无人机集群数字孪生仿真系统网络连通性修复方法
CN115469663A (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
Ke et al. Cooperative path planning for air–sea heterogeneous unmanned vehicles using search-and-tracking mission
Fu et al. Memory-enhanced deep reinforcement learning for UAV navigation in 3D environment
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Li et al. Vg-swarm: A vision-based gene regulation network for uavs swarm behavior emergence
CN113342029B (zh) 基于无人机群的最大传感器数据采集路径规划方法及系统
Bolognini et al. A scalable hierarchical path planning technique for autonomous inspections with multicopter drones
CN115903885B (zh) 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN113741461B (zh) 一种面向受限通信的复杂场景下多机器人避障方法
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant