CN115562357B - 一种面向无人机集群的智能路径规划方法 - Google Patents
一种面向无人机集群的智能路径规划方法 Download PDFInfo
- Publication number
- CN115562357B CN115562357B CN202211470587.3A CN202211470587A CN115562357B CN 115562357 B CN115562357 B CN 115562357B CN 202211470587 A CN202211470587 A CN 202211470587A CN 115562357 B CN115562357 B CN 115562357B
- Authority
- CN
- China
- Prior art keywords
- time
- unmanned aerial
- aerial vehicle
- network
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开一种面向无人机集群的智能路径规划方法,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹。本发明使得无人机集群完成动态探索任务,为每架无人机规划避开障碍物以及其他无人机的安全飞行路径。
Description
技术领域
本发明涉及一种面向无人机集群的智能路径规划方法,属于路径规划以及智能计算技术领域。
背景技术
面向无人机集群的智能路径规划方法是一个协同规划问题,在未知的环境中,常有人力所不能探测到信息的区域,为排除危险因素,减少人力成本以及降低人身风险,通过携带监测探索仪器的无人机集群进行分布式的未知环境探索具有一定的可行性,并通过对无人机集群的飞行进行协同路径规划,能够满足在对环境进行探测的同时,增强无人机集群的飞行效率。
对于单个无人机来讲,一般的全局规划方法如基于几何搜索的路径规划算法,基于采样的路径搜索算法,往往面临在复杂环境中规划效率不高,高维空间的低容错率等问题,同时大量的计算时间和成本的消耗往往使得这类方法难以做到实际应用。
随着人工智能在无人机路径规划领域的发展,越来越多的智能算法结构被高效应用,如一些群体智能方法、遗传算法和蚁群算法,强化学习的路径规划方法。而在这些方法中,群体智能的方法往往适用于对特定问题的解决,并且更适合于单无人机的应用场景,并且在环境中如果可行飞行路径过多的情况下,算法容易出现寻找路径过程中陷入局部最优的问题而导致路径规划失败,出现无人机的飞行安全问题。在现实应用场景中,单架无人机的性能往往是难以完成大区域的环境探索任务的,因此对多无人机协同探索的研究值得进行与深入,并且对于全局的路径规划方法,庞大的计算量也需要得到控制。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种面向无人机集群的智能路径规划方法,根据在具体的环境地图模型下,协同规划多架无人机避开环境中的障碍物,快速合理地做出决策,完成环境探索任务,在不同的环境场景下,对于每架无人机而言,均能够规划出安全可靠的飞行路径,具有良好的适应性。
为达到上述目的,本发明提供一种面向无人机集群的智能路径规划方法,具体包括如下步骤:
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3。
优先地,预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型。
优先地,利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
式中,表示0时刻飞行路径生成模型的状态空间,表示1时刻飞行路径生成模型的状态空间,表示2时刻飞行路径生成模型的状态空间,表示t-1时刻飞行路径生成模型的状态空间,表示t时刻飞行路径生成模型的状态空间,表示0时刻飞行路径生成模型的动作空间,表示1时刻飞行路径生成模型的动作空间,表示t-1时刻飞行路径生成模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
式中,D t 表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,表示t-1时刻环境探索任务模型的动作空间,ρ t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,d t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,表示t-1时刻飞行路径生成模型的动作空间,S t 为t时刻无人机集群的已探索区域值,G t 为t时刻其他无人机集群的已探索区域,X t-1表示t-1时刻的历史临时目标点,v t-1为t-1时刻的历史无人机集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q';
构建经验回放池并初始化;
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的环境探索任务模型的动作空间、已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρ t+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离d t+1,得到t+1时刻状态空间;
式中,为在线网络Q在样本i下的评估值,为样本i的奖励函数,为目标网络在样本i下的评估值,为在样本i下的评估值在网络参数φ下的梯度值,为在样本i下的评估值在动作空间下的梯度值,为动作空间在网络参数θ下的梯度值;
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13。
式中,X t-1为t-1时刻的历史临时目标点,X t 表示t时刻的历史临时目标点,为可变常数权重,时分配给设定的较大值,时分配给设定的较小值,ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,为常数固定权重,为无人机集群的方向变化差,和ε是两个微小常数权重,为势场引力,为引力因子,表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
优先地,预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
优先地,利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
式中,表示0时刻环境探索任务模型的状态空间,表示1时刻环境探索任务模型的状态空间,表示2时刻环境探索任务模型的状态空间,表示t-1时刻环境探索任务模型的状态空间,表示t时刻环境探索任务模型的状态空间,表示0时刻环境探索任务模型的动作空间,表示1时刻环境探索任务模型的动作空间,表示t-1时刻环境探索任务模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
构建第二经验回放池并初始化;
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的t时刻飞行路径生成模型的动作空间、已知的t+1时刻无人机集群的已探索区域值S t+1和已知的t+1时刻其他无人机集群的已探索区域G t+1,获得t+1时刻状态空间
式中,为在线网络Q2在样本j下的评估值,r j 为样本j的奖励函数,为目标网络在样本j下的评估值,为在样本j下的评估值在网络参数φ2下的梯度值,为在样本j下的评估值在动作空间下的梯度值,为动作空间在网络参数θ2下的梯度值;
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
式中,α为确定性增益权重,Δ region 为有效探索面积增加值。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所达到的有益效果:
1、本发明能够在障碍物不同的模拟地图模型中进行无人机集群的协同规划,无人机集群在完成探索任务的同时,规划出安全有效的路径,表现出规划方法在不同环境下的适应性。
2、本发明将无人机集群的协同路径规划有效划分为两部分:环境探索任务与飞行路径生成,通过深度确定性策略梯度方法分别训练环境探索任务模型与飞行路径生成模型两部分的策略,解决了无人机集群执行环境探索任务的协同规划问题,具有良好的实用性。
3、本发明利用改进的势场力函数作为飞行路径生成模型的奖励函数的一部分,一定程度上提高了模型在初始训练时的随机性,加速了训练的收敛过程,提供了无人机集群与环境进行信息交互过程中的路径指引。
4、本发明能够较好地为无人机集群在模拟地图上规划出集群在执行任务时的协同探索路径,具有一定的现实意义。
附图说明
图1为本发明的流程图;
图2为本发明中进行无人机集群协同规划的网格环境模型示意图;
图3为本发明采用的飞行路径生成模型的神经网络结构图;
图4为本发明采用的环境探索任务模型的神经网络结构图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种面向无人机集群的智能路径规划方法,面向智慧化工业园区监测,具体包括如下步骤:
在二维坐标系中对环境信息包括障碍物的位置信息,无人机位置等信息进行建模,将无人机等效为粒子,地面建模为XOY平面,初始化无人机飞行地图环境;
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3。
进一步地,本实施例中预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型。
进一步地,本实施例中利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
式中,表示0时刻飞行路径生成模型的状态空间,表示1时刻飞行路径生成模型的状态空间,表示2时刻飞行路径生成模型的状态空间,表示t-1时刻飞行路径生成模型的状态空间,表示t时刻飞行路径生成模型的状态空间,表示0时刻飞行路径生成模型的动作空间,表示1时刻飞行路径生成模型的动作空间,表示t-1时刻飞行路径生成模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
式中,D t 表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,表示t-1时刻环境探索任务模型的动作空间,ρ t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,d t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,表示t-1时刻飞行路径生成模型的动作空间,S t 为t时刻无人机集群的已探索区域值,G t 为t时刻其他无人机集群的已探索区域,X t-1表示t-1时刻的历史临时目标点,v t-1为t-1时刻的历史无人机集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q';
构建经验回放池并初始化;
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的环境探索任务模型的动作空间、已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρ t+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离d t+1,得到t+1时刻状态空间;
式中,为在线网络Q在样本i下的评估值,为样本i的奖励函数,为目标网络在样本i下的评估值,为在样本i下的评估值在网络参数φ下的梯度值,为在样本i下的评估值在动作空间下的梯度值,为动作空间在网络参数θ下的梯度值;
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13。
式中,X t-1为t-1时刻的历史临时目标点,即无人机集群当前位置坐标(x,y),X t 表示t时刻的历史临时目标点,若t时刻的临时目标点X t 处于障碍物上则赋值为负增益-15,若无人机集群所在位置为历史临时目标点则赋值为正增益15,在有效路径生成时给予正增益,为可变常数权重,时分配给设定的较大值,驱动无人机集群做出更合理的下一步动作空间,时分配给设定的较小值,避免局部最优的极值问题;ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,为常数固定权重,为无人机集群的方向变化差,和ε是两个微小常数权重,为势场引力,为引力因子,表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
进一步地,本实施例中预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
进一步地,本实施例中利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
式中,表示0时刻环境探索任务模型的状态空间,表示1时刻环境探索任务模型的状态空间,表示2时刻环境探索任务模型的状态空间,表示t-1时刻环境探索任务模型的状态空间,表示t时刻环境探索任务模型的状态空间,表示0时刻环境探索任务模型的动作空间,表示1时刻环境探索任务模型的动作空间,表示t-1时刻环境探索任务模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
构建第二经验回放池并初始化;
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的t时刻飞行路径生成模型的动作空间、已知的t+1时刻无人机集群的已探索区域值S t+1和已知的t+1时刻其他无人机集群的已探索区域G t+1,获得t+1时刻状态空间
式中,为在线网络Q2在样本j下的评估值,r j 为样本j的奖励函数,为目标网络在样本j下的评估值,为在样本j下的评估值在网络参数φ2下的梯度值,为在样本j下的评估值在动作空间下的梯度值,为动作空间在网络参数θ2下的梯度值;
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。 如图3所示,构建的初始的飞行路径生成模型的网络架构包括第一输入层、第一卷积层、第一池化层、第一密集层和第一输出层,第一输入层、第一卷积层、第一池化层、第一密集层和第一输出层依次连接;
如图4所示,构建的初始的环境探索任务模型的网络架构包括第二输入层、第二卷积层、第二池化层、第二密集层和第二输出层,第二输入层、第二卷积层、第二池化层、第二密集层和第二输出层依次连接;
获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据,将历史起点位置作为0时刻的历史临时目标点;
在飞行路径生成模型中,构建深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,策略训练网络actor1和动作评估网络critic1的网络结构一致,如图3所示。
在环境探索任务模型中,构建深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,策略训练网络actor2和动作评估网络critic2网络结构一致,如图4所示。
两个模型训练完成之后,对于每架无人机而言,首先将通过已经训练完毕的环境探索任务模型,输入无人机当前状态,c表示第c架无人机,输出动作,将作为训练完毕的飞行路径生成模型输入状态的一部分,输出动作,生成当前阶段的无人机集群路径轨迹,并将作为的一部分再次输入环境探索任务模型进行迭代循环,c=1,2,3,4。
无人机集群上述部件在现有技术中可采用的型号很多,本领域技术人员可根据实际需求选用合适的型号,本实施例不再一一举例。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种面向无人机集群的智能路径规划方法,其特征在于,具体包括如下步骤:
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3;
预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型;
利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
式中,表示0时刻飞行路径生成模型的状态空间,表示1时刻飞行路径生成模型的状态空间,表示2时刻飞行路径生成模型的状态空间,表示t-1时刻飞行路径生成模型的状态空间,表示t时刻飞行路径生成模型的状态空间,表示0时刻飞行路径生成模型的动作空间,表示1时刻飞行路径生成模型的动作空间,表示t-1时刻飞行路径生成模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
式中,Dt表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,表示t-1时刻环境探索任务模型的动作空间,ρt表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,dt表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,表示t-1时刻飞行路径生成模型的动作空间,St为t时刻无人机集群的已探索区域值,Gt为t时刻其他无人机集群的已探索区域,Xt-1表示t-1时刻的历史临时目标点,vt-1为t-1时刻的历史无人机集群线速度,ωt-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q';
构建经验回放池并初始化;
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离Dt+1、已知的环境探索任务模型的动作空间已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρt+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离dt+1,得到t+1时刻状态空间
式中,为在线网络Q在样本i下的评估值,为样本i的奖励函数,为目标网络Q′在样本i下的评估值,为在样本i下的评估值在网络参数下的梯度值,为在样本i下的评估值在动作空间下的梯度值,为动作空间在网络参数θ下的梯度值;
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13;
U(Xt-1)=Ua(Xt-1)+Ur(Xt-1),
ΔU=U(Xt+1)-U(Xt),
式中,Xt-1为t-1时刻的历史临时目标点,Xt表示t时刻的历史临时目标点,α1为可变常数权重,ΔU>0时分配给α1设定的较大值,ΔU<0时分配给α1设定的较小值,ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,α2为常数固定权重,Δρ为无人机集群的方向变化差,α3和ε是两个微小常数权重,Ua(Xt-1)为势场引力,λ1为引力因子,d(Xt-1,Xt)表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
λ2为斥力因子,d(Xt-1,X0)表示为无人机当前位置坐标与障碍物位置坐标的距离,d0为障碍物的影响范围,U(Xt-1)为势场引力Ua(Xt-1)与势场斥力Ur(Xt-1)之和;
预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
2.根据权利要求1所述的一种面向无人机集群的智能路径规划方法,其特征在于,
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
式中,表示0时刻环境探索任务模型的状态空间,表示1时刻环境探索任务模型的状态空间,表示2时刻环境探索任务模型的状态空间,表示t-1时刻环境探索任务模型的状态空间,表示t时刻环境探索任务模型的状态空间,表示0时刻环境探索任务模型的动作空间,表示1时刻环境探索任务模型的动作空间,表示t-1时刻环境探索任务模型的动作空间,为0时刻的奖励函数,为1时刻的奖励函数,为t-1时刻的奖励函数,为t+1时刻的奖励函数,为t+2时刻的奖励函数,为t+3时刻的奖励函数,为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
步骤22,构建策略训练网络actor2中的在线网络μ2、动作评估网络critic2中的在线网络Q2、在线网络μ2目对应的目标网络μ2′、在线网络Q2对应的目标网络Q2′;
构建第二经验回放池并初始化;
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离Dt+1、已知的t时刻飞行路径生成模型的动作空间已知的t+1时刻无人机集群的已探索区域值St+1和已知的t+1时刻其他无人机集群的已探索区域Gt+1,获得t+1时刻状态空间
式中,为在线网络Q2在样本j下的评估值,rj为样本j的奖励函数,为目标网络Q2′在样本j下的评估值,为在样本j下的评估值在网络参数下的梯度值,为在样本j下的评估值在动作空间下的梯度值,为动作空间在网络参数θ2下的梯度值;
θ2′的值更新为τ2θ2+(1-τ2)θ2′;
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470587.3A CN115562357B (zh) | 2022-11-23 | 2022-11-23 | 一种面向无人机集群的智能路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470587.3A CN115562357B (zh) | 2022-11-23 | 2022-11-23 | 一种面向无人机集群的智能路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115562357A CN115562357A (zh) | 2023-01-03 |
CN115562357B true CN115562357B (zh) | 2023-03-14 |
Family
ID=84770326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211470587.3A Active CN115562357B (zh) | 2022-11-23 | 2022-11-23 | 一种面向无人机集群的智能路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115562357B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115857556B (zh) * | 2023-01-30 | 2023-07-14 | 中国人民解放军96901部队 | 一种基于强化学习的无人飞行器协同探测规划方法 |
CN116011695B (zh) * | 2023-03-27 | 2023-06-30 | 湖南胜云光电科技有限公司 | 一种获取无人机目标路径的数据处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113064424A (zh) * | 2021-03-17 | 2021-07-02 | 西安工业大学 | 一种改进ddpg算法的无人车路径规划方法 |
CN113391633A (zh) * | 2021-06-21 | 2021-09-14 | 南京航空航天大学 | 一种面向城市环境的移动机器人融合路径规划方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
-
2022
- 2022-11-23 CN CN202211470587.3A patent/CN115562357B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113064424A (zh) * | 2021-03-17 | 2021-07-02 | 西安工业大学 | 一种改进ddpg算法的无人车路径规划方法 |
CN113391633A (zh) * | 2021-06-21 | 2021-09-14 | 南京航空航天大学 | 一种面向城市环境的移动机器人融合路径规划方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Non-Patent Citations (4)
Title |
---|
Optimized Deployment of Multi-UAV based on Machine Learning in UAV-HST Networking;Yu Min Park;《2020 21st Asia-Pacific Network Operations and Management Symposium (APNOMS)》;20201023;102-107 * |
Reduce UAV Coverage Energy Consumption through Actor-Critic Algorithm;Bo Liu等;《2019 15th International Conference on Mobile Ad-Hoc and Sensor Networks (MSN)》;20200416;332-337 * |
深度强化学习方法在飞行器控制中的应用研究;甄岩等;《战术导弹技术》;20201231(第04期);124-130 * |
面向复杂地形的多机器人覆盖路径与运动规划算法研究;汤景韬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220430(第04(2022)期);I140-158 * |
Also Published As
Publication number | Publication date |
---|---|
CN115562357A (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115562357B (zh) | 一种面向无人机集群的智能路径规划方法 | |
Faust et al. | Prm-rl: Long-range robotic navigation tasks by combining reinforcement learning and sampling-based planning | |
Yijing et al. | Q learning algorithm based UAV path learning and obstacle avoidence approach | |
Liu et al. | Reinforcement learning based two-level control framework of UAV swarm for cooperative persistent surveillance in an unknown urban area | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
Liu et al. | Adaptive sensitivity decision based path planning algorithm for unmanned aerial vehicle with improved particle swarm optimization | |
CN106979784B (zh) | 基于混合鸽群算法的非线性航迹规划 | |
CN110134140B (zh) | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 | |
CN107103164B (zh) | 无人机执行多任务的分配方法及装置 | |
Ergezer et al. | 3D path planning for multiple UAVs for maximum information collection | |
Shima et al. | UAV cooperative multiple task assignments using genetic algorithms | |
Hong et al. | Energy-efficient online path planning of multiple drones using reinforcement learning | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
Peng et al. | Online route planning for UAV based on model predictive control and particle swarm optimization algorithm | |
Huang et al. | A new dynamic path planning approach for unmanned aerial vehicles | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
US20210325891A1 (en) | Graph construction and execution ml techniques | |
Chen et al. | Dynamic obstacle avoidance for uavs using a fast trajectory planning approach | |
CN115060263A (zh) | 一种考虑低空风和无人机能耗的航迹规划方法 | |
Ma et al. | Adaptive path planning method for UAVs in complex environments | |
Khalil et al. | FED-UP: Federated deep reinforcement learning-based UAV path planning against hostile defense system | |
de Castro et al. | Dynamic path planning based on neural networks for aerial inspection | |
CN115809609A (zh) | 一种多水下自主航行器目标搜索方法及其系统 | |
Fang et al. | Quadrotor navigation in dynamic environments with deep reinforcement learning | |
CN114527759A (zh) | 一种基于分层强化学习的端到端驾驶方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |