CN115562357B - 一种面向无人机集群的智能路径规划方法 - Google Patents

一种面向无人机集群的智能路径规划方法 Download PDF

Info

Publication number
CN115562357B
CN115562357B CN202211470587.3A CN202211470587A CN115562357B CN 115562357 B CN115562357 B CN 115562357B CN 202211470587 A CN202211470587 A CN 202211470587A CN 115562357 B CN115562357 B CN 115562357B
Authority
CN
China
Prior art keywords
time
unmanned aerial
aerial vehicle
network
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211470587.3A
Other languages
English (en)
Other versions
CN115562357A (zh
Inventor
徐小龙
丁群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211470587.3A priority Critical patent/CN115562357B/zh
Publication of CN115562357A publication Critical patent/CN115562357A/zh
Application granted granted Critical
Publication of CN115562357B publication Critical patent/CN115562357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开一种面向无人机集群的智能路径规划方法,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹。本发明使得无人机集群完成动态探索任务,为每架无人机规划避开障碍物以及其他无人机的安全飞行路径。

Description

一种面向无人机集群的智能路径规划方法
技术领域
本发明涉及一种面向无人机集群的智能路径规划方法,属于路径规划以及智能计算技术领域。
背景技术
面向无人机集群的智能路径规划方法是一个协同规划问题,在未知的环境中,常有人力所不能探测到信息的区域,为排除危险因素,减少人力成本以及降低人身风险,通过携带监测探索仪器的无人机集群进行分布式的未知环境探索具有一定的可行性,并通过对无人机集群的飞行进行协同路径规划,能够满足在对环境进行探测的同时,增强无人机集群的飞行效率。
对于单个无人机来讲,一般的全局规划方法如基于几何搜索的路径规划算法,基于采样的路径搜索算法,往往面临在复杂环境中规划效率不高,高维空间的低容错率等问题,同时大量的计算时间和成本的消耗往往使得这类方法难以做到实际应用。
随着人工智能在无人机路径规划领域的发展,越来越多的智能算法结构被高效应用,如一些群体智能方法、遗传算法和蚁群算法,强化学习的路径规划方法。而在这些方法中,群体智能的方法往往适用于对特定问题的解决,并且更适合于单无人机的应用场景,并且在环境中如果可行飞行路径过多的情况下,算法容易出现寻找路径过程中陷入局部最优的问题而导致路径规划失败,出现无人机的飞行安全问题。在现实应用场景中,单架无人机的性能往往是难以完成大区域的环境探索任务的,因此对多无人机协同探索的研究值得进行与深入,并且对于全局的路径规划方法,庞大的计算量也需要得到控制。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种面向无人机集群的智能路径规划方法,根据在具体的环境地图模型下,协同规划多架无人机避开环境中的障碍物,快速合理地做出决策,完成环境探索任务,在不同的环境场景下,对于每架无人机而言,均能够规划出安全可靠的飞行路径,具有良好的适应性。
为达到上述目的,本发明提供一种面向无人机集群的智能路径规划方法,具体包括如下步骤:
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3。
优先地,预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型。
优先地,利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
Figure 430538DEST_PATH_IMAGE001
Figure 82100DEST_PATH_IMAGE002
式中,
Figure 330678DEST_PATH_IMAGE003
表示0时刻飞行路径生成模型的状态空间,
Figure 460308DEST_PATH_IMAGE004
表示1时刻飞行路径生成模型的状态空间,
Figure 9101DEST_PATH_IMAGE005
表示2时刻飞行路径生成模型的状态空间,
Figure 565985DEST_PATH_IMAGE006
表示t-1时刻飞行路径生成模型的状态空间,
Figure 301859DEST_PATH_IMAGE007
表示t时刻飞行路径生成模型的状态空间,
Figure 235180DEST_PATH_IMAGE008
表示0时刻飞行路径生成模型的动作空间,
Figure 372901DEST_PATH_IMAGE009
表示1时刻飞行路径生成模型的动作空间,
Figure 100685DEST_PATH_IMAGE010
表示t-1时刻飞行路径生成模型的动作空间,
Figure 589435DEST_PATH_IMAGE011
为0时刻的奖励函数,
Figure 559403DEST_PATH_IMAGE012
为1时刻的奖励函数,
Figure 551630DEST_PATH_IMAGE013
为t-1时刻的奖励函数,
Figure 715895DEST_PATH_IMAGE014
为t+1时刻的奖励函数,
Figure 691941DEST_PATH_IMAGE015
为t+2时刻的奖励函数,
Figure 435906DEST_PATH_IMAGE016
为t+3时刻的奖励函数,
Figure 813798DEST_PATH_IMAGE017
为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
状态空间
Figure 883385DEST_PATH_IMAGE018
、状态空间
Figure 346728DEST_PATH_IMAGE019
、动作空间
Figure 894384DEST_PATH_IMAGE020
和动作空间
Figure 126782DEST_PATH_IMAGE021
分别为:
Figure 632850DEST_PATH_IMAGE022
Figure 317909DEST_PATH_IMAGE023
Figure 934835DEST_PATH_IMAGE024
Figure 275203DEST_PATH_IMAGE025
式中,D t 表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,
Figure 952172DEST_PATH_IMAGE021
表示t-1时刻环境探索任务模型的动作空间,ρ t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,d t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
Figure 858949DEST_PATH_IMAGE020
表示t-1时刻飞行路径生成模型的动作空间,S t 为t时刻无人机集群的已探索区域值,G t 为t时刻其他无人机集群的已探索区域,X t-1表示t-1时刻的历史临时目标点,v t-1为t-1时刻的历史无人机集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q'
初始化当前状态空间
Figure 13986DEST_PATH_IMAGE026
、学习率τ、在线网络μ对应的网络参数θ、在线网络Q对应的网络参数φ、目标网络
Figure 220977DEST_PATH_IMAGE027
对应的网络参数
Figure 68847DEST_PATH_IMAGE028
和目标网络
Figure 462919DEST_PATH_IMAGE029
对应的网络参数
Figure 156069DEST_PATH_IMAGE030
构建经验回放池并初始化;
步骤13,获取t时刻飞行路径生成模型的状态空间
Figure 951986DEST_PATH_IMAGE031
和飞行路径生成模型的动作空间
Figure 970758DEST_PATH_IMAGE032
θ μ t时刻的网络参数θπ为在线网络μ对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的历史临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure 852126DEST_PATH_IMAGE033
,获得奖励r t
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的环境探索任务模型的动作空间
Figure 113081DEST_PATH_IMAGE034
、已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρ t+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离d t+1,得到t+1时刻状态空间
Figure 29085DEST_PATH_IMAGE035
步骤14,将
Figure 687599DEST_PATH_IMAGE036
放入经验回放池中,
Figure 321843DEST_PATH_IMAGE037
t时刻的奖励函数;
步骤15,从经验回放池中随机选取个N样本
Figure 622374DEST_PATH_IMAGE038
输入策略训练网络actor1中,i∈[1,N];
根据折扣因子γ计算在线网络Q在样本i+1下的评估值
Figure 658463DEST_PATH_IMAGE039
,并通过梯度下降方法迭代更新训练网络参数θ和网络参数φ
Figure 753458DEST_PATH_IMAGE040
φ的值更新为
Figure 874998DEST_PATH_IMAGE041
θ的值更新为
Figure 713641DEST_PATH_IMAGE042
式中,
Figure 338657DEST_PATH_IMAGE043
为在线网络Q在样本i下的评估值,
Figure 870133DEST_PATH_IMAGE044
为样本i的奖励函数,
Figure 213389DEST_PATH_IMAGE045
为目标网络
Figure 121303DEST_PATH_IMAGE029
在样本i下的评估值,
Figure 866405DEST_PATH_IMAGE046
为在样本i下的评估值在网络参数φ下的梯度值,
Figure 804667DEST_PATH_IMAGE047
为在样本i下的评估值在动作空间
Figure 635220DEST_PATH_IMAGE048
下的梯度值,
Figure 81245DEST_PATH_IMAGE049
为动作空间
Figure 680853DEST_PATH_IMAGE050
在网络参数θ下的梯度值;
步骤16,
Figure 554131DEST_PATH_IMAGE030
的值更新为
Figure 606401DEST_PATH_IMAGE051
Figure 590538DEST_PATH_IMAGE028
的值更新为
Figure 310232DEST_PATH_IMAGE052
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13。
优先地,
Figure 354411DEST_PATH_IMAGE053
的表达式为:
Figure 893977DEST_PATH_IMAGE054
,
Figure 681804DEST_PATH_IMAGE055
Figure 990426DEST_PATH_IMAGE056
Figure 704042DEST_PATH_IMAGE057
Figure 465324DEST_PATH_IMAGE058
式中,X t-1为t-1时刻的历史临时目标点,X t 表示t时刻的历史临时目标点,
Figure 56843DEST_PATH_IMAGE059
为可变常数权重,
Figure 219971DEST_PATH_IMAGE060
时分配给
Figure 605953DEST_PATH_IMAGE059
设定的较大值,
Figure 120111DEST_PATH_IMAGE061
时分配给
Figure 249741DEST_PATH_IMAGE059
设定的较小值,ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,
Figure 267375DEST_PATH_IMAGE062
为常数固定权重,
Figure 824259DEST_PATH_IMAGE063
为无人机集群的方向变化差,
Figure 825713DEST_PATH_IMAGE064
ε是两个微小常数权重,
Figure 759034DEST_PATH_IMAGE065
为势场引力,
Figure 126780DEST_PATH_IMAGE066
为引力因子,
Figure 120144DEST_PATH_IMAGE067
表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
Figure 608894DEST_PATH_IMAGE068
为斥力因子,
Figure 80327DEST_PATH_IMAGE069
表示为无人机当前位置坐标与障碍物位置坐标的距离,
Figure 72554DEST_PATH_IMAGE070
为障碍物的影响范围,
Figure 236819DEST_PATH_IMAGE071
为势场引力
Figure 947286DEST_PATH_IMAGE072
与势场斥力
Figure 956830DEST_PATH_IMAGE073
之和。
优先地,预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
优先地,利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
Figure 334722DEST_PATH_IMAGE074
,
Figure 138730DEST_PATH_IMAGE075
,
式中,
Figure 602072DEST_PATH_IMAGE076
表示0时刻环境探索任务模型的状态空间,
Figure 415307DEST_PATH_IMAGE077
表示1时刻环境探索任务模型的状态空间,
Figure 146241DEST_PATH_IMAGE078
表示2时刻环境探索任务模型的状态空间,
Figure 121150DEST_PATH_IMAGE079
表示t-1时刻环境探索任务模型的状态空间,
Figure 71788DEST_PATH_IMAGE080
表示t时刻环境探索任务模型的状态空间,
Figure 688715DEST_PATH_IMAGE081
表示0时刻环境探索任务模型的动作空间,
Figure 510040DEST_PATH_IMAGE082
表示1时刻环境探索任务模型的动作空间,
Figure 187009DEST_PATH_IMAGE083
表示t-1时刻环境探索任务模型的动作空间,
Figure 359364DEST_PATH_IMAGE084
为0时刻的奖励函数,
Figure 514402DEST_PATH_IMAGE085
为1时刻的奖励函数,
Figure 455813DEST_PATH_IMAGE086
为t-1时刻的奖励函数,
Figure 38104DEST_PATH_IMAGE087
为t+1时刻的奖励函数,
Figure 697756DEST_PATH_IMAGE088
为t+2时刻的奖励函数,
Figure 656485DEST_PATH_IMAGE089
为t+3时刻的奖励函数,
Figure 717982DEST_PATH_IMAGE090
为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
步骤22,构建策略训练网络actor2中的在线网络μ2、动作评估网络critic2中的在线网络Q2、在线网络μ2目对应的目标网络
Figure 972639DEST_PATH_IMAGE091
、在线网络Q2对应的目标网络
Figure 119586DEST_PATH_IMAGE092
初始化当前状态空间
Figure 616427DEST_PATH_IMAGE093
、学习率τ2在线网络μ2对应的网络参数θ2、在线网络Q2对应的网络参数φ2、目标网络
Figure 532430DEST_PATH_IMAGE091
对应的网络参数
Figure 456524DEST_PATH_IMAGE094
和目标网络
Figure 90767DEST_PATH_IMAGE092
对应的网络参数
Figure 391299DEST_PATH_IMAGE095
构建第二经验回放池并初始化;
步骤23,获取t时刻环境探索任务模型的状态空间
Figure 161809DEST_PATH_IMAGE096
和环境探索任务模型的动作空间
Figure 256804DEST_PATH_IMAGE097
Figure 378343DEST_PATH_IMAGE098
t时刻的网络参数θ2π为在线网络μ2对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure 216986DEST_PATH_IMAGE099
,获得t时刻的奖励函数
Figure 842003DEST_PATH_IMAGE100
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的t时刻飞行路径生成模型的动作空间
Figure 872013DEST_PATH_IMAGE101
、已知的t+1时刻无人机集群的已探索区域值S t+1和已知的t+1时刻其他无人机集群的已探索区域G t+1,获得t+1时刻状态空间
Figure 215270DEST_PATH_IMAGE102
Figure 123183DEST_PATH_IMAGE103
放入第二经验回放池中;
步骤25,从第二经验回放池中随机选取个M个样本
Figure 868285DEST_PATH_IMAGE104
输入策略训练网络actor2中,j∈[1,M];
根据折扣因子γ2计算在线网络Q2在j+1时刻的评估值
Figure 305083DEST_PATH_IMAGE105
,并通过梯度下降方法训练迭代更新网络参数θ2和网络参数φ2
Figure 135636DEST_PATH_IMAGE106
φ2的值更新为
Figure 316081DEST_PATH_IMAGE107
θ2的值更新为
Figure 181269DEST_PATH_IMAGE108
式中,
Figure 788968DEST_PATH_IMAGE109
为在线网络Q2在样本j下的评估值,r j 为样本j的奖励函数,
Figure 106817DEST_PATH_IMAGE110
为目标网络
Figure 90953DEST_PATH_IMAGE092
在样本j下的评估值,
Figure 810648DEST_PATH_IMAGE111
为在样本j下的评估值在网络参数φ2下的梯度值,
Figure 589248DEST_PATH_IMAGE112
为在样本j下的评估值在动作空间
Figure 889998DEST_PATH_IMAGE113
下的梯度值,
Figure 412246DEST_PATH_IMAGE114
为动作空间
Figure 986447DEST_PATH_IMAGE113
在网络参数θ2下的梯度值;
步骤26,
Figure 201528DEST_PATH_IMAGE115
的值更新为
Figure 228390DEST_PATH_IMAGE116
Figure 554329DEST_PATH_IMAGE094
的值更新为
Figure 983036DEST_PATH_IMAGE117
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
优先地,t时刻的奖励函数
Figure 369018DEST_PATH_IMAGE118
的表达式为:
Figure 148755DEST_PATH_IMAGE119
式中,α为确定性增益权重,Δ region 为有效探索面积增加值。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所达到的有益效果:
1、本发明能够在障碍物不同的模拟地图模型中进行无人机集群的协同规划,无人机集群在完成探索任务的同时,规划出安全有效的路径,表现出规划方法在不同环境下的适应性。
2、本发明将无人机集群的协同路径规划有效划分为两部分:环境探索任务与飞行路径生成,通过深度确定性策略梯度方法分别训练环境探索任务模型与飞行路径生成模型两部分的策略,解决了无人机集群执行环境探索任务的协同规划问题,具有良好的实用性。
3、本发明利用改进的势场力函数作为飞行路径生成模型的奖励函数的一部分,一定程度上提高了模型在初始训练时的随机性,加速了训练的收敛过程,提供了无人机集群与环境进行信息交互过程中的路径指引。
4、本发明能够较好地为无人机集群在模拟地图上规划出集群在执行任务时的协同探索路径,具有一定的现实意义。
附图说明
图1为本发明的流程图;
图2为本发明中进行无人机集群协同规划的网格环境模型示意图;
图3为本发明采用的飞行路径生成模型的神经网络结构图;
图4为本发明采用的环境探索任务模型的神经网络结构图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种面向无人机集群的智能路径规划方法,面向智慧化工业园区监测,具体包括如下步骤:
在二维坐标系中对环境信息包括障碍物的位置信息,无人机位置等信息进行建模,将无人机等效为粒子,地面建模为XOY平面,初始化无人机飞行地图环境;
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3。
进一步地,本实施例中预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型。
进一步地,本实施例中利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
Figure 12806DEST_PATH_IMAGE001
Figure 296020DEST_PATH_IMAGE002
式中,
Figure 118482DEST_PATH_IMAGE003
表示0时刻飞行路径生成模型的状态空间,
Figure 352892DEST_PATH_IMAGE004
表示1时刻飞行路径生成模型的状态空间,
Figure 20634DEST_PATH_IMAGE005
表示2时刻飞行路径生成模型的状态空间,
Figure 423934DEST_PATH_IMAGE006
表示t-1时刻飞行路径生成模型的状态空间,
Figure 417297DEST_PATH_IMAGE007
表示t时刻飞行路径生成模型的状态空间,
Figure 374889DEST_PATH_IMAGE008
表示0时刻飞行路径生成模型的动作空间,
Figure 111901DEST_PATH_IMAGE009
表示1时刻飞行路径生成模型的动作空间,
Figure 369707DEST_PATH_IMAGE010
表示t-1时刻飞行路径生成模型的动作空间,
Figure 2814DEST_PATH_IMAGE011
为0时刻的奖励函数,
Figure 978860DEST_PATH_IMAGE012
为1时刻的奖励函数,
Figure 253983DEST_PATH_IMAGE013
为t-1时刻的奖励函数,
Figure 366296DEST_PATH_IMAGE014
为t+1时刻的奖励函数,
Figure 435883DEST_PATH_IMAGE015
为t+2时刻的奖励函数,
Figure 633646DEST_PATH_IMAGE016
为t+3时刻的奖励函数,
Figure 213926DEST_PATH_IMAGE017
为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
状态空间
Figure 180745DEST_PATH_IMAGE018
、状态空间
Figure 421233DEST_PATH_IMAGE019
、动作空间
Figure 371872DEST_PATH_IMAGE020
和动作空间
Figure 988798DEST_PATH_IMAGE021
分别为:
Figure 810123DEST_PATH_IMAGE022
Figure 221513DEST_PATH_IMAGE023
Figure 393868DEST_PATH_IMAGE024
Figure 814485DEST_PATH_IMAGE025
式中,D t 表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,
Figure 490317DEST_PATH_IMAGE021
表示t-1时刻环境探索任务模型的动作空间,ρ t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,d t 表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
Figure 338188DEST_PATH_IMAGE020
表示t-1时刻飞行路径生成模型的动作空间,S t 为t时刻无人机集群的已探索区域值,G t 为t时刻其他无人机集群的已探索区域,X t-1表示t-1时刻的历史临时目标点,v t-1为t-1时刻的历史无人机集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
集群线速度,ω t-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q'
初始化当前状态空间
Figure 997839DEST_PATH_IMAGE026
、学习率τ、在线网络μ对应的网络参数θ、在线网络Q对应的网络参数φ、目标网络
Figure 956568DEST_PATH_IMAGE027
对应的网络参数
Figure 516600DEST_PATH_IMAGE028
和目标网络
Figure 269792DEST_PATH_IMAGE029
对应的网络参数
Figure 151161DEST_PATH_IMAGE030
构建经验回放池并初始化;
步骤13,获取t时刻飞行路径生成模型的状态空间
Figure 913580DEST_PATH_IMAGE031
和飞行路径生成模型的动作空间
Figure 829584DEST_PATH_IMAGE032
θ μ t时刻的网络参数θπ为在线网络μ对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的历史临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure 753677DEST_PATH_IMAGE033
,获得奖励r t
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的环境探索任务模型的动作空间
Figure 387921DEST_PATH_IMAGE034
、已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρ t+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离d t+1,得到t+1时刻状态空间
Figure 688452DEST_PATH_IMAGE035
步骤14,将
Figure 193383DEST_PATH_IMAGE036
放入经验回放池中,
Figure 553957DEST_PATH_IMAGE037
t时刻的奖励函数;
步骤15,从经验回放池中随机选取个N样本
Figure 409918DEST_PATH_IMAGE038
输入策略训练网络actor1中,i∈[1,N];
根据折扣因子γ计算在线网络Q在样本i+1下的评估值
Figure 514140DEST_PATH_IMAGE039
,并通过梯度下降方法迭代更新训练网络参数θ和网络参数φ
Figure 634762DEST_PATH_IMAGE040
φ的值更新为
Figure 166237DEST_PATH_IMAGE041
θ的值更新为
Figure 509494DEST_PATH_IMAGE042
式中,
Figure 886249DEST_PATH_IMAGE043
为在线网络Q在样本i下的评估值,
Figure 631351DEST_PATH_IMAGE044
为样本i的奖励函数,
Figure 333727DEST_PATH_IMAGE045
为目标网络
Figure 898701DEST_PATH_IMAGE029
在样本i下的评估值,
Figure 344726DEST_PATH_IMAGE046
为在样本i下的评估值在网络参数φ下的梯度值,
Figure 209914DEST_PATH_IMAGE047
为在样本i下的评估值在动作空间
Figure 83192DEST_PATH_IMAGE048
下的梯度值,
Figure 869882DEST_PATH_IMAGE049
为动作空间
Figure 119598DEST_PATH_IMAGE050
在网络参数θ下的梯度值;
步骤16,
Figure 839292DEST_PATH_IMAGE030
的值更新为
Figure 382007DEST_PATH_IMAGE051
Figure 921573DEST_PATH_IMAGE028
的值更新为
Figure 709400DEST_PATH_IMAGE052
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13。
进一步地,本实施例中
Figure 18022DEST_PATH_IMAGE053
的表达式为:
Figure 233102DEST_PATH_IMAGE054
,
Figure 525543DEST_PATH_IMAGE055
Figure 851482DEST_PATH_IMAGE056
Figure 280190DEST_PATH_IMAGE057
Figure 666172DEST_PATH_IMAGE058
式中,X t-1为t-1时刻的历史临时目标点,即无人机集群当前位置坐标(x,y),X t 表示t时刻的历史临时目标点,若t时刻的临时目标点X t 处于障碍物上则赋值
Figure 180330DEST_PATH_IMAGE120
为负增益-15,若无人机集群所在位置为历史临时目标点则赋值
Figure 309960DEST_PATH_IMAGE120
为正增益15,在有效路径生成时给予正增益
Figure 858753DEST_PATH_IMAGE121
Figure 415636DEST_PATH_IMAGE059
为可变常数权重,
Figure 417090DEST_PATH_IMAGE122
时分配给
Figure 586297DEST_PATH_IMAGE059
设定的较大值,驱动无人机集群做出更合理的下一步动作空间
Figure 989596DEST_PATH_IMAGE123
Figure 717381DEST_PATH_IMAGE061
时分配给
Figure 940552DEST_PATH_IMAGE059
设定的较小值,避免局部最优的极值问题;ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,
Figure 677563DEST_PATH_IMAGE062
为常数固定权重,
Figure 935369DEST_PATH_IMAGE063
为无人机集群的方向变化差,
Figure 834055DEST_PATH_IMAGE064
ε是两个微小常数权重,
Figure 810102DEST_PATH_IMAGE065
为势场引力,
Figure 85225DEST_PATH_IMAGE066
为引力因子,
Figure 931958DEST_PATH_IMAGE067
表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
Figure 267125DEST_PATH_IMAGE068
为斥力因子,
Figure 464888DEST_PATH_IMAGE069
表示为无人机当前位置坐标与障碍物位置坐标的距离,
Figure 543702DEST_PATH_IMAGE070
为障碍物的影响范围,
Figure 9057DEST_PATH_IMAGE071
为势场引力
Figure 515124DEST_PATH_IMAGE072
与势场斥力
Figure 200183DEST_PATH_IMAGE073
之和。
进一步地,本实施例中预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
进一步地,本实施例中利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
Figure 817110DEST_PATH_IMAGE074
,
Figure 638435DEST_PATH_IMAGE075
,
式中,
Figure 315404DEST_PATH_IMAGE076
表示0时刻环境探索任务模型的状态空间,
Figure 487759DEST_PATH_IMAGE077
表示1时刻环境探索任务模型的状态空间,
Figure 908376DEST_PATH_IMAGE078
表示2时刻环境探索任务模型的状态空间,
Figure 584208DEST_PATH_IMAGE079
表示t-1时刻环境探索任务模型的状态空间,
Figure 432079DEST_PATH_IMAGE080
表示t时刻环境探索任务模型的状态空间,
Figure 91730DEST_PATH_IMAGE081
表示0时刻环境探索任务模型的动作空间,
Figure 50459DEST_PATH_IMAGE082
表示1时刻环境探索任务模型的动作空间,
Figure 111956DEST_PATH_IMAGE083
表示t-1时刻环境探索任务模型的动作空间,
Figure 118612DEST_PATH_IMAGE084
为0时刻的奖励函数,
Figure 265559DEST_PATH_IMAGE085
为1时刻的奖励函数,
Figure 27979DEST_PATH_IMAGE086
为t-1时刻的奖励函数,
Figure 943983DEST_PATH_IMAGE087
为t+1时刻的奖励函数,
Figure 133655DEST_PATH_IMAGE088
为t+2时刻的奖励函数,
Figure 236741DEST_PATH_IMAGE089
为t+3时刻的奖励函数,
Figure 537272DEST_PATH_IMAGE124
为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
步骤22,构建策略训练网络actor2中的在线网络μ2、动作评估网络critic2中的在线网络Q2、在线网络μ2目对应的目标网络
Figure 573361DEST_PATH_IMAGE091
、在线网络Q2对应的目标网络
Figure 868689DEST_PATH_IMAGE092
初始化当前状态空间
Figure 364130DEST_PATH_IMAGE125
、学习率τ2在线网络μ2对应的网络参数θ2、在线网络Q2对应的网络参数φ2、目标网络
Figure 406035DEST_PATH_IMAGE091
对应的网络参数
Figure 765472DEST_PATH_IMAGE094
和目标网络
Figure 267254DEST_PATH_IMAGE092
对应的网络参数
Figure 344932DEST_PATH_IMAGE095
构建第二经验回放池并初始化;
步骤23,获取t时刻环境探索任务模型的状态空间
Figure 721686DEST_PATH_IMAGE096
和环境探索任务模型的动作空间
Figure 201209DEST_PATH_IMAGE126
Figure 638007DEST_PATH_IMAGE127
t时刻的网络参数θ2π为在线网络μ2对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure 468560DEST_PATH_IMAGE099
,获得t时刻的奖励函数
Figure 383426DEST_PATH_IMAGE100
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离D t+1 、已知的t时刻飞行路径生成模型的动作空间
Figure 983035DEST_PATH_IMAGE101
、已知的t+1时刻无人机集群的已探索区域值S t+1和已知的t+1时刻其他无人机集群的已探索区域G t+1,获得t+1时刻状态空间
Figure 590733DEST_PATH_IMAGE128
Figure 407117DEST_PATH_IMAGE129
放入第二经验回放池中;
步骤25,从第二经验回放池中随机选取个M个样本
Figure 656833DEST_PATH_IMAGE130
输入策略训练网络actor2中,j∈[1,M];
根据折扣因子γ2计算在线网络Q2在j+1时刻的评估值
Figure 845369DEST_PATH_IMAGE105
,并通过梯度下降方法训练迭代更新网络参数θ2和网络参数φ2
Figure 889548DEST_PATH_IMAGE131
φ2的值更新为
Figure 694693DEST_PATH_IMAGE132
θ2的值更新为
Figure 482521DEST_PATH_IMAGE108
式中,
Figure 791142DEST_PATH_IMAGE109
为在线网络Q2在样本j下的评估值,r j 为样本j的奖励函数,
Figure 6223DEST_PATH_IMAGE110
为目标网络
Figure 298664DEST_PATH_IMAGE092
在样本j下的评估值,
Figure 624603DEST_PATH_IMAGE111
为在样本j下的评估值在网络参数φ2下的梯度值,
Figure 53311DEST_PATH_IMAGE112
为在样本j下的评估值在动作空间
Figure 704872DEST_PATH_IMAGE113
下的梯度值,
Figure 953451DEST_PATH_IMAGE114
为动作空间
Figure 578686DEST_PATH_IMAGE113
在网络参数θ2下的梯度值;
步骤26,
Figure 127479DEST_PATH_IMAGE115
的值更新为
Figure 684362DEST_PATH_IMAGE116
Figure 420237DEST_PATH_IMAGE094
的值更新为
Figure 87979DEST_PATH_IMAGE117
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
进一步地,本实施例中t时刻的奖励函数
Figure 491278DEST_PATH_IMAGE118
的表达式为:
Figure 219063DEST_PATH_IMAGE119
式中,若t时刻的临时目标点X t 处于障碍物上则赋值
Figure 707813DEST_PATH_IMAGE118
为负增益-5,若无人机集群所在位置在其他无人机已探索区域中则赋值
Figure 179246DEST_PATH_IMAGE118
为正增益
Figure 171472DEST_PATH_IMAGE133
α为确定性增益权重,Δ region 为有效探索面积增加值。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。 如图3所示,构建的初始的飞行路径生成模型的网络架构包括第一输入层、第一卷积层、第一池化层、第一密集层和第一输出层,第一输入层、第一卷积层、第一池化层、第一密集层和第一输出层依次连接;
如图4所示,构建的初始的环境探索任务模型的网络架构包括第二输入层、第二卷积层、第二池化层、第二密集层和第二输出层,第二输入层、第二卷积层、第二池化层、第二密集层和第二输出层依次连接;
获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据,将历史起点位置作为0时刻的历史临时目标点;
在飞行路径生成模型中,构建深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,策略训练网络actor1和动作评估网络critic1的网络结构一致,如图3所示。
在环境探索任务模型中,构建深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,策略训练网络actor2和动作评估网络critic2网络结构一致,如图4所示。
两个模型训练完成之后,对于每架无人机而言,首先将通过已经训练完毕的环境探索任务模型,输入无人机当前状态
Figure 335738DEST_PATH_IMAGE134
,c表示第c架无人机,输出动作
Figure 311784DEST_PATH_IMAGE135
,将
Figure 321328DEST_PATH_IMAGE135
作为训练完毕的飞行路径生成模型输入状态
Figure 197755DEST_PATH_IMAGE136
的一部分,输出动作
Figure 267342DEST_PATH_IMAGE137
,生成当前阶段的无人机集群路径轨迹,并将
Figure 730685DEST_PATH_IMAGE137
作为
Figure 543920DEST_PATH_IMAGE138
的一部分再次输入环境探索任务模型进行迭代循环,c=1,2,3,4。
无人机集群上述部件在现有技术中可采用的型号很多,本领域技术人员可根据实际需求选用合适的型号,本实施例不再一一举例。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种面向无人机集群的智能路径规划方法,其特征在于,具体包括如下步骤:
步骤1,获取地图信息、障碍物的位置信息、起点位置和终点位置;
步骤2,若无人机集群位于起点位置,将起点位置作为无人机集群的当前位置坐标;
步骤3,将障碍物的位置信息、无人机集群的当前位置坐标和终点位置输入预先训练获得的环境探索任务模型,预测输出临时目标点;
步骤4,将无人机集群的当前位置坐标和临时目标点输入预先训练获得的飞行路径生成模型,预测输出无人机集群的角速度和无人机集群的线速度;
步骤5,按照预测输出的无人机集群的角速度和无人机集群的线速度,无人机集群移动到预测输出的临时目标点处;
步骤6,判断环境探索任务模型中输出的临时目标点是否为终点位置,若是则结束运行,临时目标点按照时间顺序排列组合获得路径轨迹,否则进入步骤3;
预先训练获得飞行路径生成模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor1和动作评估网络critic1,构建初始的飞行路径生成模型;
利用预先获取的训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型;
利用预先获取的飞行路径训练数据迭代更新初始的飞行路径生成模型,获得训练完成的飞行路径生成模型,通过以下步骤实现:
步骤11,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义马尔可夫决策过程为一个马尔可夫决策序列集合E1:
Figure FDA0004053671030000011
Figure FDA0004053671030000012
式中,
Figure FDA0004053671030000013
表示0时刻飞行路径生成模型的状态空间,
Figure FDA0004053671030000014
表示1时刻飞行路径生成模型的状态空间,
Figure FDA0004053671030000015
表示2时刻飞行路径生成模型的状态空间,
Figure FDA0004053671030000016
表示t-1时刻飞行路径生成模型的状态空间,
Figure FDA0004053671030000021
表示t时刻飞行路径生成模型的状态空间,
Figure FDA0004053671030000022
表示0时刻飞行路径生成模型的动作空间,
Figure FDA0004053671030000023
表示1时刻飞行路径生成模型的动作空间,
Figure FDA0004053671030000024
表示t-1时刻飞行路径生成模型的动作空间,
Figure FDA0004053671030000025
为0时刻的奖励函数,
Figure FDA0004053671030000026
为1时刻的奖励函数,
Figure FDA0004053671030000027
为t-1时刻的奖励函数,
Figure FDA0004053671030000028
为t+1时刻的奖励函数,
Figure FDA0004053671030000029
为t+2时刻的奖励函数,
Figure FDA00040536710300000210
为t+3时刻的奖励函数,
Figure FDA00040536710300000211
为t+τ+1时刻的奖励函数,γ为学习折扣因子,τ为学习率;
状态空间
Figure FDA00040536710300000212
状态空间
Figure FDA00040536710300000213
动作空间
Figure FDA00040536710300000214
和动作空间
Figure FDA00040536710300000215
分别为:
Figure FDA00040536710300000216
Figure FDA00040536710300000217
Figure FDA00040536710300000218
Figure FDA00040536710300000219
式中,Dt表示t时刻可探索范围内的历史无人机集群距与障碍物的距离,
Figure FDA00040536710300000220
表示t-1时刻环境探索任务模型的动作空间,ρt表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的方位,dt表示t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
Figure FDA00040536710300000221
表示t-1时刻飞行路径生成模型的动作空间,St为t时刻无人机集群的已探索区域值,Gt为t时刻其他无人机集群的已探索区域,Xt-1表示t-1时刻的历史临时目标点,vt-1为t-1时刻的历史无人机集群线速度,ωt-1为t-1时刻的历史无人机集群角速度;
步骤12,构建策略训练网络actor1中的在线网络μ、动作评估网络critic1中的在线网络Q、在线网络μ对应的目标网络μ'、在线网络Q对应的目标网络Q';
初始化当前状态空间
Figure FDA00040536710300000222
学习率τ、在线网络μ对应的网络参数θ、在线网络Q对应的网络参数
Figure FDA00040536710300000226
目标网络μ′对应的网络参数θ′和目标网络Q′对应的网络参数
Figure FDA00040536710300000223
构建经验回放池并初始化;
步骤13,获取t时刻飞行路径生成模型的状态空间
Figure FDA00040536710300000224
和飞行路径生成模型的动作空间
Figure FDA00040536710300000225
θμ为t时刻的网络参数θ,π为在线网络μ对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的历史临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure FDA0004053671030000031
获得奖励rt
基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离Dt+1、已知的环境探索任务模型的动作空间
Figure FDA0004053671030000032
已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的方位ρt+1和已知的t时刻的历史临时目标点与t+1时刻的历史临时目标点的距离dt+1,得到t+1时刻状态空间
Figure FDA0004053671030000033
步骤14,将
Figure FDA0004053671030000034
放入经验回放池中,
Figure FDA0004053671030000035
为t时刻的奖励函数;
步骤15,从经验回放池中随机选取个N样本
Figure FDA0004053671030000036
输入策略训练网络actor1中,i∈[1,N];
根据折扣因子γ计算在线网络Q在样本i+1下的评估值
Figure FDA0004053671030000037
并通过梯度下降方法迭代更新训练网络参数θ和网络参数
Figure FDA0004053671030000038
Figure FDA0004053671030000039
Figure FDA00040536710300000324
的值更新为
Figure FDA00040536710300000310
θ的值更新为
Figure FDA00040536710300000311
式中,
Figure FDA00040536710300000312
为在线网络Q在样本i下的评估值,
Figure FDA00040536710300000313
为样本i的奖励函数,
Figure FDA00040536710300000314
为目标网络Q′在样本i下的评估值,
Figure FDA00040536710300000315
为在样本i下的评估值在网络参数
Figure FDA00040536710300000316
下的梯度值,
Figure FDA00040536710300000317
为在样本i下的评估值在动作空间
Figure FDA00040536710300000318
下的梯度值,
Figure FDA00040536710300000319
为动作空间
Figure FDA00040536710300000320
在网络参数θ下的梯度值;
步骤16,
Figure FDA00040536710300000321
的值更新为
Figure FDA00040536710300000322
θ′的值更新为τθ+(1-τ)θ′;
步骤17,若无人机集群到达历史终点位置,则结束运行,获得训练完成的飞行路径生成模型,否则t的数值增加1,进入步骤13;
Figure FDA00040536710300000323
的表达式为:
Figure FDA0004053671030000041
Figure FDA0004053671030000042
Figure FDA0004053671030000043
U(Xt-1)=Ua(Xt-1)+Ur(Xt-1),
ΔU=U(Xt+1)-U(Xt),
式中,Xt-1为t-1时刻的历史临时目标点,Xt表示t时刻的历史临时目标点,α1为可变常数权重,ΔU>0时分配给α1设定的较大值,ΔU<0时分配给α1设定的较小值,ΔU为t+1时刻的历史临时目标点与t时刻的历史临时目标点之间的势场力差,α2为常数固定权重,Δρ为无人机集群的方向变化差,α3和ε是两个微小常数权重,Ua(Xt-1)为势场引力,λ1为引力因子,d(Xt-1,Xt)表示为t-1时刻的历史临时目标点与t时刻的历史临时目标点的距离,
λ2为斥力因子,d(Xt-1,X0)表示为无人机当前位置坐标与障碍物位置坐标的距离,d0为障碍物的影响范围,U(Xt-1)为势场引力Ua(Xt-1)与势场斥力Ur(Xt-1)之和;
预先训练获得环境探索任务模型,通过以下步骤实现:
利用深度确定性策略梯度算法中的策略训练网络actor2和动作评估网络critic2,构建初始的环境探索任务模型;
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型。
2.根据权利要求1所述的一种面向无人机集群的智能路径规划方法,其特征在于,
利用预先获取的训练数据迭代更新初始的环境探索任务模型,获得训练完成的环境探索任务模型,通过以下步骤实现:
步骤21,获取包括历史起点位置、历史终点位置、历史无人机集群距离障碍物的距离信息、历史临时目标点、历史无人机集群线速度和历史无人机集群角速度的训练数据;
将历史起点位置信息作为无人机集群的0时刻的历史临时目标点,t≥1;
定义所述的马尔可夫决策过程为一个马尔可夫决策序列集合E2:
Figure FDA0004053671030000051
Figure FDA0004053671030000052
式中,
Figure FDA0004053671030000053
表示0时刻环境探索任务模型的状态空间,
Figure FDA0004053671030000054
表示1时刻环境探索任务模型的状态空间,
Figure FDA0004053671030000055
表示2时刻环境探索任务模型的状态空间,
Figure FDA0004053671030000056
表示t-1时刻环境探索任务模型的状态空间,
Figure FDA0004053671030000057
表示t时刻环境探索任务模型的状态空间,
Figure FDA0004053671030000058
表示0时刻环境探索任务模型的动作空间,
Figure FDA0004053671030000059
表示1时刻环境探索任务模型的动作空间,
Figure FDA00040536710300000510
表示t-1时刻环境探索任务模型的动作空间,
Figure FDA00040536710300000511
为0时刻的奖励函数,
Figure FDA00040536710300000512
为1时刻的奖励函数,
Figure FDA00040536710300000513
为t-1时刻的奖励函数,
Figure FDA00040536710300000514
为t+1时刻的奖励函数,
Figure FDA00040536710300000515
为t+2时刻的奖励函数,
Figure FDA00040536710300000516
为t+3时刻的奖励函数,
Figure FDA00040536710300000517
为t+τ2+1时刻的奖励函数,γ2为环境探索任务模型的学习折扣因子,τ2为环境探索任务模型的学习率;
步骤22,构建策略训练网络actor2中的在线网络μ2、动作评估网络critic2中的在线网络Q2、在线网络μ2目对应的目标网络μ2′、在线网络Q2对应的目标网络Q2′;
初始化当前状态空间
Figure FDA00040536710300000518
学习率τ2、在线网络μ2对应的网络参数θ2、在线网络Q2对应的网络参数
Figure FDA00040536710300000519
目标网络μ2′对应的网络参数θ2′和目标网络Q2′对应的网络参数
Figure FDA00040536710300000520
构建第二经验回放池并初始化;
步骤23,获取t时刻环境探索任务模型的状态空间
Figure FDA00040536710300000521
和环境探索任务模型的动作空间
Figure FDA00040536710300000522
θ2μ为t时刻的网络参数θ2,π为在线网络μ2对应的策略,用于判断t时刻无人机集群是否到达t-1时刻的临时目标点;
无人机集群执行飞行路径生成模型的动作空间
Figure FDA00040536710300000523
获得t时刻的奖励函数
Figure FDA00040536710300000524
步骤24,基于已知的t+1时刻可探索范围内的历史无人机集群距与障碍物的距离Dt+1、已知的t时刻飞行路径生成模型的动作空间
Figure FDA00040536710300000525
已知的t+1时刻无人机集群的已探索区域值St+1和已知的t+1时刻其他无人机集群的已探索区域Gt+1,获得t+1时刻状态空间
Figure FDA0004053671030000061
Figure FDA0004053671030000062
放入第二经验回放池中;
步骤25,从第二经验回放池中随机选取个M个样本
Figure FDA0004053671030000063
输入策略训练网络actor2中,j∈[1,M];
根据折扣因子γ2计算在线网络Q2在j+1时刻的评估值
Figure FDA0004053671030000064
并通过梯度下降方法训练迭代更新网络参数θ2和网络参数
Figure FDA0004053671030000065
Figure FDA0004053671030000066
Figure FDA0004053671030000067
的值更新为
Figure FDA0004053671030000068
θ2的值更新为
Figure FDA0004053671030000069
式中,
Figure FDA00040536710300000610
为在线网络Q2在样本j下的评估值,rj为样本j的奖励函数,
Figure FDA00040536710300000611
为目标网络Q2′在样本j下的评估值,
Figure FDA00040536710300000612
为在样本j下的评估值在网络参数
Figure FDA00040536710300000613
下的梯度值,
Figure FDA00040536710300000614
为在样本j下的评估值在动作空间
Figure FDA00040536710300000615
下的梯度值,
Figure FDA00040536710300000616
为动作空间
Figure FDA00040536710300000617
在网络参数θ2下的梯度值;
步骤26,
Figure FDA00040536710300000618
的值更新为
Figure FDA00040536710300000619
θ2′的值更新为τ2θ2+(1-τ2)θ2′;
步骤27,若无人机集群到达历史终点位置,则结束运行,获得训练完成的环境探索任务模型,否则t的数值增加1,进入步骤23。
3.根据权利要求2所述的一种面向无人机集群的智能路径规划方法,其特征在于,t时刻的奖励函数
Figure FDA00040536710300000620
的表达式为:
Figure FDA0004053671030000071
式中,α为确定性增益权重,Δregion为有效探索面积增加值。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
CN202211470587.3A 2022-11-23 2022-11-23 一种面向无人机集群的智能路径规划方法 Active CN115562357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211470587.3A CN115562357B (zh) 2022-11-23 2022-11-23 一种面向无人机集群的智能路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211470587.3A CN115562357B (zh) 2022-11-23 2022-11-23 一种面向无人机集群的智能路径规划方法

Publications (2)

Publication Number Publication Date
CN115562357A CN115562357A (zh) 2023-01-03
CN115562357B true CN115562357B (zh) 2023-03-14

Family

ID=84770326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211470587.3A Active CN115562357B (zh) 2022-11-23 2022-11-23 一种面向无人机集群的智能路径规划方法

Country Status (1)

Country Link
CN (1) CN115562357B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857556B (zh) * 2023-01-30 2023-07-14 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法
CN116011695B (zh) * 2023-03-27 2023-06-30 湖南胜云光电科技有限公司 一种获取无人机目标路径的数据处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113064424A (zh) * 2021-03-17 2021-07-02 西安工业大学 一种改进ddpg算法的无人车路径规划方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113064424A (zh) * 2021-03-17 2021-07-02 西安工业大学 一种改进ddpg算法的无人车路径规划方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Optimized Deployment of Multi-UAV based on Machine Learning in UAV-HST Networking;Yu Min Park;《2020 21st Asia-Pacific Network Operations and Management Symposium (APNOMS)》;20201023;102-107 *
Reduce UAV Coverage Energy Consumption through Actor-Critic Algorithm;Bo Liu等;《2019 15th International Conference on Mobile Ad-Hoc and Sensor Networks (MSN)》;20200416;332-337 *
深度强化学习方法在飞行器控制中的应用研究;甄岩等;《战术导弹技术》;20201231(第04期);124-130 *
面向复杂地形的多机器人覆盖路径与运动规划算法研究;汤景韬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220430(第04(2022)期);I140-158 *

Also Published As

Publication number Publication date
CN115562357A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN115562357B (zh) 一种面向无人机集群的智能路径规划方法
Faust et al. Prm-rl: Long-range robotic navigation tasks by combining reinforcement learning and sampling-based planning
Yijing et al. Q learning algorithm based UAV path learning and obstacle avoidence approach
Liu et al. Reinforcement learning based two-level control framework of UAV swarm for cooperative persistent surveillance in an unknown urban area
CN113110592B (zh) 一种无人机避障与路径规划方法
Liu et al. Adaptive sensitivity decision based path planning algorithm for unmanned aerial vehicle with improved particle swarm optimization
CN106979784B (zh) 基于混合鸽群算法的非线性航迹规划
CN110134140B (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN107103164B (zh) 无人机执行多任务的分配方法及装置
Ergezer et al. 3D path planning for multiple UAVs for maximum information collection
Shima et al. UAV cooperative multiple task assignments using genetic algorithms
Hong et al. Energy-efficient online path planning of multiple drones using reinforcement learning
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
Peng et al. Online route planning for UAV based on model predictive control and particle swarm optimization algorithm
Huang et al. A new dynamic path planning approach for unmanned aerial vehicles
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
US20210325891A1 (en) Graph construction and execution ml techniques
Chen et al. Dynamic obstacle avoidance for uavs using a fast trajectory planning approach
CN115060263A (zh) 一种考虑低空风和无人机能耗的航迹规划方法
Ma et al. Adaptive path planning method for UAVs in complex environments
Khalil et al. FED-UP: Federated deep reinforcement learning-based UAV path planning against hostile defense system
de Castro et al. Dynamic path planning based on neural networks for aerial inspection
CN115809609A (zh) 一种多水下自主航行器目标搜索方法及其系统
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant