CN113110592A - 一种无人机避障与路径规划方法 - Google Patents
一种无人机避障与路径规划方法 Download PDFInfo
- Publication number
- CN113110592A CN113110592A CN202110488468.XA CN202110488468A CN113110592A CN 113110592 A CN113110592 A CN 113110592A CN 202110488468 A CN202110488468 A CN 202110488468A CN 113110592 A CN113110592 A CN 113110592A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- obstacle avoidance
- path planning
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000011217 control strategy Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 19
- 238000004088 simulation Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 5
- 230000000750 progressive effect Effects 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。
Description
技术领域
本发明涉及一种结合蒙特卡洛树搜索(MCTS)与对比强化学习技术的无人机避障与路径规划的解决方案,属于无人机飞行控制技术领域。
背景技术
随着科技的飞速发展与进步,无人机性能显著提高,近年来在民用和军用领域都得到了广泛的运用。在无人机技术的运用中,自主飞行和导航是极具挑战的任务,该任务一般分为环境感知、路径规划、无人机飞行控制三个阶段,其中路径规划是基础。在某些特殊场景中GPS信号往往误差较大甚至错误定位,无人机自主路径规划与避障就显得更为重要。无人机的路径规划主要负责无人机在复杂环境中,在最短的时间内从起点到目标点规划一条安全无碰撞路径。
传统的路径规划算法主要有基于图搜索的迪杰斯特(Dijkstra)算法、加入了启发式思想的A*算法及其变体、基于随机采样的快速扩展随机树法(RRT)和基于引力极与斥力极的人工势场法等,这些方法在某些场景已经得到应用。然而这些算法不具备学习能力,导致无人机没有自主决策能力,随着任务难度的增大与环境的复杂,尤其是当无人机处于某些特殊环境(地下、森林等GPS信号较弱甚至缺乏)时,这些算法不能实时有效的提供合理的航迹使得无人机具备应对环境变化和不确定性因素的能力。
近年来随着人工智能高速发展,计算机算力飞速提升,深度强化学习算法发展越发成熟并得到广泛应用。深度强化学习以试错的方式与环境进行交互学习,与传统的算法以及监督学习不同,强化学习算法是决策型算法,强化学习理论应用于机器人控制领域,可以使机器人获得类似于人类的决策能力,在面对难度系数高,复杂未知环境的任务时,在相当程度上可以有自主决策和应对突发情况的能力,使得整个机器人行为策略更加鲁棒。因此在解决传统算法不能应对的,复杂可变环境下的无人机路径规划和避障问题,强化学习有着重要的意义。强化学习实现无人机路径规划已经得到了逐步的应用,然而在无人机路径规划过程中,强化学习算法只能在小范围内进行精细路径规划,且更侧重于提供无人机的动作控制策略,训练难度大,往往在任务空间较大的情况下不容易着眼全局进行路径规划。
基于强化学习在无人机规划中存在的偏重于精细控制而不易着眼全局,训练难度大等问题,本发明结合蒙特卡洛树搜索和对比强化学习,实现无人机避障与路径规划。
发明内容
发明目的:为了克服当前基于强化学习的路径规划方案的不足,本发明提供了一种基于蒙特卡洛树搜索与对比强化学习的无人机避障与路径规划方法。
技术方案:一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服全球定位系统(GPS)在特定环境中信号不足的问题,实现无人机在复杂环境中(室内和室外环境)避障与路径选择的功能。包括以下几个步骤:
(1)搭建模拟器,即环境建模。
(2)将从模拟环境中获取的高维环境信息以及从模拟器中获取的无人机飞行速度、旋角、位置、高度一并作为无人机的高维观测信息,利用深度神经网络对无人机的高维观测信息进行特征提取,并使用深度神经网络指导蒙特卡洛树搜索以及作为强化学习算法的决策网络和价值评估网络。
(3)无人机与模拟环境交互,利用蒙特卡洛树搜索解决无人机在环境中因探索空间过大、奖励稀疏而导致的直接使用强化学习难以学出最优策略的问题。通过蒙特卡洛树搜索进行粗粒度的路径搜索,规划出无人机航线上的阶段性中间目标点,用于强化学习算法训练无人机进行精细的避障与路径规划。
(4)利用强化学习算法,结合粗粒度路径中的阶段性中间目标点信息和无人机与模拟环境交互所得奖励,通过无人机执行动作与模拟环境进行交互生成大量训练数据,学习出无人机精细的控制策略与细粒度的路径规划,获得复杂环境中无人机避障策略以及到达目标点的最优路径。
(5)实施对比学习,训练一个特征编码器,对无人机的高维观测信息进行编码,提取输入观测的特征表征,并使得相似或相同的观测经过编码后所得的特征表征在特征隐空间中不易被区分,不同观测经过编码后所得的特征表征在特征隐空间相互区别。这里,特征表征就是编码后的特征向量。在本发明中,我们采用了余弦相似度来衡量隐空间中特征向量之间的相似程度。余弦相似度表示如下:
其中vec1和vec2表示特征向量。余弦相似度的值域为[0,1],如果特征向量vec1和vec2越相似则它们的余弦相似度越接近1,反之则越接近0。这里我们设定了一个阈值δ,如果特征向量vec1和vec2的余弦相似度CosSim(vec1,vec2)小于阈值δ,我们就认为特征向量vec1和vec2是不相似的即容易被区分的,如果大于阈值δ,我们就认为特征向量vec1和vec2是相似的即不易被区分的。策略网络与价值网络通过处理特征表征而不是原始的高维输入来提高强化学习的样本利用率,加速强化学习的策略收敛。
所述(1)中,所述环境基于空气动力学以及无人机自身性能参数搭建,这是无人机路径规划的重要环节,也是强化学习的重要组成部分。目的是通过计算机建模,将实际的物理空间抽象成仿真环境,实现真实与虚拟的相互映射,用于无人机与环境的交互与试错。整个仿真模拟系统即模拟器,基于Unity3D构建,主要包括了空气动力学仿真、无人机控制系统以及无人机飞行环境。
无人机的初始状态,包括起点与终点的任务信息,无人机在模拟器中感知到的高维环境信息,以及无人机自身飞行速度、旋角、位置、高度,一起作为无人机从仿真模拟器中获得的观测信息。所述环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。
所述(4)中,使用近端策略优化(PPO)算法,训练无人机的策略网络,学习出从起点经过所有中间目标点顺利避障到达最终目标点的无人机的精细控制策略,由此得到精细的最优路径。
所述(5)中,无人机的高维观测信息是高维输入,直接使用强化学习学习策略,训练数据样本利用率不高。通过对比学习将高维输入映射到特征隐空间中,通过编码器抽取出输入的特征表征,以此加速强化学习的收敛速度,提高样本利用率,降低学习成本。
基于动力学以及真实环境建立的模拟器可以仿真无人机控制操作和飞行特性,提供与真实场景下一致的无人机观测信息并模拟出无人机的飞行状态。同时该环境可以模拟无人机可能的任务场景以及环境中的障碍物。由于该方案用于解决无人机避障与路径规划,因此模拟器中将障碍物设置为无法直接翻越,除此之外可以是任意形状大小的障碍物。无人机在环境中可以获得观测信息,无人机根据这些信息作出相应动作获得奖励,其过程可以定义为马尔科夫决策过程(MDP),用元组(O,A,P,R,γ)表示,其中O表示观测状态信息,A表示无人机动作空间,P是状态转移概率矩阵,R是奖励函数,γ是折扣率。
所述的观测状态信息包括:无人机在模拟器中可以获得周身环境信息,包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离,以及无人机自身状态信息,包括无人机当前飞行速度、旋角、位置、高度。
由于无人机作为智能体与环境交互过程中,探索空间巨大,直接使用强化学习算法训练无人机面临奖励稀疏的问题,训练难度大,且无人机的飞行任务较为复杂,利用蒙特卡洛树搜索可以将任务拆分为阶段性小任务的组合。蒙特卡洛树搜索是一种预演算法,通过累积蒙特卡洛模拟得到的价值估计,将模拟导向高收益的轨迹。我们将整个无人机飞行避障区域栅格化,将连续的飞行空间离散化,即将无人机飞行任务空间等距划分为不同的离散的网格子空间,以简化任务复杂度。在不考虑无人机精细控制,只考虑无人机在栅格化区域中的避障飞行路径的前提下,利用蒙特卡洛树搜索先在整个搜索空间中找到在栅格中避障移动的最优路径,得到中间目标点。再利用强化学习算法训练无人机的精细控制和路径规划,将原本强化学习对整个无人机任务空间的搜索简化成在粗略规划后的包含中间目标点的路径上的精细搜索,大大提高了强化学习的学习效率和路径规划的合理性。
所述的强化学习算法中:使用深度神经网络作为无人机的决策网络和价值评估网络,其中使用多层感知机(MLP)处理高维的无人机观测数据,使用长短期记忆网络(LSTM)处理时序信息。无人机利用当前策略以及起点、终点和蒙特卡洛树搜索生成的中间目标点信息,在模拟器中与环境交互,获得奖励并采集样本。利用近端策略优化算法,借助采集得到的样本训练优化无人机策略直到策略收敛。近端策略优化算法是一种策略梯度算法,基于Actor-Critic架构。近端策略优化算法是一阶优化算法,能够较快的运行,这使得近端策略优化算法在循环神经网络以及分布空间很广的问题上有很好的效果。
所述的奖励:我们需要强化学习学出无人机以最优路径无碰撞的到达目标点的策略,因此需要使用加权的混合奖励函数,具体包括无人机距离目标点的渐进奖励Radv、无人机成功到达中间点的奖励RarriveMid、无人机成功抵达最终目标点的奖励RarriveFinal、无人机因未能躲避障碍而碰撞坠毁的惩罚Rcollision。完整的奖励函数如下所示:
Rtotal=α1Radv+α2RarriveMid+α3RarriveFinal+α4Rcollision
其中,α1、α2、α3、α4为权重系数,Rcollision是惩罚所以小于0。
在强化学习训练过程中,使用对比学习作为辅助任务,学习高维输入相应的特征表征。对比学习在特征层面学习,可以大大提升强化学的样本利用率,加快强化学习的收敛速度。
与现有技术相比,本发明具有的益处有:
(1)相比于传统算法,强化学习训练的智能体具有较强的决策能力,在面对复杂,动态以及不确定性较高的环境与任务时,仍然可以取得较好的表现,智能体行为更鲁棒。
(2)使用近端策略优化算法,近端策略优化算法是一种高效的强化学习算法,可以解决一般策略梯度算法面临的数据样本利用率低和鲁棒性差的问题,在游戏、机器人控制等领域已经得到了较好的应用。
(3)相比于仅使用强化学习进行路径规划,使用蒙特卡洛树搜索充当策略提升器,得到粗粒度的规划路径与中间目标点,可以将复杂任务拆分为简单任务的集合。由于近端策略优化算法是通过采样动作概率以及在损失函数中加入一项熵(entropy)的方式来进行探索的,因此直接使用近端策略优化算法的探索,无人机在模拟环境中难以探索出高回报的轨迹,奖励的稀疏导致了强化学习算法难以收敛到最优策略。因此将无人机任务空间栅格化,在离散化的栅格中先采用蒙特卡洛树搜索进行粗略路径搜索,再利用强化学习针对粗略路径上的每一段进行训练,最终得到精确的路径规划和无人机避障策略。
(4)使用对比学习。强化学习由于探索-利用困境,需要同环境大量交互,样本利用率低。而对于高维复杂输入,神经网络处理难度更大,样本利用率更低,为了解决这个问题加速强化学习训练,本发明利用对比学习作为近端策略优化算法的辅助任务,增加对输入观测的特征提取任务,进行了数据增强。通过将编码器提取的特征表征用于策略网络和价值网络的学习,加速强化学习训练迭代。
附图说明
图1是本发明方法原理图;
图2是无人机进行避障和路径规划任务的示意图;
图3是对比学习原理图;
图4是训练流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
步骤一:
基于Unity3D引擎构建一个仿真模拟器,模拟器提供模拟环境用于无人机与环境的交互以及避障与路径选择策略的训练。模拟环境中包括无人机、不可直接翻越的各类障碍物,可以模拟各种任务环境。模拟器可以提供无人机本身的性能参数指标,包括了无人机本身的动力学参数,以及飞行速度、旋角、位置、高度信息,同时模拟器可以提供无人机周围的环境观测信息,其中包含了障碍物信息、无人机与障碍物之间的距离信息和无人机距离目标点的距离。无人机与环境交互所得的奖励也由模拟环境提供,模拟环境提供的是多种奖励的混合奖励,具体包括无人机距离目标点的渐进奖励、无人机成功到达中间点的奖励、无人机成功抵达目标点的奖励、无人机因撞击障碍物等不安全飞行导致的坠毁惩罚。
无人机的初始状态,包括起点与终点的任务信息,无人机在模拟器中感知到的高维环境信息,以及无人机飞行速度、旋角、位置、高度,一起作为无人机从仿真模拟器中获得的观测信息。环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。
无人机在环境中可以获得观测信息,无人机根据这些信息作出相应动作获得奖励,其过程可以定义为马尔科夫决策过程(MDP),用元组(O,A,P,R,γ)表示,其中O表示观测状态信息,A表示无人机动作空间,P是状态转移概率矩阵,R是奖励函数,γ是折扣率。
步骤二:
设计奖励函数。强化学习训练中,最关键的一步是设计适合的奖励函数,即设计R(s,a)=E[Rt+1|s,a],其中s表示状态,a表示动作,Rt+1表示t+1时刻的奖励值。为了使无人机学会避障和到达目标点,设计了撞机惩罚Rcollision和到达最终目标点奖励RarriveFinal。由于本方案采用了蒙特卡洛树搜索规划粗略路径以及生成相应阶段性中间目标点,因此当无人机达到中间目标点时,也会给予一个到达中间目标点奖励RarriveMid。为了使得无人机可以在避障的同时,规划出代价最小的路径(即最快达到目标点的路径),设计了一个渐进的奖励Radv,其中渐进奖励具体表示如下:
其中Discurr表示无人机当前时刻距离最终目标点的距离,Dispre表示无人机上一时刻距离最终目标点的距离,maxDis表示无人机初始位置距离最终目标点的距离,0.001是一个常数用于防止除数为0。完整的奖励函数如下所示:
Rtotal=α1Radv+α2RarriveMid+α3RarriveFinal+α4Rcollision
其中,α1、α2、α3、α4为权重系数,Rcollision是惩罚所以小于0。
步骤三:
利用蒙特卡洛树搜索进行无人机飞行路径的粗略搜索,并生成粗粒度的无人机策略和中间目标点。蒙特卡洛树搜索是一种预演算法,核心思想是对从当前状态出发的多个模拟轨迹不断地聚焦和选择,通过选择,拓展,模拟,回溯四个步骤增量式的逐步添加节点来进行树扩展生成大量的模拟轨迹,最后选择出获得较高收益回报的策略轨迹。本发明中,我们将无人机飞行任务空间栅格化,使得原本连续的空间离散化,即将无人机飞行任务空间等距划分为不同的离散的网格子空间。蒙特卡洛树搜索每一步所处的状态s即为无人机当前的观测。同时,因为蒙特卡洛树搜索的目的并非无人机精细控制,而是在栅格化的空间中搜索出粗略的飞行路线,因此在树搜索的过程中,对无人机的动作抽象离散化成在栅格中的移动——上,下,前,后,左,右,前向左上,前向左下,前向右上,前向右下,后向左上,后向左下,后向右上,后向右下。我们使用参数化的深度神经网络记为fθ,其中θ表示深度神经网络的参数。这个神经网络把无人机当前的观测信息s作为输入,输出无人机的动作概率p和对当前状态的一个价值评估v,即(p,v)=fθ(s)。构建蒙特卡洛树,并使用神经网络fθ指导蒙特卡洛树搜索。对于每个状态s,由神经网络fθ的预测结果作为参考执行蒙特卡洛树搜索。蒙特卡洛树搜索输出无人机可能的动作概率π,这个输出的概率π通常比神经网络fθ输出的原始概率p更强,因此蒙特卡洛树搜索可被视为一个强有力的策略提升器。训练过程中,不断更新神经网络的参数以使得网络输出的无人机动作概率p,更接近蒙特卡洛树搜索所提升的无人机动作概率π,并使得网络输出的价值评估v更准确。蒙特卡洛树搜索使用深度神经网络fθ来指导搜索(模拟),搜索树的每个边(s,a)存储先验概率P(s,a),访问计数N(s,a)和动作-价值Q(s,a)。每次搜索从根状态开始,迭代地选择上置信界(UCB)Q(s,a)+U(s,a)最大的动作(其中直到遇到叶子节点。接着展开叶子节点,叶子节点只会被神经网络扩展和评估一次,以产生先验概率和价值评估。交互模拟直到达到表示终止状态的节点,然后回溯更新树搜索中遍历到的每一个边(s,a)的访问次数N(s,a)和动作价值Q(s,a)。上述过程反复迭代,随着采样次数的增加,搜索树会越来越大,会覆盖越来越多的无人机状态。当蒙特卡洛树搜索采样完成后,无人机可以对当前的状态选择动作同环境进行交互,重复上述过程直到交互终止。利用交互产生的轨迹数据,训练神经网络fθ,反复迭代整个搜索及采样过程。随着训练的进行,fθ的预测会逐渐收敛,最终得到无人机在栅格化飞行空间中从起始点到终点的移动策略,利用该移动策略可以得到粗略的避障路径,至此整个蒙特卡洛树搜索完成。
通过蒙特卡洛树搜索,得到一条粗略的避障路线,在该路线上可以按比例取得中间目标点,这样就将一个复杂的路径规划过程分解成若干个相对简单的路径规划过程的组合。
步骤四:
利用近端策略优化(PPO)算法基于蒙特卡洛树搜索获得的粗略路径与中间目标点,训练无人机避障并到达最终目标点。近端策略优化算法,是一种基于Actor-Critic框架的算法,使用参数化的Actor网络来根据当前的状态产生动作,使用参数化的Critic网络来评估Actor产生的动作,产生一个更好的梯度估计值。在策略梯度算法中,网络参数θ更新的目标函数为:
L(θ)=E[logπ(at|st;θ)At(st,at)]
其中At(st,at)为优势函数,定义为At(st,at)=Qt(st,at)-Vt(st),其中Qt(st,at)是动作价值函数,Vt(st)是价值函数。为了保证策略单调不减,将目标函数修改为:
新旧策略的KL散度满足约束:
其中δ为常数。近端策略优化算法将约束项作为惩罚项引入目标函数,即将目标函数修改为:
其中β是系数。
将新旧策略比值记为:
再用截断项代替KL散度,最终的目标函数为:
L(θ)=E[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)]
其中clip函数为截断函数。
步骤五:
无人机使用步骤三中得到阶段性目标点信息与模拟环境进行交互,由无人机的策略网络给出动作A,和环境交互所得的状态以及奖励生成大量<S,A,R,S’,D>的样本,利用近端策略优化算法优化策略网络和价值网络直到网络收敛。
步骤六:
实施对比学习。对无人机获得的高维观测信息进行数据增强。具体做法是,从输入的原始高维观测矩阵中心以一定比例截取子矩阵作为锚点(anchor),在原始高维观测矩阵中以相同比例任意截取子矩阵作为正样本(positive),在其他观测矩阵中以相同大小任意截取子矩阵作为负样本(negative)。训练两个神经网络Encoderq和Encoderk作为编码器,其中Encoderq输出对锚点提取的特征,Encoderk输出对正负样本提取的特征;使用相似度评价损失:
其中q表示锚点特征,k+表示正样本特征,ki表示负样本特征,CosSim是余弦相似度用于衡量特征之间的相似程度,τ是一个超参称为温度系数;通过最小化相似度评价损失,使得Encoderk提取的正样本特征和Encoderq提取的锚点样本特征更接近,Encoderk提取负样本特征和Encoderq提取的锚点样本特征更不同;训练结束后,将只保留Encoderq。通过上述过程,训练得到的Encoderq可以保证对观测信息提取的特征表征是有效的特征,Encoderq作为策略网络和价值网络的一部分,可以极大地增加强化学习的样本利用率,加速强化学习训练速度。训练结束后,将只保留Encoderq。对比学习辅助强化学习任务的示意图如图3所示。本发明的整体训练流程如图4所示。
Claims (9)
1.一种无人机避障与路径规划方法,其特征在于:结合蒙特卡洛树搜索与对比强化学习算法,实现无人机避障与路径选择的功能,包括以下几个步骤:
(1)搭建无人机飞行环境的模拟器;
(2)利用深度神经网络对从模拟器中获取的高维观测信息进行特征提取;并使用深度神经网络指导蒙特卡洛树搜索以及作为强化学习算法的决策网络和价值评估网络;
(3)模拟器的无人机与模拟环境交互,通过蒙特卡洛树搜索进行粗粒度的路径搜索,规划出无人机航线上的阶段性中间目标点,用于强化学习算法训练无人机进行精细的避障与路径规划;
(4)利用强化学习算法,结合蒙特卡洛树搜索得到的粗粒度路径中的阶段性中间目标点信息和无人机与模拟环境交互所得奖励,通过无人机执行动作与模拟环境进行交互生成训练数据,学习无人机精细的控制策略和细粒度的路径规划,获得复杂环境中无人机避障策略以及到达目标点的最优路径;
(5)实施对比学习,训练一个特征编码器,对无人机观测信息进行编码,提取输入观测的特征表征,并使得相似或相同的观测经过编码后所得的特征表征在特征隐空间中不易被区分,不同观测经过编码后所得的特征表征在特征隐空间相互区别;策略网络与价值网络通过处理特征表征提高强化学习的策略收敛速度。
2.根据权利要求1所述的无人机避障与路径规划方法,其特征在于:所述的模拟器是基于Unity3D构建的一个包括空气动力学、无人机控制系统以及无人机飞行环境的真实仿真模拟系统;在模拟器中无人机的初始状态,包括起点与终点的任务信息,无人机在模拟器中感知到的高维环境信息,以及无人机自身飞行速度、旋角、位置、高度,一起作为无人机从仿真模拟器中获得的观测信息;所述环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。
3.根据权利要求1所述的无人机避障与路径规划方法,其特征在于:所述(4)中,使用近端策略优化算法,训练无人机的策略网络,学习出从起点经过所有中间目标点顺利避障到达最终目标点的无人机控制策略,由此得到精细的最优路径。
4.根据权利要求1所述的无人机避障与路径规划方法,其特征在于:无人机在环境中能获得观测信息,无人机根据这些信息作出相应动作获得奖励,其过程定义为马尔科夫决策过程,用元组(O,A,P,R,γ)表示,其中O表示观测状态信息,A表示无人机动作空间,P是状态转移概率矩阵,R是奖励函数,γ是折扣率。
5.根据权利要求1所述的无人机避障与路径规划方法,其特征在,利用蒙特卡洛树搜索进行粗粒度的路径搜索时,将整个无人机飞行避障区域栅格化,将连续的飞行空间离散化,即将无人机飞行任务空间等距划分为不同的离散的网格子空间,在不考虑无人机精细控制,只考虑无人机在栅格化区域中的避障飞行路径的前提下,利用蒙特卡洛树搜索先在整个搜索空间中找到在栅格中避障移动的最优路径,得到中间目标点;再利用强化学习算法训练无人机精细的控制策略和细粒度的路径规划。
6.根据权利要求1所述的无人机避障与路径规划方法,其特征在于,所述强化学习算法中:使用深度神经网络作为无人机的决策网络和价值评估网络,其中使用多层感知机处理高维的无人机观测数据,使用长短期记忆网络处理时序信息;无人机利用当前策略以及起点、终点和蒙特卡洛树搜索生成的中间目标点信息,在模拟器中与环境交互,获得奖励并采集样本;利用近端策略优化算法,借助采集得到的样本训练优化无人机策略直到策略收敛。
7.根据权利要求1所述的无人机避障与路径规划方法,其特征在于,所述奖励使用使用加权的混合奖励函数,具体包括无人机距离目标点的渐进奖励Radv、无人机成功到达中间点的奖励RarriveMid、无人机成功抵达最终目标点的奖励RarriveFinal、无人机因未能躲避障碍而碰撞坠毁的惩罚Rcollision;完整的奖励函数如下所示:
Rtotal=α1Radv+α2RarriveMid+α3RarriveFinal+α4Rcollision
其中,α1、α2、α3、α4为权重系数,Rcollision是惩罚所以小于0。
8.根据权利要求3所述的无人机避障与路径规划方法,其特征在于,利用近端策略优化算法基于蒙特卡洛树搜索获得的粗略路径与中间目标点,训练无人机避障并到达最终目标点;近端策略优化算法,是一种基于Actor-Critic框架的算法,使用参数化的Actor网络来根据当前的状态产生动作,使用参数化的Critic网络来评估Actor产生的动作,产生一个更好的梯度估计值;在策略梯度算法中,网络参数θ更新的目标函数为:
L(θ)=E[logπ(at|st;θ)At(st,at)]
其中At(st,at)为优势函数,定义为At(st,at)=Qt(st,at)-Vt(st);其中Qt(st,at)是动作价值函数,Vt(st)是价值函数;为了保证策略单调不减,将目标函数修改为:
新旧策略的KL散度满足约束:
其中δ为常数;近端策略优化算法将约束项作为惩罚项引入目标函数,即将目标函数修改为:
其中β是系数;
将新旧策略比值记为:
再用截断项代替KL散度,最终的目标函数为:
L(θ)=E[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)]
其中clip函数为截断函数。
9.根据权利要求1所述的无人机避障与路径规划方法,其特征在于,对比学习中,对无人机获得的高维观测信息进行数据增强;具体做法是,从输入的原始高维观测矩阵中心以一定比例截取子矩阵作为锚点,在原始高维观测矩阵中以相同比例任意截取子矩阵作为正样本,在其他观测矩阵中以相同大小任意截取子矩阵作为负样本;训练两个神经网络Encoderq和Encoderk作为编码器,其中Encoderq输出对锚点提取的特征,Encoderk输出对正负样本提取的特征;使用相似度评价损失:
其中,q表示锚点特征,k+表示正样本特征,ki表示负样本特征,CosSim是余弦相似度,用于衡量特征之间的相似程度,τ是一个超参称为温度系数;通过最小化相似度评价损失,使得Encoderk提取的正样本特征和Encoderq提取的锚点样本特征更接近,Encoderk提取负样本特征和Encoderq提取的锚点样本特征更不同;训练结束后,将只保留Encoderq。通过上述过程,训练得到的Encoderq可以保证对观测信息提取的特征表征是有效的特征,Encoderq作为策略网络和价值网络的一部分,可以极大地增加强化学习的样本利用率,加速强化学习训练速度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442546 | 2021-04-23 | ||
CN2021104425462 | 2021-04-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113110592A true CN113110592A (zh) | 2021-07-13 |
CN113110592B CN113110592B (zh) | 2022-09-23 |
Family
ID=76720991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110488468.XA Active CN113110592B (zh) | 2021-04-23 | 2021-05-06 | 一种无人机避障与路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113110592B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113467487A (zh) * | 2021-09-06 | 2021-10-01 | 中国科学院自动化研究所 | 路径规划模型的训练、路径规划方法、装置及电子设备 |
CN113625733A (zh) * | 2021-08-04 | 2021-11-09 | 北京工业大学 | 一种基于ddpg多目标三维无人机路径规划方法 |
CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN114020024A (zh) * | 2021-11-05 | 2022-02-08 | 南京理工大学 | 基于蒙特卡洛树搜索的无人机路径规划方法 |
CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114237303A (zh) * | 2021-11-17 | 2022-03-25 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于蒙特卡洛树搜索的无人机路径规划方法及装置 |
CN114371724A (zh) * | 2021-12-03 | 2022-04-19 | 中国人民解放军海军航空大学 | 一种飞行器的避障方法及系统 |
CN114428517A (zh) * | 2022-01-26 | 2022-05-03 | 海南大学 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114596042A (zh) * | 2022-05-10 | 2022-06-07 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种货物运输的方法、装置、电子设备及存储介质 |
CN114625170A (zh) * | 2022-03-24 | 2022-06-14 | 中国民用航空飞行学院 | 一种山区火灾直升机救援飞行路径动态规划方法 |
CN114625151A (zh) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114815801A (zh) * | 2021-12-30 | 2022-07-29 | 复旦大学 | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115097853A (zh) * | 2022-05-18 | 2022-09-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
CN115292959A (zh) * | 2022-08-29 | 2022-11-04 | 南京航空航天大学 | 一种基于自适应强化学习的飞机维修路径优化方法 |
CN115330095A (zh) * | 2022-10-14 | 2022-11-11 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN115454096A (zh) * | 2022-10-09 | 2022-12-09 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN115877868A (zh) * | 2022-12-01 | 2023-03-31 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN116027807A (zh) * | 2023-02-01 | 2023-04-28 | 南京航空航天大学 | 一种异构无人机群协同电力巡检方法 |
CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN116432690A (zh) * | 2023-06-15 | 2023-07-14 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN116519005A (zh) * | 2023-07-04 | 2023-08-01 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
CN117111640A (zh) * | 2023-10-24 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117193378A (zh) * | 2023-10-24 | 2023-12-08 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117634548A (zh) * | 2024-01-26 | 2024-03-01 | 西南科技大学 | 一种无人机行为树调整与优化方法及系统 |
CN117978916A (zh) * | 2024-04-01 | 2024-05-03 | 中国民用航空飞行学院 | 一种管制员通话负荷预测方法及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN109126140A (zh) * | 2018-08-30 | 2019-01-04 | 北京深极智能科技有限公司 | 游戏难度评估方法、装置和系统 |
CN110514206A (zh) * | 2019-08-02 | 2019-11-29 | 中国航空无线电电子研究所 | 一种基于深度学习的无人机飞行路径预测方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111487992A (zh) * | 2020-04-22 | 2020-08-04 | 北京航空航天大学 | 基于深度强化学习的无人机感知与避障一体化方法及设备 |
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
US20200372822A1 (en) * | 2019-01-14 | 2020-11-26 | Polixir Technologies Limited | Training system for autonomous driving control policy |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112329348A (zh) * | 2020-11-06 | 2021-02-05 | 东北大学 | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 |
CN112476424A (zh) * | 2020-11-13 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 机器人控制方法、装置、设备及计算机存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
-
2021
- 2021-05-06 CN CN202110488468.XA patent/CN113110592B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN109126140A (zh) * | 2018-08-30 | 2019-01-04 | 北京深极智能科技有限公司 | 游戏难度评估方法、装置和系统 |
US20200372822A1 (en) * | 2019-01-14 | 2020-11-26 | Polixir Technologies Limited | Training system for autonomous driving control policy |
CN110514206A (zh) * | 2019-08-02 | 2019-11-29 | 中国航空无线电电子研究所 | 一种基于深度学习的无人机飞行路径预测方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111487992A (zh) * | 2020-04-22 | 2020-08-04 | 北京航空航天大学 | 基于深度强化学习的无人机感知与避障一体化方法及设备 |
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112329348A (zh) * | 2020-11-06 | 2021-02-05 | 东北大学 | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 |
CN112476424A (zh) * | 2020-11-13 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 机器人控制方法、装置、设备及计算机存储介质 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
Non-Patent Citations (12)
Title |
---|
EIVIND BØHN 等: "《Deep Reinforcement Learning Attitude Control of Fixed-Wing UAVs Using Proximal Policy Optimization》", 《2019 INTERNATIONAL CONFERENCE ON UNMANNED AIRCRAFT SYSTEMS》 * |
JOHN SCHULMAN 等: "《Proximal Policy Optimization Algorithms》", 《ARXIV》 * |
MENG LAN 等: "《Defect Detection from UAV Images based on Region-Based CNNs》", 《INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS》 * |
XUAN LI 等: "《Trajectory Design and Generalization for UAV Enabled Networks:A Deep Reinforcement Learning 》Approach", 《IEEE》 * |
ZHIWEI CHEN 等: "《An Actor-Critic-Based UAV-BSs Deployment Method for Dynamic Environments》", 《IEEE》 * |
姚开棣 等: "《长空无人机系列燃油系统原理性能分析研究》", 《南京航空学院学报》 * |
张 倩 等: "《基于自监督表征学习的海面目标检测方法》", 《水下无人系统学报》 * |
张振 等: "《基于近端策略优化的作战实体博弈对抗算法》", 《南京理工大学学报》 * |
徐如阳 等: "《卷积自注意力编码过滤的强化自动摘要模型》", 《小型微型计算机系统》 * |
甄岩 等: "《深度强化学习方法在飞行器控制中的应用研究》", 《战术导弹技术》 * |
窦强: "《基于强化学习的定位与导航方法研究》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
邱月: "《多约束复杂环境下UAV航迹规划策略自学习方法》", 《计算机工程》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113625733A (zh) * | 2021-08-04 | 2021-11-09 | 北京工业大学 | 一种基于ddpg多目标三维无人机路径规划方法 |
CN113671834B (zh) * | 2021-08-24 | 2023-09-01 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
CN113467487A (zh) * | 2021-09-06 | 2021-10-01 | 中国科学院自动化研究所 | 路径规划模型的训练、路径规划方法、装置及电子设备 |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114020013B (zh) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114020024B (zh) * | 2021-11-05 | 2023-03-31 | 南京理工大学 | 基于蒙特卡洛树搜索的无人机路径规划方法 |
CN114020024A (zh) * | 2021-11-05 | 2022-02-08 | 南京理工大学 | 基于蒙特卡洛树搜索的无人机路径规划方法 |
CN114237303A (zh) * | 2021-11-17 | 2022-03-25 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于蒙特卡洛树搜索的无人机路径规划方法及装置 |
CN114371724A (zh) * | 2021-12-03 | 2022-04-19 | 中国人民解放军海军航空大学 | 一种飞行器的避障方法及系统 |
CN114815801A (zh) * | 2021-12-30 | 2022-07-29 | 复旦大学 | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 |
CN114428517A (zh) * | 2022-01-26 | 2022-05-03 | 海南大学 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
CN114518770B (zh) * | 2022-03-01 | 2024-05-31 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114625151A (zh) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114625151B (zh) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114625170A (zh) * | 2022-03-24 | 2022-06-14 | 中国民用航空飞行学院 | 一种山区火灾直升机救援飞行路径动态规划方法 |
CN114596042A (zh) * | 2022-05-10 | 2022-06-07 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种货物运输的方法、装置、电子设备及存储介质 |
CN115097853A (zh) * | 2022-05-18 | 2022-09-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN114967721B (zh) * | 2022-06-08 | 2024-04-16 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115292959A (zh) * | 2022-08-29 | 2022-11-04 | 南京航空航天大学 | 一种基于自适应强化学习的飞机维修路径优化方法 |
CN115292959B (zh) * | 2022-08-29 | 2024-03-12 | 南京航空航天大学 | 一种基于自适应强化学习的飞机维修路径优化方法 |
CN115454096A (zh) * | 2022-10-09 | 2022-12-09 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN115330095A (zh) * | 2022-10-14 | 2022-11-11 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN115877868A (zh) * | 2022-12-01 | 2023-03-31 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN115877868B (zh) * | 2022-12-01 | 2024-01-26 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN116027807A (zh) * | 2023-02-01 | 2023-04-28 | 南京航空航天大学 | 一种异构无人机群协同电力巡检方法 |
CN116301027B (zh) * | 2023-02-08 | 2023-12-05 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN116432690A (zh) * | 2023-06-15 | 2023-07-14 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN116432690B (zh) * | 2023-06-15 | 2023-08-18 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN116519005A (zh) * | 2023-07-04 | 2023-08-01 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
CN116519005B (zh) * | 2023-07-04 | 2023-10-03 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
CN117193378B (zh) * | 2023-10-24 | 2024-04-12 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117111640B (zh) * | 2023-10-24 | 2024-01-16 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117193378A (zh) * | 2023-10-24 | 2023-12-08 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117111640A (zh) * | 2023-10-24 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117634548A (zh) * | 2024-01-26 | 2024-03-01 | 西南科技大学 | 一种无人机行为树调整与优化方法及系统 |
CN117978916A (zh) * | 2024-04-01 | 2024-05-03 | 中国民用航空飞行学院 | 一种管制员通话负荷预测方法及设备 |
CN117978916B (zh) * | 2024-04-01 | 2024-05-28 | 中国民用航空飞行学院 | 一种管制员通话负荷预测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113110592B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Faust et al. | Prm-rl: Long-range robotic navigation tasks by combining reinforcement learning and sampling-based planning | |
CN110703766B (zh) | 一种基于迁移学习策略深度q网络的无人机路径规划方法 | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN111142522A (zh) | 一种分层强化学习的智能体控制方法 | |
CN114489059B (zh) | 基于d3qn-per移动机器人路径规划方法 | |
CN112034887A (zh) | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 | |
CN112148008A (zh) | 一种基于深度强化学习的实时无人机路径预测方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113641192A (zh) | 一种基于强化学习的无人机群智感知任务的路径规划方法 | |
CN115435787B (zh) | 一种基于改进蝴蝶算法的无人机三维路径规划方法及系统 | |
CN114967680B (zh) | 基于蚁群算法和卷积神经网络的移动机器人路径规划方法 | |
CN116307331B (zh) | 航空器轨迹的规划方法 | |
Jiang et al. | Research on autonomous obstacle avoidance and target tracking of UAV based on improved dueling DQN algorithm | |
CN116562332A (zh) | 一种人机共融环境下的机器人社交性运动规划方法 | |
CN116360454A (zh) | 行人环境下基于深度强化学习的机器人路径避碰规划方法 | |
CN114815875A (zh) | 一种基于集合满射鸽群智能优化的无人机集群编队控制器调参方法 | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Shihab et al. | Obstacle Avoidance and Path Planning for UAV Using Laguerre Polynomial. | |
CN117036966B (zh) | 地图中点位特征的学习方法、装置、设备及存储介质 | |
CN113962031B (zh) | 一种基于图神经网络强化学习的异质平台冲突消解方法 | |
Peng et al. | An improved DDPG algorithm for UAV navigation in large-scale complex environments | |
WANG et al. | A Cellular Ant Colony Algorithm for Path Planning Using Bayesian Posterior Probability | |
CN111486847B (zh) | 一种无人机导航方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |