CN113110592A

CN113110592A - 一种无人机避障与路径规划方法

Info

Publication number: CN113110592A
Application number: CN202110488468.XA
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 沈维捷; 秦熔均; 袁雷; 庞竟成; 管聪; 黄宇洋
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-23
Filing date: 2021-05-06
Publication date: 2021-07-13
Anticipated expiration: 2041-05-06
Also published as: CN113110592B

Abstract

本发明公开一种无人机避障与路径规划方法，结合蒙特卡洛树搜索与对比强化学习算法，克服GPS在特定环境中信号不足的问题，实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤：(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息，利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划，生成无人机前进路径中的阶段性目标点，用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高，不确定因素大的复杂环境中有自主决策能力，在相当程度上可应对突发情况，完成特定任务。

Description

一种无人机避障与路径规划方法

技术领域

本发明涉及一种结合蒙特卡洛树搜索(MCTS)与对比强化学习技术的无人机避障与路径规划的解决方案，属于无人机飞行控制技术领域。

背景技术

随着科技的飞速发展与进步，无人机性能显著提高，近年来在民用和军用领域都得到了广泛的运用。在无人机技术的运用中，自主飞行和导航是极具挑战的任务，该任务一般分为环境感知、路径规划、无人机飞行控制三个阶段，其中路径规划是基础。在某些特殊场景中GPS信号往往误差较大甚至错误定位，无人机自主路径规划与避障就显得更为重要。无人机的路径规划主要负责无人机在复杂环境中，在最短的时间内从起点到目标点规划一条安全无碰撞路径。

传统的路径规划算法主要有基于图搜索的迪杰斯特(Dijkstra)算法、加入了启发式思想的A*算法及其变体、基于随机采样的快速扩展随机树法(RRT)和基于引力极与斥力极的人工势场法等，这些方法在某些场景已经得到应用。然而这些算法不具备学习能力，导致无人机没有自主决策能力，随着任务难度的增大与环境的复杂，尤其是当无人机处于某些特殊环境(地下、森林等GPS信号较弱甚至缺乏)时，这些算法不能实时有效的提供合理的航迹使得无人机具备应对环境变化和不确定性因素的能力。

近年来随着人工智能高速发展，计算机算力飞速提升，深度强化学习算法发展越发成熟并得到广泛应用。深度强化学习以试错的方式与环境进行交互学习，与传统的算法以及监督学习不同，强化学习算法是决策型算法，强化学习理论应用于机器人控制领域，可以使机器人获得类似于人类的决策能力，在面对难度系数高，复杂未知环境的任务时，在相当程度上可以有自主决策和应对突发情况的能力，使得整个机器人行为策略更加鲁棒。因此在解决传统算法不能应对的，复杂可变环境下的无人机路径规划和避障问题，强化学习有着重要的意义。强化学习实现无人机路径规划已经得到了逐步的应用，然而在无人机路径规划过程中，强化学习算法只能在小范围内进行精细路径规划，且更侧重于提供无人机的动作控制策略，训练难度大，往往在任务空间较大的情况下不容易着眼全局进行路径规划。

基于强化学习在无人机规划中存在的偏重于精细控制而不易着眼全局，训练难度大等问题，本发明结合蒙特卡洛树搜索和对比强化学习，实现无人机避障与路径规划。

发明内容

发明目的：为了克服当前基于强化学习的路径规划方案的不足，本发明提供了一种基于蒙特卡洛树搜索与对比强化学习的无人机避障与路径规划方法。

技术方案：一种无人机避障与路径规划方法，结合蒙特卡洛树搜索与对比强化学习算法，克服全球定位系统(GPS)在特定环境中信号不足的问题，实现无人机在复杂环境中(室内和室外环境)避障与路径选择的功能。包括以下几个步骤：

(1)搭建模拟器，即环境建模。

(2)将从模拟环境中获取的高维环境信息以及从模拟器中获取的无人机飞行速度、旋角、位置、高度一并作为无人机的高维观测信息，利用深度神经网络对无人机的高维观测信息进行特征提取，并使用深度神经网络指导蒙特卡洛树搜索以及作为强化学习算法的决策网络和价值评估网络。

(3)无人机与模拟环境交互，利用蒙特卡洛树搜索解决无人机在环境中因探索空间过大、奖励稀疏而导致的直接使用强化学习难以学出最优策略的问题。通过蒙特卡洛树搜索进行粗粒度的路径搜索，规划出无人机航线上的阶段性中间目标点，用于强化学习算法训练无人机进行精细的避障与路径规划。

(4)利用强化学习算法，结合粗粒度路径中的阶段性中间目标点信息和无人机与模拟环境交互所得奖励，通过无人机执行动作与模拟环境进行交互生成大量训练数据，学习出无人机精细的控制策略与细粒度的路径规划，获得复杂环境中无人机避障策略以及到达目标点的最优路径。

(5)实施对比学习，训练一个特征编码器，对无人机的高维观测信息进行编码，提取输入观测的特征表征，并使得相似或相同的观测经过编码后所得的特征表征在特征隐空间中不易被区分，不同观测经过编码后所得的特征表征在特征隐空间相互区别。这里，特征表征就是编码后的特征向量。在本发明中，我们采用了余弦相似度来衡量隐空间中特征向量之间的相似程度。余弦相似度表示如下：

其中vec₁和vec₂表示特征向量。余弦相似度的值域为[0，1]，如果特征向量vec₁和vec₂越相似则它们的余弦相似度越接近1，反之则越接近0。这里我们设定了一个阈值δ，如果特征向量vec₁和vec₂的余弦相似度CosSim(vec₁,vec₂)小于阈值δ，我们就认为特征向量vec₁和vec₂是不相似的即容易被区分的，如果大于阈值δ，我们就认为特征向量vec₁和vec₂是相似的即不易被区分的。策略网络与价值网络通过处理特征表征而不是原始的高维输入来提高强化学习的样本利用率，加速强化学习的策略收敛。

所述(1)中，所述环境基于空气动力学以及无人机自身性能参数搭建，这是无人机路径规划的重要环节，也是强化学习的重要组成部分。目的是通过计算机建模，将实际的物理空间抽象成仿真环境，实现真实与虚拟的相互映射，用于无人机与环境的交互与试错。整个仿真模拟系统即模拟器，基于Unity3D构建，主要包括了空气动力学仿真、无人机控制系统以及无人机飞行环境。

无人机的初始状态，包括起点与终点的任务信息，无人机在模拟器中感知到的高维环境信息，以及无人机自身飞行速度、旋角、位置、高度，一起作为无人机从仿真模拟器中获得的观测信息。所述环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。

所述(4)中，使用近端策略优化(PPO)算法，训练无人机的策略网络，学习出从起点经过所有中间目标点顺利避障到达最终目标点的无人机的精细控制策略，由此得到精细的最优路径。

所述(5)中，无人机的高维观测信息是高维输入，直接使用强化学习学习策略，训练数据样本利用率不高。通过对比学习将高维输入映射到特征隐空间中，通过编码器抽取出输入的特征表征，以此加速强化学习的收敛速度，提高样本利用率，降低学习成本。

基于动力学以及真实环境建立的模拟器可以仿真无人机控制操作和飞行特性，提供与真实场景下一致的无人机观测信息并模拟出无人机的飞行状态。同时该环境可以模拟无人机可能的任务场景以及环境中的障碍物。由于该方案用于解决无人机避障与路径规划，因此模拟器中将障碍物设置为无法直接翻越，除此之外可以是任意形状大小的障碍物。无人机在环境中可以获得观测信息，无人机根据这些信息作出相应动作获得奖励，其过程可以定义为马尔科夫决策过程(MDP)，用元组(O，A，P，R，γ)表示，其中O表示观测状态信息，A表示无人机动作空间，P是状态转移概率矩阵，R是奖励函数，γ是折扣率。

所述的观测状态信息包括：无人机在模拟器中可以获得周身环境信息，包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离，以及无人机自身状态信息，包括无人机当前飞行速度、旋角、位置、高度。

由于无人机作为智能体与环境交互过程中，探索空间巨大，直接使用强化学习算法训练无人机面临奖励稀疏的问题，训练难度大，且无人机的飞行任务较为复杂，利用蒙特卡洛树搜索可以将任务拆分为阶段性小任务的组合。蒙特卡洛树搜索是一种预演算法，通过累积蒙特卡洛模拟得到的价值估计，将模拟导向高收益的轨迹。我们将整个无人机飞行避障区域栅格化，将连续的飞行空间离散化，即将无人机飞行任务空间等距划分为不同的离散的网格子空间，以简化任务复杂度。在不考虑无人机精细控制，只考虑无人机在栅格化区域中的避障飞行路径的前提下，利用蒙特卡洛树搜索先在整个搜索空间中找到在栅格中避障移动的最优路径，得到中间目标点。再利用强化学习算法训练无人机的精细控制和路径规划，将原本强化学习对整个无人机任务空间的搜索简化成在粗略规划后的包含中间目标点的路径上的精细搜索，大大提高了强化学习的学习效率和路径规划的合理性。

所述的强化学习算法中：使用深度神经网络作为无人机的决策网络和价值评估网络，其中使用多层感知机(MLP)处理高维的无人机观测数据，使用长短期记忆网络(LSTM)处理时序信息。无人机利用当前策略以及起点、终点和蒙特卡洛树搜索生成的中间目标点信息，在模拟器中与环境交互，获得奖励并采集样本。利用近端策略优化算法，借助采集得到的样本训练优化无人机策略直到策略收敛。近端策略优化算法是一种策略梯度算法，基于Actor-Critic架构。近端策略优化算法是一阶优化算法，能够较快的运行，这使得近端策略优化算法在循环神经网络以及分布空间很广的问题上有很好的效果。

所述的奖励：我们需要强化学习学出无人机以最优路径无碰撞的到达目标点的策略，因此需要使用加权的混合奖励函数，具体包括无人机距离目标点的渐进奖励R_adv、无人机成功到达中间点的奖励R_arriveMid、无人机成功抵达最终目标点的奖励R_arriveFinal、无人机因未能躲避障碍而碰撞坠毁的惩罚R_collision。完整的奖励函数如下所示：

R_total＝α₁R_adv+α₂R_arriveMid+α₃R_arriveFinal+α₄R_collision

其中，α₁、α₂、α₃、α₄为权重系数，R_collision是惩罚所以小于0。

在强化学习训练过程中，使用对比学习作为辅助任务，学习高维输入相应的特征表征。对比学习在特征层面学习，可以大大提升强化学的样本利用率，加快强化学习的收敛速度。

与现有技术相比，本发明具有的益处有：

(1)相比于传统算法，强化学习训练的智能体具有较强的决策能力，在面对复杂，动态以及不确定性较高的环境与任务时，仍然可以取得较好的表现，智能体行为更鲁棒。

(2)使用近端策略优化算法，近端策略优化算法是一种高效的强化学习算法，可以解决一般策略梯度算法面临的数据样本利用率低和鲁棒性差的问题，在游戏、机器人控制等领域已经得到了较好的应用。

(3)相比于仅使用强化学习进行路径规划，使用蒙特卡洛树搜索充当策略提升器，得到粗粒度的规划路径与中间目标点，可以将复杂任务拆分为简单任务的集合。由于近端策略优化算法是通过采样动作概率以及在损失函数中加入一项熵(entropy)的方式来进行探索的，因此直接使用近端策略优化算法的探索，无人机在模拟环境中难以探索出高回报的轨迹，奖励的稀疏导致了强化学习算法难以收敛到最优策略。因此将无人机任务空间栅格化，在离散化的栅格中先采用蒙特卡洛树搜索进行粗略路径搜索，再利用强化学习针对粗略路径上的每一段进行训练，最终得到精确的路径规划和无人机避障策略。

(4)使用对比学习。强化学习由于探索-利用困境，需要同环境大量交互，样本利用率低。而对于高维复杂输入，神经网络处理难度更大，样本利用率更低，为了解决这个问题加速强化学习训练，本发明利用对比学习作为近端策略优化算法的辅助任务，增加对输入观测的特征提取任务，进行了数据增强。通过将编码器提取的特征表征用于策略网络和价值网络的学习，加速强化学习训练迭代。

附图说明

图1是本发明方法原理图；

图2是无人机进行避障和路径规划任务的示意图；

图3是对比学习原理图；

图4是训练流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

步骤一：

基于Unity3D引擎构建一个仿真模拟器，模拟器提供模拟环境用于无人机与环境的交互以及避障与路径选择策略的训练。模拟环境中包括无人机、不可直接翻越的各类障碍物，可以模拟各种任务环境。模拟器可以提供无人机本身的性能参数指标，包括了无人机本身的动力学参数，以及飞行速度、旋角、位置、高度信息，同时模拟器可以提供无人机周围的环境观测信息，其中包含了障碍物信息、无人机与障碍物之间的距离信息和无人机距离目标点的距离。无人机与环境交互所得的奖励也由模拟环境提供，模拟环境提供的是多种奖励的混合奖励，具体包括无人机距离目标点的渐进奖励、无人机成功到达中间点的奖励、无人机成功抵达目标点的奖励、无人机因撞击障碍物等不安全飞行导致的坠毁惩罚。

无人机的初始状态，包括起点与终点的任务信息，无人机在模拟器中感知到的高维环境信息，以及无人机飞行速度、旋角、位置、高度，一起作为无人机从仿真模拟器中获得的观测信息。环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。

无人机在环境中可以获得观测信息，无人机根据这些信息作出相应动作获得奖励，其过程可以定义为马尔科夫决策过程(MDP)，用元组(O，A，P，R，γ)表示，其中O表示观测状态信息，A表示无人机动作空间，P是状态转移概率矩阵，R是奖励函数，γ是折扣率。

步骤二：

设计奖励函数。强化学习训练中，最关键的一步是设计适合的奖励函数，即设计R(s,a)＝E[R_t+1|s,a]，其中s表示状态，a表示动作，R_t+1表示t+1时刻的奖励值。为了使无人机学会避障和到达目标点，设计了撞机惩罚R_collision和到达最终目标点奖励R_arriveFinal。由于本方案采用了蒙特卡洛树搜索规划粗略路径以及生成相应阶段性中间目标点，因此当无人机达到中间目标点时，也会给予一个到达中间目标点奖励R_arriveMid。为了使得无人机可以在避障的同时，规划出代价最小的路径(即最快达到目标点的路径)，设计了一个渐进的奖励R_adv，其中渐进奖励具体表示如下：

其中Dis_curr表示无人机当前时刻距离最终目标点的距离，Dis_pre表示无人机上一时刻距离最终目标点的距离，maxDis表示无人机初始位置距离最终目标点的距离，0.001是一个常数用于防止除数为0。完整的奖励函数如下所示：

R_total＝α₁R_adv+α₂R_arriveMid+α₃R_arriveFinal+α₄R_collision

步骤三：

利用蒙特卡洛树搜索进行无人机飞行路径的粗略搜索，并生成粗粒度的无人机策略和中间目标点。蒙特卡洛树搜索是一种预演算法，核心思想是对从当前状态出发的多个模拟轨迹不断地聚焦和选择，通过选择，拓展，模拟，回溯四个步骤增量式的逐步添加节点来进行树扩展生成大量的模拟轨迹，最后选择出获得较高收益回报的策略轨迹。本发明中，我们将无人机飞行任务空间栅格化，使得原本连续的空间离散化，即将无人机飞行任务空间等距划分为不同的离散的网格子空间。蒙特卡洛树搜索每一步所处的状态s即为无人机当前的观测。同时，因为蒙特卡洛树搜索的目的并非无人机精细控制，而是在栅格化的空间中搜索出粗略的飞行路线，因此在树搜索的过程中，对无人机的动作抽象离散化成在栅格中的移动——上，下，前，后，左，右，前向左上，前向左下，前向右上，前向右下，后向左上，后向左下，后向右上，后向右下。我们使用参数化的深度神经网络记为f_θ，其中θ表示深度神经网络的参数。这个神经网络把无人机当前的观测信息s作为输入，输出无人机的动作概率p和对当前状态的一个价值评估v，即(p,v)＝f_θ(s)。构建蒙特卡洛树，并使用神经网络f_θ指导蒙特卡洛树搜索。对于每个状态s，由神经网络f_θ的预测结果作为参考执行蒙特卡洛树搜索。蒙特卡洛树搜索输出无人机可能的动作概率π，这个输出的概率π通常比神经网络f_θ输出的原始概率p更强，因此蒙特卡洛树搜索可被视为一个强有力的策略提升器。训练过程中，不断更新神经网络的参数以使得网络输出的无人机动作概率p，更接近蒙特卡洛树搜索所提升的无人机动作概率π，并使得网络输出的价值评估v更准确。蒙特卡洛树搜索使用深度神经网络f_θ来指导搜索(模拟)，搜索树的每个边(s,a)存储先验概率P(s,a)，访问计数N(s,a)和动作-价值Q(s,a)。每次搜索从根状态开始，迭代地选择上置信界(UCB)Q(s,a)+U(s,a)最大的动作(其中

直到遇到叶子节点。接着展开叶子节点，叶子节点只会被神经网络扩展和评估一次，以产生先验概率和价值评估。交互模拟直到达到表示终止状态的节点，然后回溯更新树搜索中遍历到的每一个边(s,a)的访问次数N(s,a)和动作价值Q(s,a)。上述过程反复迭代，随着采样次数的增加，搜索树会越来越大，会覆盖越来越多的无人机状态。当蒙特卡洛树搜索采样完成后，无人机可以对当前的状态选择动作同环境进行交互，重复上述过程直到交互终止。利用交互产生的轨迹数据，训练神经网络f_θ，反复迭代整个搜索及采样过程。随着训练的进行，f_θ的预测会逐渐收敛，最终得到无人机在栅格化飞行空间中从起始点到终点的移动策略，利用该移动策略可以得到粗略的避障路径，至此整个蒙特卡洛树搜索完成。

通过蒙特卡洛树搜索，得到一条粗略的避障路线，在该路线上可以按比例取得中间目标点，这样就将一个复杂的路径规划过程分解成若干个相对简单的路径规划过程的组合。

步骤四：

利用近端策略优化(PPO)算法基于蒙特卡洛树搜索获得的粗略路径与中间目标点，训练无人机避障并到达最终目标点。近端策略优化算法，是一种基于Actor-Critic框架的算法，使用参数化的Actor网络来根据当前的状态产生动作，使用参数化的Critic网络来评估Actor产生的动作，产生一个更好的梯度估计值。在策略梯度算法中，网络参数θ更新的目标函数为：

L(θ)＝E[logπ(a_t|s_t；θ)A_t(s_t,a_t)]

其中A_t(s_t,a_t)为优势函数，定义为A_t(s_t,a_t)＝Q_t(s_t,a_t)-V_t(s_t)，其中Q_t(s_t,a_t)是动作价值函数，V_t(s_t)是价值函数。为了保证策略单调不减，将目标函数修改为：

新旧策略的KL散度满足约束：

其中δ为常数。近端策略优化算法将约束项作为惩罚项引入目标函数，即将目标函数修改为：

其中β是系数。

将新旧策略比值记为：

再用截断项代替KL散度，最终的目标函数为：

L(θ)＝E[min(r_t(θ)A_t,clip(r_t(θ),1-ε,1+ε)A_t)]

其中clip函数为截断函数。

步骤五：

无人机使用步骤三中得到阶段性目标点信息与模拟环境进行交互，由无人机的策略网络给出动作A，和环境交互所得的状态以及奖励生成大量<S,A,R,S’,D>的样本，利用近端策略优化算法优化策略网络和价值网络直到网络收敛。

步骤六：

实施对比学习。对无人机获得的高维观测信息进行数据增强。具体做法是，从输入的原始高维观测矩阵中心以一定比例截取子矩阵作为锚点(anchor)，在原始高维观测矩阵中以相同比例任意截取子矩阵作为正样本(positive)，在其他观测矩阵中以相同大小任意截取子矩阵作为负样本(negative)。训练两个神经网络Encoder_q和Encoder_k作为编码器，其中Encoder_q输出对锚点提取的特征，Encoder_k输出对正负样本提取的特征；使用相似度评价损失：

其中q表示锚点特征，k₊表示正样本特征，k_i表示负样本特征，CosSim是余弦相似度用于衡量特征之间的相似程度，τ是一个超参称为温度系数；通过最小化相似度评价损失，使得Encoder_k提取的正样本特征和Encoder_q提取的锚点样本特征更接近，Encoder_k提取负样本特征和Encoder_q提取的锚点样本特征更不同；训练结束后，将只保留Encoder_q。通过上述过程，训练得到的Encoder_q可以保证对观测信息提取的特征表征是有效的特征，Encoder_q作为策略网络和价值网络的一部分，可以极大地增加强化学习的样本利用率，加速强化学习训练速度。训练结束后，将只保留Encoder_q。对比学习辅助强化学习任务的示意图如图3所示。本发明的整体训练流程如图4所示。

Claims

1.一种无人机避障与路径规划方法，其特征在于：结合蒙特卡洛树搜索与对比强化学习算法，实现无人机避障与路径选择的功能，包括以下几个步骤：

(1)搭建无人机飞行环境的模拟器；

(2)利用深度神经网络对从模拟器中获取的高维观测信息进行特征提取；并使用深度神经网络指导蒙特卡洛树搜索以及作为强化学习算法的决策网络和价值评估网络；

(3)模拟器的无人机与模拟环境交互，通过蒙特卡洛树搜索进行粗粒度的路径搜索，规划出无人机航线上的阶段性中间目标点，用于强化学习算法训练无人机进行精细的避障与路径规划；

(4)利用强化学习算法，结合蒙特卡洛树搜索得到的粗粒度路径中的阶段性中间目标点信息和无人机与模拟环境交互所得奖励，通过无人机执行动作与模拟环境进行交互生成训练数据，学习无人机精细的控制策略和细粒度的路径规划，获得复杂环境中无人机避障策略以及到达目标点的最优路径；

(5)实施对比学习，训练一个特征编码器，对无人机观测信息进行编码，提取输入观测的特征表征，并使得相似或相同的观测经过编码后所得的特征表征在特征隐空间中不易被区分，不同观测经过编码后所得的特征表征在特征隐空间相互区别；策略网络与价值网络通过处理特征表征提高强化学习的策略收敛速度。

2.根据权利要求1所述的无人机避障与路径规划方法，其特征在于：所述的模拟器是基于Unity3D构建的一个包括空气动力学、无人机控制系统以及无人机飞行环境的真实仿真模拟系统；在模拟器中无人机的初始状态，包括起点与终点的任务信息，无人机在模拟器中感知到的高维环境信息，以及无人机自身飞行速度、旋角、位置、高度，一起作为无人机从仿真模拟器中获得的观测信息；所述环境信息包括障碍物信息、无人机距离障碍物的距离、距离目标点的距离。

3.根据权利要求1所述的无人机避障与路径规划方法，其特征在于：所述(4)中，使用近端策略优化算法，训练无人机的策略网络，学习出从起点经过所有中间目标点顺利避障到达最终目标点的无人机控制策略，由此得到精细的最优路径。

4.根据权利要求1所述的无人机避障与路径规划方法，其特征在于：无人机在环境中能获得观测信息，无人机根据这些信息作出相应动作获得奖励，其过程定义为马尔科夫决策过程，用元组(O，A，P，R，γ)表示，其中O表示观测状态信息，A表示无人机动作空间，P是状态转移概率矩阵，R是奖励函数，γ是折扣率。

5.根据权利要求1所述的无人机避障与路径规划方法，其特征在，利用蒙特卡洛树搜索进行粗粒度的路径搜索时，将整个无人机飞行避障区域栅格化，将连续的飞行空间离散化，即将无人机飞行任务空间等距划分为不同的离散的网格子空间，在不考虑无人机精细控制，只考虑无人机在栅格化区域中的避障飞行路径的前提下，利用蒙特卡洛树搜索先在整个搜索空间中找到在栅格中避障移动的最优路径，得到中间目标点；再利用强化学习算法训练无人机精细的控制策略和细粒度的路径规划。

6.根据权利要求1所述的无人机避障与路径规划方法，其特征在于，所述强化学习算法中：使用深度神经网络作为无人机的决策网络和价值评估网络，其中使用多层感知机处理高维的无人机观测数据，使用长短期记忆网络处理时序信息；无人机利用当前策略以及起点、终点和蒙特卡洛树搜索生成的中间目标点信息，在模拟器中与环境交互，获得奖励并采集样本；利用近端策略优化算法，借助采集得到的样本训练优化无人机策略直到策略收敛。

7.根据权利要求1所述的无人机避障与路径规划方法，其特征在于，所述奖励使用使用加权的混合奖励函数，具体包括无人机距离目标点的渐进奖励R_adv、无人机成功到达中间点的奖励R_arriveMid、无人机成功抵达最终目标点的奖励R_arriveFinal、无人机因未能躲避障碍而碰撞坠毁的惩罚R_collision；完整的奖励函数如下所示：

R_total＝α₁R_adv+α₂R_arriveMid+α₃R_arriveFinal+α₄R_collision

8.根据权利要求3所述的无人机避障与路径规划方法，其特征在于，利用近端策略优化算法基于蒙特卡洛树搜索获得的粗略路径与中间目标点，训练无人机避障并到达最终目标点；近端策略优化算法，是一种基于Actor-Critic框架的算法，使用参数化的Actor网络来根据当前的状态产生动作，使用参数化的Critic网络来评估Actor产生的动作，产生一个更好的梯度估计值；在策略梯度算法中，网络参数θ更新的目标函数为：

L(θ)＝E[logπ(a_t|s_t；θ)A_t(s_t,a_t)]

其中A_t(s_t,a_t)为优势函数，定义为A_t(s_t,a_t)＝Q_t(s_t,a_t)-V_t(s_t)；其中Q_t(s_t,a_t)是动作价值函数，V_t(s_t)是价值函数；为了保证策略单调不减，将目标函数修改为：

新旧策略的KL散度满足约束：

其中δ为常数；近端策略优化算法将约束项作为惩罚项引入目标函数，即将目标函数修改为：

其中β是系数；

将新旧策略比值记为：

再用截断项代替KL散度，最终的目标函数为：

L(θ)＝E[min(r_t(θ)A_t,clip(r_t(θ),1-ε,1+ε)A_t)]

其中clip函数为截断函数。

9.根据权利要求1所述的无人机避障与路径规划方法，其特征在于，对比学习中，对无人机获得的高维观测信息进行数据增强；具体做法是，从输入的原始高维观测矩阵中心以一定比例截取子矩阵作为锚点，在原始高维观测矩阵中以相同比例任意截取子矩阵作为正样本，在其他观测矩阵中以相同大小任意截取子矩阵作为负样本；训练两个神经网络Encoder_q和Encoder_k作为编码器，其中Encoder_q输出对锚点提取的特征，Encoder_k输出对正负样本提取的特征；使用相似度评价损失：

其中，q表示锚点特征，k₊表示正样本特征，k_i表示负样本特征，CosSim是余弦相似度，用于衡量特征之间的相似程度，τ是一个超参称为温度系数；通过最小化相似度评价损失，使得Encoder_k提取的正样本特征和Encoder_q提取的锚点样本特征更接近，Encoder_k提取负样本特征和Encoder_q提取的锚点样本特征更不同；训练结束后，将只保留Encoder_q。通过上述过程，训练得到的Encoder_q可以保证对观测信息提取的特征表征是有效的特征，Encoder_q作为策略网络和价值网络的一部分，可以极大地增加强化学习的样本利用率，加速强化学习训练速度。