CN117705113A

CN117705113A - 一种改进ppo的无人机视觉避障及自主导航方法

Info

Publication number: CN117705113A
Application number: CN202311566971.8A
Authority: CN
Inventors: 裴子楠; 刘园; 赵静; 潘龙; 丁洁; 肖敏
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-03-15

Abstract

本发明公开了一种改进PPO的无人机视觉避障及自主导航方法，用于无人机在虚拟管道环境中的视觉避障与自主导航。该方法克服了现有深度强化学习在部分可观测环境中易陷入局部最优的局限，以适应无人机的实时决策并提高泛化性。本发明利用深度相机捕获环境数据，设计一套新颖的奖励函数和动作空间，并配合轻量级卷积神经网络预处理观测数据以提取空间特征；同时，采用长短期记忆递归神经网络提取时间序列特征，将空间和时间的特征结合起来，在策略网络中加入噪声和可变学习率增强了网络的学习能力，加速了端到端模型的收敛，并提高了数据使用效率。实验表明所提出算法能够生成更加平滑的飞行轨迹，显著提升避障性能，确保无人机飞行安全和可靠。

Description

一种改进PPO的无人机视觉避障及自主导航方法

技术领域

本发明涉及无人机自主导航领域，具体涉及采用深度相机和深度强化学习的无人机视觉避障和自主导航的问题。

背景技术

虚拟管道指的是为移动机器人创建一种看不见的“管道”，在这个管道中，机器人可以自由地沿着预定路径移动，同时确保其不会与任何物理障碍物或者其他机器人发生碰撞。但是因为虚拟管道通常需要在动态变化的环境中实时调整，包括处理不可预测的障碍物移动、以及其他机器人或人类在场的复杂互动，所以这使得避障成为无人机在虚拟管道中自主导航的关键任务。

深度强化学习(DRL)在视觉避障导航中要求无人机与模拟任务环境持续交互，并依据环境反馈的奖励更新策略网络与评价网络的权重。为保证模型在真实环境中的部署效果，需要确保训练环境与实际场景的高度一致，从而在DRL模型训练中减少两者的差异。此外，不同的应用场景在选择DRL算法时至关重要，以确保获得理想的结果。先前的研究主要关注二维环境或仅在水平面上的无人机运动，结合雷达和超声波等传感器数据进行融合以构建无人机的状态空间，并使用离散动作定义其动作空间。虽然这些建模能提供准确的观测，但受传感器限制，它们不适合小型旋翼无人机在虚拟管道环境下进行精细操作和自主避障。

虽然早期研究中已有基于DRL的无人机避障框架并获得一定成果，但在复杂多变的环境下确保其轨迹平滑和泛化能力仍是一个问题。当我们考虑高动态环境中的避障导航问题时，运动障碍物会产生大量的交互数据，使得DRL端到端的训练神经网络变得极其困难。具体来说：首先，与高动态障碍物的频繁碰撞导致初始训练过程中有很多不成功的事件和负面奖励，这导致环境只会为DRL提供很少的积极事件来学习所需的策略。这种稀疏奖励问题加重了神经网络的收敛负担，并阻止无人机探索环境来积累奖励。其次，为了在高动态环境中实现自主避免碰撞，无人机必须对运动障碍物的运动和位置预测，这是一项时空预测任务。因此，对于无人机自主避障导航，需要一种新的解决方案。

发明内容

为解决上述DRL在虚拟管道环境中应用时探索与利用问题，特别是其对环境的高度依赖性等问题，本发明设计了一种改进PPO的无人机视觉避障及自主导航方法。

为实现上述目的，本发明提供如下技术方案：

一种改进PPO的无人机视觉避障及自主导航方法，所述视觉避障及自主导航包括如下步骤：

步骤1：采用如下步骤将无人机自主避障导航问题定义为一个部分可观察马尔可夫决策过程：分别对部分可观察马尔科夫决策过程POMDP五元组S，A，R，γ，O进行建模，其中S为环境的状态，A为无人机的输出动作集，R为奖励函数，γ为折扣系数，O为无人机接收到的观测结果，而不是完整的状态集合S；

步骤1-1：无人机的输入状态S无法直接得到，由于深度相机在实际应用中的探测范围限制，无人机只能获取部分环境的状态信息，将超出特定距离的深度值统一视为一个固定的深度值，其探测视角为e∈[-60°，60°]；t时刻的无人机观测状态O_t定义为：当前面向相机的视野中的深度图；

步骤1-2：确定无人机的输出动作集A：选择连续动作空间，并将其划分为三个维度；无人机在t时刻的动作被定义为：

a_t＝[v_xt，v_yt，v_zt]

其中v_xt、v_yt和v_zt分别代表无人机在x、y和z轴上的线速度；这种设计使无人机能够进行细致的速度调整，特别适合需要高精度控制的任务，防止无人机被困在某些环境中；

步骤1-3：提出了一个综合奖励r_t，包括正向奖励和负向奖励两个子目标；旨在模拟和评价特定策略，解决算法的稀疏奖励问题，并寻求一种既有泛化能力又是最优的策略，使无人机导航至目标点p_d＝(x_d，y_d，z_d)；t时刻正向奖励包括无人机每步动作的奖励和达成目标的奖励/>而负向奖励则是对碰撞行为的惩罚/>

单步奖励的计算公式如下：

式中表示无人机到目标地点的相对三维距离；通过调整n，确保了无人机始终朝向目标飞行，并给予智能体较大的奖励；相反，如果无人机反向飞行，则给予智能体逐渐减小的奖励，以规范其动作，实现理想目标；鼓励智能体积极探索环境，从而加快模型收敛速度；

达成目标奖励的计算公式如下：

式中X_t为无人机在t时刻相比其初始位置x轴的距离差；当这个距离超过一个预定的阈值T时，即无人机成功通过洞口，智能体会得到score的奖励，否则，智能体不获得奖励；

碰撞惩罚的计算公式如下：

当无人机撞到障碍物时，它会得到-score的负奖励，以鼓励智能体避免此类行为；如果没有碰撞，智能体会得到奖励；

总体奖励函数计算如下，考虑了单步奖励、达成目标奖励和碰撞惩罚的总和：

式中w₁，w₂，w₃分别各个子目标奖励的权重因子；这种奖励设计确保了无人机在飞行过程中既能够避免障碍，又能够快速地达到目标，从而实现了高效且安全的导航；

步骤1-4：定义折扣系数γ∈(0，1)，用于计算整个过程中的回报累计值，折扣系数越大，表示越注重长期收益。

步骤2：根据步骤1建模出的部分可观察马尔可夫决策过程五元组S，A，R，γ，O，构建虚拟管道三维环境，基于PPO算法进行无人机避障导航策略求解并引入基于时序差分法的广义优势估计和OU噪声，随着训练的进行，逐渐减少添加到策略中的噪声量，对网络进行正交初始化；

步骤2-1：构建正则虚拟管道三维地图，设置环境的训练步数和无人机初始状态空间；随机初始化无障碍、静态障碍物和通过时间步长来改变状态的动态障碍物；在实际无人机飞行测试中，实施训练好的导航策略，并结合实时视觉信息进行避障决策，以此验证算法的有效性和鲁棒性；

步骤2-2：对策略和评价网络的参数分别进行正交初始化，为双网络随机分配初始权重和偏差，以便策略有探索空间，价值网络能进行初步估计；

步骤2-3：采用策略网络基于当前观测状态o_t产生动作a_t，添加OU噪声，并使用价值网络评估当前状态的价值；执行动作a_t，收集新的观测状态o_t+1以及与之相对应的奖励r_t和是否到达终止状态的指示变量d；

步骤2-4：将经历的序列(o_t，a_t，r_t，o_t+1，d)保存至经验缓冲区R，其中o_t代表当前观测状态，a_t代表智能体在观测状态o_t执行的动作，r_t代表执行动作a_t之后获得的即时奖励，o_t+1代表执行动作后的观测状态，d是一个指示变量，用于表示观测状态o_t+1是否是终止状态，如果是终止状态则d＝1，否则d＝0；

步骤2-5：经验缓冲区积累的数据量达到预设阈值时，对其进行小批量采样，并应用广义优势估计方法来计算优势函数的估值；利用这些采样数据，计算出策略损失函数，采用Adam优化器更新策略网络的梯度；结合广义优势估计GAE方法的优势估计和价值网络的输出来更新价值网络，以期最大化整体目标函数；智能体在t时刻相对于策略π_θ(a_t|s_t)的优势函数定义为：

式中代表从状态s_t开始并根据策略π_θ采取行动a_t后获得的期望总奖励；而/>代表从状态s_t开始并遵循策略π_θ获得的期望回报；

步骤2-6：在固定的时间步长之后，同步当前策略网络与目标策略网络，以及当前价值网络与目标价值网络的参数；在每个训练周期进行策略网络的迭代更新，通过裁剪技术限制策略更新的步幅，防止由于大的策略更新导致的性能退化；随着每个固定的时间步或训练周期，减少策略网络输出动作中加入的OU噪声的量。

步骤3：构建深度强化学习网络算法框架，将输入网络状态映射到[-1，1]范围内，采用卷积神经网络CNN对无人机当前的状态空间进行特征提取，并使用长短期记忆神经网络LSTM网络对提取的特征进行处理；

步骤3-1：构建轻量化卷积神经网络，提取空间特征；在DRL中，状态的精确表征对决策和优化至关重要；选择合适的网络结构是简化决策空间并提升算法效率与稳定性的关键；CNN相比全连接层极大提升了深度图像数据的处理效率，有效提取空间特征，筛除无关信息，精简图像内容；对PPO的网络结构进行了改良，以实现轻量化，改进结果命名为CPPO；采用了两层卷积与最大池化层的配置，在维持性能的基础上最大限度减少参数量；

步骤3-2：构建循环神经网络，提取时间特征：在PPO算法中，没有考虑到无人机对整个任务轨迹的感知；由于在PODMDP的情况下，无人机只能感知到部分环境状态，所以在面对未知运动的障碍物时，容易陷入局部最优解，无法实现理想的飞行轨迹；针对此问题，使用RNN以增强PPO算法的性能；但是考虑到RNN在模型训练过程存在过拟合的可能性，选取LSTM来提取时间特征；每个LSTM单元包括遗忘门f_t、输入门i_t和输出门o_t，引入CNN和RNN称之为RCPPO；

在时间t，h_t-1和x_t分别代表上一时刻的输出和当前输入；C_t-1和C_t分别表示前一时刻和当前时刻的单元状态；

通过遗忘门决定哪些信息被遗忘；遗忘门使用sigmoid函数来确定上一时刻的输出h_t-1和单元状态C_t-1是否继续存在于当前时刻网络的单元状态C_t中，即丢弃部分信息；遗忘门计算公式为：

f_t＝σ(W_f[h_t-1，x_t]+b_f)

式中W_f为权重矩阵，b_f为偏置量；x_t为当前网络的输入；

输入门决定更新哪些新信息到单元状态；输入门使用sigmoid函数和tanh函数输出的信息来确定当前输入x_t中的哪些信息应该被更新到单元状态C_t中，通过tanh函数生成的新候选数值输入门计算公式为：

i_t＝σ(W_i[h_t-1，x_t]+b_i)

新的单元状态C_t的计算将结合遗忘门、输入门以及上一时刻的单元状态单元状态更新如下：

输出门决定单元状态中的哪些信息应该输出；输出门使用sigmoid函数和tanh输出来确定单元状态C_t中的哪些信息应该被输出到h_t中；输出门的计算公式如下：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t·tanh(C_t)

LSTM作为RNN的一种改进，其门控机制能够有效处理时序数据和长期依赖问题，选择性地保留或忽略信息，确保关键信息在时间步之间得以传递。

步骤4：改进评估模型环节，以固定步长进行训练，并在每个步长结束时保存当前的模型参数；使用这些参数在测试环境中进行固定数量的评估回合，以监测平均奖励的变化曲线；此过程持续至模型训练完成，从而确定最优训练模型；

步骤4-1：训练开始时，先通过CNN网络对深度图像进行空间特征提取；利用LSTM网络处理CNN提取的特征，进一步提取时间序列特征；将空间和时间特征进行拼接，以获得综合的时空信息，此信息随后被输入到策略和评价网络中，用于生成下一步的动作决策；

步骤4-2：若模型在达到预定的最大训练步长或回合内到达终点，则判定训练成功；在每经过一定数量的训练步长后，模型进入评估阶段，在随机初始化的环境中执行，同时保存对应的模型参数，此后评估过程结束；模型在达到最大训练轮数或步数之后，仍未能完成既定任务，则认定为训练失败；

步骤4-3：比较之前训练好的模型，保存奖励值最好的训练模型参数，结束整个训练过程；当达到总共训练步长时，将最后训练好的最优模型保存，其能够直接用于实际环境中的无人机视觉避障和自主导航任务。

步骤5：采用集中训练和可变学习率的方式，在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体，并统一更新网络的参数；

步骤5-1：在单台电脑同步运行多个无人机模拟环境，并行收集大量的样本轨迹，在不同的飞行情景中获得广泛的经验，为智能体提供多样化的训练数据，提升其在实际应用中的适应性和鲁棒性；

步骤5-2：收集到的样本数据将被批量处理，并用于智能体网络的训练。经过含有可变学习率的充分训练后，这些数据将被用来统一更新网络参数；确保了训练的一致性和效率，加速智能体学习的进程，优化了其决策策略。

在上述技术方案中，本发明提供的一种改进PPO的无人机视觉避障及自主导航方法，相比传统方法具有以下有益效果：

1、该发明针对虚拟管道内无人机避障问题，采用部分可观察马尔可夫决策过程进行建模。通过新颖的DRL奖励函数设置和优秀的仿真软件，构建一个实验环境，使无人机能够在真实物理引擎下平稳飞行，从而降低实际损耗。

2、该发明是采用深度相机捕获的深度图作为智能体的状态空间，这种方法具有更强的泛化性，更适合实际应用，并易于移植到真实无人机上。

3、该发明能够在三维静态和动态环境中实现实时路径规划和避障，采用轻量级的CNN网络对状态空间数据进行预处理，从而提取空间特征，并利用LSTM网络来提取时间特征，可以很好的进行端到端的训练，提高数据的利用率并加速模型的收敛。能够产生更平滑的轨迹并获得更高的任务成功率。

附图说明

图1为本发明一种改进PPO的无人机视觉避障及自主导航方法的算法架构图；

图2为本发明一种改进PPO的无人机视觉避障及自主导航方法的双网络结构图；

图3为本发明无人机在无障碍，静止障碍和动态障碍三维可视化环境示意图；

其中，(a)图为无障碍三维可视化环境示意图；(b)图为静止障碍三维可视化环境示意图；(c)图为动态障碍三维可视化环境示意图；

图4为本发明无人机在无障碍，静止障碍和动态障碍训练过程奖励示意图；

其中，(a)图为无障碍训练过程奖励示意图；(b)图为静止障碍训练过程奖励示意图；(c)图为动态障碍训练过程奖励示意图；

图5为本发明无人机在无障碍训练过程三维轨迹示意图；

其中，(a)图为PPO在无障碍训练过程三维轨迹示意图；(b)图为CPPO静在无障碍训练过程三维轨迹示意图；

图6为本发明无人机在静止障碍训练过程三维轨迹示意图；

其中，(a)图为PPO在静止障碍训练过程三维轨迹示意图；(b)图为CPPO在静止障碍训练过程三维轨迹示意图；

图7为本发明无人机在动态障碍训练过程三维轨迹示意图；

其中，(a)图为PPO在动态障碍训练过程三维轨迹示意图；(b)图为RCPPO在动态障碍训练过程三维轨迹示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图对本发明作进一步的详细介绍。

在本实施例中：

步骤1具体包括如下：

步骤1-1：无人机的输入状态S无法直接得到，由于深度相机在实际应用中的探测范围限制，无人机只能获取部分环境的状态信息；为了简化计算并便于算法实现，将超出特定距离的深度值统一视为一个固定的深度值，其探测视角为e∈[-60°，60°]；t时刻的无人机观测状态O_t定义为：当前面向相机的视野中的深度图；

a_t＝[v_xt，v_yt，v_zt]

其中v_xt、v_yt和v_zt分别代表无人机在x、y和z轴上的线速度；

步骤1-3：提出了一个综合奖励r_t，包括正向奖励和负向奖励两个子目标；旨在模拟和评价特定策略，解决算法的稀疏奖励问题，并寻求一种既有泛化能力又是最优的策略，使无人机导航至目标点p_d＝(x_d，y_d，z_d)；t时刻正向奖励包括无人机每步动作的奖励和达成目标的奖励/>而负向奖励则是对碰撞行为的惩罚/>总体奖励函数计算如下：考虑了单步奖励、达成目标奖励和碰撞惩罚的总和：

式中w₁，w₂，w₃分别各个子目标奖励的权重因子；

步骤2：；根据步骤1建模出的部分可观察马尔可夫决策过程五元组S，A，R，γ，O，构建虚拟管道三维环境，基于PPO算法进行无人机避障导航策略求解并引入基于时序差分法的广义优势估计和OU噪声；保持无偏性的同时，提供低方差的优势估计；随着训练的进行，逐渐减少添加到策略中的噪声量，对网络进行正交初始化；

步骤2具体包括如下：

步骤2-4：当将经历的序列(o_t，a_t，r_t，o_t+1，d)保存至经验缓冲区R，其中o_t代表当前观测状态，a_t代表智能体在观测状态o_t执行的动作，r_t代表执行动作a_t之后获得的即时奖励，o_t+1代表执行动作后的观测状态，d是一个指示变量，用于表示观测状态o_t+1是否是终止状态，如果是终止状态则d＝1，否则d＝0；

步骤2-5：经验缓冲区积累的数据量达到预设阈值时，对其进行小批量采样，并应用广义优势估计方法来计算优势函数的估值；利用这些采样数据，计算出策略损失函数，采用Adam优化器更新策略网络的梯度；结合GAE方法的优势估计和价值网络的输出来更新价值网络，以期最大化整体目标函数；

步骤3：构建深度强化学习网络算法框架，将输入网络状态映射到[-1，1]范围内，采用CNN对无人机当前的状态空间进行特征提取，并使用LSTM网络对提取的特征进行处理；

步骤3具体包括如下：

表1为本发明设计的CNN网络结构：

步骤3-1：构建轻量化卷积神经网络，提取空间特征：在DRL中，状态的精确表征对决策和优化至关重要；CNN相比全连接层极大提升了深度图像数据的处理效率，能够有效提取空间特征，并筛除无关信息，从而精简图像内容；PPO的网络结构进行了改良，以实现轻量化，改进结果命名为CPPO；

表1设计旨在不损害性能的前提下减少网络复杂性，增强算法的通用性和效率；轻量化设计助于缓解DRL中的过拟合问题，并为无人机等实际应用提供高效的感知能力；通过使用CNN，我们能够更有效地处理大量图像数据，并提升策略和评价网络的性能；

步骤3-2：构建循环神经网络，提取时间特征：在PPO算法中，没有考虑到无人机对整个任务轨迹的感知；由于在PODMDP的情况下，无人机只能感知到部分环境状态，所以在面对未知运动的障碍物时，容易陷入局部最优解，无法实现理想的飞行轨迹；针对此问题，使用RNN以增强PPO算法的性能；但是考虑到RNN在模型训练过程存在过拟合的可能性，选取长短期记忆神经网络LSTM来提取时间特征；LSTM作为RNN的一种改进，其门控机制能够有效处理时序数据和长期依赖问题，选择性地保留或忽略信息，确保关键信息在时间步之间得以传递；每个LSTM单元包括遗忘门f_t、输入门i_t和输出门o_t，引入CNN和RNN称之为RCPPO。

步骤4具体包括如下：

步骤4-3：比较之前训练好的模型，保存奖励值最好的训练模型参数，结束整个训练过程；当达到总共训练步长时，将最后训练好的最优模型保存，其能够直接用于实际环境中的无人机视觉避障和自主导航任务；

表2为本发明在无障碍，静止障碍和动态障碍三位环境下的任务完成率：

从表2可以看出，改进后的算法在任务完成率分别增加9.4％和19.98％，有效实现无人机在虚拟管道下的精细化避障和自主安全导航；

步骤5：采用集中训练和可变学习率的方式，在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体，并统一更新网络的参数。

在步骤5具体包括如下：

以上，仅为本发明一种具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变或没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种改进PPO的无人机视觉避障及自主导航方法，其特征在于，所述视觉避障及自主导航包括如下步骤：

步骤4：改进评估模型环节，以固定步长进行训练，并在每个步长结束时保存当前的模型参数；使用这些参数在测试环境中进行固定数量的评估回合，监测平均奖励的变化曲线，持续至模型训练完成，从而确定最优训练模型；

步骤5：采用集中训练和可变学习率的方式，在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体，统一更新网络的参数。

2.根据权利要求1所述的一种改进PPO的无人机视觉避障及自主导航方法，其特征在于，所述步骤1具体包括如下：

步骤2-1：无人机的输入状态S无法直接得到，由于深度相机在实际应用中的探测范围限制，无人机只能获取部分环境的状态信息，将超出特定距离的深度值统一视为一个固定的深度值，其探测视角为e∈[-60°，60°]；t时刻的无人机观测状态O_t定义为：当前面向相机的视野中的深度图；

步骤2-2：确定无人机的输出动作集A：选择连续动作空间，并将其划分为三个维度；无人机在t时刻的动作被定义为：

a_t＝[v_xt，v_yt，v_zt]

其中v_xt、v_yt和v_zt分别代表无人机在x、y和z轴上的线速度；

步骤2-3：提出了一个综合奖励r_t，包括正向奖励和负向奖励两个子目标；t时刻正向奖励包括无人机每步动作的奖励r_t ^act和达成目标的奖励r_t ^success，负向奖励则是对碰撞行为的惩罚r_t ^col；综合奖励函数计算为单步奖励、达成目标奖励和碰撞惩罚的总和：

r_t＝w₁*r_t ^act+w₂*r_t ^col+w₃*r_t ^success

式中w₁，w₂，w₃分别各个子目标奖励的权重因子；

步骤2-4：定义折扣系数γ∈(0，1)，用于计算整个过程中的回报累计值，折扣系数越大，表示越注重长期收益。

3.根据权利要求1所述的一种改进PPO的无人机视觉避障及自主导航方法，其特征在于，所述步骤2具体包括如下：

步骤3-1：构建正则虚拟管道三维地图，设置环境的训练步数和无人机初始状态空间；随机初始化无障碍、静态障碍物和通过时间步长来改变状态的动态障碍物；在实际无人机飞行测试中，实施训练好的导航策略，并结合实时视觉信息进行避障决策，以此验证算法的有效性和鲁棒性；

步骤3-2：对策略和评价网络的参数分别进行正交初始化，为双网络随机分配初始权重和偏差，以便策略有探索空间，价值网络能进行初步估计；

步骤3-3：采用策略网络基于当前观测状态o_t产生动作a_t，添加OU噪声，并使用价值网络评估当前状态的价值；执行动作a_t，收集新的观测状态o_t+1以及与之相对应的奖励r_t和是否到达终止状态的指示变量d；

步骤3-4：将经历的序列(o_t，a_t，r_t，o_t+1，d)保存至经验缓冲区R，其中o_t代表当前观测状态，a_t代表智能体在观测状态o_t执行的动作，r_t代表执行动作a_t之后获得的即时奖励，o_t+1代表执行动作后的观测状态，d是一个指示变量，用于表示观测状态o_t+1是否是终止状态，如果是终止状态则d＝1，否则d＝0；

步骤3-5：当经验缓冲区积累的数据量达到预设阈值时，对其进行小批量采样，并应用广义优势估计方法来计算优势函数的估值；利用这些采样数据，计算出策略损失函数，采用Adam优化器更新策略网络的梯度；结合广义优势估计GAE方法的优势估计和价值网络的输出来更新价值网络，以期最大化整体目标函数；

步骤3-6：在固定的时间步长之后，同步当前策略网络与目标策略网络，以及当前价值网络与目标价值网络的参数；在每个训练周期进行策略网络的迭代更新，通过裁剪技术限制策略更新的步幅，防止由于大的策略更新导致的性能退化；随着每个固定的时间步或训练周期，减少策略网络输出动作中加入的OU噪声的量。

4.根据权利要求1所述的一种改进PPO的无人机视觉避障及自主导航方法，其特征在于，所述步骤3具体包括如下：

步骤4-1：构建轻量化卷积神经网络，提取空间特征；CNN相比全连接层极大提升了深度图像数据的处理效率，有效提取空间特征，筛除无关信息，精简图像内容；对PPO的网络结构进行了改良，以实现轻量化，改进结果命名为CPPO；

步骤4-2：构建循环神经网络，提取时间特征：选取LSTM来提取时间特征，其门控机制能够有效处理时序数据和长期依赖问题，选择性地保留或忽略信息，确保关键信息在时间步之间得以传递；每个LSTM单元包括遗忘门f_t、输入门i_t和输出门o_t，引入CNN和RNN称之为RCPPO。

5.根据权利要求1所述的一种改进PPO的无人机视觉避障及自主导航方法，其特征在于，所述步骤4具体包括如下：

步骤5-1：训练开始时，先通过CNN网络对深度图像进行空间特征提取；利用LSTM网络处理CNN提取的特征，进一步提取时间序列特征；将空间和时间特征进行拼接，以获得综合的时空信息，此信息随后被输入到策略和评价网络中，用于生成下一步的动作决策；

步骤5-2：若模型在达到预定的最大训练步长或回合内到达终点，则判定训练成功；在每经过一定数量的训练步长后，模型进入评估阶段，在随机初始化的环境中执行，同时保存对应的模型参数，此后评估过程结束；模型在达到最大训练轮数或步数之后，仍未能完成既定任务，则认定为训练失败；

步骤5-3：比较之前训练好的模型，保存奖励值最好的训练模型参数，结束整个训练过程；当达到总共训练步长时，将最后训练好的最优模型保存，其能够直接用于实际环境中的无人机视觉避障和自主导航任务。

6.根据权利要求1所述的一种改进PPO的无人机视觉避障及自主导航方法，其特征在于：所述步骤5具体包括如下：

步骤6-1：在单台电脑同步运行多个无人机模拟环境，并行收集大量的样本轨迹，在不同的飞行情景中获得广泛的经验，为智能体提供多样化的训练数据；

步骤6-2：收集到的样本数据将被批量处理，并用于智能体网络的训练。经过含有可变学习率的充分训练后，这些数据将被用来统一更新网络参数。