CN117215197A

CN117215197A - 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质

Info

Publication number: CN117215197A
Application number: CN202311369460.7A
Authority: CN
Inventors: 张建磊; 张春燕; 杨家鼎
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2023-12-12
Anticipated expiration: 2043-10-23
Also published as: CN117215197B

Abstract

本发明公开一种四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质，涉及飞行器轨迹规划技术领域，所述方法包括：根据四旋翼飞行器的运动学模型和四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型，训练好的路径规划模型用于对四旋翼飞行器进行在线轨迹规划；状态包括：自身状态、与预设目标点之间的距离和周围感知数据；当前时刻的自身状态为将上一时刻的动作输入四旋翼飞行器的运动学模型得到的；路径规划模型包括依次连接的LSTM层和全连接层。本发明可提高样本利用率，有助于避免梯度消失或梯度爆炸问题，从而使模型具有更好的收敛性，得到更准确的在线轨迹规划。

Description

四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质

技术领域

本发明涉及飞行器轨迹规划技术领域，特别是涉及一种四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质。

背景技术

随着自动化技术的不断发展，四旋翼飞行器轨迹规划在军事、民航飞行等各个领域中得到了广泛的关注。传统的在线轨迹规划方法主要依赖于预先编程好的飞行指令，导致传统在线轨迹规划方法在应对飞行过程中的环境变化和突发事件时受到限制。

深度强化学习技术在人工智能、机器学习和自动控制等领域广受关注和应用，被视为设计智能系统的核心技术之一，具备处理不确定性信息和解决不确定性故障的能力，基于深度强化学习的在线轨迹规划方法可以自主学习飞行过程中环境的变化，根据环境信息在线调整轨迹，从而实现更智能的飞行控制使得飞行器控制系统能够适应弱模型依赖，并在恶劣环境中展现自适应能力，但是传统PPO算法具有样本利用率低、易出现梯度消失或梯度爆炸的问题，影响模型的收敛性，得到的轨迹规划结果不准确，因此，如何利用深度强化学习实现四旋翼飞行器智能控制成为当前迫切需要解决的问题之一。

发明内容

本发明的目的是提供一种四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质，可提高样本利用率，有助于避免梯度消失或梯度爆炸问题，从而使模型具有更好的收敛性，得到更准确的在线轨迹规划。

为实现上述目的，本发明提供了如下方案：

一种四旋翼飞行器在线轨迹规划方法，包括：

构建四旋翼飞行器的运动学模型；

根据所述四旋翼飞行器的运动学模型和所述四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型，所述训练好的路径规划模型用于对四旋翼飞行器进行在线轨迹规划；所述状态包括：自身状态、与预设目标点之间的距离和周围感知数据，所述周围感知数据具体为四旋翼飞行器水平面设定范围内的激光雷达返回的距离数据；当前时刻的所述自身状态为将上一时刻的动作输入所述四旋翼飞行器的运动学模型得到的；所述自身状态包括：位置、欧拉姿态、角速度和线速度；所述动作包括所述四旋翼飞行器四个电机的悬停转速的改变幅值；所述路径规划模型包括依次连接的LSTM层和全连接层；所述LSTM层包括多个依次连接的LSTM单元。

一种四旋翼飞行器在线轨迹规划系统，包括：

构建模块，用于构建四旋翼飞行器的运动学模型；

训练模块，用于根据所述四旋翼飞行器的运动学模型和所述四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型，所述训练好的路径规划模型用于对四旋翼飞行器进行在线轨迹规划；所述状态包括：自身状态、与预设目标点之间的距离和周围感知数据，所述周围感知数据具体为四旋翼飞行器水平面设定范围内的激光雷达返回的距离数据；当前时刻的所述自身状态为将上一时刻的动作输入所述四旋翼飞行器的运动学模型得到的；所述自身状态包括：位置、欧拉姿态、角速度和线速度；所述动作包括所述四旋翼飞行器四个电机的悬停转速的改变幅值；所述路径规划模型包括依次连接的LSTM层和全连接层；所述LSTM层包括多个依次连接的LSTM单元。

一种电子设备，包括：

存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述所述的四旋翼飞行器在线轨迹规划方法。

一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的四旋翼飞行器在线轨迹规划方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

LSTM层作为循环神经网络，能够对未来状态进行预测，这使得PPO-LSTM可以在强化学习任务中更好地利用长期的奖励信号，本发明采用采用PPO算法对路径规划模型进行训练，路径规划模型包括依次连接的LSTM层和全连接层，将PPO算法与LSTM层结合并用于四旋翼飞行器中实在线轨迹规划，可提高样本利用率，提高算法的探索能力，提供了更准确的梯度信号，有助于避免梯度消失或梯度爆炸问题，从而使模型具有更好的收敛性达到更好在线轨迹规划效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的PPO-LSTM算法结构框图；

图2为本发明实施例提供的四旋翼飞行器在线轨迹规划方法的具体流程图；

图3为“X”字型结构四旋翼飞行器的结构示意图；

图4为三维仿真场景图；

图5为本发明实施例提供的PPO-LSTM算法流程框图；

图6为在三维仿真场景中不同算法的回报奖励和动作向量标准差的变化曲线图；

图7为本发明实施例提供的四旋翼飞行器在线轨迹规划方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对连续状态动作空间中的四旋翼飞行器的动作控制决策问题，本发明实施例提供了一种基于深度强化学习的四旋翼飞行器在线轨迹规划方法以提高飞行器对周围空间环境的自主规划能力，如图7所示，所述四旋翼飞行器在线轨迹规划方法，包括：

步骤101：构建四旋翼飞行器的运动学模型。

步骤102：根据所述四旋翼飞行器的运动学模型和所述四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型。所述训练好的路径规划模型用于对四旋翼飞行器进行在线轨迹规划；所述状态包括：自身状态、与预设目标点之间的距离和周围感知数据，周围感知数据具体为四旋翼飞行器水平面设定范围内的激光雷达返回的距离数据；当前时刻的所述自身状态为将上一时刻的动作输入所述四旋翼飞行器的运动学模型得到的；所述自身状态包括：位置、欧拉姿态、角速度和线速度；所述动作包括所述四旋翼飞行器四个电机的悬停转速的改变幅值；所述路径规划模型包括依次连接的LSTM层和全连接层；所述LSTM层包括多个依次连接的LSTM单元。

在实际应用中，根据所述四旋翼飞行器的运动学模型和所述四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型，具体包括：

在当前迭代次数下，根据当前迭代次数下所述四旋翼飞行器当前时刻的状态和当前迭代次数下的演员网络得到当前迭代次数下当前时刻的动作；所述演员网络的结构与所述路径规划模型的结构相同。

将当前迭代次数下当前时刻的动作输入所述四旋翼飞行器的运动学模型得到当前迭代次数下的行为奖励和当前迭代次数下所述四旋翼飞行器下一时刻的状态。

将当前迭代次数下所述四旋翼飞行器下一时刻的状态输入当前迭代次数下的演员网络得到当前迭代次数下所述四旋翼飞行器下一时刻的动作。

判断数据缓存区内的数据是否达到设定数量，得到判断结果；所述数据缓存区内存储各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励、各迭代次数下所述四旋翼飞行器下一时刻的状态和各迭代次数下当前时刻的动作。

若所述判断结果为否，则更新迭代次数进入下次迭代。

若所述判断结果为是，则将各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励和各迭代次数下所述四旋翼飞行器下一时刻的状态输入到当前迭代次数下的评论家网络得到状态价值的估计值；所述评论家网络的结构与所述路径规划模型的结构相同。

根据各迭代次数下的行为奖励和所述状态价值的估计值得到动作价值的估计值。

根据所述状态价值的估计值和所述动作价值的估计值得到优势函数的值。

根据所述优势函数的值对当前迭代次数下的评论家网络进行更新得到下一迭代次数下的评论家网络。

将所述当前迭代次数下的演员网络进行复制，得到当前迭代次数下的新演员网络和当前迭代次数下的旧演员网络。

根据各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下当前时刻的动作、所述当前迭代次数下的新演员网络、所述当前迭代次数下的旧演员网络和所述优势函数的值得到目标函数的值。

根据所述目标函数的值对所述当前迭代次数下的新演员网络进行多次更新得到下一迭代次数下的演员网络，然后更新迭代次数进入下次迭代，直到达到设定迭代次数，停止迭代得到训练好的路径规划模型。

在实际应用中，所述四旋翼飞行器的运动学模型具体为：

Ω＝Ω_hover(1+λk)

其中，Ω_hover表示悬停转速，Ω＝[Ω₁ Ω₂ Ω₃ Ω₄]，Ω_i表示第i个电机改变后的转速，k＝[k₁,k₂,k₃,k₄]，k_i表示第i个电机悬停转速的改变幅值，λ表示比例系数，表示对/>求导，/>表示四旋翼飞行器的线速度，/>表示对u求导，/>表示对v求导，/>表示对w求导，u表示机体坐标系下四旋翼飞行器沿x轴的线速度，v表示机体坐标系下四旋翼飞行器沿y轴的线速度，w表示机体坐标系下四旋翼飞行器沿z轴的线速度，C_T表示旋翼推力大小与电机转速之间的系数，m表示四旋翼飞行器的重量，g表示重力加速度，/>表示对/>求导，表示四旋翼飞行器的角速度，/>表示对p求导，/>表示对q求导，/>表示对r求导，p表示在机体坐标系下四旋翼飞行器绕x轴的角速度，q表示在机体坐标系下四旋翼飞行器绕y轴的角速度，r表示在机体坐标系下四旋翼飞行器绕z轴的角速度，l表示四个电机中任意一个电机到四旋翼飞行器质心的距离，J_∑表示四个电机中的任意一个电机的转动惯量和与所述电机连接的四旋翼飞行器螺旋桨的转动惯量的和，J_x表示四旋翼飞行器围绕机体坐标系x轴的转动惯量，J_y表示四旋翼飞行器围绕机体坐标系y轴的转动惯量，J_z表示四旋翼飞行器围绕机体坐标系z轴的转动惯量，C_Q表示旋翼生成的力矩大小和电机转速之间的系数，/>表示对/>求导，/>表示位置，/>表示对x求导，/>表示对y求导，/>表示对z求导，x表示四旋翼飞行器在大地坐标系下沿x轴的位置，y表示四旋翼飞行器在大地坐标系下沿y轴的位置，z表示四旋翼飞行器在大地坐标系下沿z轴的位置，/>表示对/>求导，/>表示四旋翼飞行器的欧拉姿态，/>表示对φ求导，/>表示对θ求导，/>表示对ψ求导，ψ表示四旋翼飞行器的偏航角，θ表示四旋翼飞行器的俯仰角，φ表示四旋翼飞行器的横滚角。

本发明提供了一种更加具体的四旋翼飞行器在线轨迹规划方法，以对上述方法进行详细介绍，本实施例提供的方法对四旋翼飞行器进行力学建模得到电机转速到飞行器位姿的控制关系；构建基于深度强化学习的四旋翼飞行器在线轨迹规划框架，在基于演员-评论家框架的PPO算法的基础上添加LSTM以优化其特征提取能力；以飞行器自身位姿、速度、雷达的感知信息作为网络的输入观测空间，以旋翼转速改变幅度作为动作空间在给定环境中进行训练；本发明用于连续状态动作空间中的四旋翼飞行器的动作控制决策问题，具体包括：

步骤1：构建四旋翼飞行器的力学模型。

四旋翼飞行器的力学模型包含将电机转速转换为推力和力矩作为输入，速度和角速度作为输出的一部分部分模型以及以线速度和角速度作为输入，位置和欧拉姿态作为输出的另一部分模型。

步骤2：构建基于深度强化学习的四旋翼飞行器在线轨迹规划框架。

针对四旋翼飞行器的控制，本发明采用演员-评论家框架构建基于LSTM的PPO算法(PPO-LSTM)的策略网络和价值网络，并进行强化学习训练，策略网络即为演员网络，价值网络即为评论家网络。基于LSTM的PPO算法属于一种在线强化学习算法，其结构框图如图1所示，LSTM层由多个LSTM单元构成，状态数据输入到LSTM层后，在每个时间步骤中，LSTM单元会根据当前输入和前一步的单元状态计算出新的单元状态，最终的单元状态作为输入传递到全连接层。演员网络的全连接层最后的输出为动作，评论家网络的全连接层输出当前状态的价值。PPO-LSTM的核心思想是使用LSTM层和全连接层实现特征提取，用重要性采样并用剪切操作更新演员网络，这种方法可以限制每次更新的策略改变幅度，以避免过度修改策略。将PPO算法与LSTM结合可以使得强化学习智能体更好地处理序列决策任务。在传统的PPO算法中，智能体将现有状态作为输入进行决策并得到下一个状态。结合LSTM后，智能体除了当前状态外还能够引入过去的状态和动作序列等信息，在保持收敛性和稳定性，实现高效的样本利用率，缓解梯度消失和梯度爆炸问题的同时，使其能够更好地理解任务、历史状态以及可能发展的趋势。

步骤3：设置深度强化学习的状态、动作并根据航行任务设计奖励函数。

在训练过程中，将四旋翼飞行器的位姿、线速度、角速度、与预设目标点之间的距离以及雷达返回的周围感知数据，周围感知数据具体为四旋翼飞行器水平面周围激光雷达返回的距离数据；作为状态输入到演员网络中。

所述演员网络的输出为动作，动作为四旋翼飞行器四个电机悬停转速的改变的幅值。

奖励函数由四部分组成，到达预设目标点的奖励、撞到障碍物的惩罚、飞行过低惩罚以及穿越特殊障碍物奖励。

步骤4：构建数据缓存区用于储存四旋翼飞行器与环境交互时的数据，深度神经网络通过从数据缓存区对数据抽样进行学习和网络的更新。

构建数据缓存区用来储存四旋翼飞行器的力学模型与环境的交互数据，交互数据包括：当前状态、当前动作、当前由奖励函数计算出的行为奖励和下一刻状态。

由初始化的演员网络进行首次与环境交互，当达到一定的交互次数或数量时进行网络更新，网络更新时，评论家网络根据数据缓存区的状态进行奖励评价及网络参数更新，演员网络根据评价进行梯度上升并更新演员网络的参数，使更新后的策略能够控制四旋翼飞行器完成避障任务以得到更高的奖励。

步骤5：基于构建的四旋翼飞行器的运动学模型和在线轨迹规划框架设置相关参数并进行训练；训练结束后，保存网络模型的参数，并采用概率最大的动作作为输出，最终完成四旋翼飞行器的在线轨迹规划流程。

具体步骤为：设置相关参数，相关参数包括：各种奖励值设置、最大训练回合数与步数、折扣因子、学习率、数据缓存区容量、学习时抽取样本数量大小、网络层数、神经元数量以及LSTM类型。

调整相关参数多次训练直到四旋翼飞行器能够完成飞行任务，保存训练好的网络参数，并采用概率最大的动作作为输出，此时网络具有在线轨迹规划的能力，此时PPO-LSTM作为一种在线算法通过训练得到一个能够完成四旋翼飞行器在线轨迹规划的训练好的路径规划模型。

本发明提供了一个更加具体的实施例对上述方法进行详细介绍，如图2所示，本实施例具体步骤如下：

S1：构建四旋翼飞行器的运动学模型，如图3所示，为“X”字型结构四旋翼飞行器的结构示意图，电机1和电机3为逆时针转动，电机2和电机4为顺时针转动。

四旋翼飞行器通过在悬停转速的基础上对转速进行调整，其中四旋翼飞行器的悬停转速Ω_hover为

其中，C_T为旋翼推力大小与电机转速之间的系数，m为四旋翼飞行器的重量，g为重力加速度，取9.8m/s²。

在悬停转速的基础上，深度强化学习通过调整四个电机悬停转速的改变幅值k进行转速控制，表达式为：

Ω＝Ω_hover(1+λk) (2)

其中，Ω＝[Ω₁ Ω₂ Ω₃ Ω₄]表示四旋翼飞行器四个电机改变后的转速，Ω_i为第i个电机改变后的转速，i＝1,2,3,4，k＝[k₁ k₂ k₃ k₄]为四个旋翼的悬停转速的改变幅值，λ为比例系数，取0.05。

四旋翼飞行器大地坐标系的合外力Fⁿ包括总推力F_n和自身重力G_n，表达式为：

式中，[φ θ ψ]^T为四旋翼飞行器的欧拉姿态，分别为横滚角φ、俯仰角θ和偏航角ψ，Ω_i为电机转速，i为电机编号，m为四旋翼飞行器的重量，g为重力加速度，取9.8m/s²。

四旋翼飞行器的合外力矩M^b包括电机推力在大地坐标系的力矩和旋翼绕机体坐标系Z轴高速旋转时产生的陀螺效应力矩/>表达式为：

式中，l为电机到无人机质心的距离，T_i为电机的推力，Q_i为电机的力矩，i为电机编号，[p q r]^T为机体坐标系的角速度，J_Σ为电机与旋翼转动惯量的和。

由牛顿第二定律可以得到四旋翼飞行器速度与合外力的表达式为：

式中，[u v w]^T是四旋翼飞行器的速度。

四旋翼飞行器的角速度和合外力矩的表达式为：

式中，[p q r]^T是四旋翼飞行器的角速度，J＝[J_x J_y J_z]^T为四旋翼飞行器绕机体坐标系的转动惯量。

机体位置与速度的表达式为：

式中，[x y z]^T为四旋翼飞行器的位置。

机体欧拉角与角速度的表达式为：

S2：建立四旋翼飞行器的飞行仿真场景。在一个密闭空间仿真场景中存在一个四旋翼飞行器执行飞行任务，四旋翼飞行器需要自主调节旋翼转速对障碍物进行规避以达到任务目标点；静态障碍物的位置是固定的，动态障碍物的运动是规律的；四旋翼飞行器可以通过传感器观测环境状态；四旋翼飞行器的初始位置是固定的；四旋翼飞行器的初始状态是悬停状态。本实施例采用如图4所示的场景验证本发明提出的四旋翼飞行器在线轨迹规划方法的有效性，在所述场景中包含一个四旋翼飞行器、一个门型静态障碍物、一个球型动态障碍物和一个六角星目标点。场景的相关参量设定如表1所示。

表1相关参量设定

S2.1：构建基于深度强化学习的四旋翼飞行器在线轨迹规划框架。本实施例使用的PPO-LSTM算法包含一对演员-评论家网络，即上述策略网络和价值网络，如图1所示，演员网络和评论家网络均由LSTM层和全连接层组成。LSTM层由多个LSTM单元构成，状态数据输入到LSTM层后，在每个时间步骤中，LSTM单元会根据当前输入和前一步的单元状态计算出新的单元状态，最终的单元状态作为输入传递到全连接层。演员网络的全连接层最后的输出为动作，评论家网络的全连接层输出当前状态的价值。

S2.2：设置深度强化学习的状态和动作并根据航行任务设计奖励函数。

如表2所示，设置观测空间为状态，包含：自身位置、姿态、线速度、角速度、与预设目标点之间的距离和雷达返回的周围感知数据；设置动作为表2中的动作空间，为四个旋翼对应的电机的悬停转速的改变幅值。

表2观测空间和动作空间设置

为鼓励四旋翼飞行器尽早到达目标点可以设置第一奖励函数R_path，在每个时间步上给出一个小负向奖励，此处的路径惩罚和四旋翼飞行器与预设目标点之间的距离有关：

式中，x_target为当前四旋翼飞行器位置与预设目标点之间的距离，l_safe为四旋翼飞行器安全范围半径。

四旋翼飞行器与动态障碍物发生接触时可对此进行罚分R_obs。这将迫使四旋翼飞行器不断调整自己的路径和飞行速度。

式中，x_obs为四旋翼飞行器与障碍物之间的距离。

当四旋翼飞行器航行过低与地面发生接触时可对此进行罚分。

R_ground＝-200 x_high＜l_safe (11)

式中，x_high为四旋翼飞行器与地面的垂直距离。

在该场景中四旋翼飞行器需要通过一扇门，可设置一个很小的正向奖励来确保四旋翼飞行器实现这个步骤。在一个回合中，当到达门中心时有且一次会获得一个奖励，奖励表达式为：

其中，x_gate为飞行器到门中心的距离。

综上可以将奖励函数整合为以下表达式

R_reward＝R_path+R_obs+R_ground+R_gate (13)

其中，R_path为到达预设目标点的奖励，R_obs为撞到障碍物的惩罚，R_ground为飞行过低惩罚，R_gate为穿越特殊障碍物奖励。

S3：构建数据缓存区用于储存四旋翼飞行器力学模型与环境交互时的数据，交互时的数据具体包括当前状态、当前动作、当前行为奖励和下一刻状态。

S4：设置在线轨迹规划框架的相关参数并进行训练；到达设定的训练步长时训练结束，保存演员网络模型的参数，采用概率最大的动作作为输出。

首先初始化演员网络参数θ₀、评论家网络参数φ₀以及数据缓存区，由初始演员网络进行数据收集，当数据缓存区收集到一定数量时对网络进行更新，每次更新前将演员网络复制一份作为旧演员网络。

本实施例中PPO-LSTM的更新过程如图5所示，首先将演员网络的参数复制给旧演员网络。从数据缓存区输入当前行为奖励和下一刻状态，并根据式(14)计算动作价值函数

式中，r_t为在t时刻由奖励函数式(13)得到的行为奖励，γ为折扣因子，一般取0.9～0.99，为参数θ_k下的演员网络从状态s_t+1开始的状态价值函数，实际为将下一刻状态输入到评论家网络得到的输出/>作为/>

进一步，从数据缓存区将当前状态输入到评论家网络得到状态价值函数并由公式(14)得到动作价值函数/>计算优势函数/>

式中，为动作价值函数，即在状态s_t下选择动作a_t后遵循演员网络θ_k能够得到的期望奖励总和，是动作价值的估计值，/>为状态价值函数即状态价值的估计值，即在状态s_t下参数为θ_k时的演员网络能够得到的期望奖励总和。

进一步，演员网络对数据缓存区的当前状态和当前动作进行重要性采样和剪切函数得到目标函数，即通过新旧演员网络重新分配样本权重进行估计分布，目标函数的表达式为

式中，θ_k为第K次迭代次数下的演员网络的参数，表示对时间序列的估计期望，π_old(a|s)为旧演员网络在状态s下采取动作a的概率，π(a|s)为新演员网络在状态s下采取动作a的概率，/>为优势函数的估计值，clip为剪切函数，∈为clip函数的参数，一般取0.2，剪切函数的表达式为：

/>

通过最大化目标函数更新演员网络的参数演员网络的损失函数为式(16)的平均值，然后反向传播使用Adam优化器实现梯度上升。

进一步，对评论家网络进行更新使其对状态的价值估计更加准确，具体为，使用回归均方误差拟合评论家网络对状态价值函数的估计值和动作价值函数的估计值即用回归均方误差拟合式(15)，其中的优势函数作为损失函数，然后使用梯度下降对评论家网络进行更新，评论家网络更新表达式为：

式中，φ_k+1为第k+1次迭代次数下的评论家网络的参数。

综上PPO-LSTM作为一种在线算法通过训练得到一个能够完成四旋翼飞行器在线轨迹规划的网络模型。本实施例在上述三维空间场景中进行仿真实验，对比A2C、PPO、TRPO和PPO-LSTM算法。设定步长为2x10⁷次，每种算法在3个不同随着种子的实验环境下运行一次，测得回报奖励和动作向量的标准差的拟合曲线图如图6所示，其中，图6中(a)部分为A2C算法的回报奖励和动作向量标准差的变化曲线图，图6中(b)部分为PPO算法的回报奖励和动作向量标准差的变化曲线图，图6中(c)部分为TRPO算法的回报奖励和动作向量标准差的变化曲线图，图6中(d)部分为PPO-LSTM算法的回报奖励和动作向量标准差的变化曲线图，最终收敛区间如表2所示。

表2实验仿真结果

从图6和表2所示的仿真实验结果可以看出，PPO-LSTM中的智能体会逐渐学习到环境的规律，当智能体从一种策略转变到另一种策略时会开始采用更加稳定的策略，奖励的差异性也逐渐减小，标准差也会逐渐缩小。PPO-LSTM在回报奖励和标准差都比传统算法要更加优秀，这充分说明PPO-LSTM可以提高样本数据的利用率，收敛效果更好，飞行器控制更加稳定。

本发明实施例提供了一种与上述方法对应的四旋翼飞行器在线轨迹规划系统，包括：

构建模块，用于构建四旋翼飞行器的运动学模型。

作为一种可选的实施方式，所述训练模块，具体包括：

当前时刻的动作确定单元，用于在当前迭代次数下，根据当前迭代次数下所述四旋翼飞行器当前时刻的状态和当前迭代次数下的演员网络得到当前迭代次数下当前时刻的动作；所述演员网络的结构与所述路径规划模型的结构相同。

行为奖励和状态确定单元，用于将当前迭代次数下当前时刻的动作输入所述四旋翼飞行器的运动学模型得到当前迭代次数下的行为奖励和当前迭代次数下所述四旋翼飞行器下一时刻的状态。

下一时刻的动作确定单元，用于将当前迭代次数下所述四旋翼飞行器下一时刻的状态输入当前迭代次数下的演员网络得到当前迭代次数下所述四旋翼飞行器下一时刻的动作。

判断单元，用于判断数据缓存区内的数据是否达到设定数量，得到判断结果；所述数据缓存区内存储各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励、各迭代次数下所述四旋翼飞行器下一时刻的状态和各迭代次数下当前时刻的动作。

循环单元，用于若所述判断结果为否，则更新迭代次数进入下次迭代；

状态价值估计值计算单元，用于若所述判断结果为是，则将各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励和各迭代次数下所述四旋翼飞行器下一时刻的状态输入到当前迭代次数下的评论家网络得到状态价值的估计值；所述评论家网络的结构与所述路径规划模型的结构相同。

状态价值实际值计算单元，用于根据各迭代次数下的行为奖励和所述状态价值的估计值得到动作价值的估计值。

优势函数值计算单元，用于根据所述状态价值的估计值和所述动作价值的估计值得到优势函数的值。

评论家网络更新单元，用于根据所述优势函数的值对当前迭代次数下的评论家网络进行更新得到下一迭代次数下的评论家网络。

复制单元，用于将所述当前迭代次数下的演员网络进行复制，得到当前迭代次数下的新演员网络和当前迭代次数下的旧演员网络。

目标函数值计算单元，用于根据各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下当前时刻的动作、所述当前迭代次数下的新演员网络、所述当前迭代次数下的旧演员网络和所述优势函数的值得到目标函数的值。

演员网络更新单元，用于根据所述目标函数的值对所述当前迭代次数下的新演员网络进行多次更新得到下一迭代次数下的演员网络，然后更新迭代次数进入下次迭代，直到达到设定迭代次数，停止迭代得到训练好的路径规划模型。

作为一种可选的实施方式，所述四旋翼飞行器的运动学模型具体为：

Ω＝Ω_hover(1+λk)

本发明实施例提供了一种电子设备，包括：

存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据上述所述的四旋翼飞行器在线轨迹规划方法。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的四旋翼飞行器在线轨迹规划方法。

本发明提出了一种四旋翼飞行器在线轨迹规划方法，用于解决在连续状态下的四旋翼飞行器动作控制决策问题。本发明针对所要控制的四旋翼飞行器为四旋翼飞行器构建运动学模型，并通过PPO-LSTM算法训练得到一个训练好的路径规划模型以控制四旋翼飞行器的轨迹飞行，与现有技术相比，本发明采用深度强化学习的在线轨迹规划方法相较于其他在线强化学习算法具有更好的收敛性，提高了四旋翼航行的实时性和自主性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种四旋翼飞行器在线轨迹规划方法，其特征在于，包括：

构建四旋翼飞行器的运动学模型；

2.根据权利要求1所述的四旋翼飞行器在线轨迹规划方法，其特征在于，根据所述四旋翼飞行器的运动学模型和所述四旋翼飞行器当前时刻的状态采用PPO算法对路径规划模型进行训练得到训练好的路径规划模型，具体包括：

在当前迭代次数下，根据当前迭代次数下所述四旋翼飞行器当前时刻的状态和当前迭代次数下的演员网络得到当前迭代次数下当前时刻的动作；所述演员网络的结构与所述路径规划模型的结构相同；

将当前迭代次数下当前时刻的动作输入所述四旋翼飞行器的运动学模型得到当前迭代次数下的行为奖励和当前迭代次数下所述四旋翼飞行器下一时刻的状态；

将当前迭代次数下所述四旋翼飞行器下一时刻的状态输入当前迭代次数下的演员网络得到当前迭代次数下所述四旋翼飞行器下一时刻的动作；

判断数据缓存区内的数据是否达到设定数量，得到判断结果；所述数据缓存区内存储各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励、各迭代次数下所述四旋翼飞行器下一时刻的状态和各迭代次数下当前时刻的动作；

若所述判断结果为否，则更新迭代次数进入下次迭代；

若所述判断结果为是，则将各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励和各迭代次数下所述四旋翼飞行器下一时刻的状态输入到当前迭代次数下的评论家网络得到状态价值的估计值；所述评论家网络的结构与所述路径规划模型的结构相同；

根据各迭代次数下的行为奖励和所述状态价值的估计值得到动作价值的估计值；

根据所述状态价值的估计值和所述动作价值的估计值得到优势函数的值；

根据所述优势函数的值对当前迭代次数下的评论家网络进行更新得到下一迭代次数下的评论家网络；

将所述当前迭代次数下的演员网络进行复制，得到当前迭代次数下的新演员网络和当前迭代次数下的旧演员网络；

根据各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下当前时刻的动作、所述当前迭代次数下的新演员网络、所述当前迭代次数下的旧演员网络和所述优势函数的值得到目标函数的值；

3.根据权利要求1所述的四旋翼飞行器在线轨迹规划方法，其特征在于，所述四旋翼飞行器的运动学模型具体为：

Ω＝Ω_hover(1+λk)

其中，Ω_hover表示悬停转速，Ω＝[Ω₁ Ω₂ Ω₃ Ω₄]，Ω_i表示第i个电机改变后的转速，k＝[k₁,k₂,k₃,k₄]，k_i表示第i个电机悬停转速的改变幅值，λ表示比例系数，表示对/>求导，/>表示四旋翼飞行器的线速度，/>表示对u求导，/>表示对v求导，/>表示对w求导，u表示机体坐标系下四旋翼飞行器沿x轴的线速度，v表示机体坐标系下四旋翼飞行器沿y轴的线速度，w表示机体坐标系下四旋翼飞行器沿z轴的线速度，C_T表示旋翼推力大小与电机转速之间的系数，m表示四旋翼飞行器的重量，g表示重力加速度，/>表示对/>求导，/>表示四旋翼飞行器的角速度，/>表示对p求导，/>表示对q求导，/>表示对r求导，p表示在机体坐标系下四旋翼飞行器绕x轴的角速度，q表示在机体坐标系下四旋翼飞行器绕y轴的角速度，r表示在机体坐标系下四旋翼飞行器绕z轴的角速度，l表示四个电机中任意一个电机到四旋翼飞行器质心的距离，J_Σ表示四个电机中的任意一个电机的转动惯量和与所述电机连接的四旋翼飞行器螺旋桨的转动惯量的和，J_x表示四旋翼飞行器围绕机体坐标系x轴的转动惯量，J_y表示四旋翼飞行器围绕机体坐标系y轴的转动惯量，J_z表示四旋翼飞行器围绕机体坐标系z轴的转动惯量，C_Q表示旋翼生成的力矩大小和电机转速之间的系数，/>表示对/>求导，/>表示位置，/>表示对x求导，/>表示对y求导，/>表示对z求导，x表示四旋翼飞行器在大地坐标系下沿x轴的位置，y表示四旋翼飞行器在大地坐标系下沿y轴的位置，z表示四旋翼飞行器在大地坐标系下沿z轴的位置，/>表示对/>求导，/>表示四旋翼飞行器的欧拉姿态，/>表示对φ求导，/>表示对θ求导，/>表示对ψ求导，ψ表示四旋翼飞行器的偏航角，θ表示四旋翼飞行器的俯仰角，φ表示四旋翼飞行器的横滚角。

4.一种四旋翼飞行器在线轨迹规划系统，其特征在于，包括：

构建模块，用于构建四旋翼飞行器的运动学模型；

5.根据权利要求4所述的四旋翼飞行器在线轨迹规划系统，其特征在于，所述训练模块，具体包括：

当前时刻的动作确定单元，用于在当前迭代次数下，根据当前迭代次数下所述四旋翼飞行器当前时刻的状态和当前迭代次数下的演员网络得到当前迭代次数下当前时刻的动作；所述演员网络的结构与所述路径规划模型的结构相同；

行为奖励和状态确定单元，用于将当前迭代次数下当前时刻的动作输入所述四旋翼飞行器的运动学模型得到当前迭代次数下的行为奖励和当前迭代次数下所述四旋翼飞行器下一时刻的状态；

下一时刻的动作确定单元，用于将当前迭代次数下所述四旋翼飞行器下一时刻的状态输入当前迭代次数下的演员网络得到当前迭代次数下所述四旋翼飞行器下一时刻的动作；

判断单元，用于判断数据缓存区内的数据是否达到设定数量，得到判断结果；所述数据缓存区内存储各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励、各迭代次数下所述四旋翼飞行器下一时刻的状态和各迭代次数下当前时刻的动作；

状态价值估计值计算单元，用于若所述判断结果为是，则将各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下的行为奖励和各迭代次数下所述四旋翼飞行器下一时刻的状态输入到当前迭代次数下的评论家网络得到状态价值的估计值；所述评论家网络的结构与所述路径规划模型的结构相同；

状态价值实际值计算单元，用于根据各迭代次数下的行为奖励和所述状态价值的估计值得到动作价值的估计值；

优势函数值计算单元，用于根据所述状态价值的估计值和所述动作价值的估计值得到优势函数的值；

评论家网络更新单元，用于根据所述优势函数的值对当前迭代次数下的评论家网络进行更新得到下一迭代次数下的评论家网络；

复制单元，用于将所述当前迭代次数下的演员网络进行复制，得到当前迭代次数下的新演员网络和当前迭代次数下的旧演员网络；

目标函数值计算单元，用于根据各迭代次数下所述四旋翼飞行器当前时刻的状态、各迭代次数下当前时刻的动作、所述当前迭代次数下的新演员网络、所述当前迭代次数下的旧演员网络和所述优势函数的值得到目标函数的值；

6.根据权利要求4所述的四旋翼飞行器在线轨迹规划系统，其特征在于，所述四旋翼飞行器的运动学模型具体为：

Ω＝Ω_hover(1+λk)

其中，Ω_hover表示悬停转速，Ω＝[Ω₁ Ω₂ Ω₃ Ω₄]，Ω_i表示第i个电机改变后的转速，k＝[k₁,k₂,k₃,k₄]，k_i表示第i个电机悬停转速的改变幅值，λ表示比例系数，表示对/>求导，/>表示四旋翼飞行器的线速度，/>表示对u求导，/>表示对v求导，/>表示对w求导，u表示机体坐标系下四旋翼飞行器沿x轴的线速度，v表示机体坐标系下四旋翼飞行器沿y轴的线速度，w表示机体坐标系下四旋翼飞行器沿z轴的线速度，C_T表示旋翼推力大小与电机转速之间的系数，m表示四旋翼飞行器的重量，g表示重力加速度，/>表示对/>求导，/>表示四旋翼飞行器的角速度，/>表示对p求导，/>表示对q求导，/>表示对r求导，p表示在机体坐标系下四旋翼飞行器绕x轴的角速度，q表示在机体坐标系下四旋翼飞行器绕y轴的角速度，r表示在机体坐标系下四旋翼飞行器绕z轴的角速度，l表示四个电机中任意一个电机到四旋翼飞行器质心的距离，J_∑表示四个电机中的任意一个电机的转动惯量和与所述电机连接的四旋翼飞行器螺旋桨的转动惯量的和，J_x表示四旋翼飞行器围绕机体坐标系x轴的转动惯量，J_y表示四旋翼飞行器围绕机体坐标系y轴的转动惯量，J_z表示四旋翼飞行器围绕机体坐标系z轴的转动惯量，C_Q表示旋翼生成的力矩大小和电机转速之间的系数，/>表示对/>求导，/>表示位置，/>表示对x求导，/>表示对y求导，/>表示对z求导，x表示四旋翼飞行器在大地坐标系下沿x轴的位置，y表示四旋翼飞行器在大地坐标系下沿y轴的位置，z表示四旋翼飞行器在大地坐标系下沿z轴的位置，/>表示对/>求导，/>表示四旋翼飞行器的欧拉姿态，/>表示对φ求导，/>表示对θ求导，/>表示对ψ求导，ψ表示四旋翼飞行器的偏航角，θ表示四旋翼飞行器的俯仰角，φ表示四旋翼飞行器的横滚角。

7.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至3中任一项所述的四旋翼飞行器在线轨迹规划方法。

8.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的四旋翼飞行器在线轨迹规划方法。