CN116755323A

CN116755323A - 一种基于深度强化学习的多旋翼无人机pid自整定方法

Info

Publication number: CN116755323A
Application number: CN202310857621.0A
Authority: CN
Inventors: 刘鑫; 王财政; 郭秋泉; 王傲; 仲启峰; 肖纯璐; 吴伟涵; 杨军
Original assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen
Current assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-15

Abstract

本发明公开了一种基于深度强化学习的多旋翼无人机PID自整定方法，涉及无人机运动控制系统技术领域，该方法通过深度强化学习算法，在无人机的飞行控制环境中进行训练，使其能够根据当前状态和目标性能指标，自动调整PID参数。训练过程中，无人机通过与环境的交互，不断优化控制策略，以获得最佳的PID参数配置。通过将环境中的状态、动作和奖励进行建模，利用深度神经网络对策略进行学习和优化，实现PID参数的自动调整。本发明能够实现快速、精确地自动调整多旋翼无人机的PID参数，无需事先了解系统参数，适用于各种多旋翼飞行器平台。本发明解决了现有技术中调整过程繁琐、收敛速度慢、参数调整不精确等问题，具有较高的实用性和经济效益。

Description

一种基于深度强化学习的多旋翼无人机PID自整定方法

技术领域

本发明涉及无人机运动控制系统技术领域，具体为一种基于深度强化学习的多旋翼无人机PID自整定方法。

背景技术

国内外已有许多关于多旋翼无人机PID控制器的研究和应用。无人机需要调整PID参数以优化其控制性能，如最优轨迹跟踪。通常情况下用于无人机的PID控制器需要通过繁琐的手动过程或离线数据驱动方法进行调整。现有的无人机PID整定方法主要分为三大类：第一类方法是通过对系统进行跃迁响应测试，得到临界增益与临界周期，或者是一些关键的时间常数，然后利用这些参数计算出PID参数，这种方法计算得到的PID参数一般需要通过在工程实践中进行进一步的调整才能使用。第二类方法是通过对PID控制器的参数进行手动调整，观察无人机的响应与性能，并逐步优化参数值，这种方法主要依赖于工程经验，并结合反复实验来获得较好的PID参数设置。第三类方法是通过一些优化算法(如遗传算法、粒子群算法等)，将其应用于自动化调整PID参数的过程，这些算法通过优化目标函数(如系统响应性能指标、误差最小化等)来搜索最佳的PID参数组合。

这些方法在一定程度上可以实现PID参数的调整，但存在一定的局限性，如调整过程繁琐、收敛速度慢、参数调整不精确等。当无人机系统配置发生变化(如负载变化)或者无人机飞行环境条件(如风条件)发生变化，都需要重新对PID参数进行调整。同时参数调整的过程均需要人员的参与干涉以及时间的消耗。

针对上述现有技术在多旋翼无人机PID控制器参数调整方面仍然存在不足。所以，迫切需要一种收敛速度快、调整精度高，同时适用于各种多旋翼飞行器平台且无需事先了解系统参数的PID参数自动调整方法。本发明提供一种基于深度强化学习的方法来实现多旋翼无人机的PID参数自整定。

发明内容

本发明提供了一种基于深度强化学习的多旋翼无人机PID自整定方法，解决了上述背景技术中提出的现有技术在多旋翼无人机PID控制器参数调整调整繁琐、收敛速度慢和调整精度不高的问题。

本发明提供如下技术方案：一种基于深度强化学习的多旋翼无人机PID自整定方法，通过深度强化学习算法，在无人机的飞行控制环境中进行训练，使其能够根据当前状态和目标性能指标，自动调整PID参数。训练过程中，无人机通过与环境的交互，不断优化控制策略，以获得最佳的PID参数配置。通过将环境中的状态、动作和奖励进行建模，利用深度神经网络对策略进行学习和优化，实现PID参数的自动调整。

一种基于深度强化学习的多旋翼无人机PID自整定方法，包括以下步骤：

步骤1：对无人机的实际飞行过程进行建模，建立马尔可夫决策过程；

步骤2：初始化无人机的当前状态s，设置初始PID参数值，在无人机飞行过程中引入高频振荡；

步骤3：根据ε-greedy策略选择动作，获取实时惯性测量单元(IMU)提供的姿态测量值s’；

步骤4：判断下一个状态s’是否到达设置的期望状态值，同时根据s’中的姿态角度偏差和以及角速度偏差和计算奖励值r；

步骤5：存储当前状态s、动作a、奖励值r和下一个状态s’到经验回放池M中；

步骤6：判断经验回放池存储次数是否大于其最大容量，是则执行步骤7，否则执行步骤8；

步骤7：从经验回放池中进行随机取样，使用DQN网络模型中的评估Q网络计算当前状态s的所有值函数Q，使用DQN网络模型中的目标Q网络计算下一状态s’的所有值函数Q’，结合Q和Q’函数，使用梯度下降或均方差损失函数计算损失，根据损失值更新评估Q网络；判断评估Q网络的更新次数是否到达目标Q网络更新步数，是则将评估Q网络更新到目标Q网络，否则执行步骤8；

步骤8：根据无人机运行情况判断当前状态下的姿态是否满足最终期望姿态或是否到达训练次数阈值，是则程序结束，否则重复步骤2至步骤8。

优选的，所述步骤1的详细步骤如下：

S11：收集多旋翼无人机惯性测量单元(IMU)状态信息，包括姿态角度、角速度等，将其作为状态s，把对滚转/俯仰角度和滚转角速度的控制器增益k，Kp，Ki，Kd的调整操作设置为动作a，并设置每个参数的调整步长；

S12：使用无人机飞行过程中的姿态角度偏差和以及角速度偏差和计算奖励值r；

S13：采用ε-greedy策略进行动作的选择；

S14：建立深度强化学习DQN网络模型作为策略的评估模型。

优选的，所述步骤2的详细步骤包括：

S21：获取实时惯性测量单元(IMU)提供的姿态测量值，作为无人机初始状态s；

S22：滚转/俯仰角度、角速度控制回路的PID增益保持默认值：P＝0.15，I＝0.2，D＝0.003；

S23：将滚转/俯仰速度控制回路的P增益设为高值0.6，以引入高频振荡。

优选的，所述步骤3的详细步骤包括：

S31：设置ε-greedy策略中的贪婪度ε，定义动作选择函数如下：

其中m为动作个数，a*为最优动作，A为动作空间；

S32：输入状态s，采用ε-greedy策略，当随机生成值小于贪婪度ε时进行贪婪，即通过评估网络选择最优动作；当随机生成值大于贪婪度ε时进行探索，随机选择动作，通过函数计算返回所选择的动作a；

S33：执行选择的动作a，此时状态s得到更新，获取无人机的下一个状态s’。

优选的，所述评估模型由评估Q网络、目标Q网络、经验回放池和损失函数组成；所述的评估Q网络和目标Q网络包含两个隐藏层、一个输入层和一个输出层；输入层神经节点数目为状态s的个数，输出层神经节点数目为动作a的个数；使用Relu和Softmax作为激活函数来处理经过隐藏层后的值。

优选的，所述奖励值r的计算公式为：

其中：姿态角度偏差为θ_diff；角速度偏差为ω_diff；ω₁是姿态角度奖励的系数；ω₂是姿态角速度的系数，这两个系数一般设置为正值，∈₁为设置的角速度偏差，∈₂为设置的角速度偏差的容错值；R_goal为当无人机的姿态角度与姿态角速度接近或达到目标时给予的一个正向奖励，鼓励无人机快速准确地达到目标。

与现有技术对比，本发明具备以下有益效果：

1、该基于深度强化学习的多旋翼无人机PID自整定方法，通过引入深度强化学习的方法，能够实现快速、精确地自动调整多旋翼无人机的PID参数，无需事先了解系统参数，适用于各种多旋翼飞行器平台。本发明解决了现有技术中调整过程繁琐、收敛速度慢、参数调整不精确等问题，具有较高的实用性和经济效益。

2、该基于深度强化学习的多旋翼无人机PID自整定方法，涉及算法可以实时运行，并持续调整控制器以适应物理系统(例如负载变化)或环境(例如风条件)的任何变化。

3、该基于深度强化学习的多旋翼无人机PID自整定方法，涉及算法适用于各种多旋翼飞行器平台，且无需事先了解无人机系统参数。

附图说明

图1为本发明示例中的深度强化学习DQN网络模型结构图示意图；

图2为本发明示例中的评估Q网络与目标Q网络的网络结构图；

图3为本发明实例中的嵌入式AI计算平台与PX4飞行固件的通信架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种实施例：一种基于深度强化学习的多旋翼无人机PID自整定方法，通过深度强化学习算法，在无人机的飞行控制环境中进行训练，使其能够根据当前状态和目标性能指标，自动调整PID参数。训练过程中，无人机通过与环境的交互，不断优化控制策略，以获得最佳的PID参数配置。通过将环境中的状态、动作和奖励进行建模，利用深度神经网络对策略进行学习和优化，实现PID参数的自动调整。

上述的一种基于深度强化学习的多旋翼无人机PID自整定方法，包括以下步骤：

步骤1：对无人机的实际飞行过程进行建模，建立马尔可夫决策过程。

所述步骤1的详细步骤包括：

S12：使用无人机飞行过程中的姿态角度偏差和以及角速度偏差和计算奖励值r；奖励值r的计算公式为：

S13：采用ε-greedy策略进行动作的选择；

S14：建立深度强化学习DQN网络模型作为策略的评估模型，该评估模型由评估Q网络、目标Q网络、经验回放池和损失函数组成；所述的评估Q网络和目标Q网络包含两个隐藏层、一个输入层和一个输出层。输入层神经节点数目为状态s的个数，输出层神经节点数目为动作a的个数，并使用Relu和Softmax作为激活函数来处理经过隐藏层后的值。

本申请的一些实施例中，输入层神经节点数目设置为6，输出层神经节点数目设置为9，隐藏层中神经节点数目设为50。

步骤2：初始化无人机的当前状态s，设置初始PID参数值，在无人机飞行过程中引入高频振荡。

所述步骤2的详细步骤包括：

S21：获取实时惯性测量单元(IMU)提供的姿态测量值，作为无人机初始状态s。

S22：滚转/俯仰角度、角速度控制回路的PID增益保持默认值(P＝0.15，I＝0.2，D＝0.003)。

S23：将滚转/俯仰速度控制回路的P增益设为高值(从0.15增加到0.6)，以引入高频振荡。

步骤3：根据ε-greedy策略选择动作，获取实时惯性测量单元(IMU)提供的姿态测量值s’。

所述步骤3的详细步骤包括：

其中m为动作个数，a*为最优动作，A为动作空间；

在上述步骤1后可加入深度强化学习网络DQN的网络模型预训练步骤，具体过程如下：

S1：获取历史数据(s,a,r,s’)四元组，将其存储到经验回放池M中；

S2：判断经验回放池M是否到达最大容量，若达到最大容量则进行网络训练，网络训练过程与上述步骤2至步骤8一致。

训练结束后该算法模型则可用于无人机PID参数的快速自整定，使无人机快速到达期望姿态，并且可以根据需求继续更新算法模型网络。

且本发明涉及算法可以实时运行，并持续调整控制器以适应物理系统(例如负载变化)或环境(例如风条件)的任何变化。本发明涉及算法适用于各种多旋翼飞行器平台，且无需事先了解无人机系统参数。

以下通过本发明的一个实例，对本发明进行进一步的说明。

在该实例中，多旋翼无人机搭载Pixhawk飞控硬件，同时连接运行DQN算法的嵌入式AI平台，Pixhawk飞控硬件中运行有支持MAVROS软件包的PX4飞控固件。通过Pixhawk飞控硬件读取无人机的当前姿态信息和期望姿态信息(对应上述步骤中的状态s)，通过MAVROS节点发送至运行DQN算法的ROS节点，DQN节点进行计算后，通过MAVROS节点将PID增益调整值(对应上述步骤中的动作a)发送给PX4飞行固件，自动调整PID参数。

本发明使用到的标准零件均可以从市场上购买，异形件根据说明书的和附图的记载均可以进行订制，各个零件的具体连接方式均采用现有技术中成熟的螺栓、铆钉、焊接等常规手段，机械、零件和设备均采用现有技术中，常规的型号，在此不再详述，本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术，尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于：所述步骤1的详细步骤如下：

S13：采用ε-greedy策略进行动作的选择；

S14：建立深度强化学习DQN网络模型作为策略的评估模型。

3.根据权利要求1所述的一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于：所述步骤2的详细步骤包括：

4.根据权利要求1所述的一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于：所述步骤3的详细步骤包括：

其中m为动作个数，a*为最优动作，A为动作空间；

5.根据权利要求2所述的一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于：所述评估模型由评估Q网络、目标Q网络、经验回放池和损失函数组成；所述的评估Q网络和目标Q网络包含两个隐藏层、一个输入层和一个输出层；输入层神经节点数目为状态s的个数，输出层神经节点数目为动作a的个数；使用Relu和Softmax作为激活函数来处理经过隐藏层后的值。

6.根据权利要求2所述的一种基于深度强化学习的多旋翼无人机PID自整定方法，其特征在于：所述奖励值r的计算公式为：

其中：姿态角度偏差为θ_diff；角速度偏差为ω_diff；ω₁是姿态角度奖励的系数；ω₂是姿态角速度的系数，这两个系数一般设置为正值，∈₁为设置的角速度偏差，∈₂为设置的角速度偏差的容错值；R_foal为当无人机的姿态角度与姿态角速度接近或达到目标时给予的一个正向奖励，鼓励无人机快速准确地达到目标。