CN116088552B

CN116088552B - 一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法

Info

Publication number: CN116088552B
Application number: CN202310079110.0A
Authority: CN
Inventors: 孙健; 邓博远; 王钢; 李卓; 张野晨; 周子煜; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2026-01-06
Anticipated expiration: 2043-01-18
Also published as: CN116088552A

Abstract

本发明公布了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。在训练阶段，随机初始化网络参数以及参考轨迹，通过当前状态利用动作网络得到动作并以初始区间加入噪声，利用动作得到下一个状态以及对应奖励，将状态‑动作‑奖励‑下一个状态作为一个元组储存，利用储存的元组更新动作网络、惩罚网络以及价值网络的参数。本发明利用时间衰减与周期奖励来自适应探索，通过环境交互训练深度强化学习器，使深度强化学习器能更快的在任务中掌握学习的能力，大幅提高了深度强化学习的学习效率以及轨迹跟踪的准确率，对提升无人系统自主性和智能性以及复杂系统的无模型智能控制性能有非常重要的意义。

Description

一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法

技术领域

本发明属于智能控制和无人系统领域，尤其针对无人机运动模型不精确轨迹跟踪效果较差的情况下，具体涉及一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。

背景技术

由于其灵活性和可操作性，无人机在广泛的应用中显示出巨大的潜力。在轨迹跟踪任务中，需要为无人机设计控制律，以跟踪导航系统分配的参考轨迹。现有的控制法包括滑模控制(Sliding Mode Control)、反步控制(Backstepping Control)、模型预测控制(Model Predictive Control)、分散和线性时变控制、神经网络控制(Neural NetworkedControl)。在传统的控制算法中，基于模型的方法由于其良好的性能而被广泛使用。然而，这些方法严重依赖于无人机的精确动力学建模，大多数工作只考虑无人机的动力学模型，而忽略了实际中复杂的动态环境。此外，由于无人机的高速运动，任何轻微的扰动、模型失配和长的控制间隔都可能导致灾难性的碰撞。因此，在复杂环境中，无人机的轨迹跟踪控制非常具有挑战性。此外，控制律需要对干扰具有鲁棒性，并实时适应时变参考轨迹。

为了解决建模不准确性，研究人员提出了多种控制方法。例如，Manuel J.Reinoso等人在文献(Reinoso,Manuel J.,et al."Trajectory tracking of a quadrotor usingsliding mode control."IEEE Latin America Transactions 14.5(2016):2157-2166.)通过小角度近似简化了四转子动力学模型，从而降低了SMC设计方程的复杂性，然而，在轨道参考点处会出现抖振。在实际应用中，总是存在所谓的平衡点抖动，这对无人机来说是致命的。为了解决这个问题，Michael Neuert等人在文献(Neunert,Michael,et al."Fastnonlinear model predictive control for unified trajectory optimization andtracking."2016IEEE international conference on robotics and automation(ICRA).IEEE,2016.)设计了一个毫秒级的非线性MPC框架，这种方法仍然依赖于模型，并不能完全解决问题。

此外，无模型控制方法，如深度强化学习，可以解决过度依赖模型的问题。深度强化学习提供了一个学习框架，通过与环境的交互来优化控制策略。因此，它可以处理复杂的动力学，而不需要建模。因为在跟踪过程中始终存在环境噪声。为了克服这一问题，JiyingWu等人在文献(Wu,Jiying,et al."AState-Compensated Deep Deterministic PolicyGradient Algorithm for UAV Trajectory Tracking."Machines 10.7(2022):496.)提出了深度强化学习行动网络的补偿网络，该网络可以更好地处理噪声问题。然而，补偿方法需要进一步改进，以应对复杂的环境变化。通常，无模型深度强化学习算法通过在训练过程中注入动作噪声来鼓励探索，可选地遵循线性退火计划。不同的勘探噪声将导致不同的结果，甚至局部最优。

因此，为了解决上述问题需要设计一种基于学习的精确且高效的无人机轨迹跟踪方法，能够避免训练过程局部最优，并使算法快速收敛，从而精确的跟踪轨迹。目前为止，还没有一种方法能够保证在极短控制时间内保持较高精度的跟踪能力。

发明内容

为解决上述问题，本发明提供一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，该方法在现有深度强化学习算法基础上引入时间变量，通过时间指数衰减使探索幅度进行自适应，从而加速训练，缩短算法收敛时间，并且考虑一个周期内的奖励作为评价，避免陷入局部最优，同时在训练初期，通过随机初始化多条路径，强化控制器在跟踪任务上的轨迹泛化能力。

本发明的技术解决方案是：

一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，包含以下步骤：

S1，构建深度强化学习所需的网络模型，构建的网络模型中包括动作网络、价值网络；

S2，根据当前状态向量s使用步骤S1中的动作网络与环境进行交互，得到下一个状态向量s′，将所有状态向量以及动作网络输出的动作向量作为元组进行存储，元组批处理大小需要大于设定阈值；

元组为(s,a,r,s′,a′)，r为当前状态向量s下使用动作向量a与环境进行交互得到的奖励，初始状态向量s₀为给定无人机的初始轨迹数据，与当前状态向量s对应的动作网络输出的动作向量为a，与下一个状态向量s′对应的动作网络输出的动作向量为a′，与初始状态向量s₀对应的动作网络输出的动作向量为a₀；

S3，在步骤S2存储的数据中随机采样，根据公式得到状态向量s的Q值，即状态向量s的价值，根据公式更新价值网络的参数；

S4，根据公式得到一个周期内奖励，根据δ和公式σ←βinput_maxe^-λt+(1-β)input_maxe^-δ得到高斯噪声的方差，并使用得到的高斯噪声的方差来更新高斯噪声；

S5，循环步骤S2-S4，当循环次数满足设定阈值时，计算出梯度根据得到的梯度使用梯度下降法对动作网络以及价值网络进行更新，得到新的动作网络参数，再根据θ′_k←τθ_k+(1-τ)θ′_k，φ′←τφ+(1-τ)φ′更新价值网络参数以及动作网络参数；

S6，循环步骤S2-S5，直到循环次数达到设定的最大训练周期n时结束循环，得到基于深度强化学习的无人机轨迹跟踪控制器，使用得到的无人机轨迹跟踪控制器对无人机进行轨迹跟踪控制。

在步骤S3中，公式中的i代表两个价值网络中的一个，Q代表价值网络，θ是价值网络参数。

在步骤S4中，公式中的batch代表随机采样出来的数据组，j代表数据组中的某一个数据，r_min，r_max分别代表历史奖励中最小奖励与最大奖励，公式σ←βinput_maxe^-λt+(1-β)input_maxe^-δ中，t代表S2-S5的已循环次数。

在步骤S5中，梯度中的φ代表是动作网络参数，公式θ′_k←τθ_k+(1-τ)θ′_k，φ′←τφ+(1-τ)φ′中τ是常数，θ_k是第k个价值网络的参数，φ是动作网络的参数。

有益效果

(1)本发明所设计的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，使用深度强化学习来解决高维连续控制问题，并通过随机轨迹预训练生成强干扰抑制、高敏捷性和强鲁棒性的控制器。

(2)本发明的方法训练后的神经网络控制器可以在线自适应，并对新给定的轨迹实现更好的跟踪效果。该方法消除了模型不准确导致的控制精度问题，并大大减少了操作时间，比求解优化方法减少了10倍。

(3)本发明公布了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。在训练阶段，首先随机初始化网络参数以及参考轨迹，通过当前状态利用动作网络得到动作并以初始区间加入噪声，并利用动作得到下一个状态以及对应奖励，将状态-动作-奖励-下一个状态作为一个元组储存，利用储存的元组更新动作网络、惩罚网络以及价值网络的参数，根据时间以及一段周期内的奖励更新噪声区间。重复上述过程，直到训练完成获得性能优异的深度强化控制器。本发明利用时间衰减与周期奖励来自适应探索，通过环境交互训练深度强化学习器，使深度强化学习器能更快的在任务中掌握学习的能力，大幅提高了深度强化学习的学习效率以及轨迹跟踪的准确率，对提升无人系统自主性和智能性以及复杂系统的无模型智能控制性能有非常重要的意义。

附图说明

图1是本发明提供的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法在深度强化学习算法验证平台上与其他算法对比的运行效果图；

图2为本发明提供的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法一个实施例的运行效果图，其中图2a为LOSRT轨迹，图2b为COS轨迹。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。以下实施例或附图用于说明本发明，但不用来限制本发明的范围。

本发明提供了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，通过不断与环境交互最终得到跟踪误差小、控制周期短的深度强化学习无人机轨迹跟踪控制器，包括以下步骤：

S1，准备深度强化学习所需的网络模型以及初始轨迹数据。设定训练任务以及测试任务的给定轨迹长度T＝3000，每个轨迹点之间的时间间隔为0.001s，即总时间长度为3s，在仿真中设定无人机的质量是1.5kg，螺旋桨最大升力20N/kg，最小升力0N/kg，所能产生最大角速度为6rad/s，最小角速度为-6rad/s，测试轨迹设置两条。随机初始化网络参数θ₁，θ₂，φ，设置算法超参数，包括状态空间维度13维(无人机的三维位置、三维速度、四维四元数姿态、由下一个参考点指向当前位置点的三维向量)，四维动作空间升力、三轴角速度u＝(f，w_x，w_y，w_z)，学习率l_r＝0.99，批处理大小batchsize＝255，最大存储量B，回报折扣γ＝0.99，指数衰减因子β＝0.08，奖励影响因子λ＝0.01，外环最大训练周期n＝100000，以及内环快速参数更新频率d＝2。

S2，通过与环境交互获得批处理数据。每轮训练开始时，根据当前状态向量s，得到对应动作向量a₁，对动作向量加入高斯噪声，其中高斯噪声的均值为0，初始方差为1，将加入噪声的动作向量a与环境进行下一步交互，并且根据给出的动作向量a₁得到下一个状态向量s′，同时由环境给出动作得分奖励r，最后将(s,a,r,s′)作为批处理数据元组储存，若批处理数据量超过设定最大存储B，则删除最先存储的数据并存入新数据。

S3，存储量未达到批处理大小前，重复步骤S2直至达到最小量批处理大小。若达到批处理条件则随机在存储数据中进行批采样，利用网络模型得到对应状态向量s′的动作向量a′，得到元组(s,a,r,s′,a′)，选取双Q网络中较小Q值，根据公式得到当前状态向量s经过折扣的Q值，利用Q值，根据公式更新一次价值网络。

S4，根据公式得到一个周期内奖励，利用δ限制幅值随时间指数衰减，若周期内奖励值在整个训练过程中被认定过小，则δ值会随之减小，方差中周期奖励影响项会增加，反之减小。根据公式σ←βinput_maxe^-λt+(1-β)input_maxe^-δ得到高斯噪声的方差来更新探索幅值，使得σ能够随着训练周期迭代而自适应衰减。

S5，满足内环更新次数时，此时需要再次更新Q网络模型参数θ₁，θ₂以及动作网络模型参数φ，根据公式计算出梯度使用梯度下降法得到新的网络参数，为了防止网络过拟合，利用θ′_k←τθ_k+(1-τ)θ′_k，φ′←τφ+(-τ)φ′来更新价值网络以及动作参数。

S6，反复执行S2-S5，直到循环次数达到外环深度强化学习器最大训练周期n，最终得到基于自适应探索的深度强化学习无人机轨迹跟踪控制器。

S7，使用基于自适应探索的深度强化学习无人机轨迹跟踪控制器在测试任务中进行跟踪控制，测试任务使用LOSRT轨迹以及COS轨迹来进行跟踪，最终在跟踪精度、输入损耗以及总控制时间上与其他算法进行对比。

下面结合附图并举实施例，对本发明进行详细描述。

实施例

本发明提供了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，将无人机当前位置、速度、姿态、下一参考轨迹点以及下一参考位置到当前位置的

方向向量作为与环境交互时的状态向量，输出为无人机的四维控制向量，实现端到端的无人机轨迹跟踪控制。在训练阶段随机初始化网络参数、算法超参数随机参考轨迹等，利用收集的批处理数据，通过添加高斯噪声，来更新网络参数，使得控制器更具鲁棒性，同时关注时间变量，使用指数时间衰减法以及周期奖励来更新噪声幅值的方法来加速训练，并且极大避免了局部最优的情况。

S1，准备深度强化学习所需的网络模型以及初始轨迹数据。整个任务分为训练任务和测试任务两类，分别用于训练过程和测试学习效果，设定训练任务以及测试任务的给定轨迹长度T＝3000，每个轨迹点之间的时间间隔为0.001s，即总时间长度为3s，在仿真中设定无人机的质量是1.5kg，螺旋桨最大升力20N/KG，最小升力0N/KG，所能产生最大角速度为6rad/s，最小角速度为-6rad/s，测试轨迹设置两条。随机初始化网络参数θ₁，θ₂，φ，设置算法超参数，包括状态空间维度13维(无人机的三维位置、三维速度、四维四元数姿态、由下一个参考点指向当前位置点的三维向量)，四维动作空间升力、三轴角速度u＝(f，w_x，w_y，w_z)，学习率l_r＝0.99，批处理大小batchsize＝255，最大存储量B，回报折扣γ＝0.99，指数衰减因子β＝0.08，奖励影响因子λ＝0.01，外环最大训练周期n＝100000，以及内环快速参数更新频率d＝2。

S2，通过与环境交互获得批处理数据。每轮训练开始时，根据当前状态向量s，得到对应动作向量a₁，对动作向量加入高斯噪声，其中均值为0，初始方差为1，将加入噪声的动作向量a与环境进行下一步交互，并且根据给出的动作向量a₁得到下一个状态向量s′，同时由环境给出动作得分奖励r，最后将(s,a,r,s′)作为批处理数据元组储存，若批处理数据量超过设定最大存储B，则删除最先存储的数据并存入新数据。

S5，满足内环更新次数时，此时需要再次更新Q网络即价值网络模型参数θ₁，θ₂以及动作网络模型参数φ，根据公式计算出梯度使用梯度下降法得到新的网络参数，为了防止网络过拟合，利用θ′_k←τθ_k+(1-τ)θ′_k，φ′←τφ+(-τ)φ′来更新网络参数。

如图2a和图2b所示，本发明提供的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法在未经训练过的轨迹上的跟踪效果实例，图中Reference为给定轨迹，图2a为LOSRT轨迹，图2b为COS轨迹。其中轨迹跟踪误差在LOSRT轨迹上，传统方法的误差为7467.54，本发明的误差为3283.77，在COS轨迹上，传统方法的误差为2762.37，本发明的误差为2356.75，在控制时间上，我们使用传统方法与我们的方法分别跟踪三次取平均运算时间，本发明在LOSRT轨迹上平均运行时间为4.754059秒，传统方法为16.305317秒，本发明在COS轨迹上平均运行时间为4.879404秒，传统方法为19.360494秒，证明本发明在无人机跟踪控制中的有效性。

如图1所示，图1为本发明提供的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法在其他环境中与深度强化学习基本算法所作的对比，通过三次随机种子实验，在深度强化学习通用算法验证平台MUJOCO上运行三个环境，为了避免偶然性，选择其他算法的超参数与该算法保持一致，通过比较算法收敛时间，其中浅色域为本发明随着训练时间得到的奖励，验证了本发明相较于其他算法提升了训练速度。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于包含以下步骤：

S2，根据当前状态向量使用步骤S1中的动作网络与环境进行交互，得到下一个状态向量，将所有状态向量以及动作网络输出的动作向量作为元组进行存储；

S3，在步骤S2存储的数据中随机采样，并获得状态向量的值，即状态向量的价值，并更新价值网络参数；

S4，获取一个周期内的奖励，根据获取的奖励以及循环次数通过计算得到高斯噪声的方差，并使用得到的高斯噪声的方差来更新高斯噪声；

S5，循环步骤S2-S4，计算出梯度，根据得到的梯度对动作网络、价值网络进行更新，得到新的动作网络、价值网络参数；

S6，循环步骤S2- S5，直到循环次数达到设定的最大训练周期时结束循环，得到基于深度强化学习的无人机轨迹跟踪控制器，使用得到的无人机轨迹跟踪控制器对无人机进行轨迹跟踪控制；

所述步骤S2中，元组为，为当前状态向量下使用动作向量与环境进行交互得到的奖励，初始状态向量为给定无人机的初始轨迹数据，与当前状态向量对应的动作网络输出的动作向量为，与下一个状态向量对应的动作网络输出的动作向量为，与初始状态向量对应的动作网络输出的动作向量为；

所述步骤S3中，根据公式获取状态向量的值，即状态向量的价值；

所述步骤S3中，根据公式更新价值值网络参数。

2.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S2中，元组批处理大小大于设定阈值。

3.根据权利要求2所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S2中，元组批处理大小的设定阈值为255。

4.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S4中，根据公式得到一个周期内奖励。

5.根据权利要求4所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S4中，根据和公式得到高斯噪声的方差。

6.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S5中，循环步骤S2-S4的次数需要满足设定阈值，根据得到的梯度使用梯度下降法对动作网络、价值网络进行更新，得到新的动作网络、价值网络参数。

7.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法，其特征在于：

所述步骤S5中，根据，更新价值网络以及动作网络参数。