CN111625019B

CN111625019B - 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法

Info

Publication number: CN111625019B
Application number: CN202010422067.XA
Authority: CN
Inventors: 鲜斌; 韩晓薇; 蔡佳明
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2021-11-26
Anticipated expiration: 2040-05-18
Also published as: CN111625019A

Abstract

本发明公开了一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法，首先通过构造性能指标评价函数，根据最优性原理将指标函数带入哈密顿‑雅可比‑贝尔曼(Hamilton‑Jacobi‑Bellman)方程，然后通过实时更新执行网络与评价网络的输出层权重，求出HJB方程的近似解，获得最优控制量。与现有技术相比，与现有技术相比，本发明能够有效抑制飞行环境未知扰动造成的影响，实现了无人机悬挂飞行系统的轨迹规划和位置精确控制。

Description

基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法

技术领域

本发明涉及四旋翼无人机悬挂空运系统，特别涉及一种四旋翼无人机悬挂空运系统的飞行轨迹规划方法。

背景技术

目前，四旋翼无人机悬挂空运系统的飞行轨迹规划方法根据轨迹设计生成的阶段分为离线轨迹规划和在线轨迹规划两大类。

针对离线轨迹规划，在无人机悬挂空运系统领域较为常用的方法包括基于微分平滑的轨迹规划方法与基于优化控制思想的轨迹规划方法。其中：基于微分平滑的轨迹规划方法利用原非线性系统的微分形式，将原系统的状态空间映射到低维的平滑输出空间中，是一种能够有效处理非线性欠驱动系统的方法。

国内有研究人员将四旋翼无人机悬挂空运系统分解为两个子系统，分别为无人机与悬挂负载双质点连接子系统、单独的无人机姿态子系统；然后，基于系统的微分平滑特性采用动态反馈的方法得到四旋翼无人机的运动轨迹。在《基于微分平滑的四旋翼运输系统轨迹跟踪控制》(2019年《控制理论与应用》，梁晓、胡欲立；第525-532页)有关于“使用动态规划算法来获取开环最小摆动轨迹”的记载。建立动力学模型时，研究人员将非线性悬挂负载的模型视为球面摆，在轨迹附近线性化得到一个线性时变模型，并通过设计自适应控制器来应对负载摆动对四旋翼无人机重心的影响。“IEEE International Conference onRobotics and Automation”会议上发表的《Trajectory generation for swing-freemaneuvers of a quadrotor with suspended payload:a dynamic programmingapproach》(Palunko Ivana,Fierro Rafael,Cruz Patricio,2012,2691页-2697页)。

另外还有一种基于时间最优运动规划(Time-Optimal Motion Planning)的离线轨迹规划方法，有效地提高了系统的运输效率。该方法在充分考虑系统非线性动力学和各种约束条件的同时，将增广系统转化为以加速度为控制输入的非线性仿射系统。经过离散逼近，采用高斯伪谱法将时间最优运动规划问题转化为一个标准的非线性规划问题。最后，采用序列二次规划方法进行求解。实验结果验证了该方法的有效性和可行性。《Dynamicsanalysis and time-optimal motion planning for unmanned quadrotortransportation systems》(Mechatronics，Xiao Liang,Yongchun Fang,Ning Sun,2018,16页-29页)。

针对四旋翼无人机悬挂空运系统的在线轨迹设计，国外有研究人员采用了一种强化学习方法实现了四旋翼无人机的轨迹生成，其设计主要基于实验前期在无障碍物环境下使用专门的特征向量值函数学习得到的最小残余震荡策略。“IEEE InternationalConference on Robotics andAutomation”会议上发表的《Learning swing-freetrajectories for UAVs with a suspended load》(Palunko Ivana,Faust Aleksandra,Cruz Patricio,Tapia Lydia,Feirro Rafael,2013,4902页-4909页)。国内研究人员提出了一种新型的在线轨迹规划方法。基于四旋翼无人机悬挂空运系统的动力学模型，研究人员在预先给定的定位轨迹的基础上，设计了减摆轨迹生成策略，并通过数值仿真和实际飞行实验验证期望轨迹的减摆效果。“Chinese Control Conferenc”会议上发表的《An anti-swing trajectory approach for an unmanned aerial vehicle with a slungpayload》(Shizhang Wang,Bin Xian,2017,777页-782页)。

基于以上研究现状可知，目前关于四旋翼无人机悬挂空运系统的轨迹规划方法仍具有很多不足，例如：1)一些离线轨迹规划方法需要收集大量的飞行实验数据并对系统的变量信息进行反复迭代训练，运算较为复杂；2)一些轨迹生成策略对模型精度要求较高且针对外界干扰的鲁棒性较差。3)部分四旋翼无人机悬挂空运系统在线轨迹规划方法应对未知扰动和不明确因素的抗干扰性能未能进行理论证明与实验验证，因此其实际应有效果仍有待检验。

发明内容

针对飞行环境存在未知扰动的情况，为实现四旋翼无人机安全高效地悬挂运输负载，本发明旨在提出一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法，基于强化学习实时更新无人机的运动以实现飞行过程对负载摆角的有效抑制，最终设计的期望轨迹主要包括抗扰轨迹和定位轨迹两个部分。

本发明的一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法，该方法具体包括以下步骤：

步骤1，建立四旋翼无人机悬挂空运系统的动力学模型，表达式如下：

其中，q(t)＝[y(t)，z(t)，γ(t)]^T∈R³表示系统状态向量，y(t)，z(t)分别表示四旋翼无人机y,z方向的位移，γ(t)表示悬挂负载的摆角，

分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量，d(t)＝[d₁(t)，d₂(t)，d_γ(t)]^T∈R³表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动；d₁(t)，d₂(t)，d_γ(t)表示未知外界扰动在y，z，γ三个方向的分量，R表示实数域；对式(1)进行展开，得到表达式如下：

其中，m_q为四旋翼无人机质，m_p为悬挂负载质量，l为悬绳长度，g为重力加速度，u(t)＝[u_y(t)，u_z(t)]^T∈R²为四旋翼无人机随时间变化的升力向量，为控制输入。μ_y(t)，μ_z(t)分别为四旋翼无人机总升力在y、z方向的分量。进而得到关于悬挂负载的摆角，表达式如下：

其中，d_γ为悬挂负载在飞行过程中所受的未知外界扰动；

步骤2，进行飞行轨迹规划设计，将四旋翼无人机期望轨迹的加速度

分为以下两个部分：

步骤2-1、采用基于执行网-评价网形式的强化学习方法设计期望轨迹的抗扰轨迹：选取

作为等效状态向量，将式(3)整理为非线性仿射系统，具体形式如下：

其中，

为非线性仿射系统的等效输入；

构造如下所示的状态值函数J(η)作为系统的性能指标函数，表达式如下：

其中，Q，R为对称的正常数矩阵；

为实现在整个飞行过程中抑制负载的摆动，根据最优控制原理，针对式(5)需要实现最优的反馈控制状态，以及针对式(6)实现最小化性能指标函数，式(6)的无穷小形式满足如下非线性Lyapunov方程：

其中，

为式(6)中的J(η)对η求一阶偏导数；

定义哈密尔顿函数如下：

最优状态值函数J^*(η)定义为：

则当输入为最优时，如下HJB方程成立

假定

存在且唯一，此时，最优输入μ^*满足下式：

将该最优控制策略代入到式(7)，得到关于

的HJB方程为

通过求解式(12)得到轨迹规划的最优生成策略，采用执行网-评价网网络结构实现最优轨迹的逼近，得到最优状态值函数J(η)表示如下：

其中，W_c为评价网理想权重矩阵，ε_c(η)为神经网络近似误差，

为等效状态向量，σ(η)为激励函数，选取双曲正切函数tanh(·)为神经网络激励函数；

分别使用评价网络和执行网络逼近最优值函数和最优控制策略

获得状态值函数的最优解表达式如下

其中，

与

均为W_c的估计值，

定义Bellman误差变量e(t)如下：

定义以下误差函数

设计的目标为通过对误差函数

与

的迭代使得残差的平方

最小；采用梯度下降法得到评价网络输出权重

更新律为：

其中，a₁为正常数，

定义

且满足||β₂||≤β_2M，β_3m≤||β₃||≤β_3M；执行网络输出权重

更新律为：

其中，a₂为正常数，T_a为正定矩阵；

为保证

的有界性，式(20)中投影算子proj(·)定义如下：

其中，

为矩阵

中的元素，

与w _ij分别表示

的上界和下界；

步骤2-2、设计定位轨迹：

设计四旋翼无人机期望轨迹的加速度

如下：

其中，

为相关参数；

式(22)中，定位轨迹部分

用于保证四旋翼无人机准确到达目标位置，因此定位轨迹的选取应满足如下条件：

①定位部分轨迹在有限时间收敛到目标位置，目标位置表示为：

y_t(t)，z_t(t)为定位轨迹坐标，p_ty，p_tz为目标位置坐标，t→t_f表示在有限时间内。

②定位部分轨迹满足以下条件：

其中，k_vy，k_ay，k_jy，k_vz，k_az，k_jz∈R⁺为定位轨迹的相关参数，分别为

设计的上界；

③设计定位部分轨迹的初始值为：

步骤3、当期望轨迹如式(22)所示形式，且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内，从而通过设计执行网-评价网的神经网络分别对最优策略、最优状态值函数进行逼近。

与现有技术相比，本发明具有以下积极效果：

(1)能够有效抑制飞行环境未知扰动造成的影响，实现了无人机悬挂飞行系统的轨迹规划和位置精确控制；

(2)能够在未完全获取模型先验信息的前提下，使系统在最短的时间内到达最优状态。

附图说明

图1为本发明相关的四旋翼无人机悬挂空运系统结构简图；

图2为本发明的基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法流程示意图；

图3为在无风扰环境中四旋翼无人机悬挂空运系统飞行过程的曲线示意图：

(3a)无风扰情况下无人机Y、Z方向位置曲线；

(3b)无风扰情况下无人机悬挂飞行过程中负载摆角的曲线；

(3c)无风扰情况下无人机Y、Z方向控制输入曲线；

(3d)无风扰情况下无人机飞行过程的滚转角曲线。

图4为在有风扰环境中四旋翼无人机悬挂空运系统飞行过程的曲线示意图：

(4a)有风扰情况下无人机Y、Z方向位置曲线；

(4b)有风扰情况下无人机悬挂飞行过程中负载摆角的曲线；

(4c)有风扰情况下无人机Y、Z方向控制输入曲线；

(4d)有风扰情况下无人机飞行过程的滚转角曲线。

图5为在负载质量发生变化的情况下四旋翼无人机悬挂空运系统飞行过程的曲线示意图；

(5a)负载质量变化情况下无人机Y、Z方向位置曲线；

(5b)负载质量变化情况下无人机悬挂飞行过程中负载摆角的曲线；

(5c)负载质量变化情况下无人机Y、Z方向控制输入曲线；

(5d)负载质量变化情况下无人机飞行过程的滚转角曲线。

具体实施方式

下面结合附图和实施例对本发明技术方案作进一步的说明，但并不作为对本发明保护范围的限制。

本发明首先通过构造性能指标评价函数，根据最优性原理将指标函数带入哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman)方程，然后通过实时更新执行网络与评价网络的输出层权重，求出HJB方程的近似解，获得最优控制量。

如图2所示，本发明的基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法具体包括如下步骤：

步骤1，建立四旋翼无人机悬挂空运系统的动力学模型：

如图1所示，为与本发明的四旋翼无人机悬挂空运系统的动力学模型相关的四旋翼无人机悬挂空运系统结构简图，采用四旋翼无人机悬挂空运系统二维平面模型的动力学模型，进一步考虑系统受到未知外界扰动，得到下述非线性动力学模型：

其中，m_q为四旋翼无人机质，m_p为悬挂负载质量，l为悬绳长度，g为重力加速度，u(t)＝[u_y(t)，u_z(t)]^T∈R²为四旋翼无人机随时间变化的升力向量，为控制输入；μ_y(t)，μ_z(t)分别为四旋翼无人机总升力在y、z方向的分量，进而得到关于悬挂负载的摆角，表达式如下：

式(3)中，d_γ为悬挂负载在飞行过程中所受的未知外界扰动，本发明中假设其连续且有界。

为了方便后续轨迹设计，对负载摆角进行以下近似处理：

由于四旋翼无人机的位置状态与负载摆角之间存在较强的耦合，本发明的设计目标是基于式(3)对四旋翼无人机悬挂空运系统进行轨迹生成策略的研究。轨迹生成的研究问题主要分为两个方面：针对外界存在未知扰动的情况，通过强化学习策略实时调整四旋翼无人机的飞行轨迹实现悬挂负载的摆动抑制；通过设计合适的轨迹使四旋翼无人机能够准确到达目标位置。

步骤2，进行飞行轨迹规划设计：

由于未知外界扰动以及四旋翼无人机位置状态与负载摆角存在强耦合，在飞行运输过程中实现负载摆角的快速抑制具有一定的困难，进而使得四旋翼无人机准确到达目标位置的同时快速抑制负载摆角的控制实现变得复杂。为保证实现四旋翼无人机能够安全、精准运输负载，本发明将四旋翼无人机期望轨迹的加速度

分为两个部分：抗扰部分、定位部分。

步骤2-1、进行基于强化学习的抗扰轨迹设计：

为减小外界未知扰动对负载摆角的影响，采用基于执行网-评价网形式的强化学习方法设计期望轨迹的抗扰部分：选取

作为等效状态向量，将式(3)整理为非线性仿射系统，具体形式如下(式(5)是式(3)整理为非线性仿射系统后的形式)：

其中，

为非线性仿射系统的等效输入；

其中，Q，R为对称的正常数矩阵。

其中，

为式(6)中的J(η)对η求一阶偏导数；

定义哈密尔顿函数如下：

最优状态值函数J^*(η)定义为：

则当输入为最优时，如下HJB方程成立

假定

存在且唯一。此时，最优输入μ^*满足

将该最优控制策略代入到式(7)，得到关于

的HJB方程为：

通过求解式(12)得到轨迹规划的最优生成策略。然而，非线性HJB方程的求解是非常困难的。因此，本发明采用执行网-评价网网络结构实现最优轨迹的逼近。

最优状态值函数J(η)表示如下：

为等效状态向量，σ(η)为激励函数，本发明选取双曲正切函数tanh(·)为神经网络激励函数；

为了获得状态值函数的最优解，分别使用评价网络和执行网络逼近最优值函数和最优控制策略

表达式如下

其中，

与

均为W_c的估计值，

定义Bellman误差变量e(t)如下：

为方便后续设计，定义以下误差函数

设计的目标为通过对误差函数

与

的迭代使得残差的平方

最小；采用梯度下降法得到评价网络输出权重

更新律为：

其中，a₁为正常数，

为方便后续分析，定义

且满足||β₂||≤β_2M，β_3m≤||β₃||≤β_3M。执行网络输出权重

更新律为：

其中，a₂为正常数，T_a为正定矩阵。为保证

的有界性，式(20)中投影算子proj(·)定义如下：

其中，

为矩阵

中的元素，

与w _ij分别表示

的上界和下界。

步骤2-2、定位轨迹设计与综合：

四旋翼无人机期望轨迹的加速度

设计为如下形式：

其中，

为相关参数，该处参数设计目的保证加速度

有界。

式(22)中，定位轨迹部分

的作用主要是能够保证四旋翼无人机准确到达目标位置，因此定位轨迹的选取应满足如下条件：

①定位部分轨迹可在有限时间收敛到目标位置，其目标位置表示为：

y_t(t)，z_t(t)为定位轨迹坐标，p_ty、p_tz为目标位置坐标，t→t_f表示在有限时间内；

②定位部分轨迹满足：

设计的上界；

③定位部分轨迹的初始值设为：

步骤3、之后采用基于Lyapunov的稳定性分析方法可以证明本发明所设计的基于强化学习的四旋翼无人机悬挂空运系统在线轨迹规划方法在存在未知外界扰动的情况下，当期望轨迹如式(22)所示形式，且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内，从而通过设计执行网-评价网的神经网络分别对最优策略、最优状态值函数进行逼近。

利用飞行实验验证本发明的四旋翼无人机悬挂空运系统在线轨迹规划方法的有效性与可实现性，验证过程如下：

(1)选择定位轨迹：

考虑到无人机飞行轨迹的平滑性，在实验中选取了S形曲线作为定位轨迹，其具体表达形式为：

式(26)中，

选用PD控制器作为四旋翼无人机悬挂空运系统的轨迹跟踪控制器，以使系统沿着设定的轨迹运动：

其中，k_py，k_dy，k_pz，k_dz∈R⁺为PD控制器的控制增益，e_y(t)，e_z(t)表示四旋翼无人机当前位置与设定的定位轨迹之间的误差，

为四旋翼无人机当前速度在y，z方向上的分量。

(2)参数设定：

飞行实验中，四旋翼无人机的起始位置和目标位置分别为：y₀＝0m，z₀＝1.7m，y_d＝2m，z_d＝1.9m。四旋翼无人机悬挂空运系统实验平台的相关参数为：

m_q＝1.158kg，m_p＝0.066kg，l＝0.903m (28)

PD控制器的相关控制参数表示为：

k_py＝7.1，k_pz＝9，k_dy＝10.1，k_dz＝12 (29)

定位轨迹的相关参数选取为

轨迹设计部分的相关参数为

(3)飞行实验结果：

为验证期望轨迹的减摆效果和鲁棒性，在实验平台上进行了三组对比实验：

第一组：未加风扰情况下进行飞行实验，实验结果如图3所示。(3a)～(3d)分别为四旋翼无人机位置y(t)，z(t)、负载摆角γ(t)、四旋翼无人机控制输入u_y(t)，u_z(t)以及四旋翼无人机滚转角

的的变化曲线。图像中实线代表本文所设计的期望轨迹下无人机悬挂空运系统的相关实验数据，虚线为定位轨迹下的数据。根据实验图线(3a)和(3b)可以看出，所设计的期望轨迹下四旋翼无人机可以在较短时间内到达给定目标位置，且在整个飞行过程中负载摆角摆动较小，抗摆性能明显优于定位轨迹下的飞行效果。

第二组：风扰情况下与定位轨迹进行对比，实验结果如图4所示。为验证生成的期望轨迹对外部扰动的鲁棒性，在风扇风速为5.3m/s(19.08km/h)的实验环境下进行了飞行实验。其中，(4a)至(4d)分别为两种轨迹下四旋翼无人机位置(t)，z(t)、负载摆角γ(t)、四旋翼无人机控制输入u_y(t)，u_z(t)以及四旋翼无人机滚转角

的变化曲线。图像中实线代表本文所设计的期望轨迹下无人机悬挂空运系统的相关实验数据，虚线为定位轨迹下的数据。从(4a)和(4b)中可以看出所设计的期望轨迹在外界存在未知扰动的情况下仍能保证四旋翼无人机快速到达目标位置，且在整个飞行过程中四旋翼无人机的悬挂负载摆角变化明显比定位轨迹下更小。通过本组对比实验可知本文提出的轨迹生成方法对外界未知干扰具有较强的鲁棒性。

第三组：期望轨迹对负载质量变化的鲁棒性，实验结果如5所示。实验中分别选用质量为0.066kg、0.131kg的负载进行飞行实验。(5a)至(5d)分别为期望轨迹下悬挂两种不同质量的负载情况下四旋翼无人机位置y(t)，z(t)、负载摆角γ(t)、四旋翼无人机控制输入u_y(t)，u_z(t)以及四旋翼无人机滚转角

的变化曲线。图像中实线代表期望轨迹下负载质量为0.066kg时无人机悬挂空运系统的相关实验数据，虚线为负载质量为0.131kg时的数据。由(5a)可知在本文所设计的期望轨迹下负载质量的增加对四旋翼无人机到达目标位置的调节时间无太大影响。同时由(5b)5中可以看出，在四旋翼无人机沿期望轨迹飞行的过程中，当负载质量分别为0.066kg、0.131kg时负载摆角的摆动均能保持在较小范围内，负载质量的改变基本未对期望轨迹的减摆效果产生影响。

经过上述分析，证明了本发明所提在线轨迹规划方法的有效性。