CN113759979B

CN113759979B - 基于事件驱动的无人机吊挂系统在线轨迹规划方法

Info

Publication number: CN113759979B
Application number: CN202111114973.4A
Authority: CN
Inventors: 鲜斌; 蔡佳明
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-11-21
Anticipated expiration: 2041-09-23
Also published as: CN113759979A

Abstract

本发明属于四旋翼无人机吊挂系统轨迹规划技术领域，为针对吊挂系统空运过程中减小吊挂负载摆动以及降低机载处理器计算负担的需求，提出一种在线轨迹规划方法。本发明在此基础上本发明采用的技术方案是，基于事件驱动的无人机吊挂系统在线轨迹规划方法，将吊挂系统负载摆角的动力学方程转换成非线性仿射系统的形式，引入折现代价函数和强化学习机制，通过神经网络逼近的方法来求解负载摆角抑制的最优控制问题。本发明主要应用于四旋翼无人机吊挂系统轨迹控制场合。

Description

基于事件驱动的无人机吊挂系统在线轨迹规划方法

技术领域

本发明属于四旋翼无人机吊挂系统轨迹规划研究领域。针对吊挂系统空运过程中减小吊挂负载摆动以及降低机载处理器计算负担的需求，提出了一种基于事件驱动的在线轨迹规划方法。

背景技术

近年来，小型无人直升机凭借垂直起降能力、空中悬停能力以及具有灵活飞行的特点被视为工业级无人机的重要发展方向。然而，直升机具有非线性、强动态耦合以及其生成推力的空气动力学特性存在的参数和模型不确定性，难以建立精确的动力学模型，使得其控制设计极具挑战性。近年来，随着搜救，快递，农业，军事等领域对高效作业的需求上升，研究人员对四旋翼无人机展开了很多相关研究。其中，四旋翼无人机吊挂系统又以能够实现物资投放、快递运输、农业施肥以及军事援助等应用，成为了研究的热点之一。

四旋翼无人机作为一个典型的欠驱动系统，只有四个控制输入但有六个输出，本身存在不易控制的特点。并且由于没有直接的控制输入作用在负载上，一个带有吊挂负载的四旋翼无人机的欠驱动特性更加复杂。四旋翼无人机吊挂系统的控制目标是实现快速准确定位的同时有效抑制负载的摆动，这是一项具有挑战性的任务。为了获得令人满意的性能，鉴于人工神经网络对特定的函数具有良好的逼近性能，许多研究人员已经将人工神经网络融入到四旋翼无人机吊挂系统的控制器设计以及轨迹规划中去。萨格勒布大学的Ivana Palunko等人用高阶规划器生成航点，并用动态规划算法为吊挂负载的四旋翼无人机生成减摆轨迹。实验验证，该算法通过多次迭代遍历使得轨迹跟踪误差收敛且负载摆角减小(会议：2012IEEE International Conference on Robotics and Automation；著者：Ivana Palunko,Rafael Fierro,and Patricio Cruz；出版年月：2012；文章题目：Trajectory generation for swing-free maneuvers of a quadrotor with suspendedpayload:A dynamic programming approach；页码：2691–2697)。此外，Ivana Palunko等人采用一种基于最小二乘策略迭代(Least-Square Policy Iteration，LSPI)的强化学习方法。在飞行过程中四旋翼无人机根据自身飞行轨迹的反馈来实时学习生成目标轨迹点，从而保证负载沿预定轨迹运动(会议：2013IEEE International Conference on Roboticsand Automation；著者：Ivana Palunko,Aleksandra Faust,Patricio Cruz,Lydia Tapia,and Rafael Fierro；出版年月：2013；文章题目：A reinforcement learning approachtowards autonomous suspended load manipulation using aerial robots；页码：4896–4901)。新墨西哥大学的Aleksandra Faust等人提出了一种基于有限样本的批量强化学习算法，带吊挂负载的四旋翼无人机能根据不同环境生成相应的合理轨迹，且系统对噪声和系统未建模动态有一定的鲁棒性。其核心在于给予无人机有限的轨迹作为学习样本进行自主学习(会议：2013IEEE International Conference on Robotics and Automation；著者：Aleksandra Faust,Ivana Palunko,Patricio Cruz,Rafael Fierro,and LydiaTapia；出版年月：2013；文章题目：Learning swing-free trajectories for UAVs with asuspended load；页码：4902–4909)。Aleksandra Faust等人进一步优化了上述的学习算法，扩充了轨迹的样本空间，提出了一种在有静态障碍的环境中进行货物运输的强化学习方法(期刊：Artificial Intelligence；著者：Aleksandra Faust,Ivana Palunko,Patricio Cruz,Rafael Fierro,and Lydia Tapia；出版年月：2017；文章题目：Automatedaerial suspended cargo delivery through reinforcement learning；页码：381–398)。伊达尔戈州自治大学的Ricardo A.Barrón-Gómez等人提出了一种新型无模型自适应小波网络PID(Adaptive Wave-net PID，AWPID)控制器，实现了无人机位置跟踪与负载减摆控制(会议：2017 20th World Congress of the International Federation of AutomaticControl(IFAC)；著者：Ricardo A.Barrón-Gómez,Luis E.Ramos-Velasco,EduardoS.Espinoza Quesada,and Luis R.García Carrillo；出版年月：2017；文章题目：Waveletneural network PID controller for a UAS transporting a cable-suspended load；页码：2335–2340)。中国石油大学(华东)的Cai Luo等人设计了一种基于径向基函数神经网络(Radial Basis Function Neural Network，RBFNN)的非线性反步滑模控制器，该控制器能够对多时变不确定性和干扰进行补偿(期刊：Electronics；著者：Cai Luo,Zhenpeng Du,and Leijian Yu；出版年月：2019；文章题目：Neural network control design for anunmanned aerial vehicle with a suspended payload；页码：931)。天津大学的韩晓薇等人利用基于能量整形的控制方法构造了一种新型的能量存储函数以处理状态耦合，然后利用神经网络对系统未建模动态特性进行在线估计，并采用基于符号函数的鲁棒控制算法补偿神经网络的估计误差(期刊：控制理论与应用；著者：韩晓薇，鲜斌，杨森；出版年月：2020；文章题目：无人机吊挂空运系统的自适应控制设计；页码：999–1006)。

基于以上分析可得，现有针对四旋翼无人机吊挂系统的研究结果主要是基于时间驱动的设计，如果需要在机载处理器上在线实时训练神经网络，随着网络层数增加，不可避免地会遇到计算负担过重的问题。为了满足复杂环境下的不同需求，解决人工神经网络在机载处理器上在线学习训练的计算过载问题，除了升级机载处理器这种硬件方法外，进行时间/事件转换以实现事件驱动的软件设计已经成为反馈控制社区的一条新途径。在事件驱动方法的一般框架下，人工神经网络或者控制器仅在满足一定条件时进行更新，在保证控制性能良好的前提下实现网络或者控制器输出的稳定及高效率。密苏里科技大学的Avimanyu Sahoo等人提出了一种基于多输入多输出未知非线性连续时间仿射系统的事件触发控制方法(期刊：IEEE Transactions on Neural Networks and Learning Systems；著者：Avimanyu Sahoo,Hao Xu,and Sarangapani Jagannathan；出版年月：2016；文章题目：Neural network-based event-triggered state feedback control of nonlinearcontinuous-time systems；页码：497–509)。在新框架下，设计的控制器仅在事件触发时进行更新，从而减少了神经网络学习和自适应最优控制两个过程的计算负担。注意到，要求具有初始稳定条件在一定程度上限制了基于事件驱动设计的应用。为此，利用神经网络逼近策略推导出基于事件的非线性折现最优控制律，可以不依赖于特殊的初始条件。

发明内容

为克服现有技术的不足，本发明旨在针对吊挂系统空运过程中减小吊挂负载摆动以及降低机载处理器计算负担的需求，提出一种在线轨迹规划方法。在基于事件驱动的前提下，本发明引入折现代价函数和强化学习机制，将吊挂系统负载摆角的动力学方程转换成非线性仿射系统的形式，在此基础上通过神经网络逼近的方法来求解负载摆角抑制的最优控制问题。本发明采用的技术方案是，基于事件驱动的无人机吊挂系统在线轨迹规划方法，步骤如下：

步骤1)确定四旋翼无人机吊挂系统的坐标系定义；

四旋翼无人机吊挂系统坐标系定义：{I}＝{x_I，y_I，z_I}表示固定在大地的惯性坐标系，{B}＝{x_B，y_B，z_B}表示无人机的机体坐标系，x_i、y_i、z_i(i＝I，B)分别对应坐标系三个主轴方向的单位矢量。图1(b)为此系统的二维模型，本发明主要考虑四旋翼无人机吊挂系统在惯性坐标系{I}下y、z方向上的位置状态以及负载摆角及角速度映射在y、z平面上的状态。

步骤2)确定四旋翼无人机吊挂系统的动力学模型；

通过分析四旋翼无人机吊挂系统的二维模型：采用欧拉-拉格朗日方法对系统进行建模，通过计算可以得到系统的动力学表达式如下

其中，表示系统的状态向量，y(t)、z(t)分别表示四旋翼无人机在y、z方向的位移，γ(t)表示负载摆角在y、z平面上的分量。F_q＝[f_y，f_z，0]表示系统的控制输入，f_y、f_z分别表示无人机在y、z方向的升力。F_d＝[d_y，d_z，d_γ]表示系统受到的未知外界扰动，d_y、d_z、d_γ分别表示系统受到的外界扰动在y、z、γ方向的分量。M(q)、分别表示四旋翼无人机吊挂系统的惯性矩阵、向心力矩阵以及重力向量，表示实数域。式(1)中M(q)的表达式为

的表达式为

G(q)的表达式为

G(q)＝[0(m_L+m_Q)g m_Lglsinγ]^T (4)

其中，表示吊挂负载质量，表示无人机质量，表示绳长。

步骤3)定义系统折现代价函数和最优控制律；

将式(1)展开可得负载摆动运动的动力学方程如下

输入仿射形式的动力系统在文献和工程中是常见的，将上式整理为如下的连续时间非线性仿射系统形式

其中，为等效状态向量，为非线性仿射系统的等效输入。在上式中f(x)的表达式为

g(x)的表达式为

f(·)与g(·)满足局部李普希兹(Lipschitz)连续条件。设t＝0时，x(0)＝x₀，且x＝0为系统平衡点，此时f(0)＝0。在最优调节设计中，针对特定的代价函数来设计状态反馈控制律u(t)。选取为正定常数矩阵，为Hermite正定常数阵，定义函数r(x(τ)，u(τ))如下

r(x(τ)，u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ) (9)

定义折现代价函数V(x(t)，u(t))如下

其中，η＞0为折现因子，用来调节收敛速率，e为自然常数。后文V(x(t)，u(t))简写为V(x(t))或者V(x)。对于控制输入u(t)，若代价函数连续且可微，则

经过适当的数学变换，可获得上式中非线性Lyapunov方程的无穷小形式如下式所示

其中，定义系统(6)的哈密尔顿量为

据贝尔曼最优准则，最优代价函数V^*(x)的表达式为

上式满足Hamilton Jacobi Bellman方程，即将最优控制律u^*(x)设计为

根据以上最优控制律，上述的HJB方程可改写为

因为R为Hermite正定阵，满足(R^-1)^T＝R^-1，上式可化为

上式为基于时间的经典HJB方程，即在此基础上，下文给出基于事件驱动的自适应评价网设计。

步骤4)设计事件驱动机制；

定义一个单调递增的触发序列s_i为i∈N的第i个连续采样时刻，采样输出为采样状态的一个序列。对于所有t∈[s_i，s_i+1]有定义事件驱动的误差函数为

当t＝s_i时，e_i(t)＝0。在每个触发时刻，系统状态是采样的，e_i(t)复位为0，反馈控制律

得到更新。控制序列通过零阶保持器可成为一个分段的连续时间信号。

将上述事件触发机制与式(15)中的最优控制律设计相结合，可得如下的控制设计

其中，上式的为下文设计目标。

步骤5)设计自适应评价网络；

据神经网络的逼近策略，最优代价函数V^*(x)可重构为

其中，为理想权值向量，为激活函数，为重构误差，n_c为隐含层中神经元的数量。可得上式的梯度向量为

因为ω_c未知，采用评价网逼近上述重构后的最优代价函数，可得近似最优代价函数为

其中，为估计权值向量，可得

采用逼近策略重构，式(20)可改写为

采用评价网逼近上述表达式可得基于事件驱动的近似最优控制律为

由以上可得近似哈密尔顿量为

考虑到定义

将上式中的e_c(t)对的偏导数定义为ρ(t)，即其中，可以求得如下等式

迭代更新评价网权值使得目标函数最小化。这里采用归一化梯度下降算法，可得评价网络输出权值的更新率为

其中，α_c＞0为设计的评价网学习率增益。

在传统的自适应评价网设计中，应该选择一种特殊的权值向量来创建初始的稳定控制器，然后再开始训练神经网络，否则可能会导致闭环系统不稳定。为避免以上情况，引入一个额外的Lyapunov候选函数V_s(x)来改进评价网的学习准则，并利用它来调节评价网的权值向量。令V_s(x)为保证时间导数为负的连续可微Lyapunov候选函数，即

据状态向量选择多项式来确定V_s(x)，可选取V_s(x)＝(1/2)x^Tx。

当使用式(20)中的基于事件驱动的最优控制律时，为使系统稳定，即需要引入一个额外的项通过沿着的负梯度方向调整来加强训练过程。为此，据式(26)中的基于事件驱动的近似最优控制律，可利用链式法则得到以下梯度下降运算

其中，α_s＞0为正常数。综上所述，评价网输出权值更新率由两部分组成，即

可得本发明的评价网输出权值更新率为

定义评价网输出权值的估计误差为

为使评价网输出权值估计误差一致最终有界，针对系统状态，需要选取适当的采样频率来获得采样输出作为评价网络的输入，使得||e_i(t)||²满足下式

上式定义为事件驱动的触发条件，其中，ψ为正常数，φ∈(0，1)是设计的参数，常量ξ＝||θ||²||R^-1||²，正定矩阵满足R＝θ^Tθ。

步骤6)轨迹规划设计；

定义四旋翼无人机规划的期望轨迹与标称轨迹的误差信号如下

本发明的四旋翼无人机期望轨迹的加速度与设计为如下形式

上式中的为减摆设计，与为保证系统稳定的辅助函数，k_γ、及为正常数增益。标称轨迹与保证了四旋翼无人机能准确到达目标位置，标称轨迹要满足如下条件：(1)y_t(t)、z_t(t)在有限时间收敛到目标位置。(2)y_t(t)、z_t(t)的一二阶导数均能随时间收敛到0，且二阶导数的绝对值与一阶导数均是有上界的正实数。(3)初始值应满足当t＝0时，y_t(t)、z_t(t)及其一阶导数均为0。

本发明选用如下的S形曲线作为标称轨迹

其中c_y、c_z、n_y、n_z、υ、p_y及p_z为设计的正常数。

步骤7)位置跟踪控制律设计；

为使吊挂系统沿着规划的期望轨迹运动，定义四旋翼无人机实时位置与规划的轨迹之间的误差如下

选取如下的类PD控制器作为轨迹跟踪控制器

其中，及为PD控制器的控制增益，均为正常数。与表示四旋翼无人机在y和z方向上的实时速度分量。

以上述控制律使四旋翼无人机吊挂系统跟踪本发明设计的期望轨迹，可以利用基于Lyapunov的稳定性分析方法可以得到以下结论：本发明所设计的在线轨迹规划方法可以保证四旋翼无人机y、z方向的位置、速度、负载摆角以及摆角角速度收敛到一定区域内。

本发明的特点及有益效果是：

1.四旋翼无人机吊挂系统具有欠驱动、强耦合、非线性等特性，本发明针对非线性动态模型未做过多假设以及线性化处理，与实际系统的动态特性较为相符；

2.本发明应用了事件触发机制，显著降低了无人机机载处理器处理神经网络学习和自适应最优控制两个过程的计算负担。这为在四旋翼无人机机载处理器上在线训练人工神经网络提供了一种新的手段；

3.本发明利用Lyapunov稳定性分析方法证明了评价网络输出权值估计误差一致最终有界，并证明了无人机位置误差和负载摆动的收敛；

4.本发明通过实际飞行实验，对提出的在线轨迹规划方法进行了验证，并且与点对点的PD跟踪控制方法进行了对比，实验结果表明本发明设计的基于事件驱动的在线轨迹规划方法具有更好的减摆效果以及良好的定位性能。

附图说明：

图1是本发明采用的四旋翼无人机吊挂系统模型示意图；

图2是本发明所使用的四旋翼无人机吊挂系统实验平台；

图3是位置跟踪控制实验时无人机位置信息的更新曲线图；

图4是位置跟踪控制实验时无人机控制输入的更新曲线图；

图5是位置跟踪控制实验时无人机负载摆角的更新曲线图；

图6是位置跟踪控制实验时自适应神经网络输入输出的更新曲线图；

图7是位置跟踪控制实验时神经网络学习过程触发条件的更新曲线图；

图8是位置跟踪控制实验时神经网络输出权值的更新曲线图。

具体实施方式

本发明在基于事件驱动的前提下，引入折现代价函数和强化学习机制，提出了一种新型的四旋翼无人机吊挂系统在线轨迹规划方法。本发明将吊挂系统负载摆角的动力学方程转换成非线性仿射系统的形式，在此基础上通过神经网络逼近的方法来求解负载摆角抑制的最优控制问题。在存在外界未知扰动的情况下，本发明利用负载摆角的反馈作为人工神经网络的输入，通过在线训练神经网络获得输出作为轨迹规划部分的补偿。本发明采用的技术方案是，基于事件驱动的无人机吊挂系统在线轨迹规划方法，步骤如下：

步骤1)确定四旋翼无人机吊挂系统的坐标系定义；

四旋翼无人机吊挂系统坐标系定义如图1所示，图1(a)为系统三维模型示意图，其中{I}＝{x_I，y_I，z_I}表示固定在大地的惯性坐标系，{B}＝{x_B，y_B，z_B}表示无人机的机体坐标系，x_i、y_i、z_i(i＝I，B)分别对应坐标系三个主轴方向的单位矢量。图1(b)为此系统的二维模型，本发明主要考虑四旋翼无人机吊挂系统在惯性坐标系{I}下y、z方向上的位置状态以及负载摆角及角速度映射在y、z平面上的状态。

步骤2)确定四旋翼无人机吊挂系统的动力学模型；

通过分析四旋翼无人机吊挂系统的二维模型如图1(b)所示。采用欧拉-拉格朗日方法对系统进行建模，通过计算可以得到系统的动力学表达式如下

的表达式为

G(q)的表达式为

G(q)＝[0(m_L+m_Q)g m_Lglsinγ]^T (4)

其中，表示吊挂负载质量，表示无人机质量，表示绳长。

步骤3)定义系统折现代价函数和最优控制律；

将式(1)展开可得负载摆动运动的动力学方程如下

g(x)的表达式为

r(x(τ)，u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ) (9)

定义折现代价函数V(x(t)，u(t))如下

其中，定义系统(6)的哈密尔顿量为

据贝尔曼最优准则，最优代价函数V^*(x)的表达式为

根据以上最优控制律，上述的HJB方程可改写为

因为R为Hermite正定阵，满足(R^-1)^T＝R^-1，上式可化为

步骤4)设计事件驱动机制；

其中，上式的为下文设计目标。

步骤5)设计自适应评价网络；

据神经网络的逼近策略，最优代价函数V^*(x)可重构为

其中，为理想权值向量，为激活函数，为重构误差，nc为隐含层中神经元的数量。可得上式的梯度向量为

其中，为估计权值向量，可得

采用逼近策略重构，式(20)可改写为

由以上可得近似哈密尔顿量为

考虑到定义

其中，α_c＞0为设计的评价网学习率增益。

据状态向量选择多项式来确定V_s(x)，可选取V_s(x)＝(1/2)x^Tx。

可得本发明的评价网输出权值更新率为

定义评价网输出权值的估计误差为

步骤6)轨迹规划设计；

本发明的四旋翼无人机期望轨迹的加速度与设计为如下形式

本发明选用如下的S形曲线作为标称轨迹

其中c_y、c_z、n_y、n_z、v、p_y及p_z为设计的正常数。

步骤7)位置跟踪控制律设计；

选取如下的类PD控制器作为轨迹跟踪控制器

以下结合具体实例以及附图对本发明做出详细说明。

一、实验平台介绍

为为了验证本发明设计的基于事件驱动的四旋翼无人机吊挂空运系统在线轨迹规划方法的实际效果，本发明采用如图2所示的实验平台进行了飞行实验。实验平台由两部分组成：(1)运动捕捉系统，系统能够实时采集无人机及吊挂负载的位置信息；(2)自主开发的四旋翼无人机吊挂系统，无人机机载处理器接收来自运动捕捉系统提供的位置信息。

实验平台的相关参数为：mq＝1.008kg，mp＝0.076kg，l＝1.05m及g＝9.81m/s²。

二、实验验证与分析

采用本发明设计的在线轨迹规划方法与不加轨迹规划的点对点的PD跟踪控制方法作对比，在上述的实验平台上进行了一组对比实验。不加轨迹规划的点对点PD跟踪控制方法中，定义四旋翼无人机实时位置与目标位置之间的误差如下

其中，y_d，z_d为设定的目标位置。

两种方法采用上述类PD控制器及其相关参数，使四旋翼无人机在吊挂负载的情况下到达目标位置。

(1)参数选择

在实际飞行实验中，本发明设计的基于事件驱动的近似最优控制律部分相关参数选取如下：Q＝diag[0.001 0.05]，R＝diag[0.01 0.02]，V_s(x)＝(1/2)x^Tx，η＝0.6，α_c＝0.1，α_s＝0.0015，n_c＝10。用作评价网输入的系统状态的采样时间为式(35)触发条件中的相关参数选取如下：φ＝0.5，ψ＝25。轨迹规划设计相关参数选取如下：k₁₁＝6.0，k₁₂＝5.0，k₂₁6.0，k₂₂＝5.0，k_γ＝1.0。标称轨迹中的相关参数选取如下c_y＝1.2，c_z＝1.2，n_y＝0.48，n_z＝0.48，v＝3.5，p_y＝3.0，p_z＝0.3。位置跟踪控制律中的控制增益选取如下：四旋翼无人机的起始位置和目标位置分别设置为：y₀＝0m，z₀＝-1.75m与y_d＝3m，z_d＝-1.45m。

(2)结果分析

飞行实验中，定义当四旋翼无人机到达目标位置并保持在规定误差带(目标位置的5％)内时，系统进入稳态。定义调节时间为四旋翼无人机进入稳态所需的最短时间。通过对图3以及图5的动态过程进行具体分析，可得到表1，表1是在线轨迹规划方法和点对点的PD跟踪控制方法下系统调节时间的对比结果。通过分析可知，两种方法下，四旋翼无人机在y、z方向位移的调节时间相近，无人机均能较平滑的到达目标位置。但是比较负载摆角的调节时间，在线轨迹规划方法明显优于点对点的PD跟踪控制方法，并且从图5中可知，在线轨迹规划方法下，负载摆角的振荡幅值以及振荡次数均远小于点对点的PD跟踪控制方法下的摆角幅值与次数。根据图4可知，对于控制输入u_y(t)，从动态调节过程来看，在线轨迹规划方法控制器的输出相比较点对点的PD跟踪控制方法控制器的输出平缓许多。总的来说，动态过程中，在四旋翼无人机位移方面，两种方法的效果相近，但在负载摆角方面，在线轨迹规划方法的减摆效果明显优于点对点的PD跟踪控制方法。

对图3以及图5中的状态量的稳态过程进行定量分析，选取各个状态量进入稳态后的数据，分别对图中各个量求取了平均绝对误差(Mean absolute error，MAE)，均方根误差(Mean square error，MSE)。表3，表4分别是在线轨迹规划方法和点对点的PD跟踪控制方法稳态后的平均绝对误差和均方根误差的对比。对于无人机y方向位移y(t)，在线轨迹规划方法的平均绝对误差以及均方根误差略小于点对点的PD跟踪控制方法；对于无人机z方向位移z(t)以及负载摆角γ(t)，两种方法的平均绝对误差以及均方根误差相近。总的来看，两种方法下吊挂系统的稳态性能均相近。图4中控制输入量u_y(t)、u_z(t)的稳态性能和y、z方向的位移y(t)、z(t)的稳态性能对应，合理地解释了y、z方向的位移y(t)、z(t)的变化曲线，间接体现了在线轨迹规划方法对负载优良的减摆性能。

表2：调节时间比较

调节时间/s	在线轨迹规划方法	点对点的PD跟踪控制方法
			t_sy	9.593	8.250
t_sz	6.782	6.302
			t_sγ	7.543	28.416

表3：稳态平均绝对误差(MAE)比较

MAE/m	在线轨迹规划方法	点对点的PD跟踪控制方法
			y	0.0116	0.0213
z	0.0079	0.0073
			γ	0.7154	0.7264

表4：稳态均方根误差(RMSE)比较

RMSE/m	在线轨迹规划方法	点对点的PD跟踪控制方法
			y	0.0228	0.0300
z	0.0093	0.0089
			γ	0.8688	0.8926

当权衡控制精度和计算复杂度时，通过反复实验得到基于事件触发的评价网络的更新频率取20Hz时控制效果较好，此时评价网络输入的系统状态的采样时间为网络学习过程的触发条件和神经网络的实际输入分别如图6和图7所示。图6表示在实际飞行过程中，为避免小角度摆动过于频繁造成的影响，在满足评价网络输入持续激励条件前提下对神经网络的输入γ(t)做了处理，即降低了摆角绝对值在0.04rad以内的输入值的幅值。图7表明经过以上处理后，学习过程始终满足式(35)中的触发条件，即||e_i(t)||²/e_T的值小于1。

如图8所示，评价网的输出权值向量最终收敛。从图中可以发现，权值向量的初始值都被设为零，说明初始控制律不需要是稳定的。可以观察到输出权值向量的收敛发生在t＝7.64s，之后系统进入了小角度摆动状态。

本发明设计的创新之处除了上述对负载优良的减摆性能外，还有如下一点:在达到相同控制效果的前提下，与基于时间的评价网络相比较，基于事件触发的评价网络有着更低的更新频率，为此降低了无人机机载处理器的运算负担。原因在于，在只涉及无人机外环控制的轨迹规划中，为达到良好的位置跟踪效果，无人机外环控制器的控制更新频率有一定的下限，并且基于时间的评价网设计普遍采用与无人机外环控制器相同的更新频率。在本发明实验中，无人机采用的外环控制器的控制更新频率不低于50Hz，这就要求机载处理器具有较强的运算能力能够处理基于时间的评价网的迭代更新。为解决机载处理器算力不足的问题，本发明设计的基于事件触发机制的在线轨迹规划方法，能在保证系统稳定性以及位置跟踪效果的前提下，将评价网络的更新频率降低至20Hz，这显著降低了机载处理器在处理评价网络的迭代更新时的计算消耗。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于事件驱动的无人机吊挂系统在线轨迹规划方法，其特征是，将吊挂系统负载摆角的动力学方程转换成非线性仿射系统的形式，在此基础上引入折现代价函数和强化学习机制，通过神经网络逼近的方法来求解负载摆角抑制的最优控制问题，具体步骤如下：

步骤1)确定四旋翼无人机吊挂系统的坐标系定义；

四旋翼无人机吊挂系统坐标系定义：{I}＝{x_I,y_I,z_I}表示固定在大地的惯性坐标系，{B}＝{x_B,y_B,z_B}表示无人机的机体坐标系，x_i、y_i、z_i(i＝I,B)分别对应坐标系三个主轴方向的单位矢量；

步骤2)确定四旋翼无人机吊挂系统的动力学模型；

通过分析四旋翼无人机吊挂系统的二维模型，采用欧拉-拉格朗日方法对系统进行建模，通过计算可以得到系统的动力学表达式如下

其中，表示系统的状态向量，y(t)、z(t)分别表示四旋翼无人机在y、z方向的位移，γ(t)表示负载摆角在y、z平面上的分量，F_q＝[f_y,f_z,0]表示系统的控制输入，f_y、f_z分别表示无人机在y、z方向的升力，F_d＝[d_y,d_z,d_γ]表示系统受到的未知外界扰动，d_y、d_z、d_γ分别表示系统受到的外界扰动在y、z、γ方向的分量，M(q)、分别表示四旋翼无人机吊挂系统的惯性矩阵、向心力矩阵以及重力向量，表示实数域，式(1)中M(q)的表达式为

的表达式为

G(q)的表达式为

G(q)＝[0 (m_L+m_Q)g m_Lglsinγ]^T (4)

其中，表示吊挂负载质量，表示无人机质量，表示绳长；

步骤3)定义系统折现代价函数和最优控制律；

将式(1)展开可得负载摆动运动的动力学方程如下

其中，为等效状态向量，为非线性仿射系统的等效输入，在上式中f(x)的表达式为

g(x)的表达式为

f(·)与g(·)满足局部李普希兹(Lipschitz)连续条件，设t＝0时，x(0)＝x₀，且x＝0为系统平衡点，此时f(0)＝0，在最优调节设计中，针对特定的代价函数来设计状态反馈控制律u(t)，选取为正定常数矩阵，为Hermite正定常数阵，定义函数r(x(τ),u(τ))如下

r(x(τ),u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ) (9)

定义折现代价函数V(x(t),u(t))如下

其中，η＞0为折现因子，用来调节收敛速率，e为自然常数，后文V(x(t),u(t))简写为V(x(t))或者V(x)，对于控制输入u(t)，若代价函数连续且可微，则

经过适当的数学变换，获得上式中非线性Lyapunov方程的无穷小形式如下式所示

其中，定义系统(6)的哈密尔顿量为

据贝尔曼最优准则，最优代价函数V^*(x)的表达式为

根据以上最优控制律，上述的HJB方程可改写为

因为R为Hermite正定阵，满足(R^-1)^T＝R^-1，上式可化为

上式为基于时间的经典HJB方程，即

步骤4)设计事件驱动机制；

定义一个单调递增的触发序列s_i为i∈N的第i个连续采样时刻，采样输出为采样状态的一个序列，对于所有t∈[s_i,s_i+1]有定义事件驱动的误差函数为

当t＝s_i时，e_i(t)＝0，在每个触发时刻，系统状态是采样的，e_i(t)复位为0，反馈控制律

得到更新，控制序列通过零阶保持器可成为一个分段的连续时间信号，

将上述事件驱动机制与式(15)中的最优控制律设计相结合，可得如下的控制设计

其中，

步骤5)设计自适应评价网络；

据神经网络的逼近策略，最优代价函数V^*(x)可重构为

其中，为理想权值向量，为激活函数，为重构误差，n_c为隐含层中神经元的数量，可得上式的梯度向量为

其中，为估计权值向量，可得

采用逼近策略重构，式(20)可改写为

由以上可得近似哈密尔顿量为

考虑到定义

将上式中的e_c(t)对的偏导数定义为ρ(t)，即其中，求得如下等式

迭代更新评价网权值使得目标函数最小化，这里采用归一化梯度下降算法，可得评价网络输出权值的更新率为

其中，α_c＞0为设计的评价网学习率增益；

引入一个额外的Lyapunov候选函数V_s(x)来改进评价网的学习准则，并利用它来调节评价网的权值向量，令V_s(x)为保证时间导数为负的连续可微Lyapunov候选函数，即

据状态向量选择多项式来确定V_s(x)，可选取V_s(x)＝(1/2)x^Tx；

当使用式(20)中的基于事件驱动的最优控制律时，为使系统稳定，即需要引入一个额外的项通过沿着的负梯度方向调整来加强训练过程，为此，据式(26)中的基于事件驱动的近似最优控制律，可利用链式法则得到以下梯度下降运算

其中，α_s＞0为正常数，综上所述，评价网输出权值更新率由两部分组成，即

可得本发明的评价网输出权值更新率为

定义评价网输出权值的估计误差为

上式定义为事件驱动的触发条件，其中，ψ为正常数，φ∈(0,1)是设计的参数，常量ξ＝||θ||²||R^-1||²，正定矩阵满足R＝θ^Tθ；

步骤6)轨迹规划设计；

本发明的四旋翼无人机期望轨迹的加速度与设计为如下形式

上式中的为减摆设计，与为保证系统稳定的辅助函数，k_γ、及为正常数增益，标称轨迹与保证了四旋翼无人机能准确到达目标位置，标称轨迹要满足如下条件:(1)y_t(t)、z_t(t)在有限时间收敛到目标位置，(2)y_t(t)、z_t(t)的一二阶导数均能随时间收敛到0，且二阶导数的绝对值与一阶导数均是有上界的正实数，(3)初始值应满足当t＝0时，y_t(t)、z_t(t)及其一阶导数均为0；

选用如下的S形曲线作为标称轨迹

其中c_y、c_z、n_y、n_z、υ、p_y及p_z为设计的正常数；

步骤7)位置跟踪控制律设计；

选取如下的类PD控制器作为轨迹跟踪控制器

其中，及为PD控制器的控制增益，均为正常数，与表示四旋翼无人机在y和z方向上的实时速度分量。