CN114063453A

CN114063453A - 基于强化学习的直升机系统控制方法、系统、装置及介质

Info

Publication number: CN114063453A
Application number: CN202111249357.XA
Authority: CN
Inventors: 赵志甲; 何伟添; 邹涛; 李致富; 马鸽
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-18
Anticipated expiration: 2041-10-26
Also published as: CN114063453B

Abstract

本发明公开了一种基于强化学习的直升机系统控制方法、系统、装置及介质，方法包括：构建直升机系统的非线性状态空间方程；构建直升机系统的评价神经网络和执行神经网络；通过强化学习对评价神经网络和执行神经网络进行权重更新，得到训练好的评价神经网络和执行神经网络；根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律，进而根据控制律对直升机系统进行控制。本发明可以对直升机系统的非线性未知因素进行近似表示并不断学习优化，提高了对系统内部耦合性、建模不准确等造成的影响的抑制，从而减小了直升机的跟踪误差，提高了直升机的控制精度，可广泛应用于直升机控制技术领域。

Description

基于强化学习的直升机系统控制方法、系统、装置及介质

技术领域

本发明涉及直升机控制技术领域，尤其是一种基于强化学习的直升机系统控制方法、系统、装置及介质。

背景技术

无人机近年来引起了广泛关注，得到了迅速的发展和应用。其中最常见的无人机是无人直升机，它广泛应用于物资运输、救援行动和探测任务等各个领域。然而，无人直升机的控制是个很困难的问题，因为它是一个高度非线性的多输入多输出系统，涉及复杂的动力学建模、耦合效应和弱抗干扰性。此外，直升机系统的许多参数也难以测量。因此，为了确保设计的控制器能有更好的鲁棒性和干扰抑制，必须为直升机系统设计更好的控制技术。

迄今为止，人们对直升机系统的控制进行了大量的研究，并提出了PID控制、最优跟踪控制、滑模控制等许多技术。但是这些技术对于克服直升机系统的不确定因素和非线性部分的影响而言效果仍不理想，导致直升机的跟踪误差较大、控制精度较低。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种基于强化学习的直升机系统控制方法，该方法可以减小直升机的跟踪误差、提高直升机的控制精度。

本发明实施例的另一个目的在于提供一种基于强化学习的直升机系统控制系统。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种基于强化学习的直升机系统控制方法，包括以下步骤：

构建直升机系统的非线性状态空间方程；

构建直升机系统的评价神经网络和执行神经网络，所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分，所述执行神经网络用于根据所述评价得分执行相应的操作；

通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新，得到训练好的评价神经网络和执行神经网络；

根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律，进而根据所述控制律对直升机系统进行控制。

进一步地，在本发明的一个实施例中，所述构建直升机系统的非线性状态空间方程这一步骤，其具体包括：

根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下：

其中，θ表示俯仰角，ψ表示偏航角，J_p表示俯仰运动的转动惯量，J_y表示偏航运动的转动惯量，D_p表示俯仰运动的摩擦系数，D_y表示偏航运动的摩擦系数，K_pp表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益，K_py表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益，K_yp表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益，K_yy表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益，m表示整机质量，L_cm表示质心到固定坐标系原点的距离；

对所述非线性动力学方程进行简化，得到直升机系统的非线性状态空间方程如下：

其中，x₁＝[θ,ψ]^T，

f(x₁,x₂)表示非线性未知函数，

g表示重力加速度，

u＝[V_p,V_y]^T，V_p表示控制俯仰运动的电机电压输入，V_y表示控制偏航运动的电机电压输入。

进一步地，在本发明的一个实施例中，构建直升机系统的评价神经网络这一步骤，其具体包括：

确定长期成本函数如下：

其中，ζ表示未来成本折扣系数且ζ>0，I(t)表示瞬时成本函数；

确定瞬时成本函数如下：

I(t)＝(x-x_d)^TQ(x-x_d)+τ^TRτ

其中，x表示系统的状态量，x＝[x₁,x₂]^T，x_d表示期望跟踪轨迹，Q和R表示正定权重矩阵，τ表示系统的输入；

构建用于近似长期成本函数的评价神经网络如下：

其中，

表示对长期成本函数J(t)的近似，

表示评价神经网络的估计权重，H_c(Z_c)表示输入为跟踪误差Z_c的高斯径向基函数，Z_c＝x-x_d；

确定所述评价神经网络的权重更新率如下：

其中，

表示评价神经网络的权重更新率，

表示评价神经网络的权重，E_c表示评价神经网络的近似误差平方项，l_c表示评价神经网络的学习率。

构建用于近似非线性未知函数的执行神经网络如下：

其中，

表示对非线性未知函数f(x₁,x₂)的近似，

表示执行神经网络的估计权重，H_a(Z_a)表示网络输入向量Z_a的高斯径向基函数，

确定所述执行神经网络的误差如下：

其中，δ_a表示近似非线性未知函数的近似误差，K_J表示评价神经网络对执行神经网络的影响程度参数，

和J_d(t)分别表示长期成本函数的估计值与理想值；

确定所述执行神经网络的权重更新率如下：

其中，

表示执行神经网络的权重更新率，

表示执行神经网络的权重，E_a表示执行神经网络的近似误差平方项，l_a表示执行神经网络的学习率。

进一步地，在本发明的一个实施例中，所述通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新这一步骤，其具体为：

根据所述评价神经网络的权重更新率和所述执行神经网络的权重更新率，通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新。

进一步地，在本发明的一个实施例中，所述控制律的函数表示如下：

其中，u(t)表示直升机系统的控制向量，inv(g)表示对函数g(x₁)求逆，z₁和z₂表示跟踪误差，z₁＝x₁-x_d，z₂＝x₂-α₁，α₁表示反步法辅助变量，K₂为预设参数，

表示α₁的导数。

进一步地，在本发明的一个实施例中，所述根据所述控制律对直升机系统进行控制这一步骤之前，还包括以下步骤：

根据所述非线性状态空间方程确定Lyapunov函数，并根据所述Lyapunov函数对直升机系统进行稳定性分析。

第二方面，本发明实施例提供了一种基于强化学习的直升机系统控制系统，包括：

非线性状态空间方程构建模块，用于构建直升机系统的非线性状态空间方程；

神经网络构建模块，用于构建直升机系统的评价神经网络和执行神经网络，所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分，所述执行神经网络用于根据所述评价得分执行相应的操作；

模型训练模块，用于通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新，得到训练好的评价神经网络和执行神经网络；

控制律确定模块，用于根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律，进而根据所述控制律对直升机系统进行控制。

第三方面，本发明实施例提供了一种基于强化学习的直升机系统控制装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种基于强化学习的直升机系统控制方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种基于强化学习的直升机系统控制方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例通过构建评价神经网络和执行神经网络并进行强化学习来确定直升机系统的控制律，可以对直升机系统的非线性未知因素进行近似表示并不断学习优化，提高了对系统内部耦合性、建模不准确等造成的影响的抑制，从而减小了直升机的跟踪误差，提高了直升机的控制精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种基于强化学习的直升机系统控制方法的步骤流程图；

图2为本发明实施例提供的直升机俯仰角的实际值与期望值的对比示意图；

图3为本发明实施例提供的直升机偏航角的实际值与期望值的对比示意图；

图4为本发明实施例提供的直升机俯仰角速度的实际值与期望值的对比示意图；

图5为本发明实施例提供的直升机偏航角速度的实际值与期望值的对比示意图；

图6为本发明实施例提供的直升机俯仰角的跟踪误差曲线图；

图7为本发明实施例提供的直升机偏航角的跟踪误差曲线图；

图8为本发明实施例提供的一种基于强化学习的直升机系统控制系统的结构框图；

图9为本发明实施例提供的一种基于强化学习的直升机系统控制装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。

参照图1，本发明实施例提供了一种基于强化学习的直升机系统控制方法，具体包括以下步骤：

S101、构建直升机系统的非线性状态空间方程。

本发明实施例以2-DOF直升机系统为例进行说明。步骤S101具体包括以下步骤：

S1011、根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下：

S1012、对非线性动力学方程进行简化，得到直升机系统的非线性状态空间方程如下：

其中，x₁＝[θ,ψ]^T，

f(x₁,x₂)表示非线性未知函数，

g表示重力加速度，

具体地，非线性未知函数用于表征直升机系统的不确定因素和非线性部分。

S102、构建直升机系统的评价神经网络和执行神经网络，评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分，执行神经网络用于根据评价得分执行相应的操作。

进一步作为可选的实施方式，构建直升机系统的评价神经网络这一步骤，其具体包括：

A1、确定长期成本函数如下：

A2、确定瞬时成本函数如下：

I(t)＝(x-x_d)^TQ(x-x_d)+τ^TRτ

其中，x表示系统的状态量，x＝[x₁,x₂]^T，x_d表示期望跟踪轨迹，x_ψ＝[θ_d,ψ_d]^T，θ_d表示俯仰角期望值，ψ_d表示偏航角期望值，Q和R表示正定权重矩阵，τ表示系统的输入；

A3、构建用于近似长期成本函数的评价神经网络如下：

其中，

表示对长期成本函数J(t)的近似，

具体地，对长期成本函数求导可得瞬时函数的近似误差可以表达为：

其中，I(t)是定义的瞬时目标函数，

是评价神经网络近似的长期成本函数的时间导数。

A4、确定评价神经网络的权重更新率如下：

其中，

表示评价神经网络的权重更新率，

具体地，定义评价神经网络权重更新如下：

其中，

是指对Z_c求导。

B1、构建用于近似非线性未知函数的执行神经网络如下：

其中，

表示对非线性未知函数f(x₁,x₂)的近似，

具体地，定义跟踪误差如下：

z₁＝x₁-x_d

z₂＝x₂-α

其中，x_d是人为设定的期望跟踪轨迹，α为预设的反步法辅助变量，K₁是根据直升机系统确定的可调参数。

B2、确定执行神经网络的误差如下：

和J_f(t)分别表示长期成本函数的估计值与理想值；

B3、确定执行神经网络的权重更新率如下：

其中，

表示执行神经网络的权重更新率，

具体地，定义执行神经网络权重更新率如下：

其中，

由于δ_a是未知量，进而，权重更新率可改写为：

S103、通过强化学习对评价神经网络和执行神经网络进行权重更新，得到训练好的评价神经网络和执行神经网络。

具体地，强化学习是一种用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的方法。本发明实施例将强化学习的思想融入进2-DOF直升机的控制设计中，可以有效地通过自学习来不断提升控制性能，获得更好的控制效果。

进一步作为可选的实施方式，通过强化学习对评价神经网络和执行神经网络进行权重更新这一步骤，其具体为：

根据评价神经网络的权重更新率和执行神经网络的权重更新率，通过强化学习对评价神经网络和执行神经网络进行权重更新。

S104、根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律，进而根据控制律对直升机系统进行控制。

具体地，控制律是直升机系统形成控制指令的算法，描述了受控状态变量与系统控制向量之间的函数关系。本发明实施例根据训练好的评价神经、执行神经网络以及确定的非线性状态空间方程确定直升机系统的控制律，根据该控制律即可实现对直升机系统的实时控制。

进一步作为可选的实施方式，控制律的函数表示如下：

表示α₁的导数。

进一步作为可选的实施方式，根据控制律对直升机系统进行控制这一步骤之前，还包括以下步骤：

根据非线性状态空间方程确定Lyapunov函数，并根据Lyapunov函数对直升机系统进行稳定性分析。

具体地，确定2-DOF直升机系统的Lyapunov函数V(t)为：

瞬时成本函数满足以下不等式：

其中，κ是一个极小、接近于0的数，ε_c是评价网络的误差，且

是指对Z_c求导。

对V(t)进行求导可得：

又因为：

则有：

因此：

其中，∈_a和ε_c分别是执行神经网络和评价神经网络的误差。

根据Lyapunov定理，从所确定的Lyapunov函数V(t)可知其正定性，进而验证

的负定性，因此可以得出系统是符合渐近稳定的。

以上对本发明实施例的方法流程进行了说明。可以认识到，本发明实施例通过构建评价神经网络和执行神经网络并进行强化学习来确定直升机系统的控制律，可以对直升机系统的非线性未知因素进行近似表示并不断学习优化，提高了对系统内部耦合性、建模不准确等造成的影响的抑制，从而减小了直升机的跟踪误差，提高了直升机的控制精度。

下面结合仿真实验结果对本发明实施例的方法进行验证。

如图2所示为仿真实验得到的直升机俯仰角的实际值与期望值的对比示意图，其中，x₁₁表示直升机俯仰角的实际值，x_11d表示直升机俯仰角的期望值；如图3所示为仿真实验得到的直升机偏航角的实际值与期望值的对比示意图，其中，x₁₂表示直升机偏航角的实际值，x_12d表示直升机偏航角的期望值；如图4为仿真实验得到的直升机俯仰角速度的实际值与期望值的对比示意图，其中，x₂₁表示直升机俯仰角速度的实际值，x_21d表示直升机俯仰角角速度的期望值；如图5所示为仿真实验得到的直升机偏航角速度的实际值与期望值的对比示意图，其中，x₂₂表示直升机俯仰角速度的实际值，x_22d表示直升机俯仰角速度的期望值；如图6所示为仿真实验得到的直升机俯仰角的跟踪误差曲线图，其中，z₁₁表示直升机俯仰角的跟踪误差；如图7所示为仿真实验得到的直升机偏航角的跟踪误差曲线图，其中，z₁₂表示直升机偏航角的跟踪误差。

从这些图上面可以看得出来，仿真结果符合预期，依据本发明实施例的方法所设计的控制器控制性能良好，实现了较小的跟踪误差。

参照图8，本发明实施例提供了一种基于强化学习的直升机系统控制系统，包括：

神经网络构建模块，用于构建直升机系统的评价神经网络和执行神经网络，评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分，执行神经网络用于根据评价得分执行相应的操作；

模型训练模块，用于通过强化学习对评价神经网络和执行神经网络进行权重更新，得到训练好的评价神经网络和执行神经网络；

控制律确定模块，用于根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律，进而根据控制律对直升机系统进行控制。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图9，本发明实施例提供了一种基于强化学习的直升机系统控制装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种基于强化学习的直升机系统控制方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种基于强化学习的直升机系统控制方法。

本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种基于强化学习的直升机系统控制方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。