CN114063453B - 基于强化学习的直升机系统控制方法、系统、装置及介质 - Google Patents

基于强化学习的直升机系统控制方法、系统、装置及介质 Download PDF

Info

Publication number
CN114063453B
CN114063453B CN202111249357.XA CN202111249357A CN114063453B CN 114063453 B CN114063453 B CN 114063453B CN 202111249357 A CN202111249357 A CN 202111249357A CN 114063453 B CN114063453 B CN 114063453B
Authority
CN
China
Prior art keywords
neural network
representing
helicopter
evaluation
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111249357.XA
Other languages
English (en)
Other versions
CN114063453A (zh
Inventor
赵志甲
何伟添
邹涛
李致富
马鸽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202111249357.XA priority Critical patent/CN114063453B/zh
Publication of CN114063453A publication Critical patent/CN114063453A/zh
Application granted granted Critical
Publication of CN114063453B publication Critical patent/CN114063453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的直升机系统控制方法、系统、装置及介质,方法包括:构建直升机系统的非线性状态空间方程;构建直升机系统的评价神经网络和执行神经网络;通过强化学习对评价神经网络和执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律,进而根据控制律对直升机系统进行控制。本发明可以对直升机系统的非线性未知因素进行近似表示并不断学习优化,提高了对系统内部耦合性、建模不准确等造成的影响的抑制,从而减小了直升机的跟踪误差,提高了直升机的控制精度,可广泛应用于直升机控制技术领域。

Description

基于强化学习的直升机系统控制方法、系统、装置及介质
技术领域
本发明涉及直升机控制技术领域,尤其是一种基于强化学习的直升机系统控制方法、系统、装置及介质。
背景技术
无人机近年来引起了广泛关注,得到了迅速的发展和应用。其中最常见的无人机是无人直升机,它广泛应用于物资运输、救援行动和探测任务等各个领域。然而,无人直升机的控制是个很困难的问题,因为它是一个高度非线性的多输入多输出系统,涉及复杂的动力学建模、耦合效应和弱抗干扰性。此外,直升机系统的许多参数也难以测量。因此,为了确保设计的控制器能有更好的鲁棒性和干扰抑制,必须为直升机系统设计更好的控制技术。
迄今为止,人们对直升机系统的控制进行了大量的研究,并提出了PID控制、最优跟踪控制、滑模控制等许多技术。但是这些技术对于克服直升机系统的不确定因素和非线性部分的影响而言效果仍不理想,导致直升机的跟踪误差较大、控制精度较低。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种基于强化学习的直升机系统控制方法,该方法可以减小直升机的跟踪误差、提高直升机的控制精度。
本发明实施例的另一个目的在于提供一种基于强化学习的直升机系统控制系统。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种基于强化学习的直升机系统控制方法,包括以下步骤:
构建直升机系统的非线性状态空间方程;
构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;
通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。
进一步地,在本发明的一个实施例中,所述构建直升机系统的非线性状态空间方程这一步骤,其具体包括:
根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:
Figure BDA0003321955430000021
Figure BDA0003321955430000022
其中,θ表示俯仰角,ψ表示偏航角,Jp表示俯仰运动的转动惯量,Jy表示偏航运动的转动惯量,Dp表示俯仰运动的摩擦系数,Dy表示偏航运动的摩擦系数,Kpp表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益,Kpy表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益,Kyp表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益,Kyy表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益,m表示整机质量,Lcm表示质心到固定坐标系原点的距离;
对所述非线性动力学方程进行简化,得到直升机系统的非线性状态空间方程如下:
Figure BDA0003321955430000023
Figure BDA0003321955430000024
其中,x1=[θ,ψ]T
Figure BDA0003321955430000025
f(x1,x2)表示非线性未知函数,
Figure BDA0003321955430000026
Figure BDA0003321955430000027
g表示重力加速度,
Figure BDA0003321955430000028
u=[Vp,Vy]T,Vp表示控制俯仰运动的电机电压输入,Vy表示控制偏航运动的电机电压输入。
进一步地,在本发明的一个实施例中,构建直升机系统的评价神经网络这一步骤,其具体包括:
确定长期成本函数如下:
Figure BDA0003321955430000029
其中,ζ表示未来成本折扣系数且ζ>0,I(t)表示瞬时成本函数;
确定瞬时成本函数如下:
I(t)=(x-xd)TQ(x-xd)+τT
其中,x表示系统的状态量,x=[x1,x2]T,xd表示期望跟踪轨迹,Q和R表示正定权重矩阵,τ表示系统的输入;
构建用于近似长期成本函数的评价神经网络如下:
Figure BDA0003321955430000031
其中,
Figure BDA0003321955430000032
表示对长期成本函数J(t)的近似,
Figure BDA0003321955430000033
表示评价神经网络的估计权重,Hc(Zc)表示输入为跟踪误差Zc的高斯径向基函数,Zc=x-xd
确定所述评价神经网络的权重更新率如下:
Figure BDA0003321955430000034
其中,
Figure BDA0003321955430000035
表示评价神经网络的权重更新率,
Figure BDA0003321955430000036
表示评价神经网络的权重,Ec表示评价神经网络的近似误差平方项,lc表示评价神经网络的学习率。
进一步地,在本发明的一个实施例中,构建直升机系统的评价神经网络这一步骤,其具体包括:
构建用于近似非线性未知函数的执行神经网络如下:
Figure BDA0003321955430000037
其中,
Figure BDA0003321955430000038
表示对非线性未知函数f(x1,x2)的近似,
Figure BDA0003321955430000039
表示执行神经网络的估计权重,Ha(Za)表示网络输入向量Za的高斯径向基函数,
Figure BDA00033219554300000310
确定所述执行神经网络的误差如下:
Figure BDA00033219554300000311
其中,δa表示近似非线性未知函数的近似误差,KJ表示评价神经网络对执行神经网络的影响程度参数,
Figure BDA00033219554300000312
和Jd(t)分别表示长期成本函数的估计值与理想值;
确定所述执行神经网络的权重更新率如下:
Figure BDA00033219554300000313
其中,
Figure BDA00033219554300000314
表示执行神经网络的权重更新率,
Figure BDA00033219554300000315
表示执行神经网络的权重,Ea表示执行神经网络的近似误差平方项,la表示执行神经网络的学习率。
进一步地,在本发明的一个实施例中,所述通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新这一步骤,其具体为:
根据所述评价神经网络的权重更新率和所述执行神经网络的权重更新率,通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新。
进一步地,在本发明的一个实施例中,所述控制律的函数表示如下:
Figure BDA0003321955430000041
其中,u(t)表示直升机系统的控制向量,inv(g)表示对函数g(x1)求逆,z1和z2表示跟踪误差,z1=x1-xd,z2=x21,α1表示反步法辅助变量,K2为预设参数,
Figure BDA0003321955430000042
表示α1的导数。
进一步地,在本发明的一个实施例中,所述根据所述控制律对直升机系统进行控制这一步骤之前,还包括以下步骤:
根据所述非线性状态空间方程确定Lyapunov函数,并根据所述Lyapunov函数对直升机系统进行稳定性分析。
第二方面,本发明实施例提供了一种基于强化学习的直升机系统控制系统,包括:
非线性状态空间方程构建模块,用于构建直升机系统的非线性状态空间方程;
神经网络构建模块,用于构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;
模型训练模块,用于通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
控制律确定模块,用于根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。
第三方面,本发明实施例提供了一种基于强化学习的直升机系统控制装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的一种基于强化学习的直升机系统控制方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的一种基于强化学习的直升机系统控制方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本发明实施例通过构建评价神经网络和执行神经网络并进行强化学习来确定直升机系统的控制律,可以对直升机系统的非线性未知因素进行近似表示并不断学习优化,提高了对系统内部耦合性、建模不准确等造成的影响的抑制,从而减小了直升机的跟踪误差,提高了直升机的控制精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面对本发明实施例中所需要使用的附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例提供的一种基于强化学习的直升机系统控制方法的步骤流程图;
图2为本发明实施例提供的直升机俯仰角的实际值与期望值的对比示意图;
图3为本发明实施例提供的直升机偏航角的实际值与期望值的对比示意图;
图4为本发明实施例提供的直升机俯仰角速度的实际值与期望值的对比示意图;
图5为本发明实施例提供的直升机偏航角速度的实际值与期望值的对比示意图;
图6为本发明实施例提供的直升机俯仰角的跟踪误差曲线图;
图7为本发明实施例提供的直升机偏航角的跟踪误差曲线图;
图8为本发明实施例提供的一种基于强化学习的直升机系统控制系统的结构框图;
图9为本发明实施例提供的一种基于强化学习的直升机系统控制装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,多个的含义是两个或两个以上,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
参照图1,本发明实施例提供了一种基于强化学习的直升机系统控制方法,具体包括以下步骤:
S101、构建直升机系统的非线性状态空间方程。
本发明实施例以2-DOF直升机系统为例进行说明。步骤S101具体包括以下步骤:
S1011、根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:
Figure BDA0003321955430000061
Figure BDA0003321955430000062
其中,θ表示俯仰角,ψ表示偏航角,Jp表示俯仰运动的转动惯量,Jy表示偏航运动的转动惯量,Dp表示俯仰运动的摩擦系数,Dy表示偏航运动的摩擦系数,Kpp表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益,Kpy表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益,Kyp表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益,Kyy表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益,m表示整机质量,Lcm表示质心到固定坐标系原点的距离;
S1012、对非线性动力学方程进行简化,得到直升机系统的非线性状态空间方程如下:
Figure BDA0003321955430000063
Figure BDA0003321955430000064
其中,x1=[θ,ψ]T
Figure BDA0003321955430000065
f(x1,x2)表示非线性未知函数,
Figure BDA0003321955430000066
Figure BDA0003321955430000067
g表示重力加速度,
Figure BDA0003321955430000068
u=[Vp,Vy]T,Vp表示控制俯仰运动的电机电压输入,Vy表示控制偏航运动的电机电压输入。
具体地,非线性未知函数用于表征直升机系统的不确定因素和非线性部分。
S102、构建直升机系统的评价神经网络和执行神经网络,评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,执行神经网络用于根据评价得分执行相应的操作。
进一步作为可选的实施方式,构建直升机系统的评价神经网络这一步骤,其具体包括:
A1、确定长期成本函数如下:
Figure BDA0003321955430000069
其中,ζ表示未来成本折扣系数且ζ>0,I(t)表示瞬时成本函数;
A2、确定瞬时成本函数如下:
I(t)=(x-xd)TQ(x-xd)+τT
其中,x表示系统的状态量,x=[x1,x2]T,xd表示期望跟踪轨迹,xψ=[θdd]T,θd表示俯仰角期望值,ψd表示偏航角期望值,Q和R表示正定权重矩阵,τ表示系统的输入;
A3、构建用于近似长期成本函数的评价神经网络如下:
Figure BDA0003321955430000071
其中,
Figure BDA0003321955430000072
表示对长期成本函数J(t)的近似,
Figure BDA0003321955430000073
表示评价神经网络的估计权重,Hc(Zc)表示输入为跟踪误差Zc的高斯径向基函数,Zc=x-xd
具体地,对长期成本函数求导可得瞬时函数的近似误差可以表达为:
Figure BDA0003321955430000074
其中,I(t)是定义的瞬时目标函数,
Figure BDA0003321955430000075
是评价神经网络近似的长期成本函数的时间导数。
A4、确定评价神经网络的权重更新率如下:
Figure BDA0003321955430000076
其中,
Figure BDA0003321955430000077
表示评价神经网络的权重更新率,
Figure BDA0003321955430000078
表示评价神经网络的权重,Ec表示评价神经网络的近似误差平方项,lc表示评价神经网络的学习率。
具体地,定义评价神经网络权重更新如下:
Figure BDA0003321955430000079
其中,
Figure BDA00033219554300000710
是指对Zc求导。
进一步作为可选的实施方式,构建直升机系统的评价神经网络这一步骤,其具体包括:
B1、构建用于近似非线性未知函数的执行神经网络如下:
Figure BDA00033219554300000711
其中,
Figure BDA00033219554300000712
表示对非线性未知函数f(x1,x2)的近似,
Figure BDA00033219554300000713
表示执行神经网络的估计权重,Ha(Za)表示网络输入向量Za的高斯径向基函数,
Figure BDA00033219554300000714
具体地,定义跟踪误差如下:
z1=x1-xd
z2=x2
Figure BDA00033219554300000715
其中,xd是人为设定的期望跟踪轨迹,α为预设的反步法辅助变量,K1是根据直升机系统确定的可调参数。
B2、确定执行神经网络的误差如下:
Figure BDA0003321955430000081
其中,δa表示近似非线性未知函数的近似误差,KJ表示评价神经网络对执行神经网络的影响程度参数,
Figure BDA0003321955430000082
和Jf(t)分别表示长期成本函数的估计值与理想值;
B3、确定执行神经网络的权重更新率如下:
Figure BDA0003321955430000083
其中,
Figure BDA0003321955430000084
表示执行神经网络的权重更新率,
Figure BDA0003321955430000085
表示执行神经网络的权重,Ea表示执行神经网络的近似误差平方项,la表示执行神经网络的学习率。
具体地,定义执行神经网络权重更新率如下:
Figure BDA0003321955430000086
其中,
Figure BDA0003321955430000087
由于δa是未知量,进而,权重更新率可改写为:
Figure BDA0003321955430000088
S103、通过强化学习对评价神经网络和执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络。
具体地,强化学习是一种用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的方法。本发明实施例将强化学习的思想融入进2-DOF直升机的控制设计中,可以有效地通过自学习来不断提升控制性能,获得更好的控制效果。
进一步作为可选的实施方式,通过强化学习对评价神经网络和执行神经网络进行权重更新这一步骤,其具体为:
根据评价神经网络的权重更新率和执行神经网络的权重更新率,通过强化学习对评价神经网络和执行神经网络进行权重更新。
S104、根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律,进而根据控制律对直升机系统进行控制。
具体地,控制律是直升机系统形成控制指令的算法,描述了受控状态变量与系统控制向量之间的函数关系。本发明实施例根据训练好的评价神经、执行神经网络以及确定的非线性状态空间方程确定直升机系统的控制律,根据该控制律即可实现对直升机系统的实时控制。
进一步作为可选的实施方式,控制律的函数表示如下:
Figure BDA0003321955430000089
其中,u(t)表示直升机系统的控制向量,inv(g)表示对函数g(x1)求逆,z1和z2表示跟踪误差,z1=x1-xd,z2=x21,α1表示反步法辅助变量,K2为预设参数,
Figure BDA0003321955430000091
表示α1的导数。
进一步作为可选的实施方式,根据控制律对直升机系统进行控制这一步骤之前,还包括以下步骤:
根据非线性状态空间方程确定Lyapunov函数,并根据Lyapunov函数对直升机系统进行稳定性分析。
具体地,确定2-DOF直升机系统的Lyapunov函数V(t)为:
Figure BDA0003321955430000092
瞬时成本函数满足以下不等式:
Figure BDA0003321955430000093
其中,κ是一个极小、接近于0的数,εc是评价网络的误差,且
Figure BDA0003321955430000094
是指对Zc求导。
对V(t)进行求导可得:
Figure BDA0003321955430000095
Figure BDA0003321955430000096
又因为:
Figure BDA0003321955430000097
则有:
Figure BDA0003321955430000098
因此:
Figure BDA0003321955430000099
其中,∈a和εc分别是执行神经网络和评价神经网络的误差。
根据Lyapunov定理,从所确定的Lyapunov函数V(t)可知其正定性,进而验证
Figure BDA00033219554300000910
的负定性,因此可以得出系统是符合渐近稳定的。
以上对本发明实施例的方法流程进行了说明。可以认识到,本发明实施例通过构建评价神经网络和执行神经网络并进行强化学习来确定直升机系统的控制律,可以对直升机系统的非线性未知因素进行近似表示并不断学习优化,提高了对系统内部耦合性、建模不准确等造成的影响的抑制,从而减小了直升机的跟踪误差,提高了直升机的控制精度。
下面结合仿真实验结果对本发明实施例的方法进行验证。
如图2所示为仿真实验得到的直升机俯仰角的实际值与期望值的对比示意图,其中,x11表示直升机俯仰角的实际值,x11d表示直升机俯仰角的期望值;如图3所示为仿真实验得到的直升机偏航角的实际值与期望值的对比示意图,其中,x12表示直升机偏航角的实际值,x12d表示直升机偏航角的期望值;如图4为仿真实验得到的直升机俯仰角速度的实际值与期望值的对比示意图,其中,x21表示直升机俯仰角速度的实际值,x21d表示直升机俯仰角角速度的期望值;如图5所示为仿真实验得到的直升机偏航角速度的实际值与期望值的对比示意图,其中,x22表示直升机俯仰角速度的实际值,x22d表示直升机俯仰角速度的期望值;如图6所示为仿真实验得到的直升机俯仰角的跟踪误差曲线图,其中,z11表示直升机俯仰角的跟踪误差;如图7所示为仿真实验得到的直升机偏航角的跟踪误差曲线图,其中,z12表示直升机偏航角的跟踪误差。
从这些图上面可以看得出来,仿真结果符合预期,依据本发明实施例的方法所设计的控制器控制性能良好,实现了较小的跟踪误差。
参照图8,本发明实施例提供了一种基于强化学习的直升机系统控制系统,包括:
非线性状态空间方程构建模块,用于构建直升机系统的非线性状态空间方程;
神经网络构建模块,用于构建直升机系统的评价神经网络和执行神经网络,评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,执行神经网络用于根据评价得分执行相应的操作;
模型训练模块,用于通过强化学习对评价神经网络和执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
控制律确定模块,用于根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律,进而根据控制律对直升机系统进行控制。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图9,本发明实施例提供了一种基于强化学习的直升机系统控制装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当上述至少一个程序被上述至少一个处理器执行时,使得上述至少一个处理器实现上述的一种基于强化学习的直升机系统控制方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于执行上述一种基于强化学习的直升机系统控制方法。
本发明实施例的一种计算机可读存储介质,可执行本发明方法实施例所提供的一种基于强化学习的直升机系统控制方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种基于强化学习的直升机系统控制方法,其特征在于,包括以下步骤:
构建直升机系统的非线性状态空间方程;
构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;
通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制;
所述构建直升机系统的非线性状态空间方程这一步骤,其具体包括:
根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:
Figure FDA0004139279840000011
Figure FDA0004139279840000012
其中,θ表示俯仰角,ψ表示偏航角,Jp表示俯仰运动的转动惯量,Jy表示偏航运动的转动惯量,Dp表示俯仰运动的摩擦系数,Dy表示偏航运动的摩擦系数,Kpp表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益,Kpy表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益,Kyp表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益,Kyy表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益,m表示整机质量,Lcm表示质心到固定坐标系原点的距离;
对所述非线性动力学方程进行简化,得到直升机系统的非线性状态空间方程如下:
Figure FDA0004139279840000013
Figure FDA0004139279840000014
其中,x1=[θ,ψ]T
Figure FDA0004139279840000015
f(x1,x2)表示非线性未知函数,
Figure FDA0004139279840000016
Figure FDA0004139279840000017
g表示重力加速度,
Figure FDA0004139279840000018
u=[Vp,Vy]T,Vp表示控制俯仰运动的电机电压输入,Vy表示控制偏航运动的电机电压输入;
构建直升机系统的评价神经网络这一步骤,其具体包括:
确定长期成本函数如下:
Figure FDA0004139279840000021
其中,ζ表示未来成本折扣系数且ζ>0,I(t)表示瞬时成本函数;
确定瞬时成本函数如下:
I(t)=(x-xd)TQ(x-xd)+τT
其中,x表示系统的状态量,x=[x1,x2]T,xd表示期望跟踪轨迹,Q和R表示正定权重矩阵,τ表示系统的输入;
构建用于近似长期成本函数的评价神经网络如下:
Figure FDA0004139279840000022
其中,
Figure FDA0004139279840000023
表示对长期成本函数J(t)的近似,
Figure FDA0004139279840000024
表示评价神经网络的估计权重,Hc(Zc)表示输入为跟踪误差Zc的高斯径向基函数,Zc=x-xd
确定所述评价神经网络的权重更新率如下:
Figure FDA0004139279840000025
其中,
Figure FDA0004139279840000026
表示评价神经网络的权重更新率,
Figure FDA0004139279840000027
表示评价神经网络的权重,Ec表示评价神经网络的近似误差平方项,lc表示评价神经网络的学习率;
构建直升机系统的评价神经网络这一步骤,其具体包括:
构建用于近似非线性未知函数的执行神经网络如下:
Figure FDA0004139279840000028
其中,
Figure FDA0004139279840000029
表示对非线性未知函数f(x1,x2)的近似,
Figure FDA00041392798400000210
表示执行神经网络的估计权重,Ha(Za)表示网络输入向量Za的高斯径向基函数,
Figure FDA00041392798400000211
确定所述执行神经网络的误差如下:
Figure FDA00041392798400000212
其中,δa表示近似非线性未知函数的近似误差,KJ表示评价神经网络对执行神经网络的影响程度参数,
Figure FDA00041392798400000213
和Jd(t)分别表示长期成本函数的估计值与理想值;
确定所述执行神经网络的权重更新率如下:
Figure FDA0004139279840000031
其中,
Figure FDA0004139279840000032
表示执行神经网络的权重更新率,
Figure FDA0004139279840000033
表示执行神经网络的权重,Ea表示执行神经网络的近似误差平方项,la表示执行神经网络的学习率;
所述通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新这一步骤,其具体为:
根据所述评价神经网络的权重更新率和所述执行神经网络的权重更新率,通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新;
所述控制律的函数表示如下:
Figure FDA0004139279840000034
其中,u(t)表示直升机系统的控制向量,inv(g)表示对函数g(x1)求逆,z1和z2表示跟踪误差,z1=x1-xd,z2=x21,α1表示反步法辅助变量,K2为预设参数,
Figure FDA0004139279840000035
表示α1的导数。
2.根据权利要求1所述的一种基于强化学习的直升机系统控制方法,其特征在于,所述根据所述控制律对直升机系统进行控制这一步骤之前,还包括以下步骤:
根据所述非线性状态空间方程确定Lyapunov函数,并根据所述Lyapunov函数对直升机系统进行稳定性分析。
3.一种基于强化学习的直升机系统控制系统,其特征在于,所述直升机系统控制系统用于实现如权利要求1或2所述的一种基于强化学习的直升机系统控制方法,所述直升机系统控制系统包括:
非线性状态空间方程构建模块,用于构建直升机系统的非线性状态空间方程;
神经网络构建模块,用于构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;
模型训练模块,用于通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
控制律确定模块,用于根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。
4.一种基于强化学习的直升机系统控制装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1或2所述的一种基于强化学习的直升机系统控制方法。
5.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1或2所述的一种基于强化学习的直升机系统控制方法。
CN202111249357.XA 2021-10-26 2021-10-26 基于强化学习的直升机系统控制方法、系统、装置及介质 Active CN114063453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111249357.XA CN114063453B (zh) 2021-10-26 2021-10-26 基于强化学习的直升机系统控制方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111249357.XA CN114063453B (zh) 2021-10-26 2021-10-26 基于强化学习的直升机系统控制方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN114063453A CN114063453A (zh) 2022-02-18
CN114063453B true CN114063453B (zh) 2023-04-25

Family

ID=80235575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111249357.XA Active CN114063453B (zh) 2021-10-26 2021-10-26 基于强化学习的直升机系统控制方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN114063453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578696B (zh) * 2022-03-03 2024-06-25 广州大学 2-dof直升机系统自适应神经网络量化容错控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751529B1 (en) * 2002-06-03 2004-06-15 Neural Robotics, Inc. System and method for controlling model aircraft
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751529B1 (en) * 2002-06-03 2004-06-15 Neural Robotics, Inc. System and method for controlling model aircraft
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dong Jin Lee等.Reinforcement Learning based Neuro-control Systems for an Unmanned Helicopter.《International Conference on Control, Automation and Systems 2010》.2010,第2536-2540页. *
LvS Hager等.Adaptive Neural Network Control of a Helicopter System with Optimal Observer and Actor-Critic Design.《Neurocomputing》.2018,第1-46页. *

Also Published As

Publication number Publication date
CN114063453A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN109946975B (zh) 一种未知伺服系统的强化学习最优跟踪控制方法
Kolter et al. Policy search via the signed derivative
CN111985614A (zh) 一种构建自动驾驶决策系统的方法、系统和介质
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
Okamoto et al. Data-driven human driver lateral control models for developing haptic-shared control advanced driver assist systems
CN111273544B (zh) 基于预测rbf前馈补偿型模糊pid的雷达俯仰运动控制方法
CN113110504B (zh) 一种基于强化学习和视线法的无人艇路径跟踪方法
Liu et al. Finite-time optimized robust control with adaptive state estimation algorithm for autonomous heavy vehicle
US9747543B1 (en) System and method for controller adaptation
CN114063453B (zh) 基于强化学习的直升机系统控制方法、系统、装置及介质
CN115437251A (zh) 一种带有输入量化的usv路径规划与模糊自适应跟踪控制方法
Sierra‐Garcia et al. Combining reinforcement learning and conventional control to improve automatic guided vehicles tracking of complex trajectories
CN112596393A (zh) 船舶路径跟踪的控制方法、系统和存储介质
Brosowsky et al. Safe deep reinforcement learning for adaptive cruise control by imposing state-specific safe sets
Fröhlich et al. Model learning and contextual controller tuning for autonomous racing
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Evans et al. Reward signal design for autonomous racing
Tan et al. A novel control approach for path tracking of a force-controlled two-wheel-steer four-wheel-drive vehicle
Okamoto et al. A comparative study of data-driven human driver lateral control models
CN113985732B (zh) 针对飞行器系统的自适应神经网络控制方法及装置
CN114817989A (zh) 模型生成方法、运行控制方法、装置、设备及存储介质
CN114089629B (zh) 直升机系统自适应故障容错控制方法、系统、装置及介质
Sieberg et al. Representation of an Integrated Non-Linear Model-Based Predictive Vehicle Dynamics Control System by a Co-Active Neuro-Fuzzy Inference System
Kong et al. Robust steering control for a steer-by-wire automated guided vehicle via fixed-time adaptive recursive sliding mode
CN116909136B (zh) 基于确定学习的2-dof直升机滑模控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant