CN114237267B - 基于强化学习的飞行机动决策的辅助方法 - Google Patents

基于强化学习的飞行机动决策的辅助方法 Download PDF

Info

Publication number
CN114237267B
CN114237267B CN202111288794.2A CN202111288794A CN114237267B CN 114237267 B CN114237267 B CN 114237267B CN 202111288794 A CN202111288794 A CN 202111288794A CN 114237267 B CN114237267 B CN 114237267B
Authority
CN
China
Prior art keywords
flight
model
state machine
reinforcement learning
aircraft aerodynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111288794.2A
Other languages
English (en)
Other versions
CN114237267A (zh
Inventor
付宇鹏
张立民
邓向阳
方君
朱子强
闫文君
方伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
School Of Aeronautical Combat Service Naval Aeronautical University Of Pla
Original Assignee
School Of Aeronautical Combat Service Naval Aeronautical University Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by School Of Aeronautical Combat Service Naval Aeronautical University Of Pla filed Critical School Of Aeronautical Combat Service Naval Aeronautical University Of Pla
Priority to CN202111288794.2A priority Critical patent/CN114237267B/zh
Publication of CN114237267A publication Critical patent/CN114237267A/zh
Application granted granted Critical
Publication of CN114237267B publication Critical patent/CN114237267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本公开提供的基于强化学习的飞行机动决策辅助方法、装置及存储介质中,获取六自由度飞机空气动力学模型,然后设计状态机并利用设计的状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数,建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数,利用飞行参数对强化学习的初始模型进行训练,并得到最终模型,再利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的飞行控制系统的控制器参数及控制变量。由此,本公开提出的方法中,优化了飞机根据状态机实现机动的航迹,为操作人员提供可参考的舵面、油门控制指令,作为辅助飞行决策方案,提高了结果的可解释性、移植性。

Description

基于强化学习的飞行机动决策的辅助方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于强化学习的飞行机动决策的辅助方法、装置及存储介质。
背景技术
强化学习是一种通过经验进行策略自主学习的数学框架,且强化学习的决策能力在围棋、即时战略游戏等对抗博弈环境下应用广泛。因此,强化学习在飞行机动决策控制系统中能够根据人类专家经验使得智能体更贴近实际有人机的真实行为,同时可以为操作人员提供辅助决策方案。
但是,相关技术中,采用端到端的方案,利用强化学习算法直接学习飞行的机动动作,可解释性差,不利于移植使用。
发明内容
本申请提供一种基于强化学习的飞行机动决策的辅助方法、装置及存储介质,以至少解决相关技术中的可解释性差,不利于移植使用的技术问题。
本申请第一方面实施例提出一种基于强化学习的飞行机动决策辅助方法,包括:
获取六自由度飞机空气动力学模型;
设计状态机并利用所述状态机控制所述六自由度飞机空气动力学模型完成机动,并获取所述飞机空气动力学模型的飞行参数;
建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数;
利用所述飞行参数对所述强化学习的初始模型进行训练,并得到最终模型;
利用所述最终模型,根据所述飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。
本申请第二方面实施例提出一种基于强化学习的飞行机动决策控制系统的辅助装置,包括:
获取模块,用于获取六自由度飞机空气动力学模型;
控制模块,用于设计状态机并利用所述状态机控制所述六自由度飞机空气动力学模型完成机动,并获取所述飞机空气动力学模型的飞行参数;
建立模块,用于建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数;
处理模块,用于利用所述飞行参数对所述强化学习的初始模型进行训练,并得到最终模型;
输出模块,用于利用所述最终模型,根据所述飞机空气动力学模型当前的飞行参数输出下一飞行状态的的PID控制器参数及控制变量。
本申请的实施例提供的技术方案至少带来以下有益效果:
本公开提供的基于强化学习的飞行机动决策控制系统辅助方法、装置及存储介质中,获取六自由度飞机空气动力学模型,然后设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数,建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数,利用飞行参数对强化学习的初始模型进行训练,并得到最终模型,再利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。由此可知,本公开提出的方法中,可以通过利用状态机获取到的飞行参数训练强化学习的模型,从而优化飞机根据状态机实现机动的航迹,以使得训练完成的模型可以更贴近实际有人机的真实行为,同时为操作人员提供可参考的舵面、油门控制指令,作为辅助飞行决策方案,提高了结果的可解释性、移植性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例提供的基于强化学习的飞行机动决策的辅助方法的流程示意图;
图2为根据本申请一个实施例提供的控制器纵向控制中的保持升降舵指令的结构示意图;
图3为根据本申请一个实施例提供的状态机完成英麦曼半筋斗飞行动作的流程示意图;
图4为根据本申请一个实施例提供的智能体自动完成半筋斗飞行动的流程图;
图5为根据本申请一个实施例提供的基于强化学习的飞行机动决策的辅助装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本公开提供的基于强化学习的飞行机动决策控制系统辅助方法、装置及存储介质中,获取六自由度飞机空气动力学模型,然后设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数,建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数,利用飞行参数对强化学习的初始模型进行训练,并得到最终模型,再利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。由此可知,本公开提出的方法中,可以通过利用状态机获取到的飞行参数训练强化学习的模型,从而优化飞机根据状态机实现机动的航迹,以使得训练完成的模型可以更贴近实际有人机的真实行为,同时为操作人员提供可参考的舵面、油门控制指令,作为辅助飞行决策方案,提高了结果的可解释性、移植性。
下面参考附图描述本申请实施例的基于强化学习的飞行机动决策的辅助方法及装置。
实施例一
图一为根据本申请一个实施例提供的基于强化学习的飞行机动决策的辅助方法的流程示意图,如图1所示,可以包括:
步骤101、获取六自由度飞机空气动力学模型。
需要说明的是,本公开的实施例中,六自由度飞机空气动力学模型是基于JSBSim平台,并使用模拟真实数据(例如,NASA公布的F-16风洞试验数据)得到的。以及,本公开的实施例中,六自由度飞机空气动力学模型的气动系数是根据风洞试验和飞行测试得到的。
具体的,在本公开的实施例中,六自由度飞机空气动力学模型中飞机的姿态可以由发动机推力、升降舵、副翼、方向舵等变量控制。以及,在本公开的实施例中,当发动机推力和各操纵面变化时,模型选择对应的气动系数,从而改变飞机所受的合力和合力矩,以改变飞机飞行姿态、速度、位置,从而完成对应的飞行动作。
其中,本公开的实施例中,六自由度飞机空气动力学模型中飞机受到的外力F可以包括重力矢量W,气动力矢量R,以及发动机推力矢量E。
具体的,重力矢量W可以表示为:
其中,θ是在机体坐标系中定义的飞机滚转角、俯仰角,在地面坐标系中利用转移矩阵即可实现飞机姿态的描述。
气动力矢量R可以表示为:
其中,为动压,S为机翼面积,CX,CY,CZ为气动系数,气动力矢量会受到攻角α、侧滑角β、操纵面偏转δ等因素影响。
以及,本公开的实施例中,假设推力FT只沿机体方向,即E=[FT,0,0]T
进一步地,本公开的实施例中,在不同的坐标系下,飞机受到的合力和合力矩的表示也不相同。
具体的,在本公开的一个实施例中,在地面坐标系下,飞机所受的合力和合力矩可以表示为:
其中,m为质量,V为相对地面参考系的合速度矢量,H为角动量矢量。
以及,在本公开的另一个实施例中,在机体坐标系下,飞机所受的合力和合力矩可以表示为:
其中,ω为相对地面参考系的角速度矢量。
其中,I为飞机转动惯量,一般假设飞机为轴对称模型,即I为对称阵。以及,本公开的实施例中,影响力矩的外部因素有空气动力矩和发动机角动量,因此M可以表示为:
其中,b为翼展,为平均气动弦长,Cl,Cm,Cn为气动系数,Heng为发动机角动量。
步骤102、设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数。
需要说明的是,本公开的实施例中,可以参考人类专家操作流程设计状态机。
其中,本公开的实施例中,利用设计的状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数的方法可以包括:利用设计的状态机设置串级PID(Proportion Integration Differentiation,比例-积分-微分)控制器的输入参数,通过PID控制器反馈机制实现对六自由度飞机空气动力学模型姿态的调节,并获取飞机空气动力学模型的飞行参数。
具体的,本公开的实施例中,利用设计的状态机设置串级PID控制器的输入参数,通过PID控制器反馈机制实现对六自由度飞机空气动力学模型姿态的调节的方法可以包括以下步骤:
步骤a、状态机设置飞行动作的变量初始值(例如,高度、空速、姿态角等);
步骤b、状态机根据历史数据(例如,飞行动作经典航迹),设置飞行动作状态转移关键节点;
步骤c、状态机在各节点设置PID控制器的控制指令;
步骤d、状态机判断当前状态是否满足节点要求;
步骤e、若当前状态满足节点要求,则进入下一步指令,直至飞行动作结束。
其中,本公开的实施例中,状态机可以根据不同机动中飞机目标姿态的变化规律,将状态机分为数个连续的转移过程。以及,本公开的实施例中,状态机可以改变PID控制器的输入控制变量(例如,俯仰角、滚转角),PID控制器根据负反馈调节机制输出飞机控制变量(例如,舵面偏转角、油门开度等),从而影响飞机的合力和合力矩,实现对飞机角速度、姿态和速度等的调节,以完成对应的飞行动作。
示例的,本公开的实施例中,图2为控制器纵向控制中的保持升降舵指令的结构示意图。
参考图2,内环控制器控制俯仰角速度Q,外环控制器控制俯仰角,PID控制器可以根据纵向控制中的俯仰角保持升降舵指令得出六自由度飞机空气动力学模型的升降舵偏转角,以使得PID控制器以该升降舵偏转角控制六自由度飞机空气动力学模型。
进一步地,本公开的实施例中,俯仰角保持升降舵指令为:
其中,δe表示升降舵偏转角,θ表示当前仰角,θc为目标仰角,Q表示当前俯仰角速度,K表示各比例、积分系数。
进一步地,本公开的实施例中,利用串级PID控制器和状态机控制六自由度飞机空气动力学模型可以完成不同的飞行动作(例如,英麦曼半筋斗、筋斗、高Yoyo、低Yoyo、滚桶)。
示例的,本公开的实施例中,利用串级PID控制器和状态机控制六自由度飞机空气动力学模型完成英麦曼半筋斗,状态机将英麦曼半筋斗控制流程机动分为5个子状态,分别为:
状态0:控制飞机快速拉到指定空域内;
状态1:控制飞行高度、速度及姿态,满足机动初始条件;
状态2:控制系统及人工指令同时纵向控制拉杆,完成倒扣;
状态3:控制系统及人工指令同时横向控制拉杆,完成滚转;
状态4:恢复平飞。
示例的,本公开的实施例中,图3为状态机完成英麦曼半筋斗飞行动作的流程示意图。
参考图3,以状态0为例,当状态机在状态0时,通过PID控制器判断指令是否为0;若为0则继续通过PID控制器判断目标高度差的绝对值是否大于或等于200m;若满足,则控制PID控制器对油门及俯仰角进行控制;通过PID控制器控制横向滚转角、偏航角,状态0结束。以及,本公开的实施例中,其余状态1-4可以参考状态0的描述。
其中,本公开的实施例中,通过PID控制器控制横向滚转角、偏航角可以为发动机加力,纵向升降舵由PID控制器控制拉杆,爬升至机头倒转180°松杆,松杆后PID控制器纵向控制俯仰角,拉杆过程中横向控制0°滚转角。待飞机倒扣后飞机纵向近似水平时,横向控制滚转角使飞机绕纵向x轴旋转180°。
步骤103、建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数。
其中,本公开的实施例中,建立强化学习的初始模型可以包括以下步骤:
步骤一、利用OpenAI gym开源平台,搭建基于JSBSim的六自由度飞机空气动力学模型的强化学习仿真环境,定义状态空间和动作空间等接口信息;
步骤二、将自定义环境注册到ray框架下RLlib模块;
步骤三、继承或修改接口函数;
步骤四、构建强化学习算法框架及其初始参数;
步骤五、利用ray框架,建立并行多线程仿真环境。
以及,本公开的实施例中,上述步骤三中继承或修改接口函数可以包括设置step()函数、定义奖励函数等,其中,step(action)函数表示智能体根据动作action执行并反馈当前状态及奖励。
进一步地,本公开的实施例中,奖励函数可以包括时间惩罚、动作完成奖励、动作失败惩罚,在状态机各关键节点奖励。
具体的,本公开的实施例中,时间惩罚可以表示为物理时间间隔,回报值贡献与动作执行时间呈反比。示例的,本公开实施例中,假设数据刷新频率60Hz,即单步时间回报-0.0167。
以及,本公开的实施例中,动作完成奖励是当状态机完成一次状态遍历时,表示动作完成,可以得到一次反馈较大正奖励值。示例的,本公开的实施例中,可以设置为200。
进一步地,本公开的实施例中,动作失败惩罚是动作未完成,可以包括超过最高高度限制或低于最低高度限制、超过最高速度限制或低于最低速度限制等,得到一次反馈较大负惩罚值。示例的,本公开实施例中可以设置为-50。
进一步地,本公开的实施例中,关键节点奖励是飞行状态到达某节点,一次反馈较大正奖励值,但小于动作完成奖励。示例的,本公开的实施例中,在图3指令置位命令处,反馈10到100的奖励值。
此外,需要说明的是,上述步骤四中构建强化学习算法框架及其初始参数可以包括以下步骤:
步骤1、使用强化学习PPO算法,并根据环境定义Actor和Critic网络输入及输出维度(例如,状态空间可以包括位置、姿态、速度等20维,动作空间可以包括纵向、横向控制器参数、舵面指令等8维);
步骤2、设置PPO算法超参数;
步骤3、设置多智能体仿真环境,利用RLlib的PBT算法自动优化网络超参数;
步骤4、智能体多线程并行仿真,提高仿真效率。
步骤104、利用飞行参数对强化学习的初始模型进行训练,并得到最终模型。
步骤105、利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。
其中,本公开的实施例中,输出的下一飞行状态的PID控制器参数可以包括PID控制器的比例、积分系数控制变量,控制变量可以包括舵面偏转、油门控制,以使得操作人员可以参考输出的PID控制器参数及控制变量,完成对应的飞行动作。
以及,本公开的实施例中,在无人干预模式下,智能体能够根据控制器参数自动完成飞行动作。
示例的,图4为智能体自动完成半筋斗飞行动的流程图。
参考图4所示,首先飞机进入状态机状态0,根据指令0到达飞行高度,指令置1;进入状态1,设置目标俯仰角180度并保持横向姿态,飞机向上拉升,当俯仰角到达170度,完成倒扣过程,指令置2;进入状态2,设置目标俯仰角0度,目标滚转角0度,飞机横滚,当误差小于10度,完成横滚,指令置3;进入状态3,飞机恢复原飞行高度。
本公开提供的基于强化学习的飞行机动决策控制系统辅助方法中,获取六自由度飞机空气动力学模型,然后设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数,建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数,利用飞行参数对强化学习的初始模型进行训练,并得到最终模型,再利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。由此可知,本公开提出的方法中,可以通过利用状态机获取到的飞行参数训练强化学习的模型,从而优化飞机根据状态机实现机动的航迹,以使得训练完成的模型可以更贴近实际有人机的真实行为,同时为操作人员提供可参考的舵面、油门控制指令,作为辅助飞行决策方案,提高了结果的可解释性、移植性。
实施例二
图五为根据本申请一个实施例提供的基于强化学习的飞行机动决策的辅助装置的结构示意图,如图5所示,可以包括:
获取模块501,用于获取六自由度飞机空气动力学模型;
控制模块502,用于设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数;
建立模块503,用于建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数;
处理模块504,用于利用飞行参数对所述强化学习的初始模型进行训练,并得到最终模型;
输出模块505,用于利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。
其中,本公开的实施例中,控制模块用于利用设计的状态机设置串级PID控制器输入参数,通过PID控制器反馈机制实现对六自由度飞机空气动力学模型姿态的调节,并获取飞机空气动力学模型的飞行参数。
以及,本公开的实施例中,控制模块用于设置飞行动作的变量初始值,并根据历史数据,设置飞行动作状态转移关键节点,在各节点设置控制指令,判断当前状态满足节点要求进入下一步指令,直至飞行动作结束。
进一步地,本公开的实施例中,奖励函数包括时间惩罚、动作完成奖励、动作失败惩罚,在状态机各关键节点奖励。
本公开提供的基于强化学习的飞行机动决策控制系统辅助方法、装置及存储介质中,获取六自由度飞机空气动力学模型,然后设计状态机并利用状态机控制六自由度飞机空气动力学模型完成机动,并获取飞机空气动力学模型的飞行参数,建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数,利用飞行参数对强化学习的初始模型进行训练,并得到最终模型,再利用最终模型,根据飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。由此可知,本公开提出的方法中,可以通过利用状态机获取到的飞行参数训练强化学习的模型,从而优化飞机根据状态机实现机动的航迹,以使得训练完成的模型可以更贴近实际有人机的真实行为,同时为操作人员提供可参考的舵面、油门控制指令,作为辅助飞行决策方案,提高了结果的可解释性、移植性。
为了实现上述实施例,本公开还提出一种计算机存储介质。
本公开实施例提供的计算机存储介质,存储有可执行程序;所述可执行程序被处理器执行后,能够实现如图1所示的方法。
为了实现上述实施例,本公开还提出一种计算机设备。
本公开实施例提供的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述处理器执行所述程序时,能够实现如图1所示的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于强化学习的飞行机动决策的辅助方法,其特征在于,所述方法包括:
获取六自由度飞机空气动力学模型;
设计状态机并利用所述状态机控制所述六自由度飞机空气动力学模型完成机动,并获取所述飞机空气动力学模型的飞行参数;
建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数;
利用所述飞行参数对所述强化学习的初始模型进行训练,并得到最终模型;
利用所述最终模型,根据所述飞机空气动力学模型当前的飞行参数输出下一飞行状态的比例-积分-微分PID控制器参数及控制变量。
2.根据权利要求1所述的辅助方法,其特征在于,所述设计状态机并利用所述状态机控制所述六自由度飞机空气动力学模型,并获取所述飞机空气动力学模型的飞行参数包括利用所述设计的状态机设置串级PID控制器输入参数,通过PID控制器反馈机制实现对所述六自由度飞机空气动力学模型姿态的调节,并获取飞机空气动力学模型的飞行参数。
3.根据权利要求2所述的辅助方法,其特征在于,所述利用所述设计的状态机设置串级PID控制器输入参数,通过PID控制器反馈机制实现对所述六自由度飞机空气动力学模型姿态的调节,包括:
所述状态机设置飞行动作的变量初始值;
所述状态机根据历史数据,设置飞行动作状态转移关键节点;
所述状态机在各节点设置所述PID控制器的控制指令;
状态机判断当前状态是否满足节点要求;
若当前状态满足节点要求,则进入下一步指令,直至所述飞行动作结束。
4.根据权利要求1所述的辅助方法,其特征在于,所述奖励函数包括时间惩罚、动作完成奖励、动作失败惩罚,在状态机各关键节点奖励。
5.一种基于强化学习的飞行机动决策的辅助装置,其特征在于,所述装置包括:
获取模块,用于获取六自由度飞机空气动力学模型;
控制模块,用于设计状态机并利用所述状态机控制所述六自由度飞机空气动力学模型完成机动,并获取所述飞机空气动力学模型的飞行参数;
建立模块,用于建立强化学习的初始模型,并设置对应的强化学习算法和奖励函数;
处理模块,用于利用所述飞行参数对所述强化学习的初始模型进行训练,并得到最终模型;
输出模块,用于利用所述最终模型,根据所述飞机空气动力学模型当前的飞行参数输出下一飞行状态的PID控制器参数及控制变量。
6.根据权利要求5所述的辅助装置,其特征在于,所述控制模块用于利用所述设计的状态机设置串级PID控制器输入参数,通过PID控制器反馈机制实现对所述六自由度飞机空气动力学模型姿态的调节,并获取飞机空气动力学模型的飞行参数。
7.根据权利要求6所述的辅助装置,其特征在于,所述控制模块还用于设置飞行动作的变量初始值,并根据历史数据,设置飞行动作状态转移关键节点,在各节点设置PID控制器的控制指令,若判断当前状态满足节点要求,则进入下一步指令,直至所述飞行动作结束。
8.根据权利要求6所述的辅助装置,其特征在于,所述奖励函数包括时间惩罚、动作完成奖励、动作失败惩罚,在状态机各关键节点奖励。
9.一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现权利要求1-4所述的方法。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-4中任一所述的方法。
CN202111288794.2A 2021-11-02 2021-11-02 基于强化学习的飞行机动决策的辅助方法 Active CN114237267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288794.2A CN114237267B (zh) 2021-11-02 2021-11-02 基于强化学习的飞行机动决策的辅助方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288794.2A CN114237267B (zh) 2021-11-02 2021-11-02 基于强化学习的飞行机动决策的辅助方法

Publications (2)

Publication Number Publication Date
CN114237267A CN114237267A (zh) 2022-03-25
CN114237267B true CN114237267B (zh) 2023-11-24

Family

ID=80743568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288794.2A Active CN114237267B (zh) 2021-11-02 2021-11-02 基于强化学习的飞行机动决策的辅助方法

Country Status (1)

Country Link
CN (1) CN114237267B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415737A (zh) * 2022-04-01 2022-04-29 天津七一二通信广播股份有限公司 一种无人机强化学习训练系统的实现方法
CN116679742B (zh) * 2023-04-11 2024-04-02 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082079B1 (en) * 2012-10-22 2015-07-14 Brain Corporation Proportional-integral-derivative controller effecting expansion kernels comprising a plurality of spiking neurons associated with a plurality of receptive fields
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN107943022A (zh) * 2017-10-23 2018-04-20 清华大学 一种基于强化学习的pid机车自动驾驶优化控制方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915073B2 (en) * 2017-12-15 2021-02-09 Exxonmobil Research And Engineering Company Adaptive PID controller tuning via deep reinforcement learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082079B1 (en) * 2012-10-22 2015-07-14 Brain Corporation Proportional-integral-derivative controller effecting expansion kernels comprising a plurality of spiking neurons associated with a plurality of receptive fields
CN107943022A (zh) * 2017-10-23 2018-04-20 清华大学 一种基于强化学习的pid机车自动驾驶优化控制方法
CN107885086A (zh) * 2017-11-17 2018-04-06 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improve PID controller through reinforcement learning;Yunxiao Qin等;《2018 IEEE CSAA Guidance, Navigation and Control Conference》;全文 *
基于Q-学习和行为树的CGF空战行为决策;方君等;《计算机与现代化》;全文 *
基于强化学习方法的飞行姿态模拟器控制系统设计;邓凯;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;全文 *
基于深度强化学习的智能PID控制方法研究;甄岩等;《战术导弹技术》(第05期);全文 *

Also Published As

Publication number Publication date
CN114237267A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
Wang et al. Deterministic policy gradient with integral compensator for robust quadrotor control
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN109062237B (zh) 一种无人倾转旋翼机自抗扰姿态控制方法
CN114237267B (zh) 基于强化学习的飞行机动决策的辅助方法
CN112162564B (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
Nicol et al. Robust adaptive control of a quadrotor helicopter
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
Zhen et al. Deep reinforcement learning attitude control of fixed-wing UAVs
Chen Research on AI application in the field of quadcopter UAVs
Deshpande et al. Developmental reinforcement learning of control policy of a quadcopter UAV with thrust vectoring rotors
Zhang et al. Reinforcement learning control for 6 DOF flight of fixed-wing aircraft
Wu et al. Improved reinforcement learning using stability augmentation with application to quadrotor attitude control
Lee et al. Low-level pose control of tilting multirotor for wall perching tasks using reinforcement learning
Elbatal et al. Intelligent autopilot design based on adaptive neuro-fuzzy technique and genetic algorithm
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
Hu et al. Fixed-wing stalled maneuver control technology based on deep reinforcement learning
Abouheaf et al. An online reinforcement learning wing-tracking mechanism for flexible wing aircraft
Hovell et al. Acceleration-based quadrotor guidance under time delays using deep reinforcement learning
Ure et al. Design of higher order sliding mode control laws for a multi modal agile maneuvering UCAV
Housny et al. Robust sliding mode control for quadrotor UAV
CN114545771A (zh) 一种复合翼无人飞行器多模态自适应切换控制方法及系统
Rashdi et al. Controller design for the rotational dynamics of a quadcopter
Xian et al. An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm
Li et al. Autopilot Controller of Fixed-Wing Planes Based on Curriculum Reinforcement Learning Scheduled by Adaptive Learning Curve

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant