CN112198890B - 基于强化学习的飞行器姿态控制方法、系统、装置 - Google Patents
基于强化学习的飞行器姿态控制方法、系统、装置 Download PDFInfo
- Publication number
- CN112198890B CN112198890B CN202011396912.7A CN202011396912A CN112198890B CN 112198890 B CN112198890 B CN 112198890B CN 202011396912 A CN202011396912 A CN 202011396912A CN 112198890 B CN112198890 B CN 112198890B
- Authority
- CN
- China
- Prior art keywords
- network
- aircraft
- angle
- reinforcement learning
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
Description
技术领域
本发明属于飞行器控制领域,具体涉及一种基于强化学习的飞行器姿态控制方法、系统、装置。
背景技术
近年飞行器得到广泛推广和应用,民用领域比如农业植保、电力巡检、城市安防、森林防火、环境监测、低空航拍和空中搜救等工作,军事领域比如战场环境侦察、运输保障、巡逻监视等。飞行器具有机动速度快,覆盖面广,能够以“上帝视角”观察地面情况,且对指令快速响应等优势,未来会更加普及并具有更丰富的应用场景。
姿态控制是飞行器飞行控制的核心,其优劣直接影响整个飞行控制的效果。常规姿态控制采用串级PID控制结构,通过对飞行器角度环和角速度环误差控制,输出控制律给舵机。然而,飞行过程中存在未建模动态和不确定性项造成的干扰,比如阵风、参数摄动等持续性、时变的扰动等,传统方法难以抵抗干扰的影响,适应性不强,且控制参数的调试比较复杂,需要不断进行试凑,导致飞行器控制存在稳定裕度降低,甚至是失控风险。
强化学习通过端到端试错的训练方式,基于建立的奖惩机制,引导被控对象选择最优动作应用于环境,使得累计奖励值最大,找到最优策略。训练过程中,引入不确定干扰和噪声等因素,基于训练数据的经验知识,通过探索和利用的策略学习机制,对于复杂扰动环境具有较强的适应性和自主学习能力。
发明内容
为了解决现有技术中的上述问题,即为了解决低精度模型下实现无超调控制的问题,本发明的第一方面,提出了一种基于强化学习的飞行器姿态控制方法,包括以下步骤:
基于所述最优控制动作进行所述飞行器姿态调整。
在一些优选的实施方式中,所述DDPG深度强化学习网络包括策略网络、价值网络;
在一些优选的实施方式中,所述DDPG深度强化学习网络,其训练方法为:
其中,为的回报函数,,分别为俯仰角、偏航
角、滚转角和空速;表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变
化值;为的期望值;表示的最大回报值,表示对飞行器动作设定的最大回报值;为变量的归一化因子,为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的
累计变化值的归一化因子;为时刻t时执行器j的控制指令输出,分别为副翼、升降舵和油门,为计算中所设定的时间步数
量,为截取函数。
本发明的第二方面,提出了一种基于强化学习的飞行器姿态控制系统,包括第一模块、第二模块、第三模块和第四模块;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整。
本发明的第三方面,一种处理装置,包括处理器和存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
本发明的有益效果:
本发明充分利用强化学习端到端的训练方式,基于建立的奖惩机制,通过探索和利用的策略学习机制,引导被控对象选择最优动作应用于环境,可降低对模型精度的要求,对未建模动态或参数不确定项造成的干扰进行补偿,实现无超调控制,调节时间短,稳态误差小,能够极大增强飞行器对于复杂扰动环境的适应性和自主学习能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于强化学习的飞行器姿态控制方法流程示意图;
图2是本发明一种实施例的基于强化学习的飞行器姿态控制网络结构示意图;
图3本发明一种实施例中基于强化学习的飞行器姿态控制网络训练流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于强化学习的飞行器姿态控制方法,包括以下步骤:
基于所述最优控制动作进行所述飞行器姿态调整。
为了更清晰地对本发明进行说明,下面结合附图对本方发明一种实施例进行展开详述。
一种实施例的基于强化学习的飞行器姿态控制方法,如图1所示,包括以下步骤:
获取飞行器传感器数据,进行数据解算和融合,得到飞行器状态数据。飞行器状态
数据包括姿态角、姿态角速度、空速、位置=[、线
速度等,其中分别表示俯仰角、偏航角、滚转角,为世界
坐标系的三轴线,分别是绕轴的角速度,分别为轴
的线速度分量。所述数据解算和融合方法包括基于IMU和GPS等传感器,利用方向余弦矩阵
算法解算飞行器姿态角,采用卡尔曼滤波进行多传感器数据融合,构建飞行器状态空间。
其中,分别为期望滚转角的比例、积分
和微分系数;分别为期望俯仰角的比例、积分和微
分系数;分别为x轴、z轴的速度、期望速度,(为期望的飞行器位置,
由飞行任务指定,表示重力加速度,表示飞行器的合速度。
如图2所示,本实施例中,DDPG深度强化学习网络包括策略网络、价值网络。
策略网络,配置为基于所述第时刻网络输入状态、所述期望姿态角,输出飞行器
最优控制动作。本实施例中,策略网络的输入层分为第一状态特征提取模块31和目标误差
特征提取模块32,然后同时输入由LSTM网络和全连接网络组成的第一全连接层模块33,最
后输出飞行器最优动作。其中,其中输入层状态包括飞行器的姿态角、姿态角速度、空
速、姿态角跟踪误差、飞行器网络输入状态、滑动平均值等等,第一状态特征提取模
块31分为3层,神经元个数均为64个,目标误差特征提取模块32也分3层,神经元个数分别为
250、200、200,激活函数都是ReLu;输出层分为LSTM网络和全连接层网络,最后一层的激活
函数是Softmax,输出动作空间中累计回报值最大的动作到飞行器,使得飞行器根据选择的
动作飞行。
价值网络,配置为基于所述第时刻网络输入状态、所述期望姿态角、所述策略网
络输出的飞行器最优控制动作,输出飞行器最优控制动作的评价值。本实施例中,价值网络
由第二特征提取模块34、第二全连接层模块35等组成,将所述飞行器网络输入状态、姿态
角跟踪误差、策略网络输出的飞行器动作的总回报值等作为输入,第二特征提取模块
34由两层卷积网络和一层LSTM网络组成,第二全连接层模块35由3层全连接网络组成,神经
元个数分别为400、300和100,输出对所选动作的评价值,最后一层网络激活函数为tanh,其
余层激活函数为ReLu。
其中,表示总的奖惩函数;为的回报函数,,分别为俯仰角、偏航角、滚转角和空速,分别表示俯仰
角、偏航角、滚转角和空速的回报函数;表示设定时间步数内副翼舵偏角、升降舵舵偏角
和油门动作的累计变化值,目的在于使得策略输出的动作值更加平滑;为的期望值,对
应的期望值表示为;表示的最大回报值,表
示对飞行器动作设定的最大回报值,目的在于减少控制器的机械震荡,对控制器设定值的
变化进行约束,本实施例中,,;
为变量的归一化因子,用于减小不同量纲造成的影响,本实施例中可以令;为设定时间步数内副翼舵偏角、
升降舵舵偏角和油门动作的累计变化值的归一化因子,为时刻t时执行器j的控制指令
输出,分别为副翼、升降舵和油门,为计算中所设定的时间
步数量(本实施例中)。上述公式中,为截取函数,其函数
表示将元素控制在一个给定的范围内,所有小于的数值全部等于,所有大于的数值全部等于。
S400,基于所述最优控制动作进行所述飞行器姿态调整。
在飞行器飞行过程中,每个控制周期都是采用步骤S100-S400的方式进行飞行器姿态控制,因而在程序设计是才有用的是循环控制的方式,即在步骤S400之后,进行一下个控制周期,反馈步骤S100进行新一轮的计算和控制,直到姿态控制结束。
本实施例中的DDPG深度强化学习网络的训练采取回合的方式,每个回合有不同的初始状态和设定值,训练开始时,回合的初始状态是接近设定值的,这样的设计比较简单有助于算法的安全性,然后随着算法回合数的增加,训练逐渐增大初始状态与设定值的差距,提高算法的控制难度。
初始化模型参数,包括飞行器初始状态、期望飞行轨迹、主网络和目标网络权重参数设置为随机数、以及最大循环次数=3000000,并为动作的探索过程引入随机噪声等。动作空间物理约束如表1所示。在训练过程中每0.01秒采一次样,每回合采样2000次,共计20秒,在训练过程中没有风或者干扰。为了便于神经网络的收敛,状态输入利用滑动标准化的方法处理成符合标准正态分布的形式。
控制变量 | 最小值 | 最大值 |
升降舵 | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198.jpg | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200.jpg |
副翼 | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198a.jpg | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200a.jpg |
方向舵 | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198aa.jpg | 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200aa.jpg |
油门 | 0 | 1 |
初始化模型参数之后,对DDPG深度强化学习网络进行训练,包括以下步骤:
其中,表示主网络中策略网络权重参数,表示白噪声。白噪声的增加是考虑
实际环境中的环境干扰和不确定性等因素,为了增强网络的泛化性能。为主网络中的
策略网络,负责根据输入状态输出当前动作,用于和环境交互,迭代更新网络权重参数。
其中,、分别表示目标网络中策略网络的和价值网络的权重参数,。为目标网络中的价值网络,负责基于经验池计算目标网络的评价
值,提供给主网络;为目标网络中的策略网络,负责基于经验池中的训练数据计算目
标网络的动作;本实施例中,N=2000。
本发明第二实施例的一种基于强化学习的飞行器姿态控制系统,包括第一模块、第二模块、第三模块、第四模块;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于强化学习的飞行器姿态控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种基于强化学习的飞行器姿态控制方法,其特征在于,包括以下步骤:
基于所述最优控制动作进行所述飞行器姿态调整;
其中,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络包括第一状态特征提取模块、目标误差特征提取模块、第一全连接层模块;所述第一状态特征提取模块、目标误差特征提取模块均基于三层全连接网络构建;所述第一全连接层模块基于一层LSTM网络和三层全连接网络构建;
所述价值网络包括第二特征提取模块、第二全连接层模块;所述第二特征提取模块基于两层卷积网络、一层LSTM网络构建;所述第二全连接层模块基于三层全连接网络构建;
5.根据权利要求4所述的基于强化学习的飞行器姿态控制方法,其特征在于,所述DDPG深度强化学习网络,其训练方法为:
7.一种基于强化学习的飞行器姿态控制系统,其特征在于,包括第一模块、第二模块、第三模块、第四模块;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整;
其中,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络包括第一状态特征提取模块、目标误差特征提取模块、第一全连接层模块;所述第一状态特征提取模块、目标误差特征提取模块均基于三层全连接网络构建;所述第一全连接层模块基于一层LSTM网络和三层全连接网络构建;
所述价值网络包括第二特征提取模块、第二全连接层模块;所述第二特征提取模块基于两层卷积网络、一层LSTM网络构建;所述第二全连接层模块基于三层全连接网络构建;
8.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于强化学习的飞行器姿态控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396912.7A CN112198890B (zh) | 2020-12-03 | 2020-12-03 | 基于强化学习的飞行器姿态控制方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396912.7A CN112198890B (zh) | 2020-12-03 | 2020-12-03 | 基于强化学习的飞行器姿态控制方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112198890A CN112198890A (zh) | 2021-01-08 |
CN112198890B true CN112198890B (zh) | 2021-04-13 |
Family
ID=74033761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011396912.7A Active CN112198890B (zh) | 2020-12-03 | 2020-12-03 | 基于强化学习的飞行器姿态控制方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112198890B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115046433B (zh) * | 2021-03-09 | 2023-04-07 | 北京理工大学 | 基于深度强化学习的飞行器时间协同制导方法 |
CN113093568A (zh) * | 2021-03-31 | 2021-07-09 | 西北工业大学 | 基于长短时记忆网络的飞机自动驾驶操作模拟方法 |
CN114115302B (zh) * | 2021-06-08 | 2022-08-16 | 中国人民解放军国防科技大学 | 基于深度神经网络逼近mpc的航天器姿态控制方法 |
CN113791538B (zh) * | 2021-08-06 | 2023-09-26 | 深圳清华大学研究院 | 一种机房设备的控制方法、控制设备及控制系统 |
CN114660977B (zh) * | 2022-05-24 | 2022-08-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种飞机自动控制系统、方法、电子设备及可读存储介质 |
CN115556098A (zh) * | 2022-09-29 | 2023-01-03 | 国网天津市电力公司建设分公司 | 基于增量式模型的机械臂避障规划方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443B (zh) * | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
CN110502034B (zh) * | 2019-09-04 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
CN110673620B (zh) * | 2019-10-22 | 2020-10-27 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110806759B (zh) * | 2019-11-12 | 2020-09-08 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
-
2020
- 2020-12-03 CN CN202011396912.7A patent/CN112198890B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112198890A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112198890B (zh) | 基于强化学习的飞行器姿态控制方法、系统、装置 | |
Santoso et al. | State-of-the-art intelligent flight control systems in unmanned aerial vehicles | |
Muliadi et al. | Neural network control system of UAV altitude dynamics and its comparison with the PID control system | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN107479368B (zh) | 一种基于人工智能的训练无人机控制模型的方法及系统 | |
Yang et al. | Optimal path following for small fixed-wing UAVs under wind disturbances | |
Sarabakha et al. | Novel Levenberg–Marquardt based learning algorithm for unmanned aerial vehicles | |
Jimenez et al. | Experimental validation of total energy control system for UAVs | |
CN113268074A (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
Farag | Real‐time NMPC path tracker for autonomous vehicles | |
Ansari et al. | Retrospective cost adaptive control of generic transport model under uncertainty and failure | |
Kumar | Real-time performance comparison of vision-based autonomous landing of quadcopter on a ground moving target | |
CN109375642B (zh) | 一种无人机节能控制方法 | |
Kim et al. | Robust path following control via command-filtered backstepping scheme | |
Luo et al. | In-flight wind identification and soft landing control for autonomous unmanned powered parafoils | |
Aschauer et al. | Co-simulation of matlab and flightgear for identification and control of aircraft | |
Lungu et al. | Backstepping-and sliding mode-based automatic carrier landing system with deck motion estimation and compensation | |
Salinas et al. | Kinematic Nonlinear Controller for a Miniature Helicopter via L yapunov Techniques | |
Kang et al. | Autonomous waypoint guidance for tilt-rotor unmanned aerial vehicle that has nacelle-fixed auxiliary wings | |
Orsag et al. | State estimation, robust control and obstacle avoidance for multicopter in cluttered environments: Euroc experience and results | |
Megyesi et al. | Adaptive control and estimation of the condition of a small unmanned aircraft using a Kalman filter | |
de Oliveira et al. | Genetic neuro-fuzzy approach for unmanned fixed wing attitude control | |
Vural et al. | A comparison of longitudinal controllers for autonomous UAV | |
Lee et al. | Autopilot design for unmanned combat aerial vehicles (UCAVs) via learning-based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |