CN112198890B - 基于强化学习的飞行器姿态控制方法、系统、装置 - Google Patents

基于强化学习的飞行器姿态控制方法、系统、装置 Download PDF

Info

Publication number
CN112198890B
CN112198890B CN202011396912.7A CN202011396912A CN112198890B CN 112198890 B CN112198890 B CN 112198890B CN 202011396912 A CN202011396912 A CN 202011396912A CN 112198890 B CN112198890 B CN 112198890B
Authority
CN
China
Prior art keywords
network
aircraft
angle
reinforcement learning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011396912.7A
Other languages
English (en)
Other versions
CN112198890A (zh
Inventor
丘腾海
蒲志强
刘振
易建强
常红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011396912.7A priority Critical patent/CN112198890B/zh
Publication of CN112198890A publication Critical patent/CN112198890A/zh
Application granted granted Critical
Publication of CN112198890B publication Critical patent/CN112198890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于飞行器控制领域,具体涉及一种基于强化学习的飞行器姿态控制方法、系统、装置,旨在为了解决低精度模型下实现无超调控制的问题。本发明基于强化学习的飞行器姿态控制方法,包括:获取第
Figure 100004_DEST_PATH_IMAGE001
时刻的飞行器状态数据;基于飞行器的期望飞行轨迹,计算期望姿态角、姿态角跟踪误差,构建第
Figure 713575DEST_PATH_IMAGE001
时刻网络输入状态;基于所述第
Figure 531359DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,通过DDPG深度强化学习网络获取最优控制动作;基于所述最优控制动作进行所述飞行器姿态调整。本发明可以在低精度模型下实现无超调控制,调节时间短,稳态误差小。

Description

基于强化学习的飞行器姿态控制方法、系统、装置
技术领域
本发明属于飞行器控制领域,具体涉及一种基于强化学习的飞行器姿态控制方法、系统、装置。
背景技术
近年飞行器得到广泛推广和应用,民用领域比如农业植保、电力巡检、城市安防、森林防火、环境监测、低空航拍和空中搜救等工作,军事领域比如战场环境侦察、运输保障、巡逻监视等。飞行器具有机动速度快,覆盖面广,能够以“上帝视角”观察地面情况,且对指令快速响应等优势,未来会更加普及并具有更丰富的应用场景。
姿态控制是飞行器飞行控制的核心,其优劣直接影响整个飞行控制的效果。常规姿态控制采用串级PID控制结构,通过对飞行器角度环和角速度环误差控制,输出控制律给舵机。然而,飞行过程中存在未建模动态和不确定性项造成的干扰,比如阵风、参数摄动等持续性、时变的扰动等,传统方法难以抵抗干扰的影响,适应性不强,且控制参数的调试比较复杂,需要不断进行试凑,导致飞行器控制存在稳定裕度降低,甚至是失控风险。
强化学习通过端到端试错的训练方式,基于建立的奖惩机制,引导被控对象选择最优动作应用于环境,使得累计奖励值最大,找到最优策略。训练过程中,引入不确定干扰和噪声等因素,基于训练数据的经验知识,通过探索和利用的策略学习机制,对于复杂扰动环境具有较强的适应性和自主学习能力。
发明内容
为了解决现有技术中的上述问题,即为了解决低精度模型下实现无超调控制的问题,本发明的第一方面,提出了一种基于强化学习的飞行器姿态控制方法,包括以下步骤:
获取第
Figure 535154DEST_PATH_IMAGE001
时刻的飞行器状态数据;
基于飞行器的期望飞行轨迹,计算期望姿态角和姿态角跟踪误差,构建第
Figure 603473DEST_PATH_IMAGE001
时刻网 络输入状态;
基于所述第
Figure 897051DEST_PATH_IMAGE001
时刻网络输入状态和所述期望姿态角,通过DDPG深度强化学习网络 获取最优控制动作;
基于所述最优控制动作进行所述飞行器姿态调整。
在一些优选的实施方式中,所述飞行器状态数据包括姿态角
Figure 485158DEST_PATH_IMAGE002
、姿态角速度
Figure 205990DEST_PATH_IMAGE003
、空 速
Figure 761605DEST_PATH_IMAGE004
、位置
Figure 858874DEST_PATH_IMAGE005
和线速度
Figure 301488DEST_PATH_IMAGE006
在一些优选的实施方式中,所述第
Figure 458799DEST_PATH_IMAGE001
时刻网络输入状态为
Figure 501711DEST_PATH_IMAGE007
其中,
Figure 137091DEST_PATH_IMAGE008
为姿态角跟踪误差,
Figure 699791DEST_PATH_IMAGE004
为空速。
在一些优选的实施方式中,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络,配置为基于所述第
Figure 28004DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,输出飞 行器最优控制动作;
所述价值网络,配置为基于所述第
Figure 295562DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角、所述策 略网络输出的飞行器最优控制动作,输出飞行器最优控制动作的评价值;
所述DDPG深度强化学习网络中的总回报
Figure 213DEST_PATH_IMAGE009
Figure 276473DEST_PATH_IMAGE010
其中,
Figure 650954DEST_PATH_IMAGE011
依次为俯仰角、偏航角、滚转角和空速的回报函数,
Figure 278244DEST_PATH_IMAGE012
为 设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值。
在一些优选的实施方式中,所述DDPG深度强化学习网络,其训练方法为:
S3001,获取飞行器第
Figure 380061DEST_PATH_IMAGE001
时刻网络输入状态
Figure 41987DEST_PATH_IMAGE013
和期望姿态角;
S3002,基于策略网络,获取飞行器下一时刻动作
Figure 587369DEST_PATH_IMAGE014
Figure 701955DEST_PATH_IMAGE015
其中,
Figure 607463DEST_PATH_IMAGE016
表示主网络中策略网络权重参数,
Figure 123895DEST_PATH_IMAGE017
表示白噪声;
Figure 840179DEST_PATH_IMAGE018
为主网络中的策 略网络;
S3003,将状态转换过程
Figure 442061DEST_PATH_IMAGE019
存储在经验池中;其中,
Figure 151260DEST_PATH_IMAGE009
为飞行器执行 动作
Figure 663144DEST_PATH_IMAGE014
后获得总回报,
Figure 940542DEST_PATH_IMAGE020
为第
Figure 903423DEST_PATH_IMAGE021
时刻网络输入状态;
S3004,经验池中随机选取N个状态转换过程
Figure 291679DEST_PATH_IMAGE022
作为一个训练集,获 取累计回报
Figure 392491DEST_PATH_IMAGE023
Figure 575210DEST_PATH_IMAGE024
其中,
Figure 276319DEST_PATH_IMAGE025
Figure 202687DEST_PATH_IMAGE026
分别表示目标网络中策略网络的和价值网络的权重参数,
Figure 158004DEST_PATH_IMAGE027
为折 扣因子;
Figure 167417DEST_PATH_IMAGE028
为目标网络中的价值网络,
Figure 965609DEST_PATH_IMAGE029
为目标网络中的策略网络;
S3005,基于损失函数
Figure 305455DEST_PATH_IMAGE030
Figure 505492DEST_PATH_IMAGE031
,利用神经网络梯度反向传播,更新主网络中 价值网络和策略网络中的权重参数
Figure 420227DEST_PATH_IMAGE032
Figure 440136DEST_PATH_IMAGE033
;其中,
Figure 849252DEST_PATH_IMAGE030
为价值网络损失函数,
Figure 903795DEST_PATH_IMAGE034
为 策略网络损失函数;
S3006,更新策略网络和价值网络的目标网络权重参数
Figure 333640DEST_PATH_IMAGE025
Figure 233987DEST_PATH_IMAGE026
,如果
Figure 305848DEST_PATH_IMAGE020
为终 止状态,则结束本轮迭代,否则跳转到S3002。
在一些优选的实施方式中,损失函数
Figure 90264DEST_PATH_IMAGE030
Figure 222169DEST_PATH_IMAGE031
分别为
Figure 75724DEST_PATH_IMAGE035
Figure 951276DEST_PATH_IMAGE036
在一些优选的实施方式中,“更新策略网络和价值网络的目标网络权重参数
Figure 855778DEST_PATH_IMAGE025
Figure 893004DEST_PATH_IMAGE026
”,其方法为:
Figure 765014DEST_PATH_IMAGE037
Figure 178678DEST_PATH_IMAGE038
其中,
Figure 796741DEST_PATH_IMAGE039
表示更新系数。
在一些优选的实施方式中,
Figure 880235DEST_PATH_IMAGE040
的计算方法为
Figure 849328DEST_PATH_IMAGE041
Figure 191316DEST_PATH_IMAGE042
其中,
Figure 929465DEST_PATH_IMAGE043
Figure 449439DEST_PATH_IMAGE044
的回报函数,
Figure 640249DEST_PATH_IMAGE045
Figure 523279DEST_PATH_IMAGE046
分别为俯仰角、偏航 角、滚转角和空速;
Figure 381514DEST_PATH_IMAGE012
表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变 化值;
Figure 72389DEST_PATH_IMAGE047
Figure 750495DEST_PATH_IMAGE044
的期望值;
Figure 434286DEST_PATH_IMAGE048
表示
Figure 881448DEST_PATH_IMAGE044
的最大回报值,
Figure 867859DEST_PATH_IMAGE049
表示对飞行器动作设定的最大回报值;
Figure 174206DEST_PATH_IMAGE050
Figure 271475DEST_PATH_IMAGE044
变量的归一化因子,
Figure 963357DEST_PATH_IMAGE051
为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的 累计变化值的归一化因子;
Figure 120669DEST_PATH_IMAGE052
为时刻t时执行器j的控制指令输出,
Figure 383154DEST_PATH_IMAGE053
分别为副翼、升降舵和油门,
Figure 549693DEST_PATH_IMAGE054
Figure 96081DEST_PATH_IMAGE012
计算中所设定的时间步数 量,
Figure 424294DEST_PATH_IMAGE055
为截取函数。
本发明的第二方面,提出了一种基于强化学习的飞行器姿态控制系统,包括第一模块、第二模块、第三模块和第四模块;
所述第一模块,配置为获取第
Figure 705234DEST_PATH_IMAGE001
时刻的飞行器状态数据;
所述第二模块,配置为基于飞行器的期望飞行轨迹,计算期望姿态角和姿态角跟 踪误差,构建第
Figure 144305DEST_PATH_IMAGE001
时刻网络输入状态;
所述第三模块,配置为基于所述第
Figure 813708DEST_PATH_IMAGE001
时刻网络输入状态和所述期望姿态角,通过 DDPG深度强化学习网络获取最优控制动作;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整。
本发明的第三方面,一种处理装置,包括处理器和存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
本发明的有益效果:
本发明充分利用强化学习端到端的训练方式,基于建立的奖惩机制,通过探索和利用的策略学习机制,引导被控对象选择最优动作应用于环境,可降低对模型精度的要求,对未建模动态或参数不确定项造成的干扰进行补偿,实现无超调控制,调节时间短,稳态误差小,能够极大增强飞行器对于复杂扰动环境的适应性和自主学习能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于强化学习的飞行器姿态控制方法流程示意图;
图2是本发明一种实施例的基于强化学习的飞行器姿态控制网络结构示意图;
图3本发明一种实施例中基于强化学习的飞行器姿态控制网络训练流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于强化学习的飞行器姿态控制方法,包括以下步骤:
获取第
Figure 47244DEST_PATH_IMAGE001
时刻的飞行器状态数据;
基于飞行器的期望飞行轨迹,计算期望姿态角和姿态角跟踪误差,构建第
Figure 549900DEST_PATH_IMAGE001
时刻网 络输入状态;
基于所述第
Figure 792663DEST_PATH_IMAGE001
时刻网络输入状态和所述期望姿态角,通过DDPG深度强化学习网络 获取最优控制动作;
基于所述最优控制动作进行所述飞行器姿态调整。
为了更清晰地对本发明进行说明,下面结合附图对本方发明一种实施例进行展开详述。
一种实施例的基于强化学习的飞行器姿态控制方法,如图1所示,包括以下步骤:
S100,获取第
Figure 579222DEST_PATH_IMAGE001
时刻的飞行器状态数据。
获取飞行器传感器数据,进行数据解算和融合,得到飞行器状态数据。飞行器状态 数据包括姿态角
Figure 983659DEST_PATH_IMAGE056
、姿态角速度
Figure 832666DEST_PATH_IMAGE057
、空速
Figure 754486DEST_PATH_IMAGE004
、位置
Figure 270918DEST_PATH_IMAGE005
=[
Figure 236468DEST_PATH_IMAGE058
、线 速度
Figure 307193DEST_PATH_IMAGE059
等,其中
Figure 767124DEST_PATH_IMAGE060
分别表示俯仰角、偏航角、滚转角,
Figure 403642DEST_PATH_IMAGE061
为世界 坐标系的三轴线,
Figure 274515DEST_PATH_IMAGE062
分别是绕
Figure 363693DEST_PATH_IMAGE061
轴的角速度,
Figure 361736DEST_PATH_IMAGE063
分别为
Figure 852760DEST_PATH_IMAGE061
轴 的线速度分量。所述数据解算和融合方法包括基于IMU和GPS等传感器,利用方向余弦矩阵 算法解算飞行器姿态角,采用卡尔曼滤波进行多传感器数据融合,构建飞行器状态空间
Figure 151325DEST_PATH_IMAGE064
S200,基于飞行器的期望飞行轨迹,计算期望姿态角和姿态角跟踪误差,构建第
Figure 462220DEST_PATH_IMAGE001
时刻网络输入状态。
根据飞行器期望的飞行轨迹,通过外环位置控制器,计算得到期望姿态角
Figure 263954DEST_PATH_IMAGE065
,姿态角跟踪误差
Figure 609485DEST_PATH_IMAGE066
,则第
Figure 87740DEST_PATH_IMAGE001
时刻状态
Figure 151511DEST_PATH_IMAGE067
Figure 756936DEST_PATH_IMAGE068
,S表示状态空间。
本实施例中,期望姿态角
Figure 691394DEST_PATH_IMAGE069
,采用PID算法控制器进行外环位置控制计算得出,计 算公式如下所示:
Figure 340550DEST_PATH_IMAGE070
Figure 626037DEST_PATH_IMAGE071
Figure 35153DEST_PATH_IMAGE072
其中,
Figure 89697DEST_PATH_IMAGE073
分别为期望滚转角的比例、积分 和微分系数;
Figure 909754DEST_PATH_IMAGE074
分别为期望俯仰角的比例、积分和微 分系数;
Figure 416959DEST_PATH_IMAGE075
分别为x轴、z轴的速度、期望速度,(
Figure 488820DEST_PATH_IMAGE076
为期望的飞行器位置, 由飞行任务指定,
Figure 273236DEST_PATH_IMAGE077
表示重力加速度,
Figure 405141DEST_PATH_IMAGE078
表示飞行器的合速度。
S300,基于所述第
Figure 527205DEST_PATH_IMAGE001
时刻网络输入状态和所述期望姿态角,通过DDPG深度强化学习 网络,从飞行器动作空间A获取最优控制动作。
将第t时刻状态
Figure 137178DEST_PATH_IMAGE013
和期望姿态角
Figure 776101DEST_PATH_IMAGE069
输入到构建的DDPG深度强化学习网络模型,从 飞行器动作空间
Figure 78906DEST_PATH_IMAGE079
获取最优控制动作
Figure 295124DEST_PATH_IMAGE014
。动作空间A包括升降舵舵面角
Figure 833421DEST_PATH_IMAGE080
、副翼舵面角
Figure 717064DEST_PATH_IMAGE081
、 方向舵舵面角
Figure 66136DEST_PATH_IMAGE082
和油门拉力输出
Figure 35230DEST_PATH_IMAGE083
如图2所示,本实施例中,DDPG深度强化学习网络包括策略网络、价值网络。
策略网络,配置为基于所述第
Figure 111639DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,输出飞行器 最优控制动作。本实施例中,策略网络的输入层分为第一状态特征提取模块31和目标误差 特征提取模块32,然后同时输入由LSTM网络和全连接网络组成的第一全连接层模块33,最 后输出飞行器最优动作。其中,其中输入层状态包括飞行器的姿态角
Figure 256312DEST_PATH_IMAGE002
、姿态角速度
Figure 900920DEST_PATH_IMAGE003
、空 速
Figure 91730DEST_PATH_IMAGE004
、姿态角跟踪误差
Figure 971830DEST_PATH_IMAGE008
、飞行器网络输入状态
Figure 830065DEST_PATH_IMAGE013
、滑动平均值等等,第一状态特征提取模 块31分为3层,神经元个数均为64个,目标误差特征提取模块32也分3层,神经元个数分别为 250、200、200,激活函数都是ReLu;输出层分为LSTM网络和全连接层网络,最后一层的激活 函数是Softmax,输出动作空间中累计回报值最大的动作到飞行器,使得飞行器根据选择的 动作飞行。
价值网络,配置为基于所述第
Figure 255361DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角、所述策略网 络输出的飞行器最优控制动作,输出飞行器最优控制动作的评价值。本实施例中,价值网络 由第二特征提取模块34、第二全连接层模块35等组成,将所述飞行器网络输入状态
Figure 933467DEST_PATH_IMAGE013
、姿态 角跟踪误差
Figure 620188DEST_PATH_IMAGE008
、策略网络输出的飞行器动作的总回报值
Figure 332929DEST_PATH_IMAGE009
等作为输入,第二特征提取模块 34由两层卷积网络和一层LSTM网络组成,第二全连接层模块35由3层全连接网络组成,神经 元个数分别为400、300和100,输出对所选动作的评价值,最后一层网络激活函数为tanh,其 余层激活函数为ReLu。
本实施例中,DDPG深度强化学习网络中的总回报
Figure 194706DEST_PATH_IMAGE009
根据期望姿态角与实际姿态角 的误差值构建,公式如下:
Figure 94529DEST_PATH_IMAGE010
Figure 191798DEST_PATH_IMAGE084
Figure 149258DEST_PATH_IMAGE085
其中,
Figure 40991DEST_PATH_IMAGE009
表示总的奖惩函数;
Figure 569055DEST_PATH_IMAGE043
Figure 470015DEST_PATH_IMAGE044
的回报函数,
Figure 281982DEST_PATH_IMAGE086
Figure 344616DEST_PATH_IMAGE046
分别为俯仰角、偏航角、滚转角和空速,
Figure 484611DEST_PATH_IMAGE087
分别表示俯仰 角、偏航角、滚转角和空速的回报函数;
Figure 799048DEST_PATH_IMAGE012
表示设定时间步数内副翼舵偏角、升降舵舵偏角 和油门动作的累计变化值,目的在于使得策略输出的动作值更加平滑;
Figure 340888DEST_PATH_IMAGE047
Figure 964636DEST_PATH_IMAGE044
的期望值,对 应
Figure 326348DEST_PATH_IMAGE046
的期望值表示为
Figure 444476DEST_PATH_IMAGE088
Figure 840823DEST_PATH_IMAGE048
表示
Figure 638402DEST_PATH_IMAGE044
的最大回报值,
Figure 752988DEST_PATH_IMAGE049
表 示对飞行器动作设定的最大回报值,目的在于减少控制器的机械震荡,对控制器设定值的 变化进行约束,本实施例中,
Figure 674808DEST_PATH_IMAGE089
Figure 660082DEST_PATH_IMAGE090
Figure 500999DEST_PATH_IMAGE050
Figure 227515DEST_PATH_IMAGE044
变量的归一化因子,用于减小不同量纲造成的影响,本实施例中可以令
Figure 812080DEST_PATH_IMAGE091
Figure 58385DEST_PATH_IMAGE051
为设定时间步数内副翼舵偏角、 升降舵舵偏角和油门动作的累计变化值的归一化因子,
Figure 804624DEST_PATH_IMAGE092
为时刻t时执行器j的控制指令 输出,
Figure 18436DEST_PATH_IMAGE053
分别为副翼、升降舵和油门,
Figure 141113DEST_PATH_IMAGE054
Figure 241924DEST_PATH_IMAGE012
计算中所设定的时间 步数量(本实施例中
Figure 690223DEST_PATH_IMAGE093
)。上述公式中,
Figure 125753DEST_PATH_IMAGE094
为截取函数,其函数
Figure 52120DEST_PATH_IMAGE095
表示将元素
Figure 273017DEST_PATH_IMAGE096
控制在一个给定的范围内,所有小于
Figure 626638DEST_PATH_IMAGE097
的数值全部等于
Figure 564112DEST_PATH_IMAGE097
,所有大于
Figure 294171DEST_PATH_IMAGE098
的数值全部等于
Figure 228629DEST_PATH_IMAGE098
S400,基于所述最优控制动作进行所述飞行器姿态调整。
在飞行器飞行过程中,每个控制周期都是采用步骤S100-S400的方式进行飞行器姿态控制,因而在程序设计是才有用的是循环控制的方式,即在步骤S400之后,进行一下个控制周期,反馈步骤S100进行新一轮的计算和控制,直到姿态控制结束。
本实施例中的DDPG深度强化学习网络的训练采取回合的方式,每个回合有不同的初始状态和设定值,训练开始时,回合的初始状态是接近设定值的,这样的设计比较简单有助于算法的安全性,然后随着算法回合数的增加,训练逐渐增大初始状态与设定值的差距,提高算法的控制难度。
初始化模型参数,包括飞行器初始状态、期望飞行轨迹、主网络和目标网络权重参数设置为随机数、以及最大循环次数=3000000,并为动作的探索过程引入随机噪声等。动作空间物理约束如表1所示。在训练过程中每0.01秒采一次样,每回合采样2000次,共计20秒,在训练过程中没有风或者干扰。为了便于神经网络的收敛,状态输入利用滑动标准化的方法处理成符合标准正态分布的形式。
Figure 628517DEST_PATH_IMAGE099
控制变量 最小值 最大值
升降舵 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198.jpg
Figure 914005DEST_PATH_IMAGE100
说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200.jpg
Figure 306809DEST_PATH_IMAGE101
副翼 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198a.jpg
Figure 361353DEST_PATH_IMAGE100
说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200a.jpg
Figure 197722DEST_PATH_IMAGE101
方向舵 说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198aa.jpg
Figure 970506DEST_PATH_IMAGE100
说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200aa.jpg
Figure 901422DEST_PATH_IMAGE101
油门 0 1
初始化模型参数之后,对DDPG深度强化学习网络进行训练,包括以下步骤:
S3001,获取飞行器第
Figure 76051DEST_PATH_IMAGE001
时刻网络输入状态
Figure 817742DEST_PATH_IMAGE013
、期望姿态角。
Figure 77822DEST_PATH_IMAGE001
时刻网络输入状态
Figure 812429DEST_PATH_IMAGE067
,期望姿态角表示为
Figure 841565DEST_PATH_IMAGE069
,姿态角表示为
Figure 19736DEST_PATH_IMAGE056
、角速度表示为
Figure 501533DEST_PATH_IMAGE057
、空速表示为
Figure 42760DEST_PATH_IMAGE004
,姿态角跟踪误差表示为
Figure 926403DEST_PATH_IMAGE066
S3002,基于策略网络,获取飞行器下一时刻动作
Figure 275476DEST_PATH_IMAGE014
Figure 244569DEST_PATH_IMAGE015
其中,
Figure 320978DEST_PATH_IMAGE016
表示主网络中策略网络权重参数,
Figure 324706DEST_PATH_IMAGE017
表示白噪声。白噪声的增加是考虑 实际环境中的环境干扰和不确定性等因素,为了增强网络的泛化性能。
Figure 110259DEST_PATH_IMAGE018
为主网络中的 策略网络,负责根据输入状态输出当前动作,用于和环境交互,迭代更新网络权重参数。
S3003,将状态转换过程
Figure 691282DEST_PATH_IMAGE019
存储在经验池中;其中,
Figure 446749DEST_PATH_IMAGE009
为飞行器执行 动作
Figure 914770DEST_PATH_IMAGE014
后获得总回报,
Figure 730280DEST_PATH_IMAGE020
为第
Figure 798599DEST_PATH_IMAGE021
时刻网络输入状态。
在飞行器执行动作
Figure 357756DEST_PATH_IMAGE014
后,可以获得总回报
Figure 945863DEST_PATH_IMAGE009
,然后进入新的状态
Figure 666695DEST_PATH_IMAGE020
,此时将状态 转换过程
Figure 225239DEST_PATH_IMAGE019
存储在经验池中。
S3004,经验池中随机选取N个状态转换过程
Figure 322508DEST_PATH_IMAGE022
作为一个mini-batch 训练集,获取累计回报
Figure 30701DEST_PATH_IMAGE023
Figure 922434DEST_PATH_IMAGE024
其中,
Figure 965345DEST_PATH_IMAGE025
Figure 272830DEST_PATH_IMAGE026
分别表示目标网络中策略网络的和价值网络的权重参数,
Figure 694584DEST_PATH_IMAGE102
Figure 147431DEST_PATH_IMAGE028
为目标网络中的价值网络,负责基于经验池计算目标网络的评价 值,提供给主网络;
Figure 287425DEST_PATH_IMAGE029
为目标网络中的策略网络,负责基于经验池中的训练数据计算目 标网络的动作;本实施例中,N=2000。
S3005,基于损失函数
Figure 867442DEST_PATH_IMAGE030
Figure 409282DEST_PATH_IMAGE031
,利用神经网络梯度反向传播,更新主网络中 价值网络和策略网络中的权重参数
Figure 33030DEST_PATH_IMAGE032
Figure 660321DEST_PATH_IMAGE033
;其中,
Figure 778449DEST_PATH_IMAGE030
为价值网络损失函数,
Figure 909216DEST_PATH_IMAGE034
为 策略网络损失函数。
损失函数
Figure 769112DEST_PATH_IMAGE030
Figure 759065DEST_PATH_IMAGE031
分别为
Figure 274360DEST_PATH_IMAGE035
Figure 915426DEST_PATH_IMAGE036
本实施例中,通过最小化损失函数
Figure 756343DEST_PATH_IMAGE030
Figure 233592DEST_PATH_IMAGE031
更新主网络中价值网络和策略 网络中的权重参数
Figure 552578DEST_PATH_IMAGE032
Figure 923516DEST_PATH_IMAGE033
S3006,更新策略网络和价值网络的目标网络权重参数
Figure 59968DEST_PATH_IMAGE025
Figure 883568DEST_PATH_IMAGE026
,如果
Figure 881611DEST_PATH_IMAGE020
为终 止状态,则结束本轮迭代,否则跳转到S3002。
Figure 107056DEST_PATH_IMAGE103
Figure 414409DEST_PATH_IMAGE038
其中,
Figure 990884DEST_PATH_IMAGE039
表示更新系数。
本发明第二实施例的一种基于强化学习的飞行器姿态控制系统,包括第一模块、第二模块、第三模块、第四模块;
所述第一模块,配置为获取第
Figure 651673DEST_PATH_IMAGE001
时刻的飞行器状态数据;
所述第二模块,配置为基于飞行器的期望飞行轨迹,计算期望姿态角、姿态角跟踪 误差,构建第
Figure 606990DEST_PATH_IMAGE001
时刻网络输入状态;
所述第三模块,配置为基于所述第
Figure 226190DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,通过 DDPG深度强化学习网络获取最优控制动作;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于强化学习的飞行器姿态控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于强化学习的飞行器姿态控制方法,其特征在于,包括以下步骤:
获取第
Figure DEST_PATH_IMAGE001
时刻的飞行器状态数据;
基于飞行器的期望飞行轨迹,计算期望姿态角、姿态角跟踪误差,构建第
Figure 127206DEST_PATH_IMAGE001
时刻网络输入状态;
基于所述第
Figure 830720DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,通过DDPG深度强化学习网络获取最优控制动作;
基于所述最优控制动作进行所述飞行器姿态调整;
其中,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络包括第一状态特征提取模块、目标误差特征提取模块、第一全连接层模块;所述第一状态特征提取模块、目标误差特征提取模块均基于三层全连接网络构建;所述第一全连接层模块基于一层LSTM网络和三层全连接网络构建;
所述价值网络包括第二特征提取模块、第二全连接层模块;所述第二特征提取模块基于两层卷积网络、一层LSTM网络构建;所述第二全连接层模块基于三层全连接网络构建;
所述DDPG深度强化学习网络中的总回报
Figure 844812DEST_PATH_IMAGE002
为:
Figure 786223DEST_PATH_IMAGE004
Figure 243881DEST_PATH_IMAGE006
Figure 372374DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
分别表示俯仰角、偏航角、滚转角和空速的回报函数,
Figure 658998DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
的回报函数,
Figure 32080DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别为俯仰角、偏航角、滚转角和空速;
Figure 175485DEST_PATH_IMAGE014
表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值;
Figure DEST_PATH_IMAGE015
Figure 135482DEST_PATH_IMAGE011
的期望值;
Figure 632323DEST_PATH_IMAGE016
表示
Figure 407381DEST_PATH_IMAGE011
的最大回报值,
Figure DEST_PATH_IMAGE017
表示对飞行器动作设定的最大回报值;
Figure 331474DEST_PATH_IMAGE018
Figure 76970DEST_PATH_IMAGE011
变量的归一化因子,
Figure DEST_PATH_IMAGE019
为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值的归一化因子;
Figure 439818DEST_PATH_IMAGE020
为时刻t时执行器j的控制指令输出,
Figure DEST_PATH_IMAGE021
分别为副翼、升降舵和油门,
Figure 820115DEST_PATH_IMAGE022
Figure 649531DEST_PATH_IMAGE014
计算中所设定的时间步数量。
2.根据权利要求1所述的基于强化学习的飞行器姿态控制方法,其特征在于,所述飞行器状态数据包括姿态角
Figure DEST_PATH_IMAGE023
、姿态角速度
Figure 98966DEST_PATH_IMAGE024
、空速
Figure DEST_PATH_IMAGE025
、位置
Figure 780352DEST_PATH_IMAGE026
、线速度
Figure DEST_PATH_IMAGE027
3.根据权利要求2所述的基于强化学习的飞行器姿态控制方法,其特征在于,所述第
Figure 733265DEST_PATH_IMAGE001
时刻网络输入状态为
Figure DEST_PATH_IMAGE029
其中,
Figure 343369DEST_PATH_IMAGE030
为姿态角跟踪误差,
Figure 545680DEST_PATH_IMAGE025
为空速。
4.根据权利要求1所述的基于强化学习的飞行器姿态控制方法,其特征在于,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络,配置为基于所述第
Figure 922435DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角,输出飞行器最优控制动作;
所述价值网络,配置为基于所述第
Figure 796367DEST_PATH_IMAGE001
时刻网络输入状态、所述期望姿态角、所述策略网络输出的飞行器最优控制动作,输出飞行器最优控制动作的评价值。
5.根据权利要求4所述的基于强化学习的飞行器姿态控制方法,其特征在于,所述DDPG深度强化学习网络,其训练方法为:
S3001,获取飞行器第
Figure DEST_PATH_IMAGE031
时刻网络输入状态
Figure 826640DEST_PATH_IMAGE032
、期望姿态角;
S3002,基于策略网络,获取飞行器下一时刻动作
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE035
其中,
Figure 1400DEST_PATH_IMAGE036
表示主网络中策略网络权重参数,
Figure DEST_PATH_IMAGE037
表示白噪声;
S3003,将状态转换过程
Figure 978584DEST_PATH_IMAGE038
存储在经验池中;其中,
Figure DEST_PATH_IMAGE039
为飞行器执行动作
Figure 155356DEST_PATH_IMAGE033
后获得总回报,
Figure 887689DEST_PATH_IMAGE040
为第
Figure DEST_PATH_IMAGE041
时刻网络输入状态;
S3004,经验池中随机选取N个状态转换过程
Figure 753007DEST_PATH_IMAGE042
作为一个训练集,获取累计回报
Figure DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE045
其中,
Figure 330619DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
分别表示目标网络中策略网络的和价值网络的权重参数,
Figure 630407DEST_PATH_IMAGE048
S3005,基于损失函数
Figure DEST_PATH_IMAGE049
Figure 736903DEST_PATH_IMAGE050
,利用神经网络梯度反向传播,更新主网络中价值网络和策略网络中的权重参数
Figure DEST_PATH_IMAGE051
Figure 620677DEST_PATH_IMAGE052
;其中,
Figure 267559DEST_PATH_IMAGE049
为价值网络损失函数,
Figure DEST_PATH_IMAGE053
为策略网络损失函数;
S3006,更新策略网络和价值网络的目标网络权重参数
Figure 841760DEST_PATH_IMAGE046
Figure 165162DEST_PATH_IMAGE047
,如果
Figure 723183DEST_PATH_IMAGE040
为终止状态,则结束本轮迭代,否则跳转到S3002。
6.根据权利要求5所述的基于强化学习的飞行器姿态控制方法,其特征在于,“更新策略网络和价值网络的目标网络权重参数
Figure 924488DEST_PATH_IMAGE046
Figure 353195DEST_PATH_IMAGE047
”,其方法为:
Figure 332653DEST_PATH_IMAGE055
Figure 846811DEST_PATH_IMAGE057
其中,
Figure DEST_PATH_IMAGE058
表示更新系数。
7.一种基于强化学习的飞行器姿态控制系统,其特征在于,包括第一模块、第二模块、第三模块、第四模块;
所述第一模块,配置为获取第
Figure 550675DEST_PATH_IMAGE031
时刻的飞行器状态数据;
所述第二模块,配置为基于飞行器的期望飞行轨迹,计算期望姿态角、姿态角跟踪误差,构建第
Figure 692943DEST_PATH_IMAGE031
时刻网络输入状态;
所述第三模块,配置为基于所述第
Figure 249826DEST_PATH_IMAGE031
时刻网络输入状态、所述期望姿态角,通过DDPG深度强化学习网络获取最优控制动作;
所述第四模块,配置为基于所述最优控制动作进行所述飞行器姿态调整;
其中,所述DDPG深度强化学习网络包括策略网络、价值网络;
所述策略网络包括第一状态特征提取模块、目标误差特征提取模块、第一全连接层模块;所述第一状态特征提取模块、目标误差特征提取模块均基于三层全连接网络构建;所述第一全连接层模块基于一层LSTM网络和三层全连接网络构建;
所述价值网络包括第二特征提取模块、第二全连接层模块;所述第二特征提取模块基于两层卷积网络、一层LSTM网络构建;所述第二全连接层模块基于三层全连接网络构建;
所述DDPG深度强化学习网络中的总回报
Figure 782439DEST_PATH_IMAGE039
为:
Figure 325547DEST_PATH_IMAGE004
Figure 525584DEST_PATH_IMAGE006
Figure 253368DEST_PATH_IMAGE008
其中,
Figure 273277DEST_PATH_IMAGE059
分别表示俯仰角、偏航角、滚转角和空速的回报函数,
Figure DEST_PATH_IMAGE060
Figure 321873DEST_PATH_IMAGE061
的回报函数,
Figure DEST_PATH_IMAGE062
Figure 251783DEST_PATH_IMAGE063
分别为俯仰角、偏航角、滚转角和空速;
Figure DEST_PATH_IMAGE064
表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值;
Figure 58459DEST_PATH_IMAGE065
Figure 96822DEST_PATH_IMAGE061
的期望值;
Figure DEST_PATH_IMAGE066
表示
Figure 653836DEST_PATH_IMAGE061
的最大回报值,
Figure 890783DEST_PATH_IMAGE067
表示对飞行器动作设定的最大回报值;
Figure 694790DEST_PATH_IMAGE068
Figure 141821DEST_PATH_IMAGE061
变量的归一化因子,
Figure DEST_PATH_IMAGE069
为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值的归一化因子;
Figure 282953DEST_PATH_IMAGE070
为时刻t时执行器j的控制指令输出,
Figure DEST_PATH_IMAGE071
分别为副翼、升降舵和油门,
Figure 355164DEST_PATH_IMAGE072
Figure 330073DEST_PATH_IMAGE064
计算中所设定的时间步数量。
8.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于强化学习的飞行器姿态控制方法。
CN202011396912.7A 2020-12-03 2020-12-03 基于强化学习的飞行器姿态控制方法、系统、装置 Active CN112198890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011396912.7A CN112198890B (zh) 2020-12-03 2020-12-03 基于强化学习的飞行器姿态控制方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011396912.7A CN112198890B (zh) 2020-12-03 2020-12-03 基于强化学习的飞行器姿态控制方法、系统、装置

Publications (2)

Publication Number Publication Date
CN112198890A CN112198890A (zh) 2021-01-08
CN112198890B true CN112198890B (zh) 2021-04-13

Family

ID=74033761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011396912.7A Active CN112198890B (zh) 2020-12-03 2020-12-03 基于强化学习的飞行器姿态控制方法、系统、装置

Country Status (1)

Country Link
CN (1) CN112198890B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115046433B (zh) * 2021-03-09 2023-04-07 北京理工大学 基于深度强化学习的飞行器时间协同制导方法
CN113093568A (zh) * 2021-03-31 2021-07-09 西北工业大学 基于长短时记忆网络的飞机自动驾驶操作模拟方法
CN114115302B (zh) * 2021-06-08 2022-08-16 中国人民解放军国防科技大学 基于深度神经网络逼近mpc的航天器姿态控制方法
CN113791538B (zh) * 2021-08-06 2023-09-26 深圳清华大学研究院 一种机房设备的控制方法、控制设备及控制系统
CN114660977B (zh) * 2022-05-24 2022-08-23 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动控制系统、方法、电子设备及可读存储介质
CN115556098A (zh) * 2022-09-29 2023-01-03 国网天津市电力公司建设分公司 基于增量式模型的机械臂避障规划方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
CN110502034B (zh) * 2019-09-04 2022-08-09 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110673620B (zh) * 2019-10-22 2020-10-27 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110806759B (zh) * 2019-11-12 2020-09-08 清华大学 一种基于深度强化学习的飞行器航线跟踪方法

Also Published As

Publication number Publication date
CN112198890A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112198890B (zh) 基于强化学习的飞行器姿态控制方法、系统、装置
Santoso et al. State-of-the-art intelligent flight control systems in unmanned aerial vehicles
Muliadi et al. Neural network control system of UAV altitude dynamics and its comparison with the PID control system
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN107479368B (zh) 一种基于人工智能的训练无人机控制模型的方法及系统
Yang et al. Optimal path following for small fixed-wing UAVs under wind disturbances
Sarabakha et al. Novel Levenberg–Marquardt based learning algorithm for unmanned aerial vehicles
Jimenez et al. Experimental validation of total energy control system for UAVs
CN113268074A (zh) 一种基于联合优化的无人机航迹规划方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
Farag Real‐time NMPC path tracker for autonomous vehicles
Ansari et al. Retrospective cost adaptive control of generic transport model under uncertainty and failure
Kumar Real-time performance comparison of vision-based autonomous landing of quadcopter on a ground moving target
CN109375642B (zh) 一种无人机节能控制方法
Kim et al. Robust path following control via command-filtered backstepping scheme
Luo et al. In-flight wind identification and soft landing control for autonomous unmanned powered parafoils
Aschauer et al. Co-simulation of matlab and flightgear for identification and control of aircraft
Lungu et al. Backstepping-and sliding mode-based automatic carrier landing system with deck motion estimation and compensation
Salinas et al. Kinematic Nonlinear Controller for a Miniature Helicopter via L yapunov Techniques
Kang et al. Autonomous waypoint guidance for tilt-rotor unmanned aerial vehicle that has nacelle-fixed auxiliary wings
Orsag et al. State estimation, robust control and obstacle avoidance for multicopter in cluttered environments: Euroc experience and results
Megyesi et al. Adaptive control and estimation of the condition of a small unmanned aircraft using a Kalman filter
de Oliveira et al. Genetic neuro-fuzzy approach for unmanned fixed wing attitude control
Vural et al. A comparison of longitudinal controllers for autonomous UAV
Lee et al. Autopilot design for unmanned combat aerial vehicles (UCAVs) via learning-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant