CN112198890B

CN112198890B - 基于强化学习的飞行器姿态控制方法、系统、装置

Info

Publication number: CN112198890B
Application number: CN202011396912.7A
Authority: CN
Inventors: 丘腾海; 蒲志强; 刘振; 易建强; 常红星
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-04-13
Anticipated expiration: 2040-12-03
Also published as: CN112198890A

Abstract

本发明属于飞行器控制领域，具体涉及一种基于强化学习的飞行器姿态控制方法、系统、装置，旨在为了解决低精度模型下实现无超调控制的问题。本发明基于强化学习的飞行器姿态控制方法，包括：获取第

时刻的飞行器状态数据；基于飞行器的期望飞行轨迹，计算期望姿态角、姿态角跟踪误差，构建第

时刻网络输入状态；基于所述第

时刻网络输入状态、所述期望姿态角，通过DDPG深度强化学习网络获取最优控制动作；基于所述最优控制动作进行所述飞行器姿态调整。本发明可以在低精度模型下实现无超调控制，调节时间短，稳态误差小。

Description

基于强化学习的飞行器姿态控制方法、系统、装置

技术领域

本发明属于飞行器控制领域，具体涉及一种基于强化学习的飞行器姿态控制方法、系统、装置。

背景技术

近年飞行器得到广泛推广和应用，民用领域比如农业植保、电力巡检、城市安防、森林防火、环境监测、低空航拍和空中搜救等工作，军事领域比如战场环境侦察、运输保障、巡逻监视等。飞行器具有机动速度快，覆盖面广，能够以“上帝视角”观察地面情况，且对指令快速响应等优势，未来会更加普及并具有更丰富的应用场景。

姿态控制是飞行器飞行控制的核心，其优劣直接影响整个飞行控制的效果。常规姿态控制采用串级PID控制结构，通过对飞行器角度环和角速度环误差控制，输出控制律给舵机。然而，飞行过程中存在未建模动态和不确定性项造成的干扰，比如阵风、参数摄动等持续性、时变的扰动等，传统方法难以抵抗干扰的影响，适应性不强，且控制参数的调试比较复杂，需要不断进行试凑，导致飞行器控制存在稳定裕度降低，甚至是失控风险。

强化学习通过端到端试错的训练方式，基于建立的奖惩机制，引导被控对象选择最优动作应用于环境，使得累计奖励值最大，找到最优策略。训练过程中，引入不确定干扰和噪声等因素，基于训练数据的经验知识，通过探索和利用的策略学习机制，对于复杂扰动环境具有较强的适应性和自主学习能力。

发明内容

为了解决现有技术中的上述问题，即为了解决低精度模型下实现无超调控制的问题，本发明的第一方面，提出了一种基于强化学习的飞行器姿态控制方法，包括以下步骤：

获取第

时刻的飞行器状态数据；

基于飞行器的期望飞行轨迹，计算期望姿态角和姿态角跟踪误差，构建第

时刻网络输入状态；

基于所述第

时刻网络输入状态和所述期望姿态角，通过DDPG深度强化学习网络获取最优控制动作；

基于所述最优控制动作进行所述飞行器姿态调整。

在一些优选的实施方式中，所述飞行器状态数据包括姿态角

、姿态角速度

、空速

、位置

和线速度

。

在一些优选的实施方式中，所述第

时刻网络输入状态为

其中，

为姿态角跟踪误差，

为空速。

在一些优选的实施方式中，所述DDPG深度强化学习网络包括策略网络、价值网络；

所述策略网络，配置为基于所述第

时刻网络输入状态、所述期望姿态角，输出飞行器最优控制动作；

所述价值网络，配置为基于所述第

时刻网络输入状态、所述期望姿态角、所述策略网络输出的飞行器最优控制动作，输出飞行器最优控制动作的评价值；

所述DDPG深度强化学习网络中的总回报

为

其中，

依次为俯仰角、偏航角、滚转角和空速的回报函数，

为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值。

在一些优选的实施方式中，所述DDPG深度强化学习网络，其训练方法为：

S3001，获取飞行器第

时刻网络输入状态

和期望姿态角；

S3002，基于策略网络，获取飞行器下一时刻动作

：

其中，

表示主网络中策略网络权重参数，

表示白噪声；

为主网络中的策略网络；

S3003，将状态转换过程

存储在经验池中；其中，

为飞行器执行动作

后获得总回报，

为第

时刻网络输入状态；

S3004，经验池中随机选取N个状态转换过程

作为一个训练集，获取累计回报

，

其中，

、

分别表示目标网络中策略网络的和价值网络的权重参数，

为折扣因子；

为目标网络中的价值网络，

为目标网络中的策略网络；

S3005，基于损失函数

和

，利用神经网络梯度反向传播，更新主网络中价值网络和策略网络中的权重参数

和

；其中，

为价值网络损失函数，

为策略网络损失函数；

S3006，更新策略网络和价值网络的目标网络权重参数

和

，如果

为终止状态，则结束本轮迭代，否则跳转到S3002。

在一些优选的实施方式中，损失函数

和

分别为

。

在一些优选的实施方式中，“更新策略网络和价值网络的目标网络权重参数

和

”，其方法为：

其中，

表示更新系数。

在一些优选的实施方式中，

的计算方法为

其中，

为

的回报函数，

，

分别为俯仰角、偏航角、滚转角和空速；

表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值；

为

的期望值；

表示

的最大回报值，

表示对飞行器动作设定的最大回报值；

为

变量的归一化因子，

为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值的归一化因子；

为时刻t时执行器j的控制指令输出，

分别为副翼、升降舵和油门，

为

计算中所设定的时间步数量，

为截取函数。

本发明的第二方面，提出了一种基于强化学习的飞行器姿态控制系统，包括第一模块、第二模块、第三模块和第四模块；

所述第一模块，配置为获取第

时刻的飞行器状态数据；

所述第二模块，配置为基于飞行器的期望飞行轨迹，计算期望姿态角和姿态角跟踪误差，构建第

时刻网络输入状态；

所述第三模块，配置为基于所述第

时刻网络输入状态和所述期望姿态角，通过 DDPG深度强化学习网络获取最优控制动作；

所述第四模块，配置为基于所述最优控制动作进行所述飞行器姿态调整。

本发明的第三方面，一种处理装置，包括处理器和存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。

本发明的有益效果：

本发明充分利用强化学习端到端的训练方式，基于建立的奖惩机制，通过探索和利用的策略学习机制，引导被控对象选择最优动作应用于环境，可降低对模型精度的要求，对未建模动态或参数不确定项造成的干扰进行补偿，实现无超调控制，调节时间短，稳态误差小，能够极大增强飞行器对于复杂扰动环境的适应性和自主学习能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于强化学习的飞行器姿态控制方法流程示意图；

图2是本发明一种实施例的基于强化学习的飞行器姿态控制网络结构示意图；

图3本发明一种实施例中基于强化学习的飞行器姿态控制网络训练流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于强化学习的飞行器姿态控制方法，包括以下步骤：

获取第

时刻的飞行器状态数据；

时刻网络输入状态；

基于所述第

基于所述最优控制动作进行所述飞行器姿态调整。

为了更清晰地对本发明进行说明，下面结合附图对本方发明一种实施例进行展开详述。

一种实施例的基于强化学习的飞行器姿态控制方法，如图1所示，包括以下步骤：

S100，获取第

时刻的飞行器状态数据。

获取飞行器传感器数据，进行数据解算和融合，得到飞行器状态数据。飞行器状态数据包括姿态角

、姿态角速度

、空速

、位置

=[

、线速度

等，其中

分别表示俯仰角、偏航角、滚转角，

为世界坐标系的三轴线，

分别是绕

轴的角速度，

分别为

轴的线速度分量。所述数据解算和融合方法包括基于IMU和GPS等传感器，利用方向余弦矩阵算法解算飞行器姿态角，采用卡尔曼滤波进行多传感器数据融合，构建飞行器状态空间

。

S200，基于飞行器的期望飞行轨迹，计算期望姿态角和姿态角跟踪误差，构建第

时刻网络输入状态。

根据飞行器期望的飞行轨迹，通过外环位置控制器，计算得到期望姿态角

，姿态角跟踪误差

，则第

时刻状态

，

，S表示状态空间。

本实施例中，期望姿态角

，采用PID算法控制器进行外环位置控制计算得出，计算公式如下所示：

其中，

分别为期望滚转角的比例、积分和微分系数；

分别为期望俯仰角的比例、积分和微分系数；

分别为x轴、z轴的速度、期望速度，(

为期望的飞行器位置，由飞行任务指定，

表示重力加速度，

表示飞行器的合速度。

S300，基于所述第

时刻网络输入状态和所述期望姿态角，通过DDPG深度强化学习网络，从飞行器动作空间A获取最优控制动作。

将第t时刻状态

和期望姿态角

输入到构建的DDPG深度强化学习网络模型，从飞行器动作空间

获取最优控制动作

。动作空间A包括升降舵舵面角

、副翼舵面角

、方向舵舵面角

和油门拉力输出

。

如图2所示，本实施例中，DDPG深度强化学习网络包括策略网络、价值网络。

策略网络，配置为基于所述第

时刻网络输入状态、所述期望姿态角，输出飞行器最优控制动作。本实施例中，策略网络的输入层分为第一状态特征提取模块31和目标误差特征提取模块32，然后同时输入由LSTM网络和全连接网络组成的第一全连接层模块33，最后输出飞行器最优动作。其中，其中输入层状态包括飞行器的姿态角

、姿态角速度

、空速

、姿态角跟踪误差

、飞行器网络输入状态

、滑动平均值等等，第一状态特征提取模块31分为3层，神经元个数均为64个，目标误差特征提取模块32也分3层，神经元个数分别为 250、200、200，激活函数都是ReLu；输出层分为LSTM网络和全连接层网络，最后一层的激活函数是Softmax，输出动作空间中累计回报值最大的动作到飞行器，使得飞行器根据选择的动作飞行。

价值网络，配置为基于所述第

时刻网络输入状态、所述期望姿态角、所述策略网络输出的飞行器最优控制动作，输出飞行器最优控制动作的评价值。本实施例中，价值网络由第二特征提取模块34、第二全连接层模块35等组成，将所述飞行器网络输入状态

、姿态角跟踪误差

、策略网络输出的飞行器动作的总回报值

等作为输入，第二特征提取模块 34由两层卷积网络和一层LSTM网络组成，第二全连接层模块35由3层全连接网络组成，神经元个数分别为400、300和100，输出对所选动作的评价值，最后一层网络激活函数为tanh，其余层激活函数为ReLu。

本实施例中，DDPG深度强化学习网络中的总回报

根据期望姿态角与实际姿态角的误差值构建，公式如下：

其中，

表示总的奖惩函数；

为

的回报函数，

，

分别为俯仰角、偏航角、滚转角和空速，

分别表示俯仰角、偏航角、滚转角和空速的回报函数；

表示设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值，目的在于使得策略输出的动作值更加平滑；

为

的期望值，对应

的期望值表示为

；

表示

的最大回报值，

表示对飞行器动作设定的最大回报值，目的在于减少控制器的机械震荡，对控制器设定值的变化进行约束，本实施例中，

，

；

为

变量的归一化因子，用于减小不同量纲造成的影响，本实施例中可以令

；

为设定时间步数内副翼舵偏角、升降舵舵偏角和油门动作的累计变化值的归一化因子，

为时刻t时执行器j的控制指令输出，

分别为副翼、升降舵和油门，

为

计算中所设定的时间步数量（本实施例中

）。上述公式中，

为截取函数，其函数

表示将元素

控制在一个给定的范围内，所有小于

的数值全部等于

，所有大于

的数值全部等于

。

S400，基于所述最优控制动作进行所述飞行器姿态调整。

在飞行器飞行过程中，每个控制周期都是采用步骤S100-S400的方式进行飞行器姿态控制，因而在程序设计是才有用的是循环控制的方式，即在步骤S400之后，进行一下个控制周期，反馈步骤S100进行新一轮的计算和控制，直到姿态控制结束。

本实施例中的DDPG深度强化学习网络的训练采取回合的方式，每个回合有不同的初始状态和设定值，训练开始时，回合的初始状态是接近设定值的，这样的设计比较简单有助于算法的安全性，然后随着算法回合数的增加，训练逐渐增大初始状态与设定值的差距，提高算法的控制难度。

初始化模型参数，包括飞行器初始状态、期望飞行轨迹、主网络和目标网络权重参数设置为随机数、以及最大循环次数=3000000，并为动作的探索过程引入随机噪声等。动作空间物理约束如表1所示。在训练过程中每0.01秒采一次样，每回合采样2000次，共计20秒，在训练过程中没有风或者干扰。为了便于神经网络的收敛，状态输入利用滑动标准化的方法处理成符合标准正态分布的形式。

表

控制变量	最小值	最大值
			升降舵	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198.jpg	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200.jpg
副翼	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198a.jpg	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200a.jpg
			方向舵	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image198aa.jpg	说明: 说明: 说明: 说明: C:\Program Files\gwssi\CPC客户端\cases\inventions\f86fc18e-effe-44e1-a0c0-c4582627489c\new\100002\dest_path_image200aa.jpg
油门	0	1

初始化模型参数之后，对DDPG深度强化学习网络进行训练，包括以下步骤：

S3001，获取飞行器第

时刻网络输入状态

、期望姿态角。

第

时刻网络输入状态

，期望姿态角表示为

，姿态角表示为

、角速度表示为

、空速表示为

，姿态角跟踪误差表示为

。

S3002，基于策略网络，获取飞行器下一时刻动作

：

其中，

表示主网络中策略网络权重参数，

表示白噪声。白噪声的增加是考虑实际环境中的环境干扰和不确定性等因素，为了增强网络的泛化性能。

为主网络中的策略网络，负责根据输入状态输出当前动作，用于和环境交互，迭代更新网络权重参数。

S3003，将状态转换过程

存储在经验池中；其中，

为飞行器执行动作

后获得总回报，

为第

时刻网络输入状态。

在飞行器执行动作

后，可以获得总回报

，然后进入新的状态

，此时将状态转换过程

存储在经验池中。

S3004，经验池中随机选取N个状态转换过程

作为一个mini-batch 训练集，获取累计回报

，

其中，

、

分别表示目标网络中策略网络的和价值网络的权重参数，

。

为目标网络中的价值网络，负责基于经验池计算目标网络的评价值，提供给主网络；

为目标网络中的策略网络，负责基于经验池中的训练数据计算目标网络的动作；本实施例中，N=2000。

S3005，基于损失函数

和

和

；其中，

为价值网络损失函数，

为策略网络损失函数。

损失函数

和

分别为

。

本实施例中，通过最小化损失函数

和

更新主网络中价值网络和策略网络中的权重参数

和

。

S3006，更新策略网络和价值网络的目标网络权重参数

和

，如果

为终止状态，则结束本轮迭代，否则跳转到S3002。

其中，

表示更新系数。

本发明第二实施例的一种基于强化学习的飞行器姿态控制系统，包括第一模块、第二模块、第三模块、第四模块；

所述第一模块，配置为获取第

时刻的飞行器状态数据；

所述第二模块，配置为基于飞行器的期望飞行轨迹，计算期望姿态角、姿态角跟踪误差，构建第

时刻网络输入状态；

所述第三模块，配置为基于所述第

时刻网络输入状态、所述期望姿态角，通过 DDPG深度强化学习网络获取最优控制动作；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于强化学习的飞行器姿态控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于强化学习的飞行器姿态控制方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、 “第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。