CN112148025A

CN112148025A - 一种基于积分补偿强化学习的无人飞行器稳定控制算法

Info

Publication number: CN112148025A
Application number: CN202011014279.0A
Authority: CN
Inventors: 王庆领; 胡欢; 孙长银
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-29

Abstract

本发明公开了一种基于积分补偿强化学习的无人飞行器稳定控制算法，通过模型参数设定、期望速度设定、初始化、策略网络，最终查看是否收敛，通过离线仿真阶段和在线实际飞行阶段的学习训练，策略不断迭代更新，最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。本发明实现了无人飞行系统稳定安全的飞行控制策略，并且针对速度跟踪上存在稳态误差问题，通过提出状态积分补偿器处理状态向量里的速度误差分量，来降低速度跟踪的稳态误差，具有创新性，并且该算法适应的范围较广，在无人飞行系统的姿态控制存在稳态误差问题上同样适用，有良好的经济效益和社会效益，适合推广使用。

Description

一种基于积分补偿强化学习的无人飞行器稳定控制算法

技术领域

本发明属于无人飞行器控制领域，具体涉及一种基于积分补偿强化学习的无人飞行器稳定控制算法。

背景技术

过去几十年里，我国无人飞行机技术的快速发展得到了广泛关注，并在农业领域，工业检查和海洋搜救等领域发挥巨大作用。这导致对无人飞行器的大量研究，并在实际中得到应用，虽然其结构简单，但仍然存在很多问题。第一，飞行器的实时控制意味着数据的实时采集和计算，这需要很高时间灵敏度的传感器和先进计算设备。第二，飞行过程需要应对各种复杂恶劣的环境以及可能出现的故障。第三，无人飞行器是个高度非线性、多输入多输出的欠耦合系统，而且会包含大量的未建模动态和非线性外部扰动。

为了解决这些问题，设计出一种具有抗干扰能力控制算法，保证无人飞行器的安全稳定运行，现有的方法是比例-积分-微分(PID)控制算法，PID控制算法是实际应用中常见的控制方法，在许多研究中PID算法作为基线控制算法。但是由于抗干扰依赖于其积分项，当干扰不恒定时，控制精度非常差，只有在受到影响后才能抑制干扰，而且实现无人机的高精度控制也越来越困难，且PID的增益选择也是经过反复试验的，难以满足动态性能要求。

发明内容

为解决上述问题，本发明公开了一种基于动作器-评判器的深度强化学习算法框架实现无人飞行器控制，并在评判器里引入状态积分补偿器，以通过对误差状态积分来减少稳态误差，提高了无人飞行器速度跟踪控制的准确性和控制器的鲁棒性。策略训练阶段采用在线和离线的双阶段学习模式来训练控制策略，在离线阶段，通过仿真来训练简化无人飞行器模型以取得鲁棒性能良好的控制器，在在线阶段，通过实际场景中训练真正的无人飞行器模型，并不断优化控制策略最终实现稳定高精度的飞行控制策略器。

为达到上述目的，本发明的技术方案如下：

一种基于积分补偿强化学习的无人飞行器稳定控制算法(PPOIS)，包括以下步骤：

步骤A：在离线仿真阶段，无人飞行器模型各参数初始化，建立简化动力学方程；

步骤B：每轮实验迭代开始时随机初始化一个期望速度[x_e,y_e,z_e]作为训练目标；

步骤C：随机初始化策略器网络π作为策略输出，随机初始化评估器网络用来评估策略性能，随机初始化初始各轴向速度x,y,z和三个姿态角φ,θ,

清空初始状态积分补偿器；

步骤D：观测无人飞行器状态向量S_t，批量的状态向量

作为神经网络输入，其中x_Δ,y_Δ,z_Δ表示各个轴向实际速度与期望速度之差，神经网络输出一个高斯分布，依概率采样一个值并归一化到[0,1]区间作为电机转子的PWM信号a_i(i＝1,2,...N)，N个转子的PWM信号组成一组策略向量a_t＝[a₁,a₂,...,a_N]；

步骤E：设定回报奖励函数

用来实时反馈当前策略a_t的好坏；

步骤F：策略a_t作用于飞行器上，进入新的状态S_t+1，如果S_t+1是安全域以内的状态则跳到步骤G，如果状态S_t+1偏离安全域，则跳回步骤C重新采集；

步骤G：S_t+1经过状态积分补偿器处理状态向量里的速度误差分量，得到经过积分补偿后的状态向量

其中λ是积分增益；

步骤H：以上步骤C、步骤D、步骤E和步骤F完成了一个轨迹样本收集过程，轨迹样本为

重复以上C步骤、D步骤、E步骤和步骤F，直到完成指定E批的轨迹样本的收集；

步骤I：抽取这E批的轨迹样本数据出来，计算每个轨迹样本的优势函数A_t＝∑_t′＞tγ^t′-tr_t′-V_υ(s_t)，其中V_υ(s_t)是由评估网络生成的状态值函数；

步骤J：以当前的策略网络给出的策略为基准，迭代更新策略网络的参数ω来取得性能更好的策略，策略参数更新约束方程为：

J_ppo(ω)＝E_t[min(r_t(ω)A_t,clip(r_t(ω),1-ε,1+ε)A_t)]

其中比率r_t(ω)∈[0，1]，表示在同样状态动作对时，待训练更新的策略和当前策略的差异比值；

步骤K：根据这E批量轨迹样本，迭代更新评估网络的参数υ，评估参数更新约束方程：

步骤L：循环步骤C至步骤K，直到策略网络和评估网络的参数最终收敛；

步骤M：循环步骤B和步骤L，直到算法完成收敛，此时控制策略具有较强鲁棒性和稳定性，离线阶段的训练过程结束；

步骤N：将离线仿真阶段训练结束后的策略参数迁移到在线实际飞行阶段作为初始策略参数，在线阶段的飞行器模型是完整模型，建立完整动力学方程；

步骤O：在线阶段过程中，以离线阶段学习到的策略为基准，继续优化策略参数，如果在现阶段飞行器进入受限不安全状态，立即切换到离线策略以保证飞行器继续安全稳定飞行；

步骤P：通过离线仿真阶段和在线实际飞行阶段的学习训练，策略不断迭代更新，最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。

本发明的有益效果是：

本发明提出了一种基于状态积分补偿的近端策略优化控制算法(PPOIS)，实现了无人飞行系统稳定安全的飞行控制策略，并且针对速度跟踪上存在稳态误差问题，通过提出状态积分补偿器处理状态向量里的速度误差分量，来降低速度跟踪的稳态误差，具有创新性，并且该算法适应的范围较广，在无人飞行系统的姿态控制存在稳态误差问题上同样适用，有良好的经济效益和社会效益，适合推广使用。

附图说明

图1为基于状态积分补偿的近端策略优化控制算法PPOIS算法流程图。

图2为四旋翼飞行器模型框架图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

对于典型的无人飞行系统四旋翼飞行器，模型结构如附图1，算法步骤实施如下：

步骤A：在离线仿真阶段，无人飞行器模型各参数初始化，以及动力学简化模型方程描述如下

z＝(M_zcosφcosθ-mg)/m,

其中x,y,z分别表示无人飞行器X，Y，Z三个轴向的位移，φ,θ,

分别表示三个轴向姿态角，t_φ,t_θ,

表示三个轴向阻力系数，m是质量，κ_φ,κ_θ,

分别是绕X，Y，Z轴的控制转矩，I＝diag(I_x,I_y,I_z)是对角惯性矩阵，I_x,I_y,I_z是三个轴向的分量，

是由四个转子产生的相对于机架的向上升力总和；

步骤C：随机初始化四个策略网络π_i(i＝1,2,3,4)作为四个转子的策略输出，随机初始化评估网络用来评估策略性能，随机初始化初始轴向速度x,y,z和三个姿态角φ,θ,

初始化状态积分补偿器；

步骤D：观测无人飞行器状态向量S_t，批量的状态向量

作为神经网络输入，其中x_Δ,y_Δ,z_Δ表示各个轴向实际速度与期望速度之差，每个神经网络输出一个高斯分布，依概率采样一个值并归一化到[0,1]区间作为电机转子的PWM信号a_i(i＝1,2,3,4)，四个转子PWM信号组成一组策略向量a_t＝[a₁,a₂,a₃,a₄]；

步骤E：设定回报奖励函数

用来实时反馈当前策略a_t的好坏；

步骤F：策略a_t作用于飞行器上，进入新的状态S_t+1，如果S_t+1是安全域以内的状态则跳到步骤F，如果状态S_t+1偏离安全域，则跳回步骤C重新采集；

其中λ是积分增益。

步骤I：抽取这E批的轨迹样本数据出来，计算每个轨迹样本的优势函数

其中V_υ(s_t)是由评估网络生成的状态值函数；

其中比率r_t(ω)∈[0，1]，表示要在同样状态动作时，待训练更新的策略和当前策略的差异；

步骤N：将离线仿真阶段训练结束后的策略参数迁移到在线实际飞行阶段作为初始策略参数，在线阶段的飞行器模型是完整模型，动力学方程描述如下

z＝(M_zcosφcosθ-t_zz-mg)/m,

其中x,y,z分别表示无人飞行器X，Y，Z三个轴向的位移，φ,θ,

分别表示三个轴向姿态角，t_φ,t_θ,

表示三个轴向阻力系数，m是质量，κ_φ,κ_θ,

分别是绕X，Y，Z轴的控制转矩，I_p是每个转子的惯性矩，ζ是每个转子产生的干扰效应，I＝diag(I_x,I_y,I_z)是对角惯性矩阵，I_x,I_y,I_z是三个轴向的分量，

是由四个转子产生的相对于机架的向上升力总和；

步骤O：在线阶段过程中，以离线阶段学习到的策略为基准，继续优化策略参数如果在现阶段飞行器进入受限不安全状态，立即切换到离线策略以保证飞行器继续安全稳定飞行；

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。