CN106483852B

CN106483852B - 一种基于Q-Learning算法和神经网络的平流层飞艇控制方法

Info

Publication number: CN106483852B
Application number: CN201611252157.9A
Authority: CN
Inventors: 聂春雨
Original assignee: Beijing Heng Long Eagle Polytron Technologies Inc
Current assignee: Beijing Heng Long Eagle Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2019-03-15
Anticipated expiration: 2036-12-30
Also published as: CN106483852A

Abstract

本发明公开一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法，包括建立平流层飞艇的观测模型，建立飞艇控制的MDP模型，根据Q‑Learning算法计算并存储各种状态下的动作值函数估计，为每个动作的函数估计建立一个CMAC神经网络，设计控制方法流程。本发明有效提升了算法的学习效率，控制精度与PID控制器精度相当且控制效果更为智能，为飞艇系统建模、参数辨识和智能控制提供了有效的设计手段。

Description

一种基于Q-Learning算法和神经网络的平流层飞艇控制方法

技术领域

本发明属自动控制领域，尤其涉及一种基于Q-Learning算法和神经网络的平流层飞艇控制方法，尤其适用于平流层飞艇的建模与控制。

背景技术

与固定翼飞机、直升机和旋翼机相比，飞艇具有飞行速度低、姿态稳定、安全性高等特点。近年来，重载飞艇、平流层飞艇等得到了世界的广泛研究，而控制一直是飞艇研究的重要问题。

飞艇的体密度小，对操纵机构响应慢，所受惯性力不可忽略；飞艇动力学特性相对复杂，艇体的柔性、弹性以及外界的随机扰动等，使得飞艇控制成为具有不确定性的问题。常见的飞艇控制方法包括PID控制、反步法、动态逆和滑模控制等。其中，PID控制器的应用最为广泛，但是PID控制器需要对控制参数进行反复试凑调整，在模型参数和环境发生变化时，常常需要对控制参数重新进行调整。反步法、动态逆和滑模控制方法能够保证控制器在非线性系统中的具有鲁棒性和全局的稳定性，但是其系统建模和参数辨识等工作依然较为复杂。

作为一种重要的非监督学习算法，增强学习通过“动作和回报”的机制，能够在缺少动力学模型的情况下实现控制器的自适应。已有的研究表明，将增强学习算法用于飞艇模型参数辨识，能够降低模型仿真的误差；基于Q-Learning算法的高度控制器，能够在数分钟内在线学习并实现飞艇高度方向上的控制，并获得与PID控制器精度相当的控制效果。但是，在实际控制问题中，系统自由度多，状态空间维数巨大，算法学习效率不高，造成学习时间过长进而陷入所谓的“维数灾难”。

发明内容

本发明利用随机过程、神经网络等理论对值函数进行泛化。采用小脑模型关节控制器(CMAC)-神经网络在局部邻域内进行泛化，收敛速度快，适合对飞艇的实际运动进行拟合。

本发明的目的是通过以下技术方案实现的。

一种基于Q-Learning算法和神经网络的平流层飞艇控制方法，包括如下步骤：

步骤一、建立平流层飞艇的观测模型，其包括经过任务描述和分析，建立飞艇观测坐标系；

步骤二、建立飞艇控制的MDP模型，其包括把飞艇控制问题建模为离散的MDP，其包括用五元数组{S,A,r,P,J}来表示离散的MDP，通过对飞艇运动的分析，在真实数据的基础上，确定构成状态空间S的状态参数的范围和离散精度，选择该状态参数，其余四个参数A、r、P、J根据任务的目标进行调整；

步骤三、根据Q-Learning算法计算并存储各种状态下的动作值函数估计；

步骤四、为每个动作的函数估计建立一个CMAC神经网络，其用于对各种状态下的不同动作进行函数估计和权值更新；

步骤五、设计控制方法流程，其包括利用控制动作的实时执行情况对控制器进行训练，通过学习持续改善控制效果，采用基于Boltzmann分布的随机动作选择方法，推导出动作选择策略，设计完成实际任务中的整个控制过程。

优选地，在步骤一中所述的飞艇观测坐标系中，地面惯性坐标系为O_gx_gy_gz_g，气流坐标系为O_ax_ay_az_a，艇体坐标系为O_bx_by_bz_b，O_a和O_b在飞艇的体心；ψ为偏航角，ψ_a为航向角，β为侧滑角，x_a的方向在风速为零时与飞行速度v的方向相同。

优选地，在步骤二中所述的五元数组{S,A,r,P,J}中，S为根据飞艇参数划分而成的状态空间，A为浮空器的可用控制指令组成的动作空间，r为对应状态和行为的回报函数，P为状态之间的转移概率，J为控制决策优化的目标函数；

优选地，在步骤二中所述离散的MDP的特性为：

其中p_ij(a_k)称为在s_i状态，采取a_k动作，转移到s_j状态的概率。

优选地，对于根据飞艇参数划分而成的状态空间S，其状态参数的确定方法包括：

飞艇和目标的相对位置用(l_rψ_r)来描述，根据几何关系有：

其中，l_r为目标到飞艇的相对距离，ψ_r为飞艇航向偏离目标的角度；

定义控制指令执行的单位时间为控制步长Tstep，ΔL_T为飞艇在T_Δψ时间内垂直初速度方向的位移，ΔL_H为沿初速度方向的位移，飞艇在T_Δψ时间内垂直初速度方向的位移：

ΔL_T＝R(1-cosΔψ_r) (4)

ΔL_H＝RsinΔΨ_r (5)

飞艇航向偏离目标的角度ψ_r的范围为[-π,+π]，

控制步长Tstep必须足够小，以便飞艇在相邻的离散航向角间实现状态转移，因此有Tstep≤T_△ψ，取Tstep≈T_△ψ，

在一个控制步长Tstep内，飞艇垂直初速度方向上的位移ΔL_T远小于飞艇沿初速度方向上的位移ΔL_H，l_r的离散精度Δl_r应当足够小以分辨ΔL_T，因此有Δl_r≤ΔL_T，取Δl_r≈ΔL_T；

目标到飞艇的相对距离l_r应当足够大以保证飞艇的自由运动，考虑到飞艇常见的原地掉头、八字等机动动作，有l_r≥4R，取l_r≈4R。

优选地，在步骤三中，状态s时的a动作值函数估计设为Q(s,a)，有：

Q(s,a)满足如下的Bellman方程：

其中p(s_t,a_t,s_t+1)为在状态s_t下，采取a_t动作，转移到s_t+1状态的概率；r(s_t,a_t,s_t+1)为动作a_t和状态s_t转移到s_t+1的回报值；

最优动作估计和最优策略π^*如下：

利用直接梯度下降的方式对Q^π(s,a)进行估计，迭代公式为：

其中α∈(0,1)为学习率，e_t为适合度参数，反映状态s_t的访问频繁程度：

优选地，步骤四所述的为每个动作的函数估计建立一个CMAC神经网络包括：S_t＝S_i时动作k的函数估计和权值更新公式为

其中，S为m个离散的状态空间，W为n个内存地址中储存的权值。

优选地，在步骤五中所述设计控制方法流程包括：采用基于Boltzmann分布的随机动作选择方法，设可用动作集为A＝{a_k},(k＝1,2,…)，p(a|s)表示在状态s下选择动作a的概率，则动作选择策略π表示为：

其中Ttemp为探索常数，通过逐渐地降低Ttemp，保证初始情况下较高的探索率，并最终趋于贪心策略。

本发明通过分析飞艇的运动特点，对飞艇运动状态空间进行了简化，设计了自适应建立飞艇控制MDP模型的方法；利用Q-Learning算法设计飞艇的航向控制器，直接控制执行机构进行在线学习，同时利用CMAC神经网络对动作值函数进行泛化。有效提升了算法的学习效率，学习时间稳定在3小时左右即可完成训练，控制精度与PID控制器精度相当且控制效果更为智能，为飞艇系统建模、参数辨识和智能控制提供了有效的设计手段。

与先前技术相比，本发明可通过分析飞艇的运动特点，对飞艇运动状态空间进行了简化，设计了自适应建立飞艇控制MDP模型的方法；利用Q-Learning算法设计飞艇的航向控制器，直接控制执行机构进行在线学习，同时利用CMAC神经网络对动作值函数进行泛化。这一控制方法能够满足常见飞艇控制任务的需求。控制方案在真实运动数据的基础上建立飞艇控制的MDP模型，具有自适应性，飞艇模型变化后可以自动调整；飞艇控制模型得到合理简化，并利用神经网络对学习成果进行泛化，控制器训练速度较快，约3小时；控制器不需要获取飞艇的动力学模型参数，能够达到与PID控制器精度相当且更为智能的控制效果。本发明对于无人船、水下机器人的控制也具有一定的参考意义。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为：根据本发明实施方式的飞艇观测坐标示意图；

图2为：根据本发明实施方式的飞艇和目标相对位置坐标示意图；

图3为：根据本发明实施方式的飞艇圆弧形航迹图；

图4为：根据本发明实施方式的状态空间S的离散参数表示意图；

图5为：根据本发明实施方式的CMAC神经网络的典型结构图；

图6为：根据本发明实施方式的控制方法流程图。

图中符号说明如下：

O_gx_gy_gz_g为地面惯性坐标系；

O_ax_ay_az_a为气流坐标系，O_a位于飞艇的体心；

O_bx_by_bz_b为艇体坐标系，O_b位于飞艇的体心；

ψ为偏航角；

ψ_a为航向角；

β为侧滑角；

v为飞行速度的方向；

l_r为目标到飞艇的相对距离；

ψ_r为飞艇航向偏离目标的角度；

ψ_t为飞艇航向角与飞艇航向偏离目标角度的差值；

x_d，y_d为目标点位置的横纵坐标；

x_a、y_a为飞艇位置的横纵坐标；

R为飞艇的转弯半径；

O为飞艇转弯的圆心位置；

Δψ_r为航向角的离散精度，由控制要求给出；

T_Δψ为转过Δψ_r角度所需的时间；

ΔL_T为飞艇在T_Δψ时间内垂直初速度方向的位移；

ΔL_H为沿初速度方向的位移；

S为m个离散的状态空间；

W为n个内存地址中储存的权值；

Q(s,a)为在状态s时的a动作值函数估计。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的一种基于Q-Learning算法和神经网络的平流层飞艇控制方法，其具体步骤如下：

步骤一：建立平流层飞艇的观测模型

任务描述和分析：飞艇经过放飞升空等过程后，逐渐稳定于设计高度。飞艇在纵向主要依靠升降舵、自重调节、浮力调节等装置实现高度的控制，在横航向则主要依靠螺旋桨、方向舵和矢量推力装置等实现水平位置和航向的控制。与飞机的运动相比，飞艇的滚转角较小，高度相对稳定，纵向运动和横航向运动耦合小，滚转运动对水平面运动的影响甚微。借鉴既有的处理方式，在航向运动的控制中，不关注滚转运动产生的影响。

如图1所示，绘制飞艇观测坐标系的俯视图。设地面惯性坐标系为O_gx_gy_gz_g，气流坐标系为O_ax_ay_az_a，艇体坐标系为O_bx_by_bz_b，O_a和O_b在飞艇的体心。图1中：ψ为偏航角，ψ_a为航向角，β为侧滑角，x_a的方向在风速为零时与飞行速度v的方向相同。

步骤二：建立飞艇控制的MDP模型，把飞艇控制问题建模为离散的MDP

离散MDP的表示方法：离散的MDP可以用五元数组{S,A,r,P,J}来表示，其中S为根据飞艇的位置、速度和姿态等参数划分而成的状态空间，A为浮空器的可用控制指令组成的动作空间，r为对应状态和行为的回报函数，P为状态之间的转移概率，J为控制决策优化的目标函数。

离散MDP的特性：

选择构成状态空间S的状态参数：本发明采取了类似圆坐标系的建模方法来确定飞艇和目标的相对位置坐标，如图2所示。其中，l_r为目标到飞艇的相对距离，ψ_r为飞艇航向偏离目标的角度，飞艇和目标的相对位置可以用(l_rψ_r)来描述，根据几何关系有：

当采用(l_rψ_r)坐标描述飞艇和目标的相对位置时，状态空间S的主要未知离散参数为l_r、ψ_r的范围，l_r、ψ_r的离散精度Δl_r、Δψ_r以及控制指令执行的单位时间。定义控制指令执行的单位时间为控制步长Tstep。按照以下步骤进行真实运动：在飞艇的额定巡航速度下，将方向舵输入控制为最大偏角，记录飞艇飞行实时位置和姿态，直至飞艇的飞行轨迹近似为圆弧形。得到飞艇的航迹如图3所示。其中，飞艇的转弯半径为R，航向角的离散精度为Δψ_r，Δψ_r应由控制要求给出，设转过Δψ_r角度所需的时间为T_Δψ，ΔL_T为飞艇在T_Δψ时间内垂直初速度方向的位移，ΔL_H为沿初速度方向的位移。

由图3中的几何关系，

ΔL_T＝R(1-cosΔψ_r) (4)

ΔL_H＝RsinΔΨ_r (5)

飞艇航向偏离目标的角度ψ_r的范围为[-π,+π]。控制步长T_step必须足够小，以便飞艇在相邻的离散航向角间实现状态转移，因此有T_step≤T_△ψ，在本发明中取T_step≈T_△ψ。在一个控制步长T_step内，飞艇垂直初速度方向上的位移ΔL_T远小于飞艇沿初速度方向上的位移ΔL_H，l_r的离散精度Δl_r应当足够小以分辨ΔL_T，因此有Δl_r≤ΔL_T，在本发明中取Δl_r≈ΔL_T。目标到飞艇的相对距离l_r应当足够大以保证飞艇的自由运动，考虑到飞艇常见的原地掉头、八字等机动动作，有l_r≥4R，在本发明中取l_r≈4R。通过以上对飞艇运动的分析，飞艇控制MDP模型状态空间S的离散参数确定方法总结如图4所示。

选择其余四个参数A、r、P、J：MDP模型五元数组的其余四个参数A、r、P、J受飞艇模型变化影响有限，可以根据任务的目标灵活调整。动作空间A由方向舵偏角构造；回报函数r由障碍、能耗的负回报值和目标的正回报值等构造；转移概率P取决于动作执行后飞艇的真实运动结果；目标函数J设为总的回报值，设π为动作选择策略，J^*为最优回报值，有：

其中γ∈(0,1)为回报折扣因子。

步骤三：通过Q-Learning算法计算并储存动作值函数的估计

设Q(s,a)为在状态s时的a动作值函数估计，有：

根据运筹学相关理论，Q(s,a)满足如下的Bellman方程：

其中p(s_t,a_t,s_t+1)为在状态s_t下，采取a_t动作，转移到s_t+1状态的概率；r(s_t,a_t,s_t+1)为动作a_t和状态s_t转移到s_t+1的回报值。

对应公式(13)的最优动作估计和最优策略π^*如下：

利用直接梯度下降的方式对Q^π(s,a)进行估计，迭代公式为：

步骤四：为每个动作的函数估计建立一个CMAC神经网络

CMAC神经网络的典型结构如图5所示。其中S为m个离散的状态空间，W为n个内存地址中储存的权值。其真实状态映射到状态空间S中，每个离散的状态S_i对应多个物理地址储存的权值W。设

F_i＝[f_i1,f_i1,…f_ij…f_iN]^T

i＝1,2,…M j＝1,2,…,N

W＝[w₁,w₂,…,w_N]^T (14)

其中f_ij＝1或0表示状态S_i对权值w_j的激活状态。则输出为

利用直接梯度下降的方法，在状态S_t＝S_i时，权值更新公式为

W_t+1＝W_t+α_W(y_t+1-y_t)·F_i (16)

其中α_W为权值学习因子。

为每个动作的函数估计建立一个CMAC神经网络，结合公式(9)和公式(16)，S_t＝S_i时动作k的函数估计和权值更新公式为

步骤五：设计控制策略流程

本发明采用基于Boltzmann分布的随机动作选择方法，设可用动作集为A＝{a_k},(k＝1,2,…)，p(a|s)表示在状态s下选择动作a的概率，则动作选择策略π可以表示为：

其中T_temp为探索常数，类似于模拟退火方法的温度系数，通过逐渐地降低T_temp，能够保证初始情况下较高的探索率，并最终趋于贪心策略。

根据本发明实施方式的控制方法流程如图6所示，其中虚线框内部为控制器的在线训练过程，虚线框以后为实际任务中的控制过程。

在线训练过程包括：建立飞艇控制的MDP模型后，随机设定训练目标，基于选择策略π选择动作，执行动作并获得回报，更新Q(s,a)的输出权值W，判定是否达到终止条件，如果为否，则返回基于选择策略π选择动作，重复上述过程，如果为是，则判定是否训练完成，如果训练未完成，则更新T_temp值，返回则返回基于选择策略π选择动作，重复上述过程，如果训练完成，则进入实际任务中的控制过程，开始输入当前目标。

实际任务中的控制过程包括输入当前目标，基于选择策略π选择动作，执行动作并获得回报，判定是否抵达目标，如果未抵达目标则返回则返回基于选择策略π选择动作，重复上述过程，如果抵达目标则返回输入当前目标的步骤。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于Q-Learning算法和神经网络的平流层飞艇控制方法，包括如下步骤：

所述的五元数组{S,A,r,P,J}中，S为根据飞艇参数划分而成的状态空间，A为浮空器的可用控制指令组成的动作空间，r为对应状态和行为的回报函数，P为状态之间的转移概率，J为控制决策优化的目标函数；

所述离散的MDP的特性为：

p(s_t+1＝s_j|s_t＝s_i,a_t＝a_k,s_t-1,a_t-1,…,s₀,a₀)

＝p(s_t+1＝s_j|s_t＝s_i,a_t＝a_k)

＝p_ij(a_k) (1)

其中p_ij(a_k)称为在s_i状态，采取a_k动作，转移到s_j状态的概率；

对于根据飞艇参数划分而成的状态空间S，其状态参数的确定方法包括：

飞艇和目标的相对位置用(l_r ψ_r)来描述，根据几何关系有：

ΔL_T＝R(1-cosΔψ_r) (4)

ΔL_H＝RsinΔΨ_r (5)

飞艇航向偏离目标的角度ψ_r的范围为[-π,+π]，

目标到飞艇的相对距离l_r应当足够大以保证飞艇的自由运动，考虑到飞艇常见的原地掉头、八字的机动动作，有l_r≥4R，取l_r≈4R，

x_d，y_d为目标点位置的横纵坐标，x_a、y_a为飞艇位置的横纵坐标，ψ_a为航向角，ψ_t为飞艇航向角与飞艇航向偏离目标角度的差值，R为飞艇的转弯半径；

状态s时的a动作值函数估计设为Q(s,a)，有：

Q(s,a)满足如下的Bellman方程：

最优动作估计和最优策略π^*如下：

利用直接梯度下降的方式对Q^π(s,a)进行估计，迭代公式为：

步骤四、为每个动作的函数估计建立一个CAC神经网络，其用于对各种状态下的不同动作进行函数估计和权值更新；

2.如权利要求1所述的方法，其特征在于，在步骤一中所述的飞艇观测坐标系中，地面惯性坐标系为O_gx_gy_gz_g，气流坐标系为O_ax_ay_az_a，艇体坐标系为O_bx_by_bz_b，O_a和O_b在飞艇的体心；ψ为偏航角，ψ_a为航向角，β为侧滑角，x_a的方向在风速为零时与飞行速度v的方向相同。

3.如权利要求1所述的方法，其特征在于，步骤四所述的为每个动作的函数估计建立一个CMAC神经网络包括：S_t＝S_i时动作k的函数估计和权值更新公式为

4.如权利要求1所述的方法，其特征在于，在步骤五中所述设计控制方法流程包括：采用基于Boltzmann分布的随机动作选择方法，设可用动作集为A＝{a_k},(k＝1,2,…)，p(a|s)表示在状态s下选择动作a的概率，则动作选择策略π表示为：