CN110502033B

CN110502033B - 一种基于强化学习的固定翼无人机群集控制方法

Info

Publication number: CN110502033B
Application number: CN201910832116.4A
Authority: CN
Inventors: 王菖; 闫超; 相晓嘉; 牛轶峰; 尹栋; 吴立珍; 陈紫叶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-08-09
Anticipated expiration: 2039-09-04
Also published as: CN110502033A

Abstract

本发明公开了一种基于强化学习的固定翼无人机群集控制方法，其包括：步骤S1、训练阶段：建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络，持续采集智能体与环境进行交互的历史经验，并存储到经验池中；从经验池中随机进行批次采样，不断更新执行器和评价器的网络参数，最终形成保存评价器网络模型；步骤S2、执行阶段：僚机通过传感器获取自身位置和姿态信息，载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作，长机滚转角设定值由操控员给出；直至完成飞行任务。本发明具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中等优点。

Description

一种基于强化学习的固定翼无人机群集控制方法

技术领域

本发明主要涉及到无人机技术领域，特指一种基于强化学习的固定翼无人机群集控制方法。

背景技术

近年来，随着传感器技术、通信技术以及智能控制技术的不断发展，无人机技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点，在灾难搜救、边境巡逻、反恐等领域得到了广泛的应用。由于单架无人机性能的不足，上述任务通常需要多架无人机协同配合方能高效完成。然而，操控多架固定翼无人机需要大量的人力来监控每架飞机的状态，协调多架无人机遂行任务仍面临一定的挑战。

一致性理论被广泛用于解决无人机的群集控制问题。但该类方法依赖于平台和扰动的精确模型。这一模型通常具有复杂、时变、非线性的特点，加之传感器误差、环境扰动等随机因素的影响，往往难以精确建模，这严重限制了该类方法在真实世界的适用性。作为代替，应用强化学习方法解决上述矛盾得到了越来越多的关注。现有基于强化学习的群集控制解决方案主要针对旋翼无人机。与旋翼机相比，由于固定翼无人机的飞行动力学的非完整约束，固定翼无人机群集控制更加复杂，将强化学习算法应用于固定翼无人机协群集控制中的研究成果仍然较少。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中的基于强化学习的固定翼无人机群集控制方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于强化学习的固定翼无人机群集控制方法，其包括：

步骤S1、训练阶段：建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络，持续采集智能体与环境进行交互的历史经验，并存储到经验池中；从经验池中随机进行批次采样，不断更新执行器和评价器的网络参数，最终形成保存评价器网络模型；

步骤S2、执行阶段：僚机通过传感器获取自身位置和姿态信息，载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作，长机滚转角设定值由操控员给出；直至完成飞行任务。

作为本发明的进一步改进：所述步骤S1中包括：

步骤S11、考虑无人机在恒定高度飞行，其动力学模型用简化的四自由度模型描述；在滚转、空速各个子状态引入随机性，建立随机无人机动力学模型；

步骤S12、分别建立执行器深度神经网络和评价器深度神经网络，将输入状态映射到输出动作和该状态的累计折扣回报，并随机初始化网络参数；

步骤S13、持续采集智能体与环境进行交互的历史经验，所述智能体为僚机，并存储到经验池中；

步骤S14、从经验池中随机进行批次采样，应用Adam算法不断更新执行器和评价器的网络参数；所有样本均会用于更新评价器网络的参数，但只有TD误差为正的样本才会使执行器的网络参数发生改变；

步骤S15、当训练情节数达到预设条件时，结束所述交互过程，并保存评价器网络的模型参数。

作为本发明的进一步改进：所述步骤S13中，所述历史经验为四元组(z_k,a_k,g_k,z_k+1)，其中z_k为当前状态，a_k为执行动作，g_k为执行动作a_k获取的回报，z_k+1为执行动作a_k后达到的状态；所述交互过程为：长机的滚转动作随机产生以增加系统的随机性；智能体获取长机的状态信息及自身的状态信息，组成联合状态信息输入到执行器中，高斯探索策略根据执行器输出选取僚机的滚转动作；分别将长机和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态和回报函数值。

作为本发明的进一步改进：所述建立执行器网络，执行器对应动作选择策略，使用多层感知机将输入状态映射到输出动作；所述执行器MLP包括1层输入层、4层隐含层和1层输出层；隐含层的节点数分别取128、256、256和64；隐含层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)；输出层使用tanh激活函数，其表达式为f(x)＝(e^x-e^-x)/(e^x+e^-x)，以保证评价器输出值在[-1,+1]之间，线性放大后即映射到滚转动作空间。

作为本发明的进一步改进：所述建立评价器网络，评价器对应价值函数，使用MLP将输入状态映射到该状态的累计折扣回报

所述评价器MLP包括1层输入层、4层隐含层和1层输出层；隐含层的节点数分别取128、256、256和64；隐含层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)；输出层使用linear激活函数，其表达式为：f(x)＝x。

作为本发明的进一步改进：所述步骤S2中包括：

步骤S21、智能体通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而组成系统联合状态；

步骤S22、载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作；长机滚转角设定值由操控员给出；

步骤S23、长机和僚机的自驾仪根据各自的滚转角设定值，由PID控制器完成底层闭环控制；

步骤S24、重复上述过程，直至完成飞行任务。

作为本发明的进一步改进：所述评价器网络模型运行在僚机机载电脑上，输出的滚转指令每隔1s更新一次。

与现有技术相比，本发明的优点在于：

1、本发明的一种基于强化学习的固定翼无人机群集控制方法，应用强化学习算法在连续状态空间和动作空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制问题，赋予僚机跟随长机自主飞行的能力。

2、本发明的一种基于强化学习的固定翼无人机群集控制方法，具有较强的实时性和适应性，能够将仿真中训练得到的策略迁移到真实环境中，赋予僚机跟随长机自主飞行的能力。

3、本发明的一种基于强化学习的固定翼无人机群集控制方法，不依赖平台和环境的精确模型，能够在连续状态空间和动作空间下解决固定翼无人机的群集控制问题。仿真中训练得到的策略直接应用到真实环境中，具有较强的实时性和适应性。本发明能够赋予僚机跟随长机自主飞行的能力，大大减少无人机操控员的工作负担，对于无人机多机编队协同遂行任务具有重要意义。

附图说明

图1是长机与僚机期望位置关系图。

图2是训练阶段僚机-环境交互示意图。

图3是1架长机与2架僚机飞行轨迹图。

图4是本发明方法的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1和图4所示，本发明的一种基于强化学习的固定翼无人机群集控制方法，包括：

在具体应用实例中，所述训练阶段的具体实现步骤如下：

步骤S11、考虑无人机在恒定高度飞行，其动力学模型可用简化的四自由度模型描述；为弥补简化带来和精度损失，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机性，建立随机无人机动力学模型。

步骤S12、分别建立执行器深度神经网络和评价器深度神经网络，将输入状态映射到输出动作(Act^*:S→A，其中Act^*代表输入状态s的最优动作)和该状态的累计折扣回报

并随机初始化网络参数。

步骤S13、持续采集智能体(僚机)与环境进行交互的历史经验，并存储到经验池中。所述历史经验为四元组(z_k,a_k,g_k,z_k+1)，其中z_k为当前状态，a_k为执行动作，g_k为执行动作a_k获取的回报，z_k+1为执行动作a_k后达到的状态；所述交互过程为：长机的滚转动作随机产生以增加系统的随机性；智能体获取长机的状态信息及自身的状态信息，组成联合状态信息输入到执行器中，高斯探索策略根据执行器输出选取僚机的滚转动作；分别将长机和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态和回报函数值。

步骤S14、从经验池中随机进行批次采样，应用Adam算法不断更新执行器和评价器的网络参数。所有样本均会用于更新评价器网络的参数，但只有TD误差为正的样本才会使执行器的网络参数发生改变。所述经验回放技术克服了经验数据的相关性，并提高了经验的利用率。

在具体应用实例中，所述执行阶段的具体实现步骤如下：

步骤S21、智能体通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而组成系统联合状态。

步骤S22、载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作；所述评价器网络模型运行在僚机机载电脑上，输出的滚转指令每隔1s更新一次；长机滚转角设定值由操控员给出。

步骤S23、长机和僚机的自驾仪根据各自的滚转角设定值，由PID控制器完成底层闭环控制。

步骤S24、重复上述过程，直至完成飞行任务。

以一个具体应用实例为例来说明本发明的方法，如图1所示，本实施例在以下场景想定下进行固定翼无人机群集控制：系统采用Leader-Follower拓扑，即编队中由一架长机和若干架僚机组成；不同无人机在不同的固定高度层以恒定速度飞行，以此来消解飞机之间的碰撞问题，因此僚机可使用相同的控制策略；滚转角是唯一的控制量，每一架无人机均配备有自驾仪，用于完成滚转指令的底层闭环控制；长机根据操控员的滚转指令飞行，并通过无线通信链路将其状态信息广播给僚机；僚机通过传感器获取自身状态信息，并联合获取的长机信息组成系统状态，自主确定当前状态的最佳滚转角设定值，以维持僚机与长机之间的合理位置关系(d₁＜ρ＜d₂)。

本发明基于执行器-评价器强化学习框架，在连续状态空间和动作空间下解决固定翼无人机群集控制问题。所述解决方案分为训练阶段和执行阶段两个阶段：

所述训练阶段主要包括以下步骤：

步骤I-1：考虑无人机在恒定高度飞行，其动力学模型可用简化的四自由度模型描述；为弥补简化带来和精度损失，同时考虑环境扰动的影响，故而在滚转、空速等各个子状态引入随机性，建立随机无人机动力学模型：

式中：(x,y)表示无人机的xy平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；s代表无人机的空速，空速服从正态分布

扰动项(η_x,η_x,η_ψ)分别服从正态分布

和

模拟无人机位置和航向因环境因素而产生的扰动；函数f(φ,r)定义了期望滚转角r(输入)与实际滚转角φ(响应)之间的关系：使用二阶系统模拟无人机滚转通道的动态响应，并引入随机项使得该响应更具真实性。假定二阶系统的无阻尼自然频率ω_n和阻尼系数ζ分别服从正态分布

和

所需参数根据真实飞机滚转指令的实际响应情况确定。

步骤I-2：建立执行器深度神经网络和评价器深度神经网络。

步骤I-2-1：建立执行器网络。执行器对应动作选择策略，在本实施例中，使用多层感知机(MLP)将输入状态映射到输出动作(Act^*:S→A，其中Act^*代表输入状态s的最优动作)。所述执行器MLP包括1层输入层、4层隐含层和1层输出层；隐含层的节点数分别取128、256、256和64；隐含层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)；输出层使用tanh激活函数，其表达式为f(x)＝(e^x-e^-x)/(e^x+e^-x)，以保证评价器输出值在[-1,+1]之间，线性放大后即可映射到滚转动作空间。

步骤I-2-2：建立评价器网络。评价器对应价值函数，在本实施例中，同样使用MLP将输入状态映射到该状态的累计折扣回报

步骤I-2-3：随机初始化评价器网络和评价器网络的权值和阈值参数。

步骤I-3：持续采集智能体(僚机)与环境进行交互的历史经验，并存储到经验池中。所述历史经验为四元组(s_k,a_k,r_k,s_k+1)，其中s_k为当前状态，a_k为执行动作，r_k为执行动作a_k获取的回报，s_k+1为执行动作a_k后达到的状态；如图2所示，在训练阶段，所述交互过程为：

步骤I-3-1：建立容量为N的数据缓存区D用于保存历史经验，初始化为空。

步骤I-3-2：智能体获取长机的状态信息ξ_f:＝(x_f,y_f,ψ_f,φ_f)及自身的状态信息ξ_l:＝(x_l,y_l,ψ_l,φ_l)，组成联合状态信息z:＝(z₁,z₂,z₃,z₄,z₅,z₆)：

式中：(z₁,z₂)表示僚机相对于长机的平面位置；z₃表示僚机与长机航向角之差；r_l表示长机的滚转指令，即其即将执行的滚转角设定值。该值在训练时随机生成，以增加系统的随机性。

步骤I-3-3：采用高斯探索策略根据执行器输出Act_k(z_k)选择僚机的滚转动作：

其中，σ为探索参数，表示高斯分布的宽度。在本实施例中，动作空间是一维的。

步骤I-3-4：根据高斯探索策略的输出，即僚机的滚转动作a_r，计算僚机的滚转角设定值：

其中，φ_l表示僚机当前滚转角；a_max表示僚机滚转角单步最大变化量，即僚机每次可在[-a_max,+a_max]的范围内改变自身滚转角；r_bd表示僚机机滚转角的边界值，即滚转角设定值的范围被限定在[-r_bd,r_bd]之间。为避免滚转角的剧烈变化影响无人机的安全飞行，在本实施例中，a_max＝15°，r_bd＝30°。

步骤I-3-5：根据长机和僚机的滚转角设定值，由无人机动力学模型计算得出下一时刻的状态；进而由式(2)得出下一时刻系统联合状态z'，回报函数值g可由式(5)得出：

其中，参数d₁和d₂分别定义了圆环的内半径和外半径(以长机为中心，见图1)；ρ表示长机与僚机之间的距离；d表示僚机到圆环的距离；ω是调整因子，用以调整d的权重。在本实施例中，d₁＝40，d₁＝60，ω＝0.05。

步骤I-3-6：将历史经验数据(z,a_r,g,z′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量，则使用最新的经验数据取代最老的经验数据。

步骤I-4：从经验池中随机进行批次采样，应用Adam算法不断更新执行器和评价器的网络参数。在本实施例中，Batch size设置为32，损失函数类型为MSE。所述评价器网络的更新目标为：

Target^V(s_k)＝r_k+γ·V_k(s_k+1) (6)

则其更新公式为：

V_k+1(s_k)＝V_k(s_k)+βδ^k (7)

其中：

δ^k＝Target^V(s_k)-V_k(s_k) (8)

式中：0≤γ≤1代表折扣因子；0≤β≤1表示评价器的学习率；δ^k表示当前的TD误差。

与评价器网络的更新方式不同，执行器网络仅在TD误差大于零时进行更新，其更新目标为：

Target^A(s_k)＝a_k ifδ^k＞0 (9)

则其更新公式为：

式中：0≤α≤1表示执行器的学习率。

步骤I-5：当训练情节数达到期望次数时，结束所述交互过程，并保存评价器网络的模型参数。

所述执行阶段的主要实现步骤如下：

步骤II-1：智能体(僚机)通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而根据式(2)计算系统联合状态。

步骤II-2：载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作，进而根据式(4)得出滚转角设定值；所述评价器网络模型运行在僚机机载电脑上，输出的滚转指令每隔1s更新一次；长机滚转角设定值由操控员给出。

步骤II-3：长机和僚机的自驾仪根据各自的滚转角设定值，由PID控制器完成底层闭环控制。

步骤II-4：重复上述过程，直至完成飞行任务。在本实施例中，飞行任务共持续120s，所得飞行轨迹图如图3所示。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于强化学习的固定翼无人机群集控制方法，其特征在于，包括：

步骤S2、执行阶段：僚机通过传感器获取自身位置和姿态信息，载入评价器网络模型，评价器根据当前系统联合状态输出僚机最佳滚转动作，长机滚转角设定值由操控员给出；直至完成飞行任务；

所述步骤S1中包括：

步骤S15、当训练情节数达到预设条件时，结束交互过程，并保存评价器网络的模型参数；

所述步骤S2中包括：

步骤S24、重复上述过程，直至完成飞行任务。

2.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法，其特征在于，所述步骤S13中，所述历史经验为四元组(z_k,a_k,g_k,z_k+1)，其中z_k为当前状态，a_k为执行动作，g_k为执行动作a_k获取的回报，z_k+1为执行动作a_k后达到的状态；所述交互过程为：长机的滚转动作随机产生以增加系统的随机性；智能体获取长机的状态信息及自身的状态信息，组成联合状态信息输入到执行器中，高斯探索策略根据执行器输出选取僚机的滚转动作；分别将长机和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态和回报函数值。

3.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法，其特征在于，所述建立执行器深度神经网络，执行器对应动作选择策略，使用多层感知机将输入状态映射到输出动作；执行器MLP包括1层输入层、4层隐含层和1层输出层；隐含层的节点数分别取128、256、256和64；隐含层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)；输出层使用tanh激活函数，其表达式为f(x)＝(e^x-e^-x)/(e^x+e^-x)，以保证评价器输出值在[-1,+1]之间，线性放大后即映射到滚转动作空间。

4.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法，其特征在于，所述建立评价器深度神经网络，评价器对应价值函数，使用MLP将输入状态映射到该状态的累计折扣回报；评价器MLP包括1层输入层、4层隐含层和1层输出层；隐含层的节点数分别取128、256、256和64；隐含层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)；输出层使用linear激活函数，其表达式为：f(x)＝x。

5.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法，其特征在于，所述评价器网络模型运行在僚机机载电脑上，输出的滚转指令每隔1s更新一次。