CN110502034B

CN110502034B - 一种基于深度强化学习的固定翼无人机群集控制方法

Info

Publication number: CN110502034B
Application number: CN201910832120.0A
Authority: CN
Inventors: 闫超; 相晓嘉; 王菖; 牛轶峰; 尹栋; 吴立珍; 陈紫叶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-08-09
Anticipated expiration: 2039-09-04
Also published as: CN110502034A

Abstract

本发明公开了一种基于深度强化学习的固定翼无人机群集控制方法，其步骤包括：步骤S1、离线训练阶段：建立随机无人机动力学模型，基于竞争双重Q网络的Q函数评估之后，进行动作选择；所述竞争双重Q网络为D3QN网络；步骤S2、在线执行阶段：构建竞争双重Q网络，并载入训练好的网络模型，所述网络模型和动作选择策略运行在僚机的机载电脑上，长机滚转动作由操控员给出，长机和僚机的自驾仪分别根据各自的滚转动作，直至完成飞行任务。本发明具有较强的实时性和适应性，能够将仿真中训练得到的策略迁移到真实环境等优点。

Description

一种基于深度强化学习的固定翼无人机群集控制方法

技术领域

本发明主要涉及到无人机技术领域，特指一种基于深度强化学习的固定翼无人机群集控制方法。

背景技术

近年来，随着传感器技术、通信技术以及智能控制技术的不断发展，无人机技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点，在灾难搜救、边境巡逻、反恐等领域得到了广泛的应用。由于单架无人机性能的不足，上述任务通常需要多架无人机协同配合方能高效完成。然而，操控多架固定翼无人机需要大量的人力来监控每架飞机的状态，协调多架无人机遂行任务仍面临一定的挑战。

“一致性理论”被广泛用于解决无人机的群集控制问题。但该类方法依赖于平台和扰动的精确模型。这一模型通常具有复杂、时变、非线性的特点，加之传感器误差、环境扰动等随机因素的影响，往往难以精确建模，这严重限制了该类方法在真实世界的适用性。作为代替，应用强化学习方法解决上述矛盾得到了越来越多的关注。

目前，现有基于强化学习的群集控制解决方案主要针对旋翼无人机。与旋翼机相比，由于固定翼无人机的飞行动力学的非完整约束，固定翼无人机群集控制更加复杂，将强化学习算法应用于固定翼无人机协群集控制中的研究成果仍然较少。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种具有较强的实时性和适应性，能够将仿真中训练得到的策略迁移到真实环境中的基于深度强化学习的固定翼无人机群集控制方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于深度强化学习的固定翼无人机群集控制方法，其步骤包括：

步骤S1、离线训练阶段：建立随机无人机动力学模型，基于竞争双重Q网络的Q函数评估之后，进行动作选择；所述竞争双重Q网络为D3QN网络；

步骤S2、在线执行阶段：构建竞争双重Q网络，并载入训练好的网络模型，所述网络模型和动作选择策略运行在僚机的机载电脑上，长机滚转动作由操控员给出，长机和僚机的自驾仪分别根据各自的滚转动作，直至完成飞行任务。

作为本发明的进一步改进：所述离线训练阶段包括如下步骤：

步骤S11、建立随机无人机动力学模型；考虑无人机在恒定高度飞行，动力学模型用简化的四自由度模型描述；在滚转、空速等各个子状态引入随机性，建立随机无人机动力学模型；

步骤S12、基于竞争双重Q网络的Q函数评估；

步骤S13、动作选择；在离线训练阶段，所述动作选择策略使用结合示范教学的ε-greedy策略；即僚机以ε的概率选择最小Q值对应的动作，以1-ε的概率模仿长机动作；所述动作集合为无人机滚转角的变化量，即{+15°，0，-15°}。

作为本发明的进一步改进：所述步骤S12包括：

步骤S121、构建D3QN的主网络和目标网络，并随机初始化网络参数；

步骤S122、在与环境的不断交互中更新网络参数。

作为本发明的进一步改进：所述步骤S122包括：

步骤S1221：持续采集僚机与环境进行交互的历史经验，并存储到经验池中；所述交互过程为：智能体获取长机的状态信息及自身的状态信息，组成联合状态信息z输入到D3QN中，动作选择策略根据D3QN的输出选取僚机的滚转动作a_r；分别将长机的滚转动作随机产生以增加系统的随机性和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态z′和回报函数值g；

步骤S1222：从经验池中进行随机采样，批次更新D3QN的网络参数；每一时间步，应用Adam算法批次更新主网络参数；每隔一定的时间步，对目标网络参数进行软更新，即朝向主网络参数更新目标网络参数；

步骤S1223：当训练回合数达到预设条件时，结束所述更新过程，并保存D3QN的模型参数。

作为本发明的进一步改进：更新过程是以回合为单位进行的；在每一回合的更新过程中，随机初始化长机和僚机的初始状态；当每回合的时间步达到一定步数，该回合结束，重新开始下一回合的学习。

作为本发明的进一步改进：所述步骤S2包括：

步骤S21、僚机通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而组成系统联合状态；

步骤S22、构建竞争双重Q网络，并载入训练好的网络模型；D3QN预测当前状态下所有待选动作的Q值，动作选择策略每隔1s更新僚机滚转指令，即当前状态下最小Q值所对应的动作；所述网络模型和动作选择策略运行在僚机的机载电脑上；长机滚转动作由操控员给出；

步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作，由PID控制器完成底层闭环控制；

步骤S24、重复上述过程，直至完成飞行任务。

与现有技术相比，本发明的优点在于：

1、本发明的基于深度强化学习的固定翼无人机群集控制方法，应用深度强化学习算法在连续状态空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制问题，赋予僚机跟随长机自主飞行的能力。

2、本发明的基于深度强化学习的固定翼无人机群集控制方法，具有较强的实时性和适应性，能够将仿真中训练得到的策略迁移到真实环境中，赋予僚机跟随长机自主飞行的能力。

3、本发明的基于深度强化学习的固定翼无人机群集控制方法，不依赖平台和环境的精确模型，能够在连续状态空间中解决固定翼无人机的群集控制问题。仿真中训练得到的策略直接应用到真实环境中，具有较强的实时性和适应性。本发明能够赋予僚机跟随长机自主飞行的能力，大大减少无人机操控员的工作负担，对于无人机多机编队协同遂行任务具有重要意义。

4、本发明的基于深度强化学习的固定翼无人机群集控制方法在应用之后，在无人机编队飞行过程中，僚机通过通信链路获取长机的位置和姿态信息，并通过传感器获取自身位置和姿态信息。基于深度强化学习的群集控制器根据上述信息，计算出僚机最佳滚转角期望值，然后由底层飞控完成闭环控制。本发明可有效提高僚机的自主决策能力，具有较高的鲁棒性能和应用价值。

附图说明

图1是本发明实施例中长机与僚机期望位置关系图；

图2是本发明实施例训练阶段僚机-环境交互示意图；

图3是本发明实施例中D3QN网络结构示意图；

图4是本发明实施例中1架长机与2架僚机飞行轨迹图。

图5是本发明方法的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1和图5所示，本发明的一种基于深度强化学习的固定翼无人机群集控制方法，其步骤包括：

步骤S1、离线训练阶段：建立随机无人机动力学模型，基于竞争双重Q网络(D3QN，Dueling Double Deep Q-Network)的Q函数评估之后，进行动作选择；

在具体应用实例中，所述离线训练阶段包括如下步骤：

步骤S11、建立随机无人机动力学模型；

考虑无人机在恒定高度飞行，其动力学模型可用简化的四自由度模型描述；为弥补简化带来和精度损失，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机性，建立随机无人机动力学模型。

步骤S12、基于竞争双重Q网络(D3QN)的Q函数评估；

步骤S121、构建D3QN的主网络和目标网络，并随机初始化网络参数。

步骤S122、在与环境的不断交互中更新网络参数。

步骤S13、动作选择；

在离线训练阶段，所述动作选择策略使用结合示范教学的ε-greedy策略。具体而言，僚机以ε的概率选择最小Q值对应的动作，以1-ε的概率模仿长机动作。所述动作集合为无人机滚转角的变化量，即{+15°，0，-15°}。所述动作选择策略减少了训练阶段探索过程的盲目性，提高了训练效率。

进一步的，在具体应用实例中，所述步骤S122中D3QN网络参数的更新过程为：

步骤S1221：持续采集智能体(僚机)与环境进行交互的历史经验，并存储到经验池中。所述交互过程为：智能体获取长机的状态信息及自身的状态信息，组成联合状态信息z输入到D3QN中，动作选择策略根据D3QN的输出选取僚机的滚转动作a_r；分别将长机(长机的滚转动作随机产生以增加系统的随机性)和僚机的滚转指令输入随机无人机动力学模型，得到长机和僚机下一时刻的状态z′和回报函数值g。所述历史经验为四元组(z,a_r,g,z′)。

步骤S1222：从经验池中进行随机采样，批次更新D3QN的网络参数。每一时间步，应用Adam算法批次更新主网络参数；每隔一定的时间步，对目标网络参数进行软更新，即朝向主网络参数更新目标网络参数。

所述更新过程是以回合为单位进行的。在每一回合的更新过程中，随机初始化长机和僚机的初始状态。当每回合的时间步达到一定步数，该回合结束，重新开始下一回合的学习。

在具体应用实例中，步骤S2在线执行阶段的具体实现步骤如下：

步骤S21、僚机通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而组成系统联合状态。

步骤S22、构建竞争双重Q网络，并载入训练好的网络模型。D3QN预测当前状态下所有待选动作的Q值，动作选择策略每隔1s更新僚机滚转指令，即当前状态下最小Q值所对应的动作。所述网络模型和动作选择策略运行在僚机的机载电脑上；长机滚转动作由操控员给出。

步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作，由PID控制器完成底层闭环控制。

步骤S24、重复上述过程，直至完成飞行任务。

以一个具体应用实例来说明本发明的方法，如图1所示，本实施例在以下场景想定下进行固定翼无人机群集控制：系统采用Leader-Follower拓扑，即编队中由一架长机和若干架僚机组成；不同无人机在不同的固定高度层以恒定速度飞行，以此来消解飞机之间的碰撞问题，因此僚机可使用相同的控制策略；滚转角是唯一的控制量，每一架无人机均配备有自驾仪，用于完成滚转指令的底层闭环控制；长机根据操控员的滚转指令飞行，并通过无线通信链路将其状态信息广播给僚机；僚机通过传感器获取自身状态信息，并联合获取的长机信息组成系统状态，自主确定当前状态的最佳滚转角设定值，以维持僚机与长机之间的合理位置关系(d₁<ρ<d₂)。

本发明基于深度强化学习框架，在连续状态空间下解决固定翼无人机群集控制问题。所述解决方案分为离线训练阶段和在线执行阶段两个阶段：

所述训练阶段主要包括以下步骤：

步骤S11：建立随机无人机动力学模型；

考虑无人机在恒定高度飞行，其动力学模型可用简化的四自由度模型描述；为弥补简化带来和精度损失，同时考虑环境扰动的影响，故而在滚转、空速等各个子状态引入随机性，建立随机无人机动力学模型：

式中：(x,y)表示无人机的xy平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；s代表无人机的空速，空速服从正态分布

扰动项(η_x,η_x,η_ψ)分别服从正态分布

和

模拟无人机位置和航向因环境因素而产生的扰动；函数f(φ,r)定义了期望滚转角r(输入)与实际滚转角φ(响应)之间的关系，该关系可根据真实飞机滚转指令的实际响应情况确定。在本实施例中，使用二阶系统模拟无人机滚转通道的动态响应，并假设二阶系统的无阻尼自然频率ω_n和阻尼系数ζ分别服从正态分布

和

所述随机项的引入使得该响应更具真实性。

步骤S12：基于竞争双重Q网络(D3QN)的Q函数评估；

步骤S121：构建竞争双重Q网络。如图3所示，在本实施例中，所述D3QN由两个子网络组成：多层感知机和竞争网络。所述多层感知机包含三层全连接层，隐含节点数分别为64、256和128，激活函数均使用ReLU，其表达式为f(x)＝max(0,x)。所述竞争网络包含两个分支：状态值函数分支和优势函数分支。状态值函数分支和优势函数分支均包含两层全连接层。两分支第一全连接层的隐含节点数均为64，且均使用ReLU激活函数。状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和3，分别表示当前状态的值函数和当前状态下3个待选动作的优势函数。所述竞争网络输出层的输出为当前状态下各个待选动作的Q值，其计算公式为：

其中，V(s)为状态值函数分支输出的当前状态的值函数；A(s,a)为优势函数分支输出的当前状态下各个待选动作的Q值；

表示待选动作集合的大小，在本实施例中，

步骤S122：随机初始化D3QN主网络的参数θ，初始化目标网络参数θ^-←θ。

步骤S123：在与环境的不断交互中更新网络参数。

步骤S13：动作选择；

进一步的，所述步骤S123中D3QN网络参数的更新过程为：

步骤1：建立容量为N的数据缓存区D用于保存历史经验，初始化为空。在本实施例中，N＝100000。

步骤2：持续采集智能体(僚机)与环境进行交互的历史经验，并存储到经验池中。

如图2所示，在离线训练阶段，所述交互过程为：

步骤2-1：智能体(僚机)获取长机的状态信息ξ_f:＝(x_f,y_f,ψ_f,φ_f)及自身的状态信息ξ_l:＝(x_l,y_l,ψ_l,φ_l)，组成联合状态信息z:＝(z₁,z₂,z₃,z₄,z₅,z₆)：

式中：(z₁,z₂)表示僚机相对于长机的平面位置；z₃表示僚机与长机航向角之差；r_l表示长机的滚转指令，即其即将执行的滚转角设定值。在本实施例中，所述长机滚转指令r_l在训练时随机生成，以增加系统的随机性。

步骤2-2：动作选择策略，即结合示范教学的ε-greedy策略输出当前状态下僚机的滚转动作a_r，进而根据式(5)计算僚机的滚转角设定值：

其中，φ_f表示僚机当前滚转角；r_bd表示僚机滚转角的边界值，即滚转角设定值的范围被限定在[-r_bd,r_bd]之间。为避免滚转角的剧烈变化影响无人机的安全飞行，在本实施例中，r_bd＝30°；探索参数ε在10000回合内从0.5线性衰减到0.1，并在此之后固定为0.1。

步骤2-3：根据长机和僚机的滚转角设定值，由无人机动力学模型计算得出下一时刻的状态；进而由式(4)得出下一时刻系统联合状态z'，回报函数值g可由式(6)得出：

其中，参数d₁和d₂分别定义了圆环的内半径和外半径(以长机为中心，见图1)；ρ表示长机与僚机之间的距离；d表示僚机到圆环的距离；ω是调整因子，用以调整d的权重。在本实施例中，d₁＝40，d₁＝60，ω＝0.05。

步骤2-4：将历史经验数据(z,a_r,g,z′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量，则使用最新的经验数据取代最老的经验数据。

步骤3：从经验池中随机进行批次采样，批次更新D3QN的网络参数。

每一时间步，应用Adam算法根据损失函数批次更新主网络参数。所述损失函数L定义为

其中

y_j＝g+γQ(s′,arg max_a′Q(s′,a′；θ)；θ^-) (8)

式中：N_b表示Batch size，0≤γ≤1代表折扣因子。

每隔一定的时间步N^-，对目标网络参数进行软更新，即朝向主网络参数θ缓慢更新目标网络参数θ^-：

θ^-←τθ+(1-τ)θ^- (9)

其中，τ为软更新率。

在本实施例中，N_b＝32，γ＝0.9，N^-＝4；主网络的学习率和目标网络的软更新率τ每隔5000回合指数衰减一次，衰减率为0.9。

步骤4：当训练回合数达到预设条件时，结束所述更新过程，并保存D3QN的模型参数。

所述更新过程是以回合为单位进行的。在每一回合的更新过程中，随机初始化长机和僚机的初始状态。当每回合的时间步达到一定步数，该回合结束，重新开始下一回合的学习。在本实施例中，训练阶段共进行100000次回合的训练，每回合的最大时间步数为30。

所述在线执行阶段的主要实现步骤如下：

步骤S21：僚机通过传感器获取自身位置和姿态信息，并通过通信链路获取长机的位置和姿态信息，进而根据式(4)计算系统联合状态。

步骤S22：构建竞争双重Q网络，并载入训练好的网络模型。D3QN预测当前状态下所有待选动作的Q值，动作选择策略每隔1s更新滚转指令，即最小Q值所对应的动作。长机滚转角设定值由操控员给出。

步骤S23：长机和僚机的自驾仪根据各自的滚转角设定值，由PID控制器完成底层闭环控制。

步骤S24：重复上述过程，直至完成飞行任务。在本实施例中，飞行任务共持续120s，所得飞行轨迹图如图3所示。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的固定翼无人机群集控制方法，其特征在于，步骤包括：

步骤S2、在线执行阶段：构建竞争双重Q网络，并载入训练好的网络模型，所述网络模型和动作选择策略运行在僚机的机载电脑上，长机滚转动作由操控员给出，长机和僚机的自驾仪分别根据各自的滚转动作，直至完成飞行任务；

所述离线训练阶段包括如下步骤：

步骤S11、建立随机无人机动力学模型；考虑无人机在恒定高度飞行，动力学模型用简化的四自由度模型描述；在滚转、空速各个子状态引入随机性，建立随机无人机动力学模型；

步骤S12、基于竞争双重Q网络的Q函数评估；

步骤S13、动作选择；在离线训练阶段，所述动作选择策略使用结合示范教学的ε-greedy策略；即僚机以ε的概率选择最小Q值对应的动作，以1-ε的概率模仿长机动作；所述动作集合为无人机滚转角的变化量，即{+15°，0，-15°}；

所述步骤S12包括：

步骤S122、在与环境的不断交互中更新网络参数。

2.根据权利要求1所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述步骤S122包括：

3.根据权利要求2所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，更新过程是以回合为单位进行的；在每一回合的更新过程中，随机初始化长机和僚机的初始状态；当每回合的时间步达到一定步数，该回合结束，重新开始下一回合的学习。

4.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述步骤S2包括：

步骤S24、重复上述过程，直至完成飞行任务。

5.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法，其特征在于，所述D3QN网络由两个子网络组成：多层感知机和竞争网络；所述多层感知机包含三层全连接层，隐含节点数分别为64、256和128，激活函数均使用ReLU，其表达式为f(x)＝max(0,x)；所述竞争网络包含两个分支：状态值函数分支和优势函数分支；状态值函数分支和优势函数分支均包含两层全连接层；两分支第一全连接层的隐含节点数均为64，且均使用ReLU激活函数；状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和3，分别表示当前状态的值函数和当前状态下3个待选动作的优势函数。