CN114661066A

CN114661066A - 一种基于强化学习的无人机集群智能避障方法

Info

Publication number: CN114661066A
Application number: CN202210404067.6A
Authority: CN
Inventors: 赵伟伟
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-06-24
Anticipated expiration: 2042-04-18
Also published as: CN114661066B

Abstract

本发明提供了一种基于强化学习的无人机集群智能避障方法，通过将集群算法和单智能体强化学习算法相结合，实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者，强化学习算法控制集群中的领航者完成智能避障，并为集群无人机提供导航信息，无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。

Description

一种基于强化学习的无人机集群智能避障方法

技术领域

本发明涉及多无人机协同控制领域，特别涉及一种基于强化学习的无人机集群智能避障方法。

背景技术

生物集群行为是自然界中存在的一种普遍现象，是群居性生物群体为适应生存环境，历经长期演化后与生俱来的生存本领，如鸟群、鱼群等。1986年，Reynolds提出了三种启发式的集群控制规则：内聚、分离和对齐。在此基础上，又有很多学者提出了多种集群模型，其中极具代表性的是Olfati-Saber提出的集群控制算法。近年来，由于无人机越来越高的自主性和智能性，在军事和民用领域的应用价值越来越受到人们的关注和重视，而无人机集群因为能够完成更高难度和危险性的任务，引起了众多研究者的兴趣。

无人机集群控制算法对集群中无人机的控制输入主要包括避障控制、集群控制和跟踪领航者。领航者是对已规划好后的轨迹进行跟踪的虚拟智能体。避障控制是为了使集群能够避开障碍物，这种集群避障方法容易陷入局部最优。

发明内容

本发明的目的在于提供一种在多障碍物环境中无人机集群智能避障的方法，提高无人机集群避障性能和一致性性能，提升无人机集群应对环境的适应能力。

为了实现上述目的，本发明采用的技术方案为：

一种无人机集群智能避障方法，集群中无人机保持集群运动并跟踪虚拟领航者，无人机不具有避障能力，将对环境的探测信息传递给虚拟领航者，使用强化学习算法训练虚拟领航者，虚拟领航者为集群无人机提供导航引导信息，实现无人机集群智能避障。

具体的，该方法包括以下步骤：

(1)设置无人机集群中虚拟领航者的控制算法，速度限制在10m/s～100m/s，对虚拟领航者设置目标点，为集群提供导航信息；使用强化学习算法控制虚拟领航者，无人机对环境的探测信息为虚拟领航者提供状态信息，作为训练虚拟领航者时的状态输入，输出的是虚拟领航者的速度向量，作为强化学习算法的动作空间，将集群的位置特征用集群的中心位置替代，据此设计状态空间，包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置；

(2)无人机集群跟踪虚拟领航者，完成避障，并为领航者提供环境信息，保持机间距离，实现无人机集群智能避障。

步骤(1)中，动作空间是虚拟领航者的速度向量，并考虑速度限制和运动限制，设计网络的输出包含[V，α，β]，其中角度[α，β]限制在[-πrad，πrad]，由此得到虚拟领航者的速度向量[Rcosα，Rsinαsinβ，Rsinαcosα]；

设计奖励函数如下：

R＝R_obstacle+R_leader+R_center

奖励函数包含三部分内容，R_leader用于奖励虚拟领航者接近目的地，R_center用于奖励集群缩小与虚拟领航者之间的距离，R_obstacle用于奖励集群避开障碍物；

设计神经网络，神经网络包括Critic网络和Actor网络；其中，Critic网络首先使用LSTM层来处理输入，然后使用两个全连接层，并使用Tanh层作为它们的激活函数；Actor网络由一个LSTM层和一个全连接层及TanH层组成，网络的输出是一个正态分布的均值，这个分布的方差矩阵是C＝c₃I，其中I是单位矩阵，c₃是一个正常数；

根据奖励函数，构建损失函数如下：

步骤(2)中，集群控制算法包括两部分，其一是控制集群中无人机保持机间距离，其二是控制集群跟踪虚拟领航者，具体来说无人机的输入如下：

式中，α智能体表示集群中的任意智能体，γ智能体表示虚拟领航者，

表示α智能体之间的交互项，

表示虚拟领航者对集群的导航反馈项。

本发明的有益效果在于：

1、本发明使用集群控制算法控制无人机集群，并跟踪虚拟领航者，并使用强化学习算法PPO控制虚拟领航者，能够保持机间距离并跟踪虚拟领航者。

2、本发明使用强化学习算法PPO来训练虚拟领航者，设计了强化学习算法的状态空间、动作空间，设计了能提升虚拟领航者适应能力和避障能力的奖励函数，从而能够使无人机集群中虚拟领航者具有学习和探索能力。

3、本发明将集群算法和单智能体强化学习算法相结合，实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者，强化学习算法控制集群中的领航者完成智能避障，并为集群无人机提供导航信息，无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例方法的原理示意图；

图2为本发明实施例中网络的结构示意图；

图3是本发明实施例的场景示意图。

具体实施方式

下面，结合附图和具体实施方式对本发明做进一步的说明。

如图1-3所示，一种基于强化学习的无人机集群智能避障方法，包括以下步骤：

步骤一：集群控制方法

在三维空间中，智能体的运动模型如下所示：

其中q_i，p_i，和u_i∈Rⁿ分别表示第i智能体的位置、速度和控制输入向量。每个智能体仅能和在其通讯范围内的邻近个体进行通信，智能体i在t时刻的临近个体集合表示如下：

其中||·||表示欧拉距离，r表示智能体间的最大交互半径。在集群中每个智能体和其临近个体之间的距离需要满足以下约束：

其中d是正常数表示智能体间的最小允许距离，并且d≤r。

在障碍物环境中，多智能体系统中的每个智能体的输入如公式(4)所示。

其中α，γ表示三种类型的智能体。α智能体表示集群中的任意智能体，γ智能体表示虚拟领航者。

表示α智能体之间的交互项，

表示虚拟领航者对集群的导航反馈项。

具体有如下定义：

使多智能体系统中的智能体聚合，并由两部分组成，第一部分将智能体之间的距离设置为期望的距离，第二部分使智能体的速度和其临近智能体速度一致。第一部分的表达式如下：

其中H，∈_α，

和

是正常数，H的值通常大于，引入ρ_H(q_i)可以有效防止集群碎片化。当智能体之间的距离增大时，ρ_H(q_i)的值也会快速增加。

的第二组成部分是

ρ_h(z)是一种冲击函数，如下所示：

是为了使智能体追踪虚拟领航者，

和

是正常数，q_γ和p_γ分别表示虚拟领航者的位置和速度，σ₁(q_i-q_γ)和Q_h有如下表示：

Q_h的目的是为了缩小智能体与领航者之间的高度差。

为了将多智能体集群算法应用于无人机群，需要建立起无人机运动模型与智能体运动模型之间的关系。固定翼无人机的简化动力学模型如下所示。

其中[x_i，y_i，h_i]，V_i，ψ_i，和

分别表示位置、速度、航向角、和第i无人机的高度变化率。

和

分别表示相应自动驾驶仪的速度、航向角和高度的输入命令。τ_ψ，τ_v和

是相应输入命令航向角、速度和高度的正时间常数。这四个参数是依赖于自动驾驶仪的状态预配置的正常数。

无人机在三维空间中的运动，其位置、速度和控制矢量由q_i＝[x_i，y_i，h_i]^T，

和u_i＝[u_x，i，u_y，i，u_h，i]^T给出。由

u_i，获得：

将式(14)和(15)代入无人机简化模型(13)可得出：

步骤二：强化学习PPO的设计

PPO算法Actor网络的优化目标函数表示为：

其中c₁，c₂是系数，S表示熵，

表示平方误差损失

L^CLIP(θ)表示

其中

是广义优势估计。

Critic网络的优化目标函数表示为：

PPO算法有两个网络，即Critic网络和Actor网络，如图1所示。Critic网络结构首先使用LSTM层来处理输入，然后使用两个全连接层(FC)，并使用Tanh层作为它们的激活函数。

Actor网络由神经网络和正态分布组成。其中，Actor网络由一个LSTM层和一个FC层及TanH层组成。网络的输出是一个正态分布的均值，这个分布的方差矩阵是C＝c₃I，其中I是单位矩阵，c₃是一个较小的正常数，由这个分布得到行为。Actor的输出主要是为了得到领航者的速度向量，为此需要设计Actor网络的输出，联想到球的半径在三个维度轴上的投影作为速度向量，假设Actor网络的输出是球的半径R和两个角度(α，β)，α是球半径与z轴的夹角，β是半径在xy平面上的投影与x轴的夹角，得到速度向量[Rcosα，Rsinα sinβ，Rsinαcosα]。考虑到无人机的运动限制，因此将R限制在一定范围内，角度限制在[-πrad，πrad]。Actor网络输出的R和(α，β)的均值都使用TanH作为激活函数。

步骤三：无人机集群智能避障方法的设计

用PPO算法来训练和控制虚拟领航者，并基于集群控制算法保持机间距离和跟踪领航者，领航者是由位置向量和速度向量组成的质点，如图2所示。被强化学习算法控制的领航者主要有三个目的，其一是使虚拟领航者接近目标区域，其二是使集群能够避开障碍物，其三是使集群能够跟随虚拟领航者并缩小与领航者之间的距离，基于这些目的构造奖励函数，如下：

R＝R_obstacle+R_leader+R_center (21)

其中R_leader是为了奖励领航者接近目的地，R_center是为了奖励集群中心缩小与领航者之间的距离，R_obstacle是为了奖励集群中心避开障碍物。基于算法的目的以及奖励函数的构成，算法的状态空间包括领航者的位置、无人机集群的中心位置及其与障碍物之间的距离向量，算法的动作空间是领航者的速度。为了简化避障过程将障碍物统一简化为球形障碍物。

无人机集群智能避障算法是由两个算法组成的，其一是在步骤一介绍的集群控制算法，也即每个无人机的输入是

其二是强化学习算法，领航者综合集群无人机对环境的探测信息完成避障和路径规划。

总之，本发明的无人机集群智能避障方法中的虚拟领航者具有学习和探索能力，使无人机集群具备了在未知复杂环境下更好的避障和导航的能力。无人机集群需要对环境进行探测，并基于集群控制算法保持机间距离和跟踪领航者，虚拟领航者通过综合集群探测的信息完成对障碍的规避并预规划路径，集群内无人机之间的相互作用比较简单，从而使无人机集群在避障时有更好的一致性。

Claims

1.一种基于强化学习的无人机集群智能避障方法，其特征在于，集群中无人机保持集群运动并跟踪虚拟领航者，无人机不具有避障能力，将对环境的探测信息传递给虚拟领航者，使用强化学习算法训练虚拟领航者，虚拟领航者为集群无人机提供导航引导信息，实现无人机集群智能避障。

2.根据权利要求1所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，步骤(1)中，动作空间是虚拟领航者的速度向量，并考虑速度限制和运动限制，设计网络的输出包含[V，α，β]，其中角度[α，β]限制在[-πrad，πrad]，由此得到虚拟领航者的速度向量[R cosα，R sinαsinβ，R sinαcosα]；

设计奖励函数如下：

R＝R_obstacle+R_leader+R_center

根据奖励函数，构建损失函数如下：

4.根据权利要求3所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，步骤(2)中，集群控制算法包括两部分，其一是控制集群中无人机保持机间距离，其二是控制集群跟踪虚拟领航者，具体来说无人机的输入如下：

表示α智能体之间的交互项，

表示虚拟领航者对集群的导航反馈项。