CN114661066A - 一种基于强化学习的无人机集群智能避障方法 - Google Patents

一种基于强化学习的无人机集群智能避障方法 Download PDF

Info

Publication number
CN114661066A
CN114661066A CN202210404067.6A CN202210404067A CN114661066A CN 114661066 A CN114661066 A CN 114661066A CN 202210404067 A CN202210404067 A CN 202210404067A CN 114661066 A CN114661066 A CN 114661066A
Authority
CN
China
Prior art keywords
cluster
unmanned aerial
virtual
aerial vehicle
obstacle avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210404067.6A
Other languages
English (en)
Inventor
赵伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 54 Research Institute
Original Assignee
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 54 Research Institute filed Critical CETC 54 Research Institute
Priority to CN202210404067.6A priority Critical patent/CN114661066A/zh
Publication of CN114661066A publication Critical patent/CN114661066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于强化学习的无人机集群智能避障方法,通过将集群算法和单智能体强化学习算法相结合,实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者,强化学习算法控制集群中的领航者完成智能避障,并为集群无人机提供导航信息,无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。

Description

一种基于强化学习的无人机集群智能避障方法
技术领域
本发明涉及多无人机协同控制领域,特别涉及一种基于强化学习的无人机集群智能避障方法。
背景技术
生物集群行为是自然界中存在的一种普遍现象,是群居性生物群体为适应生存环境,历经长期演化后与生俱来的生存本领,如鸟群、鱼群等。1986年,Reynolds提出了三种启发式的集群控制规则:内聚、分离和对齐。在此基础上,又有很多学者提出了多种集群模型,其中极具代表性的是Olfati-Saber提出的集群控制算法。近年来,由于无人机越来越高的自主性和智能性,在军事和民用领域的应用价值越来越受到人们的关注和重视,而无人机集群因为能够完成更高难度和危险性的任务,引起了众多研究者的兴趣。
无人机集群控制算法对集群中无人机的控制输入主要包括避障控制、集群控制和跟踪领航者。领航者是对已规划好后的轨迹进行跟踪的虚拟智能体。避障控制是为了使集群能够避开障碍物,这种集群避障方法容易陷入局部最优。
发明内容
本发明的目的在于提供一种在多障碍物环境中无人机集群智能避障的方法,提高无人机集群避障性能和一致性性能,提升无人机集群应对环境的适应能力。
为了实现上述目的,本发明采用的技术方案为:
一种无人机集群智能避障方法,集群中无人机保持集群运动并跟踪虚拟领航者,无人机不具有避障能力,将对环境的探测信息传递给虚拟领航者,使用强化学习算法训练虚拟领航者,虚拟领航者为集群无人机提供导航引导信息,实现无人机集群智能避障。
具体的,该方法包括以下步骤:
(1)设置无人机集群中虚拟领航者的控制算法,速度限制在10m/s~100m/s,对虚拟领航者设置目标点,为集群提供导航信息;使用强化学习算法控制虚拟领航者,无人机对环境的探测信息为虚拟领航者提供状态信息,作为训练虚拟领航者时的状态输入,输出的是虚拟领航者的速度向量,作为强化学习算法的动作空间,将集群的位置特征用集群的中心位置替代,据此设计状态空间,包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置;
(2)无人机集群跟踪虚拟领航者,完成避障,并为领航者提供环境信息,保持机间距离,实现无人机集群智能避障。
步骤(1)中,动作空间是虚拟领航者的速度向量,并考虑速度限制和运动限制,设计网络的输出包含[V,α,β],其中角度[α,β]限制在[-πrad,πrad],由此得到虚拟领航者的速度向量[Rcosα,Rsinαsinβ,Rsinαcosα];
设计奖励函数如下:
R=Robstacle+Rleader+Rcenter
奖励函数包含三部分内容,Rleader用于奖励虚拟领航者接近目的地,Rcenter用于奖励集群缩小与虚拟领航者之间的距离,Robstacle用于奖励集群避开障碍物;
设计神经网络,神经网络包括Critic网络和Actor网络;其中,Critic网络首先使用LSTM层来处理输入,然后使用两个全连接层,并使用Tanh层作为它们的激活函数;Actor网络由一个LSTM层和一个全连接层及TanH层组成,网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个正常数;
根据奖励函数,构建损失函数如下:
Figure BDA0003601540830000021
步骤(2)中,集群控制算法包括两部分,其一是控制集群中无人机保持机间距离,其二是控制集群跟踪虚拟领航者,具体来说无人机的输入如下:
Figure BDA0003601540830000031
式中,α智能体表示集群中的任意智能体,γ智能体表示虚拟领航者,
Figure BDA0003601540830000032
表示α智能体之间的交互项,
Figure BDA0003601540830000033
表示虚拟领航者对集群的导航反馈项。
本发明的有益效果在于:
1、本发明使用集群控制算法控制无人机集群,并跟踪虚拟领航者,并使用强化学习算法PPO控制虚拟领航者,能够保持机间距离并跟踪虚拟领航者。
2、本发明使用强化学习算法PPO来训练虚拟领航者,设计了强化学习算法的状态空间、动作空间,设计了能提升虚拟领航者适应能力和避障能力的奖励函数,从而能够使无人机集群中虚拟领航者具有学习和探索能力。
3、本发明将集群算法和单智能体强化学习算法相结合,实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者,强化学习算法控制集群中的领航者完成智能避障,并为集群无人机提供导航信息,无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例方法的原理示意图;
图2为本发明实施例中网络的结构示意图;
图3是本发明实施例的场景示意图。
具体实施方式
下面,结合附图和具体实施方式对本发明做进一步的说明。
如图1-3所示,一种基于强化学习的无人机集群智能避障方法,包括以下步骤:
步骤一:集群控制方法
在三维空间中,智能体的运动模型如下所示:
Figure BDA0003601540830000041
其中qi,pi,和ui∈Rn分别表示第i智能体的位置、速度和控制输入向量。每个智能体仅能和在其通讯范围内的邻近个体进行通信,智能体i在t时刻的临近个体集合表示如下:
Figure BDA0003601540830000042
其中||·||表示欧拉距离,r表示智能体间的最大交互半径。在集群中每个智能体和其临近个体之间的距离需要满足以下约束:
Figure BDA0003601540830000043
其中d是正常数表示智能体间的最小允许距离,并且d≤r。
在障碍物环境中,多智能体系统中的每个智能体的输入如公式(4)所示。
Figure BDA0003601540830000044
其中α,γ表示三种类型的智能体。α智能体表示集群中的任意智能体,γ智能体表示虚拟领航者。
Figure BDA0003601540830000045
表示α智能体之间的交互项,
Figure BDA0003601540830000046
表示虚拟领航者对集群的导航反馈项。
Figure BDA0003601540830000047
具体有如下定义:
Figure BDA0003601540830000048
Figure BDA0003601540830000049
Figure BDA00036015408300000410
使多智能体系统中的智能体聚合,并由两部分组成,第一部分将智能体之间的距离设置为期望的距离,第二部分使智能体的速度和其临近智能体速度一致。第一部分的表达式如下:
Figure BDA00036015408300000411
Figure BDA00036015408300000412
Figure BDA00036015408300000413
其中H,∈α
Figure BDA00036015408300000414
Figure BDA00036015408300000415
是正常数,H的值通常大于,引入ρH(qi)可以有效防止集群碎片化。当智能体之间的距离增大时,ρH(qi)的值也会快速增加。
Figure BDA0003601540830000051
的第二组成部分是
Figure BDA0003601540830000052
ρh(z)是一种冲击函数,如下所示:
Figure BDA0003601540830000053
Figure BDA0003601540830000054
是为了使智能体追踪虚拟领航者,
Figure BDA0003601540830000055
Figure BDA0003601540830000056
是正常数,qγ和pγ分别表示虚拟领航者的位置和速度,σ1(qi-qγ)和Qh有如下表示:
Figure BDA0003601540830000057
Figure BDA0003601540830000058
Qh的目的是为了缩小智能体与领航者之间的高度差。
为了将多智能体集群算法应用于无人机群,需要建立起无人机运动模型与智能体运动模型之间的关系。固定翼无人机的简化动力学模型如下所示。
Figure BDA0003601540830000059
其中[xi,yi,hi],Vi,ψi,和
Figure BDA00036015408300000510
分别表示位置、速度、航向角、和第i无人机的高度变化率。
Figure BDA00036015408300000511
Figure BDA00036015408300000512
分别表示相应自动驾驶仪的速度、航向角和高度的输入命令。τψ,τv
Figure BDA00036015408300000513
是相应输入命令航向角、速度和高度的正时间常数。这四个参数是依赖于自动驾驶仪的状态预配置的正常数。
无人机在三维空间中的运动,其位置、速度和控制矢量由qi=[xi,yi,hi]T
Figure BDA0003601540830000061
和ui=[ux,i,uy,i,uh,i]T给出。由
Figure BDA0003601540830000062
ui,获得:
Figure BDA0003601540830000063
Figure BDA0003601540830000064
将式(14)和(15)代入无人机简化模型(13)可得出:
Figure BDA0003601540830000065
Figure BDA0003601540830000066
Figure BDA0003601540830000067
步骤二:强化学习PPO的设计
PPO算法Actor网络的优化目标函数表示为:
Figure BDA0003601540830000068
其中c1,c2是系数,S表示熵,
Figure BDA0003601540830000069
表示平方误差损失
Figure BDA00036015408300000610
LCLIP(θ)表示
Figure BDA00036015408300000611
其中
Figure BDA00036015408300000612
Figure BDA00036015408300000613
是广义优势估计。
Critic网络的优化目标函数表示为:
Figure BDA00036015408300000614
PPO算法有两个网络,即Critic网络和Actor网络,如图1所示。Critic网络结构首先使用LSTM层来处理输入,然后使用两个全连接层(FC),并使用Tanh层作为它们的激活函数。
Actor网络由神经网络和正态分布组成。其中,Actor网络由一个LSTM层和一个FC层及TanH层组成。网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个较小的正常数,由这个分布得到行为。Actor的输出主要是为了得到领航者的速度向量,为此需要设计Actor网络的输出,联想到球的半径在三个维度轴上的投影作为速度向量,假设Actor网络的输出是球的半径R和两个角度(α,β),α是球半径与z轴的夹角,β是半径在xy平面上的投影与x轴的夹角,得到速度向量[Rcosα,Rsinα sinβ,Rsinαcosα]。考虑到无人机的运动限制,因此将R限制在一定范围内,角度限制在[-πrad,πrad]。Actor网络输出的R和(α,β)的均值都使用TanH作为激活函数。
步骤三:无人机集群智能避障方法的设计
用PPO算法来训练和控制虚拟领航者,并基于集群控制算法保持机间距离和跟踪领航者,领航者是由位置向量和速度向量组成的质点,如图2所示。被强化学习算法控制的领航者主要有三个目的,其一是使虚拟领航者接近目标区域,其二是使集群能够避开障碍物,其三是使集群能够跟随虚拟领航者并缩小与领航者之间的距离,基于这些目的构造奖励函数,如下:
R=Robstacle+Rleader+Rcenter (21)
其中Rleader是为了奖励领航者接近目的地,Rcenter是为了奖励集群中心缩小与领航者之间的距离,Robstacle是为了奖励集群中心避开障碍物。基于算法的目的以及奖励函数的构成,算法的状态空间包括领航者的位置、无人机集群的中心位置及其与障碍物之间的距离向量,算法的动作空间是领航者的速度。为了简化避障过程将障碍物统一简化为球形障碍物。
无人机集群智能避障算法是由两个算法组成的,其一是在步骤一介绍的集群控制算法,也即每个无人机的输入是
Figure BDA0003601540830000071
其二是强化学习算法,领航者综合集群无人机对环境的探测信息完成避障和路径规划。
总之,本发明的无人机集群智能避障方法中的虚拟领航者具有学习和探索能力,使无人机集群具备了在未知复杂环境下更好的避障和导航的能力。无人机集群需要对环境进行探测,并基于集群控制算法保持机间距离和跟踪领航者,虚拟领航者通过综合集群探测的信息完成对障碍的规避并预规划路径,集群内无人机之间的相互作用比较简单,从而使无人机集群在避障时有更好的一致性。

Claims (4)

1.一种基于强化学习的无人机集群智能避障方法,其特征在于,集群中无人机保持集群运动并跟踪虚拟领航者,无人机不具有避障能力,将对环境的探测信息传递给虚拟领航者,使用强化学习算法训练虚拟领航者,虚拟领航者为集群无人机提供导航引导信息,实现无人机集群智能避障。
2.根据权利要求1所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,包括以下步骤:
(1)设置无人机集群中虚拟领航者的控制算法,速度限制在10m/s~100m/s,对虚拟领航者设置目标点,为集群提供导航信息;使用强化学习算法控制虚拟领航者,无人机对环境的探测信息为虚拟领航者提供状态信息,作为训练虚拟领航者时的状态输入,输出的是虚拟领航者的速度向量,作为强化学习算法的动作空间,将集群的位置特征用集群的中心位置替代,据此设计状态空间,包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置;
(2)无人机集群跟踪虚拟领航者,完成避障,并为领航者提供环境信息,保持机间距离,实现无人机集群智能避障。
3.根据权利要求2所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,步骤(1)中,动作空间是虚拟领航者的速度向量,并考虑速度限制和运动限制,设计网络的输出包含[V,α,β],其中角度[α,β]限制在[-πrad,πrad],由此得到虚拟领航者的速度向量[R cosα,R sinαsinβ,R sinαcosα];
设计奖励函数如下:
R=Robstacle+Rleader+Rcenter
奖励函数包含三部分内容,Rleader用于奖励虚拟领航者接近目的地,Rcenter用于奖励集群缩小与虚拟领航者之间的距离,Robstacle用于奖励集群避开障碍物;
设计神经网络,神经网络包括Critic网络和Actor网络;其中,Critic网络首先使用LSTM层来处理输入,然后使用两个全连接层,并使用Tanh层作为它们的激活函数;Actor网络由一个LSTM层和一个全连接层及TanH层组成,网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个正常数;
根据奖励函数,构建损失函数如下:
Figure FDA0003601540820000021
4.根据权利要求3所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,步骤(2)中,集群控制算法包括两部分,其一是控制集群中无人机保持机间距离,其二是控制集群跟踪虚拟领航者,具体来说无人机的输入如下:
Figure FDA0003601540820000022
式中,α智能体表示集群中的任意智能体,γ智能体表示虚拟领航者,
Figure FDA0003601540820000023
表示α智能体之间的交互项,
Figure FDA0003601540820000024
表示虚拟领航者对集群的导航反馈项。
CN202210404067.6A 2022-04-18 2022-04-18 一种基于强化学习的无人机集群智能避障方法 Pending CN114661066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210404067.6A CN114661066A (zh) 2022-04-18 2022-04-18 一种基于强化学习的无人机集群智能避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210404067.6A CN114661066A (zh) 2022-04-18 2022-04-18 一种基于强化学习的无人机集群智能避障方法

Publications (1)

Publication Number Publication Date
CN114661066A true CN114661066A (zh) 2022-06-24

Family

ID=82035282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210404067.6A Pending CN114661066A (zh) 2022-04-18 2022-04-18 一种基于强化学习的无人机集群智能避障方法

Country Status (1)

Country Link
CN (1) CN114661066A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827257A (zh) * 2019-10-14 2020-02-21 南京信为峰防务科技有限公司 一种嵌入式机载红外图像视觉导航定位方法
CN117148868A (zh) * 2023-10-31 2023-12-01 南京信息工程大学 基于群体熵度量的无人机集群控制方法、装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827257A (zh) * 2019-10-14 2020-02-21 南京信为峰防务科技有限公司 一种嵌入式机载红外图像视觉导航定位方法
CN110827257B (zh) * 2019-10-14 2024-03-29 南京信为峰光电科技有限公司 一种嵌入式机载红外图像视觉导航定位方法
CN117148868A (zh) * 2023-10-31 2023-12-01 南京信息工程大学 基于群体熵度量的无人机集群控制方法、装置
CN117148868B (zh) * 2023-10-31 2024-02-27 南京信息工程大学 基于群体熵度量的无人机集群控制方法、装置

Similar Documents

Publication Publication Date Title
Qiu et al. A multi-objective pigeon-inspired optimization approach to UAV distributed flocking among obstacles
CN108549407B (zh) 一种多无人机协同编队避障的控制算法
Zhang et al. Collision avoidance in fixed-wing UAV formation flight based on a consensus control algorithm
Duan et al. ? Hybrid particle swarm optimization and genetic algorithm for multi-UAV formation reconfiguration
CN114661066A (zh) 一种基于强化学习的无人机集群智能避障方法
CN115033016B (zh) 一种异构无人集群编队避障方法及系统
Huo et al. Live-fly experimentation for pigeon-inspired obstacle avoidance of quadrotor unmanned aerial vehicles
Kownacki et al. Flexible structure control scheme of a uavs formation to improve the formation stability during maneuvers
CN110658811B (zh) 基于神经网络的受限移动机器人协同路径跟踪控制方法
Li et al. UAV-BS formation control method based on loose coupling structure
CN116301051A (zh) 一种无人机集群控制与避障方法和装置
CN115903894A (zh) 基于改进的aapf-irrt算法的无人机轨迹规划及跟踪控制方法
Rochefort et al. Guidance of flocks of vehicles using virtual signposts
Feng et al. Uav formation and obstacle avoidance based on improved apf
Liu et al. Multiple UAV formations delivery task planning based on a distributed adaptive algorithm
CN116540697A (zh) 一种基于动态拓扑结构的异构多无人系统编队跟踪控制方法
Deng et al. Multi-robot dynamic formation path planning with improved polyclonal artificial immune algorithm
CN115268492A (zh) 一种多无人机协同编队机间防碰撞控制方法
Xu et al. Consensus based formation control of multiple small rotary-wing UAVs
Gao et al. A Survey on Passing-through Control of Multi-Robot Systems in Cluttered Environments
Wu et al. Formation control strategy of multi-agent system with improved probabilistic roadmap method applied in restricted environment
Peng et al. Reversed Pigeon-Inspired Optimization Algorithm for Unmanned Aerial Vehicle Swarm Cooperative Autonomous Formation Reconfiguration
He et al. Distributed cooperative formation control for multi-agent systems based on robust adaptive strategy
Jia et al. A Multi-region Distributed Control Scheme for Multi-UAV Formation
KR102565617B1 (ko) 군집지능을 이용한 복수 무인기의 자율 비행 제어방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination