CN114661066A - 一种基于强化学习的无人机集群智能避障方法 - Google Patents
一种基于强化学习的无人机集群智能避障方法 Download PDFInfo
- Publication number
- CN114661066A CN114661066A CN202210404067.6A CN202210404067A CN114661066A CN 114661066 A CN114661066 A CN 114661066A CN 202210404067 A CN202210404067 A CN 202210404067A CN 114661066 A CN114661066 A CN 114661066A
- Authority
- CN
- China
- Prior art keywords
- cluster
- unmanned aerial
- virtual
- aerial vehicle
- obstacle avoidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于强化学习的无人机集群智能避障方法,通过将集群算法和单智能体强化学习算法相结合,实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者,强化学习算法控制集群中的领航者完成智能避障,并为集群无人机提供导航信息,无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。
Description
技术领域
本发明涉及多无人机协同控制领域,特别涉及一种基于强化学习的无人机集群智能避障方法。
背景技术
生物集群行为是自然界中存在的一种普遍现象,是群居性生物群体为适应生存环境,历经长期演化后与生俱来的生存本领,如鸟群、鱼群等。1986年,Reynolds提出了三种启发式的集群控制规则:内聚、分离和对齐。在此基础上,又有很多学者提出了多种集群模型,其中极具代表性的是Olfati-Saber提出的集群控制算法。近年来,由于无人机越来越高的自主性和智能性,在军事和民用领域的应用价值越来越受到人们的关注和重视,而无人机集群因为能够完成更高难度和危险性的任务,引起了众多研究者的兴趣。
无人机集群控制算法对集群中无人机的控制输入主要包括避障控制、集群控制和跟踪领航者。领航者是对已规划好后的轨迹进行跟踪的虚拟智能体。避障控制是为了使集群能够避开障碍物,这种集群避障方法容易陷入局部最优。
发明内容
本发明的目的在于提供一种在多障碍物环境中无人机集群智能避障的方法,提高无人机集群避障性能和一致性性能,提升无人机集群应对环境的适应能力。
为了实现上述目的,本发明采用的技术方案为:
一种无人机集群智能避障方法,集群中无人机保持集群运动并跟踪虚拟领航者,无人机不具有避障能力,将对环境的探测信息传递给虚拟领航者,使用强化学习算法训练虚拟领航者,虚拟领航者为集群无人机提供导航引导信息,实现无人机集群智能避障。
具体的,该方法包括以下步骤:
(1)设置无人机集群中虚拟领航者的控制算法,速度限制在10m/s~100m/s,对虚拟领航者设置目标点,为集群提供导航信息;使用强化学习算法控制虚拟领航者,无人机对环境的探测信息为虚拟领航者提供状态信息,作为训练虚拟领航者时的状态输入,输出的是虚拟领航者的速度向量,作为强化学习算法的动作空间,将集群的位置特征用集群的中心位置替代,据此设计状态空间,包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置;
(2)无人机集群跟踪虚拟领航者,完成避障,并为领航者提供环境信息,保持机间距离,实现无人机集群智能避障。
步骤(1)中,动作空间是虚拟领航者的速度向量,并考虑速度限制和运动限制,设计网络的输出包含[V,α,β],其中角度[α,β]限制在[-πrad,πrad],由此得到虚拟领航者的速度向量[Rcosα,Rsinαsinβ,Rsinαcosα];
设计奖励函数如下:
R=Robstacle+Rleader+Rcenter
奖励函数包含三部分内容,Rleader用于奖励虚拟领航者接近目的地,Rcenter用于奖励集群缩小与虚拟领航者之间的距离,Robstacle用于奖励集群避开障碍物;
设计神经网络,神经网络包括Critic网络和Actor网络;其中,Critic网络首先使用LSTM层来处理输入,然后使用两个全连接层,并使用Tanh层作为它们的激活函数;Actor网络由一个LSTM层和一个全连接层及TanH层组成,网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个正常数;
根据奖励函数,构建损失函数如下:
步骤(2)中,集群控制算法包括两部分,其一是控制集群中无人机保持机间距离,其二是控制集群跟踪虚拟领航者,具体来说无人机的输入如下:
本发明的有益效果在于:
1、本发明使用集群控制算法控制无人机集群,并跟踪虚拟领航者,并使用强化学习算法PPO控制虚拟领航者,能够保持机间距离并跟踪虚拟领航者。
2、本发明使用强化学习算法PPO来训练虚拟领航者,设计了强化学习算法的状态空间、动作空间,设计了能提升虚拟领航者适应能力和避障能力的奖励函数,从而能够使无人机集群中虚拟领航者具有学习和探索能力。
3、本发明将集群算法和单智能体强化学习算法相结合,实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者,强化学习算法控制集群中的领航者完成智能避障,并为集群无人机提供导航信息,无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例方法的原理示意图;
图2为本发明实施例中网络的结构示意图;
图3是本发明实施例的场景示意图。
具体实施方式
下面,结合附图和具体实施方式对本发明做进一步的说明。
如图1-3所示,一种基于强化学习的无人机集群智能避障方法,包括以下步骤:
步骤一:集群控制方法
在三维空间中,智能体的运动模型如下所示:
其中qi,pi,和ui∈Rn分别表示第i智能体的位置、速度和控制输入向量。每个智能体仅能和在其通讯范围内的邻近个体进行通信,智能体i在t时刻的临近个体集合表示如下:
其中||·||表示欧拉距离,r表示智能体间的最大交互半径。在集群中每个智能体和其临近个体之间的距离需要满足以下约束:
其中d是正常数表示智能体间的最小允许距离,并且d≤r。
在障碍物环境中,多智能体系统中的每个智能体的输入如公式(4)所示。
Qh的目的是为了缩小智能体与领航者之间的高度差。
为了将多智能体集群算法应用于无人机群,需要建立起无人机运动模型与智能体运动模型之间的关系。固定翼无人机的简化动力学模型如下所示。
其中[xi,yi,hi],Vi,ψi,和分别表示位置、速度、航向角、和第i无人机的高度变化率。和分别表示相应自动驾驶仪的速度、航向角和高度的输入命令。τψ,τv和是相应输入命令航向角、速度和高度的正时间常数。这四个参数是依赖于自动驾驶仪的状态预配置的正常数。
将式(14)和(15)代入无人机简化模型(13)可得出:
步骤二:强化学习PPO的设计
PPO算法Actor网络的优化目标函数表示为:
Critic网络的优化目标函数表示为:
PPO算法有两个网络,即Critic网络和Actor网络,如图1所示。Critic网络结构首先使用LSTM层来处理输入,然后使用两个全连接层(FC),并使用Tanh层作为它们的激活函数。
Actor网络由神经网络和正态分布组成。其中,Actor网络由一个LSTM层和一个FC层及TanH层组成。网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个较小的正常数,由这个分布得到行为。Actor的输出主要是为了得到领航者的速度向量,为此需要设计Actor网络的输出,联想到球的半径在三个维度轴上的投影作为速度向量,假设Actor网络的输出是球的半径R和两个角度(α,β),α是球半径与z轴的夹角,β是半径在xy平面上的投影与x轴的夹角,得到速度向量[Rcosα,Rsinα sinβ,Rsinαcosα]。考虑到无人机的运动限制,因此将R限制在一定范围内,角度限制在[-πrad,πrad]。Actor网络输出的R和(α,β)的均值都使用TanH作为激活函数。
步骤三:无人机集群智能避障方法的设计
用PPO算法来训练和控制虚拟领航者,并基于集群控制算法保持机间距离和跟踪领航者,领航者是由位置向量和速度向量组成的质点,如图2所示。被强化学习算法控制的领航者主要有三个目的,其一是使虚拟领航者接近目标区域,其二是使集群能够避开障碍物,其三是使集群能够跟随虚拟领航者并缩小与领航者之间的距离,基于这些目的构造奖励函数,如下:
R=Robstacle+Rleader+Rcenter (21)
其中Rleader是为了奖励领航者接近目的地,Rcenter是为了奖励集群中心缩小与领航者之间的距离,Robstacle是为了奖励集群中心避开障碍物。基于算法的目的以及奖励函数的构成,算法的状态空间包括领航者的位置、无人机集群的中心位置及其与障碍物之间的距离向量,算法的动作空间是领航者的速度。为了简化避障过程将障碍物统一简化为球形障碍物。
总之,本发明的无人机集群智能避障方法中的虚拟领航者具有学习和探索能力,使无人机集群具备了在未知复杂环境下更好的避障和导航的能力。无人机集群需要对环境进行探测,并基于集群控制算法保持机间距离和跟踪领航者,虚拟领航者通过综合集群探测的信息完成对障碍的规避并预规划路径,集群内无人机之间的相互作用比较简单,从而使无人机集群在避障时有更好的一致性。
Claims (4)
1.一种基于强化学习的无人机集群智能避障方法,其特征在于,集群中无人机保持集群运动并跟踪虚拟领航者,无人机不具有避障能力,将对环境的探测信息传递给虚拟领航者,使用强化学习算法训练虚拟领航者,虚拟领航者为集群无人机提供导航引导信息,实现无人机集群智能避障。
2.根据权利要求1所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,包括以下步骤:
(1)设置无人机集群中虚拟领航者的控制算法,速度限制在10m/s~100m/s,对虚拟领航者设置目标点,为集群提供导航信息;使用强化学习算法控制虚拟领航者,无人机对环境的探测信息为虚拟领航者提供状态信息,作为训练虚拟领航者时的状态输入,输出的是虚拟领航者的速度向量,作为强化学习算法的动作空间,将集群的位置特征用集群的中心位置替代,据此设计状态空间,包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置;
(2)无人机集群跟踪虚拟领航者,完成避障,并为领航者提供环境信息,保持机间距离,实现无人机集群智能避障。
3.根据权利要求2所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,步骤(1)中,动作空间是虚拟领航者的速度向量,并考虑速度限制和运动限制,设计网络的输出包含[V,α,β],其中角度[α,β]限制在[-πrad,πrad],由此得到虚拟领航者的速度向量[R cosα,R sinαsinβ,R sinαcosα];
设计奖励函数如下:
R=Robstacle+Rleader+Rcenter
奖励函数包含三部分内容,Rleader用于奖励虚拟领航者接近目的地,Rcenter用于奖励集群缩小与虚拟领航者之间的距离,Robstacle用于奖励集群避开障碍物;
设计神经网络,神经网络包括Critic网络和Actor网络;其中,Critic网络首先使用LSTM层来处理输入,然后使用两个全连接层,并使用Tanh层作为它们的激活函数;Actor网络由一个LSTM层和一个全连接层及TanH层组成,网络的输出是一个正态分布的均值,这个分布的方差矩阵是C=c3I,其中I是单位矩阵,c3是一个正常数;
根据奖励函数,构建损失函数如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404067.6A CN114661066A (zh) | 2022-04-18 | 2022-04-18 | 一种基于强化学习的无人机集群智能避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404067.6A CN114661066A (zh) | 2022-04-18 | 2022-04-18 | 一种基于强化学习的无人机集群智能避障方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661066A true CN114661066A (zh) | 2022-06-24 |
Family
ID=82035282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404067.6A Pending CN114661066A (zh) | 2022-04-18 | 2022-04-18 | 一种基于强化学习的无人机集群智能避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661066A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827257A (zh) * | 2019-10-14 | 2020-02-21 | 南京信为峰防务科技有限公司 | 一种嵌入式机载红外图像视觉导航定位方法 |
CN117148868A (zh) * | 2023-10-31 | 2023-12-01 | 南京信息工程大学 | 基于群体熵度量的无人机集群控制方法、装置 |
-
2022
- 2022-04-18 CN CN202210404067.6A patent/CN114661066A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827257A (zh) * | 2019-10-14 | 2020-02-21 | 南京信为峰防务科技有限公司 | 一种嵌入式机载红外图像视觉导航定位方法 |
CN110827257B (zh) * | 2019-10-14 | 2024-03-29 | 南京信为峰光电科技有限公司 | 一种嵌入式机载红外图像视觉导航定位方法 |
CN117148868A (zh) * | 2023-10-31 | 2023-12-01 | 南京信息工程大学 | 基于群体熵度量的无人机集群控制方法、装置 |
CN117148868B (zh) * | 2023-10-31 | 2024-02-27 | 南京信息工程大学 | 基于群体熵度量的无人机集群控制方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | A multi-objective pigeon-inspired optimization approach to UAV distributed flocking among obstacles | |
CN108549407B (zh) | 一种多无人机协同编队避障的控制算法 | |
Zhang et al. | Collision avoidance in fixed-wing UAV formation flight based on a consensus control algorithm | |
Duan et al. | ? Hybrid particle swarm optimization and genetic algorithm for multi-UAV formation reconfiguration | |
CN114661066A (zh) | 一种基于强化学习的无人机集群智能避障方法 | |
CN115033016B (zh) | 一种异构无人集群编队避障方法及系统 | |
Huo et al. | Live-fly experimentation for pigeon-inspired obstacle avoidance of quadrotor unmanned aerial vehicles | |
Kownacki et al. | Flexible structure control scheme of a uavs formation to improve the formation stability during maneuvers | |
CN110658811B (zh) | 基于神经网络的受限移动机器人协同路径跟踪控制方法 | |
Li et al. | UAV-BS formation control method based on loose coupling structure | |
CN116301051A (zh) | 一种无人机集群控制与避障方法和装置 | |
CN115903894A (zh) | 基于改进的aapf-irrt算法的无人机轨迹规划及跟踪控制方法 | |
Rochefort et al. | Guidance of flocks of vehicles using virtual signposts | |
Feng et al. | Uav formation and obstacle avoidance based on improved apf | |
Liu et al. | Multiple UAV formations delivery task planning based on a distributed adaptive algorithm | |
CN116540697A (zh) | 一种基于动态拓扑结构的异构多无人系统编队跟踪控制方法 | |
Deng et al. | Multi-robot dynamic formation path planning with improved polyclonal artificial immune algorithm | |
CN115268492A (zh) | 一种多无人机协同编队机间防碰撞控制方法 | |
Xu et al. | Consensus based formation control of multiple small rotary-wing UAVs | |
Gao et al. | A Survey on Passing-through Control of Multi-Robot Systems in Cluttered Environments | |
Wu et al. | Formation control strategy of multi-agent system with improved probabilistic roadmap method applied in restricted environment | |
Peng et al. | Reversed Pigeon-Inspired Optimization Algorithm for Unmanned Aerial Vehicle Swarm Cooperative Autonomous Formation Reconfiguration | |
He et al. | Distributed cooperative formation control for multi-agent systems based on robust adaptive strategy | |
Jia et al. | A Multi-region Distributed Control Scheme for Multi-UAV Formation | |
KR102565617B1 (ko) | 군집지능을 이용한 복수 무인기의 자율 비행 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |