CN114879742B - 基于多智能体深度强化学习的无人机集群动态覆盖方法 - Google Patents

基于多智能体深度强化学习的无人机集群动态覆盖方法 Download PDF

Info

Publication number
CN114879742B
CN114879742B CN202210688998.3A CN202210688998A CN114879742B CN 114879742 B CN114879742 B CN 114879742B CN 202210688998 A CN202210688998 A CN 202210688998A CN 114879742 B CN114879742 B CN 114879742B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
target
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210688998.3A
Other languages
English (en)
Other versions
CN114879742A (zh
Inventor
邵晋梁
张蕴霖
石磊
麻壮壮
白利兵
程玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210688998.3A priority Critical patent/CN114879742B/zh
Publication of CN114879742A publication Critical patent/CN114879742A/zh
Application granted granted Critical
Publication of CN114879742B publication Critical patent/CN114879742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。

Description

基于多智能体深度强化学习的无人机集群动态覆盖方法
技术领域
本发明属于无人机集群动态覆盖控制技术领域,更为具体地讲,涉及一种基于多智能体深度强化学习的无人机集群动态覆盖方法。
背景技术
近年来,随着物联网技术和通信技术的发展,无人机集群的应用场景越发广泛。无人机集群是指由一组具有数据采集和信息处理功能的无人机所组成的多智能体系统。这些无人机可以通过通信来协调彼此的行动,从而完成单架无人机所不能完成的任务。无人机集群凭借其对于高风险和高污染环境的高耐受力,被越来越多地用于执行动态覆盖控制任务。典型的动态覆盖控制任务包括航空勘测、目标监视、灾情侦察等,其在工业、民用甚至军事领域都具有光明的前景和突出的研究价值。
然而,无人机集群的应用给系统带来的机动性的同时,也带来了通信网络的连通性保持方面的挑战。集群的连通性取决于集群中的个体之间能否建立直接或者间接的信息通道来协调行动。连通性保持作为集群信息交互的基础,是指如何规划集群的轨迹使之在运动中依旧保持连通。一方面,受到硬件平台和功能设计的限制,无人机的通信范围有限,连通保持本就较为复杂;另一方面,动态覆盖会使集群在空间中分散以实现对于任务空间的全面覆盖,连通性保持会限制集群扩展来保持通信连通,二者在动力学行为上相反且矛盾的表现使得连通保持约束下的集群动态覆盖任务更为复杂。在动态覆盖领域中,借助多智能体深度强化学习算法,现有方法通过对造成集群失去连通的驱动力施加惩罚,促使模型输出的驱动力向着保持集群连通的方向优化,然而,仅施加惩罚并不能保证训练时的集群连通,并且存在奖励稀疏的问题,模型不容易收敛。针对上述不足,本发明提出一种基于多智能体深度强化学习的无人机集群动态覆盖方法,通过引入动作矫正器,对使集群丢失连通的驱动力进行修正,可保证集群训练时的连通性,同时解决了奖励稀疏的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多智能体深度强化学习的无人机集群动态覆盖方法,基于连通性规则并配合多智能体深度强化学习,使得无人机集群可以在执行任务时自主实现连通保持和动态覆盖。
为实现上述发明目的,本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
(1)、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置M个待覆盖的目标点,使用集合
Figure BDA0003700872390000021
表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合/>
Figure BDA0003700872390000022
表示,用/>
Figure BDA0003700872390000023
表示第i架无人机在t时刻的位置,用/>
Figure BDA0003700872390000024
表示第i架无人机在t时刻的速度;
(2)、搭建无人机动力学模型;
设t时刻第i架无人机以驱动力
Figure BDA0003700872390000025
作为控制输入,其中,
Figure BDA0003700872390000026
分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;
建立第i架无人机的动力学模型:
Figure BDA0003700872390000027
其中,
Figure BDA0003700872390000028
表示t时刻第i架无人机的加速度,η为比例系数,m为无人机的质量;无人机t+1时刻位置/>
Figure BDA0003700872390000029
与速度/>
Figure BDA00037008723900000210
的更新迭代公式为:
Figure BDA00037008723900000211
其中,Δt表示时间间隔;
(3)、搭建无人机集群的动态覆盖模型;
(3.1)、定义t时刻第i架无人机的观测信息
Figure BDA00037008723900000212
Figure BDA00037008723900000213
其中,
Figure BDA00037008723900000214
表示每个目标点所需的覆盖能量,/>
Figure BDA00037008723900000215
表示在[0,t]内第j个目标点接受到的覆盖能量;
(3.2)、定义t时刻的状态st
Figure BDA0003700872390000031
(3.3)、构建无人机集群的动态覆盖模型;
(3.3.1)、搭建无人机的策略网络及目标策略网络;
策略网络采用三层感知机结构,策略网络的输入为观测信息
Figure BDA0003700872390000032
正向传播后策略网络的输出表示为/>
Figure BDA0003700872390000033
其中,θi表示策略网络待训练的网络参数;
目标策略网络与策略网络结构相同,目标策略网络的输入为观测
Figure BDA0003700872390000034
正向传播后目标策略网络的输出表示为/>
Figure BDA0003700872390000035
其中,/>
Figure BDA0003700872390000036
表示目标策略网络待训练的网络参数;
(3.3.2)、搭建无人机的价值网络与目标价值网络;
价值网络采用三层感知机结构,价值网络的输入为状态st与驱动力
Figure BDA0003700872390000037
正向传播后价值网络的输出表示为/>
Figure BDA0003700872390000038
其中,ψi表示价值网络待训练的网络参数;
目标价值网络与价值网络结构相同,目标价值网络的输入为状态st与驱动力
Figure BDA0003700872390000039
正向传播后目标价值网络的输出表示为/>
Figure BDA00037008723900000310
其中,/>
Figure BDA00037008723900000311
表示目标价值网络待训练的网络参数;
(4)、训练无人机集群动态覆盖决策模型
(4.1)、设定最大训练轮数Ne,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池
Figure BDA00037008723900000312
为空集;初始化网络参数θii和目标网络参数/>
Figure BDA00037008723900000313
为随机值;
(4.2)、在第e轮训练中,设第i架无人机仅能获取其探测半径ri内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
Figure BDA00037008723900000314
Figure BDA0003700872390000041
其中,
Figure BDA0003700872390000042
为传感器与目标点欧式距离;
(4.3)、设无人机均具有相同的探测功率Mp,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率
Figure BDA0003700872390000043
Figure BDA0003700872390000044
(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量
Figure BDA0003700872390000045
Figure BDA0003700872390000046
(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息
Figure BDA0003700872390000047
与状态st,将/>
Figure BDA0003700872390000048
输入到策略网络中,通过正向传播得到/>
Figure BDA0003700872390000049
然后令驱动力/>
Figure BDA00037008723900000410
ω表示随机噪声;
(4.6)、第i架无人机将驱动力
Figure BDA00037008723900000411
代入式(1)计算出下一时刻预期的位置/>
Figure BDA00037008723900000412
和速度/>
Figure BDA00037008723900000413
然后通过公式(7)计算[0,t+1]内预期的探测能量/>
Figure BDA00037008723900000414
最后利用/>
Figure BDA00037008723900000415
Figure BDA00037008723900000416
与/>
Figure BDA00037008723900000417
计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将/>
Figure BDA00037008723900000418
组成样本存入经验池/>
Figure BDA00037008723900000419
中;
(4.7)、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力
Figure BDA00037008723900000420
所有无人机的当前位置/>
Figure BDA00037008723900000421
与预期位置/>
Figure BDA00037008723900000422
输入到动作矫正器中,动作矫正器经计算输出矫正后的动作/>
Figure BDA00037008723900000423
再令驱动力等于矫正后的动作:/>
Figure BDA00037008723900000424
然后返回步骤(4.6);
(4.8)、第i架无人机随机对经验池
Figure BDA00037008723900000425
进行采样,获得一批次的样本集/>
Figure BDA00037008723900000426
并根据样本集中的样本/>
Figure BDA00037008723900000427
其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为oi',对应输入的驱动力为ui';按照下式分别计算策略网络和价值网络的损失函数值:
Figure BDA0003700872390000051
其中,
Figure BDA0003700872390000052
表示样本个数;
(4.9)、按照下式更新目标策略网络和目标价值网络的参数:
Figure BDA0003700872390000053
其中,τ表示更新步长;
(4.10)、第i架无人机执行
Figure BDA0003700872390000054
执行完成后若此时所有的目标点均满足覆盖需求,即/>
Figure BDA0003700872390000055
则进入(4.12),反之进入(4.11);
(4.11)、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入(4.12);否则,令t=t+1,再返回至步骤(4.2);
(4.12)、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模;
(5)、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息
Figure BDA0003700872390000056
其控制决策将由策略网络进行计算:/>
Figure BDA0003700872390000057
当/>
Figure BDA0003700872390000058
时,覆盖结束,场景中所有目标点的探测需求均已满足。
本发明的发明目的是这样实现的:
本发明基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。
同时,本发明基于多智能体深度强化学习的无人机集群动态覆盖方法还具有以下有益效果:
(1)、适应性与可拓展性强:本发明所考虑的无人机集群是一种通用模型,对个体数量未作限制,其可以由同型号或者不同型号的个体无人机组成。同时,覆盖场景也是任意的,每个目标点的位置和所需探测能量都可以随机生成。这使得本方法对场景的适应能力较强。
(2)、计算资源消耗更少:本发明所提及的方法在执行时只需要决策控制器就可以实现连通保持和动态覆盖两项任务。相比于集中式并行安全控制器的方法,本发明减少了对硬件平台的依赖,同时也提高的处理速度。
(3)、鲁棒性和自组织性强:本发明通过集中式训练使集群中的每个个体都具有自主保持连通的能力,具有分布式协同的功能。当集群中出现部分个体故障失效时不会影响任务效率。
附图说明
图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图;
图2是本发明提出的算法的覆盖率训练曲线。
图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线。
图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图;。
在本实施例中,如图1所示,本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法,包括以下步骤:
S1、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置W=[-100m,100m]2的目标区域,设置了M=20个待覆盖的目标点,使用集合
Figure BDA0003700872390000071
表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N=4架无人机,使用集合/>
Figure BDA0003700872390000072
表示,用/>
Figure BDA0003700872390000073
表示第i架无人机在t时刻的位置,用/>
Figure BDA0003700872390000074
表示第i架无人机在t时刻的速度;
S2、搭建无人机动力学模型;
设t时刻第i架无人机以驱动力
Figure BDA0003700872390000075
作为控制输入,其中,
Figure BDA0003700872390000076
分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;
考虑双积分动态特性智能体,在空间运动时受到空气阻力的影响,建立第i架无人机的动力学模型:
Figure BDA0003700872390000077
其中,
Figure BDA0003700872390000078
表示t时刻第i架无人机的加速度,η为比例系数,取值为η=0.15,m为无人机的质量,取值为m=1kg;无人机t+1时刻位置/>
Figure BDA0003700872390000079
与速度/>
Figure BDA00037008723900000710
的更新迭代公式为:
Figure BDA00037008723900000711
其中,Δt表示时间间隔;
S3、搭建无人机集群的动态覆盖模型;
S3.1、定义t时刻第i架无人机的观测信息
Figure BDA00037008723900000712
Figure BDA00037008723900000713
其中,
Figure BDA00037008723900000714
表示每个目标点所需的覆盖能量,在本实施例中,每个目标点对应一个所需的覆盖能量服从均匀分布/>
Figure BDA00037008723900000715
Figure BDA00037008723900000716
表示在[0,t]内第j个目标点接受到的覆盖能量;此种观测信息的设置具有更好的适应性与可拓展性,可适应任意数量、位置的目标点和无人机的运行场景。
S3.2、定义t时刻的状态st
Figure BDA0003700872390000081
S3.3、构建无人机集群的动态覆盖模型;
S3.3.1、搭建无人机的策略网络及目标策略网络;
策略网络采用三层感知机结构,策略网络的输入为观测信息
Figure BDA0003700872390000082
正向传播后策略网络的输出表示为/>
Figure BDA0003700872390000083
其中,θi表示策略网络待训练的网络参数;
目标策略网络与策略网络结构相同,目标策略网络的输入为观测
Figure BDA0003700872390000084
正向传播后目标策略网络的输出表示为/>
Figure BDA0003700872390000085
其中,/>
Figure BDA0003700872390000086
表示目标策略网络待训练的网络参数;
S3.3.2、搭建无人机的价值网络与目标价值网络;
价值网络采用三层感知机结构,价值网络的输入为状态st与驱动力
Figure BDA0003700872390000087
正向传播后价值网络的输出表示为/>
Figure BDA0003700872390000088
其中,ψi表示价值网络待训练的网络参数;
目标价值网络与价值网络结构相同,目标价值网络的输入为状态st与驱动力
Figure BDA0003700872390000089
正向传播后目标价值网络的输出表示为/>
Figure BDA00037008723900000810
其中,/>
Figure BDA00037008723900000811
表示目标价值网络待训练的网络参数;
S4、训练无人机集群动态覆盖决策模型
S4.1、设定最大训练轮数Ne=3×104,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T=80s,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池
Figure BDA00037008723900000812
为空集;初始化网络参数θii和目标网络参数/>
Figure BDA00037008723900000813
为随机值;
S4.2、在第e轮训练中,传感器无法获取探测半径外的信息,探测半径内的信息获取率随距离的增加而减少,设第i架无人机仅能获取其探测半径ri=15m内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
Figure BDA0003700872390000091
Figure BDA0003700872390000092
其中,
Figure BDA0003700872390000093
为传感器与目标点欧式距离;
S4.3、设无人机均具有相同的探测功率Mp=1,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率
Figure BDA0003700872390000094
Figure BDA0003700872390000095
S4.4、以时间为积分变量,对探测功率函数积分,可以得到无人机在一段时间内在任务空间上提供的探测能量,这样我们可以计算第j个目标点在[0,t]内接受到的覆盖能量
Figure BDA0003700872390000096
Figure BDA0003700872390000097
S4.5、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息
Figure BDA0003700872390000098
与状态st,将/>
Figure BDA0003700872390000099
输入到策略网络中,通过正向传播得到/>
Figure BDA00037008723900000910
然后令驱动力/>
Figure BDA00037008723900000911
ω表示随机噪声;
S4.6、第i架无人机将驱动力
Figure BDA00037008723900000912
代入式(1)计算出下一时刻预期的位置/>
Figure BDA00037008723900000913
和速度/>
Figure BDA00037008723900000914
然后通过公式(7)计算[0,t+1]内预期的探测能量/>
Figure BDA00037008723900000915
最后利用/>
Figure BDA00037008723900000916
Figure BDA00037008723900000917
与/>
Figure BDA00037008723900000918
计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将/>
Figure BDA00037008723900000919
组成样本存入经验池/>
Figure BDA00037008723900000920
中;
在本实施例中,状态st转移到状态st+1的奖励值R为:
Figure BDA00037008723900000921
其中,Rt=15表示完成单个目标点覆盖后所给予的奖励,
Figure BDA00037008723900000922
表示t时刻已完成覆盖的目标点的集合,/>
Figure BDA00037008723900000923
表示完成任务奖励,当任务完成时,/>
Figure BDA0003700872390000101
反之为0,Rs表示未完成覆盖的目标点所给予的惩罚;/>
Figure BDA0003700872390000102
表示向量/>
Figure BDA0003700872390000103
的第k个元素,ubk,lbk分别表示任务区域的第k维的上、下边界坐标值;Rc=20表示通信网络连通所给予的奖励,ct+1表示t+1时刻网络是否连通,当集群连通时,ct+1=1,反之ct+1=0。
S4.7、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入S4.8;否则,反之则将驱动力
Figure BDA0003700872390000104
所有无人机的当前位置/>
Figure BDA0003700872390000105
与预期位置/>
Figure BDA0003700872390000106
输入到动作矫正器中,动作矫正器经计算输出矫正后的动作/>
Figure BDA0003700872390000107
再令驱动力等于矫正后的动作:/>
Figure BDA0003700872390000108
然后返回步骤S4.6,此步骤保证了训练时的集群连通,有助于解决奖励稀疏的问题;
在本实施例中,通信网络是否失去连通的判断过程为:
1)、设第i架无人机的通信半径为Ri=30m,使用图Gt={V,εt,At}表示时刻t的集群通信网络,其中,V表示通信网络中无人机集群的集合,εt表示t时刻通信链路的集合,At表示t时刻的N×N的邻接矩阵,其元素定义为:若
Figure BDA0003700872390000109
则At的第i行j列元素[At]ij=1,表示xi发送的信息能够被xj接收,反之[At]ij=0;
2)、使用图Gt的连通度作为集群通信网络连通性ct∈{0,1}的判据,当ct=0时,表示通信网络失去连通,当ct=1时,表示通信网络连通;
Figure BDA00037008723900001010
其中,
Figure BDA00037008723900001011
表示计算图/>
Figure BDA00037008723900001012
的拉普拉斯矩阵/>
Figure BDA00037008723900001013
第二小特征值,/>
Figure BDA00037008723900001014
Figure BDA00037008723900001015
当通信网络失去连通时,其动作矫正器的矫正步骤为:
1)、若st+1失去连通,则输入驱动力
Figure BDA00037008723900001016
所有无人机的当前位置/>
Figure BDA00037008723900001017
与预期位置/>
Figure BDA0003700872390000111
据此对所有满足(xi,xj)∈εt,/>
Figure BDA0003700872390000112
的xi与xj之间计算所需的连通约束力/>
Figure BDA0003700872390000113
Figure BDA0003700872390000114
其中,β表示比例系数,
Figure BDA0003700872390000115
表示无人机xi与xj在t时刻的欧式距离,设vm=10m/s为无人机最大的飞行速度,当/>
Figure BDA0003700872390000116
理论上可证明施加的连通约束力fr,i一定能保证通信网络的连通;
2)、通过求解下述优化问题得到在原有驱动力
Figure BDA0003700872390000117
基础上矫正后的动作/>
Figure BDA0003700872390000118
Figure BDA0003700872390000119
Figure BDA00037008723900001110
其中,
Figure BDA00037008723900001111
表示向量/>
Figure BDA00037008723900001112
的第k个元素,/>
Figure BDA00037008723900001113
[fr,i]k同理。
S4.8、第i架无人机随机对经验池
Figure BDA00037008723900001114
进行采样,获得一批次的样本集/>
Figure BDA00037008723900001115
并根据样本集中的样本/>
Figure BDA00037008723900001116
其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为oi',对应输入的驱动力为ui';按照下式分别计算策略网络和价值网络的损失函数值:
Figure BDA00037008723900001117
其中,
Figure BDA00037008723900001118
表示样本个数;
S4.9、每训练100轮,按照下式更新目标策略网络和目标价值网络的参数:
Figure BDA00037008723900001119
其中,τ=0.75表示更新步长;
S4.10、第i架无人机执行
Figure BDA00037008723900001120
执行完成后若此时所有的目标点均满足覆盖需求,即
Figure BDA0003700872390000121
则进入S4.12,反之进入S4.11;
S4.11、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入S4.12;否则,令t=t+1,再返回至步骤S4.2;
S4.12、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模型;训练时的覆盖率
Figure BDA0003700872390000122
变化曲线如图2所示;
S5、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息
Figure BDA0003700872390000123
其控制决策将由策略网络进行计算:/>
Figure BDA0003700872390000124
当/>
Figure BDA0003700872390000125
时,覆盖结束,场景中所有目标点的探测需求均已满足,覆盖的轨迹如图3所示,各时刻的覆盖效果如图4所示。由于实施过程中仅使用到了策略网络,无需使用价值网络和动作矫正器,其计算资源消耗更少。同时,每个个体均会根据收集的观测信息,利用策略网络进行本地决策,一些个体的故障不会影响其余个体的决策,因此本方法鲁棒性和自组织性强。
至此,基于多智能体深度强化学习的无人机集群动态覆盖方法实施完成。
利用Python语言,基于深度学习框架TensorFlow对本方法进行编程,进行仿真实验,图2展示了训练过程中,覆盖率
Figure BDA0003700872390000126
随训练轮数增加的变化曲线,图中,实线表示覆盖率曲线,其底色表示方差变化范围,可以看出,随着训练轮数的增加,覆盖率逐渐上升,并最终在30k轮附近趋近于1,表示此时模型输出的驱动力能够使无人机集群实现覆盖目标,模型训练完成。
图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线,,图中带有底色的圆表示不同时刻各无人机的探测范围,菱形表示各无人机的初始位置,矩形表示各无人机的覆盖结束的位置,虚线表示各无人机的飞行轨迹。可以看出,无人机收集观测信息输入到策略网络中,自主规划飞行轨迹,其飞行轨迹在各个时刻的探测范围组成的覆盖区域覆盖了所有目标点,所有目标点的覆盖需求均已满足,表明本发明提出的算法能够控制无人机集群实现动态覆盖目标。
图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图,共展示了t=0,14,28,37s四个时刻的动态覆盖效果,图中质点表示目标点,颜色深的质点表示未完成覆盖的目标点,颜色较浅的质点表示已完成覆盖的目标点,五角星表示无人机当前位置,以无人机为中心的半径较大颜色较浅的同心圆表示无人机的通信范围,半径较小颜色较深的同心圆表示无人机的探测范围,连接五角星的直线表示通信链路;可以看出,随着覆盖时间的增加,浅色质点增多,深色质点减少,即目标点逐渐被无人机集群覆盖,最终t=37s时仅剩浅色质点,即所有目标点均被无人机集群覆盖,覆盖任务完成,这表明本发明提出的算法能够控制无人机集群实现动态覆盖目标;同时,随着覆盖的进行,各无人机之间均能建立至少一条通信链路,表明本发明提出的算法能够保证覆盖过程中的通信网络的连通。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
(1)、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置M个待覆盖的目标点,使用集合
Figure QLYQS_1
表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合/>
Figure QLYQS_2
表示,用/>
Figure QLYQS_3
表示第i架无人机在t时刻的位置,用/>
Figure QLYQS_4
表示第i架无人机在t时刻的速度;
(2)、搭建无人机动力学模型;
设t时刻第i架无人机以驱动力
Figure QLYQS_5
作为控制输入,其中,/>
Figure QLYQS_6
分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;
建立第i架无人机的动力学模型:
Figure QLYQS_7
其中,
Figure QLYQS_8
表示t时刻第i架无人机的加速度,η为比例系数,m为无人机的质量;无人机t+1时刻位置/>
Figure QLYQS_9
与速度/>
Figure QLYQS_10
的更新迭代公式为:
Figure QLYQS_11
其中,Δt表示时间间隔;
(3)、搭建无人机集群的动态覆盖模型;
(3.1)、定义t时刻第i架无人机的观测信息
Figure QLYQS_12
Figure QLYQS_13
其中,
Figure QLYQS_14
表示每个目标点所需的覆盖能量,/>
Figure QLYQS_15
表示在[0,t]内第j个目标点接受到的覆盖能量;
(3.2)、定义t时刻的状态st
Figure QLYQS_16
(3.3)、构建无人机集群的动态覆盖模型;
(3.3.1)、搭建无人机的策略网络及目标策略网络;
策略网络采用三层感知机结构,策略网络的输入为观测信息
Figure QLYQS_17
正向传播后策略网络的输出表示为/>
Figure QLYQS_18
其中,θi表示策略网络待训练的网络参数;
目标策略网络与策略网络结构相同,目标策略网络的输入为观测
Figure QLYQS_19
正向传播后目标策略网络的输出表示为/>
Figure QLYQS_20
其中,/>
Figure QLYQS_21
表示目标策略网络待训练的网络参数;
(3.3.2)、搭建无人机的价值网络与目标价值网络;
价值网络采用三层感知机结构,价值网络的输入为状态st与驱动力
Figure QLYQS_22
正向传播后价值网络的输出表示为/>
Figure QLYQS_23
其中,ψi表示价值网络待训练的网络参数;
目标价值网络与价值网络结构相同,目标价值网络的输入为状态st与驱动力
Figure QLYQS_24
正向传播后目标价值网络的输出表示为/>
Figure QLYQS_25
其中,/>
Figure QLYQS_26
表示目标价值网络待训练的网络参数;
(4)、训练无人机集群动态覆盖决策模型
(4.1)、设定最大训练轮数Ne,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池
Figure QLYQS_27
为空集;初始化网络参数θii和目标网络参数/>
Figure QLYQS_28
为随机值;
(4.2)、在第e轮训练中,设第i架无人机仅能获取其探测半径ri内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
Figure QLYQS_29
Figure QLYQS_30
其中,
Figure QLYQS_31
为传感器与目标点欧式距离;
(4.3)、设无人机均具有相同的探测功率Mp,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率
Figure QLYQS_32
Figure QLYQS_33
(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量
Figure QLYQS_34
Figure QLYQS_35
(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息
Figure QLYQS_36
与状态st,将/>
Figure QLYQS_37
输入到策略网络中,通过正向传播得到/>
Figure QLYQS_38
然后令驱动力/>
Figure QLYQS_39
ω表示随机噪声;
(4.6)、第i架无人机将驱动力
Figure QLYQS_41
代入式(1)计算出下一时刻预期的位置/>
Figure QLYQS_44
和速度/>
Figure QLYQS_46
然后通过公式(7)计算[0,t+1]内预期的探测能量/>
Figure QLYQS_42
最后利用/>
Figure QLYQS_43
与/>
Figure QLYQS_45
计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将/>
Figure QLYQS_47
组成样本存入经验池/>
Figure QLYQS_40
中;
(4.7)、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力
Figure QLYQS_48
所有无人机的当前位置/>
Figure QLYQS_49
与预期位置/>
Figure QLYQS_50
输入到动作矫正器中,动作矫正器经计算输出矫正后的动作/>
Figure QLYQS_51
再令驱动力等于矫正后的动作:/>
Figure QLYQS_52
然后返回步骤(4.6);
(4.8)、第i架无人机随机对经验池
Figure QLYQS_53
进行采样,获得一批次的样本集/>
Figure QLYQS_54
并根据样本集中的样本/>
Figure QLYQS_55
其中,s′表示状态s对应的下一时刻的状态,s′对应的观察信息为o′i,对应输入的驱动力为u′i;按照下式分别计算策略网络和价值网络的损失函数值:
Figure QLYQS_56
其中,
Figure QLYQS_57
表示样本个数;
(4.9)、按照下式更新目标策略网络和目标价值网络的参数:
Figure QLYQS_58
其中,τ表示更新步长;
(4.10)、第i架无人机执行
Figure QLYQS_59
执行完成后若此时所有的目标点均满足覆盖需求,即
Figure QLYQS_60
则进入(4.12),反之进入(4.11);
(4.11)、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入(4.12);否则,令t=t+1,再返回至步骤(4.2);
(4.12)、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模型;
(5)、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息
Figure QLYQS_61
其控制决策将由策略网络进行计算:/>
Figure QLYQS_62
Figure QLYQS_63
时,覆盖结束,场景中所有目标点的探测需求均已满足。
2.根据权利要求1所述的一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,所述通信网络是否失去连通的判断过程为:
1)、设第i架无人机的通信半径为Ri,使用图Gt={V,εt,At}表示时刻t的集群通信网络,其中,V表示通信网络中无人机集群的集合,εt表示t时刻通信链路的集合,At表示t时刻的N×N的邻接矩阵,其元素定义为:若
Figure QLYQS_64
则At的第i行j列元素[At]ij=1,表示xi发送的信息能够被xj接收,反之[At]ij=0;
2)、使用图Gt的连通度作为集群通信网络连通性ct∈{0,1}的判据,当ct=0时,表示通信网络失去连通,当ct=1时,表示通信网络连通;
Figure QLYQS_65
其中,
Figure QLYQS_66
表示计算图/>
Figure QLYQS_67
的拉普拉斯矩阵/>
Figure QLYQS_68
第二小特征值,/>
Figure QLYQS_69
Figure QLYQS_70
3.根据权利要求1所述的一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,所述状态st转移到状态st+1的奖励值R为:
Figure QLYQS_71
其中,Rt表示完成单个目标点覆盖后所给予的奖励,
Figure QLYQS_72
表示t时刻已完成覆盖的目标点的集合,/>
Figure QLYQS_73
表示完成任务奖励,当任务完成时,/>
Figure QLYQS_74
反之为0,Rs表示未完成覆盖的目标点所给予的惩罚;/>
Figure QLYQS_75
表示向量/>
Figure QLYQS_76
的第k个元素,ubk,lbk分别表示任务区域的第k维的上、下边界坐标值;Rc表示通信网络连通所给予的奖励,ct+1表示t+1时刻网络是否连通,当集群连通时,ct+1=1,反之ct+1=0。
4.根据权利要求1所述的一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,所述动作矫正器的矫正步骤为:
1)、若st+1失去连通,则输入则将驱动力
Figure QLYQS_77
所有无人机的当前位置/>
Figure QLYQS_78
与预期位置/>
Figure QLYQS_79
对所有满足/>
Figure QLYQS_80
的xi与xj之间计算所需的连通约束力/>
Figure QLYQS_81
Figure QLYQS_82
其中,β表示比例系数,
Figure QLYQS_83
表示无人机xi与xj在t时刻的欧式距离;
2)、设vm为无人机最大的飞行速度,那么当
Figure QLYQS_84
时,施加的连通约束力fr,i能保证通信网络的连通,最后通过求解下述优化问题得到在原有驱动力/>
Figure QLYQS_85
基础上矫正后的动作/>
Figure QLYQS_86
Figure QLYQS_87
其中,
Figure QLYQS_88
表示向量/>
Figure QLYQS_89
的第k个元素,/>
Figure QLYQS_90
同理。
CN202210688998.3A 2022-06-17 2022-06-17 基于多智能体深度强化学习的无人机集群动态覆盖方法 Active CN114879742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210688998.3A CN114879742B (zh) 2022-06-17 2022-06-17 基于多智能体深度强化学习的无人机集群动态覆盖方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210688998.3A CN114879742B (zh) 2022-06-17 2022-06-17 基于多智能体深度强化学习的无人机集群动态覆盖方法

Publications (2)

Publication Number Publication Date
CN114879742A CN114879742A (zh) 2022-08-09
CN114879742B true CN114879742B (zh) 2023-07-04

Family

ID=82681125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210688998.3A Active CN114879742B (zh) 2022-06-17 2022-06-17 基于多智能体深度强化学习的无人机集群动态覆盖方法

Country Status (1)

Country Link
CN (1) CN114879742B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797394B (zh) * 2022-11-15 2023-09-05 北京科技大学 一种基于强化学习的多智能体覆盖方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10431103B2 (en) * 2017-04-11 2019-10-01 T-Mobile Usa, Inc. Three-dimensional network coverage modeling for UAVs
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
US11443644B2 (en) * 2019-10-11 2022-09-13 Wipro Limited System and method of guiding a plurality of agents for complete coverage of an inspection area
CN111104595B (zh) * 2019-12-16 2023-04-07 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111432015B (zh) * 2020-03-31 2022-07-19 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN112286203B (zh) * 2020-11-11 2021-10-15 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN113419561A (zh) * 2021-07-12 2021-09-21 西安电子科技大学 一种分布式空中基站高动态部署方法
CN114326715B (zh) * 2021-12-09 2023-10-03 东南大学 一种变维多智能体系统的编队控制方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统

Also Published As

Publication number Publication date
CN114879742A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
Liu et al. Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN113268081B (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN111273688B (zh) 基于事件触发的四旋翼无人机一致性编队控制方法
CN114879742B (zh) 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115509251A (zh) 基于mappo算法的多无人机多目标协同跟踪控制方法
Yue et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN112650299B (zh) 一种考虑时变编队的分组一致性无人机编队控制方法
Zhang et al. Research on autonomous maneuvering decision of UCAV based on deep reinforcement learning
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
CN114138022B (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN116700340A (zh) 轨迹规划方法、装置及无人机集群
CN116774731A (zh) 一种基于强化学习的无人机编队路径规划方法
Guo et al. Maneuver decision of UAV in air combat based on deterministic policy gradient
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
CN113962013B (zh) 飞行器对抗决策方法及装置
CN111552317B (zh) 一种多航天器四维协同轨迹确定方法
Lu et al. Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant