CN114879742A - 基于多智能体深度强化学习的无人机集群动态覆盖方法 - Google Patents
基于多智能体深度强化学习的无人机集群动态覆盖方法 Download PDFInfo
- Publication number
- CN114879742A CN114879742A CN202210688998.3A CN202210688998A CN114879742A CN 114879742 A CN114879742 A CN 114879742A CN 202210688998 A CN202210688998 A CN 202210688998A CN 114879742 A CN114879742 A CN 114879742A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- target
- coverage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims description 50
- 238000001514 detection method Methods 0.000 claims description 24
- 239000003795 chemical substances by application Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000000452 restraining effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000012423 maintenance Methods 0.000 abstract description 11
- 238000004088 simulation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。
Description
技术领域
本发明属于无人机集群动态覆盖控制技术领域,更为具体地讲,涉及一种基于多智能体深度强化学习的无人机集群动态覆盖方法。
背景技术
近年来,随着物联网技术和通信技术的发展,无人机集群的应用场景越发广泛。无人机集群是指由一组具有数据采集和信息处理功能的无人机所组成的多智能体系统。这些无人机可以通过通信来协调彼此的行动,从而完成单架无人机所不能完成的任务。无人机集群凭借其对于高风险和高污染环境的高耐受力,被越来越多地用于执行动态覆盖控制任务。典型的动态覆盖控制任务包括航空勘测、目标监视、灾情侦察等,其在工业、民用甚至军事领域都具有光明的前景和突出的研究价值。
然而,无人机集群的应用给系统带来的机动性的同时,也带来了通信网络的连通性保持方面的挑战。集群的连通性取决于集群中的个体之间能否建立直接或者间接的信息通道来协调行动。连通性保持作为集群信息交互的基础,是指如何规划集群的轨迹使之在运动中依旧保持连通。一方面,受到硬件平台和功能设计的限制,无人机的通信范围有限,连通保持本就较为复杂;另一方面,动态覆盖会使集群在空间中分散以实现对于任务空间的全面覆盖,连通性保持会限制集群扩展来保持通信连通,二者在动力学行为上相反且矛盾的表现使得连通保持约束下的集群动态覆盖任务更为复杂。在动态覆盖领域中,借助多智能体深度强化学习算法,现有方法通过对造成集群失去连通的驱动力施加惩罚,促使模型输出的驱动力向着保持集群连通的方向优化,然而,仅施加惩罚并不能保证训练时的集群连通,并且存在奖励稀疏的问题,模型不容易收敛。针对上述不足,本发明提出一种基于多智能体深度强化学习的无人机集群动态覆盖方法,通过引入动作矫正器,对使集群丢失连通的驱动力进行修正,可保证集群训练时的连通性,同时解决了奖励稀疏的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多智能体深度强化学习的无人机集群动态覆盖方法,基于连通性规则并配合多智能体深度强化学习,使得无人机集群可以在执行任务时自主实现连通保持和动态覆盖。
为实现上述发明目的,本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
(1)、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置M个待覆盖的目标点,使用集合表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;
(2)、搭建无人机动力学模型;
建立第i架无人机的动力学模型:
其中,Δt表示时间间隔;
(3)、搭建无人机集群的动态覆盖模型;
(3.2)、定义t时刻的状态st;
(3.3)、构建无人机集群的动态覆盖模型;
(3.3.1)、搭建无人机的策略网络及目标策略网络;
(3.3.2)、搭建无人机的价值网络与目标价值网络;
(4)、训练无人机集群动态覆盖决策模型
(4.1)、设定最大训练轮数Ne,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池为空集;初始化网络参数θi,ψi和目标网络参数为随机值;
(4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用 与计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将组成样本存入经验池中;
(4.7)、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤(4.6);
(4.8)、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样本集中的样本其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为oi',对应输入的驱动力为ui';按照下式分别计算策略网络和价值网络的损失函数值:
(4.9)、按照下式更新目标策略网络和目标价值网络的参数:
其中,τ表示更新步长;
(4.11)、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入(4.12);否则,令t=t+1,再返回至步骤(4.2);
(4.12)、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模;
(5)、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息其控制决策将由策略网络进行计算:当时,覆盖结束,场景中所有目标点的探测需求均已满足。
本发明的发明目的是这样实现的:
本发明基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。
同时,本发明基于多智能体深度强化学习的无人机集群动态覆盖方法还具有以下有益效果:
(1)、适应性与可拓展性强:本发明所考虑的无人机集群是一种通用模型,对个体数量未作限制,其可以由同型号或者不同型号的个体无人机组成。同时,覆盖场景也是任意的,每个目标点的位置和所需探测能量都可以随机生成。这使得本方法对场景的适应能力较强。
(2)、计算资源消耗更少:本发明所提及的方法在执行时只需要决策控制器就可以实现连通保持和动态覆盖两项任务。相比于集中式并行安全控制器的方法,本发明减少了对硬件平台的依赖,同时也提高的处理速度。
(3)、鲁棒性和自组织性强:本发明通过集中式训练使集群中的每个个体都具有自主保持连通的能力,具有分布式协同的功能。当集群中出现部分个体故障失效时不会影响任务效率。
附图说明
图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图;
图2是本发明提出的算法的覆盖率训练曲线。
图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线。
图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图;。
在本实施例中,如图1所示,本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法,包括以下步骤:
S1、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置W=[-100m,100m]2的目标区域,设置了M=20个待覆盖的目标点,使用集合表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N=4架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;
S2、搭建无人机动力学模型;
考虑双积分动态特性智能体,在空间运动时受到空气阻力的影响,建立第i架无人机的动力学模型:
其中,Δt表示时间间隔;
S3、搭建无人机集群的动态覆盖模型;
其中,表示每个目标点所需的覆盖能量,在本实施例中,每个目标点对应一个所需的覆盖能量服从均匀分布 表示在[0,t]内第j个目标点接受到的覆盖能量;此种观测信息的设置具有更好的适应性与可拓展性,可适应任意数量、位置的目标点和无人机的运行场景。
S3.2、定义t时刻的状态st;
S3.3、构建无人机集群的动态覆盖模型;
S3.3.1、搭建无人机的策略网络及目标策略网络;
S3.3.2、搭建无人机的价值网络与目标价值网络;
S4、训练无人机集群动态覆盖决策模型
S4.1、设定最大训练轮数Ne=3×104,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T=80s,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池为空集;初始化网络参数θi,ψi和目标网络参数为随机值;
S4.2、在第e轮训练中,传感器无法获取探测半径外的信息,探测半径内的信息获取率随距离的增加而减少,设第i架无人机仅能获取其探测半径ri=15m内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
S4.6、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用 与计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将组成样本存入经验池中;
在本实施例中,状态st转移到状态st+1的奖励值R为:
其中,Rt=15表示完成单个目标点覆盖后所给予的奖励,表示t时刻已完成覆盖的目标点的集合,表示完成任务奖励,当任务完成时,反之为0,Rs表示未完成覆盖的目标点所给予的惩罚;表示向量的第k个元素,ubk,lbk分别表示任务区域的第k维的上、下边界坐标值;Rc=20表示通信网络连通所给予的奖励,ct+1表示t+1时刻网络是否连通,当集群连通时,ct+1=1,反之ct+1=0。
S4.7、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入S4.8;否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤S4.6,此步骤保证了训练时的集群连通,有助于解决奖励稀疏的问题;
在本实施例中,通信网络是否失去连通的判断过程为:
1)、设第i架无人机的通信半径为Ri=30m,使用图Gt={V,εt,At}表示时刻t的集群通信网络,其中,V表示通信网络中无人机集群的集合,εt表示t时刻通信链路的集合,At表示t时刻的N×N的邻接矩阵,其元素定义为:若则At的第i行j列元素[At]ij=1,表示xi发送的信息能够被xj接收,反之[At]ij=0;
2)、使用图Gt的连通度作为集群通信网络连通性ct∈{0,1}的判据,当ct=0时,表示通信网络失去连通,当ct=1时,表示通信网络连通;
当通信网络失去连通时,其动作矫正器的矫正步骤为:
S4.8、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样本集中的样本其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为oi',对应输入的驱动力为ui';按照下式分别计算策略网络和价值网络的损失函数值:
S4.9、每训练100轮,按照下式更新目标策略网络和目标价值网络的参数:
其中,τ=0.75表示更新步长;
S4.11、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入S4.12;否则,令t=t+1,再返回至步骤S4.2;
S4.12、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模型;训练时的覆盖率变化曲线如图2所示;
S5、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息其控制决策将由策略网络进行计算:当时,覆盖结束,场景中所有目标点的探测需求均已满足,覆盖的轨迹如图3所示,各时刻的覆盖效果如图4所示。由于实施过程中仅使用到了策略网络,无需使用价值网络和动作矫正器,其计算资源消耗更少。同时,每个个体均会根据收集的观测信息,利用策略网络进行本地决策,一些个体的故障不会影响其余个体的决策,因此本方法鲁棒性和自组织性强。
至此,基于多智能体深度强化学习的无人机集群动态覆盖方法实施完成。
利用Python语言,基于深度学习框架TensorFlow对本方法进行编程,进行仿真实验,图2展示了训练过程中,覆盖率随训练轮数增加的变化曲线,图中,实线表示覆盖率曲线,其底色表示方差变化范围,可以看出,随着训练轮数的增加,覆盖率逐渐上升,并最终在30k轮附近趋近于1,表示此时模型输出的驱动力能够使无人机集群实现覆盖目标,模型训练完成。
图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线,,图中带有底色的圆表示不同时刻各无人机的探测范围,菱形表示各无人机的初始位置,矩形表示各无人机的覆盖结束的位置,虚线表示各无人机的飞行轨迹。可以看出,无人机收集观测信息输入到策略网络中,自主规划飞行轨迹,其飞行轨迹在各个时刻的探测范围组成的覆盖区域覆盖了所有目标点,所有目标点的覆盖需求均已满足,表明本发明提出的算法能够控制无人机集群实现动态覆盖目标。
图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图,共展示了t=0,14,28,37s四个时刻的动态覆盖效果,图中质点表示目标点,颜色深的质点表示未完成覆盖的目标点,颜色较浅的质点表示已完成覆盖的目标点,五角星表示无人机当前位置,以无人机为中心的半径较大颜色较浅的同心圆表示无人机的通信范围,半径较小颜色较深的同心圆表示无人机的探测范围,连接五角星的直线表示通信链路;可以看出,随着覆盖时间的增加,浅色质点增多,深色质点减少,即目标点逐渐被无人机集群覆盖,最终t=37s时仅剩浅色质点,即所有目标点均被无人机集群覆盖,覆盖任务完成,这表明本发明提出的算法能够控制无人机集群实现动态覆盖目标;同时,随着覆盖的进行,各无人机之间均能建立至少一条通信链路,表明本发明提出的算法能够保证覆盖过程中的通信网络的连通。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (4)
1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
(1)、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置M个待覆盖的目标点,使用集合表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;
(2)、搭建无人机动力学模型;
建立第i架无人机的动力学模型:
其中,Δt表示时间间隔;
(3)、搭建无人机集群的动态覆盖模型;
(3.2)、定义t时刻的状态st;
(3.3)、构建无人机集群的动态覆盖模型;
(3.3.1)、搭建无人机的策略网络及目标策略网络;
(3.3.2)、搭建无人机的价值网络与目标价值网络;
(4)、训练无人机集群动态覆盖决策模型
(4.1)、设定最大训练轮数Ne,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池为空集;初始化网络参数θi,ψi和目标网络参数为随机值;
(4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用与计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将组成样本存入经验池中;
(4.7)、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤(4.6);
(4.8)、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样本集中的样本其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为o′i,对应输入的驱动力为u′i;按照下式分别计算策略网络和价值网络的损失函数值:
(4.9)、按照下式更新目标策略网络和目标价值网络的参数:
其中,τ表示更新步长;
(4.11)、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入(4.12);否则,令t=t+1,再返回至步骤(4.2);
(4.12)、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模;
2.一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,所述通信网络是否失去连通的判断过程为:
(2.1)、设第i架无人机的通信半径为Ri,使用图Gt={V,εt,At}表示时刻t的集群通信网络,其中,V表示通信网络中无人机集群的集合,εt表示t时刻通信链路的集合,At表示t时刻的N×N的邻接矩阵,其元素定义为:若则At的第i行j列元素[At]ij=1,表示xi发送的信息能够被xj接收,反之[At]ij=0;
(2.2)、使用图Gt的连通度作为集群通信网络连通性ct∈{0,1}的判据,当ct=0时,表示通信网络失去连通,当ct=1时,表示通信网络连通;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210688998.3A CN114879742B (zh) | 2022-06-17 | 2022-06-17 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210688998.3A CN114879742B (zh) | 2022-06-17 | 2022-06-17 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114879742A true CN114879742A (zh) | 2022-08-09 |
CN114879742B CN114879742B (zh) | 2023-07-04 |
Family
ID=82681125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210688998.3A Active CN114879742B (zh) | 2022-06-17 | 2022-06-17 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114879742B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797394A (zh) * | 2022-11-15 | 2023-03-14 | 北京科技大学 | 一种基于强化学习的多智能体覆盖方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180293897A1 (en) * | 2017-04-11 | 2018-10-11 | T-Mobile, U.S.A, Inc. | Three-dimensional network coverage modeling for uavs |
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111432015A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
US20210110725A1 (en) * | 2019-10-11 | 2021-04-15 | Wipro Limited | System and method of guiding a plurality of agents for complete coverage of an inspection area |
CN113419561A (zh) * | 2021-07-12 | 2021-09-21 | 西安电子科技大学 | 一种分布式空中基站高动态部署方法 |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114326715A (zh) * | 2021-12-09 | 2022-04-12 | 东南大学 | 一种变维多智能体系统的编队控制方法与装置 |
-
2022
- 2022-06-17 CN CN202210688998.3A patent/CN114879742B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180293897A1 (en) * | 2017-04-11 | 2018-10-11 | T-Mobile, U.S.A, Inc. | Three-dimensional network coverage modeling for uavs |
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
WO2020134507A1 (zh) * | 2018-12-28 | 2020-07-02 | 北京邮电大学 | 无人机网络路由构建方法、无人机及存储介质 |
US20210110725A1 (en) * | 2019-10-11 | 2021-04-15 | Wipro Limited | System and method of guiding a plurality of agents for complete coverage of an inspection area |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111432015A (zh) * | 2020-03-31 | 2020-07-17 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113419561A (zh) * | 2021-07-12 | 2021-09-21 | 西安电子科技大学 | 一种分布式空中基站高动态部署方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114326715A (zh) * | 2021-12-09 | 2022-04-12 | 东南大学 | 一种变维多智能体系统的编队控制方法与装置 |
Non-Patent Citations (2)
Title |
---|
XIAOYONG MA: "Adaptve Deployment of UAV-Aided Networks Based on Hybrid Deep Reinforcement Learning" * |
张文旭;马磊;贺荟霖;王晓东;: "强化学习的地空异构多智能体协作覆盖研究", no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797394A (zh) * | 2022-11-15 | 2023-03-14 | 北京科技大学 | 一种基于强化学习的多智能体覆盖方法 |
CN115797394B (zh) * | 2022-11-15 | 2023-09-05 | 北京科技大学 | 一种基于强化学习的多智能体覆盖方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114879742B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN109871032A (zh) | 一种基于模型预测控制的多无人机编队协同控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN109669475A (zh) | 基于人工蜂群算法的多无人机三维编队重构方法 | |
CN112631335B (zh) | 一种基于事件触发的多四旋翼无人机固定时间编队方法 | |
CN111273688B (zh) | 基于事件触发的四旋翼无人机一致性编队控制方法 | |
CN111880567A (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN113268081B (zh) | 一种基于强化学习的小型无人机防控指挥决策方法及系统 | |
CN115509251A (zh) | 基于mappo算法的多无人机多目标协同跟踪控制方法 | |
CN115793453A (zh) | 融合ai深度学习的旋翼飞行器轨迹跟踪自适应控制方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN112859913B (zh) | 考虑输出约束的多四旋翼无人机姿态一致最优控制方法 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN113759935B (zh) | 基于模糊逻辑的智能群体编队移动控制方法 | |
CN111781827A (zh) | 基于神经网络和滑模控制的卫星编队控制方法 | |
CN114879742A (zh) | 基于多智能体深度强化学习的无人机集群动态覆盖方法 | |
CN114138022B (zh) | 一种基于精英鸽群智能的无人机集群分布式编队控制方法 | |
CN114063644A (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN112327926A (zh) | 一种无人机编队的自适应滑模控制方法 | |
CN116483124A (zh) | 一种无线速度测量抗干扰的四旋翼无人机编队控制方法 | |
CN109144099A (zh) | 基于卷积神经网络的无人机群行动方案快速评估方法 | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
CN113885548A (zh) | 一种多四旋翼无人机输出约束状态一致博弈控制器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |