CN113641192A - 一种基于强化学习的无人机群智感知任务的路径规划方法 - Google Patents

一种基于强化学习的无人机群智感知任务的路径规划方法 Download PDF

Info

Publication number
CN113641192A
CN113641192A CN202110763664.3A CN202110763664A CN113641192A CN 113641192 A CN113641192 A CN 113641192A CN 202110763664 A CN202110763664 A CN 202110763664A CN 113641192 A CN113641192 A CN 113641192A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
head
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110763664.3A
Other languages
English (en)
Other versions
CN113641192B (zh
Inventor
魏凯敏
黄凯
翁健
吴永东
贺宏亮
刘志全
冯丙文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202110763664.3A priority Critical patent/CN113641192B/zh
Publication of CN113641192A publication Critical patent/CN113641192A/zh
Application granted granted Critical
Publication of CN113641192B publication Critical patent/CN113641192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员‑批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。

Description

一种基于强化学习的无人机群智感知任务的路径规划方法
技术领域
本发明涉及移动群智感知任务技术领域,具体涉及一种基于强化学习的无人机群智感知任务的路径规划方法。
背景技术
在传统群智感知任务中,大量的非专业用户使用手机、智能穿戴设备等作为基本的感知单元,通过互联网进行协作,实现感知任务的分发和数据收集利用,最终完成复杂的、大规模的感知任务。
随着传感器技术和无线通信技术的高速发展,以及日渐成熟的无人机技术,市面上的无人机集成了越来越多的传感器,拥有越来越强大的感知能力和计算能力。在此背景下,利用无人机感知大规模数据成为可能。
强化学习是研究代理如何通过在环境中反复试验学习的方法。环境是代理与之互动的世界,在交互的每个步骤中,代理可以得到对环境的观察,然后根据策略决定所要采取的动作。当代理对环境进行操作时,环境会随之发生变化,并依据当前环境状态、动作、下一时刻环境状态得到奖励值。而策略是从环境中反复试验所学得的。强化学习的目标是学得一个能够使预期收益最大化的策略。
演员-批评者架构集成了值函数估计算法和策略搜索算法。由于在传统的策略梯度算法中,会因为采样次数的不足导致训练过程中对累积奖励期望值的估计不稳定,因此使用批评者网络作为值函数Q,来估计在当前环境状态下演员策略网络采取某动作的预期收益。
发明内容
本发明的目的是为了解决现有多智能体强化学习算法中的上述缺陷,公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。
本发明的目的可以通过采取如下技术方案达到:
一种基于强化学习的无人机群智感知任务的路径规划方法,所述路径规划方法包括以下步骤:
S1、根据感知任务的环境,构建无人机的仿真环境,设置无人机u在t时刻所能观测到的局部观测值
Figure BDA0003149977640000021
为无人机u设置通讯功能,使无人机u能获得其他无人机的局部观测值;
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络,其中,所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},|U|为无人机的数量,μu为无人机u的演员策略网络,μ′u为无人机u的演员目标策略网络,Qu为无人机u的批评者网络,Q′u为无人机u的批评者目标网络,设置无人机u在t时刻的动作
Figure BDA0003149977640000031
其中
Figure BDA0003149977640000032
为无人机u在t时刻的局部观测值,
Figure BDA0003149977640000033
是随机噪声;通过合理设置该随机噪声能够使得无人机做更好的探索;
S3、根据感知任务目标构造奖励函数,在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性,(2)所有无人机数据收集量之和最大化,(3)无人机能源效率的最大化,(4)信号点被感知数据量之间满足均衡性;基于以上目标,构造奖励函数;
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制;
S5、在无人机的演员决策网络中,加入对其他无人机决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策;
S6、在批评者网络加入多头注意力机制;
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值;
S8、使用n步返回时序差分计算批评者网络Q的目标值;
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值;
S10、设置最大迭代轮次;
S11、使用分布式架构执行动作,获取经验四元组;
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ;
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′;
S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
进一步地,所述步骤S3中奖励函数的构造具体计算公式为:
Figure BDA0003149977640000041
其中
Figure BDA0003149977640000042
是惩罚项,无人机u在执行动作at后,撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚,ft表示无人机在执行动作at后,感知任务环境中信号点被感知数据的均衡程度,具体ft的构造如下:
Figure BDA0003149977640000043
其中P为信号点集合,|P|为信号点数量,
Figure BDA0003149977640000044
代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量,
Figure BDA0003149977640000045
代表无人机u在执行动作
Figure BDA0003149977640000046
后,所收集的数据量,
Figure BDA0003149977640000047
代表能量消耗量函数,具体构建如下:
Figure BDA0003149977640000048
若无人机u的动作
Figure BDA0003149977640000049
是充电,则此时
Figure BDA00031499776400000410
为0,若无人机u的动作是继续飞行,则此时
Figure BDA00031499776400000411
为飞行过程中用于收集数据所消耗的电量,
Figure BDA00031499776400000412
为飞行所消耗的电量,
Figure BDA00031499776400000413
代表无人机u在执行动作
Figure BDA00031499776400000414
后的一段时间内,在充电桩充电所增加的电量,
Figure BDA00031499776400000415
代表无人机u在执行动作
Figure BDA00031499776400000416
后,剩余电量百分比。
进一步地,所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值,过程如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
S401、计算q,k,v,需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量,其中对于无人机u的局部观测值
Figure BDA0003149977640000051
转换如下:
Figure BDA0003149977640000052
Figure BDA0003149977640000053
Figure BDA0003149977640000054
其中,
Figure BDA0003149977640000055
为t时刻无人机u的局部观测值
Figure BDA0003149977640000056
的查询向量,
Figure BDA0003149977640000057
为无人机u的局部观测值
Figure BDA0003149977640000058
的键向量,
Figure BDA0003149977640000059
为无人机u的局部观测值
Figure BDA00031499776400000510
的值向量,
Figure BDA00031499776400000511
Figure BDA00031499776400000512
的计算分别使用参数为WQ、WK、WV的线性全连接层;而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
Figure BDA00031499776400000513
S402、使用3头注意力,分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分,对
Figure BDA00031499776400000514
具体操作如下:
Figure BDA00031499776400000515
Figure BDA00031499776400000516
Figure BDA00031499776400000517
Figure BDA00031499776400000518
为使用矩阵WQ,h分割
Figure BDA00031499776400000519
所得的无人机u的局部观测值
Figure BDA00031499776400000520
的第h个注意力头的查询向量,
Figure BDA00031499776400000521
为使用矩阵WK,h分割
Figure BDA00031499776400000522
所得的无人机u的局部观测值
Figure BDA00031499776400000523
的第h个注意力头的键向量,
Figure BDA00031499776400000524
为使用矩阵WV,h分割
Figure BDA00031499776400000525
所得的无人机u的局部观测值
Figure BDA0003149977640000061
的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层;
S403、分别对3头注意力计算注意力权重,得到t时刻的第h个注意力头的输出,对t时刻的第h个注意力头权重矩阵
Figure BDA0003149977640000062
具体计算如下:
Figure BDA0003149977640000063
其中
Figure BDA0003149977640000064
为步骤S402中使用矩阵WK,h分割
Figure BDA0003149977640000065
所得的无人机u的局部观测值
Figure BDA0003149977640000066
的第h个注意力头的键向量,
Figure BDA0003149977640000067
为步骤S402中使用矩阵WQ,h分割
Figure BDA0003149977640000068
所得的无人机u的局部观测值
Figure BDA0003149977640000069
的第h个注意力头的查询向量,d为向量
Figure BDA00031499776400000610
的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵
Figure BDA00031499776400000611
其中第u行、第u列元素
Figure BDA00031499776400000612
计算如下:
Figure BDA00031499776400000613
其中EXP(·)为自然指数函数,
Figure BDA00031499776400000614
为步骤S402中使用矩阵WK,h分割
Figure BDA00031499776400000615
所得的无人机i的局部观测值
Figure BDA00031499776400000616
的第h个注意力头的键向量,
Figure BDA00031499776400000617
为步骤S402中使用矩阵WQ,h分割
Figure BDA00031499776400000618
所得的无人机i的局部观测值
Figure BDA00031499776400000619
的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
Figure BDA00031499776400000620
其中
Figure BDA00031499776400000621
为步骤S402中使用矩阵WV,h分割
Figure BDA00031499776400000622
所得的无人机u的局部观测值
Figure BDA00031499776400000623
的第h个注意力头的值向量,函数ReLU为激活函数,记
Figure BDA00031499776400000624
Figure BDA0003149977640000071
为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,
Figure BDA0003149977640000072
计算如下:
Figure BDA0003149977640000073
Figure BDA0003149977640000074
为步骤S402中使用矩阵WV,h分割
Figure BDA0003149977640000075
所得的无人机i的局部观测值
Figure BDA0003149977640000076
的第h个注意力头的值向量,
Figure BDA0003149977640000077
为矩阵
Figure BDA0003149977640000078
中的第i行第u列元素;
S404、计算多头注意力机制的输出,得到基于多头注意力机制的融合其他无人机局部观测值,其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出
Figure BDA0003149977640000079
计算如下:
Figure BDA00031499776400000710
其中函数Concat(·)表示拼接向量。
进一步地,所述步骤S5在无人机u的演员策略网络μu中,加入对其他无人机决策网络的拟合,使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出
Figure BDA00031499776400000711
Figure BDA00031499776400000712
其中
Figure BDA00031499776400000713
为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u,则t时刻无人机u对其他无人机策略的估计
Figure BDA00031499776400000714
其中t时刻无人机u对无人机j策略的估计
Figure BDA00031499776400000715
计算如下:
Figure BDA00031499776400000716
其中
Figure BDA00031499776400000722
Figure BDA00031499776400000723
为线性全连接层,Tanh为激活函数;而t时刻无人机u自身的初步决策
Figure BDA00031499776400000717
计算如下:
Figure BDA00031499776400000718
其中
Figure BDA00031499776400000719
Figure BDA00031499776400000720
为线性全连接层,
Figure BDA00031499776400000721
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员策略网络μu的输入为:
Figure BDA0003149977640000081
输出为:
Figure BDA0003149977640000082
其中
Figure BDA0003149977640000083
为t时刻无人机u自身的初步决策,
Figure BDA0003149977640000084
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,
Figure BDA0003149977640000085
为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策
Figure BDA0003149977640000086
和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出
Figure BDA0003149977640000087
所计算得到的输出向量,则t时刻无人机u的决策网络μu最终计算结果,即动作
Figure BDA0003149977640000088
计算如下:
Figure BDA0003149977640000089
其中
Figure BDA00031499776400000810
Figure BDA00031499776400000811
为线性全连接层。
进一步地,所述步骤S6在无人机u的批评者网络加入多头注意力机制,使用3头注意力机制,其结构与步骤S4中的3头注意力机制相同,无人机u的批评者网络Qu输入为:
Figure BDA00031499776400000812
其中
Figure BDA00031499776400000813
为t时刻无人机u的局部观测值和动作值,输出为:
Figure BDA00031499776400000814
Figure BDA00031499776400000815
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,则t时刻无人机u的批评者网络最终计算结果,即价值
Figure BDA00031499776400000816
计算如下:
Figure BDA00031499776400000817
其中
Figure BDA00031499776400000818
Figure BDA00031499776400000819
为线性全连接层。
进一步地,所述步骤S7中计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,具体过程如下:
每个无人机u存放n个时刻的经验四元组
Figure BDA0003149977640000091
的本地缓冲区Bu和经验池Mu,在每个无人机u获得奖励值后,按时间顺序将经验四元组
Figure BDA0003149977640000092
存入缓冲区Bi
S701、当缓冲区满后,每个无人机u从本地缓冲区Bu中提取出n个时刻的三维位置信息
Figure BDA0003149977640000093
计算每个时刻无人机数据收集量的均值Ai,当无人机u在i时刻执行动作
Figure BDA0003149977640000094
后的数据收集量
Figure BDA0003149977640000095
时,
Figure BDA0003149977640000096
其中
Figure BDA0003149977640000097
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su
S703、若Su非空,则遍历集合
Figure BDA0003149977640000098
其中uβ为无人机集合Su中的无人机β,|Su|为集合Su的大小:
计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量
Figure BDA0003149977640000099
具体计算如下:
Figure BDA00031499776400000910
其中
Figure BDA00031499776400000918
为无人机u和与其轨迹相似的无人机集合Su中的无人机β的相同覆盖范围中的信号点集合,
Figure BDA00031499776400000911
为信号点
Figure BDA00031499776400000912
在i时刻的数据剩余量,对数据剩余量
Figure BDA00031499776400000913
进行判断,执行如下操作:
Figure BDA00031499776400000914
时,遍历本地缓冲区Bu中的n个经验四元组
Figure BDA00031499776400000915
执行
Figure BDA00031499776400000916
Figure BDA00031499776400000917
时,遍历本地缓冲区Bu中的n个经验四元组
Figure BDA0003149977640000101
执行
Figure BDA0003149977640000102
其中λ为判断区域内信号点剩余数据总量大小的阈值,
Figure BDA0003149977640000103
为修正奖励值
Figure BDA0003149977640000104
的正常数,具体计算如下:
Figure BDA0003149977640000105
S704、将本地缓冲区Bu中的n个经验四元组
Figure BDA0003149977640000106
存放进经验池Mu,并清空本地缓冲区Bu
进一步地,所述步骤S8中使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:
Figure BDA0003149977640000107
其中,
Figure BDA0003149977640000108
Figure BDA0003149977640000109
表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值
Figure BDA00031499776400001010
Figure BDA00031499776400001011
为输入所计算出的目标价值,
Figure BDA00031499776400001012
表示在t+N-1时刻无人机u的局部观测值,
Figure BDA00031499776400001013
表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值
Figure BDA00031499776400001014
为输入所计算出的目标动作;
对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过
Figure BDA00031499776400001015
来校正剩余的缺失值,其中γ为折现因子,取值为0.9,而对于t+n≥T(即n步返回值超过终止状态,T为终止状态时刻)的部分都缺省为0。
进一步地,所述步骤S9中基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组
Figure BDA00031499776400001016
的优先级δi,由时序差分误差计算得到,从而使得无人机u的演员策略网络μu和批评者网络Qu在更新参数时,不但能够更加关注优先级高的经验值,而且能防止时序差分误差为0的经验四元组被忽略,具体计算如下:
Figure BDA0003149977640000111
其中
Figure BDA0003149977640000112
为步骤S8中使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,
Figure BDA0003149977640000113
是i时刻无人机u的局部观测值和动作值,
Figure BDA0003149977640000114
是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。
进一步地,所述步骤S11中使用分布式架构执行动作,获取经验四元组中,具体过程如下:
创建m个场景并行训练,其中,所创建的训练场景数量取决于计算资源CPU,并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声
Figure BDA0003149977640000115
无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组;对于最终无人机u中用于更新批评者网络Q的经验池M′u,使用从m个场景的无人机u的经验池
Figure BDA0003149977640000116
中挑选出的高优先级的经验值进行填充,若M′u已满,则清除时间最早的经验值,其中
Figure BDA0003149977640000117
为第m个场景的无人机u的经验池,优先级由步骤S9计算得出。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明采用演员-批评者架构,利用批评者网络对演员决策网络的输出动作评估价值,经过训练最大化演员决策网络的输出动作的价值,从而使得达到感知任务目标的过程简单且高效。
(2)本发明基于注意力机制,不但能使得无人机的演员决策网络和批评者网络更关注对其有较大影响的无人机,而且能增强无人机数量的可扩展性。
(3)本发明在无人机的演员决策网络中加入对其他无人机的决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。
(4)本发明加入对无人机数据收集量和路径重叠情况的特殊处理,不但能使无人机倾向于收集更多的数据,而且能促进无人机之间的合作,避免不必要的竞争,从而加速感知任务的完成。
(5)本发明使用分布式架构,创建多个场景,分别使用不同方差的噪声,不但能加速训练进程,而且能促使无人机更好的探索最优动作。
附图说明
图1是本发明实施例中无人机u与仿真环境交互示意图;
图2是本发明实施例中无人机u的融合多头注意力机制和对其他无人机策略估计的演员网络结构图;
图3是本发明实施例中无人机u的融合多头注意力机制的批评者网络结构图;
图4是本发明实施例中基于强化学习的奖励值修正方法的分布式训练结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于强化学习的无人机群智感知任务的路径规划方法,包括以下步骤:
S1、确定感知任务部署环境,构建训练无人机的仿真环境。以城市场景为例,在仿真环境中至少需要饱含以下组件:信号点P、障碍物(如楼房、路灯等)O、充电桩C,最大程度地模拟无人机队U在现实中飞行的场景,确保所训练模型能够迁移到现实场景中。无人机需装载障碍物距离测量部件,以计算前进方向上的障碍物与无人机的距离。此外,无人机u在每做下一个动作之前,它在t时刻需要获得的观测值
Figure BDA0003149977640000131
如下:当前的位置(x(u),y(u),z(u))、水平方向的角度、竖直方向的角度、指向最接近的3个信号点的三维方向向量以及与该信号点的距离和数据剩余量、指向最接近的充电桩的三维方向向量以及与该充电桩的距离和是否有无人机正在充电、与行进方向上的障碍物的距离、剩余电量和数据收集量。最后,为无人机设置通讯功能,使其能获得其他无人机的局部观测值
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络。所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},其中|U|为无人机的数量。
其中无人机u的演员策略网络为μu、演员目标策略网络为μ′u、批评者网络为Qu、批评者目标网络为Q′u。在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。其中演员策略网络是无人机用来根据当前环境的所有无人机的观测值
Figure BDA0003149977640000132
产生动作at的,|U|为无人机数量,而无人机u在t时刻的动作
Figure BDA0003149977640000133
其中
Figure BDA0003149977640000134
是能够使得无人机做更好的探索的随机噪声。如图1所示,无人机u通过动作
Figure BDA0003149977640000135
与环境产生交互,得到当前状态下执行
Figure BDA0003149977640000136
的奖励值
Figure BDA0003149977640000137
和下一个状态的观测值
Figure BDA0003149977640000138
并组成经验四元组
Figure BDA0003149977640000139
S3、根据感知任务目标构造奖励函数。在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性;(2)所有无人机数据收集量之和最大化;(3)无人机能源效率的最大化;(4)信号点被感知数据量之间满足均衡性。基于以上目标,构造如下奖励函数:
Figure BDA0003149977640000141
其中
Figure BDA0003149977640000142
是惩罚项,无人机在执行动作at后,撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚,ft表示无人机在执行动作at后,感知任务环境中信号点被感知数据的均衡程度,具体ft的构造如下:
Figure BDA0003149977640000143
其中P为信号点集合,|P|为信号点数量,
Figure BDA0003149977640000144
代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量,
Figure BDA0003149977640000145
代表能量消耗量函数,具体构建如下:
Figure BDA0003149977640000146
若无人机u的动作
Figure BDA0003149977640000147
是充电,则此时
Figure BDA0003149977640000148
为0,若无人机u的动作是继续飞行,则此时
Figure BDA0003149977640000149
为飞行过程中用于收集数据所消耗的电量,
Figure BDA00031499776400001410
为飞行所消耗的电量。
Figure BDA00031499776400001411
代表无人机u在执行动作
Figure BDA00031499776400001412
后的一段时间内,在充电桩充电所增加的电量,
Figure BDA00031499776400001413
代表无人机u在执行动作
Figure BDA00031499776400001414
后,剩余电量百分比。其中
Figure BDA00031499776400001415
的作用是指示当前无人机u前往充电桩充电的动作是否必要,若剩余电量百分比低于0.6,则此时充电可防止未来的长时间飞行中因电量不足而导致坠机的后果;若剩余电量百分比高于0.6,则此时无人机剩余电量较多,我们更希望它能够去收集数据,所以在这个情况下进行充电,其奖励值为负数。
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制。原始MADDPG算法的演员决策网络的输入仅仅是单一智能体的局部观测值,而在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。但直接将所有无人机的局部观测值作为该无人机的演员决策网络的输入是不合适的,因为并不是所有的无人机对其的影响力都相同。因此使用如图2所示的3头注意力机制处理所有无人机的局部观测值,具体步骤如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
S401、为计算q,k,v,需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量,其中对于无人机u的局部观测值
Figure BDA0003149977640000151
转换如下:
Figure BDA0003149977640000152
Figure BDA0003149977640000153
Figure BDA0003149977640000154
其中
Figure BDA0003149977640000155
为t时刻无人机u的局部观测值
Figure BDA0003149977640000156
的查询向量,
Figure BDA0003149977640000157
为无人机u的局部观测值
Figure BDA0003149977640000158
的键向量,
Figure BDA0003149977640000159
为无人机u的局部观测值
Figure BDA00031499776400001510
的值向量,
Figure BDA00031499776400001511
Figure BDA00031499776400001512
的计算分别使用参数为WQ、WK、WV的线性全连接层。而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
Figure BDA00031499776400001513
其中|U|为无人机的数量。
S402、为使用3头注意力,分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分,对
Figure BDA00031499776400001514
具体操作如下:
Figure BDA0003149977640000161
Figure BDA0003149977640000162
Figure BDA0003149977640000163
Figure BDA0003149977640000164
为使用矩阵WQ,h分割
Figure BDA0003149977640000165
所得的无人机u的局部观测值
Figure BDA0003149977640000166
的第h个注意力头的查询向量,
Figure BDA0003149977640000167
为使用矩阵WK,h分割
Figure BDA0003149977640000168
所得的无人机u的局部观测值
Figure BDA0003149977640000169
的第h个注意力头的键向量,
Figure BDA00031499776400001610
为使用矩阵WV,h分割
Figure BDA00031499776400001611
所得的无人机u的局部观测值
Figure BDA00031499776400001612
的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层。
S403、分别对3头注意力计算注意力权重,得到t时刻的第h个注意力头的输出,对t时刻的第h个注意力头权重矩阵
Figure BDA00031499776400001613
具体计算如下:
Figure BDA00031499776400001614
其中
Figure BDA00031499776400001615
为S402中所述使用矩阵WK,h分割
Figure BDA00031499776400001616
所得的无人机u的局部观测值
Figure BDA00031499776400001617
的第h个注意力头的键向量,
Figure BDA00031499776400001618
为S402中所述使用矩阵WQ,h分割
Figure BDA00031499776400001619
所得的无人机u的局部观测值
Figure BDA00031499776400001620
的第h个注意力头的查询向量,d为向量
Figure BDA00031499776400001621
的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵
Figure BDA00031499776400001622
其中第u行,第u列元素
Figure BDA00031499776400001623
计算如下:
Figure BDA0003149977640000171
其中EXP(·)自然指数函数,
Figure BDA0003149977640000172
为步骤S402中使用矩阵WK,h分割
Figure BDA0003149977640000173
所得的无人机i的局部观测值
Figure BDA0003149977640000174
的第h个注意力头的键向量,i=1,2,…,u,…,|U|,
Figure BDA0003149977640000175
为步骤S402中使用矩阵WQ,h分割
Figure BDA0003149977640000176
所得的无人机i的局部观测值
Figure BDA0003149977640000177
的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
Figure BDA0003149977640000178
其中
Figure BDA0003149977640000179
为S402中所述使用矩阵WV,h分割
Figure BDA00031499776400001710
所得的无人机u的局部观测值
Figure BDA00031499776400001711
的第h个注意力头的值向量,函数ReLU(·)为激活函数,记
Figure BDA00031499776400001712
Figure BDA00031499776400001713
为t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,其中
Figure BDA00031499776400001714
Figure BDA00031499776400001715
为步骤S402中使用矩阵WV,h分割
Figure BDA00031499776400001716
所得的无人机i的局部观测值
Figure BDA00031499776400001717
的第h个注意力头的值向量,i=1,2,…,u,…,|U|,
Figure BDA00031499776400001718
为矩阵
Figure BDA00031499776400001719
中的第i行,第u列元素。
S404、为计算基于多头注意力机制的融合其他无人机局部观测值,需计算多头注意力机制的输出,其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出
Figure BDA00031499776400001720
计算如下:
Figure BDA00031499776400001721
其中函数Concat(·)表示拼接向量。
S5、在无人机u的演员决策网络μu中,加入对其他无人机决策网络的拟合,使得无人机u在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。使用经过S4所得t时刻所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出
Figure BDA00031499776400001722
Figure BDA0003149977640000181
其中
Figure BDA0003149977640000182
为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u。则t时刻无人机u对其他无人机策略的估计
Figure BDA0003149977640000183
其中t时刻无人机u对无人机j策略的估计
Figure BDA0003149977640000184
计算如下:
Figure BDA0003149977640000185
其中
Figure BDA00031499776400001819
Figure BDA00031499776400001820
为线性全连接层,Tanh(·)为激活函数;而t时刻无人机u自身的初步决策
Figure BDA0003149977640000186
计算如下:
Figure BDA0003149977640000187
其中
Figure BDA0003149977640000188
Figure BDA0003149977640000189
为线性全连接层,
Figure BDA00031499776400001810
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机的估计策略p′t及无人机基于3头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员决策网络的输入为:
Figure BDA00031499776400001811
输出为:
Figure BDA00031499776400001812
其中
Figure BDA00031499776400001813
为t时刻无人机u自身的初步决策,
Figure BDA00031499776400001814
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,
Figure BDA00031499776400001815
为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策
Figure BDA00031499776400001816
和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出
Figure BDA00031499776400001817
所计算得到的输出向量,则t时刻无人机u的演员决策网络μu最终计算结果,即动作
Figure BDA00031499776400001818
计算如下:
Figure BDA0003149977640000191
其中
Figure BDA0003149977640000192
Figure BDA0003149977640000193
为线性全连接层。
S6、在批评者网络加入多头注意力机制。原始MADDPG算法的批评者网络的输入为所有智能体的动作和局部观测值,但不是所有的无人机对无人机u的影响力都相同。因此使用多头注意力机制处理所有无人机的动作和局部观测值,使用如图3所示的3头注意力机制,其结构与步骤S4中的3头注意力机制相同,但输入为:
Figure BDA0003149977640000194
其中
Figure BDA0003149977640000195
为t时刻无人机u的局部观测值和动作值。
输出为:
Figure BDA0003149977640000196
Figure BDA0003149977640000197
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,则t时刻无人机u的批评者网络最终计算结果,即价值
Figure BDA0003149977640000198
计算如下:
Figure BDA0003149977640000199
其中
Figure BDA00031499776400001910
Figure BDA00031499776400001911
为线性全连接层。
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,其计算步骤如下:
每个无人机u都有各自的可以存放n个时刻的经验四元组
Figure BDA00031499776400001912
的本地缓冲区Bu和经验池Mu,在每个无人机u获得奖励值后,按时间顺序将经验四元组
Figure BDA00031499776400001913
存入缓冲区Bi
S701、当缓冲区满后,每个无人机u从本地缓冲区Bu中提取出n个时刻的三维位置信息
Figure BDA00031499776400001914
计算每个时刻无人机数据收集量的均值Ai,当无人机u在i时刻执行动作
Figure BDA0003149977640000201
后的数据收集量
Figure BDA0003149977640000202
时,
Figure BDA0003149977640000203
其中
Figure BDA0003149977640000204
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su
S703、若Su非空,则遍历集合
Figure BDA0003149977640000205
其中uβ为无人机集合Su中的无人机β,|Su|为集合Su的大小:
计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量
Figure BDA0003149977640000206
具体计算如下:
Figure BDA0003149977640000207
其中
Figure BDA0003149977640000208
为无人机u和与其轨迹相似的无人机集合Su中的无人机β的相同覆盖范围中的信号点集合,
Figure BDA0003149977640000209
为信号点
Figure BDA00031499776400002010
在i时刻的数据剩余量,对数据剩余量
Figure BDA00031499776400002011
进行判断,执行如下操作:
Figure BDA00031499776400002012
时,遍历本地缓冲区Bu中的n个经验四元组
Figure BDA00031499776400002013
执行
Figure BDA00031499776400002014
Figure BDA00031499776400002015
时,遍历本地缓冲区Bu中的n个经验四元组
Figure BDA00031499776400002016
执行
Figure BDA00031499776400002017
其中λ为判断区域内信号点剩余数据总量大小的阈值,
Figure BDA00031499776400002018
为修正奖励值
Figure BDA00031499776400002019
的正常数,具体计算如下:
Figure BDA00031499776400002020
S704、将Bu中的n个经验四元组
Figure BDA00031499776400002021
存放进Mu,并清空本地缓冲区Bu
S8、使用n步返回时序差分。从S3中的奖励函数的构建可知,无人机会倾向于飞往信号点感知数据、在电量不足时飞往充电桩,以及在感知过程中充分考虑信号点感知的均衡性,然而在它到达信号点或充电桩之前,它不会得到正奖励。因此,为了训练出更有远见的无人机,使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:
Figure BDA0003149977640000211
其中,
Figure BDA0003149977640000212
Figure BDA0003149977640000213
表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值
Figure BDA0003149977640000214
Figure BDA0003149977640000215
为输入所计算出的目标价值,
Figure BDA0003149977640000216
表示在t+N-1时刻无人机u的局部观测值,
Figure BDA0003149977640000217
表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值
Figure BDA0003149977640000218
为输入所计算出的目标动作。
对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过
Figure BDA0003149977640000219
来校正剩余的缺失值,其中γ为折现因子,取值为0.9。而对于t+n≥T(即n步返回值超过终止状态,T为终止状态时刻)的部分都缺省为0,这时候n步返回值就等价于常规的完全返回值。
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值。传统的贪婪时序差分误差优先级经验重放机制直接使用时序差分误差计算经验值的优先级,虽然能够使批评者网络Q的参数在更新时更加关注优先级高的经验值,但存在一定的问题:过于关注高时序差分误差的经验值,这一少部分的经验值频繁的重放,而忽视低时序差分误差的经验值,会带来批评者目标网络Q′的过拟合问题。具体的,基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组
Figure BDA0003149977640000221
的优先级δi计算如下:
Figure BDA0003149977640000222
其中
Figure BDA0003149977640000223
为使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,
Figure BDA0003149977640000224
是i时刻无人机u的局部观测值和动作值,
Figure BDA0003149977640000225
是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。
S10、设置最大迭代轮次。
S11、使用分布式架构,加速训练过程。如图4所示,在训练过程中,创建m个场景并行训练(所创建的训练场景数量取决于计算资源CPU),并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声
Figure BDA0003149977640000226
无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组。对于最终无人机u中用于更新批评者网络Qu的经验池M′u,使用从m个场景的无人机u的经验池
Figure BDA0003149977640000227
中挑选出的高优先级的经验值进行填充(若M′u已满,则清除最旧的经验值),其中
Figure BDA0003149977640000228
为第m个场景的无人机u的经验池,优先级由步骤S9计算得出,从而使无人机能够在训练过程中更好地探索最优动作,避免陷入局部最优,进而更加全面的寻找优先级最高的经验进行训练。
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ。对于无人机u按照经验值的优先级从经验池M′u中采样批量大小为b的经验四元组,并使用如下损失函数更新批评者网络Qu
Figure BDA0003149977640000229
其中,在批评者网络Qu和批评者目标网络Q′u的输入为
Figure BDA0003149977640000231
即所有无人机在t时刻的观测值和动作,
Figure BDA0003149977640000232
为无人机u的批评者网络Qu的参数。
演员策略网络μu的更新使用以下策略梯度:
Figure BDA0003149977640000233
其中
Figure BDA0003149977640000234
为无人机u的演员策略网络μu的参数,而
Figure BDA0003149977640000235
Figure BDA0003149977640000236
表示所有无人机在t时刻的观测值,
Figure BDA0003149977640000237
表示无人机u的演员策略网络μu以ot为输入所计算出的动作。
为了使得无人机u的演员策略网络μu中对其他无人机j策略的拟合的训练过程更加稳定,使用伪Huber损失函数更新网络参数,具体计算如下:
Figure BDA0003149977640000238
其中δ是需要通过实验确定的超参数,
Figure BDA0003149977640000239
表示无人机j在t时刻的动作,
Figure BDA00031499776400002310
表示无人机u在t时刻对无人机j策略的估计。
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′。由于在演员策略网络μ和批评者网络Q的训练过程中,使用了演员目标策略网络μ′和批评者目标网络Q′来计算梯度,为了使该过程更加稳定,易于收敛,使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′:
Figure BDA00031499776400002311
其中τ为一个小正常数,设置τ=0.001,θQ′为批评者目标网络Q′的参数,θμ′为演员目标策略网络μ′的参数。
S14、反复执行S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
在S14完成后,即可得到能够实现无人机安全飞行,所有无人机数据收集量之和最大化、能源效率最大化、信号点被感知数据量之间满足均衡性的目标的所有的无人机的策略网络,即μ。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述路径规划方法包括以下步骤:
S1、根据感知任务的环境,构建无人机的仿真环境,设置无人机u在t时刻所能观测到的局部观测值
Figure FDA0003149977630000011
为无人机u设置通讯功能,使无人机u能获得其他无人机的局部观测值;
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络,其中,所有无人机的演员策略网络μ={μ1,...,μu,...,μ|U|},演员目标策略网络μ′={μ′1,...,μ′u,...,μ′|U|},批评者网络Q={Q1,...,Qu,...,Q|U|},批评者目标网络Q′={Q′1,...,Q′u,...,Q′|U|},|U|为无人机的数量,μu为无人机u的演员策略网络,μ′u为无人机u的演员目标策略网络,Qu为无人机u的批评者网络,Q′u为无人机u的批评者目标网络,设置无人机u在t时刻的动作
Figure FDA0003149977630000012
其中
Figure FDA0003149977630000013
为无人机u在t时刻的局部观测值,
Figure FDA0003149977630000014
是随机噪声;
S3、根据感知任务目标构造奖励函数,在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性,(2)所有无人机数据收集量之和最大化,(3)无人机能源效率的最大化,(4)信号点被感知数据量之间满足均衡性;基于以上目标,构造奖励函数;
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制;
S5、在无人机的演员决策网络中,加入对其他无人机决策网络的拟合;
S6、在批评者网络加入多头注意力机制;
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值;
S8、使用n步返回时序差分计算批评者网络Q的目标值;
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值;
S10、设置最大迭代轮次;
S11、使用分布式架构执行动作,获取经验四元组;
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ;
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′;
S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
2.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S3中奖励函数的构造具体计算公式为:
Figure FDA0003149977630000021
其中
Figure FDA0003149977630000022
是惩罚项,无人机u在执行动作at后,撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚,ft表示无人机在执行动作at后,感知任务环境中信号点被感知数据的均衡程度,具体ft的构造如下:
Figure FDA0003149977630000023
其中P为信号点集合,|P|为信号点数量,
Figure FDA0003149977630000031
代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量,
Figure FDA0003149977630000032
代表无人机u在执行动作
Figure FDA0003149977630000033
后,所收集的数据量,
Figure FDA0003149977630000034
代表能量消耗量函数,具体构建如下:
Figure FDA0003149977630000035
若无人机u的动作
Figure FDA0003149977630000036
是充电,则此时
Figure FDA0003149977630000037
为0,若无人机u的动作是继续飞行,则此时
Figure FDA0003149977630000038
为飞行过程中用于收集数据所消耗的电量,
Figure FDA0003149977630000039
为飞行所消耗的电量,
Figure FDA00031499776300000310
代表无人机u在执行动作
Figure FDA00031499776300000311
后的一段时间内,在充电桩充电所增加的电量,
Figure FDA00031499776300000312
代表无人机u在执行动作
Figure FDA00031499776300000313
后,剩余电量百分比。
3.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值,过程如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
S401、计算q,k,v,需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量,其中对于无人机u的局部观测值
Figure FDA00031499776300000314
转换如下:
Figure FDA00031499776300000315
Figure FDA00031499776300000316
Figure FDA00031499776300000317
其中,
Figure FDA00031499776300000318
为t时刻无人机u的局部观测值
Figure FDA00031499776300000319
的查询向量,
Figure FDA00031499776300000320
为无人机u的局部观测值
Figure FDA00031499776300000321
的键向量,
Figure FDA00031499776300000322
为无人机u的局部观测值
Figure FDA00031499776300000323
的值向量,
Figure FDA00031499776300000324
Figure FDA00031499776300000325
的计算分别使用参数为WQ、WK、WV的线性全连接层;而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
Figure FDA0003149977630000041
S402、使用3头注意力,分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分,对
Figure FDA0003149977630000042
具体操作如下:
Figure FDA0003149977630000043
Figure FDA0003149977630000044
Figure FDA0003149977630000045
Figure FDA0003149977630000046
为使用矩阵WQ,h分割
Figure FDA0003149977630000047
所得的无人机u的局部观测值
Figure FDA0003149977630000048
的第h个注意力头的查询向量,
Figure FDA0003149977630000049
为使用矩阵WK,h分割
Figure FDA00031499776300000410
所得的无人机u的局部观测值
Figure FDA00031499776300000411
的第h个注意力头的键向量,
Figure FDA00031499776300000412
为使用矩阵WV,h分割
Figure FDA00031499776300000413
所得的无人机u的局部观测值
Figure FDA00031499776300000414
的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层;
S403、分别对3头注意力计算注意力权重,得到t时刻的第h个注意力头的输出,对t时刻的第h个注意力头权重矩阵
Figure FDA00031499776300000415
具体计算如下:
Figure FDA00031499776300000416
其中
Figure FDA0003149977630000051
Figure FDA0003149977630000052
为步骤S402中使用矩阵WK,h分割
Figure FDA0003149977630000053
所得的无人机u的局部观测值
Figure FDA0003149977630000054
的第h个注意力头的键向量,
Figure FDA0003149977630000055
为步骤S402中使用矩阵WQ,h分割
Figure FDA0003149977630000056
所得的无人机u的局部观测值
Figure FDA0003149977630000057
的第h个注意力头的查询向量,d为向量
Figure FDA0003149977630000058
的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵
Figure FDA0003149977630000059
其中第u行、第u列元素
Figure FDA00031499776300000510
计算如下:
Figure FDA00031499776300000511
其中EXP(·)为自然指数函数,
Figure FDA00031499776300000512
为步骤S402中使用矩阵WK,h分割
Figure FDA00031499776300000513
所得的无人机i的局部观测值
Figure FDA00031499776300000514
的第h个注意力头的键向量,
Figure FDA00031499776300000515
为步骤S402中使用矩阵WQ,h分割
Figure FDA00031499776300000516
所得的无人机i的局部观测值
Figure FDA00031499776300000517
的第h个注意力头的查询向量,i=1,2,...,u,...,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
Figure FDA00031499776300000518
其中
Figure FDA00031499776300000519
Figure FDA00031499776300000520
为步骤S402中使用矩阵WV,h分割
Figure FDA00031499776300000521
所得的无人机u的局部观测值
Figure FDA00031499776300000522
的第h个注意力头的值向量,函数ReLU为激活函数,记
Figure FDA00031499776300000523
Figure FDA00031499776300000524
为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,
Figure FDA00031499776300000525
计算如下:
Figure FDA00031499776300000526
Figure FDA00031499776300000527
为步骤S402中使用矩阵WV,h分割
Figure FDA00031499776300000528
所得的无人机i的局部观测值
Figure FDA00031499776300000529
的第h个注意力头的值向量,
Figure FDA00031499776300000530
为矩阵
Figure FDA00031499776300000531
中的第i行第u列元素;
S404、计算多头注意力机制的输出,得到基于多头注意力机制的融合其他无人机局部观测值,其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出
Figure FDA0003149977630000061
计算如下:
Figure FDA0003149977630000062
Figure FDA0003149977630000063
其中函数Concat(·)表示拼接向量。
4.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S5在无人机u的演员策略网络μu中,加入对其他无人机决策网络的拟合,使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出
Figure FDA0003149977630000064
Figure FDA0003149977630000065
其中
Figure FDA0003149977630000066
为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u,则t时刻无人机u对其他无人机策略的估计
Figure FDA0003149977630000067
其中t时刻无人机u对无人机j策略的估计
Figure FDA0003149977630000068
计算如下:
Figure FDA0003149977630000069
其中
Figure FDA00031499776300000610
Figure FDA00031499776300000611
为线性全连接层,Tanh为激活函数;而t时刻无人机u自身的初步决策
Figure FDA00031499776300000612
计算如下:
Figure FDA00031499776300000613
其中
Figure FDA00031499776300000614
Figure FDA00031499776300000615
为线性全连接层,
Figure FDA00031499776300000616
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员策略网络μu的输入为:
Figure FDA00031499776300000617
输出为:
Figure FDA00031499776300000618
其中
Figure FDA0003149977630000071
为t时刻无人机u自身的初步决策,
Figure FDA0003149977630000072
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,
Figure FDA0003149977630000073
为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策
Figure FDA0003149977630000074
和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出
Figure FDA0003149977630000075
所计算得到的输出向量,则t时刻无人机u的决策网络μu最终计算结果,即动作
Figure FDA0003149977630000076
计算如下:
Figure FDA0003149977630000077
其中
Figure FDA0003149977630000078
Figure FDA0003149977630000079
为线性全连接层。
5.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S6在无人机u的批评者网络加入多头注意力机制,使用3头注意力机制,其结构与步骤S4中的3头注意力机制相同,无人机u的批评者网络Qu输入为:
Figure FDA00031499776300000710
其中
Figure FDA00031499776300000711
为t时刻无人机u的局部观测值和动作值,输出为:
Figure FDA00031499776300000712
Figure FDA00031499776300000713
为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,则t时刻无人机u的批评者网络最终计算结果,即价值
Figure FDA00031499776300000714
计算如下:
Figure FDA00031499776300000715
其中
Figure FDA00031499776300000716
Figure FDA00031499776300000717
为线性全连接层。
6.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S7中计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,具体过程如下:
每个无人机u存放n个时刻的经验四元组
Figure FDA0003149977630000081
的本地缓冲区Bu和经验池Mu,在每个无人机u获得奖励值后,按时间顺序将经验四元组
Figure FDA0003149977630000082
存入缓冲区Bi
S701、当缓冲区满后,每个无人机u从本地缓冲区Bu中提取出n个时刻的三维位置信息
Figure FDA0003149977630000083
计算每个时刻无人机数据收集量的均值Ai,当无人机u在i时刻执行动作
Figure FDA0003149977630000084
后的数据收集量
Figure FDA0003149977630000085
时,
Figure FDA0003149977630000086
其中
Figure FDA0003149977630000087
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su
S703、若Su非空,则遍历集合
Figure FDA0003149977630000088
其中uβ为无人机集合Su中的无人机β,|Su|为集合Su的大小:
计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量
Figure FDA0003149977630000089
具体计算如下:
Figure FDA00031499776300000810
其中
Figure FDA00031499776300000811
为无人机u和与其轨迹相似的无人机集合Su中的无人机β的相同覆盖范围中的信号点集合,
Figure FDA00031499776300000812
为信号点
Figure FDA00031499776300000813
在i时刻的数据剩余量,对数据剩余量
Figure FDA00031499776300000814
进行判断,执行如下操作:
Figure FDA00031499776300000815
时,遍历本地缓冲区Bu中的n个经验四元组
Figure FDA00031499776300000816
执行
Figure FDA00031499776300000817
Figure FDA00031499776300000818
时,遍历本地缓冲区Bu中的n个经验四元组
Figure FDA00031499776300000819
执行
Figure FDA00031499776300000820
其中λ为判断区域内信号点剩余数据总量大小的阈值,θ′为修正奖励值
Figure FDA00031499776300000821
的正常数,具体计算如下:
Figure FDA0003149977630000091
S704、将本地缓冲区Bu中的n个经验四元组
Figure FDA0003149977630000092
存放进经验池Mu,并清空本地缓冲区Bu
7.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S8中使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:
Figure FDA0003149977630000093
其中,
Figure FDA0003149977630000094
Figure FDA0003149977630000095
表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值
Figure FDA0003149977630000096
Figure FDA0003149977630000097
为输入所计算出的目标价值,
Figure FDA0003149977630000098
表示在t+N-1时刻无人机u的局部观测值,
Figure FDA0003149977630000099
表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值
Figure FDA00031499776300000910
为输入所计算出的目标动作;
对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过
Figure FDA00031499776300000911
来校正剩余的缺失值,其中γ为折现因子,取值为0.9,而对于t+n≥T的部分都缺省为0。
8.根据权利要求1所述的基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S9中基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组
Figure FDA00031499776300000912
的优先级δi,由时序差分误差计算得到,具体计算如下:
Figure FDA0003149977630000101
其中
Figure FDA0003149977630000102
为步骤S8中使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,
Figure FDA0003149977630000103
是i时刻无人机u的局部观测值和动作值,
Figure FDA0003149977630000104
是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。
9.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S11中使用分布式架构执行动作,获取经验四元组中,具体过程如下:
创建m个场景并行训练,其中,所创建的训练场景数量取决于计算资源CPU,并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声
Figure FDA0003149977630000107
无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组;对于最终无人机u中用于更新批评者网络Q的经验池M′u,使用从m个场景的无人机u的经验池
Figure FDA0003149977630000105
中挑选出的高优先级的经验值进行填充,若M′u已满,则清除时间最早的经验值,其中
Figure FDA0003149977630000106
为第m个场景的无人机u的经验池,优先级由步骤S9计算得出。
CN202110763664.3A 2021-07-06 2021-07-06 一种基于强化学习的无人机群智感知任务的路径规划方法 Active CN113641192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763664.3A CN113641192B (zh) 2021-07-06 2021-07-06 一种基于强化学习的无人机群智感知任务的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763664.3A CN113641192B (zh) 2021-07-06 2021-07-06 一种基于强化学习的无人机群智感知任务的路径规划方法

Publications (2)

Publication Number Publication Date
CN113641192A true CN113641192A (zh) 2021-11-12
CN113641192B CN113641192B (zh) 2023-07-18

Family

ID=78416756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763664.3A Active CN113641192B (zh) 2021-07-06 2021-07-06 一种基于强化学习的无人机群智感知任务的路径规划方法

Country Status (1)

Country Link
CN (1) CN113641192B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114448490A (zh) * 2021-12-22 2022-05-06 天翼云科技有限公司 一种多无人机的路径规划与频谱资源分配方法及系统
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN116090688A (zh) * 2023-04-10 2023-05-09 中国人民解放军国防科技大学 基于改进指针网络的移动目标遍历访问序列规划方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法
WO2021103419A1 (zh) * 2019-11-30 2021-06-03 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
WO2021103419A1 (zh) * 2019-11-30 2021-06-03 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112698646A (zh) * 2020-12-05 2021-04-23 西北工业大学 一种基于强化学习的航行器路径规划方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114448490A (zh) * 2021-12-22 2022-05-06 天翼云科技有限公司 一种多无人机的路径规划与频谱资源分配方法及系统
CN114448490B (zh) * 2021-12-22 2024-04-26 天翼云科技有限公司 一种多无人机的路径规划与频谱资源分配方法及系统
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114527666B (zh) * 2022-03-09 2023-08-11 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN114879742B (zh) * 2022-06-17 2023-07-04 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN115793717B (zh) * 2023-02-13 2023-05-05 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN116090688A (zh) * 2023-04-10 2023-05-09 中国人民解放军国防科技大学 基于改进指针网络的移动目标遍历访问序列规划方法
CN116090688B (zh) * 2023-04-10 2023-06-23 中国人民解放军国防科技大学 基于改进指针网络的移动目标遍历访问序列规划方法

Also Published As

Publication number Publication date
CN113641192B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN113641192A (zh) 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113110592B (zh) 一种无人机避障与路径规划方法
CN109870162B (zh) 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111061277B (zh) 一种无人车全局路径规划方法和装置
Chen et al. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving
CN113495578A (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN113433967B (zh) 一种可充电无人机路径规划方法及系统
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN112183288B (zh) 一种基于模型的多智能体强化学习方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115081936B (zh) 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Zhang et al. Direction-decision learning based pedestrian flow behavior investigation
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN116301027B (zh) 一种基于安全强化学习的城市空域内无人机路径规划方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN114371634B (zh) 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant