CN113641192A - 一种基于强化学习的无人机群智感知任务的路径规划方法 - Google Patents
一种基于强化学习的无人机群智感知任务的路径规划方法 Download PDFInfo
- Publication number
- CN113641192A CN113641192A CN202110763664.3A CN202110763664A CN113641192A CN 113641192 A CN113641192 A CN 113641192A CN 202110763664 A CN202110763664 A CN 202110763664A CN 113641192 A CN113641192 A CN 113641192A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- head
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 78
- 230000009471 action Effects 0.000 claims abstract description 53
- 238000013480 data collection Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 66
- 238000004364 calculation method Methods 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/12—Target-seeking control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员‑批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。
Description
技术领域
本发明涉及移动群智感知任务技术领域,具体涉及一种基于强化学习的无人机群智感知任务的路径规划方法。
背景技术
在传统群智感知任务中,大量的非专业用户使用手机、智能穿戴设备等作为基本的感知单元,通过互联网进行协作,实现感知任务的分发和数据收集利用,最终完成复杂的、大规模的感知任务。
随着传感器技术和无线通信技术的高速发展,以及日渐成熟的无人机技术,市面上的无人机集成了越来越多的传感器,拥有越来越强大的感知能力和计算能力。在此背景下,利用无人机感知大规模数据成为可能。
强化学习是研究代理如何通过在环境中反复试验学习的方法。环境是代理与之互动的世界,在交互的每个步骤中,代理可以得到对环境的观察,然后根据策略决定所要采取的动作。当代理对环境进行操作时,环境会随之发生变化,并依据当前环境状态、动作、下一时刻环境状态得到奖励值。而策略是从环境中反复试验所学得的。强化学习的目标是学得一个能够使预期收益最大化的策略。
演员-批评者架构集成了值函数估计算法和策略搜索算法。由于在传统的策略梯度算法中,会因为采样次数的不足导致训练过程中对累积奖励期望值的估计不稳定,因此使用批评者网络作为值函数Q,来估计在当前环境状态下演员策略网络采取某动作的预期收益。
发明内容
本发明的目的是为了解决现有多智能体强化学习算法中的上述缺陷,公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。
本发明的目的可以通过采取如下技术方案达到:
一种基于强化学习的无人机群智感知任务的路径规划方法,所述路径规划方法包括以下步骤:
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络,其中,所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},|U|为无人机的数量,μu为无人机u的演员策略网络,μ′u为无人机u的演员目标策略网络,Qu为无人机u的批评者网络,Q′u为无人机u的批评者目标网络,设置无人机u在t时刻的动作其中为无人机u在t时刻的局部观测值,是随机噪声;通过合理设置该随机噪声能够使得无人机做更好的探索;
S3、根据感知任务目标构造奖励函数,在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性,(2)所有无人机数据收集量之和最大化,(3)无人机能源效率的最大化,(4)信号点被感知数据量之间满足均衡性;基于以上目标,构造奖励函数;
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制;
S5、在无人机的演员决策网络中,加入对其他无人机决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策;
S6、在批评者网络加入多头注意力机制;
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值;
S8、使用n步返回时序差分计算批评者网络Q的目标值;
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值;
S10、设置最大迭代轮次;
S11、使用分布式架构执行动作,获取经验四元组;
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ;
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′;
S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
进一步地,所述步骤S3中奖励函数的构造具体计算公式为:
若无人机u的动作是充电,则此时为0,若无人机u的动作是继续飞行,则此时为飞行过程中用于收集数据所消耗的电量,为飞行所消耗的电量,代表无人机u在执行动作后的一段时间内,在充电桩充电所增加的电量,代表无人机u在执行动作后,剩余电量百分比。
进一步地,所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值,过程如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
其中,为t时刻无人机u的局部观测值的查询向量,为无人机u的局部观测值的键向量,为无人机u的局部观测值的值向量, 的计算分别使用参数为WQ、WK、WV的线性全连接层;而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
为使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,为使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层;
其中为步骤S402中使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,d为向量的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵其中第u行、第u列元素计算如下:
其中EXP(·)为自然指数函数,为步骤S402中使用矩阵WK,h分割所得的无人机i的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机i的局部观测值的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
其中为步骤S402中使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,函数ReLU为激活函数,记 为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,计算如下:
其中函数Concat(·)表示拼接向量。
进一步地,所述步骤S5在无人机u的演员策略网络μu中,加入对其他无人机决策网络的拟合,使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出 其中为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u,则t时刻无人机u对其他无人机策略的估计其中t时刻无人机u对无人机j策略的估计计算如下:
其中和为线性全连接层,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员策略网络μu的输入为:
其中为t时刻无人机u自身的初步决策,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出所计算得到的输出向量,则t时刻无人机u的决策网络μu最终计算结果,即动作计算如下:
进一步地,所述步骤S6在无人机u的批评者网络加入多头注意力机制,使用3头注意力机制,其结构与步骤S4中的3头注意力机制相同,无人机u的批评者网络Qu输入为:
进一步地,所述步骤S7中计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,具体过程如下:
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su;
进一步地,所述步骤S8中使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:
其中, 表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值 为输入所计算出的目标价值,表示在t+N-1时刻无人机u的局部观测值,表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值为输入所计算出的目标动作;
进一步地,所述步骤S9中基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组的优先级δi,由时序差分误差计算得到,从而使得无人机u的演员策略网络μu和批评者网络Qu在更新参数时,不但能够更加关注优先级高的经验值,而且能防止时序差分误差为0的经验四元组被忽略,具体计算如下:
其中为步骤S8中使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,是i时刻无人机u的局部观测值和动作值,是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。
进一步地,所述步骤S11中使用分布式架构执行动作,获取经验四元组中,具体过程如下:
创建m个场景并行训练,其中,所创建的训练场景数量取决于计算资源CPU,并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组;对于最终无人机u中用于更新批评者网络Q的经验池M′u,使用从m个场景的无人机u的经验池中挑选出的高优先级的经验值进行填充,若M′u已满,则清除时间最早的经验值,其中为第m个场景的无人机u的经验池,优先级由步骤S9计算得出。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明采用演员-批评者架构,利用批评者网络对演员决策网络的输出动作评估价值,经过训练最大化演员决策网络的输出动作的价值,从而使得达到感知任务目标的过程简单且高效。
(2)本发明基于注意力机制,不但能使得无人机的演员决策网络和批评者网络更关注对其有较大影响的无人机,而且能增强无人机数量的可扩展性。
(3)本发明在无人机的演员决策网络中加入对其他无人机的决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。
(4)本发明加入对无人机数据收集量和路径重叠情况的特殊处理,不但能使无人机倾向于收集更多的数据,而且能促进无人机之间的合作,避免不必要的竞争,从而加速感知任务的完成。
(5)本发明使用分布式架构,创建多个场景,分别使用不同方差的噪声,不但能加速训练进程,而且能促使无人机更好的探索最优动作。
附图说明
图1是本发明实施例中无人机u与仿真环境交互示意图;
图2是本发明实施例中无人机u的融合多头注意力机制和对其他无人机策略估计的演员网络结构图;
图3是本发明实施例中无人机u的融合多头注意力机制的批评者网络结构图;
图4是本发明实施例中基于强化学习的奖励值修正方法的分布式训练结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于强化学习的无人机群智感知任务的路径规划方法,包括以下步骤:
S1、确定感知任务部署环境,构建训练无人机的仿真环境。以城市场景为例,在仿真环境中至少需要饱含以下组件:信号点P、障碍物(如楼房、路灯等)O、充电桩C,最大程度地模拟无人机队U在现实中飞行的场景,确保所训练模型能够迁移到现实场景中。无人机需装载障碍物距离测量部件,以计算前进方向上的障碍物与无人机的距离。此外,无人机u在每做下一个动作之前,它在t时刻需要获得的观测值如下:当前的位置(x(u),y(u),z(u))、水平方向的角度、竖直方向的角度、指向最接近的3个信号点的三维方向向量以及与该信号点的距离和数据剩余量、指向最接近的充电桩的三维方向向量以及与该充电桩的距离和是否有无人机正在充电、与行进方向上的障碍物的距离、剩余电量和数据收集量。最后,为无人机设置通讯功能,使其能获得其他无人机的局部观测值
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络。所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},其中|U|为无人机的数量。
其中无人机u的演员策略网络为μu、演员目标策略网络为μ′u、批评者网络为Qu、批评者目标网络为Q′u。在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。其中演员策略网络是无人机用来根据当前环境的所有无人机的观测值产生动作at的,|U|为无人机数量,而无人机u在t时刻的动作其中是能够使得无人机做更好的探索的随机噪声。如图1所示,无人机u通过动作与环境产生交互,得到当前状态下执行的奖励值和下一个状态的观测值并组成经验四元组
S3、根据感知任务目标构造奖励函数。在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性;(2)所有无人机数据收集量之和最大化;(3)无人机能源效率的最大化;(4)信号点被感知数据量之间满足均衡性。基于以上目标,构造如下奖励函数:
若无人机u的动作是充电,则此时为0,若无人机u的动作是继续飞行,则此时为飞行过程中用于收集数据所消耗的电量,为飞行所消耗的电量。代表无人机u在执行动作后的一段时间内,在充电桩充电所增加的电量,代表无人机u在执行动作后,剩余电量百分比。其中的作用是指示当前无人机u前往充电桩充电的动作是否必要,若剩余电量百分比低于0.6,则此时充电可防止未来的长时间飞行中因电量不足而导致坠机的后果;若剩余电量百分比高于0.6,则此时无人机剩余电量较多,我们更希望它能够去收集数据,所以在这个情况下进行充电,其奖励值为负数。
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制。原始MADDPG算法的演员决策网络的输入仅仅是单一智能体的局部观测值,而在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。但直接将所有无人机的局部观测值作为该无人机的演员决策网络的输入是不合适的,因为并不是所有的无人机对其的影响力都相同。因此使用如图2所示的3头注意力机制处理所有无人机的局部观测值,具体步骤如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
其中为t时刻无人机u的局部观测值的查询向量,为无人机u的局部观测值的键向量,为无人机u的局部观测值的值向量, 的计算分别使用参数为WQ、WK、WV的线性全连接层。而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
其中|U|为无人机的数量。
为使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,为使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层。
其中为S402中所述使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为S402中所述使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,d为向量的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵其中第u行,第u列元素计算如下:
其中EXP(·)自然指数函数,为步骤S402中使用矩阵WK,h分割所得的无人机i的局部观测值的第h个注意力头的键向量,i=1,2,…,u,…,|U|,为步骤S402中使用矩阵WQ,h分割所得的无人机i的局部观测值的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
其中为S402中所述使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,函数ReLU(·)为激活函数,记 为t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,其中
其中函数Concat(·)表示拼接向量。
S5、在无人机u的演员决策网络μu中,加入对其他无人机决策网络的拟合,使得无人机u在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。使用经过S4所得t时刻所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出 其中为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u。则t时刻无人机u对其他无人机策略的估计其中t时刻无人机u对无人机j策略的估计计算如下:
其中和为线性全连接层,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机的估计策略p′t及无人机基于3头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员决策网络的输入为:
输出为:
其中为t时刻无人机u自身的初步决策,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出所计算得到的输出向量,则t时刻无人机u的演员决策网络μu最终计算结果,即动作计算如下:
S6、在批评者网络加入多头注意力机制。原始MADDPG算法的批评者网络的输入为所有智能体的动作和局部观测值,但不是所有的无人机对无人机u的影响力都相同。因此使用多头注意力机制处理所有无人机的动作和局部观测值,使用如图3所示的3头注意力机制,其结构与步骤S4中的3头注意力机制相同,但输入为:
输出为:
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,其计算步骤如下:
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su;
S8、使用n步返回时序差分。从S3中的奖励函数的构建可知,无人机会倾向于飞往信号点感知数据、在电量不足时飞往充电桩,以及在感知过程中充分考虑信号点感知的均衡性,然而在它到达信号点或充电桩之前,它不会得到正奖励。因此,为了训练出更有远见的无人机,使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:
其中, 表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值 为输入所计算出的目标价值,表示在t+N-1时刻无人机u的局部观测值,表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值为输入所计算出的目标动作。
对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过来校正剩余的缺失值,其中γ为折现因子,取值为0.9。而对于t+n≥T(即n步返回值超过终止状态,T为终止状态时刻)的部分都缺省为0,这时候n步返回值就等价于常规的完全返回值。
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值。传统的贪婪时序差分误差优先级经验重放机制直接使用时序差分误差计算经验值的优先级,虽然能够使批评者网络Q的参数在更新时更加关注优先级高的经验值,但存在一定的问题:过于关注高时序差分误差的经验值,这一少部分的经验值频繁的重放,而忽视低时序差分误差的经验值,会带来批评者目标网络Q′的过拟合问题。具体的,基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组的优先级δi计算如下:
其中为使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,是i时刻无人机u的局部观测值和动作值,是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。
S10、设置最大迭代轮次。
S11、使用分布式架构,加速训练过程。如图4所示,在训练过程中,创建m个场景并行训练(所创建的训练场景数量取决于计算资源CPU),并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组。对于最终无人机u中用于更新批评者网络Qu的经验池M′u,使用从m个场景的无人机u的经验池中挑选出的高优先级的经验值进行填充(若M′u已满,则清除最旧的经验值),其中为第m个场景的无人机u的经验池,优先级由步骤S9计算得出,从而使无人机能够在训练过程中更好地探索最优动作,避免陷入局部最优,进而更加全面的寻找优先级最高的经验进行训练。
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ。对于无人机u按照经验值的优先级从经验池M′u中采样批量大小为b的经验四元组,并使用如下损失函数更新批评者网络Qu:
演员策略网络μu的更新使用以下策略梯度:
为了使得无人机u的演员策略网络μu中对其他无人机j策略的拟合的训练过程更加稳定,使用伪Huber损失函数更新网络参数,具体计算如下:
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′。由于在演员策略网络μ和批评者网络Q的训练过程中,使用了演员目标策略网络μ′和批评者目标网络Q′来计算梯度,为了使该过程更加稳定,易于收敛,使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′:
其中τ为一个小正常数,设置τ=0.001,θQ′为批评者目标网络Q′的参数,θμ′为演员目标策略网络μ′的参数。
S14、反复执行S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
在S14完成后,即可得到能够实现无人机安全飞行,所有无人机数据收集量之和最大化、能源效率最大化、信号点被感知数据量之间满足均衡性的目标的所有的无人机的策略网络,即μ。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述路径规划方法包括以下步骤:
S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络,其中,所有无人机的演员策略网络μ={μ1,...,μu,...,μ|U|},演员目标策略网络μ′={μ′1,...,μ′u,...,μ′|U|},批评者网络Q={Q1,...,Qu,...,Q|U|},批评者目标网络Q′={Q′1,...,Q′u,...,Q′|U|},|U|为无人机的数量,μu为无人机u的演员策略网络,μ′u为无人机u的演员目标策略网络,Qu为无人机u的批评者网络,Q′u为无人机u的批评者目标网络,设置无人机u在t时刻的动作其中为无人机u在t时刻的局部观测值,是随机噪声;
S3、根据感知任务目标构造奖励函数,在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性,(2)所有无人机数据收集量之和最大化,(3)无人机能源效率的最大化,(4)信号点被感知数据量之间满足均衡性;基于以上目标,构造奖励函数;
S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制;
S5、在无人机的演员决策网络中,加入对其他无人机决策网络的拟合;
S6、在批评者网络加入多头注意力机制;
S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值;
S8、使用n步返回时序差分计算批评者网络Q的目标值;
S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值;
S10、设置最大迭代轮次;
S11、使用分布式架构执行动作,获取经验四元组;
S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ;
S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′;
S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。
2.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S3中奖励函数的构造具体计算公式为:
3.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值,过程如下:
MultiHead(q,k,v)=Concat(head1,head2,head3)
其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:
其中,为t时刻无人机u的局部观测值的查询向量,为无人机u的局部观测值的键向量,为无人机u的局部观测值的值向量, 的计算分别使用参数为WQ、WK、WV的线性全连接层;而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:
为使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,为使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层;
其中 为步骤S402中使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,d为向量的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵其中第u行、第u列元素计算如下:
其中EXP(·)为自然指数函数,为步骤S402中使用矩阵WK,h分割所得的无人机i的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机i的局部观测值的第h个注意力头的查询向量,i=1,2,...,u,...,|U|,从而t时刻的第h个注意力头的输出headh计算如下:
其中 为步骤S402中使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,函数ReLU为激活函数,记 为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,计算如下:
4.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S5在无人机u的演员策略网络μu中,加入对其他无人机决策网络的拟合,使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出 其中为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u,则t时刻无人机u对其他无人机策略的估计其中t时刻无人机u对无人机j策略的估计计算如下:
其中和为线性全连接层,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员策略网络μu的输入为:
其中为t时刻无人机u自身的初步决策,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出所计算得到的输出向量,则t时刻无人机u的决策网络μu最终计算结果,即动作计算如下:
6.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S7中计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,具体过程如下:
S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su;
9.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法,其特征在于,所述步骤S11中使用分布式架构执行动作,获取经验四元组中,具体过程如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763664.3A CN113641192B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763664.3A CN113641192B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641192A true CN113641192A (zh) | 2021-11-12 |
CN113641192B CN113641192B (zh) | 2023-07-18 |
Family
ID=78416756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763664.3A Active CN113641192B (zh) | 2021-07-06 | 2021-07-06 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641192B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114130034A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于注意力机制与强化学习的多智能体游戏ai设计方法 |
CN114448490A (zh) * | 2021-12-22 | 2022-05-06 | 天翼云科技有限公司 | 一种多无人机的路径规划与频谱资源分配方法及系统 |
CN114527666A (zh) * | 2022-03-09 | 2022-05-24 | 西北工业大学 | 基于注意力机制的cps系统强化学习控制方法 |
CN114879742A (zh) * | 2022-06-17 | 2022-08-09 | 电子科技大学 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
CN116090688A (zh) * | 2023-04-10 | 2023-05-09 | 中国人民解放军国防科技大学 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
US20200125957A1 (en) * | 2018-10-17 | 2020-04-23 | Peking University | Multi-agent cooperation decision-making and training method |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
CN112698646A (zh) * | 2020-12-05 | 2021-04-23 | 西北工业大学 | 一种基于强化学习的航行器路径规划方法 |
WO2021103419A1 (zh) * | 2019-11-30 | 2021-06-03 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
-
2021
- 2021-07-06 CN CN202110763664.3A patent/CN113641192B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125957A1 (en) * | 2018-10-17 | 2020-04-23 | Peking University | Multi-agent cooperation decision-making and training method |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
WO2021103419A1 (zh) * | 2019-11-30 | 2021-06-03 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
CN112698646A (zh) * | 2020-12-05 | 2021-04-23 | 西北工业大学 | 一种基于强化学习的航行器路径规划方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114130034A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于注意力机制与强化学习的多智能体游戏ai设计方法 |
CN114448490A (zh) * | 2021-12-22 | 2022-05-06 | 天翼云科技有限公司 | 一种多无人机的路径规划与频谱资源分配方法及系统 |
CN114448490B (zh) * | 2021-12-22 | 2024-04-26 | 天翼云科技有限公司 | 一种多无人机的路径规划与频谱资源分配方法及系统 |
CN114527666A (zh) * | 2022-03-09 | 2022-05-24 | 西北工业大学 | 基于注意力机制的cps系统强化学习控制方法 |
CN114527666B (zh) * | 2022-03-09 | 2023-08-11 | 西北工业大学 | 基于注意力机制的cps系统强化学习控制方法 |
CN114879742A (zh) * | 2022-06-17 | 2022-08-09 | 电子科技大学 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
CN114879742B (zh) * | 2022-06-17 | 2023-07-04 | 电子科技大学 | 基于多智能体深度强化学习的无人机集群动态覆盖方法 |
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
CN115793717B (zh) * | 2023-02-13 | 2023-05-05 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
CN116090688A (zh) * | 2023-04-10 | 2023-05-09 | 中国人民解放军国防科技大学 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
CN116090688B (zh) * | 2023-04-10 | 2023-06-23 | 中国人民解放军国防科技大学 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113641192B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113641192A (zh) | 一种基于强化学习的无人机群智感知任务的路径规划方法 | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN109870162B (zh) | 一种基于竞争深度学习网络的无人机飞行路径规划方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
Chen et al. | Stabilization approaches for reinforcement learning-based end-to-end autonomous driving | |
CN113495578A (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
CN113433967B (zh) | 一种可充电无人机路径规划方法及系统 | |
CN112698646B (zh) | 一种基于强化学习的航行器路径规划方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN112183288B (zh) | 一种基于模型的多智能体强化学习方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN115081936B (zh) | 面向应急条件下多遥感卫星观测任务调度的方法和装置 | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN116804879A (zh) | 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
Zhang et al. | Direction-decision learning based pedestrian flow behavior investigation | |
CN113299079B (zh) | 一种基于ppo和图卷积神经网络区域交叉口信号控制方法 | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making | |
CN116301027B (zh) | 一种基于安全强化学习的城市空域内无人机路径规划方法 | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 | |
CN114371634B (zh) | 一种基于多级事后经验回放的无人机作战模拟仿真方法 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |