CN113467508A - 面向围捕任务的多无人机智能协同决策方法 - Google Patents
面向围捕任务的多无人机智能协同决策方法 Download PDFInfo
- Publication number
- CN113467508A CN113467508A CN202110736916.3A CN202110736916A CN113467508A CN 113467508 A CN113467508 A CN 113467508A CN 202110736916 A CN202110736916 A CN 202110736916A CN 113467508 A CN113467508 A CN 113467508A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- decision
- network
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000009471 action Effects 0.000 claims abstract description 72
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 84
- 230000001133 acceleration Effects 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 230000004888 barrier function Effects 0.000 claims description 18
- 230000008901 benefit Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000005381 potential energy Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 239000002184 metal Substances 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 208000001613 Gambling Diseases 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及强化学习、传统控制和多智能体等领域,为提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法,考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体确定性策略梯度方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的,本发明,面向围捕任务的多无人机智能协同决策方法,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。本发明主要应用于多无人机智能协同场合。
Description
技术领域
本发明涉及强化学习、传统控制和多智能体等领域,尤其涉及一种面向围捕任务的多无人机智能协同决策方法。具体涉及面向围捕任务的多无人机智能协同决策方法。
背景技术
多无人机围捕任务需要己方若干架无人机协同合作,完成对对方移动目标的围追捕获,这一任务很好地体现了己方无人机之间的合作关系以及与对方无人机之间的对抗作用,能够有效验证智能协同方法的有效性。在多无人机围捕任务中,无人机的位置和速度随着对方目标的行动轨迹不断变化,此时己方无人机需要根据实时情况进行动态决策,同时随着无人机数量的增多,环境内的动态性和不确定性会急剧增加,任务决策问题的难度也变得更大。因此,对于面向围捕任务的多无人机任务决策问题来说,存在如下几个难点:1)考虑到多无人机围捕的任务特点,整个任务环境是一个动态变换的复杂过程,这对无人机的单步决策速度提出了更高的要求;2)由于决策主体为任务区域内的无人机,因此各无人机在围捕过程中仅能根据自身的观测状态进行决策,这种部分状态可观测性的特点会影响决策结果的有效性和准确性;3)围捕过程中,环境中存在外界干扰等不确定因素的影响,这也大大增加了多无人机的决策难度。因此,综合考虑环境动态性、部分状态可观测性和不确定因素的影响,研究有效的多无人机智能决策方法,对于解决面向围捕任务的多无人机分布式任务决策问题十分必要。
多智能体确定性策略梯度算法(Multiagent Deep Deterministic PolicyGradient,MADDPG)是2017年美国OpenAI的Ryan Lowe提出的一种多智能体强化学习方法。该方法采用中心式评价-去中心式决策结构,分别建立中心式评价网络与去中心式决策网络,其中评价网络在离散训练过程中可以接收所有无人机的观测状态,而决策网络则只接收其自己的观测状态,这一结构可以有效解决环境动态性带来的不平稳问题。为此,本专利在该方法的基础上,进一步考虑无人机之间以及与障碍物之间的避碰避障约束,提出基于多智能体确定性策略梯度与避碰机制的多无人机智能决策算法解决多无人机围捕问题。
发明内容
为克服现有技术的不足,本发明旨在提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。具体而言,考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体确定性策略梯度方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的。为此,本发明采取的技术方案是,面向围捕任务的多无人机智能协同决策方法,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案;
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型SG,即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略;
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
详细步骤如下:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度。
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1)速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ],NI和NJ分别为任务区域内的己方和对方无人机总数,vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度;
2)避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数,dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径,表示第i个己方无人机相对第个己方无人机的距离, 表示第j个己方无人机相对第个己方无人机的距离,
3)性能指标
由围捕任务的成功条件可知,性能指标设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步;
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
(1)建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj,
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
类似的,对于第j个对方无人机,观测状态写为
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
其中,
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度,当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要,这里选取折扣因子γ=0.95;
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t),由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标;
(2)建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值,引入神经网络近似环节对评价值进行参数化,得到评价网络,由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值,采用的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1;
2)建立决策网络
采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作,由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度,采用的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度;
(3)更新网络参数
基于给定的网络结构,网络参数更新方式如下
对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即因此通过最小化梯度来训练决策网络的网络参数,接下来进一步给出评价网络的更新方程,若评价网络的输出值近似真实值Qi,需满足最小,结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值;
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放,由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据;
第三步,在线决策,即利用训练好的网络进行实时决策:在完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策;
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度,重复这一过程,直到到达执行任务时间或完成围捕目标。
本发明的特点及有益效果是:
(1)考虑到多无人机围捕问题中环境动态性是环境内所有无人机共同作用的结果,这就导致对于每个无人机来说环境是不平稳的,不满足单智能体强化学习方法的收敛性条件,因此本发明采用基于中心式评价-去中心式决策的多智能体确定性策略梯度方法,即评价网络在评价改进环节中可以接收所有无人机的观测状态,从而更好的改进评价结果的准确度,指导动作选择,这一结构还可以解决由于以无人机为决策主体带来的部分状态可观测性问题,提高算法的收敛性。
(2)本发明将先进智能方法(多智能体确定性策略梯度)与传统控制方法(人工势场法与比例控制方法)结合起来,既通过引入先验经验的方式加快了先进智能方法的收敛时间,又增强了传统控制方法的智能性,使其能够在无人机速度受限的情况下完成围捕任务,有效解决了环境动态性、不确定性与状态部分可观测性给无人机任务决策的有效性带来的影响,实现快速智能任务决策。
附图说明:
附图1总体技术方案。
附图2各无人机与区域环境的交互过程。
附图3每组己方无人机获得的平均累计总收益。
附图4每回合己方无人机的平均单步决策时间。
具体实施方式
本发明涉及强化学习、传统控制和多智能体融合领域。具体来说,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
本发明提出了一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。总体技术方案如图1所示,具体技术方案如下:
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案。
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型(Stochastic Game,SG),即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略。
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
下面结合附图对本发明做进一步描述。
本发明实现方法的总体技术方案如图1所示。该方法主要分为三个部分,下面结合说明书附图分别对各个部分进行详细阐述:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度。
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1、速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ]。NI和NJ分别为任务区域内的己方和对方无人机总数。vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度。
2、避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数。dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径。表示第i个己方无人机相对第个己方无人机的距离, 表示第j个己方无人机相对第个己方无人机的距离,
3、性能指标
由围捕任务的成功条件可知,性能指标可以设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步。
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
1、建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj,
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
类似的,对于第j个对方无人机,观测状态可以写为
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
其中,
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,可以写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度。当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要。这里选取折扣因子γ=0.95。
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t)。由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标,如附图2所示。
2、建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值。
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值。引入神经网络近似环节对评价值进行参数化,得到评价网络。由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值。本发明设计的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1。
2)建立决策网络
本发明中采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作。由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度。本发明设计的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度。
3、更新网络参数
基于给定的网络结构,下面介绍评价网络与决策网路的网络参数更新方式。从上述分析可知,对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即因此可以通过最小化梯度来训练决策网络的网络参数。接下来进一步给出评价网络的更新方程,若评价网络的输出值近似真实值Qi,需满足最小。结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。此时,评价网络的更新方程
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值。
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放。由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据。
第三步,在线决策,即利用训练好的网络进行实时决策:在通过上述环节完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度。重复这一过程,直到到达执行任务时间或完成围捕目标。
为了显示本发明的有效性,假设对方无人机采用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)方法优化自身策略,己方无人机则分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案作为对照组;在评价改进环节中,共训练120000个回合,附图3给出了每1000个回合的己方无人机和对方无人机获得的平均累计收益值,从图中可以看出,每1000个回合的平均累计收益值随着训练回合的增多逐渐稳定,表明评价网络和决策网络的网络参数逐渐收敛。进一步将训练后的评价网络用于在线任务决策,对方无人机同样采用上一环节中训练好的DDPG方法,己方无人机分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案。进行1000组实验,即训练回合,在每个回合中,对方无人机和己方无人机的初始位置随机产生,计算每1000个训练回合中己方无人机和对方无人机获得的平均累计收益值。附图3是10组围捕任务实验的仿真效果图,图中横坐标为训练回合数,纵坐标分别为1000个训练回合中己方无人机和对方无人机对应的总收益值。从图中可以看出,在每个回合中,若己方无人机采用本节提出的分布式类脑智能方法,其围捕效果明显优于另外两种方法,证明了该方法在面对部分状态可观测性和环境不确定性问题时的有效性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种面向围捕任务的多无人机智能协同决策方法,其特征是,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
2.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案;
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型SG,即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略;
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
3.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,详细步骤如下:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1)速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ],NI和NJ分别为任务区域内的己方和对方无人机总数,vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度;
2)避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数,dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径,表示第i个己方无人机相对第个己方无人机的距离, 表示第j个己方无人机相对第个己方无人机的距离,
3)性能指标
由围捕任务的成功条件可知,性能指标设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步;
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
(1)建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj,
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
类似的,对于第j个对方无人机,观测状态写为
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
其中,
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度,当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要,这里选取折扣因子γ=0.95;
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t),由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标;
(2)建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值,引入神经网络近似环节对评价值进行参数化,得到评价网络,由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值,采用的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1;
2)建立决策网络
采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作,由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度,采用的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度;
(3)更新网络参数
基于给定的网络结构,网络参数更新方式如下
对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即因此通过最小化梯度来训练决策网络的网络参数,接下来进一步给出评价网络的更新方程,若评价网络的输出值近似真实值Qi,需满足最小,结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。此时,评价网络的更新方程
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值;
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放,由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据;
第三步,在线决策,即利用训练好的网络进行实时决策:在完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策;
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度,重复这一过程,直到到达执行任务时间或完成围捕目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736916.3A CN113467508B (zh) | 2021-06-30 | 2021-06-30 | 面向围捕任务的多无人机智能协同决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110736916.3A CN113467508B (zh) | 2021-06-30 | 2021-06-30 | 面向围捕任务的多无人机智能协同决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113467508A true CN113467508A (zh) | 2021-10-01 |
CN113467508B CN113467508B (zh) | 2022-06-28 |
Family
ID=77876511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110736916.3A Active CN113467508B (zh) | 2021-06-30 | 2021-06-30 | 面向围捕任务的多无人机智能协同决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113467508B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003041A (zh) * | 2021-11-02 | 2022-02-01 | 中山大学 | 一种多无人车协同探测系统 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN115097861A (zh) * | 2022-05-15 | 2022-09-23 | 西北工业大学 | 一种基于cel-maddpg的多无人机围捕策略方法 |
CN115150784A (zh) * | 2022-09-02 | 2022-10-04 | 汕头大学 | 基于基因调控网络的无人机集群区域覆盖方法及设备 |
CN115268481A (zh) * | 2022-07-06 | 2022-11-01 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种无人机对抗策略决策方法及其系统 |
CN115629600A (zh) * | 2022-08-01 | 2023-01-20 | 北方工业大学 | 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法 |
CN116430865A (zh) * | 2023-04-17 | 2023-07-14 | 北方工业大学 | 一种概率不确定框架下的多机协同围捕方法 |
CN116501086A (zh) * | 2023-04-27 | 2023-07-28 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116736883A (zh) * | 2023-05-23 | 2023-09-12 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN117880858A (zh) * | 2024-03-12 | 2024-04-12 | 东北大学 | 一种基于通信学习的多无人机轨迹优化和功率控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007197501A (ja) * | 2006-01-24 | 2007-08-09 | Tobishima Corp | 空洞充填材 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
US20190355257A1 (en) * | 2018-05-17 | 2019-11-21 | Zoox, Inc. | Drive envelope determination |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
-
2021
- 2021-06-30 CN CN202110736916.3A patent/CN113467508B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007197501A (ja) * | 2006-01-24 | 2007-08-09 | Tobishima Corp | 空洞充填材 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
US20190355257A1 (en) * | 2018-05-17 | 2019-11-21 | Zoox, Inc. | Drive envelope determination |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
Non-Patent Citations (7)
Title |
---|
QI DONG,等: "Observer-based Super Twisting Sliding Mode Control for Fixed Wing Unmanned Aerial Vehicle", 《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE》 * |
XINYI ZHAO,等: "Finite-Time Dynamic Allocation and Control in Multiagent Coordination for Target Tracking", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
XINYIZHAO,等: "Fast task allocation for heterogeneous unmanned aerial vehicles through reinforcement learning", 《AEROSPACE SCIENCE AND TECHNOLOGY》 * |
孙亚飞: "基于超声波的自动避障双轮平衡车控制系统设计", 《信息通信》 * |
宗群,等: "高超声速飞行器建模与自主控制技术研究进展", 《科技导报》 * |
薛颂东,等: "目标围捕任务中搜索与预包围阶段的群机器人行为学习", 《模式识别与人工智能》 * |
赵欣怡,等: "类脑智能技术在无人系统上的应用", 《控制理论与应用》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003041A (zh) * | 2021-11-02 | 2022-02-01 | 中山大学 | 一种多无人车协同探测系统 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114384931B (zh) * | 2021-12-23 | 2023-08-29 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN115097861A (zh) * | 2022-05-15 | 2022-09-23 | 西北工业大学 | 一种基于cel-maddpg的多无人机围捕策略方法 |
CN115097861B (zh) * | 2022-05-15 | 2024-04-26 | 西北工业大学 | 一种基于cel-maddpg的多无人机围捕策略方法 |
CN115268481A (zh) * | 2022-07-06 | 2022-11-01 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种无人机对抗策略决策方法及其系统 |
CN115629600B (zh) * | 2022-08-01 | 2023-12-12 | 北方工业大学 | 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法 |
CN115629600A (zh) * | 2022-08-01 | 2023-01-20 | 北方工业大学 | 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法 |
CN115150784A (zh) * | 2022-09-02 | 2022-10-04 | 汕头大学 | 基于基因调控网络的无人机集群区域覆盖方法及设备 |
CN115150784B (zh) * | 2022-09-02 | 2022-12-06 | 汕头大学 | 基于基因调控网络的无人机集群区域覆盖方法及设备 |
CN116430865A (zh) * | 2023-04-17 | 2023-07-14 | 北方工业大学 | 一种概率不确定框架下的多机协同围捕方法 |
CN116501086A (zh) * | 2023-04-27 | 2023-07-28 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116501086B (zh) * | 2023-04-27 | 2024-03-26 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116736883B (zh) * | 2023-05-23 | 2024-03-08 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN116736883A (zh) * | 2023-05-23 | 2023-09-12 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN117880858A (zh) * | 2024-03-12 | 2024-04-12 | 东北大学 | 一种基于通信学习的多无人机轨迹优化和功率控制方法 |
CN117880858B (zh) * | 2024-03-12 | 2024-05-10 | 东北大学 | 一种基于通信学习的多无人机轨迹优化和功率控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113467508B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113467508B (zh) | 面向围捕任务的多无人机智能协同决策方法 | |
Yuan et al. | A novel GRU-RNN network model for dynamic path planning of mobile robot | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
Yang et al. | UAV air combat autonomous maneuver decision based on DDPG algorithm | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
Liu et al. | A deep reinforcement learning based intelligent decision method for UCAV air combat | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN112198892B (zh) | 一种多无人机智能协同突防对抗方法 | |
CN111461294B (zh) | 面向动态博弈的智能飞行器类脑认知学习方法 | |
CN113962012B (zh) | 无人机对抗策略优化方法及装置 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN116501086B (zh) | 一种基于强化学习的飞行器自主规避决策方法 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
CN116736883B (zh) | 一种无人飞行集群智能协同运动规划的方法 | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN116432514A (zh) | 无人机攻防博弈的拦截意图识别策略仿真系统及方法 | |
CN115457809A (zh) | 对面支援场景下基于多智能体强化学习的航迹规划方法 | |
Ma et al. | Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav | |
Lu et al. | Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV | |
Wang et al. | Research on naval air defense intelligent operations on deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |