CN113467508A - 面向围捕任务的多无人机智能协同决策方法 - Google Patents

面向围捕任务的多无人机智能协同决策方法 Download PDF

Info

Publication number
CN113467508A
CN113467508A CN202110736916.3A CN202110736916A CN113467508A CN 113467508 A CN113467508 A CN 113467508A CN 202110736916 A CN202110736916 A CN 202110736916A CN 113467508 A CN113467508 A CN 113467508A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
decision
network
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110736916.3A
Other languages
English (en)
Other versions
CN113467508B (zh
Inventor
宗群
张睿隆
赵欣怡
窦立谦
张秀云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110736916.3A priority Critical patent/CN113467508B/zh
Publication of CN113467508A publication Critical patent/CN113467508A/zh
Application granted granted Critical
Publication of CN113467508B publication Critical patent/CN113467508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及强化学习、传统控制和多智能体等领域,为提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法,考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体确定性策略梯度方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的,本发明,面向围捕任务的多无人机智能协同决策方法,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。本发明主要应用于多无人机智能协同场合。

Description

面向围捕任务的多无人机智能协同决策方法
技术领域
本发明涉及强化学习、传统控制和多智能体等领域,尤其涉及一种面向围捕任务的多无人机智能协同决策方法。具体涉及面向围捕任务的多无人机智能协同决策方法。
背景技术
多无人机围捕任务需要己方若干架无人机协同合作,完成对对方移动目标的围追捕获,这一任务很好地体现了己方无人机之间的合作关系以及与对方无人机之间的对抗作用,能够有效验证智能协同方法的有效性。在多无人机围捕任务中,无人机的位置和速度随着对方目标的行动轨迹不断变化,此时己方无人机需要根据实时情况进行动态决策,同时随着无人机数量的增多,环境内的动态性和不确定性会急剧增加,任务决策问题的难度也变得更大。因此,对于面向围捕任务的多无人机任务决策问题来说,存在如下几个难点:1)考虑到多无人机围捕的任务特点,整个任务环境是一个动态变换的复杂过程,这对无人机的单步决策速度提出了更高的要求;2)由于决策主体为任务区域内的无人机,因此各无人机在围捕过程中仅能根据自身的观测状态进行决策,这种部分状态可观测性的特点会影响决策结果的有效性和准确性;3)围捕过程中,环境中存在外界干扰等不确定因素的影响,这也大大增加了多无人机的决策难度。因此,综合考虑环境动态性、部分状态可观测性和不确定因素的影响,研究有效的多无人机智能决策方法,对于解决面向围捕任务的多无人机分布式任务决策问题十分必要。
多智能体确定性策略梯度算法(Multiagent Deep Deterministic PolicyGradient,MADDPG)是2017年美国OpenAI的Ryan Lowe提出的一种多智能体强化学习方法。该方法采用中心式评价-去中心式决策结构,分别建立中心式评价网络与去中心式决策网络,其中评价网络在离散训练过程中可以接收所有无人机的观测状态,而决策网络则只接收其自己的观测状态,这一结构可以有效解决环境动态性带来的不平稳问题。为此,本专利在该方法的基础上,进一步考虑无人机之间以及与障碍物之间的避碰避障约束,提出基于多智能体确定性策略梯度与避碰机制的多无人机智能决策算法解决多无人机围捕问题。
发明内容
为克服现有技术的不足,本发明旨在提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。具体而言,考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体确定性策略梯度方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的。为此,本发明采取的技术方案是,面向围捕任务的多无人机智能协同决策方法,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案;
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型SG,即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略;
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
详细步骤如下:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度。
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1)速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ],NI和NJ分别为任务区域内的己方和对方无人机总数,vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度;
2)避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
Figure BDA00031402953500000321
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数,dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径,
Figure BDA0003140295350000031
表示第i个己方无人机相对第
Figure BDA0003140295350000032
个己方无人机的距离,
Figure BDA0003140295350000033
Figure BDA0003140295350000034
表示第j个己方无人机相对第
Figure BDA0003140295350000035
个己方无人机的距离,
Figure BDA0003140295350000036
3)性能指标
由围捕任务的成功条件可知,性能指标设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步;
考虑如式(2)所示的避障约束,采用人工势场法获得可以避免碰撞的加速度分量
Figure BDA0003140295350000037
Figure BDA0003140295350000038
其中,
Figure BDA0003140295350000039
表示第
Figure BDA00031402953500000310
个无人机与第
Figure BDA00031402953500000311
个障碍物之间的排斥力,为障碍物势能场函数
Figure BDA00031402953500000312
的负梯度,即
Figure BDA00031402953500000313
其中障碍物势能场函数
Figure BDA00031402953500000314
定义为
Figure BDA00031402953500000315
Figure BDA00031402953500000316
因此,
Figure BDA00031402953500000317
写为
Figure BDA00031402953500000318
然后考虑式(3)所示的避碰约束,同样采用人工势场法获得可以避免碰撞的加速度分量
Figure BDA00031402953500000319
Figure BDA00031402953500000320
其中,
Figure BDA0003140295350000041
表示己方无人机之间的排斥力,为己方无人机势能场函数
Figure BDA0003140295350000042
的负梯度
Figure BDA0003140295350000043
其中障碍物势能场函数
Figure BDA0003140295350000044
定义为
Figure BDA0003140295350000045
Figure BDA0003140295350000046
因此,
Figure BDA0003140295350000047
写为
Figure BDA0003140295350000048
接下来考虑式(4)所示的围捕目标,若己方无人机想要追踪上对方无人机,需要尽可能缩短两者之间的距离与速度差,因此加速度分量
Figure BDA0003140295350000049
表示为
Figure BDA00031402953500000410
最后考虑式(1)中的速度约束,当己方无人机或对方无人机的飞行速度
Figure BDA00031402953500000411
超过最大速度时,对其进行修正,即
Figure BDA00031402953500000412
Figure BDA00031402953500000413
通过上述分析,得到初步决策方案:
Figure BDA00031402953500000414
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
(1)建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
Figure BDA0003140295350000051
类似的,对于第j个对方无人机,观测状态写为
Figure BDA0003140295350000052
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
Figure BDA00031402953500000512
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
Figure BDA0003140295350000053
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
Figure BDA0003140295350000054
其中,
Figure BDA0003140295350000055
Figure BDA0003140295350000056
Figure BDA0003140295350000057
Figure BDA0003140295350000058
Figure BDA0003140295350000059
Figure BDA00031402953500000510
5)状态转移概率
Figure BDA00031402953500000511
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
Figure BDA0003140295350000061
Figure BDA0003140295350000062
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度,当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要,这里选取折扣因子γ=0.95;
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t),由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标;
(2)建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值,引入神经网络近似环节对评价值进行参数化,得到评价网络,由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值,采用的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1;
2)建立决策网络
采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作,由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度,采用的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度;
(3)更新网络参数
基于给定的网络结构,网络参数更新方式如下
对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即
Figure BDA0003140295350000071
因此通过最小化梯度
Figure BDA0003140295350000072
来训练决策网络的网络参数,接下来进一步给出评价网络的更新方程,若评价网络的输出值
Figure BDA0003140295350000073
近似真实值Qi,需满足
Figure BDA0003140295350000074
最小,结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。
此时,评价网络的更新方程
Figure BDA0003140295350000075
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值;
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放,由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据;
第三步,在线决策,即利用训练好的网络进行实时决策:在完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策;
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度,重复这一过程,直到到达执行任务时间或完成围捕目标。
本发明的特点及有益效果是:
(1)考虑到多无人机围捕问题中环境动态性是环境内所有无人机共同作用的结果,这就导致对于每个无人机来说环境是不平稳的,不满足单智能体强化学习方法的收敛性条件,因此本发明采用基于中心式评价-去中心式决策的多智能体确定性策略梯度方法,即评价网络在评价改进环节中可以接收所有无人机的观测状态,从而更好的改进评价结果的准确度,指导动作选择,这一结构还可以解决由于以无人机为决策主体带来的部分状态可观测性问题,提高算法的收敛性。
(2)本发明将先进智能方法(多智能体确定性策略梯度)与传统控制方法(人工势场法与比例控制方法)结合起来,既通过引入先验经验的方式加快了先进智能方法的收敛时间,又增强了传统控制方法的智能性,使其能够在无人机速度受限的情况下完成围捕任务,有效解决了环境动态性、不确定性与状态部分可观测性给无人机任务决策的有效性带来的影响,实现快速智能任务决策。
附图说明:
附图1总体技术方案。
附图2各无人机与区域环境的交互过程。
附图3每组己方无人机获得的平均累计总收益。
附图4每回合己方无人机的平均单步决策时间。
具体实施方式
本发明涉及强化学习、传统控制和多智能体融合领域。具体来说,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
本发明提出了一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。总体技术方案如图1所示,具体技术方案如下:
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案。
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型(Stochastic Game,SG),即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略。
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
下面结合附图对本发明做进一步描述。
本发明实现方法的总体技术方案如图1所示。该方法主要分为三个部分,下面结合说明书附图分别对各个部分进行详细阐述:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度。
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1、速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ]。NI和NJ分别为任务区域内的己方和对方无人机总数。vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度。
2、避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
Figure BDA0003140295350000091
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数。dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径。
Figure BDA0003140295350000092
表示第i个己方无人机相对第
Figure BDA0003140295350000093
个己方无人机的距离,
Figure BDA0003140295350000094
Figure BDA0003140295350000095
表示第j个己方无人机相对第
Figure BDA0003140295350000096
个己方无人机的距离,
Figure BDA0003140295350000097
3、性能指标
由围捕任务的成功条件可知,性能指标可以设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步。
考虑如式(2)所示的避障约束,采用人工势场法获得可以避免碰撞的加速度分量
Figure BDA0003140295350000101
Figure BDA0003140295350000102
其中,
Figure BDA0003140295350000103
表示第
Figure BDA0003140295350000104
个无人机与第
Figure BDA0003140295350000105
个障碍物之间的排斥力,为障碍物势能场函数
Figure BDA0003140295350000106
的负梯度,即
Figure BDA0003140295350000107
其中障碍物势能场函数
Figure BDA0003140295350000108
定义为
Figure BDA0003140295350000109
Figure BDA00031402953500001010
因此,
Figure BDA00031402953500001011
可以写为
Figure BDA00031402953500001012
然后考虑式(3)所示的避碰约束,同样采用人工势场法获得可以避免碰撞的加速度分量
Figure BDA00031402953500001013
Figure BDA00031402953500001014
其中,
Figure BDA00031402953500001015
表示己方无人机之间的排斥力,为己方无人机势能场函数
Figure BDA00031402953500001016
的负梯度
Figure BDA00031402953500001017
其中障碍物势能场函数
Figure BDA00031402953500001018
定义为
Figure BDA00031402953500001019
Figure BDA00031402953500001020
因此,
Figure BDA00031402953500001021
可以写为
Figure BDA00031402953500001022
接下来考虑式(4)所示的围捕目标,若己方无人机想要追踪上对方无人机,需要尽可能缩短两者之间的距离与速度差,因此加速度分量
Figure BDA0003140295350000111
可以表示为
Figure BDA0003140295350000112
最后考虑式(1)中的速度约束,当己方无人机或对方无人机的飞行速度
Figure BDA0003140295350000113
超过最大速度时,对其进行修正,即
Figure BDA0003140295350000114
Figure BDA0003140295350000115
通过上述分析,得到初步决策方案:
Figure BDA0003140295350000116
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
1、建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
Figure BDA0003140295350000117
类似的,对于第j个对方无人机,观测状态可以写为
Figure BDA0003140295350000118
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
Figure BDA0003140295350000119
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
Figure BDA00031402953500001110
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
Figure BDA0003140295350000121
其中,
Figure BDA0003140295350000122
Figure BDA0003140295350000123
Figure BDA0003140295350000124
Figure BDA0003140295350000125
Figure BDA0003140295350000126
Figure BDA0003140295350000127
5)状态转移概率
Figure BDA0003140295350000128
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,可以写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
Figure BDA0003140295350000129
Figure BDA00031402953500001210
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度。当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要。这里选取折扣因子γ=0.95。
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t)。由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标,如附图2所示。
2、建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值。
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值。引入神经网络近似环节对评价值进行参数化,得到评价网络。由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值。本发明设计的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1。
2)建立决策网络
本发明中采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作。由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度。本发明设计的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度。
3、更新网络参数
基于给定的网络结构,下面介绍评价网络与决策网路的网络参数更新方式。从上述分析可知,对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即
Figure BDA0003140295350000131
因此可以通过最小化梯度
Figure BDA0003140295350000132
来训练决策网络的网络参数。接下来进一步给出评价网络的更新方程,若评价网络的输出值
Figure BDA0003140295350000133
近似真实值Qi,需满足
Figure BDA0003140295350000134
最小。结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。此时,评价网络的更新方程
Figure BDA0003140295350000135
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值。
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放。由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据。
第三步,在线决策,即利用训练好的网络进行实时决策:在通过上述环节完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度。重复这一过程,直到到达执行任务时间或完成围捕目标。
为了显示本发明的有效性,假设对方无人机采用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)方法优化自身策略,己方无人机则分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案作为对照组;在评价改进环节中,共训练120000个回合,附图3给出了每1000个回合的己方无人机和对方无人机获得的平均累计收益值,从图中可以看出,每1000个回合的平均累计收益值随着训练回合的增多逐渐稳定,表明评价网络和决策网络的网络参数逐渐收敛。进一步将训练后的评价网络用于在线任务决策,对方无人机同样采用上一环节中训练好的DDPG方法,己方无人机分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案。进行1000组实验,即训练回合,在每个回合中,对方无人机和己方无人机的初始位置随机产生,计算每1000个训练回合中己方无人机和对方无人机获得的平均累计收益值。附图3是10组围捕任务实验的仿真效果图,图中横坐标为训练回合数,纵坐标分别为1000个训练回合中己方无人机和对方无人机对应的总收益值。从图中可以看出,在每个回合中,若己方无人机采用本节提出的分布式类脑智能方法,其围捕效果明显优于另外两种方法,证明了该方法在面对部分状态可观测性和环境不确定性问题时的有效性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向围捕任务的多无人机智能协同决策方法,其特征是,首先基于比例控制和避障机制建立初步决策方案,随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进,获得最优行动策略,最后,在线应用优化后的网络实时给出决策结果,完成面向围捕任务的多无人机任务决策。
2.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,
第一部分,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度:首先,由于区域内存在若干静态障碍物,为安全考虑,无人机在飞行过程中不能与障碍物碰撞,考虑这一约束,采用人工势场法获得可以避免无人机撞向障碍物的加速度分量;其次,考虑到己方无人机之间、对方无人机之间均不能发生碰撞,同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量;再次,考虑己方无人机想要短时间内尽快完成围捕任务的目标,采用比例控制方法尽可能缩短两者之间的距离与速度差;最后考虑双方无人机的最大速度限制,当己方或对方无人机的飞行速度超过最大速度时,对其进行修正,最终根据得到的加速度分量,计算每一架己方无人机的初步飞行加速度获得初步决策方案;
第二部分,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果:首先,考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标,建立随机博弈模型SG,即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子;然后,基于中心式评价-去中心式决策的结构,利用神经网络拟合特性,建立评价网络与决策网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;最后,在与仿真环境的交互过程中,采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数,通过评价网络的输出指导决策网络的决策结果,通过一致经验回放机制,抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果,最终获得最优行动策略;
第三部分,在线决策,即利用训练好的网络进行实时决策:通过前两部分完成离线学习过程之后,评价网络和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于待解决的多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策。
3.如权利要求1所述的面向围捕任务的多无人机智能协同决策方法,其特征是,详细步骤如下:
第一步,建立初步决策方案,即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度
首先给出多无人机围捕问题中,己方各架无人机需要满足的约束条件和性能指标函数:
1)速度约束
||vi||≤vmaxI,||vj||≤vmaxJ (1)
其中vi和vj分别表示己方无人机和对方无人机的速度,i∈[1,NI],j∈[NI+1,NI+NJ],NI和NJ分别为任务区域内的己方和对方无人机总数,vmaxI和vmaxJ分别表示己方无人机和对方无人机的最大速度;
2)避碰避障约束
Δpik>doutI,Δpjk>doutJ (2)
Figure FDA0003140295340000021
其中Δpik=||pi-pk||,Δpjk=||pj-pk||,分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离,pi,pj和pk分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置,i∈[1,NI],k∈[1,NK],j∈[NI+1,NI+NJ],NK表示区域内障碍物的总个数,dinI和doutI分别表示己方无人机的最小安全半径和最大安全半径,
Figure FDA0003140295340000022
表示第i个己方无人机相对第
Figure FDA0003140295340000023
个己方无人机的距离,
Figure FDA0003140295340000024
Figure FDA0003140295340000025
表示第j个己方无人机相对第
Figure FDA0003140295340000026
个己方无人机的距离,
Figure FDA0003140295340000027
3)性能指标
由围捕任务的成功条件可知,性能指标设置为使如式(4)所示函数Jtask最小化
Jtask=Ttask (4)
其中Ttask表示完成围捕任务需要的时间步;
考虑如式(2)所示的避障约束,采用人工势场法获得可以避免碰撞的加速度分量
Figure FDA0003140295340000028
Figure FDA0003140295340000029
其中,
Figure FDA00031402953400000210
表示第
Figure FDA00031402953400000211
个无人机与第
Figure FDA00031402953400000212
个障碍物之间的排斥力,为障碍物势能场函数
Figure FDA00031402953400000213
的负梯度,即
Figure FDA00031402953400000214
其中障碍物势能场函数
Figure FDA00031402953400000215
定义为
Figure FDA00031402953400000216
Figure FDA00031402953400000217
因此,
Figure FDA00031402953400000218
写为
Figure FDA0003140295340000031
然后考虑式(3)所示的避碰约束,同样采用人工势场法获得可以避免碰撞的加速度分量
Figure FDA0003140295340000032
Figure FDA0003140295340000033
其中,
Figure FDA0003140295340000034
表示己方无人机之间的排斥力,为己方无人机势能场函数
Figure FDA0003140295340000035
的负梯度
Figure FDA0003140295340000036
其中障碍物势能场函数
Figure FDA0003140295340000037
定义为
Figure FDA0003140295340000038
Figure FDA0003140295340000039
因此,
Figure FDA00031402953400000310
写为
Figure FDA00031402953400000311
接下来考虑式(4)所示的围捕目标,若己方无人机想要追踪上对方无人机,需要尽可能缩短两者之间的距离与速度差,因此加速度分量
Figure FDA00031402953400000312
表示为
Figure FDA00031402953400000313
最后考虑式(1)中的速度约束,当己方无人机或对方无人机的飞行速度
Figure FDA00031402953400000314
Figure FDA00031402953400000315
超过最大速度时,对其进行修正,即
Figure FDA00031402953400000316
Figure FDA00031402953400000317
通过上述分析,得到初步决策方案:
Figure FDA00031402953400000318
第二步,改进决策方案,即采用多智能体强化学习方法通过评价改进的方式优化决策结果
(1)建立随机博弈模型
根据式(1)-(4)中描述的多无人机围捕问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
根据任务的具体情况,将t时刻每个障碍物中心点的位置,己方无人机的位置和速度,对方无人机的位置,作为状态量s,即。
s=(pk,pi,vi,pj,vj)∈S (15)
其中,i∈[1,NI],j∈[NI+1,NI+NJ],k∈[1,NK]。
2)观测状态集Oi,Oj
对于第i个己方无人机,将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态
Figure FDA0003140295340000041
类似的,对于第j个对方无人机,观测状态写为
Figure FDA0003140295340000042
3)动作集A
将己方无人机的附加加速度作为动作ai,将对方无人机的加速度作为aj,即
Figure FDA0003140295340000043
那么己方无人机的实际加速度为初始加速度与附加加速度之和,即
Figure FDA0003140295340000044
4)立即收益值Ri,Rj
将己方无人机收到的立即收益值设计为
Figure FDA0003140295340000045
其中,
Figure FDA0003140295340000046
Figure FDA0003140295340000047
Figure FDA0003140295340000048
Figure FDA0003140295340000049
Figure FDA00031402953400000410
Figure FDA00031402953400000411
5)状态转移概率
Figure FDA0003140295340000051
由于区域内障碍物的位置不会变动,给出无人机的状态转移函数ΓP,将无人机的运动学和动力学方程作为状态转移函数,写为如式(21)所示形式
pi(t+1)=pi(t)+vi(t+1)Δt+d1i(t)
vi(t+1)=vi(t)+ai(t)Δt+d2i(t)
pj(t+1)=pj(t)+vj(t+1)Δt+d1j(t)
vj(t+1)=vj(t)+aj(t)Δt+d2j(t) (21)
其中,d1i(t),d2i(t),d1j(t),d2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束,当己方无人机或对方无人机的飞行速度vi(t+1),vj(t+1)超过最大速度时,按照对(14)其进行修正,而式(21)中的位置转移函数修正为
Figure FDA0003140295340000052
Figure FDA0003140295340000053
6)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度,当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要,这里选取折扣因子γ=0.95;
通过对随机博弈模型五个符号的定义,基于围捕任务的多无人机任务决策过程可描述为:当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时,各无人机根据自身传感器获得与其他无人机及障碍物的相对距离,无人机的自身位置与速度、对方无人机速度等观测信息oi(t),oj(t),选择附加加速度ai(t)或加速度aj(t),并根据式(20)获得相应的立即收益值Ri(t),由状态转移函数(21)-(22),此时实际状态变为s(t+1),重复该过程直到实现成功围捕的目标;
(2)建立评价网络与决策网络
采用中心式评价-去中心式执行的网络框架,通过神经网络的拟合功能,建立决策与评价网络,分别用来输出当前决策结果与此时可能获得的平均总收益值;
1)建立评价网络
评价函数为第i个己方无人机的中心式评价值的近似值,表明在当前时刻所有无人机的观测状态集合下,当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时,己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值,引入神经网络近似环节对评价值进行参数化,得到评价网络,由于采用中心式评价的结构,评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合;输出为在当前其他无人机选择动作为时,己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值,采用的评价网络为全连接层神经网络,对于每一个己方无人机,网络层数为7层,包括1层输入层,5层隐藏层和1层输出层,输入节点个数为所有无人机观测状态集合和动作集合的维度;由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1;
2)建立决策网络
采用确定性策略,那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作,由于采用去中心式决策的结构,决策网络的输入为无人机自身的可观测状态,输出为当前时刻的附加加速度,采用的决策网络也为全连接层神经网络,网络层数为5层,包括1层输入层,3层隐藏层和1层输出层,输入节点个数为第i个无人机观测状态的维度,由于决策网络输出为无人机的附加加速度或飞行加速度,因此输出节点个数为动作维度;
(3)更新网络参数
基于给定的网络结构,网络参数更新方式如下
对于第i个己方无人机来说,其决策网络以最大化自身的平均总收益为目标,即
Figure FDA0003140295340000061
因此通过最小化梯度
Figure FDA0003140295340000062
来训练决策网络的网络参数,接下来进一步给出评价网络的更新方程,若评价网络的输出值
Figure FDA0003140295340000063
近似真实值Qi,需满足
Figure FDA0003140295340000064
最小,结合贝尔曼方程:Q′i=Ri+γQi,其中Q′i表示在下一时刻的评价值。此时,评价网络的更新方程
Figure FDA0003140295340000065
考虑到训练网络所用的经验数据之间具有相关性,为了避免其影响网络的收敛效果,设计目标决策网络和目标评价网络,用来输出目标Qi值;
需要注意的是,由于相邻的数据之间具有相关性,因此不能按照存储顺序直接从经验回放池中提取数据,这里从经验回放池D中进行随机收取经历数据E进行训练,这种数据存储和提取方式称为一致经验回放,由于在训练过程中,双方无人机需要提取同一训练回合中同一时刻的数据进行训练,否则会出现无人机的行动策略收敛到不同平衡点的情况,因此采用一致经验回放机制进行数据采样,即从经验数据库D中随机抽取同一训练回合中同一时刻的数据;
第三步,在线决策,即利用训练好的网络进行实时决策:在完成离线学习过程之后,评价网络的网络参数和决策网络的网络参数也被确定下来,此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略,考虑到实际任务执行过程中的无人机仅能观测到部分状态,这时需要全局状态信息和动作信息作为输入的评价网络将无法应用,因此对于多无人机围捕任务,己方各无人机采用去中心式决策结构,即仅将离线学习后得到的决策网络用于在线环节,在存在环境不确定影响的真实任务环境中,最终实现多无人机分布式实时任务决策;
在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息,输入到决策网络中;训练好的决策网络会快速给出该时刻的附加加速度,与初步加速度相加得到实际飞行加速度,考虑环境不确定对无人机完成任务效果的影响,即飞行环境中可能受到的外界干扰,得到无人机实际位置与速度,重复这一过程,直到到达执行任务时间或完成围捕目标。
CN202110736916.3A 2021-06-30 2021-06-30 面向围捕任务的多无人机智能协同决策方法 Active CN113467508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110736916.3A CN113467508B (zh) 2021-06-30 2021-06-30 面向围捕任务的多无人机智能协同决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110736916.3A CN113467508B (zh) 2021-06-30 2021-06-30 面向围捕任务的多无人机智能协同决策方法

Publications (2)

Publication Number Publication Date
CN113467508A true CN113467508A (zh) 2021-10-01
CN113467508B CN113467508B (zh) 2022-06-28

Family

ID=77876511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110736916.3A Active CN113467508B (zh) 2021-06-30 2021-06-30 面向围捕任务的多无人机智能协同决策方法

Country Status (1)

Country Link
CN (1) CN113467508B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003041A (zh) * 2021-11-02 2022-02-01 中山大学 一种多无人车协同探测系统
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN115097861A (zh) * 2022-05-15 2022-09-23 西北工业大学 一种基于cel-maddpg的多无人机围捕策略方法
CN115150784A (zh) * 2022-09-02 2022-10-04 汕头大学 基于基因调控网络的无人机集群区域覆盖方法及设备
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN115629600A (zh) * 2022-08-01 2023-01-20 北方工业大学 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法
CN116430865A (zh) * 2023-04-17 2023-07-14 北方工业大学 一种概率不确定框架下的多机协同围捕方法
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117880858A (zh) * 2024-03-12 2024-04-12 东北大学 一种基于通信学习的多无人机轨迹优化和功率控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007197501A (ja) * 2006-01-24 2007-08-09 Tobishima Corp 空洞充填材
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
US20190355257A1 (en) * 2018-05-17 2019-11-21 Zoox, Inc. Drive envelope determination
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007197501A (ja) * 2006-01-24 2007-08-09 Tobishima Corp 空洞充填材
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20190355257A1 (en) * 2018-05-17 2019-11-21 Zoox, Inc. Drive envelope determination
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
QI DONG,等: "Observer-based Super Twisting Sliding Mode Control for Fixed Wing Unmanned Aerial Vehicle", 《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE》 *
XINYI ZHAO,等: "Finite-Time Dynamic Allocation and Control in Multiagent Coordination for Target Tracking", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
XINYIZHAO,等: "Fast task allocation for heterogeneous unmanned aerial vehicles through reinforcement learning", 《AEROSPACE SCIENCE AND TECHNOLOGY》 *
孙亚飞: "基于超声波的自动避障双轮平衡车控制系统设计", 《信息通信》 *
宗群,等: "高超声速飞行器建模与自主控制技术研究进展", 《科技导报》 *
薛颂东,等: "目标围捕任务中搜索与预包围阶段的群机器人行为学习", 《模式识别与人工智能》 *
赵欣怡,等: "类脑智能技术在无人系统上的应用", 《控制理论与应用》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003041A (zh) * 2021-11-02 2022-02-01 中山大学 一种多无人车协同探测系统
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114384931B (zh) * 2021-12-23 2023-08-29 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN115097861A (zh) * 2022-05-15 2022-09-23 西北工业大学 一种基于cel-maddpg的多无人机围捕策略方法
CN115097861B (zh) * 2022-05-15 2024-04-26 西北工业大学 一种基于cel-maddpg的多无人机围捕策略方法
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN115629600B (zh) * 2022-08-01 2023-12-12 北方工业大学 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法
CN115629600A (zh) * 2022-08-01 2023-01-20 北方工业大学 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法
CN115150784A (zh) * 2022-09-02 2022-10-04 汕头大学 基于基因调控网络的无人机集群区域覆盖方法及设备
CN115150784B (zh) * 2022-09-02 2022-12-06 汕头大学 基于基因调控网络的无人机集群区域覆盖方法及设备
CN116430865A (zh) * 2023-04-17 2023-07-14 北方工业大学 一种概率不确定框架下的多机协同围捕方法
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116501086B (zh) * 2023-04-27 2024-03-26 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117880858A (zh) * 2024-03-12 2024-04-12 东北大学 一种基于通信学习的多无人机轨迹优化和功率控制方法
CN117880858B (zh) * 2024-03-12 2024-05-10 东北大学 一种基于通信学习的多无人机轨迹优化和功率控制方法

Also Published As

Publication number Publication date
CN113467508B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN113467508B (zh) 面向围捕任务的多无人机智能协同决策方法
Yuan et al. A novel GRU-RNN network model for dynamic path planning of mobile robot
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
Yang et al. UAV air combat autonomous maneuver decision based on DDPG algorithm
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
Liu et al. A deep reinforcement learning based intelligent decision method for UCAV air combat
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN116501086B (zh) 一种基于强化学习的飞行器自主规避决策方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN116736883B (zh) 一种无人飞行集群智能协同运动规划的方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN116432514A (zh) 无人机攻防博弈的拦截意图识别策略仿真系统及方法
CN115457809A (zh) 对面支援场景下基于多智能体强化学习的航迹规划方法
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav
Lu et al. Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant