CN112198892B - 一种多无人机智能协同突防对抗方法 - Google Patents
一种多无人机智能协同突防对抗方法 Download PDFInfo
- Publication number
- CN112198892B CN112198892B CN202010404371.1A CN202010404371A CN112198892B CN 112198892 B CN112198892 B CN 112198892B CN 202010404371 A CN202010404371 A CN 202010404371A CN 112198892 B CN112198892 B CN 112198892B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- action
- state
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000035515 penetration Effects 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 52
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 37
- 230000009916 joint effect Effects 0.000 claims description 20
- 238000004088 simulation Methods 0.000 claims description 20
- 230000001133 acceleration Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 2
- 230000007123 defense Effects 0.000 abstract description 30
- 230000008901 benefit Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000005622 photoelectricity Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种多无人机智能协同突防对抗方法,该方法包括以下步骤:步骤1,对无人机集群进行训练,获得集群内各无人机的策略模型;步骤2,各无人机根据观测状态,采用训练获得的策略模型获得行为决策。本发明所公开的多无人机协同突防方法,可用于复杂环境下的无人机协同突防,其训练出的策略模型在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策;通过集中式的评判模块和反事实基线方法,实现了多无人机协同的合作共赢,平衡个体收益与集群的整体收益,为多无人机协同突防提供了高效、可靠的技术方案。
Description
技术领域
本发明涉及飞行器技术领域,具体涉及人工智能、多无人机协同控制与决策、博弈的交叉领域,尤其涉及一种基于反事实基线评判-执行算法的多无人机智能协同突防对抗方法。
背景技术
多无人机协同突防的特点在于利用数量和多飞行器协同的优势,通过寻找防空漏洞、诱骗防空火力、突防掩护、利用地形隐蔽等战术进入有防空火力的区域,执行相应的任务。同时,任务区域内通常包含机动的防空力量,如防空无人机等,多无人机协同需要在防空无人机的追捕下提高无人机的存活率,从而完成既定任务。
针对多无人机协同突防,传统的做法是假设任务区域的态势已知,在地图上标注防空火力阵地等威胁范围、地形、任务目标等态势信息,将地图输入到无人机中供无人机决策使用。具体地,根据建立的态势地图,利用多无人机路径规划、任务规划等技术实现多无人机协同突防预规划,在突防过程中根据态势的变化再进行动态规划。上述方法存在以下缺陷:
(1)场景描述对实际的无人机突防任务考虑不足,缺乏对机动防空力量的模型;
(2)要求多无人机的实时全局态势信息;
(3)对无人机的任务分配和路径规划难以体现协同突防的战术思想,发挥多无人机协同的优势。
因此,有必要提供一种多无人机协同突防对抗方法,以解决上述问题。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种多无人机协同突防方法,该方法通过一个多无人机协同的效益评判,实现无人机之间的信息共享与协作,通过一种反事实基线(Counterfactual baseline)的方法实现个体效益与整体效益的均衡。其中,每个无人机都通过执行模块生成行为决策,而全局评判模块则作为全局的评价函数只在训练阶段集中训练为每架无人机的策略优化提供基于反事实基线的优势评估,以引导执行模块的学习,该方法能够充分考虑实际作战场景,发挥多无人机协同的协同优势,为多无人机协同突防提供高效、可靠的技术方案,从而完成了本发明。
具体来说,本发明的目的在于提供一种多无人机协同突防对抗方法,所述方法包括以下步骤:
步骤1,对无人机集群进行训练,获得集群内各无人机的策略模型;
步骤2,各无人机根据观测状态,采用训练获得的策略模型获得行为决策。
本发明所具有的有益效果包括:
(1)本发明提供的多无人机协同突防对抗方法,可用于复杂环境下的无人机协同突防,其训练出的策略模型在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策;
(2)本发明提供的多无人机协同突防对抗方法,不要求对抗环境的环境模型和多无人机协同的通信模型,而是通过与仿真环境的交互完成训练,实战效果好;
(3)本发明提供的多无人机协同突防对抗方法,通过评判-执行架构实现了多无人机协同执行突防任务时的分布式控制,提高了多无人机协同突防控制系统的鲁棒性;
(4)本发明提供的多无人机协同突防对抗方法,通过集中式的评判模块和反事实基线方法,实现了多无人机协同的合作共赢,平衡个体收益与集群的整体收益;
(5)本发明提供的多无人机协同突防对抗方法,在强化学习的基础上,借鉴人工势场的避障思想结合,引入障碍斥力,保证对威胁障碍的躲避。
附图说明
图1示出根据本发明一种优选实施方式的全局评判模块的评判过程图;
图2示出根据本发明一种优选实施方式的无人机集群训练过程图;
图3示出根据本发明一种优选实施方式的训练场景示意图;
图4示出本发明实验例中不同方法的突防成功率比较图。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。其中,尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明提供了一种多无人机协同突防方法,所述方法包括以下步骤:
步骤1,对无人机集群进行训练,获得集群内各无人机的策略模型;
步骤2,各无人机根据观测状态,采用训练获得的策略模型获得行为决策。
以下进一步描述本发明所述的多无人机协同突防方法:
步骤1,对无人机集群进行训练,获得集群内各无人机的策略模型。
在本发明中,步骤1包括以下子步骤:
步骤1-1,无人机根据当前观测状态输出动作行为至仿真环境,进行交互。
在本发明中,所述仿真环境可以采用半实物仿真平台,即无人机的飞控系统为实物,包括:飞控计算机、惯性测量单元(加速度计、陀螺和磁力计),而无人机的GPS和目标探测传感器(如光电吊舱、雷达)以及飞行环境(即大气、地形等)完全虚拟,从而以较小的成本,使训练环境最大限度地贴近实际,使无人机可以利用虚拟环境和实物测量反馈的数据,进行人工智能的训练,学习协同突防的合作策略以及对抗防空力量的竞争策略。
所述仿真环境也可以为完全虚拟状态,即无人机的飞行环境和飞控系统均为虚拟。
在本发明中,所述仿真环境包括地形隐蔽、威胁/地形障碍、防空无人机等。
根据本发明一种优选的实施方式,所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置和探测到的障碍物的相对位置。
在进一步优选的实施方式中,无人机的自身的位置由GPS定位系统获得;
无人机自身的速度矢量由惯性测量单元和磁力计获得;
敌对无人机的相对位置由光电吊舱获得;
障碍物的相对位置由超声波雷达获得。
在更进一步优选的实施方式中,所述无人机输出的动作行为包括无人机的油门指令、纵向过载指令和滚转角指令。
在本发明中,所述仿真环境能够获得无人机集群中各无人机的观测状态、动作行为、奖励和继任观测状态(下一时刻的观测状态),并可以反馈至各无人机进行存储,作为训练数据集。
优选地,所述无人机与仿真环境交互的过程为:无人机根据当前的行为策略执行一个动作行为,由仿真环境得到各无人机的继任状态(下一时刻的观测状态)和奖励。
步骤1-2,采集多无人机集群与仿真环境交互的数据,并存储至经验池中。
其中,st为t时刻所有无人机的联合状态,st+1为t+1时刻所有无人机的联合状态,即联合继任状态,为第i架无人机在t时刻的观测状态,为第i架无人机在t+1时刻的观测状态,ut为t时刻所有无人机的联合动作,rt为t时刻所有无人机整体执行动作后获得奖励。
在进一步优选的实施方式中,所述交互的数据存储在一个共同的经验池中,存储为历史经验,以共享多无人机集群的观测状态信息和动作行为。
在本发明中,优选将多无人机集群的观测状态信息和动作行为共享至统一的无人机经验池中,有利于全局评判模块对每个无人机的优势函数进行评估,引导每个无人机进行策略学习。
在交互的数据存储至经验池中后,将继任联合状态更新为联合状态。
步骤1-3,对无人机进行训练。
根据本发明一种优选的实施方式,每隔一定的仿真步数,无人机从经验池中随机采样,以进行训练,进而获得集群内每个无人机的策略模型。
在本发明中,无人机集群利用集中式的全局评判模块辅助策略梯度学习即执行模块的学习,使得每个无人机获得各自的策略模型。
根据本发明一种优选的实施方式,所述训练包括以下步骤:
步骤1-3-1,集群内各无人机输出动作行为。
其中,集群内各无人机根据自身的观测状态及存储的上一时刻的动作,输出当前状态下的动作行为。
步骤1-3-2,对集群内各无人机当前状态下的动作行为进行评判。
根据本发明一种优选的实施方式,采用全局评判模块对所有无人机当前的联合状态和动作行为进行评判,
优选地,所述集群内所有无人机共用一个评判模块,即全局评判模块。
在进一步优选的实施方式中,所述全局评判模块由全连接神经网络组成,其对所有无人机的联合观测状态和动作行为进行评判。
在更进一步优选的实施方式中,所述全局评判模块包括评判神经网络和目标神经网络,
所述评判神经网络对当前训练样本中所有无人机的联合状态和动作行为进行评判,获得对应的状态-动作值函数值;
所述目标神经网络对当前训练样本中所有无人机的继任联合状态和依据当前策略在继任状态下执行的动作行为进行评判,获得对应的目标状态-动作值函数值。
在本发明中,根据获得的无人机当前联合状态和联合动作对应的状态-动作值函数的值,以及所有无人机的继任观测状态和依据当前策略在继任状态下执行的联合动作对应的目标状态-动作值函数值,获得TD误差(时间差分误差),即损失函数。
根据本发明一种优选的实施方式,采用下式(一)获得全局评判模块神经网络的损失函数:
L(θ)=(rt+γQ(st,ut)-Q(st+1,ut+1))2(一)
其中,L(θ)为全局评判模块神经网络的损失函数,θ为无人机全局评判模块神经网络的权重参数,rt为t时刻所有无人机整体获得的奖励;γ为折扣因子,代表某一时刻无人机奖励的权重;Q(st,ut)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数;Q(st+1,ut+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数,即目标状态动作值函数;ut+1为:执行模块中的目标策略神经网络,依据样本中所有无人机的联合继任状态(t+1时刻所有无人机的联合状态)st+1和t时刻的联合动作ut,输出的t+1时刻所有无人机的联合动作。
在进一步优选的实施方式中,采用反向传播算法获得损失函数的梯度,并对损失函数进行优化,以更新评判神经网络的权重参数。
其中,对损失函数的优化为对其进行最小化,可以采用现有技术中常用的方法进行,如随机梯度下降法。
在更进一步优选的实施方式中,所述目标神经网络的权重参数更新通过复制评判神经网络的权重参数得到,且复制滞后于评判神经网络权重参数的更新。
优选地,所述目标神经网络的权重参数更新按照下式进行:
ω'new=τωnew+(1-τ)ω'
其中,ω'为目标神经网络更新前的参数,ω'new为目标神经网络更新后的参数,ωnew为评判神经网络更新后的参数,τ为滞后参数,优选取值为0.01。
在传统的评判-执行算法中,可直接利用评判模块的输出来估计状态动作值函数的时间差分,并用于计算执行模块的策略梯度(如下式所示):
其中,g为策略梯度,θπ表示策略π的参数;πi表示无人机i的当前策略,Q(st,ut)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数;Q(st+1,ut+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数,即目标状态动作值函数,rt+γQ(st,ut)-Q(st+1,ut+1)是状态动作值函数的时间差分;ut+1为执行模块中的目标策略神经网络依据样本中所有无人机的联合继任状态st+1和t时刻的联合动作ut,输出的t+1时刻所有无人机的联合动作。
但是,本发明人发现,时间差分考虑的是环境反馈给多无人机的全局奖励函数的影响,对于每个无人机而言,难以显式地表达自身对于多无人机集群收益的贡献,不能平衡集群中的个体收益与整体收益,不利于突防对抗场景下多无人机的合作。
因此,本发明中优选利用反事实基线的方法替代时间差分,即采用全局评判模块对每个无人机对于多无人机集群收益的贡献进行评判,并向每个无人机反馈当前状态下行为选择(动作)的优势函数。)
根据本发明一种优选的实施方式,所述全局评判模块通过下式(二)对每个无人机对于多无人机集群收益的贡献进行评判:
其中,表示无人机i的优势函数即反事实基线,即无人机i在t时刻执行动作ui后相对于执行特定动作uc的优势,体现了多无人机集群收益的贡献;Q(st,ut)是整个多无人机集群的联合状态和联合动作的联合状态动作值函数;表示除无人机i之外的其他无人机在t时刻的联合动作;st表示t时刻所有无人机的联合状态;表示在无人机i的行为被替换为特定动作uc的前提下多无人机的联合状态动作值函数;表示无人机i的动作被替换为特定动作后,所有可能的特定动作对应的状态动作值函数的平均值;U为无人机的动作空间,|U|为所有可能特定动作的个数。
本发明中,“反事实”代表:无人机集群整体的状态动作值函数与将某个无人机的动作替换为指定动作的集群整体状态动作值函数的差,“基线”则体现了引入“反事实”能够降低全局评判模块对真实的值函数的估计的偏差。因此,优势函数体现的是无人机当前行为选择(动作)相对于所有选择平均结果的优势。
具体地,如图1所示,全局评价模块中的评判神经网络根据输入的样本中所有无人机的联合动作ut,和所有无人机的联合状态st输出t时刻的状态动作值函数。再将联合动作中无人机i的动作依次替换为所有可能的特定动作,并由评判神经网络依次输出所有替换动作后的状态动作值函数,最后根据式(二)计算优势函数值
步骤1-3-3,获得集群内各无人机的策略模型。
在本发明中,采用执行模块根据无人机自身的当前观测状态输出动作行为。
根据本发明一种优选的实施方式,所述执行模块包括策略神经网络和目标策略神经网络;
其中,所述执行模块神经网络的策略梯度通过下式(三)获得:
根据本发明一种优选的实施方式,根据策略梯度,对执行模块神经网络的损失函数进行优化,以更新策略神经网络的权重参数。
其中,采用现有技术中常用方法对损失函数进行优化(即最大化),如随机梯度上升法。
在进一步优选的实施方式中,所述目标策略神经网络的权重参数通过复制策略神经网络的权重参数得到,且复制滞后于策略神经网络权重参数的更新。
优选地,所述目标策略神经网络的权重参数更新按照下式进行:
θ'new=τθnew+(1-τ)θ'
其中,θ'为目标策略神经网络更新前的参数,θ'new为目标策略神经网络更新后的参数,θnew为策略神经网络更新后的参数,τ为滞后参数,一般取值为0.01。
优选地,所述执行模块由一个GRU神经网络组成,其是长短期记忆神经网络(LSTM)的一种变体,输入是无人机i的观测状态oi和上一时刻的动作行为,输出无人机行为的具体数值,参数更新依靠基于策略梯度的梯度下降。
根据本发明一种优选的实施方式,根据攻防对抗的结果或已执行过仿真步数,判断是否达到训练终止状态或单回合最大步数,
当达到训练终止状态或单回合最大步数时,结束当前训练,重置仿真环境开始下一回合训练。
其中,训练终止状态为仿真训练过程中敌方被歼灭的状态。
在进一步优选的实施方式中,当执行模块神经网络的损失函数收敛时,结束对多无人机集群的训练,保存获得的策略模型。
具体地,如图2所示,无人机集群包括n个无人机,每个无人机根据自身的观测状态o1~on以及存储的上一时刻的动作,输出当前状态下的动作u1~un。全局评判模块根据采样样本中所有无人机t时刻联合状态st,t+1时刻的联合状态st+1以及执行模块的目标策略神经网络输出的t+1时刻所有无人机的联合动作ut+1,输出状态动作值函数和目标状态动作值函数,以完成自身神经网络的更新。再根据st和样本中所有无人机t时刻的奖励rt,反馈每个无人机当前状态下当前行为选择(动作)的优势函数 进而每个无人机的执行模块利用优势函数计算策略梯度,完成网络更新。
步骤2,各无人机根据观测状态,采用训练获得的策略模型获得行为决策。
其中,步骤2包括以下子步骤:
步骤2-1,各无人机获得观测状态。
其中,所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置以及探测到的障碍物的相对位置。
步骤2-2,各无人机根据训练获得的策略模型输出动作行为。
在本发明中,由于训练阶段多无人机集群内的各无人机已经学习获得最优的协同突防策略,具有稳定的执行策略模型,在执行任务阶段,各无人机仅需依据自身观测状态即可自主输出行为决策。
在本发明中,各无人机根据训练获得的策略模型输出动作行为之前,还需要考虑无人机靠近威胁障碍的“斥力”,即无人机进入威胁边缘时的常值动作值。
根据本发明一种优选的实施方式,所述无人机通过下式获得行为决策:
a=aNN+areject
其中,a表示无人机最终的加速度指令;aNN表示训练得到的策略模型输出的加速度指令;areject是无人机的避障控制模块在靠近威胁障碍时输出的加速度指令,具体为:
areject=k(p-po)
其中,p为无人机的位置,po为威胁障碍的位置,k为避障参数,优选取值为0.1。
本发明通过引入障碍斥力,保证无人机对威胁障碍的躲避,提高了协同突防的效率。
本发明所述的基于反事实基线评判-执行算法的多无人机协同突防方法,通过一个多无人机协同的效益评判,实现无人机之间的信息共享与协作。采用集中式训练和分布式执行的框架,在训练阶段,允许无人机使用其他无人机的观测信息和行为来简化训练过程,在执行阶段则不使用其他无人机的信息,使得每个无人机根据获得的各自的优势函数进行学习,能够在协同突防过程中自主决策。
并且,通过一种反事实基线的方法实现个体效益与整体效益的均衡,能够发挥多无人机的协同优势,为多无人机协同突防提供高效、可靠的技术方案。
实验例
仿真多无人机协同突防场景,如图3所示,任务区域为200m×200米的正方形区域,黑色区域是威胁/地形障碍,绿色区域是可供躲避的地形区,2个蓝色圆点代表多无人机协同突防的任务目标,3架红色无人机是任务区域内的机动防空力量,3架绿色无人机代表突防的多无人机。
其中,仿真场景的各部分参数如表1所示:
表1
其中,突防无人机(绿色无人机)采用本发明所述的基于反事实基线评判-执行算法的多无人机协同突防方法进行决策(如图1和2所示),其奖励函数基于与红方无人机的距离之和以及与任务目标的最短距离。具体地:
其中,r为所有无人机的奖励,ri为无人机i的奖励,pi为无人机i的位置;F为所有任务目标的集合,R为所有防空无人机(机动防空力量)的集合,pT为任务目标T的位置,pd为防空无人机d的位置。
防空无人机(红色无人机)采用本发明提出的决策方法。
同时,采用基于目标分配和路径规划的突防方法的突防无人机作为对比,相同条件下进行突防。
目标分配与路径规划的突防方法的具体操作为:
将防空无人机与威胁、障碍均视为障碍物;在仿真初始时刻进行一次目标分配与路径规划,每5秒重新进行一次目标分配和路径迹规划。
目标分配的优化目标函数如下:
解空间:第i个无人机分配到目标f;
其中,pi为第i个无人机的位置,pf为第i个无人机分配到的目标f的位置,pj为第j个障碍物的位置。
求解算法:离散粒子群算法。
在完成目标分配后,将作战区域划分为栅格地图,为每一个无人机及其分配到的目标采用A*算法(A-Star算法)进行路径规划。
对采用本发明所述突防方法和基于目标分配和路径规划的突防方法的多无人机集群的突防成功率进行检测,结果如图4所示。由图4可知,采用本发明所述方法的突防无人机的突防成功率明显高于传统的基于动态任务分配和轨迹规划的突防方法的无人机,其突防成功率约为80%,约为传统方法的2倍。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (2)
1.一种多无人机协同突防对抗方法,其特征在于,所述方法包括以下步骤:
步骤1,对无人机集群进行训练,获得集群内各无人机的策略模型;
步骤2,各无人机根据观测状态,采用训练获得的策略模型获得行为决策;
步骤1包括以下子步骤:
步骤1-1,无人机根据当前观测状态输出动作行为至仿真环境,进行交互;
步骤1-2,采集多无人机集群与仿真环境交互的数据,并存储至经验池中;
步骤1-3,对无人机进行训练;
步骤1-3中,所述训练包括以下步骤:
步骤1-3-1,集群内各无人机输出动作行为;
步骤1-3-2,采用全局评判模块对集群内各无人机当前状态下的动作行为进行评判,所述集群内所有无人机共用一个全局评判模块,
所述全局评判模块包括评判神经网络和目标神经网络,
采用下式(一)获得全局评判模块神经网络的损失函数:
L(θ)=(rt+γQ(st,ut)-Q(st+1,ut+1))2 (一)
其中,L(θ)为全局评判模块神经网络的损失函数,θ为无人机全局评判模块神经网络的权重参数,rt为t时刻所有无人机整体获得的奖励;γ为折扣因子,代表某一时刻无人机奖励的权重;Q(st,ut)是整个多无人机集群的t时刻联合状态和联合动作的联合状态动作值函数;Q(st+1,ut+1)为所有无人机整体t+1时刻的联合状态和联合动作的状态动作值函数,即目标状态动作值函数;ut+1为:执行模块中的目标策略神经网络,依据样本中所有无人机的联合继任状态即t+1时刻所有无人机的联合状态st+1和t时刻的联合动作ut,输出的t+1时刻所有无人机的联合动作;
所述目标神经网络的权重参数更新按照下式进行:
ω'new=τωnew+(1-τ)ω'
其中,ω'为目标神经网络更新前的参数,ω'new为目标神经网络更新后的参数,ωnew为评判神经网络更新后的参数,τ为滞后参数,取值为0.01;
步骤1-3-3,获得集群内各无人机的策略模型;
所述执行模块包括策略神经网络和目标策略神经网络;
其中,所述执行模块神经网络的策略梯度通过下式(三)获得:
所述全局评判模块通过下式对每个无人机对于多无人机集群收益的贡献进行评判:
其中,表示除无人机i之外的其他无人机在t时刻的联合动作;st表示t时刻所有无人机的联合状态;表示在无人机i的行为被替换为特定动作uc的前提下多无人机的联合状态动作值函数;表示无人机i的动作被替换为特定动作后,所有可能的特定动作对应的状态动作值函数的平均值,U为无人机的动作空间,|U|为所有可能特定动作的个数;
步骤2包括以下子步骤:
步骤2-1,各无人机获得观测状态;
步骤2-2,各无人机根据训练获得的策略模型输出动作行为;
步骤2-2中,所述无人机通过下式获得行为决策:
a=aNN+areject
其中,a表示无人机最终的加速度指令;aNN表示训练得到的策略模型输出的加速度指令;areject是无人机的避障控制模块在靠近威胁障碍时输出的加速度指令,具体为:
areject=k(p-po)
其中,p为无人机的位置,po为威胁障碍的位置,k为避障参数,k取值为0.1。
2.根据权利要求1所述的方法,其特征在于,步骤1-1中,所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置和探测到的障碍物的相对位置;
所述无人机输出的动作行为包括无人机的油门指令、纵向过载指令和滚转角指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404371.1A CN112198892B (zh) | 2020-05-13 | 2020-05-13 | 一种多无人机智能协同突防对抗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404371.1A CN112198892B (zh) | 2020-05-13 | 2020-05-13 | 一种多无人机智能协同突防对抗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112198892A CN112198892A (zh) | 2021-01-08 |
CN112198892B true CN112198892B (zh) | 2022-06-10 |
Family
ID=74005862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404371.1A Active CN112198892B (zh) | 2020-05-13 | 2020-05-13 | 一种多无人机智能协同突防对抗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112198892B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112422699B (zh) * | 2021-01-25 | 2021-04-06 | 中国人民解放军国防科技大学 | 一种基于动态调整的无人机集群行动方案生成方法 |
CN113128021B (zh) * | 2021-03-12 | 2022-10-25 | 合肥工业大学 | 多无人平台协同对抗的实时重决策方法和系统 |
CN113325876B (zh) * | 2021-06-21 | 2022-04-05 | 四川大学 | 无人机诱导突防策略 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN114118400B (zh) * | 2021-10-11 | 2023-01-03 | 中国科学院自动化研究所 | 一种基于专注网络的集群对抗方法及装置 |
CN115544898B (zh) * | 2022-11-09 | 2023-08-29 | 哈尔滨工业大学 | 基于深度强化学习的多智能体攻防决策方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
CN104155999B (zh) * | 2014-07-31 | 2017-03-29 | 海南大学 | 战场环境下多无人机时敏任务动态分配方法 |
US10114384B2 (en) * | 2016-09-13 | 2018-10-30 | Arrowonics Technologies Ltd. | Formation flight path coordination of unmanned aerial vehicles |
CN108229719B (zh) * | 2017-11-29 | 2021-12-14 | 合肥工业大学 | 无人机编队任务分配与航迹规划的多目标优化方法及装置 |
US11054843B2 (en) * | 2018-03-12 | 2021-07-06 | Nec Corporation | Self-configuring long term evolution radio access network on unmanned autonomous vehicles |
CN109032168B (zh) * | 2018-05-07 | 2021-06-08 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
US10726134B2 (en) * | 2018-08-14 | 2020-07-28 | Intel Corporation | Techniques to detect perturbation attacks with an actor-critic framework |
CN109443366B (zh) * | 2018-12-20 | 2020-08-21 | 北京航空航天大学 | 一种基于改进q学习算法的无人机群路径规划方法 |
CN109992000B (zh) * | 2019-04-04 | 2020-07-03 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
-
2020
- 2020-05-13 CN CN202010404371.1A patent/CN112198892B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112198892A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112198892B (zh) | 一种多无人机智能协同突防对抗方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN112947581B (zh) | 基于多智能体强化学习的多无人机协同空战机动决策方法 | |
CN111221352B (zh) | 基于多无人机协同博弈对抗的控制系统 | |
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN108731684B (zh) | 一种多无人机协同区域监视的航路规划方法 | |
CN113467508B (zh) | 面向围捕任务的多无人机智能协同决策方法 | |
CN111522258B (zh) | 多无人机协同控制仿真系统及其构建方法、仿真方法 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
CN105678030B (zh) | 基于专家系统和战术战法分形化的空战战术团队仿真方法 | |
CN110928329A (zh) | 一种基于深度q学习算法的多飞行器航迹规划方法 | |
CN115291625A (zh) | 基于多智能体分层强化学习的多无人机空战决策方法 | |
CN112051863A (zh) | 一种无人机自主反侦察及躲避敌方攻击的方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
Virtanen et al. | Decision theoretical approach to pilot simulation | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN115951709A (zh) | 基于td3的多无人机空战策略生成方法 | |
Zhang et al. | Maneuver decision-making of deep learning for UCAV thorough azimuth angles | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN116107213A (zh) | 一种基于sac和lgvf的航天器追捕任务组合优化控制方法 | |
Wu et al. | Visual range maneuver decision of unmanned combat aerial vehicle based on fuzzy reasoning | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |