CN112180967B - 基于评判-执行架构的多无人机协同对抗决策方法 - Google Patents
基于评判-执行架构的多无人机协同对抗决策方法 Download PDFInfo
- Publication number
- CN112180967B CN112180967B CN202010340657.8A CN202010340657A CN112180967B CN 112180967 B CN112180967 B CN 112180967B CN 202010340657 A CN202010340657 A CN 202010340657A CN 112180967 B CN112180967 B CN 112180967B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- neural network
- strategy
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004088 simulation Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 72
- 230000006399 behavior Effects 0.000 claims description 52
- 230000009471 action Effects 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 229910052739 hydrogen Inorganic materials 0.000 claims description 2
- 239000001257 hydrogen Substances 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims 1
- 125000004435 hydrogen atom Chemical class [H]* 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 4
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 230000003042 antagnostic effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- YZCKVEUIGOORGS-IGMARMGPSA-N Protium Chemical compound [1H] YZCKVEUIGOORGS-IGMARMGPSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 125000001153 fluoro group Chemical group F* 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 150000002431 hydrogen Chemical class 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于评判‑执行架构的多无人机协同对抗决策方法,所述方法包括:步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型;步骤2,执行任务时,各无人机根据观测状态获得行为决策。本发明提供的方法,不要求对抗环境的环境模型和多无人机协同的通信模型,而是通过与仿真环境的交互完成训练,训练出的行为策略在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策。
Description
技术领域
本发明涉及飞行器技术领域,具体涉及人工智能、多无人机协同控制与决策、博弈的交叉领域,尤其涉及一种基于评判-执行架构的多无人机协同对抗决策方法。
背景技术
多无人机协同对抗是未来无人机作战的重要模式,其是一群无人机对另一群无人机进行拦截而形成的空中协作式的缠斗,对抗过程中无人机具有自组织、自适应特点和拟人思维属性,通过感知环境、对周围态势进行判断,依据一定的行为规则,采取攻击、避让、分散、集中、协作、援助等有利策略,使得在整体上涌现出多无人机协同对抗系统的动态特性。
早期的多无人机协同对抗决策方法是基于有人机协同对抗的经验,制定相应的行为规则来实现决策。随着技术的不断发展,多无人机协同对抗决策技术可分为以下几种类型:
(一)基于一致性原理的多无人机协同控制技术:此类技术要求无人机有特定的通信拓扑,利用代数拓扑学与多输入多输出系统的结合建立多无人机协同的状态方程,为每个无人机设计相应的控制器。但是此类技术一般只能控制多无人机协同的一致性行为,难以适应复杂的对抗环境;
(二)任务规划技术:任务规划技术是将多无人机协同划分为多个单无人机或双无人机的作战单位的集合,将对抗任务分解为多个子任务,通过优化算法实现最优任务分配,从而将多无人机协同对抗决策转变为单无人机或双无人机对抗决策;
(三)群智能技术:群智能技术是基于仿生学的研究,如蚁群、蜂群、鱼群、狼群等,或者基于物理学的原理,如粒子的吸引和排斥,建立多无人机协同的行为控制器。
但是,上述的多无人机协同对抗决策技术需要建立对抗环境的任务模型或环境模型,无法充分考虑模型的不确定性,而且,建立行为模型或行为准则的方法,会人为限制了行为策略的求解空间,难以获得最优策略,从而无法适应动态多变的多无人机协同对抗环境。而且,复杂环境下,环境变量和决策变量维度增加,问题复杂度随之增加,进而导致上述多无人机协同对抗决策技术无法适应复杂环境或算法难以求解。
因此,有必要提供一种多无人机协同对抗决策方法,以解决上述问题。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于评判-执行架构的多无人机协同对抗决策方法,每架无人机都包含一组评判网络和执行网络,执行网络根据无人机自身的当前状态输出行为,评判网络通过输入多无人机协同所有成员的状态和行为对无人机当前状态下的行为的好坏进行评价。该基于深度强化学习的方法突破了环境动力学模型和通信模型的限制,并且使无人机在训练阶段获得整个多无人机群体的观测信息和行为,而在执行决策时只使用自身的观测信息,提高协同对抗决策算法的稳定性,使多无人机协同能够在大量的试错之后,学习到最优的协同对抗策略,从而完成了本发明。
具体来说,本发明的目的在于提供一种基于评判-执行架构的多无人机协同对抗决策方法,所述方法包括以下步骤:
步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型;
步骤2,执行任务时,各无人机根据观测状态获得行为决策。
本发明所具有的有益效果包括:
(1)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法,可用于复杂环境下的无人机协同对抗,其训练出的行为策略在执行时只依赖于无人机自身的局部观测信息且能给出最优行为决策,并能同时体现出与对手的对抗行为和与队友的协作行为;
(2)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法,不要求对抗环境的环境模型和多无人机协同的通信模型,而是通过与仿真环境的交互完成训练,实战效果好;
(3)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法,与传统强化学习算法相比,在训练时使用全局信息而在执行时使用局部观测信息,既保证了训练过程中环境对于无人机的动态稳定性,又使得分布式的执行更加符合实际应用场景;
(4)本发明提供的基于评判-执行架构的多无人机协同对抗决策方法,每个无人机的评判模块是独立训练的,所以可以为不同无人机设计不同的奖励函数,体现不同的对抗“风格”。
附图说明
图1示出根据本发明一种优选实施方式的多无人机训练过程图;
图2示出根据本发明一种优选实施方式的多无人机执行任务过程图;
图3示出本发明实验例所述的仿真多无人机追逃对抗场景示意图;
图4示出本发明实验例所述的蓝方无人机法向加速度与飞行速度和角速度的关系图;
图5示出本发明实验例所述的蓝方无人机急转弯时速度矢量关系图;
图6示出本发明实验例所述的仿真多无人机追逃对抗结果图。
具体实施方式
下面通过附图和实施方式对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。其中,尽管在附图中示出了实施方式的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明提供了一种基于评判-执行架构的多无人机协同对抗决策方法,所述方法包括以下步骤:
步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型;
步骤2,执行任务时,各无人机根据观测状态获得行为决策。
以下进一步描述本发明所述的多无人机协同对抗决策方法:
步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型。
其中,如图1所示,步骤1包括以下子步骤:
步骤1-1,无人机根据当前观测状态输出动作行为至仿真环境,进行交互。
在本发明中,所述的仿真环境可以采用半实物仿真平台,即无人机的飞控系统为实物,包括:飞控计算机、惯性测量单元(加速度计、陀螺和磁力计),而无人机的GPS和目标探测传感器(如光电吊舱、雷达)以及飞行环境(即大气、地形等)完全虚拟。从而以较小的成本,使训练环境最大限度地贴近实际,使无人机可以利用虚拟环境和实物测量反馈的数据,进行人工智能的训练。
所述仿真环境也可以为完全虚拟状态,即无人机的飞行环境和飞控系统均为虚拟。
在本发明中,所述仿真环境越接近于真实环境,训练出的无人机的行为策略模型效果越好。
根据本发明一种优选的实施方式,所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置和探测到的障碍物的相对位置。
在进一步优选的实施方式中,无人机的自身的位置由GPS定位系统获得;
无人机自身的速度矢量由惯性测量单元和磁力计获得;
敌对无人机的相对位置由光电吊舱获得;
障碍物的相对位置由超声波雷达获得。
在进一步优选的实施方式中,所述无人机输出的动作行为包括无人机的油门指令、纵向过载指令和滚转角指令。
在本发明中,所述仿真环境能够获得多无人机群体中各无人机的观测状态、动作行为、奖励和继任观测状态(下一时刻的观测状态),并可以反馈至各无人机进行存储,作为训练数据集。
优选地,所述无人机与仿真环境交互的过程为:无人机执行网络中的策略神经网络根据当前观测状态信息,输出动作行为,无人机执行该动作行为,由仿真环境得到各个无人机的继任状态(下一时刻的观测状态)和奖励。
步骤1-2,采集多无人机群体与仿真环境交互的数据,并存储至经验池中。
根据本发明一种优选的实施方式,所述多个无人机与仿真环境交互的数据为元素组(xt,xt+1,a1,…,an,r1,…rn),
其中,xt为所有无人机在t时刻的联合观测状态;xt+1为所有无人机在t+1时刻的联合观测状态(即执行动作后下一时刻达到的状态);a1…an为n架无人机在t时刻执行的动作(即输出的控制指令);r1…rn为n架无人机在t时刻执行动作后获得的奖励;n为无人机的个数。
在进一步优选的实施方式中,所述交互的数据存储至每个无人机的经验池中,以共享多无人机群体的观测状态信息和动作行为。
在本发明中,优选将多无人机群体的观测状态信息和动作行为共享至每个无人机的经验池中,有利于每个无人机利用其它无人机的策略进行学习。
其中,在交互的数据存储至经验池中后,更新当前状态为继任状态。
步骤1-3,从经验池中随机采样获得历史经验,对无人机进行训练。
其中,步骤1-3包括以下子步骤:
步骤1-3-1,构建评判网络和执行网络。
根据本发明一种优选的实施方式,所述评判网络包括评判神经网络和目标神经网络,
所述执行网络包括策略神经网络和目标策略神经网络。
优选地,所述多无人机群体中的每个无人机都包括一组评判网络和执行网络,以独立学习各自的评判函数和策略函数。
在本发明中,执行网络用于根据无人机自身的当前观测状态输出动作行为,评判网络用于对所有无人机根据当前观测状态输出的动作行为的好坏进行评价。
步骤1-3-2,对无人机的评判网络和执行网络进行更新。
在本发明中,每隔一定的仿真步数,无人机从经验池中随机采样,以对评判网络和执行网络进行训练,不断更新网络参数,进而获得每个无人机的行为策略模型。
根据本发明一种优选的实施方式,从经验池中随机采得的样本为一批样本,即为S组多无人机与环境交互的历史数据(xt,xt+1,a1,…,an,r1,…rn),
其中,t为数据样本的时间戳,xt为所有无人机t时刻的联合观测状态,即整体的当前状态;xt+1为所有无人机t+1时刻的联合观测状态(即执行动作后下一时刻达到的状态,整体的继任状态);a1…an为n架无人机t时刻执行的动作(即输出的控制指令);r1…rn为n架无人机t时刻执行动作后获得的奖励。
优选地,所述评判网络和执行网络的更新包括以下步骤:
步骤i,对上述训练样本中的多无人机的当前观测状态和继任观测状态进行评判。
根据本发明一种优选的实施方式,根据训练样本中所有无人机的当前观测状态,采用评判神经网络评获得当前观测状态和动作行为对应的状态-动作值函数值;
采用目标策略神经网络,根据当前训练样本中所有无人机的继任观测状态,获得各个无人机依据当前策略在继任状态下会执行的动作;
采用目标神经网络,根据当前训练样本中所有无人机的继任状态,以及目标策略神经网络获得的各个无人机依据当前策略在继任状态下会执行的动作,进而获得相对应的目标状态-动作值函数的值。
其中,评判神经网络对当前训练样本中所有无人机的观测状态和动作行为进行评判;目标神经网络对当前训练样本中所有无人机的继任观测状态和目标策略神经网络输出的动作行为进行评判。
步骤ii,更新评判神经网络和目标神经网络。
在本发明中,根据上述步骤获得的无人机当前观测状态和动作行为对应的状态-动作值函数的值,以及所有无人机的继任观测状态和目标策略神经网络输出的动作行为对应的状态-动作值函数的值,获得TD误差(时间差分误差),从而获得损失函数。
根据本发明一种优选的实施方式,采用下式(一)获得评判神经网络的损失函数:
L(ω)为评判神经网络的损失函数,ω为无人机的评判神经网络的权重参数,Qi(xt,at|ω)为第i架无人机的状态动作值函数,即评判神经网络的输出,xt为t时刻所有无人机的联合观测状态;at为t时刻各个无人机的动作集合;ri t为第i架无人机t时刻的奖励,为第i架无人机的目标状态动作值函数,即目标神经网络的输出,ω'为评判神经网络的目标神经网络具有滞后更新的参数;γ为折扣因子,代表某一时刻无人机奖励的权重,为第i架无人机t+1时刻的动作,为目标策略神经网络,为第i架无人机t+1时刻的观测状态。
在进一步优选的实施方式中,采用反向传播算法获得损失函数的梯度,并对损失函数进行优化,以更新评判神经网络的权重参数。
其中,对损失函数的优化为对其进行最小化,可以采用现有技术中常用的方法进行,如随机梯度下降法。
在更进一步优选的实施方式中,所述目标神经网络的权重参数更新通过复制评判神经的网络的权重参数得到,且复制滞后于评判神经网络权重参数的更新。
优选地,所述目标神经网络的权重参数更新按照下式进行:
ω'new=τωnew+(1-τ)ω'
其中,ω'为目标神经网络更新前的参数,ω'new为目标神经网络更新后的参数,ωnew为评判神经网络更新后的参数,τ为滞后参数,优选取值为0.01。
步骤iii,更新策略神经网络和目标策略神经网络。
其中,所述执行网络的损失函数即为评判神经网络输出的状态动作值函数。
在本发明中,所述策略神经网络的策略梯度通过下式(二)获得:
其中,θ=[θ1,…,θn]表示n个无人机执行策略的参数,μ=[μ1,…μn]表示n个无人机的联合策略,表示第i个无人机在t时刻的观测状态,表示所有无人机在t时刻的联合观测状态,at为t时刻各个无人机的动作集合,pπ是状态的概率分布函数,是在无人机群体采用联合策略μ的前提下,第i个无人机的状态动作值函数,即评判神经网络的输出;J(θi)为策略神经网络优化用的目标函数,它表示第i个无人机的累积期望奖励:
其中,Ri为第i架无人机的累积回报,γ为折扣因子,x是无人机群体的联合观测状态,ri t为第i架无人机t时刻的奖励,a是各个无人机执行的动作集合。
根据本发明一种优选的实施方式,根据策略梯度,对损失函数进行优化,以更新策略神经网络的权重参数。
其中,采用现有技术中常用方法对损失函数进行优化(即最大化),如随机梯度上升法。
在进一步优选的实施方式中,所述目标策略神经网络的权重参数通过复制策略神经网络的权重参数得到,且复制滞后于策略神经网络权重参数的更新。
优选地,所述目标策略神经网络的权重参数更新按照下式进行:
θ'new=τθnew+(1-τ)θ'
其中,θ'为目标策略神经网络更新前的参数,θ'new为目标策略神经网络更新后的参数,θnew为策略神经网络更新后的参数,τ为滞后参数,一般取值为0.01。
步骤1-4,获得无人机的行为策略模型。
根据本发明一种优选的实施方式,根据攻防对抗的结果或已执行过仿真步数,判断是否达到训练终止状态或单回合最大步数,
当达到训练终止状态或单回合最大步数时,结束当前训练,重置仿真环境开始下一回合训练。
其中,训练终止状态为仿真训练过程中敌方被歼灭的状态。
在进一步优选的实施方式中,当策略神经网络的损失函数收敛时,结束对多无人机群体的训练,保存获得的行为策略模型。
在本发明中,训练阶段无人机群体中每个无人机均使用群体内其他无人机的状态信息和动作行为进行训练,即知晓所有无人机的行为,有利于提高环境对于无人机的动态稳定性,进而保证获得的行为策略的模型动力学是稳定的。
同时,群体内的每个无人机可以利用目标策略神经网络对其它无人机的行为进行估计,而不是直接获得其它无人机的行为,即每个无人机独立学习自己的评判函数,且每个无人机可以有不同的奖励函数,便于在执行任务时自主决策,完成合作或竞争任务。
步骤2,执行任务时,各无人机根据观测状态获得行为决策。
其中,如图2所示,步骤2包括以下子步骤:
步骤2-1,各无人机获得观测状态。
其中,所述无人机的当前观测状态包括无人机自身的位置和速度矢量、探测到的敌对无人机的相对位置以及探测到的障碍物的相对位置。
步骤2-2,各无人机根据训练获得的行为策略模型输出动作行为。
在本发明中,由于训练阶段多无人机群体内的各无人机已经学习获得最优的协同对抗策略,具有稳定的执行策略模型,在执行任务阶段,各无人机仅需依据自身观测状态即可自主输出行为决策。
本发明所述的基于评判-执行架构的多无人机协同对抗决策方法,采用集中式训练和分布式执行的框架,在训练阶段,允许无人机使用其他无人机的观测信息和行为来简化训练过程,在执行阶段则不使用其他无人机的信息,使得每个无人机独立学习自己的评判函数和策略函数,能够在协同对抗过程中自主决策,实战效果好。
实验例
仿真多无人机追逃对抗场景,如图3所示,任务区域为200m×200m,该场景包括两处障碍区域(半径15m的圆域),3架红方无人机为追捕无人机群,其追捕1架蓝方无人机。其中,所述蓝方无人机的最大机动能力和最大飞行速度均为红方无人机的1.5倍,具体地,红方无人机的最大飞行速度为10m/s,最大加速度为3m/s2;蓝方无人机的最大飞行速度为15m/s,最大加速度为4.5m/s2;
红方无人机采用本发明所述的基于评判-执行架构的多无人机协同对抗决策方法进行决策(如图1所示),红方无人机的奖励函数基于与蓝方无人机的最短距离,接近蓝方无人机则获得奖励,远离则获得惩罚;
累积回报中折扣因子γ=0.95,单回合最大步长为50,单次采样样本量为1024组;
神经网络结构:4层(一层输入层,两层隐藏层,一层输出层);
隐藏层的每层神经元个数:32;
神经元激活函数:线性整流函数。
在对抗的过程中,蓝方无人机基于Isaacs(Isaacs,Rufus Philip.Differentialgames a mathematical theory with applications to warfare and pursuit,controland optimization[J].Physics Bulletin,1966,17(2))给出的追逃博弈中逃跑者的策略进行决策,躲避无人机群的追捕:以最大速度v飞行,控制量为法向加速度an,u为对应的角速度,
其中,an=vu,如图4所示;
当与最近的红方无人机的距离d大于30米时,蓝方无人机的策略是使这一距离最大化:
其中,(xb,yb)为蓝方无人机位置坐标,(xr,yr)为距离蓝方无人机最近的一个红方无人机的位置坐标,k为可调节的参数,取0.1;
当与最近的红红无人机的距离d小于30米时,蓝方无人机的策略是做急转弯,如图5所示:
图5中,vr为距离最近的红方无人机的速度矢量,θ为蓝方无人机的速度矢量vb与视线矢量q的夹角,取值范围为(-π,π],顺时针为正,逆时针为负。
红方无人机在训练收敛后,对蓝方无人机进行追捕,如图6所示,在50秒内,对蓝方无人机的追捕成功率可达到95%以上。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (1)
1.一种基于评判-执行架构的多无人机协同对抗决策方法,其特征在于,所述方法包括以下步骤:
步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型;
步骤2,执行任务时,各无人机根据观测状态获得行为决策;
步骤1包括以下子步骤:
步骤1-1,无人机根据当前观测状态输出动作行为至仿真环境;
步骤1-2,采集多无人机与仿真环境交互的数据,并存储至经验池中;
步骤1-3,从经验池中随机采样,对无人机进行训练;
步骤1-4,获得无人机的行为策略模型;
步骤1-3包括以下子步骤:
步骤1-3-1,构建评判网络和执行网络;
步骤1-3-2,对无人机的评判网络和执行网络进行更新;
步骤1-3-2中,所述网络的更新包括以下步骤:
步骤i,对多无人机群体的当前观测状态和继任观测状态进行评判;
步骤ii,更新每个无人机的评判神经网络和目标神经网络;
步骤iii,更新每个无人机的策略神经网络和目标策略神经网络;
采用评判神经网络评判多无人机群体的当前状态,
采用目标神经网络评判多无人机群体的继任观测状态;
采用下式获得评判网络中评判神经网络的损失函数:
L(ω)为评判神经网络的损失函数,ω为无人机的评判神经网络的权重参数,Qi(xt,at|ω)为第i架无人机的状态动作值函数,即评判神经网络的输出,xt为t时刻所有无人机的联合观测状态;at为t时刻各个无人机的动作集合;ri t为第i架无人机t时刻的奖励,为第i架无人机的目标状态动作值函数,即目标神经网络的输出;γ为折扣因子代表某一时刻无人机奖励的权重,为第i架无人机t+1时刻的动作,为目标策略神经网络,为第i架无人机t+1时刻的观测状态;
采用反向传播算法获得损失函数的梯度,并对损失函数进行优化,以更新评判神经网络的权重参数;
所述目标神经网络的权重参数更新按照下式进行:
ω'new=τωnew+(1-τ)ω'
其中,ω'为目标神经网络更新前的参数,ω'new为目标神经网络更新后的参数,ωnew为评判神经网络更新后的参数,τ为滞后参数,取值为0.01;
步骤iii中,策略神经网络的策略梯度通过下式获得:
其中,θ=[θ1,…,θn]表示n个无人机执行策略的参数,μ=[μ1,…,μn]表示n个无人机的联合策略,
u为对应的角速度;表示第i个无人机在t时刻的观测状态,表示所有无人机在t时刻的联合观测状态,at为t时刻各个无人机的动作集合,pπ是状态的概率分布函数,是在无人机群体采用联合策略μ的前提下,第i个无人机的状态动作值函数,即评判神经网络的输出;J(θi)为策略神经网络优化用的目标函数,它表示第i个无人机的累积期望奖励:
其中,Ri为第i架无人机的累积回报,γ为折扣因子,x是无人机群体的联合观测状态,a是各个无人机执行的动作集合;其中累积回报中折扣因子γ=0.95,单回合最大步长为50,单次采样样本量为1024组;
步骤1-2中,所述多无人机与仿真环境交互的数据为元素组(xt,xt+1,a1,…,an,r1,…rn),其中,xt为所有无人机t时刻的联合观测状态;xt+1为所有无人机t+1时刻的联合观测状态;a1…an为n架无人机t时刻执行的动作;r1…rn为n架无人机t时刻执行动作后获得的奖励;n为无人机的个数;
步骤1-3-1中,
所述评判网络包括评判神经网络和目标神经网络,
所述执行网络包括策略神经网络和目标策略神经网络;
每个无人机都包括一组评判网络和执行网络;其中神经网络结构包括4层:一层输入层,两层隐藏层,一层输出层;
隐藏层的每层神经元个数:32;
神经元激活函数:线性整流函数;
步骤2包括以下子步骤:
步骤2-1,无人机获得观测状态;
步骤2-2,各无人机根据训练获得的行为策略模型输出动作行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340657.8A CN112180967B (zh) | 2020-04-26 | 2020-04-26 | 基于评判-执行架构的多无人机协同对抗决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340657.8A CN112180967B (zh) | 2020-04-26 | 2020-04-26 | 基于评判-执行架构的多无人机协同对抗决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112180967A CN112180967A (zh) | 2021-01-05 |
CN112180967B true CN112180967B (zh) | 2022-08-19 |
Family
ID=73919842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010340657.8A Active CN112180967B (zh) | 2020-04-26 | 2020-04-26 | 基于评判-执行架构的多无人机协同对抗决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112180967B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112422699B (zh) * | 2021-01-25 | 2021-04-06 | 中国人民解放军国防科技大学 | 一种基于动态调整的无人机集群行动方案生成方法 |
CN113126651B (zh) * | 2021-03-12 | 2022-07-19 | 合肥工业大学 | 多无人机协同对抗的智能决策装置和系统 |
CN113128698B (zh) * | 2021-03-12 | 2022-09-20 | 合肥工业大学 | 多无人机协同对抗决策的强化学习方法 |
CN112947581B (zh) * | 2021-03-25 | 2022-07-05 | 西北工业大学 | 基于多智能体强化学习的多无人机协同空战机动决策方法 |
CN113093803B (zh) * | 2021-04-03 | 2022-10-14 | 西北工业大学 | 一种基于e-sac算法的无人机空战运动控制方法 |
CN113885353B (zh) * | 2021-09-29 | 2024-01-30 | 北京大翔航空科技有限公司 | 一种分布式智能无人机集群对抗的硬件在回路仿真系统 |
CN114167756B (zh) * | 2021-12-08 | 2023-06-02 | 北京航空航天大学 | 多无人机协同空战决策自主学习及半实物仿真验证方法 |
CN114167899B (zh) * | 2021-12-27 | 2023-05-26 | 北京联合大学 | 一种无人机蜂群协同对抗决策方法及系统 |
CN114489144B (zh) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN118394109B (zh) * | 2024-06-26 | 2024-10-01 | 烟台中飞海装科技有限公司 | 基于多智能体强化学习的模拟对抗训练方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7609156B2 (en) * | 2004-04-07 | 2009-10-27 | Jeffrey D Mullen | Advanced cooperative defensive military tactics, armor, and systems |
US9764837B2 (en) * | 2014-11-14 | 2017-09-19 | Top Flight Technologies, Inc. | Micro hybrid generator system drone |
CN105278542A (zh) * | 2015-09-23 | 2016-01-27 | 沈阳航空航天大学 | 多无人机协同打击任务的攻防对策最优策略方法 |
CN106950984B (zh) * | 2017-03-16 | 2020-02-07 | 中国科学院自动化研究所 | 无人机远程协同察打方法 |
CN109116868B (zh) * | 2018-10-31 | 2021-07-13 | 中国人民解放军32181部队 | 分布式无人机编队协同控制方法 |
CN109343569A (zh) * | 2018-11-19 | 2019-02-15 | 南京航空航天大学 | 多无人机集群自组织协同察打任务规划方法 |
CN109597433B (zh) * | 2018-12-14 | 2021-08-20 | 桂林电子科技大学 | 一种基于复合拦截策略的无人机防控智能决策方法 |
CN109625333B (zh) * | 2019-01-03 | 2021-08-03 | 西安微电子技术研究所 | 一种基于深度增强学习的空间非合作目标捕获方法 |
CN109814595B (zh) * | 2019-01-28 | 2022-03-01 | 西安爱生技术集团公司 | 基于多Agent的直升机-无人机协同打击信火同步控制方法 |
CN110058608B (zh) * | 2019-04-08 | 2022-06-10 | 合肥工业大学 | 多无人机协同对抗的控制方法、系统及存储介质 |
CN110007688B (zh) * | 2019-04-25 | 2021-06-01 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
CN110134139B (zh) * | 2019-05-08 | 2022-04-08 | 合肥工业大学 | 一种对抗环境下无人机编队的战术决策方法和装置 |
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110958680B (zh) * | 2019-12-09 | 2022-09-13 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN110928329B (zh) * | 2019-12-24 | 2023-05-02 | 北京空间技术研制试验中心 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
-
2020
- 2020-04-26 CN CN202010340657.8A patent/CN112180967B/zh active Active
Non-Patent Citations (1)
Title |
---|
智能协同算法研究及应用;黄利伟;《中国博士学位论文全文数据库信息科技辑》;20200115;第37-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112180967A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN112947581B (zh) | 基于多智能体强化学习的多无人机协同空战机动决策方法 | |
CN112198892B (zh) | 一种多无人机智能协同突防对抗方法 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN113791634A (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN112051863A (zh) | 一种无人机自主反侦察及躲避敌方攻击的方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
CN114510078B (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
CN115291625A (zh) | 基于多智能体分层强化学习的多无人机空战决策方法 | |
CN110531786A (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN114489144B (zh) | 无人机自主机动决策方法、装置及无人机 | |
CN113110546B (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Kouzeghar et al. | Multi-target pursuit by a decentralized heterogeneous uav swarm using deep multi-agent reinforcement learning | |
CN115951709A (zh) | 基于td3的多无人机空战策略生成方法 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
Yan et al. | Flocking control of uav swarms with deep reinforcement leaming approach | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN116468121A (zh) | 基于通用经验博弈强化学习的多机空战决策方法 | |
Wang et al. | Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction | |
CN113282100A (zh) | 基于强化学习的无人机对抗博弈训练控制方法 | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |