CN113893539B - 智能体的协同对战方法及装置 - Google Patents

智能体的协同对战方法及装置 Download PDF

Info

Publication number
CN113893539B
CN113893539B CN202111495010.3A CN202111495010A CN113893539B CN 113893539 B CN113893539 B CN 113893539B CN 202111495010 A CN202111495010 A CN 202111495010A CN 113893539 B CN113893539 B CN 113893539B
Authority
CN
China
Prior art keywords
action
reinforcement learning
value
state
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111495010.3A
Other languages
English (en)
Other versions
CN113893539A (zh
Inventor
黄茗
王滨
原鑫
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202111495010.3A priority Critical patent/CN113893539B/zh
Publication of CN113893539A publication Critical patent/CN113893539A/zh
Application granted granted Critical
Publication of CN113893539B publication Critical patent/CN113893539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/52Controlling the output signals based on the game progress involving aspects of the displayed game scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8029Fighting without shooting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种智能体的协同对战方法、装置、终端设备和存储介质,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,不会影响多智能体的强化学习。

Description

智能体的协同对战方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种智能体的协同对战方法、装置、终端设备和存储介质。
背景技术
多个无人作战飞机在进行空战自主机动决策时,需要进行决策认知和协同配合。因为无人作战飞机的环境比较复杂,同时需要考虑飞机之间的协同,如何实现作战飞机的自主控制是一个研究重点。
传统的无人机控制依赖于专家知识,通过专家对环境的判断和经验构建规则,来应对不同的情况,但是这要求专家具备很高的经验知识,同时考虑所有的情况耗费大量的时间精力。随着人工智能技术的发展,深度学习不断应用到各个领域。强化学习是近年来比较受关注的一个研究方向,强化学习在智能机器人、游戏博弈、无人车等应用领域中取得了一系列的成果。
强化学习主要基于马尔科夫决策过程,根据当前的环境和状态选择执行动作后,通过计算回报的大小来判断所选动作的合理性。强化学习从过去的经验中不断学习来获取知识,从而不需要大量的标签数据,同时也可以减少对专家的依赖。强化学习最初应用于单智能体的场景,在单智能体的场景中,智能体所在的环境是稳定的。但是在多智能体的强化学习中,环境是复杂多变的,状态空间会随着智能体的增加呈指数级增长,可能出现维度爆炸的问题,计算复杂;同时存在目标奖励确定困难和不稳定性的问题,多智能体之间因为合作和任务不同会影响到奖励函数的定义,而且每个智能体策略发生变化时,其余智能体的策略也会发生变化,影响算法最终的收敛性。
发明内容
本发明意在提供一种智能体的协同对战方法、装置、终端设备和存储介质,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。
第一个方面,本发明实施例提供一种智能体的协同对战方法,所述方法包括:
确定智能体进行对战的虚拟空战场景;
根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,所述动作空间信息至少包括动作值,所述状态空间信息至少包括状态值;
根据所述状态值,确定与所述状态值对应的动作的奖励值;
根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值,对初始强化学习模型进行训练,当所述初始强化学习模型处于收敛状态时,得到目标强化学习模型;
采用所述目标强化学习模型与规则智能体进行对战。
可选地,所述动作空间信息至少包括:初始指令和动作指令,其中,所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。
可选地,所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,所述各个智能体之间的关联关系至少包括智能体之间的距离。
可选地,所述根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,包括:
在所述虚拟空战场景内,设置每个智能体的局部观测信息为
Figure 14141DEST_PATH_IMAGE001
,全局观察空间为
Figure 524757DEST_PATH_IMAGE002
Figure 773336DEST_PATH_IMAGE003
;每个智能体的动作为
Figure 11288DEST_PATH_IMAGE004
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure 294502DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure 710440DEST_PATH_IMAGE006
,其值函数为
Figure 446314DEST_PATH_IMAGE007
,i,t为大于0的自然数,Θ为目标神经网络参数。
可选地,所述根据所述状态值,确定与所述状态值对应的动作的奖励值,包括:
根据预先设置的对战胜负评判策略,根据不同的状态值,确定与所述状态值对应的动作值;
根据不同的动作值,确定与所述动作值对应的动作;
确定与所述动作对应的奖励值。
可选地,所述方法还包括:
采用所述目标强化学习模型与自身智能体进行对战;
根据对战结果,对所述目标强化学习模型进行更新。
可选地,所述根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值,对初始强化学习模型进行训练,当所述初始强化学习模型处于收敛状态时,得到目标强化学习模型,包括:
对于每个智能体的局部动作值函数
Figure 989422DEST_PATH_IMAGE008
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure 127143DEST_PATH_IMAGE009
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure 713982DEST_PATH_IMAGE010
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure 45475DEST_PATH_IMAGE011
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure 516907DEST_PATH_IMAGE012
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure 509134DEST_PATH_IMAGE013
,其中
Figure 532454DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure 242921DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 862252DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数。
第二个方面,本发明实施例提供一种智能体的协同对战装置,所述装置包括:
第一确定模块,用于确定智能体进行对战的虚拟空战场景;
第二确定模块,用于根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,所述动作空间信息至少包括动作值,所述状态空间信息至少包括状态值;
第三确定模块,用于根据所述状态值,确定与所述状态值对应的动作的奖励值;
模型训练模块,用于根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值,对初始强化学习模型进行训练,当所述初始强化学习模型处于收敛状态时,得到目标强化学习模型;
对战模块,用于采用所述目标强化学习模型与规则智能体进行对战。
可选地,所述动作空间信息至少包括:初始指令和动作指令,其中,所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。
可选地,所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,所述各个智能体之间的关联关系至少包括智能体之间的距离。
可选地,所述第二确定模块用于:
在所述虚拟空战场景内,设置每个智能体的局部观测信息为
Figure 974565DEST_PATH_IMAGE001
,全局观察空间为
Figure 903206DEST_PATH_IMAGE002
Figure 100970DEST_PATH_IMAGE003
;每个智能体的动作为
Figure 22527DEST_PATH_IMAGE004
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure 989346DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure 354468DEST_PATH_IMAGE006
,其值函数为
Figure 773948DEST_PATH_IMAGE007
,i,t为大于0的自然数,Θ为目标神经网络参数。
可选地,所述第三确定模块,用于:
根据预先设置的对战胜负评判策略,根据不同的状态值,确定与所述状态值对应的动作值;
根据不同的动作值,确定与所述动作值对应的动作;
确定与所述动作对应的奖励值。
可选地,所述对战模块还用于:
采用所述目标强化学习模型与自身智能体进行对战;
根据对战结果,对所述目标强化学习模型进行更新。
可选地,所述模型训练模块用于:
对于每个智能体的局部动作值函数
Figure 661DEST_PATH_IMAGE008
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure 821987DEST_PATH_IMAGE009
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure 358010DEST_PATH_IMAGE010
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure 530366DEST_PATH_IMAGE017
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure 793726DEST_PATH_IMAGE012
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure 735137DEST_PATH_IMAGE013
,其中
Figure 442062DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure 836134DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 404650DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数。
第三个方面,本发明实施例提供一种终端设备,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现第一个方面提供的智能体的协同对战方法。
第四个方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现第一个方面提供的智能体的协同对战方法。
本发明实施例包括以下优点:
本发明实施例提供的智能体的协同对战方法、装置、终端设备和存储介质,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,不会影响多智能体的强化学习。
附图说明
图1是本发明的一种智能体的协同对战方法实施例的步骤流程图;
图2是本发明的又一种智能体的协同对战的步骤流程图;
图3是本发明的再一种智能体的协同对战方法实施例的步骤流程图;
图4是本发明的强化学习模型训练的示意图;
图5是本发明的一种智能体的协同对战装置实施例的结构框图;
图6是本发明的一种终端设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明一实施例提供一种智能体的协同对战方法,用于多智能体之间的对战。本实施例的执行主体为智能体的协同对战装置,设置在智能体上,该智能体可以是无人机或有人机。
参照图1,示出了本发明的一种智能体的协同对战方法实施例的步骤流程图,该方法具体可以包括如下步骤:
S101、确定智能体进行对战的虚拟空战场景;
具体地,基于现实中的无人机,通过仿真平台进行空战想定,基于XSIM仿真平台,以异构、协同全透明态势空战为想定,为无人机对战提供一个虚拟对战场景。
S102、根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;
具体地,基于设置好的虚拟空战场景,为每一个智能体设置动作空间信息和状态空间信息,其中,动作空间信息至少包括:初始指令和动作指令,其中,初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。另外,该动作空间信息还包括与每一个动作对应的动作值;
状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,各个智能体之间的关联关系至少包括智能体之间的距离。该状态空间信息还包括不同状态对应的状态值。
S103、根据状态值,确定与状态值对应的动作的奖励值;
具体地,根据整个仿真平台的胜负评判指标,为动作制定相应的奖励。其中当有人机被击毁和所有飞机携弹量为0时判负;时间结束时,两边战损相同则判断有人机在中心区域的时间。根据这些规则,当右方飞机发射导弹时,取0.7的概率击中敌方飞机,加10分;取0.3的概率无法击中,损失导弹,-3分;如果攻击的是敌方有人机,则+5分;对于有人机,远离中心区域-1分。
S104、根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;
S105、采用目标强化学习模型与规则智能体进行对战。
具体地,将己方的智能体使用qmix强化学习网络,与规则编写的敌方智能体对战,并进行模型训练;第二阶段将第一阶段的智能体进行自我对战,不断强化,达到使用深度强化学习提升智能体的策略认知和选择的能力。
本发明实施例提供的智能体的协同对战方法,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,不会影响多智能体的强化学习。
本发明又一实施例对上述实施例提供的智能体的协同对战方法做进一步补充说明。
可选地,根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,包括:
在所述虚拟空战场景内,设置每个智能体的局部观测信息为
Figure 934988DEST_PATH_IMAGE001
,全局观察空间为
Figure 812814DEST_PATH_IMAGE002
Figure 694183DEST_PATH_IMAGE003
;每个智能体的动作为
Figure 564924DEST_PATH_IMAGE004
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure 215349DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure 998497DEST_PATH_IMAGE006
,其值函数为
Figure 367161DEST_PATH_IMAGE007
,i,t为大于0的自然数,Θ为目标神经网络参数。
可选地,根据状态值,确定与状态值对应的动作的奖励值,包括:
根据预先设置的对战胜负评判策略,根据不同的状态值,确定与状态值对应的动作值;
根据不同的动作值,确定与动作值对应的动作;
确定与动作对应的奖励值。
可选地,该方法还包括:
采用目标强化学习模型与自身智能体进行对战;
根据对战结果,对目标强化学习模型进行更新。
可选地,根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型,包括:
对于每个智能体的局部动作值函数
Figure 277480DEST_PATH_IMAGE008
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure 47990DEST_PATH_IMAGE009
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure 2039DEST_PATH_IMAGE010
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure 858000DEST_PATH_IMAGE017
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure 70544DEST_PATH_IMAGE012
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure 429981DEST_PATH_IMAGE013
,其中
Figure 820511DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure 898189DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 415889DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数。
图2是本发明的又一种智能体的协同对战的步骤流程图,如图2所示,本发明提供一种基于深度强化学习的仿真多智能体协同对战方法,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,根据历史对战数据,使用qmix强化学习算法进行学习。qmix强化学习的分为两个阶段,第一阶段使用规则制定对手智能体,训练己方智能体与其对抗,为后续提供基础;第二阶段通过自我对抗训练两方的智能体,优化其输出的策略,使得最终学习的智能体能够学习更多的策略,可以和具备更高智能的智能体对抗。
具体的,
S1、基于现实中的无人机,通过仿真平台进行空战想定,制定一个虚拟空战场景;
S2、根据虚拟场景,分析构建无人机的动作空间和状态空间;
S3、根据场景需要,通过对战的结果判定来定义奖励值;
S4、使用深度强化学习qmix来对智能体进行训练,先与规则智能体对战,后续自我博弈提升。
图3是本发明的再一种智能体的协同对战方法实施例的步骤流程图,如图3所示,
S301、通过仿真平台进行空战想定,定义无人机的作战方式和区域;
基于空中智能博弈大赛和XSIM仿真平台,以异构、协同全透明态势空战为想定,为无人机对战提供一个虚拟对战场景。作战想定对战分为红蓝双方,均为1架有人机(此处有人机和无人机区别主要在于参数不同,不是人为操作)携带4架无人机进行确定信息的透明态势自由对战,同时每个飞机带有模拟的雷达探测功能以及空空导弹作为攻击武器。飞机的位置具有三个维度,分别是x、y坐标和高度。战场中心为坐标原点,向右为 x 轴正轴,向上为 y 轴正轴,初始高度 9000~10000 米。整个战场的大小为300km×300km,战斗的整体时长为20分钟。
对战时的进攻方向为红蓝迎头进入,速度 0.9 马赫;机载火控雷达发现目标后,依据选定的空战策略,锁定并发射空空导弹攻击目标。
S302、分析仿真环境,设定无人机在强化学习中的动作空间和状态空间;
分析构建无人机的动作空间和状态空间,构建在强化学习过程的状态值和动作值,具体方式如下:
第一步,动作空间。
在仿真平台中,想定的无人机总共有5种指令,分别为初始化实体指令;航线巡逻指令;区域巡逻指令;机动参数调整指令;跟随指令;打击目标指令。其中初始化指令仅在对战开始前3秒生效,因此不加入智能体的可选动作空间。为了能让无人机自由移动和攻击,在基础指令之上制定了16个动作空间:
移动动作,通过让使用航线巡逻指令,以无人机当前的坐标为起始点,东南西北方向以及四个夹角总共8个方向,加上5km的距离之后的坐标作为目标点,形成8个移动动作;
攻击动作,使用打击目标指令,5个敌方飞机为目标,形成5个攻击动作;
躲避动作,当敌方导弹距离无人机过近时,使用跟随指令,跟随友方其他飞机;
区域巡逻动作,使用区域巡逻指令,以当前坐标点为中心,周围5公里进行区域巡逻;
无动作,不执行任何指令;
第二步,状态空间。
状态空间为全局的观察空间,记录了每个己方飞机的状态,以及与敌方飞机的关联。其中自身的状态空间包括:
对于每个己方飞机,记录其是否存活;飞机的类型;以及与其他友方飞机的距离;相应友方飞机的位置,即x、y坐标和高度(坐标要除以半个坐标系长度150000);友方飞机的类型;同时判断该己方飞机在8个方向能否移动。
对于每个己方飞机,还要判断其与敌方飞机的关联,即敌方飞机相对于自身的位置,距离,类型,以及敌方飞机能否被攻击。
每个智能体的局部观测信息为
Figure 895412DEST_PATH_IMAGE001
,系统的全局观察空间为
Figure 456843DEST_PATH_IMAGE002
,即
Figure 21817DEST_PATH_IMAGE003
。每个智能体的动作为
Figure 576164DEST_PATH_IMAGE004
。每个智能体的动作-观测历史可以表示
Figure 910193DEST_PATH_IMAGE005
。则每个智能体的分布式策略为
Figure 642526DEST_PATH_IMAGE006
,i,t为大于0的自然数,Θ为目标神经网络参数,其值函数为
Figure 694795DEST_PATH_IMAGE007
S303、根据胜负评判依据,以及动作状态空间定义强化学习的奖励值;
根据状态值选择的动作值来选择无人机的动作,并为每个动作产设定奖励值,具体方式如下:
根据整个仿真平台的胜负评判指标,为动作制定相应的奖励。其中当有人机被击毁和所有飞机携弹量为0时判负;时间结束时,两边战损相同则判断有人机在中心区域的时间。根据这些规则,当右方飞机发射导弹时,取0.7的概率击中敌方飞机,加10分;取0.3的概率无法击中,损失导弹,-3分;如果攻击的是敌方有人机,则+5分;对于有人机,远离中心区域-1分。
S304、使用深度强化想学习qmix进行智能体训练,一阶段与规则智能体训练,二阶段自我博弈。
本发明实施例提出一种基于深度强化学习的仿真多智能体协同对战方法,通过仿真无人机对战平台,抽象无人机的动作,基于深度强化学习qmix进行多智能体训练,能够减少对人工规则的依赖和避免单智能体的缺陷。
图4是本发明的强化学习模型训练的示意图,如图4所示,使用深度强化学习模型qmix进行智能体训练,具体方式如下:
对于每个智能体i的局部动作值函数
Figure 288719DEST_PATH_IMAGE007
,局部值函数只依赖于每个智能体的局部观测,VDN(Value-Decomposition Networks For Cooperative Multi-AgentLearning)采用了直接相加求和的方式:
Figure 742834DEST_PATH_IMAGE009
qmix采用分布式策略,贪心地通过局部
Figure 100002_DEST_PATH_IMAGE018
来获取最优动作,将联合动作值函数取argmax转化为单调性约束,即:
Figure 114909DEST_PATH_IMAGE017
为了实现上述约束,qmix采用混合网络来实现。qmix在训练过程中采用的代价函数为:
Figure 28376DEST_PATH_IMAGE012
其中b为采样的样本数量。在无人机对战中,时间为20分钟,由于最快可以每秒更新一次战场的状态,同时向无人机发出指令。但这种情况下,可能会出现无人机还未充分执行上一个动作就要执行下一个动作,因此将采样频率定义10s一次,因此每次对战总的样本量为120个。
上式中的
Figure 550625DEST_PATH_IMAGE013
,其中
Figure 983880DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure 933381DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 570030DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数。
整体训练的过程分为两个阶段,将己方的智能体使用qmix强化学习网络,与规则编写的敌方智能体对战,并进行模型训练;第二阶段将第一阶段的智能体进行自我对战,不断强化,达到使用深度强化学习提升智能体的策略认知和选择的能力。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例提供的智能体的协同对战方法,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,额 不会影响多智能体的强化学习。
本发明另一实施例提供一种智能体的协同对战装置,用于执行上述实施例提供的智能体的协同对战方法。
参照图5,示出了本发明的一种智能体的协同对战装置实施例的结构框图,该装置具体可以包括如下模块:第一确定模块501、第二确定模块502、第三确定模块503、模型训练模块504和对战模块505,其中:
第一确定模块501用于确定智能体进行对战的虚拟空战场景;
第二确定模块502用于根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;
第三确定模块503用于根据状态值,确定与状态值对应的动作的奖励值;
模型训练模块504用于根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;
对战模块505用于采用目标强化学习模型与规则智能体进行对战。
本发明实施例提供的智能体的协同对战装置,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,额 不会影响多智能体的强化学习。
本发明又一实施例对上述实施例提供的智能体的协同对战装置做进一步补充说明。
可选地,动作空间信息至少包括:初始指令和动作指令,其中,初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。
可选地,状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,各个智能体之间的关联关系至少包括智能体之间的距离。
可选地,第二确定模块用于:
在虚拟空战场景内,设置每个智能体的局部观测信息为
Figure 895969DEST_PATH_IMAGE001
,全局观察空间为
Figure 183731DEST_PATH_IMAGE002
Figure 304134DEST_PATH_IMAGE003
;每个智能体的动作为
Figure 192193DEST_PATH_IMAGE004
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure 56244DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure 198512DEST_PATH_IMAGE006
,其值函数为
Figure 755396DEST_PATH_IMAGE007
,i,t为大于0的自然数,Θ为目标神经网络参数。
可选地,第三确定模块,用于:
根据预先设置的对战胜负评判策略,根据不同的状态值,确定与状态值对应的动作值;
根据不同的动作值,确定与动作值对应的动作;
确定与动作对应的奖励值。
可选地,对战模块还用于:
采用目标强化学习模型与自身智能体进行对战;
根据对战结果,对目标强化学习模型进行更新。
可选地,模型训练模块用于:
对于每个智能体的局部动作值函数
Figure 366637DEST_PATH_IMAGE008
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure 34379DEST_PATH_IMAGE009
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure 31153DEST_PATH_IMAGE010
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure 758938DEST_PATH_IMAGE017
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure 356010DEST_PATH_IMAGE012
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure 561864DEST_PATH_IMAGE013
,其中
Figure 678724DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure 577410DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 897664DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的智能体的协同对战装置,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,额 不会影响多智能体的强化学习。
本发明再一实施例提供一种终端设备,用于执行上述实施例提供的智能体的协同对战方法。
图6是本发明的一种终端设备的结构示意图,如图6所示,该终端设备包括:至少一个处理器601和存储器602;
存储器存储计算机程序;至少一个处理器执行存储器存储的计算机程序,以实现上述实施例提供的智能体的协同对战方法。
本实施例提供的终端设备,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,额 不会影响多智能体的强化学习。
本申请又一实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被执行时实现上述任一实施例提供的智能体的协同对战方法。
根据本实施例的计算机可读存储介质,通过确定智能体进行对战的虚拟空战场景;根据虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,动作空间信息至少包括动作值,状态空间信息至少包括状态值;根据状态值,确定与状态值对应的动作的奖励值;根据虚拟空战场景、动作空间信息、状态空间信息和奖励值,对初始强化学习模型进行训练,当初始强化学习模型处于收敛状态时,得到目标强化学习模型;采用目标强化学习模型与规则智能体进行对战,使用仿真平台构建无人机的对战环境,定义智能体的状态空间和动作空间,并定义不同动作的奖励值,使用qmix强化学习算法进行学习,克服了目标奖励困难和不稳定的问题,多智能体的策略进行变化时,额 不会影响多智能体的强化学习。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种智能体的协同对战方法,其特征在于,所述方法包括:
确定智能体进行对战的虚拟空战场景;
根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,所述动作空间信息至少包括动作值,所述状态空间信息至少包括状态值;所述动作空间信息至少包括:初始指令和动作指令,其中,所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种;所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,所述各个智能体之间的关联关系至少包括智能体之间的距离;具体包括:
在所述虚拟空战场景内,设置每个智能体的局部观测信息为
Figure DEST_PATH_IMAGE001
,全局观察空间为
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
;每个智能体的动作为
Figure DEST_PATH_IMAGE004
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure DEST_PATH_IMAGE006
,其值函数为
Figure DEST_PATH_IMAGE007
,i,t为大于0的自然数,θ为目标神经网络参数;
根据所述状态值,确定与所述状态值对应的动作的奖励值;
根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值,对初始强化学习模型进行训练,当所述初始强化学习模型处于收敛状态时,得到目标强化学习模型;具体包括:对于每个智能体的局部动作值函数
Figure DEST_PATH_IMAGE008
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure DEST_PATH_IMAGE009
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure DEST_PATH_IMAGE010
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure DEST_PATH_IMAGE011
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure DEST_PATH_IMAGE012
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure DEST_PATH_IMAGE013
,其中
Figure DEST_PATH_IMAGE014
表示目标网络,r为奖励值,γ表示更新率,
Figure DEST_PATH_IMAGE015
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure DEST_PATH_IMAGE016
表示下一时刻的目标神经网络参数;
采用所述目标强化学习模型与规则智能体进行对战;具体为:
在第一阶段中将己方的智能体使用qmix强化学习网络,与规则编写的敌方智能体对战,并进行模型训练;在第二阶段中,将第一阶段的智能体进行自我对战,以达到使用深度强化学习提升智能体的策略认知和选择的能力。
2.根据权利要求1所述的方法,其特征在于,所述根据所述状态值,确定与所述状态值对应的动作的奖励值,包括:
根据预先设置的对战胜负评判策略,根据不同的状态值,确定与所述状态值对应的动作值;
根据不同的动作值,确定与所述动作值对应的动作;
确定与所述动作对应的奖励值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用所述目标强化学习模型与自身智能体进行对战;
根据对战结果,对所述目标强化学习模型进行更新。
4.一种智能体的协同对战装置,其特征在于,所述装置包括:
第一确定模块,用于确定智能体进行对战的虚拟空战场景;
第二确定模块,用于根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,其中,所述动作空间信息至少包括动作值,所述状态空间信息至少包括状态值;所述动作空间信息至少包括:初始指令和动作指令,其中,所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种,所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种;所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息,以及各个智能体之间的关联关系,各个智能体的状态信息还包括是否存活和智能体类型,所述各个智能体之间的关联关系至少包括智能体之间的距离;具体包括:所述根据所述虚拟空战场景,确定一个或多个智能体的动作空间信息和状态空间信息,包括:
在所述虚拟空战场景内,设置每个智能体的局部观测信息为
Figure DEST_PATH_IMAGE017
,全局观察空间为
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
;每个智能体的动作为
Figure DEST_PATH_IMAGE020
确定每个智能体的动作与观测历史的曲线信息,包括:
Figure 10098DEST_PATH_IMAGE005
确定每个智能体的分布式策略,所述分布式策略包括:
Figure DEST_PATH_IMAGE021
,其值函数为
Figure DEST_PATH_IMAGE022
,i,t为大于0的自然数,θ为目标神经网络参数;
第三确定模块,用于根据所述状态值,确定与所述状态值对应的动作的奖励值;
模型训练模块,用于根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值,对初始强化学习模型进行训练,当所述初始强化学习模型处于收敛状态时,得到目标强化学习模型;具体包括: 对于每个智能体的局部动作值函数
Figure DEST_PATH_IMAGE023
,采用VDN算法进行计算,得到联合动作值函数,所述联合动作值函数包括:
Figure DEST_PATH_IMAGE024
通过采用初始强化学习模型qmix的分布式策略和混合网络模型,使用局部动作值函数
Figure 596412DEST_PATH_IMAGE025
来获取最优动作,并联合动作值函数取argmax转化为单调性约束,包括:
Figure DEST_PATH_IMAGE026
对所述初始强化学习模型qmix进行训练的过程中,得到代价函数为:
Figure 189199DEST_PATH_IMAGE027
其中b为采样的样本数量;
根据所述代价函数确定所述目标强化学习模型,所述目标强化学习模型包括:
Figure DEST_PATH_IMAGE028
,其中
Figure DEST_PATH_IMAGE029
表示目标网络,r为奖励值,γ表示更新率,
Figure DEST_PATH_IMAGE030
表示下一时刻的联合动作-观测历史、联合动作、系统状态,
Figure 928616DEST_PATH_IMAGE031
表示下一时刻的目标神经网络参数;
对战模块,用于采用所述目标强化学习模型与规则智能体进行对战;具体为:
在第一阶段中将己方的智能体使用qmix强化学习网络,与规则编写的敌方智能体对战,并进行模型训练;在第二阶段中,将第一阶段的智能体进行自我对战,以达到使用深度强化学习提升智能体的策略认知和选择的能力。
5.一种终端设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现权利要求1-3中任一项所述的智能体的协同对战方法。
6.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-3中任一项所述的智能体的协同对战方法。
CN202111495010.3A 2021-12-09 2021-12-09 智能体的协同对战方法及装置 Active CN113893539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111495010.3A CN113893539B (zh) 2021-12-09 2021-12-09 智能体的协同对战方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111495010.3A CN113893539B (zh) 2021-12-09 2021-12-09 智能体的协同对战方法及装置

Publications (2)

Publication Number Publication Date
CN113893539A CN113893539A (zh) 2022-01-07
CN113893539B true CN113893539B (zh) 2022-03-25

Family

ID=79025864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111495010.3A Active CN113893539B (zh) 2021-12-09 2021-12-09 智能体的协同对战方法及装置

Country Status (1)

Country Link
CN (1) CN113893539B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114053712B (zh) * 2022-01-17 2022-04-22 中国科学院自动化研究所 一种虚拟对象的动作生成方法、装置及设备
CN114146420B (zh) * 2022-02-10 2022-04-22 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN114785731A (zh) * 2022-04-25 2022-07-22 中国电信股份有限公司 模型确定系统及方法、计算机可存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
WO2021174765A1 (zh) * 2020-03-03 2021-09-10 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657266B2 (en) * 2018-11-16 2023-05-23 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021174765A1 (zh) * 2020-03-03 2021-09-10 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法

Also Published As

Publication number Publication date
CN113893539A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN113893539B (zh) 智能体的协同对战方法及装置
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
Vlahov et al. On developing a uav pursuit-evasion policy using reinforcement learning
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN113723013A (zh) 一种用于连续空间兵棋推演的多智能体决策方法
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
Zhang et al. Maneuver decision-making of deep learning for UCAV thorough azimuth angles
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN113282100A (zh) 基于强化学习的无人机对抗博弈训练控制方法
CN114722701A (zh) 基于深度强化学习模型的兵棋推演协作策略获取方法
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Hu et al. Aerial combat maneuvering policy learning based on confrontation demonstrations and dynamic quality replay
Qiu et al. One-to-one air-combat maneuver strategy based on improved TD3 algorithm
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN116520884A (zh) 一种基于分层强化学习的无人机集群对抗策略优化方法
Stilman et al. Winning strategies for robotic wars: defense applications of linguistic geometry
Chen et al. A MADDPG-based multi-agent antagonistic algorithm for sea battlefield confrontation
Wang et al. Research on autonomous decision-making of UCAV based on deep reinforcement learning
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning
Zhang et al. Intelligent Close Air Combat Design based on MA-POCA Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant