CN110991545A - 一种面向多智能体对抗的强化学习训练优化方法及装置 - Google Patents

一种面向多智能体对抗的强化学习训练优化方法及装置 Download PDF

Info

Publication number
CN110991545A
CN110991545A CN201911259948.8A CN201911259948A CN110991545A CN 110991545 A CN110991545 A CN 110991545A CN 201911259948 A CN201911259948 A CN 201911259948A CN 110991545 A CN110991545 A CN 110991545A
Authority
CN
China
Prior art keywords
agent
training
confrontation
red
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911259948.8A
Other languages
English (en)
Other versions
CN110991545B (zh
Inventor
徐新海
李渊
戴华东
王之元
张冠宇
宋菲菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN201911259948.8A priority Critical patent/CN110991545B/zh
Publication of CN110991545A publication Critical patent/CN110991545A/zh
Application granted granted Critical
Publication of CN110991545B publication Critical patent/CN110991545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Robotics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明实施例提供一种面向多智能体对抗的强化学习训练优化方法及装置,该方法包括:规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集,若红方多智能体初始的第一状态结果集满足预设动作规则,则根据预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取决策行为结果集;利用决策行为结果集和其余预设参数构成的训练样本对红方多智能体进行强化学习训练。本发明实施例提供的面向多智能体对抗的强化学习训练优化方法及装置,在整个训练过程中,预设动作规则都能够引导多智能体行动,避开无效的动作,解决了现有技术中存在的训练过程中无效探索多、训练速度慢的问题,显著提高了训练效率。

Description

一种面向多智能体对抗的强化学习训练优化方法及装置
技术领域
本发明涉及机器学习技术领域,具体涉及一种面向多智能体对抗的强化学习训练优化方法及装置。
背景技术
人工智能是研究开发用于模拟、扩展人的智能的理论、方法、技术及应用的技术科学。人工智能研究的一个主要目标是由智能体(Agent)进行学习模拟人类决策,从而胜任一些需要人类智能才能完成的复杂工作。单个智能体的功能有限,无法应对复杂的任务,这推动了多智能体系统概念的产生。多智能体系统由多个能够自主决策、互相交互的智能体相结合组成,它们共享同一个环境,具有感知与执行机制。目前,多智能体系统已经成为人工智能领域的研究热点。
基于多智能体的自主作战技术对于未来智能作战具有重要的支撑作用,如何依靠多智能体技术在战略、战术、编队组织、多层次协作方面取得突破,是当前多智能体自主作战研究的重中之重。多智能体对抗是一类典型的团体任务。完成对抗任务需要智能体感知对抗环境、分析环境态势、形成对抗策略。多个智能体协作行动对抗敌人,实现单个智能体能力的扩展以及多智能体系统整体性能的提升。近年来无人机发展迅速,凭借体积小、行动隐蔽、无需飞行员操控等优点广泛的应用于军事领域中,能够代替人类飞行员执行侦察、打击、对抗任务。但是,单个无人机的能力有限,在大部分任务中都需要多架无人机协同作战。多无人机对抗过程动态变化,不确定因素多,引起了许多研究者的兴趣。
目前,研究多无人机对抗问题的主流方法是将无人机视为智能体,执行任务的无人机编队视为一个多智能体系统。求解多无人机对抗问题,一般将对抗场景进行抽象,对多智能体系统建模,在此基础上寻找结果最好的联合行动序列。
目前关于多智能体强化学习在多智能体对抗场景中的研究还比较少,一般都是通过扩展单智能体强化学习获得的。但是这些方法存在着较大局限性,主要的问题包括:智能体数量增多时,训练效率低下。强化学习是针对对抗过程的动态与未知性,通过不断“试错”的方式与外部环境进行交互式学习,并根据学习过程中的累加回报值选取最优的动作序列。随着智能体数量增多,多智能体系统的动作-状态空间大小呈指数增加,试错探索所需的时间也越来越多,导致训练效率较为低下。
发明内容
为解决现有技术中的问题,本发明实施例提供一种面向多智能体对抗的强化学习训练优化方法及装置。
第一方面,本发明实施例提供一种面向多智能体对抗的强化学习训练优化方法,包括:规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
进一步地,所述其余预设参数包括所述第一状态结果集、奖励结果集及第二状态结果集,在所述利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练之前,所述方法还包括:对于每个训练步,获取所述红方多智能体初始的所述第一状态结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取所述红方多智能体当前的所述第二状态结果集。
进一步地,与所述红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,所述预设对抗场景包括初始对抗场景。
进一步地,所述预设对抗场景还包括多个不同的附加对抗场景;在所述生成所述红方多智能体模型之后,所述方法还包括:根据所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程;并且,在下一所述预设对抗场景执行所述规则耦合算法训练流程和所述模型获取流程时,基于在上一所述预设对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程得到的所述红方多智能体模型进行;其中,所述预设对抗场景的迁移顺序为对抗难度逐步递增。
进一步地,在最后一个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程,得到优化的所述红方多智能体模型之后,所述方法还包括:将所述优化的所述红方多智能体模型分别加载到所述红方多智能体和所述蓝方多智能体;再次执行所述规则耦合算法训练流程和所述模型获取流程,进而得到最终的所述红方多智能体模型。
进一步地,所述预设动作规则包括:当红方智能体和最近的蓝色智能体的欧式距离小于攻击距离的预设倍数时,所述红方智能体朝着所述蓝色智能体的方向移动;和/或,当所述红方智能体触碰到对抗区域边界时,所述红方智能体转换方向朝所述对抗区域内移动。
进一步地,在执行所述规则耦合算法训练流程之前,所述方法还包括:设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型。
第二方面,本发明实施例提供一种面向多智能体对抗的强化学习训练优化装置,包括:规则耦合算法训练模块,用于:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;模型获取模块,用于:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的面向多智能体对抗的强化学习训练优化方法及装置,通过采用规则耦合算法进行强化学习训练,训练样本中的决策行为结果集优先依据预设动作规则确定,其次依据预设强化训练学习算法确定,由此在整个训练过程中,预设动作规则都能够引导多智能体行动,避开无效的动作,解决了现有技术中存在的训练过程中无效探索多、训练速度慢的问题,显著提高了训练效率,实现了更快、更高效的训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法流程图;
图2是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多无人机对抗场景示意图;
图3是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多智能体强化学习原理图;
图4是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多智能体强化学习训练优化技术流程图;
图5是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中规则耦合流程图;
图6是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中场景迁移流程图;
图7是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中自我对抗流程图;
图8是本发明一实施例提供的面向多智能体对抗的强化学习训练优化装置的结构示意图;
图9是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法流程图。如图1所示,所述方法包括:
步骤101、规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;
在进行训练之前,需要做一些准备工作,诸如包括:S1.对智能体对抗问题进行基本的建模分析,定义智能体对抗的基本要素、对胜负判定等进行形式化定义。S2.将单架智能体视为一个智能体,多架智能体组成的编队视为一个多智能体系统。根据智能体的参数信息,设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型,构建多智能体学习训练模型。S3.对多智能体中的各个智能体加载多智能体强化学习算法。
本发明实施例中对抗的多智能体双方为红方多智能体和蓝方多智能体。其中,红方多智能体包括多个红方智能体,蓝方多智能体包括多个蓝方智能体。本发明实施例中采用红方多智能体与蓝方多智能体的描述与采用第一方多智能体和第二方多智能体的描述效果相同。其中的“红方”、“蓝方”只是用于更形象地描述对战双方,并不作为对本发明保护范围的限制。
训练过程中的每一步或称为每个训练步,可以是训练各个智能体执行一次动作的过程。当然,如果智能体做出的行为决策是静止不动,那么也表示完成相应的训练步。对于每个训练步,红方多智能体具有一个初始状态,这个初始状态对应于红方多智能体初始的第一状态结果集。基于红方多智能体初始的第一状态结果集,根据预设动作规则和预设强化训练学习算法获取所述红方多智能体的决策行为结果集。也即,基于红方多智能体初始的第一状态结果集获取决策行为结果集时依据预设动作规则和预设强化训练学习算法二者共同确定。
通过执行规则耦合算法训练流程进行强化学习训练。所谓“规则耦合算法”是指将规则和算法耦合在一起进行训练。在训练开始前,总结出一组预定的规则集,将规则与多智能体强化学习算法耦合,用规则引导多智能体进行学习。例如,当一个智能体将要离开战场边界时,这些智能体的最优行动应当是回到战场中去。由此能够总结出一个规则:当智能体触碰到边界时,它应当反向移动,此时神经网络不会计算智能体的动作。在训练过程中的每一步,所有智能体都对环境进行观察,如果当前的状态满足规则集中的规则,那么此时智能体的动作根据规则进行选择。否则,智能体的动作通过强化学习模型(预设强化训练学习算法)计算获得。
在训练时,利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练。
步骤102、模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。红方多智能体模型的生成条件比如可以是训练次数达到规定次数、训练时间达到规定时间、红方多智能体的胜率达到预设胜率等,也可以将上述各条件相结合,具体可根据需要设定。
本发明实施例通过采用规则耦合算法进行强化学习训练,训练样本中的决策行为结果集优先依据预设动作规则确定,其次依据预设强化训练学习算法确定,由此在整个训练过程中,预设动作规则都能够引导多智能体行动,避开无效的动作,解决了现有技术中存在的训练过程中无效探索多、训练速度慢的问题,显著提高了训练效率,实现了更快、更高效的训练。
进一步地,基于上述实施例,所述其余预设参数包括所述第一状态结果集、奖励结果集及第二状态结果集,在所述利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练之前,所述方法还包括:对于每个训练步,获取所述红方多智能体初始的所述第一状态结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取所述红方多智能体当前的所述第二状态结果集。
对于每一个训练步,首先获取所述红方多智能体初始的所述第一状态结果集;然后,基于所述第一状态结果集,根据所述预设动作规则和所述预设强化训练学习算法获取所述决策行为结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取执行所述决策行为结果集之后的所述多智能体的所述第二状态结果集。
进行强化学习训练的训练样本包括所述红方多智能体初始的所述第一状态结果集、所述决策行为结果集、所述决策行为结果集及所述第二状态结果集。
在上述实施例的基础上,本发明实施例通过合理设定训练样本的构成,保障了智能体模型生成的准确性。
进一步地,基于上述实施例,与所述红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,所述预设对抗场景包括初始对抗场景。
在进行多智能体对抗的强化学习训练时,除了利用规则耦合算法进行训练外,还可以设定对抗场景,即所述预设对抗场景。在所述预设对抗场景中,设置与红方多智能体对抗的蓝方多智能体的行为的约束,由此,可有效地进行针对性的训练。
所述预设对抗场景包括初始对抗场景,也可以称作源对抗场景。在源场景中经过训练得到初始的所述红方多智能体模型。
在上述实施例的基础上,本发明实施例通过设定与红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,提高了强化训练过程的针对性。
进一步地,基于上述实施例,所述预设对抗场景还包括多个不同的附加对抗场景;在所述生成所述红方多智能体模型之后,所述方法还包括:根据所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程;并且,在下一所述预设对抗场景执行所述规则耦合算法训练流程和所述模型获取流程时,基于在上一所述预设对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程得到的所述红方多智能体模型进行;其中,所述预设对抗场景的迁移顺序为对抗难度逐步递增。
在训练方法上,传统的多智能体学习方法是设计一个合适的场景来训练多智能体,但是设计良好的场景往往需要耗费大量的时间精力,场景难度过大,智能体就难以学会最优动作序列,场景难度不足,智能体的能力就不够强大。
针对上述问题,本发明实施例通过设计多个预设对抗场景进行迁移训练。训练开始阶段,可将复杂的训练场景分解为一系列难度递增的场景。将简单的场景视为源场景,最终希望掌握的场景视为目标场景。首先在源场景中对多智能体进行训练,然后在一些过渡场景中进行训练,最终在目标场景中进行训练。在每个场景中多智能体训练的经验都被记忆在模型中,该模型用作后续训练的基本模型。
因此,所述预设对抗场景包括所述初始对抗场景和多个不同的附加对抗场景。其中,附加对抗场景可以分为多个中间对抗场景和目标对抗场景。目标对抗场景可以是较为满足用户训练目标的一个对抗场景。
在基于所述初始对抗场景得到初始的所述红方多智能体模型之后,通过预设的所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程,即根据场景迁移顺序依次在各个不同场景下进行迁移训练。并且,在下一所述预设对抗场景执行所述规则耦合算法训练流程和所述模型获取流程时,基于在上一所述预设对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程得到的所述红方多智能体模型进行。也即,在下一预设对抗场景中进行训练时,首先为红方多智能体加载上一预设对抗场景中得到红方多智能体模型。
在上述实施例的基础上,本发明实施例通过基于对抗复杂度逐步递增的多个预设对抗场景进行迁移训练,降低了训练的难度,避免智能体由于任务过于困难而无法有效积累奖励,提高学习速度,增强训练效果,并可解决训练场景设计困难的问题。
进一步地,基于上述实施例,在最后一个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程,得到优化的所述红方多智能体模型之后,所述方法还包括:将所述优化的所述红方多智能体模型分别加载到所述红方多智能体和所述蓝方多智能体;再次执行所述规则耦合算法训练流程和所述模型获取流程,进而得到最终的所述红方多智能体模型。
在场景迁移训练的基础上加入自我对抗训练方法,进一步提高训练效果。自我对抗环节的输入是场景迁移后得到的优化的红方智能体模型,输出为进一步训练提高后的红方智能体模型,主要方法是让对战的红蓝双方同时加载已经训练好的红方多智能体模型展开战斗,进行多次迭代来训练红方,从而使得红方超越自己现有的模型,实现能力的提升。
在最后一个所述附加对抗场景下(目标场景下)执行所述规则耦合算法训练流程和所述模型获取流程,得到优化的所述红方多智能体模型之后,所述方法还包括:将所述优化的所述红方多智能体模型分别加载到所述红方多智能体和所述蓝方多智能体;再次执行所述规则耦合算法训练流程和所述模型获取流程,进而得到最终的所述红方多智能体模型。
在上述实施例的基础上,本发明实施例通过在场景迁移训练后,进一步进行自我对抗训练,从而进一步提高了训练效果,并可进一步解决训练场景设计困难的问题。
进一步地,基于上述实施例,所述预设动作规则包括:当红方智能体和最近的蓝色智能体的欧式距离小于攻击距离的预设倍数时,所述红方智能体朝着所述蓝色智能体的方向移动;和/或,当所述红方智能体触碰到对抗区域边界时,所述红方智能体转换方向朝所述对抗区域内移动。
红方智能体即红方多智能体中的智能体,蓝方智能体即蓝方多智能体中的智能体。所述预设动作规则可以为当红方智能体和最近的蓝色智能体的欧式距离小于攻击距离的预设倍数时,所述红方智能体朝着所述蓝色智能体的方向移动。比如,预设倍数可以为2倍。所述预设动作规则还可以为当所述红方智能体触碰到对抗区域边界时,所述红方智能体转换方向朝所述对抗区域内移动。
具体地,所述预设动作规则可以为多个,只要所述红方多智能体初始的第一状态结果集满足预设动作规则任一规则,则可以根据相应的规则获取对应的决策行为结果集。决策行为结果集为红方多智能体中所有红方智能体的决策行为结果的集合。而上述预设动作规则通常用来指导单个智能体的行动。可以理解的,所述红方多智能体初始的第一状态结果集满足预设动作规则,即指任一红方智能体满足相应的预设动作规则。若存在一个红方智能体满足相应的预设动作规则,那么这个红方智能体根据此预设动作规则得到对应的决策行为结果。其余红方智能体若不满足预设动作规则,则根据预设强化训练学习算法获取对应的决策行为结果。由所有红方智能体的决策行为结果的集合构成所述决策行为结果集。
在上述实施例的基础上,本发明实施例通过合理设定预设动作规则,提高了利用规则耦合算法训练的可靠性。
进一步地,基于上述实施例,在执行所述规则耦合算法训练流程之前,所述方法还包括:设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型。
设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型属于训练前的准备工作。每个智能体均加载相同的神经网络结构(如Actor-Critic神经网络结构)进行训练。状态-动作对是对多智能体在对抗过程中的动作与状态进行抽象。比如,对于无人机对抗的应用,智能体的状态空间可以定义为:存活状态、X坐标、Y坐标、速度;智能体的动作空间可以定义为:飞行的航向(0-359),水平向右为0度,顺时针旋转。
回报函数也可称作奖励函数,奖励函数作为智能体控制的评估值,用于对抗策略的更新与优化。将从智能体对抗经验中获得的信息结合智能体对抗环境,制定出智能体对抗的奖励函数,最终获得良好的多智能体对抗策略。本实施例中,奖励函数的设计如下:当离开对战区域时,获得一个-50的惩罚;当一个红方被击败时,获得一个-10的惩罚;当红方击败一个蓝方时,获得一个25的奖励;当全部蓝方被击败时,给所有红方一个100的奖励;在对抗过程中,红方会受到一个与其目标的距离成正比的负奖励,以促进其向目标靠拢。
在上述实施例的基础上,本发明实施例通过设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型,为进行多智能体对抗的强化学习训练提供基础条件。
图2是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多无人机对抗场景示意图;图3是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多智能体强化学习原理图;图4是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中多智能体强化学习训练优化技术流程图;图5是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中规则耦合流程图;图6是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中场景迁移流程图;图7是本发明一实施例提供的面向多智能体对抗的强化学习训练优化方法中自我对抗流程图。下面结合图2~图7,以无人机为例,对本发明实施例提供的面向多智能体对抗的强化学习训练优化方法进行详细介绍。
下面以3v3红蓝双方无人机群对抗场景为例说明本发明实施例的具体实施方式。
第一步,对红蓝双方无人机群对抗场景进行建模,在该实例中红蓝双方均拥有3架无人机,在限定的战场区域中进行对抗,击落敌方单位更多的一方取得胜利。将每个无人机视为一个智能体,一个无人机编队视为一个多智能体系统。每个智能体能够用4个属性进行描述:速度(vx,vy),攻击区域θ1,被攻击区域θ2和坐标位置(x,y)。攻击区域位于智能体的正前方,是一个θ1度数的扇形区域。被攻击区域位于智能体的正后方,是一个度数为θ2的扇形区域。
如图2所示,以战场中心为原点,以正西方向为X轴正方向,正北方向为Y轴正方向建立坐标系。在图2中,一个攻击者(红色智能体)正在攻击它的目标(蓝色智能体),二者形成了一个攻击者-目标对。在每个时间点t,任意攻击者-目标对能够用一个四元组[ωij(t),dij(t),ψij(t),δij(t)]来表示。攻击者i的坐标位置是(xi,yi),目标j的坐标位置是(xj,yj)。ωij(t)是两个智能体之间的距离向量。dij(t)是两个智能体之间的欧氏距离。ψij(t)攻击者的攻击角。δij(t)是目标的被攻击角。四元组中每个元素能够由下面的公式计算获得:
Figure BDA0002311344710000131
在上述的场景中,所有智能体的攻击距离、攻击区域和被攻击区域都是相同的。当满足以下三个条件时,攻击者能够将目标击落:1)攻击者和目标之间的距离dij(t)小于攻击距离dattacking;2)目标处于攻击者的攻击区域内;3)攻击者位于目标的被攻击区内。条件可以由下面的公式表示:
Figure BDA0002311344710000141
第二步,将上述对抗场景建模为多智能体强化学习问题。如图3所示,每个智能体对应一个Actor-Critic神经网络模型,Actor神经网络基于智能体的观察值来计算其动作,而Critic神经网络的作用是评估Actor网络计算出的动作来帮助Actor网络来提高性能。
在训练过程中,一个智能体的Actor网络的输入只是它的观察值。对于Critic网络来说,输入不仅包括相应智能体的状态信息,还包括所有其他智能体的状态信息。Critic网络计算Actor网络的状态-动作对的Q值,该值用作更新Actor网络中的参数的损失值。在该框架中,智能体集中训练,分散执行。在训练时Critic网络需要同时使用所有Agent(智能体)的状态信息进行训练,但是在实际使用中,每个Agent仅需自己的状态信息使用Actor网络即可进行决策并执行动作。在使用训练出的模型时,智能体使用Actor网络与环境交互,即使智能体只有部分状态信息,它仍然可以做出正确的决定。智能体与环境交互的信息会作为样本存储到经验回放池。
其中,图3中的a1,…,an表示智能体的动作值,s1,…,sn表示智能体观测到的状态值,Q值表示Critic网络的评估值,S为(s1,…,sn),表示当前联合状态值,R表示当前联合奖励值,A为(a1,…,an),表示当前联合动作值,S'为下一时刻联合状态值,(S,R,A,S')为存入回放池的数据。
所述状态-动作对是对多智能体在对抗过程中的动作与状态进行抽象。智能体从环境中获取的状态信息进行了一定的处理。智能体的状态空间定义为:存活状态、X坐标、Y坐标、速度。智能体的动作空间定义为:飞行的航向(0-359),水平向右为0度,顺时针旋转。
所述经验回放池能够收集智能体和环境交互的样本,并在训练时通过抽取小批量样本进行训练,使得历史数据能够得到有效利用。
所述奖励函数作为无人机控制的评估值,用于对抗策略的更新与优化。将从无人机对抗经验中获得的信息结合无人机对抗环境,制定出无人机对抗的奖励函数,最终获得良好的多无人机对抗策略。本实施例中,奖励函数的设计如下:当智能体离开对战区域时,获得一个-50的惩罚;当一个红方被击败时,获得一个-10的惩罚;当红方智能体击败一个蓝方智能体时,获得一个25的奖励;当全部蓝方智能体被击败时,给所有红方智能体一个100的奖励;在对抗过程中,红方智能体会受到一个与其目标的距离成正比的负奖励,以促进其向目标靠拢。
第三步,设计规则并耦合多智能体强化学习算法。耦合方法如下:智能体同时使用多智能体强化学习算法和规则集进行决策。在实际对抗中,根据当前状态信息,智能体首先对照规则集进行判断,如果决策成功,则按照规则集执行动作;如果规则算法决策不成功,那么切换为使用基于强化学习的算法进行决策。规则耦合多智能体强化学习耦合方法的整体思路如图5所示。
在本实施例中,规则集包含以下规则:1)当红色智能体和离它最近的蓝色智能体的欧氏距离小于攻击距离的2倍时,红色智能体朝着该蓝色智能体的方向移动。2)当智能体触碰对战区域边界时,转换方向朝对战区域内移动。
在实际的训练中,具体训练流程如表1所示。
表1规则耦合多智能体强化学习的具体训练流程
Figure BDA0002311344710000151
Figure BDA0002311344710000161
其中,表1中的一次训练可以为一个预设对抗场景下的训练。
训练过程中所使用的超参数如表2所示。
表2训练过程中使用的超参数值
参数名称: 默认值:
最大episode数量 10000
每个episode中最大step数量 5000
神经网络学习率 0.02
回报折扣率 0.95
batch size 1024
隐藏层神经元数量 64
第四步,使用场景迁移的方法优化训练过程。如图6所示,为了降低训练难度,避免智能体由于任务过于困难而无法有效积累奖励,将对抗任务分解为难度不同的一系列场景。训练的起点场景作为源场景,通过训练获得具备基本能力的模型,并将其迁移到更大难度的场景中进行训练。通过若干个中间场景的训练后,智能体在目标场景中进行训练,并获得良好表现。
在本实施例中,一个3v3的红蓝双方无人机对抗场景,源场景可以是蓝方智能体固定且不攻击,中间场景可以是蓝色智能体随机移动且不攻击,目标场景可以是蓝方智能体随机移动并具备攻击能力。
首先在源场景中训练红方多智能体,当红方多智能体能够很好的完成任务时,储存红方多智能体模型。而后在中间场景中,红方多智能体加载模型并继续进行训练,并将训练好的模型转移到目标场景并进行训练。经过难度递进的场景迁移学习,智能体最终能够较好的完成对抗任务。
第五步,使用自我对抗的方法进一步提高训练效果。如图7所示,自我对抗环节的输入是场景迁移后得到的优化红方智能体模型,输出为进一步训练提高后的红方智能体模型。首先将优化红方智能体模型同时加载给红蓝双方智能体,而后展开一轮训练。训练过程中,红方智能体进行学习,学习过程与表1中的规则耦合多智能体强化学习的学习流程相同,蓝方智能体基于同样的规则集和神经网络模型来选择动作。当红方智能体的胜率达到80%时,更新红方智能体模型,本轮训练中止。将更新后的模型再次加载给红蓝双方,展开一轮新的训练。
因此,如图4所示,本发明实施例提供的面向多智能体对抗的强化学习训练优化方法,在规则耦合阶段,通过先验知识获取规则集,然后耦合规则算法和学习算法。在场景迁移阶段,将复杂场景分解为N个阶段,然后根据预设的迁移顺序,在不同的场景中实施加载场景、加载红方模型、通过规则耦合学习算法训练红方多智能体、生成红方模型的过程。在自我对抗阶段,红蓝双方同时加载红方模型,通过规则耦合学习算法训练红方多智能体,当红方胜率大于0.8时更新红方模型,若迭代次数大于500,则结束。
本发明实施例的目的是解决多智能体强化学习训练过程中的速度慢与场景设计困难的问题。本发明实施例利用多智能体强化学习技术来训练多无人机完成对抗任务,并在此基础上提出了一种学习训练优化架构,可有效提升强化学习算法的训练速度与效果。
本发明实施例的技术方案可以包括设计面向多智能体对抗的强化学习训练优化架构,该架构基于基础的多智能体强化学习算法,由规则耦合、场景迁移、自我博弈三部分组成。通过对多智能体对抗问题进行抽象建模,搭建多智能体对抗环境。在训练开始前,手工设计规则,并将规则与多智能体强化学习方法进行耦合。在整个训练过程中,规则都能够引导多智能体行动,避开无效的动作。而后,在训练开始阶段,为了降低训练的难度,将复杂的多智能体对抗场景分解为一系列难度递增的任务。从简单的场景开始训练,并将多智能体学到的知识迁移到复杂的场景中,最终完成一个复杂的任务。最后,在训练的后期,给对战双方加载相同的模型并进行对抗,给多智能体提供一个难度相当的训练场景,令其在自我对抗中进行学习,进一步提升多智能体的对抗能力。
本发明实施例提供的面向多智能体对抗的强化学习训练优化方法的有益效果包括:
(1)采用规则耦合训练方法,将规则与多智能体强化学习方法耦合,用规则引导多智能体进行学习,可减少学习、训练过程中的无效探索,提高训练效率。
(2)在规则耦合后,引入场景迁移训练方法。在保证减少多智能体无效探索的基础上,通过将对抗场景分解为一系列难度递增的任务进行智能体训练,可降低训练难度,避免智能体由于任务过于困难而无法有效积累奖励,提高其学习速度,增强训练效果。
(3)场景迁移的强化学习技术的局限性在于人类设计场景往往要花费大量的时间,想要设计出良好的场景也需要丰富的领域知识来支撑。此外,智能体对抗能力的上限是由场景的复杂程度决定的,随着智能体对抗能力的提升,智能体需要和更强大的对手进行对抗来提升自己。一个好的方法就是自我对抗。自我对抗方法在场景迁移训练的基础上可进一步提高智能体训练效果,它与场景迁移训练方法是互补的。场景迁移可以提供良好的优化模型,而自我对抗可以不断改进模型。两者共同作用可解决多智能体对抗训练场景设计困难的问题。
图8是本发明一实施例提供的面向多智能体对抗的强化学习训练优化装置的结构示意图。如图8所示,所述装置包括规则耦合算法训练模块10和模型获取模块20,其中:规则耦合算法训练模块10用于:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;模型获取模块20用于:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
本发明实施例通过采用规则耦合算法进行强化学习训练,训练样本中的决策行为结果集优先依据预设动作规则确定,其次依据预设强化训练学习算法确定,由此在整个训练过程中,预设动作规则都能够引导多智能体行动,避开无效的动作,解决了现有技术中存在的训练过程中无效探索多、训练速度慢的问题,显著提高了训练效率,实现了更快、更高效的训练。
进一步地,所述其余预设参数包括所述第一状态结果集、奖励结果集及第二状态结果集,所述规则耦合算法训练模块10还用于:对于每个训练步,获取所述红方多智能体初始的所述第一状态结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取所述红方多智能体当前的所述第二状态结果集。
在上述实施例的基础上,本发明实施例通过合理设定训练样本的构成,保障了智能体模型生成的准确性。
进一步地,与所述红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,所述预设对抗场景包括初始对抗场景。
在上述实施例的基础上,本发明实施例通过设定与红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,提高了强化训练过程的针对性。
进一步地,基于上述实施例,所述预设对抗场景还包括多个不同的附加对抗场景;所述装置还包括场景迁移训练模块,所述场景迁移训练模块用于:根据所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下调用所述规则耦合算法训练模块进行训练;并且,在下一所述预设对抗场景调用所述规则耦合算法训练模块进行训练时,基于在上一所述预设对抗场景下调用所述规则耦合算法训练模块进行训练得到的所述红方多智能体模型进行;其中,所述预设对抗场景的迁移顺序为对抗难度逐步递增。
在上述实施例的基础上,本发明实施例通过基于对抗复杂度逐步递增的多个预设对抗场景进行迁移训练,降低了训练的难度,避免智能体由于任务过于困难而无法有效积累奖励,提高学习速度,增强训练效果,并可解决训练场景设计困难的问题。
进一步地,基于上述实施例,所述装置还包括自我对抗训练模块,所述自我对抗训练模块用于:在所述场景迁移训练模块在最后一个所述附加对抗场景下调用所述规则耦合算法训练模块进行训练,得到优化的所述红方多智能体模型之后,用于:将所述优化的所述红方多智能体模型分别加载到所述红方多智能体和所述蓝方多智能体;调用所述规则耦合算法训练模块进行训练,进而得到最终的所述红方多智能体模型。
在上述实施例的基础上,本发明实施例通过在场景迁移训练后,进一步进行自我对抗训练,从而进一步提高了训练效果,并可进一步解决训练场景设计困难的问题。
进一步地,基于上述实施例,所述预设动作规则包括:当红方智能体和最近的蓝色智能体的欧式距离小于攻击距离的预设倍数时,所述红方智能体朝着所述蓝色智能体的方向移动;和/或,当所述红方智能体触碰到对抗区域边界时,所述红方智能体转换方向朝所述对抗区域内移动。
在上述实施例的基础上,本发明实施例通过合理设定预设动作规则,提高了利用规则耦合算法训练的可靠性。
进一步地,基于上述实施例,所述装置还包括训练前处理模块,所述训练前处理模块用于:设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型。
在上述实施例的基础上,本发明实施例通过设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型,为进行多智能体对抗的强化学习训练提供基础条件。
本发明实施例提供的装置是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。
图9是本发明一实施例提供的电子设备的实体结构示意图。如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行如下方法:规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种面向多智能体对抗的强化学习训练优化方法,其特征在于,包括:
规则耦合算法训练流程,包括:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;
模型获取流程,包括:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
2.根据权利要求1所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,所述其余预设参数包括所述第一状态结果集、奖励结果集及第二状态结果集,在所述利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练之前,所述方法还包括:
对于每个训练步,获取所述红方多智能体初始的所述第一状态结果集;执行所述决策行为结果集,根据预设的回报函数获取所述红方多智能体的奖励结果集,并获取所述红方多智能体当前的所述第二状态结果集。
3.根据权利要求1或2所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,与所述红方多智能体对抗的蓝方多智能体的行为受到预设对抗场景的约束,所述预设对抗场景包括初始对抗场景。
4.根据权利要求3所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,所述预设对抗场景还包括多个不同的附加对抗场景;在所述生成所述红方多智能体模型之后,所述方法还包括:
根据所述预设对抗场景的迁移顺序,依次在各个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程;并且,在下一所述预设对抗场景执行所述规则耦合算法训练流程和所述模型获取流程时,基于在上一所述预设对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程得到的所述红方多智能体模型进行;
其中,所述预设对抗场景的迁移顺序为对抗难度逐步递增。
5.根据权利要求4所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,在最后一个所述附加对抗场景下执行所述规则耦合算法训练流程和所述模型获取流程,得到优化的所述红方多智能体模型之后,所述方法还包括:
将所述优化的所述红方多智能体模型分别加载到所述红方多智能体和所述蓝方多智能体;再次执行所述规则耦合算法训练流程和所述模型获取流程,进而得到最终的所述红方多智能体模型。
6.根据权利要求1所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,所述预设动作规则包括:
当红方智能体和最近的蓝色智能体的欧式距离小于攻击距离的预设倍数时,所述红方智能体朝着所述蓝色智能体的方向移动;
和/或,
当所述红方智能体触碰到对抗区域边界时,所述红方智能体转换方向朝所述对抗区域内移动。
7.根据权利要求1所述的面向多智能体对抗的强化学习训练优化方法,其特征在于,在执行所述规则耦合算法训练流程之前,所述方法还包括:
设计智能体对应的神经网络结构、状态空间、动作空间以及回报函数,构建多智能体学习训练模型。
8.一种面向多智能体对抗的强化学习训练优化装置,其特征在于,包括:
规则耦合算法训练模块,用于:对于每个训练步,获取红方多智能体初始的第一状态结果集;若所述红方多智能体初始的第一状态结果集满足预设动作规则,则根据所述预设动作规则获取决策行为结果集,否则,根据预设强化训练学习算法获取所述决策行为结果集;利用所述决策行为结果集和其余预设参数构成的训练样本对所述红方多智能体进行强化学习训练;
模型获取模块,用于:判断是否达到红方多智能体模型的生成条件,若是,则生成所述红方多智能体模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述面向多智能体对抗的强化学习训练优化方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述面向多智能体对抗的强化学习训练优化方法的步骤。
CN201911259948.8A 2019-12-10 2019-12-10 一种面向多智能体对抗的强化学习训练优化方法及装置 Active CN110991545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259948.8A CN110991545B (zh) 2019-12-10 2019-12-10 一种面向多智能体对抗的强化学习训练优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259948.8A CN110991545B (zh) 2019-12-10 2019-12-10 一种面向多智能体对抗的强化学习训练优化方法及装置

Publications (2)

Publication Number Publication Date
CN110991545A true CN110991545A (zh) 2020-04-10
CN110991545B CN110991545B (zh) 2021-02-02

Family

ID=70091941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259948.8A Active CN110991545B (zh) 2019-12-10 2019-12-10 一种面向多智能体对抗的强化学习训练优化方法及装置

Country Status (1)

Country Link
CN (1) CN110991545B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612162A (zh) * 2020-06-02 2020-09-01 中国人民解放军军事科学院国防科技创新研究院 一种强化学习方法、装置、电子设备及存储介质
CN111639756A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于博弈约简的多智能体强化学习方法
CN111695690A (zh) * 2020-07-30 2020-09-22 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN111882072A (zh) * 2020-07-09 2020-11-03 北京华如科技股份有限公司 一种与规则对弈的智能模型自动化课程训练方法
CN111897316A (zh) * 2020-06-22 2020-11-06 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN112015174A (zh) * 2020-07-10 2020-12-01 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112138396A (zh) * 2020-09-23 2020-12-29 中国电子科技集团公司第十五研究所 一种面向无人系统模拟对抗的智能体训练方法及系统
CN112257875A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于极限学习机的多智能体的任务理解方法
CN112295237A (zh) * 2020-10-19 2021-02-02 深圳大学 一种基于深度强化学习的决策方法
CN112464548A (zh) * 2020-07-06 2021-03-09 中国人民解放军军事科学院评估论证研究中心 对抗单位的动态分配装置
CN112464549A (zh) * 2020-07-06 2021-03-09 中国人民解放军军事科学院评估论证研究中心 对抗单位的动态分配方法
CN112561032A (zh) * 2020-11-27 2021-03-26 中国电子科技集团公司第十五研究所 一种基于种群训练的多智能体强化学习方法及系统
CN112791411A (zh) * 2021-01-25 2021-05-14 网易(杭州)网络有限公司 Npc控制模型的训练方法、装置及电子设备
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN112990452A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗知识驱动型决策方法、装置及电子设备
CN112990460A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗分布式训练系统和方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113286275A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于多智能体强化学习的无人机集群高效通信方法
CN113282100A (zh) * 2021-04-28 2021-08-20 南京大学 基于强化学习的无人机对抗博弈训练控制方法
CN113379063A (zh) * 2020-11-24 2021-09-10 中国运载火箭技术研究院 基于在线增强学习模型的全流程任务时序智能决策方法
CN113625740A (zh) * 2021-08-27 2021-11-09 北京航空航天大学 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN114344889A (zh) * 2020-10-12 2022-04-15 腾讯科技(深圳)有限公司 游戏策略模型生成方法和游戏中智能体的控制方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN116362390A (zh) * 2023-03-20 2023-06-30 中国人民解放军军事科学院战略评估咨询中心 基于概率神经网络的海上伏击预测方法及系统
CN116909155A (zh) * 2023-09-14 2023-10-20 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104406593A (zh) * 2014-12-03 2015-03-11 广西民族大学 一种确定无人机航路最优路径的方法
CN104656663A (zh) * 2015-02-15 2015-05-27 西北工业大学 一种基于视觉的无人机编队感知与规避方法
CN104881043A (zh) * 2015-04-30 2015-09-02 南京航空航天大学 一种针对多动态目标的多无人机智能协同察打方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法
CN107589663A (zh) * 2017-08-16 2018-01-16 西安电子科技大学 基于多步粒子群算法的无人机协同侦察覆盖方法
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108427286A (zh) * 2018-04-12 2018-08-21 合肥工业大学 用于强对抗环境下无人机深度决策的训练方法及训练网络
CN108549233A (zh) * 2018-05-04 2018-09-18 南京航空航天大学 一种带有直觉模糊信息的无人机空战机动博弈方法
US10445653B1 (en) * 2014-08-07 2019-10-15 Deepmind Technologies Limited Evaluating reinforcement learning policies

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445653B1 (en) * 2014-08-07 2019-10-15 Deepmind Technologies Limited Evaluating reinforcement learning policies
CN104406593A (zh) * 2014-12-03 2015-03-11 广西民族大学 一种确定无人机航路最优路径的方法
CN104656663A (zh) * 2015-02-15 2015-05-27 西北工业大学 一种基于视觉的无人机编队感知与规避方法
CN104881043A (zh) * 2015-04-30 2015-09-02 南京航空航天大学 一种针对多动态目标的多无人机智能协同察打方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法
CN107589663A (zh) * 2017-08-16 2018-01-16 西安电子科技大学 基于多步粒子群算法的无人机协同侦察覆盖方法
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108427286A (zh) * 2018-04-12 2018-08-21 合肥工业大学 用于强对抗环境下无人机深度决策的训练方法及训练网络
CN108549233A (zh) * 2018-05-04 2018-09-18 南京航空航天大学 一种带有直觉模糊信息的无人机空战机动博弈方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANYU ZHANG,ET AL.: "Efficient Training Techniques for Multi-Agent Reinforcement Learning in Combat Tasks", 《IEEE ACCESS》 *
WIL KOCH,ET AL.: "Reinforcement Learning for UAV Attitude Control", 《ACM TRANSACTIONS ON CYBER-PHYSICAL SYSTEMS》 *
丁林静 等: "基于强化学习的无人机空战机动决策", 《航空电子技术》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612162A (zh) * 2020-06-02 2020-09-01 中国人民解放军军事科学院国防科技创新研究院 一种强化学习方法、装置、电子设备及存储介质
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN111723931B (zh) * 2020-06-02 2021-12-17 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN111639756A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于博弈约简的多智能体强化学习方法
CN111708355B (zh) * 2020-06-19 2023-04-18 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111897316B (zh) * 2020-06-22 2021-05-14 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN111897316A (zh) * 2020-06-22 2020-11-06 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN112464548B (zh) * 2020-07-06 2021-05-14 中国人民解放军军事科学院评估论证研究中心 对抗单位的动态分配装置
CN112464549A (zh) * 2020-07-06 2021-03-09 中国人民解放军军事科学院评估论证研究中心 对抗单位的动态分配方法
CN112464548A (zh) * 2020-07-06 2021-03-09 中国人民解放军军事科学院评估论证研究中心 对抗单位的动态分配装置
CN111882072B (zh) * 2020-07-09 2023-11-14 北京华如科技股份有限公司 一种与规则对弈的智能模型自动化课程训练方法
CN111882072A (zh) * 2020-07-09 2020-11-03 北京华如科技股份有限公司 一种与规则对弈的智能模型自动化课程训练方法
WO2022007179A1 (zh) * 2020-07-10 2022-01-13 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112015174B (zh) * 2020-07-10 2022-06-28 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112015174A (zh) * 2020-07-10 2020-12-01 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN111695690A (zh) * 2020-07-30 2020-09-22 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112138396B (zh) * 2020-09-23 2024-04-12 中国电子科技集团公司第十五研究所 一种面向无人系统模拟对抗的智能体训练方法及系统
CN112138396A (zh) * 2020-09-23 2020-12-29 中国电子科技集团公司第十五研究所 一种面向无人系统模拟对抗的智能体训练方法及系统
CN114344889B (zh) * 2020-10-12 2024-01-26 腾讯科技(深圳)有限公司 游戏策略模型生成方法和游戏中智能体的控制方法
CN114344889A (zh) * 2020-10-12 2022-04-15 腾讯科技(深圳)有限公司 游戏策略模型生成方法和游戏中智能体的控制方法
CN112295237A (zh) * 2020-10-19 2021-02-02 深圳大学 一种基于深度强化学习的决策方法
CN112257875A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于极限学习机的多智能体的任务理解方法
CN113379063A (zh) * 2020-11-24 2021-09-10 中国运载火箭技术研究院 基于在线增强学习模型的全流程任务时序智能决策方法
CN113379063B (zh) * 2020-11-24 2024-01-05 中国运载火箭技术研究院 基于在线增强学习模型的全流程任务时序智能决策方法
CN112561032A (zh) * 2020-11-27 2021-03-26 中国电子科技集团公司第十五研究所 一种基于种群训练的多智能体强化学习方法及系统
CN112791411A (zh) * 2021-01-25 2021-05-14 网易(杭州)网络有限公司 Npc控制模型的训练方法、装置及电子设备
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113286275A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于多智能体强化学习的无人机集群高效通信方法
CN113282100A (zh) * 2021-04-28 2021-08-20 南京大学 基于强化学习的无人机对抗博弈训练控制方法
CN112990452A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗知识驱动型决策方法、装置及电子设备
CN112990452B (zh) * 2021-05-06 2021-08-31 中国科学院自动化研究所 人机对抗知识驱动型决策方法、装置及电子设备
CN112990460A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗分布式训练系统和方法
CN112990460B (zh) * 2021-05-06 2021-08-17 中国科学院自动化研究所 人机对抗分布式训练系统和方法
CN113625740B (zh) * 2021-08-27 2024-02-27 北京航空航天大学 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN113625740A (zh) * 2021-08-27 2021-11-09 北京航空航天大学 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN116362390A (zh) * 2023-03-20 2023-06-30 中国人民解放军军事科学院战略评估咨询中心 基于概率神经网络的海上伏击预测方法及系统
CN116362390B (zh) * 2023-03-20 2023-09-12 中国人民解放军军事科学院战略评估咨询中心 基于概率神经网络的海上伏击预测方法及系统
CN116909155A (zh) * 2023-09-14 2023-10-20 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置
CN116909155B (zh) * 2023-09-14 2023-11-24 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置

Also Published As

Publication number Publication date
CN110991545B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN108629422B (zh) 一种基于知识指导-战术感知的智能体学习方法
US11779837B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
US7636701B2 (en) Query controlled behavior models as components of intelligent agents
CN108211362B (zh) 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN112791394B (zh) 游戏模型训练方法、装置、电子设备及存储介质
JP7199517B2 (ja) 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN112215350A (zh) 一种基于强化学习的智能体控制方法及装置
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN111450534B (zh) 一种标签预测模型的训练方法、标签预测的方法及装置
CN113222106A (zh) 一种基于分布式强化学习的智能兵棋推演方法
CN113282100A (zh) 基于强化学习的无人机对抗博弈训练控制方法
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN113509726B (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN116362289A (zh) 一种基于BiGRU结构的改进MATD3多机器人协同围捕方法
CN116029364A (zh) 一种基于共同知识的多智能体独立强化学习方法及系统
CN114344889B (zh) 游戏策略模型生成方法和游戏中智能体的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant