CN113283574B - 群体对抗中智能体控制方法、装置、电子设备及存储介质 - Google Patents

群体对抗中智能体控制方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113283574B
CN113283574B CN202110828346.0A CN202110828346A CN113283574B CN 113283574 B CN113283574 B CN 113283574B CN 202110828346 A CN202110828346 A CN 202110828346A CN 113283574 B CN113283574 B CN 113283574B
Authority
CN
China
Prior art keywords
agent
opponent
around
state
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110828346.0A
Other languages
English (en)
Other versions
CN113283574A (zh
Inventor
丘腾海
吴士广
蒲志强
刘振
易建强
常红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110828346.0A priority Critical patent/CN113283574B/zh
Publication of CN113283574A publication Critical patent/CN113283574A/zh
Application granted granted Critical
Publication of CN113283574B publication Critical patent/CN113283574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质,该方法包括:获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;基于第一智能体的状态特征和第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;基于第一对手的状态特征和第一对手周围各个智能体的状态特征,获得第一智能体周围各个对手的总行为特征;基于第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;基于第一智能体周围环境状态特征和第一智能体周围各个对手的深层总行为特征,获得交互特征;基于交互特征对第一智能体进行控制。控制效果良好。

Description

群体对抗中智能体控制方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种群体对抗中智能体控制方法、装置、电子设备及存储介质。
背景技术
智能体是人工智能领域中一个很重要的概念。任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。现如今,由多个无人车/无人机等智能体组成的无人群体系统越发受到人们的关注,其应用从仓储物流、灾害救援到战场侦察和战场群体对抗的各种场景,因此,其在军事和民用各领域均具有重要的研究价值。
此类无人群体系统通常具有自组织性、自分布式以及无中心等特点,且其中每一个智能体均具有一定的智能性,这也使得无人群体系统能够通过其包括的各个智能体之间的相互协作来完成一个个体无法完成的复杂任务。尤其,在战场群体对抗场景,每一个智能体不仅要与相邻的其他智能体进行协同,还需要考虑对手智能体的状态和行为,而且对手智能体的个数和行为均存在较大的不确定性和复杂性。因此,在复杂的群体对抗环境下,无人群体分布式、协同高效对抗仍然面临着巨大的技术挑战。
近年来,深度强化学习逐渐成为热门课题,因而逐渐有研究人员应用深度强化学习来训练无人群体系统,以增强无人群体系统中各智能体的协同能力。但是,现有的大多数方法均是将对手智能体视为无人群体系统所处环境的一部分,直接使用或直接堆叠对手智能体的状态,导致迁移性和扩展性较差,且其并未考虑当前智能体对于对手智能体行为的影响。此外,还忽略了各个对手智能体的自主性特征,没有充分考虑不同对手智能体之间的水平差异对群体协同的影响。对于较大规模的群体对抗,上述现有方法的无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等问题,亟待解决。
发明内容
本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质,用以克服现有技术中无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等缺陷,能够实现对智能体的高效控制以进行群体对抗。
本发明提供一种群体对抗中智能体控制方法,所述方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
根据本发明提供的群体对抗中智能体控制方法,所述方法还包括以下步骤:
根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述基于所述交互特征对所述第一智能体进行控制,包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。
根据本发明提供的群体对抗中智能体控制方法,所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;
将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;
基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;
基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
本发明还提供一种群体对抗中智能体控制装置,所述装置包括:
状态获取模块一,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
状态获取模块二,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
特征获取模块一,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
特征获取模块二,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
特征获取模块三,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
控制模块,用于基于所述交互特征对所述第一智能体进行控制。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。
本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一;
图2是本发明提供的群体对抗中智能体控制方法的流程示意图之二;
图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图;
图4是本发明提供的群体对抗中智能体控制装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
附图标记:
310:对手;320:智能体;330:基地;510:状态获取模块一;520:状态获取模块二;530:特征获取模块一;540:特征获取模块二;550:特征获取模块三;560:控制模块;610:处理器;620:通信接口;630:存储器 640:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明的技术方案进行清除完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图1-5描述本发明提供的一种群体对抗中智能体控制方法、装置、电子设备及存储介质。
本发明提供一种群体对抗中智能体控制方法,图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一,如图1所示,所述方法包括:
100、获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
600、基于所述交互特征对所述第一智能体进行控制。
针对步骤100,实时获取智能体群体中第一智能体周围的观测状态,并通过全连接层神经网络对所述观测状态中各项子因素分别进行特征编码,以分别获得第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征、第一对手周围各个智能体的状态特征。
其中,
Figure 711941DEST_PATH_IMAGE001
表示第一智能体,且第一智能体理解为是智能体群体中随机选择的作为当前分 析目标的智能体;
Figure 301185DEST_PATH_IMAGE002
表示第一智能体
Figure 753026DEST_PATH_IMAGE001
周围的各个对手,且表示多个对手。需要说明的是,对手则是 对手智能体的简称,也即群体对抗中的各个对手也是智能体,只不过与第一智能体所属群 体是一种对抗的关系。
Figure 85919DEST_PATH_IMAGE003
表示第一对手,且第一对手是从第一智能体
Figure 327720DEST_PATH_IMAGE001
周围的各个对手
Figure 87866DEST_PATH_IMAGE002
中选取的一个作为当前分析目标的对手,可以理解为其是与第一智能体距离最近的对手, 当然也可以是根据实际需求而选择的一个对手。并且第一对手
Figure 27003DEST_PATH_IMAGE003
的周围除了第一智能体
Figure 163586DEST_PATH_IMAGE001
之外还会存在其他智能体。
Figure 3104DEST_PATH_IMAGE004
表示第一对手
Figure 934151DEST_PATH_IMAGE003
周围的各个智能体,且表示多个智能体 (包含第一智能体
Figure 626163DEST_PATH_IMAGE001
)。
第一智能体的状态、第一智能体周围各个对手的状态、第一对手的状态、第一对手 周围各个智能体的状态,以及各个智能体与各个对手之间的互相影响的关系状态,均属于 第一智能体周围的观测状态
Figure 536744DEST_PATH_IMAGE005
中的子因素。因此,通过全连接层神经网络对实时获取的 第一智能体周围的观测状态
Figure 732233DEST_PATH_IMAGE005
中的各项子因素分别进行特征编码处理,则分别相应获得 各个状态的状态特征,即,分别获得到第一智能体的状态特征
Figure 365340DEST_PATH_IMAGE006
、第一智能体周围各个对 手的状态特征
Figure 13490DEST_PATH_IMAGE007
、第一对手的状态特征
Figure 724832DEST_PATH_IMAGE008
、第一对手周围各个智能体的状态特 征
Figure 305986DEST_PATH_IMAGE009
针对步骤200,根据所述第一智能体的状态特征
Figure 313256DEST_PATH_IMAGE006
和所述第一智能体周围各个对 手的状态特征
Figure 481325DEST_PATH_IMAGE007
,计算获得第一智能体周围环境状态特征
Figure 497823DEST_PATH_IMAGE010
针对步骤300,根据所述第一对手的状态特征
Figure 933484DEST_PATH_IMAGE008
和所述第一对手周围各个智 能体的状态特征
Figure 642814DEST_PATH_IMAGE009
,计算获得所述第一智能体周围各个对手的总行为特征
Figure 764091DEST_PATH_IMAGE011
针对步骤400,根据所述第一智能体周围各个对手的总行为特征
Figure 584280DEST_PATH_IMAGE011
,计算获 得第一智能体周围各个对手的深层总行为特征
Figure 608867DEST_PATH_IMAGE012
针对步骤500,所述第一智能体周围环境状态特征
Figure 754678DEST_PATH_IMAGE010
和所述第一智能体周围各 个对手的深层总行为特征
Figure 100602DEST_PATH_IMAGE012
,获得交互特征
Figure 724481DEST_PATH_IMAGE013
针对步骤600,基于所述交互特征
Figure 603576DEST_PATH_IMAGE014
对所述第一智能体进行控制。并且针对于每 一个被当做当前分析目标的第一智能体,均基于此法获得的交互特征
Figure 153243DEST_PATH_IMAGE014
对其进行控制, 由此实现对智能体群体中所有智能体的有效控制,以在群体对抗过程中,使得各智能体能 够高效地对抗各个对手。
本发明提供的群体对抗中智能体控制方法,通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
根据本发明提供的群体对抗中智能体控制方法,在图1所示实施例的基础上,所述方法还包括以下步骤700,且步骤700发生在步骤300至步骤600之间任意位置,如图2所示,步骤700发生在步骤300和步骤400之间,具体地:
700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述方法的步骤600、基于所述交互特征对所述第一智能体进行控制,则包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。
由此,可以有效提升对于各个智能体的控制效果,高效实现群体对抗。
根据本发明提供的群体对抗中智能体控制方法,在上述实施例的基础上,步骤700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
710、基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;
720、将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
730、基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;
740、基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;
750、基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
针对步骤710,基于所述第一智能体周围各个对手的总行为特征
Figure 16157DEST_PATH_IMAGE011
和预设的 状态预测法进行状态预测,获得所述第一智能体周围各个对手下一时刻的状态特征
Figure 178148DEST_PATH_IMAGE015
,具体计算过程为:
Figure 911749DEST_PATH_IMAGE016
其中,
Figure 646967DEST_PATH_IMAGE017
表示预先设定的状态预测网络,也可以是全连接层神经网络。
针对步骤720,将所述第一智能体周围各个对手下一时刻的状态特征
Figure 731597DEST_PATH_IMAGE015
分别 和第一智能体周围各个对手实际的状态特征
Figure 697279DEST_PATH_IMAGE018
(可由传感器等实时采集获取)进行比 较,具体是同一对手不同状态特征进行比较,以分别获得所述第一智能体周围各个对手状 态特征的预测差异,且预测差异可以由两种状态进行差值计算来表示。
针对步骤730,基于所述第一智能体周围各个对手状态特征的预测差异,获得第一 智能体的内在奖励
Figure 550966DEST_PATH_IMAGE019
,具体计算过程为:
Figure 176857DEST_PATH_IMAGE020
其中,
Figure 279942DEST_PATH_IMAGE021
表示第一智能体周围各个对手状态特征的预测差异;
Figure 518157DEST_PATH_IMAGE022
表示存活的对手的集合;
Figure 993394DEST_PATH_IMAGE023
表示平均值函数。
针对步骤740,基于所述第一智能体的内在奖励
Figure 291651DEST_PATH_IMAGE024
和预设的第一智能体的外部 奖励
Figure 616453DEST_PATH_IMAGE025
,获得所述第一智能体的群体对抗总奖励
Figure 658358DEST_PATH_IMAGE026
,具体计算过程为:
Figure 985172DEST_PATH_IMAGE027
其中,
Figure 454331DEST_PATH_IMAGE028
表示可调节的权重参数,且设定取值为
Figure 735271DEST_PATH_IMAGE028
取0.01。
针对步骤750,根据所述第一智能体的群体对抗总奖励
Figure 846446DEST_PATH_IMAGE026
,并利用深度增强学习 算法(Proximal Policy Optimization算法,简称PPO算法),输出所述第一智能体以及其他 各个智能体的累计回报最大动作。以便于后续根据各个智能体的累计回报最大动作以及交 互特征来进行智能体群体中各个智能体的控制,实现高效的群体对抗。PPO算法中,还涉及 到一些可调节的权重参数等,比如可以设定其第一权重参数、第二权重参数、第三权重参数 分别为
Figure 296275DEST_PATH_IMAGE029
根据本发明提供的群体对抗中智能体控制方法,步骤200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
201、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;
202、对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;
203、将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。
针对步骤201,基于所述第一智能体的状态特征和所述第一智能体周围各个对手 的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数
Figure 201914DEST_PATH_IMAGE030
,具体计算过 程为:
Figure 970150DEST_PATH_IMAGE031
Figure 117973DEST_PATH_IMAGE032
其中,
Figure 655264DEST_PATH_IMAGE033
表示第一中间系数;
Figure 466226DEST_PATH_IMAGE006
表示第一智能体的状态特征;
Figure 252916DEST_PATH_IMAGE007
表示第 一智能体周围各个对手的状态特征;
Figure 676200DEST_PATH_IMAGE034
表示向量点乘;
Figure 333578DEST_PATH_IMAGE035
表示第一智能体的状态特 征
Figure 581020DEST_PATH_IMAGE006
的维度;
Figure 589427DEST_PATH_IMAGE036
表示存活的各个对手
Figure 813473DEST_PATH_IMAGE002
的数量,且初始时刻设定存活的对手数量
Figure 590936DEST_PATH_IMAGE036
取15个。
针对步骤202,根据上一步骤计算获得的所述第一智能体对其周围各个对手的注 意力关注系数
Figure 9279DEST_PATH_IMAGE030
和所述第一智能体周围各个对手的状态特征
Figure 463570DEST_PATH_IMAGE007
,进行多头注意力 特征提取,获得第一智能体对应的多头注意力特征
Figure 258350DEST_PATH_IMAGE037
,具体提取计算过程为:
Figure 890320DEST_PATH_IMAGE038
针对步骤203,再将所述第一智能体对应的多头注意力特征
Figure 479564DEST_PATH_IMAGE037
和所述第一智能 体的状态特征
Figure 695520DEST_PATH_IMAGE006
进行拼接组合,获得第一智能体周围环境状态特征
Figure 762833DEST_PATH_IMAGE010
本方法所获得的第一智能体周围环境状态特征
Figure 249309DEST_PATH_IMAGE010
,既考虑了当前的第一智能体 对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特 征,以及更结合了第一智能体本身的状态特征,由此,其在整体协同控制上效果更佳。
根据本发明提供的群体对抗中智能体控制方法,步骤300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
301、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;
302、对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;
303、将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。
针对步骤301,基于所述第一对手的状态特征
Figure 275034DEST_PATH_IMAGE008
和所述第一对手周围各个智 能体的状态特征
Figure 981215DEST_PATH_IMAGE009
,计算获得第一对手对其周围各个智能体的注意力关注系数
Figure 852219DEST_PATH_IMAGE039
,具 体计算过程为:
Figure 193202DEST_PATH_IMAGE041
Figure 888363DEST_PATH_IMAGE042
其中,
Figure 314796DEST_PATH_IMAGE043
表示第二中间系数;
Figure 723912DEST_PATH_IMAGE044
表示第一对手的状态特征;
Figure 184980DEST_PATH_IMAGE009
表示第 一对手周围各个智能体的状态特征;
Figure 53973DEST_PATH_IMAGE045
表示线性可学习的权重矩阵;权重是指不同对手 占据不同的权重,且权重比例可以预先基于实际需求进行设定;
Figure 702123DEST_PATH_IMAGE046
表示基于全连接层神 经网络对其进行处理;
Figure 180509DEST_PATH_IMAGE047
是指Leaky Relu激活函数;
Figure 761663DEST_PATH_IMAGE048
表示第一对手周围各个智能体 的数量,且初始时刻第一对手周围各个智能体的数量设定为
Figure 533047DEST_PATH_IMAGE048
取10。
针对步骤302,对所述第一对手对其周围各个智能体的注意力关注系数
Figure 934073DEST_PATH_IMAGE039
进行 多头注意力特征提取,获得第一智能体周围各个对手的行为特征
Figure 950570DEST_PATH_IMAGE049
,具体计算过程为:
Figure 622117DEST_PATH_IMAGE051
其中,
Figure 65867DEST_PATH_IMAGE052
表示线性可学习的权重矩阵
Figure 219768DEST_PATH_IMAGE053
的转置矩阵;
Figure 39957DEST_PATH_IMAGE054
是指ReLu激活函 数。
针对步骤303,将所述第一智能体周围各个对手的行为特征
Figure 828659DEST_PATH_IMAGE049
,具体是将第一智 能体周围所有对手的行为特征
Figure 443311DEST_PATH_IMAGE049
一起进行堆叠处理,比如逐一堆叠,最终获得所述第一 智能体周围各个对手的总行为特征
Figure 553349DEST_PATH_IMAGE011
,其本质理解为是第一智能体周围所有对手的 总的行为特征。
对于第一智能体周围的各个对手,不仅单独考虑各个对手各自的状态特征等,还综合考虑所有对手的总的行为特征,能够增强数据分析的全面性,为后续对于智能体的控制提供更为可靠的参考依据。
根据本发明提供的群体对抗中智能体控制方法,步骤400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
401、基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
针对步骤401,基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能 体周围各个对手的总行为特征
Figure 911649DEST_PATH_IMAGE011
进行特征编码处理,获得第一智能体周围各个对手 的深层总行为特征
Figure 569507DEST_PATH_IMAGE012
本方法深入挖掘智能体与对手之间的深层关系特征,以便于最终快速实现智能体群体中各智能体对于对手的最佳对抗。
根据本发明提供的群体对抗中智能体控制方法,步骤500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
501、将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
502、基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
针对步骤501,将所述第一智能体周围环境状态特征
Figure 355060DEST_PATH_IMAGE010
和所述第一智能体周围 各个对手的深层总行为特征
Figure 952395DEST_PATH_IMAGE012
进行融合,获得第一智能体综合特征
Figure 612921DEST_PATH_IMAGE055
针对步骤502,采用选择性传递注意力机制从所述第一智能体综合特征
Figure 877680DEST_PATH_IMAGE055
中提 取出交互特征向量
Figure 834135DEST_PATH_IMAGE056
,具体提取计算过程为:
Figure 184345DEST_PATH_IMAGE057
其中,
Figure 120333DEST_PATH_IMAGE058
表示第一智能体相邻的其他智能体的个数;
Figure 239599DEST_PATH_IMAGE059
表示每两个智能体间的 通信跳数,且
Figure 632534DEST_PATH_IMAGE060
,并设定
Figure 702996DEST_PATH_IMAGE059
取3,此时默认
Figure 206789DEST_PATH_IMAGE061
也为3个;
Figure 180562DEST_PATH_IMAGE062
Figure 478819DEST_PATH_IMAGE063
Figure 305086DEST_PATH_IMAGE064
分别三 个智能体分别对应的线性可学习的权重矩阵;
Figure 346991DEST_PATH_IMAGE065
表示各个其他智能体的状态特征的维 度;
Figure 175270DEST_PATH_IMAGE054
表示ReLu激活函数。
图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图,结合图3所示,通常群体对抗场景中,中心位置的大圆形330表示基地,表示被保护的核心位置。而场景中群体内,其中一方为智能体,如图3中各个虚线圆形物320所示,其均作为防御者;另一方为对手,如图3中各个实线圆形物310所示,其均作为攻击者。各个对手的任务是攻击基地,并避免被智能体吞噬,其采用的对抗策略是速度避障法。而各个智能体的任务是保护基地,并基于本发明提出的本发明提供的群体对抗中智能体控制方法的控制去消灭各个对手。对抗回合终止的触发条件,是基地遭到对手的攻击,或者所有对手均被消灭,且当所有对手均被消灭时,各个智能体获得正的奖励,也即获得奖励函数。需要说明的是,可以将初始时刻各个对手与基地的距离设定在一定范围内,比如设置在[1.5, 2]取值范围区间,同时设置各个智能体与基地的距离范围也在一定范围内,且此范围小于对手所在的距离范围,比如设置在[0.4, 0.5]取值范围区间,且默认基地的半径大小为0.25,且各数据取值单位保持一致。
本发明提出的群体对抗中智能体控制方法,其具体的逻辑控制原理分析如下:对智能体关系图进行推理,计算获得第一智能体周围环境状态特征,通过对对手关系进行建模分析,计算获得所述第一智能体周围各个对手的总行为特征,并计算获得第一智能体周围各个对手的深层总行为特征,还根据由第一智能体周围各个对手的深层总行为特征和第一智能体周围环境状态特征相融合获得的融合特征再进一步从智能体和对手之间交互信息中获得交互特征,最后根据交互特征分别建立控制策略网络和控制价值网络,以据其对群体中各个智能体进行有效控制。其充分利用了个各智能体和各个对手的各种状态特征和行为特征等,还采用多头注意力机制进行信息融合,有效提升了对抗成功率和缩短了对抗回合的时间。并且,其在对对手关系进行建模分析后,同时还可以基于第一智能体周围各个对手的总行为特征进行第一智能体周围各个对手下一时刻的状态特征的状态预测,并根据由预测结果中的预测差异获得的第一智能体的内在奖励和预设的预设的第一智能体的外部奖励获得所述第一智能体的群体对抗总奖励,并据此获得一智能体的群体对抗总奖励以及第一智能体以及其他各个智能体的累计回报最大动作,最后将各个智能体的累计回报最大动作,一并作为对各个智能体进行控制的依据,实现有效的群体对抗。即其利用预设的状态预测网络有效引导各个智能体进行状态预测和控制训练,以在群体对抗中快速实现各智能体对于各个对手的对抗,提升对抗的成功率。
下面对本发明提供的一种群体对抗中智能体控制装置进行介绍,所述装置可以理解为执行上述群体对抗中智能体控制方法的装置,二者应用原理相同,可相互参照,此处不再赘述。
本发明还提供一种群体对抗中智能体控制装置,图4是本发明提供的群体对抗中智能体控制装置的结构示意图,如图4所示,所述装置包括:状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,其中,
所述状态获取模块一510,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
所述状态获取模块二520,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
所述特征获取模块一530,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
所述特征获取模块二540,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
所述特征获取模块三550,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
所述控制模块560,用于基于所述交互特征对所述第一智能体进行控制。
本发明提供的群体对抗中智能体控制装置,包括相互连接的状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,各模块相互配合工作,使得本装置通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
本发明还提供一种电子设备,图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述群体对抗中智能体控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的群体对抗中智能体控制方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种群体对抗中智能体控制方法,其特征在于,所述方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制;
所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;具体计算过程为:
Figure 681007DEST_PATH_IMAGE002
Figure 94671DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
表示第一中间系数;
Figure 384838DEST_PATH_IMAGE006
表示第一智能体的状态特征;
Figure DEST_PATH_IMAGE007
表示第一智能体周围各个对手的状态特征;
Figure 766534DEST_PATH_IMAGE008
表示向量点乘;
Figure DEST_PATH_IMAGE009
表示第一智能体的状态特征
Figure 548676DEST_PATH_IMAGE006
的维度;
Figure 703714DEST_PATH_IMAGE010
表示存活的各个对手j的数量;
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;具体提取计算过程为:
Figure 379546DEST_PATH_IMAGE012
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征;
所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;具体计算过程为:
Figure 24154DEST_PATH_IMAGE014
Figure 854445DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
表示第二中间系数;
Figure 16436DEST_PATH_IMAGE018
表示第一对手的状态特征;
Figure DEST_PATH_IMAGE019
表示第一对手周围各个智能体的状态特征;
Figure 11023DEST_PATH_IMAGE020
表示线性可学习的权重矩阵;权重是指不同对手占据不同的权重,且权重比例可以预先基于实际需求进行设定;
Figure DEST_PATH_IMAGE021
表示基于全连接层神经网络对其进行处理;
Figure 29794DEST_PATH_IMAGE022
是指LeakyReLu激活函数;
Figure DEST_PATH_IMAGE023
表示第一对手周围各个智能体的数量;
Figure 878539DEST_PATH_IMAGE024
表示第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;具体计算过程为:
Figure 313063DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE027
表示线性可学习的权重矩阵
Figure 432329DEST_PATH_IMAGE020
的转置矩阵;
Figure 153160DEST_PATH_IMAGE028
是指ReLu激活函数;
Figure DEST_PATH_IMAGE029
表示第一智能体周围各个对手的行为特征;
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征;
所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
2.根据权利要求1所述的群体对抗中智能体控制方法,其特征在于,所述方法还包括以下步骤:
根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述基于所述交互特征对所述第一智能体进行控制,包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制;
所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;具体计算过程为:
Figure DEST_PATH_IMAGE031
其中,
Figure 898655DEST_PATH_IMAGE032
表示预先设定的状态预测网络,也可以是全连接层神经网络;
Figure DEST_PATH_IMAGE033
表示第一智能体周围各个对手下一时刻的状态特征;
Figure 136870DEST_PATH_IMAGE034
表示第一智能体周围各个对手的总行为特征;
将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;具体计算过程为:
Figure 969697DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
表示第一智能体周围各个对手状态特征的预测差异;
Figure 267954DEST_PATH_IMAGE038
表示存活的对手的集合;E表示平均值函数;
Figure DEST_PATH_IMAGE039
表示第一智能体的内在奖励;
基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;具体计算过程为:
Figure DEST_PATH_IMAGE041
其中,
Figure 497816DEST_PATH_IMAGE042
表示可调节的权重参数;
Figure 398776DEST_PATH_IMAGE039
表示第一智能体的内在奖励;
Figure DEST_PATH_IMAGE043
表示预设的第一智能体的外部奖励;
Figure 227055DEST_PATH_IMAGE044
表示第一智能体的群体对抗总奖励;
基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
3.根据权利要求1-2任一项所述的群体对抗中智能体控制方法,其特征在于,所述基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
4.一种群体对抗中智能体控制装置,其特征在于,所述装置包括:
状态获取模块一,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
状态获取模块二,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;具体计算过程为:
Figure 430634DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE045
其中,
Figure 977153DEST_PATH_IMAGE005
表示第一中间系数;
Figure 681804DEST_PATH_IMAGE006
表示第一智能体的状态特征;
Figure 600475DEST_PATH_IMAGE007
表示第一智能体周围各个对手的状态特征;
Figure 99589DEST_PATH_IMAGE008
表示向量点乘;
Figure 602246DEST_PATH_IMAGE009
表示第一智能体的状态特征
Figure 517112DEST_PATH_IMAGE006
的维度;
Figure 913458DEST_PATH_IMAGE010
表示存活的各个对手j的数量;
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;具体提取计算过程为:
Figure DEST_PATH_IMAGE047
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征;
特征获取模块一,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;具体计算过程为:
Figure 989999DEST_PATH_IMAGE014
Figure 478487DEST_PATH_IMAGE048
其中,
Figure 259361DEST_PATH_IMAGE017
表示第二中间系数;
Figure 651159DEST_PATH_IMAGE018
表示第一对手的状态特征;
Figure 226497DEST_PATH_IMAGE019
表示第一对手周围各个智能体的状态特征;
Figure 703746DEST_PATH_IMAGE020
表示线性可学习的权重矩阵;权重是指不同对手占据不同的权重,且权重比例可以预先基于实际需求进行设定;
Figure 288311DEST_PATH_IMAGE021
表示基于全连接层神经网络对其进行处理;
Figure 534615DEST_PATH_IMAGE022
是指LeakyReLu激活函数;
Figure 546434DEST_PATH_IMAGE023
表示第一对手周围各个智能体的数量;
Figure 758583DEST_PATH_IMAGE024
表示第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;具体计算过程为:
Figure 146839DEST_PATH_IMAGE050
其中,
Figure 247650DEST_PATH_IMAGE027
表示线性可学习的权重矩阵
Figure 430370DEST_PATH_IMAGE020
的转置矩阵;
Figure 882211DEST_PATH_IMAGE028
是指ReLu激活函数;
Figure 808579DEST_PATH_IMAGE029
表示第一智能体周围各个对手的行为特征;
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征;
特征获取模块二,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征;
特征获取模块三,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
控制模块,用于基于所述交互特征对所述第一智能体进行控制。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。
CN202110828346.0A 2021-07-22 2021-07-22 群体对抗中智能体控制方法、装置、电子设备及存储介质 Active CN113283574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110828346.0A CN113283574B (zh) 2021-07-22 2021-07-22 群体对抗中智能体控制方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110828346.0A CN113283574B (zh) 2021-07-22 2021-07-22 群体对抗中智能体控制方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113283574A CN113283574A (zh) 2021-08-20
CN113283574B true CN113283574B (zh) 2021-12-07

Family

ID=77287092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110828346.0A Active CN113283574B (zh) 2021-07-22 2021-07-22 群体对抗中智能体控制方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113283574B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113894780B (zh) * 2021-09-27 2023-05-05 中国科学院自动化研究所 多机器人协作对抗方法、装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629422B (zh) * 2018-05-10 2022-02-08 浙江大学 一种基于知识指导-战术感知的智能体学习方法
US20200285995A1 (en) * 2019-03-05 2020-09-10 Hrl Laboratories, Llc Robust, scalable and generalizable machine learning paradigm for multi-agent applications
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112215364B (zh) * 2020-09-17 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112884152A (zh) * 2021-03-26 2021-06-01 中国人民解放军国防科技大学 一种基于对手模型和迭代推理的策略识别与重用方法

Also Published As

Publication number Publication date
CN113283574A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
KR102523888B1 (ko) 가상 환경에서 가상 객체를 스케줄링하기 위한 방법, 장치 및 디바이스
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN109529352B (zh) 虚拟环境中调度策略的评估方法、装置及设备
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN112180724A (zh) 一种在干扰条件下多智能体协同合作的训练方法及系统
CN111450534B (zh) 一种标签预测模型的训练方法、标签预测的方法及装置
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN112215328A (zh) 一种智能体的训练、基于智能体的动作控制方法及装置
CN111450531B (zh) 虚拟角色控制方法、装置、电子设备以及存储介质
CN113283574B (zh) 群体对抗中智能体控制方法、装置、电子设备及存储介质
CN114489144A (zh) 无人机自主机动决策方法、装置及无人机
CN111318017B (zh) 虚拟对象控制方法、装置、计算机可读存储介质和设备
CN111624996A (zh) 一种基于博弈论的多无人艇非完全信息围捕方法
Piao et al. Complex relationship graph abstraction for autonomous air combat collaboration: A learning and expert knowledge hybrid approach
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN113509726A (zh) 交互模型训练方法、装置、计算机设备和存储介质
Soleyman et al. Multi-agent mission planning with reinforcement learning
CN116468121A (zh) 基于通用经验博弈强化学习的多机空战决策方法
CN114344889B (zh) 游戏策略模型生成方法和游戏中智能体的控制方法
CN113988301B (zh) 战术策略生成方法、装置、电子设备及存储介质
CN114722998A (zh) 一种基于cnn-ppo的兵棋推演智能体构建方法
CN114202175A (zh) 一种基于人工智能的作战任务规划方法及系统
CN112926729B (zh) 人机对抗智能体策略制定方法
CN114118400B (zh) 一种基于专注网络的集群对抗方法及装置
CN117634858A (zh) 基于即时优势窗口的人机混合方案生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant