CN113283574B - 群体对抗中智能体控制方法、装置、电子设备及存储介质 - Google Patents
群体对抗中智能体控制方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113283574B CN113283574B CN202110828346.0A CN202110828346A CN113283574B CN 113283574 B CN113283574 B CN 113283574B CN 202110828346 A CN202110828346 A CN 202110828346A CN 113283574 B CN113283574 B CN 113283574B
- Authority
- CN
- China
- Prior art keywords
- agent
- opponent
- around
- state
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 230000002452 interceptive effect Effects 0.000 claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 239000003795 chemical substances by application Substances 0.000 claims description 565
- 230000006399 behavior Effects 0.000 claims description 103
- 230000003935 attention Effects 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 230000010332 selective attention Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质,该方法包括:获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;基于第一智能体的状态特征和第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;基于第一对手的状态特征和第一对手周围各个智能体的状态特征,获得第一智能体周围各个对手的总行为特征;基于第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;基于第一智能体周围环境状态特征和第一智能体周围各个对手的深层总行为特征,获得交互特征;基于交互特征对第一智能体进行控制。控制效果良好。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种群体对抗中智能体控制方法、装置、电子设备及存储介质。
背景技术
智能体是人工智能领域中一个很重要的概念。任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。现如今,由多个无人车/无人机等智能体组成的无人群体系统越发受到人们的关注,其应用从仓储物流、灾害救援到战场侦察和战场群体对抗的各种场景,因此,其在军事和民用各领域均具有重要的研究价值。
此类无人群体系统通常具有自组织性、自分布式以及无中心等特点,且其中每一个智能体均具有一定的智能性,这也使得无人群体系统能够通过其包括的各个智能体之间的相互协作来完成一个个体无法完成的复杂任务。尤其,在战场群体对抗场景,每一个智能体不仅要与相邻的其他智能体进行协同,还需要考虑对手智能体的状态和行为,而且对手智能体的个数和行为均存在较大的不确定性和复杂性。因此,在复杂的群体对抗环境下,无人群体分布式、协同高效对抗仍然面临着巨大的技术挑战。
近年来,深度强化学习逐渐成为热门课题,因而逐渐有研究人员应用深度强化学习来训练无人群体系统,以增强无人群体系统中各智能体的协同能力。但是,现有的大多数方法均是将对手智能体视为无人群体系统所处环境的一部分,直接使用或直接堆叠对手智能体的状态,导致迁移性和扩展性较差,且其并未考虑当前智能体对于对手智能体行为的影响。此外,还忽略了各个对手智能体的自主性特征,没有充分考虑不同对手智能体之间的水平差异对群体协同的影响。对于较大规模的群体对抗,上述现有方法的无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等问题,亟待解决。
发明内容
本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质,用以克服现有技术中无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等缺陷,能够实现对智能体的高效控制以进行群体对抗。
本发明提供一种群体对抗中智能体控制方法,所述方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
根据本发明提供的群体对抗中智能体控制方法,所述方法还包括以下步骤:
根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述基于所述交互特征对所述第一智能体进行控制,包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。
根据本发明提供的群体对抗中智能体控制方法,所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;
将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;
基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;
基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
本发明还提供一种群体对抗中智能体控制装置,所述装置包括:
状态获取模块一,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
状态获取模块二,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
特征获取模块一,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
特征获取模块二,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
特征获取模块三,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
控制模块,用于基于所述交互特征对所述第一智能体进行控制。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。
本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一;
图2是本发明提供的群体对抗中智能体控制方法的流程示意图之二;
图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图;
图4是本发明提供的群体对抗中智能体控制装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
附图标记:
310:对手;320:智能体;330:基地;510:状态获取模块一;520:状态获取模块二;530:特征获取模块一;540:特征获取模块二;550:特征获取模块三;560:控制模块;610:处理器;620:通信接口;630:存储器 640:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明的技术方案进行清除完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图1-5描述本发明提供的一种群体对抗中智能体控制方法、装置、电子设备及存储介质。
本发明提供一种群体对抗中智能体控制方法,图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一,如图1所示,所述方法包括:
100、获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
600、基于所述交互特征对所述第一智能体进行控制。
针对步骤100,实时获取智能体群体中第一智能体周围的观测状态,并通过全连接层神经网络对所述观测状态中各项子因素分别进行特征编码,以分别获得第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征、第一对手周围各个智能体的状态特征。
其中,
表示第一智能体周围的各个对手,且表示多个对手。需要说明的是,对手则是
对手智能体的简称,也即群体对抗中的各个对手也是智能体,只不过与第一智能体所属群
体是一种对抗的关系。表示第一对手,且第一对手是从第一智能体周围的各个对手
中选取的一个作为当前分析目标的对手,可以理解为其是与第一智能体距离最近的对手,
当然也可以是根据实际需求而选择的一个对手。并且第一对手的周围除了第一智能体之外还会存在其他智能体。表示第一对手周围的各个智能体,且表示多个智能体
(包含第一智能体)。
第一智能体的状态、第一智能体周围各个对手的状态、第一对手的状态、第一对手
周围各个智能体的状态,以及各个智能体与各个对手之间的互相影响的关系状态,均属于
第一智能体周围的观测状态中的子因素。因此,通过全连接层神经网络对实时获取的
第一智能体周围的观测状态中的各项子因素分别进行特征编码处理,则分别相应获得
各个状态的状态特征,即,分别获得到第一智能体的状态特征、第一智能体周围各个对
手的状态特征、第一对手的状态特征、第一对手周围各个智能体的状态特
征。
针对步骤600,基于所述交互特征对所述第一智能体进行控制。并且针对于每
一个被当做当前分析目标的第一智能体,均基于此法获得的交互特征对其进行控制,
由此实现对智能体群体中所有智能体的有效控制,以在群体对抗过程中,使得各智能体能
够高效地对抗各个对手。
本发明提供的群体对抗中智能体控制方法,通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
根据本发明提供的群体对抗中智能体控制方法,在图1所示实施例的基础上,所述方法还包括以下步骤700,且步骤700发生在步骤300至步骤600之间任意位置,如图2所示,步骤700发生在步骤300和步骤400之间,具体地:
700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述方法的步骤600、基于所述交互特征对所述第一智能体进行控制,则包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。
由此,可以有效提升对于各个智能体的控制效果,高效实现群体对抗。
根据本发明提供的群体对抗中智能体控制方法,在上述实施例的基础上,步骤700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
710、基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;
720、将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
730、基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;
740、基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;
750、基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
针对步骤720,将所述第一智能体周围各个对手下一时刻的状态特征分别
和第一智能体周围各个对手实际的状态特征(可由传感器等实时采集获取)进行比
较,具体是同一对手不同状态特征进行比较,以分别获得所述第一智能体周围各个对手状
态特征的预测差异,且预测差异可以由两种状态进行差值计算来表示。
针对步骤750,根据所述第一智能体的群体对抗总奖励,并利用深度增强学习
算法(Proximal Policy Optimization算法,简称PPO算法),输出所述第一智能体以及其他
各个智能体的累计回报最大动作。以便于后续根据各个智能体的累计回报最大动作以及交
互特征来进行智能体群体中各个智能体的控制,实现高效的群体对抗。PPO算法中,还涉及
到一些可调节的权重参数等,比如可以设定其第一权重参数、第二权重参数、第三权重参数
分别为。
根据本发明提供的群体对抗中智能体控制方法,步骤200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
201、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;
202、对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;
203、将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。
其中,表示第一中间系数;表示第一智能体的状态特征;表示第
一智能体周围各个对手的状态特征; 表示向量点乘;表示第一智能体的状态特
征的维度;表示存活的各个对手的数量,且初始时刻设定存活的对手数量取15个。
针对步骤202,根据上一步骤计算获得的所述第一智能体对其周围各个对手的注
意力关注系数和所述第一智能体周围各个对手的状态特征,进行多头注意力
特征提取,获得第一智能体对应的多头注意力特征,具体提取计算过程为:
本方法所获得的第一智能体周围环境状态特征,既考虑了当前的第一智能体
对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特
征,以及更结合了第一智能体本身的状态特征,由此,其在整体协同控制上效果更佳。
根据本发明提供的群体对抗中智能体控制方法,步骤300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
301、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;
302、对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;
303、将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。
其中,表示第二中间系数;表示第一对手的状态特征;表示第
一对手周围各个智能体的状态特征;表示线性可学习的权重矩阵;权重是指不同对手
占据不同的权重,且权重比例可以预先基于实际需求进行设定;表示基于全连接层神
经网络对其进行处理;是指Leaky Relu激活函数;表示第一对手周围各个智能体
的数量,且初始时刻第一对手周围各个智能体的数量设定为取10。
针对步骤303,将所述第一智能体周围各个对手的行为特征,具体是将第一智
能体周围所有对手的行为特征一起进行堆叠处理,比如逐一堆叠,最终获得所述第一
智能体周围各个对手的总行为特征,其本质理解为是第一智能体周围所有对手的
总的行为特征。
对于第一智能体周围的各个对手,不仅单独考虑各个对手各自的状态特征等,还综合考虑所有对手的总的行为特征,能够增强数据分析的全面性,为后续对于智能体的控制提供更为可靠的参考依据。
根据本发明提供的群体对抗中智能体控制方法,步骤400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
401、基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
本方法深入挖掘智能体与对手之间的深层关系特征,以便于最终快速实现智能体群体中各智能体对于对手的最佳对抗。
根据本发明提供的群体对抗中智能体控制方法,步骤500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
501、将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
502、基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
其中,表示第一智能体相邻的其他智能体的个数;表示每两个智能体间的
通信跳数,且,并设定取3,此时默认也为3个;、、分别三
个智能体分别对应的线性可学习的权重矩阵;表示各个其他智能体的状态特征的维
度;表示ReLu激活函数。
图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图,结合图3所示,通常群体对抗场景中,中心位置的大圆形330表示基地,表示被保护的核心位置。而场景中群体内,其中一方为智能体,如图3中各个虚线圆形物320所示,其均作为防御者;另一方为对手,如图3中各个实线圆形物310所示,其均作为攻击者。各个对手的任务是攻击基地,并避免被智能体吞噬,其采用的对抗策略是速度避障法。而各个智能体的任务是保护基地,并基于本发明提出的本发明提供的群体对抗中智能体控制方法的控制去消灭各个对手。对抗回合终止的触发条件,是基地遭到对手的攻击,或者所有对手均被消灭,且当所有对手均被消灭时,各个智能体获得正的奖励,也即获得奖励函数。需要说明的是,可以将初始时刻各个对手与基地的距离设定在一定范围内,比如设置在[1.5, 2]取值范围区间,同时设置各个智能体与基地的距离范围也在一定范围内,且此范围小于对手所在的距离范围,比如设置在[0.4, 0.5]取值范围区间,且默认基地的半径大小为0.25,且各数据取值单位保持一致。
本发明提出的群体对抗中智能体控制方法,其具体的逻辑控制原理分析如下:对智能体关系图进行推理,计算获得第一智能体周围环境状态特征,通过对对手关系进行建模分析,计算获得所述第一智能体周围各个对手的总行为特征,并计算获得第一智能体周围各个对手的深层总行为特征,还根据由第一智能体周围各个对手的深层总行为特征和第一智能体周围环境状态特征相融合获得的融合特征再进一步从智能体和对手之间交互信息中获得交互特征,最后根据交互特征分别建立控制策略网络和控制价值网络,以据其对群体中各个智能体进行有效控制。其充分利用了个各智能体和各个对手的各种状态特征和行为特征等,还采用多头注意力机制进行信息融合,有效提升了对抗成功率和缩短了对抗回合的时间。并且,其在对对手关系进行建模分析后,同时还可以基于第一智能体周围各个对手的总行为特征进行第一智能体周围各个对手下一时刻的状态特征的状态预测,并根据由预测结果中的预测差异获得的第一智能体的内在奖励和预设的预设的第一智能体的外部奖励获得所述第一智能体的群体对抗总奖励,并据此获得一智能体的群体对抗总奖励以及第一智能体以及其他各个智能体的累计回报最大动作,最后将各个智能体的累计回报最大动作,一并作为对各个智能体进行控制的依据,实现有效的群体对抗。即其利用预设的状态预测网络有效引导各个智能体进行状态预测和控制训练,以在群体对抗中快速实现各智能体对于各个对手的对抗,提升对抗的成功率。
下面对本发明提供的一种群体对抗中智能体控制装置进行介绍,所述装置可以理解为执行上述群体对抗中智能体控制方法的装置,二者应用原理相同,可相互参照,此处不再赘述。
本发明还提供一种群体对抗中智能体控制装置,图4是本发明提供的群体对抗中智能体控制装置的结构示意图,如图4所示,所述装置包括:状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,其中,
所述状态获取模块一510,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
所述状态获取模块二520,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
所述特征获取模块一530,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
所述特征获取模块二540,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
所述特征获取模块三550,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
所述控制模块560,用于基于所述交互特征对所述第一智能体进行控制。
本发明提供的群体对抗中智能体控制装置,包括相互连接的状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,各模块相互配合工作,使得本装置通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。
本发明还提供一种电子设备,图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述群体对抗中智能体控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的群体对抗中智能体控制方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种群体对抗中智能体控制方法,其特征在于,所述方法包括:
获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;
基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;
基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
基于所述交互特征对所述第一智能体进行控制;
所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:
基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;具体计算过程为:
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;具体提取计算过程为:
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征;
所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:
基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;具体计算过程为:
其中,表示第二中间系数;表示第一对手的状态特征;表示第一对手周围各个智能体的状态特征;表示线性可学习的权重矩阵;权重是指不同对手占据不同的权重,且权重比例可以预先基于实际需求进行设定;表示基于全连接层神经网络对其进行处理;是指LeakyReLu激活函数;表示第一对手周围各个智能体的数量;表示第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;具体计算过程为:
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征;
所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:
将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;
基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。
2.根据权利要求1所述的群体对抗中智能体控制方法,其特征在于,所述方法还包括以下步骤:
根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;
相应地,所述基于所述交互特征对所述第一智能体进行控制,包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制;
所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:
基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;具体计算过程为:
将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;
基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;具体计算过程为:
基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;具体计算过程为:
基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。
3.根据权利要求1-2任一项所述的群体对抗中智能体控制方法,其特征在于,所述基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:
基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。
4.一种群体对抗中智能体控制装置,其特征在于,所述装置包括:
状态获取模块一,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;
状态获取模块二,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;具体计算过程为:
对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;具体提取计算过程为:
将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征;
特征获取模块一,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;具体计算过程为:
其中,表示第二中间系数;表示第一对手的状态特征;表示第一对手周围各个智能体的状态特征;表示线性可学习的权重矩阵;权重是指不同对手占据不同的权重,且权重比例可以预先基于实际需求进行设定;表示基于全连接层神经网络对其进行处理;是指LeakyReLu激活函数;表示第一对手周围各个智能体的数量;表示第一对手对其周围各个智能体的注意力关注系数;
对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;具体计算过程为:
将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征;
特征获取模块二,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征;
特征获取模块三,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;
控制模块,用于基于所述交互特征对所述第一智能体进行控制。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828346.0A CN113283574B (zh) | 2021-07-22 | 2021-07-22 | 群体对抗中智能体控制方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828346.0A CN113283574B (zh) | 2021-07-22 | 2021-07-22 | 群体对抗中智能体控制方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283574A CN113283574A (zh) | 2021-08-20 |
CN113283574B true CN113283574B (zh) | 2021-12-07 |
Family
ID=77287092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828346.0A Active CN113283574B (zh) | 2021-07-22 | 2021-07-22 | 群体对抗中智能体控制方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283574B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113894780B (zh) * | 2021-09-27 | 2023-05-05 | 中国科学院自动化研究所 | 多机器人协作对抗方法、装置、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629422B (zh) * | 2018-05-10 | 2022-02-08 | 浙江大学 | 一种基于知识指导-战术感知的智能体学习方法 |
US20200285995A1 (en) * | 2019-03-05 | 2020-09-10 | Hrl Laboratories, Llc | Robust, scalable and generalizable machine learning paradigm for multi-agent applications |
CN111695690B (zh) * | 2020-07-30 | 2023-04-18 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112215364B (zh) * | 2020-09-17 | 2023-11-17 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的敌-友深度确定性策略方法及系统 |
CN112884152A (zh) * | 2021-03-26 | 2021-06-01 | 中国人民解放军国防科技大学 | 一种基于对手模型和迭代推理的策略识别与重用方法 |
-
2021
- 2021-07-22 CN CN202110828346.0A patent/CN113283574B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113283574A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102523888B1 (ko) | 가상 환경에서 가상 객체를 스케줄링하기 위한 방법, 장치 및 디바이스 | |
CN110991545B (zh) | 一种面向多智能体对抗的强化学习训练优化方法及装置 | |
CN109529352B (zh) | 虚拟环境中调度策略的评估方法、装置及设备 | |
CN105678030B (zh) | 基于专家系统和战术战法分形化的空战战术团队仿真方法 | |
CN112180724A (zh) | 一种在干扰条件下多智能体协同合作的训练方法及系统 | |
CN111450534B (zh) | 一种标签预测模型的训练方法、标签预测的方法及装置 | |
CN112870721B (zh) | 一种游戏互动方法、装置、设备及存储介质 | |
CN112215328A (zh) | 一种智能体的训练、基于智能体的动作控制方法及装置 | |
CN111450531B (zh) | 虚拟角色控制方法、装置、电子设备以及存储介质 | |
CN113283574B (zh) | 群体对抗中智能体控制方法、装置、电子设备及存储介质 | |
CN114489144A (zh) | 无人机自主机动决策方法、装置及无人机 | |
CN111318017B (zh) | 虚拟对象控制方法、装置、计算机可读存储介质和设备 | |
CN111624996A (zh) | 一种基于博弈论的多无人艇非完全信息围捕方法 | |
Piao et al. | Complex relationship graph abstraction for autonomous air combat collaboration: A learning and expert knowledge hybrid approach | |
CN114404975A (zh) | 决策模型的训练方法、装置、设备、存储介质及程序产品 | |
CN113509726A (zh) | 交互模型训练方法、装置、计算机设备和存储介质 | |
Soleyman et al. | Multi-agent mission planning with reinforcement learning | |
CN116468121A (zh) | 基于通用经验博弈强化学习的多机空战决策方法 | |
CN114344889B (zh) | 游戏策略模型生成方法和游戏中智能体的控制方法 | |
CN113988301B (zh) | 战术策略生成方法、装置、电子设备及存储介质 | |
CN114722998A (zh) | 一种基于cnn-ppo的兵棋推演智能体构建方法 | |
CN114202175A (zh) | 一种基于人工智能的作战任务规划方法及系统 | |
CN112926729B (zh) | 人机对抗智能体策略制定方法 | |
CN114118400B (zh) | 一种基于专注网络的集群对抗方法及装置 | |
CN117634858A (zh) | 基于即时优势窗口的人机混合方案生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |