CN114118400B - 一种基于专注网络的集群对抗方法及装置 - Google Patents
一种基于专注网络的集群对抗方法及装置 Download PDFInfo
- Publication number
- CN114118400B CN114118400B CN202111183478.9A CN202111183478A CN114118400B CN 114118400 B CN114118400 B CN 114118400B CN 202111183478 A CN202111183478 A CN 202111183478A CN 114118400 B CN114118400 B CN 114118400B
- Authority
- CN
- China
- Prior art keywords
- state
- network
- concentration
- module
- observation state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007613 environmental effect Effects 0.000 claims abstract description 97
- 230000009471 action Effects 0.000 claims abstract description 66
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 239000003795 chemical substances by application Substances 0.000 claims description 89
- 239000011159 matrix material Substances 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008901 benefit Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000008450 motivation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品,其中,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动‑评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。增强了集群对威胁场景的特征提取能力,加速集群对周围威胁环境的迭代更新学习,能够有效实现复杂环境下大规模集群的对抗。
Description
技术领域
本发明涉及无人集群领域,尤其涉及一种基于专注网络的集群对抗方法、装置、设备、介质和产品。
背景技术
无人集群可以通过合作和竞争形成集群行为,完成个体无法实现的复杂任务,比如集群对抗、覆盖和追逃围捕等,提高任务的完成度、执行效率和成功概率等。近些年,多智能体强化学习作为无人集群系统中最有可能成为通用人工智能的技术路线之一,是众多研究人员的研究热点,具有非常大的应用潜力,同时也存在很大的挑战。相比于单智能体强化学习问题,多智能体的强化学习由于需要考虑智能体与环境、邻居智能体的交互关系和优化策略,显得更为复杂。尤其,对于集群对抗问题,智能体不仅要与邻居智能体展开合作,还与对手智能体进行竞争和对抗。
现在有不少针对集群协同对抗的研究,有些采用深度图神经网络的方法,能够促进和引导集群完成任务的集群协同行为,但需要所有智能体间进行低延迟通信,以满足频繁的信息交互,这导致算法仿真与分布式应用存在较大差距。因此,有人提出基于注意力机制的集群协同方法,从多种特征状态输入中获取到最重要的交互信息。但随着智能体数量的增加,存在注意力聚合函数非线性逼近误差变大,观测特征中重要信息削弱,导致注意力机制性能退化等问题。此外,现有大部分研究更多是针对小规模集群对抗,往往集群个数小于20个智能体,尚未涉及大规模集群的协同。综上所述,现有方法随着智能体数量的增加,存在注意力聚合函数非线性逼近误差变大,观测特征中重要信息削弱,导致注意力机制性能退化,且要求通信低延迟,因此只能一定程度上解决小规模的集群控制。大规模集群协同对抗问题有待进一步研究和解决。
发明内容
本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品,旨在解决随着集群规模扩大,现有技术存在注意力聚合函数非线性逼近误差变大,观测特征中重要信息削弱,使得注意力机制性能退化等问题,导致集群控制效果不佳,无法有效实现大规模集群协同对抗的问题。
第一方面,本发明提供了一种基于专注网络的集群对抗方法,包括:获取集群中智能体的自身观测状态和环境观测状态;基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征;将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,使所述智能体根据所述动作策略完成动作。
进一步地,所述基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:通过多层感知机编码网络对所述自身观测状态进行特征提取,得到自身观测状态特征矩阵;通过所述多层感知机编码网络对所述环境观测状态进行特征提取,得到环境观测状态特征矩阵;根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。
进一步地,所述根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:基于所述自身观测状态特征矩阵,通过所述专注网络的查询模块确定查询目标特征;基于所述环境观测状态特征矩阵,通过所述专注网络的键模块确定键目标特征;基于所述查询目标特征和所述键目标特征,通过softmax函数确定专注权重系数;基于所述专注权重系数和所述环境观测状态特征矩阵,通过所述专注网络的排序模块确定新的状态特征矩阵;基于所述专注权重系数,通过所述排序模块确定新的专注权重系数;基于所述新的专注权重系数和所述新的状态特征矩阵,通过所述专注网络的动机模块确定所述估计威胁评估参数;基于所述新的状态特征矩阵,通过所述专注网络的截断模块,确定截断后的所述新的状态特征矩阵;基于所述截断后的所述新的状态特征矩阵,通过特征堆叠函数,确定所述环境状态特征。
进一步地,所述将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,包括:将所述估计威胁评估参数输入所述行动-评价网络的评价网络,得到策略优势评价系数;将所述环境状态特征输入所述行动-评价网络的行动网络,得到动作策略,所述策略优势评价系数用于评价所述动作策略。
第二方面,本发明还提供了一种基于专注网络的集群对抗装置,包括:第一处理模块,用于获取集群中智能体的自身观测状态和环境观测状态;第二处理模块,用于基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征;第三处理模块,用于将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,使所述智能体根据所述动作策略完成动作。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。
本发明提供的一种基于专注网络的集群对抗方法、装置、设备、介质和产品,通过将自身观测状态和环境观测状态通过专注网络进行融合,确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。可以看出,动作策略融合了环境状态特征,且结合了估计威胁评估参数,因此,增强了集群对威胁场景的特征提取能力,加速集群对周围威胁环境的迭代更新学习,能够有效实现复杂环境下大规模集群的对抗。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明提供的基于专注网络的集群对抗方法的一些实施例的流程示意图;
图2是根据本发明提供的基于专注网络的集群对抗方法的另一些实施例的流程示意图;
图3-1是根据本发明提供的基于专注网络的集群对抗方法的专注网络的结构示意图;
图3-2是根据本发明提供的基于专注网络的集群对抗方法的行动-评价网络的结构示意图;
图4是根据本发明提供的基于专注网络的集群对抗装置的一些实施例的结构示意图;
图5是根据本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本发明。
请参阅图1,图1是本发明提供的基于专注网络的集群对抗方法的一些实施例的流程示意图。如图1所示,该方法包括以下步骤:
步骤101,获取集群中智能体的自身观测状态和环境观测状态。
在一些实施例中,对于集群中每一个智能体,获取智能体的自身观测状态和环境观测状态,其中,自身观测状态包括智能体的位置、速度、飞行角度等。环境观测状态包括邻居智能体的状态和对手智能体的状态,邻居智能体的状态和对手智能体的状态也包括其位置、速度、飞行角度等。
步骤102,基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征。
在一些实施例中,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征。专注网络可以包括查询模块、键模块、排序模块、截断模块和动机模块等,查询模块可以用于提取网络查询目标特征,键模块可以用于提取键目标特征,排序可以模块用于对特征向量进行从大到小或者从小到大的排序,截断模块可以用于截断特征向量,动机模块可以用于训练专注网络中的权重系数。估计威胁评估参数表示智能体在当前状态中的预计受到的威胁,环境状态特征表示对于智能体而言,当前所处的环境状态。
步骤103,将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。
在一些实施例中,行动-评价网络可以采用多层感知机(Multilayer Perceptron,简称MLP),也叫人工神经网络(Artificial Neural Network,简称ANN)的结构。行动-评价网络也可以采用基于最优策略的算法(Proximal Policy Optimization,简称PPO)的深度强化学习架构。以行动-评价网络为PPO为例,在训练行动-评价网络时学习速率可以为5e-4,且可以将连续存储的64个回合的集群轨迹作为训练数据。评价网络负责对行动网络选择的动作进行评价,行动网络直接输出动作,驱动智能体进行动作。
本发明一些实施例公开的基于专注网络的集群对抗方法,通过将自身观测状态和环境观测状态通过专注网络进行融合,确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。可以看出,动作策略融合了环境状态特征,且结合了估计威胁评估参数,因此,增强了集群对威胁场景的特征提取能力,加速集群对周围威胁环境的迭代更新学习,能够有效实现复杂环境下大规模集群的对抗。
请参阅图2,图2是根据本发明的基于专注网络的集群对抗方法的另一些实施例的流程图。如图2所示,该方法包括以下步骤:
步骤201,获取集群中智能体的自身观测状态和环境观测状态。
在一些实施例中,步骤201的具体实现及其所带来的技术效果,可以参考图1对应的实施例中的步骤101,在此不再赘述。
步骤202,基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征。
在一些可选的实现方式中,基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,可以包括:通过多层感知机编码网络对自身观测状态进行特征提取,得到自身观测状态特征矩阵;通过多层感知机编码网络对环境观测状态进行特征提取,得到环境观测状态特征矩阵;根据自身观测状态特征矩阵和环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。
作为示例,自身观测状态特征矩阵和环境观测状态特征矩阵可以表示为:
vs=Encoder(zs)
ve=Encoder(ze) (公式1)
其中,vs、ve分别表示智能体自身观测状态特征矩阵和环境观测状态特征矩阵,Encoder()表示多层感知机编码网络,zs和ze分别表示智能体的自身观测状态和环境观测状态。多层感知机编码网络用于提取自身观测状态和环境观测状态的特征,多层感知机编码网络可以选取现有的网络模型,也可以根据需要构建适合的网络模型。
在一些可选的实现方式中,根据自身观测状态特征矩阵和环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征,可以包括:基于自身观测状态特征矩阵,通过专注网络的查询模块确定查询目标特征;基于环境观测状态特征矩阵,通过专注网络的键模块确定键目标特征;基于查询目标特征和键目标特征,通过softmax函数确定专注权重系数;基于专注权重系数和环境观测状态特征矩阵,通过专注网络的排序模块确定新的状态特征矩阵;基于专注权重系数,通过排序模块确定新的专注权重系数;基于新的专注权重系数和新的状态特征矩阵,通过专注网络的动机模块确定估计威胁评估参数;基于新的状态特征矩阵,通过专注网络的截断模块,确定截断后的新的状态特征矩阵;基于截断后的新的状态特征矩阵,通过特征堆叠函数,确定环境状态特征。专注网络结构可以参考图3-1。
作为示例,基于查询目标特征和键目标特征,通过softmax函数确定专注权重系数,可以表示为:
其中,Wq,Wk表示系数,dk表示向量vs的维度,ωe表示专注权重系数。
基于专注权重系数和环境观测状态特征矩阵,通过专注网络的排序模块确定新的状态特征矩阵,以及,基于专注权重系数,通过排序模块确定新的专注权重系数,可以表示为:
ve′=Sort(ve|ωe)
ω′e=Sort(ωe) (公式3)
其中,ve′、ω′e分别表示新的状态特征矩阵和新的专注权重系数,Sort()表示对其进行由大到小的排序。
基于新的专注权重系数和新的状态特征矩阵,通过专注网络的动机模块确定估计威胁评估参数;基于新的状态特征矩阵,通过专注网络的截断模块,确定截断后的新的状态特征矩阵;基于截断后的新的状态特征矩阵,通过特征堆叠函数,确定环境状态特征,可以表示为:
vM=f[ω′e.(v′eWq)]
vC=MLP(Stack(Drop[v′e|dp])) (公式4)
其中,Drop[v′e|dp]表示截断后的新的状态特征矩阵,即保留矩阵前dp行的数据,删除其余行,dp表示行数,vc表示环境状态特征,代表估计威胁评估参数,f(),gk(),MLP()都表示多层感知机模型,Stack()表示numpy库的特征堆叠函数。
步骤203,将估计威胁评估参数输入行动-评价网络的评价网络,得到策略优势评价系数。
作为示例,行动-评价网络结构可以参考图3-2。
作为示例,评价网络的损失值可以通过以下式子计算得到:
Ψut(Γ)=[Ψ(·)|Ψ(·)≥-Tm]
其中,λvalue,λΨ表示两项损失函数的权重系数,Ψ(·)表示智能体的威胁估计函数,Tm表示超参数,其作为威胁估计的阈值,L(Γ)表示评价网络的损失函数,Γ表示智能体的历史轨迹集合,Lvalue(Γ)表示评价网络常规损失函数,LΨ(Γ)表示智能体的威胁评估损失函数,Ψut分别表示估计和实际的威胁评估参数,MSE[·]可以表示回归代价函数。
其中,智能体的威胁估计函数Ψ(·)的具体表达式可以是:
其中,Ψ(t,i|s)表示实际的威胁评估函数,Ti表示智能体i在当前局的存活的实际总时长,t表示智能体i在当前局从开始到当前时刻的存活时间,s表示第i个智能体的状态s,threat()表示威胁函数,表示从第t时刻开始的智能体轨迹的平均威胁估计,τi(t)表示智能体i在第t时刻的轨迹,包含在智能体i的历史轨迹集合Γ中,Tm表示判断威胁的阈值。
步骤204,将环境状态特征输入行动-评价网络的行动网络,得到动作策略,策略优势评价系数用于评价动作策略。
在一些实施例中,动作策略表示智能体接下来的一个连续动作,比如可以表示智能体在一段时间的运行速度的变化、运行方向的变化和打击对象等。策略优势评价系数可以是一个常数,表示评价动作策略的等级或者分数。在训练行动-评价网络时,可以将估计威胁评估参数和动作策略输入到评价网络中的损失函数,根据损失函数的结果更新行动-评价网络的参数。评价网络的损失函数结合了估计和实际威胁评估参数,增强了行动网络对威胁场景的特征提取能力,实现了行动-评价网络对周围威胁环境的快速迭代更新学习。
从图2中可以看出,与图1对应的一些实施例的描述相比,图2对应的一些实施例中的基于专注网络的集群对抗方法体现了评价-行动网络的结构,将估计威胁评估参数输入评价网络,得到策略优势评价系数,策略优势评价系数用于评价动作策略。可以看出,利用估计威胁评估参数训练和评估行动-评价网络,可以提高行动-评价网络对威胁场景的特征提取能力,使动作策略能够参考周围威胁环境的变化。也能使策略优势评价系数可以根据周围威胁环境的变化来评价动作策略。
请参阅图4,图4是根据本发明提供的基于专注网络的集群对抗装置的一些实施例的结构示意图,作为对上述各图所示方法的实现,本发明还提供了一种基于专注网络的集群对抗装置的一些实施例,这些装置实施例与图1所示的一些方法的实施例相对应,且该装置可以应用于各种电子设备中。
如图4所示,一些实施例的基于专注网络的集群对抗装置400包括第一处理模块401、第二处理模块402、第三处理模块403:第一处理模块401,用于获取集群中智能体的自身观测状态和环境观测状态;第二处理模块402,用于基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;第三处理模块403,用于将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。
在一些实施例的可选实现方式中,第二处理模块402,还包括:第一处理单元,用于通过多层感知机编码网络对自身观测状态进行特征提取,得到自身观测状态特征矩阵;第二处理单元,用于通过多层感知机编码网络对环境观测状态进行特征提取,得到环境观测状态特征矩阵;第三处理单元,用于根据自身观测状态特征矩阵和环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。
在一些实施例的可选实现方式中,第三处理单元,还用于:基于自身观测状态特征矩阵,通过专注网络的查询模块确定查询目标特征;基于环境观测状态特征矩阵,通过专注网络的键模块确定键目标特征;基于查询目标特征和键目标特征,通过softmax函数确定专注权重系数;基于专注权重系数和环境观测状态特征矩阵,通过专注网络的排序模块确定新的状态特征矩阵;基于专注权重系数,通过排序模块确定新的专注权重系数;基于新的专注权重系数和新的状态特征矩阵,通过专注网络的动机模块确定估计威胁评估参数;基于新的状态特征矩阵,通过专注网络的截断模块,确定截断后的新的状态特征矩阵;基于截断后的新的状态特征矩阵,通过特征堆叠函数,确定环境状态特征。
在一些实施例的可选实现方式中,第三处理模块403还用于将估计威胁评估参数输入行动-评价网络的评价网络,得到策略优势评价系数;将环境状态特征输入行动-评价网络的行动网络,得到动作策略,策略优势评价系数用于评价动作策略。
可以理解的是,该装置400中记载的各模块与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的模块、单元,在此不再赘述。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行基于专注网络的集群对抗方法,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,上述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,上述计算机程序包括程序指令,当上述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于专注网络的集群对抗方法,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于专注网络的集群对抗方法,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动-评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。
以上所描述的装置实施例仅仅是示意性的,其中上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分上述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于专注网络的集群对抗方法,其特征在于,包括:
获取集群中智能体的自身观测状态和环境观测状态;基于所述自身观测状态和环境观测状态,通过专注网络包括的查询模块、键模块、排序模块、截断模块和动机模块,确定估计威胁评估参数和环境状态特征,所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征;
将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,使所述智能体根据所述动作策略完成动作;
其中,所述自身观测状态包括智能体的位置、速度和飞行角度,所述环境观测状态包括邻居智能体的状态和对手智能体的状态,邻居智能体的状态和对手智能体的状态均包括其位置、速度和飞行角度;
查询模块用于提取网络查询目标特征,键模块用于提取键目标特征,排序模块用于对特征向量进行从大到小或者从小到大的排序,截断模块用于截断特征向量,动机模块用于训练专注网络中的权重系数;
动作策略表示智能体在一段时间的运行速度的变化、运行方向的变化和打击对象。
2.根据权利要求1所述的基于专注网络的集群对抗方法,其特征在于,所述基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:
通过多层感知机编码网络对所述自身观测状态进行特征提取,得到自身观测状态特征矩阵;
通过所述多层感知机编码网络对所述环境观测状态进行特征提取,得到环境观测状态特征矩阵;
根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。
3.根据权利要求2所述的基于专注网络的集群对抗方法,其特征在于,所述根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:
基于所述自身观测状态特征矩阵,通过所述专注网络的查询模块确定查询目标特征;
基于所述环境观测状态特征矩阵,通过所述专注网络的键模块确定键目标特征;
基于所述查询目标特征和所述键目标特征,通过softmax函数确定专注权重系数;
基于所述专注权重系数和所述环境观测状态特征矩阵,通过所述专注网络的排序模块确定新的状态特征矩阵;
基于所述专注权重系数,通过所述排序模块确定新的专注权重系数;
基于所述新的专注权重系数和所述新的状态特征矩阵,通过所述专注网络的动机模块确定所述估计威胁评估参数;
基于所述新的状态特征矩阵,通过所述专注网络的截断模块,确定截断后的所述新的状态特征矩阵;
基于所述截断后的所述新的状态特征矩阵,通过特征堆叠函数,确定所述环境状态特征。
4.根据权利要求1所述的基于专注网络的集群对抗方法,其特征在于,所述将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,包括:
将所述估计威胁评估参数输入所述行动-评价网络的评价网络,得到策略优势评价系数;
将所述环境状态特征输入所述行动-评价网络的行动网络,得到动作策略,所述策略优势评价系数用于评价所述动作策略。
5.一种基于专注网络的集群对抗装置,其特征在于,包括:
第一处理模块,用于获取集群中智能体的自身观测状态和环境观测状态;
第二处理模块,用于基于所述自身观测状态和环境观测状态,通过专注网络包括的查询模块、键模块、排序模块、截断模块和动机模块,确定估计威胁评估参数和环境状态特征,所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征;
第三处理模块,用于将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络,得到所述智能体的动作策略,使所述智能体根据所述动作策略完成动作;
其中,所述自身观测状态包括智能体的位置、速度和飞行角度,所述环境观测状态包括邻居智能体的状态和对手智能体的状态,邻居智能体的状态和对手智能体的状态均包括其位置、速度和飞行角度;
查询模块用于提取网络查询目标特征,键模块用于提取键目标特征,排序模块用于对特征向量进行从大到小或者从小到大的排序,截断模块用于截断特征向量,动机模块用于训练专注网络中的权重系数;
动作策略表示智能体在一段时间的运行速度的变化、运行方向的变化和打击对象。
6.根据权利要求5所述的基于专注网络的集群对抗装置,其特征在于,所述第二处理模块,还包括:
第一处理单元,用于通过多层感知机编码网络对所述自身观测状态进行特征提取,得到自身观测状态特征矩阵;
第二处理单元,用于通过所述多层感知机编码网络对所述环境观测状态进行特征提取,得到环境观测状态特征矩阵;
第三处理单元,用于根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。
7.根据权利要求6所述的基于专注网络的集群对抗装置,其特征在于,所述第三处理单元,还用于:
基于所述自身观测状态特征矩阵,通过所述专注网络的查询模块确定查询目标特征;
基于所述环境观测状态特征矩阵,通过所述专注网络的键模块确定键目标特征;
基于所述查询目标特征和所述键目标特征,通过softmax函数确定专注权重系数;
基于所述专注权重系数和所述环境观测状态特征矩阵,通过所述专注网络的排序模块确定新的状态特征矩阵;
基于所述专注权重系数,通过所述排序模块确定新的专注权重系数;
基于所述新的专注权重系数和所述新的状态特征矩阵,通过所述专注网络的动机模块确定所述估计威胁评估参数;
基于所述新的状态特征矩阵,通过所述专注网络的截断模块,确定截断后的所述新的状态特征矩阵;
基于所述截断后的所述新的状态特征矩阵,通过特征堆叠函数,确定所述环境状态特征。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的基于专注网络的集群对抗方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于专注网络的集群对抗方法的步骤。
10.一种计算机系统,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于专注网络的集群对抗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183478.9A CN114118400B (zh) | 2021-10-11 | 2021-10-11 | 一种基于专注网络的集群对抗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183478.9A CN114118400B (zh) | 2021-10-11 | 2021-10-11 | 一种基于专注网络的集群对抗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118400A CN114118400A (zh) | 2022-03-01 |
CN114118400B true CN114118400B (zh) | 2023-01-03 |
Family
ID=80441749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111183478.9A Active CN114118400B (zh) | 2021-10-11 | 2021-10-11 | 一种基于专注网络的集群对抗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118400B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10207816B1 (en) * | 2017-09-14 | 2019-02-19 | SparkCognition, Inc. | Aerially dispersible massively distributed sensorlet system |
CN110301143A (zh) * | 2016-12-30 | 2019-10-01 | 英特尔公司 | 用于无线电通信的方法和设备 |
CN111258219A (zh) * | 2020-01-19 | 2020-06-09 | 北京理工大学 | 一种多智能体系统协同策略的反演辨识方法 |
CN111738372A (zh) * | 2020-08-26 | 2020-10-02 | 中国科学院自动化研究所 | 分布式多智能体时空特征提取方法、行为决策方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112422699A (zh) * | 2021-01-25 | 2021-02-26 | 中国人民解放军国防科技大学 | 一种基于动态调整的无人机集群行动方案生成方法 |
CN112494949A (zh) * | 2020-11-20 | 2021-03-16 | 超参数科技(深圳)有限公司 | 智能体行动策略制定方法、服务器及存储介质 |
CN112667400A (zh) * | 2020-12-29 | 2021-04-16 | 天津大学 | 边缘自治中心管控的边云资源调度方法、装置及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9699205B2 (en) * | 2015-08-31 | 2017-07-04 | Splunk Inc. | Network security system |
US10077110B2 (en) * | 2016-05-18 | 2018-09-18 | International Business Machines Corporation | Monitoring for movement disorders using unmanned aerial vehicles |
WO2019010049A1 (en) * | 2017-07-01 | 2019-01-10 | Intel Corporation | METHODS AND DEVICES FOR VEHICLE RADIO COMMUNICATIONS |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112215364B (zh) * | 2020-09-17 | 2023-11-17 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的敌-友深度确定性策略方法及系统 |
-
2021
- 2021-10-11 CN CN202111183478.9A patent/CN114118400B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110301143A (zh) * | 2016-12-30 | 2019-10-01 | 英特尔公司 | 用于无线电通信的方法和设备 |
US10207816B1 (en) * | 2017-09-14 | 2019-02-19 | SparkCognition, Inc. | Aerially dispersible massively distributed sensorlet system |
CN111258219A (zh) * | 2020-01-19 | 2020-06-09 | 北京理工大学 | 一种多智能体系统协同策略的反演辨识方法 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN111738372A (zh) * | 2020-08-26 | 2020-10-02 | 中国科学院自动化研究所 | 分布式多智能体时空特征提取方法、行为决策方法 |
CN112494949A (zh) * | 2020-11-20 | 2021-03-16 | 超参数科技(深圳)有限公司 | 智能体行动策略制定方法、服务器及存储介质 |
CN112667400A (zh) * | 2020-12-29 | 2021-04-16 | 天津大学 | 边缘自治中心管控的边云资源调度方法、装置及系统 |
CN112422699A (zh) * | 2021-01-25 | 2021-02-26 | 中国人民解放军国防科技大学 | 一种基于动态调整的无人机集群行动方案生成方法 |
Non-Patent Citations (4)
Title |
---|
An Autonomous Planning Method for UAV Based on Behavior-Conditional Model;Jie Xu等;《2019 IEEE 7th International Conference on Computer Science and Network Technology (ICCSNT)》;20200120;255-261 * |
Multi-agent reinforcement learning by the actor-critic model with an attention interface;LixiangZhang等;《Neurocomputing》;20210619;第471卷;275-284 * |
基于DDPG算法的无人机集群追击任务;张耀中等;《航空学报》;20200615;第41卷(第10期);314-326 * |
无人集群系统行为决策学习奖励机制;张婷婷等;《北京航空航天大学学报》;20210521;第47卷(第12期);2442-2451 * |
Also Published As
Publication number | Publication date |
---|---|
CN114118400A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ladosz et al. | Exploration in deep reinforcement learning: A survey | |
KR102523888B1 (ko) | 가상 환경에서 가상 객체를 스케줄링하기 위한 방법, 장치 및 디바이스 | |
US20220176248A1 (en) | Information processing method and apparatus, computer readable storage medium, and electronic device | |
CN112329948B (zh) | 一种多智能体策略预测方法及装置 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN113298260B (zh) | 一种基于深度强化学习的对抗仿真推演方法 | |
CN113561986A (zh) | 自动驾驶汽车决策方法及装置 | |
JP2020166795A (ja) | 効率的に学習を行う強化学習方法、強化学習装置及び強化学習プログラム | |
CN107016212A (zh) | 基于动态贝叶斯网络的意图分析方法 | |
CN114139637A (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
Chen et al. | An adaptive deep rl method for non-stationary environments with piecewise stable context | |
Kuutti et al. | Arc: Adversarially robust control policies for autonomous vehicles | |
Pourmehr et al. | An overview on opponent modeling in RoboCup soccer simulation 2D | |
CN114118400B (zh) | 一种基于专注网络的集群对抗方法及装置 | |
CN115909027B (zh) | 一种态势估计方法及装置 | |
Xing et al. | Policy distillation with selective input gradient regularization for efficient interpretability | |
Pai et al. | Achieving safe deep reinforcement learning via environment comprehension mechanism | |
CN116203987A (zh) | 一种基于深度强化学习的无人机集群协同避障方法 | |
CN113240118B (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN115793717A (zh) | 群体协同决策方法、装置、电子设备及存储介质 | |
Wang et al. | Cooperatively pursuing a target unmanned aerial vehicle by multiple unmanned aerial vehicles based on multiagent reinforcement learning | |
Chen et al. | Modified PPO-RND method for solving sparse reward problem in ViZDoom | |
CN114757092A (zh) | 基于队友感知的多智能体协作通信策略的训练系统和方法 | |
EP4226279A1 (en) | Interactive agent |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |