CN114815904A - 基于注意力网络的无人集群对抗方法、装置及无人设备 - Google Patents
基于注意力网络的无人集群对抗方法、装置及无人设备 Download PDFInfo
- Publication number
- CN114815904A CN114815904A CN202210745988.9A CN202210745988A CN114815904A CN 114815904 A CN114815904 A CN 114815904A CN 202210745988 A CN202210745988 A CN 202210745988A CN 114815904 A CN114815904 A CN 114815904A
- Authority
- CN
- China
- Prior art keywords
- unmanned
- observation
- determining
- information
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000009471 action Effects 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims description 129
- 239000013598 vector Substances 0.000 claims description 108
- 230000006870 function Effects 0.000 claims description 74
- 230000036541 health Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 28
- 230000033001 locomotion Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000979 retarding effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Selective Calling Equipment (AREA)
Abstract
本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备,涉及无人设备自动化技术领域,该方法包括:根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的特征信息,无人设备包括第一无人设备和第二无人设备;根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。该方法可实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
Description
技术领域
本发明涉及无人设备自动化技术技术领域,尤其涉及一种基于注意力网络的无人集群对抗方法、装置及无人设备。
背景技术
随着科学技术的发展,由于无人设备(例如无人机、无人车等)具有高机动性、强隐蔽性和无人驾驶等特点,所以,该无人设备可广泛应用于各类军事场景,比如探测、监视和对抗等高动态复杂环境。
在现有的集群对抗方法中,第一无人集群通常利用多智能体(Multi-Agent PPO,MAPPO)方法或自回归分布滞后模型(Autoregressive Distributed Lag,ADRL)方法对其它无人集群进行对抗。由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,所以,无论该第一无人集群是利用MAPPO方法,还是利用ADRL方法,都会导致该第一无人集群无法准确且有效地对抗其它无人集群。
发明内容
本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备,用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
本发明提供一种基于注意力网络的无人集群对抗方法,应用于第一无人设备,该方法包括:
根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;
根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;
根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
根据本发明提供的一种无人集群对抗方法,该根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,包括:获取无人设备在当前时刻所对应的观测信息;根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息;根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息,包括:基于预设的观测注意力网络,提取该观测信息对应的信息特征;根据该信息特征,确定该观测信息对应的观测键向量、观测查询向量和观测值向量;根据该观测键向量和该观测查询向量,确定该无人设备中的第二无人设备对应的第一权重;根据该观测值向量和该第一权重,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息,包括:根据该观测特征信息,确定该第二无人设备在该当前时刻所对应的通信信息;基于预设的通信注意力网络,提取该通信信息对应的通信键向量、通信查询向量和通信值向量;根据该通信键向量和该通信查询向量,在该第二无人设备中,确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重;根据该通信值向量和该第二权重,确定该目标无人设备在该当前时刻所对应的通信特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,包括:获取该第二无人设备在上一时刻所对应的第一环境嵌入特征;根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
根据本发明提供的一种无人集群对抗方法,该根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,包括:根据该观测特征信息、该通信特信息征和该第一环境嵌入特征,基于门控循环单元,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
根据本发明提供的一种无人集群对抗方法,该方法还包括:根据该对抗动作,确定该第一无人设备对应的奖惩函数;利用该奖惩函数对该预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。
根据本发明提供的一种无人集群对抗方法,该根据该对抗动作,确定该第一无人设备对应的奖惩函数,包括:获取该第一无人设备对应的状态信息;根据该状态信息和该对抗动作,确定该第一无人设备对应的个体惩罚函数;根据该观测信息中包括的该第二无人设备的健康值,确定团队惩罚函数;根据该个体惩罚函数和该团队惩罚函数,确定该第一无人设备对应的奖惩函数。
本发明还提供一种无人集群对抗装置,应用于第一无人设备,包括:
获取模块,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块,用于根据该观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
本发明还提供一种无人设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明提供的基于注意力网络的无人集群对抗方法、装置及无人设备,通过第一无人设备根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,可以准确确定该第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备,也就是说,该特征信息的准确性较高;根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,该当前环境嵌入特征的准确性也较高;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。也即,第一无人设备可基于获取到的观测信息,准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之一;
图2是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之二;
图3是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图;
图4是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之一;
图5是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之二;
图6是本发明提供的无人集群对抗装置的结构示意图;
图7是本发明提供的无人设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例涉及的无人驾驶设备(简称:无人设备)可以包括但不限于:无人机,无人车及无人船等。
上述无人设备指的是不载人设备。其中,无人机指的是不载人飞机,无人车指的是不载人车辆,无人船指的是不载人船只。
在一些实施例中,不同的无人设备之间可以连接同一个无线通信技术,该无线通信技术可以包括但不限于以下其中一项:第四代通讯技术(the 4 Generation mobilecommunication technology,4G)、第五代通讯技术(the 5 Generation mobilecommunication technology,5G)及无线保真技术(Wireless Fidelity,WiFi)等。
需要说明的是,本发明实施例的执行主体可以是无人集群对抗装置,也可以是第一无人设备。下面以第一无人设备为例对基于注意力网络的无人集群对抗方法进行进一步地说明。
如图1所示,是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图,可以包括:
101、根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的特征信息。
其中,无人设备包括第一无人设备和第二无人设备。
该第二无人设备为该第一无人设备周围的无人设备。
第一无人设备不仅要获取自身在当前时刻所对应的观测信息,还要获取周围的第二无人设备在当前时刻所对应的观测信息;然后,该第一无人设备再根据获取的所有观测信息,基于预设的注意力网络,可准确得到该第二无人设备对应的特征信息。
可选的,观测信息可以包括但不限于以下至少一项:位置信息、速度信息及健康值信息等。
可选的,位置信息可以包括但不限于:经度信息和纬度信息等;速度信息可以包括但不限于:运行速度信息和运行加速度信息等;健康值信息可以包括但不限于:姿态数据信息和电池电量信息等。
可选的,预设的注意力网络可以包括但不限于:预设的观测注意力网络和预设的通信注意力网络等。
特征信息可以包括但不限于:观测特征信息和通信特征信息等。
其中,预设的观测注意力网络可以用于得到无人设备中的第二无人设备在当前时刻所对应的观测特征信息;预设的通信注意力网络可以用于得到该第二无人设备在当前时刻所对应的通信特征信息。
在一些实施例中,第一无人设备获取无人设备在当前时刻所对应的特征信息,可以包括:第一无人设备在预设距离范围内,获取无人设备在当前时刻所对应的特征信息。
可选的,预设距离范围指的是第一无人设备可观测到的距离范围,该预设距离范围可以是第一无人设备出厂前设置的,也可以是用户根据大量仿真实验数据得到的,此处不作具体限定。也就是说,第二无人设备为第一无人设备可观测到的无人设备。
示例性的,假设预设距离范围为10米(m)。第一无人设备可以在以该第一无人设备为中心,半径为10 m的范围内,获取该第一无人设备及第二无人设备在当前时刻所对应的特征信息。
在一些实施例中,第二无人设备中的部分无人设备为第一无人设备的友方无人设备,也可称为我方无人设备或目标无人设备,该第二无人设备中除友方无人设备以外的无人设备为该第一无人设备的敌方无人设备。
可选的,敌方无人设备的数量为至少一个,友方无人设备的数量不限。也就是说,第二无人设备的数量为至少一个。当第二无人设备的数量为一个时,该第二无人设备应为敌方无人设备,否则,第一无人设备无法实现与第二无人设备进行有效对抗。
102、根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
可选的,第一无人设备根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征,可以包括:第一无人设备获取第二无人设备在上一时刻所对应的第一环境嵌入特征;该第一无人设备根据特征信息和第一环境嵌入特征,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
可选的,环境嵌入特征可以包括但不限于:天气特征、地形特征及障碍物特征等。
可选的,该天气特征可包括但不限于以下至少一项:风速、雨量、气压、温度及湿度等;地形特征可包括但不限于以下至少一项:地物特征、地貌特征、土壤特征、植被特征、居民点特征及交通线特征等。
其中,障碍物特征指的是能够迟滞或阻止第一无人设备运动的物体特征。
在一些实施例中,当前时刻上一时刻是相邻的。
可选的,第一无人设备根据特征信息和第一环境嵌入特征,确定第二无人设备在当前时刻所对应的当前环境嵌入特征,可以包括:根据观测特征信息、通信特信息征和第一环境嵌入特征,基于门控循环单元,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
门控循环单元(Gated Recurrent Unit,GRU)是一种门控循环神经网络(GatedRecurrent Neural Network,GRNN),可较好捕捉时间序列中时间步距离较大的依赖关系。也就是说,第一无人设备利用第二无人设备在当前时刻所对应的观测特征信息和通信特信息征及上一时刻所对应的第一环境嵌入特征,利用GRU,可准确得到第二无人设备在当前时刻所对应的当前环境嵌入特征。
103、根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作。
其中,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
可选的,对抗动作可以看作是一个空间,称为对抗动作空间。该对抗动作空间可以分为机动动作空间和打击动作空间。该机动动作控制可以包括但不限于:停止动作、速度动作、航向角动作及俯仰角动作等;该打击动作空间可以包括但不限于:载荷方位角动作和载荷俯仰角动作等。
示例性的,机动动作控制可以包括但不限于:1个停止动作、3个速度动作、8个航向角动作及5个俯仰角动作;打击动作空间可以包括但不限于:8个载荷方位角动作和5个载荷俯仰角动作。
由于预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的,所以,第一无人设备在获取当前环境嵌入特征之后,可以将该当前环境嵌入特征输入至该预设的分布式策略头网络中,得到该预设的分布式策略头网络输出的准确的对抗动作,使得该第一无人设备可有效对抗第二无人设备中的敌方无人设备。
在本发明实施例中,第一无人设备可基于获取到的该第一无人设备和第二无人设备对应的观测信息,准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
如图2所示,是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图,可以包括:
201、获取无人设备在当前时刻所对应的观测信息。
其中,无人设备包括第一无人设备和第二无人设备。
第一无人设备需要获取该第一无人设备及至少一个无人设备中的每个第二无人设备在当前时刻所对应的观测信息,也就是说,该观测信息的数量为至少一个。
其中,至少一个观测信息可以作为一个观测信息矩阵。
202、根据观测信息,基于预设的观测注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
可选的,第一无人设备根据观测信息,基于预设的观测注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息,可以包括:第一无人设备基于预设的观测注意力网络,提取观测信息对应的信息特征;该第一无人设备根据信息特征,确定观测信息对应的观测键向量、观测查询向量和观测值向量;该第一无人设备根据观测键向量和观测查询向量,确定无人设备中的第二无人设备对应的第一权重;该第一无人设备根据观测值向量和第一权重,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
可选的,第一无人设备基于预设的观测注意力网络,提取观测信息对应的信息特征,可以包括:第一无人设备基于预设的观测注意力网络中的第一特征提取公式,确定观测信息对应的信息特征。
k≠i说明第一无人设备i在可观测到的无人设备中,第一无人设备i无法确定该第
一无人设备i自身所对应的观测信息ck,也无法确定观测信息ci对应的信息特征。也就是
说,ck表示该第一无人设备i在可观测到的第二无人设备中,第k个第二无人设备在当前时
刻所对应的观测信息。
可选的,可学习的第一参数矩阵WN是预设的观测注意力网络中基于历史观测信息集和历史信息特征集进行训练得到的,也就是说,可学习的第一参数矩阵WN是该第一无人设备中预设的。
可选的,第一无人设备根据信息特征,确定观测信息对应的观测键向量、观测查询向量和观测值向量,可以包括:第一无人设备基于第一键向量公式,得到观测信息对应的观测键向量;该第一无人设备基于第一查询向量公式,得到观测信息对应的观测查询向量;该第一无人设备基于第一值向量公式,得到观测信息对应的观测值向量。
可选的,可学习的第二参数矩阵是预设的通信注意力网络中基于历史观测信
息集和历史观测键向量集进行训练得到的;可学习的第三参数矩阵是预设的通信注意
力网络中基于历史观测信息集和历史观测查询向量集进行训练得到的;可学习的第四参数
矩阵是预设的通信注意力网络中基于历史观测信息集和历史观测值向量集进行训练得
到的。也就是说,可学习的第二参数矩阵、可学习的第三参数矩阵及可学习的第四参
数矩阵是该第一无人设备中预设的。
第一无人设备可以基于第一键向量公式,得到该第一无人设备可观测到的个第
二无人设备中,每个第二无人设备对应的观测键向量;第一无人设备可以基于第一查询向
量公式,得到该第一无人设备可观测到的个第二无人设备中,每个第二无人设备对应的
观测查询向量;第一无人设备可以基于第一值向量公式,得到该第一无人设备可观测到的个第二无人设备中,每个第二无人设备对应的观测值向量。
可选的,第一无人设备根据观测键向量和观测查询向量,确定无人设备中的第二无人设备对应的第一权重,可以包括:第一无人设备根据第一权重公式,确定无人设备中的第二无人设备对应的第一权重。
需要说明的是,不同的第二无人设备对应的第一权重可以是相同的,也可以是不同的,此处不作具体限定。
可选的,第一无人设备根据观测值向量和第一权重,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息,可以包括:第一无人设备根据观测特征公式,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
203、根据观测特征信息,基于预设的通信注意力网络,确定第二无人设备在当前时刻所对应的通信特征信息。
可选的,第一无人设备根据观测特征信息,基于预设的通信注意力网络,确定第二无人设备在当前时刻所对应的通信特征信息,可以包括:第一无人设备根据观测特征信息,确定第二无人设备在当前时刻所对应的通信信息;该第一无人设备基于预设的通信注意力网络,提取通信信息对应的通信键向量、通信查询向量和通信值向量;该第一无人设备根据通信键向量和通信查询向量,在第二无人设备中,确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重;该第一无人设备根据通信值向量和第二权重,确定目标无人设备在当前时刻所对应的通信特征信息。
可选的,第一无人设备根据观测特征信息,确定第二无人设备在当前时刻所对应的通信信息,可以包括:第一无人设备根据预设的通信注意力网络中的通信信息公式,得到第二无人设备在当前时刻所对应的通信信息。
可选的,第一无人设备基于预设的通信注意力网络,提取通信信息对应的通信键向量、通信查询向量和通信值向量,可以包括:第一无人设备基于第二键向量公式,得到观测信息对应的通信键向量;该第一无人设备基于第二查询向量公式,得到观测信息对应的通信查询向量;该第一无人设备基于第二值向量公式,得到观测信息对应的通信值向量。
可选的,可学习的第六参数矩阵是预设的通信注意力网络中基于历史观测信
息集和历史通信键向量集进行训练得到的;可学习的第七参数矩阵是预设的通信注意
力网络中基于历史观测信息集和历史通信查询向量集进行训练得到的;可学习的第八参数
矩阵是预设的通信注意力网络中基于历史观测信息集和历史通信值向量集进行训练得
到的。也即,可学习的第六参数矩阵、可学习的第七参数矩阵及可学习的第八参数矩
阵是该第一无人设备中预设的。
可选的,第一无人设备根据通信键向量和通信查询向量,在第二无人设备中,确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重,可以包括:第一无人设备根据第二权重公式,确定与第一无人设备通信连接的目标无人设备对应的第二权重。
可选的,第一无人设备根据通信值向量和第二权重,确定目标无人设备在当前时刻所对应的通信特征信息,可以包括:第一无人设备根据通信特征公式,确定目标无人设备在当前时刻所对应的通信特征信息。
204、获取第二无人设备在上一时刻所对应的第一环境嵌入特征。
205、根据观测特征信息、通信特信息征和第一环境嵌入特征,基于门控循环单元,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
206、根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作。
其中,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
需要说明的是,步骤204-206还可以与图1所示步骤102-103类似,此处不作具体赘述。
207、根据对抗动作,确定第一无人设备对应的奖惩函数。
可选的,第一无人设备根据对抗动作,确定第一无人设备对应的奖惩函数,可以包括:第一无人设备获取第一无人设备对应的状态信息;该第一无人设备根据状态信息和对抗动作,确定第一无人设备对应的个体惩罚函数;该第一无人设备根据观测信息中包括的第二无人设备的健康值,确定团队惩罚函数;该第一无人设备根据个体惩罚函数和团队惩罚函数,确定第一无人设备对应的奖惩函数。
其中,第一无人设备对应的状态信息可以包括但不限于:该第一无人设备对应的运动时长、运行速度、运行位置及健康值信息等。
可选的,第一无人设备根据状态信息和对抗动作,确定第一无人设备对应的个体惩罚函数,可以包括:第一无人设备获取第二无人设备对应的奖惩函数;该第一无人设备根据该第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作,确定该第一无人设备对应的势函数的目标值;该第一无人设备根据该势函数的目标值,确定该第一无人设备对的个体惩罚函数。
其中,第二无人设备对应的奖惩函数为
表示第一无人设备i对应的个体行为知识;表示第一超参数,表示第一
无人设备i时刻t攻击的第二无人设备中敌方无人设备的数量,表示第一无人设备i可
观测到的第二无人设备中,第k个第二无人设备在时刻t所对应的健康值信息,表示
第k个第二无人设备在时刻t+1所对应的健康值信息,表示第j个第二无人设备对应的
最大健康值信息;m表示敌方无人设备的总数量,也即,表示第二无人设备中除目标无人设
备的其他无人设备的数量。
可选的,第一无人设备根据第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作,确定该第一无人设备对应的势函数的目标值,可以包括:第一无人设备根据第二无人设备对应的奖惩函数和第一公式,确定该第一无人设备对应的势函数的目标值。
表示第一无人设备i对应的势函数的目标值;表示第一无人设备i在时
刻t所对应的状态信息;表示第一无人设备i在时刻t所对应的对抗动作;表示折扣因子;表示第一无人设备i对应的势函数;表示第一无人设备i在时刻t+1所对
应的状态信息;表示第一无人设备i在时刻t+1所对应的对抗动作。
208、利用奖惩函数对预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将更新后的分布式策略头网络作为第一无人设备中新的预设的分布式策略头网络。
在一些实施例中,预设的分布式策略头网络采用的是集中式训练分布式执行架构,该集中式训练分布式执行架构中的参数是基于最小化评价网络损失函数和分布式策略头网络损失函数进行更新的,从而可以得到更新后的分布式策略头网络。
分布式策略头网络损失函数为
,表示时序差分目标函数,表示第一无人设备i对应的奖惩函
数,表示评价网络值函数;表示均值;表示最小值,表示当前策略,表示更新前策略,表示第一无人设备i获取的无人设备对应的观测信息;
表示通过广义优势估计器得到的优势函数,a表示优势值;表示clip函数;表示第
三超参数。
第一无人设备在利用奖惩函数对预设的分布式策略头网络进行更新的过程中,可以判断该第一无人设备对应的对抗动作进行奖励或惩罚,即可有效确定该对抗动作的优劣,进一步准确且有效地优化该预设的分布式策略头网络中的参数,从而得到一个准确的更新后的分布式策略头网络。
需要说明的是,现有技术中,第一无人设备利用MAPPO方法对抗敌方无人设备,或,该第一无人设备利用ADRL方法对抗敌方无人设备。然而,MAPPO方法采用了集中式训练分布式执行架构,但未引入注意力机制;ADRL方法构建了观测注意力网络和通信注意力网络,但未引入基于势场的个体奖惩函数,这就使得该第一无无人设备无论是利用MAPPO方法,还是利用ADRL方法对抗敌方无人设备,都具有一定的局限性,从而使得该第一无人设备无法准确且有效地对抗敌方无人设备。
示例性的,如图3所示,是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图。在图3中,第一无人设备利用不同的方法对抗敌方无人设备的平均胜率。可以看出,第一无人设备利用本发明实施例提供的无人集群对抗方法对抗敌方无人设备的第一平均胜率是高于该第一无人设备利用MAPPO方法或ADRL方法对抗敌方无人设备的第二平均胜率,此外,该第一平均胜率的收敛速度也是快于该第二平均胜率的收敛速度。也就是说,本发明第一无人设备利用本发明实施例提供的无人集群对抗方法,可以更加准确且有效地对抗敌方无人设备,能够提高成功对抗敌方无人设备的概率。
示例性的,如表1所示,是本发明提供的基于注意力网络的无人集群对抗方法的胜率对比表格。表1:
在表1中,WR 表示胜率;10vs.10表示10个友方无人设备对抗10个敌方无人设备;10vs.15表示10个友方无人设备对抗15个敌方无人设备;15vs.15表示15个友方无人设备对抗15个敌方无人设备;15vs.20表示15个友方无人设备对抗20个敌方无人设备。从表1中可以看出,本发明实施例提供的无人集群对抗方法对应的胜率均高于MAPPO方法或ADRL方法对应的胜率。
如表2所示,是本发明提供的基于注意力网络的无人集群对抗方法的平均回合奖励对比表格。表2:
在表2中,MER表示平均回合奖励。从表2中可以看出,本发明实施例提供的无人集群对抗方法对应的平均回合奖励略高于MAPPO方法或ADRL方法对应的平均回合奖励。
如表3所示,是本发明提供的基于注意力网络的无人集群对抗方法的平均回合长度对比表格。表3:
在表3中,MEL表示平均回合长度。从表3中可以看出,本发明实施例提供的无人集群对抗方法对应的平均回合长度均低于MAPPO方法或ADRL方法对应的平均回合长度。
综上,基于表1、表2和表3中的指标数据可以看出,本发明实施例提供的基于注意力网络的无人集群对抗方法对应的性能指标均优于MAPPO方法或ADRL方法对应的性能指标。
示例性的,如图4所示,是本发明提供的基于注意力网络的无人集群对抗方法的场
景示意图。在图4中,黑色实体三角表示第一无人设备,黑色实体圆圈表示我方无人设备,黑
色实体方形表示敌方无人设备。第一无人设备获取的观测信息,该观测信息包括第一
无人设备可观测到的每个第二无人设备对应的观测信息αij;接着,该第一无人设备将该观
测信息输入至预设的观测注意力网络中,得到该预设的观测注意力网络输出的观测特征
信息;然后,该第一无人设备将该观测特征信息输入至预设的通信注意力网络中,得到
该预设的通信注意力网络输出的通信特征信息;接着,该第一无人设备根据获取的第一
环境嵌入特征ei(t-1),利用门控循环单元,得到当前环境嵌入特征ei(t);最后,该第一无人
设备将该当前环境嵌入特征ei(t)输入至预设的分布式策略头网络,得到该预设的分布式
策略头网络输出的当前策略。
此外,该第一无人设备还会获取该第一无人设备对应的状态信息;然后,该第一
无人设备将该状态信息输入至评价网络,得到该评价网络输出的评价网络值函数;
接着,该第一无人设备获取团队惩罚函数为和个体惩罚函数为;最后,该第一无人
设备根据该团队惩罚函数为、该个体惩罚函数为和该评价网络值函数更新
预设的分布式策略头网络中的参数。其中,该参数可以包括:最小化损失函数为、最小化
评价网络损失函数为及分布式策略头网络损失函数为。
示例性的,如图5所示,是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图。在图5中,我方无人设备与敌方无人设备进行有效对抗。
可选的,步骤208之后,该方法还可以包括但不限于以下其中一种实现方式:
实现方式1:第一无人设备在未检测到第二无人设备的情况下,停止对预设的分布式策略头网络进行更新。
实现方式2:第一无人设备在检测该第一无人设备的运动时长达到预设运行时长阈值的情况下,停止对预设的分布式策略头网络进行更新。可选的,该预设运动时长阈值可以是第一无人设备出厂前设置的,也可以是用户根据实际情况自定义的,此处不作具体限定。
示例性的,假设预设运动时长阈值为150步。第一无人设备检测到该第一无人设备的当前运行时长为148步,此时,继续对该第一无人设备中预设的分布式策略头网络进行更新,直到该第一无人设备检测到该第一无人设备的当前运行时长为150步,已达到预设运动时长阈值150步,此时,停止对预设的分布式策略头网络进行更新。
在本发明实施例中,该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,不仅可以实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群,还可以在对抗其它集群的过程中,自动更新该第一无人设备中的预设的分布式策略头网络,从而提高第一无人设备的自主决策能力,以便后续更加准确且有效地对抗其它无人集群。
需要说明的是,步骤207和208还可以与图1所示步骤104结合,形成新的实施例,该新的实施例也都在本发明实施例保护的范围内,此处不作具体赘述。
下面对本发明提供的无人集群对抗装置进行描述,下文描述的无人集群对抗装置与上文描述的基于注意力网络的无人集群对抗方法可相互对应参照。
如图6所示,是本发明提供的无人集群对抗装置的结构示意图,应用于第一无人设备,可以包括:
获取模块601,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块602,用于根据该观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
可选的,获取模块601,具体用于获取第二无人设备在该当前时刻所对应的观测信息;
确定模块602,具体用于根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息;根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息。
可选的,确定模块602包括提取单元6021和确定单元6022;
提取单元6021,具体用于基于预设的观测注意力网络,提取该观测信息对应的信息特征;
确定单元6022,具体用于根据该信息特征,确定该观测信息对应的观测键向量、观测查询向量和观测值向量;根据该观测键向量和该观测查询向量,确定该无人设备中的第二无人设备对应的第一权重;根据该观测值向量和该第一权重,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。
可选的,提取单元6021,具体用于根据该观测特征信息,确定该第二无人设备在该当前时刻所对应的通信信息;
确定单元6022,具体用于基于预设的通信注意力网络,提取该通信信息对应的通信键向量、通信查询向量和通信值向量;根据该通信键向量和该通信查询向量,在该第二无人设备中,确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重;根据该通信值向量和该第二权重,确定该目标无人设备在该当前时刻所对应的通信特征信息。
可选的,获取模块601,具体用于获取该第二无人设备在上一时刻所对应的第一环境嵌入特征;
确定单元6022,具体用于根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
可选的,确定单元6022,具体用于根据该观测特征信息、该通信特信息征和该第一环境嵌入特征,基于门控循环单元,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
可选的,确定单元6022,具体用于根据该对抗动作,确定该第一无人设备对应的奖惩函数;
无人集群对抗装置还包括更新模块603;更新模块603,用于利用该奖惩函数对该预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。
可选的,获取模块601,具体用于获取该第一无人设备对应的状态信息;
确定单元6022,具体用于根据该状态信息和该对抗动作,确定该第一无人设备对应的个体惩罚函数;根据该观测信息中包括的该第二无人设备的健康值,确定团队惩罚函数;根据该个体惩罚函数和该团队惩罚函数,确定该第一无人设备对应的奖惩函数。
图7示例了一种无人设备的实体结构示意图,如图7所示,该无人设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于注意力网络的无人集群对抗方法,其特征在于,应用于第一无人设备,所述方法包括:
根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,所述无人设备包括所述第一无人设备和所述第二无人设备;
根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征;
根据所述当前环境嵌入特征,基于预设的分布式策略头网络,确定所述第一无人设备的对抗动作,所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
2.根据权利要求1所述的无人集群对抗方法,其特征在于,所述根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,包括:
获取无人设备在当前时刻所对应的观测信息;
根据所述观测信息,基于预设的观测注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息;
根据所述观测特征信息,基于预设的通信注意力网络,确定所述第二无人设备在所述当前时刻所对应的通信特征信息。
3.根据权利要求2所述的无人集群对抗方法,其特征在于,所述根据所述观测信息,基于预设的观测注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息,包括:
基于预设的观测注意力网络,提取所述观测信息对应的信息特征;
根据所述信息特征,确定所述观测信息对应的观测键向量、观测查询向量和观测值向量;
根据所述观测键向量和所述观测查询向量,确定所述无人设备中的第二无人设备对应的第一权重;
根据所述观测值向量和所述第一权重,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息。
4.根据权利要求2所述的无人集群对抗方法,其特征在于,所述根据所述观测特征信息,基于预设的通信注意力网络,确定所述第二无人设备在所述当前时刻所对应的通信特征信息,包括:
根据所述观测特征信息,确定所述第二无人设备在所述当前时刻所对应的通信信息;
基于预设的通信注意力网络,提取所述通信信息对应的通信键向量、通信查询向量和通信值向量;
根据所述通信键向量和所述通信查询向量,在所述第二无人设备中,确定与所述第一无人设备通信连接的目标无人设备及所述目标无人设备对应的第二权重;
根据所述通信值向量和所述第二权重,确定所述目标无人设备在所述当前时刻所对应的通信特征信息。
5.根据权利要求2-4中任一项所述的无人集群对抗方法,其特征在于,所述根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征,包括:
获取所述第二无人设备在上一时刻所对应的第一环境嵌入特征;
根据所述特征信息和所述第一环境嵌入特征,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。
6.根据权利要求5所述的无人集群对抗方法,其特征在于,所述根据所述特征信息和所述第一环境嵌入特征,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征,包括:
根据所述观测特征信息、所述通信特信息征和所述第一环境嵌入特征,基于门控循环单元,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。
7.根据权利要求1、2、3、4或6所述的无人集群对抗方法,其特征在于,所述方法还包括:
根据所述对抗动作,确定所述第一无人设备对应的奖惩函数;
利用所述奖惩函数对所述预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将所述更新后的分布式策略头网络作为所述第一无人设备中新的预设的分布式策略头网络。
8.根据权利要求7所述的无人集群对抗方法,其特征在于,所述根据所述对抗动作,确定所述第一无人设备对应的奖惩函数,包括:
获取所述第一无人设备对应的状态信息;
根据所述状态信息和所述对抗动作,确定所述第一无人设备对应的个体惩罚函数;
根据所述观测信息中包括的所述第二无人设备的健康值,确定团队惩罚函数;
根据所述个体惩罚函数和所述团队惩罚函数,确定所述第一无人设备对应的奖惩函数。
9.一种无人集群对抗装置,其特征在于,应用于第一无人设备,包括:
获取模块,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块,用于根据所述观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,所述无人设备包括所述第一无人设备和所述第二无人设备;根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征;根据所述当前环境嵌入特征,基于预设的分布式策略头网络,确定所述第一无人设备的对抗动作,所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
10.一种无人设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述基于注意力网络的无人集群对抗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745988.9A CN114815904B (zh) | 2022-06-29 | 2022-06-29 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745988.9A CN114815904B (zh) | 2022-06-29 | 2022-06-29 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114815904A true CN114815904A (zh) | 2022-07-29 |
CN114815904B CN114815904B (zh) | 2022-09-27 |
Family
ID=82523518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745988.9A Active CN114815904B (zh) | 2022-06-29 | 2022-06-29 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114815904B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826638A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 基于重复注意力网络的零样本图像分类模型及其方法 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
US20200366690A1 (en) * | 2019-05-16 | 2020-11-19 | Nec Laboratories America, Inc. | Adaptive neural networks for node classification in dynamic networks |
CN112257434A (zh) * | 2019-07-02 | 2021-01-22 | Tcl集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
CN112257850A (zh) * | 2020-10-26 | 2021-01-22 | 河南大学 | 一种基于生成对抗网络的车辆轨迹预测方法 |
US20210064883A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment |
CN112667080A (zh) * | 2020-12-28 | 2021-04-16 | 西安电子科技大学 | 基于深度卷积对抗网络的脑电信号无人平台智能控制方法 |
CN113128021A (zh) * | 2021-03-12 | 2021-07-16 | 合肥工业大学 | 多无人平台协同对抗的实时重决策方法和系统 |
CN113139656A (zh) * | 2021-04-26 | 2021-07-20 | 大连海事大学 | 一种类脑快慢双通路无人自主决策方法 |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
CN113469125A (zh) * | 2021-07-20 | 2021-10-01 | 中国人民解放军国防科技大学 | 多无人机协同信号识别方法及识别系统 |
WO2021208771A1 (zh) * | 2020-04-18 | 2021-10-21 | 华为技术有限公司 | 强化学习的方法和装置 |
CN114118276A (zh) * | 2021-11-29 | 2022-03-01 | 北京触达无界科技有限公司 | 一种网络训练的方法、控制方法以及装置 |
CN114332569A (zh) * | 2022-03-17 | 2022-04-12 | 南京理工大学 | 基于注意力机制的低扰动对抗攻击方法 |
CN114567888A (zh) * | 2022-03-04 | 2022-05-31 | 重庆邮电大学 | 一种多无人机动态部署方法 |
-
2022
- 2022-06-29 CN CN202210745988.9A patent/CN114815904B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200366690A1 (en) * | 2019-05-16 | 2020-11-19 | Nec Laboratories America, Inc. | Adaptive neural networks for node classification in dynamic networks |
CN112257434A (zh) * | 2019-07-02 | 2021-01-22 | Tcl集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
US20210064883A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment |
CN110826638A (zh) * | 2019-11-12 | 2020-02-21 | 福州大学 | 基于重复注意力网络的零样本图像分类模型及其方法 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
WO2021208771A1 (zh) * | 2020-04-18 | 2021-10-21 | 华为技术有限公司 | 强化学习的方法和装置 |
CN112257850A (zh) * | 2020-10-26 | 2021-01-22 | 河南大学 | 一种基于生成对抗网络的车辆轨迹预测方法 |
CN112667080A (zh) * | 2020-12-28 | 2021-04-16 | 西安电子科技大学 | 基于深度卷积对抗网络的脑电信号无人平台智能控制方法 |
CN113128021A (zh) * | 2021-03-12 | 2021-07-16 | 合肥工业大学 | 多无人平台协同对抗的实时重决策方法和系统 |
CN113139656A (zh) * | 2021-04-26 | 2021-07-20 | 大连海事大学 | 一种类脑快慢双通路无人自主决策方法 |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
CN113469125A (zh) * | 2021-07-20 | 2021-10-01 | 中国人民解放军国防科技大学 | 多无人机协同信号识别方法及识别系统 |
CN114118276A (zh) * | 2021-11-29 | 2022-03-01 | 北京触达无界科技有限公司 | 一种网络训练的方法、控制方法以及装置 |
CN114567888A (zh) * | 2022-03-04 | 2022-05-31 | 重庆邮电大学 | 一种多无人机动态部署方法 |
CN114332569A (zh) * | 2022-03-17 | 2022-04-12 | 南京理工大学 | 基于注意力机制的低扰动对抗攻击方法 |
Non-Patent Citations (1)
Title |
---|
刘强 等: "基于深度强化学习的群体对抗策略研究", 《智能计算机与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
CN115793717B (zh) * | 2023-02-13 | 2023-05-05 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114815904B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669110B2 (en) | Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation | |
CN108731684B (zh) | 一种多无人机协同区域监视的航路规划方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN112198892B (zh) | 一种多无人机智能协同突防对抗方法 | |
CN112051863A (zh) | 一种无人机自主反侦察及躲避敌方攻击的方法 | |
CN109960148B (zh) | 一种智能无人系统的自主性评估方法及系统 | |
CN104881043A (zh) | 一种针对多动态目标的多无人机智能协同察打方法 | |
CN105678030B (zh) | 基于专家系统和战术战法分形化的空战战术团队仿真方法 | |
Tu et al. | Path planning and obstacle avoidance based on reinforcement learning for UAV application | |
CN114815904B (zh) | 基于注意力网络的无人集群对抗方法、装置及无人设备 | |
CN112766329B (zh) | 一种多无人艇协同拦截控制方法及系统 | |
CN113110546B (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN113434966B (zh) | 基于弹性力场的蜂群避撞控制方法 | |
CN113536564B (zh) | 基于虚拟仿真的无人蜂群自主协同评估方法及系统 | |
CN116360503A (zh) | 一种无人机博弈对抗策略生成方法、系统及电子设备 | |
CN116560409A (zh) | 基于maddpg-r的无人机集群路径规划仿真方法 | |
CN114679729A (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN114510817A (zh) | 一种用于无人机滑翔路径规划的风场感知算法 | |
CN112925345B (zh) | 一种仿狼群狩猎行为的无人作战飞机集群合围控制方法 | |
TR2021014085A2 (tr) | Tecrübe i̇le sürekli̇ öğrenen otonom sanal si̇mülatör varliklari | |
CN114815900B (zh) | 无人集群对抗方法、装置、电子设备及存储介质 | |
CN117572893B (zh) | 基于强化学习的无人机集群对抗策略获取方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |