CN114815904A - 基于注意力网络的无人集群对抗方法、装置及无人设备 - Google Patents

基于注意力网络的无人集群对抗方法、装置及无人设备 Download PDF

Info

Publication number
CN114815904A
CN114815904A CN202210745988.9A CN202210745988A CN114815904A CN 114815904 A CN114815904 A CN 114815904A CN 202210745988 A CN202210745988 A CN 202210745988A CN 114815904 A CN114815904 A CN 114815904A
Authority
CN
China
Prior art keywords
unmanned
observation
determining
information
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210745988.9A
Other languages
English (en)
Other versions
CN114815904B (zh
Inventor
丘腾海
张天乐
蒲志强
刘振
易建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210745988.9A priority Critical patent/CN114815904B/zh
Publication of CN114815904A publication Critical patent/CN114815904A/zh
Application granted granted Critical
Publication of CN114815904B publication Critical patent/CN114815904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备,涉及无人设备自动化技术领域,该方法包括:根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的特征信息,无人设备包括第一无人设备和第二无人设备;根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。该方法可实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。

Description

基于注意力网络的无人集群对抗方法、装置及无人设备
技术领域
本发明涉及无人设备自动化技术技术领域,尤其涉及一种基于注意力网络的无人集群对抗方法、装置及无人设备。
背景技术
随着科学技术的发展,由于无人设备(例如无人机、无人车等)具有高机动性、强隐蔽性和无人驾驶等特点,所以,该无人设备可广泛应用于各类军事场景,比如探测、监视和对抗等高动态复杂环境。
在现有的集群对抗方法中,第一无人集群通常利用多智能体(Multi-Agent PPO,MAPPO)方法或自回归分布滞后模型(Autoregressive Distributed Lag,ADRL)方法对其它无人集群进行对抗。由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,所以,无论该第一无人集群是利用MAPPO方法,还是利用ADRL方法,都会导致该第一无人集群无法准确且有效地对抗其它无人集群。
发明内容
本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备,用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
本发明提供一种基于注意力网络的无人集群对抗方法,应用于第一无人设备,该方法包括:
根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;
根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;
根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
根据本发明提供的一种无人集群对抗方法,该根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,包括:获取无人设备在当前时刻所对应的观测信息;根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息;根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息,包括:基于预设的观测注意力网络,提取该观测信息对应的信息特征;根据该信息特征,确定该观测信息对应的观测键向量、观测查询向量和观测值向量;根据该观测键向量和该观测查询向量,确定该无人设备中的第二无人设备对应的第一权重;根据该观测值向量和该第一权重,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息,包括:根据该观测特征信息,确定该第二无人设备在该当前时刻所对应的通信信息;基于预设的通信注意力网络,提取该通信信息对应的通信键向量、通信查询向量和通信值向量;根据该通信键向量和该通信查询向量,在该第二无人设备中,确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重;根据该通信值向量和该第二权重,确定该目标无人设备在该当前时刻所对应的通信特征信息。
根据本发明提供的一种无人集群对抗方法,该根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,包括:获取该第二无人设备在上一时刻所对应的第一环境嵌入特征;根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
根据本发明提供的一种无人集群对抗方法,该根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,包括:根据该观测特征信息、该通信特信息征和该第一环境嵌入特征,基于门控循环单元,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
根据本发明提供的一种无人集群对抗方法,该方法还包括:根据该对抗动作,确定该第一无人设备对应的奖惩函数;利用该奖惩函数对该预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。
根据本发明提供的一种无人集群对抗方法,该根据该对抗动作,确定该第一无人设备对应的奖惩函数,包括:获取该第一无人设备对应的状态信息;根据该状态信息和该对抗动作,确定该第一无人设备对应的个体惩罚函数;根据该观测信息中包括的该第二无人设备的健康值,确定团队惩罚函数;根据该个体惩罚函数和该团队惩罚函数,确定该第一无人设备对应的奖惩函数。
本发明还提供一种无人集群对抗装置,应用于第一无人设备,包括:
获取模块,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块,用于根据该观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
本发明还提供一种无人设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。
本发明提供的基于注意力网络的无人集群对抗方法、装置及无人设备,通过第一无人设备根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,可以准确确定该第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备,也就是说,该特征信息的准确性较高;根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征,该当前环境嵌入特征的准确性也较高;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。也即,第一无人设备可基于获取到的观测信息,准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之一;
图2是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之二;
图3是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图;
图4是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之一;
图5是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之二;
图6是本发明提供的无人集群对抗装置的结构示意图;
图7是本发明提供的无人设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例涉及的无人驾驶设备(简称:无人设备)可以包括但不限于:无人机,无人车及无人船等。
上述无人设备指的是不载人设备。其中,无人机指的是不载人飞机,无人车指的是不载人车辆,无人船指的是不载人船只。
在一些实施例中,不同的无人设备之间可以连接同一个无线通信技术,该无线通信技术可以包括但不限于以下其中一项:第四代通讯技术(the 4 Generation mobilecommunication technology,4G)、第五代通讯技术(the 5 Generation mobilecommunication technology,5G)及无线保真技术(Wireless Fidelity,WiFi)等。
需要说明的是,本发明实施例的执行主体可以是无人集群对抗装置,也可以是第一无人设备。下面以第一无人设备为例对基于注意力网络的无人集群对抗方法进行进一步地说明。
如图1所示,是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图,可以包括:
101、根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的特征信息。
其中,无人设备包括第一无人设备和第二无人设备。
该第二无人设备为该第一无人设备周围的无人设备。
第一无人设备不仅要获取自身在当前时刻所对应的观测信息,还要获取周围的第二无人设备在当前时刻所对应的观测信息;然后,该第一无人设备再根据获取的所有观测信息,基于预设的注意力网络,可准确得到该第二无人设备对应的特征信息。
可选的,观测信息可以包括但不限于以下至少一项:位置信息、速度信息及健康值信息等。
可选的,位置信息可以包括但不限于:经度信息和纬度信息等;速度信息可以包括但不限于:运行速度信息和运行加速度信息等;健康值信息可以包括但不限于:姿态数据信息和电池电量信息等。
可选的,预设的注意力网络可以包括但不限于:预设的观测注意力网络和预设的通信注意力网络等。
特征信息可以包括但不限于:观测特征信息和通信特征信息等。
其中,预设的观测注意力网络可以用于得到无人设备中的第二无人设备在当前时刻所对应的观测特征信息;预设的通信注意力网络可以用于得到该第二无人设备在当前时刻所对应的通信特征信息。
在一些实施例中,第一无人设备获取无人设备在当前时刻所对应的特征信息,可以包括:第一无人设备在预设距离范围内,获取无人设备在当前时刻所对应的特征信息。
可选的,预设距离范围指的是第一无人设备可观测到的距离范围,该预设距离范围可以是第一无人设备出厂前设置的,也可以是用户根据大量仿真实验数据得到的,此处不作具体限定。也就是说,第二无人设备为第一无人设备可观测到的无人设备。
示例性的,假设预设距离范围为10米(m)。第一无人设备可以在以该第一无人设备为中心,半径为10 m的范围内,获取该第一无人设备及第二无人设备在当前时刻所对应的特征信息。
在一些实施例中,第二无人设备中的部分无人设备为第一无人设备的友方无人设备,也可称为我方无人设备或目标无人设备,该第二无人设备中除友方无人设备以外的无人设备为该第一无人设备的敌方无人设备。
可选的,敌方无人设备的数量为至少一个,友方无人设备的数量不限。也就是说,第二无人设备的数量为至少一个。当第二无人设备的数量为一个时,该第二无人设备应为敌方无人设备,否则,第一无人设备无法实现与第二无人设备进行有效对抗。
102、根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
可选的,第一无人设备根据特征信息,确定第二无人设备在当前时刻所对应的当前环境嵌入特征,可以包括:第一无人设备获取第二无人设备在上一时刻所对应的第一环境嵌入特征;该第一无人设备根据特征信息和第一环境嵌入特征,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
可选的,环境嵌入特征可以包括但不限于:天气特征、地形特征及障碍物特征等。
可选的,该天气特征可包括但不限于以下至少一项:风速、雨量、气压、温度及湿度等;地形特征可包括但不限于以下至少一项:地物特征、地貌特征、土壤特征、植被特征、居民点特征及交通线特征等。
其中,障碍物特征指的是能够迟滞或阻止第一无人设备运动的物体特征。
在一些实施例中,当前时刻上一时刻是相邻的。
可选的,第一无人设备根据特征信息和第一环境嵌入特征,确定第二无人设备在当前时刻所对应的当前环境嵌入特征,可以包括:根据观测特征信息、通信特信息征和第一环境嵌入特征,基于门控循环单元,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
门控循环单元(Gated Recurrent Unit,GRU)是一种门控循环神经网络(GatedRecurrent Neural Network,GRNN),可较好捕捉时间序列中时间步距离较大的依赖关系。也就是说,第一无人设备利用第二无人设备在当前时刻所对应的观测特征信息和通信特信息征及上一时刻所对应的第一环境嵌入特征,利用GRU,可准确得到第二无人设备在当前时刻所对应的当前环境嵌入特征。
103、根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作。
其中,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
可选的,对抗动作可以看作是一个空间,称为对抗动作空间。该对抗动作空间可以分为机动动作空间和打击动作空间。该机动动作控制可以包括但不限于:停止动作、速度动作、航向角动作及俯仰角动作等;该打击动作空间可以包括但不限于:载荷方位角动作和载荷俯仰角动作等。
示例性的,机动动作控制可以包括但不限于:1个停止动作、3个速度动作、8个航向角动作及5个俯仰角动作;打击动作空间可以包括但不限于:8个载荷方位角动作和5个载荷俯仰角动作。
由于预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的,所以,第一无人设备在获取当前环境嵌入特征之后,可以将该当前环境嵌入特征输入至该预设的分布式策略头网络中,得到该预设的分布式策略头网络输出的准确的对抗动作,使得该第一无人设备可有效对抗第二无人设备中的敌方无人设备。
在本发明实施例中,第一无人设备可基于获取到的该第一无人设备和第二无人设备对应的观测信息,准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群。
如图2所示,是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图,可以包括:
201、获取无人设备在当前时刻所对应的观测信息。
其中,无人设备包括第一无人设备和第二无人设备。
第一无人设备需要获取该第一无人设备及至少一个无人设备中的每个第二无人设备在当前时刻所对应的观测信息,也就是说,该观测信息的数量为至少一个。
其中,至少一个观测信息可以作为一个观测信息矩阵。
202、根据观测信息,基于预设的观测注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
可选的,第一无人设备根据观测信息,基于预设的观测注意力网络,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息,可以包括:第一无人设备基于预设的观测注意力网络,提取观测信息对应的信息特征;该第一无人设备根据信息特征,确定观测信息对应的观测键向量、观测查询向量和观测值向量;该第一无人设备根据观测键向量和观测查询向量,确定无人设备中的第二无人设备对应的第一权重;该第一无人设备根据观测值向量和第一权重,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
可选的,第一无人设备基于预设的观测注意力网络,提取观测信息对应的信息特征,可以包括:第一无人设备基于预设的观测注意力网络中的第一特征提取公式,确定观测信息对应的信息特征。
其中,第一特征提取公式为
Figure 423176DEST_PATH_IMAGE001
ck表示第一无人设备i在可观测到的无人设备中,第k个无人设备在当前时刻所对 应的观测信息,
Figure 130494DEST_PATH_IMAGE002
表示观测信息ck对应的信息特征,WN表示可学习的第一参数矩阵;
Figure 998087DEST_PATH_IMAGE003
表示 第一无人设备i可观测到的无人设备的数量。
k≠i说明第一无人设备i在可观测到的无人设备中,第一无人设备i无法确定该第 一无人设备i自身所对应的观测信息ck,也无法确定观测信息ci对应的信息特征
Figure 631194DEST_PATH_IMAGE004
。也就是 说,ck表示该第一无人设备i在可观测到的第二无人设备中,第k个第二无人设备在当前时 刻所对应的观测信息。
可选的,可学习的第一参数矩阵WN是预设的观测注意力网络中基于历史观测信息集和历史信息特征集进行训练得到的,也就是说,可学习的第一参数矩阵WN是该第一无人设备中预设的。
第一无人设备可以基于第一特征公式,得到该第一无人设备可观测到的
Figure 840196DEST_PATH_IMAGE005
个第二 无人设备中,每个第二无人设备对应的信息特征。
可选的,第一无人设备根据信息特征,确定观测信息对应的观测键向量、观测查询向量和观测值向量,可以包括:第一无人设备基于第一键向量公式,得到观测信息对应的观测键向量;该第一无人设备基于第一查询向量公式,得到观测信息对应的观测查询向量;该第一无人设备基于第一值向量公式,得到观测信息对应的观测值向量。
其中,第一键向量公式为
Figure 193948DEST_PATH_IMAGE006
Figure 306260DEST_PATH_IMAGE007
表示观测键向量;
Figure 346154DEST_PATH_IMAGE008
表示可学习的第二参 数矩阵。
第一查询向量公式为
Figure 419283DEST_PATH_IMAGE009
Figure 701360DEST_PATH_IMAGE010
表示观测查询向量;
Figure 42080DEST_PATH_IMAGE011
表示可学习的第三参 数矩阵。
第一值向量公式为
Figure 16990DEST_PATH_IMAGE012
Figure 170890DEST_PATH_IMAGE013
表示观测值向量;
Figure 899068DEST_PATH_IMAGE014
表示可学习的第四参数矩 阵。
可选的,可学习的第二参数矩阵
Figure 454815DEST_PATH_IMAGE015
是预设的通信注意力网络中基于历史观测信 息集和历史观测键向量集进行训练得到的;可学习的第三参数矩阵
Figure 866204DEST_PATH_IMAGE011
是预设的通信注意 力网络中基于历史观测信息集和历史观测查询向量集进行训练得到的;可学习的第四参数 矩阵
Figure 881303DEST_PATH_IMAGE014
是预设的通信注意力网络中基于历史观测信息集和历史观测值向量集进行训练得 到的。也就是说,可学习的第二参数矩阵
Figure 770761DEST_PATH_IMAGE015
、可学习的第三参数矩阵
Figure 446593DEST_PATH_IMAGE011
及可学习的第四参 数矩阵
Figure 151855DEST_PATH_IMAGE014
是该第一无人设备中预设的。
第一无人设备可以基于第一键向量公式,得到该第一无人设备可观测到的
Figure 545927DEST_PATH_IMAGE016
个第 二无人设备中,每个第二无人设备对应的观测键向量;第一无人设备可以基于第一查询向 量公式,得到该第一无人设备可观测到的
Figure 973497DEST_PATH_IMAGE017
个第二无人设备中,每个第二无人设备对应的 观测查询向量;第一无人设备可以基于第一值向量公式,得到该第一无人设备可观测到的
Figure 612158DEST_PATH_IMAGE017
个第二无人设备中,每个第二无人设备对应的观测值向量。
可选的,第一无人设备根据观测键向量和观测查询向量,确定无人设备中的第二无人设备对应的第一权重,可以包括:第一无人设备根据第一权重公式,确定无人设备中的第二无人设备对应的第一权重。
其中,第一权重公式为
Figure 365350DEST_PATH_IMAGE018
Figure 981139DEST_PATH_IMAGE019
表示第一无人设备i在可观测到的第二无人设备中,第k个第二无人设备对应 的第一权重;
Figure 854811DEST_PATH_IMAGE020
表示观测键向量
Figure 239656DEST_PATH_IMAGE021
的维数,
Figure 272072DEST_PATH_IMAGE022
表示第一无人设备i对应的查询向量,
Figure 375157DEST_PATH_IMAGE023
表示归一化指数函数。
需要说明的是,不同的第二无人设备对应的第一权重可以是相同的,也可以是不同的,此处不作具体限定。
第一无人设备可以基于第一权重公式,得到该第一无人设备可观测到的
Figure 410109DEST_PATH_IMAGE003
个第二 无人设备中,每个第二无人设备对应的第一权重。
可选的,第一无人设备根据观测值向量和第一权重,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息,可以包括:第一无人设备根据观测特征公式,确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。
其中,观测特征公式为
Figure 557450DEST_PATH_IMAGE024
Figure 121287DEST_PATH_IMAGE025
表示第一无人设备i可观测到的第二无人设备所对应的观测特征信息;
Figure 852613DEST_PATH_IMAGE026
表 示可学习的第五参数矩阵。
可选的,可学习的第五参数矩阵
Figure 924212DEST_PATH_IMAGE027
是预设的通信注意力网络中基于历史观测值 向量集和历史观测特征信息集进行训练得到的,也就是说,可学习的第五参数矩阵
Figure 18070DEST_PATH_IMAGE028
是 该第一无人设备中预设的。
第一无人设备可以基于观测特征公式,得到该第一无人设备可观测到的
Figure 159333DEST_PATH_IMAGE003
个第二 无人设备中,每个第二无人设备对应的观测特征信息。
203、根据观测特征信息,基于预设的通信注意力网络,确定第二无人设备在当前时刻所对应的通信特征信息。
可选的,第一无人设备根据观测特征信息,基于预设的通信注意力网络,确定第二无人设备在当前时刻所对应的通信特征信息,可以包括:第一无人设备根据观测特征信息,确定第二无人设备在当前时刻所对应的通信信息;该第一无人设备基于预设的通信注意力网络,提取通信信息对应的通信键向量、通信查询向量和通信值向量;该第一无人设备根据通信键向量和通信查询向量,在第二无人设备中,确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重;该第一无人设备根据通信值向量和第二权重,确定目标无人设备在当前时刻所对应的通信特征信息。
可选的,第一无人设备根据观测特征信息,确定第二无人设备在当前时刻所对应的通信信息,可以包括:第一无人设备根据预设的通信注意力网络中的通信信息公式,得到第二无人设备在当前时刻所对应的通信信息。
其中,通信信息公式为通信信息
Figure 472896DEST_PATH_IMAGE029
Figure 115230DEST_PATH_IMAGE030
表示第一无人设备i可观测到的第二无人设备中,第j个第二无人设备所对应 的通信信息,
Figure 204539DEST_PATH_IMAGE031
表示第j个第二无人设备对应的观测特征信息,
Figure 874293DEST_PATH_IMAGE032
表示第一无人设备i可观 测到的第二无人设备中友方无人设备的数量。
第一无人设备可以基于通信信息公式,得到该第一无人设备可观测到的
Figure 439267DEST_PATH_IMAGE033
个第二 无人设备中,每个第二无人设备对应的通信信息。
可选的,第一无人设备基于预设的通信注意力网络,提取通信信息对应的通信键向量、通信查询向量和通信值向量,可以包括:第一无人设备基于第二键向量公式,得到观测信息对应的通信键向量;该第一无人设备基于第二查询向量公式,得到观测信息对应的通信查询向量;该第一无人设备基于第二值向量公式,得到观测信息对应的通信值向量。
其中,第二键向量公式为
Figure 229499DEST_PATH_IMAGE034
Figure 53275DEST_PATH_IMAGE035
表示通信键向量;
Figure 395394DEST_PATH_IMAGE036
表示可学习的第六参 数矩阵。
第二查询向量公式为
Figure 57451DEST_PATH_IMAGE037
Figure 8964DEST_PATH_IMAGE038
表示通信查询向量;
Figure 463079DEST_PATH_IMAGE039
表示可学习的第七参数 矩阵。
第二值向量公式为
Figure 851466DEST_PATH_IMAGE040
Figure 892497DEST_PATH_IMAGE041
表示通信值向量;
Figure 149166DEST_PATH_IMAGE042
表示可学习的第八参数矩 阵。
可选的,可学习的第六参数矩阵
Figure 67574DEST_PATH_IMAGE036
是预设的通信注意力网络中基于历史观测信 息集和历史通信键向量集进行训练得到的;可学习的第七参数矩阵
Figure 515611DEST_PATH_IMAGE039
是预设的通信注意 力网络中基于历史观测信息集和历史通信查询向量集进行训练得到的;可学习的第八参数 矩阵
Figure 11314DEST_PATH_IMAGE042
是预设的通信注意力网络中基于历史观测信息集和历史通信值向量集进行训练得 到的。也即,可学习的第六参数矩阵
Figure 212620DEST_PATH_IMAGE036
、可学习的第七参数矩阵
Figure 611633DEST_PATH_IMAGE039
及可学习的第八参数矩 阵
Figure 607402DEST_PATH_IMAGE042
是该第一无人设备中预设的。
第一无人设备可以基于第二键向量公式、第二查询向量公式及第二值向量公式, 得到该第一无人设备可观测到的
Figure 855981DEST_PATH_IMAGE043
个第二无人设备中,每个第二无人设备分别对应的通信 键向量、通信查询向量及通信值向量。
可选的,第一无人设备根据通信键向量和通信查询向量,在第二无人设备中,确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重,可以包括:第一无人设备根据第二权重公式,确定与第一无人设备通信连接的目标无人设备对应的第二权重。
其中,第二权重公式为
Figure 952988DEST_PATH_IMAGE044
Figure 845989DEST_PATH_IMAGE045
表示第一无人设备i可观测到的第二无人设备中,第j个目标无人设备对应的第 二权重;
Figure 137293DEST_PATH_IMAGE046
表示通信键向量
Figure 374632DEST_PATH_IMAGE047
的维数,
Figure 652161DEST_PATH_IMAGE048
表示第一无人设备i对应的查询向量。
第一无人设备可以基于第二权重公式,得到该第一无人设备可观测到的
Figure 258723DEST_PATH_IMAGE049
个目标 无人设备中,每个目标无人设备对应的第二权重。
可选的,第一无人设备根据通信值向量和第二权重,确定目标无人设备在当前时刻所对应的通信特征信息,可以包括:第一无人设备根据通信特征公式,确定目标无人设备在当前时刻所对应的通信特征信息。
其中,通信特征公式为
Figure 485043DEST_PATH_IMAGE050
Figure 318001DEST_PATH_IMAGE051
表示第一无人设备i可观测到的目标无人设备对应的通信特征信息;
Figure 258275DEST_PATH_IMAGE052
表示可 学习的第九参数矩阵。
可选的,可学习的第九参数矩阵
Figure 763685DEST_PATH_IMAGE052
是预设的通信注意力网络中基于历史通信值 向量集和历史通信特征信息集进行训练得到的,也就是说,可学习的第九参数矩阵
Figure 272158DEST_PATH_IMAGE052
是 该第一无人设备中预设的。
第一无人设备可基于通信特征公式,得到该第一无人设备可观测到的
Figure 717046DEST_PATH_IMAGE053
个目标无 人设备中,每个目标无人设备对应的观测特征信息。
204、获取第二无人设备在上一时刻所对应的第一环境嵌入特征。
205、根据观测特征信息、通信特信息征和第一环境嵌入特征,基于门控循环单元,确定第二无人设备在当前时刻所对应的当前环境嵌入特征。
206、根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作。
其中,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
需要说明的是,步骤204-206还可以与图1所示步骤102-103类似,此处不作具体赘述。
207、根据对抗动作,确定第一无人设备对应的奖惩函数。
可选的,第一无人设备根据对抗动作,确定第一无人设备对应的奖惩函数,可以包括:第一无人设备获取第一无人设备对应的状态信息;该第一无人设备根据状态信息和对抗动作,确定第一无人设备对应的个体惩罚函数;该第一无人设备根据观测信息中包括的第二无人设备的健康值,确定团队惩罚函数;该第一无人设备根据个体惩罚函数和团队惩罚函数,确定第一无人设备对应的奖惩函数。
其中,第一无人设备对应的状态信息可以包括但不限于:该第一无人设备对应的运动时长、运行速度、运行位置及健康值信息等。
可选的,第一无人设备根据状态信息和对抗动作,确定第一无人设备对应的个体惩罚函数,可以包括:第一无人设备获取第二无人设备对应的奖惩函数;该第一无人设备根据该第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作,确定该第一无人设备对应的势函数的目标值;该第一无人设备根据该势函数的目标值,确定该第一无人设备对的个体惩罚函数。
其中,第二无人设备对应的奖惩函数为
Figure 959546DEST_PATH_IMAGE054
Figure 681646DEST_PATH_IMAGE055
表示第一无人设备i对应的个体行为知识;
Figure 220074DEST_PATH_IMAGE056
表示第一超参数,
Figure 919302DEST_PATH_IMAGE057
表示第一 无人设备i时刻t攻击的第二无人设备中敌方无人设备的数量,
Figure 76745DEST_PATH_IMAGE058
表示第一无人设备i可 观测到的第二无人设备中,第k个第二无人设备在时刻t所对应的健康值信息,
Figure 43564DEST_PATH_IMAGE059
表示 第k个第二无人设备在时刻t+1所对应的健康值信息,
Figure 251429DEST_PATH_IMAGE060
表示第j个第二无人设备对应的 最大健康值信息;m表示敌方无人设备的总数量,也即,表示第二无人设备中除目标无人设 备的其他无人设备的数量。
在一些实施例中,第一超参数
Figure 546276DEST_PATH_IMAGE061
是第一无人设备出厂前设置好的。
可选的,第一无人设备根据第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作,确定该第一无人设备对应的势函数的目标值,可以包括:第一无人设备根据第二无人设备对应的奖惩函数和第一公式,确定该第一无人设备对应的势函数的目标值。
其中,第一公式为
Figure 632043DEST_PATH_IMAGE062
Figure 954834DEST_PATH_IMAGE063
表示第一无人设备i对应的势函数的目标值;
Figure 976010DEST_PATH_IMAGE064
表示第一无人设备i在时 刻t所对应的状态信息;
Figure 882787DEST_PATH_IMAGE065
表示第一无人设备i在时刻t所对应的对抗动作;
Figure 5201DEST_PATH_IMAGE066
表示折扣因子;
Figure 821979DEST_PATH_IMAGE067
表示第一无人设备i对应的势函数;
Figure 873111DEST_PATH_IMAGE068
表示第一无人设备i在时刻t+1所对 应的状态信息;
Figure 503069DEST_PATH_IMAGE069
表示第一无人设备i在时刻t+1所对应的对抗动作。
可选的,势函数
Figure 71585DEST_PATH_IMAGE070
对应的最小化损失函数为
Figure 601923DEST_PATH_IMAGE071
Figure 588071DEST_PATH_IMAGE072
表示均值。
在一些实施例中,折扣因子
Figure 610385DEST_PATH_IMAGE073
是第一无人设备出厂前设置好的。
其中,个体惩罚函数为
Figure 206759DEST_PATH_IMAGE074
,该个体惩罚函数 是基于势场的个体奖惩函数。
团队惩罚函数为
Figure 591604DEST_PATH_IMAGE075
Figure 515697DEST_PATH_IMAGE076
表示第二超参数;
Figure 992684DEST_PATH_IMAGE077
表示第一无人设备i可观测到的第二无人设备中,第j个 第二无人设备在时刻t所对应的健康值信息,
Figure 27636DEST_PATH_IMAGE078
表示第j个第二无人设备在时刻t+1所 对应的健康值信息。
在一些实施例中,第二超参数
Figure 266988DEST_PATH_IMAGE079
是第一无人设备出厂前设置好的。
其中,第一无人设备对应的奖惩函数为
Figure 473234DEST_PATH_IMAGE080
。也就是说,第一无人设 备对应的奖惩函数是个体惩罚函数和团队惩罚函数之和。
208、利用奖惩函数对预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将更新后的分布式策略头网络作为第一无人设备中新的预设的分布式策略头网络。
在一些实施例中,预设的分布式策略头网络采用的是集中式训练分布式执行架构,该集中式训练分布式执行架构中的参数是基于最小化评价网络损失函数和分布式策略头网络损失函数进行更新的,从而可以得到更新后的分布式策略头网络。
其中,最小化评价网络损失函数为
Figure 63616DEST_PATH_IMAGE081
分布式策略头网络损失函数为
Figure 636679DEST_PATH_IMAGE082
Figure 370018DEST_PATH_IMAGE083
Figure 635914DEST_PATH_IMAGE084
表示时序差分目标函数,
Figure 448012DEST_PATH_IMAGE085
表示第一无人设备i对应的奖惩函 数,
Figure 467177DEST_PATH_IMAGE086
表示评价网络值函数;
Figure 946700DEST_PATH_IMAGE087
表示均值;
Figure 993285DEST_PATH_IMAGE088
表示最小值,
Figure 791214DEST_PATH_IMAGE089
表示当前策略,
Figure 706081DEST_PATH_IMAGE090
表示更新前策略,
Figure 181055DEST_PATH_IMAGE091
表示第一无人设备i获取的无人设备对应的观测信息;
Figure 24640DEST_PATH_IMAGE092
表示通过广义优势估计器得到的优势函数,a表示优势值;
Figure 811330DEST_PATH_IMAGE093
表示clip函数;
Figure 405254DEST_PATH_IMAGE094
表示第 三超参数。
在一些实施例中,第三超参数
Figure 92325DEST_PATH_IMAGE095
是第一无人设备出厂前设置好的。第一无人设备 可以根据广义优势估计器中的广义优势估计公式,得的优势值a对应的优势函数
Figure 277450DEST_PATH_IMAGE096
第一无人设备在利用奖惩函数对预设的分布式策略头网络进行更新的过程中,可以判断该第一无人设备对应的对抗动作进行奖励或惩罚,即可有效确定该对抗动作的优劣,进一步准确且有效地优化该预设的分布式策略头网络中的参数,从而得到一个准确的更新后的分布式策略头网络。
需要说明的是,现有技术中,第一无人设备利用MAPPO方法对抗敌方无人设备,或,该第一无人设备利用ADRL方法对抗敌方无人设备。然而,MAPPO方法采用了集中式训练分布式执行架构,但未引入注意力机制;ADRL方法构建了观测注意力网络和通信注意力网络,但未引入基于势场的个体奖惩函数,这就使得该第一无无人设备无论是利用MAPPO方法,还是利用ADRL方法对抗敌方无人设备,都具有一定的局限性,从而使得该第一无人设备无法准确且有效地对抗敌方无人设备。
示例性的,如图3所示,是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图。在图3中,第一无人设备利用不同的方法对抗敌方无人设备的平均胜率。可以看出,第一无人设备利用本发明实施例提供的无人集群对抗方法对抗敌方无人设备的第一平均胜率是高于该第一无人设备利用MAPPO方法或ADRL方法对抗敌方无人设备的第二平均胜率,此外,该第一平均胜率的收敛速度也是快于该第二平均胜率的收敛速度。也就是说,本发明第一无人设备利用本发明实施例提供的无人集群对抗方法,可以更加准确且有效地对抗敌方无人设备,能够提高成功对抗敌方无人设备的概率。
示例性的,如表1所示,是本发明提供的基于注意力网络的无人集群对抗方法的胜率对比表格。表1:
Figure 551436DEST_PATH_IMAGE097
在表1中,WR 表示胜率;10vs.10表示10个友方无人设备对抗10个敌方无人设备;10vs.15表示10个友方无人设备对抗15个敌方无人设备;15vs.15表示15个友方无人设备对抗15个敌方无人设备;15vs.20表示15个友方无人设备对抗20个敌方无人设备。从表1中可以看出,本发明实施例提供的无人集群对抗方法对应的胜率均高于MAPPO方法或ADRL方法对应的胜率。
如表2所示,是本发明提供的基于注意力网络的无人集群对抗方法的平均回合奖励对比表格。表2:
Figure 196655DEST_PATH_IMAGE098
在表2中,MER表示平均回合奖励。从表2中可以看出,本发明实施例提供的无人集群对抗方法对应的平均回合奖励略高于MAPPO方法或ADRL方法对应的平均回合奖励。
如表3所示,是本发明提供的基于注意力网络的无人集群对抗方法的平均回合长度对比表格。表3:
Figure 239697DEST_PATH_IMAGE099
在表3中,MEL表示平均回合长度。从表3中可以看出,本发明实施例提供的无人集群对抗方法对应的平均回合长度均低于MAPPO方法或ADRL方法对应的平均回合长度。
综上,基于表1、表2和表3中的指标数据可以看出,本发明实施例提供的基于注意力网络的无人集群对抗方法对应的性能指标均优于MAPPO方法或ADRL方法对应的性能指标。
示例性的,如图4所示,是本发明提供的基于注意力网络的无人集群对抗方法的场 景示意图。在图4中,黑色实体三角表示第一无人设备,黑色实体圆圈表示我方无人设备,黑 色实体方形表示敌方无人设备。第一无人设备获取的观测信息
Figure 189199DEST_PATH_IMAGE100
,该观测信息
Figure 58804DEST_PATH_IMAGE101
包括第一 无人设备可观测到的每个第二无人设备对应的观测信息αij;接着,该第一无人设备将该观 测信息
Figure 384743DEST_PATH_IMAGE102
输入至预设的观测注意力网络中,得到该预设的观测注意力网络输出的观测特征 信息
Figure 282292DEST_PATH_IMAGE103
;然后,该第一无人设备将该观测特征信息
Figure 513946DEST_PATH_IMAGE104
输入至预设的通信注意力网络中,得到 该预设的通信注意力网络输出的通信特征信息
Figure 28104DEST_PATH_IMAGE051
;接着,该第一无人设备根据获取的第一 环境嵌入特征ei(t-1),利用门控循环单元,得到当前环境嵌入特征ei(t);最后,该第一无人 设备将该当前环境嵌入特征ei(t)输入至预设的分布式策略头网络,得到该预设的分布式 策略头网络输出的当前策略
Figure 626576DEST_PATH_IMAGE089
此外,该第一无人设备还会获取该第一无人设备对应的状态信息
Figure 752532DEST_PATH_IMAGE105
;然后,该第一 无人设备将该状态信息
Figure 309416DEST_PATH_IMAGE105
输入至评价网络,得到该评价网络输出的评价网络值函数
Figure 779711DEST_PATH_IMAGE086
; 接着,该第一无人设备获取团队惩罚函数为
Figure 558705DEST_PATH_IMAGE106
和个体惩罚函数为
Figure 430846DEST_PATH_IMAGE107
;最后,该第一无人 设备根据该团队惩罚函数为
Figure 532532DEST_PATH_IMAGE106
、该个体惩罚函数为
Figure 224544DEST_PATH_IMAGE107
和该评价网络值函数
Figure 695977DEST_PATH_IMAGE086
更新 预设的分布式策略头网络中的参数。其中,该参数可以包括:最小化损失函数为
Figure 799456DEST_PATH_IMAGE108
、最小化 评价网络损失函数为
Figure 166983DEST_PATH_IMAGE109
及分布式策略头网络损失函数为
Figure 611871DEST_PATH_IMAGE110
示例性的,如图5所示,是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图。在图5中,我方无人设备与敌方无人设备进行有效对抗。
可选的,步骤208之后,该方法还可以包括但不限于以下其中一种实现方式:
实现方式1:第一无人设备在未检测到第二无人设备的情况下,停止对预设的分布式策略头网络进行更新。
实现方式2:第一无人设备在检测该第一无人设备的运动时长达到预设运行时长阈值的情况下,停止对预设的分布式策略头网络进行更新。可选的,该预设运动时长阈值可以是第一无人设备出厂前设置的,也可以是用户根据实际情况自定义的,此处不作具体限定。
示例性的,假设预设运动时长阈值为150步。第一无人设备检测到该第一无人设备的当前运行时长为148步,此时,继续对该第一无人设备中预设的分布式策略头网络进行更新,直到该第一无人设备检测到该第一无人设备的当前运行时长为150步,已达到预设运动时长阈值150步,此时,停止对预设的分布式策略头网络进行更新。
在本发明实施例中,该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性,导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷,不仅可以实现第一无人设备具有更高的自主决策能力,从而能够准确且有效地对抗其它无人集群,还可以在对抗其它集群的过程中,自动更新该第一无人设备中的预设的分布式策略头网络,从而提高第一无人设备的自主决策能力,以便后续更加准确且有效地对抗其它无人集群。
需要说明的是,步骤207和208还可以与图1所示步骤104结合,形成新的实施例,该新的实施例也都在本发明实施例保护的范围内,此处不作具体赘述。
下面对本发明提供的无人集群对抗装置进行描述,下文描述的无人集群对抗装置与上文描述的基于注意力网络的无人集群对抗方法可相互对应参照。
如图6所示,是本发明提供的无人集群对抗装置的结构示意图,应用于第一无人设备,可以包括:
获取模块601,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块602,用于根据该观测信息,基于预设的注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息,该无人设备包括该第一无人设备和该第二无人设备;根据该特征信息,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据该当前环境嵌入特征,基于预设的分布式策略头网络,确定该第一无人设备的对抗动作,该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
可选的,获取模块601,具体用于获取第二无人设备在该当前时刻所对应的观测信息;
确定模块602,具体用于根据该观测信息,基于预设的观测注意力网络,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息;根据该观测特征信息,基于预设的通信注意力网络,确定该第二无人设备在该当前时刻所对应的通信特征信息。
可选的,确定模块602包括提取单元6021和确定单元6022;
提取单元6021,具体用于基于预设的观测注意力网络,提取该观测信息对应的信息特征;
确定单元6022,具体用于根据该信息特征,确定该观测信息对应的观测键向量、观测查询向量和观测值向量;根据该观测键向量和该观测查询向量,确定该无人设备中的第二无人设备对应的第一权重;根据该观测值向量和该第一权重,确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。
可选的,提取单元6021,具体用于根据该观测特征信息,确定该第二无人设备在该当前时刻所对应的通信信息;
确定单元6022,具体用于基于预设的通信注意力网络,提取该通信信息对应的通信键向量、通信查询向量和通信值向量;根据该通信键向量和该通信查询向量,在该第二无人设备中,确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重;根据该通信值向量和该第二权重,确定该目标无人设备在该当前时刻所对应的通信特征信息。
可选的,获取模块601,具体用于获取该第二无人设备在上一时刻所对应的第一环境嵌入特征;
确定单元6022,具体用于根据该特征信息和该第一环境嵌入特征,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
可选的,确定单元6022,具体用于根据该观测特征信息、该通信特信息征和该第一环境嵌入特征,基于门控循环单元,确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。
可选的,确定单元6022,具体用于根据该对抗动作,确定该第一无人设备对应的奖惩函数;
无人集群对抗装置还包括更新模块603;更新模块603,用于利用该奖惩函数对该预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。
可选的,获取模块601,具体用于获取该第一无人设备对应的状态信息;
确定单元6022,具体用于根据该状态信息和该对抗动作,确定该第一无人设备对应的个体惩罚函数;根据该观测信息中包括的该第二无人设备的健康值,确定团队惩罚函数;根据该个体惩罚函数和该团队惩罚函数,确定该第一无人设备对应的奖惩函数。
图7示例了一种无人设备的实体结构示意图,如图7所示,该无人设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力网络的无人集群对抗方法,该方法包括:根据获取的第二无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定该第二无人设备在该当前时刻所对应的特征信息;根据特征信息,确定第二无人设备在该当前时刻所对应的当前环境嵌入特征;根据当前环境嵌入特征,基于预设的分布式策略头网络,确定第一无人设备的对抗动作,预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于注意力网络的无人集群对抗方法,其特征在于,应用于第一无人设备,所述方法包括:
根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,所述无人设备包括所述第一无人设备和所述第二无人设备;
根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征;
根据所述当前环境嵌入特征,基于预设的分布式策略头网络,确定所述第一无人设备的对抗动作,所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
2.根据权利要求1所述的无人集群对抗方法,其特征在于,所述根据获取的无人设备在当前时刻所对应的观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,包括:
获取无人设备在当前时刻所对应的观测信息;
根据所述观测信息,基于预设的观测注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息;
根据所述观测特征信息,基于预设的通信注意力网络,确定所述第二无人设备在所述当前时刻所对应的通信特征信息。
3.根据权利要求2所述的无人集群对抗方法,其特征在于,所述根据所述观测信息,基于预设的观测注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息,包括:
基于预设的观测注意力网络,提取所述观测信息对应的信息特征;
根据所述信息特征,确定所述观测信息对应的观测键向量、观测查询向量和观测值向量;
根据所述观测键向量和所述观测查询向量,确定所述无人设备中的第二无人设备对应的第一权重;
根据所述观测值向量和所述第一权重,确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息。
4.根据权利要求2所述的无人集群对抗方法,其特征在于,所述根据所述观测特征信息,基于预设的通信注意力网络,确定所述第二无人设备在所述当前时刻所对应的通信特征信息,包括:
根据所述观测特征信息,确定所述第二无人设备在所述当前时刻所对应的通信信息;
基于预设的通信注意力网络,提取所述通信信息对应的通信键向量、通信查询向量和通信值向量;
根据所述通信键向量和所述通信查询向量,在所述第二无人设备中,确定与所述第一无人设备通信连接的目标无人设备及所述目标无人设备对应的第二权重;
根据所述通信值向量和所述第二权重,确定所述目标无人设备在所述当前时刻所对应的通信特征信息。
5.根据权利要求2-4中任一项所述的无人集群对抗方法,其特征在于,所述根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征,包括:
获取所述第二无人设备在上一时刻所对应的第一环境嵌入特征;
根据所述特征信息和所述第一环境嵌入特征,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。
6.根据权利要求5所述的无人集群对抗方法,其特征在于,所述根据所述特征信息和所述第一环境嵌入特征,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征,包括:
根据所述观测特征信息、所述通信特信息征和所述第一环境嵌入特征,基于门控循环单元,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。
7.根据权利要求1、2、3、4或6所述的无人集群对抗方法,其特征在于,所述方法还包括:
根据所述对抗动作,确定所述第一无人设备对应的奖惩函数;
利用所述奖惩函数对所述预设的分布式策略头网络进行更新,得到更新后的分布式策略头网络,并将所述更新后的分布式策略头网络作为所述第一无人设备中新的预设的分布式策略头网络。
8.根据权利要求7所述的无人集群对抗方法,其特征在于,所述根据所述对抗动作,确定所述第一无人设备对应的奖惩函数,包括:
获取所述第一无人设备对应的状态信息;
根据所述状态信息和所述对抗动作,确定所述第一无人设备对应的个体惩罚函数;
根据所述观测信息中包括的所述第二无人设备的健康值,确定团队惩罚函数;
根据所述个体惩罚函数和所述团队惩罚函数,确定所述第一无人设备对应的奖惩函数。
9.一种无人集群对抗装置,其特征在于,应用于第一无人设备,包括:
获取模块,用于获取的无人设备在当前时刻所对应的观测信息;
确定模块,用于根据所述观测信息,基于预设的注意力网络,确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息,所述无人设备包括所述第一无人设备和所述第二无人设备;根据所述特征信息,确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征;根据所述当前环境嵌入特征,基于预设的分布式策略头网络,确定所述第一无人设备的对抗动作,所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。
10.一种无人设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述基于注意力网络的无人集群对抗方法。
CN202210745988.9A 2022-06-29 2022-06-29 基于注意力网络的无人集群对抗方法、装置及无人设备 Active CN114815904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210745988.9A CN114815904B (zh) 2022-06-29 2022-06-29 基于注意力网络的无人集群对抗方法、装置及无人设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745988.9A CN114815904B (zh) 2022-06-29 2022-06-29 基于注意力网络的无人集群对抗方法、装置及无人设备

Publications (2)

Publication Number Publication Date
CN114815904A true CN114815904A (zh) 2022-07-29
CN114815904B CN114815904B (zh) 2022-09-27

Family

ID=82523518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745988.9A Active CN114815904B (zh) 2022-06-29 2022-06-29 基于注意力网络的无人集群对抗方法、装置及无人设备

Country Status (1)

Country Link
CN (1) CN114815904B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN112257850A (zh) * 2020-10-26 2021-01-22 河南大学 一种基于生成对抗网络的车辆轨迹预测方法
US20210064883A1 (en) * 2019-08-27 2021-03-04 Nec Laboratories America, Inc. Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment
CN112667080A (zh) * 2020-12-28 2021-04-16 西安电子科技大学 基于深度卷积对抗网络的脑电信号无人平台智能控制方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113139656A (zh) * 2021-04-26 2021-07-20 大连海事大学 一种类脑快慢双通路无人自主决策方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113469125A (zh) * 2021-07-20 2021-10-01 中国人民解放军国防科技大学 多无人机协同信号识别方法及识别系统
WO2021208771A1 (zh) * 2020-04-18 2021-10-21 华为技术有限公司 强化学习的方法和装置
CN114118276A (zh) * 2021-11-29 2022-03-01 北京触达无界科技有限公司 一种网络训练的方法、控制方法以及装置
CN114332569A (zh) * 2022-03-17 2022-04-12 南京理工大学 基于注意力机制的低扰动对抗攻击方法
CN114567888A (zh) * 2022-03-04 2022-05-31 重庆邮电大学 一种多无人机动态部署方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
US20210064883A1 (en) * 2019-08-27 2021-03-04 Nec Laboratories America, Inc. Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
WO2021208771A1 (zh) * 2020-04-18 2021-10-21 华为技术有限公司 强化学习的方法和装置
CN112257850A (zh) * 2020-10-26 2021-01-22 河南大学 一种基于生成对抗网络的车辆轨迹预测方法
CN112667080A (zh) * 2020-12-28 2021-04-16 西安电子科技大学 基于深度卷积对抗网络的脑电信号无人平台智能控制方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113139656A (zh) * 2021-04-26 2021-07-20 大连海事大学 一种类脑快慢双通路无人自主决策方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113469125A (zh) * 2021-07-20 2021-10-01 中国人民解放军国防科技大学 多无人机协同信号识别方法及识别系统
CN114118276A (zh) * 2021-11-29 2022-03-01 北京触达无界科技有限公司 一种网络训练的方法、控制方法以及装置
CN114567888A (zh) * 2022-03-04 2022-05-31 重庆邮电大学 一种多无人机动态部署方法
CN114332569A (zh) * 2022-03-17 2022-04-12 南京理工大学 基于注意力机制的低扰动对抗攻击方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘强 等: "基于深度强化学习的群体对抗策略研究", 《智能计算机与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN115793717B (zh) * 2023-02-13 2023-05-05 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114815904B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US11669110B2 (en) Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
CN108731684B (zh) 一种多无人机协同区域监视的航路规划方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN112051863A (zh) 一种无人机自主反侦察及躲避敌方攻击的方法
CN109960148B (zh) 一种智能无人系统的自主性评估方法及系统
CN104881043A (zh) 一种针对多动态目标的多无人机智能协同察打方法
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
Tu et al. Path planning and obstacle avoidance based on reinforcement learning for UAV application
CN114815904B (zh) 基于注意力网络的无人集群对抗方法、装置及无人设备
CN112766329B (zh) 一种多无人艇协同拦截控制方法及系统
CN113110546B (zh) 一种基于离线强化学习的无人机自主飞行控制方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN113434966B (zh) 基于弹性力场的蜂群避撞控制方法
CN113536564B (zh) 基于虚拟仿真的无人蜂群自主协同评估方法及系统
CN116360503A (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
CN116560409A (zh) 基于maddpg-r的无人机集群路径规划仿真方法
CN114679729A (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN114510817A (zh) 一种用于无人机滑翔路径规划的风场感知算法
CN112925345B (zh) 一种仿狼群狩猎行为的无人作战飞机集群合围控制方法
TR2021014085A2 (tr) Tecrübe i̇le sürekli̇ öğrenen otonom sanal si̇mülatör varliklari
CN114815900B (zh) 无人集群对抗方法、装置、电子设备及存储介质
CN117572893B (zh) 基于强化学习的无人机集群对抗策略获取方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant