CN113128021A - 多无人平台协同对抗的实时重决策方法和系统 - Google Patents
多无人平台协同对抗的实时重决策方法和系统 Download PDFInfo
- Publication number
- CN113128021A CN113128021A CN202110269461.9A CN202110269461A CN113128021A CN 113128021 A CN113128021 A CN 113128021A CN 202110269461 A CN202110269461 A CN 202110269461A CN 113128021 A CN113128021 A CN 113128021A
- Authority
- CN
- China
- Prior art keywords
- unmanned platform
- unmanned
- decision
- state data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/02—CAD in a network environment, e.g. collaborative CAD or distributed simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种多无人平台协同对抗的实时重决策方法和系统,涉及无人平台领域,包括:实时获取多无人平台协同对抗时的无人平台状态数据;计算无人平台状态数据的奖励回报;基于预先构建的Actor网络对无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;基于预先构建的Critic网络对无人平台状态数据进行处理,得到重决策价值函数;基于奖励回报和重决策价值函数计算TD误差;基于TD误差更新Actor网络和Critic网络;多无人平台执行多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据。本发明可以得到最适应当前环境下的无人平台重决策方案。
Description
技术领域
本发明涉及无人平台技术领域,具体涉及多无人平台协同对抗的实时重决策方法和系统。
背景技术
随着新兴技术的发展与应用,信息对抗、智能对抗已逐渐成为新的作战手段和作战形式,无人平台由于其能够自主的完成多种任务而被广泛地应用。然而随着无人平台在相关领域应用的不断推进,单架无人平台在执行任务时暴露出了灵活性和任务完成率的短板,因此,运用多架无人平台在空中构成相互协作、优势互补、效能倍增的协同作战系统,已成为本领域关注的热点和追求的目标。
多无人平台协同对抗环境中,对抗情况瞬息万变,呈现高动态、高实时和高不确定性的特点,并且多机协同对抗整体过程时间较长,无法对敌方的行动作出详细预测,作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境,因此,决策者需要根据复杂、动态变化的战场环境对多无人平台作战策略进行重决策。
现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行,然而,由于多无人平台协同对抗环境的变化较为迅速,这些方法已经不能适用当前环境,即现有技术提供的重决策方法的效果较差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多无人平台协同对抗的实时重决策方法和系统,解决了现有技术提供的重决策方法的效果较差的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种多无人平台协同对抗的实时重决策方法,所述重决策方法由计算机执行,所述方法包括:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
优选的,所述无人平台状态数据包括:无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。
优选的,所述预先构建的Actor网络采用全连接神经网络,包括:1个输入层、2个隐藏层和1个输出层;
所述基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案,包括:
将所述无人平台状态数据输入到预先构建的Actor网络中,得到重决策触发结果的概率;
基于所述重决策触发结果的概率获取当前回合的重决策触发结果;
对所述重决策触发结果进行标准化处理,得到当前回合的多无人平台重决策方案。
优选的,所述重决策触发结果包括:战术决策、目标分配和不进行重决策。
优选的,所述重决策价值函数的计算方法包括:
其中:
Vπ(st)表示第t个回合中Critic网络的重决策价值函数;
Qπ(st,a)表示第t个回合中采取多无人平台重决策方案a的状态值函数;
A表示所有的多无人平台重决策方案;
a表示第t个回合中得到的多无人平台重决策方案;
π(a|st)表示第t个回合采取多无人平台重决策方案a的概率。
优选的,所述基于所述奖励回报和所述重决策价值函数计算TD误差,计算方法包括:
φ(t)=rt+1+γV(st+1)-V(st)
其中:
γ表示折扣因子,为超参数;
V(st)表示第t个回合下的重决策价值函数;
V(st+1)表示第t+1个回合下的重决策价值函数;
rt+1表示第t+1个回合的奖励回报。
优选的,所述基于所述TD误差更新所述Actor网络和Critic网络,包括:
基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS;
基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
优选的,所述奖励回报包括:无人平台态势优势奖励回报和无人平台能力优势回报;
所述无人平台态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报;
所述无人平台能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
本发明解决其技术问题所提供的一种多无人平台协同对抗的智能决策系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
(三)有益效果
本发明提供了一种多无人平台协同对抗的实时重决策方法和系统。与现有技术相比,具备以下有益效果:
本发明通过实时获取多无人平台协同对抗时的无人平台状态数据;计算无人平台状态数据的奖励回报;基于预先构建的Actor网络对无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;基于预先构建的Critic网络对无人平台状态数据进行处理,得到重决策价值函数;基于奖励回报和重决策价值函数计算TD误差;基于TD误差更新Actor网络和Critic网络;多无人平台执行多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练,可以得到最适应当前环境下的无人平台重决策方案,以提高多无人平台的作战效率,同时具有实时性和高效率的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多无人平台协同对抗的实时重决策方法的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种多无人平台协同对抗的实时重决策方法和系统,解决了现有技术提供的重决策方法的效果较差的问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过实时获取多无人平台协同对抗时的无人平台状态数据;计算无人平台状态数据的奖励回报;基于预先构建的Actor网络对无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;基于预先构建的Critic网络对无人平台状态数据进行处理,得到重决策价值函数;基于奖励回报和重决策价值函数计算TD误差;基于TD误差更新Actor网络和Critic网络;多无人平台执行多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练,可以得到最适应当前环境下的无人平台重决策方案,以提高多无人平台的作战效率,同时具有实时性和高效率的优点。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
需要说明的是,本发明实施例中所述的“回合”具体是指:多无人平台进行协同作战时,会不断进行空中对战直至敌我双方有一方战败,此时多无人平台对战结束。在整个对战过程中,多无人平台可能会经历多次空战方案重决策过程,因此本发明实施例设定每一次重决策过程为一个回合。
本发明实施例提供了一种多无人平台协同对抗的实时重决策方法,重决策方法由计算机执行,如图1所示,包括以下步骤:
S1、实时获取多无人平台协同对抗时的无人平台状态数据;
S2、计算所述无人平台状态数据的奖励回报;
S3、基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
S4、基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
S5、基于所述TD误差更新所述Actor网络和Critic网络;
S6、多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
本发明实施例通过实时获取多无人平台协同对抗时的无人平台状态数据;计算无人平台状态数据的奖励回报;基于预先构建的Actor网络对无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;基于预先构建的Critic网络对无人平台状态数据进行处理,得到重决策价值函数;基于奖励回报和重决策价值函数计算TD误差;基于TD误差更新Actor网络和Critic网络;多无人平台执行多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练,可以得到最适应当前环境下的无人平台重决策方案,以提高多无人平台的作战效率,同时具有实时性和高效率的优点。
下面对各步骤进行具体分析。
在步骤S1中,实时获取多无人平台协同对抗时的无人平台状态数据。
具体的,无人平台状态数据包括:无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。
还包括:对无人平台初始状态数据进行格式转换,得到预设格式的无人平台初始状态数据。
需要说明的是,一般来说无人平台初始状态数据为字符串格式,因此需要将字符串格式的无人平台初始状态数据转换为矩阵格式的数据,以使Actor网络和Critic网络可以进行识别处理。
在步骤S2中,计算所述无人平台状态数据的奖励回报。
具体的,奖励回报包括:多无人平台协同对抗参数奖励回报或多无人平台协同对抗规则奖励回报。
其中,多无人平台协同对抗参数奖励回报包括:无人平台态势优势奖励回报和无人平台能力优势回报。
无人平台态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
无人平台能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
具体的,计算所述无人平台状态数据的奖励回报,包括:
r=r1&r2
其中:
r表示无人平台状态数据的奖励回报;
r1表示多无人平台协同对抗参数奖励回报;
r2表示多无人平台协同对抗规则奖励回报。
在本发明实施例中,设定为总的奖励回报采用多无人平台协同对抗参数奖励回报或多无人平台协同对抗规则奖励回报中的一项。
r1=r3+r4
其中:
r3表示无人平台态势优势奖励回报;
r4表示无人平台能力优势回报。
态势优势奖励回报是在不考虑其他影响因素的情况下,只考虑对抗过程中双方相对位置,速度,角度的奖励回报设计。具体为:
r3=r31+r32+r33
其中:
r31表示距离优势奖励回报;
r32表示速度优势奖励回报;
r33表示角度优势奖励回报。
r4=r41+r42+r43
其中:
r41表示武器射程优势奖励回报;
r42表示武器角度优势奖励回报;
r43表示武器速度优势奖励回报。
在一些实施例中,距离优势奖励回报的计算方法包括一下几种:
1.两个无人平台进行对抗过程中,由于两个无人平台之间距离的改变或无人平台飞行高度的改变,使得无人平台在对抗过程中占据优势或受到威胁。两个无人平台之间的距离超过一定范围时,无人平台占据的距离优势随两个无人平台之间的距离的增大呈指数减小,这个距离范围称之为不可逃逸区最大距离。
其中:
2.在多无人平台协同对抗过程中根据双方距离设定四个威胁区域,分别代表敌方无人平台对我方无人平台有严重威胁、普通威胁,轻微威胁,无威胁。实现在对抗过程中根据危险级别采取不同类型的重决策。
其中:
D1、D2、D3分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值;严重威胁区域>普通威胁区域>轻微威胁区域>无威胁区域;
3.
其中:
xr,yr,zr表示我方无人平台坐标,xb,yb,zb表示敌方无人平台坐标;vr表示我方无人平台速度;
4.
其中:
z0为无人平台最佳飞行高度。
上述四种方法选择其中一种作为距离优势奖励回报的计算方法。
速度优势奖励回报的计算方法包括一下几种:
1.速度优势是指两个无人平台间由于相对速度而取得的优势或受到的威胁,无人平台的速度可以直接的影响无人平台的追击或逃脱,以及无人平台能否及时灵活的转变飞行状态。并非无人平台的速度值越大,占据的优势越大,超过一定的速度时,速度值的继续增大会缩短无人平台的可用占位时间、削弱无人平台占位能力(转弯半径增大)。这个临界速度值被定义为无人平台的最佳飞行速度。
因此,无人平台在对抗过程中占据的速度优势受到两个方面的影响,一是两个无人平台之间的飞行速度差,二是两个无人平台自身的最佳飞行速度。在这里,假设两个无人平台均具有相同的最佳飞行速度值(速度方向可以不同,速度大小一致)。当对方无人平台的飞行速度不变时,我方无人平台的速度优势将随着其飞行速度的增加而增加。然而,当我方无人平台的速度超过其最佳飞行速度时,其速度优势将随着其速度的继续增加而降低。具体的:
其中:
v0表示无人平台最优飞行速度;
2.
其中:
Vmax表示无人平台最大速度;
vb表示敌方无人平台速度;
3.
其中:
vr表示我方无人平台速度。
上述三种方法选择其中一种作为速度优势奖励回报的计算方法。
角度是指两个无人平台之间的视线(两个无人平台间的物理位置的连线称之为视线)与两个无人平台的速度方向的夹角,大小在零到π之间。无人平台间的角度包括方位角和进入角,我方无人平台的速度方向与视线的夹角称之为方位角;对方无人平台速度方向与视线的夹角称之为进入角。方位角和进入角在无人平台对抗过程中起到至关重要的作用,我方无人平台通过增大方位角以占据角度上的优势,进行有效的追击或规避;而对方无人平台则试图增大进入角占据角度优势以摆脱我方无人平台的追击或进行追击我方无人平台,角度优势奖励回报的计算方法包括以下几种:
1.
其中:
2.
其中:
上述三种方法选择其中一种作为角度优势奖励回报的计算方法。
在一些实施例中,武器射程优势奖励回报的计算方法包括:
其中:
dw表示我方无人平台的武器射程,d表示双方无人平台间的距离。
武器角度优势奖励回报的计算方法包括:
其中:
βmax表示武器最大发射角度。
武器速度优势奖励回报的计算方法包括:
其中:
v0表示无人平台最佳攻击速度。
在一些实施例中,多无人平台协同对抗规则奖励回报的计算方法包括:
其中:
θr表示我方无人平台速度方向与双方质心间的角度;
θb表示敌方无人平台速度方向与双方质心间的角度
β代表双方无人平台之间的角度,vr表示我方无人平台速度;
h代表无人平台高度。
具体的,本发明实施例中的奖励回报还可以包括协同奖励回报和环境奖励回报。
协同奖励回报的计算方法包括:
r9=-α1log(1-d)
d=max{d1-d0,0,d2-d0}
其中:
α1为超参数,x,y,z代表无人平台坐标;
d1表示协同区域的圆环内半径,d2表示协同区域的圆环外半径。
具体的,协同区域为自行设定的一个圆环形区域,具有与内外环。
环境奖励回报的计算方法包括:
其中:
v代表速度,h代表高度。
在本发明的一些实施例中,总的奖励回报为:r=r1&r2+r9&r10
或:r=r1&r2+r9+r10
在步骤S3中,基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案。
具体的,本发明实施例中,预先构建的Actor网络采用全连接神经网络,包括:1个输入层、2个隐藏层和1个输出层。
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案,具体包括:
S31、将所述无人平台状态数据输入到预先构建的Actor网络中,得到重决策触发结果的概率。
在本发明实施例中,重决策触发结果包括:战术决策、目标分配和不进行重决策。
战术决策是指多无人平台在空战中进行的组织、指挥、控制和协同飞行过程。包括直接攻击、侧翼迂回、水平梳开、垂直梳开等战术。
目标分配(WTA)问题是指将有限数量的拦截器分配到来袭的导弹以最小化导弹摧毁受保护资产的概率或将优先的导弹分配给来袭的目标以最大化催化目标的概率。
S32、基于所述重决策触发结果的概率获取当前回合的重决策触发结果。具体的,选取概率最大的作为当前回合的重决策触发结果。
S33、对所述重决策触发结果进行标准化处理,得到当前回合的多无人平台重决策方案。具体的,标准化处理表示获取所述重决策触发结果对应类型的重决策方案。
在步骤S4中,基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差。具体包括以下步骤:
S41、获取重决策价值函数。
重决策价值函数的计算方法包括:
其中:
Vπ(st)表示第t个回合中Critic网络的重决策价值函数;
Qπ(st,a)表示第t个回合中采取多无人平台重决策方案a的状态值函数;A表示所有的多无人平台重决策方案;
a表示第t个回合中得到的多无人平台重决策方案;
π(a|st)表示第t个回合采取多无人平台重决策方案a的概率。
S42、计算TD误差。计算方法包括:
φ(t)=rt+1+γV(st+1)-V(st)
其中:
γ表示折扣因子,为超参数;
V(st)表示第t个回合下的重决策价值函数;
V(st+1)表示第t+1个回合下的重决策价值函数;
rt+1表示第t+1个回合的奖励回报。
在步骤S5中,基于TD误差更新Actor网络和Critic网络。
具体包括:基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS。基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
在步骤S6中,多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
本发明实施例通过上述的Actor网络和Critic网络对无人平台状态数据进行处理,可以得到每个回合的多无人平台重决策方案。并不断循环,直至多无人平台协同对抗结束,实现了多无人平台空战方案的强化训练,提高多无人平台的作战效率。
本发明实施例还提供了一种多无人平台协同对抗的智能决策系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过实时获取多无人平台协同对抗时的无人平台状态数据;计算无人平台状态数据的奖励回报;基于预先构建的Actor网络对无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;基于预先构建的Critic网络对无人平台状态数据进行处理,得到重决策价值函数;基于奖励回报和重决策价值函数计算TD误差;基于TD误差更新Actor网络和Critic网络;多无人平台执行多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练,可以得到最适应当前环境下的无人平台重决策方案,以提高多无人平台的作战效率,同时具有实时性和高效率的优点。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种多无人平台协同对抗的实时重决策方法,其特征在于,所述重决策方法由计算机执行,所述方法包括:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
2.如权利要求1所述的重决策方法,其特征在于,所述无人平台状态数据包括:无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。
3.如权利要求1所述的重决策方法,其特征在于,所述预先构建的Actor网络采用全连接神经网络,包括:1个输入层、2个隐藏层和1个输出层;
所述基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案,包括:
将所述无人平台状态数据输入到预先构建的Actor网络中,得到重决策触发结果的概率;
基于所述重决策触发结果的概率获取当前回合的重决策触发结果;
对所述重决策触发结果进行标准化处理,得到当前回合的多无人平台重决策方案。
4.如权利要求3所述的重决策方法,其特征在于,所述重决策触发结果包括:战术决策、目标分配和不进行重决策。
6.如权利要求5所述的重决策方法,其特征在于,所述基于所述奖励回报和所述重决策价值函数计算TD误差,计算方法包括:
φ(t)=rt+1+γV(st+1)-V(st)
其中:
γ表示折扣因子,为超参数;
V(st)表示第t个回合下的重决策价值函数;
V(st+1)表示第t+1个回合下的重决策价值函数;
rt+1表示第t+1个回合的奖励回报。
7.如权利要求1所述的重决策方法,其特征在于,所述基于所述TD误差更新所述Actor网络和Critic网络,包括:
基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS;
基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
8.如权利要求1所述的重决策方法,其特征在于,所述奖励回报包括:无人平台态势优势奖励回报和无人平台能力优势回报;
所述无人平台态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报;
所述无人平台能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
9.一种多无人平台协同对抗的智能决策系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案可以使得多无人平台协同对抗结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110269461.9A CN113128021B (zh) | 2021-03-12 | 2021-03-12 | 多无人平台协同对抗的实时重决策方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110269461.9A CN113128021B (zh) | 2021-03-12 | 2021-03-12 | 多无人平台协同对抗的实时重决策方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128021A true CN113128021A (zh) | 2021-07-16 |
CN113128021B CN113128021B (zh) | 2022-10-25 |
Family
ID=76773093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110269461.9A Active CN113128021B (zh) | 2021-03-12 | 2021-03-12 | 多无人平台协同对抗的实时重决策方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128021B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815904A (zh) * | 2022-06-29 | 2022-07-29 | 中国科学院自动化研究所 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
CN115617534A (zh) * | 2022-12-20 | 2023-01-17 | 中国电子科技集团公司信息科学研究院 | 一种基于认知协同的分布式自主对抗系统架构及实现方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110058608A (zh) * | 2019-04-08 | 2019-07-26 | 合肥工业大学 | 多无人机协同对抗的控制方法、系统及存储介质 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
US20200293862A1 (en) * | 2016-11-03 | 2020-09-17 | Deepmind Technologies Limited | Training action selection neural networks using off-policy actor critic reinforcement learning |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
KR102193776B1 (ko) * | 2019-12-26 | 2020-12-22 | 성균관대학교 산학협력단 | 강화학습 기반 센서 데이터 관리 방법 및 시스템 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112215283A (zh) * | 2020-10-12 | 2021-01-12 | 中国人民解放军海军航空大学 | 基于有人/无人机系统的近距空战智能决策方法 |
CN112364972A (zh) * | 2020-07-23 | 2021-02-12 | 北方自动控制技术研究所 | 基于深度强化学习的无人战车分队火力分配方法 |
-
2021
- 2021-03-12 CN CN202110269461.9A patent/CN113128021B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200293862A1 (en) * | 2016-11-03 | 2020-09-17 | Deepmind Technologies Limited | Training action selection neural networks using off-policy actor critic reinforcement learning |
CN110058608A (zh) * | 2019-04-08 | 2019-07-26 | 合肥工业大学 | 多无人机协同对抗的控制方法、系统及存储介质 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
KR102193776B1 (ko) * | 2019-12-26 | 2020-12-22 | 성균관대학교 산학협력단 | 강화학습 기반 센서 데이터 관리 방법 및 시스템 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN111666631A (zh) * | 2020-06-03 | 2020-09-15 | 南京航空航天大学 | 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112364972A (zh) * | 2020-07-23 | 2021-02-12 | 北方自动控制技术研究所 | 基于深度强化学习的无人战车分队火力分配方法 |
CN112215283A (zh) * | 2020-10-12 | 2021-01-12 | 中国人民解放军海军航空大学 | 基于有人/无人机系统的近距空战智能决策方法 |
Non-Patent Citations (4)
Title |
---|
XIAOBOLIN .ETAL: "Event-triggered reinforcement learning control for the quadrotor UAV with actuator saturation", 《NEUROCOMPUTING》 * |
刘强: "基于深度强化学习的群体对抗策略研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
王丙琛: "基于深度强化学习的自动驾驶决策控制研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》 * |
祁文凯 等: "基于延迟策略的最大熵优势演员评论家算法", 《小型微型计算机系统》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815904A (zh) * | 2022-06-29 | 2022-07-29 | 中国科学院自动化研究所 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
CN115617534A (zh) * | 2022-12-20 | 2023-01-17 | 中国电子科技集团公司信息科学研究院 | 一种基于认知协同的分布式自主对抗系统架构及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113128021B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
CN111240353B (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN113128021B (zh) | 多无人平台协同对抗的实时重决策方法和系统 | |
CN110348708B (zh) | 一种基于极限学习机的地面目标动态威胁评估方法 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
Johansson | Evaluating the performance of TEWA systems | |
Yan et al. | Multi-UAV objective assignment using Hungarian fusion genetic algorithm | |
CN112486200A (zh) | 多无人机协同对抗在线重决策方法 | |
CN114638339A (zh) | 基于深度强化学习的智能体任务分配方法 | |
CN113128698B (zh) | 多无人机协同对抗决策的强化学习方法 | |
CN112101747A (zh) | 一种基于禁忌共识拍卖算法的无人艇拦截任务分配方法 | |
Kang et al. | Air-to-air combat tactical decision method based on SIRMs fuzzy logic and improved genetic algorithm | |
Yue et al. | Research on reinforcement learning-based safe decision-making methodology for multiple unmanned aerial vehicles | |
CN112818496B (zh) | 基于蚁群算法的要地防空策略 | |
CN113126651B (zh) | 多无人机协同对抗的智能决策装置和系统 | |
CN113128699B (zh) | 快速收敛的多无人机协同对抗强化学习方法 | |
CN114202185A (zh) | 一种高功率微波武器协同防空的体系贡献率评估方法 | |
Yao | Study on the bvr cooperative air combat based on bp neural network | |
Peng et al. | Cooperative dynamic weapon-target assignment algorithm of multiple missiles based on networks | |
Liu et al. | Deep reinforcement learning task assignment based on domain knowledge | |
Zhao et al. | Deep Reinforcement Learning‐Based Air Defense Decision‐Making Using Potential Games | |
Lu et al. | Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV | |
Tang et al. | Close-in weapon system planning based on multi-living agent theory | |
Wang et al. | Research on naval air defense intelligent operations on deep reinforcement learning | |
Truong et al. | Q-Learning Based Multiple Agent Reinforcement Learning Model for Air Target Threat Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |