CN113128699A - 快速收敛的多无人机协同对抗强化学习方法 - Google Patents

快速收敛的多无人机协同对抗强化学习方法 Download PDF

Info

Publication number
CN113128699A
CN113128699A CN202110269462.3A CN202110269462A CN113128699A CN 113128699 A CN113128699 A CN 113128699A CN 202110269462 A CN202110269462 A CN 202110269462A CN 113128699 A CN113128699 A CN 113128699A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
representing
reward
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110269462.3A
Other languages
English (en)
Other versions
CN113128699B (zh
Inventor
王国强
陈宇轩
罗贺
蒋儒浩
马滢滢
胡笑旋
靳鹏
马华伟
夏维
唐奕城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110269462.3A priority Critical patent/CN113128699B/zh
Publication of CN113128699A publication Critical patent/CN113128699A/zh
Application granted granted Critical
Publication of CN113128699B publication Critical patent/CN113128699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种快速收敛的多无人机协同对抗强化学习方法,涉及无人机领域,包括:获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。

Description

快速收敛的多无人机协同对抗强化学习方法
技术领域
本发明涉及无人机技术领域,具体涉及一种快速收敛的多无人机协同对抗强化学习方法。
背景技术
随着新兴技术的发展与应用,信息对抗、智能对抗已逐渐成为新的作战手段和作战形式,无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进,运用多架无人机在空中协同作战系统,已成为本领域关注的热点和追求的目标。
多无人机协同对抗环境中,对抗情况瞬息万变,呈现高动态、高实时和高不确定性的特点,并且多机协同对抗整体过程时间较长,无法对敌方的行动作出详细预测,作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境,因此,决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策,也即是对多无人机作战策略进行强化学习。
强化学习方法需要不断地学习在不同的环境下通过奖励回报找出最优的动作。然而现有的强化学习应用在无人机领域时,只有在对抗结束时、或者发生无人机损毁时才能给出相应的奖励回报,而在对抗过程中做的决策,奖励只有0。因此现有技术提供的强化学习方法存在稀疏奖励的缺点。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种快速收敛的多无人机协同对抗强化学习方法,解决了现有技术提供的强化学习方法存在稀疏奖励的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种快速收敛的多无人机协同对抗强化学习方法,所述方法包括:
获取多无人机协同对抗时的无人机状态数据;
计算所述无人机状态数据的奖励回报,所述奖励回报包括:多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报;
基于预先构建的强化学习网络对所述无人机状态数据进行处理,得到多无人机重决策方案;
基于所述奖励回报更新所述强化学习网络;
基于所述多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。
优选的,所述无人机状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
优选的,所述多无人机协同对抗参数奖励回报包括:无人机态势优势奖励回报和无人机能力优势回报;
所述无人机态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报;
所述无人机能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
优选的,计算所述无人机状态数据的奖励回报,包括:
r=r1&r2
其中:
r表示无人机状态数据的奖励回报;
r1表示多无人机协同对抗参数奖励回报;
r2表示多无人机协同对抗规则奖励回报;
r1=r3+r4
其中:
r3表示无人机态势优势奖励回报;
r4表示无人机能力优势回报;
r3=r31+r32+r33
其中:
r31表示距离优势奖励回报;
r32表示速度优势奖励回报;
r33表示角度优势奖励回报;
r4=r41+r42+r43
其中:
r41表示武器射程优势奖励回报;
r42表示武器角度优势奖励回报;
r43表示武器速度优势奖励回报。
优选的,所述距离优势奖励回报的计算方法包括:
Figure BDA0002973646570000041
Figure BDA0002973646570000042
其中:
r31表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
Figure BDA0002973646570000043
表示为我方的第i架无人机到敌方的第j架无人机的距离;或:
Figure BDA0002973646570000044
Figure BDA0002973646570000051
其中:
D1、D2、D3分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值;
Figure BDA0002973646570000052
表示我方第i架无人机的坐标;
Figure BDA0002973646570000053
表示敌方第j架无人机的坐标;
或:
Figure BDA0002973646570000054
其中:
xr,yr,zr表示我方无人机坐标,xb,yb,zb表示敌方无人机坐标;
vr表示我方无人机速度;
Figure BDA0002973646570000055
表示我方第i架无人机到敌方第j架无人机之间的方位角;
Figure BDA0002973646570000056
表示预设周期之后的我方第i架无人机的坐标;
Figure BDA0002973646570000057
表示预设周期之后的敌方第j架无人机的坐标;
或:
Figure BDA0002973646570000058
其中:
Figure BDA0002973646570000061
为我方第i架无人机的飞行高度;
Figure BDA0002973646570000062
为敌方第j架无人机的飞行高度;
z0为无人机最佳飞行高度。
优选的,所述速度优势奖励回报的计算方法包括:
Figure BDA0002973646570000063
时,
Figure BDA0002973646570000064
Figure BDA0002973646570000065
时,
Figure BDA0002973646570000066
其中:
Figure BDA0002973646570000067
表示我方第i架无人机的速度;
Figure BDA0002973646570000068
表示敌方第j架无人机的速度;
v0表示无人机最优飞行速度;
或:
Figure BDA0002973646570000069
其中:
Vmax表示无人机最大速度;
vb表示敌方无人机速度;
或:
Figure BDA0002973646570000071
其中:
vr表示我方无人机速度。
优选的,所述角度优势奖励回报的计算方法包括:
Figure BDA0002973646570000072
其中:
Figure BDA0002973646570000073
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
或:
Figure BDA0002973646570000074
其中:
Figure BDA0002973646570000075
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure BDA0002973646570000076
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
优选的,所述武器射程优势奖励回报的计算方法包括:
Figure BDA0002973646570000077
其中:
dw表示我方无人机的武器射程,
Figure BDA0002973646570000081
表示我方第i架无人机到敌方第j架无人机间的距离;
所述武器角度优势奖励回报的计算方法包括:
Figure BDA0002973646570000082
其中:
Figure BDA0002973646570000083
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure BDA0002973646570000084
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
βmax表示武器最大发射角度;βr表示我方无人机的武器发射角度;
所述武器速度优势奖励回报的计算方法包括:
Figure BDA0002973646570000085
Figure BDA0002973646570000086
其中:
v0表示无人机最佳攻击速度。
优选的,所述多无人机协同对抗规则奖励回报的计算方法包括:
Figure BDA0002973646570000091
其中:
Figure BDA0002973646570000092
表示我方第i架无人机到敌方第j架无人机间的距离;θr表示我方无人机速度方向与双方质心间的角度;θb表示敌方无人机速度方向与双方质心间的角度β代表双方无人机之间的角度,vr表示我方无人机速度;h代表无人机高度。
优选的,所述奖励回报还包括协同奖励回报和环境奖励回报;
所述协同奖励回报的计算方法包括:
r9=-α1log(1-d)
d=max{d1-d0,0,d2-d0}
Figure BDA0002973646570000093
其中:
α1为超参数,xi,yi,zi代表第i架无人机的坐标;
xj,yj,zj代表第j架无人机的坐标;
d1表示协同区域的圆环内半径,d2表示协同区域的圆环外半径;
所述环境奖励回报的计算方法包括:
Figure BDA0002973646570000094
其中:
v代表速度,h代表高度。
(三)有益效果
本发明提供了一种快速收敛的多无人机协同对抗强化学习方法。与现有技术相比,具备以下有益效果:
本发明通过获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的快速收敛的多无人机协同对抗强化学习方法的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种快速收敛的多无人机协同对抗强化学习方法,解决了提供的强化学习方法存在稀疏奖励的问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
需要说明的是,本发明实施例中所述的“回合”具体是指:多无人机进行协同作战时,会不断进行空中对战直至敌我双方有一方战败,此时多无人机对战结束。在整个对战过程中,多无人机可能会经历多次空战方案重决策过程,因此本发明实施例设定每一次重决策过程为一个回合。
本发明实施例提供了一种快速收敛的多无人机协同对抗强化学习方法,如图1所示,所述方法包括以下步骤:
S1、获取多无人机协同对抗时的无人机状态数据;
S2、计算所述无人机状态数据的奖励回报,所述奖励回报包括:多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报;
S3、基于预先构建的强化学习网络对所述无人机状态数据进行处理,得到多无人机重决策方案;
S4、基于所述奖励回报更新所述强化学习网络;
S5、基于所述多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。
本发明实施例通过获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。
下面对各步骤进行具体分析。
在步骤S1中,获取多无人机协同对抗时的无人机状态数据。
具体的,无人机状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
在步骤S2中,计算所述无人机状态数据的奖励回报。
具体的,奖励回报包括:多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报。其中,多无人机协同对抗参数奖励回报包括:无人机态势优势奖励回报和无人机能力优势回报。
无人机态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
无人机能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
具体的,计算所述无人机状态数据的奖励回报,包括:
r=r1&r2
其中:
r表示无人机状态数据的奖励回报;
r1表示多无人机协同对抗参数奖励回报;
r2表示多无人机协同对抗规则奖励回报。
在本发明实施例中,设定为总的奖励回报采用多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报中的一项。
r1=r3+r4
其中:
r3表示无人机态势优势奖励回报;
r4表示无人机能力优势回报。
态势优势奖励回报是在不考虑其他影响因素的情况下,只考虑对抗过程中双方相对位置,速度,角度的奖励回报设计。具体为:
r3=r31+r32+r33
其中:
r31表示距离优势奖励回报;
r32表示速度优势奖励回报;
r33表示角度优势奖励回报。
r4=r41+r42+r43
其中:
r41表示武器射程优势奖励回报;
r42表示武器角度优势奖励回报;
r43表示武器速度优势奖励回报。
在一些实施例中,距离优势奖励回报的计算方法包括一下几种:
1.两个无人机进行对抗过程中,由于两个无人机之间距离的改变或无人机飞行高度的改变,使得无人机在对抗过程中占据优势或受到威胁。两个无人机之间的距离超过一定范围时,无人机占据的距离优势随两个无人机之间的距离的增大呈指数减小,这个距离范围称之为不可逃逸区最大距离。考虑到距离因素对武器射程的影响,引入影响因子
Figure BDA0002973646570000151
距离越远,距离优势成指数减小。具体的:
Figure BDA0002973646570000152
Figure BDA0002973646570000153
其中:
r31表示距离优势奖励回报;
DRmax为雷达最大搜索距离;DMmax为导弹攻击距离;
Figure BDA0002973646570000154
表示为我方的第i架无人机到敌方的第j架无人机的距离。
2.在多无人机协同对抗过程中根据双方距离设定四个威胁区域,分别代表敌方无人机对我方无人机有严重威胁、普通威胁,轻微威胁,无威胁。实现在对抗过程中根据危险级别采取不同类型的重决策。
Figure BDA0002973646570000155
Figure BDA0002973646570000156
其中:
D1、D2、D3分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值;严重威胁区域>普通威胁区域>轻微威胁区域>无威胁区域;
Figure BDA0002973646570000161
表示我方第i架无人机的坐标;
Figure BDA0002973646570000162
表示敌方第j架无人机的坐标。
3.
Figure BDA0002973646570000163
其中:
xr,yr,zr表示我方无人机坐标,xb,yb,zb表示敌方无人机坐标;vr表示我方无人机速度;
Figure BDA0002973646570000164
表示我方第i架无人机到敌方第j架无人机之间的方位角;
Figure BDA0002973646570000165
表示预设周期之后的我方第i架无人机的坐标;
Figure BDA0002973646570000166
表示预设周期之后的敌方第j架无人机的坐标。
4.
Figure BDA0002973646570000167
其中:
Figure BDA0002973646570000168
为我方第i架无人机的飞行高度;
Figure BDA0002973646570000169
为敌方第j架无人机的飞行高度;z0为无人机最佳飞行高度。
上述四种方法选择其中一种作为距离优势奖励回报的计算方法。
速度优势奖励回报的计算方法包括一下几种:
1.速度优势是指两个无人机间由于相对速度而取得的优势或受到的威胁,无人机的速度可以直接的影响无人机的追击或逃脱,以及无人机能否及时灵活的转变飞行状态。并非无人机的速度值越大,占据的优势越大,超过一定的速度时,速度值的继续增大会缩短无人机的可用占位时间、削弱无人机占位能力(转弯半径增大)。这个临界速度值被定义为无人机的最佳飞行速度。
因此,无人机在对抗过程中占据的速度优势受到两个方面的影响,一是两个无人机之间的飞行速度差,二是两个无人机自身的最佳飞行速度。在这里,假设两个无人机均具有相同的最佳飞行速度值(速度方向可以不同,速度大小一致)。当对方无人机的飞行速度不变时,我方无人机的速度优势将随着其飞行速度的增加而增加。然而,当我方无人机的速度超过其最佳飞行速度时,其速度优势将随着其速度的继续增加而降低。具体的:
Figure BDA0002973646570000171
时,
Figure BDA0002973646570000172
Figure BDA0002973646570000173
时,
Figure BDA0002973646570000174
其中:
Figure BDA0002973646570000181
表示我方第i架无人机的速度;
Figure BDA0002973646570000182
表示敌方第j架无人机的速度;
v0表示无人机最优飞行速度;
2.
Figure BDA0002973646570000183
其中:
Vmax表示无人机最大速度;
vb表示敌方无人机速度;
3.
Figure BDA0002973646570000184
其中:
vr表示我方无人机速度。
上述三种计算方法选择其中一种作为速度优势奖励回报的计算方法。
角度是指两个无人机之间的视线(两个无人机间的物理位置的连线称之为视线)与两个无人机的速度方向的夹角,大小在零到π之间。无人机间的角度包括方位角和进入角,我方无人机的速度方向与视线的夹角称之为方位角;对方无人机速度方向与视线的夹角称之为进入角。方位角和进入角在无人机对抗过程中起到至关重要的作用,我方无人机通过增大方位角以占据角度上的优势,进行有效的追击或规避;而对方无人机则试图增大进入角占据角度优势以摆脱我方无人机的追击或追击我方无人机,角度优势奖励回报的计算方法包括以下几种:
1.
Figure BDA0002973646570000191
其中:
Figure BDA0002973646570000192
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角。
Figure BDA0002973646570000193
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
2.
Figure BDA0002973646570000194
其中:
具体的,
Figure BDA0002973646570000195
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角。
Figure BDA0002973646570000196
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
Figure BDA0002973646570000197
趋于0、
Figure BDA0002973646570000198
趋于π时,角度优势函数最大,此时处于对目标的追尾攻击,当
Figure BDA0002973646570000199
趋于π、
Figure BDA00029736465700001910
趋于0时,角度优势函数最小,此时处于被追尾攻击。
上述三种方法选择其中一种作为角度优势奖励回报的计算方法。
在一些实施例中,武器射程优势奖励回报的计算方法包括:
Figure BDA0002973646570000201
其中:
dw表示我方无人机的武器射程,d表示双方无人机间的距离。
武器角度优势奖励回报的计算方法包括:
Figure BDA0002973646570000202
其中:
Figure BDA0002973646570000203
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角。
Figure BDA0002973646570000204
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
βmax表示武器最大发射角度。
武器速度优势奖励回报的计算方法包括:
Figure BDA0002973646570000205
Figure BDA0002973646570000206
其中:
v0表示无人机最佳攻击速度。
在一些实施例中,多无人机协同对抗规则奖励回报的计算方法为:
Figure BDA0002973646570000211
其中:
Figure BDA0002973646570000212
表示我方i无人机到敌方j无人机间的距离;
θr表示我方无人机速度方向与双方质心间的角度;
θb表示敌方无人机速度方向与双方质心间的角度
β代表双方无人机之间的角度,vr表示我方无人机速度;
h代表无人机高度。
具体的,本发明实施例中的奖励回报还可以包括协同奖励回报和环境奖励回报。
协同奖励回报的计算方法包括:
r9=-α1log(1-d)
d=max{d1-d0,0,d2-d0}
Figure BDA0002973646570000213
其中:
α1为超参数,x,y,z代表无人机坐标;
d1表示协同区域的圆环内半径,d2表示协同区域的圆环外半径。
具体的,协同区域为自行设定的一个圆环形区域,具有与内外环。
环境奖励回报的计算方法包括:
Figure BDA0002973646570000221
其中:
v代表速度,h代表高度。
在本发明的一些实施例中,总的奖励回报为:r=r1&r2+r9&r10
或:r=r1&r2+r9+r10
在步骤S3中,基于预先构建的强化学习网络对所述无人机状态数据进行处理,得到多无人机重决策方案。
具体的,预先构建的强化学习网络可以为Actor-Critic算法,本发明实施例中不作限定。
在步骤S4中,基于所述奖励回报更新所述强化学习网络。
在步骤S5中,基于所述多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。
本发明实施例通过强化学习网络对无人机状态数据进行处理,可以得到每个回合的多无人无人机重决策方案。并不断循环,直至多无人机协同对抗结束,实现了多无人机空战方案的强化训练,提高多无人机的作战效率。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人机的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种快速收敛的多无人机协同对抗强化学习方法,其特征在于,所述方法包括:
获取多无人机协同对抗时的无人机状态数据;
计算所述无人机状态数据的奖励回报,所述奖励回报包括:多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报;
基于预先构建的强化学习网络对所述无人机状态数据进行处理,得到多无人机重决策方案;
基于所述奖励回报更新所述强化学习网络;
基于所述多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。
2.如权利要求1所述的强化学习方法,其特征在于,所述无人机状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
3.如权利要求1所述的强化学习方法,其特征在于,所述多无人机协同对抗参数奖励回报包括:无人机态势优势奖励回报和无人机能力优势回报;
所述无人机态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报;
所述无人机能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。
4.如权利要求3所述的强化学习方法,其特征在于,计算所述无人机状态数据的奖励回报,包括:
r=r1&r2
其中:
r表示无人机状态数据的奖励回报;
r1表示多无人机协同对抗参数奖励回报;
r2表示多无人机协同对抗规则奖励回报;
r1=r3+r4
其中:
r3表示无人机态势优势奖励回报;
r4表示无人机能力优势回报;
r3=r31+r32+r33
其中:
r31表示距离优势奖励回报;
r32表示速度优势奖励回报;
r33表示角度优势奖励回报;
r4=r41+r42+r43
其中:
r41表示武器射程优势奖励回报;
r42表示武器角度优势奖励回报;
r43表示武器速度优势奖励回报。
5.如权利要求4所述的强化学习方法,其特征在于,所述距离优势奖励回报的计算方法包括:
Figure FDA0002973646560000031
Figure FDA0002973646560000032
其中:
r31表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
Figure FDA0002973646560000033
表示为我方的第i架无人机到敌方的第j架无人机的距离;
或:
Figure FDA0002973646560000034
Figure FDA0002973646560000035
其中:
D1、D2、D3分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值;
Figure FDA0002973646560000041
表示我方第i架无人机的坐标;
Figure FDA0002973646560000042
表示敌方第j架无人机的坐标;
或:
Figure FDA0002973646560000043
其中:
xr,yr,zr表示我方无人机坐标,xb,yb,zb表示敌方无人机坐标;
vr表示我方无人机速度;
Figure FDA0002973646560000045
表示我方第i架无人机到敌方第j架无人机之间的方位角;
Figure FDA0002973646560000046
表示预设周期之后的我方第i架无人机的坐标;
Figure FDA0002973646560000047
表示预设周期之后的敌方第j架无人机的坐标;
或:
Figure FDA0002973646560000044
其中:
Figure FDA0002973646560000048
为我方第i架无人机的飞行高度;
Figure FDA0002973646560000049
为敌方第j架无人机的飞行高度;
z0为无人机最佳飞行高度。
6.如权利要求5所述的强化学习方法,其特征在于,所述速度优势奖励回报的计算方法包括:
Figure FDA0002973646560000051
时,
Figure FDA0002973646560000052
Figure FDA0002973646560000053
时,
Figure FDA0002973646560000054
其中:
Figure FDA0002973646560000056
表示我方第i架无人机的速度;
Figure FDA0002973646560000057
表示敌方第j架无人机的速度;
v0表示无人机最优飞行速度;
或:
Figure FDA0002973646560000055
其中:
Vmax表示无人机最大速度;
vb表示敌方无人机速度;
或:
Figure FDA0002973646560000061
其中:
vr表示我方无人机速度。
7.如权利要求6所述的强化学习方法,其特征在于,所述角度优势奖励回报的计算方法包括:
Figure FDA0002973646560000062
其中:
Figure FDA0002973646560000064
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
或:
Figure FDA0002973646560000063
其中:
Figure FDA0002973646560000065
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure FDA0002973646560000066
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
8.如权利要求4所述的强化学习方法,其特征在于,所述武器射程优势奖励回报的计算方法包括:
Figure FDA0002973646560000071
其中:
dw表示我方无人机的武器射程,
Figure FDA0002973646560000075
表示我方第i架无人机到敌方第j架无人机间的距离;
所述武器角度优势奖励回报的计算方法包括:
Figure FDA0002973646560000072
其中:
Figure FDA0002973646560000076
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure FDA0002973646560000077
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
βmax表示武器最大发射角度;
βr表示我方无人机的武器发射角度;
所述武器速度优势奖励回报的计算方法包括:
Figure FDA0002973646560000073
Figure FDA0002973646560000074
其中:
v0表示无人机最佳飞行速度。
9.如权利要求8所述的强化学习方法,其特征在于,所述多无人机协同对抗规则奖励回报的计算方法包括:
Figure FDA0002973646560000081
其中:
Figure FDA0002973646560000083
表示我方第i架无人机到敌方第j架无人机间的距离;
θr表示我方无人机速度方向与双方质心间的角度;
θb表示敌方无人机速度方向与双方质心间的角度
β代表双方无人机之间的角度,vr表示我方无人机速度;
h代表无人机高度。
10.如权利要求1所述的强化学习方法,其特征在于,所述奖励回报还包括协同奖励回报和环境奖励回报;
所述协同奖励回报的计算方法包括:
r9=-α1log(1-d)
d=max{d1-d0,0,d2-d0}
Figure FDA0002973646560000082
其中:
α1为超参数,xi,yi,zi代表第i架无人机的坐标;
xj,yj,zj代表第j架无人机的坐标;
d1表示协同区域的圆环内半径,d2表示协同区域的圆环外半径;
所述环境奖励回报的计算方法包括:
Figure FDA0002973646560000091
其中:
v代表速度,h代表高度。
CN202110269462.3A 2021-03-12 2021-03-12 快速收敛的多无人机协同对抗强化学习方法 Active CN113128699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269462.3A CN113128699B (zh) 2021-03-12 2021-03-12 快速收敛的多无人机协同对抗强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269462.3A CN113128699B (zh) 2021-03-12 2021-03-12 快速收敛的多无人机协同对抗强化学习方法

Publications (2)

Publication Number Publication Date
CN113128699A true CN113128699A (zh) 2021-07-16
CN113128699B CN113128699B (zh) 2022-11-15

Family

ID=76773043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269462.3A Active CN113128699B (zh) 2021-03-12 2021-03-12 快速收敛的多无人机协同对抗强化学习方法

Country Status (1)

Country Link
CN (1) CN113128699B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YINGYING MA 等: ""Cooperative Occupancy Decision Making of Multi-UAV in Beyond-Visual-Range Air Combat: A Game Theory Approach"", 《IEEE》 *
胡真财: ""基于深度强化学习的无人机对战战术决策的研究"", 《中国优秀硕士学位论文全文数据库-工程科技Ⅱ辑》 *

Also Published As

Publication number Publication date
CN113128699B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN110412874B (zh) 针对机动目标和时延通信的多导弹协同制导律设计方法
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN111240353A (zh) 基于遗传模糊树的无人机协同空战决策方法
CN113128021B (zh) 多无人平台协同对抗的实时重决策方法和系统
CN109633631A (zh) 一种多功能侦察雷达作战任务自动规划方法
CN110163519B (zh) 面向基地攻防任务的uuv红蓝方威胁评估方法
CN117035435A (zh) 一种动态环境下的多无人机任务分配与航迹规划优化方法
CN113128699B (zh) 快速收敛的多无人机协同对抗强化学习方法
CN113128698B (zh) 多无人机协同对抗决策的强化学习方法
Shi et al. Path Planning of Anti-ship Missile based on Voronoi Diagram and Binary Tree Algorithm
Kang et al. Air-to-air combat tactical decision method based on SIRMs fuzzy logic and improved genetic algorithm
CN113126651B (zh) 多无人机协同对抗的智能决策装置和系统
CN114742264A (zh) 舰艇编队网络化协同防空任务规划方法及系统
CN114202185A (zh) 一种高功率微波武器协同防空的体系贡献率评估方法
CN114417713A (zh) 一种来袭多目标的编群方法
Hao et al. A study on route planning of helicopter in low altitude area
Yu et al. Method of Unknown Target Risk Analysis and Threat Assessment for UUVs
Yao Study on the bvr cooperative air combat based on bp neural network
Huang et al. Multi-UCAV cooperative autonomous attack path planning method under uncertain environment
Wu et al. Decision-Making Method of UAV Maneuvering in Close-Range Confrontation based on Deep Reinforcement Learning
Xu et al. Solution of fire coordination scheme of equipment system based on fuzzy clustering-auction mechanism
Zhao et al. Deep Reinforcement Learning‐Based Air Defense Decision‐Making Using Potential Games
Huang et al. Multi-UAV cooperative path planning based on Aquila Optimizer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant