CN113128699A

CN113128699A - 快速收敛的多无人机协同对抗强化学习方法

Info

Publication number: CN113128699A
Application number: CN202110269462.3A
Authority: CN
Inventors: 王国强; 陈宇轩; 罗贺; 蒋儒浩; 马滢滢; 胡笑旋; 靳鹏; 马华伟; 夏维; 唐奕城
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-07-16
Anticipated expiration: 2041-03-12
Also published as: CN113128699B

Abstract

本发明提供一种快速收敛的多无人机协同对抗强化学习方法，涉及无人机领域，包括：获取多无人机协同对抗时的无人机状态数据；计算无人机状态数据的奖励回报；基于预先构建的强化学习网络对无人机状态数据进行处理，得到多无人机重决策方案；基于奖励回报更新强化学习网络；基于多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报，可以解决稀疏奖励的问题，使得多无人机在强化学习时可以快速收敛。

Description

快速收敛的多无人机协同对抗强化学习方法

技术领域

本发明涉及无人机技术领域，具体涉及一种快速收敛的多无人机协同对抗强化学习方法。

背景技术

随着新兴技术的发展与应用，信息对抗、智能对抗已逐渐成为新的作战手段和作战形式，无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进，运用多架无人机在空中协同作战系统，已成为本领域关注的热点和追求的目标。

多无人机协同对抗环境中，对抗情况瞬息万变，呈现高动态、高实时和高不确定性的特点，并且多机协同对抗整体过程时间较长，无法对敌方的行动作出详细预测，作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境，因此，决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策，也即是对多无人机作战策略进行强化学习。

强化学习方法需要不断地学习在不同的环境下通过奖励回报找出最优的动作。然而现有的强化学习应用在无人机领域时，只有在对抗结束时、或者发生无人机损毁时才能给出相应的奖励回报，而在对抗过程中做的决策，奖励只有0。因此现有技术提供的强化学习方法存在稀疏奖励的缺点。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种快速收敛的多无人机协同对抗强化学习方法，解决了现有技术提供的强化学习方法存在稀疏奖励的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种快速收敛的多无人机协同对抗强化学习方法，所述方法包括：

获取多无人机协同对抗时的无人机状态数据；

计算所述无人机状态数据的奖励回报，所述奖励回报包括：多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报；

基于预先构建的强化学习网络对所述无人机状态数据进行处理，得到多无人机重决策方案；

基于所述奖励回报更新所述强化学习网络；

基于所述多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。

优选的，所述无人机状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。

优选的，所述多无人机协同对抗参数奖励回报包括：无人机态势优势奖励回报和无人机能力优势回报；

所述无人机态势优势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报；

所述无人机能力优势奖励回报包括：武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。

优选的，计算所述无人机状态数据的奖励回报，包括：

r＝r₁&r₂

其中：

r表示无人机状态数据的奖励回报；

r₁表示多无人机协同对抗参数奖励回报；

r₂表示多无人机协同对抗规则奖励回报；

r₁＝r₃+r₄

其中：

r₃表示无人机态势优势奖励回报；

r₄表示无人机能力优势回报；

r₃＝r₃₁+r₃₂+r₃₃

其中：

r₃₁表示距离优势奖励回报；

r₃₂表示速度优势奖励回报；

r₃₃表示角度优势奖励回报；

r₄＝r₄₁+r₄₂+r₄₃

其中：

r₄₁表示武器射程优势奖励回报；

r₄₂表示武器角度优势奖励回报；

r₄₃表示武器速度优势奖励回报。

优选的，所述距离优势奖励回报的计算方法包括：

其中：

r₃₁表示距离优势奖励回报；

D_Rmax为雷达最大搜索距离；

D_Mmax为导弹攻击距离；

表示为我方的第i架无人机到敌方的第j架无人机的距离；或：

其中：

D₁、D₂、D₃分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值；

表示我方第i架无人机的坐标；

表示敌方第j架无人机的坐标；

或：

其中：

x^r，y^r，z_r表示我方无人机坐标，x^b，y^b，z^b表示敌方无人机坐标；

v^r表示我方无人机速度；

表示我方第i架无人机到敌方第j架无人机之间的方位角；

表示预设周期之后的我方第i架无人机的坐标；

表示预设周期之后的敌方第j架无人机的坐标；

或：

其中：

为我方第i架无人机的飞行高度；

为敌方第j架无人机的飞行高度；

z₀为无人机最佳飞行高度。

优选的，所述速度优势奖励回报的计算方法包括：

当

时，

当

时，

其中：

表示我方第i架无人机的速度；

表示敌方第j架无人机的速度；

v₀表示无人机最优飞行速度；

或：

其中：

V_max表示无人机最大速度；

v^b表示敌方无人机速度；

或：

其中：

v_r表示我方无人机速度。

优选的，所述角度优势奖励回报的计算方法包括：

其中：

表示敌方无人机方位角；为敌方第j架无人机，以及敌方第j架无人机到我方第i架无人机连线间的夹角；

或：

其中：

表示我方无人机方位角；为我方第i架无人机，以及我方第i架无人机到敌方第j架无人机连线间的夹角；

表示敌方无人机方位角；为敌方第j架无人机，以及敌方第j架无人机到我方第i架无人机连线间的夹角。

优选的，所述武器射程优势奖励回报的计算方法包括：

其中：

d_w表示我方无人机的武器射程，

表示我方第i架无人机到敌方第j架无人机间的距离；

所述武器角度优势奖励回报的计算方法包括：

其中：

β_max表示武器最大发射角度；β_r表示我方无人机的武器发射角度；

所述武器速度优势奖励回报的计算方法包括：

其中：

v₀表示无人机最佳攻击速度。

优选的，所述多无人机协同对抗规则奖励回报的计算方法包括：

其中：

表示我方第i架无人机到敌方第j架无人机间的距离；θ^r表示我方无人机速度方向与双方质心间的角度；θ^b表示敌方无人机速度方向与双方质心间的角度β代表双方无人机之间的角度，v_r表示我方无人机速度；h代表无人机高度。

优选的，所述奖励回报还包括协同奖励回报和环境奖励回报；

所述协同奖励回报的计算方法包括：

r₉＝-α₁log(1-d)

d＝max{d₁-d₀,0,d₂-d₀}

其中：

α₁为超参数，x_i,y_i,z_i代表第i架无人机的坐标；

x_j,y_j,z_j代表第j架无人机的坐标；

d₁表示协同区域的圆环内半径，d₂表示协同区域的圆环外半径；

所述环境奖励回报的计算方法包括：

其中：

v代表速度，h代表高度。

(三)有益效果

本发明提供了一种快速收敛的多无人机协同对抗强化学习方法。与现有技术相比，具备以下有益效果：

本发明通过获取多无人机协同对抗时的无人机状态数据；计算无人机状态数据的奖励回报；基于预先构建的强化学习网络对无人机状态数据进行处理，得到多无人机重决策方案；基于奖励回报更新强化学习网络；基于多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报，可以解决稀疏奖励的问题，使得多无人机在强化学习时可以快速收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的快速收敛的多无人机协同对抗强化学习方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种快速收敛的多无人机协同对抗强化学习方法，解决了提供的强化学习方法存在稀疏奖励的问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取多无人机协同对抗时的无人机状态数据；计算无人机状态数据的奖励回报；基于预先构建的强化学习网络对无人机状态数据进行处理，得到多无人机重决策方案；基于奖励回报更新强化学习网络；基于多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报，可以解决稀疏奖励的问题，使得多无人机在强化学习时可以快速收敛。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

需要说明的是，本发明实施例中所述的“回合”具体是指：多无人机进行协同作战时，会不断进行空中对战直至敌我双方有一方战败，此时多无人机对战结束。在整个对战过程中，多无人机可能会经历多次空战方案重决策过程，因此本发明实施例设定每一次重决策过程为一个回合。

本发明实施例提供了一种快速收敛的多无人机协同对抗强化学习方法，如图1所示，所述方法包括以下步骤：

S1、获取多无人机协同对抗时的无人机状态数据；

S2、计算所述无人机状态数据的奖励回报，所述奖励回报包括：多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报；

S3、基于预先构建的强化学习网络对所述无人机状态数据进行处理，得到多无人机重决策方案；

S4、基于所述奖励回报更新所述强化学习网络；

S5、基于所述多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。

下面对各步骤进行具体分析。

在步骤S1中，获取多无人机协同对抗时的无人机状态数据。

具体的，无人机状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。

在步骤S2中，计算所述无人机状态数据的奖励回报。

具体的，奖励回报包括：多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报。其中，多无人机协同对抗参数奖励回报包括：无人机态势优势奖励回报和无人机能力优势回报。

无人机态势优势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。

无人机能力优势奖励回报包括：武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。

具体的，计算所述无人机状态数据的奖励回报，包括：

r＝r₁&r₂

其中：

r表示无人机状态数据的奖励回报；

r₁表示多无人机协同对抗参数奖励回报；

r₂表示多无人机协同对抗规则奖励回报。

在本发明实施例中，设定为总的奖励回报采用多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报中的一项。

r₁＝r₃+r₄

其中：

r₃表示无人机态势优势奖励回报；

r₄表示无人机能力优势回报。

态势优势奖励回报是在不考虑其他影响因素的情况下，只考虑对抗过程中双方相对位置，速度，角度的奖励回报设计。具体为：

r₃＝r₃₁+r₃₂+r₃₃

其中：

r₃₁表示距离优势奖励回报；

r₃₂表示速度优势奖励回报；

r₃₃表示角度优势奖励回报。

r₄＝r₄₁+r₄₂+r₄₃

其中：

r₄₁表示武器射程优势奖励回报；

r₄₂表示武器角度优势奖励回报；

r₄₃表示武器速度优势奖励回报。

在一些实施例中，距离优势奖励回报的计算方法包括一下几种：

1.两个无人机进行对抗过程中，由于两个无人机之间距离的改变或无人机飞行高度的改变，使得无人机在对抗过程中占据优势或受到威胁。两个无人机之间的距离超过一定范围时，无人机占据的距离优势随两个无人机之间的距离的增大呈指数减小，这个距离范围称之为不可逃逸区最大距离。考虑到距离因素对武器射程的影响，引入影响因子

距离越远，距离优势成指数减小。具体的：

其中：

r₃₁表示距离优势奖励回报；

D_Rmax为雷达最大搜索距离；D_Mmax为导弹攻击距离；

表示为我方的第i架无人机到敌方的第j架无人机的距离。

2.在多无人机协同对抗过程中根据双方距离设定四个威胁区域，分别代表敌方无人机对我方无人机有严重威胁、普通威胁，轻微威胁，无威胁。实现在对抗过程中根据危险级别采取不同类型的重决策。

其中：

D₁、D₂、D₃分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值；严重威胁区域>普通威胁区域>轻微威胁区域>无威胁区域；

表示我方第i架无人机的坐标；

表示敌方第j架无人机的坐标。

3.

其中：

x^r，y^r，z^r表示我方无人机坐标，x^b，y^b，z^b表示敌方无人机坐标；v^r表示我方无人机速度；

表示我方第i架无人机到敌方第j架无人机之间的方位角；

表示预设周期之后的我方第i架无人机的坐标；

表示预设周期之后的敌方第j架无人机的坐标。

4.

其中：

为我方第i架无人机的飞行高度；

为敌方第j架无人机的飞行高度；z₀为无人机最佳飞行高度。

上述四种方法选择其中一种作为距离优势奖励回报的计算方法。

速度优势奖励回报的计算方法包括一下几种：

1.速度优势是指两个无人机间由于相对速度而取得的优势或受到的威胁，无人机的速度可以直接的影响无人机的追击或逃脱，以及无人机能否及时灵活的转变飞行状态。并非无人机的速度值越大，占据的优势越大，超过一定的速度时，速度值的继续增大会缩短无人机的可用占位时间、削弱无人机占位能力(转弯半径增大)。这个临界速度值被定义为无人机的最佳飞行速度。

因此，无人机在对抗过程中占据的速度优势受到两个方面的影响，一是两个无人机之间的飞行速度差，二是两个无人机自身的最佳飞行速度。在这里，假设两个无人机均具有相同的最佳飞行速度值(速度方向可以不同，速度大小一致)。当对方无人机的飞行速度不变时，我方无人机的速度优势将随着其飞行速度的增加而增加。然而，当我方无人机的速度超过其最佳飞行速度时，其速度优势将随着其速度的继续增加而降低。具体的：

当

时，

当

时，

其中：

表示我方第i架无人机的速度；

表示敌方第j架无人机的速度；

v₀表示无人机最优飞行速度；

2.

其中：

V_max表示无人机最大速度；

v^b表示敌方无人机速度；

3.

其中：

v_r表示我方无人机速度。

上述三种计算方法选择其中一种作为速度优势奖励回报的计算方法。

角度是指两个无人机之间的视线(两个无人机间的物理位置的连线称之为视线)与两个无人机的速度方向的夹角，大小在零到π之间。无人机间的角度包括方位角和进入角，我方无人机的速度方向与视线的夹角称之为方位角；对方无人机速度方向与视线的夹角称之为进入角。方位角和进入角在无人机对抗过程中起到至关重要的作用，我方无人机通过增大方位角以占据角度上的优势，进行有效的追击或规避；而对方无人机则试图增大进入角占据角度优势以摆脱我方无人机的追击或追击我方无人机，角度优势奖励回报的计算方法包括以下几种：

1.

其中：

表示我方无人机方位角；为我方第i架无人机，以及我方第i架无人机到敌方第j架无人机连线间的夹角。

2.

其中：

具体的，

当

趋于0、

趋于π时，角度优势函数最大，此时处于对目标的追尾攻击，当

趋于π、

趋于0时，角度优势函数最小，此时处于被追尾攻击。

上述三种方法选择其中一种作为角度优势奖励回报的计算方法。

在一些实施例中，武器射程优势奖励回报的计算方法包括：

其中：

d_w表示我方无人机的武器射程，d表示双方无人机间的距离。

武器角度优势奖励回报的计算方法包括：

其中：

β_max表示武器最大发射角度。

武器速度优势奖励回报的计算方法包括：

其中：

v₀表示无人机最佳攻击速度。

在一些实施例中，多无人机协同对抗规则奖励回报的计算方法为：

其中：

表示我方i无人机到敌方j无人机间的距离；

θ^r表示我方无人机速度方向与双方质心间的角度；

θ^b表示敌方无人机速度方向与双方质心间的角度

β代表双方无人机之间的角度，v_r表示我方无人机速度；

h代表无人机高度。

具体的，本发明实施例中的奖励回报还可以包括协同奖励回报和环境奖励回报。

协同奖励回报的计算方法包括：

r₉＝-α₁log(1-d)

d＝max{d₁-d₀,0,d₂-d₀}

其中：

α₁为超参数，x，y，z代表无人机坐标；

d₁表示协同区域的圆环内半径，d₂表示协同区域的圆环外半径。

具体的，协同区域为自行设定的一个圆环形区域，具有与内外环。

环境奖励回报的计算方法包括：

其中：

v代表速度，h代表高度。

在本发明的一些实施例中，总的奖励回报为：r＝r₁&r₂+r₉&r₁₀

或：r＝r₁&r₂+r₉+r₁₀

在步骤S3中，基于预先构建的强化学习网络对所述无人机状态数据进行处理，得到多无人机重决策方案。

具体的，预先构建的强化学习网络可以为Actor-Critic算法，本发明实施例中不作限定。

在步骤S4中，基于所述奖励回报更新所述强化学习网络。

在步骤S5中，基于所述多无人机重决策方案获取多无人机协同对抗数据，并作为下一回合的无人机状态数据，以使更新后的强化学习网络对下一回合的无人机状态数据进行处理，以得到下一回合的多无人机协同对抗重决策方案。

本发明实施例通过强化学习网络对无人机状态数据进行处理，可以得到每个回合的多无人无人机重决策方案。并不断循环，直至多无人机协同对抗结束，实现了多无人机空战方案的强化训练，提高多无人机的作战效率。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人机的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。