CN113128698A

CN113128698A - 多无人机协同对抗决策的强化学习方法

Info

Publication number: CN113128698A
Application number: CN202110269453.4A
Authority: CN
Inventors: 王国强; 陈宇轩; 罗贺; 马滢滢; 蒋儒浩; 胡笑旋; 唐奕城; 靳鹏; 马华伟; 夏维
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-07-16
Anticipated expiration: 2041-03-12
Also published as: CN113128698B

Abstract

本发明提供一种多无人机协同对抗决策的强化学习方法，涉及无人机领域，包括：获取无人机初始状态数据并进行格式转换；对无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor‑Critic算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。本发明可以得到最适应当前环境下的无人机重决策方案。

Description

多无人机协同对抗决策的强化学习方法

技术领域

本发明涉及无人机技术领域，具体涉及一种多无人机协同对抗决策的强化学习方法。

背景技术

随着新兴技术的发展与应用，信息对抗、智能对抗已逐渐成为新的作战手段和作战形式，无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进，单架无人机在执行任务时暴露出了灵活性和任务完成率的短板，因此，运用多架无人机在空中构成相互协作、优势互补、效能倍增的协同作战系统，已成为本领域关注的热点和追求的目标。

多无人机协同对抗环境中，对抗情况瞬息万变，呈现高动态、高实时和高不确定性的特点，并且多机协同对抗整体过程时间较长，无法对敌方的行动作出详细预测，作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境，因此，决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策。

现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行，然而，由于多无人机协同对抗环境的变化较为迅速，这些方法已经不能适用当前环境，即现有技术提供的重决策方法的效果较差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种多无人机协同对抗决策的强化学习方法，解决了现有技术提供的重决策方法的效果较差的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种多无人机协同对抗决策的强化学习方法，所述强化学习方法由计算机执行，包括以下步骤：

获取无人机初始状态数据，并对所述无人机初始状态数据进行格式转换，得到预设格式的无人机初始状态数据；

对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；

基于预设的Actor-Critic算法对所述无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；

将所述多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于所述多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。

优选的，所述无人机初始状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。

优选的，对所述无人机初始状态数据进行格式转换，包括：

将Json格式的无人机初始状态数据转换为字符串的数据。

优选的，还包括：

获取所述预设的仿真场景反馈的信息，包括：多无人机协同对抗数据和结束指令；

当获取到多无人机协同对抗数据时，将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，并对无人机初始状态数据进行数据补全处理；

当获取到结束指令时，计算所有回合的奖励回报。

优选的，所述对预设格式的无人机初始状态数据进行数据补全处理，包括：

检测多架无人机中是否存在损毁情况；若是，则对损毁的无人机进行数据补零处理，若否，则不进行处理；

所述对数据补全后的无人机初始状态数据进行数据转换，包括：

将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式，以使数据可以作为神经网络的输入。

优选的，基于预设的Actor-Critic算法对所述无人机状态数据进行处理，包括：

计算所述无人机状态数据的奖励回报，并将所述无人机状态数据分别发送至Actor网络和Critic网络中；

基于Actor网络中的神经网络对所述无人机状态数据进行处理，得到所有重决策触发动作的概率，所述重决策触发动作包括：目标分配和不进行重决策；基于所有重决策触发动作的概率获取重决策触发结果；对所述重决策触发结果进行标准化处理，得到当前回合的多无人机协同对抗重决策结果；

基于Critic网络中的神经网络对所述无人机状态数据进行处理，得到状态值函数；

基于所述奖励回报和所述状态值函数计算TD误差；

基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS；

基于Actor网络的LOSS更新Actor网络的网络权值，基于所述Critic网络的LOSS更新Critic网络的网络权值。

优选的，所述奖励回报包括：无人机损毁奖励回报和无人机态势奖励回报；

所述无人机态势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。

优选的，所述无人机损毁奖励回报的计算方法包括：

r₀＝5*p+(-5)*q

其中：

r₀表示无人机损毁奖励回报；

p表示敌方无人机损毁数量；

q表示我方无人机损毁数量。

优选的，所述距离优势奖励回报的计算方法包括：

其中：

r₁表示距离优势奖励回报；

D_Rmax为雷达最大搜索距离；

D_Mmax为导弹攻击距离；

表示为我方第i架无人机到敌方第j架无人机的距离；

所述角度优势奖励回报的计算方法包括

其中：

r₂表示角度优势奖励回报；

表示我方无人机方位角；为我方第i架无人机，以及我方第i架无人机到敌方第j架无人机连线间的夹角；

表示敌方无人机方位角；为敌方第j架无人机，以及敌方第j架无人机到我方第i架无人机连线间的夹角；

所述速度优势奖励回报的计算方法包括：

其中：

r₃表示速度优势奖励回报；

v₀表示最佳攻击速度；

v_r表示我方无人机速度；

v_b表示敌方无人机速度；

v_max表示无人机最大速度；

d_w表示无人机的武器最大射程。

优选的，所述奖励回报的计算方法包括：

r＝r₀+r₁+r₂+r₃

其中：

r₀表示无人机损毁奖励回报；

r₁表示距离优势奖励回报；

r₂表示角度优势奖励回报；

r₃表示速度优势奖励回报。

(三)有益效果

本发明提供了一种多无人机协同对抗决策的强化学习方法。与现有技术相比，具备以下有益效果：

本发明获取无人机初始状态数据，并对无人机初始状态数据进行格式转换；对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor-Critic算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。由于现有的重决策一般采用神经网络、模糊Petri网和影像图，已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人机状态数据进行强化训练，可以得到最适应当前环境下的无人机重决策方案，以提高多无人机的作战效率，同时具有实时性和高效率的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的多无人机协同对抗决策的强化学习方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种多无人机协同对抗决策的强化学习方法，解决了现有技术提供的重决策方法的效果较差的问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例获取无人机初始状态数据，并对无人机初始状态数据进行格式转换；对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor-Critic算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。由于现有的重决策一般采用神经网络、模糊Petri网和影像图，已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人机状态数据进行强化训练，可以得到最适应当前环境下的无人机重决策方案，以提高多无人机的作战效率，同时具有实时性和高效率的优点。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

需要说明的是，本发明实施例中所述的“回合”具体是指：多无人机进行协同作战时，会不断进行空中对战直至敌我双方有一方战败，此时多无人机对战结束。在整个对战过程中，多无人机可能会经历多次空战方案重决策过程，因此本发明实施例设定每一次重决策过程为一个回合。

本发明实施例提供了一种多无人机协同对抗决策的强化学习方法，所述强化学习方法由计算机执行，如图1所示，包括以下步骤：

S1、获取无人机初始状态数据，并对所述无人机初始状态数据进行格式转换，得到预设格式的无人机初始状态数据；

S2、对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；

S3、基于预设的Actor-Critic算法对所述无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；

S4、将所述多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于所述多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。

本发明实施例获取无人机初始状态数据，并对无人机初始状态数据进行格式转换；对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor-Critic算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。本发明采用Actor-Critic算法对无人机状态数据进行强化训练，可以得到最适应当前环境下的无人机重决策方案，以提高多无人机的作战效率。

需要说明的是，本发明实施例在具体实施时可以利用仿真环境模拟真实场景的多无人机对战，以得到最优的多无人机重决策结果，并进一步验证本发明的准确性。

下面对各步骤进行具体分析。

在步骤S1中，包括以下步骤：

获取无人机初始状态数据。

具体的，无人机初始状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。

对无人机初始状态数据进行格式转换，得到预设格式的无人机初始状态数据。

需要说明的是，一般来说无人机初始状态数据为字符串格式，因此需要将Json格式的无人机初始状态数据转换为字符串的数据，以使Actor网络和Critic网络可以进行识别处理。

在步骤S2中，包括以下步骤：

S201、对预设格式的无人机初始状态数据进行数据补全处理。具体包括以下步骤：

检测多架无人机中是否存在损毁情况；若是，则对损毁的无人机进行数据补零处理，若否，则不进行处理。

在对抗过程中，当发生无人机损毁情形时，接收到的多机数据就会相应减少损毁的无人机数据，而作为神经网络的输入维数是不可改变的，因为首先要对初始多机状态数据进行数据补全，将损毁的无人机，采取数据补零，使得维度不变。

数据补零的具体操作为：当接收到初始多机状态数据时，首先进行检查是否缺失无人机，再检查缺失无人机的型号，型号对应后，将已损毁的无人机的无人机坐标、速度、角度均用数字“0”代入到多机状态数据中，使其不会发生维度转变。

S202、对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据。

其中，数据转换，包括：

在步骤S3中，基于预设的Actor-Critic算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果。具体包括以下步骤：

S301、计算所述无人机状态数据的奖励回报，并将所述无人机状态数据分别发送至Actor网络和Critic网络中。

具体的，奖励回报包括：无人机损毁奖励回报和无人机态势奖励回报。

其中，无人机损毁奖励回报的计算方法包括：

r₀＝5*p+(-5)*q

其中：

r₀表示无人机损毁奖励回报；

p表示敌方无人机损毁数量；

q表示我方无人机损毁数量。

距离优势奖励回报的计算方法包括：

其中：

r₁表示距离优势奖励回报；

D_Rmax为雷达最大搜索距离；

D_Mmax为导弹攻击距离；

表示我方第i架无人机到敌方第j架无人机的距离。

角度优势奖励回报的计算方法包括：

其中：

r₂表示角度优势奖励回报；

表示敌方无人机方位角；为敌方第j架无人机，以及敌方第j架无人机到我方第i架无人机连线间的夹角。

当

趋于0、

趋于π时，角度优势函数最大，此时处于对目标的追尾攻击。

当

趋于π、

趋于0时，角度优势函数最小，此时处于被追尾攻击。

速度优势奖励回报的计算方法包括：

其中：

r₃表示速度优势奖励回报；

v₀表示最佳攻击速度；

v_r表示我方无人机速度；

v_b表示敌方无人机速度；

v_max表示无人机最大速度；

表示我方i无人机到敌方j无人机之间的距离；

d_w表示无人机的武器最大射程。

在本发明实施例中，在求以上三类态势优势奖励回报时，需求得我方每架无人机到敌方每架无人机的奖励回报，再求其平均值记为相应回合的态势优势奖励回报。

因此，每一回合中总的奖励回报的计算方法包括：

r＝r₀+r₁+r₂+r₃

其中：

r₀表示无人机损毁奖励回报；

r₁表示距离优势奖励回报；

r₂表示角度优势奖励回报；

r₃表示速度优势奖励回报。

S302、基于Actor网络中的神经网络对所述无人机状态数据进行处理，得到所有重决策触发动作的概率。其中，所述重决策触发动作包括：目标分配和不进行重决策。

基于所有重决策触发动作的概率获取重决策触发结果。

对所述重决策触发结果进行标准化处理，得到当前回合的多无人机协同对抗重决策结果。

多无人机协同对抗重决策结果即为重决策方案。

目标分配(WTA)问题是指将有限数量的拦截器分配到来袭的导弹以最小化导弹摧毁受保护资产的概率或将优先的导弹分配给来袭的目标以最大化催化目标的概率。

S303、基于Critic网络中的神经网络对所述无人机状态数据进行处理，得到状态值函数。

S304、基于所述奖励回报和所述状态值函数计算TD误差。

S305、基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS。

S306、基于Actor网络的LOSS更新Actor网络的网络权值，基于所述Critic网络的LOSS更新Critic网络的网络权值。

在步骤S4中，将所述多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于所述多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。

需要说明的是，本发明实施例中利用预设的仿真场景模拟真实对战场景，预设的仿真场景包括VR-Forces仿真环境。通过VR-Forces仿真环境执行多无人机协同对抗重决策结果，可以得到本回合的多无人机协同对抗数据，并进一步作为下一回合的无人机初始状态数据，通过若干次的重决策判定，可以对Actor网络、Critic网络进行权值更新，意义在下次进行更优的重决策，从而得到最利于我方的多无人机协同对抗重决策结果。通过这种强化训练也可以得到较优的Actor网络和Critic网络，并作为训练好的网络应用到真实对战场景中，以提高多无人机的作战效率。

本发明实施例在具体实施时，还包括：

获取所述预设的仿真场景反馈的信息，包括：多无人机协同对抗数据和结束指令。

具体的，仿真场景在执行多无人机协同对抗重决策结果时会有两种结果。一种是仿真场景在执行重决策之后，双方战斗并未结束，此时仿真场景反馈多无人机执行重决策方案后的多无人机协同对抗数据。一种是仿真场景在执行重决策之后，有一方的无人机作战失败，此时对战结束，仿真场景会反馈一个结束指令。

当获取到多无人机协同对抗数据时，将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，并对无人机初始状态数据进行数据补全处理以及后续操作。

当获取到结束指令时，计算所有回合的奖励回报，即本次作战的总奖励回报。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人机的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多无人机协同对抗决策的强化学习方法，所述强化学习方法由计算机执行，其特征在于，包括以下步骤：

2.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述无人机初始状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。

3.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，对所述无人机初始状态数据进行格式转换，包括：

将Json格式的无人机初始状态数据转换为字符串格式的数据。

4.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，还包括：

当获取到结束指令时，计算所有回合的奖励回报。

5.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述对预设格式的无人机初始状态数据进行数据补全处理，包括：

6.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，基于预设的Actor-Critic算法对所述无人机状态数据进行处理，包括：

基于所述奖励回报和所述状态值函数计算TD误差；

基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS；

7.如权利要求6所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述奖励回报包括：无人机损毁奖励回报和无人机态势奖励回报；

8.如权利要求7所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述无人机损毁奖励回报的计算方法包括：

r₀＝5*p+(-5)*q

其中：

r₀表示无人机损毁奖励回报；

p表示敌方无人机损毁数量；

q表示我方无人机损毁数量。

9.如权利要求7所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述距离优势奖励回报的计算方法包括：

其中：

r₁表示距离优势奖励回报；

D_Rmax为雷达最大搜索距离；

D_Mmax为导弹攻击距离；

表示为我方第i架无人机到敌方第j架无人机的距离；

所述角度优势奖励回报的计算方法包括：

其中：

r₂表示角度优势奖励回报；

表示我方无人机方位角，为我方第i架无人机，以及我方第i架无人机到敌方第j架无人机连线间的夹角；

表示敌方无人机方位角，为敌方第j架无人机，以及敌方第j架无人机到我方第i架无人机连线间的夹角；

所述速度优势奖励回报的计算方法包括：

其中：

r₃表示速度优势奖励回报；

v₀表示最佳攻击速度；

v_r表示我方无人机速度；

v_b表示敌方无人机速度；

v_max表示无人机最大速度；

d_w表示无人机的武器最大射程。

10.如权利要求7所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述奖励回报的计算方法包括：

r＝r₀+r₁+r₂+r₃

其中：

r₀表示无人机损毁奖励回报；

r₁表示距离优势奖励回报；

r₂表示角度优势奖励回报；

r₃表示速度优势奖励回报。