CN114492677B

CN114492677B - 一种无人机对抗方法及装置

Info

Publication number: CN114492677B
Application number: CN202210353487.6A
Authority: CN
Inventors: 高阳; 李�浩; 颜冠伟; 常惠; 聂勤; 梁亚蓉; 赵皓; 张鑫辰
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-12
Anticipated expiration: 2042-04-06
Also published as: CN114492677A

Abstract

本发明提供一种无人机对抗方法及装置，包括：获取无人机智能体的多个经验数据；根据每个经验数据的优先级，在经验数据中确定多个样本经验数据；利用多个样本经验数据对无人机对抗模型进行训练；利用训练好的无人机对抗模型进行无人机对抗。本发明提供的无人机对抗方法及装置，通过对每个经验数据赋予优先级，使得更有价值的经验数据作为训练样本的概率更大，进而提高无人机对抗模型的训练效率。

Description

一种无人机对抗方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种无人机对抗方法。

背景技术

利用智能对抗方法可以有效辅助飞行员决策，现有的智能对抗研究大多是基于博弈论方法，在一组离散的动作上建立效用函数，在无人机的博弈对抗中，大多是在环境和算法复杂性之间进行权衡，在合理的时间内达到近似最优解。

深度强化学习是将强化学习的决策能力与深度学习的感知能力相结合的端对端学习方法，结合两种学习方法的特点使其可以处理高维状态空间和连续动作空间的控制决策问题，适用于无人机的博弈对抗研究。

然而，在无人机的博弈对抗中，强化学习算法会出现重复的无效训练以及优秀经验样本利用率低的不足，导致学习效率较低的问题。

发明内容

本发明提供一种无人机对抗方法及装置，用以解决现有技术中学习效率较低的缺陷，实现无人机对抗模型的训练效率的有效提升。

本发明提供一种无人机对抗方法，包括：

获取无人机智能体的多个经验数据；

根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；

利用所述多个样本经验数据对无人机对抗模型进行训练；

利用训练好的无人机对抗模型进行无人机对抗。

根据本发明提供的一种无人机对抗方法，所述优先级是基于以下方法确定的：

确定每个经验数据的初始偏好度；

并根据经验池中的每个经验数据的立即奖励值，确定奖励值基线；

根据所述奖励值基线，对所述初始偏好度进行调整，获取每个经验数据的更新偏好度；

根据所述更新偏好度，确定所述每个经验数据的优先级。

根据本发明提供的一种无人机对抗方法，所述无人机对抗模型中包括：第一无人机和第二无人机；所述利用所述多个样本经验数据对无人机对抗模型进行训练，包括：

利用所述多个样本经验数据，对所述无人机对抗模型的网络参数进行更新，确定更新后的无人机对抗模型；

基于总奖励函数，对所述更新后的无人机对抗模型进行训练，确定所述无人机对抗模型中每个无人机的奖励值；

根据所述奖励值，对所述无人机对抗模型进行训练，直至达到预设训练次数，得到训练好的无人机对抗模型；

所述无人机对抗模型包括：Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。

根据本发明提供的一种无人机对抗方法，所述总奖励函数是基于以下方法构建的：

根据两个无人机在与环境交互过程中的脱离角和偏移角，构建角度奖励函数；

根据两个无人机的速度和最佳对抗速度，构建速度奖励函数；

根据两个无人机的高度差和最佳对抗高度差，构建高度奖励函数；

根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数，确定综合奖励函数；

根据所述综合奖励函数，构建所述总奖励函数。

根据本发明提供的一种无人机对抗方法，所述经验数据包括机动速度数据和空间轨迹数据；所述获取无人机智能体的多个经验数据，包括：

基于无人机智能体的速度矢量，构建无人机运动模型；

基于无人机在博弈对抗模型中的机动动作，对所述无人机运动模型进行求解，确定所述机动速度数据和所述空间轨迹数据。

根据本发明提供的一种无人机对抗方法，在所述获取无人机智能体的多个经验数据之前，所述方法还包括：

根据对抗态势因素，确定无人机的状态特征；

根据所述状态特征，确定无人机的状态空间；

根据所述状态空间，确定所述无人机的转移函数；

根据所述总奖励函数，以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数，确定元组；

根据所述元组，构建所述博弈对抗模型。

本发明还提供一种无人机对抗装置，包括：

获取模块，获取无人机智能体的多个经验数据；

确定模块，根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；

训练模块，利用所述多个样本经验数据对无人机对抗模型进行训练；

对抗模块，利用训练好的无人机对抗模型进行无人机对抗。

根据本发明提供的无人机对抗装置，所述训练模块具体用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述无人机对抗方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。

本发明提供的无人机对抗方法及装置，通过对每个经验数据赋予优先级，使得更有价值的经验数据作为训练样本的概率更大，进而提高无人机对抗模型的训练效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的无人机对抗方法的流程示意图之一；

图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图；

图3是本发明提供的RPER-DDPG算法的流程示意图；

图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图；

图5是本发明提供的无人机对抗装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的无人机对抗方法，除了将遗传模糊树（Genetic Fuzzy Trees，GFTs）方法应用于ALPHA人工智能系统之外，还有应用强化学习算法对计算机生成兵力行为建模，开发新的奖励函数学习到新战术，还可以利用强化学习算法在智能采集单元中自动识别目标运动，通过自主智能体实验改进对抗仿真软件行为建模方式，为决策应用提供辅助。

可见，现有技术中关于优化无人机博弈对抗的部分技术方案，适应的对抗场景和提供的对抗方案都比较有限，难以应对无人机对抗过程中动态变化的复杂环境信息，偏离无人机实际的对抗需求。

在每一次智能体与环境相交互的过程中，智能体会观察当前时刻自身在环境中所呈现的状态(State)，或者部分状态，并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。

同时，在每一次智能体与环境交互的过程中，智能体会从环境中接受到一个反馈信息，这里称为奖励(Reward)。奖励是用一个具体的数值来表示，它会告诉智能体，当前时刻其在环境的状态表现是有多好或者有多糟糕。

下面结合图1至图6描述本发明的实施例所提供的无人机对抗方法及装置。

图1是本发明提供的无人机对抗方法的流程示意图，如图1所示，包括但不限于以下步骤：

首先，在步骤S1中，获取无人机智能体的多个经验数据。

经验数据是无人机智能体（以下简称：无人机）在执行动作策略与环境交互后得到的。

进一步地，在步骤S2中，根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据。

将所有的经验数据回放至经验池，并对每个经验数据赋予抽取概率，使得更有价值的经验数据被抽取出作为训练样本的概率更大，在此基础上，从经验池中抽取多个样本经验数据。

进一步地，在步骤S3中，利用所述多个样本经验数据对无人机对抗模型进行训练。

在利用多个样本经验数据对无人机对抗模型进行训练的过程中，无人机对抗模型中的两个无人机进行一对一（1Vs1）对抗训练，更新无人机对抗模型的网络参数，直至达到预设训练次数，可以得到训练好的无人机对抗模型。

预设训练次数可以根据实际应用中对无人机对抗模型的表现能力的需求进行设置，预设训练次数越多，无人机对抗模型表现能力越好，同等条件下得到的奖励值越高。

进一步地，在步骤S4中，利用训练好的无人机对抗模型进行无人机对抗。

将训练好的无人机对抗模型移植至无人机，可以利用该无人机进行对抗演练。

本发明提供的无人机对抗方法，通过对每个经验数据赋予优先级，使得更有价值的经验数据作为训练样本的概率更大，进而提高无人机对抗模型的训练效率。

可选地，所述经验数据包括机动速度数据和空间轨迹数据；所述获取无人机智能体的多个经验数据，包括：

基于无人机智能体的速度矢量，构建无人机运动模型；

假设无人机的速度矢量与机体轴向一致，无人机运动模型如公式（1）所示：

其中，

、

、

表示无人机在惯性坐标系中的位置；

为无人机机速度；

为轨迹倾斜角，范围为（[-180，180]）；

为轨迹偏转角（范围[-180，180]）；

为绕速度矢量滚转角，范围为[-180，180]；

为切向过载；

为法向过载，

、

、

表示

在三个坐标轴方向的分量；

为重力加速度。

可选地，在所述利用所述多个样本经验数据对无人机对抗模型进行训练之前，所述方法还包括：

根据对抗态势因素，确定无人机的状态特征；

根据所述状态特征，确定无人机的状态空间；

根据所述状态空间，确定所述无人机的转移函数；

根据所述元组，构建所述博弈对抗模型。

无人机对抗模型包括红蓝双方无人机；将红蓝双方无人机作为智能体，以两个智能体1Vs1的零和博弈为条件构建博弈对抗模型，处理红蓝双方无人机的对抗问题。

首先，将对抗仿真实验中无人机的数量

设定为2，即红方无人机和蓝方无人机实现1Vs1对抗。

进一步地，根据影响无人机对抗态势的因素，可以确定无人机的状态特征，主要由红方无人机的坐标

、高度

、速度

、偏航角

和滚转角

以及蓝方无人机坐标

、高度

、速度

、偏航角

和滚转角

组成。由此可得博弈的状态空间

可表示为：

进一步地，确定转移函数

，以红方无人机为例，红方当前状态

在红方根据策略选择的动作

与对手蓝方根据策略选择的动作

的联合行为

影响下，转移函数

表示红方转移到下一状态

的概率。同理，转移函数

也可以表示蓝方从当前状态

转移到下一状态

的概率。

进一步地，确定一个元组

，根据此一元组来构建红蓝双方对抗条件下的随机博弈模型。

其中，

表示随机博弈模型中无人机的数量；

表示无人机运动模型中无人机的空间状态；

表示第1至第n个无人机中每个无人机的动作；

表示第1 至第n个无人机中每个无人机的奖励值；

表示无人机与环境交互后反馈奖励。

利用由美国NASA提出的基本机动集合（Basic Fight Maneuvering，BFM）作为本发明的机动动作库，包括定常飞行、减速飞行、加速飞行、左转弯、右转弯、向上拉起和向下俯冲等机动动作；然后基于机动动作库，利用四阶龙格库塔算法对公式（1）的常微分方程组进行数值积分，得到无人机运动模型中每个无人机的经验数据，经验数据包括机动速度数据和空间轨迹数据，可以通过经验数据得到机动速度变化规律和空间轨迹变化规律。

可选地，所述无人机对抗模型中包括：第一无人机和第二无人机；所述利用所述多个样本经验数据对无人机对抗模型进行训练，包括：

在无人机1Vs1对抗的情况下，无法根据当前的智能体状态及其动作来确定敌方无人机的下一个状态，因为对手无人机可以使用不同的机动动作，进而导致对手无人机的下一个状态不同，特别是在多智能体竞争环境中，非平稳问题非常严重。

因此，可以采用DDPG算法让红蓝两个无人机智能体进行对抗。在无人机运动模型中，红蓝两个无人机分别拥有一个Q网络和一个策略网络，Q网络的输入是两个无人机的飞行状态、空战态势特征和动作向量，输出是自身无人机的Q值；策略网络的输入是两个无人机的飞行状态和空战态势特征，输出是自身无人机的行动矢量。在此过程中，为每个智能体学习一个集中的Q函数，能够有效解决非平稳问题，从而稳定训练。

可选地，所述优先级是基于以下方法确定的：

确定每个经验数据的初始偏好度；

根据所述更新偏好度，确定所述每个经验数据的优先级。

在DDPG算法基础上，设计基于奖励值的优先经验回放机制（Reward PrioritizedExperience Replay，RPER）模块，构建RPER-DDPG算法。图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图，如图2所示，对经验池中的经验数据进行重要性评估。

先对全部的经验数据设置一个偏好度

同时将其初始化为0。

经验回放机制就是将无人机智能体以前的经验在一个经验池中存储，采用先进先出（First In First Out，FIFO）的存储原则，然后在通过从经验池中采样从而对策略进行优化，利用这一特性，将经验池中的所有经验数据的立即奖励值的均值作为基线，根据基线就可以对各个经验数据的偏好度进行控制，从而更新偏好度

，就可以对各个经验数据进行重要性评估。具体步骤如下：

步骤1，随机初始化Critic当前网络的网络参数

和Actor当前网络的网络参数

，对应的权重分别为

和

；对应的初始化Critic目标网络的网络参数

和Actor目标网络的网络参数

，初始化作为经验池的回放记忆单元

。

步骤2，为无人机的动作探索初始化一个随机过程

，并获取无人机在环境中的初始观测状态

。

步骤3，Critic当前网络根据当前给定的动作策略和探索噪声，选择无人机在

时刻Q值最大的动作策略a_t，如公式（3）所示：

中，

表示无人机在

时刻的状态；

表示

时刻的动作探索初始化一个随机过程；μ表示最优行为策略，不再是一个需要采样的随机策略，

表示Actor当前网络的网络参数。

步骤4，Critic当前网络执行动作策略

，并返回该动作的奖励值

和新的状态

。

步骤5，将状态转移过程

储存至回放记忆单元

中，并作为训练 Actor当前网络的数据集，并初始化偏好度

。

步骤6，在Actor当前网络的训练中，不断更新基线，如公式（4）所示：

其中，

为基线，表示经验池中的所有经验数据的立即奖励值的均值；

表示第

步的奖励值；N表示经验池中的所有经验数据的个数。

步骤7，利用Actor当前网络更新经验样本偏好度，如公式（5）所示：

其中，

表示步长影响因子，即立即奖励值与基线差值对各个经验数据的偏好度的影响大小；

表示立即奖励值与基线的差值；

表示各个经验数据被采样的概率；

为基线。

步骤8，由步骤7可以看出，当某经验数据的立即奖励值大于基线时，其偏好度就会有较大幅度增大；当某经验数据的立即奖励值小于基线时，其偏好度仅会获得较小幅度的增大。然后通过对偏好度

进行softmax计算就可得到其采样概率

，根据采样概率确定经验样本的优先级，具体计算过程如公式（6）所示：

步骤9，设定

，通过最小化损失函数更新 Critic网络，定义损失函数L为均方误差，计算过程如公式（7）所示：

其中，N表示经验池中的所有经验数据的个数；

表示无人机与环境交互后反馈奖励；

表示更新后的Critic网络的网络参数；

表示在第i步预测的第i+1步Critic网络的网络参数；

表示当前Critic网络表示第i步 Critic网络的网络参数。

步骤10，使用样本的策略梯度更新Actor当前网络，得到策略梯度的更新参数，计算过程如公式（8）所示：

其中，

表示策略梯度的更新参数，

表示经验池中的所有经验数据的个数，

表示Critic当前网络的更新参数，

表示Actor当前网络的更新参数。

步骤11，更新Critic目标网络和Actor目标网络的网络参数，过程如公式（9）所示：

其中，

为Critic目标网络更新后的网络参数；

为Actor目标网络更新后的网络参数；

为参数更新速率。

根据本发明提供的无人机对抗方法，在基于奖励值的优先经验回放机制模块中，无人机在完成某一动作后产生新的经验数据进入经验池后，基线就需要更新，然后对经验数据的优先级进行排序，完成重要性评估，最后按照优先级采样数据。由于改进后的经验回放机制要求的经验池大小并未改变，因此空间复杂度也没有增加。

图3是本发明提供的RPER-DDPG算法的流程示意图，如图3所示，包括：

首先，初始化神经网络的网络参数；

进一步地，构建神经网络；

进一步地，在神经网络的训练次数没有达到预设训练次数的情况下，初始化环境的状态；

进一步地，选择无人机的动作策略；

进一步地，无人机根据动作策略执行动作，与环境进行交互，获取经验数据；

进一步地，将经验数据回放到经验池；并对于经验池中的经验数据，初始化每个经验数据的偏好度，更新每个经验数据的偏好度和优先级，从而确定经验池中的样本经验数据；

进一步地，从经验池中抽取小批量的样本经验数据，利用样本经验数据对神经网络进行训练；

进一步地，更新神经网络的参数；

进一步地，在有一方获胜的情况下，重新对神经网络的训练次数进行判断；在没有一方获胜的情况下，重新选择无人机的动作策略。

其中，采样到经验池包括以下步骤：

首先，前期探索阶段，Actor网络还未训练，因此误差信息未知，故初始化网络参数，默认设置所有样本的TD误差为1；当Actor网络开始从经验池抽取样本训练时，以TD误差值统计每个样本的被采样的概率。当某个批次样本训练完成后，将其最新的TD误差更新经验池。随着训练进行，整个经验池的样本的TD误差都将被替换为真实的TD误差，能最大程度发挥算法性能。

将探索阶段策略与环境交互，得到样本并存储至经验池，并将TD误差设置为1。当经验池样本满足训练要求后算法即可开始训练；以TD误差统计各样本的采样概率进行采样。Q1和Q2分别计算其TD误差并更新梯度；为降低训练偏差，使用较小的Q值计算策略网络的误差。

根据本发明提供的无人机对抗方法，将DDPG算法应用到无人机博弈对抗中，让智能体通过所有Actor网络的数据更新Q的值，寻找最优的对抗策略，并且使系统比较平稳地优化。

可选地，所述总奖励函数是基于以下方法构建的：

根据所述综合奖励函数，构建所述总奖励函数。

制定奖励规则如下：对于对抗中无人机的其中一方而言，当达成导弹发射条件时，获得最大奖励；当态势有利时，获得一般奖励；当态势不利时，获得负奖励。

依据该奖励规则，结合无人机的重力势能和动能因素，从相对角度、速度和高度等方面设计无人机决策过程中的综合奖励函数。本发明中的奖励函数设计均从红方无人机的角度进行分析和设计，红方采用改进的DDPG算法选取策略，把蓝方无人机当作敌方，蓝机采用基于规则的随机策略法选取策略。

构建角度奖励函数

，无人机在对抗过程中综合脱离角和偏离角的角度奖励定义为：

其中，

表示偏离角，取值范围为

；

表示脱离角，取值范围为

。角度奖励

说明红方无人机占据优势角度，蓝方无人机处于劣势；

说明蓝方无人机占据优势角度，红方无人机处于劣势。

构建速度奖励函数

，速度奖励与速度差之间呈现线性关系，定义为：

其中，

为红方无人机的速度；

为蓝机的速度；

为最佳对抗速度，其中，最佳对抗速度根据空战数据库中飞行员的经验数据进行设定。

构建高度奖励函数

，定义高度奖励函数如下：

其中，

表示由高度差决定的归一化后的高度奖励；

表示红方相对于蓝方的高度差；

为最佳对抗高度差，其中，最佳对抗高度差根据空战数据库中飞行员的经验数据进行设定。

将建立的角度奖励函数

、高度奖励函数

和速度奖励函数

综合可得无人机机动决策的综合奖励函数

，定义为：

其中，α₁、α₂和α₃分别表示度奖励函数

、高度奖励函数

和速度奖励函数

的权重。

为解决传统算法盲目选择动作的问题，在综合奖励函数的基础上，引入人工势场法作为前期训练的辅助，能够更快训练出神经网络模型。

具体地，对每步决策给出1个奖励值，神经网络根据状态做出具体的决策，环境根据决策执行更新，并计算出奖励值，神经网络根据反馈出来的奖励值更新网络参数，使网络下次计算时能够做出更优决策。基于人工势场法的奖励函数设计如下：

其中，

表示无人机下一步的位置；

表示更新得到无人机实际的位置；

表示计算

和

2个位置的距离；

表示1个权重值，代表人工势场法的权重；

表示神经网络反馈出来的奖励值。

无人机在选择出动作空间后，先根据人工势场法计算无人机下一步的位置

，然后再进行环境的更新得到无人机实际的位置

。在原奖励函数的基础上，加上

和

的距离，在前期比重较大，引导无人机更快作出决策，随着训练次数的增加，权重逐渐下降。

所以，红方无人机的总奖励函数如公式（15）所示：

在达到预设训练次数后，可将训练好的无人机对抗模型中无人机的强化学习智能对抗方法和已经产生的规则移植到红方无人机中，再进行对抗，利用强化学习算法不断探索出新的策略，使得对抗的输出更加合理和完善。

在本发明的对抗仿真实验中，利用DDPG算法和改进的DDPG算法的两个无人机进行对抗，验证改进算法的有效性。其中，使用DDPG算法的蓝方与改进的DDPG算法的红方分别与基于规则的无人机进行1Vs1对抗。为保证的实验的有效性，红方与蓝方的性能参数和机动动作库相同。

通过训练可以让无人机在简单任务中学习到合适的攻击策略，表1为仿真实验的初始化参数设置。

表1 仿真实验的初始化参数设置

在红方无人机和蓝方无人机的对抗仿真中，从初始状态向后运行40个决策步长，即一轮学习，执行1000轮完成算法的训练，分别统计训练过程中训练过程中各个阶段内红方胜出、蓝方胜出和打成平局的次数，并计算各个阶段内的奖励值。

图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图，如图4所示，横坐标为回合步长（Number of episodes），纵坐标为奖励值（Reward），包括DDPG算法和改进的DDPG算法在各回合步长的奖励值变化曲线。可以看出经过一定阶段的训练学习之后，红方在对抗中取得了较为优秀的成绩，DDPG算法和改进的DDPG算法都可以在博弈情景下生成对抗策略，并且在本回合中获得的总奖励曲线是呈上升态势的，但改进DDPG算法的奖励值更大，并且可以更快的收敛，这说明智能体在经过训练之后，找到了在当前状态下取得对抗胜利的最优策略，引导无人机占领有利的态势位置。

本发明实现了对抗战场中无人机自主机动决策，采用改进的DDPG算法建立智能博弈对抗模型，并且通过实验证明了本发明的有效性，结果表明本发明的对抗模型可以通过自主学习可以获得正确的对抗策略，能够发挥更好的优势。

下面对本发明提供的无人机对抗装置进行描述，下文描述的无人机对抗装置与上文描述的无人机对抗方法可相互对应参照。

图5是本发明提供的无人机对抗装置的结构示意图，如图5所示，包括：

获取模块501，获取无人机智能体的多个经验数据；

确定模块502，根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；

训练模块503，利用所述多个样本经验数据对无人机对抗模型进行训练；

对抗模块504，利用训练好的无人机对抗模型进行无人机对抗

首先，获取模块501获取无人机智能体的多个经验数据。

进一步地，确定模块502根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据。

进一步地，训练模块503利用所述多个样本经验数据对无人机对抗模型进行训练。

进一步地，对抗模块504，利用训练好的无人机对抗模型进行无人机对抗。

本发明提供的无人机对抗装置，通过对每个经验数据赋予优先级，使得更有价值的经验数据作为训练样本的概率更大，进而提高无人机对抗模型的训练效率。

所述训练模块具体用于：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行无人机对抗方法，该方法包括：获取无人机智能体的多个经验数据；根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；利用所述多个样本经验数据对无人机对抗模型进行训练；利用训练好的无人机对抗模型进行无人机对抗。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的无人机对抗方法，该方法包括：获取无人机智能体的多个经验数据；根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；利用所述多个样本经验数据对无人机对抗模型进行训练；利用训练好的无人机对抗模型进行无人机对抗。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的无人机对抗方法，该方法包括：获取无人机智能体的多个经验数据；根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据；利用所述多个样本经验数据对无人机对抗模型进行训练；利用训练好的无人机对抗模型进行无人机对抗。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无人机对抗方法，其特征在于，包括：

获取无人机智能体的多个经验数据；

利用所述多个样本经验数据对无人机对抗模型进行训练；

利用训练好的无人机对抗模型进行无人机对抗；

所述优先级是基于以下方法确定的：

确定每个经验数据的初始偏好度；

根据所述更新偏好度，确定所述每个经验数据的优先级；

所述根据每个经验数据的优先级，在所述经验数据中确定多个样本经验数据，包括：

将所有的经验数据回放至所述经验池；

根据每个经验数据的优先级，对每个经验数据赋予抽取概率；

从所述经验池中抽取所述多个样本经验数据。

2.根据权利要求1所述的无人机对抗方法，其特征在于，所述无人机对抗模型中包括：第一无人机和第二无人机；所述利用所述多个样本经验数据对无人机对抗模型进行训练，包括：

3.根据权利要求2所述的无人机对抗方法，其特征在于，所述总奖励函数是基于以下方法构建的：

根据所述综合奖励函数，构建所述总奖励函数。

4.根据权利要求2或3所述的无人机对抗方法，其特征在于，所述经验数据包括机动速度数据和空间轨迹数据；所述获取无人机智能体的多个经验数据，包括：

基于无人机智能体的速度矢量，构建无人机运动模型；

5.根据权利要求4所述的无人机对抗方法，其特征在于，在所述获取无人机智能体的多个经验数据之前，所述方法还包括：

根据对抗态势因素，确定无人机的状态特征；

根据所述状态特征，确定无人机的状态空间；

根据所述状态空间，确定所述无人机的转移函数；

根据所述元组，构建所述博弈对抗模型。

6.一种无人机对抗装置，其特征在于，包括：

获取模块，获取无人机智能体的多个经验数据；

对抗模块，利用训练好的无人机对抗模型进行无人机对抗；

所述优先级是基于以下方法确定的：

确定每个经验数据的初始偏好度；

根据所述更新偏好度，确定所述每个经验数据的优先级；

将所有的经验数据回放至所述经验池；

从所述经验池中抽取所述多个样本经验数据。

7.根据权利要求6所述的无人机对抗装置，其特征在于，所述训练模块具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述无人机对抗方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述无人机对抗方法。