CN113962012A

CN113962012A - 无人机对抗策略优化方法及装置

Info

Publication number: CN113962012A
Application number: CN202110837137.2A
Authority: CN
Inventors: 高阳; 陈琳; 聂勤; 常惠; 何少钦
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2022-01-21
Anticipated expiration: 2041-07-23
Also published as: CN113962012B

Abstract

本发明提供一种无人机对抗策略优化方法及装置，所述方法包括：根据策略网络参数生成对抗策略，利用PPO算法根据对抗策略生成动作序列；无人机在当前状态根据动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。本发明提供的无人机对抗策略优化方法及装置，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出反馈，基于此实现了无人机基于环境信息进行实时的对抗策略的优化更新，提高了无人机在对抗过程中的自主决策能力。

Description

无人机对抗策略优化方法及装置

技术领域

本发明涉及无人机控制技术领域，尤其涉及一种无人机对抗策略优化方法及装置。

背景技术

强化学习作为人工智能技术的重要组成部分，在指控系统中的应用优势愈发突显，针对连续状态空间强化学习问题，国内外很多学者进行了详细的研究，提出了一系列用于解决连续状态空间下强化学习应用问题的方法，但其涉及的控制动作控制变量为离散形式，具体为：首先建立一个环境状态与行动映射的表格，再通过当前状态值查表选择最大的状态-行动值对应的动作。因为状态-行动表格的限制，定义的状态与可采取的行动都是有限的。然而在实际中状态和行动通常是无限或连续的，在转化为有限个数时会有信息损失，而且会有维度爆炸的潜在危机。

可见，现有技术中关于优化无人机对抗策略的部分技术方案，适应的对抗场景和提供的对抗方案都比较有限，难以应对无人机对抗过程中动态变化的环境信息，偏离无人机实际的对抗需求。

发明内容

为解决现有技术中的问题，本发明提供了一种无人机对抗策略优化方法及装置。

本发明提供一种无人机对抗策略优化方法，包括：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。

根据本发明提供的一种无人机对抗策略优化方法，在所述根据策略网络参数生成对抗策略之前，所述方法还包括：利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率，从而优化无人机的武器释放时机。

根据本发明提供的一种无人机对抗策略优化方法，所述释放策略得分概率表示为：

其中，p(x|y)表示所述释放策略得分概率，x表示所述PPO超参数集，y表示所述贝叶斯算法的第一目标函数，y*表示所述第一目标函数的阈值，l(x)表示所述PPO超参数集的第一分布，g(x)表示所述PPO超参数集的第二分布。

根据本发明提供的一种无人机对抗策略优化方法，所述使用梯度上升法更新所述策略网络参数的第二目标函数表示为：

所述使用梯度下降法更新值网络参数的第三目标函数表示为：

其中，O_PPO(θ)表示所述第二目标函数，L_PPO(ω)表示所述第三目标函数，θ表示策略网络参数，ω表示值网络参数，

表示估计优势函数，

t、t′表示时间，T表示无人机运行步数，r_t(θ)表示新旧对抗策略的概率比，ε≥0是一个超参数，表示新策略和旧策略的最大差值；γ表示折扣因子，R_t′表示t′时刻的综合奖励值，S_t表示无人机在t时刻的状态，V_ω(S_t)表示S_t状态的值函数。

根据本发明提供的一种无人机对抗策略优化方法，所述动作序列中的动作满足如下的运动模型F：

其中，x、y、z表示无人机在惯性坐标系中的位置，v表示无人机速度，α表示轨迹倾斜角，β表示轨迹偏转角，θ表示绕速度矢量滚转角，k_x表示切向过载，k_z表示法向过载，

分别表示v在三个坐标轴方向的分量，g表示重力加速度。

根据本发明提供的一种无人机对抗策略优化方法，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

其中，α₁、α₂、α₃表示权重系数，α₁+α₂+α₃＝1；R_a表示角度奖励值，R_v表示速度奖励值，R_h表示高度奖励值；

其中，P表示偏离角，T表示脱离角，v_r表示本机的速度，v_b表示敌机的速度，v_g表示本机和敌机的最佳对抗速度，Δh表示本机相对于敌机的高度差，Δh′为本机和敌机的最佳对抗高度差。

根据本发明提供的一种无人机对抗策略优化方法，所述方法还包括：基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估，基于对抗能力指数函数构建无人机对抗能力评估模型对无人机的对抗能力进行评估；

所述综合对抗优势函数表示为：

f(f_θ，f_R，f_v，f_n)＝ω_θf_θ+ω_Rf_R+ω_vf_v+ω_hf_h

其中，f(f_θ，f_R，f_v，f_h)表示所述综合对抗优势函数，f_θ表示角度优势函数，f_R表示距离优势函数，f_v表示速度优势函数，f_h表示高度优势函数；

所述对抗能力指数函数表示为：

Y＝[lnA+ln(∑B+1)ln(∑C+1)+1]ε₁ε₂ε₃ε₄

其中，Y表示所述对抗能力指数函数；A表示机动性参数；B表示火力参数；C表示探测性参数；ε₁表示操纵能力系数；ε₂表示生存能力系数；ε₃表示航程能力系数，ε₄表示电子对抗能力系数。

本发明还提供一种无人机对抗策略优化装置，包括：动作生成模块，用于：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；交互模块，用于：无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；参数更新模块，用于：使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复训练模块，用于：重复执行上述过程，直至达到训练结束时机。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述无人机对抗策略优化方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述无人机对抗策略优化方法的步骤。

本发明提供的无人机对抗策略优化方法及装置，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出反馈，基于以上过程可以实现无人机基于环境信息进行实时的对抗策略的优化更新，确保无人机在实际对抗过程中所输出的对抗策略是连续有效的，进而最终提高无人机在对抗过程中的自主决策能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的无人机对抗策略优化方法的流程示意图之一；

图2是本发明提供的无人机对抗综合优势评价模型示意图；

图3是本发明提供的无人机运动模型示意图；

图4是本发明提供的利用贝叶斯算法优化PPO算法流程图；

图5-1至5-3是本发明提供的红机和蓝机的相对关系示意图；

图6是本发明提供的无人机对抗策略优化方法的流程示意图之二；

图7是本发明提供的PPO算法和改进的PPO算法在各回合步长的奖励值变化曲线对比；

图8是本发明提供的无人机对抗策略优化装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的无人机对抗策略优化方法的流程示意图之一，如图1所示，所述方法包括：

S110，根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；

S120，无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；

S130，使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；

S140，重复执行上述过程，直至达到训练结束时机。

在强化学习中有两个主要的组成部分，智能体(Agent)和环境(Environment)，智能体是指采用强化学习进行学习的事物本身，可以通过学习而自动获取有价值信息的计算机(或者含有计算机的机器)，环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境相交互的过程中，智能体会观察当前时刻自身在环境中所呈现的状态(State)，或者部分状态，并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。同时，在每一次智能体与环境交互的过程中，智能体会从环境中接受到一个反馈信息，这里称为奖励(Reward)。奖励是用一个具体的数值来表示，它会告诉智能体，当前时刻其在环境的状态表现是有多好或者有多糟糕。智能体的学习目标是为了获得最大的累计奖励，这里称为回报(Return)。

强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到目标的一种方法，而强化学习算法的本质是使得智能体学习到最优的策略，最大化一条完整轨迹上所能获得的累计奖励，即回报。

PPO算法是一种基于策略的强化学习算法，策略相当于智能体的大脑，控制智能体的行为，其本质就是智能体的控制器。智能体可以实现对策略的学习和输出，并且在PPO算法中智能体所学习的策略为随机策略，可以决定具体策略内容的参数称之为策略网络参数，在本发明中根据策略网络参数生成对抗策略，并基于该对抗策略生成无人机动作序列，即该对抗策略携带有生成无人机动作序列的信息。

无人机在当前状态基于得到的动作序列执行动作并与环境进行交互，交互实际上是无人机与环境相互影响的一个过程，即无人机作出的动作可以使环境发生改变，而环境的改变也可以使无人机对抗策略的输出发生改变，进而使无人机的动作产生相应的变化，当无人机基于动作序列执行动作完成后，更新无人机的状态，同时得到综合奖励值，该综合奖励值可以表明无人机作出的动作对环境的适应性好坏，且适应性越好获得的奖励值越大，适应性越差获得的奖励值越小甚至获得负奖励，在本发明中，适应性好表明我方无人机在与敌方无人机对抗过程中处于优势地位，适应性差表明我方无人机在与敌方无人机对抗过程中处于劣势地位。

PPO算法是一种策略梯度算法，而策略梯度算法的核心前提是恰当目标函数上的随机梯度上升带来优秀的策略，在本发明中，使用梯度上升法更新策略网络参数，进而实现对于对无人机抗策略的优化过程；与此同时，在利用PPO算法进行无人机对抗策略的优化过程中，每完成一次迭代优化过程，就会产生一个新策略，通过对新策略和相邻于新策略的旧策略之间的差异性比较来得到策略的优化程度，基于此设计一个损失函数来表征新策略与旧策略之间的差异性大小，损失函数值越小表明新策略与旧策略之间的差异性越小，当该损失函数值达到一个最小值时，即表明可以停止迭代优化过程，在本发明中，通过梯度下降法获取最小的值网络参数，当值网络参数达到最小值时，对应得到最小损失函数值，此时停止迭代优化过程。

假设对抗双方为红方无人机(红机)和蓝方无人机(蓝机)。本发明实施例中将红方无人机作为我方无人机，将蓝方无人机作为敌方无人机。本发明提供的无人机对抗策略优化方法应用于红方无人机，蓝方无人机可以采用本发明提供的无人机对抗策略优化方法或采用其他无人机对抗策略优化方法，如基于规则的随机策略法选取策略。在本发明实施例的描述中，将以本发明提供的无人机对抗策略优化方法在红方无人机的应用为例进行介绍。

本发明提供的无人机对抗策略优化方法，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出反馈，基于以上过程可以实现无人机基于环境信息进行实时的对抗策略的优化更新，确保无人机在实际对抗过程中所输出的对抗策略是连续有效的，进而最终提高无人机在对抗过程中的自主决策能力。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，在所述根据策略网络参数生成对抗策略之前，所述方法还包括：利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率，从而优化无人机的武器释放时机。

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法，该方法简单、分类准确率高、速度快。超参数，指的是在运行机器学习算法之前需要指定的参数，超参数的选定会影响到模型训练的速度以及准确度，以PPO算法为例，超参数包括：单轮更新的采样步数、数据复用次数、限制新旧策略总体差异的系数、对估计优势的函数进行裁剪以及GAE调整方差与偏差的系数。

需要说明的是，在本发明中，借助于贝叶斯算法实现对PPO算法各超参数的合理选取，得到优化的超参数集，基于该优化的超参数集实现对PPO算法的改进，基于对PPO算法的改进可以实现对无人机对抗策略输出模型的优化。贝叶斯算法如可以采用TPE算法。利用贝叶斯算法来负责释放策略的学习，以强化学习的训练效果评估(具体体现为超参数集的优化)作为采集函数。在优化释放策略的同时，反复训练运动策略，强化学习算法在释放时机的限制下，学习运动策略。贝叶斯优化算法评估在限定无人机决策训练局数下强化学习算法的效果，并作为下一次选择释放时机的依据。比如PPO可以完成一局对抗进行策略网络等参数的更新，而贝叶斯算法可以在设定的对抗局数完成后，进行下一次释放时机的选择。

本发明提供的无人机对抗策略优化方法，通过利用贝叶斯算法对PPO算法超参数集的优化选取，实现了对PPO算法的优化，基于此可以获取优化的无人机对抗策略输出模型，同时将强化学习训练的效果作为无人机武器释放时机的选择依据，在优化释放策略的同时，反复训练运动策略，基于此实现了对无人机对抗策略和武器释放时机的分层优化，加快了模型的收敛速度和无人机智能对抗博弈的效率，提升了无人机自主控制水平与决策能力。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，所述释放策略得分概率表示为：

需要说明的是，在本发明中，释放策略得分概率的求取过程本质上是一个分类过程，具体过程如下：

步骤1：通过在高斯过程

上优化采集函数，找到x_t。

步骤2：采样目标函数：y_t＝f(x_t)+∈_t；

其中，μ为超参数，∈_t为超参数，

表示由1到t时刻的数据对组成的数据集，其中，每一对数据对表示为(x_i，y_t)；

表示增加数据，并更新高斯过程，t为释放动作的时间。

步骤3：选用的具体贝叶斯优化算法建模p(x|y)是目标函数值为y时，参数为x的条件概率，计算公式为：

其中，y*是目标函数的阈值，x是建议的超参数集，为步骤1的x_t，y是使用x的目标函数的实际值，为步骤1的y_t。其中y＜y*表示目标函数的值低于阈值。为超参数做出两个不同的分布：一个是目标函数的值小于阈值l(x)，另一个是目标函数的值大于阈值g(x)。

步骤4：选取某个阀值y*将p(x|y)分开为两个概率分布l(x)和g(x)，但算法本身不需要特定的p(y)的模型。由此，y*的期望增量(Expected improvement，EI)为：

在上述过程中，通过对采样目标函数值y的寻优过程获取与y的最优值对应的x的最优值，基于x的最优值获取x_t，x_t携带有武器释放的时机信息，该时机信息即为无人机武器释放的最佳时机。

基于贝叶斯优化算法建模p(x|y)可以使释放策略得分概率出现分化，具体为：提高用于优化PPO算法的超参数集x₊的被选取概率，降低不利于PPO算法进行优化的超参数集x_-的被选取概率。

本发明提供的无人机对抗策略优化方法，通过基于贝叶斯优化算法建模p(x|y)使释放策略得分概率出现分化，该分化过程可以提高用于优化PPO算法的超参数集x₊的被选取概率，降低不利于PPO算法进行优化的超参数集x_-的被选取概率，基于该分类过程可以基于释放策略得分概率实现对无人机释放策略的优化过程，即优化了无人机的武器释放时机。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，所述使用梯度上升法更新所述策略网络参数的第二目标函数表示为：

表示估计优势函数，

t、t′表示时间，T表示无人机运行步数，rx(θ)表示新旧对抗策略的概率比，ε≥0是一个超参数，表示新策略和旧策略的最大差值；γ表示折扣因子，R_t′表示t′时刻的综合奖励值，S_t表示无人机在t时刻的状态，V_ω(S_t)表示S_t状态的值函数。

需要说明的是，将第二目标函数作为寻找最优策略网络参数的依据，当第二目标函数值达到最大值时，表明得到了最优的策略网络参数，而基于该最优策略网络参数可以得到无人机的最优对抗策略，即对于策略网络参数的寻优过程对应于第二目标函数的最大值搜索过程，所以通过采用梯度上升法寻找第二目标函数的最大函数值来最终得到最优策略网络参数，基于最优策略网络参数确定最优对抗策略。

PPO算法每迭代更新一次，则会产生一个新策略，将与该新策略直接相邻的策略称之为旧策略，通过对比新策略与旧策略之间的差别来判断PPO算法的迭代更新程度，当新策略与旧策略之间的差别变化不大甚至趋于稳定的时候，即可以停止迭代过程，输出优化结果。在本发明中，利用第三目标函数作为PPO算法迭代更新程度的判断依据，当第三目标函数值达到最小值时，表明得到了最优的值网络参数，此时表明新策略与旧策略之间的差距趋于稳定，可以停止迭代过程，输出优化结果，在该过程中通过采用梯度下降法寻找第三目标函数的最小值来最终得到最优的值网络参数。

本发明提供的无人机对抗策略优化方法，通过利用梯度上升法寻找第二目标函数的最大值来确定对应的最优策略网络参数，基于该最优策略网络参数得到无人机的最优对抗策略，即实现了对抗策略的优化，而通过利用梯度下降法寻找第三目标函数的最小值来确定对应的最优的值网络参数，基于该最优值网络参数确定PPO算法迭代过程的合理终止点，避免了迭代流程的浪费。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，所述动作序列中的动作满足如下的运动模型F：

分别表示v在三个坐标轴方向的分量，g表示重力加速度。

需要说明的是，用于表征无人机运动状态的运动模型F是一个微分方程组，将上述微分方程组中的多个微分方程分别进行积分，可以得到无人机的空间速度与空间轨迹，基于得到的空间速度和空间轨迹可以实现对无人机运动状态的描述。

基于无人机运动模型F将无人机的控制量设为[k_x，k_z，θ]，可以建立无人机的典型机动动作库，具体包括：匀速平飞、加速平飞、减速平飞、爬升、俯冲、匀速左转、匀速右转，并由此可组合出多种机动动作序列，丰富对无人机运动状态的评价过程。

本发明提供的无人机对抗策略优化方法，通过构建无人机运动模型F，利用无人机在空间中所处的位置坐标、速度、轨迹倾斜角以及轨迹偏转角几个方面对无人机运动状态进行评价，基于此可以实现对无人机运动状态的完整性描述，准确获取无人机的运动状态，为后续无人机对抗策略的得出提供良好的参考依据。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

需要说明的是，假设红机为我方无人机，蓝机为敌方无人机，奖励函数设计包括以下步骤：

步骤1：设计角度奖励函数，偏离角P和脱离角T的取值范围都是[0，π]，所以无人机在对抗过程中综合脱离角和偏离角的角度奖励定义为：

其中，角度奖励R_a＞0说明红机占据优势角度，蓝机处于劣势；R_a＜0说明蓝机占据优势角度，红机处于劣势。

步骤2：设计速度奖励函数，速度奖励与速度差之间呈现线性关系，定义为：

其中，v_r为红机的速度，v_b为蓝机的速度，v_g为最佳对抗速度；

步骤3：设计高度奖励函数，定义高度奖励函数如下：

其中，R_h表示由高度差决定的归一化后的高度奖励，Δh表示红方相对于蓝方的高度差，Δh′为最佳对抗高度差。

步骤4：设计综合奖励函数，将建立的角度奖励函数、高度奖励函数和速度奖励函数综合可得无人机的综合奖励函数，定义为：

R＝α₁R_a+α₂R_v+α₃R_h

综合奖励函数的线性组合系数满足如下定义：

α₁+α₂+α₃＝1

本发明提供的无人机对抗策略优化方法，通过基于设计的角度奖励函数、高度奖励函数以及速度奖励函数分别得到角度奖励值、高度奖励值以及速度奖励值，并将上述奖励值的加权和作为无人机对抗策略优化方法中的综合奖励值，基于此可以通过对各奖励值权重系数的合理改变实现对角度、高度以及速度奖励侧重点的适应性调整，从而可以通过综合奖励值更为准确的反馈无人机的对抗策略与实际所处环境的适应性优劣，最终实现对无人机对抗策略的精准优化。

根据本发明提供的一种无人机对抗策略优化方法，在本发明中，所述方法还包括：

基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估，基于对抗能力指数函数构建无人机对抗能力评估模型对无人机的对抗能力进行评估；

所述综合对抗优势函数表示为：

f(f_θ，f_R，f_v，f_h)＝ω_θf_θ+ω_Rf_R+ω_vf_v+ω_hf_h

所述对抗能力指数函数表示为：

Y＝[lnA+ln(∑B+1)ln(∑C+1)+1]ε₁ε₂ε₃ε₄

图2是本发明提供的无人机对抗综合优势评价模型示意图，如图2所示，依次构建角度优势函数、距离优势函数、速度优势函数以及高度优势函数，对上述优势函数进行加权求和即得到无人机的综合对抗优势函数，具体为：

步骤1：建立角度优势函数，计算过程如下式所示：

其中，θ＝θ_Uθ_T，θ_U表示无人机的方位角，θ_T表示目标的方位角。

步骤2：建立距离优势函数，计算过程如下式所示：

其中，R＝|||R||表示距离向量的模，R_W表示无人机的武器射程，σ为标准偏差。

步骤3：建立速度优势函数，计算过程如下式所示：

其中，v′表示武器相对目标的最佳攻击速度，v′的计算过程如下式所示：

其中，v_M表示无人机的速度上限，v_T表示目标速度。

步骤4：建立高度优势函数，计算过程如下式所示：

其中，h表示无人机与目标的高度差，h_m表示无人机目标的最佳高度差，σ_h表示最佳高度标准偏差。

步骤5：通过以上的角度优势函数、距离优势函数、速度优势函数以及高度优势函数，可得到综合对抗优势函数，计算过程如下式所示：

f(f_θ，f_R，f_v，f_h)＝ω_θf_θ+ω_Rf_R+ω_vf_v+ω_hf_h

其中，ω_θ、ω_R、ω_v、ω_h分别表示角度、距离、速度、高度优势函数的权重，它们的和为1。

在对无人机对抗能力进行评估时，选取无人机的机动性参数、火力参数、探测性参数、操纵能力系数、生存能力系数、航程能力系数以及电子对抗能力系数作为评估依据构建无人机对抗能力指数函数，基于无人机对抗能力指数函数构建无人机对抗能力评估模型。无人机对抗能力指数函数表示为：

Y＝[lnA+ln(∑B+1)ln(∑C+1)+1]ε₁ε₂ε₃ε₄

最后基于获取的无人机的综合对抗优势函数和无人机的对抗能力指数函数对无人机的综合优势作出评价，为无人机对抗策略的优化提供一个明确的方向。

本发明提供的无人机对抗策略优化方法，通过无人机对抗态势评估模型对无人机进行对抗态势的评价，是针对于无人机运动行为的评价，同时结合无人机对抗能力评估模型对无人机进行对抗能力的评价，是针对于无人机自身能力的评价，结合以上两方面评价可以对无人机在实际对抗过程中所处的优势/劣势地位作出一个准确的判断，基于此可以为无人机对抗策略的输出提供一个优化依据，从而最终得到最优的无人机对抗策略。

图3是本发明提供的无人机运动模型示意图，如图3所示，图中α为俯仰角，表示无人机速度与x-o-y平面的夹角；β为偏航角，表示无人机速度在x-o-y平面上的投影v与y轴的夹角；无人机的控制量设为[k_x，k_z，θ]，其中k_x为沿着速度方向的过载，代表飞机的推力，k_z为沿着机顶方向过载，表示法向过载，θ为绕速度矢量的滚转角，表示平台滚转的控制量。基于以上参数，建立无人机的运动方程F，具体为：

其中，x、y、z表示无人机在惯性坐标系中的位置，v表示无人机速度，α为轨迹倾斜角(范围为[-180，180])，β为轨迹偏转角(范围为[-180，180])，θ为绕速度矢量滚转角(范围[-180，180])，k_x为切向过载，k_z为法向过载，

表示v在三个坐标轴方向的分量，g为重力加速度，通过对无人机的运动方程F中的常微分方程组进行数值积分，得到无人机的空间速度及空间轨迹。

图4是本发明提供的利用贝叶斯算法优化PPO算法流程图，如图4所示，基于PPO算法构建的无人机对抗策略输出模型每当输出一个无人机对抗策略时，环境会对该策略产生感知作用；同样地，每当环境发生改变时，无人机对抗策略输出模型也会感知该环境的变化，进而影响具体的对抗策略的输出，基于以上过程使无人机对抗策略输出模型与环境之间产生信息交互，而无人机对抗策略输出模型在与环境不断的信息交互过程中进行迭代优化。

与此同时，贝叶斯优化算法用于选取PPO算法的超参数集，并且在选取过程中，提高有利于优化PPO算法的超参数集的被选取概率，降低不利于优化PPO算法的超参数集的被选取概率，基于此可以使PPO算法得到进一步的优化，并且基于对PPO算法的强化学习效果最优时，确定武器发射动作时机(武器释放时机)，基于此实现了对无人机对抗策略和武器释放时机的分层优化，加快了模型的收敛速度和无人机智能对抗博弈的效率，提升了无人机自主控制水平与决策能力。

图5-1至5-3是本发明提供的红机和蓝机的相对关系示意图，如图所示，其中图5-1表示了红机和蓝机在空间中的相对位置关系，红机的速度为v_r，红机的偏离角为P，蓝机的速度为v_b，蓝机的脱离角为T，并且偏离角P与脱离角T的取值范围都是[0，π]，而红机与蓝机的直线距离为d，蓝机与红机的相对高度差为Δh。

以红机与蓝机为例，在进行角度优势判定时，其判定依据为：将红机偏离角P与蓝机脱离角T进行求和，当P+T＜π时，红机处于角度优势地位；当P+T＞π时，蓝机处于角度优势地位。如图5-2表示红机处于优势角度位置，此时P+T＜π；如图5-3表示蓝机处于优势角度位置，此时P+T＞π。

本发明提供的无人机对抗策略优化方法，通过先对无人机的偏离角和脱离角进行求和，然后利用求得的和与π进行比较，基于比较结果直接得出具有对抗关系的两个无人机之间的角度优势关系，方法简单易操作，为无人机对抗策略的优化提供依据。

图6是本发明提供的无人机对抗策略优化方法的流程示意图之二，如图6所示，无人机对抗策略优化方法的具体步骤如下：

Step1，初始化策略网络参数θ，从而得到初始的对抗策略π_θ。

借助于贝叶斯优化算法对PPO算法的超参数集进行优化选取，实现对PPO算法本身的优化，并且优化了武器的释放时机。

PPO的超参数如包括：max_timesteps表示最多采样的步数，将其设置为2e7；timesteps_per_actorbatch表示每个batch采样多少步，将其设置为2048，里面可能包含很多回合的终点，然后起点开始继续采样，直到凑够；clip_param表示PPO的clip参数，将其设置为0.2；ntcoeff表示交叉熵项系数，将其设置为0.0；training_epochs表示每次采集一个batch的样本之后训练的次数，将其设置为3；learning_rate表示Adam学习率，将其设置为3e-4；optim_batchsize表示优化用的minibatch size，将其设置为256；gamma表示折扣率，将其设置为0.99；lam和adam_epsilon表示GAE参数，将lam设置为0.95，将adam_epsilon设置为1e-5。

Step3，初始化环境状态为当前状态，本发明实验中设置双方机身均初始化为水平方向，从正前方与敌人交锋，假设红机的初始位置为(0.0，0.0，10000.0)，初始速度为100.0m/s，初始高度为10000.0m，初始俯仰角为0.0°，初始航向角为90.0°，初始滚转角为0.0°；蓝机的初始位置为(3000.0，3000.0，10000.0)，初始速度为100.0m/s，初始俯仰角为0.0°，初始航向角为270.0°，初始滚转角为0.0°。

Step4，PPO算法根据策略在当前状态生成动作，无人机根据动作库生成动作与环境进行交互，得到下一状态和奖励。对于对抗中我方无人机(红机)而言，当达成导弹发射条件时，获得最大奖励；当态势有利时，获得一般奖励；当态势不利时，获得负奖励。依据该原则，结合无人机的重力势能和动能因素，从角度、距离、速度、高度四个方面综合评价来求得对抗中我方无人机相对于目标的态势优劣，基于此设计无人机决策过程中的综合奖励函数，基于综合奖励函数获取奖励。

Step5，存储此次转移数据，此次转移数据包括无人机的当前运动状态和获得的奖励值。

Step6，判断采集数据是否足够，如果本次数据采集足够，则依次进行如下过程：计算并存储本局奖励值，计算决策优势，计算当前旧策路下的动作分布，使用梯度上升法更新策略网络参数，使用梯度下降法更新值网络参数，完成更新后，清除存储的转移数据。

可以选取性能较好的PPO-Clip算法，该算法直接对替代优势进行裁剪，以防止新旧策略相差过大，通过这种约束方法，避免对KL散度的计算，进一步简化算法，具体的实施步骤为：

步骤1：设置函数的reward衰减系数为γ，KL惩罚系数为λ，自适应调整参数a＝1.5和b＝2，策略网络的子迭代数为M，值网络的子迭代数为B；

步骤2：设置初始化策略网络参数θ，值网络参数ω；

步骤3：使用策略π_θ在环境中运行T步，采样数据为：

{S_t，A_t，R_t}

步骤4：根据前3个步骤，设计估计优势为：

步骤5：将策略存储为旧策略：

π_old←π_θ

步骤6：计算前后两个策略概率所占的比例：

步骤7：使用梯度上升的方法来更新算法的策略网络参数θ，目标函数为：

步骤8：使用梯度下降的方法来更新算法的值网络参数ω，针对新旧策略的几率比例设计损失函数，计算公式为：

当判断本次数据采集不够时，判断本局是否结束，如果本局已经结束，则对原有无人机状态进行替换，将无人机得到的下一状态作为当前状态，并跳转到Step4，依次进行接下来的流程。

Step7，当判断本局是否结束，得到本局未结束的信息时，判断是否到达最大局数，如果没有到达最大局数，则计算并存储本局奖励值，同时跳转到Step3，依次进行接下来的流程。

判断是否到达最大局数，如果到达最大局数，则评估释放策略得分概率，并将评估结果存入贝叶斯优化器，进而判断是否到达最大释放策略优化次数，如果到达最大次数，则结束全流程；如果没有到达最大次数，则跳转到Step1。

本发明提供的无人机对抗策略优化方法，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出反馈，基于以上过程可以实现无人机基于环境信息进行实时的对抗策略的优化更新，确保无人机在实际对抗过程中所输出的对抗策略是连续有效的；与此同时，借助于贝叶斯优化算法对PPO算法的超参数集进行优化选取，实现对PPO算法本身的优化，该优化过程可以使基于PPO算法构建的无人机对抗策略输出模型的训练速度被提高，同时还可以提升该模型的预测精度，并且根据强化学习训练的效果优化武器的释放时机，实现了对武器释放策略的优化，有利于实现对敌机的精准打击。综上所述，基于以上过程，实现了对无人机对抗策略和武器释放时机的分层优化，加快了模型的收敛速度和无人机智能对抗博弈的效率，提升了无人机自主控制水平与决策能力。

图7是本发明提供的各回合步长的奖励值变化曲线对比，如图7所示，利用贝叶斯算法改进后的PPO算法对应于各回合步长的奖励值明显高于未改进的PPO算法，这说明利用贝叶斯算法改进后的PPO算法所构建的模型具有更快的收敛速度，克服了传统PPO算法收敛慢以及难收敛的问题，基于此提高无人机对抗策略输出模型的构建效率，提高无人机智能对抗搏弈的能力。

本发明提供的无人机对抗策略优化方法，通过利用贝叶斯算法对PPO算法进行改进，基于该改进后的PPO算法所构建的模型具有快速收敛能力，确保在不失去策略效果的前提下提升性能最大步长的优势，最终提高无人机智能对抗搏弈的效率。

图8是本发明提供的无人机对抗策略优化装置的结构示意图，如图8所示，所述装置包括：动作生成模块810、交互模块820、参数更新模块830以及重复训练模块840，其中：

动作生成模块810，用于：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；

交互模块820，用于：无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；

参数更新模块830，用于：使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；

重复训练模块840，用于：重复执行上述过程，直至达到训练结束时机。

本发明提供的无人机对抗策略优化装置，通过基于策略网络参数生成无人机对抗策略，并利用梯度上升法更新策略网络参数，同时借助无人机与环境交互得到的奖励值对无人机对抗策略的优劣作出评价，基于以上过程可以实现无人机基于环境信息进行实时的对抗策略的优化更新，确保无人机在实际对抗过程中所输出的对抗策略是连续有效的，进而最终提高无人机在对抗过程中的自主决策能力。

根据本发明提供的一种无人机对抗策略优化装置，所述装置800还包括优化模块，在所述根据策略网络参数生成对抗策略之前，用于：利用贝叶斯算法通过选择PPO超参数集来优化释放策略得分概率，从而优化无人机的武器释放时机。

本发明提供的无人机对抗策略优化装置，通过利用贝叶斯算法对PPO算法超参数集的优化选取，实现了对PPO算法的优化，基于此可以获取优化的无人机对抗策略输出模型，同时将强化学习训练的效果作为无人机武器释放时机的选择依据，在优化释放策略的同时，反复训练运动策略基于此实现了对无人机对抗策略和武器释放时机的分层优化，加快了模型的收敛速度和无人机智能对抗博弈的效率，提升了无人机自主控制水平与决策能力。

根据本发明提供的一种无人机对抗策略优化装置，所述释放策略得分概率表示为：

本发明提供的无人机对抗策略优化装置，通过基于贝叶斯优化算法建模p(x|y)使释放策略得分概率出现分化，该分化过程可以提高用于优化PPO算法的超参数集x₊的被选取概率，降低不利于PPO算法进行优化的超参数集x_-的被选取概率，基于该分类过程可以基于释放策略得分概率实现对无人机释放策略的优化过程，即优化了无人机的武器释放时机。

根据本发明提供的一种无人机对抗策略优化装置，参数更新模块830在用于使用梯度上升法更新所述策略网络参数时的第二目标函数表示为：

参数更新模块830在用于使用梯度下降法更新值网络参数时的第三目标函数表示为：

表示估计优势函数，

本发明提供的无人机对抗策略优化装置，通过利用梯度上升法寻找第二目标函数的最大值来确定对应的最优策略网络参数，基于该最优策略网络参数得到无人机的最优对抗策略，即实现了对抗策略的优化，而通过利用梯度下降法寻找第三目标函数的最小值来确定对应的最优的值网络参数，基于该最优值网络参数确定PPO算法迭代过程的合理终止点，避免了迭代流程的浪费。

根据本发明提供的一种无人机对抗策略优化装置，动作生成模块810在用于：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列时，所述动作序列中的动作满足如下的运动模型F：

分别表示v在三个坐标轴方向的分量，g表示重力加速度。

本发明提供的无人机对抗策略优化装置，通过构建无人机运动模型F，通过无人机在空间中所处的位置坐标、速度、轨迹倾斜角以及轨迹偏转角几个方面对无人机运动状态进行评价，基于此可以实现对无人机运动状态的完整性描述，准确获取无人机的运动状态，为后续无人机对抗策略的得出提供良好的参考依据。

根据本发明提供的一种无人机对抗策略优化装置，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

本发明提供的无人机对抗策略优化装置，通过基于设计的角度奖励函数、高度奖励函数以及速度奖励函数分别得到角度奖励值、高度奖励值以及速度奖励值，并将上述奖励值的加权和作为无人机对抗策略优化方法中的综合奖励值，基于此可以通过对各奖励值权重系数的合理改变实现对角度、高度以及速度奖励侧重点的适应性调整，从而可以通过综合奖励值更为准确的反馈无人机的对抗策略与实际所处环境的适应性优劣，最终实现对无人机对抗策略的精准优化。

根据本发明提供的一种无人机对抗策略优化装置，所述装置800还包括评估模块，所述评估模块用于：基于综合对抗优势函数构建无人机对抗态势评估模型对无人机的对抗态势进行评估，基于对抗能力指数函数构建无人机对抗能力评估模型对无人机的对抗能力进行评估；

所述综合对抗优势函数表示为：

f(f_θ，f_R，f_v，f_n)＝ω_θf_θ+ω_Rf_R+ω_vf_v+ω_hf_h

所述对抗能力指数函数表示为：

Y＝[lnA+ln(∑B+1)ln(∑C+1)+1]ε₁ε₂ε₃ε₄

本发明提供的无人机对抗策略优化装置，通过无人机对抗态势评估模型对无人机进行对抗态势的评价，是针对于无人机运动行为的评价，同时结合无人机对抗能力评估模型对无人机进行对抗能力的评价，是针对于无人机自身能力的评价，结合以上两方面评价可以对无人机在实际对抗过程中所处的优势/劣势地位作出一个准确的判断，基于此可以为无人机对抗策略的输出提供一个优化依据，从而最终得到最优的无人机对抗策略。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行无人机对抗策略优化方法，该方法包括：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的无人机对抗策略优化方法，该方法包括：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的无人机对抗策略优化方法，该方法包括：根据策略网络参数生成对抗策略，利用PPO算法根据所述对抗策略生成动作序列；无人机在当前状态根据所述动作序列执行动作并与环境交互，得到下一状态和综合奖励值；使用梯度上升法更新所述策略网络参数，使用梯度下降法更新值网络参数；重复执行上述过程，直至达到训练结束时机。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。