CN117970952B

CN117970952B - 无人机机动策略离线建模方法

Info

Publication number: CN117970952B
Application number: CN202410361846.1A
Authority: CN
Inventors: 林靖博; 付宇鹏; 肖媛
Original assignee: Yantai Institute Of Materia Medica; Naval Aeronautical University
Current assignee: Yantai Institute Of Materia Medica; Naval Aeronautical University
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-04
Anticipated expiration: 2044-03-28
Also published as: CN117970952A

Abstract

本发明涉及一种无人机机动策略离线建模方法，属于无人机智能体决策控制建模技术领域。针对传统强化学习算法环境探索成本高、专家经验利用不足的问题，该方法包括以下步骤：s1：采集多条任务轨迹，构建示例数据集，其中表示第n条飞行轨迹，为模型训练提供数据支持；s2：采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数；s3：采用步骤s1中的采样数据，计算策略梯度和价值梯度，进而计算步骤s2中的损失函数；s4：更新步骤s2中的网络模型参数，重复s3，直到回报函数R_t收敛或达到最大仿真步长；s5：部署策略网络和策略引导网络构成机动策略模型，基于飞行仿真平台验证机动策略模型；完全利用离线数据，无需与环境交互。

Description

无人机机动策略离线建模方法

技术领域

本发明涉及一种无人机机动策略离线建模方法，属于无人机智能体决策控制建模技术领域。

背景技术

无人机空中博弈场景下，博弈双方如何根据当前态势选择精确有效的机动决策是重要的研究方向。基于数据驱动的无人机机动策略建模技术成为研究热点，并取得了诸多成果。在如Alpha Dogfight等赛事中，智能体均表现出超越人类专家的水平，利用智能体作为陪练对手提高训练效能成为了共识。目前机动策略建模方法中普遍基于在线强化学习算法，即智能体通过与环境交互采样数据，利用奖励函数引导策略收敛。然而在实际策略建模中，受限于模拟设备中飞机模型仿真加速比低、难以并行化等问题，采用在线建模方法的环境探索成本较高。利用离线数据的主流建模方法主要分为基于离线强化学习和模仿学习技术的两类。模仿学习算法受限于数据次优、分布不唯一等问题，策略模型表现不佳。因此离线强化学习技术成为当前主要研究方向，目前在无人机机动策略建模领域研究较少。

离线强化学习与强化学习相似，不同点在于强化学习通过与环境交互反复试错，并在探索(exploration)与利用(exploitation)之间进行平衡以达到更好的表现，而离线强化学习只能从静态的离线数据集来训练智能体，受到分布偏移(Distributional Shift)的严重影响，即对分布外(Out-of-Distribution , OOD)动作价值高估，导致选择实际价值低的动作。

为了解决OOD动作高估问题，主要有两类离线强化学习方法。一类基于离线策略强化学习算法(off-policy RL)，加以策略约束正则项从而降低外推误差(extrapolationerror)，如BCQ，TD3-BC等算法。另一类与模仿学习相似，只对分布内状态-动作重要性采样进行策略学习，如AWR，IQL，POR等。离线策略强化学习算法和模仿学习通常属于在线（on-line）算法需要与环境交互，不能实现仅依靠数据完成建模，时间和资源成本高。

发明内容

本发明的目的在于针对传统强化学习算法环境探索成本高、专家经验利用不足的问题，提出一种无人机机动策略离线建模方法，该方法能够完全利用离线数据，无需与环境交互，降低了成本。

为了解决上述问题，本申请的无人机机动策略离线建模方法是通过以下技术方案实现的：

无人机机动策略离线建模方法，其特殊之处在于：包括以下步骤：

s1：采集多条任务轨迹，构建示例数据集/>，其中/>表示第n条飞行轨迹，为模型训练提供数据支持；

s2：采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数；

s3：采用步骤s1中的采样数据，计算策略梯度和价值梯度，进而计算步骤s2中的损失函数；

s4：更新步骤s2中的网络模型参数，重复s3，直到回报函数R_t收敛或达到最大仿真步长；

s5：部署策略网络和策略引导网络构成机动策略模型，基于飞行仿真平台验证机动策略模型；

s6：输出机动策略模型。

优选的，所述步骤s1中，所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组，其中r为奖励函数；

优选的，所述步骤s2中的PIQL算法，将红方飞机自身状态与红蓝双机相对态势解耦，策略模型分解为策略引导网络和策略网络；

所述策略引导网络预测下一时刻相对态势，作为策略网络的部分输入，所述策略网络根据自身状态和预测的相对态势执行机动动作；

优选的，所述步骤s2中的网络模型包括策略网络，策略引导网络，价值网络/>，动作价值网络，所述动作价值网络包含当前网络/>和目标网络/>，

其中a表示动作，s表示当前时刻状态，，/>为智能体自身状态，/>为博弈双方相对态势，/>表示下一时刻状态，为策略引导网络输出/>与/>的拼接，如，/>,/>,/>,/>,/>代表网络参数；

优选的，所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数；

所述策略损失函数表示为：

，

策略损失函数基于隐式优势权重回归（AWR）技术构造，用以求解最大化动作价值的动作，的好坏与/>正相关，/>越大说明/>下的/>越好，损失函数就是去更新策略网络和动作价值网络逼近这个最好的结果，此时策略网络产生最大动作价值动作/>，同时使采样动作符合示例策略分布；

所述策略引导损失函数表示为：

，

策略引导结合AWR和min-max理论，使策略引导网络预测下一步状态倾向于对己方威胁状态，是衡量状态/>的好坏，而损失函数里/>这个负号表示让预测的状态/>不要是好的，也就是对己方有威胁；

所述价值损失函数表示为：，

其中，通过训练得到状态价值的最优估计，即为动作价值期望上界；

动作价值损失函数表示为：

，/>为折扣系数，约束当前策略随机采样的动作价值上界；

优选的，所述步骤s3中，所述策略梯度的计算方法为：，；

所述价值梯度的计算方法为：，/>；

计算出策略梯度后，计算相应的策略损失函数和策略引导损失函数，

计算出价值梯度后，计算相应的状态价值损失函数和动作价值损失函数；

优选的，所述步骤s4中更新步骤s2中的网络模型参数，所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>，其中代表学习率，/>为折扣系数，/>为算法中超参数；

优选的，所述步骤s4中的回报函数R_t表示为，回报函数R_t收敛是指R_t不再继续稳定增长；

离线强化学习与强化学习相似，状态转移过程表现为马尔可夫决策过程(MDP)，，S表示状态空间，A表示动作空间，/>表示初始状态分布概率，/>表示环境状态转移概率，/>表示奖励函数，/>表示折扣系数；策略目标为获得回合最大回报，

；

优选的，所述步骤s5中的机动策略模型为：

；

优选的，所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令，即；

自身状态定义为，其中/>、/>、/>表示飞机姿态角，/>、/>表示当前角速度，/>表示当前高度，/>表示速度矢量；

双方相对态势定义为，其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量，/>表示方位角，/>表示目标进入角。

本申请将策略引导与极小极大定理相结合，提出了PIQL算法用来实现离线的无人机机动策略建模，完全依靠离线数据完成，无需与环境交互，降低成本。价值评估和策略提取解耦，提高了模型训练的稳定性。基于极小极大定理，策略学习时最小化引导态势的价值，最大化执行策略的动作价值，从而提高模型部署的博弈智能水平。

本申请提出了基于策略引导的隐式Q学习算法，算法与博弈理论中极小极大定理相结合，将传统策略网络分解为状态引导网络和执行网络，提高策略模型面对分布外数据的泛化性。模型训练中构建价值网络和动作价值网络，将状态作为其随机变量，并将价值的估计期望上界作为最优动作价值，利用优势权重回归隐式地优化策略网络模型，将引导价值和策略动作价值作为正则项，实现博弈过程价值和动作价值的极小极大化。

附图说明

图1：本发明建模流程图；

图2：回报函数的仿真结果即回报学习曲线；

图3：初始条件为红方占据高度优势的红方与蓝方简单目标博弈的态势图A；

图4：初始条件为红方占据高度优势的红方与蓝方简单目标博弈的态势图B；

图5：初始条件为红方在蓝方后半球绝对优势的红方与蓝方简单目标博弈的态势图；

图6：初始条件为双方均势相向飞行的红方与蓝方简单目标博弈的态势图；

图7：初始条件双机同向飞行，蓝方占据高度优势，红方能量劣势的双方同策略的自博弈态势图；

图8：初始条件为双方同向且能量相同的双方同策略的自博弈态势图；

图9：初始条件为蓝方占据角度优势的双方同策略的自博弈态势图；

图10：初始条件为蓝方位红方后半球的双方同策略的自博弈态势图。

具体实施方式

以下参照附图，给出本发明的具体实施方式，用来对本发明的构成进行进一步说明。

实施例1。如图1所示的无人机机动策略离线建模方法，包括以下步骤：

s6：输出机动策略模型。

其中，所述步骤s1中，所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组，其中r为奖励函数；

其中，所述步骤s2中的PIQL算法，将红方飞机自身状态与红蓝双机相对态势解耦，策略模型分解为策略引导网络和策略网络；

其中，所述步骤s2中的网络模型包括策略网络，策略引导网络，价值网络/>，动作价值网络，所述动作价值网络包含当前网络/>和目标网络/>，

其中，所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数；

所述策略损失函数表示为：

，

所述策略引导损失函数表示为：

，

所述价值损失函数表示为：，

动作价值损失函数表示为：

，/>为折扣系数，约束当前策略随机采样的动作价值上界；

其中，所述步骤s3中，所述策略梯度的计算方法为：

，/>；

所述价值梯度的计算方法为：，/>；

其中，所述步骤s4中更新步骤s2中的网络模型参数，所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>，其中代表学习率，/>为折扣系数，/>为算法中超参数；

其中，所述步骤s4中的回报函数R_t表示为，回报函数R_t收敛是指R_t不再继续稳定增长；

；

其中，所述步骤s5中的机动策略模型为：

；

其中，所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令，即；

实施例2。本实施例是对机动策略模型的系统仿真，实验数据由模拟环境下，机机博弈获得，双方均由基于PID控制器的简单规则模型控制，共采集40局机机博弈数据构成约4×10⁵条的示例数据集。

A、实验环境设计

机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令，即。自身状态定义为/>，其中/>、/>、/>表示飞机姿态角，/>、/>表示当前角速度，/>表示当前高度，/>表示速度矢量。双方相对态势定义为，其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量，/>表示方位角，/>表示目标进入角。

主要考虑角度优势、能量优势和满足发射条件等方面，因此设计奖励函数为：，

，其中/>代表权重，奖励函数/>为t时刻的奖励函数。

此外，还应考虑飞机稳定飞行和保证在指定空域飞行的限制条件，因此引入边界惩罚项，避免飞机诱导坠地等错误决策。

模型测试时，红蓝双方初始高度1-9km，初始相对水平距离±10km以内，初始速度150-300m/s，初始任意姿态，仿真步长20ms，每回合5min。

B、仿真结果

PIQL算法中所有网络结构均采用3隐藏层全连接结构，隐藏层激活函数为均为ReLu函数，每个隐藏层神经元为256个，策略网络输出层激活函数为tanh函数。PIQL算法训练中各学习率均为1×10^-4，为10，/>为0.9，/>为0.99，/>为0.95。

训练共2×10⁵步，相较于在线强化学习，由于离线强化学习采样离线数据集，各损失函数学习曲线收敛趋势明显。价值网络约50k步后收敛，其输出值为动作价值期望的上界。

图2给出了回报函数的仿真结果，每1000步训练后进行一次模型评估，仿真对比了POR、BC、TD3+BC、IQL算法，结果显示本申请PIQL算法表现出较高的学习效率，并获得最高回报。由于博弈对手行为的不完备性，IQL仅对分布内数据进行重要性采样加权学习，泛化能力较差；TD3-BC算法当BC的权重设置较大时才能获得与BC算法相似的回报。

为了验证机动策略的性能，图3-图6和图7-图10分别给出了使用基于PIQL策略无人机博弈态势图。图3-图6为红方与蓝方简单目标博弈的态势图，图3、图4初始条件为红方占据高度优势，红方选择低yo-yo机动，调转机头指向蓝方并保持优势位置应对；图5初始条件为红方在蓝方后半球绝对优势，红方速度较高，选择连续压坡度保持目视蓝方并减速，占据有利位置；图6初始条件为双方均势相向飞行，红方急转转后速度过快，以滚筒机动目视蓝方并减速，方位角随速度差减小而减小。

图7-图10为双方同策略的自博弈态势图，图7初始条件双机同向飞行，蓝方占据高度优势，红方能量劣势，选择规避，当航线拉开后双方进入双环战；图8初始条件为双方同向且能量相同，直接进入双环战，保持均势；图9初始条件为蓝方占据角度优势，红方选择垂直平面机动，蓝方被动盘旋爬升，红方利用能量转换缩小蓝方优势；图10初始条件为蓝方位红方后半球，红方选择低yo-yo摆脱，高速拉起应对。

通过上述比较分析，说明基于PIQL算法的机动策略模型具有一定智能性，能够判断态势。

Claims

1.无人机机动策略离线建模方法，其特征在于：包括以下步骤：

s1：采集多条任务轨迹，构建示例数据集/>，其中表示第n条飞行轨迹，为模型训练提供数据支持；

所述步骤s2中的PIQL算法，将红方飞机自身状态与红蓝双机相对态势解耦，策略模型分解为策略引导网络和策略网络；

所述步骤s2中的网络模型包括策略网络，策略引导网络/>，价值网络/>，动作价值网络，所述动作价值网络包含当前网络/>和目标网络，

其中a表示动作，s表示当前时刻状态，，/>为智能体自身状态，/>为博弈双方相对态势，/>表示下一时刻状态，为策略引导网络输出/>与/>的拼接；

所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数；

所述策略损失函数表示为：；

所述策略引导损失函数表示为：；

所述价值损失函数表示为：，

动作价值损失函数表示为：

，/>为折扣系数，约束当前策略随机采样的动作价值上界；

s6：输出机动策略模型。

2.根据权利要求1所述的无人机机动策略离线建模方法，其特征在于：所述步骤s1中，所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组，其中r为奖励函数。

3.根据权利要求1或2所述的无人机机动策略离线建模方法，其特征在于：所述步骤s3中，所述策略梯度的计算方法为：，/>；

所述价值梯度的计算方法为：，/>；

计算出价值梯度后，计算相应的状态价值损失函数和动作价值损失函数。

4.根据权利要求3所述的无人机机动策略离线建模方法，其特征在于：所述步骤s4中更新步骤s2中的网络模型参数，所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>，其中/>代表学习率，/>为折扣系数，/>为算法中超参数。

5.根据权利要求3所述的无人机机动策略离线建模方法，其特征在于：所述步骤s4中的回报函数R_t表示为，回报函数R_t收敛是指R_t不再继续稳定增长。

6.根据权利要求3所述的无人机机动策略离线建模方法，其特征在于：所述步骤s5中的机动策略模型为：。

7.根据权利要求3所述的无人机机动策略离线建模方法，其特征在于：所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令，即；