CN116736729A

CN116736729A - 一种抗感知误差的视距内空战机动策略生成方法

Info

Publication number: CN116736729A
Application number: CN202311014421.5A
Authority: CN
Inventors: 张娟; 田成滨
Original assignee: Chengdu Rongao Technology Co ltd
Current assignee: Chengdu Rongao Technology Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-12
Anticipated expiration: 2043-08-14
Also published as: CN116736729B

Abstract

本发明涉及视距内空战机动策略生成技术领域，开了一种抗感知误差的视距内空战机动策略生成方法，包括，根据无人机动力学方程，分别构建敌方战机和我方战机的动力学模型，并设定视距内空战优势机动；搭建符合马尔可夫性、具有态势感知误差的仿真训练环境，并设定敌方智能机动策略；使用基于门控循环单元提取特征的近端策略优化算法，以前序态势序列作为近端策略优化算法态势观测输入，通过优势态势解算单元、门控循环单元处理态势输入，同时对训练过程进行奖励塑造，在仿真训练环境对强化学习决策智能体训练，得到智能体神经网络模型。通过本发明所提供的技术方案，能够准确做出视距内空战优势机动决策。

Description

一种抗感知误差的视距内空战机动策略生成方法

技术领域

本发明涉及视距内空战机动策略生成技术领域，具体是一种抗感知误差的视距内空战机动策略生成方法。

背景技术

自21世纪以来，制空权在现代战争中的重要性愈发突出，可以预见，未来空中作战将成为主导战争进程、影响战争胜负的核心领域。随着武器装备技术的发展，空战中的电子战烈度不断提升，导致无人机机载传感器对空战态势的感知容易出现误差，面对感知误差，传统机动决策方法难以快速有效作出优势机动决策。

深度强化学习在空战机动决策中虽已取得了重要进展，但现有方法并未考虑空战态势感知误差对深度强化学习训练的影响。

发明内容

本发明的目的在于克服现有技术的不足，提供一种抗感知误差的视距内空战机动策略生成方法，包括如下步骤:

S1，根据无人机动力学方程，分别构建敌方战机和我方战机的动力学模型，并根据敌方战机和我方战机的动力学模型构建视距内一对一空战相对态势模型，并设定视距内空战优势机动；

S2，搭建符合马尔可夫性、具有态势感知误差的仿真训练环境，并设定敌方智能机动策略；

S3，使用基于门控循环单元提取特征的近端策略优化算法，以前序态势序列作为近端策略优化算法态势观测输入，通过优势态势解算单元、门控循环单元处理态势输入，同时对训练过程进行奖励塑造，在仿真训练环境对强化学习决策智能体训练，得到智能体神经网络模型；

S4:使用训练得到的智能体神经网络模型，在视距内空战场景中实时生成机动策略。

进一步：步骤S2中所述的搭建符合马尔可夫性、具有态势感知误差的仿真训练环境，并设定敌方智能机动策略，包括：

S201，根据S1中构建的敌方战机和我方战机的动力学模型和视距内一对一空战相对态势模型，构建符合马尔可夫性的空战仿真解算引擎，实现对视距内一对一空战态势变化的仿真解算；

S202，对我方无人机获取的态势感知数据加入态势感知误差偏移量，以模拟机载感知设备对态势感知的误差；

S203，定义和构建空战仿真解算引擎与无人机控制端的数据交互接口，搭建仿真训练环境，并设定敌机机动策略。

进一步：所述的步骤S3中，使用基于门控循环单元提取特征的近端策略优化算法，以前序态势序列作为近端策略优化算法态势观测输入，通过优势态势解算单元、门控循环单元处理态势输入，同时对训练过程进行奖励塑造，在仿真训练环境对强化学习决策智能体训练，得到智能体神经网络模型，包括：

S301，设置优势态势解算单元，通过计算相对态势、剔除绝对态势与无用态势、计算俯仰优势值、量纲归一化处理的步骤，压缩状态空间维度，同时保留状态序列空间内的隐藏特征信息；

S302，根据空战真实态势数据的确定性与连续性、相邻时刻态势感知数据的相关性，在单一时刻将当前观测态势及前序态势合并，得到前序态势序列：

，作为近端策略优化算法态势观测预输入；

S303，对训练过程中仿真环境反馈的单步奖励函数进行奖励塑造，设计可量化空战机动优势的奖励塑造方法，得到单步奖励函数：

其中为量化后的距离奖励，/>为距离奖励系数，/>为高度奖励，/>为高度奖励系数，/>为追击角奖励，/>为追击角奖励系数，/>为逃逸角奖励，/>为逃逸角奖励系数，/>为速度奖励，/>为速度奖励系数，/>为航迹保持奖励，/>为航迹保持奖励系数；

S304，使用基于门控循环单元提取特征的近端策略优化算法控制，使用门控循环单元融合前序态势序列输出隐藏特征/>作为Actor神经网络的输入，进行动作选择，并在反向传播过程中将神经网络误差值梯度用于更新/>，同时更新Actor和Critic网络。

进一步：步骤S4中使用训练得到的智能体神经网络模型，在视距内空战场景中实时生成机动策略包括：

根据近端策略优化算法目标函数：

使用训练好的智能体神经网络模型计算并输出当前状态下采取动作/>的优势函数/>和概率密度函数/>，智能体根据概率密度函数/>，采用限制采样方差的正态分布采样方法选择机动动作输出，引导战机占据有利态势位置。

进一步，步骤S202中所述的对我方无人机获取的态势感知数据加入态势感知误差偏移量，以模拟机载感知设备对态势感知的误差，包括：

步骤S202中所述的对我方无人机获取的态势感知数据加入态势感知误差偏移量，以模拟机载感知设备对态势感知的误差，包括：

S20201：根据我方无人机与敌方无人机的欧氏距离构建误差强度系数：

式中，为我方无人机与敌方无人机的欧氏距离，/>分别代表机载传感器能精确感知低级态势的距离和感知误差达到最大的距离，/>为误差强度系数；

S20202：设计随机误差系数：

式中，为随机误差系数；

得到环境对态势感知的误差偏移量：

式中，为环境对态势感知的误差偏移量，/>为视距内空战仿真环境内真实态势感知数据；/>为误差强度系数；

S20203：得到我方无人机最终态势感知数据为：

即对各项真实态势数据随机加上或减去态势感知误差偏移量。

本发明的有益效果是：本发明通过将前序态势序列作为观测输入、使用门控循环单元融合态势隐藏特征，有效减轻了态势感知误差对智能体决策的影响，确保所生成的策略在态势感知误差情况下能够正确实现优势机动决策，具有较好的鲁棒性；

本发明使用基于深度强化学习方法中的近端策略优化算法，经智能体神经网络模型输出目标函数、生成实时策略的过程耗时不超过10ms，决策响应的实时性强。

本发明通过构建战机动力学模型、空战相对态势模型、搭建仿真环境的手段，提供了适用于强化学习训练、高仿真度的训练环境，对现实空战问题的适应性强、泛化性能好。

本发明设置了独特的训练辅助手段，能够适应态势感知误差环境下的深度强化学习训练需要，帮助深度强化学习训练更快收敛、收敛到更优水平。

附图说明

图1为一种抗感知误差的视距内空战机动策略生成方法的流程图；

图2为本发明实施例的无人机水平面动力学模型；

图3为本发明实施例的无人机垂直面动力学模型；

图4为本发明实施例的视距内空战相对态势模型；

图5为本发明实施例中使用基于门控循环单元提取特征的近端策略优化算法进行强化学习训练的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为了使本发明的目的，技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，在本实施例中，我方无人机对空战态势的感知存在误差，需要在此情况下通过一系列机动策略，完成针对敌机的优势机动，占据有利空战位置。使用一种抗感知误差的视距内空战机动策略生成技术，实时生成机动策略，引导我方无人机完成优势机动；如图1所示，该方法包括下述步骤：

S1:确定无人机机动仿真模型，以此为基础构建视距内一对一空战相对态势模型；

S2:搭建符合马尔可夫性、具有态势感知误差的仿真训练环境，设定敌机智能机动策略；

S3:使用基于门控循环单元提取特征的近端策略优化算法，以前序态势序列作为态势观测输入，通过设置优势态势解算单元和门控循环单元、进行奖励塑造共三重手段辅助，在仿真训练环境训练强化学习决策智能体；

S4:我机控制智能体使用训练得到的神经网络模型，在视距内空战场景中实时生成机动策略，引导我方无人机完成优势机动。

所述步骤S1具体包括以下步骤：

在本实施例中，将敌我无人机均视为对称且质量分布均匀的理想刚体模型，并假设实验全程所处空域的重力加速度、空气密度和无人机自身质量始终保持不变，假设飞机速度方向与机身朝向相同。同时，不考虑地球自转、曲率等因素对无人机运动的影响。使用三自由度飞行控制及仿真模型对无人机运动方式进行控制、解算与仿真，无人机动力学模型如图2、图3所示。三自由度模型下各运动状态量之间的关系方程如下：

其中，基于预设原点表示了无人机当前的空间方位，/>表示战机速度，/>为标准重力加速度，将无人机刚体模型所受除重力外的空气阻力、机翼升力、发动机推力等一切内外力视为统一合力，并沿速度方向及垂直速度方向进行分解，得到垂直速度方向分力/>及速度方向分力/>，即无人机切向与法向所承受的过载；/>表示无人机机身纵轴与其在水平面上的投影间的夹角，即俯仰角，取值范围为/>；/>表示无人机机身滚转角，取值范围为/>，/>表示表示速度在水平面的投影与正北方向的夹角，即航向角。/>、/>与/>可作为模型的三维动作输入，模拟实现对无人机机动的有效操控。

在本实施例中，我方无人机的机动决策目标是机动至敌方无人机战机尾部取得并保持空战优势态势，面向真实世界三维环境中的视距内空战场景，针对我方无人机与目标敌机的相对态势关系，建立三维几何模型如图4所示。

以表示我方无人机位置坐标，以/>表示敌方无人机位置坐标。/>为敌机相对我机的位置矢量，其模长记为/>，方向由我机位置指向敌机位置。/>为我机航向角，/>为敌机航向角，图中未标注的敌我俯仰角分别用/>和/>表示。/>代表我机速度矢量，/>代表敌机速度矢量。我机速度矢量与/>的夹角/>为追击角，亦称作天线偏转角，敌机速度矢量与/>的夹角/>为逃逸角，亦称作视界角。敌我速度矢量间的夹角为/>，称作航向交叉角。上述角与向量间的数值运算关系遵循以下方程:

所述步骤S2具体包含以下步骤：

S201：根据S1中构造的敌我战机的动力学模型和视距内一对一空战相对态势模型，构建符合马尔可夫性的空战仿真解算引擎，实现对视距内一对一空战态势变化的仿真解算；

S202：为恰当模拟机载感知设备对态势感知的误差，同时不影响空战仿真环境的马尔可夫性，本实施例中引入了态势感知误差量，对态势感知不准确的现象作出仿真和表征；

首先，构建误差强度系数：

式中，为我机与敌机的欧氏距离，/>分别代表机载传感器能精确感知低级态势的距离和感知误差达到最大的距离；

为表征误差的随机性，设计随机误差系数：，得到环境对态势感知的误差偏移量：/>，式中，/>代表视距内空战仿真环境内各项真实态势感知数据；/>为误差强度系数；

我方无人机最终得到的态势感知数据为：，即对各项真实态势数据随机加上或减去态势感知误差偏移量；

S203：定义和构建空战仿真解算引擎与无人机控制端的数据交互接口，搭建仿真训练环境，并根据需要设定敌机机动策略为具备一定智能与空战强度的传统状态机智能体。

所述步骤S3流程图如图5所示，具体包含以下步骤：

S301:设置优势态势解算单元，对前序态势序列中的每一时刻态势进行解算：首先根据敌我机动态势数据计算出敌机相对于我机的相对态势数据，包含相对位置、相对速度大小/>，以及相对航向角/>；随后，舍弃用于动作输入的我机切向过载、法向过载、滚转角三个维度数据，舍弃不包含空战态势特征的重力数据，舍弃与相对航向角带有相近信息的航向交叉角，舍弃相对位置信息已包含的距离信息；然后，根据敌我当前俯仰角及高度差计算俯仰优势值，定量体现敌我俯仰角度差的同时，定性地反映出我机俯仰角的优势方向：/>，为消除不同态势数据间的量纲差异带来的影响，对各态势数据作出归一化处理。经优势态势解算单元处理完毕后的单一时刻态势数据可表示为：/>，既压缩了状态空间维度，同时也不影响状态序列空间内的隐藏特征信息；

S302:根据空战真实态势数据的确定性与连续性、相邻时刻态势感知数据的相关性，在单一时刻将当前观测态势及前序态势合并，定义为前序态势序列：

，作为算法态势观测预输入；

S303:对训练过程中仿真环境反馈的单步奖励函数进行奖励塑造，设计量化空战机动优势的奖励塑造方法，确保最优动作较次优动作取得更大的奖励值；得到单步奖励函数：

，其其中/>为量化后的距离奖励，为距离奖励系数，/>为高度奖励，/>为高度奖励系数，/>为追击角奖励，/>为追击角奖励系数，/>为逃逸角奖励，/>为逃逸角奖励系数，/>为速度奖励，/>为速度奖励系数，/>为航迹保持奖励，/>为航迹保持奖励系数，从而确保免增速和保持航迹平滑带来的正奖励盖过不合理机动带来的惩罚。

S304:使用基于门控循环单元提取特征的近端策略优化算法控制，使用门控循环单元融合前序态势序列前序态势序列输出隐藏特征/>作为Actor神经网络的输入，进行动作选择，并在反向传播过程中将神经网络误差值梯度用于更新/>，同时更新Actor和Critic网络；

门控循环单元融合状态序列并提取隐藏特征的具体步骤包括：

S30401：算法启动时，初始化隐藏特征矩阵，填充为零。

S30402：算法运行时，将前一时刻隐藏特征与当前状态序列中未融合的首帧状态/>输入门控循环单元，经以下计算得到重置门神经元向量/>，更新门神经元向量/>，以及候选隐藏特征/>：

其中，分别为更新门、重置门与候选隐藏特征计算的可学习参数，/>为Sigmoid函数。

S30403：根据更新门神经元向量对前序隐藏特征/>和候选隐藏特征/>进行融合，更新当前隐藏特征：/>；

S30404：如状态序列中还有未进行特征融合的状态，返回步骤2，以与状态序列进行部分融合的当前隐藏特征和/>作为输入；

S30405：得到融合状态序列的隐藏特征作为门控循环单元的特征输出。

所述步骤S4具体包含以下步骤：

根据近端策略优化算法目标函数公式，使用训练好的神经网络计算并输出当前状态/>下采取动作/>的优势函数/>和概率密度函数/>，红方智能体根据概率密度函数/>，采用限制采样方差的正态分布采样方法选择机动动作输出，引导战机占据有利态势位置。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种抗感知误差的视距内空战机动策略生成方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的一种抗感知误差的视距内空战机动策略生成方法，其特征在于：步骤S2中所述的搭建符合马尔可夫性、具有态势感知误差的仿真训练环境，并设定敌方智能机动策略，包括：

3.根据权利要求1所述的一种抗感知误差的视距内空战机动策略生成方法，其特征在于，所述的步骤S3中，使用基于门控循环单元提取特征的近端策略优化算法，以前序态势序列作为近端策略优化算法态势观测输入，通过优势态势解算单元、门控循环单元处理态势输入，同时对训练过程进行奖励塑造，在仿真训练环境对强化学习决策智能体训练，得到智能体神经网络模型，包括：

，作为近端策略优化算法态势观测预输入；

4.根据权利要求1所述的一种抗感知误差的视距内空战机动策略生成方法，其特征在于：步骤S4中使用训练得到的智能体神经网络模型，在视距内空战场景中实时生成机动策略包括：

根据近端策略优化算法目标函数：

使用训练好的智能体神经网络模型计算并输出当前状态下采取动作/>的优势函数和概率密度函数/>，智能体根据概率密度函数/>，采用限制采样方差的正态分布采样方法选择机动动作输出，引导战机占据有利态势位置。

5.根据权利要求4所述的一种抗感知误差的视距内空战机动策略生成方法，其特征在于，步骤S202中所述的对我方无人机获取的态势感知数据加入态势感知误差偏移量，以模拟机载感知设备对态势感知的误差，包括：

S20202：设计随机误差系数：

式中，为随机误差系数；

得到环境对态势感知的误差偏移量：

S20203：得到我方无人机最终态势感知数据为：