CN114329766A

CN114329766A - 面向深度强化学习的飞行动力学模型可信度评估方法

Info

Publication number: CN114329766A
Application number: CN202111492642.4A
Authority: CN
Inventors: 黄聪会; 王超哲; 柴世杰; 李韬锐; 贾林通; 黄鹤松; 李慎波; 童奇; 王彪
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2021-09-22
Filing date: 2021-12-08
Publication date: 2022-04-12

Abstract

本发明公开了面向深度强化学习的飞行动力学模型可信度评估方法，属于无人机领域，涉及深度强化学习技术，用于克服现有的技术存在的试验空间广，试验因子多，变化范围大，难以覆盖所有条件的问题，还用于解决参考数据难以获得，仿真输出和参考输出受不确定性的影响具有随机性的问题。本发明在分析飞行动力学模型用途基础上，建立基于飞行动作的飞行动力学模型可信度量化模型，并提出基于无人机航模获取参考数据的飞行动力学模型可信度评估流程，从而为深度强化学习选择飞行动力学模型提供依据，并为深度强化学习方法在无人机自动控制方面的应用打下基础。

Description

面向深度强化学习的飞行动力学模型可信度评估方法

技术领域

本发明属于无人机领域，涉及深度强化学习技术，具体是面向深度强化学习的飞行动力学模型可信度评估方法。

背景技术

深度强化学习研究通常在逼真的仿真环境中训练目标机器人的控制策略，再将其迁移到真实的机器人，以避免真实环境中复杂和昂贵的训练过程。因此，在采用深度强化学习方法训练无人机控制策略的过程中，逼真的飞行模拟器十分关键，决定无人机控制策略迁移到真实无人机的难易程度。视景仿真和飞行动力学模型是飞行模拟器的两个核心组件，其中飞行动力学模型组件建立飞行器运动动力学模型和飞行控制模型，接收用户输入，并输出飞行器运动状态，是仿真环境中训练无人机控制策略的关键组件。

目前缺乏深度强化学习在无人机自动控制方面的研究，其原因在于飞行动力学模型可信度存在问题。飞行动力学模型是对飞行器运动控制机理的建模，与无人机在真实环境中的运动控制存在偏差。这种偏差越大，飞行动力学模型可信度就越低，反之则越高。采用深度强化学习研究无人机自动控制要求飞行动力学模型可信度越高越好，这样从仿真环境中训练得到的无人机控制策略越接近真实，迁移到真实无人机的难度就越低。然而当前缺乏科学合理的飞行动力学模型可信度评估方法。

为此，提出面向深度强化学习的飞行动力学模型可信度评估方法。

发明内容

本发明提供了面向深度强化学习的飞行动力学模型可信度评估方法，用于克服现有的技术存在的试验空间广，试验因子多，变化范围大，难以覆盖所有条件的问题，还用于解决参考数据难以获得，仿真输出和参考输出受不确定性的影响具有随机性的问题。本发明在分析飞行动力学模型用途基础上，建立基于飞行动作的飞行动力学模型可信度量化模型，并提出基于无人机航模获取参考数据的飞行动力学模型可信度评估流程，从而为深度强化学习选择飞行动力学模型提供依据，并为深度强化学习方法在无人机自动控制方面的应用打下基础。

本发明的目的可以通过以下技术方案实现：

面向深度强化学习的飞行动力学模型可信度评估方法，包括：

制作无人机航模，并基于不同飞行动力学模型建立无人机航模的仿真模型；

从基本机动动作决策集中选取一种基本机动动作，生成其对应控制命令序列，进而使用该控制命令序列驱动无人机航模及其仿真模型进行飞行，记录其输出轨迹；

以无人机航模输出轨迹为参考数据，计算其他无人机航模仿真模型与无人机航模输出轨迹的相似度；

在选取完所有基本机动动作和完成对应轨迹相似度计算后，计算飞行动力学模型的相似度并排序，完成飞行动力学模型可信度评估。

进一步地，基本机动动作包括稳定飞行、最大加速度飞行、最大减速飞行、最大过载右转、最大过载左转、最大过载拉升以及最大过载俯冲。

进一步地，每种所述基本机动动作对应一种动作定义(Nx,Nz)与动作标识ai，其中i为动作标识编号，i为正整数，且i＝1,2……7。

进一步地，Nx为飞机沿速度矢量方向的过载，Nz为飞机对称面内与速度矢量方向垂直的过载。

进一步地，轨迹的相似度的计算方式为：

其中，A为由基本机动动作ai构成的集合，Wi为基本机动动作ai可信度

的权重。

进一步地，输出轨迹是移动对象的时间和空间的记录序列，由时间域向空间域映射的函数表示。

进一步地，无人机的整个飞行过程视为若干基本飞行动作的组合。

进一步地，计算其他无人机航模仿真模型与无人机航模输出轨迹的相似度时采用同样控制命令，并分析输出的飞行参数。

进一步地，所述飞行参数包括T,N,E,H,V,

θ,μ,α,β,n_x,n_z,Ma；

其中，T为每个记录点的时刻，N为纬度坐标，E为经度坐标，H为海拔高度，V为空速，ψ为偏航角，θ为俯仰角，μ为滚转角，α为迎角，β为侧滑角，n_X为纵向过载，n_Z为法向过载，Ma为马赫数。

进一步地，飞行参数是数据基础，且将评估飞行器操纵品质的参数集合记为：

与现有技术相比，本发明的有益效果是：

本发明首先制作无人机航模，并基于不同飞行动力学模型建立无人机航模的仿真模型；从基本机动动作决策集中选取一种基本机动动作，生成其对应控制命令序列，进而使用该控制命令序列驱动无人机航模及其仿真模型进行飞行，记录其输出轨迹；然后以无人机航模输出轨迹为参考数据，计算其他无人机航模仿真模型与无人机航模输出轨迹的相似度；最后在选取完所有基本机动动作和完成对应轨迹相似度计算后，计算飞行动力学模型的相似度并排序，完成飞行动力学模型可信度评估。克服了现有的技术存在的试验空间广，试验因子多，变化范围大，难以覆盖所有条件的问题，还解决了参考数据难以获得，仿真输出和参考输出受不确定性的影响具有随机性的问题。

在分析飞行动力学模型用途基础上，建立基于飞行动作的飞行动力学模型可信度量化模型，并提出基于无人机航模获取参考数据的飞行动力学模型可信度评估流程，从而为深度强化学习选择飞行动力学模型提供依据，并为深度强化学习方法在无人机自动控制方面的应用打下基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明面向深度强化学习的飞行动力学模型可信度评估方法的流程图。

具体实施方式

本发明面向深度强化学习的飞行动力学模型可信度评估方法，用于克服现有的技术存在的试验空间广，试验因子多，变化范围大，难以覆盖所有条件的问题，还用于解决参考数据难以获得，仿真输出和参考输出受不确定性的影响具有随机性的问题。本发明在分析飞行动力学模型用途基础上，建立基于飞行动作的飞行动力学模型可信度量化模型，并提出基于无人机航模获取参考数据的飞行动力学模型可信度评估流程，从而为深度强化学习选择飞行动力学模型提供依据，并为深度强化学习方法在无人机自动控制方面的应用打下基础。

本发明中的飞行动力学模型根据飞行器本身的几何、质量和空气动力特性，通过计算作用于飞行器上的力和力矩，解算出飞行器的位置和姿态变化，本质上是一组微分方程。飞行动力学模型最终目标是实时解算飞行器的六自由度运动方程，获得飞行器的位置和姿态。围绕该目标，飞行动力学模型需要对飞行器空气动力学特征、大气环境、发动机推力、地面效应、地面摩擦力、重力、飞行器飞行控制系统等进行建模分析。飞行动力学模型的输入组件加载外部仿真配置文件、接收外部操纵指令和输出组件的飞行状态参数反馈；飞行控制系统组件将根据操纵指令和控制规律计算舵面位置，操纵起落架的收放，控制油门大小和开关加力状态；大气环境模型组件根据飞行状态参数计算飞行器周边的空气温度、压强、密度等状态参数；气动系统组件根据舵偏角和空气状态参数计算作用于飞行器的气动力和气动力矩；起落架系统组件计算飞行器起飞降落地面滑行时的力和力矩；质量系统组件根据飞行状态参数和燃油重量变化等计算飞行器质量、质心和转动惯量；动力系统组件根据发动机和推进装置的类型、飞行状态参数、空气状态参数等计算作用于飞行器上的发动机推力和推力矩；飞行器六自由度运动方程组件负责完成飞行器六自由度刚体运动方程的解算；输出组件负责将飞行器六自由度运动方程组件解算结果输出。仿真可信度是指仿真用户在一定需求下对特定仿真系统及其仿真结果是否正确的信任程度。因此，飞行动力学模型可信度由模型逼真度和仿真目的共同决定，其中模型逼真度是评估模型可信度的基础，仿真目的决定模型逼真度的下限。

如图1所示，面向深度强化学习的飞行动力学模型可信度评估方法，具体的评估方法包括以下步骤：

第一步，进行飞行参数的获取，飞行参数是由飞行器机载设备或地面控制设备记录的飞行器位置、姿态及机载设备工作性能参数，包含飞行器起飞到着陆的全过程。

飞行参数是评估飞行动力学模型可信度的数据基础，通常用于评估飞行器操纵品质的参数集合记为：

第二步，确定基本机动动作，通过对飞行器飞行轨迹的分析表明，整个飞行过程可视为一些基本飞行动作的组合。因此，飞行动力学模型可信度定量评估研究，可等价成分析在同样控制输入下，飞行动力学模型与真实飞行器输出的飞行动作之间的相似度。本发明选择基本机动动作决策集模型中机动动作作为飞行动力学模型可信度定量评估的基础。设Nx为飞机沿速度矢量方向的过载，Nz为飞机对称面内与速度矢量方向垂直的过载，则基本机动动作决策集模型表示如表1所示；

表1

动作标识	动作名称	动作定义(Nx,Nz)
			a1	稳定飞行	(0,1)
a2	最大加速度飞行	(max,1)
			a3	最大减速飞行	(min,1)
a4	最大过载右转	(0,max)
			a5	最大过载左转	(0,max)
a6	最大过载拉升	(max,max)
			a7	最大过载俯冲	(max,min)

第三步，建立飞行动力学模型，在同样控制命令下，通过分析输出的飞行参数，计算基本机动动作在飞行动力学模型和现实飞行过程中输出的轨迹相似度，以评估飞行动力学模型的可信度。设C为飞行动力学模型的可信度，则

的权重。于是飞行动力学模型可信度计算的关键是通过计算轨迹相似度获得基本机动动作的可信度

需要进一步解释说明的是，轨迹是移动对象的时间和空间的记录序列，可由时间域向空间域映射的函数表示：

t(t∈R⁺)→R^d d>1

设P＝<p₁,p₂,…,p_m>,m>1和Q＝<q₁,q₂,…,q_n>,n>1分别代表两条轨迹的空间域离散采样，其中采样的轨迹点p_i和q_i可由参数集合F_p表示，由于采样轨迹的长度通常互不相等，于是采用动态时间规整算法计算两条轨迹的相似度，即：

其中，dist(p₁,q₁)是轨迹P和Q第一个轨迹点之间的距离，Rest(P)和 Rest(Q)即除去第一个轨迹点后剩下的采样轨迹。

第四步：可信度评估，首先，制作无人机航模，并基于不同飞行动力学模型建立无人机航模的仿真模型，然后从基本机动动作决策集中选取一种基本机动动作，生成其对应控制命令序列，进而使用该控制命令序列驱动无人机航模及其仿真模型进行飞行，记录其输出轨迹，以无人机航模输出轨迹为参考数据，计算其他无人机航模仿真模型与无人机航模输出轨迹的相似度，最后在选取完所有基本机动动作和完成对应轨迹相似度计算后，计算飞行动力学模型的相似度并排序，完成飞行动力学模型可信度评估。

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，包括：

2.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，基本机动动作包括稳定飞行、最大加速度飞行、最大减速飞行、最大过载右转、最大过载左转、最大过载拉升以及最大过载俯冲。

3.根据权利要求2所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，每种所述基本机动动作对应一种动作定义(Nx，Nz)与动作标识ai，其中i为动作标识编号，i为正整数，且i＝1，2……7。

4.根据权利要求3所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，Nx为飞机沿速度矢量方向的过载，Nz为飞机对称面内与速度矢量方向垂直的过载。

5.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，轨迹的相似度的计算方式为：

的权重。

6.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，输出轨迹是移动对象的时间和空间的记录序列，由时间域向空间域映射的函数表示。

7.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，无人机的整个飞行过程视为若干基本飞行动作的组合。

8.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，计算其他无人机航模仿真模型与无人机航模输出轨迹的相似度时采用同样控制命令，并分析输出的飞行参数。

9.根据权利要求8所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，

所述飞行参数包括T，N，E，H，V，

θ，μ，α，β，n_x，n_z，Ma；

10.根据权利要求1所述的面向深度强化学习的飞行动力学模型可信度评估方法，其特征在于，飞行参数是数据基础，且将评估飞行器操纵品质的参数集合记为：