CN111368383A

CN111368383A - 一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法

Info

Publication number: CN111368383A
Application number: CN201811496910.8A
Authority: CN
Inventors: 尹超; 孙萍; 夏小春; 刘爽; 王亚许
Original assignee: Shanghai Aviation Electric Co Ltd
Current assignee: Shanghai Aviation Electric Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-07-03
Anticipated expiration: 2038-12-07
Also published as: CN111368383B

Abstract

本发明公开一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法，在航空器飞行过程中，周期性预测航空器未来一段时间内的飞行轨迹；并生成对应区域内的地形包线。结合数字地形高程数据库，通过深度强化学习海量飞行数据及飞行员经验，来综合评估航空器撞地的风险。

Description

一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法

技术领域

本发明涉及航空电子系统技术与人工智能技术领域，尤其是航空器中广泛应用的近地告警类设备中涉及的一项近地碰撞评估技术，此类系统包括但不限于近地防撞系统、近地告警系统、地形提示与警告系统等具体产品。

背景技术

近地防撞类系统(Auto Ground Collision Avoidance System，简称Auto GCAS)是提高航空器飞行安全性，减小可控飞行撞地事故(Controlled Flight Into Terrain，简称CFIT)的航空电子系统。Auto GCAS系统广泛应用于战斗机、攻击机以及具有作战任务的无人机等航空器。

Auto GCAS系统的核心技术之一是自动近地碰撞评估技术，结合数字地形高程数据库，通过深度强化学习海量飞行数据及飞行员经验，来综合评估航空器撞地的风险。

发明内容

本发明公开了一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法，在航空器飞行过程中，周期性预测航空器未来一段时间内的飞行轨迹；并生成对应区域内的地形包线。结合数字地形高程数据库，通过深度强化学习海量飞行数据及飞行员经验，来综合评估航空器撞地的风险。

本发明提供了一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法，包括以下步骤：

步骤A：初始化近地防撞评估策略π(方块100)；

步骤B：设置随机状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS；

步骤C：根据步骤B的状态S，由近地防撞评估策略π(方块100)选择出动作a，即过载指令曲线；并计算出值函数Q(s，a)，发送至数据存储空间(方块105)；

步骤D：根据动作a，由飞行控制律(方块101)计算出舵面指令De；

步骤E：根据舵面指令De，由飞行仿真(方块102)计算出飞行状态FS，包括位置、速度、姿态角及角速率、过载等；

步骤F：根据飞行状态FS，自动近地防撞功能(方块103)从数字地形高程数据库(方块104)中获取相应区域的地形高程数据DEM；

步骤G：自动近地防撞功能(方块103)，计算出自动防撞指令GCAS，并将此信号发送给飞行控制律(方块101)；

步骤H：自动近地防撞功能(方块103)，根据实际飞行轨迹与地形的匹配值，计算出回报r；

步骤I：自动近地防撞功能(方块103)，将下一状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS等信息，发送给近地防撞评估策略(方块100)和数据存储空间(方块105)；

步骤J：重复步骤C至步骤H，直至出现碰撞为止；

步骤K：学习训练数据更新(方块106)，从数据存储空间(方块105)中随机采样，每一个采样包括状态S、动作a、单步回报r、下一步状态S、策略π；

步骤L：近地防撞评估策略(方块100)，从学习训练数据更新(方块106) 中，选取一个采样，包括状态S、动作a、单步回报r、下一步状态S、策略π；并计算出对应的值函数Q new(s，a)；

步骤M：近地防撞评估策略(方块100)，从数据存储空间(方块105)中获取对应状态-动作对(s，a)的值函数Q(s，a)

步骤N：近地防撞评估策略(方块100)，通过梯度下降偏差，修正近地防撞评估策略(方块100)内的参数

步骤O：重复步骤L至步骤N，直至学习训练数据更新(方块106)中的样本选取完毕，即完成一轮的评估参数更新；

步骤P：重复步骤C至步骤O，直至将所有飞行数据学习，并将评估参数更新完毕为止。

进一步的，所述步骤A中近地防撞评估策略π，是根据输入状态S(飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS)，计算出动作a(过载指令曲线)以及对应的值函数Q(s，a)。其中，值函数是反映了在状态S情况下，采用动作a，所获得的累积回报。

进一步的，所述步骤B中设置随机状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS。

进一步的，所述步骤C中近地防撞评估策略π选择出动作a，即过载指令曲线；。并计算出值函数Q(s，a)，即状态S情况下，采用动作a，所获得的累积回报，发送至数据存储空间进行存储。

进一步的，所述步骤D的飞行控制律，是根据飞机飞行状态、环境以及指令，计算飞控舵面输出指令的模块。

进一步的，所述步骤E的飞行仿真，根据飞控舵面指令，计算出下一步的飞行状态FS，包括位置、速度、姿态角及角速率、过载等。

进一步的，所述步骤F的自动近地防撞功能，根据飞行位置与当前地形的关系，发出防撞告警信号；数字地形高程数据库，提供当前区域的地形高程数据DEM。

进一步的，所述步骤G的自动近地防撞功能，根据飞行位置与当前地形的关系，发出防撞告警信号，并将此信号发送给飞行控制律。

进一步的，所述步骤H的回报r，由实际飞行轨迹与地形的匹配值计算。如果实际飞行轨迹未与地形发生碰撞，回报为正向激励；否则，为负向激励。

进一步的，所述步骤I的数据存储空间，存储深度强化学习的元组，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS等信息。

进一步的，所述步骤J的碰撞，即实际飞行轨迹与地形发生碰撞。

进一步的，所述步骤K的学习训练数据更新的内容，来源于数据存储空间中随机采样，采样包括状态S、动作a、单步回报r、下一步状态S、策略π。

进一步的，所述步骤L近地防撞评估策略，从学习训练数据更新中，选取一个采样，包括状态S、动作a、单步回报r、下一步状态S、策略π；并计算出对应的值函数Q new(s，a)。

进一步的，所述步骤M的近地防撞评估策略，从数据存储空间中获取对应状态-动作对(s，a)的值函数Q(s，a)。

进一步的，所述步骤N的近地防撞评估策略修正，采用参数梯度下降法，即策略π的参数

进一步的，所述步骤O的完成一轮的评估参数更新，即直至学习训练数据更新中的样本选取完毕。

进一步的，所述步骤P的深度强化学习结束的判断为：直至将所有飞行数据学习，并将评估参数更新完毕为止。

该方法可与自动近地防撞技术结合，在Auto GCAS设备中设计实现，为航空器提供近地防撞预警和机动规避。其告警结果可通过听觉、视觉的方式告知飞行机组，也可激活飞行控制系统中预置的机动程序，操控飞行器规避碰撞危险。

附图说明

以下将结合附图对本发明作进一步的说明。

图1图示了根据本发明的实施例的典型流程。

状态S(飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS)；

动作a(过载指令曲线)；

回报r(实际飞行轨迹与地形匹配值)；

下一步状态S(飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS)；

策略π(选择动作a的策略)。

具体实施方式

以下通过较佳实施例对本发明的技术方案进行说明，但下述实施例并不能限制本发明的保护范围。

本发明所提供的航空器自动近地防撞评估方法可以软件的形式内置于航空器上的航空电子装置，如近地告警设备、飞行控制系统、飞行管理系统等航电设备。此外，本发明提供的航空器自动近地防撞评估方法不仅可用于战斗机，也可应用于攻击机、用于作战的无人机等。

附图1为根据本发明的一个实施例形成的单周期典型流程图。在每周期内，方法按照图1所示顺序执行。

参照图1，在方框100处，根据状态S，由近地防撞评估策略π选择出动作a，即过载指令曲线；并计算出值函数Q(s，a)，发送至数据存储空间。

参照图1，在方框101处，根据动作a，由飞行控制律计算出舵面指令De。

参照图1，在方框102处，根据舵面指令De，由飞行仿真计算出飞行状态 FS，包括位置、速度、姿态角及角速率、过载等。

参照图1，在方框103处，根据飞行状态FS，自动近地防撞功能从数字地形高程数据库中获取相应区域的地形高程数据DEM；计算出自动防撞指令GCAS，并将此信号发送给飞行控制律；根据实际飞行轨迹与地形的匹配值，计算出回报r；将下一状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS等信息，发送给近地防撞评估策略和数据存储空间。

参照图1，在方框104处，数字地形高程数据库包含相应区域的地形高程数据DEM。

参照图1，在方框105处，数据存储空间包含飞行状态FS、预测飞行轨迹 TPA、地形高程数据DEM、自动防撞指令GCAS等信息；对应状态-动作对(s，a) 的值函数Q(s，a)。

参照图1，在方框106处，学习训练数据更新从数据存储空间(方块105) 中随机采样，每一个采样包括状态S、动作a、单步回报r、下一步状态S、策略π。

值得说明的是，上述描述是基于发明的具体实施例而进行的，尽管参照较佳实施例在本发明进行了详细描述，但本领域的技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法，其特征在于，包括以下步骤：

步骤A：初始化近地防撞评估策略π；

步骤C：根据步骤B的状态S，由近地防撞评估策略π选择出动作a，即过载指令曲线；并计算出值函数Q(s，a)，发送至数据存储空间；

步骤D：根据动作a，由飞行控制律计算出舵面指令De；

步骤E：根据舵面指令De，由飞行仿真计算出飞行状态FS，包括位置、速度、姿态角及角速率、过载等；

步骤F：根据飞行状态FS，自动近地防撞功能从数字地形高程数据库(方块104)中获取相应区域的地形高程数据DEM；

步骤G：自动近地防撞功能，计算出自动防撞指令GCAS，并将此信号发送给飞行控制律；

步骤H：自动近地防撞功能，根据实际飞行轨迹与地形的匹配值，计算出回报r；

步骤I：自动近地防撞功能，将下一状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS等信息，发送给近地防撞评估策略和数据存储空间；

步骤J：重复步骤C至步骤H，直至出现碰撞为止；

步骤K：学习训练数据更新，从数据存储空间中随机采样，每一个采样包括状态S、动作a、单步回报r、下一步状态S、策略π；

步骤L：近地防撞评估策略，从学习训练数据更新中，选取一个采样，包括状态S、动作a、单步回报r、下一步状态S、策略π；并计算出对应的值函数Q new(s，a)；

步骤M：近地防撞评估策略，从数据存储空间中获取对应状态-动作对(s，a)的值函数Q(s，a)

步骤N：近地防撞评估策略，通过梯度下降偏差，修正近地防撞评估策略(方块100)内的参数

2.如权利要求1所述的方法，其特征在于，所述步骤A中近地防撞评估策略π，是根据输入状态S(飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS)，计算出动作a(过载指令曲线)以及对应的值函数Q(s，a)。其中，值函数是反映了在状态S情况下，采用动作a，所获得的累积回报。

3.如权利要求1所述的方法，其特征在于，所述步骤B中设置随机状态S，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS。

4.如权利要求1所述的方法，其特征在于，所述步骤C中近地防撞评估策略π选择出动作a，即过载指令曲线；。并计算出值函数Q(s，a)，即状态S情况下，采用动作a，所获得的累积回报，发送至数据存储空间进行存储。

5.如权利要求1所述的方法，其特征在于，所述步骤D的飞行控制律，是根据飞机飞行状态、环境以及指令，计算飞控舵面输出指令的模块。

6.如权利要求1所述的方法，其特征在于，所述步骤E的飞行仿真，根据飞控舵面指令，计算出下一步的飞行状态FS，包括位置、速度、姿态角及角速率、过载。

7.如权利要求1所述的方法，其特征在于，所述步骤F的自动近地防撞功能，根据飞行位置与当前地形的关系，发出防撞告警信号；数字地形高程数据库，提供当前区域的地形高程数据DEM。

8.如权利要求1所述的方法，其特征在于，所述步骤G的自动近地防撞功能，根据飞行位置与当前地形的关系，发出防撞告警信号，并将此信号发送给飞行控制律。

9.如权利要求1所述的方法，其特征在于，所述步骤H的回报r，由实际飞行轨迹与地形的匹配值计算。如果实际飞行轨迹未与地形发生碰撞，回报为正向激励；否则，为负向激励。

10.如权利要求1所述的方法，其特征在于，所述步骤I的数据存储空间，存储深度强化学习的元组，包括飞行状态FS、预测飞行轨迹TPA、地形高程数据DEM、自动防撞指令GCAS等信息。

11.如权利要求1所述的方法，其特征在于，所述步骤K的学习训练数据更新的内容，来源于数据存储空间中随机采样，采样包括状态S、动作a、单步回报r、下一步状态S、策略π。

12.如权利要求1所述的方法，其特征在于，所述步骤L近地防撞评估策略，从学习训练数据更新中，选取一个采样，包括状态S、动作a、单步回报r、下一步状态S、策略π；并计算出对应的值函数Q new(s，a)。

13.如权利要求1所述的方法，其特征在于，所述步骤M的近地防撞评估策略，从数据存储空间中获取对应状态-动作对(s，a)的值函数Q(s，a)。

14.如权利要求1所述的方法，其特征在于，所述步骤N的近地防撞评估策略修正，采用参数梯度下降法，即策略π的参数

15.如权利要求1所述的方法，其特征在于，所述步骤O的完成一轮的评估参数更新，即直至学习训练数据更新中的样本选取完毕。

16.如权利要求1所述的方法，其特征在于，所述步骤P的深度强化学习结束的判断为：直至将所有飞行数据学习，并将评估参数更新完毕为止。