CN114167748A

CN114167748A - 一种飞行控制算法一体化训练平台

Info

Publication number: CN114167748A
Application number: CN202111247331.1A
Authority: CN
Inventors: 王昭磊; 黄鹂; 路坤锋; 禹春梅; 巩庆海; 骆无意; 王露荻; 王森; 张隽; 周辉; 胡瑞光; 黄旭; 魏晓丹; 林玉野
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-03-11
Anticipated expiration: 2041-10-26
Also published as: CN114167748B

Abstract

本发明公开了一种飞行控制算法一体化训练平台，属于机器学习技术领域，能够保证飞行控制算法训练，以及验证设计的通用性和易用性，进而提高了飞行控制算法一体化训练和验证设计的效率。平台包括：控制器、机器学习框架模块和可视化飞行仿真环境；其中：所述可视化飞行仿真环境包括动力学模型、视景仿真模型和调用接口；所述可视化飞行仿真环境通过所述调用接口与所述机器学习框架模块相连接；所述机器学习框架模块用于实现所述控制器和所述可视化飞行仿真环境之间的数据交互；所述视景仿真模型用于展示飞行控制算法的一体化训练过程中的飞行状态信息；所述动力学模型与所述视景仿真模型之间建立通讯连接。

Description

一种飞行控制算法一体化训练平台

技术领域

本发明涉及机器学习技术领域，尤其涉及一种飞行控制算法一体化训练平台。

背景技术

航天飞行任务呈现愈发复杂的趋势，突发情况更加多样，难度越发增大，愈发要求飞行器具有智能自主飞行能力。随着人工智能与控制论的不断交叉发展，结合深度神经网络的强大的拟合能力，诞生了深度强化学习，利用深度强化学习(Deep ReinforcementLearning，DRL)的高度拟人化特点，通过与被控对象的不断交互与试错来进行自我学习。深度强化学习其高度拟人化特点、端到端设计思想、先验依赖性低等特点得到了极大关注，并正被积极尝试应用于运动控制领域中。

目前，为便于学习算法的验证和优化，推出了GYM等可视化仿真验证环境，采用统一的接口描述方式，为强化学习算法的仿真和横向比较提供了极大的便利，其中通用的深度强化学习仿真环境，包括经典的倒立摆等控制任务、Atari游戏、机械臂控制任务、棋类游戏等。

但是在飞行控制领域，目前尚无可用的飞行控制算法仿真验证环境，飞行控制算法训练，以及验证设计的通用性和易用性较差，不利于推广应用。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种飞行控制算法一体化训练平台，使得现有的飞行控制算法和机器学习框架均能无缝高效地接入一体化训练平台，能够保证飞行控制算法训练，以及验证设计的通用性和易用性，进而提高了飞行控制算法一体化训练和验证设计的效率。

本发明实施例提供了一种飞行控制算法一体化训练平台，所述飞行控制算法一体化训练平台包括：

控制器、机器学习框架模块和可视化飞行仿真环境；其中：

所述可视化飞行仿真环境包括动力学模型、视景仿真模型和调用接口；

所述可视化飞行仿真环境通过所述调用接口与所述机器学习框架模块相连接；

所述机器学习框架模块用于实现所述控制器和所述可视化飞行仿真环境之间的数据交互；

所述动力学模型包括飞行器动力学模型的模型特征参数；所述视景仿真模型用于展示飞行控制算法的一体化训练过程中的飞行状态信息；

所述动力学模型与所述视景仿真模型之间建立通讯连接。

进一步地，所述视景仿真模型包括FlightGear；相应的，所述动力学模型与所述视景仿真模型之间通过以下方式建立通讯连接：

通过UDP通讯端口建立所述动力学模型与FlightGear指定网络端口之间的通讯连接。

进一步地，所述飞行控制算法一体化训练平台还包括Docker容器模块：

所述控制器、所述机器学习框架模块和所述可视化飞行仿真环境内置于所述Docker容器模块中。

进一步地，所述飞行控制算法一体化训练平台还包括远程调试模块：

所述远程调试模块内置在终端中；所述终端与所述Docker容器模块通过网络连接；

所述远程调试模块为终端用户提供通过网页访问Docker容器训练环境的服务。

进一步地，所述远程调试模块利用VNC虚拟桌面实现远程调试功能。

进一步地，通过所述机器学习框架模块由所述可视化飞行仿真环境向所述控制器发送飞行状态信息，由所述控制器向所述可视化飞行仿真环境发送控制指令。

进一步地，利用JSBSim进行各飞行器动力学模型的批量仿真、所述机器学习框架模块包括Python、所述控制器的可视化仿真验证环境调用接口采用GYM；相应的，所述机器学习框架模块具体用于：

在所述Python中创建JSBSim运行实例；

加载指定的飞行器动力学模型到JSBSim中；

设置指定的飞行器动力学模型的初始仿真状态；

从JSBSim中抽取飞行状态信息，并将所述飞行状态信息发送至所述控制器；

输入由所述控制器发送的所述控制指令到所述JSBSim运行实例；

根据所述飞行状态信息和所述控制指令，构建奖励函数，并发送所述奖励函数输出的奖励信息至所述控制器；

按照GYM API接口，通过所述调用接口响应从所述机器学习框架模块发出的查询指令，定期与JSBSim实例进行数据交互；

查询是否收到从控制器发出的仿真结束指令，若收到，则结束仿真，释放JSBSim实例，并保存数据；

若未收到，则继续执行所述从JSBSim中抽取飞行状态信息及后续的步骤，直到满足仿真结束的条件。

进一步地，所述可视化飞行仿真环境用于构建所述视景仿真模型，具体包括：

将所述飞行状态信息输出到FlightGear指定网络端口上，并驱动FlightGear对所述飞行器动力学模型的飞行状态进行视景仿真。

进一步地，所述可视化飞行仿真环境用于构建所述动力学模型，具体包括：

建立所述飞行器动力学模型；

采用XML语言编写配置文件，以描述所述模型特征参数。

进一步地，所述可视化飞行仿真环境还具体用于：

若用户没有特别指定的飞行器动力学模型，则利用JSBSim中现有的开源模型，或者利用不同的开源模型，并利用强化学习算法来预训练开源模型的控制律。

与现有技术相比，本发明至少可实现如下有益效果之一：

本发明实施例旨在提供一种飞行控制算法一体化训练平台，包括：

控制器、机器学习框架模块和可视化飞行仿真环境；其中：

所述可视化飞行仿真环境包括动力学模型、视景仿真模型和调用接口；所述可视化飞行仿真环境通过所述调用接口与所述机器学习框架模块相连接；所述机器学习框架模块用于实现所述控制器和所述可视化飞行仿真环境之间的数据交互；所述动力学模型包括飞行器动力学模型的模型特征参数；所述视景仿真模型用于展示飞行控制算法的一体化训练过程中的飞行状态信息；所述动力学模型与所述视景仿真模型之间建立通讯连接，使得现有的飞行控制算法和机器学习框架均能无缝高效地接入一体化训练平台，能够保证飞行控制算法训练，以及验证设计的通用性和易用性，进而提高了飞行控制算法一体化训练和验证设计的效率。

将控制器、机器学习框架模块和可视化飞行仿真环境内置于Docker容器模块中，为基于强化学习的飞行控制律学习提高了友好、直观和高效的训练、调试和验证环境，提高控制律效果的同时，有效降低了控制律设计的门槛。

将远程调试模块内置在终端中；终端与Docker容器模块网络连接，提供终端用户通过网页访问Docker容器训练环境，从而方便多用户远程调试。

通过JSBSim框架与GYM环境的调用接口，能够将可视化飞行仿真环境转化为规范的GYM接口，进而融入现有的强化学习生态，使得现有的飞行控制算法和机器学习框架均能无缝地、高效地接入一体化训练平台，保证了飞行控制算法训练，以及验证设计的通用性和易用性。

通过视景仿真模型，可实现可视化训练，能够直观和方便的调节飞行控制算法在训练过程中算法的超参数，便于算法设计。

通过利用开源模型，并利用强化学习算法来预训练开源模型的控制律，能够提高控制律的泛化性能。

通过在视景仿真模型内部驱动FlightGear进行视景仿真，有效降低了软件间耦合度，并提高了软件的可用性。

通过XML的配置文件即可完成模型定制和修改，在提高了学习飞行控制算法训练效率的同时，降低了建模复杂度。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中的飞行控制算法一体化训练平台结构示意图；

图2为本发明实施例中的机器学习框架模块说明示意图；

图3为本发明另一实施例中的飞行控制算法一体化训练平台结构示意图；

图4为本发明另一实施例中的飞行控制算法一体化训练平台结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种飞行控制算法一体化训练平台，结构示意图如图1所示，包括：

控制器1、机器学习框架模块2和可视化飞行仿真环境3；其中：

所述可视化飞行仿真环境3包括动力学模型、视景仿真模型和调用接口；

所述可视化飞行仿真环境3通过所述调用接口与所述机器学习框架模块2相连接；

所述机器学习框架模块2用于实现所述控制器1和所述可视化飞行仿真环境3之间的数据交互；

所述动力学模型与所述视景仿真模型之间建立通讯连接。

与现有技术相比，本发明实施例中提供的飞行控制算法一体化训练平台，包括控制器、机器学习框架模块和可视化飞行仿真环境；其中：

动力学模型包括飞行器动力学模型的模型特征参数，模型特征参数可以包括几何、质量、气动、推进和控制等特征参数。

所述可视化飞行仿真环境3用于构建所述动力学模型，具体包括：

建立所述飞行器动力学模型；

采用XML语言编写配置文件，以描述所述模型特征参数。

所述可视化飞行仿真环境3还具体用于：

JSBSim中采用统一的北东地坐标系，各类飞行器均在此坐标系下进行动力学建模，给出统一的数学描述形式，不同飞行器仅仅是相关动力学系数有不同。因此，可使用XML语言来进行动力学参数的配置，在仿真时进行动态加载，即可完成特定特性飞行器的动力学模型仿真。

因此，本发明中首先根据实际情况建立待仿真的飞行器动力学模型，并采用XML语言按指定模板编写配置文件，对飞行器动力学模型的几何、质量、气动、推进、控制等特征参数进行描述。

利用JSBSim进行各飞行器动力学模型的批量仿真、所述机器学习框架模块2包括Python、TensorFlow、GYM等常用机器算法框架、所述控制器1的可视化仿真验证环境调用接口采用GYM，进一步地，采用标准的GYM API形式。

其中，JSBSim是一个开源的跨平台轻量化、数据驱动的六自由度非线性飞行动力学模型(FDM，Flight Dynamics Model)批量仿真应用，可以单独运行，也可以作为子程序或子函数由其它外部程序调用。它采用C++语言编写，支持不同类型飞行器的动力学建模，其飞行器动力学特性由可扩展标记语言XML表述，使用者不必编译和链接代码就可以建立自己的六自由度飞行器模型并进行仿真。

需要说明的是，目前常用的强化学习等机器学习算法和框架都是在Python平台下实现，常用的Tensorflow和Pytorch等框架只能在Python下运行。

GYM是一个开发、比较各种强化学习算法的工具库，提供了不少内置的环境,是学习强化学习不错的一个平台，GYM的一个很大的特点是：可以可视化环境，它基于Python平台；而动力学仿真是在C++下完成的JSBSim框架。因此，本发明实施例调用接口是基于Python语言开发的一套JSBSim框架与GYM环境的转化模块。

该转化模块向下通过Python脚本来与JSBSim动力学框架进行交互，向上提供符合GYM规范的强化学习环境调用接口。上层的基于深度强化学习的飞行控制算法即可通过此调用接口调用可视化飞行仿真环境来进行训练，将可视化飞行仿真环境作为黑盒模型来处理，而无需知道具体建模细节。

飞行状态信息可以包括飞行速度和飞行方向等。

FlightGear作为开源飞行模拟软件，为用户预留了多种接口方式，例如串行通信、UDP网络通信、TCP/IP网络通信等，本发明实施例中如图1所示的所有软件模块均运行在同一台高性能深度学习计算机内，因此选用UDP网络通信。同时，JSBSim的数据输出模式也支持UDP通信，因此通过在JSBSim的XML配置文件中，通过UDP通讯端口将仿真结果数据输出到FlightGear指定端口上，进而驱动FlightGear进行视景仿真。

进一步地，所述可视化飞行仿真环境3用于构建所述视景仿真模型，具体包括：

FlightGear是一个开放源代码的、支持跨平台运行的飞行模拟器项目，目标是创建一个先进的飞行模拟器用于科研或者学术环境上。FlightGear使用C++语言开发，可以准确逼真地模拟飞行器真实的飞行状态，并能够直观的对飞行状态信息进行可视化展示。用户可以直观的对飞行状态信息进行浏览，在训练和验证设计过程中调节参数。

此外，FlightGear的视景模型和仿真参数配置，也大量采用了XML语言配置文件的形式进行定义，使用户不必编译代码就可以定义自己的视景仿真飞行设计，包括飞行器的三维模型、飞行环境、飞行时间等，从而提高了基础视景仿真框架代码的重用率。

进一步地，通过所述机器学习框架模块2由所述可视化飞行仿真环境3向所述控制器1发送飞行状态信息，由所述控制器1向所述可视化飞行仿真环境3发送控制指令，可以通过实时测量可视化飞行仿真环境3中的飞行状态信息，同时向控制器1发送飞行状态信息。

通过控制指令对可视化飞行仿真环境3施加控制，可视化飞行仿真环境3响应施加控制，产生相应变化，通过控制指令实现对控制动作进行控制。

进一步地，如图2所示，利用JSBSim进行各飞行器动力学模型的批量仿真、所述机器学习框架模块2包括Python、所述控制器1的可视化仿真验证环境调用接口采用GYM；相应的，所述机器学习框架模块2具体用于：

在所述Python中创建JSBSim运行实例；在Python中以进程调用的形式，在后台创建JSBSim运行实例。

加载指定的飞行器动力学模型到JSBSim中；根据配置文件信息，加载指定的飞行器动力学模型到JSBSim中，可以为自定义的飞行器动力学模型或者是开源的公开动力学模型。

设置指定的飞行器动力学模型的初始仿真状态；复位指定的飞行器动力学模型的初始状态，设置初始仿真状态。

从JSBSim中抽取飞行状态信息，并将所述飞行状态信息发送至所述控制器；通过进程调用接口从JSBSim运行实例中抽取飞行状态信息，通过Python接口将飞行状态信息提供给控制器中的飞行控制算法。

输入由所述控制器发送的所述控制指令到所述JSBSim运行实例；控制器接收飞行状态信息，输出对可视化飞行仿真环境进行的控制动作的控制指令，并通过Python进程调用接口将控制动作作为控制指令输出给JSBSim实例中，驱动JSBSim进行仿真。

根据所述飞行状态信息和所述控制动作的控制指令，构建奖励函数，并发送所述奖励函数输出的奖励信息至所述控制器；根据当前步骤的飞行状态信息和控制动作的控制指令构造奖励函数，作为强化学习环境的Reward信息(即奖励信息)，并通过Python接口提供给控制器中的飞行控制算法。

按照GYM API接口，通过所述调用接口响应从所述机器学习框架模块发出的查询指令，定期与JSBSim实例进行数据交互。

查询是否收到从控制器发出的仿真结束指令，若收到，则结束仿真，释放JSBSim实例，并保存数据。

若未收到，则继续执行所述从JSBSim中运行实例抽取飞行状态信息及后续的步骤，直到满足仿真结束的条件。

进一步地，如图3所示，所述飞行控制算法一体化训练平台还包括Docker容器模块：

所述控制器1、所述机器学习框架模块2和所述可视化飞行仿真环境3内置于所述Docker容器模块中。

在Docker容器模块部署实现飞行控制算法一体化训练平台所包括的如图1所示的所有软件模块，以及所需要的配置数据。在大型深度学习机DGX-Station强大的并行计算能力和优秀的GPU算力的基础上，利用Docker轻量化容器技术来进一步降低软件配置的复杂性。

Docker容器模块还用于：将Docker容器打包发布，在运行时创建独立的运行实例。保证在Docker容器内改动不影响原操作系统，实现隔离调试，同时作为备份存档，便于在系统崩溃时恢复。

进一步地，如图4所示，所述飞行控制算法一体化训练平台还包括远程调试模块4：

所述远程调试模块4内置在终端中；所述终端与所述Docker容器模块通过网络连接；

所述远程调试模块4为终端用户提供通过网页访问Docker容器训练环境的服务。

进一步地，远程调试模块4利用VNC虚拟桌面实现远程调试功能，VNC(VirtualNetwork Console)是虚拟网络控制台的缩写。

通过所述VNC虚拟桌面的接口开展调试，调试各飞行器动力学模型飞行状态和控制动作，实现对所述飞行控制算法进行训练。VNC虚拟桌面可以部署在其他的客户端中，从而方便多用户远程调试。

进一步地，Docker容器模块内置在用于飞行控制算法训练计算机中，相应的，该飞行控制算法训练计算机与终端网络连接，也可以为终端用户提供通过网页访问Docker容器训练环境的服务。

通过下述实施例给出使用该平台进行训练的实施方式：

首先在标准的北东地坐标系下，根据实际情况建立待仿真的飞行器数学模型，并采用XML语言按指定模板编写配置文件，对飞行器动力学模型的几何、质量、气动、推进、控制等特征进行定义，本发明实施例中为验证平台的通用性，选用平台自带的Cessna 172P教练机飞行器模型为对象，进行算法的设计和验证，因此对预置飞行器模型XML进行检查和确认即可。优选的，可适当改动部分参数以达到验证算法泛化性能的目的。

之后，由于训练平台中视景仿真模型已经预置，并且JSBSim动力学仿真框架和FlightGear视景框架已经完成所有飞行状态数据的关联，并且通过JSBSim框架-GYM环境转化模块提供Python环境下的环境调用接口。因此，只需在Python环境下，基于Tensorflow神经网络框架构建适用于飞行器定直平飞任务的强化学习算法。

具体地，考虑到本发明实施例中飞行器状态和动作空间都是连续变量，采用深度确定性策略梯度强化学习算法进行控制律的学习和训练。状态变量和动作变量取为根据飞行器飞行任务特点进行适应性设计，需要根据控制效果进行动态调整，本发明实施例中取为高度，俯仰角，滚转角，x、y、z向速度，俯仰、偏航、滚装角速度，偏航角误差、高度误差、俯仰角误差、侧滑角误差共13个状态量，动作空间为俯仰、偏航和滚转舵偏角归一化位置共3个动作量，奖励函数设置为归一化的高度误差和偏航误差之和。根据需要设计深度确定性策略梯度强化学习算法神经网络超参数和强化学习超参数，可根据控制效果进行不断调整。

在本训练平台上进行训练，经过约100万次迭代后控制效果收敛，奖励值维持在250分左右，之后将训练得到的控制律神经网络进行在线使用，可以实现预定的定直平飞任务。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种飞行控制算法一体化训练平台，其特征在于，所述飞行控制算法一体化训练平台包括：

控制器、机器学习框架模块和可视化飞行仿真环境；其中：

所述动力学模型与所述视景仿真模型之间建立通讯连接。

2.根据权利要求1所述的飞行控制算法一体化训练平台，其特征在于，所述视景仿真模型包括FlightGear；相应的，所述动力学模型与所述视景仿真模型之间通过以下方式建立通讯连接：

3.根据权利要求1所述的飞行控制算法一体化训练平台，其特征在于，所述飞行控制算法一体化训练平台还包括Docker容器模块：

4.根据权利要求3所述的飞行控制算法一体化训练平台，其特征在于，所述飞行控制算法一体化训练平台还包括远程调试模块：

5.根据权利要求4所述的飞行控制算法一体化训练平台，其特征在于，所述远程调试模块利用VNC虚拟桌面实现远程调试功能。

6.根据权利要求1所述的飞行控制算法一体化训练平台，其特征在于，通过所述机器学习框架模块由所述可视化飞行仿真环境向所述控制器发送飞行状态信息，由所述控制器向所述可视化飞行仿真环境发送控制指令。

7.根据权利要求6所述的飞行控制算法一体化训练平台，其特征在于，利用JSBSim进行各飞行器动力学模型的批量仿真、所述机器学习框架模块包括Python、所述控制器的可视化仿真验证环境调用接口采用GYM；相应的，所述机器学习框架模块具体用于：

在所述Python中创建JSBSim运行实例；

加载指定的飞行器动力学模型到JSBSim中；

设置指定的飞行器动力学模型的初始仿真状态；

8.根据权利要求1所述的飞行控制算法一体化训练平台，其特征在于，所述可视化飞行仿真环境用于构建所述视景仿真模型，具体包括：

9.根据权利要求1所述的飞行控制算法一体化训练平台，其特征在于，所述可视化飞行仿真环境用于构建所述动力学模型，具体包括：

建立所述飞行器动力学模型；

采用XML语言编写配置文件，以描述所述模型特征参数。

10.根据权利要求9所述的飞行控制算法一体化训练平台，其特征在于，所述可视化飞行仿真环境还具体用于：