CN109213188A

CN109213188A - 自主操作飞行器的方法和系统

Info

Publication number: CN109213188A
Application number: CN201810486480.5A
Authority: CN
Inventors: P·科斯塔斯
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2017-06-29
Filing date: 2018-05-21
Publication date: 2019-01-15
Anticipated expiration: 2038-05-21
Also published as: EP3422130B1; JP7066546B2; ES2943122T3; CN109213188B; CA3003363A1; US10983533B2; EP3422130A1; JP2019059461A; CA3003363C; BR102018012639A2; EP3422130B8; US20190005828A1

Abstract

本申请公开一种用于自主操作飞行器的方法和系统。该方法包含：‑飞行前训练步骤(100)，其包含：检索对应于至少一种飞行器类型和至少一条航线的多次飞行的记录的监视数据(110)；从记录的监视数据(110)推断(120)飞行器意图(130)；使用推断的飞行器意图(130)计算(140)重建轨迹(150)；选择训练数据集(160)，该训练数据集(160)包含飞行器意图(130)和对应于特定飞行器类型和航线的飞行的重建轨迹(150)；在训练数据集(160)上应用机器学习算法(170)以获得飞行器状态和动作之间的映射函数(180)；以及‑在飞行器的飞行期间执行的实时控制步骤(200)，该实时控制步骤(200)包含：反复检索机载传感器数据(210)；从机载传感器数据(210)获得实时飞行器状态(222)；使用映射函数(180)确定与实时飞行器状态(222)相关的动作(224)；以及在飞行器上执行所选的动作(224)。

Description

自主操作飞行器的方法和系统

技术领域

本公开被包含在航空电子学领域，并且涉及用于自主操作飞行器的方法和系统。

背景技术

单一飞行员操作(SPO)(即在驾驶舱中仅具有一个飞行员的商用飞行器的飞行)完全自动化的商用飞机和无人驾驶飞行器(UAV)，需要由先进的机载自动化工具协助。

机组成本和机组可用性是航空公司的典型关键业务驱动力。这些领域中的改进导致了成本降低和业务收益的增加。然而，商用飞行器(特别是运输机)以自主方式的操作必须安全地被执行。

任何自主系统的关键部分正在训练。在某种程度上，当前的训练方法包括从可用于小型交通工具的数据中学习的无人驾驶飞行器上的飞行动力学、飞行控制和轨迹规划的数据驱动建模。

然而，数据可用性是当前数据驱动UAV训练系统的一个重要缺点，并且没有解决基于监视数据训练机载自动化工具的问题的现有解决方案。虽然对于用来自特定传感器的数据训练的小型UAV的特定模型有研究，但是当前的训练方法中没有一个是通用的(即，它们不能在任何无人机上推广和实施)。此外，对训练数据上呈现的不确定性的管理不被考虑在当前的数据驱动训练系统中。

因此，需要提供克服现有缺点的一种新的过程以训练和操作飞行器机载命令和控制系统。

发明内容

本公开涉及一种用于自主操作飞行器的方法和系统，该飞行器已经被训练以自主操作和飞行，通过利用监视记录的数据以指示采取最优动作作为对机载传感器数据的响应来移除从自主交通工具训练中导出的所有复杂性。

从商用飞行器的历史监视数据推断导航和制导命令以及基于机载传感器读数开发能够应用这些命令的系统是自主交通工具的一种新方法。监视数据可以容易地从例如FAA系统范围信息管理(SWIM)基础设施或从全球飞行跟踪提供商获得。监视数据可以包括在其他数据、雷达和/或ADS跟踪中。

提出的方法允许使用利用记录的飞行数据的学习过程根据实际的飞行器性能和能力来裁剪飞行器的自主命令和控制。训练仅需的输入是从雷达数据或ADS数据(如ADS-B或ADS-C)获得的飞行器历史位置的时间演化序列。机载自动化工具被指示以采取最优动作来代表人类命令飞行器。这些动作以飞行器意图描述语言(AIDL)格式表示，例如，在2007年的电气与电子工程师协会/美国航空航天协会(IEEE/AIAA)第26届数字航空电子系统会议中Lopez-Leones、Javier等人的“The aircraft intent description language:a keyenabler for air-ground synchronization in trajectory-based operations(飞行器意图描述语言：基于轨迹的操作中用于空-地同步的关键使能器)”；在IEEE的2005年第24届数字航空电子系统会议.卷1.中Vilaplana,Miguel A.等人的“Towards a formallanguage for the common description of aircraft intent.(面向形式语言的用于飞行器意图的通用描述。)”所描述的。

根据本公开的一个方面，提供了一种自主操作飞行器的方法，该方法包含飞行前训练步骤包含和在飞行器的飞行期间执行的实时控制步骤。

飞行前训练步骤包含：检索对应于至少一种飞行器类型和至少一条航线的多次飞行的记录的监视数据；从记录的监视数据中推断飞行器意图；使用推断的飞行器意图计算重建轨迹；选择训练数据集，该训练数据集包含飞行器意图和对应于特定飞行器类型和航线的飞行的重建轨迹；以及在训练数据集上应用机器学习算法以获得飞行器状态和动作之间的映射函数。

实时控制步骤包含：反复检索机载传感器数据；从机载传感器数据中获得实时飞行器状态；使用映射函数确定与实时飞行器状态相关的动作；以及在飞行器上执行所选的动作。

根据一个实施例，飞行器意图用AIDL格式表示，并且动作包含表示为AIDL指令的导航和制导命令。映射函数可以包含具有AIDL指令的表映射传感器值。确定动作的步骤可以包含搜索映射表的传感器值，该传感器值对应于检索到的机载传感器数据，以及如果没有找到精确匹配，则使用插值过程以确定相关的AIDL指令。

在一个实施例中，机器学习算法是一种强化学习算法，其获得使与飞行器状态相关的累积回报R最大化的策略π，该飞行器状态与在目的地机场处的飞行着陆相匹配。强化学习算法可以包含求解六个独立的马尔可夫(Markov)决策过程，其用于预测六个独立的AIDL指令，其中每个AIDL线程的动作空间和状态空间是不同的。

根据本公开的进一步方面，提供了一种用于自主操作飞行器的系统，包含：

-推断和轨迹重建模块，其被配置为从对应于至少一种飞行器类型和至少一条航线的多次飞行的记录的监视数据中推断飞行器意图；以及使用推断的飞行器意图计算重建的轨迹。

-聚类模块，其被配置为选择训练数据集，该训练数据集包含飞行器意图和对应于特定飞行器类型和航线的飞行的重建轨迹。

-机器学习模块，其被配置为在训练数据集上应用机器学习算法，以获得飞行器状态和动作之间的映射函数。

-机载命令和控制自动化模块(340)，其被配置为在飞行器的飞行期间反复检索机载传感器数据(210)；从机载传感器数据(210)中获得实时飞行器状态(222)；使用映射函数(180)确定与实时飞行器状态(222)相关的动作(224)；以及指示在飞行器上执行所选的动作(224)。

在一个实施例中，机载命令和控制自动化模块被配置为通过搜索映射表(用AIDL指令映射传感器值)的传感器值来确定动作，该传感器值对应于检索到的机载传感器数据，以及如果没有找到精确匹配，则使用插值来确定相关的AIDL指令。

机器学习模块可以是强化学习模块，其被配置为获得使与飞行器状态相关的累积回报R最大化的策略π，该飞行器状态与在目的地机场处的飞行着陆相匹配。在一个实施例中，强化学习模块可以被配置为求解六个独立的马尔可夫决策过程，用于预测六个独立的AIDL指令，其中每个AIDL线程的动作空间和状态空间是不同的。

该系统可以包含用于在飞行器上执行所选动作的飞行器飞行管理系统。

根据本发明的又进一步方面，提供了一种用于自主操作飞行器的计算机程序产品，该计算机程序产品包含至少一个计算机可读存储介质，该计算机可读存储介质包含存储在其中的指令集，当由处理器执行时，该指令集致使处理器执行该方法的步骤。

目前的方法可以用于商用飞行器和UAV的自主交通工具导航技术，尤其具有价值，因为它可以应用于任何商用飞行器，而不考虑飞行器类型，只是改变学习数据集。训练数据集可以从多种来源获得，诸如ADS-B提供商、联邦航空局或全球各地的类似组织，以及航空公司(例如，从QAR-快速存取记录器-)。

已经讨论的特征、功能和优点可以在各种实施例中独立地实现，或者可以在其他实施例中结合，参考以下说明书和附图可以看到这些实施例的进一步细节。

附图说明

有助于更好地理解本发明并与所述发明的一个实施例明确相关的一系列附图，作为其非限制性示例呈现，在下面非常简要地描述。

图1表示飞行前训练步骤的示意图。

图2描绘了在飞行期间在机上执行的实时控制步骤的图。

图3表示描述自主操作飞行器的方法的一个实施例的框图。

具体实施方式

本公开涉及一种基于用于自主操作的当前机载传感器读数产生制导命令作为输出的方法。使用记录的历史监视数据预先训练机载命令和控制自动化系统。

本发明实现了一种使用强化学习方法的不确定性下的机器学习过程，该强化学习方法(诸如马萨诸塞州坎布里奇市的麻省理工学院出版社出版的Richard S.Sutton和Andrew G Barto的“Reinforcement Learning:An Introduction(强化学习：介绍)”中描述的一种方法)被应用以按照由AIDL(飞行器意图描述语言)格式定义的来描述飞行器的意图。

自主操作飞行器的方法包含飞行前训练步骤和在覆盖确定路径的飞行器的飞行期间执行的实时控制步骤。图1描绘了飞行前训练步骤100的总体视图，其中，首先检索多次飞行的记录的监视数据110，例如通过访问包含多个ADS-B数据和/或雷达跟踪数据的数据库。对于每次飞行，监视数据110包括至少随时间(t)的飞行器位置(经度λ、纬度高度h)的变化。

然后，在记录的监视数据110上应用推断步骤120以获得推断的飞行器意图130，优选地用AIDL格式表示。使用推断的飞行器意图130，在轨迹计算步骤140中计算重建轨迹150。机器学习算法170被应用在训练数据集160上，该训练数据集160包含飞行器意图130和对应于飞行器类型和感兴趣航线的重建轨迹150(记录的监视数据110可以包含来自不同航线的数据和对特定飞行器无关的飞行器类型)。机器学习算法170的结果是使飞行器状态与动作相关的映射函数180，稍后将详细解释。

在图2中的图表示在飞行期间在机上执行的实时控制步骤200。训练步骤100必须先前已完成。来自安装在飞行器上的传感器的机载传感器数据210(诸如位置211、高度212、速度213、航向214、燃料量215、时间216或其他传感器信息217)在机载命令和控制自动化过程220中被反复捕获。使用检索到的机载传感器数据210，机载命令和控制过程220获得实时飞行器状态222，并且应用先前在飞行前训练步骤100中确定的映射函数180来确定与实时飞行器状态222相关的动作224。映射函数180必须在广义上被理解为映射过程、关系或相关性，该映射函数180允许确定给定飞行器状态222的动作224。在一个实施例中，映射过程包含在由传感器值(诸如位置、高度、速度、航向、燃料、时间和其他)可搜索的映射表中的查找，该查找每次搜索返回六个AIDL指令(每个AIDL线程一个AIDL指令)。映射表中的每一行都是状态-动作向量，其中状态222是传感器值，并且动作224是与状态相关的AIDL指令。映射表不一定包括传感器数据210和立即执行的AIDL指令之间的所有可能的映射；在这些情况下，将需要插值(任何已知的插值方法)。机载命令和控制过程220的输出包含导航和制导命令230的集合，其对应于由飞行器飞行管理系统FMS 240执行的动作224。

在一个实施例中，导航和制导命令230包括AIDL指令。

在图3中描绘了描述用于自主操作飞行器300的系统的一个实施例的框图。根据该图，推断和轨迹重建模块310从一个或更多个源(诸如雷达(RADAR)、ADS(ADS-C/ADS-B)、QAR)接收用于航空域的输入监视数据110。

将推断和轨迹重建技术应用于记录的监视数据110。可以应用不同的已知推断和轨迹重建技术；例如，在专利文献US8977484-B1、US9366538-B2和EP3109805-A1中公开的那些。

推断算法是基于假设：飞行器运动可以被表示为点-质量模型，其使计算最优地描述注册在监视数据110中的实际轨迹的飞行器意图130成为可能。使用记录的监视数据110并将它们链接到表示在操作当天关于计划航线的大气条件的天气预报，推断算法允许生成飞行器意图130。

该方法还包含分析记录的监视数据110和确定飞行器类型和计算与该类型的飞行器有关的飞行器性能数据。例如，可以使用雷达跟踪或其他雷达/ADS数据识别每个飞行器的呼号或机尾编号，其可以与用于确定飞行器类型的记录比较。

即使考虑ADS-B消息，其包含比包括在雷达跟踪中的典型位置数据(随时间的纬度、经度和高度)更广泛的信息，关于空速和地面速度的准确信息的可用性几乎是无效的，而飞行器质量作为用于计算其他相关动力学状态变量的关键状态变量，其是不可用的。

然而，利用从记录的监视数据110生成的推断的飞行器意图130，可以启动飞行器质量推断和轨迹重建过程，该过程将填充未包括在原始基于监视的轨迹表示中的状态向量添加时间(增加的粒度(granularity))和状态变量(状态向量丰富化(enrichment))。

因此，被应用于给定飞行的记录的飞行数据的推断和轨迹重建阶段的结果包括飞行器意图130实例和与对应于该飞行的最初的原始监视数据110匹配的重建轨迹150。

数据集(130，150)二者被用作实施机器学习算法170(特别地，强化学习算法)的强化学习模块330的输入。在应用强化学习之前，聚类模块320在重建轨迹150和飞行器意图数据130上应用聚类过程，该重建轨迹150和飞行器意图数据130由飞行器类型和航线(飞行计划上的出发-目的地)分类，以便选择被称为特定飞行器模型的训练数据集160和应用自主控制方法的飞行器的航线。

然后在训练数据集160上应用强化学习技术。在这种情况下，机载命令和控制自动化模块340可以对处于状态s∈S(S是所有可能状态的集合)中的飞行器建模，并且被配置为确定要由飞行器控制系统(例如FMS 240)执行的动作a∈A(A是所有可能动作的集合)。在强化学习期间，机载命令和控制自动化模块340还获得回报R，其是标量值并且被假设为观察到的状态s的函数。强化学习的目标是找到从飞行器状态到动作的映射，被称为策略π，该策略π在给定的状态s中拾取动作a，使累积的预期回报最大化。

因此，在强化学习阶段，机载命令和控制自动化模块340探索可能对策的空间，并且接收关于与采取的决策相关的结果的反馈。从该信息中，当使接收到的累积回报R最大化时，必须推导出最优策略。

AIDL格式中的组件可以被映射到强化学习参数，如下所示：

I.动作：是由飞行器FMS 240执行的命令，其产生对飞行器运动的影响。AIDL字母表包含35个可能的基本动作，当考虑到动作说明符时，其被增加。

II.状态：是由机载传感器的读数定义的。通常，多个变量可以定义飞行器状态，并且它们中的许多变量是高度相关的：

III.回报：一般地，最大回报将与和在目的地机场处飞行的成功着陆相匹配的状态相关。强化学习方法注重反向传播回报。

确定飞行器状态的变量集可以是飞行器上的若干不同传感器的结果(例如从GPS和IRS-惯性参考系统-二者获得的位置)，从而减少状态误差。与推断的飞行器意图喷射到系统中的一个相比，该误差小，并且因此在一个实施例中，马尔可夫决策过程(MDP)优选地被选择为框架以对问题进行建模。

MDP被定义为4个元素元组{S，A，R，T}，其中S是状态集，A是动作集，R是将每个状态/动作对与真实值映射的回报函数，以及T是马尔可夫状态转换函数T(s'|s，a)，其表示在执行动作a之后从状态s转换到s'的概率。目标是找到策略π(s)，该策略π(s)基于过去的状态和动作的历史确定要从一个状态中选择哪个动作。最优策略是使预期效用最大化的策略，其中可以使用动态规划(DP)来评估策略的效用。

由运动方程组成的问题包含六个自由度，这六个自由度必须由六个活动指令(即动作)来闭合(close)，自由度中的每个将其效果约束添加为闭合特定自由度的代数方程。基于AIDL定义，动作被分配给多个组，并且每个组仅一个指令可以是并行活动的。同时，推断方法是基于模式识别，什么导致了使用指令和动作的子集的飞行器意图，因此基线意图被参数化以匹配观察到的飞行器监视数据。

因此，因为正预测6个独立的指令，所以问题可以被分解为6个独立MDP，其中对于每个线程的动作空间和状态空间是不同的，并且在所有情况下是最初的空间和动作空间的缩减子集。执行对纵向线程1和2的附加的后处理，在同一组的两个指令同时是活动的情况下，不应用任何预测的指令，这在驾驶舱上不会是可执行的。因此，从强化学习的观点出发，可以假设AIDL线程是完全解耦的。

系统动力学和回报函数在状态空间上不完全已知。无模型强化学习不需要建立明确的转换模型和回报模型的表示。机载命令和控制自动化模块340必须从有限的经验推广到在训练数据160上尚未被访问的状态。局部近似方法的假设是，靠近在一起的状态可能具有相似的状态-动作值。

对于6个线程中的每个，将在存储器上存储有限数量的状态/动作值，这些值是使用最大似然估计从数据中获得的。例如，状态/动作值可以被存储在具有N列的表上，其中前面N-1列可以是由机载传感器捕获的值以及最后的AIDL指令执行的值。该表是求解6个独立MDP(直接映射)的结果而获得的。由于大多数变量是连续的，通常需要使用插值。然后，为了对系统进行训练，使用易于重新配置的桶(bucket)使所有连续的状态变量被离散化，以便能够基于实验调整最优桶的大小。对于若干飞行器状态的桶大小的简单示例是：

然后执行Q-学习算法(一种强化学习技术)，基于邻近状态估计状态-动作值函数(将传感器值映射到AIDL指令的表)。替代性地，可以采用其他技术，诸如SARSA(状态-动作-回报-状态-动作)代替Q-学习。求解MDP完成训练步骤100，获得映射函数180。

一旦训练步骤100被完成，在飞行阶段期间的实时控制步骤200开始。基于机载传感器数据210，机载命令和控制自动化模块340能够从每个MDP解决方案(6个AIDL指令)中选择最优动作。该方法的一个重要能力是机载命令和控制自动化系统对传感器数据改变实时地作出反应。将训练阶段的结果存储在系统存储器上，因此在每一种情况下访问最优动作都非常快。

机载命令和控制自动化模块340的输出，包括AIDL指令的导航和制导命令230的集合。在飞行期间，机载命令和控制自动化模块340能够操作只在一个AIDL操作上结合6个最优动作并且执行该操作。

Claims

1.一种自主操作飞行器的方法，包含：

-飞行前训练步骤(100)，其包含：

检索对应于至少一种飞行器类型和至少一条航线的多次飞行的记录的监视数据(110)；

从所述记录的监视数据(110)推断(120)飞行器意图(130)；

使用推断的飞行器意图(130)计算(140)重建轨迹(150)；

选择训练数据集(160)，其包含飞行器意图(130)和对应于特定飞行器类型和航线的飞行的重建轨迹(150)；

在所述训练数据集(160)上应用机器学习算法(170)以获得飞行器状态和动作之间的映射函数(180)；以及

-在飞行器的飞行期间执行的实时控制步骤(200)，所述实时控制步骤(200)包含：

反复检索机载传感器数据(210)；

从所述机载传感器数据(210)获得实时飞行器状态(222)；

使用所述映射函数(180)确定与所述实时飞行器状态(222)相关的动作(224)；

在所述飞行器上执行所选的动作(224)。

2.根据权利要求1所述的方法，其中所述飞行器意图(130)用AIDL格式表示。

3.根据权利要求2所述的方法，其中所述动作(224)包含表示为AIDL指令的导航和制导命令(230)。

4.根据权利要求3所述的方法，其中所述映射函数(180)包含具有AIDL指令的表映射传感器值。

5.根据权利要求4所述的方法，其中确定动作(224)的步骤包含搜索映射表的传感器值，所述传感器值对应于检索到的机载传感器数据(210)，以及如果没有找到精确匹配，则使用插值过程来确定相关的AIDL指令。

6.根据任何前述权利要求所述的方法，其中所述记录的监视数据(110)包含以下内容中的至少一个：ADS-B数据、雷达跟踪数据、飞行快速存取记录器数据。

7.根据任何前述权利要求所述的方法，其中所述机器学习算法(170)是强化学习算法，其获得使与所述飞行器状态(222)相关的累积回报R最大化的策略π，所述飞行器状态(222)与在目的地机场处的飞行着陆相匹配。

8.根据权利要求7所述的方法，其中，所述强化学习算法包含求解六个独立的马尔可夫决策过程，用于预测六个独立的AIDL指令，其中每个AIDL线程的动作空间和状态空间是不同的。

9.一种自主操作飞行器的系统，包含：

-推断和轨迹重建模块(310)，其被配置为：

从对应于至少一种飞行器类型和至少一条航线的多次飞行的记录的监视数据(110)推断飞行器意图(130)；

使用推断的飞行器意图(130)计算(140)重建轨迹(150)；

-聚类模块(320)，其被配置为选择训练数据集(160)，该训练数据集包含飞行器意图(130)和对应于特定飞行器类型和航线的飞行的重建轨迹(150)；

-机器学习模块，其被配置为在所述训练数据集(160)上应用机器学习算法(170)，以获得飞行器状态和动作之间的映射函数(180)；

-机载命令和控制自动化模块(340)，其被配置为：

在飞行器的飞行期间反复检索机载传感器数据(210)；

从所述机载传感器数据(210)获得实时飞行器状态(222)；

使用所述映射函数(180)确定与所述实时飞行器状态(222)相关的动作(224)；以及

指示在所述飞行器上执行所选的动作(224)。

10.根据权利要求9所述的系统，其中所述飞行器意图(130)用AIDL格式表示，并且所述动作(224)包含表示为AIDL指令的导航和制导命令(230)。

11.根据权利要求10所述的系统，其中所述映射函数(180)包含具有AIDL指令的表映射传感器值；并且其中，所述机载命令和控制自动化模块(340)被配置为通过搜索映射表的传感器值来确定动作(224)，所述传感器值对应于检索到的机载传感器数据(210)，以及如果没有找到精确匹配，则使用插值以确定相关的AIDL指令。

12.根据权利要求9至11中任何一项所述的系统，其中所述机器学习模块是强化学习模块(330)，所述强化学习模块(330)被配置为获得使与所述飞行器状态(222)相关的累积回报R最大化的策略π，所述飞行器状态(222)与在目的地机场处的飞行着陆相匹配。

13.根据权利要求12所述的系统，其中所述强化学习模块(330)被配置为求解六个独立的马尔可夫决策过程，用于预测六个独立的AIDL指令，其中每个AIDL线程的动作空间和状态空间是不同的。

14.根据权利要求9至13中任何一项所述的系统，包含飞行器飞行管理系统(240)，其用于在所述飞行器上执行所选的动作(224)。

15.一种用于自主操作飞行器的计算机程序产品，包含至少一个计算机可读存储介质，所述计算机可读存储介质包含存储在其中的指令集，当由处理器执行时，所述指令集致使所述处理器执行根据权利要求1至8中任何一项所述的方法。