ES2943122T3

ES2943122T3 - Método y sistema para operar de forma autónoma una aeronave

Info

Publication number: ES2943122T3
Application number: ES17382412T
Authority: ES
Inventors: Pablo Costas
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2023-06-09
Anticipated expiration: 2037-06-29
Also published as: EP3422130A1; CN109213188A; BR102018012639A2; EP3422130B1; CN109213188B; CA3003363C; US10983533B2; JP2019059461A; JP7066546B2; EP3422130B8; CA3003363A1; US20190005828A1

Abstract

Un método y sistema para operar de forma autónoma una aeronave. El método comprende: - un paso de entrenamiento previo al vuelo (100) que comprende: recuperar datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta; inferir (120) la intención de la aeronave (130) a partir de los datos de vigilancia registrados (110); computar (140) trayectorias reconstruidas (150) usando la intención de la aeronave inferida (130); seleccionar un conjunto de datos de entrenamiento (160) que comprende la intención de la aeronave (130) y trayectorias reconstruidas (150) de vuelos correspondientes a un tipo de aeronave y una ruta en particular; aplicar un algoritmo de aprendizaje automático (170) en el conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados y acciones de la aeronave; y - un paso de control en tiempo real (200) ejecutado durante un vuelo de una aeronave, comprendiendo el paso de control en tiempo real (200): recuperar repetidamente datos del sensor a bordo (210); obtener estados de la aeronave en tiempo real (222) a partir de los datos del sensor a bordo (210); determinar acciones (224) asociadas a los estados de la aeronave en tiempo real (222) usando la función de mapeo (180); y ejecutar las acciones seleccionadas (224) en la aeronave. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método y sistema para operar de forma autónoma una aeronave

Campo de la invención

La presente divulgación está comprendida en el campo de la aviónica y se refiere a métodos y sistemas para operar de forma autónoma una aeronave.

Antecedentes técnicos

Las operaciones con un solo piloto (SPO, por sus siglas en inglés), es decir, volar un avión comercial con un solo piloto en la cabina, los aviones comerciales completamente automatizados y los vehículos aéreos no tripulados (UAV, por sus siglas en inglés), necesitan ser asistidos por herramientas avanzadas de automatización a bordo.

El costo de la tripulación y la disponibilidad de la tripulación son los principales impulsores comerciales típicos de una aerolínea. Las mejoras en estas áreas conducen a la reducción de costos y al aumento de los ingresos comerciales. Sin embargo, la operación de aeronaves comerciales, especialmente cargueras, de manera autónoma debe realizarse con seguridad.

Una parte crítica de cualquier sistema autónomo es el entrenamiento. Hasta cierto punto, los métodos de entrenamiento actuales incluyen el modelado basado en datos de la dinámica de vuelo, el control de vuelo y la planificación de trayectorias en aeronaves no tripuladas que aprenden a partir de los datos disponibles para vehículos pequeños.

Sin embargo, la disponibilidad de datos es un inconveniente importante de los actuales sistemas de entrenamiento de UAV basados en datos, y no existe una solución que aborde el problema de entrenar una herramienta de automatización a bordo basada en datos de vigilancia. Si bien existen investigaciones para modelos específicos de pequeños UAV entrenados con datos de un sensor particular o dirigidos solo a un tipo particular de aeronave y/u operación (como el vuelo dinámico autónomo de una aeronave planeadora divulgado en el documento "Reinforcement learning for autonomous dynamic soaring in shear winds", Corey Montella et al., 2014 IEEE/RSJ International Conference On Intelligent Robots and Systems, 14 de septiembre de 2014, páginas 3423-3428), ninguno de los métodos de entrenamiento actuales es genérico (es decir, no se puede generalizar ni implementar en cualquier vehículo no tripulado). Además, la gestión de la incertidumbre presente en los datos de entrenamiento no se tiene en cuenta en los sistemas de entrenamiento basados en datos actuales.

Por lo tanto, existe la necesidad de proporcionar un nuevo proceso para entrenar y operar un sistema de comando y control a bordo de una aeronave que supere los inconvenientes existentes.

Breve descripción de la invención

La presente divulgación se refiere a un método y un sistema para operar de forma autónoma una aeronave que ha sido entrenada para operar y volar de forma autónoma, eliminando toda la complejidad derivada del entrenamiento de vehículos autónomos al explotar los datos registrados de vigilancia para instruir las acciones óptimas a tomar como respuesta a datos de sensor a bordo.

Inferir los comandos de navegación y guía a partir de los datos históricos de vigilancia de las aeronaves comerciales y desarrollar un sistema capaz de aplicar estos con base en las lecturas de los sensores a bordo es un nuevo enfoque para los vehículos autónomos. Los datos de vigilancia se pueden obtener fácilmente, por ejemplo, de la infraestructura de gestión de información amplia del sistema (SWIM, por sus siglas en inglés) de la FAA o de proveedores de seguimiento de vuelos globales. Los datos de vigilancia pueden incluir, entre otros datos, seguimientos de radar y/o ADS.

El método propuesto permite el comando y control autónomo personalizado de aeronaves de acuerdo con el desempeño y las capacidades reales de la aeronave mediante un proceso de aprendizaje que aprovecha los datos de vuelo registrados. Las únicas entradas necesarias para el entrenamiento son secuencias que evolucionan en el tiempo de posiciones históricas de aeronaves obtenidas de datos de radar o datos ADS, como ADS-B o ADS-C. La herramienta de automatización a bordo recibe instrucciones sobre las acciones óptimas a realizar para comandar la aeronave en nombre de un ser humano. Estas acciones se expresan en formato de lenguaje de descripción de intenciones de aeronaves (AIDL, por sus siglas en inglés), como se describe, por ejemplo, en Lopez-Leones, Javier, et al., "The aircraft intent description language: a key enabler for air-ground synchronization in trajectory-based operations". , 2007 IEEE/AIAA 26a Conferencia de Sistemas de Aviónica Digital; y en Vilaplana, Miguel A., et al. "Towards a formal language for the common description of aircraft intent." 24° Congreso de Sistemas de Aviónica Digital. Vol. 1. IEEE, 2005.

De acuerdo con un aspecto de la presente divulgación, se proporciona un método para operar de forma autónoma una aeronave como se define en la reivindicación 1.

Según una realización, los comandos de navegación y guía se expresan como instrucciones AIDL. La función de mapeo/asignación puede comprender una tabla de mapeo de valores de sensores con instrucciones AIDL. El paso de determinar acciones puede comprender buscar en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados y, si no se encuentra una coincidencia exacta, usar un proceso de interpolación para determinar las instrucciones AIDL asociadas.

En una realización, el algoritmo de aprendizaje automático es un algoritmo de aprendizaje por refuerzo que obtiene una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave que coincide con el aterrizaje del vuelo en un aeropuerto de destino. El algoritmo de aprendizaje por refuerzo puede comprender la resolución de seis procesos de decisión de Markov independientes para predecir seis instrucciones AlDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso/hilo (“thread”) AIDL.

De acuerdo con otro aspecto de la presente descripción, se proporciona un sistema como se define en la reivindicación 8.

En una realización, el módulo de automatización de comando y control a bordo está configurado para determinar acciones mediante la búsqueda en una tabla de mapeo (mapeo de valores de sensor con instrucciones AIDL) para valores de sensor correspondientes a los datos de sensor a bordo recuperados y, si no se encuentra una coincidencia exacta, usar interpolación para determinar las instrucciones AIDL asociadas.

El módulo de aprendizaje automático puede ser un módulo de aprendizaje por refuerzo configurado para obtener una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave que coincide con el aterrizaje del vuelo en un aeropuerto de destino. En una realización, el módulo de aprendizaje por refuerzo está configurado para resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.

El sistema puede comprender un Sistema de Gestión de Vuelo de la aeronave para ejecutar las acciones determinadas sobre la aeronave.

De acuerdo con otro aspecto adicional de la presente invención, se proporciona un producto de programa de ordenador para operar de manera autónoma una aeronave, que comprende al menos un medio de almacenamiento legible por ordenador que comprende un conjunto de instrucciones almacenadas en el mismo que, cuando es ejecutado por un procesador, hace que el procesador realice los pasos del método.

El presente método se puede utilizar para técnicas de navegación de vehículos autónomos de aeronaves comerciales y UAV, y es especialmente valioso ya que se puede aplicar a cualquier aeronave comercial independientemente del tipo de aeronave, simplemente cambiando el conjunto de datos de aprendizaje. Los conjuntos de datos de entrenamiento se pueden obtener de múltiples fuentes, como proveedores de ADS-B, la Administración Federal de Aviación u organizaciones equivalentes en todo el mundo y aerolíneas (por ejemplo, Grabador de Acceso Rápido, QAR, por sus siglas de inglés).

Las características, funciones y ventajas que se han discutido se pueden lograr de forma independiente en diversas realizaciones o se pueden combinar en otras realizaciones, más detalles de los cuales se pueden ver con referencia a la siguiente descripción y dibujos.

Breve descripción de los dibujos

A continuación, se describen muy brevemente una serie de dibujos que ayudan a comprender mejor la invención y que se relacionan expresamente con una realización de dicha invención, presentada como ejemplo no limitativo de la misma. La Figura 1 representa un diagrama esquemático de un paso de entrenamiento previo al vuelo.

La Figura 2 muestra un diagrama de un paso de control en tiempo real ejecutado a bordo durante el vuelo.

La Figura 3 representa un diagrama de bloques que describe una realización del método de operación autónoma de una aeronave.

Descripción detallada

La presente descripción se refiere a un método que produce comandos de guía como salida con base en las lecturas actuales del sensor a bordo para operaciones autónomas. Un sistema de automatización de comando y control a bordo se entrena de antemano utilizando datos de vigilancia históricos registrados.

La invención implementa un proceso de aprendizaje automático bajo incertidumbre utilizando métodos de aprendizaje por refuerzo (como el que se describe en Richard S. Sutton y Andrew G Barto, "Reinforcement Learning: An Introduction", MIT Press, Cambridge, MA) aplicado a una descripción de la intención de la aeronave tal como se define en el formato AIDL (lenguaje de descripción de la intención de la aeronave).

El método de operación autónoma de una aeronave comprende un paso de entrenamiento previo al vuelo y un paso de control en tiempo real que se ejecutan durante el vuelo de una aeronave que cubre una ruta determinada. La Figura 1 representa una vista general de un paso 100 de entrenamiento previo al vuelo, en el que primero se recuperan los datos 110 de vigilancia registrados de una pluralidad de vuelos, por ejemplo, accediendo a una base de datos que contiene múltiples datos ADS-B y/o datos de seguimientos de radar. Para cada vuelo, los datos de vigilancia 110 incluyen al menos cambios de posición de la aeronave (longitud A, latitud $, altitud h) a lo largo del tiempo (t).

Luego, se aplica un paso de inferencia 120 sobre los datos 110 de vigilancia registrados para obtener la intención de aeronave inferida 130 expresada en formato AIDL. Usando la intención de aeronave inferida 130, las trayectorias reconstruidas 150 se calculan en un paso de cálculo de trayectoria 140. Se aplica un algoritmo de aprendizaje automático 170 en un conjunto de datos de entrenamiento 160 que comprende la intención de la aeronave 130 y las trayectorias reconstruidas 150 correspondientes al tipo de aeronave y la ruta de interés (los datos de vigilancia registrados 110 pueden comprender datos de diferentes rutas y tipos de aeronaves que no son relevantes para el avión en particular). El resultado del algoritmo de aprendizaje automático 170 es una función de mapeo 180 que relaciona los estados de la aeronave con las acciones, que se explicarán más adelante en detalle.

En la Figura 2 un diagrama representa el paso de control en tiempo real 200 ejecutado a bordo durante el vuelo. El paso de entrenamiento 100 debe haber sido terminado previamente. Los datos de sensor a bordo 210 (como la posición 211, la altitud 212, la velocidad 213, el rumbo 214, la cantidad de combustible 215, la hora 216 u otra información del sensor 217) de los sensores instalados a bordo de la aeronave se capturan repetidamente en un proceso de automatización de comando y control a bordo 220. Usando los datos de sensor a bordo recuperados 210, el proceso de comando y control a bordo 220 obtiene los estados de la aeronave en tiempo real 222 y aplica la función de mapeo 180 previamente determinada en el paso de entrenamiento previo al vuelo 100 para determinar las acciones 224 asociadas a los estados de la aeronave en tiempo real 222. La función de mapeo 180 debe entenderse en un sentido amplio como un proceso, relación o correlación de mapeo que permite determinar acciones 224 para estados de aeronave dados 222. En una realización, el proceso de mapeo comprende una búsqueda en una tabla de mapeo que se puede buscar por valores de sensor (como posición, altitud, velocidad, rumbo, combustible, tiempo y otros) que devuelve seis instrucciones AIDL (una por subproceso AIDL) por búsqueda. Cada fila en la tabla de mapeo es un vector de estado-acción, donde los estados 222 son los valores de sensor y la acción 224 es la instrucción AIDL asociada al estado. La tabla de mapeo no incluye necesariamente todos los mapeos posibles entre los datos de sensor 210 y las instrucciones AIDL para ejecutar instantáneamente; en estos casos será necesaria la interpolación (cualquier método de interpolación conocido). La salida del proceso de comando y control a bordo 220 comprende un conjunto de comandos de navegación y guía 230, correspondientes a las acciones 224, que ejecuta el sistema de gestión de vuelo de la aeronave, FMS 240. En una realización, los comandos de navegación y guía 230 se expresan como instrucciones AIDL.

Un diagrama de bloques que describe una realización de un sistema para operar de forma autónoma un avión 300 se representa en la Figura 3. Según el diagrama, un módulo de inferencia y reconstrucción de trayectorias 310 recibe como entrada datos de vigilancia 110 para el dominio de la aviación de una o más fuentes, tales como RADAR, ADS (ADS-C/ADS-B), QAR.

Se aplican técnicas de inferencia y reconstrucción de trayectorias a los datos de vigilancia registrados 110. Se pueden aplicar diferentes técnicas conocidas de inferencia y reconstrucción de trayectorias; por ejemplo, las descritas en los documentos de patente US8977484-B1, US9366538-B2 y EP3109805-A1.

Los algoritmos de inferencia se basan en la suposición de que el movimiento de la aeronave se puede representar como un modelo de masa puntual que hace posible calcular la intención de la aeronave 130 que mejor describe la trayectoria real registrada en los datos de vigilancia 110. Utilizando los datos de vigilancia registrados 110 y vinculándolos con los pronósticos meteorológicos que representan las condiciones atmosféricas sobre la ruta planificada el día de la operación, los algoritmos de inferencia permiten generar una intención de aeronave 130.

El método también comprende analizar los datos de vigilancia registrados 110 y determinar el tipo de aeronave y calcular los datos de desempeño de la aeronave relacionados con ese tipo de aeronave. Por ejemplo, las trazas de radar u otros datos de radar/ADS se pueden utilizar para identificar el distintivo de llamada o el número de cola de cada aeronave, que se pueden comparar con los registros para determinar el tipo de aeronave.

Incluso teniendo en cuenta los mensajes ADS-B, que contienen información más amplia que los datos de posición típicos incluidos en las pistas de radar (latitud, longitud y altitud a lo largo del tiempo), la disponibilidad de información precisa sobre la velocidad del aire y la velocidad respecto al suelo es casi ineficaz, mientras que la masa de la aeronave, que es la variable de estado clave para calcular otras variables de estado cinético relacionadas, no está disponible.

Sin embargo, haciendo uso de la intención de aeronave inferida 130 generada a partir de los datos de vigilancia registrados 110, es posible iniciar una inferencia de masa de aeronave y un proceso de reconstrucción de trayectoria que poblará el vector de estado agregando tiempos (mayor granularidad) y variables de estado (enriquecimiento de vector de estado) no incluidas en la representación original de la trayectoria basada en la vigilancia.

Por lo tanto, el resultado de la etapa de inferencia y reconstrucción de trayectoria aplicada a los datos de vuelo registrados de un vuelo dado incluye la instancia de intención de aeronave 130 y la trayectoria reconstruida 150 que coincide con los datos de vigilancia sin procesar originales 110 correspondientes a ese vuelo.

Ambos conjuntos de datos (130, 150) se utilizan como entradas para un módulo de aprendizaje por refuerzo 330 que implementa un algoritmo de aprendizaje automático 170 (en particular, un algoritmo de aprendizaje por refuerzo). Antes de aplicar el aprendizaje por refuerzo, un módulo de agrupamiento (“clustering”) 320 aplica un proceso de agrupamiento en las trayectorias reconstruidas 150 y los datos de intención de la aeronave 130, que se clasifican por tipo de aeronave y ruta (destino de salida en el plan de vuelo) para seleccionar un conjunto de datos de entrenamiento 160 referidos al modelo particular de aeronave y la ruta de la aeronave a la que se aplica el método de control autónomo.

Luego se aplican técnicas de aprendizaje por refuerzo en el conjunto de datos de entrenamiento 160. En tal escenario, un módulo de automatización de comando y control a bordo 340 puede modelar que la aeronave está en un estado s E S (S es el conjunto de todos los estados posibles) y se configura para determinar acciones a E A (A es el conjunto de todas las acciones posibles) a ejecutar por el sistema de control de la aeronave (por ejemplo, el FMS 240). Durante el aprendizaje por refuerzo, el módulo de automatización de comando y control integrado 340 también obtiene una recompensa R, que es un valor escalar y se supone que es una función del estado s observado. El objetivo del aprendizaje por refuerzo es encontrar un mapeo de los estados de la aeronave a las acciones, llamado política n, que selecciona las acciones a en un estado s dado, maximizando la recompensa acumulada esperada.

Entonces, en la etapa de aprendizaje por refuerzo, un módulo de automatización de comando y control integrado 340 explora el espacio de posibles estrategias y recibe retroalimentación sobre el resultado de la decisión tomada. De esta información se debe deducir una política óptima a la hora de maximizar la recompensa acumulada R recibida.

Los componentes en formato AIDL se pueden asignar a parámetros de aprendizaje por refuerzo de la siguiente manera: I. Acción: Es un comando ejecutado por la aeronave FMS 240 que produce un efecto en el movimiento de la aeronave. El alfabeto AIDL contiene 35 acciones básicas posibles que se incrementan cuando se consideran especificadores de acción. II. Estado: Se define por las lecturas de los sensores a bordo. En general, múltiples variables pueden definir el estado de la aeronave, y muchas de ellas están altamente correlacionadas:

A longitud Longitud del centro de gravedad

_$latitud Latitud geodésica del centro de gravedad

d distancia Distancia horizontal total

Hp altitud Altitud de presión geopotencial

Vcas velocidad Velocidad aerodinámica calibrada

M velocidad Número de Mach

t tiempo Tiempo total transcurrido

XTAS Orientación (“bearing”) Ángulo de viraje aerodinámico

m masa Masa de la aeronave

III. Recompensa: Con carácter general, la recompensa máxima irá asociada al estado que coincida con el aterrizaje exitoso del vuelo en el aeropuerto de destino. El método de aprendizaje por refuerzo se ocupa de la retropropagación de la recompensa.

El conjunto de variables que determina el estado de la aeronave puede ser el resultado de varios sensores diferentes en la aeronave (por ejemplo, la posición se obtiene tanto del GPS como del IRS, sistema de referencia inercial, por sus siglas en inglés), reduciendo así el error de estado. Ese error es pequeño en comparación con el que la intención de la aeronave inferida inyecta en el sistema, y por esa razón, en una realización, el proceso de decisión de Markov (MDP) se selecciona preferiblemente como marco de trabajo para modelar el problema.

Un MDP se define como una tupla de 4 elementos {S,A,R,T} donde S es un conjunto de estados, A es un conjunto de acciones, R es la función de recompensa que mapea cada par estado/acción con un valor real y T es la función markoviana de transición de estado T(s'|s,a) que representa la probabilidad de transición del estado s a s' después de ejecutar la acción a. El objetivo es encontrar una política n(s) que determine qué acción seleccionar a partir de un estado con base en el historial pasado de estados y acciones. Una política óptima es aquella que maximiza la utilidad esperada, donde la utilidad de una política se puede evaluar utilizando Programación Dinámica (D^p, por sus siglas en inglés).

El problema compuesto por las ecuaciones de movimiento contiene seis grados de libertad que deben ser cerrados por las seis instrucciones activas (es decir, acciones), cada una de ellas agregando su restricción de efecto como una ecuación algebraica que cierra un grado de libertad específico. Según la definición de AIDL, las acciones se asignan a grupos y solo una instrucción por grupo puede estar activa en paralelo. Al mismo tiempo, los métodos de inferencia se basan en el reconocimiento de patrones, lo que conduce a una intención de aeronave que utiliza un subconjunto de instrucciones y acciones, por lo que las intenciones de referencia se parametrizan para que coincidan con los datos de vigilancia de aeronaves observados.

Por lo tanto, el problema se puede descomponer en 6 MDP independientes porque se están prediciendo 6 instrucciones independientes, donde los espacios de acción y estado son diferentes para cada subproceso, y en todos los casos son un subconjunto reducido de espacio original y espacios de acción. Se ejecuta un posprocesamiento adicional en los subprocesos longitudinales 1 y 2, sin aplicar ninguna de las instrucciones predichas en caso de que dos instrucciones del mismo grupo estén activas al mismo tiempo, que no serían ejecutables en la cabina. Entonces, desde el punto de vista del aprendizaje por refuerzo, se puede suponer que los hilos AIDL están totalmente desacoplados.

La dinámica del sistema y la función de recompensa no se conocen exactamente en el espacio de estados. El aprendizaje por refuerzo sin modelo no requiere la construcción de representaciones explícitas de los modelos de transición y recompensa. El módulo de automatización de comando y control a bordo 340 debe generalizar a partir de la experiencia limitada a estados que aún no se han visitado en los datos de entrenamiento 160. La suposición en los métodos de aproximación local es que es probable que los estados que están cerca entre sí tengan un valor de acción de estado similar.

Para cada uno de los 6 subprocesos, se almacenará en la memoria un número limitado de valores de estado/acción, obtenidos de los datos utilizando la estimación de máxima verosimilitud. Por ejemplo, los valores de estado/acción pueden almacenarse en una tabla que tiene N columnas, donde las primeras N-1 columnas pueden ser valores capturados por los sensores integrados y la última instrucción AIDL a ejecutar. La tabla se obtiene como resultado de resolver los 6 MDP independientes (un mapeo directo). Como la mayoría de las variables son continuas, normalmente es necesario utilizar la interpolación. Luego, para entrenar el sistema, todas las variables de estado continuas se discretizan mediante cubos que se pueden reconfigurar fácilmente para poder ajustar el tamaño óptimo del cubo en función de los experimentos. Un ejemplo simple de tamaños de cubos para varios estados de aeronave:

Tamaño del cubo Rango

A 0,1 grados Depende de que se utilicen en el agrupamiento

0,1 grados Depende de que se utilicen en el agrupamiento

d 8,045 km (5 millas) Depende de los pares de ciudades seleccionados en el agrupamiento

Hp 152,4 m (500 pies) -500-53000

Vcas 5kt 0-500

Luego se ejecuta el algoritmo Q-learning, una técnica de aprendizaje por refuerzo, que estima la función de valor de acción de estado (tabla que asigna los valores de sensor a una instrucción AIDL) con base en los estados vecinos. Alternativamente, se pueden emplear otras técnicas como SARSA (Estado-Acción-Recompensa-Estado-Acción) en lugar de Q-Learning. La resolución de los MDP completa el paso de entrenamiento 100, obteniendo la función de mapeo 180.

Una vez que se completa el paso de entrenamiento 100, comienza el paso de control en tiempo real 200 durante la fase de vuelo. Basándose en los datos de sensor integrado 210, el módulo de automatización de comando y control integrado 340 es capaz de seleccionar la acción óptima de cada solución MDP (6 instrucciones AIDL). Una capacidad importante del método es que el sistema de automatización de comando y control a bordo reacciona en tiempo real a los cambios en los datos de sensor. Los resultados de la fase de entrenamiento se almacenan en la memoria del sistema, por lo que acceder a la acción óptima en cada situación es extremadamente rápido.

La salida del módulo de automatización de comando y control a bordo 340, un conjunto de comandos de navegación y guía 230 que incluyen instrucciones AIDL. Durante el vuelo, el módulo de automatización de comando y control a bordo 340 puede operar simplemente combinando las 6 acciones óptimas en una operación AIDL y ejecutando esa operación.

Claims

REIVINDICACIONES

1. Un método de operación autónoma de una aeronave, que comprende:

- un paso de entrenamiento previo al vuelo (100) que comprende aplicar un algoritmo de aprendizaje automático (170) sobre un conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados de la aeronave y acciones que comprenden comandos de navegación y guía (230); y

- un paso de control en tiempo real (200) ejecutado durante un vuelo de una aeronave, comprendiendo el paso de control en tiempo real (200):

recuperar repetidamente datos de sensor a bordo (210);

obtener estados de la aeronave en tiempo real (222) a partir de los datos de sensor a bordo (210);

determinar acciones (224) asociadas a los estados de la aeronave en tiempo real (222) usando la función de mapeo (180); y

operar de manera autónoma la aeronave ejecutando las acciones determinadas (224) en la aeronave;

caracterizado por que el paso de entrenamiento previo al vuelo (100) comprende:

recuperar datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta, donde los datos de vigilancia registrados (110) incluyen al menos cambios de una posición de aeronave que comprende una latitud ($), longitud (A) y altitud (h) en el tiempo (t) para cada vuelo;

inferir (120) la intención de la aeronave (130) expresada en formato AIDL a partir de los datos de vigilancia registrados (110) vinculados a las condiciones atmosféricas sobre la ruta planificada el día de la operación;

calcular (140) trayectorias reconstruidas (150) usando la intención de la aeronave inferida (130); y

seleccionar, como el conjunto de datos de entrenamiento (160) para el algoritmo de aprendizaje automático (170), un conjunto de datos que comprende la intención de la aeronave inferida (130) y las trayectorias reconstruidas calculadas (150) de vuelos correspondientes a un tipo de aeronave y ruta en particular.

2. El método de acuerdo con la reivindicación 1, donde los comandos de navegación y guía (230) se expresan como instrucciones AIDL.

3. El método de acuerdo con la reivindicación 2, donde la función de mapeo (180) comprende una tabla que mapea valores de sensor con instrucciones AIDL.

4. El método de acuerdo con la reivindicación 3, donde el paso de determinar acciones (224) comprende buscar en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados (210) y, si no se encuentra una coincidencia exacta, usar un proceso de interpolación para determinar las Instrucciones AIDL asociadas.

5. El método de acuerdo con cualquiera de las reivindicaciones anteriores, donde los datos de vigilancia registrados (110) comprenden al menos uno de los siguientes: datos ADS-B, datos de seguimiento de radar, datos de registro de acceso rápido de vuelo.

6. El método de acuerdo con cualquier reivindicación anterior, donde el algoritmo de aprendizaje automático (170) es un algoritmo de aprendizaje por refuerzo que obtiene una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave (222) que coincide con el aterrizaje del vuelo en un aeropuerto de destino.

7. El método de acuerdo con la reivindicación 6, donde el algoritmo de aprendizaje por refuerzo comprende resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.

8. Un sistema para operar de forma autónoma una aeronave, que comprende:

- un módulo de aprendizaje automático configurado para aplicar un algoritmo de aprendizaje automático (170) en un conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados de aeronave y acciones que comprenden comandos de navegación y guía (230);

- un módulo de automatización de comando y control integrado (340) configurado para:

recuperar repetidamente datos de sensores a bordo (210) durante un vuelo de una aeronave;

obtener estados de la aeronave en tiempo real (222) a partir de los datos de sensores a bordo (210);

operar de forma autónoma la aeronave instruyendo la ejecución de las acciones determinadas (224) en la aeronave,

caracterizado por que el sistema comprende, además:

- un módulo de inferencia y reconstrucción de trayectorias (310) configurado para:

inferir la intención de la aeronave (130) a partir de datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta, donde los datos de vigilancia registrados (110) están vinculados a las condiciones atmosféricas sobre la ruta planificada en el día de operación, donde los datos de vigilancia registrados (110) incluyen al menos cambios de posición de una aeronave que comprenden una latitud ($), longitud (A) y altitud (h) a lo largo del tiempo (t) para cada vuelo; y

calcular (140) trayectorias reconstruidas (150) utilizando la intención de aeronave inferida (130) expresada en formato AIDL;

- un módulo de agrupamiento (320) configurado para seleccionar, como conjunto de datos de entrenamiento (160) para el algoritmo de aprendizaje automático (170), un conjunto de datos que comprende la intención de la aeronave inferida (130) y las trayectorias reconstruidas calculadas (150) de vuelos correspondientes a un tipo de aeronave y ruta en particular.

9. El sistema de acuerdo con la reivindicación 8, donde los comandos de navegación y guía (230) se expresan como instrucciones AIDL.

10. El sistema de acuerdo con la reivindicación 9, donde la función de mapeo (180) comprende una tabla que mapea valores de sensor con instrucciones AIDL; y donde el módulo de automatización de comando y control a bordo (340) está configurado para determinar acciones (224) buscando en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados (210) y, si no se encuentra una coincidencia exacta, usar la interpolación para determinar las instrucciones AIDL asociadas.

11. Un sistema de acuerdo con cualquiera de las reivindicaciones 8 a 10, donde el módulo de aprendizaje automático es un módulo de aprendizaje por refuerzo (330) configurado para obtener una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave (222) que coincide con el aterrizaje del vuelo en un aeropuerto de destino.

12. El sistema de acuerdo con la reivindicación 11, donde el módulo de aprendizaje por refuerzo (330) está configurado para resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.

13. El sistema de acuerdo con cualquiera de las reivindicaciones 8 a 12, que comprende un Sistema de Gestión de Vuelo de aeronave (240) para ejecutar las acciones determinadas (224) en la aeronave.

14. Un producto de programa de ordenador para operar de forma autónoma una aeronave, que comprende al menos un medio de almacenamiento legible por ordenador que comprende un conjunto de instrucciones almacenadas en el mismo que, cuando las ejecuta un procesador, hace que el procesador realice el método de acuerdo con cualquiera de las reivindicaciones 1 a 7.