ES2943122T3 - Método y sistema para operar de forma autónoma una aeronave - Google Patents

Método y sistema para operar de forma autónoma una aeronave Download PDF

Info

Publication number
ES2943122T3
ES2943122T3 ES17382412T ES17382412T ES2943122T3 ES 2943122 T3 ES2943122 T3 ES 2943122T3 ES 17382412 T ES17382412 T ES 17382412T ES 17382412 T ES17382412 T ES 17382412T ES 2943122 T3 ES2943122 T3 ES 2943122T3
Authority
ES
Spain
Prior art keywords
aircraft
data
flight
aidl
actions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17382412T
Other languages
English (en)
Inventor
Pablo Costas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing Co
Original Assignee
Boeing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boeing Co filed Critical Boeing Co
Application granted granted Critical
Publication of ES2943122T3 publication Critical patent/ES2943122T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/003Flight plan management
    • G08G5/0034Assembly of a flight plan
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/0073Surveillance aids
    • G08G5/0078Surveillance aids for monitoring traffic from the aircraft
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/04Anti-collision systems
    • G08G5/045Navigation or guidance aids, e.g. determination of anti-collision manoeuvers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • B64U2201/10UAVs characterised by their flight controls autonomous, i.e. by navigating independently from ground or air stations, e.g. by using inertial navigation systems [INS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)
  • Feedback Control In General (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Un método y sistema para operar de forma autónoma una aeronave. El método comprende: - un paso de entrenamiento previo al vuelo (100) que comprende: recuperar datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta; inferir (120) la intención de la aeronave (130) a partir de los datos de vigilancia registrados (110); computar (140) trayectorias reconstruidas (150) usando la intención de la aeronave inferida (130); seleccionar un conjunto de datos de entrenamiento (160) que comprende la intención de la aeronave (130) y trayectorias reconstruidas (150) de vuelos correspondientes a un tipo de aeronave y una ruta en particular; aplicar un algoritmo de aprendizaje automático (170) en el conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados y acciones de la aeronave; y - un paso de control en tiempo real (200) ejecutado durante un vuelo de una aeronave, comprendiendo el paso de control en tiempo real (200): recuperar repetidamente datos del sensor a bordo (210); obtener estados de la aeronave en tiempo real (222) a partir de los datos del sensor a bordo (210); determinar acciones (224) asociadas a los estados de la aeronave en tiempo real (222) usando la función de mapeo (180); y ejecutar las acciones seleccionadas (224) en la aeronave. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y sistema para operar de forma autónoma una aeronave
Campo de la invención
La presente divulgación está comprendida en el campo de la aviónica y se refiere a métodos y sistemas para operar de forma autónoma una aeronave.
Antecedentes técnicos
Las operaciones con un solo piloto (SPO, por sus siglas en inglés), es decir, volar un avión comercial con un solo piloto en la cabina, los aviones comerciales completamente automatizados y los vehículos aéreos no tripulados (UAV, por sus siglas en inglés), necesitan ser asistidos por herramientas avanzadas de automatización a bordo.
El costo de la tripulación y la disponibilidad de la tripulación son los principales impulsores comerciales típicos de una aerolínea. Las mejoras en estas áreas conducen a la reducción de costos y al aumento de los ingresos comerciales. Sin embargo, la operación de aeronaves comerciales, especialmente cargueras, de manera autónoma debe realizarse con seguridad.
Una parte crítica de cualquier sistema autónomo es el entrenamiento. Hasta cierto punto, los métodos de entrenamiento actuales incluyen el modelado basado en datos de la dinámica de vuelo, el control de vuelo y la planificación de trayectorias en aeronaves no tripuladas que aprenden a partir de los datos disponibles para vehículos pequeños.
Sin embargo, la disponibilidad de datos es un inconveniente importante de los actuales sistemas de entrenamiento de UAV basados en datos, y no existe una solución que aborde el problema de entrenar una herramienta de automatización a bordo basada en datos de vigilancia. Si bien existen investigaciones para modelos específicos de pequeños UAV entrenados con datos de un sensor particular o dirigidos solo a un tipo particular de aeronave y/u operación (como el vuelo dinámico autónomo de una aeronave planeadora divulgado en el documento "Reinforcement learning for autonomous dynamic soaring in shear winds", Corey Montella et al., 2014 IEEE/RSJ International Conference On Intelligent Robots and Systems, 14 de septiembre de 2014, páginas 3423-3428), ninguno de los métodos de entrenamiento actuales es genérico (es decir, no se puede generalizar ni implementar en cualquier vehículo no tripulado). Además, la gestión de la incertidumbre presente en los datos de entrenamiento no se tiene en cuenta en los sistemas de entrenamiento basados en datos actuales.
Por lo tanto, existe la necesidad de proporcionar un nuevo proceso para entrenar y operar un sistema de comando y control a bordo de una aeronave que supere los inconvenientes existentes.
Breve descripción de la invención
La presente divulgación se refiere a un método y un sistema para operar de forma autónoma una aeronave que ha sido entrenada para operar y volar de forma autónoma, eliminando toda la complejidad derivada del entrenamiento de vehículos autónomos al explotar los datos registrados de vigilancia para instruir las acciones óptimas a tomar como respuesta a datos de sensor a bordo.
Inferir los comandos de navegación y guía a partir de los datos históricos de vigilancia de las aeronaves comerciales y desarrollar un sistema capaz de aplicar estos con base en las lecturas de los sensores a bordo es un nuevo enfoque para los vehículos autónomos. Los datos de vigilancia se pueden obtener fácilmente, por ejemplo, de la infraestructura de gestión de información amplia del sistema (SWIM, por sus siglas en inglés) de la FAA o de proveedores de seguimiento de vuelos globales. Los datos de vigilancia pueden incluir, entre otros datos, seguimientos de radar y/o ADS.
El método propuesto permite el comando y control autónomo personalizado de aeronaves de acuerdo con el desempeño y las capacidades reales de la aeronave mediante un proceso de aprendizaje que aprovecha los datos de vuelo registrados. Las únicas entradas necesarias para el entrenamiento son secuencias que evolucionan en el tiempo de posiciones históricas de aeronaves obtenidas de datos de radar o datos ADS, como ADS-B o ADS-C. La herramienta de automatización a bordo recibe instrucciones sobre las acciones óptimas a realizar para comandar la aeronave en nombre de un ser humano. Estas acciones se expresan en formato de lenguaje de descripción de intenciones de aeronaves (AIDL, por sus siglas en inglés), como se describe, por ejemplo, en Lopez-Leones, Javier, et al., "The aircraft intent description language: a key enabler for air-ground synchronization in trajectory-based operations". , 2007 IEEE/AIAA 26a Conferencia de Sistemas de Aviónica Digital; y en Vilaplana, Miguel A., et al. "Towards a formal language for the common description of aircraft intent." 24° Congreso de Sistemas de Aviónica Digital. Vol. 1. IEEE, 2005.
De acuerdo con un aspecto de la presente divulgación, se proporciona un método para operar de forma autónoma una aeronave como se define en la reivindicación 1.
Según una realización, los comandos de navegación y guía se expresan como instrucciones AIDL. La función de mapeo/asignación puede comprender una tabla de mapeo de valores de sensores con instrucciones AIDL. El paso de determinar acciones puede comprender buscar en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados y, si no se encuentra una coincidencia exacta, usar un proceso de interpolación para determinar las instrucciones AIDL asociadas.
En una realización, el algoritmo de aprendizaje automático es un algoritmo de aprendizaje por refuerzo que obtiene una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave que coincide con el aterrizaje del vuelo en un aeropuerto de destino. El algoritmo de aprendizaje por refuerzo puede comprender la resolución de seis procesos de decisión de Markov independientes para predecir seis instrucciones AlDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso/hilo (“thread”) AIDL.
De acuerdo con otro aspecto de la presente descripción, se proporciona un sistema como se define en la reivindicación 8.
En una realización, el módulo de automatización de comando y control a bordo está configurado para determinar acciones mediante la búsqueda en una tabla de mapeo (mapeo de valores de sensor con instrucciones AIDL) para valores de sensor correspondientes a los datos de sensor a bordo recuperados y, si no se encuentra una coincidencia exacta, usar interpolación para determinar las instrucciones AIDL asociadas.
El módulo de aprendizaje automático puede ser un módulo de aprendizaje por refuerzo configurado para obtener una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave que coincide con el aterrizaje del vuelo en un aeropuerto de destino. En una realización, el módulo de aprendizaje por refuerzo está configurado para resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.
El sistema puede comprender un Sistema de Gestión de Vuelo de la aeronave para ejecutar las acciones determinadas sobre la aeronave.
De acuerdo con otro aspecto adicional de la presente invención, se proporciona un producto de programa de ordenador para operar de manera autónoma una aeronave, que comprende al menos un medio de almacenamiento legible por ordenador que comprende un conjunto de instrucciones almacenadas en el mismo que, cuando es ejecutado por un procesador, hace que el procesador realice los pasos del método.
El presente método se puede utilizar para técnicas de navegación de vehículos autónomos de aeronaves comerciales y UAV, y es especialmente valioso ya que se puede aplicar a cualquier aeronave comercial independientemente del tipo de aeronave, simplemente cambiando el conjunto de datos de aprendizaje. Los conjuntos de datos de entrenamiento se pueden obtener de múltiples fuentes, como proveedores de ADS-B, la Administración Federal de Aviación u organizaciones equivalentes en todo el mundo y aerolíneas (por ejemplo, Grabador de Acceso Rápido, QAR, por sus siglas de inglés).
Las características, funciones y ventajas que se han discutido se pueden lograr de forma independiente en diversas realizaciones o se pueden combinar en otras realizaciones, más detalles de los cuales se pueden ver con referencia a la siguiente descripción y dibujos.
Breve descripción de los dibujos
A continuación, se describen muy brevemente una serie de dibujos que ayudan a comprender mejor la invención y que se relacionan expresamente con una realización de dicha invención, presentada como ejemplo no limitativo de la misma. La Figura 1 representa un diagrama esquemático de un paso de entrenamiento previo al vuelo.
La Figura 2 muestra un diagrama de un paso de control en tiempo real ejecutado a bordo durante el vuelo.
La Figura 3 representa un diagrama de bloques que describe una realización del método de operación autónoma de una aeronave.
Descripción detallada
La presente descripción se refiere a un método que produce comandos de guía como salida con base en las lecturas actuales del sensor a bordo para operaciones autónomas. Un sistema de automatización de comando y control a bordo se entrena de antemano utilizando datos de vigilancia históricos registrados.
La invención implementa un proceso de aprendizaje automático bajo incertidumbre utilizando métodos de aprendizaje por refuerzo (como el que se describe en Richard S. Sutton y Andrew G Barto, "Reinforcement Learning: An Introduction", MIT Press, Cambridge, MA) aplicado a una descripción de la intención de la aeronave tal como se define en el formato AIDL (lenguaje de descripción de la intención de la aeronave).
El método de operación autónoma de una aeronave comprende un paso de entrenamiento previo al vuelo y un paso de control en tiempo real que se ejecutan durante el vuelo de una aeronave que cubre una ruta determinada. La Figura 1 representa una vista general de un paso 100 de entrenamiento previo al vuelo, en el que primero se recuperan los datos 110 de vigilancia registrados de una pluralidad de vuelos, por ejemplo, accediendo a una base de datos que contiene múltiples datos ADS-B y/o datos de seguimientos de radar. Para cada vuelo, los datos de vigilancia 110 incluyen al menos cambios de posición de la aeronave (longitud A, latitud $, altitud h) a lo largo del tiempo (t).
Luego, se aplica un paso de inferencia 120 sobre los datos 110 de vigilancia registrados para obtener la intención de aeronave inferida 130 expresada en formato AIDL. Usando la intención de aeronave inferida 130, las trayectorias reconstruidas 150 se calculan en un paso de cálculo de trayectoria 140. Se aplica un algoritmo de aprendizaje automático 170 en un conjunto de datos de entrenamiento 160 que comprende la intención de la aeronave 130 y las trayectorias reconstruidas 150 correspondientes al tipo de aeronave y la ruta de interés (los datos de vigilancia registrados 110 pueden comprender datos de diferentes rutas y tipos de aeronaves que no son relevantes para el avión en particular). El resultado del algoritmo de aprendizaje automático 170 es una función de mapeo 180 que relaciona los estados de la aeronave con las acciones, que se explicarán más adelante en detalle.
En la Figura 2 un diagrama representa el paso de control en tiempo real 200 ejecutado a bordo durante el vuelo. El paso de entrenamiento 100 debe haber sido terminado previamente. Los datos de sensor a bordo 210 (como la posición 211, la altitud 212, la velocidad 213, el rumbo 214, la cantidad de combustible 215, la hora 216 u otra información del sensor 217) de los sensores instalados a bordo de la aeronave se capturan repetidamente en un proceso de automatización de comando y control a bordo 220. Usando los datos de sensor a bordo recuperados 210, el proceso de comando y control a bordo 220 obtiene los estados de la aeronave en tiempo real 222 y aplica la función de mapeo 180 previamente determinada en el paso de entrenamiento previo al vuelo 100 para determinar las acciones 224 asociadas a los estados de la aeronave en tiempo real 222. La función de mapeo 180 debe entenderse en un sentido amplio como un proceso, relación o correlación de mapeo que permite determinar acciones 224 para estados de aeronave dados 222. En una realización, el proceso de mapeo comprende una búsqueda en una tabla de mapeo que se puede buscar por valores de sensor (como posición, altitud, velocidad, rumbo, combustible, tiempo y otros) que devuelve seis instrucciones AIDL (una por subproceso AIDL) por búsqueda. Cada fila en la tabla de mapeo es un vector de estado-acción, donde los estados 222 son los valores de sensor y la acción 224 es la instrucción AIDL asociada al estado. La tabla de mapeo no incluye necesariamente todos los mapeos posibles entre los datos de sensor 210 y las instrucciones AIDL para ejecutar instantáneamente; en estos casos será necesaria la interpolación (cualquier método de interpolación conocido). La salida del proceso de comando y control a bordo 220 comprende un conjunto de comandos de navegación y guía 230, correspondientes a las acciones 224, que ejecuta el sistema de gestión de vuelo de la aeronave, FMS 240. En una realización, los comandos de navegación y guía 230 se expresan como instrucciones AIDL.
Un diagrama de bloques que describe una realización de un sistema para operar de forma autónoma un avión 300 se representa en la Figura 3. Según el diagrama, un módulo de inferencia y reconstrucción de trayectorias 310 recibe como entrada datos de vigilancia 110 para el dominio de la aviación de una o más fuentes, tales como RADAR, ADS (ADS-C/ADS-B), QAR.
Se aplican técnicas de inferencia y reconstrucción de trayectorias a los datos de vigilancia registrados 110. Se pueden aplicar diferentes técnicas conocidas de inferencia y reconstrucción de trayectorias; por ejemplo, las descritas en los documentos de patente US8977484-B1, US9366538-B2 y EP3109805-A1.
Los algoritmos de inferencia se basan en la suposición de que el movimiento de la aeronave se puede representar como un modelo de masa puntual que hace posible calcular la intención de la aeronave 130 que mejor describe la trayectoria real registrada en los datos de vigilancia 110. Utilizando los datos de vigilancia registrados 110 y vinculándolos con los pronósticos meteorológicos que representan las condiciones atmosféricas sobre la ruta planificada el día de la operación, los algoritmos de inferencia permiten generar una intención de aeronave 130.
El método también comprende analizar los datos de vigilancia registrados 110 y determinar el tipo de aeronave y calcular los datos de desempeño de la aeronave relacionados con ese tipo de aeronave. Por ejemplo, las trazas de radar u otros datos de radar/ADS se pueden utilizar para identificar el distintivo de llamada o el número de cola de cada aeronave, que se pueden comparar con los registros para determinar el tipo de aeronave.
Incluso teniendo en cuenta los mensajes ADS-B, que contienen información más amplia que los datos de posición típicos incluidos en las pistas de radar (latitud, longitud y altitud a lo largo del tiempo), la disponibilidad de información precisa sobre la velocidad del aire y la velocidad respecto al suelo es casi ineficaz, mientras que la masa de la aeronave, que es la variable de estado clave para calcular otras variables de estado cinético relacionadas, no está disponible.
Sin embargo, haciendo uso de la intención de aeronave inferida 130 generada a partir de los datos de vigilancia registrados 110, es posible iniciar una inferencia de masa de aeronave y un proceso de reconstrucción de trayectoria que poblará el vector de estado agregando tiempos (mayor granularidad) y variables de estado (enriquecimiento de vector de estado) no incluidas en la representación original de la trayectoria basada en la vigilancia.
Por lo tanto, el resultado de la etapa de inferencia y reconstrucción de trayectoria aplicada a los datos de vuelo registrados de un vuelo dado incluye la instancia de intención de aeronave 130 y la trayectoria reconstruida 150 que coincide con los datos de vigilancia sin procesar originales 110 correspondientes a ese vuelo.
Ambos conjuntos de datos (130, 150) se utilizan como entradas para un módulo de aprendizaje por refuerzo 330 que implementa un algoritmo de aprendizaje automático 170 (en particular, un algoritmo de aprendizaje por refuerzo). Antes de aplicar el aprendizaje por refuerzo, un módulo de agrupamiento (“clustering”) 320 aplica un proceso de agrupamiento en las trayectorias reconstruidas 150 y los datos de intención de la aeronave 130, que se clasifican por tipo de aeronave y ruta (destino de salida en el plan de vuelo) para seleccionar un conjunto de datos de entrenamiento 160 referidos al modelo particular de aeronave y la ruta de la aeronave a la que se aplica el método de control autónomo.
Luego se aplican técnicas de aprendizaje por refuerzo en el conjunto de datos de entrenamiento 160. En tal escenario, un módulo de automatización de comando y control a bordo 340 puede modelar que la aeronave está en un estado s E S (S es el conjunto de todos los estados posibles) y se configura para determinar acciones a E A (A es el conjunto de todas las acciones posibles) a ejecutar por el sistema de control de la aeronave (por ejemplo, el FMS 240). Durante el aprendizaje por refuerzo, el módulo de automatización de comando y control integrado 340 también obtiene una recompensa R, que es un valor escalar y se supone que es una función del estado s observado. El objetivo del aprendizaje por refuerzo es encontrar un mapeo de los estados de la aeronave a las acciones, llamado política n, que selecciona las acciones a en un estado s dado, maximizando la recompensa acumulada esperada.
Entonces, en la etapa de aprendizaje por refuerzo, un módulo de automatización de comando y control integrado 340 explora el espacio de posibles estrategias y recibe retroalimentación sobre el resultado de la decisión tomada. De esta información se debe deducir una política óptima a la hora de maximizar la recompensa acumulada R recibida.
Los componentes en formato AIDL se pueden asignar a parámetros de aprendizaje por refuerzo de la siguiente manera: I. Acción: Es un comando ejecutado por la aeronave FMS 240 que produce un efecto en el movimiento de la aeronave. El alfabeto AIDL contiene 35 acciones básicas posibles que se incrementan cuando se consideran especificadores de acción. II. Estado: Se define por las lecturas de los sensores a bordo. En general, múltiples variables pueden definir el estado de la aeronave, y muchas de ellas están altamente correlacionadas:
A longitud Longitud del centro de gravedad
$ latitud Latitud geodésica del centro de gravedad
d distancia Distancia horizontal total
Hp altitud Altitud de presión geopotencial
Vcas velocidad Velocidad aerodinámica calibrada
M velocidad Número de Mach
t tiempo Tiempo total transcurrido
XTAS Orientación (“bearing”) Ángulo de viraje aerodinámico
m masa Masa de la aeronave
III. Recompensa: Con carácter general, la recompensa máxima irá asociada al estado que coincida con el aterrizaje exitoso del vuelo en el aeropuerto de destino. El método de aprendizaje por refuerzo se ocupa de la retropropagación de la recompensa.
El conjunto de variables que determina el estado de la aeronave puede ser el resultado de varios sensores diferentes en la aeronave (por ejemplo, la posición se obtiene tanto del GPS como del IRS, sistema de referencia inercial, por sus siglas en inglés), reduciendo así el error de estado. Ese error es pequeño en comparación con el que la intención de la aeronave inferida inyecta en el sistema, y por esa razón, en una realización, el proceso de decisión de Markov (MDP) se selecciona preferiblemente como marco de trabajo para modelar el problema.
Un MDP se define como una tupla de 4 elementos {S,A,R,T} donde S es un conjunto de estados, A es un conjunto de acciones, R es la función de recompensa que mapea cada par estado/acción con un valor real y T es la función markoviana de transición de estado T(s'|s,a) que representa la probabilidad de transición del estado s a s' después de ejecutar la acción a. El objetivo es encontrar una política n(s) que determine qué acción seleccionar a partir de un estado con base en el historial pasado de estados y acciones. Una política óptima es aquella que maximiza la utilidad esperada, donde la utilidad de una política se puede evaluar utilizando Programación Dinámica (Dp, por sus siglas en inglés).
El problema compuesto por las ecuaciones de movimiento contiene seis grados de libertad que deben ser cerrados por las seis instrucciones activas (es decir, acciones), cada una de ellas agregando su restricción de efecto como una ecuación algebraica que cierra un grado de libertad específico. Según la definición de AIDL, las acciones se asignan a grupos y solo una instrucción por grupo puede estar activa en paralelo. Al mismo tiempo, los métodos de inferencia se basan en el reconocimiento de patrones, lo que conduce a una intención de aeronave que utiliza un subconjunto de instrucciones y acciones, por lo que las intenciones de referencia se parametrizan para que coincidan con los datos de vigilancia de aeronaves observados.
Por lo tanto, el problema se puede descomponer en 6 MDP independientes porque se están prediciendo 6 instrucciones independientes, donde los espacios de acción y estado son diferentes para cada subproceso, y en todos los casos son un subconjunto reducido de espacio original y espacios de acción. Se ejecuta un posprocesamiento adicional en los subprocesos longitudinales 1 y 2, sin aplicar ninguna de las instrucciones predichas en caso de que dos instrucciones del mismo grupo estén activas al mismo tiempo, que no serían ejecutables en la cabina. Entonces, desde el punto de vista del aprendizaje por refuerzo, se puede suponer que los hilos AIDL están totalmente desacoplados.
La dinámica del sistema y la función de recompensa no se conocen exactamente en el espacio de estados. El aprendizaje por refuerzo sin modelo no requiere la construcción de representaciones explícitas de los modelos de transición y recompensa. El módulo de automatización de comando y control a bordo 340 debe generalizar a partir de la experiencia limitada a estados que aún no se han visitado en los datos de entrenamiento 160. La suposición en los métodos de aproximación local es que es probable que los estados que están cerca entre sí tengan un valor de acción de estado similar.
Para cada uno de los 6 subprocesos, se almacenará en la memoria un número limitado de valores de estado/acción, obtenidos de los datos utilizando la estimación de máxima verosimilitud. Por ejemplo, los valores de estado/acción pueden almacenarse en una tabla que tiene N columnas, donde las primeras N-1 columnas pueden ser valores capturados por los sensores integrados y la última instrucción AIDL a ejecutar. La tabla se obtiene como resultado de resolver los 6 MDP independientes (un mapeo directo). Como la mayoría de las variables son continuas, normalmente es necesario utilizar la interpolación. Luego, para entrenar el sistema, todas las variables de estado continuas se discretizan mediante cubos que se pueden reconfigurar fácilmente para poder ajustar el tamaño óptimo del cubo en función de los experimentos. Un ejemplo simple de tamaños de cubos para varios estados de aeronave:
Tamaño del cubo Rango
A 0,1 grados Depende de que se utilicen en el agrupamiento
0,1 grados Depende de que se utilicen en el agrupamiento
d 8,045 km (5 millas) Depende de los pares de ciudades seleccionados en el agrupamiento
Hp 152,4 m (500 pies) -500-53000
Vcas 5kt 0-500
Luego se ejecuta el algoritmo Q-learning, una técnica de aprendizaje por refuerzo, que estima la función de valor de acción de estado (tabla que asigna los valores de sensor a una instrucción AIDL) con base en los estados vecinos. Alternativamente, se pueden emplear otras técnicas como SARSA (Estado-Acción-Recompensa-Estado-Acción) en lugar de Q-Learning. La resolución de los MDP completa el paso de entrenamiento 100, obteniendo la función de mapeo 180.
Una vez que se completa el paso de entrenamiento 100, comienza el paso de control en tiempo real 200 durante la fase de vuelo. Basándose en los datos de sensor integrado 210, el módulo de automatización de comando y control integrado 340 es capaz de seleccionar la acción óptima de cada solución MDP (6 instrucciones AIDL). Una capacidad importante del método es que el sistema de automatización de comando y control a bordo reacciona en tiempo real a los cambios en los datos de sensor. Los resultados de la fase de entrenamiento se almacenan en la memoria del sistema, por lo que acceder a la acción óptima en cada situación es extremadamente rápido.
La salida del módulo de automatización de comando y control a bordo 340, un conjunto de comandos de navegación y guía 230 que incluyen instrucciones AIDL. Durante el vuelo, el módulo de automatización de comando y control a bordo 340 puede operar simplemente combinando las 6 acciones óptimas en una operación AIDL y ejecutando esa operación.

Claims (14)

REIVINDICACIONES
1. Un método de operación autónoma de una aeronave, que comprende:
- un paso de entrenamiento previo al vuelo (100) que comprende aplicar un algoritmo de aprendizaje automático (170) sobre un conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados de la aeronave y acciones que comprenden comandos de navegación y guía (230); y
- un paso de control en tiempo real (200) ejecutado durante un vuelo de una aeronave, comprendiendo el paso de control en tiempo real (200):
recuperar repetidamente datos de sensor a bordo (210);
obtener estados de la aeronave en tiempo real (222) a partir de los datos de sensor a bordo (210);
determinar acciones (224) asociadas a los estados de la aeronave en tiempo real (222) usando la función de mapeo (180); y
operar de manera autónoma la aeronave ejecutando las acciones determinadas (224) en la aeronave;
caracterizado por que el paso de entrenamiento previo al vuelo (100) comprende:
recuperar datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta, donde los datos de vigilancia registrados (110) incluyen al menos cambios de una posición de aeronave que comprende una latitud ($), longitud (A) y altitud (h) en el tiempo (t) para cada vuelo;
inferir (120) la intención de la aeronave (130) expresada en formato AIDL a partir de los datos de vigilancia registrados (110) vinculados a las condiciones atmosféricas sobre la ruta planificada el día de la operación;
calcular (140) trayectorias reconstruidas (150) usando la intención de la aeronave inferida (130); y
seleccionar, como el conjunto de datos de entrenamiento (160) para el algoritmo de aprendizaje automático (170), un conjunto de datos que comprende la intención de la aeronave inferida (130) y las trayectorias reconstruidas calculadas (150) de vuelos correspondientes a un tipo de aeronave y ruta en particular.
2. El método de acuerdo con la reivindicación 1, donde los comandos de navegación y guía (230) se expresan como instrucciones AIDL.
3. El método de acuerdo con la reivindicación 2, donde la función de mapeo (180) comprende una tabla que mapea valores de sensor con instrucciones AIDL.
4. El método de acuerdo con la reivindicación 3, donde el paso de determinar acciones (224) comprende buscar en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados (210) y, si no se encuentra una coincidencia exacta, usar un proceso de interpolación para determinar las Instrucciones AIDL asociadas.
5. El método de acuerdo con cualquiera de las reivindicaciones anteriores, donde los datos de vigilancia registrados (110) comprenden al menos uno de los siguientes: datos ADS-B, datos de seguimiento de radar, datos de registro de acceso rápido de vuelo.
6. El método de acuerdo con cualquier reivindicación anterior, donde el algoritmo de aprendizaje automático (170) es un algoritmo de aprendizaje por refuerzo que obtiene una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave (222) que coincide con el aterrizaje del vuelo en un aeropuerto de destino.
7. El método de acuerdo con la reivindicación 6, donde el algoritmo de aprendizaje por refuerzo comprende resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.
8. Un sistema para operar de forma autónoma una aeronave, que comprende:
- un módulo de aprendizaje automático configurado para aplicar un algoritmo de aprendizaje automático (170) en un conjunto de datos de entrenamiento (160) para obtener una función de mapeo (180) entre estados de aeronave y acciones que comprenden comandos de navegación y guía (230);
- un módulo de automatización de comando y control integrado (340) configurado para:
recuperar repetidamente datos de sensores a bordo (210) durante un vuelo de una aeronave;
obtener estados de la aeronave en tiempo real (222) a partir de los datos de sensores a bordo (210);
determinar acciones (224) asociadas a los estados de la aeronave en tiempo real (222) usando la función de mapeo (180); y
operar de forma autónoma la aeronave instruyendo la ejecución de las acciones determinadas (224) en la aeronave,
caracterizado por que el sistema comprende, además:
- un módulo de inferencia y reconstrucción de trayectorias (310) configurado para:
inferir la intención de la aeronave (130) a partir de datos de vigilancia registrados (110) de una pluralidad de vuelos correspondientes a al menos un tipo de aeronave y al menos una ruta, donde los datos de vigilancia registrados (110) están vinculados a las condiciones atmosféricas sobre la ruta planificada en el día de operación, donde los datos de vigilancia registrados (110) incluyen al menos cambios de posición de una aeronave que comprenden una latitud ($), longitud (A) y altitud (h) a lo largo del tiempo (t) para cada vuelo; y
calcular (140) trayectorias reconstruidas (150) utilizando la intención de aeronave inferida (130) expresada en formato AIDL;
- un módulo de agrupamiento (320) configurado para seleccionar, como conjunto de datos de entrenamiento (160) para el algoritmo de aprendizaje automático (170), un conjunto de datos que comprende la intención de la aeronave inferida (130) y las trayectorias reconstruidas calculadas (150) de vuelos correspondientes a un tipo de aeronave y ruta en particular.
9. El sistema de acuerdo con la reivindicación 8, donde los comandos de navegación y guía (230) se expresan como instrucciones AIDL.
10. El sistema de acuerdo con la reivindicación 9, donde la función de mapeo (180) comprende una tabla que mapea valores de sensor con instrucciones AIDL; y donde el módulo de automatización de comando y control a bordo (340) está configurado para determinar acciones (224) buscando en la tabla de mapeo los valores de sensor correspondientes a los datos de sensor a bordo recuperados (210) y, si no se encuentra una coincidencia exacta, usar la interpolación para determinar las instrucciones AIDL asociadas.
11. Un sistema de acuerdo con cualquiera de las reivindicaciones 8 a 10, donde el módulo de aprendizaje automático es un módulo de aprendizaje por refuerzo (330) configurado para obtener una política n que maximiza una recompensa acumulada R asociada al estado de la aeronave (222) que coincide con el aterrizaje del vuelo en un aeropuerto de destino.
12. El sistema de acuerdo con la reivindicación 11, donde el módulo de aprendizaje por refuerzo (330) está configurado para resolver seis procesos de decisión de Markov independientes para predecir seis instrucciones AIDL independientes, donde los espacios de acción y estado son diferentes para cada subproceso AIDL.
13. El sistema de acuerdo con cualquiera de las reivindicaciones 8 a 12, que comprende un Sistema de Gestión de Vuelo de aeronave (240) para ejecutar las acciones determinadas (224) en la aeronave.
14. Un producto de programa de ordenador para operar de forma autónoma una aeronave, que comprende al menos un medio de almacenamiento legible por ordenador que comprende un conjunto de instrucciones almacenadas en el mismo que, cuando las ejecuta un procesador, hace que el procesador realice el método de acuerdo con cualquiera de las reivindicaciones 1 a 7.
ES17382412T 2017-06-29 2017-06-29 Método y sistema para operar de forma autónoma una aeronave Active ES2943122T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP17382412.9A EP3422130B8 (en) 2017-06-29 2017-06-29 Method and system for autonomously operating an aircraft

Publications (1)

Publication Number Publication Date
ES2943122T3 true ES2943122T3 (es) 2023-06-09

Family

ID=59298423

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17382412T Active ES2943122T3 (es) 2017-06-29 2017-06-29 Método y sistema para operar de forma autónoma una aeronave

Country Status (7)

Country Link
US (1) US10983533B2 (es)
EP (1) EP3422130B8 (es)
JP (1) JP7066546B2 (es)
CN (1) CN109213188B (es)
BR (1) BR102018012639A2 (es)
CA (1) CA3003363C (es)
ES (1) ES2943122T3 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11691755B2 (en) * 2018-04-16 2023-07-04 Wing Aviation Llc Multi-UAV management
US10990096B2 (en) * 2018-04-27 2021-04-27 Honda Motor Co., Ltd. Reinforcement learning on autonomous vehicles
US11107001B1 (en) * 2018-09-26 2021-08-31 Rockwell Collins, Inc. Systems and methods for practical autonomy decision controller
EP3887854B1 (en) * 2018-11-27 2022-09-21 Leonardo S.p.a. Suborbital space traffic control system with radar system and ads-b receiver
US11074480B2 (en) * 2019-01-31 2021-07-27 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
CN110083058B (zh) * 2019-03-19 2022-02-15 四川函钛科技有限公司 基于时序qar参数的重着陆分类方法
US11410558B2 (en) * 2019-05-21 2022-08-09 International Business Machines Corporation Traffic control with reinforcement learning
CN110807264B (zh) * 2019-11-07 2023-09-01 四川航天神坤科技有限公司 三维系统中雷达目标的实时监测预警方法及装置
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111026147B (zh) * 2019-12-25 2021-01-08 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111160755B (zh) * 2019-12-26 2023-08-18 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
JP6950117B1 (ja) * 2020-04-30 2021-10-13 楽天グループ株式会社 学習装置、情報処理装置、及び学習済の制御モデル
WO2021220467A1 (ja) * 2020-04-30 2021-11-04 楽天株式会社 学習装置、情報処理装置、及び学習済の制御モデル
FR3111466A1 (fr) * 2020-06-12 2021-12-17 Thales Système et méthode pour la détermination améliorée de paramètres de trajectoire d’aéronefs
CN112367109B (zh) * 2020-09-28 2022-02-01 西北工业大学 空地网络中由数字孪生驱动的联邦学习的激励方法
US20220292994A1 (en) * 2021-03-12 2022-09-15 The Boeing Company Artificial intelligence powered emergency pilot assistance system
CN113110546B (zh) * 2021-04-20 2022-09-23 南京大学 一种基于离线强化学习的无人机自主飞行控制方法
CN113189989B (zh) * 2021-04-21 2022-07-01 东风柳州汽车有限公司 车辆意图预测方法、装置、设备及存储介质
US11803197B2 (en) * 2021-11-15 2023-10-31 Beta Air, Llc Systems and methods for controlling a flight boundary of an aircraft
CN114089762B (zh) * 2021-11-22 2024-06-21 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114141062B (zh) * 2021-11-30 2022-11-01 中国电子科技集团公司第二十八研究所 一种基于深度强化学习的航空器间隔管理决策方法
FR3130956A1 (fr) * 2021-12-17 2023-06-23 Thales Procédé d’aide au pilotage d’un aéronef, dispositif électronique d’aide au pilotage et système d’assistance associés
CN114638442B (zh) * 2022-05-19 2022-09-02 珠海翔翼航空技术有限公司 面向个体差异的飞行训练方案生成系统、方法及设备
CN115857556B (zh) * 2023-01-30 2023-07-14 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010045272A1 (en) * 2008-10-14 2010-04-22 Honda Motor Co., Ltd. Smoothed sarsa: reinforcement learning for robot delivery tasks
JP2011114536A (ja) 2009-11-26 2011-06-09 Alpine Electronics Inc 車両周辺画像提供装置
EP2482269B1 (en) 2011-01-28 2017-03-22 The Boeing Company Providing data for predicting aircraft trajectory
EP2801963B1 (en) 2013-05-09 2016-01-20 The Boeing Company Providing a description of aircraft intent
US20150017609A1 (en) * 2013-07-09 2015-01-15 General Electric Company Method and apparatus for generating or updating an aviation simulation scenario
US8977484B1 (en) 2013-08-22 2015-03-10 The Boeing Company Using aircraft trajectory data to infer aircraft intent
EP2843364B1 (en) 2013-08-30 2019-10-23 The Boeing Company Method and system for estimating aircraft course
JP6181300B2 (ja) * 2014-09-05 2017-08-16 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 無人航空機の速度を制御するシステム
EP3109805A1 (en) * 2015-06-22 2016-12-28 The Boeing Company A computer-implemented method and system for estimating impact of new operational conditions in a baseline air traffic scenario
US9442496B1 (en) 2015-09-18 2016-09-13 Amazon Technologies, Inc. Active airborne noise abatement
JP6600213B2 (ja) 2015-09-28 2019-10-30 双葉電子工業株式会社 飛行制御装置、飛行制御方法、飛行体
WO2017108133A1 (en) 2015-12-23 2017-06-29 Swiss Reinsurance Company Ltd. Automated, reactive flight-delay risk-transfer system and method thereof

Also Published As

Publication number Publication date
EP3422130A1 (en) 2019-01-02
CN109213188A (zh) 2019-01-15
BR102018012639A2 (pt) 2019-01-15
EP3422130B1 (en) 2023-02-15
CN109213188B (zh) 2024-06-14
CA3003363C (fr) 2023-08-01
US10983533B2 (en) 2021-04-20
JP2019059461A (ja) 2019-04-18
JP7066546B2 (ja) 2022-05-13
EP3422130B8 (en) 2023-03-22
CA3003363A1 (fr) 2018-12-29
US20190005828A1 (en) 2019-01-03

Similar Documents

Publication Publication Date Title
ES2943122T3 (es) Método y sistema para operar de forma autónoma una aeronave
Ramasamy et al. Novel flight management system for real-time 4-dimensional trajectory based operations
Ramasamy et al. Next generation flight management system for real-time trajectory based operations
EP2916308B1 (en) An aircraft intent processor
Patrón et al. New methods of optimization of the flight profiles for performance database-modeled aircraft
US9666083B2 (en) Method for inserting a segment of flight plan in a flight plan
Pang et al. Aircraft trajectory prediction using LSTM neural network with embedded convolutional layer
CN102915652A (zh) 飞行器交通分离系统
US10242578B2 (en) Flight path management system
McAree et al. Artificial situation awareness for increased autonomy of unmanned aerial systems in the terminal area
Ramasamy et al. Novel flight management system for improved safety and sustainability in the CNS+ A context
Dancila et al. New flight trajectory optimisation method using genetic algorithms
Yomchinda et al. Modified Dubins parameterization for aircraft emergency trajectory planning
Cappello et al. Low-cost sensors based multi-sensor data fusion techniques for RPAS navigation and guidance
Wei et al. Autonomous navigation for eVTOL: Review and future perspectives
Deniz et al. A multi-agent reinforcement learning approach to traffic control at future urban air mobility intersections
Bronsvoort et al. Improved trajectory prediction for air traffic management by simulation of guidance logic and inferred aircraft intent using existing data-link technology
Itoh et al. Analyzing feasibility of continuous descent operation following fixed-flight path angle from oceanic route to Tokyo International Airport
Kosari et al. Path generation for flying robots in mountainous regions
Frontera et al. Generation of aircraft intent based on a microstrategy search tree
Lai et al. A multi-agent reinforcement learning approach for conflict resolution in dense traffic scenarios
Bousson Model predictive control approach to global air collision avoidance
Konyak et al. A demonstration of an aircraft intent interchange specification for facilitating trajectory-based operations in the national airspace system
Villarroel An optimal control framework for flight management systems
Baspinar et al. A 4D trajectory generation infrastructure tool for controller working position