ES2435616B2

ES2435616B2 - Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea

Info

Publication number: ES2435616B2
Application number: ES201230963A
Authority: ES
Inventors: Mariano GÓMEZ PLAZA; Sebastián SÁNCHEZ PRIETO; Tomás ARRIBAS NAVARRO
Original assignee: Universidad de Alcala de Henares UAH
Current assignee: Universidad de Alcala de Henares UAH
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2014-06-11
Anticipated expiration: 2032-06-20
Also published as: ES2435616A1

Abstract

Controlador no invasivo (2) de un sistema físico real (4), que comprende: a) un módulo de registro de transiciones, donde se almacenan los nuevos estados del sistema físico real (4); b) un módulo con un modelo de comportamiento del sistema (4) que debe ser controlado; c) un módulo de exploración de estados que identifica transiciones no contenidas en el modelo de comportamiento del sistema (4); d) un módulo de control por mapeado, y e) un módulo de política de control, basado en las transiciones identificadas en el módulo de exploración de estados. Unos sensores (3) detectan el estado (8) del sistema físico real (4), de manera que el estado (8) se transmite a un bus (6) mediante un primer vector (S). El bus (6) descarga los datos relativos al estado (8) mediante un segundo vector (X), pasando los datos del segundo vector (X) al controlador.

Description

CONTROLADOR ÓPTIMO NO INVASIVO PARA SISTEMAS INESTABLES BASADO EN APRENDIZAJE EN LÍNEA

DESCRIPCIÓN DE LA INVENCIÓN

SECTOR DE LA TÉCNICA

Esta invención se enmarca dentro del sector técnico de control de sistemas dinámicos, más concretamente en aquellos caracterizados por ser no-lineales e inestables.

ESTADO DE LA TÉCNICA

Actualmente, el control de sistemas dinámicos no-lineales e inestables se implementa utilizando técnicas clásicas de control –invención del controlador PID en 1910– o –R. J. Veillette, “Reliable linear-quadratic state-feedback control,”Journal of International Federation of Automatic Control (IFAC), vol. 31, no. 1, pp. 137-143, 1995–, que durante años han dado resultados aceptables para conseguir el objetivo encomendado de estabilizarlos e incluso dirigirlos a un estado de controlabilidad determinado. Además, hay que tener en cuenta que estas técnicas están muy arraigadas y presentes en determinadas plataformas, de por sí inestables como son aviones, UAVs, satélites, etc. En este tipo de plataformas, por sus características especiales, como por ejemplo su elevado coste, se exige al control aplicado una fiabilidad superior a cualquier otro tipo de sistema como podría ser el de un péndulo invertido con dos ruedas.

Las técnicas de control utilizadas actualmente para estabilizar las plataformas anteriores, se basan en un control por realimentación, comparando el valor real proporcionado por los sensores con el valor de referencia o valor deseado, para a continuación en función de la señal de error (la diferencia entre las dos anteriores), determinar la maniobra de corrección implementada por los actuadores correspondientes. La mayoría de estas técnicas se basan en el uso de algoritmos que son creados a medida de cada sistema controlado. Esto implica que cualquier diferencia entre el modelo matemático y el sistema real supone un modo de operación no adecuado del sistema. Por este motivo es típico que los algoritmos de control antes de entrar en explotación, deban de ser ajustados para cada sistema concreto. Existen también algoritmos de control que no necesitan un modelo matemático del sistema controlado. Éstos se basan en el uso de técnicas de aprendizaje que permiten generar el controlador de forma automática. En estos casos el sistema aprende de modo autónomo, típicamente llevando a cabo una serie de acciones predeterminadas o aleatorias que permiten identificar cómo se comporta el propio sistema. Dicho de otro modo, si encontrándose el sistema en un estado E y aplicando una acción A llegamos a un estado E', podemos deducir que siempre que se desee llegar al estado E' desde E, bastará con aplicar la acción A. Si el proceso se repite para todos los posibles estados iniciales y finales, conoceremos perfectamente cómo se comporta el sistema. Como este proceso puede suponer unos tiempos de entrenamiento muy extensos, se pueden emplear técnicas de aprendizaje para estimar el comportamiento del sistema en estados desconocidos a partir de estados conocidos. Este proceso se puede aplicar a sistemas estables ya que desde cualquier estado inicial E siempre llegamos a un estado final E' que también es estable y además todos los estados intermedios también los son. El problema de aprendizaje se plantea en sistemas inestables donde la prueba y error llevará irremediablemente al sistema a un estado no controlado.

EXPLICACIÓN DE LA INVENCIÓN

El problema que se plantea, y cuya solución se proporciona con esta invención, consiste en cómo podemos hacer uso de técnicas de control basadas en aprendizaje cuando el sistema sobre el que se actúa es un sistema inestable. En este caso el proceso de aprendizaje puede resultar inútil y se acabe cayendo. Es en este punto donde se ubica la invención propuesta sobre el sistema real, pero utilizando como referencia un sistema de control clásico. Este nuevo esquema se denomina CACM-RL (Control Adjoining Cell Mapping combinado con aprendizaje por refuerzo), el cual queda descrito por los autores de la presente patente en –M. Gomez, R. V. González, T. Martínez-Marín, D. Meziat and

S. Sánchez, “Optimal Motion Planning by Reinforcement Learning in Autonomous Mobile Vehicles,” Robotica, vol. 32, no. 2, pp. 159-170, 2012–.

El objeto de la presente invención es disponer de un nuevo controlador no invasivo de sistemas inestables teniendo las siguientes capacidades:

! Apoyarse en la técnica de control “clásica” de forma no invasiva, conviviendo con ella para observar el comportamiento del sistema controlado y, de este modo, aprender del mismo.

! Establecer de modo continuo la diferencia entre el control realizado por el sistema clásico y el control ofrecido por el nuevo controlador. Cuando la diferencia entre ambos sea menor que un determinado umbral, el nuevo controlador puede sustituir al controlador clásico.

! Servir como único elemento controlador del sistema inestable, ejecutando sus funciones de forma óptima y seguir aprendiendo.

El controlador resultante, al hacer uso de la técnica CACM-RL hereda todas las ventajas de la misma, permitiendo además utilizar el proceso de aprendizaje con sistemas inestables.

La solución propuesta elimina los inconvenientes derivados de las soluciones clásicas de control que no son óptimas, adolecen de falta de autonomía, presentan desviaciones no previstas o criticidad en el periodo de muestreo. Esta invención solventa estas deficiencias ofreciendo las siguientes características más ventajosas:

! Solución no invasiva. ! Solución óptima e inteligente con capacidad de aprendizaje sin necesidad de modelos matemáticos. ! No es necesario realizar calibraciones o ajustes de las plataformas, ya que el conocimiento lo adquiere con el entrenamiento. ! Solución capaz de ser aplicada a sistemas dinámicos no-lineales (y por tanto lineales también) e inestables (y por tanto estables también). ! Solución que garantiza reducción de costes de mantenimiento por el hecho de ser

un control óptimo. ! Se alarga el ciclo de vida útil de los sistemas. ! Solución independiente del periodo de muestreo utilizado para la aplicación del

control. ! Solución que puede evolucionar a medida que el sistema controlado cambia alguno de sus parámetros.

DESCRIPCIÓN DE LOS DIBUJOS

!: La Figura 1 muestra un esquema general del entorno operativo del producto

controlador no invasivo SOTICOL (2) (SOluciones Tecnológicas Innovadoras para

Control Óptimo y pLanificación) que es objeto de la patente propuesta.

!: La Figura 2 representa un diagrama de bloques detallado del sistema patentado,

así como su interconexión con el controlador clásico.

Las siguientes referencias numéricas detallan los distintos elementos que se describen en las figuras: 1 – Sistema de control clásico. 2 – Controlador no invasivo. 3 – Sensores. 4 – Sistema físico real (plataforma). 5 – Actuadores. 6 – Bus. 7 – Acciones de control. 8 – Estado. S – Primer vector con los datos de estado. X – Segundo vector con las variables de estado.

MODO DE REALIZACIÓN

Acorde con lo presentado en la Figura 1 y por medio del bus (6), la plataforma (4) (sistema físico real) puede comunicarse con los distintos actuadores (5). Además, la plataforma (4) (sistema físico real), por medio de los sensores (3) acoplados a la misma, vuelca su estado

(8) al mismo bus (6), el cual es recibido por el sistema clásico (1) cerrando el bucle de realimentación. El controlador no invasivo (2), por ejemplo, podría implementarse integrando técnicas computacionales de dinámica de sistemas y esquemas inteligentes de aprendizaje, para diseñar por ejemplo un algoritmo eficiente de control óptimo como es CACM-RL.

De forma simultánea al control clásico, el controlador (2) objeto de esta patente observa qué acciones de control (7) se están aplicando en cada momento, así como la evolución del sistema (transiciones). A partir de esta información, se aprende autónomamente generando finalmente el controlador óptimo.

Conviene destacar el hecho de que la plataforma, sistema físico real (4), a través de sus sensores (3) vuelca su estado (8) al bus (6), sin procesar los datos generados por aquéllos. Por tanto, podemos decir que la plataforma, sistema físico real, (4) vuelca periódicamente un vector S, con los datos de los distintos sensores (3) y será el sistema clásico (1) o el controlador no invasivo patentado (2) el encargado de procesarlos para establecer las variables de estado mediante otro vector X. En general, las dimensiones de ambos vectores no tienen por qué coincidir.

En operación nominal, el controlador clásico actúa sobre la plataforma, sistema físico real (4). Dicha actuación no es directa sino que las acciones de control “pasan” por un módulo selector que establece el mejor control que se debe aplicar en cada momento (véase Figura 2).

La figura 2 muestra los elementos que componen el controlador no invasivo (2) y su integración con la plataforma, o sistema físico real (4), y otros elementos de control. El controlador no invasivo (2) comprende: a) un módulo de registro de transiciones; b) un módulo con un modelo de comportamiento del sistema que se desea controlar; c) un módulo de exploración de estados; d) un módulo de control por mapeado de células; y e) un módulo de política de control. A través del “Registro de transiciones” se almacenan los nuevos estados y las acciones de control aplicadas a la plataforma real con objeto de aprender su dinámica. El modelo dinámico se almacena en el denominado “Modelo de comportamiento del sistema”. El objetivo del “Sistema de control inteligente” es alcanzar una política de control óptima a partir del modelo de comportamiento del sistema. Debido a que hay estados que nunca son alcanzados, en el modelo anterior se producen “huecos” que es preciso rellenar. Esta es la razón de la existencia del módulo “Exploración de estados”. Este módulo identifica una transición (no contenida en el modelo de comportamiento del sistema) para aprender una nueva política de control óptimo para alcanzarla. Esta actividad podría provocar una perturbación en la salida que debe ser limitada o acotada, ya que podría conducir a una mala controlabilidad o inestabilidad a la plataforma real. Por esta razón, el módulo “conmutador” de la figura 2 establece la acción de control generada por el controlador clásico o por el sistema de control inteligente.

Claims

REIVINDICACIONES

1 – Controlador no invasivo (2) de un sistema físico real (4), caracterizado por que el controlador no invasivo (2) comprende:

!

un módulo de registro de transiciones, donde se almacenan los nuevos estados del

sistema físico real (4);

!

un módulo con un modelo de comportamiento del sistema (4) que debe ser

controlado;

!

un módulo de exploración de estados que identifica transiciones no contenidas en

el modelo de comportamiento del sistema (4), asimilando dichas transiciones a una

nueva política de control óptimo posterior;

!

un módulo de control por mapeado, y

!

un módulo de política de control, basado en las transiciones identificadas en el

módulo de exploración de estados.

2 – Controlador no invasivo (2) según la reivindicación primera, caracterizado por que el controlador no invasivo (2) está acoplado mediante un conmutador al sistema físico real (4) y a un sistema de control clásico (1), de manera que el conmutador selecciona bien el funcionamiento del sistema de control clásico (1), o bien el funcionamiento del controlador no invasivo (2).

3 – Controlador no invasivo (2) según cualquiera de las reivindicaciones anteriores,

caracterizado por que:

! unos sensores (3) detectan el estado (8) del sistema físico real (4);

! el estado (8) se transmite a un bus (6) mediante un primer vector (S);

! el bus (6) descarga los datos relativos al estado (8) mediante un segundo vector

(X); pasando los datos del segundo vector (X) al controlador.

4 – Controlador no invasivo (2) según la reivindicación tercera, caracterizado por que el controlador envía datos procesados al bus (6) y éste, seguidamente, transmite dichos datos procesados mediante una serie de acciones de control (7) a unos actuadores (5), que interactúan con el sistema físico real (4).

ES 2 435 616 A1

Figura 1

(Controlador no invasivo)

Salida

Figura 2

OFICINA ESPAÑOLA DE PATENTES Y MARCAS

N.º solicitud: 201230963

ESPAÑA

Fecha de presentación de la solicitud: 20.06.2012

Fecha de prioridad:

INFORME SOBRE EL ESTADO DE LA TECNICA

51 Int. Cl. : G05B13/02 (2006.01)

DOCUMENTOS RELEVANTES

Categoría

56 Documentos citados Reivindicaciones afectadas

A

GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456. 1-4

A

GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658. 1-4

A

US 2011276180 A1 (SEEM) 10.11.2011, párrafos [0021-0025,0030-0041]; figuras 1,3. 1-4

A

US 2005240311 A1 (RABITZ) 27.10.2005, párrafos [0055-0058,0067-0073]; figuras 1,2. 1-4

Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud

El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:

Fecha de realización del informe 04.12.2013

Examinador P. Pérez Fernández Página 1/4

INFORME DEL ESTADO DE LA TÉCNICA

Nº de solicitud: 201230963

Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) G05B Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de

búsqueda utilizados) INVENES, EPODOC WPI ,PAJ

Informe del Estado de la Técnica Página 2/4

OPINIÓN ESCRITA

Nº de solicitud: 201230963

Fecha de Realización de la Opinión Escrita: 04.12.2013

Declaración

Novedad (Art. 6.1 LP 11/1986)

Reivindicaciones Reivindicaciones 1-4 SI NO

Actividad inventiva (Art. 8.1 LP11/1986)

Reivindicaciones Reivindicaciones 1-4 SI NO

Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).

Base de la Opinión.-

La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.

Informe del Estado de la Técnica Página 3/4

OPINIÓN ESCRITA

Nº de solicitud: 201230963

1. Documentos considerados.-

A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.

Documento

Número Publicación o Identificación Fecha Publicación

D01

GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456.

D02

GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658.

D03

US 2011276180 A1 (SEEM) 10.11.2011

D04

US 2005240311 A1 (RABITZ) 27.10.2005
2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración

Tiene Novedad y Actividad Inventiva

Los documentos citados en el informe sobre el estado de la técnica solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Por otra parte, no sería obvio para una persona experta en la materia aplicar las características de los documentos citados y llegar a la invención como se revela en las reivindicaciones nº 1-4. , Por lo tanto, el objeto de estas reivindicaciones nº 1-4 cumple los requisitos de Novedad, Actividad Inventiva y Aplicación Industrial.de acuerdo con los Artículos 6.1, 8, 9 de la LP.

Informe del Estado de la Técnica Página 4/4