ES2435616B2 - Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea - Google Patents

Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea Download PDF

Info

Publication number
ES2435616B2
ES2435616B2 ES201230963A ES201230963A ES2435616B2 ES 2435616 B2 ES2435616 B2 ES 2435616B2 ES 201230963 A ES201230963 A ES 201230963A ES 201230963 A ES201230963 A ES 201230963A ES 2435616 B2 ES2435616 B2 ES 2435616B2
Authority
ES
Spain
Prior art keywords
state
controller
invasive
application
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES201230963A
Other languages
English (en)
Other versions
ES2435616A1 (es
Inventor
Mariano GÓMEZ PLAZA
Sebastián SÁNCHEZ PRIETO
Tomás ARRIBAS NAVARRO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad de Alcala de Henares UAH
Original Assignee
Universidad de Alcala de Henares UAH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad de Alcala de Henares UAH filed Critical Universidad de Alcala de Henares UAH
Priority to ES201230963A priority Critical patent/ES2435616B2/es
Publication of ES2435616A1 publication Critical patent/ES2435616A1/es
Application granted granted Critical
Publication of ES2435616B2 publication Critical patent/ES2435616B2/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion

Abstract

Controlador no invasivo (2) de un sistema físico real (4), que comprende: a) un módulo de registro de transiciones, donde se almacenan los nuevos estados del sistema físico real (4); b) un módulo con un modelo de comportamiento del sistema (4) que debe ser controlado; c) un módulo de exploración de estados que identifica transiciones no contenidas en el modelo de comportamiento del sistema (4); d) un módulo de control por mapeado, y e) un módulo de política de control, basado en las transiciones identificadas en el módulo de exploración de estados. Unos sensores (3) detectan el estado (8) del sistema físico real (4), de manera que el estado (8) se transmite a un bus (6) mediante un primer vector (S). El bus (6) descarga los datos relativos al estado (8) mediante un segundo vector (X), pasando los datos del segundo vector (X) al controlador.

Description

CONTROLADOR ÓPTIMO NO INVASIVO PARA SISTEMAS INESTABLES BASADO EN APRENDIZAJE EN LÍNEA
DESCRIPCIÓN DE LA INVENCIÓN
SECTOR DE LA TÉCNICA
Esta invención se enmarca dentro del sector técnico de control de sistemas dinámicos, más concretamente en aquellos caracterizados por ser no-lineales e inestables.
ESTADO DE LA TÉCNICA
Actualmente, el control de sistemas dinámicos no-lineales e inestables se implementa utilizando técnicas clásicas de control –invención del controlador PID en 1910– o –R. J. Veillette, “Reliable linear-quadratic state-feedback control,”Journal of International Federation of Automatic Control (IFAC), vol. 31, no. 1, pp. 137-143, 1995–, que durante años han dado resultados aceptables para conseguir el objetivo encomendado de estabilizarlos e incluso dirigirlos a un estado de controlabilidad determinado. Además, hay que tener en cuenta que estas técnicas están muy arraigadas y presentes en determinadas plataformas, de por sí inestables como son aviones, UAVs, satélites, etc. En este tipo de plataformas, por sus características especiales, como por ejemplo su elevado coste, se exige al control aplicado una fiabilidad superior a cualquier otro tipo de sistema como podría ser el de un péndulo invertido con dos ruedas.
Las técnicas de control utilizadas actualmente para estabilizar las plataformas anteriores, se basan en un control por realimentación, comparando el valor real proporcionado por los sensores con el valor de referencia o valor deseado, para a continuación en función de la señal de error (la diferencia entre las dos anteriores), determinar la maniobra de corrección implementada por los actuadores correspondientes. La mayoría de estas técnicas se basan en el uso de algoritmos que son creados a medida de cada sistema controlado. Esto implica que cualquier diferencia entre el modelo matemático y el sistema real supone un modo de operación no adecuado del sistema. Por este motivo es típico que los algoritmos de control antes de entrar en explotación, deban de ser ajustados para cada sistema concreto. Existen también algoritmos de control que no necesitan un modelo matemático del sistema controlado. Éstos se basan en el uso de técnicas de aprendizaje que permiten generar el controlador de forma automática. En estos casos el sistema aprende de modo autónomo, típicamente llevando a cabo una serie de acciones predeterminadas o aleatorias que permiten identificar cómo se comporta el propio sistema. Dicho de otro modo, si encontrándose el sistema en un estado E y aplicando una acción A llegamos a un estado E', podemos deducir que siempre que se desee llegar al estado E' desde E, bastará con aplicar la acción A. Si el proceso se repite para todos los posibles estados iniciales y finales, conoceremos perfectamente cómo se comporta el sistema. Como este proceso puede suponer unos tiempos de entrenamiento muy extensos, se pueden emplear técnicas de aprendizaje para estimar el comportamiento del sistema en estados desconocidos a partir de estados conocidos. Este proceso se puede aplicar a sistemas estables ya que desde cualquier estado inicial E siempre llegamos a un estado final E' que también es estable y además todos los estados intermedios también los son. El problema de aprendizaje se plantea en sistemas inestables donde la prueba y error llevará irremediablemente al sistema a un estado no controlado.
EXPLICACIÓN DE LA INVENCIÓN
El problema que se plantea, y cuya solución se proporciona con esta invención, consiste en cómo podemos hacer uso de técnicas de control basadas en aprendizaje cuando el sistema sobre el que se actúa es un sistema inestable. En este caso el proceso de aprendizaje puede resultar inútil y se acabe cayendo. Es en este punto donde se ubica la invención propuesta sobre el sistema real, pero utilizando como referencia un sistema de control clásico. Este nuevo esquema se denomina CACM-RL (Control Adjoining Cell Mapping combinado con aprendizaje por refuerzo), el cual queda descrito por los autores de la presente patente en –M. Gomez, R. V. González, T. Martínez-Marín, D. Meziat and
S. Sánchez, “Optimal Motion Planning by Reinforcement Learning in Autonomous Mobile Vehicles,” Robotica, vol. 32, no. 2, pp. 159-170, 2012–.
El objeto de la presente invención es disponer de un nuevo controlador no invasivo de sistemas inestables teniendo las siguientes capacidades:
! Apoyarse en la técnica de control “clásica” de forma no invasiva, conviviendo con ella para observar el comportamiento del sistema controlado y, de este modo, aprender del mismo.
! Establecer de modo continuo la diferencia entre el control realizado por el sistema clásico y el control ofrecido por el nuevo controlador. Cuando la diferencia entre ambos sea menor que un determinado umbral, el nuevo controlador puede sustituir al controlador clásico.
! Servir como único elemento controlador del sistema inestable, ejecutando sus funciones de forma óptima y seguir aprendiendo.
El controlador resultante, al hacer uso de la técnica CACM-RL hereda todas las ventajas de la misma, permitiendo además utilizar el proceso de aprendizaje con sistemas inestables.
La solución propuesta elimina los inconvenientes derivados de las soluciones clásicas de control que no son óptimas, adolecen de falta de autonomía, presentan desviaciones no previstas o criticidad en el periodo de muestreo. Esta invención solventa estas deficiencias ofreciendo las siguientes características más ventajosas:
! Solución no invasiva. ! Solución óptima e inteligente con capacidad de aprendizaje sin necesidad de modelos matemáticos. ! No es necesario realizar calibraciones o ajustes de las plataformas, ya que el conocimiento lo adquiere con el entrenamiento. ! Solución capaz de ser aplicada a sistemas dinámicos no-lineales (y por tanto lineales también) e inestables (y por tanto estables también). ! Solución que garantiza reducción de costes de mantenimiento por el hecho de ser
un control óptimo. ! Se alarga el ciclo de vida útil de los sistemas. ! Solución independiente del periodo de muestreo utilizado para la aplicación del
control. ! Solución que puede evolucionar a medida que el sistema controlado cambia alguno de sus parámetros.
DESCRIPCIÓN DE LOS DIBUJOS
!
La Figura 1 muestra un esquema general del entorno operativo del producto
controlador no invasivo SOTICOL (2) (SOluciones Tecnológicas Innovadoras para
Control Óptimo y pLanificación) que es objeto de la patente propuesta.
!
La Figura 2 representa un diagrama de bloques detallado del sistema patentado,
así como su interconexión con el controlador clásico.
Las siguientes referencias numéricas detallan los distintos elementos que se describen en las figuras: 1 – Sistema de control clásico. 2 – Controlador no invasivo. 3 – Sensores. 4 – Sistema físico real (plataforma). 5 – Actuadores. 6 – Bus. 7 – Acciones de control. 8 – Estado. S – Primer vector con los datos de estado. X – Segundo vector con las variables de estado.
MODO DE REALIZACIÓN
Acorde con lo presentado en la Figura 1 y por medio del bus (6), la plataforma (4) (sistema físico real) puede comunicarse con los distintos actuadores (5). Además, la plataforma (4) (sistema físico real), por medio de los sensores (3) acoplados a la misma, vuelca su estado
(8) al mismo bus (6), el cual es recibido por el sistema clásico (1) cerrando el bucle de realimentación. El controlador no invasivo (2), por ejemplo, podría implementarse integrando técnicas computacionales de dinámica de sistemas y esquemas inteligentes de aprendizaje, para diseñar por ejemplo un algoritmo eficiente de control óptimo como es CACM-RL.
De forma simultánea al control clásico, el controlador (2) objeto de esta patente observa qué acciones de control (7) se están aplicando en cada momento, así como la evolución del sistema (transiciones). A partir de esta información, se aprende autónomamente generando finalmente el controlador óptimo.
Conviene destacar el hecho de que la plataforma, sistema físico real (4), a través de sus sensores (3) vuelca su estado (8) al bus (6), sin procesar los datos generados por aquéllos. Por tanto, podemos decir que la plataforma, sistema físico real, (4) vuelca periódicamente un vector S, con los datos de los distintos sensores (3) y será el sistema clásico (1) o el controlador no invasivo patentado (2) el encargado de procesarlos para establecer las variables de estado mediante otro vector X. En general, las dimensiones de ambos vectores no tienen por qué coincidir.
En operación nominal, el controlador clásico actúa sobre la plataforma, sistema físico real (4). Dicha actuación no es directa sino que las acciones de control “pasan” por un módulo selector que establece el mejor control que se debe aplicar en cada momento (véase Figura 2).
La figura 2 muestra los elementos que componen el controlador no invasivo (2) y su integración con la plataforma, o sistema físico real (4), y otros elementos de control. El controlador no invasivo (2) comprende: a) un módulo de registro de transiciones; b) un módulo con un modelo de comportamiento del sistema que se desea controlar; c) un módulo de exploración de estados; d) un módulo de control por mapeado de células; y e) un módulo de política de control. A través del “Registro de transiciones” se almacenan los nuevos estados y las acciones de control aplicadas a la plataforma real con objeto de aprender su dinámica. El modelo dinámico se almacena en el denominado “Modelo de comportamiento del sistema”. El objetivo del “Sistema de control inteligente” es alcanzar una política de control óptima a partir del modelo de comportamiento del sistema. Debido a que hay estados que nunca son alcanzados, en el modelo anterior se producen “huecos” que es preciso rellenar. Esta es la razón de la existencia del módulo “Exploración de estados”. Este módulo identifica una transición (no contenida en el modelo de comportamiento del sistema) para aprender una nueva política de control óptimo para alcanzarla. Esta actividad podría provocar una perturbación en la salida que debe ser limitada o acotada, ya que podría conducir a una mala controlabilidad o inestabilidad a la plataforma real. Por esta razón, el módulo “conmutador” de la figura 2 establece la acción de control generada por el controlador clásico o por el sistema de control inteligente.

Claims (2)

  1. REIVINDICACIONES
    1 – Controlador no invasivo (2) de un sistema físico real (4), caracterizado por que el controlador no invasivo (2) comprende:
    !
    un módulo de registro de transiciones, donde se almacenan los nuevos estados del
    sistema físico real (4);
    !
    un módulo con un modelo de comportamiento del sistema (4) que debe ser
    controlado;
    !
    un módulo de exploración de estados que identifica transiciones no contenidas en
    el modelo de comportamiento del sistema (4), asimilando dichas transiciones a una
    nueva política de control óptimo posterior;
    !
    un módulo de control por mapeado, y
    !
    un módulo de política de control, basado en las transiciones identificadas en el
    módulo de exploración de estados.
    2 – Controlador no invasivo (2) según la reivindicación primera, caracterizado por que el controlador no invasivo (2) está acoplado mediante un conmutador al sistema físico real (4) y a un sistema de control clásico (1), de manera que el conmutador selecciona bien el funcionamiento del sistema de control clásico (1), o bien el funcionamiento del controlador no invasivo (2).
    3 – Controlador no invasivo (2) según cualquiera de las reivindicaciones anteriores,
    caracterizado por que:
    ! unos sensores (3) detectan el estado (8) del sistema físico real (4);
    ! el estado (8) se transmite a un bus (6) mediante un primer vector (S);
    ! el bus (6) descarga los datos relativos al estado (8) mediante un segundo vector
    (X); pasando los datos del segundo vector (X) al controlador.
    4 – Controlador no invasivo (2) según la reivindicación tercera, caracterizado por que el controlador envía datos procesados al bus (6) y éste, seguidamente, transmite dichos datos procesados mediante una serie de acciones de control (7) a unos actuadores (5), que interactúan con el sistema físico real (4).
    ES 2 435 616 A1
    Figura 1
    (Controlador no invasivo)
    Salida
    Figura 2
    OFICINA ESPAÑOLA DE PATENTES Y MARCAS
    N.º solicitud: 201230963
    ESPAÑA
    Fecha de presentación de la solicitud: 20.06.2012
    Fecha de prioridad:
    INFORME SOBRE EL ESTADO DE LA TECNICA
    51 Int. Cl. : G05B13/02 (2006.01)
    DOCUMENTOS RELEVANTES
    Categoría
    56 Documentos citados Reivindicaciones afectadas
    A
    GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456. 1-4
    A
    GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658. 1-4
    A
    US 2011276180 A1 (SEEM) 10.11.2011, párrafos [0021-0025,0030-0041]; figuras 1,3. 1-4
    A
    US 2005240311 A1 (RABITZ) 27.10.2005, párrafos [0055-0058,0067-0073]; figuras 1,2. 1-4
    Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud
    El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:
    Fecha de realización del informe 04.12.2013
    Examinador P. Pérez Fernández Página 1/4
    INFORME DEL ESTADO DE LA TÉCNICA
    Nº de solicitud: 201230963
    Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) G05B Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de
    búsqueda utilizados) INVENES, EPODOC WPI ,PAJ
    Informe del Estado de la Técnica Página 2/4
    OPINIÓN ESCRITA
    Nº de solicitud: 201230963
    Fecha de Realización de la Opinión Escrita: 04.12.2013
    Declaración
    Novedad (Art. 6.1 LP 11/1986)
    Reivindicaciones Reivindicaciones 1-4 SI NO
    Actividad inventiva (Art. 8.1 LP11/1986)
    Reivindicaciones Reivindicaciones 1-4 SI NO
    Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).
    Base de la Opinión.-
    La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.
    Informe del Estado de la Técnica Página 3/4
    OPINIÓN ESCRITA
    Nº de solicitud: 201230963
    1. Documentos considerados.-
    A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.
    Documento
    Número Publicación o Identificación Fecha Publicación
    D01
    GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456.
    D02
    GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658.
    D03
    US 2011276180 A1 (SEEM) 10.11.2011
    D04
    US 2005240311 A1 (RABITZ) 27.10.2005
  2. 2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración
    Tiene Novedad y Actividad Inventiva
    Los documentos citados en el informe sobre el estado de la técnica solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Por otra parte, no sería obvio para una persona experta en la materia aplicar las características de los documentos citados y llegar a la invención como se revela en las reivindicaciones nº 1-4. , Por lo tanto, el objeto de estas reivindicaciones nº 1-4 cumple los requisitos de Novedad, Actividad Inventiva y Aplicación Industrial.de acuerdo con los Artículos 6.1, 8, 9 de la LP.
    Informe del Estado de la Técnica Página 4/4
ES201230963A 2012-06-20 2012-06-20 Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea Active ES2435616B2 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES201230963A ES2435616B2 (es) 2012-06-20 2012-06-20 Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201230963A ES2435616B2 (es) 2012-06-20 2012-06-20 Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea

Publications (2)

Publication Number Publication Date
ES2435616A1 ES2435616A1 (es) 2013-12-20
ES2435616B2 true ES2435616B2 (es) 2014-06-11

Family

ID=49724799

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201230963A Active ES2435616B2 (es) 2012-06-20 2012-06-20 Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea

Country Status (1)

Country Link
ES (1) ES2435616B2 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502103B (zh) * 2015-09-06 2019-03-01 深圳会当科技有限公司 一种用户行为的分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240311A1 (en) * 2002-03-04 2005-10-27 Herschel Rabitz Closed-loop apparatuses for non linear system identification via optimal control
US8412357B2 (en) * 2010-05-10 2013-04-02 Johnson Controls Technology Company Process control systems and methods having learning features

Also Published As

Publication number Publication date
ES2435616A1 (es) 2013-12-20

Similar Documents

Publication Publication Date Title
WO2020079074A3 (en) Autonomous vehicle planning
Garmestani et al. A framework for resilience-based governance of social-ecological systems
Christensen et al. A distributed and morphology-independent strategy for adaptive locomotion in self-reconfigurable modular robots
Bongard Morphological change in machines accelerates the evolution of robust behavior
Aoi et al. Stability analysis of a simple walking model driven by an oscillator with a phase reset using sensory feedback
Bongard Biologically Inspired Computing.
Walas et al. Terrain classification and locomotion parameters adaptation for humanoid robots using force/torque sensing
ES2435616B2 (es) Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea
Fuertes et al. Project-based learning versus cooperative learning courses in engineering students
CN106094817B (zh) 基于大数据方式的强化学习仿人机器人步态规划方法
Xu et al. Confidence-rich localization and mapping based on particle filter for robotic exploration
Dillmann et al. Biologically inspired walking machines: design, control and perception
Kazerounian et al. Autonomous reinforcement of behavioral sequences in neural dynamics
D’Angelo et al. Online gait learning for modular robots with arbitrary shapes and sizes
Monje et al. Whole-body balance control of a humanoid robot in real time based on ZMP stability regions approach
Randria et al. A comparative study of six basic approaches for path planning towards an autonomous navigation
Watthanawisuth et al. Design of mobile robot for real world application in path planning using ZigBee localization
Axenie et al. Cortically inspired sensor fusion network for mobile robot heading estimation
Zhang et al. Non-myopic target tracking strategies for non-linear systems
Eker et al. A finite horizon dec-pomdp approach to multi-robot task learning
Sammut Robot soccer
Cortez et al. Prioritized sensor detection via dynamic voronoi-based navigation
Kakish Robotic Swarm Control Using Deep Reinforcement Learning Strategies Based on Mean-Field Models
Moreno-Dueñas et al. Automatic Waypoint generation to improve robot navigation through narrow spaces
Le Gloannec et al. Unknown area exploration with an autonomous robot using markov decision processes

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2435616

Country of ref document: ES

Kind code of ref document: B2

Effective date: 20140611