ES2435616B2 - Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea - Google Patents
Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea Download PDFInfo
- Publication number
- ES2435616B2 ES2435616B2 ES201230963A ES201230963A ES2435616B2 ES 2435616 B2 ES2435616 B2 ES 2435616B2 ES 201230963 A ES201230963 A ES 201230963A ES 201230963 A ES201230963 A ES 201230963A ES 2435616 B2 ES2435616 B2 ES 2435616B2
- Authority
- ES
- Spain
- Prior art keywords
- state
- controller
- invasive
- application
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
Abstract
Controlador no invasivo (2) de un sistema físico real (4), que comprende: a) un módulo de registro de transiciones, donde se almacenan los nuevos estados del sistema físico real (4); b) un módulo con un modelo de comportamiento del sistema (4) que debe ser controlado; c) un módulo de exploración de estados que identifica transiciones no contenidas en el modelo de comportamiento del sistema (4); d) un módulo de control por mapeado, y e) un módulo de política de control, basado en las transiciones identificadas en el módulo de exploración de estados. Unos sensores (3) detectan el estado (8) del sistema físico real (4), de manera que el estado (8) se transmite a un bus (6) mediante un primer vector (S). El bus (6) descarga los datos relativos al estado (8) mediante un segundo vector (X), pasando los datos del segundo vector (X) al controlador.
Description
CONTROLADOR ÓPTIMO NO INVASIVO PARA SISTEMAS INESTABLES BASADO EN APRENDIZAJE EN LÍNEA
DESCRIPCIÓN DE LA INVENCIÓN
Esta invención se enmarca dentro del sector técnico de control de sistemas dinámicos, más concretamente en aquellos caracterizados por ser no-lineales e inestables.
Actualmente, el control de sistemas dinámicos no-lineales e inestables se implementa utilizando técnicas clásicas de control –invención del controlador PID en 1910– o –R. J. Veillette, “Reliable linear-quadratic state-feedback control,”Journal of International Federation of Automatic Control (IFAC), vol. 31, no. 1, pp. 137-143, 1995–, que durante años han dado resultados aceptables para conseguir el objetivo encomendado de estabilizarlos e incluso dirigirlos a un estado de controlabilidad determinado. Además, hay que tener en cuenta que estas técnicas están muy arraigadas y presentes en determinadas plataformas, de por sí inestables como son aviones, UAVs, satélites, etc. En este tipo de plataformas, por sus características especiales, como por ejemplo su elevado coste, se exige al control aplicado una fiabilidad superior a cualquier otro tipo de sistema como podría ser el de un péndulo invertido con dos ruedas.
Las técnicas de control utilizadas actualmente para estabilizar las plataformas anteriores, se basan en un control por realimentación, comparando el valor real proporcionado por los sensores con el valor de referencia o valor deseado, para a continuación en función de la señal de error (la diferencia entre las dos anteriores), determinar la maniobra de corrección implementada por los actuadores correspondientes. La mayoría de estas técnicas se basan en el uso de algoritmos que son creados a medida de cada sistema controlado. Esto implica que cualquier diferencia entre el modelo matemático y el sistema real supone un modo de operación no adecuado del sistema. Por este motivo es típico que los algoritmos de control antes de entrar en explotación, deban de ser ajustados para cada sistema concreto. Existen también algoritmos de control que no necesitan un modelo matemático del sistema controlado. Éstos se basan en el uso de técnicas de aprendizaje que permiten generar el controlador de forma automática. En estos casos el sistema aprende de modo autónomo, típicamente llevando a cabo una serie de acciones predeterminadas o aleatorias que permiten identificar cómo se comporta el propio sistema. Dicho de otro modo, si encontrándose el sistema en un estado E y aplicando una acción A llegamos a un estado E', podemos deducir que siempre que se desee llegar al estado E' desde E, bastará con aplicar la acción A. Si el proceso se repite para todos los posibles estados iniciales y finales, conoceremos perfectamente cómo se comporta el sistema. Como este proceso puede suponer unos tiempos de entrenamiento muy extensos, se pueden emplear técnicas de aprendizaje para estimar el comportamiento del sistema en estados desconocidos a partir de estados conocidos. Este proceso se puede aplicar a sistemas estables ya que desde cualquier estado inicial E siempre llegamos a un estado final E' que también es estable y además todos los estados intermedios también los son. El problema de aprendizaje se plantea en sistemas inestables donde la prueba y error llevará irremediablemente al sistema a un estado no controlado.
El problema que se plantea, y cuya solución se proporciona con esta invención, consiste en cómo podemos hacer uso de técnicas de control basadas en aprendizaje cuando el sistema sobre el que se actúa es un sistema inestable. En este caso el proceso de aprendizaje puede resultar inútil y se acabe cayendo. Es en este punto donde se ubica la invención propuesta sobre el sistema real, pero utilizando como referencia un sistema de control clásico. Este nuevo esquema se denomina CACM-RL (Control Adjoining Cell Mapping combinado con aprendizaje por refuerzo), el cual queda descrito por los autores de la presente patente en –M. Gomez, R. V. González, T. Martínez-Marín, D. Meziat and
S. Sánchez, “Optimal Motion Planning by Reinforcement Learning in Autonomous Mobile Vehicles,” Robotica, vol. 32, no. 2, pp. 159-170, 2012–.
El objeto de la presente invención es disponer de un nuevo controlador no invasivo de sistemas inestables teniendo las siguientes capacidades:
! Apoyarse en la técnica de control “clásica” de forma no invasiva, conviviendo con ella para observar el comportamiento del sistema controlado y, de este modo, aprender del mismo.
! Establecer de modo continuo la diferencia entre el control realizado por el sistema clásico y el control ofrecido por el nuevo controlador. Cuando la diferencia entre ambos sea menor que un determinado umbral, el nuevo controlador puede sustituir al controlador clásico.
! Servir como único elemento controlador del sistema inestable, ejecutando sus funciones de forma óptima y seguir aprendiendo.
El controlador resultante, al hacer uso de la técnica CACM-RL hereda todas las ventajas de la misma, permitiendo además utilizar el proceso de aprendizaje con sistemas inestables.
La solución propuesta elimina los inconvenientes derivados de las soluciones clásicas de control que no son óptimas, adolecen de falta de autonomía, presentan desviaciones no previstas o criticidad en el periodo de muestreo. Esta invención solventa estas deficiencias ofreciendo las siguientes características más ventajosas:
! Solución no invasiva. ! Solución óptima e inteligente con capacidad de aprendizaje sin necesidad de modelos matemáticos. ! No es necesario realizar calibraciones o ajustes de las plataformas, ya que el conocimiento lo adquiere con el entrenamiento. ! Solución capaz de ser aplicada a sistemas dinámicos no-lineales (y por tanto lineales también) e inestables (y por tanto estables también). ! Solución que garantiza reducción de costes de mantenimiento por el hecho de ser
un control óptimo. ! Se alarga el ciclo de vida útil de los sistemas. ! Solución independiente del periodo de muestreo utilizado para la aplicación del
control. ! Solución que puede evolucionar a medida que el sistema controlado cambia alguno de sus parámetros.
DESCRIPCIÓN DE LOS DIBUJOS
- !
- La Figura 1 muestra un esquema general del entorno operativo del producto
- controlador no invasivo SOTICOL (2) (SOluciones Tecnológicas Innovadoras para
- Control Óptimo y pLanificación) que es objeto de la patente propuesta.
- !
- La Figura 2 representa un diagrama de bloques detallado del sistema patentado,
- así como su interconexión con el controlador clásico.
Las siguientes referencias numéricas detallan los distintos elementos que se describen en
las figuras:
1 – Sistema de control clásico.
2 – Controlador no invasivo.
3 – Sensores.
4 – Sistema físico real (plataforma).
5 – Actuadores.
6 – Bus.
7 – Acciones de control.
8 – Estado.
S – Primer vector con los datos de estado.
X – Segundo vector con las variables de estado.
Acorde con lo presentado en la Figura 1 y por medio del bus (6), la plataforma (4) (sistema físico real) puede comunicarse con los distintos actuadores (5). Además, la plataforma (4) (sistema físico real), por medio de los sensores (3) acoplados a la misma, vuelca su estado
(8) al mismo bus (6), el cual es recibido por el sistema clásico (1) cerrando el bucle de realimentación. El controlador no invasivo (2), por ejemplo, podría implementarse integrando técnicas computacionales de dinámica de sistemas y esquemas inteligentes de aprendizaje, para diseñar por ejemplo un algoritmo eficiente de control óptimo como es CACM-RL.
De forma simultánea al control clásico, el controlador (2) objeto de esta patente observa qué acciones de control (7) se están aplicando en cada momento, así como la evolución del sistema (transiciones). A partir de esta información, se aprende autónomamente generando finalmente el controlador óptimo.
Conviene destacar el hecho de que la plataforma, sistema físico real (4), a través de sus sensores (3) vuelca su estado (8) al bus (6), sin procesar los datos generados por aquéllos. Por tanto, podemos decir que la plataforma, sistema físico real, (4) vuelca periódicamente un vector S, con los datos de los distintos sensores (3) y será el sistema clásico (1) o el controlador no invasivo patentado (2) el encargado de procesarlos para establecer las variables de estado mediante otro vector X. En general, las dimensiones de ambos vectores no tienen por qué coincidir.
En operación nominal, el controlador clásico actúa sobre la plataforma, sistema físico real (4). Dicha actuación no es directa sino que las acciones de control “pasan” por un módulo selector que establece el mejor control que se debe aplicar en cada momento (véase Figura 2).
La figura 2 muestra los elementos que componen el controlador no invasivo (2) y su integración con la plataforma, o sistema físico real (4), y otros elementos de control. El controlador no invasivo (2) comprende: a) un módulo de registro de transiciones; b) un módulo con un modelo de comportamiento del sistema que se desea controlar; c) un módulo de exploración de estados; d) un módulo de control por mapeado de células; y e) un módulo de política de control. A través del “Registro de transiciones” se almacenan los nuevos estados y las acciones de control aplicadas a la plataforma real con objeto de aprender su dinámica. El modelo dinámico se almacena en el denominado “Modelo de comportamiento del sistema”. El objetivo del “Sistema de control inteligente” es alcanzar una política de control óptima a partir del modelo de comportamiento del sistema. Debido a que hay estados que nunca son alcanzados, en el modelo anterior se producen “huecos” que es preciso rellenar. Esta es la razón de la existencia del módulo “Exploración de estados”. Este módulo identifica una transición (no contenida en el modelo de comportamiento del sistema) para aprender una nueva política de control óptimo para alcanzarla. Esta actividad podría provocar una perturbación en la salida que debe ser limitada o acotada, ya que podría conducir a una mala controlabilidad o inestabilidad a la plataforma real. Por esta razón, el módulo “conmutador” de la figura 2 establece la acción de control generada por el controlador clásico o por el sistema de control inteligente.
Claims (2)
- REIVINDICACIONES1 – Controlador no invasivo (2) de un sistema físico real (4), caracterizado por que el controlador no invasivo (2) comprende:
- !
- un módulo de registro de transiciones, donde se almacenan los nuevos estados del
- sistema físico real (4);
- !
- un módulo con un modelo de comportamiento del sistema (4) que debe ser
- controlado;
- !
- un módulo de exploración de estados que identifica transiciones no contenidas en
- el modelo de comportamiento del sistema (4), asimilando dichas transiciones a una
- nueva política de control óptimo posterior;
- !
- un módulo de control por mapeado, y
- !
- un módulo de política de control, basado en las transiciones identificadas en el
- módulo de exploración de estados.
2 – Controlador no invasivo (2) según la reivindicación primera, caracterizado por que el controlador no invasivo (2) está acoplado mediante un conmutador al sistema físico real (4) y a un sistema de control clásico (1), de manera que el conmutador selecciona bien el funcionamiento del sistema de control clásico (1), o bien el funcionamiento del controlador no invasivo (2).3 – Controlador no invasivo (2) según cualquiera de las reivindicaciones anteriores,caracterizado por que:! unos sensores (3) detectan el estado (8) del sistema físico real (4);! el estado (8) se transmite a un bus (6) mediante un primer vector (S);! el bus (6) descarga los datos relativos al estado (8) mediante un segundo vector(X); pasando los datos del segundo vector (X) al controlador.4 – Controlador no invasivo (2) según la reivindicación tercera, caracterizado por que el controlador envía datos procesados al bus (6) y éste, seguidamente, transmite dichos datos procesados mediante una serie de acciones de control (7) a unos actuadores (5), que interactúan con el sistema físico real (4).ES 2 435 616 A1Figura 1(Controlador no invasivo)SalidaFigura 2OFICINA ESPAÑOLA DE PATENTES Y MARCASN.º solicitud: 201230963ESPAÑAFecha de presentación de la solicitud: 20.06.2012Fecha de prioridad:INFORME SOBRE EL ESTADO DE LA TECNICA51 Int. Cl. : G05B13/02 (2006.01)DOCUMENTOS RELEVANTES- Categoría
- 56 Documentos citados Reivindicaciones afectadas
- A
- GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456. 1-4
- A
- GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658. 1-4
- A
- US 2011276180 A1 (SEEM) 10.11.2011, párrafos [0021-0025,0030-0041]; figuras 1,3. 1-4
- A
- US 2005240311 A1 (RABITZ) 27.10.2005, párrafos [0055-0058,0067-0073]; figuras 1,2. 1-4
- Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud
- El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:
- Fecha de realización del informe 04.12.2013
- Examinador P. Pérez Fernández Página 1/4
INFORME DEL ESTADO DE LA TÉCNICANº de solicitud: 201230963Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) G05B Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos debúsqueda utilizados) INVENES, EPODOC WPI ,PAJInforme del Estado de la Técnica Página 2/4OPINIÓN ESCRITANº de solicitud: 201230963Fecha de Realización de la Opinión Escrita: 04.12.2013Declaración- Novedad (Art. 6.1 LP 11/1986)
- Reivindicaciones Reivindicaciones 1-4 SI NO
- Actividad inventiva (Art. 8.1 LP11/1986)
- Reivindicaciones Reivindicaciones 1-4 SI NO
Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).Base de la Opinión.-La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.Informe del Estado de la Técnica Página 3/4OPINIÓN ESCRITANº de solicitud: 2012309631. Documentos considerados.-A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.- Documento
- Número Publicación o Identificación Fecha Publicación
- D01
- GÓMEZ PLAZA et al., Integration of Cell-Mapping and Reinforcement-Learning Techniques for Motion Planning of Car-Like Robotsj, IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, Vol 98, nº 9, páginas 3094-3103, Septiembre 2009, ISNN 0018-9456.
- D02
- GOMEZ PLAZA et al., Optimal Control Based on CACM-RL in a Two-Wheeled Inverted Pendulum, INTECH International Journal of Advanced Robotic System, vol 9, 235 2012 DOI 105772/54658.
- D03
- US 2011276180 A1 (SEEM) 10.11.2011
- D04
- US 2005240311 A1 (RABITZ) 27.10.2005
- 2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaraciónTiene Novedad y Actividad InventivaLos documentos citados en el informe sobre el estado de la técnica solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Por otra parte, no sería obvio para una persona experta en la materia aplicar las características de los documentos citados y llegar a la invención como se revela en las reivindicaciones nº 1-4. , Por lo tanto, el objeto de estas reivindicaciones nº 1-4 cumple los requisitos de Novedad, Actividad Inventiva y Aplicación Industrial.de acuerdo con los Artículos 6.1, 8, 9 de la LP.Informe del Estado de la Técnica Página 4/4
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES201230963A ES2435616B2 (es) | 2012-06-20 | 2012-06-20 | Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES201230963A ES2435616B2 (es) | 2012-06-20 | 2012-06-20 | Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2435616A1 ES2435616A1 (es) | 2013-12-20 |
ES2435616B2 true ES2435616B2 (es) | 2014-06-11 |
Family
ID=49724799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES201230963A Active ES2435616B2 (es) | 2012-06-20 | 2012-06-20 | Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2435616B2 (es) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502103B (zh) * | 2015-09-06 | 2019-03-01 | 深圳会当科技有限公司 | 一种用户行为的分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050240311A1 (en) * | 2002-03-04 | 2005-10-27 | Herschel Rabitz | Closed-loop apparatuses for non linear system identification via optimal control |
US8412357B2 (en) * | 2010-05-10 | 2013-04-02 | Johnson Controls Technology Company | Process control systems and methods having learning features |
-
2012
- 2012-06-20 ES ES201230963A patent/ES2435616B2/es active Active
Also Published As
Publication number | Publication date |
---|---|
ES2435616A1 (es) | 2013-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020079074A3 (en) | Autonomous vehicle planning | |
Garmestani et al. | A framework for resilience-based governance of social-ecological systems | |
Christensen et al. | A distributed and morphology-independent strategy for adaptive locomotion in self-reconfigurable modular robots | |
Bongard | Morphological change in machines accelerates the evolution of robust behavior | |
Aoi et al. | Stability analysis of a simple walking model driven by an oscillator with a phase reset using sensory feedback | |
Bongard | Biologically Inspired Computing. | |
Walas et al. | Terrain classification and locomotion parameters adaptation for humanoid robots using force/torque sensing | |
ES2435616B2 (es) | Controlador óptimo no invasivo para sistemas inestables basado en aprendizaje en línea | |
Fuertes et al. | Project-based learning versus cooperative learning courses in engineering students | |
CN106094817B (zh) | 基于大数据方式的强化学习仿人机器人步态规划方法 | |
Xu et al. | Confidence-rich localization and mapping based on particle filter for robotic exploration | |
Dillmann et al. | Biologically inspired walking machines: design, control and perception | |
Kazerounian et al. | Autonomous reinforcement of behavioral sequences in neural dynamics | |
D’Angelo et al. | Online gait learning for modular robots with arbitrary shapes and sizes | |
Monje et al. | Whole-body balance control of a humanoid robot in real time based on ZMP stability regions approach | |
Randria et al. | A comparative study of six basic approaches for path planning towards an autonomous navigation | |
Watthanawisuth et al. | Design of mobile robot for real world application in path planning using ZigBee localization | |
Axenie et al. | Cortically inspired sensor fusion network for mobile robot heading estimation | |
Zhang et al. | Non-myopic target tracking strategies for non-linear systems | |
Eker et al. | A finite horizon dec-pomdp approach to multi-robot task learning | |
Sammut | Robot soccer | |
Cortez et al. | Prioritized sensor detection via dynamic voronoi-based navigation | |
Kakish | Robotic Swarm Control Using Deep Reinforcement Learning Strategies Based on Mean-Field Models | |
Moreno-Dueñas et al. | Automatic Waypoint generation to improve robot navigation through narrow spaces | |
Le Gloannec et al. | Unknown area exploration with an autonomous robot using markov decision processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG2A | Definitive protection |
Ref document number: 2435616 Country of ref document: ES Kind code of ref document: B2 Effective date: 20140611 |