ES2952403T3 - Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico - Google Patents

Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico Download PDF

Info

Publication number
ES2952403T3
ES2952403T3 ES19734310T ES19734310T ES2952403T3 ES 2952403 T3 ES2952403 T3 ES 2952403T3 ES 19734310 T ES19734310 T ES 19734310T ES 19734310 T ES19734310 T ES 19734310T ES 2952403 T3 ES2952403 T3 ES 2952403T3
Authority
ES
Spain
Prior art keywords
technical system
action
environment
steps
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19734310T
Other languages
English (en)
Inventor
Martin Bischoff
Michel Tokic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2952403T3 publication Critical patent/ES2952403T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39406Obtain optimal parameters of model of system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40494Neural network for object trajectory prediction, fuzzy for robot path

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)

Abstract

La invención se refiere a un método y un dispositivo para determinar parámetros de control asistido por ordenador para el manejo ventajoso de un sistema técnico. Un estado inicial (AZ) y el entorno (UM) del sistema técnico (TS) se detectan usando al menos un sensor (101), y usando el mismo se genera un modelo de simulación física (SIM) del sistema técnico. A partir del estado inicial (AZ) se simulan mediante el modelo de simulación (SIM) diferentes combinaciones de pasos de manipulación del sistema técnico (TS) con respecto a un estado objetivo determinado (ZZ), en el que los parámetros de control del sistema técnico para llevar a cabo los pasos de manipulación son variados. Los datos de simulación se utilizan para entrenar una rutina de aprendizaje automático mediante una evaluación de cada paso de manipulación, y la rutina de aprendizaje automático entrenada se utiliza para determinar una combinación optimizada de pasos de manipulación. Para controlar el sistema técnico (TS) se emiten los parámetros de control de la combinación optimizada de pasos de manipulación. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico
La invención se refiere a un procedimiento y a un equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico, en particular de un sistema técnico autónomo, como por ejemplo un robot autónomo.
Mediante sistemas técnicos autónomos, como por ejemplo robots autónomos, pueden manipularse objetos. Como ejemplo citemos aquí la acción de agarrar un objeto mediante un efector final de un robot. Los procedimientos de control tradicionales se basan por ejemplo en el reconocimiento del objeto y del entorno y del sistema técnico en el mismo mediante sensores y en la determinación de una secuencia de acción o ruta adecuada para agarrar el objeto mediante algoritmos de planificación de rutas. Así los procedimientos tradicionales sólo pueden considerar usualmente un estado real de un entorno de un sistema técnico y sólo difícilmente pronosticar cómo en base a leyes físicas sus acciones influyen sobre el entorno.
Puede utilizarse por ejemplo la llamada localización simultánea y procedimiento de confección de mapas (en inglés: “Simultaneous Localization and Mapping", también conocido como procedimientos SLAM, captándose o estimándose mediante datos de sensor el entorno de un sistema técnico autónomo. En particular se detectan la posición y orientación del propio sistema técnico autónomo, así como dado el caso de otros objetos en el entorno. Mediante algoritmos de planificación de rutas, que usualmente se basan en métodos matemáticos y/o numéricos, puede determinarse para el sistema técnico autónomo una ruta o bien secuencia de etapas de acción admisible y favorable. Pero tales procedimientos no tienen en cuenta por lo general ninguna consecuencia de una acción del sistema técnico autónomo ni otros efectos físicos.
Por el documento US 9811 074 B1 se conocen un sistema y un procedimiento para optimizar una estrategia de control para probar un robot en un entorno de simulación basado en la física. Por el documento W02018/087546 A1 se conoce un sistema de robot para cosecha, que incluye un sistema de posicionamiento, que permite un posicionamiento autónomo del robot en base a imágenes de los frutos a recolectar.
Es por lo tanto un objetivo de la presente invención lograr una posibilidad de determinar etapas de acción favorables para un sistema técnico, teniendo en cuenta su entorno.
El objetivo se logra mediante un procedimiento con las características de la reivindicación 1, un equipo y un producto de programa informático. Ventajosas formas de realización y perfeccionamientos de la invención se especifican en las reivindicaciones dependientes.
Un primer aspecto de la invención se refiere a un procedimiento para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico, incluyendo las etapas del procedimiento: - Captación de un estado inicial y de un entorno del sistema técnico mediante al menos un sensor,
- generación de un modelo físico de simulación del sistema técnico y de su entorno,
- determinación de un estado final pretendido para el sistema técnico,
- simulación de diversas combinaciones de etapas de acción del sistema técnico mediante el modelo físico de simulación, partiendo del estado inicial y con referencia al estado final pretendido, modificando parámetros de regulación del sistema técni
simulación resultantes,
- adiestramiento de una rutina de aprendizaje automático en base a los correspondientes datos de simulación resultantes y mediante una evaluación de una etapa de acción correspondiente,
- determinación de una combinación optimizada de etapas de acción en base a la rutina de aprendizaje automático adiestrada, estando asociada a la combinación optimizada de etapas de acción una evaluación favorable y - emisión de los parámetros de regulación de la combinación optimizada de etapas de acción para controlar el sistema técnico.
Una ventaja de la invención es que mediante una simulación asistida por ordenador en combinación con una rutina de aprendizaje automático puede determinarse de manera rápida y eficiente una acción o bien una secuencia de acciones o bien una ruta para un sistema técnico, ya que en particular pueden tenerse en cuenta efectos físicos, como por ejemplo gravitación o colisión, así como magnitudes físicas en la determinación de una combinación optimizada de etapas de acción. La rutina de aprendizaje automático puede determinar etapas de acción favorables, que utilizan efectos físicos, como por ejemplo interacciones con el entorno, ya que la rutina de aprendizaje automático se adiestra mediante datos de simulación. En particular puede crearse un modelo físico de simulación y utilizarse en lugar de un procedimiento SLAM tradicional. Una planificación de una ruta puede realizarse en particular mediante una ejecución repetitiva de la simulación física con distintas rutas, es decir, por ejemplo distintas posibilidades de control del sistema técnico mediante diversos parámetros de regulación, en el marco de un procedimiento de aprendizaje automático. Los parámetros de regulación o parámetros de control incluyen en particular órdenes de control o instrucciones para controlar el sistema técnico. Mediante por ejemplo una evaluación positiva de las rutas, puede lograrse una planificación de ruta optimizada, ya que por ejemplo pueden incluirse leyes físicas en la planificación. Así la determinación de una secuencia de acciones favorable es en particular flexible, ya que por ejemplo la secuencia de las etapas de acción no está prescrita rígidamente.
Un sistema técnico puede ser en particular un sistema técnico autónomo, como por ejemplo un robot autónomo. Bajo determinación de una combinación de etapas de acción puede entenderse en particular una planificación de una secuencia de actuaciones, una planificación de acciones o una planificación de ruta, controlándose las distintas etapas de acción mediante parámetros de regulación. Bajo una etapa de acción puede entenderse en particular una actuación o un movimiento del sistema técnico.
Bajo una rutina de aprendizaje automático puede entenderse un procedimiento de aprendizaje automático, como por ejemplo una red neuronal. En particular puede utilizarse un procedimiento para el aprendizaje vigilado, como por ejemplo para el aprendizaje de refuerzo (en inglés: "Reinforcement Learning"). La rutina de aprendizaje automático se adiestra partiendo de un estado inicial del sistema técnico determinado mediante al menos un sensor y con referencia a un estado final pretendido. En otras palabras, un estado final pretendido se prescribe para adiestrar la rutina de aprendizaje automático y la rutina de aprendizaje automático se adiestra de forma tal que la misma determina, partiendo de un estado inicial, una combinación de etapas de acción que conducen al estado final pretendido.
El estado final pretendido puede estar por ejemplo prescrito y/o leerse como secuencia de datos. Diversas combinaciones de etapas de acción pueden conducir al estado final pretendido partiendo del estado inicial, pudiendo ser más favorables algunas de las diversas combinaciones. Las diversas etapas de acción pueden simularse asistidas por ordenador mediante el modelo de simulación y emitirse los respectivos datos de simulación. Los datos de simulación pueden incluir en particular valores de los parámetros de regulación, estados, actuaciones y reacciones del sistema técnico y efectos físicos y magnitudes del sistema técnico y de su entorno.
Cada etapa de acción y/o su repercusión puede/n evaluarse o bien cada etapa de acción puede llevar asociada una evaluación. La rutina de aprendizaje automático puede adiestrarse en particular en base a evaluaciones, que están asociadas en cada caso a una etapa de acción, como por ejemplo mediante una función de recompensa (en inglés: “reward function"). En particular pueden preferirse etapas de acción favorables, pudiendo entenderse bajo el concepto "favorable" en relación con la invención por ejemplo ventajoso, útil, adecuado, procedente, eficiente, eficiente energéticamente, rápido, por una vía corta o similar. La determinación de una combinación de etapas de acción favorables puede realizarse por ejemplo mediante una comparación de la evaluación total de las diversas combinaciones de etapas de acción, pudiendo seleccionarse aquella combinación que tiene una evaluación total favorable.
En una forma de realización ventajosa del procedimiento, puede adiestrarse la rutina de aprendizaje automático tan pronto como se disponga de datos de simulación de al menos una combinación de etapas de acción.
Puede ser en particular ventajoso ejecutar en paralelo la simulación asistida por ordenador del sistema técnico, así como el adiestramiento de la rutina de aprendizaje automático. En particular pueden calcularse varias simulaciones en paralelo. Por ejemplo, puede realizarse un cálculo en paralelo sobre más de una unidad de cálculo, como por ejemplo procesadores gráficos. Así puede lograrse por ejemplo una determinación rápida y eficiente de una combinación favorable de etapas de acción.
En otra forma de realización ventajosa del procedimiento, puede realizarse la simulación del sistema técnico y el adiestramiento de la rutina de aprendizaje automático para más de un estado final pretendido y/o para más de un estado inicial y determinarse en cada caso una combinación de etapas de acción con una evaluación favorable y memorizarse en una unidad de memoria.
Por ejemplo, puede adiestrarse más de una rutina de aprendizaje automático mediante datos de simulación para diversos estados iniciales y con referencia a diversos estados finales pretendidos y memorizarse en cada caso una combinación de etapas de acción que llevan asociada una evaluación favorable. Así puede memorizarse con preferencia para diversos estados del sistema técnico una correspondiente rutina de aprendizaje automático adiestrada, con lo que puede accederse rápidamente a la misma cuando se detecta por ejemplo un correspondiente estado inicial del sistema técnico. También es posible simular acciones similares, adiestrar una correspondiente rutina de aprendizaje automático y utilizar la misma para futuros adiestramientos, con lo que el tiempo de cálculo puede acortarse. Una unidad de memoria puede ser en particular un banco de datos.
En otra forma de realización ventajosa del procedimiento, pueden memorizarse en una unidad de memoria parámetros de regulación para una combinación optimizada de etapas de acción con una evaluación favorable en función de un estado final pretendido.
Con preferencia puede determinarse, en base a una rutina de aprendizaje automático adiestrada, una combinación de etapas de acción que lleva asociada una evaluación favorable y los correspondientes parámetros de regulación para el sistema técnico, que regulan esas etapas de acción, pueden archivarse en un banco de datos. Así pueden utilizarse los mismos por ejemplo para una actuación futura con un mismo estado inicial y estado final pretendido.
En otra forma de realización ventajosa del procedimiento pueden transmitirse al sistema técnico los parámetros de regulación, para una combinación optimizada de etapas de acción.
Los parámetros de regulación pueden transmitirse al sistema técnico para controlar el sistema técnico, con lo cual el sistema técnico puede ejecutar la combinación de etapas de acción. Con preferencia pueden transmitirse al sistema técnico solamente parámetros de regulación para controlar una combinación de etapas de acción que lleva asociada una evaluación favorable.
En otra forma de realización ventajosa del procedimiento, puede determinarse el estado final pretendido en función del estado inicial captado y/o del entorno del sistema técnico captado.
Con preferencia puede determinarse mediante al menos un sensor un estado inicial y en función de ello determinarse un estado final pretendido. Por ejemplo, puede estar asociado un estado final pretendido a un estado inicial o bien un estado final pretendido puede seleccionarse a partir de un conjunto de estados finales pretendidos predeterminados. Como ejemplo puede citarse la detección de un objeto mediante una cámara, prescribiéndose en función de la detección el estado final deseado, por ejemplo "agarrar el objeto".
En otra forma de realización ventajosa del procedimiento, puede realizarse la evaluación de una etapa de acción en función de un resultado de una etapa de acción y/o con referencia al estado final pretendido.
Una etapa de acción del sistema técnico, por ejemplo la actuación de un efector final, puede evaluarse en función del resultado o también de una repercusión de la actuación. En particular puede asociarse la evaluación a la etapa de acción. Una evaluación puede realizarse en particular en función de un estado final pretendido determinado.
En otra forma de realización ventajosa del procedimiento puede diseñarse el modelo físico de simulación en función del estado final pretendido y/o del entorno y/o de la clase de sistema técnico.
Ventajosamente puede elegirse la complejidad y/o la dimensión del modelo de simulación y de la simulación asistida por ordenador en función del estado final pretendido y/o del entorno y/o de la clase de sistema técnico.
En otra forma de realización ventajosa del procedimiento pueden captarse el entorno y el estado inicial del sistema técnico continuamente mediante un sensor y el modelo físico de simulación puede actualizarse continuamente mediante los datos del sensor.
Con preferencia se vigila un estado inicial actual y el entorno del sistema técnico continuamente o en instantes predeterminados mediante un sensor, con lo que el modelo físico de simulación puede adaptarse correspondientemente.
En otra forma de realización ventajosa del procedimiento, pueden captarse las características físicas de un objeto en el entorno del sistema técnico como datos de parámetros, memorizarse en una unidad de memoria e integrarse en el modelo físico de simulación.
Adicionalmente a la detección del objeto, pueden consultarse características físicas o parámetros de un objeto en por ejemplo un banco de datos. Por ejemplo, pueden captarse previamente y memorizarse en una unidad de memoria magnitudes físicas, como por ejemplo peso o características del material, de un objeto en el entorno del sistema técnico. Las características físicas pueden utilizarse en particular como datos de parámetros o también como datos de entrada para el modelo de simulación. Así pueden simularse detalladamente por ejemplo efectos físicos, como por ejemplo la caída de un objeto en el campo de gravitación de la Tierra.
En otra forma de realización ventajosa del procedimiento, pueden simularse diversas combinaciones de etapas de acción del sistema técnico en paralelo en el tiempo en más de una unidad de cálculo.
Con preferencia puede ejecutarse la simulación asistida por ordenador y/o el adiestramiento de una rutina de aprendizaje automático en paralelo, como por ejemplo en procesadores gráficos (en inglés: "graphics processing units", abreviadamente GPUs). Con ello puede realizarse en particular un cálculo rápido y eficiente de una combinación de etapas de acción favorables.
Otro aspecto de la invención se refiere a un equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico, que incluye:
- al menos un sensor para captar un estado inicial y un entorno del sistema técnico,
- un módulo de generación para generar un modelo físico de simulación del sistema técnico y su entorno, - un módulo objetivo para determinar un estado final pretendido para el sistema técnico,
- un módulo de simulación para simular diversas combinaciones de etapas de acción del sistema técnico mediante el modelo físico de simulación, partiendo del estado inicial y con referencia al estado final pretendido, modificándose parámetros de regulación del sistema técni
respectivos datos de simulación resultantes,
- un módulo de adiestramiento para adiestrar una rutina de aprendizaje automático en base a los correspondientes datos de simulación resultantes mediante una evaluación de un resultado de una etapa de acción correspondiente,
- un módulo de optimización para determinar una combinación optimizada de etapas de acción en base a la rutina de aprendizaje automático adiestrada, estando asociada una evaluación favorable a la combinación optimizada de etapas de acción y
- un módulo de salida para emitir los parámetros de regulación de la combinación optimizada de etapas de acción para controlar el sistema técnico.
El equipo puede estar integrado en particular en un sistema técnico o bien estar acoplado con el mismo.
En una forma de realización ventajosa incluye el equipo un módulo de transmisión para transmitir los parámetros de regulación al sistema técnico.
En otra forma de realización ventajosa incluye el equipo una unidad de memoria y/o al menos una unidad de cálculo. Una unidad de memoria puede ser por ejemplo un banco de datos. Una unidad de cálculo puede ser en particular un procesador o un procesador gráfico.
Además, incluye la invención un producto de programa informático que puede cargarse directamente en un ordenador programable, que incluye partes de código de programa, que son adecuadas para ejecutar las etapas del procedimiento de acuerdo con la invención.
En los dibujos se representan a modo de ejemplo ejemplos de realización del procedimiento y del equipo de acuerdo con la invención y se describirán más en detalle en base a la siguiente descripción. En representación esquemática muestran:
Figura 1 un diagrama secuencial de un procedimiento de acuerdo con la invención para determinar con apoyo de un ordenador parámetros de regulación para una acción favorable de un sistema técnico;
figura 2 una representación esquemática de un procedimiento de acuerdo con la invención para determinar con apoyo de un ordenador parámetros de regulación para una acción favorable de un sistema técnico y
figura 3 una representación esquemática de un equipo de acuerdo con la invención para determinar con ayuda de un ordenador parámetros de regulación para una acción favorable de un sistema técnico.
Objetos que se corresponden entre sí se han dotado en todas las figuras de las mismas referencias.
La figura 1 muestra esquemáticamente un diagrama secuencial de un procedimiento de acuerdo con la invención para determinar con apoyo de un ordenador parámetros de regulación para una acción favorable de un sistema técnico, que incluye las siguientes etapas del procedimiento.
Un sistema técnico puede ser en lo que sigue un sistema técnico autónomo, como por ejemplo un robot autónomo en un entorno industrial. El sistema técnico puede ejecutar etapas de acción individuales de una acción completa para, partiendo de una situación inicial, alcanzar un estado final pretendido determinado. Las etapas de acción se prescriben mediante parámetros de regulación, es decir, el sistema técnico se controla mediante los parámetros de regulación. En la etapa 1 del procedimiento de acuerdo con la invención se captan mediante al menos un sensor datos de un estado inicial del sistema técnico y de su entorno. El al menos un sensor puede ser parte del sistema técnico, estar acoplado con el mismo o estar asociado al mismo. Por ejemplo, puede ser el sistema técnico un robot industrial en una instalación fabril, cuya posición, orientación y entorno actual se captan mediante una cámara. El entorno puede ser por ejemplo el entorno directo en un radio de acción predeterminado del sistema técnico. Características y/o magnitudes de estado del entorno pueden ser en particular objetos que se encuentran allí o bien magnitudes físicas, como altura espacial o temperatura.
En la etapa 2 se genera un modelo físico de simulación del sistema técnico y de su entorno en base a los datos captados por al menos un sensor. En particular puede crearse ya con antelación un modelo físico de simulación del sistema técnico, que simplemente se adapta mediante los datos captados como datos de entrada. El modelo de simulación es en particular un modelo físico de simulación, estando implementadas leyes naturales, como por ejemplo la gravitación.
La complejidad y/o el dominio y/o dimensión del modelo físico de simulación puede/n elegirse en función del estado final pretendido y/o del entorno y/o de la clase de sistema técnico. Por ejemplo, es concebible que se utilice una simulación de la mecánica de cuerpo rígido para simular la acción de agarrar un objeto fijo mediante un robot. En función del sector de utilización del sistema técnico, puede estar implantada la simulación procedente de otros dominios físicos. Por ejemplo, puede ejecutar un sistema técnico autónomo un proceso químico, hidrodinámico o de economía financiera, con lo que puede diseñarse una simulación correspondiente específica del dominio, para pronosticar las repercusiones de las acciones del sistema técnico.
En la etapa 3 se determinan y leen datos de un estado final pretendido. El estado final pretendido puede existir por ejemplo como un registro de datos de parámetros o como un vector y describe en particular el estado que resulta de una acción. En particular puede estar prescrito el estado final pretendido y/o determinarse en base a la situación inicial captada. Un estado final pretendido puede indicar por ejemplo que el objeto debe haber sido agarrado por el sistema técnico mediante un efector final, describiendo un estado inicial por ejemplo el objeto en el entorno del sistema técnico. En la etapa 4 se ejecuta por ejemplo sobre uno o varios procesadores una simulación física asistida por ordenador del sistema técnico. Para ello se leen los datos del estado inicial, datos del entorno y datos del estado final pretendido y, partiendo de ellos, se establece una simulación. En particular se simula al menos una combinación de etapas de acción del sistema técnico, arrancando la simulación partiendo del estado inicial y eligiéndose las etapas de acción de forma tal que se alcance el estado final pretendido y predeterminado del sistema técnico.
Pueden leerse además características físicas de objetos del entorno, que por ejemplo están memorizadas como datos de parámetros en un banco de datos y que se tienen en cuenta en el modelo de simulación. Por ejemplo, puede captarse mediante un sensor el tamaño de un objeto a agarrar. Para ello puede utilizarse, mediante una colección de características físicas del objeto, por ejemplo la naturaleza de la superficie o el peso y utilizarse en la simulación.
Es posible también que puedan lograr el estado final pretendido distintas combinaciones de etapas de acción, partiendo de un estado inicial. Por ejemplo, puede hacer girar un robot autónomo un brazo móvil del robot alrededor de distintos ejes y alcanzar con ello una posición de destino pretendida a través de diversas rutas. Con preferencia se simulan las diversas combinaciones de etapas de acción mediante la simulación física, modificándose correspondientemente parámetros de regulación para controlar las diversas etapas de acción. A continuación, se emiten los datos de simulación de la correspondiente combinación formada por etapas de acción. Los datos de simulación pueden utilizarse como datos de adiestramiento para adiestrar un procedimiento de aprendizaje automático.
Los datos de simulación pueden en particular contener también informaciones sobre la interacción con el entorno. Por ejemplo, al asir un objeto mediante un robot puede ser procedente chocar primeramente con el objeto antes de asirlo y agarrarlo. La interacción con una pared, es decir, con el entorno y las etapas de acción que de ello resulten pueden calcularse mediante la simulación física.
En la etapa 5 se adiestra una rutina de aprendizaje automático en base a los correspondientes datos de simulación. Una rutina de aprendizaje puede ser por ejemplo una red neuronal, que se adiestra mediante Reinforcement Training. El adiestramiento puede realizarse mediante una evaluación de la correspondiente etapa de acción. Por ejemplo puede evaluarse una etapa de acción en función de un resultado de una etapa de acción y/o con referencia al estado final pretendido. Una evaluación puede indicar en particular si una etapa de acción es favorable.
La rutina de aprendizaje automático puede adiestrarse en particular tan pronto como se disponga de primeros datos de simulación calculados de una combinación de etapas de acción. La simulación y el adiestramiento de la rutina de aprendizaje automático pueden con preferencia calcularse casi en paralelo.
En la etapa 6 puede determinarse mediante la rutina de aprendizaje automático adiestrada una combinación optimizada de etapas de acción a las cuales está asociada una evaluación favorable, pudiendo entenderse bajo "optimizado" también" próximo a un óptimo". En otras palabras, puede determinarse una secuencia de etapas de acción que por ejemplo sea especialmente favorable. La determinación puede realizarse por ejemplo en base a una comparación de la evaluación total de una combinación de etapas de acción con las evaluaciones totales de otra combinación de etapas de acción. En particular puede determinarse mediante la secuencia de aprendizaje automático adiestrada una acción favorable para el sistema técnico, prescribiéndose para ello un estado final pretendido y determinándose datos de sensor de un estado inicial y de un entorno del sistema técnico.
En la etapa 7 pueden emitirse los parámetros de regulación que están asociados a la combinación optimizada de etapas de acción, para controlar el sistema técnico. Los parámetros de regulación pueden transmitirse al sistema técnico, para que el mismo pueda ejecutar la combinación favorable de etapas de acción.
La figura 2 muestra esquemáticamente un equipo 100 de acuerdo con la invención en representación de bloques. El equipo 100 puede estar por ejemplo integrado en un sistema técnico o bien estar acoplado con el mismo a través de una conexión de comunicación C.
El equipo 100 incluye al menos un sensor 101 y/o está acoplado con al menos un sensor del sistema técnico. Además incluye el equipo 100 un módulo de generación 102, para generar un modelo físico de simulación SIM del sistema técnico y de su entorno, un módulo objetivo 103, un módulo de simulación 104, un módulo de adiestramiento 105 para adiestrar una rutina de aprendizaje automático, un módulo de optimización 106 para determinar una combinación optimizada de etapas de acción en base a la rutina de aprendizaje automático, un módulo de salida 107, un módulo de transmisión 108, al menos una unidad de memoria 109 y al menos una unidad de cálculo 110. Con preferencia están acoplados los módulos y/o unidades entre sí. En particular pueden estar montadas las distintas unidades de un equipo 100 de acuerdo con la invención individualmente en diversos sistemas y estar acopladas entre sí, como por ejemplo varios sensores, que están instalados en el entorno del sistema técnico TS y con los que comunican otras unidades. Mediante el módulo de generación 102 se genera un modelo físico de simulación SIM del sistema técnico, pudiendo depender la complejidad, un dominio y una dimensión del modelo de simulación del estado inicial captado y/o del entorno. Mediante el módulo objetivo 103 se lee un estado final pretendido para el sistema técnico. El estado final pretendido debe alcanzarse mediante una combinación de etapas de acción partiendo de un estado inicial y en función del entorno del sistema técnico. El control del sistema técnico se realiza mediante parámetros de regulación, definiendo al menos un parámetro de regulación una etapa de acción.
En el módulo de simulación 104 se simulan en base al modelo de simulación SIM diversas combinaciones de etapas de acción, partiendo del estado inicial y con referencia al estado final pretendido. Pueden ejecutarse por ejemplo también varias simulaciones parciales en más de una unidad de cálculo 110. Es posible también ejecutar para diversos estados iniciales y/o diversos estados finales pretendidos al menos en cada caso una simulación y emitir los correspondientes datos de simulación.
En el módulo de adiestramiento 105 se adiestra en base a los datos de simulación, como datos de adiestramiento, una rutina de aprendizaje automático, para determinar combinaciones favorables de etapas de acción. Para ello se evalúan las distintas etapas de acción simuladas de una combinación de etapas de acción, como por ejemplo en función del correspondiente resultado de una etapa de acción. De ello resulta una rutina de aprendizaje automático adiestrada mediante los datos de simulación, que puede emitir una combinación de etapas de acción con una evaluación favorable. La rutina de aprendizaje automático adiestrada puede ser emitida por el módulo de adiestramiento 105 al módulo de optimización 106. La determinación de una combinación favorable de etapas de acción se realiza en el módulo de optimización 106. En el módulo de optimización 106 se aplica el método de aprendizaje automático adiestrado, por ejemplo sobre datos de sensor del estado inicial y del entorno, para determinar una combinación favorable de etapas de acción.
Mediante el módulo de salida 107 se emiten al sistema técnico los parámetros de regulación para controlar la combinación seleccionada de etapas de acción y mediante el módulo de transmisión 108 se transmiten al mismo para ejecutar las etapas de acción.
En la unidad de memoria 109 pueden memorizarse datos de simulación y/o parámetros de regulación. Por ejemplo, pueden ejecutarse diversas simulaciones para diversos estados iniciales y/o estados finales pretendidos. Partiendo de estos datos de simulación puede adiestrarse al menos una rutina de aprendizaje automático y en base a la rutina de aprendizaje automático adiestrada pueden determinarse combinaciones favorables de etapas de acción.
La al menos una unidad de cálculo 110 puede ser por ejemplo un procesador o un procesador gráfico, sobre el que puede ejecutar por ejemplo un producto de programa informático de acuerdo con la invención etapas del procedimiento de acuerdo con la invención. En particular pueden utilizarse varias unidades de cálculo (no se representa) para una simulación en paralelo y/o adiestramiento de la rutina de aprendizaje automático.
El equipo 100 puede utilizarse en particular para controlar un sistema técnico autónomo, determinándose etapas de acción favorables para alcanzar un estado final pretendido predeterminado mediante una rutina de aprendizaje automático y una simulación física.
La figura 3 muestra esquemáticamente un ejemplo de realización de un procedimiento de acuerdo con la invención. Como sistema técnico TS se representa un robot autónomo, que se controla mediante un equipo 100 de acuerdo con la invención de forma tal que el mismo puede ejecutar una combinación optimizada de etapas de acción favorables. El robot autónomo incluye un sensor 101, como por ejemplo una cámara, con la que puede captarse la posición y orientación del robot autónomo y de su entorno UM. La cámara está preferentemente acoplada con el equipo 100. Por ejemplo capta la cámara 101 solamente una zona predeterminada del entorno del robot TS, como por ejemplo su zona de acción. Los datos captados del entorno UM y de la orientación del robot TS se proporcionan para la simulación asistida por ordenador como datos de entrada. Además puede detectarse en el entorno del robot un objeto OBJ. Los datos de un estado inicial AZ incluyen por ejemplo el objeto OBJ y la posición del brazo del robot.
Se prescribe un estado final pretendido ZZ, como por ejemplo la captación y el asimiento del objeto OBJ mediante el brazo del robot.
En el equipo 100 se ejecuta, partiendo del estado inicial AZ y con referencia al estado final pretendido ZZ, una simulación física asistida por ordenador del robot y de su entorno, véase la etapa 4. Para ello se leen los datos captados del estado inicial AZ y del entorno UM y los datos del estado final pretendido ZZ y se crea un modelo de simulación. En particular incluye el modelo de simulación características físicas del sistema técnico TS y de su entorno UM.
Adicionalmente pueden descargarse para un objeto detectado OBJ características físicas, como por ejemplo peso, del banco de datos y utilizarse en el modelo de simulación.
Los datos de simulación se transmiten al módulo de adiestramiento 105 del equipo 100, para adiestrar una rutina de aprendizaje automático de forma tal que se determine una combinación de etapas de acción favorables, véanse las etapas 5 y 6. La rutina de aprendizaje automático se adiestra en base a los datos de simulación como datos de adiestramiento. Para ello se evalúa cada una de las distintas etapas de acción simuladas. Por ejemplo se evalúa una etapa de acción en base a su resultado. En base a la rutina de aprendizaje automático adiestrada, puede determinarse una combinación favorable de etapas de acción. Una combinación favorable de etapas de acción puede dar como resultado por ejemplo un asimiento rápido y eficiente energéticamente del objeto OBJ mediante el robot TS.
La combinación determinada de etapas de acción favorables se transmite al brazo del robot y se ejecuta mediante el mismo por medio de los correspondientes parámetros de regulación. El brazo del robot ejecuta las distintas etapas de acción, con lo que se logra el estado final pretendido ZZ y prescrito.
Todas las características descritas y/o bosquejadas pueden combinarse entre sí ventajosamente en el marco de la invención. La invención no queda limitada a los ejemplos de realización descritos.

Claims (15)

REIVINDICACIONES
1. Procedimiento para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico, incluyendo las etapas del procedimiento:
- captación (1) de un estado inicial (AZ) y de un entorno (UM) del sistema técnico (TS) mediante al menos un sensor (101),
- generación (2) de un modelo físico de simulación (SIM) del sistema técnico (TS) y de su entorno (UM),
- determinación (3) de un estado final pretendido (ZZ) para el sistema técnico (TS),
- simulación (4) de diversas combinaciones de etapas de acción del sistema técnico (TS) mediante el modelo físico de simulación (SIM), partiendo del estado inicial (AZ) y con referencia al estado final pretendido (ZZ), modificando parámetros de regulación del sistema técni
correspondientes datos de simulación resultantes,
- adiestramiento (5) de una rutina de aprendizaje automático en base a los correspondientes datos de simulación resultantes y mediante una evaluación de una etapa de acción correspondiente,
- determinación (6) de una combinación optimizada de etapas de acción en base a la rutina de aprendizaje automático adiestrada, estando asociada a la combinación optimizada de etapas de acción una evaluación favorable y
- emisión (7) de los parámetros de regulación de la combinación optimizada de etapas de acción para controlar el sistema técnico (TS).
2. Procedimiento de acuerdo con la reivindicación 1,
en el que la rutina de aprendizaje automático se adiestra tan pronto como se dispone de datos de simulación de al menos una combinación de etapas de acción.
3. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se ejecuta la simulación del sistema técnico (TS) y el adiestramiento de la rutina de aprendizaje automático para más de un estado final pretendido (ZZ) y/o para más de un estado inicial (AZ) y se determina en cada caso una combinación de etapas de acción con una evaluación favorable y se memoriza en una unidad de memoria.
4. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se memorizan en una unidad de memoria parámetros de regulación para una combinación optimizada de etapas de acción con una evaluación favorable en función de un estado final pretendido (ZZ).
5. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se transmiten al sistema técnico (TS) los parámetros de regulación, para una combinación optimizada de etapas de acción.
6. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se determina el estado final pretendido (ZZ) en función del estado inicial (AZ) captado y/o del entorno (UM) del sistema técnico (TS) captado.
7. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se realiza la evaluación de una etapa de acción en función de un resultado de una etapa de acción y/o con referencia al estado final pretendido (ZZ).
8. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se diseña el modelo físico de simulación (SIM) en función del estado final pretendido (ZZ) y/o del entorno (UM) y/o de la clase de sistema técnico (TS).
9. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se capta el entorno (UM) y el estado inicial del sistema técnico (TS) continuamente mediante un sensor y el modelo físico de simulación (SIM) se actualiza continuamente mediante los datos del sensor.
10. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se captan características físicas de un objeto (OBJ) en el entorno (UM) del sistema técnico (TS) como datos de parámetros, se memorizan en una unidad de memoria y se integran en el modelo físico de simulación (SIM).
11. Procedimiento de acuerdo con una de las reivindicaciones precedentes,
en el que se simulan diversas combinaciones de etapas de acción del sistema técnico (TS) en paralelo en el tiempo en más de una unidad de cálculo.
12. Equipo (100) para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico, que incluye:
- al menos un sensor (101) para captar un estado inicial (AZ) y un entorno del sistema técnico (TS), - un módulo de generación (102) para generar un modelo físico de simulación (SIM) del sistema técnico (TS) y su entorno (UM),
- un módulo objetivo (103) para determinar un estado final pretendido (ZZ) para el sistema técnico (TS),
- un módulo de simulación (104) para simular diversas combinaciones de etapas de acción del sistema técnico (TS) mediante el modelo físico de simulación (SIM), partiendo del estado inicial (AZ) y con referencia al estado final pretendido (ZZ), modificándose parámetros de regulación del sistema técnico (TS) para ejecutar las etapas de acción y emitiéndose respectivos datos de simulación resultantes,
- un módulo de adiestramiento (105) para adiestrar una rutina de aprendizaje automático en base a los correspondientes datos de simulación resultantes mediante una evaluación de un resultado de una etapa de acción correspondiente,
- un módulo de optimización (106) para determinar una combinación optimizada de etapas de acción en base a la rutina de aprendizaje automático adiestrada, estando asociada una evaluación favorable a la combinación de etapas de acción y
- un módulo de salida (107) para emitir los parámetros de regulación de la combinación optimizada de etapas de acción para controlar el sistema técnico (TS).
13. Procedimiento de acuerdo con la reivindicación 12,
que incluye un módulo de transmisión (108) para transmitir los parámetros de regulación al sistema técnico (TS).
14. Procedimiento de acuerdo con la reivindicación 12 ó 13,
que incluye al menos una unidad de memoria (109) y/o al menos una unidad de cálculo (110).
15. Producto de programa informático, que puede cargarse directamente en un ordenador programable, que incluye partes de código de programa, que son adecuadas para ejecutar las etapas del procedimiento de acuerdo con una de las reivindicaciones 1 a 11.
ES19734310T 2018-06-28 2019-06-19 Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico Active ES2952403T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18180479.0A EP3587046A1 (de) 2018-06-28 2018-06-28 Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems
PCT/EP2019/066145 WO2020002072A1 (de) 2018-06-28 2019-06-19 Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems

Publications (1)

Publication Number Publication Date
ES2952403T3 true ES2952403T3 (es) 2023-10-31

Family

ID=62816418

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19734310T Active ES2952403T3 (es) 2018-06-28 2019-06-19 Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico

Country Status (5)

Country Link
US (1) US20210122038A1 (es)
EP (2) EP3587046A1 (es)
CN (1) CN112292239B (es)
ES (1) ES2952403T3 (es)
WO (1) WO2020002072A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3828652A1 (de) * 2019-11-26 2021-06-02 Siemens Aktiengesellschaft Verfahren und testanordnung zum testen einer autonomen verhaltenssteuerung für ein technisches system
CN115061365B (zh) * 2022-07-22 2022-11-11 浙江中控技术股份有限公司 参数整定模型的构建方法及工业过程控制方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974737B2 (en) * 2006-10-31 2011-07-05 GM Global Technology Operations LLC Apparatus and method of automated manufacturing
DE102007001024B4 (de) * 2007-01-02 2008-10-02 Siemens Ag Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
US9597797B2 (en) * 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
DE102014212747A1 (de) * 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
US9811074B1 (en) * 2016-06-21 2017-11-07 TruPhysics GmbH Optimization of robot control programs in physics-based simulated environment
EP3537867B1 (en) * 2016-11-08 2023-08-02 Dogtooth Technologies Limited A robotic fruit picking system
WO2018143003A1 (ja) * 2017-01-31 2018-08-09 株式会社安川電機 ロボットパス生成装置及びロボットシステム
JP6577522B2 (ja) * 2017-06-07 2019-09-18 ファナック株式会社 制御装置及び機械学習装置
CN110799992B (zh) * 2017-09-20 2023-09-12 谷歌有限责任公司 使用模拟和域适配以用于机器人控制
US20190126472A1 (en) * 2017-10-27 2019-05-02 Deepmind Technologies Limited Reinforcement and imitation learning for a task
US10875176B2 (en) * 2018-04-04 2020-12-29 Kuka Systems North America Llc Process control using deep learning training model
WO2019241798A1 (en) * 2018-06-15 2019-12-19 Google Llc Self-supervised robotic object interaction
EP3613545A1 (en) * 2018-08-24 2020-02-26 Siemens Aktiengesellschaft Simulation assisted planning of motions to lift heavy objects
JP7336856B2 (ja) * 2019-03-01 2023-09-01 株式会社Preferred Networks 情報処理装置、方法及びプログラム
CN110216671A (zh) * 2019-05-14 2019-09-10 苏州软体机器人科技有限公司 一种基于计算机仿真的机械抓手训练方法及系统
CN115605328A (zh) * 2020-02-19 2023-01-13 发那科株式会社(Jp) 一种用于工业机器人的碰撞避免运动规划方法
CN111300431B (zh) * 2020-03-31 2021-04-23 山东大学 面向跨场景的机器人视觉模仿学习方法及系统
EP4060439A1 (en) * 2021-03-19 2022-09-21 Siemens Aktiengesellschaft System and method for feeding constraints in the execution of autonomous skills into design

Also Published As

Publication number Publication date
CN112292239B (zh) 2024-03-12
EP3793785A1 (de) 2021-03-24
CN112292239A (zh) 2021-01-29
WO2020002072A1 (de) 2020-01-02
EP3587046A1 (de) 2020-01-01
US20210122038A1 (en) 2021-04-29
EP3793785B1 (de) 2023-07-26

Similar Documents

Publication Publication Date Title
Malinowski et al. Comparison of embedded system design for industrial applications
Thuruthel et al. Learning global inverse kinematics solutions for a continuum robot
ES2952403T3 (es) Procedimiento y equipo para la determinación asistida por ordenador de parámetros de regulación para una acción favorable de un sistema técnico
Köker et al. A neuro-genetic-simulated annealing approach to the inverse kinematics solution of robots: a simulation based study
Tajdari et al. Robust control of a 3-dof parallel cable robot using an adaptive neuro-fuzzy inference system
Passalis et al. Opendr: An open toolkit for enabling high performance, low footprint deep learning for robotics
Sanfilippo et al. A universal control architecture for maritime cranes and robots using genetic algorithms as a possible mapping approach
US10875176B2 (en) Process control using deep learning training model
Sanfilippo et al. A benchmarking framework for control methods of maritime cranes based on the functional mockup interface
Zeng et al. Learning robust policies for generalized debris capture with an automated tether-net system
Joukov et al. Constrained dynamic parameter estimation using the extended Kalman filter
Sanfilippo et al. A wave simulator and active heave compensation framework for demanding offshore crane operations
Filaretov et al. Autonomous mobile university robots AMUR: Technology and applications to extreme robotics
WO2008136737A1 (en) Self learning robot
Yakushko THE CATEGORIES OF SPECIALIZED VOCABULARY IN THE SPHERE OF AUTOMATION TO DEVELOP STUDENTS’FOREIGN LANGUAGE COMMUNICATIVE SKILLS
Miková et al. Simulation model of manipulator for model based design
US11514268B2 (en) Method for the safe training of a dynamic model
Huang et al. Collision-free path planning method with learning ability for space manipulator
Bahrpeyma et al. Application of Reinforcement Learning to UR10 Positioning for Prioritized Multi-Step Inspection in NVIDIA Omniverse
Bakhshiev et al. Application the spiking neuron model with structural adaptation to describe neuromorphic systems
Pozna et al. Developing rapid prototype-capable applications for industrial mobile robot platforms
Gao et al. Towards Autonomous Robotic Systems: 18th Annual Conference, TAROS 2017, Guildford, UK, July 19–21, 2017, Proceedings
Osburg et al. Using deep neural networks to improve contact wrench estimation of serial robotic manipulators in static tasks
Chouraqui et al. Multi-objective biogeography-based optimization technique for tuning PUMA 560’s controller
Padois Control and design of robots with tasks and constraints in mind