ES2966145T3

ES2966145T3 - Procedimiento implementado por ordenador, dispositivo para el procesamiento de datos y sistema informático para controlar un equipo de regulación de un sistema de transporte

Info

Publication number: ES2966145T3
Application number: ES21159819T
Authority: ES
Inventors: Dr Clemens Otte; Dr Daniel Hein; Dr Marc Christian Weber; Michael Zettler; Dr Frank Pfeiffer; Martin Schall
Original assignee: Koerber Supply Chain Logistics GmbH
Current assignee: Koerber Supply Chain Logistics GmbH
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2024-04-18
Anticipated expiration: 2041-03-01
Also published as: EP4302159A1; PT4302159T; ES2992341T3; CA3212285A1; US20240140724A1; EP4053650B1; EP4302159B1; EP4053650A1; PT4053650T; DK4053650T3; WO2022184358A1

Abstract

La aplicación de métodos de aprendizaje por refuerzo a sistemas transportadores (2) para mercancías por piezas (4) alcanza rápidamente sus límites debido al elevado número de elementos transportadores individuales (12), que determina la dimensionalidad de los vectores de acción (a(t)). La invención describe un método implementado por ordenador, un dispositivo para el procesamiento de datos y un sistema informático para controlar un dispositivo de control de un sistema transportador (2) con elementos transportadores (12) controlables individualmente, para conseguir una alineación y/o una distancia definida. de los artículos por pieza (4), el control del dispositivo de control (14) está determinado por un agente que actúa según métodos de aprendizaje por refuerzo. Utilizando una imagen, se crea un vector de estado local individual sn(t) de dimensiones predeterminadas para cada uno de los bienes por pieza (4n) y la dimensión es la misma para todos los bienes por pieza (4). Individualmente para cada bien (4n), se selecciona un vector de acción (an(t)) de un espacio de acción de acuerdo con una estrategia (política) que es la misma para todos los bienes (4, 4n) para el período actual. vector de estado (sn(t)) de este bien (4). . Estos vectores de acción (an(t)) se proyectan sobre los elementos transportadores (12), con lo que se resuelven los conflictos (por ejemplo, varios vectores de acción (an(t)) se asignan al mismo elemento transportador (12)). Una vez transcurrido un tiempo de ciclo (Δt), se crean nuevamente vectores de estado (sn(t+Δt)) para cada pieza de bien (4n) y se evalúan con recompensas y se ajusta la estrategia. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento implementado por ordenador, dispositivo para el procesamiento de datos y sistema informático para controlar un equipo de regulación de un sistema de transporte

La presente invención se refiere al campo técnico de los sistemas de transporte para bultos sueltos, en particular mediante sistemas de transporte adecuados para la separación en piezas(singulation)y/u orientación de los bultos sueltos.

En el sector de la logística, los singularizadores se utilizan para separar en piezas un flujo entrante de muchos bultos sueltos sin ordenar, en particular envíos postales como pequeños paquetes y paquetes o bultos, es decir, para crear una distancia definida entre paquetes individuales y, a menudo, también para garantizar una orientación determinada. de los bultos sueltos. Esto es necesario para poder procesar los bultos sueltos en etapas de proceso posteriores del proceso, por ejemplo para escanear direcciones. Otro objetivo es maximizar el rendimiento (paquetes/hora) manteniendo una cierta calidad de regulación (distancias y orientación) determinada, así como posiblemente otras condiciones adicionales, como reducir el consumo de energía y el desgaste.

Se trata de singularizadores con recorridos de transporte que discurren en paralelo, que presentan en cada caso una multitud de elementos transportadores dispuestos uno detrás de otro, en los que se monitoriza la posición y orientación de los bultos sueltos mediante sensores (p. ej. cámaras). Un singularizador está controlado por un equipo de regularización. Los bultos sueltos que se introducen en el singularizador como una corriente desordenada de bultos sueltos deben transportarse por los elementos transportadores y, mientras tanto, separarse en piezas y alinearse a distancias definidas. Las cintas transportadoras de todos los elementos transportadores se pueden controlar por separado, en donde los valores nominales de las velocidades se especifican mediante un control. Los procesos de regulación se establecen en condiciones de prueba, antes de la instalación en el cliente final, con un flujo estándar de mercancías con una determinada distribución fija de propiedades de bultos sueltos. Dependiendo de la disposición actual de los bultos sueltos en el sistema de transporte captada por los sensores, el control el control individual de las velocidades de transporte de todos los elementos transportadores, predeterminado para esta disposición se selecciona mediante el control y los elementos transportadores se controlan correspondientemente, es decir, los elementos transportadores se aceleran y desaceleran de manera diferente. El ajuste óptimo, manual o asistido manualmente, de estos procesos de regulación es muy complejo, porque para lograr una separación en piezas y disposición eficientes, las velocidades de los elementos transportadores deben reajustarse en un ciclo muy alto (por ejemplo, 30 ms).

Además, este ajuste previo de los procesos de regulación sólo es muy eficaz y fiable para la separación en piezas y orientación si los bultos sueltos realmente transportados en el sistema de transporte presentan propiedades similares (distribución de peso, propiedades de fricción, tamaño, forma, material, ...) como los productos estándar utilizados para el ajuste previo. Sin embargo, si el espectro de productos presenta propiedades diferentes a las de los productos estándar (por ejemplo, pequeños paquetes de plástico más lisos y resbaladizos en lugar de paquetes o pequeños paquetes de cartón antideslizantes), los bultos sueltos no reaccionan a un cambio en los parámetros como los productos estándar. Estas propiedades a este respecto no son necesariamente observables directamente en la imagen de la cámara, pero influyen en la dinámica, por ejemplo, a través de un tiempo muerto modificado cuando cambia la velocidad. Las adaptaciones a situaciones específicas del cliente después de la puesta en servicio son difíciles, en particular si las propiedades del flujo de mercancías individuales en el cliente respectivo continúan cambiando con el tiempo después de la puesta en servicio de la instalación.

Hasta ahora, el problema se ha resuelto mediante una combinación de procesamiento de imágenes clásico y diseño de regulador manual, es decir, reconociendo los paquetes en la imagen de la cámara, convirtiéndolos en una representación interna (por ejemplo, polígonos) y diseñando manualmente un regulador adecuado, por ejemplo, un regulador PID asumiendo una cierta distribución estadística esperada del flujo de paquetes. También por regla general se utilizan simulaciones. El problema a menudo se simplifica cuando el controlador se concentra en el paquete de más adelante en cada caso de un flujo de bultos sueltos e ignora inicialmente otros paquetes, lo que, sin embargo, puede reducir la calidad de regulación.

Debido al gran número de elementos transportadores, el control es complejo desde el punto de vista de la tecnología de regulación, ya que la dimensión de este problema de regulación corresponde al número de elementos transportadores en el sistema de transporte. Adaptar los procesos de control basados en singularizadores ya ajustados a singularizadores adicionales con diferente número y longitud de elementos transportadores es complejo. La combinación de tiempos de ciclo elevados y alta dimensión no permite que los métodos normales de aprendizaje automático se adapten al flujo de bultos sueltos real. El documento EP 3287 396 A1 da a conocer un sistema de transporte para transportar bultos sueltos con control de la distancia entre bultos sueltos. Se utiliza un algoritmo de aprendizaje iterativo para detectar la posición de los objetos.

Por lo tanto, la presente invención se basa en el objetivo de proporcionar un procedimiento y un dispositivo que ofrezca una mejora con respecto al estado de la técnica. El objetivo se consigue mediante las soluciones descritas en las reivindicaciones independientes. De las reivindicaciones dependientes resultan diseños ventajosos.

La solución de acuerdo con la invención proporciona un procedimiento implementado por ordenador para controlar un equipo de regulación de un sistema de transporte para el transporte de bultos sueltos de al menos un tipo, en particular envíos postales y bultos. El sistema de transporte presenta una multitud de elementos transportadores orientados a lo largo y paralelos a una dirección de transporte, los elementos transportadores se accionan controlando el equipo de regulación mediante un accionamiento asignado en cada caso con una velocidad ajustable individualmente para lograr una orientación y/o una distancia definida. entre los bultos sueltos. El control del equipo de regulación está determinado por al menos un agente, que actúa o está predeterminado según métodos de aprendizaje por refuerzo(reinforcement learning),que, de acuerdo con una estrategia, selecciona en términos de situación una acción de un espacio de acción para un estado inicial con el fin de llegar a un estado subsiguiente, en donde los estados con vectores de estado y las acciones se pueden representar con vectores de acción. El procedimiento comprende las etapas de procedimiento:

a) crear una imagen inicial del sistema de transporte.

b) Para cada uno de los bultos sueltos en la imagen, crear individualmente un vector de estado fijado previamente, por tanto, predeterminado, y para todos los bultos sueltos de un tipo de la misma dimensión, que comprende información de estado de del bulto suelto correspondiente extraída de la imagen creada inmediatamente antes (imagen inicial o posterior).

c) Para cada bulto suelto, seleccionar individualmente un vector de acción de un espacio de acción de acuerdo con la misma estrategia (política) para todos los bultos sueltos de un tipo para el vector de estado actual de este bulto suelto, en donde la dimensión del vector de acción está predeterminada.

d) Para cada bulto suelto, representar el vector de acción en los elementos transportadores reales de este bulto suelto para determinar la velocidad de estos elementos transportadores y el control correspondiente de los elementos transportadores, es decir, un ajuste de la velocidad de los accionamientos de estos. elementos transportadores, con el equipo de regulación.

e) Después de que haya transcurrido un tiempo de ciclo, crear una imagen subsiguiente del sistema de transporte y realizar la etapa de procedimiento b) para obtener un vector de estado del estado subsiguiente (vector de estado subsiguiente) para cada bulto suelto.

f) Si la estrategia para bultos sueltos (4) de un tipo debe seguir entrenándose durante la realización del procedimiento, el vector de estado del estado subsiguiente se evalúa para cada bulto suelto de este tipo mediante un método del aprendizaje por refuerzo basado en una recompensa. después de lo cual el agente entrena y, por tanto optimiza, su estrategia para bultos sueltos (4) de este tipo, adaptando los vectores de acción del espacio de acción.

g) Realizar de nuevo las etapas de procedimiento c) - f) para cada bulto suelto, utilizando la estrategia mejorada o predeterminada, siempre que el bulto suelto correspondiente se represente en la imagen subsiguiente. El procedimiento también se realiza para bultos sueltos nuevos que aparecen en la imagen.

La solución de acuerdo con la invención se refiere a un dispositivo para el procesamiento de datos para un control implementado por ordenador de un equipo de regulación de un sistema de transporte para el transporte de bultos sueltos de al menos un tipo, en particular envíos postales y bultos. El sistema de transporte presenta una multitud de elementos transportadores orientados a lo largo y paralelos a una dirección de transporte, en donde los elementos transportadores se accionan controlando el equipo de regulación mediante un accionamiento asignado en cada caso con una velocidad ajustable individualmente para lograr una orientación y/o una distancia definida. entre los bultos sueltos. El control del equipo de regulación está determinado por al menos un agente que actúa según métodos de aprendizaje por refuerzo, que, de acuerdo con una estrategia para bultos sueltos de un tipo, selecciona en términos de situación una acción a partir de un espacio de acción para llegar a un estado subsiguiente, en donde los estados con vectores de estado y las acciones se pueden representar con vectores de acción, en donde los bultos sueltos en el sistema de transporte pueden registrarse mediante al menos un sensor y el equipo de regulación comprende una unidad de cálculo. El dispositivo comprende medios para la realización del procedimiento de acuerdo con la invención.

La solución de acuerdo con la invención se refiere además a un sistema de transporte para el transporte de bultos sueltos de al menos un tipo, en particular envíos postales y bultos, que presenta una multitud de elementos transportadores orientados a lo largo y paralelos a una dirección de transporte. Los elementos transportadores se accionan mediante un accionamiento asignado en cada caso con una velocidad ajustable individualmente bajo el control de un equipo de regulación para lograr una orientación y/o una distancia definida de los bultos sueltos. El control del equipo de regulación está determinado por al menos un agente que actúa según métodos de aprendizaje por refuerzo, que, de acuerdo con una estrategia que es la misma para todos los bultos sueltos de un tipo, selecciona en términos de situación una acción de un espacio de acción para un estado inicial para llegar a un estado subsiguiente, en donde los estados con vectores de estado y las acciones se pueden representar con vectores de acción, que comprende un dispositivo de acuerdo con la invención.

La solución de acuerdo con la invención se refiere además a un programa informático que comprende instrucciones que, cuando se ejecutan por una unidad de cálculo conectada a un sistema de transporte de acuerdo con la invención, le inducen a ejecutar el procedimiento de acuerdo con la invención.

El dispositivo, el sistema de transporte y el programa informático, en la medida en que sean transferibles, presentan las mismas ventajas que se enumeran respecto al procedimiento presentado.

Las características de procedimiento también pueden verse formuladas como una propiedad de la unidad de dispositivo correspondiente y viceversa.

La aplicación de un método del aprendizaje por refuerzo a todos los bultos sueltos (de un tipo) y a todos los elementos transportadores de un sistema de transporte al mismo tiempo es un problema de grandes dimensiones, porque para cada tiempo de ciclo se debe determinar una velocidad individualmente para cada elemento transportador. Esto no se puede resolver a partir de un número determinado de elementos transportadores dentro del tiempo de ciclo (p. ej. 30 ms) típico en sistemas transportadores como los singularizadores. Al descomponer el problema de regulación de todos los elementos transportadores en vectores de acción locales de un bulto suelto, la dimensión se reduce hasta tal punto que una unidad de cálculo es capaz de aplicar un método de aprendizaje por refuerzo a esta pluralidad de dimensiones bajas y, por tanto, menos problemas complejos dentro del tiempo de ciclo requerido. Al fijar previamente la dimensión de los vectores de estado de todos los bultos sueltos, la dimensión de cada vector de estado está predeterminada y la dimensión de los vectores de estado de todos los bultos sueltos coincide. Además, a partir de un número determinado de elementos transportadores en el sistema de transporte, la dimensión de los vectores de acción es menor que el número de elementos transportadores. El vector de acción representa la función motora disponible de los elementos transportadores y no se realiza ningún cambio cuando un bulto suelto ya se presenta perfectamente orientado y a la distancia deseada de los bultos sueltos contiguos. En este caso, de acuerdo con una realización, a los vectores de acción se les pueden aplicar previamente valores estándar del sistema de transporte. El agente (de cada tipo de bulto suelto) también obtiene no sólo una recompensa por cada tiempo de ciclo, sino también tantas recompensas por cada tiempo de ciclo como bultos sueltos que van a singularizarse de un tipo sobre los elementos transportadores. El número de bultos sueltos y el número de tipos de bultos sueltos no cambian el principio de procedimiento. De este modo, el agente aprende más rápido porque la estrategia no se entrena una sola vez con una sola pasada, sino según el número de bultos sueltos y, por tanto, se optimiza más rápidamente. Esto permite que el procedimiento se ajuste con especial rapidez a un flujo cambiante de bultos sueltos.

Mediante el ajuste de la velocidad se acelera o desacelera un elemento transportador mediante su accionamiento, con lo que los elementos transportadores cambian la orientación y la posición del bulto suelto que descansa sobre ellos. Antes de que comience el procedimiento, se pueden asignar valores estándar a todos los elementos transportadores del bulto suelto. Las imágenes se obtienen a través de una imagen de cámara (sensor de imagen) y/o a través de otros sensores para determinar el lugar y la posición de los bultos sueltos y se convierten en una imagen que se puede describir mediante vectores de estado.

De acuerdo con una forma de realización, los bultos sueltos en la imagen se pueden asociar a un primer tipo y al menos a otro tipo, dependiendo de las propiedades de los bultos sueltos, y para cada tipo asignado se puede proporcionar un agente con una estrategia para bultos sueltos de este tipo. Cuando para todos los bultos sueltos en la imagen se utiliza la misma estrategia, todos los bultos sueltos pertenecen a un tipo y los bultos sueltos no se asocian. Sin embargo, cuando se transportan tipos de bultos sueltos fáciles de diferenciar (por ejemplo, paquetes de cartón como bultos sueltos del primer tipo y pequeños paquetes de bolsas de plástico como bultos sueltos del segundo tipo; maletas rígidas como bultos sueltos del primer tipo y bolsas de viaje flexibles como bultos sueltos del segundo tipo; ...) en el mismo sistema de transporte entonces estos tipos de bultos sueltos presentan diferentes propiedades de adherencia y fricción. Incluso en el mismo estado inicial (misma orientación, misma superficie de descanso en los mismos elementos transportadores), estos tipos de bultos sueltos reaccionan de manera diferente a un control de los elementos transportadores seleccionados de acuerdo con los vectores de acción, es decir, alcanzan un estado subsiguiente diferente incluso con control idéntico de los elementos transportadores sobre los que descansan. Aunque este estado subsiguiente no se diferenciará mucho, aún puede tener sentido utilizar diferentes estrategias para estos diferentes tipos de bultos sueltos. El sistema de transporte puede determinar el tipo de bulto suelto, por ejemplo, basándose en la imagen, y luego asignar una estrategia propia a cada tipo de bulto suelto asociado, es decir, la estrategia uno para paquetes de cartón y la estrategia dos para paquetes pequeños de bolsas de plástico, así como cualquier otra estrategia para otros tipos de bultos sueltos.

De acuerdo con una forma de realización, para cada tiempo de ciclo y para cada bulto suelto se pueden determinar las velocidades de aquellos elementos transportadores sobre los que descansa el bulto suelto, pero sobre los que no se ha representado ningún vector de acción de este bulto suelto, y estos mismos elementos transportadores se pueden controlar individualmente de manera correspondiente con el equipo de regulación. Las velocidades se pueden determinar interpolando las velocidades de aquellos elementos transportadores contiguos en los que se ha representado un vector de acción de este bulto suelto. Esto soluciona el problema de que la dimensión del vector de acción no se corresponde necesariamente con el número de elementos transportadores sobre los que descansa el bulto suelto. Para esta tarea de interpolación es adecuada, por ejemplo, la interpolación bilineal.

De acuerdo con una forma de realización, para cada tiempo de ciclo, es decir, siempre simultáneamente con la determinación de las velocidades de los elementos transportadores de acción, se determinan las velocidades de todos aquellos elementos transportadores sobre los que ni descansa ningún bulto suelto ni sobre los cuales se ha representado ningún vector de acción de un bulto suelto y se controla individualmente de manera correspondiente estos elementos transportadores individuales con el equipo de regulación. Las velocidades se pueden determinar mediante interpolación, por ejemplo, interpolación bilineal de las velocidades de aquellos elementos transportadores contiguos en los que se ha representado un vector de acción de este bulto suelto. Para los elementos transportadores de borde se pueden asumir condiciones marginales especiales. Adicional o alternativamente, las velocidades se pueden determinar basándose en los parámetros de velocidad del sistema de transporte. Estos pueden ser valores estándar de la instalación o de la simulación, por ejemplo, el promedio de todos los elementos transportadores del vector de acción. De forma adicional o alternativa, la velocidad de los elementos transportadores, en cuyos elementos transportadores contiguos se ha representado el vector de acción de un bulto suelto, se puede seleccionar de modo que coincidan con la velocidad de este elemento transportador contiguo. De forma adicional o alternativa, las velocidades para algunos o todos estos elementos transportadores pueden ser idénticas y pueden determinarse a partir del promedio de las velocidades de los elementos transportadores a los que se ha representado un vector de acción de un bulto suelto. Al accionar incluso aquellos elementos transportadores sobre los que en este momento no descansa ningún bulto suelto, no es necesario acelerarlos desde cero cuando sobre ellos se representa una velocidad del vector de acción en el siguiente tiempo de ciclo. El control de estos elementos transportadores también tiene sentido, ya que durante el tiempo del ciclo se puede transportar un bulto suelto sobre uno o varios de estos elementos transportadores.

De acuerdo con una forma de realización, la información de estado de un bulto suelto representada en el vector de estado puede comprender posición y/u orientación.

De acuerdo con una forma de realización, la información de estado representada en el vector de estado o la información de estado representada de otra manera de un bulto suelto comprenden además la superposición del bulto suelto con aquellos elementos transportadores sobre los que descansa el bulto suelto y/o información de estado de un número predeterminado de siguientes bultos sueltos contiguos dentro de una distancia predeterminada, que comprende al menos su posición y/o distancia con respecto al bulto suelto del vector de estado, por lo que al vector de estado se le aplican valores estándar en caso de un número menor que el número predeterminado de siguientes bultos sueltos contiguos; y/o la velocidad y/o tamaño del bulto suelto; y/o información de estado global del sistema de transporte, que comprende, por ejemplo, un número de bultos sueltos en el sistema de transporte, velocidad promedio del sistema de transporte, priorización de bultos sueltos individuales, por ejemplo basándose en el tamaño y/o criterio de clasificación. Los valores estándar pueden representar, por ejemplo, bultos sueltos virtuales, ya perfectamente orientados a la distancia deseada, de modo que estos bultos sueltos virtuales tengan la menor influencia perturbadora posible en la regulación de los bultos sueltos considerados.

El número real de cintas sobre las que descansa un bulto suelto varía dependiendo del tamaño y la orientación del bulto suelto. Sin embargo, los vectores de acción tienen una dimensión constante. Para resolver este problema, el vector de acción sólo puede describir velocidades que se encuentran por debajo de puntos o zonas superficiales del bulto suelto. Son puntos predeterminados adecuados, por ejemplo, los vértices de un rectángulo circunstante y/o un centro de gravedad aproximado. La ubicación y la posición del bulto suelto se abstrae y se determina mediante una selección de parámetros de descanso, que se seleccionan de tal manera que puedan verse influenciados por los vectores de acción. De este modo, el bulto suelto real siempre se describe con un número fijo de parámetros en cuanto a su descanso en el sistema de transporte. Las propiedades del bulto suelto se resumieron en parámetros del modelo que pueden verse influenciados por el vector de acción, cuyo número corresponde a la dimensión del vector de acción.

Cuando los vectores de acción asignados por el agente para dos o más bultos sueltos se representan en al mismo elemento transportador, se debe decidir a qué valor se le da qué prioridad. Este conflicto se puede resolver priorizando y/o promediando ponderadamente las velocidades especificadas por los vectores de acción en función de la superposición respectiva de estos bultos sueltos con este elemento transportador y/o de la calidad de los vectores de estado. El elemento transportador correspondiente se controla de acuerdo con el resultado.

Si dos elementos del vector de acción de un bulto suelto están representados en el mismo elemento transportador, este elemento transportador puede controlarse con un promedio de estos elementos o se puede dar preferencia en su totalidad o ponderado a uno de los elementos.

De acuerdo con una forma de realización, la imagen se puede evaluar usando métodos de procesamiento de imágenes y los vectores de estado se pueden crear basándose en la imagen evaluada. Los bultos sueltos se simulan, por ejemplo, con rectángulos que los circunscriben.

De acuerdo con una forma de realización, se puede realizar un primer intento de crear los vectores de estado automáticamente a partir de la imagen utilizando aprendizaje por refuerzo profundo. Por lo tanto, se puede realizar un primer intento o un nuevo intento de crear los vectores de estado a partir de la imagen original. A este respecto, la representación de los vectores de estado no se especifica, sino que se aprende automáticamente a partir de la imagen (de la cámara) mediante aprendizaje por refuerzo profundo(deep reinforcement learning);por lo tanto, los vectores de estado se forman directamente en función de la ocupación de píxeles de la imagen de la cámara digital. Si, por el contrario, los vectores de estado se determinan mediante la etapa intermedia de los métodos de procesamiento de imágenes realizados sobre la imagen, los vectores de estado se definen mediante conocimiento experto y los errores en el procesamiento de imágenes afectan directamente a los vectores de estado. Si por alguna razón este primer intento de crear una imagen o parte de una imagen no tiene éxito, a continuación se puede intentar evaluar los vectores de estado para esta imagen o parte de esta imagen usando métodos de procesamiento de imágenes para obtener los vectores de estado.

Además, para obtener un agente más previsor, el agente de aprendizaje puede optimizar su estrategia basándose en la comparación de los vectores de estado del estado inicial y del estado subsiguiente basado en una recompensa y adaptar los vectores de acción del espacio de acción.

Para proporcionar al agente una primera estrategia con poco esfuerzo, de modo que el cliente ya disponga de una estrategia sólida y, por tanto, de un sistema de transporte funcional, la estrategia del agente para bultos sueltos de un tipo determinado se puede entrenar con un sistema de transporte virtual (y, por tanto, bultos sueltos virtuales y elementos transportadores virtuales) o con un sistema de transporte real. Si ya se ha entregado una estrategia predeterminada, se puede prescindir de un entrenamiento de la estrategia durante la realización del procedimiento, por ejemplo, si el flujo de bultos sueltos es muy similar o el sistema informático del explotador del sistema de transporte carece de capacidad de cálculo.

A continuación se explican con más detalle formas de realización de la invención mediante las figuras a modo de ejemplo. A este respecto, muestran:

figura 1 un sistema de transporte en la vista superior;

figura 2 una selección de posibles disposiciones de los elementos transportadores;

figura 3 un diagrama de flujo para determinar el vector de acción;

figura 4 el principio de un sistema de aprendizaje por refuerzo;

figura 5 un bulto suelto con puntos de esquina y un centro de gravedad estimado;

figura 6 velocidades determinadas a modo de ejemplo de los elementos transportadores sobre los que descansa un bulto suelto;

La figura 1 muestra un sistema de transporte 2 adecuado, que transporta bultos sueltos 4 a lo largo de una dirección de transporte principal 6 sobre un recorrido de transporte 8 descansando sobre transportadores 12 con un campo de aplicación típico como singularizador 2 en el sector postal y logístico. Los transportadores 12 están dispuestos paralelamente a la dirección de transporte principal 6 en segmentos 10 dispuestos uno detrás de otro a lo largo de la dirección de transporte principal 6, orientados y a lo largo de una línea. Los bultos sueltos 4 se entregan para el transporte de un segmento 10 al siguiente segmento 10 en cada caso y descansan sobre varios transportadores 12 al mismo tiempo y, por lo tanto, pueden separarse en piezas y/o girarse durante su transporte cuando los transportadores 12 están controlados individualmente mediante un equipo de regulación no mostrado en este caso, por ejemplo, haciendo funcionar el transportador 12 sobre el que descansa el bulto suelto 4 correspondiente a una velocidad de transporte 16 mayor que los transportadores 12 contiguos. Para ello, el equipo de regulación comprende para ello una unidad de cálculo, no representada en la figura. El sistema de transporte 2 comprende varios sensores 26 dispuestos por encima y a lo largo del recorrido de transporte y diseñados como detectores ópticos. Pero en principio también se pueden utilizar otros tipos de sensores, siempre que la unidad de cálculo sea capaz de crear los vectores de estado de los bultos sueltos 4 a partir de la entrada del sensor. En principio, un único sensor 26 puede ser suficiente si el ángulo de visión es bueno.

El sistema de transporte 2 está subdividido a lo largo de la dirección de transporte principal 6 en segmentos 18, 20, 22, 24, que ejecutan esencialmente diferentes tareas. En primer lugar se intenta ampliar la distribución de bultos sueltos en un dispositivo de ensanchamiento 18 basándose en la disposición de los elementos transportadores 12. A continuación se realiza el transporte a lo largo de la dirección de transporte principal 6 sobre un transportador de transferencia 20. El transportador de transferencia 20 comprende dos segmentos 10b, 10c, que comprenden en cada caso solo un único transportador 12 que abarca todo el ancho del recorrido de transporte 8. Para una corrección especialmente eficaz de la orientación, los segmentos 10d - 10h o sus transportadores 12 en la sección de orientación 22 son relativamente cortos.

Para una corrección de la distancia especialmente eficaz, los segmentos 10d - 10h o sus transportadores 12 en la sección de corrección de distancia 24 están diseñados más largos que los de la sección de orientación 22. Es posible dividir las secciones 22, 24 del sistema de transporte 2 en subsistemas transportadores con diferentes estrategias (mayor recompensa por una buena orientación en la sección de orientación 22 o por distancias bien ajustadas en la sección de corrección de distancia 24), de modo que se utiliza en cada caso una estrategia optimizada u optimizable de la sección 22, 24 correspondiente. Sin embargo, este enfoque de dividir en diferentes secciones 22/24 es particularmente adecuado para sistemas transportadores 2 que no utilizan métodos de aprendizaje por refuerzo. De acuerdo con una forma de realización se otorga además una recompensa basándose en una comparación de los vectores de estado del estado inicial y posterior s<n>(t), s<n>(t+At) para lograr una optimización aún mejor y más rápida de la estrategia.

El comportamiento de regulación óptimo del equipo de regulación del sistema de transporte 2 lo aprende la máquina mediante aprendizaje por refuerzo (figura 4). En este sentido, un "agente" interactúa con el entorno, que puede ser una instalación concreta como sistema de transporte 2, su simulación/gemelo digital o un modelo aprendido basado en datos ("modelo sustituto") de la instalación 2 o simulación. Las acciones que influyen en el entorno son las velocidades v de todos los elementos transportadores 12 (por ejemplo, cintas transportadoras) y se representan como motricididad disponible en vectores de acción a<n>(t) con unas dimensiones menores que el número de elementos transportadores 12. Las observaciones que están a disposición del agente como datos de entrada son imágenes del sistema de transporte, en particular basadas en cámaras 26 y/u otros datos de sensores, y se representan en vectores de estado s<n>(t). Si el vector de estado s<n>(t) de un bulto suelto 4 ya tiene la orientación deseada y una distancia suficiente con respecto a los bultos sueltos 4' contiguos, el vector de acción representará un transporte adicional sencillo en la dirección de transporte 6. El comportamiento del agente se optimiza mediante una señal de recompensa que describe la calidad de la situación actual. Esencialmente, la calidad está determinada por la posición/orientación y las distancias mutuas de los paquetes 4. Por ejemplo, el valor de la recompensa es alto si los paquetes 4 tienen una distancia teórica definida entre sí y se encuentran en un ángulo determinado sobre el sistema de transporte 2 o sus elementos transportadores 12. Además, también se pueden tener en cuenta como recompensa el consumo de energía, el consumo durante toda la vida, las emisiones de ruido, etc.

Dado que se conocen los métodos de aprendizaje por refuerzo, en particular mediante una red neuronal o una red neuronal recurrente, incluida la determinación del modelo del sistema, se omite en este punto una descripción más detallada. Los métodos comunes (por ejemplo, NFQ, DQN, optimización de políticas próximas) pueden usarse en principio para la invención.

De acuerdo con una forma de realización, los bultos sueltos 4 en la imagen se asocian a un primer tipo y al menos a otro tipo, dependiendo de las propiedades de los bultos sueltos 4. Un agente proporcionará una estrategia propia para cada tipo de bulto suelto asociado. Si solo se utiliza una estrategia para todos los bultos sueltos 4, no es necesario realizar ninguna asociación.

La asociación de los bultos sueltos 4 a un tipo se realiza en función de las propiedades de los bultos sueltos. La asociación se puede realizar basándose en la imagen o determinarse previamente (p. ej. en una estación de clasificación), en donde es necesario realizar un seguimiento preciso de cada bulto suelto durante el procedimiento para no perder la asociación a un tubo suelto individual. Las posibles propiedades que determinan las asociaciones a un tipo de bulto suelto pueden ser categoría (paquetes pequeños, paquetes, cartas grandes, ...), material de embalaje (cartón o plástico), peso (ya que influye en la adherencia a los elementos transportadores), tamaño (determina sobre cuantos elementos transportadores descansa un bulto suelto) .... El sistema de transporte determina el tipo de bultos sueltos 4, por ejemplo, basándose en la imagen o mediante sensores adicionales, y luego asigna su propia estrategia a cada tipo de bulto suelto asignado, por ejemplo, estrategia uno para paquetes de cartón pesados y estrategia dos para paquetes de cartón ligeros, estrategia tres para pequeños paquetes con bolsas de plástico, estrategia cuatro para paquetes pequeños con bolsas de plástico ligeros, así como cualquier estrategia adicional para otros tipos de bulto suelto.

La figura 2 no muestra de manera concluyente posibles disposiciones de los elementos transportadores 12 del sistema de transporte 2. En la Figura 2a, todos los elementos transportadores 12 están dispuestos en una red como una matriz. Esta forma es la más fácil de describir y también la representación de un vector de acción a<n>(t) sobre los elementos transportadores 12 reales es especialmente sencilla y produce siempre un efecto comparable a través de los elementos transportadores 12 controlados que con otra disposición. Los elementos transportadores 12 en la figura 2b están desplazados en segmentos transversalmente a la dirección de transporte 6, de modo que dos elementos transportadores 12 adyacentes desembocan en cada caso en un elemento transportador 12. Y en la Figura 2c, los elementos transportadores 12 dispuestos uno detrás de otro a lo largo de la dirección de transporte 6 forman en cada caso recorridos de transporte continuos que están dispuestos en cada caso desplazados con respecto a sus elementos transportadores 12. Sin embargo, la disposición de las Figuras 2b, 2c puede ofrecer ventajas, en particular para bultos sueltos 4 más pequeños de una corriente de paquetes, que de otro modo solo descansan sobre un elemento transportador 12.

En un sistema de transporte 2 que funciona con el procedimiento de acuerdo con la invención, es ventajoso un diseño de igual longitud de todos los elementos transportadores 12 sin una división en secciones 22/24 (figura 2a), ya que todos los elementos transportadores 12 son de la misma longitud y por tanto los bultos sueltos 4 se manipulan del mismo modo por toda la zona.

La figura 3 muestra un diagrama de flujo para determinar el vector de acción a(t) de acuerdo con la invención. Dado que para cada elemento transportador 12 debe ajustarse una velocidad de la cinta desde un intervalo continuo (por ejemplo, entre 0,1 m/s y 3,5 m/s), por ejemplo con 85 elementos transportadores el espacio de acción es un subconjunto de RA85, que está muy por encima de lo que se puede aprender utilizando procedimientos conocidos (por ejemplo, porque en general el número de ejemplos de entrenamiento requeridos aumenta exponencialmente con la dimensión de los espacios de datos).

Por lo tanto, no se crea un vector de estado s(t) para todo el sistema de transporte 2, sino que basándose en una imagen del sensor 26, para cada bulto suelto 4<1>, 4<n>se crea un vector de estado individual s-<i>(t), s<n>(t). Los vectores de estado s-<i>(t), s<n>(t) se construyen de manera que para cada bulto suelto 4<1>, 4<n>tiene la misma dimensión. Esto significa que, en particular, el número de bultos sueltos 4' contiguos considerados permanece constante, al limitares, por ejemplo, a los dos o tres bultos sueltos siguientes a una distancia predeterminada. Los bultos sueltos 4 que se encuentran más alejados son irrelevantes para la orientación y el ajuste de la distancia de este bulto suelto 4 y no deben tenerse en cuenta. Esta restricción da como resultado un vector de estado s<n>(t) de tamaño constante independientemente del número real de bultos sueltos 4. En el caso de que el número total de bultos sueltos 4' realmente contiguos sea menor que el número de paquetes contiguos considerados, la información de estado correspondiente del vector de estado s.<n>(t) se puede llenar con valores estándar. En este caso son adecuados valores que proceden, por ejemplo, de los denominados bultos sueltos 4' con una distancia suficiente y una orientación perfecta sobre la cinta. Los valores de los bultos sueltos virtuales 4' deben seleccionarse de modo que tengan la menor influencia posible en la regulación de los bultos sueltos 4<n>considerados.

Para reducir adecuadamente el espacio de acción, se utilizan 4 para cada bulto suelto<n>sólo se utiliza un subconjunto de elementos transportadores 12. Esto es básicamente posible porque desde la perspectiva de un bulto suelto individual 4<n>en un momento t no son relevantes todos los elementos transportadores 12, sino sólo un subconjunto de los elementos transportadores 12, en particular aquellos en los que se encuentra el bulto suelto 4<n>. Dependiendo del tamaño y orientación del bulto suelto 4<n>y los elementos transportadores 12, sin embargo, el número de elementos transportadores 12 relevantes varía. Sin embargo, para el aprendizaje automático, los vectores de acción a<n>(t) deben tener una dimensión constante. La dimensión de los vectores de acción a<n>(t) es por lo tanto menor que el número de elementos transportadores 12 de todo el sistema de transporte 2 para lograr una reducción en la dimensión del problema global. Para ello es necesario encontrar una abstracción adecuada. Por ejemplo, el vector de acción a<n>(t) por bulto suelto 4<n>puede elegirse de modo que sólo contenga ciertos elementos transportadores 12, por ejemplo, aquellos debajo de los puntos de esquina v-<i>, v<2>, v<3>, v<4>de un bulto suelto 4 y bajo su centro de gravedad (estimado) v<c>, (Figura 5). En la Figura 6, un vector de acción a<n>(t) de 5 dimensiones vendría dado por las velocidades de cinta<21>, v<-n>v<13>, v<23>(2,01, 2,04, 2,04, 0,10) [m/s] bajo los 4 puntos de esquina y por la velocidad de cinta v<s>(2,04 m/s) por debajo del centro de gravedad.

Una representación alternativa del vector de acción a<n>(t) sería la división del área base del bulto suelto 4<n>o un rectángulo que lo circunscribe en un número fijo de zonas, donde cada zona se describe mediante una velocidad v<i>. Alternativamente, el vector de acción a<n>(t) puede describir también un vector de velocidad del bulto suelto 4<n>. La representación del vector de acción a<n>(t) es en cualquier caso independiente de los propios elementos transportadores 12, pero determina su control en el transcurso posterior del proceso.

Los procedimientos de aprendizaje por refuerzo utilizan una función estratégica (política) que representa un vector de estado s<n>(t) en un vector de acción a<n>(t) del espacio de acción, es decir, la función de estrategia selecciona velocidades de cinta adecuadas dependiendo de la situación respectiva representada en el vector de estado s<n>(t). La función de estrategia está representada por regla general por un modelo aprendido por máquina (red neuronal, proceso gaussiano, bosque aleatorio, ecuaciones parametrizadas, etc.). La representación del vector de acción seleccionado a<n>(t) en los elementos transportadores reales 12 influye en el estado subsiguientes<n>(t+At) del bulto suelto. Para entrenar la estrategia, basándose en el estado subsiguiente s<n>(t+At) se otorga una recompensa, que el agente utiliza para ajustar los vectores de acción del espacio de acción y así mejorar la estrategia. También es posible otorgar una recompensa para comparar el estado subsiguiente s<n>(t+At) con el estado inicial s<n>(t) o con estados más distantes s<n>(t-At), s<n>(t-2At),... Esta comparación aislada del estado subsiguiente con el estado anterior o con algo más que el estado inmediatamente anterior y/o la evaluación aislada del estado subsiguiente s<n>(t+At) combinado con una evaluación cuantificada con recompensas permite ajustar el modelo de estrategia.

Por lo tanto, el modelo de estrategia se mejora de modo que en el futuro para el estado inicial s<n>(t), se seleccionan vectores de acción aún más adecuados a<n>(t) y se representan en el sistema de transporte 2 real. Sin embargo, también es posible optimizar la estrategia de antemano con un sistema de transporte real o virtual según el modo de proceder descrito y aplicar simplemente esta estrategia ya predeterminada a los vectores de estado individuales s<n>(t) mientras se controla el sistema de transporte 2.

Por un lado, es posible optimizar la estrategia y, por tanto, la selección de los vectores de acción a<n>(t) para cada bulto suelto 4, 4<n>durante el funcionamiento de la instalación 2 (es decir, la estrategia aprende o entrena más durante la realización del procedimiento). O la estrategia se puede entrenar y predeterminar previamente usando datos de entrenamiento (por ejemplo, datos históricos del funcionamiento de la instalación usando el "control estándar"), con la misma instalación 2 o una comparable y diferente ocupación de bulto suelto o con ayuda de una simulación de la instalación 2. Por un lado, esta estrategia predeterminada se puede utilizar como una "estrategia inicial" predeterminada y luego esta estrategia predeterminada se entrena adicionalmente y, por lo tanto, se optimiza durante la realización del procedimiento. O esta estrategia predeterminada simplemente se aplica sin optimización adicional en los estados de los bultos sueltos 4<n>representados en los vectores de estado s<n>(t) durante el tiempo de ejecución -la estrategia ya no se modifica durante el tiempo de ejecución.

Dado que se conocen las coordenadas de lugar del bulto suelto 4 y de los elementos transportadores 12, los estados de los bultos sueltos 4 del mundo real se pueden representar en vectores de estado s<n>(t) del mundo virtual a partir del mundo real. Para cada bulto suelto 4 individualmente, según su vector de estado s<n>(t) con una estrategia en el mundo virtual se selecciona un vector de acción a<n>(t). Este vector de acción a<n>(t) a su vez se puede representar volviendo a los elementos transportadores 12 del sistema de transporte 2 real, de modo que estos elementos transportadores 12 se controlan con las velocidades representadas del vector de acción a<n>(t), después de lo cual el bulto suelto 4 y todo el sistema de transporte 2 se transfiere a un estado subsiguiente. En cada caso después del transcurso de tiempo de ciclo At, este proceso se evalúa basándose en una recompensa, lo que mejora la estrategia. Este proceso se realiza para cada bulto suelto 4 en el área de la imagen hasta que el bulto suelto 4 haya abandonado el área de la imagen.

Después del transcurso de cada tiempo de ciclo, es decir esencialmente el tiempo At, es decir, esencialmente al mismo tiempo que la determinación de las velocidades v de aquellos elementos transportadores en los que un vector de acción a<n>(t) se ha representado, se determinan las velocidades de aquellos elementos transportadores 12, en los que sin embargo el vector de acción a<n>(t) no se ha representado. Las velocidades de estos elementos transportadores 12 se determinan y controlan de acuerdo con esta determinación mediante el equipo de regulación.

Esto se refiere a los elementos transportadores 12 sobre los que descansa el bulto suelto 4<n>sobre los cuales no se ha representado ningún vector de acción a<n>(t) de este bulto suelto 4<n>. Las velocidades v de estos elementos transportadores 12 se determinan mediante interpolación, por ejemplo, interpolación bilineal, de las velocidades v de aquellos elementos transportadores 12 contiguos en los que se ha representado un vector de acción a<n>(t) de este bulto suelto 4.

Esto también se refiere a aquellos elementos transportadores en los que ni descansa ningún bulto suelto 4<n>ni sobre los que no se ha representado ningún vector de acción a<n>(t) de un bulto suelto 4<n>. Las velocidades v de estos elementos transportadores 12 pueden determinarse según uno de los siguientes modos de proceder, que también pueden combinarse entre sí:

Interpolando las velocidades v de aquellos elementos transportadores contiguos 12 en los que no se ha representado ningún vector de acción a<n>(t) de un bulto suelto 4<n>. Para los elementos transportadores de borde 12 se pueden asumir condiciones marginales especiales. Las velocidades v se determinan basándose en los parámetros de velocidad del sistema de transporte 2 (valores estándar de la instalación o simulación, por ejemplo, promedio de todos los elementos transportadores del vector de acción). La velocidad v de los elementos transportadores 12, en cuyos elementos transportadores 12 contiguos no se ha representado el vector de acción a<n>(t) de un bulto suelto 4<n>se seleccionan de manera que coincidan con la velocidad de este elemento transportador 12 contiguo. En este sentido pueden surgir conflictos potenciales que pueden resolverse, por ejemplo, priorizando y/o promediando de forma ponderada. Las velocidades para algunos o todos estos elementos transportadores 12 pueden ser idénticas y determinarse a partir del promedio de las velocidades de los elementos transportadores 12 en los que ha representado un vector de acción a<n>(t) de un bulto suelto 4<n>.

Una ventaja esencial del procedimiento de acuerdo con la invención es que la estrategia se entrena desde la perspectiva de un bulto suelto 4<n>en cada caso para todos los bultos sueltos 4 futuros (y para estados futuros de este mismo bulto suelto 4) y además se utiliza como estrategia común y compartida para todos los bultos sueltos 4. Se aplica entonces el mismo modelo de estrategia a cada bulto suelto 4, 4<1>, 4<n>y se calcula un vector de acción local individual a<1>(t), a<n>(t) en cada caso usando el vector de estado individual s<1>(t), s<n>(t).

Los vectores de acción a<1>(t), a<n>(t) se representan en los elementos transportadores reales 12 como una matriz banda global (que comprende todos los elementos transportadores 12). Los elementos transportadores 12 intermedios reciben valores interpolados adecuadamente (por ejemplo, mediante interpolación bilineal). Pueden surgir conflictos al representar en la matriz banda real, es decir, más de un paquete 4 se dirige al mismo elemento transportador 12. Estos conflictos, varios de los cuales se muestran en la Figura 7, se resuelven priorizando y/o promediando de forma ponderada dependiendo de la superposición del bulto suelto 4 con el elemento transportador 12 y el estado del paquete. Por ejemplo, un paquete 4 con poca superposición un peso bajo en el promedio de la velocidad de su vector de acción a(t) proyectada sobre el elemento transportador 12. La lógica correspondiente puede especificarse mediante conocimientos expertos o aprenderse mediante una máquina. La superposición de cada bulto suelto 4 con sus elementos transportadores 12 puede representarse en el vector de estado s<n>(t) o de otra manera.

La función de estrategia se puede entrenar utilizando datos reales o simulados. En particular, el entrenamiento puede continuar en las instalaciones del cliente durante el funcionamiento, lo que permite que el sistema de transporte se adapte automáticamente a las propiedades cambiantes del flujo de paquetes (tamaño, peso, forma y material de los paquetes).

Según una forma de realización, el vector de estado s<n>(t) de un bulto suelto 4<n>puede comprender una o más de la siguiente información: información de estado del paquete correspondiente 4 (y de los paquetes contiguos 4'), como posiciones, velocidades, orientación,... información global sobre el estado del sistema de transporte 2: número de paquetes 4, velocidad media v, priorización por parte del usuario,

Lista de referencias

2 Sistema de transporte

4 Bulto suelto

6 Dirección de transporte

8 Recorrido de transporte

10 Segmento

12 Transportador

18 Dispositivo de ensanchamiento

20 Transportador de transferencia

22 Sección de orientación

24 Sección de corrección de distancia

26 Sensor

v Velocidad

a(t) Vector de acción

s(t) Vector de estado

At Tiempo de ciclo

Claims

REIVINDICACIONES

1. Procedimiento implementado por ordenador para controlar un equipo de regulación de un sistema de transporte (2) para el transporte de bultos sueltos (4) de al menos un tipo, en particular envíos postales y bultos, en donde el sistema de transporte (2) presenta una multitud de elementos transportadores (12) orientados y paralelos a una dirección de transporte (6), los elementos transportadores 12) se accionan controlando el equipo de regulación mediante un accionamiento asociado en cada caso con una velocidad v ajustable individualmente para lograr una orientación y/o una distancia definida de los bultos sueltos,caracterizado por queel control del equipo de regulación (14) se determina mediante al menos un agente predeterminado o que actúa según métodos de aprendizaje por refuerzo, que, de acuerdo con una estrategia, selecciona en términos de situación una acción desde un espacio de acción para un estado inicial con el fin de llegar a un estado subsiguiente, en donde los estados con vectores de estado -s (t), s(t+At)- y las acciones se pueden representar con vectores de acción -a(t), a(t+At)-, que comprende las etapas de procedimiento:

a) crear una imagen inicial del sistema de transporte (2);

b) para cada uno de los bultos sueltos (4<n>) en la imagen crear individualmente un vector de estado s<n>(t) fijado previamente y para todos los bultos sueltos (4, 4<n>) de un tipo de la misma dimensión, que comprende información de estado del bulto suelto (4<n>) correspondiente, extraída de la imagen creada directamente antes;

c) para cada bulto suelto (4<n>) seleccionar individualmente un vector de acción a<n>(t) desde un espacio de acción de acuerdo con la misma estrategia para todos los bultos sueltos (4) de un tipo para el vector de estado actual s<n>(t) de este bulto suelto (4<n>), en donde la dimensión del vector de acción a<n>(t) está predeterminada;

d) para cada bulto suelto (4<n>) representar el vector de acción a<n>(t) sobre los elementos transportadores (12) reales de este bulto suelto (4<n>) para determinar la velocidad v de estos elementos transportadores (12) y controlar correspondientemente los elementos transportadores (12) con el equipo de regulación;

e) después de que haya transcurrido un tiempo de ciclo At, crear una imagen subsiguiente del sistema de transporte (2) y realizar la etapa de procedimiento b) para obtener un vector de estado del estado subsiguiente s<n>(t+At) para cada bulto suelto (4<n>);

f) si la estrategia para bultos sueltos (4) de un tipo debe seguir entrenándose durante la realización del procedimiento, el vector de estado del estado subsiguiente s<n>(t+At) se evalúa para cada bulto suelto (4<n>) de este tipo mediante un método del aprendizaje por refuerzo basado en una recompensa, después de lo cual el agente entrena y, por tanto optimiza, su estrategia para bultos sueltos (4) de este tipo al adaptar los vectores de acción a<n>(t) del espacio de acción;

g) realizar de nuevo las etapas de procedimiento c) - f) para cada bulto suelto (4<n>), utilizando la estrategia mejorada o predeterminada, siempre que el bulto suelto (4<n>) correspondiente se represente en la imagen subsiguiente.

2. Procedimiento según la reivindicación 1, que comprende además la etapa de asociar los bultos sueltos (4, 4') en la imagen a un primer tipo y al menos a otro tipo dependiendo de las propiedades de los bultos sueltos (44') y para cada tipo asociado proporcionar a un agente una estrategia para bultos sueltos (4, 4') de este tipo.

3. Procedimiento según una de las reivindicaciones 1 o 2, que comprende además la etapa del procedimiento para cada tiempo de ciclo At y para cada bulto suelto (4<n>) determinar las velocidades v de aquellos elementos transportadores (12) sobre los que descansa el bulto suelto (4<n>) pero en los que no se ha representado ningún vector de acción a<n>(t) de este bulto suelto (4<n>) y control individual correspondiente de estos mismos elementos transportadores (12) con el equipo de regulación, en donde las velocidades v se determinan interpolando las velocidades v de aquellos elementos transportadores (12) contiguos en los cuales se ha representado un vector de acción a<n>(t) de este bulto suelto (4<n>).

4. Procedimiento según una de las reivindicaciones 1 o 3, que comprende además la etapa del procedimiento para cada tiempo de ciclo At de determinar las velocidades v de todos aquellos elementos transportadores (12) en los que ni descansa ningún bulto suelto (4) ni en los que no se ha representado ningún vector de acción a<n>(t) de un bulto suelto (4) y control individual correspondiente de estos mismos elementos transportadores (12) con el equipo de regulación, en donde

- las velocidades v se determinan interpolando las velocidades v de aquellos elementos transportadores contiguos (12) en los que no se ha representado ningún vector de acción a<n>(t) de un bulto suelto (4<n>); y/o

- las velocidades v se determinan basándose en los parámetros de velocidad del sistema de transporte (2); y/o - la velocidad v de los elementos transportadores (12), en cuyos elementos transportadores (12) contiguos se ha representado el vector de acción a<n>(t) de un bulto suelto (4<n>) se selecciona de manera que coincidan con la velocidad de este elemento transportador (12 contiguo; y/o

- las velocidades para algunos o todos estos elementos transportadores (12) son idénticas y se determinan a partir del promedio de las velocidades de los elementos transportadores (12) en los que se aplica un vector de acción a<n>(t) de un bulto suelto (4<n>).

5. Procedimiento según una de las reivindicaciones 1 a 4,caracterizado por que

la información de estado de un bulto suelto (4) representada en el vector de estado sn(t) comprende la posición y/u orientación de las piezas (4<n>).

6. Procedimiento según una de las reivindicaciones 1 a 5,caracterizado por que

la información de estado de un bulto suelto (4) representada de otra manera en el vector de estado s<n>(t) comprende

- superposición del bulto suelto (4) con aquellos elementos transportadores (12) sobre los que descansa el bulto suelto (4); y/o

- información de estado de un número predeterminado de bultos sueltos (4) contiguos siguientes dentro de una distancia predeterminada, que comprende al menos su posición y/o distancia con respecto al bulto suelto (4) del vector de estado s<n>(t), en donde al vector de estado s<n>(t) se aplican valores estándar en caso de un número menor que el número predeterminado de bultos sueltos (4') contiguos siguientes y/o

- velocidad y/o tamaño del bulto suelto (4); y o

- información de estado global del sistema de transporte (2), que comprende, por ejemplo, un número de bultos sueltos (4) en el sistema de transporte (2), velocidad promedio del sistema de transporte (2), priorización de bultos sueltos (4) individuales, por ejemplo, según el tamaño y/o el criterio de clasificación.

7. Procedimiento según una de las reivindicaciones 1 a 6,caracterizado por queel vector de acción a<n>(t) solo describe velocidades,

que se encuentran bajo puntos o zonas superficiales predeterminados del bulto suelto (4).

8. Procedimiento según una de las reivindicaciones 1 a 7,caracterizado por que

cuando los vectores de acción a<n>(t), a<n>,(t) asociados a dos o más bultos sueltos (4, 4') se representan en el mismo elemento transportador (12) se realiza una priorización y/o un cálculo de promedio ponderado de las velocidades especificadas por los vectores de acción a<n>(t), a<n>,(t) en función de la superposición respectiva de estos bultos sueltos (4) con este elemento transportador (12) y/o de una calidad de los vectores de estado<sn>(t); y/o cuando dos elementos del vector de acción a<n>(t) de un bulto suelto (4<n>) se representan en el mismo elemento transportador (12), este elemento transportador (12) se controla con un promedio de estos elementos o uno de los elementos se prefiere en su totalidad o ponderado.

9. Procedimiento según una de las reivindicaciones 1 a 8,caracterizado por que

la imagen se evalúa utilizando métodos de procesamiento de imágenes y los vectores de estado s<n>(t) se crean basándose en la imagen evaluada.

10. Procedimiento según una de las reivindicaciones 1 a 9,caracterizado por que

un primer intento de crear los vectores de estado s<n>(t) se lleva a cabo automáticamente a partir de la imagen mediante el aprendizaje por refuerzo profundo.

11. Procedimiento según una de las reivindicaciones 1 a 10, que comprende además la etapa de procedimiento de entrenar la estrategia del agente para bultos sueltos (4) de un tipo con un sistema de transporte virtual o real (2', 2).

12. Dispositivo para el procesamiento de datos para un control implementado por ordenador de un equipo de regulación de un sistema de transporte (2) para el transporte de bultos sueltos (4) de al menos un tipo, en particular envíos postales y bultos, en donde el sistema de transporte (2) presenta una multitud de elementos transportadores (12) orientados a lo largo y paralelos a una dirección de transporte (6), en donde los elementos transportadores (12) se accionan bajo el control del equipo de regulación mediante un accionamiento asociado en cada caso con una velocidad ajustable individualmente para lograr una orientación y/o una distancia definida de los bultos sueltos, en donde el control del equipo de regulación se determina por al menos un agente que actúa según métodos de aprendizaje por refuerzo, que, de acuerdo con una estrategia para bultos sueltos (4) de un tipo selecciona en términos de situación una acción desde un espacio de acción para un estado inicial con el fin de llegar a un estado subsiguiente, en donde los estados con vectores de estado y las acciones con vectores de acción pueden representarse, en donde los bultos sueltos sobre el sistema de transporte (2) pueden detectarse mediante al menos un sensor (26) y el equipo de regulación comprende una unidad de cálculo;caracterizado pormedios para la realización del procedimiento según la reivindicación 1.

13. Dispositivo según la reivindicación 12,caracterizado por que

el dispositivo está diseñado para la realización del procedimiento según una de las reivindicaciones 2 a 11.

14. Sistema de transporte (2) para transportar bultos sueltos (4) de al menos un tipo, en particular envíos postales y bultos, presentando el sistema de transporte (2) una multitud de elementos transportadores (12) orientados a lo largo y paralelos a una dirección de transporte (6), en donde los elementos transportadores (12) se accionan controlando un equipo de regulación mediante un accionamiento asociado en cada caso con una velocidad ajustable individualmente para lograr una orientación y/o una distancia definida de los bultos sueltos, en donde el control del equipo de regulación se determina por al menos un agente que actúa según métodos de aprendizaje por refuerzo, que de acuerdo con una estrategia igual para todos los bultos sueltos (4) de un tipo, selecciona en términos de situación una acción desde un espacio de acción para un estado inicial para llegar a un estado subsiguiente, en donde los estados pueden representarse con vectores de estado y las acciones pueden representarse con vectores de acción, en donde el sistema de transporte (2) comprende un dispositivo según la reivindicación 12 o 13.

15. Programa informático que comprende instrucciones que, ejecutadas por una unidad de cálculo conectada a un sistema de transporte (2) según la reivindicación 14, inducen a ejecutar el procedimiento según una de las reivindicaciones 1 a 11.