DE102022207286B3

DE102022207286B3 - Device and computer-implemented method for providing a trained machine learning agent designed to control a device, device and method for controlling a device and vehicle

Info

Publication number: DE102022207286B3
Application number: DE102022207286.3A
Authority: DE
Inventors: Chen Tessler; Chana Ross; Yakov Miron; Dotan Di Castro; Yuval GOLDFRACHT
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2023-09-28
Anticipated expiration: 2042-07-19
Also published as: JP2024012269A

Abstract

Die Erfindung betrifft ein computer-implementiertes Verfahren zum Bereitstellen eines trainierten Maschinenlern-Agenten (135), der dafür ausgelegt ist, eine Einrichtung (100) zu steuern. Die Einrichtung (100) ist dafür ausgelegt, eine Aufgabe in einer Arbeitsumgebung zu lösen. Das Verfahren umfasst einen Schritt des Initialisierens eines ursprünglichen Maschinenlern-Agenten (112) in einem vortrainierten Zustand und einer Simulation (114) auf Ereignisbasis für einen Agenten (112, 135) zur Lösung der Aufgabe. Die Simulation (114) auf Ereignisbasis ist dafür ausgelegt, Informationen über Agent-Interaktionen mit der Arbeitsumgebung bereitzustellen. Das Verfahren umfasst außerdem einen Schritt des Erzeugens einer Hybrid-Simulation (122) durch Kombinieren der Simulation (112) auf Ereignisbasis und einer Lokalisierungssimulation auf Zeitbasis. Die Lokalisierungssimulation auf Zeitbasis umfasst ein Sensormodell und ein Fehlermodell. Das Sensormodell repräsentiert simulierte Messdaten, erhalten durch einen simulierten Sensor in vorbestimmten Zeitintervallen mit Bezug auf aus der Simulation 114 auf Ereignisbasis extrahierte Agent-Posen. Das Fehlermodell repräsentiert an dem simulierten Sensor wirkendes simuliertes Rauschen. Das Verfahren umfasst ferner einen Schritt des Trainierens des ursprünglichen Maschinenlern-Agenten (112) unter Verwendung der Hybrid-Simulation (122), um den trainierten Maschinenlern-Agenten (135) bereitzustellen.The invention relates to a computer-implemented method for providing a trained machine learning agent (135) that is designed to control a device (100). The device (100) is designed to solve a task in a work environment. The method includes a step of initializing an original machine learning agent (112) in a pre-trained state and an event-based simulation (114) for an agent (112, 135) to solve the task. The event-based simulation (114) is designed to provide information about agent interactions with the work environment. The method further includes a step of generating a hybrid simulation (122) by combining the event-based simulation (112) and a time-based localization simulation. The time-based localization simulation includes a sensor model and an error model. The sensor model represents simulated measurement data obtained by a simulated sensor at predetermined time intervals with respect to agent poses extracted from the simulation 114 on an event basis. The error model represents simulated noise acting on the simulated sensor. The method further includes a step of training the original machine learning agent (112) using the hybrid simulation (122) to provide the trained machine learning agent (135).

Description

Stand der TechnikState of the art

Die Erfindung betrifft eine Vorrichtung oder ein Verfahren gemäß den unabhängigen Ansprüchen. Außerdem ist ein Computerprogramm Gegenstand der vorliegenden Erfindung.The invention relates to a device or a method according to the independent claims. A computer program is also the subject of the present invention.

Zum Beispiel können Simulatoren oder Simulationen oft zum Trainieren von Maschinenlernmodellen verwendet werden. Grob gesagt, können Simulationen in zwei Typen aufgeteilt werden: ereignisgesteuert und zeitgesteuert. Ereignisgesteuerte Simulationen sind Simulationen, bei denen jede Transaktion in der Simulation durch ein Ereignis hervorgerufen wird. Zeitgesteuerte Simulationen simulieren ein System mit einigen in ihm installierten Sensoren. Bei dieser Art von Simulation wird jede Transaktion in der Simulation durch einen zugeordneten Zeitstempel und eine Aufzeichnung der simulierten Sensorinformationen hervorgerufen.For example, simulators or simulations can often be used to train machine learning models. Broadly speaking, simulations can be divided into two types: event-driven and time-driven. Event-driven simulations are simulations in which every transaction in the simulation is caused by an event. Timed simulations simulate a system with some sensors installed in it. In this type of simulation, each transaction in the simulation is evoked by an associated timestamp and a record of the simulated sensor information.

Eldabi T.: Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. ieee. org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1, schlagen vor, dass zur Verbesserung und Beschleunigung der Entwicklung von hybriden Simulationsmodellen die Entscheidung zur Hybridisierung zum frühestmöglichen Zeitpunkt getroffen werden sollte, d. h. bei der Untersuchung des Systems und der Definition des Problems.Eldabi T.: Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. eeeeeeeeeeeeeeeeeeeee. org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1, suggest that to improve and accelerate the development of hybrid simulation models, the decision to hybridize should be made at the earliest possible point, i.e. H. in examining the system and defining the problem.

Popovic, R. Kliment M., Trebuna P., Pekarcikova M.: Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015_01_Popo_Trebuna_Pekarcikova.pdf, befassen sich mit der Simulation von Produktionsprozessen, insbesondere mit Tecnomatix Software. Tecnomatix Process Simulate ist für den Aufbau neuer oder die Modifizierung bestehender Produktionsprozesse konzipiert.Popovic, R. Kliment M., Trebuna P., Pekarcikova M.: Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015_01_Popo_Trebuna_Pekarcikova.pdf, deal with the simulation of production processes, especially with Tecnomatix software. Tecnomatix Process Simulate is designed for setting up new or modifying existing production processes.

Wischnewski R., Roßmann J.: A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. In: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. ieee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1, stellen eine hybride hierarchische zeit- und ereignisbasierte Methode vor, die die Vorteile beider Konzepte kombiniert. Die neuen Methoden ermöglichen eine 3-D-Simulation einschließlich physikalischer Effekte, ohne dass die Massen der Träger modelliert werden müssen.Wischnewski R., Roßmann J.: A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. In: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. eeeeeeeeeeeeeeeeeeeee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1, present a hybrid hierarchical time- and event-based method that combines the advantages of both concepts. The new methods enable 3D simulation including physical effects without having to model the masses of the beams.

Kurzfassung der ErfindungSummary of the invention

Gegenüber diesem Stand der Technik stellt der hier dargestellte Ansatz ein Verfahren, eine dieses Verfahren verwendende Vorrichtung und ein entsprechendes Computerprogramm gemäß den Hauptansprüchen bereit. Vorteilhafte Ausführungsformen und Verbesserungen des im unabhängigen Anspruch definierten Gegenstands sind mittels der in den abhängigen Ansprüchen angegebenen Merkmale möglich.Compared to this prior art, the approach presented here provides a method, a device using this method and a corresponding computer program according to the main claims. Advantageous embodiments and improvements of the subject matter defined in the independent claim are possible by means of the features specified in the dependent claims.

Gemäß Ausführungsformen kann zum Beispiel eine Hybrid-Simulation bereitgestellt werden, die ereignisgesteuert und zeitgesteuert sein kann, zum Trainieren eines Maschinenlern-Agenten, der dafür ausgelegt ist, zum Beispiel eine Einrichtung wie ein autonomes Fahrzeug, einen Bulldozer usw. zu steuern. Eine solche Hybrid-Simulation, so wie sie hier vorgeschlagen wird, kann insbesondere Mittel zum Untersuchen von Betrachtungen eines Systems auf Zeitbasis, eingebettet in eine Simulation auf Ereignisbasis, bereitstellen, wobei diese zwei Arten von Simulationen entflochten bleiben können. Eine solche Entflechtung ist vorteilhaft, da Simulationen auf Ereignisbasis die Interaktion des Agenten und der Umgebung erfassen sollen, während Simulationen auf Zeitbasis spezifische Messeinrichtungen simulieren und sensorische Informationen und Zeitstempel für jede Zeitaufzeichnung in der simulierten Episode bereitstellen sollen.For example, according to embodiments, a hybrid simulation may be provided, which may be event-driven and time-driven, for training a machine learning agent designed to control, for example, a device such as an autonomous vehicle, a bulldozer, etc. In particular, such a hybrid simulation as proposed herein can provide a means for examining time-based system considerations embedded in an event-based simulation, whereby these two types of simulations can remain disentangled. Such disentanglement is advantageous because event-based simulations are intended to capture the interaction of the agent and the environment, while time-based simulations are intended to simulate specific measurement devices and provide sensory information and timestamps for each time record in the simulated episode.

Es wird ein computer-implementiertes Verfahren zum Bereitstellen eines trainierten Maschinenlern-Agenten, ausgelegt zum Steuern einer Vorrichtung, bereitgestellt, wobei die Einrichtung dafür ausgelegt ist, eine Aufgabe in einer Arbeitsumgebung zu lösen, wobei das Verfahren die folgenden Schritte umfasst:

Initialisieren eines ursprünglichen Maschinenlern-Agenten in einem vortrainierten Zustand und einer Simulation auf Ereignisbasis für einen Agenten zur Lösung der Aufgabe, wobei die Simulation auf Ereignisbasis dafür ausgelegt ist, Informationen über Agent-Interaktionen mit der Arbeitsumgebung bereitzustellen;
Erzeugen einer Hybrid-Simulation durch Kombinieren der Simulation auf Ereignisbasis und einer Lokalisierungssimulation auf Zeitbasis, wobei die Lokalisierungssimulation auf Zeitbasis ein Sensormodell und ein Fehlermodell umfasst, wobei das Sensormodell simulierte Messdaten, erhalten durch einen simulierten Sensor in vorbestimmten Zeitintervallen mit Bezug auf Agent-Posen, die aus der Simulation auf Ereignisbasis extrahiert werden, repräsentiert, wobei das Fehlermodell an dem simulierten Sensor wirkendes simuliertes Rauschen repräsentiert; und
Trainieren des ursprünglichen Maschinenlern-Agenten unter Verwendung der Hybrid-Simulation, um den trainierten Maschinenlern-Agenten bereitzustellen.

A computer-implemented method is provided for providing a trained machine learning agent designed to control a device, the device being designed to solve a task in a work environment, the method comprising the following steps:

initializing an initial machine learning agent in a pre-trained state and an event-based simulation for an agent to solve the task, the event-based simulation being designed to provide information about agent interactions with the work environment;
Generating a hybrid simulation by combining the event-based simulation and a time-based localization simulation, the time-based localization simulation comprising a sensor model and an error model, the sensor model including simulated measurement data obtained by a simulated sensor at predetermined time intervals with respect to agent poses, extracted from the event-based simulation, wherein the error model represents simulated noise acting on the simulated sensor; and
Train the original machine learning agent using hybrid simulation to deploy the trained machine learning agent.

Die Einrichtung kann dafür ausgelegt sein, die Aufgabe auf mindestens teilweise autonome Weise zu lösen. Die Einrichtung kann zum Beispiel ein Fahrzeug, ein Roboter oder dergleichen sein. Der Maschinenlern- bzw. ML-Agent kann zum Beispiel ein Verstärkungslern- bzw. RL-Agent sein. Der Maschinenlern-Agent kann eine Strategie umfassen und/oder bewirken, die eine Reihe von Aktionen, eine Trajektorie und/oder dergleichen repräsentiert. Die Simulation auf Ereignisbasis kann eine auf Maschinenlernen basierende Simulation sein. Mindestens der Schritt des Trainierens kann wiederholt ausgeführt werden, wobei der ursprüngliche Maschinenlern-Agent wiederholt unter Verwendung der Hybrid-Simulation trainiert wird, um den trainierten Maschinenlern-Agenten bereitzustellen. Insbesondere können alle Schritte des Verfahrens wiederholt ausgeführt werden, wobei der trainierte Maschinenlern-Agent einer vorherigen Iteration der Schritte des Verfahrens zum ursprünglichen Maschinenlern-Agenten der folgenden Iteration der Schritte des Verfahrens wird. Der trainierte Maschinenlern-Agent kann dafür ausgelegt werden, mindestens eine Trajektorie für die Einrichtung zu planen. Der vortrainierte Zustand des ursprünglichen Maschinenlern-Agenten kann ein Zustand vor Training durch den Schritt des Trainings des Verfahrens zur Bereitstellung sein. Der ursprüngliche Maschinenlern-Agent kann bereits durch andere Verfahren trainiert worden sein.The device can be designed to solve the task in an at least partially autonomous manner. The device can be, for example, a vehicle, a robot or the like. The machine learning or ML agent can be, for example, a reinforcement learning or RL agent. The machine learning agent may include and/or effect a strategy that represents a series of actions, a trajectory, and/or the like. The event-based simulation can be a machine learning-based simulation. At least the step of training may be performed repeatedly, where the original machine learning agent is repeatedly trained using the hybrid simulation to provide the trained machine learning agent. In particular, all steps of the method can be executed repeatedly, with the trained machine learning agent of a previous iteration of the steps of the method becoming the original machine learning agent of the following iteration of the steps of the method. The trained machine learning agent can be designed to plan at least one trajectory for the facility. The pre-trained state of the original machine learning agent may be a state before training through the training step of the deployment method. The original machine learning agent may have already been trained using other methods.

Gemäß einer Ausführungsform können im Schritt des Erzeugens die Agent-Posen aus der Simulation auf Ereignisbasis extrahiert werden durch Erzeugen einer Trajektorie auf Zeitbasis aus einer Trajektorie aus der Simulation auf Ereignisbasis und durch Interpolieren der Agent-Posen aus der Trajektorie auf Zeitbasis gemäß den vorbestimmten Zeitintervallen, die einer Abtastfrequenz des simulierten Sensors entsprechen, wobei die simulierten Messdaten aus den Agent-Posen extrapoliert werden, wobei das Fehlermodell durch Addieren des simulierten Rauschens zu den simulierten Messdaten für jedes Zeitintervall auf das Sensormodell angewandt wird. Eine solche Ausführungsform hat den Vorteil, dass auf Zeit basierende Fähigkeiten auf realistische Weise zu der Simulation auf Ereignisbasis hinzugefügt werden können, wobei auch das Fehlermodell widergespiegelte Unbestimmtheiten berücksichtigt werden.According to one embodiment, in the generating step, the agent poses may be extracted from the event-based simulation by generating a time-based trajectory from a trajectory from the event-based simulation and by interpolating the agent poses from the time-based trajectory according to the predetermined time intervals, which correspond to a sampling frequency of the simulated sensor, the simulated measurement data being extrapolated from the agent poses, the error model being applied to the sensor model by adding the simulated noise to the simulated measurement data for each time interval. Such an embodiment has the advantage that time-based capabilities can be realistically added to the event-based simulation while also taking into account uncertainties reflected in the error model.

Gemäß einer Ausführungsform kann im Schritt des Trainings Entscheidungsfindungsleistungsfähigkeit des ursprünglichen Maschinenlern-Agenten evaluiert werden durch Betrachtung des Agent-Verhaltens auf der Basis der Simulation auf Ereignisbasis und des Agent-Verhaltens auf der Basis der Hybrid-Simulation. Diese Evaluierung kann durch Vergleichen des Agent-Verhaltens auf der Basis der Simulation auf Ereignisbasis mit dem Agentenverhalten auf der Basis der Hybrid-Simulation erfolgen. Eine solche Ausführungsform hat den Vorteil, dass aufgrund der Fähigkeiten der Entscheidungsfindung unter Unbestimmtheiten, so wie sie in der Hybrid-Simulation bereitgestellt werden, die Entscheidungsfindungsleistungsfähigkeit eines Maschinenlern-Agenten unter Unbestimmtheiten untersucht werden kann.According to one embodiment, in the step of training, decision-making performance of the original machine learning agent may be evaluated by considering the agent behavior based on the event-based simulation and the agent behavior based on the hybrid simulation. This evaluation can be done by comparing the agent behavior based on the event-based simulation with the agent behavior based on the hybrid simulation. Such an embodiment has the advantage that the decision-making performance of a machine learning agent under uncertainty can be examined due to the uncertainty decision-making capabilities provided in the hybrid simulation.

Außerdem wird hier ein Verfahren zum Steuern einer Einrichtung dargestellt, wobei die Einrichtung dafür ausgelegt ist, eine Aufgabe in einer Arbeitsumgebung zu lösen, wobei das Verfahren die folgenden Schritte umfasst:

Bereitstellen eines trainierten Maschinenlern-Agenten gemäß einem Verfahren nach einem der vorhergehenden Ansprüche;
Bestimmen eines Steuersignals unter Verwendung des trainierten Maschinenlern-Agenten; und
Ausgeben des Steuersignals an mindestens einen Aktor der Einrichtung, um die Einrichtung zu steuern.
Der trainierte Maschinenlern-Agent und somit das Steuersignal können dazu führen, dass sich die Einrichtung auf eine für die Lösung der Aufgabe geeignete Weise verhält.

In addition, a method for controlling a device is presented here, the device being designed to solve a task in a work environment, the method comprising the following steps:

Providing a trained machine learning agent according to a method according to one of the preceding claims;
determining a control signal using the trained machine learning agent; and
Outputting the control signal to at least one actuator of the device in order to control the device.
The trained machine learning agent and thus the control signal can cause the device to behave in a way that is suitable for solving the task.

Gemäß einer Ausführungsform beliebiger der hier dargestellten Verfahren kann die Einrichtung ein Geländefahrzeug sein, wobei die Einrichtung ein Geländefahrzeug ist, wobei die zu lösende Aufgabe Interaktion des Geländefahrzeugs mit körnigem Material in der Arbeitsumgebung umfasst. Das Fahrzeug oder Geländefahrzeug kann eine Planierraupe, ein Bulldozer, ein Verdichter, ein Dumper, ein Bagger, ein Baufahrzeug, eine schwere Maschine, ein Schwerlastfahrzeug oder eine andere Art von Fahrzeug sein, die eine Anzahl von Zuweisungen aufweist, die Interaktion mit der Umgebung, spezieller dem körnigen Material, umfassen. Beispiele für diese Arten von Zuweisungen oder Aktionen können Planieren, Abladen von körnigem Material, Verdichten einer Fläche, Entfernen von körnigem Material usw. sein. Das körnige Material kann Erde, Sand, Schnee, Schutt, Gestein und/oder ähnliches Teilchenmaterial umfassen. Der Agent kann mindestens eine für das Fahrzeug geplante zu befolgende Trajektorie umfassen.According to an embodiment of any of the methods presented herein, the device may be an off-road vehicle, the device being an off-road vehicle, the task to be solved comprising interaction of the off-road vehicle with granular material in the work environment. The vehicle or off-road vehicle may be a bulldozer, a bulldozer, a compactor, a dumper, an excavator, a construction vehicle, a heavy machinery, a heavy-duty vehicle or another type of vehicle that has a number of assignments that interact with the environment, more specifically the granular material. Examples of these types of assignments or actions may include grading, dumping granular material, compacting an area, removing granular material, etc. The granular material may include earth, sand, snow, rubble, rock and/or similar particulate material. The agent may include at least one trajectory planned for the vehicle to follow.

Jedes hier dargestellte Verfahren kann zum Beispiel in Software oder Hardware oder einer Mischung von Software und Hardware, zum Beispiel in einer Vorrichtung oder in einer Steuerung, implementiert werden.Each method presented here can be in software or hardware or a mixture of software and hardware, for example in a device or in a controller.

Der hier dargestellte Ansatz stellt auch eine Vorrichtung bereit, die dafür ausgelegt ist, die Schritte einer Variante eines hier dargestellten Verfahrens auszuführen, zu steuern oder durch entsprechende Mittel zu implementieren. Die der Erfindung zugrundeliegende Aufgabe kann schnell und effizient auch mittels dieser Ausführungsform der Erfindung in Form einer Vorrichtung gelöst werden.The approach presented here also provides a device that is designed to execute, control or implement the steps of a variant of a method presented here by appropriate means. The object on which the invention is based can be solved quickly and efficiently using this embodiment of the invention in the form of a device.

Zu diesem Zweck kann die Vorrichtung mindestens eine Recheneinheit zum Verarbeiten von Signalen oder Daten, mindestens eine Speicherungseinheit zum Speichern von Signalen oder Daten, mindestens eine Schnittstelle zu einem Sensor oder Aktor zum Lesen von Sensorsignalen aus dem Sensor oder Ausgeben von Daten oder Steuersignalen an den Aktor und/oder mindestens eine Kommunikationsschnittstelle zum Lesen oder Ausgeben von in einem Kommunikationsprotokoll eingebetteten Daten umfassen. Zum Beispiel kann die Recheneinheit ein Signalprozessor, ein Mikrocontroller oder dergleichen sein, wobei die Speicherungseinheit Flash-Speicherung, ein EEPROM oder eine magnetische Speicherungseinheit sein kann. Die Kommunikationsschnittstelle kann dafür ausgelegt sein, Daten auf drahtlose und/oder drahtgebundene Weise zu lesen oder auszugeben, wobei eine Kommunikationsschnittstelle, die zum Lesen oder Ausgeben von drahtgebundenen Daten fähig ist, Daten elektrisch oder optisch aus einer entsprechenden Datenübertragungsleitung lesen oder selbige zum Beispiel an eine entsprechende Datenübertragungsleitung ausgeben kann.For this purpose, the device can have at least one computing unit for processing signals or data, at least one storage unit for storing signals or data, at least one interface to a sensor or actuator for reading sensor signals from the sensor or outputting data or control signals to the actuator and/or include at least one communication interface for reading or outputting data embedded in a communication protocol. For example, the computing unit may be a signal processor, a microcontroller or the like, where the storage unit may be flash storage, an EEPROM or a magnetic storage unit. The communication interface may be configured to read or output data in a wireless and/or wired manner, wherein a communication interface capable of reading or outputting wired data reads data electrically or optically from or to a corresponding data transmission line, for example corresponding data transmission line can output.

Eine Vorrichtung kann als eine elektrische Einrichtung aufgefasst werden, die Sensorsignale verarbeitet und abhängig davon Steuer- und/oder Datensignale ausgibt. Die Vorrichtung kann eine in Hardware und/oder in Software realisierte Schnittstelle umfassen. Bei Realisierung in Hardware können die Schnittstellen zum Beispiel Teil eines sogenannten System-ASIC sein, das verschiedene Funktionen der Vorrichtung umfasst. Die Schnittstellen können jedoch auch verschiedene integrierte Schaltungen sein oder mindestens teilweise aus diskreten Komponenten bestehen. Bei Realisierung in Software können die Schnittstellen Softwaremodule sein, die zum Beispiel auf einem Mikrocontroller zusammen mit anderen Softwaremodulen realisiert sind.A device can be viewed as an electrical device that processes sensor signals and, depending on them, outputs control and/or data signals. The device can include an interface implemented in hardware and/or software. When implemented in hardware, the interfaces can, for example, be part of a so-called system ASIC, which includes various functions of the device. However, the interfaces can also be different integrated circuits or at least partially consist of discrete components. When implemented in software, the interfaces can be software modules that are implemented, for example, on a microcontroller together with other software modules.

Der hier dargestellte Ansatz stellt auch ein Fahrzeug bereit, wobei das Fahrzeug die hier dargestellte Vorrichtung umfasst.The approach shown here also provides a vehicle, the vehicle comprising the device shown here.

Das Fahrzeug kann auch mindestens einen Aktor umfassen. Der Aktor kann dafür ausgelegt sein, mindestens eine Komponente des Fahrzeugs zu bewegen, um das Verhalten des Fahrzeugs zu beeinflussen. Die Vorrichtung und der mindestens eine Aktor können zur Signalkommunikation oder Datenkommunikation miteinander verbunden sein.The vehicle can also include at least one actuator. The actuator may be configured to move at least one component of the vehicle to influence the behavior of the vehicle. The device and the at least one actuator can be connected to one another for signal communication or data communication.

Gemäß einer Ausführungsform kann das Fahrzeug ein Geländefahrzeug sein, wobei die Aufgabe Interaktion des Geländefahrzeugs mit körnigem Material in der Arbeitsumgebung umfassen kann. Das Fahrzeug oder Geländefahrzeug kann eine Planierraupe, ein Bulldozer, ein Verdichter, ein Dumper, ein Bagger, ein Baufahrzeug, eine schwere Maschine, ein Schwerlastfahrzeug oder eine andere Art von Fahrzeug sein, die eine Anzahl von Zuweisungen aufweist, die Interaktion mit der Umgebung, spezieller dem körnigen Material, umfassen. Beispiele für diese Arten von Zuweisungen oder Aktionen können Planieren, Abladen von körnigem Material, Verdichten einer Fläche, Entfernen von körnigem Material usw. sein. Das körnige Material kann Erde, Sand, Schnee, Schutt, Gestein und/oder ähnliches Teilchenmaterial umfassen. Der Agent kann mindestens eine für das Fahrzeug geplante zu befolgende Trajektorie umfassen.According to one embodiment, the vehicle may be an off-road vehicle, where the task may include interaction of the off-road vehicle with granular material in the work environment. The vehicle or off-road vehicle may be a bulldozer, a bulldozer, a compactor, a dumper, an excavator, a construction vehicle, a heavy machinery, a heavy-duty vehicle or another type of vehicle that has a number of assignments that interact with the environment, more specifically the granular material. Examples of these types of assignments or actions may include grading, dumping granular material, compacting an area, removing granular material, etc. The granular material may include earth, sand, snow, rubble, rock and/or similar particulate material. The agent may include at least one trajectory planned for the vehicle to follow.

Außerdem ist vorteilhaft ein Computerprogrammprodukt oder Computerprogramm mit Programmcode, der auf einem Maschinen-lesbaren Träger- oder Speicherungsmedium, wie etwa Halbleiterspeicherung, Festplattenspeicherung oder optischer Speicherung, gespeichert sein kann und verwendet wird, um die Schritte des Verfahrens nach einer der zuvor beschriebenen Ausführungsformen auszuführen, zu implementieren und/oder zu steuern, insbesondere, wenn das Programmprodukt oder das Programm auf einem Computer oder einer Vorrichtung ausgeführt wird.In addition, a computer program product or computer program with program code, which can be stored on a machine-readable carrier or storage medium, such as semiconductor storage, hard disk storage or optical storage, and is used to carry out the steps of the method according to one of the previously described embodiments, is advantageous. to implement and/or control, especially when the program product or program is executed on a computer or device.

Eine Ausführungsform kann als Upstream-Teil in einer Maschinenlern-Werkzeugkette verwendet werden. Das Verfahren zum Bereitstellen eines trainierten Maschinenlern-Agenten, ausgelegt zum Steuern einer Einrichtung, kann einen Kern-Maschinenlern-Algorithmus repräsentieren, mit dem die Datenqualität für das Lernen verbessert werden kann. Es kann als ein Verfahren zum Trainieren eines Maschinenlernsystems verwendet werden, das für im Folgenden erwähnte Anwendungen benutzt werden kann. Nachdem es auf diese Weise trainiert ist, kann ein Maschinenlernsystem dann wie im Folgenden skizziert in Downstream-Gebrauch genommen werden. Anders ausgedrückt, kann es verwendet werden, um algorithmische Agenten zu trainieren, die ähnlich wie Menschen beim Lösen oder Ausführen von Aufgaben arbeiten, wie etwa, aber ohne Beschränkung darauf, autonomes Fahren, Robotik, Steuerung und mehr. Ein Steuersignal zum Steuern eines physischen Systems, wie etwa eines Geländefahrzeugs, einer Computer-gesteuerten Maschine, wie eines Roboters, eines Fahrzeugs oder einer beliebigen anderen Einrichtung, kann berechnet oder erzeugt werden.One embodiment may be used as an upstream part in a machine learning toolchain. The method of providing a trained machine learning agent designed to control a device may represent a core machine learning algorithm that can improve data quality for learning. It can be used as a method for training a machine learning system that can be used for applications mentioned below. Once trained in this way, a machine learning system can then be put into downstream use as outlined below. In other words, it can be used to train algorithmic agents to perform similarly to humans in solving or executing tasks such as, but not limited to, autonomous driving, robotics, control, and more. A control signal for controlling a physical system, such as an off-road vehicle, under computer control th machine, such as a robot, a vehicle or any other device, can be calculated or generated.

Ausführungsformen des hier dargestellten Ansatzes werden in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung ausführlicher erläutert.

1 zeigt eine schematische Ansicht einer Ausführungsform einer Vorrichtung in einem Fahrzeug;
2 zeigt ein Flussdiagramm einer Ausführungsform eines Verfahrens zum Bereitstellen eines zum Steuern einer Einrichtung ausgelegten trainierten Maschinenlern-Agenten;
3 zeigt ein Flussdiagramm einer Ausführungsform eines Verfahrens zum Steuern einer Einrichtung;
4 zeigt schematische Darstellungen von Simulationen einer Menge von Aktionen einer Einrichtung zur Lösung einer Aufgabe in einer Arbeitsumgebung; und
5 zeigt schematische Darstellungen einer Simulation einer Menge von Aktionen einer Einrichtung zur Lösung einer Aufgabe in einer Arbeitsumgebung.

Embodiments of the approach presented here are shown in the drawings and explained in more detail in the description below.

1 shows a schematic view of an embodiment of a device in a vehicle;
2 shows a flowchart of an embodiment of a method for providing a trained machine learning agent designed to control a device;
3 shows a flowchart of an embodiment of a method for controlling a device;
4 shows schematic representations of simulations of a set of actions of a device to solve a task in a work environment; and
5 shows schematic representations of a simulation of a set of actions of a device to solve a task in a work environment.

In der folgenden Beschreibung vorteilhafter Ausführungsformen der vorliegenden Erfindung werden in den verschiedenen Figuren dargestellte ähnlich wirkende Elemente mit denselben oder ähnlichen Bezugszahlen bezeichnet, wobei wiederholte Beschreibung dieser Elemente ausgelassen werden soll.In the following description of advantageous embodiments of the present invention, similar acting elements shown in the various figures are referred to with the same or similar reference numbers, with repeated description of these elements being omitted.

1 zeigt eine schematische Ansicht einer Ausführungsform einer Vorrichtung 105 in einem Fahrzeug 100. Die Vorrichtung 105 ist ausgelegt zum Bereitstellen eines trainierten Maschinenlern-Agenten 135, der dafür ausgelegt ist, eine Einrichtung, hier das Fahrzeug 100, zu steuern und/oder eine Einrichtung, hier das Fahrzeug 100, zu steuern. Anders ausgedrückt, ist die Vorrichtung 105 dafür ausgelegt, die Schritte eines Verfahrens wie in 2 beschrieben und/oder eines Verfahrens wie in 3 beschrieben in entsprechenden Einheiten auszuführen und/oder zu steuern. Die Einrichtung, hier das Fahrzeug 100, ist dafür ausgelegt, eine Aufgabe in einer Arbeitsumgebung zu lösen. 1 shows a schematic view of an embodiment of a device 105 in a vehicle 100. The device 105 is designed to provide a trained machine learning agent 135 that is designed to control a device, here the vehicle 100, and / or a device, here the vehicle 100 to control. In other words, the device 105 is designed to carry out the steps of a method as in 2 described and/or a method as in 3 described in appropriate units to be carried out and/or controlled. The device, here the vehicle 100, is designed to solve a task in a work environment.

Insbesondere ist das die Einrichtung beispielhaft repräsentierende Fahrzeug 100 hier ein Geländefahrzeug, zum Beispiel eine Planierraupe, ein Bulldozer, ein Verdichter, ein Dumper, ein Bagger, ein Baufahrzeug, eine schwere Maschine, ein Schwerlastfahrzeug oder eine andere Art von Fahrzeug sein, die eine Anzahl von Zuweisungen aufweist, die Interaktion mit der Umgebung, spezieller dem körnigen Material, umfassen. Bei anderen Ausführungsformen kann die Einrichtung eine computer-gesteuerte Maschine sein, wie etwa ein Roboter, eine andere Art von Fahrzeug oder eine beliebige andere Einrichtung.In particular, the vehicle 100 exemplifying the device here is an off-road vehicle, for example a bulldozer, a bulldozer, a compactor, a dumper, an excavator, a construction vehicle, a heavy machine, a heavy-duty vehicle or another type of vehicle, which is a number of assignments that include interaction with the environment, more specifically the granular material. In other embodiments, the device may be a computer-controlled machine, such as a robot, another type of vehicle, or any other device.

Das Fahrzeug 100 umfasst die Vorrichtung 105. Ferner umfasst das Fahrzeug 100 mindestens einen Aktor 102 zum Bewirken oder Ausführen einer Aktion des Fahrzeugs 100. Die Vorrichtung 105 und der Aktor 102 sind zur Signalkommunikation oder Datenkommunikation miteinander verbunden.The vehicle 100 includes the device 105. The vehicle 100 further includes at least one actuator 102 for causing or executing an action of the vehicle 100. The device 105 and the actuator 102 are connected to one another for signal communication or data communication.

Die Vorrichtung 105 umfasst eine Initialisierungseinheit 110, eine Erzeugungseinheit 120 und eine Trainingseinheit 130, die einen Bereitstellungsteil der Vorrichtung 105 repräsentieren, und gegebenenfalls auch eine Bestimmungseinheit 140 und eine Ausgabeeinheit 150, die einen Steuerteil der Vorrichtung 105 repräsentieren. Gemäß der Darstellung in 1 sind die Initialisierungseinheit 110, die Erzeugungseinheit 120, die Trainingseinheit 130 und die optionale Bestimmungseinheit 140 und Ausgabeeinheit 150 als Teile der Vorrichtung 105 realisiert, die alle in dem Fahrzeug 100 angeordnet sind. Gemäß einer anderen Ausführungsform können die Initialisierungseinheit 110, die Erzeugungseinheit 120 und die Trainingseinheit 130, d.h., der Bereitstellungsteil, als ein physisch außerhalb des Fahrzeugs 100 angeordneter Teil der Vorrichtung 105 realisiert sein.The device 105 includes an initialization unit 110, a generation unit 120 and a training unit 130, which represent a provision part of the device 105, and optionally also a determination unit 140 and an output unit 150, which represent a control part of the device 105. According to the illustration in 1 The initialization unit 110, the generation unit 120, the training unit 130 and the optional determination unit 140 and output unit 150 are implemented as parts of the device 105, all of which are arranged in the vehicle 100. According to another embodiment, the initialization unit 110, the generation unit 120 and the training unit 130, ie, the provision part, can be implemented as a part of the device 105 physically arranged outside the vehicle 100.

Die Initialisierungseinheit 110 ist ausgelegt zum Initialisieren eines ursprünglichen Maschinenlern-Agenten 112 in einem vortrainierten Zustand und einer Simulation 114 auf Ereignisbasis für einen Agenten, wie etwa den Agenten 112 und/oder 135 zur Lösung der Aufgabe. Die Simulation 114 auf Ereignisbasis ist ausgelegt zum Bereitstellen von Informationen bezüglich Agent-Interaktionen mit der Arbeitsumgebung. Die Initialisierungseinheit 110 ist auch ausgelegt zum Weiterleiten des ursprünglichen Maschinenlern-Agenten 112 und der Simulation 114 auf Ereignisbasis zu der Erzeugungseinheit 120. Die Erzeugungseinheit 120 ist ausgelegt zum Erzeugen einer Hybrid-Simulation 122 durch kombinieren der Simulation 114 auf Ereignisbasis und einer Lokalisierungssimulation auf Zeitbasis. Die Lokalisierungssimulation auf Zeitbasis umfasst ein Sensormodell und ein Fehlermodell. Das Sensormodell repräsentiert simulierte Messdaten, erhalten durch einen simulierten Sensor in vorbestimmten Zeitintervallen mit Bezug auf aus der Simulation 114 auf Ereignisbasis extrahierte Agent-Posen. Das Fehlermodell repräsentiert an dem simulierten Sensor wirkendes simuliertes Rauschen. Die Erzeugungseinheit 120 ist hier dafür ausgelegt, die Lokalisierungssimulation auf Zeitbasis oder die simulierten Messdaten aus der Simulation 140 auf Ereignisbasis zu erzeugen. Die Erzeugungseinheit 120 ist auch ausgelegt zum Weiterleiten des ursprünglichen Maschinenlern-Agenten 112 und der Hybrid-Simulation 122 zu der Trainingseinheit 130. Die Trainingseinheit 130 ist ausgelegt zum Trainieren des ursprünglichen Maschinenlern-Agenten 112 unter Verwendung der Hybrid-Simulation 122, um den trainierten Maschinenlern-Agenten 135 bereitzustellen.The initialization unit 110 is configured to initialize an original machine learning agent 112 in a pre-trained state and an event-based simulation 114 for an agent, such as agent 112 and/or 135, to solve the task. The event-based simulation 114 is designed to provide information regarding agent interactions with the work environment. The initialization unit 110 is also configured to forward the original machine learning agent 112 and the event-based simulation 114 to the generation unit 120. The generation unit 120 is configured to generate a hybrid simulation 122 by combining the event-based simulation 114 and a time-based localization simulation. The time-based localization simulation includes a sensor model and an error model. The sensor model represents simulated measurement data obtained by a simulated sensor at predetermined time intervals with respect to agent poses extracted from the simulation 114 on an event basis. The error model represents simulated noise acting on the simulated sensor. The generation unit 120 is designed here to generate the localization simulation on a time basis or the simulated measurement data from the simulation 140 on an event basis. The generating unit 120 is also designed for white forwarding the original machine learning agent 112 and the hybrid simulation 122 to the training unit 130. The training unit 130 is designed to train the original machine learning agent 112 using the hybrid simulation 122 to provide the trained machine learning agent 135.

Die Bestimmungseinheit 140 ist ausgelegt zum Empfangen oder Lesen des trainierten Maschinenlern-Agenten 135, der durch den Bereitstellungsteil der Vorrichtung 105 bereitgestellt wird. Die Bestimmungseinheit 140 ist außerdem dafür ausgelegt, unter Verwendung des trainierten Maschinenlern-Agenten 135 ein Steuersignal 145 zu bestimmen. Ferner ist die Bestimmungseinheit 140 dafür ausgelegt, das Steuersignal 145 zu der Ausgabeeinheit 150 weiterzuleiten. Die Ausgabeeinheit 150 ist ausgelegt zum Ausgeben des Steuersignals 145 an mindestens einen Aktor 102, um die Einrichtung, hier das Fahrzeug 100, zu steuern. Gemäß einer Ausführungsform kann der Steuerungsteil ein getrennter Teil sein, der von der Vorrichtung 105 verschieden ist.The determination unit 140 is designed to receive or read the trained machine learning agent 135 provided by the providing part of the device 105. The determination unit 140 is also designed to determine a control signal 145 using the trained machine learning agent 135. Furthermore, the determination unit 140 is designed to forward the control signal 145 to the output unit 150. The output unit 150 is designed to output the control signal 145 to at least one actuator 102 in order to control the device, here the vehicle 100. According to one embodiment, the control part may be a separate part that is different from the device 105.

2 zeigt ein Flussdiagramm einer Ausführungsform eines Verfahrens 200 zum Bereitstellen eines zum Steuern einer Einrichtung ausgelegten trainierten Maschinenlern-Agenten. Das Verfahren 200 zum Bereitstellen ist ein computer-implementiertes Verfahren. Die Einrichtung ist ausgelegt zum Lösen einer Aufgabe in einer Arbeitsumgebung. Das Verfahren 200 zum Bereitstellen ist durch Mittel von oder in Verbindung mit der Vorrichtung 1 oder einer ähnlichen Vorrichtung ausführbar. Gemäß einer Ausführungsform ist die Einrichtung das Fahrzeug von 1 oder ein ähnliches Fahrzeug. Zum Beispiel ist die Einrichtung ein Geländefahrzeug, und die zu lösende Aufgabe umfasst Interaktion des Geländefahrzeugs mit körnigem Material in der Arbeitsumgebung. Das Verfahren 200 zum Bereitstellen umfasst einen Schritt 210 des Initialisierens, einen Schritt 220 des Erzeugens und einen Schritt 230 des Trainings. In dem Schritt 210 des Initialisierens werden ein ursprünglicher Maschinenlern-Agent in einem vortrainierten Zustand und eine Simulation auf Ereignisbasis für einen Agenten zur Lösung der Aufgabe initialisiert. Die Simulation auf Ereignisbasis ist ausgelegt zum Bereitstellen von Information über Agent-Interaktionen mit der Arbeitsumgebung. Danach wird im Schritt 220 des Erzeugens eine Hybrid-Simulation durch Kombinieren der Simulation auf Ereignisbasis und einer Lokalisierungssimulation auf Zeitbasis erzeugt. Die Lokalisierungssimulation auf Zeitbasis umfasst ein Sensormodell und ein Fehlermodell. Das Sensormodell repräsentiert simulierte Messdaten, erhalten durch einen simulierten Sensor in vorbestimmten Zeitintervallen mit Bezug auf aus der Simulation auf Ereignisbasis extrahierte Agent-Posen. Das Fehlermodell repräsentiert an dem simulierten Sensor wirkendes simuliertes Rauschen. Danach wird im Schritt 230 des Trainings der ursprüngliche Maschinenlern-Agent unter Verwendung der Hybrid-Simulation trainiert, um den trainierten Maschinenlern-Agenten bereitzustellen. 2 shows a flowchart of an embodiment of a method 200 for providing a trained machine learning agent designed to control a device. The method 200 for providing is a computer-implemented method. The device is designed to solve a task in a work environment. The method 200 for providing can be carried out by means of or in conjunction with the device 1 or a similar device. According to one embodiment, the device is the vehicle of 1 or a similar vehicle. For example, the device is an off-road vehicle and the task to be solved involves interaction of the off-road vehicle with granular material in the work environment. The method 200 for providing includes a step 210 of initializing, a step 220 of generating and a step 230 of training. In the initialization step 210, an initial machine learning agent in a pre-trained state and an event-based simulation for an agent are initialized to solve the task. Event-based simulation is designed to provide information about agent interactions with the work environment. Thereafter, in step 220 of generating, a hybrid simulation is created by combining the event-based simulation and a time-based location simulation. The time-based localization simulation includes a sensor model and an error model. The sensor model represents simulated measurement data obtained by a simulated sensor at predetermined time intervals with respect to agent poses extracted from the event-based simulation. The error model represents simulated noise acting on the simulated sensor. Thereafter, in step 230 of training, the original machine learning agent is trained using the hybrid simulation to provide the trained machine learning agent.

Gemäß einer Ausführungsform werden im Schritt 220 des Erzeugens der aus der Simulation auf Ereignisbasis extrahierten Agent-Posen durch Erzeugung einer Trajektorie auf Zeitbasis aus einer Trajektorie aus der Simulation auf Ereignisbasis und durch Interpolieren der Agent-Posen aus der Trajektorie auf Zeitbasis gemäß den vorbestimmten Zeitintervallen, die einer Abtastfrequenz des simulierten Sensors entsprechen. Außerdem werden die simulierten Messdaten aus den Agent-Posen extrapoliert. Ferner wird das Fehlermodell durch Addieren des simulierten Rauschens zu den simulierten Messdaten für jedes Zeitintervall auf das Sensormodell angewandt. Gemäß einer Ausführungsform wird in Schritt 230 des Trainings Entscheidungsfindungsleistungsfähigkeit des ursprünglichen Maschinenlern-Agenten durch Betrachtung eines Agent-Verhaltens auf der Basis der Simulation auf Ereignisbasis und des Agent-Verhaltens auf der Basis der Hybrid-Simulation evaluiert.According to one embodiment, in step 220 of generating the agent poses extracted from the event-based simulation by generating a time-based trajectory from a trajectory from the event-based simulation and interpolating the agent poses from the time-based trajectory according to the predetermined time intervals, which correspond to a sampling frequency of the simulated sensor. In addition, the simulated measurement data is extrapolated from the agent poses. Further, the error model is applied to the sensor model by adding the simulated noise to the simulated measurement data for each time interval. According to one embodiment, in step 230 of training, decision-making performance of the original machine learning agent is evaluated by considering agent behavior based on the event-based simulation and agent behavior based on the hybrid simulation.

3 zeigt ein Flussdiagramm einer Ausführungsform eines Verfahrens 300 zum Steuern einer Einrichtung. Die Einrichtung ist ausgelegt zum Lösen einer Aufgabe in einer Arbeitsumgebung. Das Verfahren 300 zum Erzeugen ist mittels oder in Verbindung mit der Vorrichtung von 1 oder einer ähnlichen Vorrichtung ausführbar. Gemäß einer Ausführungsform ist die Einrichtung das Fahrzeug von 1 oder ein ähnliches Fahrzeug. Das Verfahren 300 zum Erzeugen umfasst einen Schritt 335 des Bereitstellens, einen Schritt 340 des Bestimmens und einen Schritt 350 des Ausgebens. 3 shows a flowchart of an embodiment of a method 300 for controlling a device. The device is designed to solve a task in a work environment. The method 300 for generating is by means of or in connection with the device of 1 or a similar device can be carried out. According to one embodiment, the device is the vehicle of 1 or a similar vehicle. The method 300 for generating includes a step 335 of providing, a step 340 of determining and a step 350 of outputting.

Im Schritt 335 des Bereitstellens wird ein trainierter Maschinenlern-Agent durch Ausführen der Schritte des Verfahrens zum Bereitstellen wie in 2 gezeigt oder eines ähnlichen Verfahrens bereitgestellt. Danach wird im Schritt 340 des Bestimmens ein Steuersignal unter Verwendung des trainierten Maschinenlern-Agenten bestimmt. Im Schritt 350 des Ausgebens wird das Steuersignal an mindestens einen Aktor der Einrichtung ausgegeben, um die Einrichtung zu steuern.In step 335 of deploying, a trained machine learning agent is trained by executing the steps of the deploying method as in 2 shown or provided a similar method. Thereafter, in step 340 of determining, a control signal is determined using the trained machine learning agent. In step 350 of outputting, the control signal is output to at least one actuator of the device to control the device.

Gemäß einer Ausführungsform ist die Einrichtung ein Geländefahrzeug und die zu lösende Aufgabe umfasst Interaktion des Geländefahrzeugs mit körnigem Material in der Arbeitsumgebung.According to one embodiment, the device is an off-road vehicle and the task to be solved includes interaction of the off-road vehicle with granular material in the work environment.

4 zeigt schematische Darstellungen 400A und 400B von Simulationen einer Menge von Aktionen 401 A und 401 B einer Einrichtung zur Lösung einer Aufgabe in einer Arbeitsumgebung. Die Simulationen werden durch die Vorrichtung wie in 1 oder eine ähnliche Vorrichtung und/oder durch Ausführen des Verfahrens wie in 2 und/oder 3 gezeigt oder eines ähnlichen Verfahrens erzeugt. 4 shows schematic representations 400A and 400B of simulations of a set of actions 401A and 401B of a device Solving a task in a work environment. The simulations are carried out by the device as in 1 or a similar device and/or by carrying out the method as in 2 and or 3 shown or created using a similar process.

Die Einrichtung ist die Einrichtung wie in 1 gezeigt, oder eine ähnliche Einrichtung. Die Einrichtung ist hier eine autonome Planierraupe und die Aufgabe ist, körniges Material gleichmäßig in der Arbeitsumgebung zu verteilen. Das körnige Material wird zum Beispiel als Sandhaufen bereitgestellt, von denen in 4 drei beispielhaft gezeigt sind. Jede der Darstellungen 400A und 400B ist als ein kartesisches Koordinatensystem gezeigt, das als Karte der Arbeitsumgebung dient, wobei Abmessungen X und Y in Zentimeter [cm] der Abszisse und der Ordinate zugewiesen sind. Die in 4 links und rechts gezeigten Darstellungen sollen als erste Darstellung 400A bzw. zweite Darstellung 400B bezeichnet werden.The facility is the facility as in 1 shown, or a similar device. The device here is an autonomous bulldozer and the task is to distribute granular material evenly throughout the work environment. The granular material is provided, for example, as piles of sand, of which in 4 three are shown as examples. Each of the representations 400A and 400B is shown as a Cartesian coordinate system serving as a map of the work environment, with dimensions X and Y in centimeters [cm] assigned to the abscissa and ordinate. In the 4 The representations shown on the left and right should be referred to as the first representation 400A and the second representation 400B, respectively.

Die Simulation in der ersten Darstellung 400A ist die in beliebigen der vorhergehenden Figuren erwähnte Simulation auf Ereignisbasis. Anders ausgedrückt, repräsentiert die Simulation in der ersten Darstellung 400A „echte“ Daten. Die erste Darstellung 400A zeigt einen Terminalzustand nach einer ersten Menge von durch die Einrichtung unternommenen Aktionen 401 A auf der Basis der Simulation auf Ereignisbasis. Die Simulation in der zweiten Darstellung 400B ist die in beliebigen der vorhergehenden Figuren erwähnte Hybrid-Simulation. Anders ausgedrückt, repräsentiert die Simulation in der zweiten Darstellung 400B „gemessene“ Daten. Die zweite Darstellung 400B zeigt einen Terminalzustand nach einer zweiten Menge von durch die Einrichtung unternommenen Aktionen 401 B auf der Basis der Hybrid-Simulation.The simulation in the first illustration 400A is the event-based simulation mentioned in any of the previous figures. In other words, the simulation in the first representation represents 400A “real” data. The first representation 400A shows a terminal state after a first set of actions 401A taken by the device based on the event-based simulation. The simulation in the second representation 400B is the hybrid simulation mentioned in any of the previous figures. In other words, the simulation in the second representation 400B represents “measured” data. The second representation 400B shows a terminal state after a second set of actions taken by the device 401B based on the hybrid simulation.

Spezieller und anders ausgedrückt, zeigt 4 zwei Zustände. Das linke Bild, die erste Darstellung 400A, ist einer Simulation auf Ereignisbasis entnommen. Sie zeigt einen Terminalzustand einer Episode beim Wirken in einer bestimmten Umgebung, d.h., wenn Posen dem Agenten perfekt bekannt sind und der Beobachtungszustand ohne Fehler projiziert wird. Das rechte Bild, die zweite Darstellung 400B, ist einer kombinierten Simulation oder Hybrid-Simulation entnommen. Für eine solche Simulation wurde der folgende Prozess ausgeführt: bei gegebenen Teilaktionen auf hoher Ebene und folglich Aktionen, die in Beobachtungen übersetzt wurden, wurden Agent-Posen extrahiert. Mit gegebenen Agent-Posen wurden Sensorinformationen extrapoliert, d.h., „echte“ Messung. Mit gegebener „echter“ Messung und einem Fehlermodell wurde für jeden Zeitstempel „fehlerhafte“ Sensormessung erzeugt. Es können Unbestimmtheiten bei der Agent-Pose betrachtet werden. Entscheidungsfindung unter diesen Unbestimmtheiten kann untersucht werden. Dieser Prozess erfolgte und dieses Bild zeigt den Terminalzustand einer Episode beim Wirken unter Unbestimmtheiten, die mit einem gewissen Fehlermodell in die Simulation auf Zeitbasis eingefügt wurden. Die Zustand-zu-Beobachtung-Projektion erfolgte in diesem Fall mit Fehlern, berechnet bei jedem Zeitstempel in der Simulation auf Zeitbasis auf niedriger Ebene. Der Zweck eines Vergleichs der zwei Darstellungen 400A und 400B ist, zu betonen, dass beide Simulationen für einen Benutzer gleich aussehen sollten, d.h., die Schnittstelle auf hoher Ebene aufweisen sollten, da es sich um eine Maschinenlern-Interaktionssimulation handelt, während alle Berechnung, z. B. innere Fehler, einbezogen werden. In diesem Fall hat der unter Unbestimmtheiten arbeitende Agent, vgl. die zweite Darstellung 400B, seine Aufgabe, das gesamte Gebiet zu planieren, nicht abgeschlossen, da er unter Unbestimmtheiten arbeitete und ein Teil des Sandes außerhalb seines Sichtfelds war. Ein solcher Vergleich ist nur möglich, weil die zwei Simulationen kombiniert werden können.More specifically and put another way, shows 4 two states. The left image, the first representation 400A, is taken from an event-based simulation. It shows a terminal state of an episode when operating in a particular environment, that is, when poses are perfectly known to the agent and the observation state is projected without errors. The right image, the second representation 400B, is taken from a combined simulation or hybrid simulation. For such a simulation, the following process was carried out: given high-level sub-actions and hence actions translated into observations, agent poses were extracted. Given agent poses, sensor information was extrapolated, i.e., “real” measurement. Given the “real” measurement and an error model, “erroneous” sensor measurements were generated for each timestamp. Indeterminacies in the agent pose can be considered. Decision making under these uncertainties can be examined. This process occurred and this image shows the terminal state of an episode operating under uncertainties introduced into the time-based simulation with some error model. The state-to-observation projection in this case was done with errors, calculated at each timestamp in the simulation on a low-level time basis. The purpose of comparing the two representations 400A and 400B is to emphasize that both simulations should look the same to a user, ie, have the high level interface since it is a machine learning interaction simulation, while all computation, e.g . B. internal errors can be included. In this case, the agent working under uncertainty, see the second representation 400B, did not complete its task of leveling the entire area because it was working under uncertainty and part of the sand was out of its field of vision. Such a comparison is only possible because the two simulations can be combined.

5 zeigt schematische Darstellungen 500A und 500B einer Simulation einer Menge von Aktionen einer Einrichtung 100 zur Lösung einer Aufgabe in einer Arbeitsumgebung. Die Simulation wird von der Vorrichtung wie in 1 gezeigt oder einer ähnlichen Vorrichtung und/oder durch das Verfahren wie in 2 und/oder 3 gezeigt, oder ein ähnliches Verfahren verwendet und/oder erzeugt. Die Einrichtung 100 ist die Einrichtung wie in 1 gezeigt oder eine ähnliche Einrichtung. Die Einrichtung 100 ist hier eine autonome Planierraupe und die Aufgabe ist, körniges Material 501 gleichmäßig in der Arbeitsumgebung zu verteilen. Das körnige Material 501 wird zum Beispiel als Sandhaufen bereitgestellt, von denen in 5 drei beispielhaft gezeigt sind. Jede der Darstellungen 500A und 500B ist als ein kartesisches Koordinatensystem gezeigt, das als Karte der Arbeitsumgebung dient, wobei Abmessungen X und Y in Zentimeter [cm] der Abszisse und der Ordinate zugewiesen sind. Die in 5 links und rechts gezeigten Darstellungen sollen als erste Darstellung 500A bzw. zweite Darstellung 500B bezeichnet werden. Die erste Darstellung 500A zeigt einen ersten Zustand in der Simulation zu einem ersten Zeitpunkt Tn. Die zweite Darstellung 500B zeigt einen nachfolgenden zweiten Zustand in der Simulation zu einem zweiten Zeitpunkt Tn+1. 5 shows schematic representations 500A and 500B of a simulation of a set of actions of a device 100 for solving a task in a work environment. The simulation is carried out by the device as in 1 shown or a similar device and/or by the method as in 2 and or 3 shown, or a similar process is used and/or produced. The facility 100 is the facility as in 1 shown or a similar facility. The device 100 here is an autonomous bulldozer and the task is to distribute granular material 501 evenly in the work environment. The granular material 501 is provided, for example, as piles of sand, of which in 5 three are shown as examples. Each of representations 500A and 500B is shown as a Cartesian coordinate system serving as a map of the work environment, with dimensions X and Y in centimeters [cm] assigned to the abscissa and ordinate. In the 5 The representations shown on the left and right should be referred to as the first representation 500A and the second representation 500B, respectively. The first representation 500A shows a first state in the simulation at a first time Tn. The second representation 500B shows a subsequent second state in the simulation at a second time Tn+1.

Anders ausgedrückt, zeigt 5 zwei aufeinanderfolgende Zustände in der Simulation auf Ereignisbasis. Für jede Verzögerung wurde die oben erwähnte Simulation auf Zeitbasis aktiviert. Mit einer gegebenen Simulation auf Ereignisbasis und einem gegebenen Sensormodell und einem gewünschten Fehlermodell, das untersucht werden soll, wird eine kombinierte Simulation oder Hybrid-Simulation erzeugt, die Aufzeichnung auf niedriger Ebene ermöglicht, während die Eigenschaften auf hoher Ebene der Simulation auf Ereignisbasis behalten werden. Eine solche Entflechtung hat viel größeren Wert zum Halten der Beschaffenheit der Simulation als eine Maschinenlern-Interaktion. Zum Beispiel mit zwei oder mehr, z. B. N, gegebenen Sub-Verzögerungsaktionen werden die oben erwähnten Aktionen wiederholt. 5 zeigt zwei aufeinanderfolgende Verzögerungen auf hoher Ebene. Für jede Verzögerung wurde derselbe Prozess durchgeführt.In other words, shows 5 two consecutive states in the event-based simulation. For each delay, the time-based simulation mentioned above was activated. Given an event-based simulation and a given sensor model and a desired error model to be examined a combined simulation or hybrid simulation is created that allows low-level recording while retaining the high-level properties of the event-based simulation. Such disentanglement has much greater value in maintaining the nature of the simulation than a machine learning interaction. For example with two or more, e.g. For example, given N, sub-delay actions, the above-mentioned actions are repeated. 5 shows two consecutive high-level delays. The same process was followed for each delay.

Mit Bezug auf die oben erwähnten Figuren sollen Ausführungsformen der vorliegenden Erfindung, der Hintergrund von Ausführungsformen und Vorteile von Ausführungsformen anders ausgedrückt im Folgenden zusammengefasst werden.With reference to the above-mentioned figures, embodiments of the present invention, the background of embodiments and advantages of embodiments, in other words, will be summarized below.

Die ereignisgesteuerten Simulationen 114 sind Simulationen, bei denen jede Transaktion in der Simulation durch ein Ereignis hervorgerufen wird. Ein Beispiel für ein Ereignis wäre ein Auto, das in einer autonomen Fahranwendung die Bremsen betätigt. Ein anderes Beispiel wäre ein Rasenmäher, der sein Ziel erreicht hat, indem er alles Gras im Garten gemäht hat. Zeitgesteuerte Simulationen simulieren ein System mit einigen in ihm installierten Sensoren. Einer dieser Sensoren kann als der „Primärsensor“ betrachtet werden. Ein solcher Sensor kann in einer gewissen Abtastfrequenz aktiviert werden. Bei diesen Arten von Simulationen wird jede Transaktion in der Simulation durch einen zugeordneten Zeitstempel und eine Aufzeichnung der Informationen des simulierten Sensors bzw. der simulierten Sensoren hervorgerufen. Ein Beispiel ist eine IMU (Trägheitsmesseinheit), die dafür ausgelegt ist, Abtastwerte zum Beispiel mit 20 Abtastwerten pro Sekunde (SPS) bereitzustellen. In diesen Simulationen kann jeder Eintrag alle 50 Millisekunden bereitgestellt werden und kann die Informationen umfassen, die aufgezeichnet worden wären, wenn eine tatsächliche Messeinrichtung mit einer Aufzeichnungseinrichtung verbunden würde.The event-driven simulations 114 are simulations in which each transaction in the simulation is caused by an event. An example of an event would be a car applying the brakes in an autonomous driving application. Another example would be a lawnmower that achieved its goal by cutting all the grass in the yard. Timed simulations simulate a system with some sensors installed in it. One of these sensors can be considered the “primary sensor”. Such a sensor can be activated at a certain sampling frequency. In these types of simulations, each transaction in the simulation is evoked by an associated timestamp and a record of the information from the simulated sensor(s). An example is an IMU (Inertial Measurement Unit) designed to provide samples at, for example, 20 samples per second (SPS). In these simulations, each entry may be provided every 50 milliseconds and may include the information that would have been recorded if an actual measuring device were connected to a recording device.

Im vorliegenden Fall basiert die Simulation auf Ereignissen, da sie für das Training von Verstärkungslern- bzw. RL-Agenten, wie etwa des Agenten 112, ausgelegt ist. Im Allgemeinen sind zum Training von RL-Agenten Simulatoren oder Simulationen ereignisgesteuert, da sie Informationen über die Interaktion des Agenten mit der Umgebung bereitstellen sollen und keine spezifischen Sensorinformationen umfassen. Dementsprechend liefern sie keine mit Zeitstempeln gekoppelte Sensorinformationen. Außerdem müssen RL-Simulationen im Allgemeinen schnell sein, da sie viele Male zum Training des RL-Agenten 112 laufengelassen werden. Wie bereits erwähnt, basiert die Simulation auf Ereignissen, da sie RL-Agenten trainieren und die Informationen über die Interaktion zwischen dem Agenten und der Umgebung erfassen soll. Um Fähigkeiten der Entscheidungsfindung unter Unbestimmtheiten hinzuzufügen, werden Fähigkeiten auf Zeitbasis hinzugefügt. Dementsprechend wird für jede Sub-Verzögerung in der Trainingsepisode die Pose, d.h. Position und Lage, des Agenten aufgezeichnet. Diese Posen werden dann auf die gewünschte Abtastfrequenz einer bestimmten IMU interpoliert. Aus diesen Posen werden dann die simulierten Messungen einer IMU berechnet. Zu diesen „echten“ IMU-Messungen wird typisches Rauschen hinzugefügt. Als Ergebnis werden fehlerhafte Posen aufgezeichnet, und Unbestimmtheiten bezüglich der Pose des Agenten können betrachtet werden, und die Leistungsfähigkeit des Agenten unter diesen Unbestimmtheiten kann betrachtet werden.In this case, the simulation is event-based because it is designed for training reinforcement learning or RL agents, such as agent 112. In general, for training RL agents, simulators or simulations are event-driven because they are intended to provide information about the agent's interaction with the environment and do not include specific sensor information. Accordingly, they do not provide sensor information coupled with time stamps. Additionally, RL simulations generally need to be fast since they are run many times to train the RL agent 112. As mentioned earlier, the simulation is event-based because it aims to train RL agents and capture the information about the interaction between the agent and the environment. To add decision-making capabilities under uncertainty, time-based capabilities are added. Accordingly, for each sub-delay in the training episode, the pose, i.e. position and attitude, of the agent is recorded. These poses are then interpolated to the desired sampling frequency of a specific IMU. The simulated measurements of an IMU are then calculated from these poses. Typical noise is added to these “real” IMU measurements. As a result, erroneous poses are recorded, and uncertainties regarding the agent's pose can be considered, and the agent's performance under these uncertainties can be considered.

Die Hybrid- oder kombinierte Simulation 122, die durch den oben erwähnten Prozess erhalten wird, ist in dem Sinne einzigartig, als sie Mittel zur Untersuchung von auf Zeit basierenden Betrachtungen eines Systems, eingebettet in einer Simulation 114 auf Ereignisbasis, bereitstellen kann. Diese beiden Arten von Simulationen bleiben hier entflochten. Eine solche Entflechtung ist erwünscht, da Simulationen 114 auf Ereignisbasis die Interaktion des Agenten und der Umgebung erfassen sollen, während Simulationen auf Zeitbasis spezifische Messeinrichtungen simulieren und sensorische Informationen und einen Zeitstempel für jede Zeitaufzeichnung der Episode bereitstellen sollen. Bei der Agent- und Umgebung-Interaktion werden Beobachtungen o_t von der Umgebung erhalten, Aktionen a_t mit Bezug auf die Umgebung unternommen und als Reaktion darauf eine Belohnung r₁ erhalten.The hybrid or combined simulation 122 obtained through the above-mentioned process is unique in the sense that it can provide a means for examining time-based considerations of a system embedded in an event-based simulation 114. These two types of simulations remain disentangled here. Such disentanglement is desirable because event-based simulations 114 are intended to capture the interaction of the agent and the environment, while time-based simulations are intended to simulate specific measurement devices and provide sensory information and a timestamp for each time record of the episode. In agent and environment interaction, observations o _t are obtained from the environment, actions a _t are taken with respect to the environment, and a reward r ₁ is received in response.

Auf der Basis einer Sub-Trajektorie aus einer Simulation 114 auf Ereignisbasis, wie etwa der in der ersten Darstellung 500A von 5 gezeigten, wird eine Trajektorie auf Zeitbasis aus ihr extrahiert, oder anders ausgedrückt, wird ein Zustand am Ende einer Aktion (eines Ereignisses) auf hoher Ebene extrahiert oder eine Trajektorie aus Ereignissen auf hoher Ebene in der RL-Simulation erzeugt. Wenn eine solche Sub-Episoden-Verzögerung gegeben ist, werden die Posendaten aus der Simulation 114 auf Ereignisbasis auf hoher Ebene interpoliert, und eine Liste von Posen, die erzeugt worden sein können, wenn die Simulation auf Zeitbasis betrachtet wird, wird erhalten. Aus dieser Trajektorie werden die „echten“ sensorischen Informationen, z. B. Beschleunigungen und/oder Winkelgeschwindigkeiten einschließlich Zeitstempel berechnet.Based on a sub-trajectory from an event-based simulation 114, such as that in the first representation 500A of 5 shown, a trajectory is extracted from it on a time basis, or in other words, a state at the end of a high-level action (event) is extracted or a trajectory is generated from high-level events in the RL simulation. Given such a sub-episode delay, the pose data from the simulation 114 is interpolated on a high-level event basis, and a list of poses that may have been generated when viewing the simulation on a time basis is obtained. The “real” sensory information, e.g. B. accelerations and/or angular velocities including timestamps are calculated.

Dieser Prozess zum Kombinieren von zwei Arten von Simulationen, ausgeführt durch die Vorrichtung wie in 1 gezeigt oder eine ähnliche Vorrichtung und/oder durch das Verfahren wie in 2 und/oder 3 gezeigt oder ein ähnliches Verfahren, wird im Kontext einer (auf Ereignissen basierenden) RL-Simulation und einer (auf Zeit basierenden) Lokalisierungssimulation verwendet. Er erfolgt mit der Absicht, Entscheidungsfindung eines RL-Agenten unter Unbestimmtheiten für das autonome Geländefahren zu untersuchen. Dies ist auf jede Maschinenlern- bzw. ML-Anwendung anwendbar, bei der es erwünscht ist, diese zwei Arten von Simulatoren oder Simulationen zu kombinieren und Trajektorienplanung aus Demonstrationen zu erfahren.This process of combining two types of simulations carried out by the device as in 1 shown or a similar device and/or by the method as in 2 and or 3 shown or a similar procedure, is used in the context of an RL (event-based) simulation and a (time-based) localization simulation. It is done with the intention of studying decision making of an RL agent under uncertainties for autonomous off-road driving. This is applicable to any machine learning or ML application where it is desired to combine these two types of simulators or simulations and learn trajectory planning from demonstrations.

Immer wenn eine Ausführungsform eine Verknüpfung „und/oder“ zwischen einem ersten Merkmal und einem zweiten Merkmal umfasst, soll dies bedeuten, dass die Ausführungsform in einer ersten Variante sowohl das erste Merkmal als auch das zweite Merkmal umfasst und in einer weiteren Variante entweder das erste Merkmal oder das zweite Merkmal umfasst.Whenever an embodiment includes a link “and/or” between a first feature and a second feature, this is intended to mean that the embodiment includes both the first feature and the second feature in a first variant and either the first in a further variant Feature or the second feature includes.

Claims

Computer-implemented method (200) for providing a trained machine learning agent (135) designed to control a device (100), the device (100) being designed to solve a task in a work environment, the method (200 ) includes the following steps: Initializing (210) an original machine learning agent (112) in a pre-trained state and an event-based simulation (114) for an agent (112, 135) to solve the task, the event-based simulation (114) being designed to provide information to provide agent interactions with the work environment; Generating (220) a hybrid simulation (122) by combining the event-based simulation (112) and a time-based localization simulation, wherein the time-based localization simulation includes a sensor model and an error model, the sensor model representing simulated measurement data obtained by a simulated sensor at predetermined time intervals with respect to agent poses extracted from the event-based simulation (114), the error model represents simulated noise acting on the simulated sensor; and training (230) the original machine learning agent (112) using the hybrid simulation (122) to provide the trained machine learning agent (135).

Procedure (200) according to Claim 1 , wherein in step (220) of generating, the agent poses are extracted from the event-based simulation (114) by generating a time-based trajectory from a trajectory from the event-based simulation (114) and by interpolating the agent poses from the trajectory on a time basis according to the predetermined time intervals corresponding to a sampling frequency of the simulated sensor, the simulated measurement data being extrapolated from the agent poses, the error model being applied to the sensor model by adding the simulated noise to the simulated measurement data for each time interval.

A method (200) according to any one of the preceding claims, wherein in the step (230) of training, the decision-making performance of the original machine learning agent (112) is determined by considering agent behavior based on the event-based simulation (114) and agent behavior on the Basis of the hybrid simulation (122) is evaluated.

Method (300) for controlling a device (100), the device (100) being designed to solve a task in a work environment, the method (300) comprising the following steps: Providing (335) a trained machine learning agent (135) according to a method (200) according to one of the preceding claims; determining (340) a control signal (145) using the trained machine learning agent (135); and Outputting (350) the control signal (145) to at least one actuator (102) of the device (100) in order to control the device (100).

Method (200; 300) according to one of the preceding claims, wherein the device (100) is an off-road vehicle, the task to be solved comprising interaction of the off-road vehicle with granular material (501) in the work environment.

Device (105) designed to carry out and/or control the steps of a method (200; 300) according to one of the preceding claims in corresponding units (110, 120, 130; 140, 150).

Vehicle (100) that has a device (105). Claim 6 includes.

Vehicle (100) after Claim 7 , wherein the vehicle (100) is an off-road vehicle, wherein the task includes interaction of the off-road vehicle with granular material (501) in the work environment.

Computer program, comprising commands which, when the program is executed by a computer, cause it to carry out the steps of the method according to one of the Claims 1 until 5 to carry out.

Machine-readable storage medium on which the program is written Claim 9 is stored.