DE102023200231A1

DE102023200231A1 - Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung

Info

Publication number: DE102023200231A1
Application number: DE102023200231.0A
Authority: DE
Inventors: Philipp Geiger
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2024-07-18

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung beschrieben, aufweisend Ermitteln von Demonstrationen für das Verhalten von mindestens einem Objekt in Steuerungssituationen, die das mindestens eine Objekt und die Robotervorrichtung enthalten, Trainieren eines maschinellen Lernmodells zum Abbilden von Informationen über Steuerungssituationen auf Informationen über das Verhalten des mindestens einen Objekts mittels eines Quantilregressionsverlusts für ein oder mehrere Unterschreitungsanteile, Durchführen einer Simulation, wobei das Verhalten der Robotervorrichtung gemäß der der zu evaluierenden Steuerung simuliert wird und das Verhalten des mindestens einen Objekts in mindestens einer in der Simulation auftretenden Steuerungssituation gemäß einer Ausgabe simuliert wird, die das trainierte maschinelle Lernmodell in Reaktion auf Informationen über die auftretende Steuerungssituation ausgibt, und Bewerten der Steuerung abhängig von Ereignissen in der Simulation.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung, insbesondere zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung oder zum Auswählen einer Steuerung (d.h. einer Steueraktion) im Betrieb einer Robotervorrichtung.
In den letzten Jahren wurde autonomes Fahren ein Thema großen Interesses sowohl in der Forschung als auch in der Öffentlichkeit. Autonome Fahrzeuge haben ein enormes Potential, nicht nur wirtschaftlich, sondern auch zur Verbesserung der Mobilitätsmöglichkeiten und potenziell zur Reduzierung von Kohlenstoff-Emissionen. Wie jedes Steuern beinhaltet autonomes Fahren das Treffen von Entscheidungen in einer jeweiligen Steuersituation zur Auswahl einer Steueraktion. Dieser Steueraktionen sollen sicher sein, d.h. sie sollen nicht zu gefährlichen Situationen führen. Um ihre Zuverlässigkeit und Sicherheit zu testen, müssen Steuerungen für autonomes Fahren ausgiebig getestet werden. Da dies mit realen Tests zu aufwändig oder auch zu gefährlich wäre, erfolgt dies mittels Simulationen. Dazu sollen andere Verkehrsteilnehmer derart simuliert werden, dass ein möglichst breites Spektrum von Abläufen von Verkehrssituationen, wie sie in der Realität auftreten könnten, abdeckt werden, damit die zu testende Steuerung umfassend getestet werden kann. Insbesondere sollen auch Worst-Case-Szenarien (die durch besonders ungünstiges Verhalten von einem anderen Verkehrsteilnehmer entstehen) abgedeckt werden.
Es sind somit Verfahren zum Evaluieren von Steuerungen für Fahrzeuge, oder allgemein für Robotervorrichtungen (wie Roboterarme, Laufroboter, etc.), wünschenswert, die umfassend mögliche Abläufe von Steuerszenarien (d.h. verschiedene Abläufe, für die es plausibel ist, dass sie in der Realität auftreten könnten) abdecken.
Die Veröffentlichung „Autoregressive Quantile Flows for Predictive Uncertainty Estimation“ von Phillip Si et al., 2022, im Folgenden als Referenz 1 bezeichnet, beschreibt Normalisierungsflüsse, die unter Verwendung eines „check scores“ trainiert werden, der entsprechend einer gekippten absoluten Fehlerverlustfunktion definiert ist.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung bereitgestellt, aufweisend Ermitteln von Demonstrationen für das Verhalten von mindestens einem Objekt in Steuerungssituationen, die das mindestens eine Objekt und die Robotervorrichtung enthalten, Trainieren eines maschinellen Lernmodells zum Abbilden von Informationen über Steuerungssituationen auf Informationen über das Verhalten des mindestens einen Objekts mittels eines Quantilregressionsverlusts für ein oder mehrere Unterschreitungsanteile, Durchführen einer Simulation, wobei das Verhalten der Robotervorrichtung gemäß der der zu evaluierenden Steuerung simuliert wird und das Verhalten des mindestens einen Objekts in mindestens einer in der Simulation auftretenden Steuerungssituation gemäß einer Ausgabe simuliert wird, die das trainierte maschinelle Lernmodell in Reaktion auf Informationen über die auftretende Steuerungssituation ausgibt, und Bewerten der Steuerung abhängig von Ereignissen in der Simulation.
Durch das Training des maschinellen Lernmodells, gemäß dem sich das mindestens eine Objekt in der Simulation verhält, auf der Grundlage eines Quantilregressionsverlusts, ist es möglich, Verhalten gemäß Grenzfällen (oder innerhalb bestimmter Grenzfälle), insbesondere ein Worst-Case-Verhalten, in der Simulation für das Objekt zu verwenden und somit die zu evaluierende Steuerung (z.B. ein zu testendes Steuerverfahren) gegenüber solcher Grenzfälle zu testen bzw. validieren. Damit kann eine gründlicher Test innerhalb einer realistischen Bandbreite von möglichen Verhaltensweisen (z.B. anderer Fahrer) erreicht werden und sichergestellt werden, dass ein Steuerverfahren, das eingesetzt wird, auch für untypische Verhaltensweisen, die in eine solches Spektrum fallen, sicher ist.
Ein Worst-Case-Verhalten, dass abgedeckt wird, braucht hierbei nicht ein theoretisch mögliches Worst-Case-Verhalten zu sein, sondern ein realistisches Worst-Case-Verhalten, wie z.B. ein besonders wagemutiger Fahrer, wie er im Straßenverkehr vorkommen kann, d.h. ein mit großer Wahrscheinlichkeit schlechtmöglichster Fall bzw. ein bis auf ein Restrisiko (mit kleiner Wahrscheinlichkeit, z.B. 0,001 %) schlechtmöglichstes Verhalten
Ein Ereignis, anhand dessen die Steuerung bewertet wird, ist beispielsweise das Auftreten bzw. Nicht-Auftreten eines Unfalls wie z.B. einer Kollision etc. Beispielsweise wird die Steuerung als ungeeignet bewertet, wenn in der Simulation eine Kollision auftritt.
Durch das Training auf der Grundlage eines Quantilregressionsverlusts kann der Fokus beim Training darauf gelegt werden, dass „Long Tails“ einer gelernten Wahrscheinlichkeitsverteilung (die die Ausgabe des trainierten maschinellen Lernmodells angibt bzw. widerspiegelt) mit hoher Genauigkeit gelernt werden, sodass die Ausgabe des maschinellen Lernmodells extremes aber realistisches Verhalten beinhaltet bzw. spezifiziert.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt ein Quantil (insbesondere ein hohes Quantil) für eine Aktion des mindestens einen Objekts in der Steuerungssituation für einen vorgegebenen Unterschreitungsanteil auszugeben und wobei das Verhalten des mindestens einen Objekts in der mindestens einen in der Simulation auftretenden Steuerungssituation gemäß dem Quantil simuliert wird, das das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
Damit können realistische Grenzfälle des Verhaltens erfasst werden. Das maschinelle Lernmodell (oder mehrere maschinelle Lernmodelle) können auch verwendet werden, mehrere Quantile zu bestimmen, die mehrere Grenzfälle erfassen (z.B. ein besonders starkes Bremsen und ein besonders starkes Beschleunigen).
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt mehrere Quantile für eine Aktion des mindestens einen Objekts in der Steuerungssituation für vorgegebene Unterschreitungsanteile auszugeben und mehrere Simulationen durchgeführt werden, wobei das Verhalten des mindestens einen Objekts in der auftretenden Steuerungssituation in jeder der mehreren Simulationen gemäß einem jeweiligen (z.B. gesampelten) Wert aus einer Quantilmenge simuliert wird, die durch die Quantile definiert ist, die das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
Beispielsweise kann ein Bereich zwischen einer unteren Schranke für ein Verhalten (z.B. eine Beschleunigung) und einer oberen Schranke für ein Verhalten bestimmt und daraus in mehreren Simulationen jeweils gesampelt werden, um sicherzustellen, dass das die zu evaluierende Steuerung robust ist gegenüber verschiedenen Verhaltensweisen des Objekts, die gemäß der Quantilmenge möglich sind.
Ausführungsbeispiel 4 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt mehrere Quantile für eine Aktion des mindestens einen Objekts in der Steuerungssituation für vorgegebene Unterschreitungsanteile auszugeben, wobei das Verhalten des mindestens einen Objekts in der auftretenden Steuerungssituation gemäß einem Worst-Case-Verhalten aus einer Quantilmenge simuliert wird, die durch die Quantile definiert ist, die das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
In anderen Worten kann sichergestellt werden, dass die zu evaluierende Steuerung robust ist gegenüber verschiedenen Verhaltensweisen des Objekts, die gemäß der Quantilmenge möglich sind, indem ein Worst-Case-Verhalten aus der Quantilmenge bestimmt wird (z.B. besonders nahes Auffahren) und dies der Simulation zu Grunde gelegt wird.
Ausführungsbeispiel 5 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das maschinelle Lernmodell einen Normalisierungsfluss (oder auch „normalisierenden Fluss“, engl. normalizing flow, siehe auch Referenz 1) spezifiziert und das Verhalten des mindestens einen Objekts in der mindestens einen auftretenden Steuersituation gemäß einem Sample aus einer Wahrscheinlichkeitsverteilung, die der Normalisierungsfluss in Reaktion auf die Eingabe von Informationen über die auftretende Steuersituation ausgibt, simuliert wird.
Durch das Trainieren speziell eines Normalisierungsflusses mittels eines Quantilregressionsverlusts kann erreicht werden, dass die Ausgabe des Normalisierungsflusses Quantile korrekt widerspiegelt. Die Ausgangsverteilung des Normalisierungsflusses ist hier beispielsweise eine uniforme Verteilung, der Trainingsverlust ist ein Quantilregressionsverlust für einen bestimmten Unterschreitungsanteil oder die Summe von Quantilregressionsverlusten für mehrere Unterschreibungsanteile.
Wie oben erläutert, können hohe Quantile als gewisses Worst-Case-Verhalten bzw. Grenzfälle beim Testen verwendet werden. Es kann auch probabilistisch vorgegangen werden mit besonderem Fokus darauf, dass bestimme Quantile gut gelernt werden (durch die Quantilsverlustfunktion). Es gib also beispielsweise folgende Möglichkeiten:

• „Worst-Case“:
- ◯ in der Simulation das Worst-Case-Verhalten verwenden
- ◯ in der Simulation uniform aus der Quantilmenge sampeln
• „Probabilistisch“: Aus dem Normalizing Flow Sampeln (wobei beim Training auf die korrekten relevanten Quantile abgezielt wird)

Bei der probabilistischen Herangehensweise wird darauf geachtet, dass auch seltenes (bzw. extremes) Verhalten korrekt widergespiegelt wird, so dass jegliches Verhalten, dass realistischerweise auftreten kann, abgedeckt wird.
Ausführungsbeispiel 6 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5, wobei der Quantilregressionsverlusts mittels einer gekippten absoluten Fehlerverlustfunktion berechnet wird.
Dies ermöglicht eine effektive und einfache Berechnung des Quantilregressionsverlusts.
Ausführungsbeispiel 7 ist eine Testeinrichtung, die eingerichtet ist, das Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchzuführen.
Ausführungsbeispiel 8 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
Ausführungsbeispiel 9 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt ein Fahrzeug.
2 veranschaulicht ein Beispiel für eine Simulation zum Testen einer Steuerung eines Fahrzeugs.
3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung gemäß einer Ausführungsform darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt ein Fahrzeug 101.
Im Beispiel von 1 ist ein Fahrzeug 101, beispielsweise ein PKW oder LKW, mit einer Fahrzeugsteuereinrichtung 102 versehen.
Die Fahrzeugsteuereinrichtung 102 weist Datenverarbeitungskomponenten auf, z.B. einen Prozessor (z.B. eine CPU (Zentraleinheit)) 103 und einen Speicher 104 zum Speichern von Steuersoftware, gemäß der die Fahrzeugsteuereinrichtung 102 arbeitet, und Daten, die von dem Prozessor 103 verarbeitet werden.
Beispielsweise weist die gespeicherte Steuerungssoftware (Computerprogramm) Anweisungen auf, die, wenn der Prozessor sie ausführt, bewirken, dass der Prozessor 103 ein oder mehrere neuronale Netzwerke 107 implementiert.
Die im Speicher 104 gespeicherten Daten können beispielsweise Bilddaten beinhalten, die von einer oder mehreren Kameras 105 erfasst werden. Die eine oder die mehreren Kameras 105 können beispielsweise ein oder mehrere Graustufen- oder Farbfotos der Umgebung des Fahrzeugs 101 aufnehmen.
Die Fahrzeugsteuereinrichtung 102 kann unter Verwendung der Bilddaten (oder auch Daten von anderen Informationsquellen, wie anderer Arten von Sensoren oder auch Fahrzeug-Fahrzeug-Kommunikation) Objekte in der Umgebung des Fahrzeugs 101 detektieren, insbesondere andere Fahrzeuge.
Die Fahrzeugsteuereinrichtung 102 kann die Sensordaten untersuchen und das Fahrzeug 101 gemäß den Ergebnissen steuern, d.h. Steuerungsaktionen für das Fahrzeug ermitteln und an jeweilige Aktoren des Fahrzeugs signalisieren. So kann die Fahrzeugsteuereinrichtung 102 beispielsweise einen Aktuator 106 (z.B. eine Bremse) steuern, um die Geschwindigkeit des Fahrzeugs zu steuern, z.B. um das Fahrzeug zu bremsen.
Die Steuerungsstrategie, die von der Fahrzeugsteuereinrichtung 102 verwendet wird, muss vor ihrem Einsatz im realen Straßenverkehr ausgiebig getestet werden. Dies erfolgt typischerweise mit Simulationen, für die andere Fahrzeuge simuliert werden. Dazu können Fahrermodelle gelernt (d.h. trainiert) werden, gemäß sich denen die anderen Fahrzeuge in der Simulation verhalten.
Das Lernen von Fahrermodellen für die automatisierte Fahrsimulation verspricht eine bessere Skalierung auf die enorme Menge relevanter Verkehrsszenarien als die manuelle Entwicklung heuristischer Fahrermodelle. Der dominierende Lernansatz für das Lernen von Fahrermodellen ist das Imitationslernen (engl. imitation learning) aus menschlichen Demonstrationen. Zwei Ansätze hierfür sind das GAIL (Generative Adversarial Imitation Learning), das auf GANs (Generative Adversarial Networks) basiert, sowie der Ansatz „TrafficSim“, der auf einem VAE (Variational Autoencoder) basiert.
Der Grundgedanke des Imitationslernens ist, dass Aufzeichnungen (Demonstrationen) eines Verhaltens eines (demonstrierenden) Agenten ermittelt (d.h. beschafft) werden und dann ein Verhaltensmodell für einen Agenten (also z.B. für ein anderes Fahrzeug) anhand dieser Daten trainiert werden, damit er sich ähnlich dem demonstrierten Verhalten verhält. Beim Klonen von Verhalten (Behaviour Cloning) wird das Imitationslernen als einfaches, überlagertes Lernproblem behandelt, bei dem es darum geht, die Abbildung von Beobachtung zu Aktion, d.h. die Steuerungsstrategie, zu lernen, wobei die Beobachtungs-Aktions-Paare des demonstrierenden Agenden als unabhängig gleichverteilte Stichproben behandelt werden.
Bei der Verwendung solcher Ansätze zum Testen einer Steuerung (z.B. eines autonomen Fahrzeugs) wird typischerweise ein Verhalten von einem anderen Fahrzeug von einem entsprechend trainierten Modell erzeugt bzw. aus einer von dem trainierten Modell gelieferten Wahrscheinlichkeitsverhalten gesampelt. Das andere Fahrzeug hat somit normalerweise ein „typisches“ Verhalten.
Wenn sich andere Fahrzeuge typisch verhalten und damit die zu testende Steuerung gut zurecht kommt, sich also im Zusammenspiel mit den anderen Fahrzeugen korrekt verhält, also z.B. so, dass es zu keinem Unfall kommt, heißt dies allerdings nicht, dass das auch dann der Fall ist, wenn sich ein anderes Fahrzeug für eine besondere Verkehrssituation besonders schlecht verhält. In einer realen Verkehrssituation könnte z.B. ein anderer Fahrer besonders risikoreich fahren. Ein solches Worst-Case-Verhalten könnte also im Rahmen des Möglichen liegen, auch wenn es nicht „typisch“ ist.
Um solche Grenzfälle eines möglichen Verhaltens gezielt zu testen, wird gemäß verschiedenen Ausführungsformen für das Erzeugen eines Verhaltens eines anderen Fahrzeugs (allgemein eines Agenten) eine Art von Imitationslernen verwendet, bei das jeweilige Modell (z.B. ein neuronales Netzwerk) mit dem Ziel trainiert wird, dass es eine oder mehrere Quantile der Handlungsverteilung des Agenten, dessen Verhalten modelliert (bzw. letztendlich simuliert) werden soll, für eine gegebene Situation (z.B. Verkehrssituation) explizit und korrekt vorhersagt (gemäß den jeweiligen Trainingsdaten).
Verhaltensklonen kann als Regressionsproblem gesehen werden. Das obige Training zur Vorhersage eines Quantils kann entsprechend als spezifische Regressionsmethode gesehen werden, die so genannte Quantilsregression.
Es sollte beachtet werden, dass mittels generativer Imitationslernverfahren wie GAIL oder TrafficSim trainierte Modelle die Verteilung über Aktionen (gemäß den jeweiligen Trainingsdaten) voraussagen. Die Kenntnis einer Verteilung impliziert wiederum die Kenntnis der Quantile. Beim Quantil-Imitationslernen gemäß verschiedenen Ausführungsformen wird ein Modell jedoch derart trainiert, dass es ein Quantil direkt und explizit vorhersagt.
Darüber hinaus sind Methoden wie GAIL sehr komplex, heuristisch und schwer zu verstehen:

• Es ist schwer zu verstehen, ob sie die Quantile richtig schätzen oder nicht und sie können in ihren Annahmen über die Aktionsverteilung sehr voreingenommen sein, z. B. wenn sie davon ausgehen, dass diese gaußförmig ist.
• Darüber hinaus besteht das Problem, aus einem Modell nach GAIL oder TrafficSim die Quantile zu berechnen, auch wenn die Quantile durch die Kenntnis der jeweiligen generativen Verteilung (d.h. durch die Kenntnis des GAN oder des VAE) eindeutig bestimmt sind.

2 veranschaulicht ein Beispiel für eine Simulation zum Testen einer Steuerung eines Fahrzeugs 201 (als Ego-Fahrzeug oder allgemein Ego-Agent bezeichnet).
Der Ego-Agent 201 führt mit anderen Fahrzeugen (d.h. Agenten) 202, 203 von links nach rechts auf einer dreispurigen Autobahn. Für den Ego-Agent 201 und die anderen Agenten 202 zeigt jeweils die durchgezogene Linie den bisherigen Fahrtweg (also die vorangegangene Trajektorie) und eine gestrichelte Linie die geplante Trajektorie für den Ego-Agenten 201 bzw. mögliche Fahrtwege (Trajektorien) für die anderen Agenten 202, 203.
Diese möglichen Fahrtwege für die anderen Agenten 202, 203 werden gemäß verschiedenen Ausführungsformen mittels Quantil-Imitationslernen wie oben erwähnt modelliert.
Für den anderen Agenten 202, der sich in der aktuellen Verkehrssituation unterhalb des Ego-Agenten 201 befindet, sind beispielsweise zwei mögliche nach obere gekrümmte zukünftige Trajektorien dargestellt. Die untere dieser beiden könnte z.B. durch das 99,999%-Quantil einer Verteilung für das Verhalten des Fahrzeugs gegeben sein und kollidiert nicht mit der zukünftigen Trajektorie des Ego-Fahrzeugs 201. Die oberste zukünftige Trajektorie dieses anderen Agenten 201 ist beispielsweise durch das 99,9999%-Quantil gegeben und würde zu einer Kollision mit dem Ego-Fahrzeug 201, das sich entlang der dargestellten zukünftigen Trajektorie bewegt, führen. Damit kann (beispielsweise von der Fahrzeugsteuereinrichtung 102), wenn die Kollisionswahrscheinlichkeit unter 0,001 % gehalten werden soll, der dargestellte zukünftige Fahrweg des Ego-Agenten 201 genommen werden. Wenn jedoch zu 99,9999% sicher sein soll, dass es keinen Zusammenstoß gibt, dann darf die Fahrzeugsteuereinrichtung 102 diesen Fahrtweg nicht nehmen. Das Quantil kann sich hierbei auf das Quantil der eindimensionalen Querbeschleunigungsaktion des anderen Agenten 202 beziehen.
Das q-Quantil (q ist in [0, 1] und wird als Unterschreitungsanteil bezeichnet) für eine eindimensionale, d.h. reellwertige, Zufallsvariable X ist der Punkt c auf der reellen Achse, bei dem X mit der Wahrscheinlichkeit q links von c (d. h. unterhalb von c) liegt. Es gibt es leicht abweichende Definitionen von Quantilen, aber im Folgenden wird diese verwendet. Der Median ist also z. B. das 0,5-Quantil. Im Beispiel von 2 ist der Wert der Zufallsvariable X die Querbeschleunigung, aber es könnte auch z.B. der Abstand sein, den ein Fahrer einhält oder die Reaktionszeit, die ein Fahrer (z.B. zum Bremsen) benötigt, sein.
Die Quantilsregression entspricht der üblichen Regression beim maschinellen Lernen, aber statt des Mittelwerts wird das q-Quantil für ein gegebenes q vorausgesagt. Um ein Modell entsprechend zu trainieren, kann die sogenannte „tilted absolute error loss function“, also gekippte absolute Fehlerverlustfunktion verwendet werden. Dies ist eine Version der absoluten Fehlerfunktion, die ein allgemeines q-Quantil als Optimum hat (anstelle des Medians, d. h. des 0,5-Quantils, wie er sich für die nicht gekippte absolute Fehlerfunktion ergibt).
Die gekippte absolute Fehlerverlustfunktion zum Trainieren eines das maschinellen Lernmodells zum Vorhersagen des q-Quantils ist gegeben durch $L_{q} (x, p) = {\begin{array}{l} q (x - p) & f a l l s x \geq p \\ (1 - q) (x - p) & s o n s t \end{array}$
wobei x eine Beobachtung aus einer Demonstration (z.B. eine Beschleunigung) und p die Vorhersage (Prädiktion für X) des maschinellen Lernmodells ist (für eine jeweilige Verkehrssituation als Trainings-Eingabedatenelement). Dieser Verlust kann über viele Beobachtungen summiert werden und so ein Gesamtverlust berechnet werden, zu dessen Reduktion das maschinelle Lernmodell trainiert wird (z.B. die Gewichte eines neuronalen Netzwerks angepasst werden, sodass sich der Gesamtverlust reduziert). Ein Gesamtverlust kann beispielsweise für jedes Batch mehrere Batches von Trainingsdaten ermittelt werden und das maschinelle Lernmodell über die Batches trainiert werden.
Gemäß verschiedenen Ausführungsformen werden also für das Testen einer Steuerung (z.B. eines Steuerungsalgorithmus oder einer Steuerungssoftware) in einer Simulation ein oder mehrere andere Agenten gemäß ein oder mehreren Modellen gesteuert, die mittels eines Verhaltensklon-Ansatzes trainiert werden, wobei allerdings ein solches Modell trainiert wird, das q-Quantil der Handlungsverteilung (d.h. Verteilung der Aktionen) eines Agenten anhand einer aktuellen Beobachtung des Agenten vorauszusagen (anstatt, z.B. der wahrscheinlichsten Aktion oder der gemittelten Aktion). Das heißt, es wird im Wesentlichen eine Quantilsregression durchgeführt, um das Verhalten (bzw. die Steuerungsstrategie) der anderen Agenten zu modellieren.
Die anderen Agenten können selbst Fahrzeuge oder allgemein Robotervorrichtungen sein, es können aber auch zum Beispiel Menschen und Tiere sein. Beispielsweise könnte das Verhalten von Fabrikarbeitern modelliert (und simuliert) werden, um eine Steuerung für einen Fabrikroboter zu testen.
Gemäß verschiedenen Ausführungsformen sind (gegeben den Unterschreitungsanteil q als Parameter) folgende Komponenten bzw. Verfahrensschritte vorgesehen:

- Eine Steuerungsstrategie für einen (anderen) Agenten („Imitator“), die z. B. durch ein parametrisiertes tiefes neuronales Netz repräsentiert wird. Diese Steuerungsstrategie hat:
- ◯ Als Eingabe die aktuelle Beobachtung („o“) des Agenten. Dies kann z. B. eine einfache Zustandsvariable wie Position oder Geschwindigkeit oder eine komplexere bildbasierte Darstellung sein, die weitere Agenten, z. B. Fahrzeuge, in der jeweiligen Szene (z.B. Verkehrssituation) einschließt, die dann z. B. in ein Konvolutionsnetzwerk (CNN) eingespeist wird.
- ◯ Als Ausgabe: eine Vorhersage für die q-Quantile der Agentenaktion („a“) unter der aktuellen Beobachtung. Im einfachen Fall, in dem der Agent nur einen eindimensionalen Aktionsraum hat (z.B. Querbeschleunigung), werden beispielsweise zwei Quantile vorhergesagt: das q-Quantil c_oben, so dass die Aktion mit der Wahrscheinlichkeit q unter c_oben liegt, und analog c_unten, so dass die Aktion mit der Wahrscheinlichkeit q über c_unten liegt. Es können auch kompliziertere Ansätze dafür verwendet werden, eine Teilmenge des Aktionsraums so vorherzusagen, dass die Aktion mit hoher Wahrscheinlichkeit (gegeben durch q) in dieser Teilmenge liegt. Im Folgenden wird diese Menge auch als „Quantilmenge“ bezeichnet.
  - ▪ Für den Anwendungsfall der Fahrermodellierung könnte die Aktion z.B. eine zweidimensionale Aktion sein, die aus Beschleunigung und Lenkungswinkel besteht.
  - ▪ Es sollte beachtet werden, dass bei der oben gegebenen Definition des Quantils nur der eindimensionale Fall betrachtet werde. Für n-dimensionale Aktionen für n > 1 können die Dimensionen getrennt behandelt werden und damit auf dieser Fall auf n eindimensionale Quantilprobleme reduzieren, oder in geeigneter Weise eine n-dimensionale Quantilmenge definiert werden.
  - ▪ Optional kann eine Quantilmenge auf der Grundlage von bedingten Quantilen (analog zu Referenz 1) definiert werden Z.B. kann ein q-Quantil für eine Zufallsvariable X definiert werden für den Fall, dass die Zufallsvariable Y einen bestimmten Wert hat. Dies kann z.B. angewendet werden auf die einzelnen Dimensionen der Aktion a (im Fall das die Handlung a mehr als eine Dimension hat, d.h., n > 1): so kann man z.B. die Quantile (oben und unten) für die zweite Dimension bestimmen (vorhersagen) für jeden möglichen Wert der ersten Handlungsdimension (d.h. bedingen auf die erste Handlungsdimension zusätzlich zum Bedingen auf die Beobachtung o).
- Ein maschinelles Lernmodell (bzw. die von ihm repräsentierte Steuerungsstrategie) das trainiert wird, das q-Quantil vorherzusagen indem, wie oben erläutert, die (entsprechend dem Unterschreitungsanteil q) gekippte absolute Fehlerverlustfunktion verwendet wird. Wie oben erläutert werden zum Training die Parameter der Steuerungsstrategie (z.B. Gewichte des neuronalen Netzwerks) derart angepasst, dass sie sich entsprechend der Quantile in Bezug auf die gegebenen Demonstrationsdaten verhält (d.h. ähnlich wie beim Verhaltensklonen, nur für die Quantile der Verteilung in den Trainingsdaten). Der Demonstrator-Agent, der die Demonstrationen (also die Demonstrationen liefert) ist beispielsweise ein menschlicher Fahrer.
- ◯ Als Trainingsdaten, d.h. Demonstrationsdaten, also Aufzeichnungen des Verhaltens des Demonstrator-Agenten (z.B. menschlichen Fahrers), kann z.B. der highD-Datensatz (oder andere Daten, z.B. von Mensch-gesteuerten Fahrzeugen, die mit Umgebungssensoren ausgestattet sind, aufgezeichnete Daten) verwendet werden.
- ◯ Die Trainingsdaten enthalten beispielsweise einen Satz von Trajektorien (Zeitreihen) von Zustands-Aktions-Paaren oder, allgemeiner, Beobachtungs-Aktions-Paaren; d.h. jede solche Trajektorie hat die Form (o₁, a₁), (o₂, a₂), ..., (o_τ, a_τ), wobei jede Beobachtung o_t auch Informationen über die Umgebung, weitere Agenten in der Szene, etc. enthalten kann.
- Anwendung der trainierten Steuerungsstrategie in einer Simulation zur Steuerung eines (aus Sicht eines Ego-Agenten „anderen“ Agenten) im Umfeld des Ego-Agenten, dessen Steuerung getestet wird: Es gibt mehrere Möglichkeiten, die aktuelle Agentenaktion a_t aus dem aktuellen Zustand o_t im Zeitschritt t für den („anderen“) Agenten zu generieren:
- ◯ Stichprobenverfahren: q-Quantile geben tatsächlich nur eine Menge (im eindimensionalen Fall Intervalle) an, in denen eine Aktion mit gewisser Wahrscheinlichkeit liegt. Im einfachen eindimensionalen Fall liegt die Aktion mit der Wahrscheinlichkeit q im Intervall (-unendlich, c_obere); diese Mengen sind keine Verteilungen. Es sind jedoch mehrere Möglichkeiten möglich, solche Mengen in Verteilungen umzuwandeln: Die einfachste wäre die Verwendung einer Gleichverteilung über die jeweilige Menge. Ein ausgefeilterer Ansatz ist es, gleichzeitig Quantile und eine Verteilung zu lernen, wie z.B. in Referenz 1, und gemäß der Verteilung zu sampeln (mit Fokus auf korrekten Quantilen, insbesondere auf hohen (d.h. extremen bzw. kontradiktorisch (engl. adversarial) Quantilen) und potentiell Fokus auf den Träger der Verteilung).
- ◯ Worst-Case-Fälle, bzw. Grenzfälle: Wie oben erwähnt kann ein für die Quantilsregression trainiertes Modell auch verwendet werden, um eine Form eines Worst-Case-Verhaltens für den Agenten zu erzeugen, das innerhalb der Quantilmenge liegt. Dadurch kann die Steuerung des Ego-Agenten in Hinblick auf besonders ungünstiges Verhalten getestet werden. Dies wird beispielsweise zumindest für manche der anderen Agenten für zumindest manche der Zeitschritte in der Simulation zum Testen der Steuerung des Ego-Agenten angewendet.
  - ▪ Dieses Worst-Case-Verhalten kann „a priori kontradiktorisch (engl. adversarial)“ sein, d.h. es wird a priori ermittelt, welches was das extremste bzw. gefährlichste Verhalten innerhalb der Quantilmenge wäre, z.B. ein extremes Brems- oder Anfahrverhalten.
  - ▪ Alternativ kann es das Worst-Case-Verhalten in Hinblick auf eine gegebene (insbesondere die zu evaluierende) Steuerung sein: In diesem Fall kann die Aktion des anderen Agenten innerhalb der Quantilmenge so gewählt werden, dass sie einer Kollision mit dem Ego so nahe wie möglich kommt (und, wenn möglich, eine Kollision tatsächlich herbeiführt). Wenn es für keine Aktion aus der Quantilmenge zu keiner Kollision kommt, ist unter bestimmten Annahmen sichergestellt, dass es mit der Wahrscheinlichkeit q keine Kollision geben wird (bis auf die Unsicherheit der Schätzung).

Über die oben beschriebene Vorgehensweise hinaus ist auch vorstellbar, dass nicht nur Quantile, sondern auch andere relevante Eigenschaften der Aktionsverteilung vorhergesagt werden. Insbesondere könnte es nützlich sein, den Träger der Aktionsverteilung vorherzusagen (d.h., wo sie überhaupt eine Masse/Wahrscheinlichkeit hat; in gewissem Sinne kann dies als das 100%-Quantil angesehen werden). Wenn die ungünstigsten Aktionen innerhalb des Trägers für einen (anderen) Agenten genommen wird und diese nicht zu einem Unfall führen, dann ist zu 100% sichergestellt, dass es mit der zu evaluierenden Steuerung in der jeweiligen Verkehrssituation zu keinem Unfall kommen kann (bis auf Unsicherheit der Schätzung).
Statt eines einfachen Ansatzes für das Imitationslernen entsprechend dem Verhaltensklonen (das, wie oben beschrieben, lediglich 1 -Zeitschritt-Zustands-Aktions-Paare als unabhängig gleichverteilte Stichproben betrachtet), können anspruchsvollere Imitationslernansätze wie GAIL als Grundlage für das Imitationslernen zum Trainieren eines Modells für die Quantilregression verwendet werden.
Es können nicht nur die extremen Eckfälle (Quantile) einzelner Aktionen vorhergesagt und in der Simulation verwendet werden, sondern das für einen jeweiligen Agenten in der Simulation verwendete Verhalten kann auch ein Extremfall auf höherer Ebene sein (wie z.B. eine extreme Manöver-Trajektorie, die aus einer Folge von Aktionen besteht). Zum Beispiel kann das extremste Einschermanöver, das von einem menschlichen Fahrer in der jeweiligen Verkehrssituation erwartet werden würde, in der Simulation für einen Agenten verwendet werden. Dies kann aus einzelnen Aktionsquantilen abgeleitet werden, oder es kann ein Modell trainiert werden, so dass es ein solches Verhalten auf höherer Ebene (z.B. eine ganze Trajektorie bzw. einen Menge solcher Trajektorien) vorhersagt
Es können ein oder mehrere Modelle für die Vorhersage von Quantilen für mehrere Unterschreitungsanteile trainiert werden und zur Vorhersage verwendet werden (z.B. wird ein Modell trainiert, gleichzeitig q-Quantile für mehrere unterschiedliche q auszugeben). In diesem Zusammenhang können Quantile gleichzeitig mit der vollständigen Aktionsverteilung vorhergesagt werden (d.h. ein oder mehrere Modelle entsprechend trainiert werden). Dazu kann beispielsweise ein Normalisierungsfluss trainiert werden, wie in Referenz 1 beschrieben, der dann für Vorhersagen und Auswahl von Aktionen für ein oder mehrere (andere) Agenden in einer Simulation verwendet wird.
In den obigen Beispielen wurde stets ein Fahrermodell zum Testen einer Fahrzeugsteuerung trainiert. Analog kann jedoch auch beim Testen von Steuerungen anderer Robotervorrichtungen vorgegangen werden. Beispielsweise kann die Bewegung eines Roboterarms, der mit anderen Roboterarmen zusammenarbeitet, demonstriert werden, ein Modell für den Roboterarm trainiert werden und dann in einer Simulation eine Robotersteuerung dahingehend getestet werden, ob sie mit einem oder mehreren Roboterarmen, die nach dem Modell gesteuert werden, korrekt (oder auch ohne Unfälle oder Schäden an bearbeiteten Objekten) zusammenarbeitet. Entsprechend ist das Fahrermodell allgemein ein Verhaltensmodell für eine Robotervorrichtung, d.h. ein Robotervorrichtungs-Verhaltensmodell. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Gemäß einer Ausführungsform wird mittels des trainierten (Robotervorrichtungs-)Verhaltensmodells eine Steuerungsvorschrift für das technische System getestet und das technische System dann (bei erfolgreichem Test) entsprechend gesteuert (bzw. betrieben).
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 3 dargestellt.
3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung gemäß einer Ausführungsform darstellt.
In 301 werden Demonstrationen für das Verhalten von mindestens einem Objekt in Steuerungssituationen, die das mindestens eine Objekt und die Robotervorrichtung enthalten, ermittelt.
In 302 wird ein maschinelles Lernmodell zum Abbilden von Informationen über Steuerungssituationen auf Informationen über das Verhalten des mindestens einen Objekts (d.h. Aktionen des mindestens einen Objekts bzw. Aktionen gemäß denen das mindestens eine Objekt gesteuert wird), mittels eines Quantilregressionsverlusts (der insbesondere eine gekippte absolute Fehlerverlustfunktion sein kann) für ein oder mehrere Unterschreitungsanteile trainiert.
In 303 wird eine Simulation durchgeführt, wobei das Verhalten der Robotervorrichtung gemäß der der zu evaluierenden Steuerung simuliert wird und das Verhalten des mindestens einen Objekts in mindestens einer in der Simulation auftretenden Steuerungssituation gemäß einer Ausgabe simuliert wird, die das trainierte maschinelle Lernmodell in Reaktion auf Informationen über die auftretende Steuerungssituation ausgibt.
In 304 wird die Steuerung abhängig von Ereignissen in der Simulation bewertet.
Die Steuerung, die evaluiert wird, kann ein komplettes Steuerungsverfahren sein, d.h. einer Steuerungsstrategie. Dementsprechend kann die Simulation eine umfassende Simulation für einen längeren Zeitraum (z.B. mehrere Sekunden sein), bei der ggf. mehrere Steueraktionen gemäß der Steuerungsstrategie ausgewählt werden. Dies kann im Rahmen des Testens eines Steuerungsverfahrens erfolgen, wobei als Resultat des Testens dann z.B. entschieden wird, ob das Steuerungsverfahren implementiert wird.
Alternativ kann das Evaluieren auch beim Betrieb eines Steuerungsverfahrens erfolgen, d.h. ein Steuerungsverfahren hat z.B. mehrere mögliche Steuerungen zur Verfügung und für jede wird evaluiert, ob sie zu einer Kollision mit dem mindestens einen anderen Objekt (oder einem anderen unerwünschten Ereignis) führen würde. Die Simulation ist in diesem Fall also die Ermittlung, ob bei der Steuerung der Robotervorrichtung gemäß der zu evaluierenden Steuerung und Verhalten des mindestens einen Objekts gemäß der Ausgabe des das trainierten maschinellen Lernmodells eine Kollision (oder ein anderes unerwünschtes Verhalten) auftritt. Die Ausgabe des das trainierten maschinellen Lernmodells kann hier also als Vorhersage für ein mögliches Verhalten des mindestens einen Objekts verwendet werden. Es kann bei jedem mehrere Steuerungsschritte (d.h. z.B. jeder Auswahl einer Steueraktion) durch eine Steuereinrichtung aufgerufen werden, und die Steueraktion kann so eine oder mehrere Steueraktionen (z.B: eine Trajektorie) so planen, dass es voraussichtlich nicht zu einer Kollision kommt. Da auch hier der Ereignisablauf aus dem jeweiligen Verhalten extrapoliert wird, kann dies auch als Simulation angesehen werden.
Das mindestens eine Objekt ist beispielsweise eine andere Robotervorrichtung (ggf. vom gleichen Typ wie die Robotervorrichtung, dessen Steuerung zu testen ist, z.B. wie in den obigen Beispielen ein oder mehrere andere Fahrzeuge), es kann aber auch beispielsweise ein Mensch (z.B. ein Fußgänger oder Fabrikarbeiter) oder auch ein Tier sein (z.B. ein Hund im Straßenverkehr).
Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Das Verfahren ist also gemäß verschiedenen Ausführungen insbesondere computerimplementiert.
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Trajektorien, insbesondere Demonstrationen, zu erhalten.
Das trainierte Modell kann zum Erzeugen eines Steuersignals für ein Fahrzeug, insbesondere in einer Simulation zum Testen eines Fahrzeugsteuersystems, also zur Steuerung eines technischen Systems, eingesetzt werden. Das Fahrermodell kann mittels verstärkenden Lernens (Reinforcement Learning) trainiert werden und dann ein oder mehrere (simulierte) Fahrzeuge entsprechend gesteuert werden.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung, aufweisend: Ermitteln von Demonstrationen für das Verhalten von mindestens einem Objekt in Steuerungssituationen, die das mindestens eine Objekt und die Robotervorrichtung enthalten; Trainieren eines maschinellen Lernmodells zum Abbilden von Informationen über Steuerungssituationen auf Informationen über das Verhalten des mindestens einen Objekts mittels eines Quantilregressionsverlusts für ein oder mehrere Unterschreitungsanteile; Durchführen einer Simulation, wobei das Verhalten der Robotervorrichtung gemäß der der zu evaluierenden Steuerung simuliert wird und das Verhalten des mindestens einen Objekts in mindestens einer in der Simulation auftretenden Steuerungssituation gemäß einer Ausgabe simuliert wird, die das trainierte maschinelle Lernmodell in Reaktion auf Informationen über die auftretende Steuerungssituation ausgibt; und Bewerten der Steuerung abhängig von Ereignissen in der Simulation.
Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt ein Quantil für eine Aktion des mindestens einen Objekts in der Steuerungssituation für einen vorgegebenen Unterschreitungsanteil auszugeben und wobei das Verhalten des mindestens einen Objekts in der mindestens einen in der Simulation auftretenden Steuerungssituation gemäß dem Quantil simuliert wird, das das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt mehrere Quantile für eine Aktion des mindestens einen Objekts in der Steuerungssituation für vorgegebene Unterschreitungsanteile auszugeben und mehrere Simulationen durchgeführt werden, wobei das Verhalten des mindestens einen Objekts in der auftretenden Steuerungssituation in jeder der mehreren Simulationen gemäß einem jeweiligen Wert aus einer Quantilmenge simuliert wird, die durch die Quantile definiert ist, die das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell trainiert wird, in Reaktion auf Informationen über eine Steuerungssituation für das mindestens eine Objekt mehrere Quantile für eine Aktion des mindestens einen Objekts in der Steuerungssituation für vorgegebene Unterschreitungsanteile auszugeben, wobei das Verhalten des mindestens einen Objekts in der auftretenden Steuerungssituation gemäß einem Worst-Case-Verhalten aus einer Quantilmenge simuliert wird, die durch die Quantile definiert ist, die das maschinelle Lernmodell für die auftretende Steuerungssituation ausgibt.
Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell einen Normalisierungsfluss spezifiziert und das Verhalten des mindestens einen Objekts in der mindestens einen auftretenden Steuersituation gemäß mindestens einem Sample aus einer Wahrscheinlichkeitsverteilung, die der Normalisierungsfluss in Reaktion auf die Eingabe von Informationen über die auftretende Steuersituation ausgibt, simuliert wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei der Quantilregressionsverlusts mittels einer gekippten absoluten Fehlerverlustfunktion berechnet wird.
Testeinrichtung, die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 6 durchführt.