DE102021205037A1

DE102021205037A1 - Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung

Info

Publication number: DE102021205037A1
Application number: DE102021205037.9A
Authority: DE
Inventors: Jens Stefan Buchner; Damian Boborzi; Florian Kleinicke; Lars Mikelsons
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-11-24

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung beschrieben, aufweisend Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslemen, Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario, Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung.
In den letzten Jahren wurde autonomes Fahren ein Thema großen Interesses sowohl in der Forschung als auch in der Öffentlichkeit. Autonome Fahrzeuge haben ein enormes Potential, nicht nur wirtschaftlich, sondern auch zur Verbesserung der Mobilitätsmöglichkeiten und potenziell zur Reduzierung von Kohlenstoff-Emissionen. Wie jedes Steuern beinhaltet autonomes Fahren das Treffen von Entscheidungen in einer jeweiligen Steuersituation zur Auswahl einer Steueraktion. Dieser Steueraktionen sollen sicher sein, d.h. sie sollen nicht zu gefährlichen Situationen führen. Um ihre Zuverlässigkeit und Sicherheit zu testen, müssen Steuerungen für autonomes Fahren ausgiebig getestet werden. Da dies mit realen Tests zu aufwändig oder auch zu gefährlich wäre, erfolgt dies mittels Simulationen. Dazu müssen allerdings realistische Verkehrsteilnehmer simuliert werden und auch dafür wird ein Steuerungsverfahren benötigt, das sichere Steueraktionen auswählt, da realistische Verkehrsteilnehmer unsichere Steueraktionen wie extrem nahes Auffahren oder Spurwechsel auf eine belegte Spur normalerweise vermeiden.
Es sind somit Verfahren zum Ermitteln sicherer Steueraktionen für Fahrzeuge, oder allgemein für Robotervorrichtungen (wie Roboterarme, Laufroboter, etc.), wünschenswert.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung bereitgestellt, aufweisend Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslemen, Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario, Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
Gemäß verschiedenen Ausführungsformen wird die Flexibilität einer Steuerungsstrategie, die durch ein neuronales Netzwerk implementiert wird, mit einer Sicherheitsbedingungsbasierten (oder Sicherheitsregel-basierten) Herangehensweise verknüpft.
Das oben beschriebene Verfahren ermöglicht somit die Erzeugung von Steueraktionen für Robotervorrichtungen (und damit auch z.B. einer Trajektorie für ein simuliertes Fahrzeug), die sicher sind und auch nicht durch ein Planungstool eingeschränkt sind, da die von dem neuronalen Netzwerk (und damit gemäß der trainierten Steuerungsstrategie) erzeugten Steueraktionen übernommen werden oder durch die Sicherheitsbedingungen angepasst werden, falls sie nicht die Sicherheitsbedingungen erfüllen.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Ermitteln von Steueraktionen für ein Fahrzeug, wie oben beschrieben.
Ausführungsbeispiel 2 ist das Verfahren nach Ausführungsbeispiel 1, aufweisend Trainieren des neuronalen Netzwerks zum Implementieren der Steuerungsstrategie durch

Ermitteln von Steueraktionen für Trainingsszenarien durch das neuronale Netzwerk,
Bewerten der erzeugten Steueraktionen mittels eines Diskriminators, der trainiert wird, von dem neuronalen Netzwerk erzeugte Steueraktionen von Referenz-Steueraktionen für die Trainingsszenarien zu unterscheiden und Anpassen des neuronalen Netzwerks zum Erhöhen der Bewertung der von dem neuronalen Netzwerk erzeugten Steueraktionen;
Bei einem solchen Training (z.B. generativem kontroversen Imitationslernen (GAIL)) wird bei realistischen Referenz-Steueraktionen (z.B. Fahrzeugtrajektorien, die in der Realität aufgetreten sind) aufgrund der guten Imitationsfähigkeiten, die durch das Training erreicht werden, ein realistisches Steuerungsverfahren erzielt, wobei durch die Überprüfung der Sicherheitsbedingungen (und ggf. der Anpassung der Steueraktionen) sichergestellt ist, dass die Steueraktionen sicher sind. Insbesondere kann bei nichtsicherem Verhalten, dass in den Trainingsdaten vorhanden ist, vermieden werden, dass dieses kopiert wird, sodass gegenüber den Trainingsdaten sogar ein sichereres Verhalten erreicht werden kann.

Ausführungsbeispiel 3 ist das Verfahren nach Ausführungsbeispiel 1 oder 2, wobei die Steueraktion die Einstellung einer Beschleunigung oder eine Bewegung der Robotervorrichtung in eine bestimmte Richtung ist.
Durch das Überprüfen der Sicherheitsbedingungen (und ggf. Ersetzen der Steueraktion) können in einem Szenario, in dem die Bewegung einer Robotervorrichtung (z.B. eines Fahrzeugs) ist, Kollisionen vermieden werden. Eine Beschleunigung kann auch negativ sein, sodass die Steueraktion auch ein Bremsen sein kann. Ein Lenken (d.h. eine Richtungsänderung) kann auch als entsprechende Beschleunigung gesehen werden (die die Bewegung in der Richtung vor dem Lenken in die Richtung nach dem Lenken ändert). Allgemein kann die Steueraktion eine oder mehrere kontinuierliche Werte angeben (Temperatur etc.), d.h. das neuronale Netzwerk kann eine Regression durchführen (für Eingabedaten, die einen aktuellen Zustand der Robotervorrichtung und ggf. der Umgebung der Robotervorrichtung repräsentieren).
Für ein Fahrzeug ermittelt das neuronale Netzwerk als Steueraktion beispielsweise eine Beschleunigung und eine Richtung (z.B. wie stark und wohin das Fahrzeug lenken soll). Gemäß dem Training des neuronalen Netzwerks ermittelt es diese Steueraktion derart, dass sie möglichst den Steueraktionen aus den Trainingsdaten (z.B. Demonstrationen) entspricht und zu einem Zustand führt ähnlich denen, die in den Trainingsdaten erreicht wurden (z.B. sodass die Steueraktion möglichst gut dem Fahrverhalten von wahren menschlichen Fahrern entspricht). Diese Steueraktion (also z.B. der Beschleunigungswert und der Lenkwinkel oder die Lenkrate) werden dahingehend untersucht, ob sie die Sicherheitsbedingungen erfüllen (d.h. von einer Sicherheitsanpassungskomponente verarbeitet, auch bezeichnet als „Sicherheitsrahmen“ oder engl. Safety Frame), um zu überprüfen, ob bei Anwendung der Steueraktion in einem zukünftigen Zeitschritt eine Kollision auftreten könnte. Ist dies der Fall, überschreibt die Sicherheitsanpassungskomponente die Steueraktion, um die Sicherheit des Fahrzeugs zu gewährleisten, beispielsweise unter Verwendung von Information über das Fahrzeug und umgebender Fahrzeuge.
Ausführungsbeispiel 4 ist das Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei die Steueraktion für einen Zustand des Steuerszenarios ermittelt wird, wobei überprüft wird, ob für den Zustand ein Sicherheitsrisiko besteht, und wobei, falls für den Zustand ein Sicherheitsrisiko besteht, die ein oder mehreren Sicherheitsbedingungen aufweisen, dass die ermittelte Steueraktion das Risiko einer Kollision der Robotervorrichtung vermeidet.
Es können somit fortlaufend Sicherheitsbedingungen überprüft werden und falls ein Sicherheitsrisiko besteht (z.B. das Risiko einer Kollision der Robotervorrichtung, z.B. einer Kollision mit einer anderen Robotervorrichtung, z.B. einer Fahrzeugkollision) besteht, kann die Steueraktion so angepasst werden, dass das Sicherheitsrisiko (z.B. definiert durch ein oder mehrere Sicherheitsrichtlinien) vermieden wird. Damit wird sichergestellt, dass die Sicherheitsrichtlinien eingehalten werden.
Ausführungsbeispiel 5 ist eine Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 durchzuführen.
Ausführungsbeispiel 6 ist ein Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach einem der Ausführungsbeispiele 1 bis 4 ermittelt werden.
Durch diese Anwendung des oben beschriebenen Verfahrens wird das Testen der Steuerung von autonomen Fahrzeugen verbessert. Eine Simulation ermöglicht ein effizientes Testen von autonomen Fahrzeugen. Das oben beschriebene Verfahren ermöglicht die realistische Simulation des Verhaltens anderer Verkehrsteilnehmer, insbesondere wird garantiert, dass die anderen Verkehrsteilnehmer sich so verhalten, dass sie Unfälle vermeiden und nicht (aus eigenem Verschulden) untereinander oder mit dem Testfahrzeug kollidieren. Damit kann mittels der Simulation die Steuerung des Testfahrzeugs effizient getestet werden und die Testergebnisse können auf die reale Welt übertragen werden.
Ausführungsbeispiel 7 ist eine Testeinrichtung, die eingerichtet ist, das Verfahren nach Ausführungsbeispiel 6 durchzuführen.
Ausführungsbeispiel 8 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 oder 6 durchführt.
Ausführungsbeispiel 9 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 oder 6 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt ein Fahrzeug.
2 veranschaulicht ein Verfahren zum Steuern von Fahrzeugen, bei dem eine Steuerungsstrategie mittels GAIL (Generative Adversarial Imitation Learning) trainiert wird.
3 veranschaulicht die Bedeutung der bei einem Sicherheitsanpassungsalgorithmus, der gemäß einer Ausführungsform eingesetzt wird, verwendeten Größen.
4 zeigt ein Ablaufdiagramm, das ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung gemäß einer Ausführungsform veranschaulicht.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt ein Fahrzeug 101.
Im Beispiel von 1 ist ein Fahrzeug 101, beispielsweise ein PKW oder LKW, mit einer Fahrzeugsteuereinrichtung 102 versehen.
Die Fahrzeugsteuereinrichtung 102 weist Datenverarbeitungskomponenten auf, z.B. einen Prozessor (z.B. eine CPU (Zentraleinheit)) 103 und einen Speicher 104 zum Speichern von Steuersoftware, gemäß der die Fahrzeugsteuereinrichtung 102 arbeitet, und Daten, die von dem Prozessor 103 verarbeitet werden.
Beispielsweise weist die gespeicherte Steuerungssoftware (Computerprogramm) Anweisungen auf, die, wenn der Prozessor sie ausführt, bewirken, dass der Prozessor 103 ein oder mehrere neuronale Netzwerke 107 implementiert.
Die im Speicher 104 gespeicherten Daten können beispielsweise Bilddaten beinhalten, die von einer oder mehreren Kameras 105 erfasst werden. Die eine oder die mehreren Kameras 105 können beispielsweise ein oder mehrere Graustufen- oder Farbfotos der Umgebung des Fahrzeugs 101 aufnehmen.
Die Fahrzeugsteuereinrichtung 102 kann unter Verwendung der Bilddaten (oder auch Daten von anderen Informationsquellen, wie anderer Arten von Sensoren oder auch Fahrzeug-Fahrzeug-Kommunikation) Objekte in der Umgebung des Fahrzeugs 101 detektieren, insbesondere andere Fahrzeuge.
Die Fahrzeugsteuereinrichtung 102 kann die Sensordaten untersuchen und das Fahrzeug 101 gemäß den Ergebnissen steuern, d.h. Steuerungsaktionen für das Fahrzeug ermitteln und an jeweilige Aktoren des Fahrzeugs signalisieren. So kann die Fahrzeugsteuereinrichtung 102 beispielsweise einen Aktuator 106 (z.B. eine Bremse) steuern, um die Geschwindigkeit des Fahrzeugs zu steuern, z.B. um das Fahrzeug zu bremsen.
Naturgemäß sollen die bei einer Fahrzeugsteuerung ausgewählten Steueraktionen sicher sein, d.h. nicht zu gefährlichen Situationen führen. Dies ist für die konkrete Steuerung eines Fahrzeugs 101 von Interesse aber auch für das Simulieren von realen Fahrzeugen, um ein Steuerungsverfahren zu testen, da sich reale Fahrer normalerweise auch so verhalten, dass sie gefährliche Situationen vermeiden.
Im Folgenden werden Verfahren beschrieben, sichere Steueraktionen für Fahrzeuge zu ermitteln. Ein solches Verfahren kann dann von einer Fahrzeugsteuereinrichtung 102 in einem realen Fahrzeug eingesetzt werden oder auch von einem Simulationswerkzeug, das Fahrzeuge simuliert, um ein Steuerungsverfahren für ein autonomes Fahrzeug (das dann wiederum in einem realen Fahrzeug 101 eingesetzt werden kann), zu testen.
Gemäß verschiedenen Ausführungsformen wird eine Sicherheitsanpassung (z.B. basierend auf dem Responsibility-Sensitive Safety(RSS)-Modell) mit einer durch ein neuronales Netzwerk implementierten Steuerungsstrategie verknüpft, die mittels Imitationslernen, z.B. mittels generativem kontroversen Imitationslernen (GAIL, engl. Generative Adversarial Imitation Learning) oder Behavioral Cloning (BC) trainiert wird, beispielsweise in Steuerszenarien mit mehreren Agenten (z.B. Fahrzeugen).
Die Sicherheitsanpassung passt eine gemäß der Steuerungsstrategie gewählte Steueraktion an, falls diese nicht sicher ist. Bei der Anwendung auf Fahrzeuge können beispielsweise Kollisionen vermieden werden.
In den folgenden Ausführungsbeispielen wird die Aufgabe des Steuerns eines Fahrzeugs als Markov-Entscheidungsprozess modelliert, d.h. durch ein Tupel (S, A, T, R), wobei S den Zustand, A die Aktion, T(s_t+1|s_t,a_t) die Übergangsfunktion und R (s_t,a_t) die Belohnungsfunktion beschreibt. In jedem Zeitschritt t interagiert ein Agent (der gemäß der Steuerungsstrategie handelt) mit der Umgebung (d.h. dem gesteuerten System, d.h. steuert die Robotervorrichtung), indem er einen Zustand s_t beobachtet und abhängig von diesem Zustand eine Aktion a_t vornimmt. Dies resultiert in einem neuen Zustand s_t+1 und einer Belohnung r_t+1 abhängig von der Übergangsfunktion (d.h. den Übergangswahrscheinlichkeiten) und der Belohnungsfunktion. Die Steuerungsstrategie π_θ(a_t|s_t) wird (durch Anpassen ihrer Parameter θ, was hier die Gewichte des neuronalen Netzwerks sind) so gelernt, dass die erhaltenen Belohnungen (im Mittel über die Trainingsdaten oder Trainings-Batches) möglichst groß werden.
Beim Imitationslernen steht für das Training nicht die wahre Belohnungsfunktion zur Verfügung. Die Steuerungsstrategie wird hingegen so trainiert, dass sie das Verhalten einer Experten-Steuerungsstrategie (also einer Referenz-Steuerungsstrategie) π_E, das sich in einem Trainingsdatensatz D_E zeigt, imitiert.
Gemäß verschiedenen Ausführungsformen wird GAIL zum Trainieren der Steuerungsstrategie verwendet. Bei GAIL wird die Steuerungsstrategie gemäß dem Folgenden Optimierungsproblem trainiert. $\underset{π_{θ}}{argmin} \underset{D}{argmax} E_{π_{E}} [log D (s_{E}, a_{E})] + E_{π_{θ}} [log (1 - D) ({\hat{s}}_{t}, {\hat{a}}_{t}))]$
wobei die (s_E, a_E) Zustands-Aktions-Paare aus den Trainingsdaten und die (ŝt, â_t) Zustands-Aktions-Paare gemäß der zu trainierenden Steuerungsstrategie sind (z.B. ein Mini-Batch aus einem Replay-Buffer). Die Funktion D ist ein von einem neuronalen Netzwerk implementierter Diskriminator, der so trainiert wird, dass er möglichst Eins für die (s_E, a_E) ausgibt und möglichst Null für die (ŝ_t, â_t).
2 veranschaulicht ein Verfahren zum Steuern von Fahrzeugen, bei dem eine Steuerungsstrategie 201 mittels GAIL trainiert wird.
In diesem Beispiel wird die Steuerungsstrategie zum Steuern von simulierten Fahrzeugen in einer Simulation 202 verwendet, um ein Steuerungsverfahren für ein autonomes Fahrzeug zu testen.
Für das Training und die Simulation wird ein Datensatz 203 verwendet, der beispielsweise für eine Vielzahl von Verkehrssituationen die Position und der Geschwindigkeit von Verkehrsteilnehmern über eine bestimmte Zeit enthält.
Die Verkehrssituation zu einem bestimmten Zeitpunkt kann als Ausgangslage für eine Simulation 202 verwendet werden. Für eine solche Ausgangslage können aus dem Datensatz 203 Experten-Daten 204 gewonnen werden, indem die Position und die Geschwindigkeit der Verkehrsteilnehmer für die darauffolgenden Zeitpunkte aus dem Datensatz 203 entnommen wird. Dies kann auch mittels der Simulation 202 erfolgen, indem gemäß den Daten aus dem Datensatz 203 simuliert wird.
Die Experten-Daten sind also in diesem Fall Referenz-Trajektorien der Verkehrsteilnehmer (z.B. wie sich die Verkehrsteilnehmer tatsächlich in der jeweiligen Verkehrssituation verhalten haben). Die Steuerungsstrategie 201 soll so trainiert werden, dass sie dieses Verhalten nachahmt. Ein Beispiel für den Datensatz 203 ist der highD-Datensatz.
In diesem Beispiel besteht die Steueraktion a_t eines Fahrzeugs aus einer Beschleunigung (nach vorne, also longitudinal, kann auch negativ sein) a_long und einer lateralen Bewegung a_lat. Beide Werte sind kontinuierlich. Die longitudinale Beschleunigung führt dazu, dass die Geschwindigkeit im nächsten Zeitschritt t+1 eine andere ist und die laterale Bewegung ist vereinfacht eine sofortige Bewegung zur Seite (um eine bestimmte (laterale) Distanz).
Die Simulation liefert für jeden Zeitpunkt einen Zustand (dieser enthält z.B. Position und Geschwindigkeit aller vorhandenen Fahrzeuge). Zu diesem Zustand erzeugt die Steuerungsstrategie eine Steueraktion. Für das Training der Steuerungsstrategie liefert ein Diskriminator 205 eine Belohnung 206 abhängig davon, ob er die Steueraktion für eine aus den Expertendaten 204 hält oder nicht. Die Steuerungsstrategie wird so trainiert, dass die Belohnungen möglichst hoch sind. Zum Erzeugen der Belohnung 206 und des Trainings der Steuerungsstrategie können beispielsweise Techniken wie GAE (Generalized Advantage Estimation) und PPO (Proximal Policy Optimization) eingesetzt werden.
Für die Anwendung der trainierten Steuerungsstrategie 201 werden die Steueraktion und der Zustand, für den sie die Steuerungsstrategie 201 erzeugt hat, an eine Sicherheitsanpassungskomponente 207 übertragen (z.B. ein Sicherheitssoftwaremodul oder -prozedur).
Die Sicherheitsanpassungskomponente 207 überprüft, ob der jeweilige Agent (d.h. das Fahrzeug, für das die Steueraktion ermittelt wurde), für diese Steueraktion in einem sicheren Zustand bleibt. Ist dies der Fall, liefert die Sicherheitsanpassungskomponente 207 die Steueraktion ungeändert an die Simulation 202. Falls die Steueraktion jedoch zu einem unsicheren Zustand führen würde, ändert die Sicherheitsanpassungskomponente 207 die Steueraktion so ab, dass der Agent in einem sicheren Zustand bleibt, also z.B. das Fahrzeug nicht mit einem anderen Fahrzeug kollidiert (sofern sich die anderen Fahrzeuge auch entsprechend sicher verhalten) und liefert die geänderte Steueraktion an die Simulation. Die Simulation ermittelt den Zustand für den neuen Zeitschritt aus der Steueraktion (ggf. aus den Steueraktionen für mehrere Fahrzeuge, die in dieser Art ermittelt wurden). Für die Ermittlung des Verhaltens des zu testenden Fahrzeugs verwendet die Simulation das zu testende Steuerungsverfahren.
Im Folgenden wird ein Beispiel für einen Algorithmus in Pseudocode angegeben, gemäß dem die Sicherheitsanpassungskomponente 207 eine Steueraktion ${\hat{a}}_{t}^{S F}$
(bei Empfang von (ŝ_t,â_t)) ausgibt. In dem Pseudocode werden die üblichen englischen Schlüsselwörter (for, if etc.) verwendet.
3 veranschaulicht die Bedeutung der in dem Algorithmus verwendeten Größen.
Die Abstände zu einem anderen Fahrzeug 302 zur Seite d_lat und nach vorne/hinten d_long sind in dem Bezug auf das gesteuerte Fahrzeug (d.h. das Fahrzeug, für den aktuell eine Steueraktion bestimmt werden soll) 301 gezeigt. Sie können je nach Richtung positiv oder negativ sein.
Im Folgenden wird der Algorithmus genauer beschrieben.
Für die Sicherheitsanpassungskomponente 207 sind nur solche Fahrzeuge relevant, die sich longitudinal innerhalb des minimalen Bremsabstands d_min,e, _o des gesteuerten Fahrzeugs 301 oder in deren minimalen Bremsabstand d_min,o,e sich das gesteuerte Fahrzeug befindet (e steht hier für Englisch „ego“ und o für Englisch „other“).
Das Worst-Case-Szenario wird beschrieben durch $d_{min, r, ƒ} = v_{r} ρ + \frac{1}{2} α_{max} ρ^{2} + \frac{{(v_{r} + ρ α_{max})}^{2}}{2 b_{max . r}} - \frac{v_{ƒ}^{2}}{2 b_{max, ƒ}}$
wobei hier r für das hintere Fahrzeug (r für rear) und f für das vordere Fahrzeug (f für front) steht und dementsprechend „r, f“ je nachdem „e,o“ oder „o,e“ entspricht.
Die obige Formel enthält die Entfernung, die das hintere Fahrzeug innerhalb seiner Reaktionszeit p zurücklegt, während es mit der Geschwindigkeit v_r beginnt und während dieser Zeit mit seiner maximalen Beschleunigung amax beschleunigt (erste beiden Terme). Der dritte Term ist die Entfernung, die es zurücklegt, während es, ausgehend von der erreichten Geschwindigkeit, mit seiner maximalen Verzögerung b_max,_r bremst. Der letzte Term beschreibt die Entfernung, die das vordere Fahrzeug zurücklegt, wenn es mit der Geschwindigkeit v_r startet und maximal mit b_max ,_f bremst.
Entsprechend arbeitet die Sicherheitsanpassungskomponente 207 wie folgt: Wenn das andere Fahrzeug 302 sich vor dem gesteuerten Fahrzeug 301 (sieh Zeile 9 des obigen Algorithmus) befindet und die Bereiche, die sie belegen, lateral überlappen (siehe Zeile 7 und 14 des obigen Algorithmus), darf sich das Ende des anderen Fahrzeugs 302 nicht innerhalb der minimalen Bremsdistanz des gesteuerten Fahrzeugs 301 befinden, d.h. es darf nicht $d_{long} - l_{o} < d_{min, e, o}$
gelten. Hierbei ist l_o die Länge des anderen Fahrzeugs 302. Ist diese Ungleichung erfüllt, d.h. die Sicherheitsbedingung $d_{long} - l_{o} \geq d_{min, e, o}$
verletzt, ersetzt die Sicherheitsanpassungskomponente 207 die longitudinale Komponente a_long der von der Steuerungsstrategie 201 gewählten Steueraktion durch ein maximales Bremsen, d.h. durch die Beschleunigung -b_max,r (siehe Zeile 15 des obigen Algorithmus).
Hinsichtlich der lateralen Steuerung wird zuerst ermittelt, ob das andere Fahrzeug 302 longitudinal nah ist. Wenn das andere Fahrzeug 302 vor dem gesteuerten Fahrzeug 301 ist, so sind sich die Fahrzeuge 301, 302 longitudinal einander nah, wenn die folgende Bedingung erfüllt ist: $d_{long} - l_{o} < max (0, d_{min, e, o})$
Wenn d_long hingegen negativ ist, also sich das andere Fahrzeug 302 hinter dem gesteuerten Fahrzeug 301 befindet, so sind sich die Fahrzeuge 301, 302 longitudinal einander nah, wenn die folgende Bedingung erfüllt ist: $- d_{long} - l_{e g o} < max (0, d_{min, e, o})$
Wenn sich die beiden Fahrzeuge 301, 302 longitudinal einander nah sind, beschränkt der die Sicherheitsanpassungskomponente 207 die laterale Bewegung des gesteuerten Fahrzeugs 301 in Richtung des anderen Fahrzeugs 302 auf die Hälfte der lateralen Entfernung der beiden Fahrzeuge 301, 302, minus einer Sicherheitsspanne ε, z.B. 1cm. Siehe Zeilen 26 und 28 des obigen Algorithmus, hierbei bezeichnet a_lat die laterale Komponente der Steueraktion und das Minimum und das Maximum kann als Entscheidung angesehen werden, ob die von der Steuerungsstrategie 201 ausgegebene Steueraktion (d.h. speziell ihre laterale Komponente a_lat) die jeweilige Sicherheitsbedingung erfüllt. Wenn nicht, wird sie entsprechend beschränkt.
Die Sicherheitsanpassungskomponente 207 überprüft die Bedingung für die longitudinale Komponente der Steueraktion und passt diese ggf. an, falls sich die von den Fahrzeugen 301, 302 belegten Bereiche überlappen und sich das andere Fahrzeug 302 vor dem gesteuerten Fahrzeug 301 befindet (siehe Zeilen 9 und 14 des obigen Algorithmus).
Die Sicherheitsanpassungskomponente 207 überprüft die Bedingung für die laterale Komponente der Steueraktion und passt diese ggf. an, falls sich das andere Fahrzeug 302 (rechts oder links) neben dem sowie vor oder hinter dem gesteuerten Fahrzeug 301 befindet (siehe Zeile 24 des obigen Algorithmus).
Das neuronale Netzwerk 107, dass die Steuerungsstrategie 201 implementiert (und ggf. auch den Diskriminator 205) hat beispielsweise eine MLP(multilayer perceptron)-Architektur.
Zusammenfassend wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 4 dargestellt.
4 zeigt ein Ablaufdiagramm 400, das ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung veranschaulicht.
In 401 wird ein neuronales Netzwerk zum Implementieren einer Steuerungsstrategie durch Imitationslernen trainiert.
In 402 wird durch das neuronale Netzwerk für ein Steuerszenario eine Steueraktion ermittelt.
In 403 wird überprüft, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen (z.B. vordefinierte Sicherheitsregeln für das jeweilige Steuerszenario, z.B. Abstandsregeln für eine Verkehrssituation) erfüllt.
In 404 wird die ermittelte Steueraktion als Steueraktion für die Robotervorrichtung ausgegeben, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt.
In 405 wird die ermittelte Steueraktion durch eine Ersatz-Steueraktion ersetzt, die die ein oder mehreren Sicherheitsbedingungen erfüllt und die Ersatz-Steueraktion für die Robotervorrichtung ausgegeben, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
Die Steuerungsstrategie kann beispielsweise Steueraktionen entsprechend bedingter Gauß-Verteilungen ausgeben und beispielsweise mittels MLPs (Multi-Layer Perceptrons) oder einem rekurrenten neuronalen Netzwerk implementiert werden und kann unter Verwendung eines beliebigen Trainingsverfahrens trainiert werden. Bei der Anwendung auf ein Fahrzeug als Robotervorrichtung erhält das neuronale Netzwerk als Eingabe beispielsweise die Geschwindigkeit und die Position des Fahrzeugs und der umgebenden Fahrzeuge und es mittels des Verfahrens von 4 können Steueraktionen ermittelt werden, um Kollisionen zu vermeiden. Diese Steueraktionen können direkt in einer Simulation zum Steuern von Fahrzeugen verwendet werden.
Das Verfahren von 4 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Die Herangehensweise von 4 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das physikalische System gelernt und das physikalische System dann entsprechend gesteuert (bzw. betrieben).
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Demonstrationen oder Zuständen des Systems (Roboter und Objekt oder Objekte) und Konfigurationen und Szenarios zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern eines Roboters, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien. Sie können beispielsweise nahtlos mit einer herkömmlichen GUI für einen Steuerprozess integriert werden.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung, aufweisend: Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslernen; Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario; Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt, und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
Verfahren nach Anspruch 1, aufweisend Trainieren des neuronalen Netzwerks zum Implementieren der Steuerungsstrategie durch Ermitteln von Steueraktionen für Trainingsszenarien durch das neuronale Netzwerk; Bewerten der erzeugten Steueraktionen mittels eines Diskriminators, der trainiert wird, von dem neuronalen Netzwerk erzeugte Steueraktionen von Referenz-Steueraktionen für die Trainingsszenarien zu unterscheiden; und Anpassen des neuronalen Netzwerks zum Erhöhen der Bewertung der von dem neuronalen Netzwerk erzeugten Steueraktionen;
Verfahren nach Anspruch 1 oder 2, wobei die Steueraktion die Einstellung einer Beschleunigung oder eine Bewegung der Robotervorrichtung in eine bestimmte Richtung ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Steueraktion für einen Zustand des Steuerszenarios ermittelt wird, wobei überprüft wird, ob für den Zustand ein Sicherheitsrisiko besteht, und wobei, falls für den Zustand ein Sicherheitsrisiko besteht, die ein oder mehreren Sicherheitsbedingungen aufweisen, dass die ermittelte Steueraktion das Risiko einer Kollision der Robotervorrichtung vermeidet.
Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 4 durchzuführen.
Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend: Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach einem der Ansprüche 1 bis 4 ermittelt werden.
Testeinrichtung, die eingerichtet ist, das Verfahren nach Anspruch 6 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 4 oder 6 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 4 oder 6 durchführt.