DE102021205037A1 - Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung - Google Patents

Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung Download PDF

Info

Publication number
DE102021205037A1
DE102021205037A1 DE102021205037.9A DE102021205037A DE102021205037A1 DE 102021205037 A1 DE102021205037 A1 DE 102021205037A1 DE 102021205037 A DE102021205037 A DE 102021205037A DE 102021205037 A1 DE102021205037 A1 DE 102021205037A1
Authority
DE
Germany
Prior art keywords
control
control action
neural network
vehicle
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021205037.9A
Other languages
English (en)
Inventor
Jens Stefan Buchner
Damian Boborzi
Florian Kleinicke
Lars Mikelsons
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021205037.9A priority Critical patent/DE102021205037A1/de
Publication of DE102021205037A1 publication Critical patent/DE102021205037A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung beschrieben, aufweisend Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslemen, Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario, Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.

Description

  • Stand der Technik
  • Die vorliegende Offenbarung bezieht sich auf Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung.
  • In den letzten Jahren wurde autonomes Fahren ein Thema großen Interesses sowohl in der Forschung als auch in der Öffentlichkeit. Autonome Fahrzeuge haben ein enormes Potential, nicht nur wirtschaftlich, sondern auch zur Verbesserung der Mobilitätsmöglichkeiten und potenziell zur Reduzierung von Kohlenstoff-Emissionen. Wie jedes Steuern beinhaltet autonomes Fahren das Treffen von Entscheidungen in einer jeweiligen Steuersituation zur Auswahl einer Steueraktion. Dieser Steueraktionen sollen sicher sein, d.h. sie sollen nicht zu gefährlichen Situationen führen. Um ihre Zuverlässigkeit und Sicherheit zu testen, müssen Steuerungen für autonomes Fahren ausgiebig getestet werden. Da dies mit realen Tests zu aufwändig oder auch zu gefährlich wäre, erfolgt dies mittels Simulationen. Dazu müssen allerdings realistische Verkehrsteilnehmer simuliert werden und auch dafür wird ein Steuerungsverfahren benötigt, das sichere Steueraktionen auswählt, da realistische Verkehrsteilnehmer unsichere Steueraktionen wie extrem nahes Auffahren oder Spurwechsel auf eine belegte Spur normalerweise vermeiden.
  • Es sind somit Verfahren zum Ermitteln sicherer Steueraktionen für Fahrzeuge, oder allgemein für Robotervorrichtungen (wie Roboterarme, Laufroboter, etc.), wünschenswert.
  • Offenbarung der Erfindung
  • Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung bereitgestellt, aufweisend Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslemen, Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario, Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
  • Gemäß verschiedenen Ausführungsformen wird die Flexibilität einer Steuerungsstrategie, die durch ein neuronales Netzwerk implementiert wird, mit einer Sicherheitsbedingungsbasierten (oder Sicherheitsregel-basierten) Herangehensweise verknüpft.
  • Das oben beschriebene Verfahren ermöglicht somit die Erzeugung von Steueraktionen für Robotervorrichtungen (und damit auch z.B. einer Trajektorie für ein simuliertes Fahrzeug), die sicher sind und auch nicht durch ein Planungstool eingeschränkt sind, da die von dem neuronalen Netzwerk (und damit gemäß der trainierten Steuerungsstrategie) erzeugten Steueraktionen übernommen werden oder durch die Sicherheitsbedingungen angepasst werden, falls sie nicht die Sicherheitsbedingungen erfüllen.
  • Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
  • Ausführungsbeispiel 1 ist ein Verfahren zum Ermitteln von Steueraktionen für ein Fahrzeug, wie oben beschrieben.
  • Ausführungsbeispiel 2 ist das Verfahren nach Ausführungsbeispiel 1, aufweisend Trainieren des neuronalen Netzwerks zum Implementieren der Steuerungsstrategie durch
    • Ermitteln von Steueraktionen für Trainingsszenarien durch das neuronale Netzwerk,
    • Bewerten der erzeugten Steueraktionen mittels eines Diskriminators, der trainiert wird, von dem neuronalen Netzwerk erzeugte Steueraktionen von Referenz-Steueraktionen für die Trainingsszenarien zu unterscheiden und Anpassen des neuronalen Netzwerks zum Erhöhen der Bewertung der von dem neuronalen Netzwerk erzeugten Steueraktionen;
    • Bei einem solchen Training (z.B. generativem kontroversen Imitationslernen (GAIL)) wird bei realistischen Referenz-Steueraktionen (z.B. Fahrzeugtrajektorien, die in der Realität aufgetreten sind) aufgrund der guten Imitationsfähigkeiten, die durch das Training erreicht werden, ein realistisches Steuerungsverfahren erzielt, wobei durch die Überprüfung der Sicherheitsbedingungen (und ggf. der Anpassung der Steueraktionen) sichergestellt ist, dass die Steueraktionen sicher sind. Insbesondere kann bei nichtsicherem Verhalten, dass in den Trainingsdaten vorhanden ist, vermieden werden, dass dieses kopiert wird, sodass gegenüber den Trainingsdaten sogar ein sichereres Verhalten erreicht werden kann.
  • Ausführungsbeispiel 3 ist das Verfahren nach Ausführungsbeispiel 1 oder 2, wobei die Steueraktion die Einstellung einer Beschleunigung oder eine Bewegung der Robotervorrichtung in eine bestimmte Richtung ist.
  • Durch das Überprüfen der Sicherheitsbedingungen (und ggf. Ersetzen der Steueraktion) können in einem Szenario, in dem die Bewegung einer Robotervorrichtung (z.B. eines Fahrzeugs) ist, Kollisionen vermieden werden. Eine Beschleunigung kann auch negativ sein, sodass die Steueraktion auch ein Bremsen sein kann. Ein Lenken (d.h. eine Richtungsänderung) kann auch als entsprechende Beschleunigung gesehen werden (die die Bewegung in der Richtung vor dem Lenken in die Richtung nach dem Lenken ändert). Allgemein kann die Steueraktion eine oder mehrere kontinuierliche Werte angeben (Temperatur etc.), d.h. das neuronale Netzwerk kann eine Regression durchführen (für Eingabedaten, die einen aktuellen Zustand der Robotervorrichtung und ggf. der Umgebung der Robotervorrichtung repräsentieren).
  • Für ein Fahrzeug ermittelt das neuronale Netzwerk als Steueraktion beispielsweise eine Beschleunigung und eine Richtung (z.B. wie stark und wohin das Fahrzeug lenken soll). Gemäß dem Training des neuronalen Netzwerks ermittelt es diese Steueraktion derart, dass sie möglichst den Steueraktionen aus den Trainingsdaten (z.B. Demonstrationen) entspricht und zu einem Zustand führt ähnlich denen, die in den Trainingsdaten erreicht wurden (z.B. sodass die Steueraktion möglichst gut dem Fahrverhalten von wahren menschlichen Fahrern entspricht). Diese Steueraktion (also z.B. der Beschleunigungswert und der Lenkwinkel oder die Lenkrate) werden dahingehend untersucht, ob sie die Sicherheitsbedingungen erfüllen (d.h. von einer Sicherheitsanpassungskomponente verarbeitet, auch bezeichnet als „Sicherheitsrahmen“ oder engl. Safety Frame), um zu überprüfen, ob bei Anwendung der Steueraktion in einem zukünftigen Zeitschritt eine Kollision auftreten könnte. Ist dies der Fall, überschreibt die Sicherheitsanpassungskomponente die Steueraktion, um die Sicherheit des Fahrzeugs zu gewährleisten, beispielsweise unter Verwendung von Information über das Fahrzeug und umgebender Fahrzeuge.
  • Ausführungsbeispiel 4 ist das Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei die Steueraktion für einen Zustand des Steuerszenarios ermittelt wird, wobei überprüft wird, ob für den Zustand ein Sicherheitsrisiko besteht, und wobei, falls für den Zustand ein Sicherheitsrisiko besteht, die ein oder mehreren Sicherheitsbedingungen aufweisen, dass die ermittelte Steueraktion das Risiko einer Kollision der Robotervorrichtung vermeidet.
  • Es können somit fortlaufend Sicherheitsbedingungen überprüft werden und falls ein Sicherheitsrisiko besteht (z.B. das Risiko einer Kollision der Robotervorrichtung, z.B. einer Kollision mit einer anderen Robotervorrichtung, z.B. einer Fahrzeugkollision) besteht, kann die Steueraktion so angepasst werden, dass das Sicherheitsrisiko (z.B. definiert durch ein oder mehrere Sicherheitsrichtlinien) vermieden wird. Damit wird sichergestellt, dass die Sicherheitsrichtlinien eingehalten werden.
  • Ausführungsbeispiel 5 ist eine Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 durchzuführen.
  • Ausführungsbeispiel 6 ist ein Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach einem der Ausführungsbeispiele 1 bis 4 ermittelt werden.
  • Durch diese Anwendung des oben beschriebenen Verfahrens wird das Testen der Steuerung von autonomen Fahrzeugen verbessert. Eine Simulation ermöglicht ein effizientes Testen von autonomen Fahrzeugen. Das oben beschriebene Verfahren ermöglicht die realistische Simulation des Verhaltens anderer Verkehrsteilnehmer, insbesondere wird garantiert, dass die anderen Verkehrsteilnehmer sich so verhalten, dass sie Unfälle vermeiden und nicht (aus eigenem Verschulden) untereinander oder mit dem Testfahrzeug kollidieren. Damit kann mittels der Simulation die Steuerung des Testfahrzeugs effizient getestet werden und die Testergebnisse können auf die reale Welt übertragen werden.
  • Ausführungsbeispiel 7 ist eine Testeinrichtung, die eingerichtet ist, das Verfahren nach Ausführungsbeispiel 6 durchzuführen.
  • Ausführungsbeispiel 8 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 oder 6 durchführt.
  • Ausführungsbeispiel 9 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4 oder 6 durchführt.
  • In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.
    • 1 zeigt ein Fahrzeug.
    • 2 veranschaulicht ein Verfahren zum Steuern von Fahrzeugen, bei dem eine Steuerungsstrategie mittels GAIL (Generative Adversarial Imitation Learning) trainiert wird.
    • 3 veranschaulicht die Bedeutung der bei einem Sicherheitsanpassungsalgorithmus, der gemäß einer Ausführungsform eingesetzt wird, verwendeten Größen.
    • 4 zeigt ein Ablaufdiagramm, das ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung gemäß einer Ausführungsform veranschaulicht.
  • Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
  • Im Folgenden werden verschiedene Beispiele genauer beschrieben.
  • 1 zeigt ein Fahrzeug 101.
  • Im Beispiel von 1 ist ein Fahrzeug 101, beispielsweise ein PKW oder LKW, mit einer Fahrzeugsteuereinrichtung 102 versehen.
  • Die Fahrzeugsteuereinrichtung 102 weist Datenverarbeitungskomponenten auf, z.B. einen Prozessor (z.B. eine CPU (Zentraleinheit)) 103 und einen Speicher 104 zum Speichern von Steuersoftware, gemäß der die Fahrzeugsteuereinrichtung 102 arbeitet, und Daten, die von dem Prozessor 103 verarbeitet werden.
  • Beispielsweise weist die gespeicherte Steuerungssoftware (Computerprogramm) Anweisungen auf, die, wenn der Prozessor sie ausführt, bewirken, dass der Prozessor 103 ein oder mehrere neuronale Netzwerke 107 implementiert.
  • Die im Speicher 104 gespeicherten Daten können beispielsweise Bilddaten beinhalten, die von einer oder mehreren Kameras 105 erfasst werden. Die eine oder die mehreren Kameras 105 können beispielsweise ein oder mehrere Graustufen- oder Farbfotos der Umgebung des Fahrzeugs 101 aufnehmen.
  • Die Fahrzeugsteuereinrichtung 102 kann unter Verwendung der Bilddaten (oder auch Daten von anderen Informationsquellen, wie anderer Arten von Sensoren oder auch Fahrzeug-Fahrzeug-Kommunikation) Objekte in der Umgebung des Fahrzeugs 101 detektieren, insbesondere andere Fahrzeuge.
  • Die Fahrzeugsteuereinrichtung 102 kann die Sensordaten untersuchen und das Fahrzeug 101 gemäß den Ergebnissen steuern, d.h. Steuerungsaktionen für das Fahrzeug ermitteln und an jeweilige Aktoren des Fahrzeugs signalisieren. So kann die Fahrzeugsteuereinrichtung 102 beispielsweise einen Aktuator 106 (z.B. eine Bremse) steuern, um die Geschwindigkeit des Fahrzeugs zu steuern, z.B. um das Fahrzeug zu bremsen.
  • Naturgemäß sollen die bei einer Fahrzeugsteuerung ausgewählten Steueraktionen sicher sein, d.h. nicht zu gefährlichen Situationen führen. Dies ist für die konkrete Steuerung eines Fahrzeugs 101 von Interesse aber auch für das Simulieren von realen Fahrzeugen, um ein Steuerungsverfahren zu testen, da sich reale Fahrer normalerweise auch so verhalten, dass sie gefährliche Situationen vermeiden.
  • Im Folgenden werden Verfahren beschrieben, sichere Steueraktionen für Fahrzeuge zu ermitteln. Ein solches Verfahren kann dann von einer Fahrzeugsteuereinrichtung 102 in einem realen Fahrzeug eingesetzt werden oder auch von einem Simulationswerkzeug, das Fahrzeuge simuliert, um ein Steuerungsverfahren für ein autonomes Fahrzeug (das dann wiederum in einem realen Fahrzeug 101 eingesetzt werden kann), zu testen.
  • Gemäß verschiedenen Ausführungsformen wird eine Sicherheitsanpassung (z.B. basierend auf dem Responsibility-Sensitive Safety(RSS)-Modell) mit einer durch ein neuronales Netzwerk implementierten Steuerungsstrategie verknüpft, die mittels Imitationslernen, z.B. mittels generativem kontroversen Imitationslernen (GAIL, engl. Generative Adversarial Imitation Learning) oder Behavioral Cloning (BC) trainiert wird, beispielsweise in Steuerszenarien mit mehreren Agenten (z.B. Fahrzeugen).
  • Die Sicherheitsanpassung passt eine gemäß der Steuerungsstrategie gewählte Steueraktion an, falls diese nicht sicher ist. Bei der Anwendung auf Fahrzeuge können beispielsweise Kollisionen vermieden werden.
  • In den folgenden Ausführungsbeispielen wird die Aufgabe des Steuerns eines Fahrzeugs als Markov-Entscheidungsprozess modelliert, d.h. durch ein Tupel (S, A, T, R), wobei S den Zustand, A die Aktion, T(st+1|st,at) die Übergangsfunktion und R (st,at) die Belohnungsfunktion beschreibt. In jedem Zeitschritt t interagiert ein Agent (der gemäß der Steuerungsstrategie handelt) mit der Umgebung (d.h. dem gesteuerten System, d.h. steuert die Robotervorrichtung), indem er einen Zustand st beobachtet und abhängig von diesem Zustand eine Aktion at vornimmt. Dies resultiert in einem neuen Zustand st+1 und einer Belohnung rt+1 abhängig von der Übergangsfunktion (d.h. den Übergangswahrscheinlichkeiten) und der Belohnungsfunktion. Die Steuerungsstrategie πθ(at|st) wird (durch Anpassen ihrer Parameter θ, was hier die Gewichte des neuronalen Netzwerks sind) so gelernt, dass die erhaltenen Belohnungen (im Mittel über die Trainingsdaten oder Trainings-Batches) möglichst groß werden.
  • Beim Imitationslernen steht für das Training nicht die wahre Belohnungsfunktion zur Verfügung. Die Steuerungsstrategie wird hingegen so trainiert, dass sie das Verhalten einer Experten-Steuerungsstrategie (also einer Referenz-Steuerungsstrategie) πE, das sich in einem Trainingsdatensatz DE zeigt, imitiert.
  • Gemäß verschiedenen Ausführungsformen wird GAIL zum Trainieren der Steuerungsstrategie verwendet. Bei GAIL wird die Steuerungsstrategie gemäß dem Folgenden Optimierungsproblem trainiert. argmin π θ  argmax D   E π E [ log  D ( s E , a E ) ] + E π θ [ log ( 1 D ) ( s ^ t , a ^ t ) ) ]
    Figure DE102021205037A1_0001
    wobei die (sE, aE) Zustands-Aktions-Paare aus den Trainingsdaten und die (ŝt, ât) Zustands-Aktions-Paare gemäß der zu trainierenden Steuerungsstrategie sind (z.B. ein Mini-Batch aus einem Replay-Buffer). Die Funktion D ist ein von einem neuronalen Netzwerk implementierter Diskriminator, der so trainiert wird, dass er möglichst Eins für die (sE, aE) ausgibt und möglichst Null für die (ŝt,t).
  • 2 veranschaulicht ein Verfahren zum Steuern von Fahrzeugen, bei dem eine Steuerungsstrategie 201 mittels GAIL trainiert wird.
  • In diesem Beispiel wird die Steuerungsstrategie zum Steuern von simulierten Fahrzeugen in einer Simulation 202 verwendet, um ein Steuerungsverfahren für ein autonomes Fahrzeug zu testen.
  • Für das Training und die Simulation wird ein Datensatz 203 verwendet, der beispielsweise für eine Vielzahl von Verkehrssituationen die Position und der Geschwindigkeit von Verkehrsteilnehmern über eine bestimmte Zeit enthält.
  • Die Verkehrssituation zu einem bestimmten Zeitpunkt kann als Ausgangslage für eine Simulation 202 verwendet werden. Für eine solche Ausgangslage können aus dem Datensatz 203 Experten-Daten 204 gewonnen werden, indem die Position und die Geschwindigkeit der Verkehrsteilnehmer für die darauffolgenden Zeitpunkte aus dem Datensatz 203 entnommen wird. Dies kann auch mittels der Simulation 202 erfolgen, indem gemäß den Daten aus dem Datensatz 203 simuliert wird.
  • Die Experten-Daten sind also in diesem Fall Referenz-Trajektorien der Verkehrsteilnehmer (z.B. wie sich die Verkehrsteilnehmer tatsächlich in der jeweiligen Verkehrssituation verhalten haben). Die Steuerungsstrategie 201 soll so trainiert werden, dass sie dieses Verhalten nachahmt. Ein Beispiel für den Datensatz 203 ist der highD-Datensatz.
  • In diesem Beispiel besteht die Steueraktion at eines Fahrzeugs aus einer Beschleunigung (nach vorne, also longitudinal, kann auch negativ sein) along und einer lateralen Bewegung alat. Beide Werte sind kontinuierlich. Die longitudinale Beschleunigung führt dazu, dass die Geschwindigkeit im nächsten Zeitschritt t+1 eine andere ist und die laterale Bewegung ist vereinfacht eine sofortige Bewegung zur Seite (um eine bestimmte (laterale) Distanz).
  • Die Simulation liefert für jeden Zeitpunkt einen Zustand (dieser enthält z.B. Position und Geschwindigkeit aller vorhandenen Fahrzeuge). Zu diesem Zustand erzeugt die Steuerungsstrategie eine Steueraktion. Für das Training der Steuerungsstrategie liefert ein Diskriminator 205 eine Belohnung 206 abhängig davon, ob er die Steueraktion für eine aus den Expertendaten 204 hält oder nicht. Die Steuerungsstrategie wird so trainiert, dass die Belohnungen möglichst hoch sind. Zum Erzeugen der Belohnung 206 und des Trainings der Steuerungsstrategie können beispielsweise Techniken wie GAE (Generalized Advantage Estimation) und PPO (Proximal Policy Optimization) eingesetzt werden.
  • Für die Anwendung der trainierten Steuerungsstrategie 201 werden die Steueraktion und der Zustand, für den sie die Steuerungsstrategie 201 erzeugt hat, an eine Sicherheitsanpassungskomponente 207 übertragen (z.B. ein Sicherheitssoftwaremodul oder -prozedur).
  • Die Sicherheitsanpassungskomponente 207 überprüft, ob der jeweilige Agent (d.h. das Fahrzeug, für das die Steueraktion ermittelt wurde), für diese Steueraktion in einem sicheren Zustand bleibt. Ist dies der Fall, liefert die Sicherheitsanpassungskomponente 207 die Steueraktion ungeändert an die Simulation 202. Falls die Steueraktion jedoch zu einem unsicheren Zustand führen würde, ändert die Sicherheitsanpassungskomponente 207 die Steueraktion so ab, dass der Agent in einem sicheren Zustand bleibt, also z.B. das Fahrzeug nicht mit einem anderen Fahrzeug kollidiert (sofern sich die anderen Fahrzeuge auch entsprechend sicher verhalten) und liefert die geänderte Steueraktion an die Simulation. Die Simulation ermittelt den Zustand für den neuen Zeitschritt aus der Steueraktion (ggf. aus den Steueraktionen für mehrere Fahrzeuge, die in dieser Art ermittelt wurden). Für die Ermittlung des Verhaltens des zu testenden Fahrzeugs verwendet die Simulation das zu testende Steuerungsverfahren.
  • Im Folgenden wird ein Beispiel für einen Algorithmus in Pseudocode angegeben, gemäß dem die Sicherheitsanpassungskomponente 207 eine Steueraktion a ^ t S F
    Figure DE102021205037A1_0002
    (bei Empfang von (ŝt,ât)) ausgibt. In dem Pseudocode werden die üblichen englischen Schlüsselwörter (for, if etc.) verwendet.
  • 3 veranschaulicht die Bedeutung der in dem Algorithmus verwendeten Größen.
  • Die Abstände zu einem anderen Fahrzeug 302 zur Seite dlat und nach vorne/hinten dlong sind in dem Bezug auf das gesteuerte Fahrzeug (d.h. das Fahrzeug, für den aktuell eine Steueraktion bestimmt werden soll) 301 gezeigt. Sie können je nach Richtung positiv oder negativ sein.
    Figure DE102021205037A1_0003
  • Im Folgenden wird der Algorithmus genauer beschrieben.
  • Für die Sicherheitsanpassungskomponente 207 sind nur solche Fahrzeuge relevant, die sich longitudinal innerhalb des minimalen Bremsabstands dmin,e, o des gesteuerten Fahrzeugs 301 oder in deren minimalen Bremsabstand dmin,o,e sich das gesteuerte Fahrzeug befindet (e steht hier für Englisch „ego“ und o für Englisch „other“).
  • Das Worst-Case-Szenario wird beschrieben durch d min , r , ƒ = v r ρ + 1 2 α max ρ 2 + ( v r + ρ α max ) 2 2 b max . r v ƒ 2 2 b max , ƒ
    Figure DE102021205037A1_0004
    wobei hier r für das hintere Fahrzeug (r für rear) und f für das vordere Fahrzeug (f für front) steht und dementsprechend „r, f“ je nachdem „e,o“ oder „o,e“ entspricht.
  • Die obige Formel enthält die Entfernung, die das hintere Fahrzeug innerhalb seiner Reaktionszeit p zurücklegt, während es mit der Geschwindigkeit vr beginnt und während dieser Zeit mit seiner maximalen Beschleunigung amax beschleunigt (erste beiden Terme). Der dritte Term ist die Entfernung, die es zurücklegt, während es, ausgehend von der erreichten Geschwindigkeit, mit seiner maximalen Verzögerung bmax,r bremst. Der letzte Term beschreibt die Entfernung, die das vordere Fahrzeug zurücklegt, wenn es mit der Geschwindigkeit vr startet und maximal mit bmax ,f bremst.
  • Entsprechend arbeitet die Sicherheitsanpassungskomponente 207 wie folgt: Wenn das andere Fahrzeug 302 sich vor dem gesteuerten Fahrzeug 301 (sieh Zeile 9 des obigen Algorithmus) befindet und die Bereiche, die sie belegen, lateral überlappen (siehe Zeile 7 und 14 des obigen Algorithmus), darf sich das Ende des anderen Fahrzeugs 302 nicht innerhalb der minimalen Bremsdistanz des gesteuerten Fahrzeugs 301 befinden, d.h. es darf nicht d long l o < d min , e , o
    Figure DE102021205037A1_0005
    gelten. Hierbei ist lo die Länge des anderen Fahrzeugs 302. Ist diese Ungleichung erfüllt, d.h. die Sicherheitsbedingung d long l o d min , e , o
    Figure DE102021205037A1_0006
    verletzt, ersetzt die Sicherheitsanpassungskomponente 207 die longitudinale Komponente along der von der Steuerungsstrategie 201 gewählten Steueraktion durch ein maximales Bremsen, d.h. durch die Beschleunigung -bmax,r (siehe Zeile 15 des obigen Algorithmus).
  • Hinsichtlich der lateralen Steuerung wird zuerst ermittelt, ob das andere Fahrzeug 302 longitudinal nah ist. Wenn das andere Fahrzeug 302 vor dem gesteuerten Fahrzeug 301 ist, so sind sich die Fahrzeuge 301, 302 longitudinal einander nah, wenn die folgende Bedingung erfüllt ist: d long l o < max ( 0, d min , e , o )
    Figure DE102021205037A1_0007
    Wenn dlong hingegen negativ ist, also sich das andere Fahrzeug 302 hinter dem gesteuerten Fahrzeug 301 befindet, so sind sich die Fahrzeuge 301, 302 longitudinal einander nah, wenn die folgende Bedingung erfüllt ist: d long l e g o < max ( 0, d min , e , o )
    Figure DE102021205037A1_0008
  • Wenn sich die beiden Fahrzeuge 301, 302 longitudinal einander nah sind, beschränkt der die Sicherheitsanpassungskomponente 207 die laterale Bewegung des gesteuerten Fahrzeugs 301 in Richtung des anderen Fahrzeugs 302 auf die Hälfte der lateralen Entfernung der beiden Fahrzeuge 301, 302, minus einer Sicherheitsspanne ε, z.B. 1cm. Siehe Zeilen 26 und 28 des obigen Algorithmus, hierbei bezeichnet alat die laterale Komponente der Steueraktion und das Minimum und das Maximum kann als Entscheidung angesehen werden, ob die von der Steuerungsstrategie 201 ausgegebene Steueraktion (d.h. speziell ihre laterale Komponente alat) die jeweilige Sicherheitsbedingung erfüllt. Wenn nicht, wird sie entsprechend beschränkt.
  • Die Sicherheitsanpassungskomponente 207 überprüft die Bedingung für die longitudinale Komponente der Steueraktion und passt diese ggf. an, falls sich die von den Fahrzeugen 301, 302 belegten Bereiche überlappen und sich das andere Fahrzeug 302 vor dem gesteuerten Fahrzeug 301 befindet (siehe Zeilen 9 und 14 des obigen Algorithmus).
  • Die Sicherheitsanpassungskomponente 207 überprüft die Bedingung für die laterale Komponente der Steueraktion und passt diese ggf. an, falls sich das andere Fahrzeug 302 (rechts oder links) neben dem sowie vor oder hinter dem gesteuerten Fahrzeug 301 befindet (siehe Zeile 24 des obigen Algorithmus).
  • Das neuronale Netzwerk 107, dass die Steuerungsstrategie 201 implementiert (und ggf. auch den Diskriminator 205) hat beispielsweise eine MLP(multilayer perceptron)-Architektur.
  • Zusammenfassend wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 4 dargestellt.
  • 4 zeigt ein Ablaufdiagramm 400, das ein Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung veranschaulicht.
  • In 401 wird ein neuronales Netzwerk zum Implementieren einer Steuerungsstrategie durch Imitationslernen trainiert.
  • In 402 wird durch das neuronale Netzwerk für ein Steuerszenario eine Steueraktion ermittelt.
  • In 403 wird überprüft, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen (z.B. vordefinierte Sicherheitsregeln für das jeweilige Steuerszenario, z.B. Abstandsregeln für eine Verkehrssituation) erfüllt.
  • In 404 wird die ermittelte Steueraktion als Steueraktion für die Robotervorrichtung ausgegeben, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt.
  • In 405 wird die ermittelte Steueraktion durch eine Ersatz-Steueraktion ersetzt, die die ein oder mehreren Sicherheitsbedingungen erfüllt und die Ersatz-Steueraktion für die Robotervorrichtung ausgegeben, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
  • Die Steuerungsstrategie kann beispielsweise Steueraktionen entsprechend bedingter Gauß-Verteilungen ausgeben und beispielsweise mittels MLPs (Multi-Layer Perceptrons) oder einem rekurrenten neuronalen Netzwerk implementiert werden und kann unter Verwendung eines beliebigen Trainingsverfahrens trainiert werden. Bei der Anwendung auf ein Fahrzeug als Robotervorrichtung erhält das neuronale Netzwerk als Eingabe beispielsweise die Geschwindigkeit und die Position des Fahrzeugs und der umgebenden Fahrzeuge und es mittels des Verfahrens von 4 können Steueraktionen ermittelt werden, um Kollisionen zu vermeiden. Diese Steueraktionen können direkt in einer Simulation zum Steuern von Fahrzeugen verwendet werden.
  • Das Verfahren von 4 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
  • Die Herangehensweise von 4 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das physikalische System gelernt und das physikalische System dann entsprechend gesteuert (bzw. betrieben).
  • Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Demonstrationen oder Zuständen des Systems (Roboter und Objekt oder Objekte) und Konfigurationen und Szenarios zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern eines Roboters, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien. Sie können beispielsweise nahtlos mit einer herkömmlichen GUI für einen Steuerprozess integriert werden.
  • Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims (9)

  1. Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung, aufweisend: Trainieren eines neuronalen Netzwerks zum Implementieren einer Steuerungsstrategie durch Imitationslernen; Ermitteln einer Steueraktion durch das neuronale Netzwerk für ein Steuerszenario; Überprüfen, ob die ermittelte Steueraktion ein oder mehrere Sicherheitsbedingungen erfüllt, Ausgeben der ermittelten Steueraktion als Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen erfüllt, und Ersetzen der ermittelten Steueraktion durch eine Ersatz-Steueraktion, die die ein oder mehreren Sicherheitsbedingungen erfüllt und Ausgeben der Ersatz-Steueraktion für die Robotervorrichtung, falls die ermittelte Steueraktion die ein oder mehreren Sicherheitsbedingungen nicht erfüllt.
  2. Verfahren nach Anspruch 1, aufweisend Trainieren des neuronalen Netzwerks zum Implementieren der Steuerungsstrategie durch Ermitteln von Steueraktionen für Trainingsszenarien durch das neuronale Netzwerk; Bewerten der erzeugten Steueraktionen mittels eines Diskriminators, der trainiert wird, von dem neuronalen Netzwerk erzeugte Steueraktionen von Referenz-Steueraktionen für die Trainingsszenarien zu unterscheiden; und Anpassen des neuronalen Netzwerks zum Erhöhen der Bewertung der von dem neuronalen Netzwerk erzeugten Steueraktionen;
  3. Verfahren nach Anspruch 1 oder 2, wobei die Steueraktion die Einstellung einer Beschleunigung oder eine Bewegung der Robotervorrichtung in eine bestimmte Richtung ist.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Steueraktion für einen Zustand des Steuerszenarios ermittelt wird, wobei überprüft wird, ob für den Zustand ein Sicherheitsrisiko besteht, und wobei, falls für den Zustand ein Sicherheitsrisiko besteht, die ein oder mehreren Sicherheitsbedingungen aufweisen, dass die ermittelte Steueraktion das Risiko einer Kollision der Robotervorrichtung vermeidet.
  5. Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 4 durchzuführen.
  6. Verfahren zum Testen eines Steuerungsverfahrens für eine Robotervorrichtung, aufweisend: Simulieren eines Steuerszenarios mit mehreren anderen Robotervorrichtungen, wobei die Robotervorrichtungen gemäß Steueraktionen gesteuert werden, die durch das Verfahren nach einem der Ansprüche 1 bis 4 ermittelt werden.
  7. Testeinrichtung, die eingerichtet ist, das Verfahren nach Anspruch 6 durchzuführen.
  8. Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 4 oder 6 durchführt.
  9. Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 4 oder 6 durchführt.
DE102021205037.9A 2021-05-18 2021-05-18 Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung Pending DE102021205037A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021205037.9A DE102021205037A1 (de) 2021-05-18 2021-05-18 Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021205037.9A DE102021205037A1 (de) 2021-05-18 2021-05-18 Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung

Publications (1)

Publication Number Publication Date
DE102021205037A1 true DE102021205037A1 (de) 2022-11-24

Family

ID=83898997

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021205037.9A Pending DE102021205037A1 (de) 2021-05-18 2021-05-18 Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung

Country Status (1)

Country Link
DE (1) DE102021205037A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016009655A1 (de) 2016-08-09 2017-04-06 Daimler Ag Verfahren zum Betrieb eines Fahrzeugs
DE102018125712A1 (de) 2018-10-17 2020-04-23 Valeo Schalter Und Sensoren Gmbh Fahrunterstützungsverfahrens für ein Fahrzeug
DE102018222720A1 (de) 2018-12-21 2020-06-25 Continental Teves Ag & Co. Ohg Überwachung von auf neuronalen Netzwerken basierten Fahrfunktionen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016009655A1 (de) 2016-08-09 2017-04-06 Daimler Ag Verfahren zum Betrieb eines Fahrzeugs
DE102018125712A1 (de) 2018-10-17 2020-04-23 Valeo Schalter Und Sensoren Gmbh Fahrunterstützungsverfahrens für ein Fahrzeug
DE102018222720A1 (de) 2018-12-21 2020-06-25 Continental Teves Ag & Co. Ohg Überwachung von auf neuronalen Netzwerken basierten Fahrfunktionen

Similar Documents

Publication Publication Date Title
Ye et al. Automated lane change strategy using proximal policy optimization-based deep reinforcement learning
EP3970077B1 (de) Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt, kraftfahrzeug sowie system
DE102018128289B4 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
Wang et al. Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm
DE102019121717A1 (de) Interaktionsbewusste entscheidungsfindung
DE102019209736A1 (de) Verfahren zur Bewertung möglicher Trajektorien
EP3942379B1 (de) Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt, kraftfahrzeug sowie system
EP3688661A1 (de) Kommunikationsfluss von verkehrsteilnehmer in richtung eines automatisiert fahrenden fahrzeug
EP3899682A1 (de) Überwachung von auf neuronalen netzwerken basierten fahrfunktionen
DE102020209538A1 (de) Vorrichtung und Verfahren zum Ermitteln einer physikalischen Eigenschaft eines physikalischen Objekts
DE102019134408A1 (de) Selbstlernendes Netzwerk neuronaler Netzwerkmodelle für sicherheitsrelevante Anwendungen im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens
DE102019209457A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm, maschinenlesbares Speichermedium und entsprechende Vorrichtung
DE102021110309A1 (de) Verfahren zum Modellieren eines menschlichen Fahrverhaltens zum Trainieren von Bewegungssteuerungen, die auf einem neuronalen Netzwerk basieren
DE102021004426A1 (de) Verfahren zum Trainieren einer autonomen Fahrfunktion
DE102021205037A1 (de) Verfahren zum Ermitteln einer Steueraktion für eine Robotervorrichtung
DE102022109385A1 (de) Belohnungsfunktion für Fahrzeuge
DE102020200499A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
DE102018216719A1 (de) Schlüsselbildbasierter autonomer Fahrzeugbetrieb
WO2021191120A1 (de) VERFAHREN ZUR BESTIMMUNG EINES WERTES EINER REGLERGRÖßE
DE112020006317T5 (de) Computersystem und verfahren zum trainieren eines verkehrsagenten in einer simulationsumgebung
DE102021205934A1 (de) Verfahren zum Trainieren einer Steuerungsstrategie
DE112020006532T5 (de) Computersystem und verfahren mit ende-zu-ende modellierung für einen simulierten verkehrsagenten in einer simulationsumgebung
DE102020105485A1 (de) Trainieren lokaler künstlicher neuronaler Netzwerke
WO2023193996A1 (de) Test einer automatischen fahrsteuerfunktion mittels semi-realer verkehrsdaten

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed