DE112020003136T5 - Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs - Google Patents

Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs Download PDF

Info

Publication number
DE112020003136T5
DE112020003136T5 DE112020003136.5T DE112020003136T DE112020003136T5 DE 112020003136 T5 DE112020003136 T5 DE 112020003136T5 DE 112020003136 T DE112020003136 T DE 112020003136T DE 112020003136 T5 DE112020003136 T5 DE 112020003136T5
Authority
DE
Germany
Prior art keywords
lane change
vehicle
target
network
lane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020003136.5T
Other languages
English (en)
Inventor
Tianyu Shi
Xu Ran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Momenta Suzhou Technology Co Ltd
Original Assignee
Momenta Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Momenta Suzhou Technology Co Ltd filed Critical Momenta Suzhou Technology Co Ltd
Publication of DE112020003136T5 publication Critical patent/DE112020003136T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/167Driving aids for lane monitoring, lane changing, e.g. blind spot detection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0953Predicting travel path or likelihood of collision the prediction being responsive to vehicle dynamic parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/20Conjoint control of vehicle sub-units of different type or different function including control of steering systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/10Number of lanes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4041Position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4042Longitudinal speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Chemical & Material Sciences (AREA)
  • Feedback Control In General (AREA)
  • Combustion & Propulsion (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Analytical Chemistry (AREA)

Abstract

Die vorliegende Beschreibung offenbart ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, wobei das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst: einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf das technische Gebiet des unbemannten Fahrens, insbesondere auf ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs.
  • STAND DER TECHNIK
  • Im Bereich des unbemannten Fahrens lässt sich die Architektur autonomer Systeme unbemannter Fahrzeuge in der Regel in Wahrnehmungssysteme und Entscheidungssteuerungssysteme unterteilen. Traditionelle Entscheidungssteuerungssysteme verwenden optimierungsbasierte Algorithmen, die meisten klassischen optimierungsbasierten Verfahren sind jedoch aufgrund der Komplexität der Berechnungen nicht in der Lage, komplexe Entscheidungsaufgaben zu lösen. Während das Fahrzeug in der Praxis eine komplexe Fahrsituation aufweist, verwendet das unbemannte Fahrzeug in einer unstrukturierten Umgebung komplexe Sensoren, wie z.B. Kameras und Laserentfernungsmesser. Da die von den oben erwähnten Sensoren erfassten Sensordaten im Allgemeinen von komplexen und unbekannten Umständen abhängen, ist es schwierig, dass nach dem direkten Eingeben der von den oben erwähnten Sensoren erhaltenen Sensordaten in das Algorithmus-Rahmenwerk der Algorithmus die optimalen Steuergrößen ausgeben kann. Bei der traditionellen Methode wird normalerweise der Slam-Algorithmus verwendet, um die Umgebung zu zeichnen, dann wird in der Ergebniskarte eine Trajektorie erhalten. Dieser modellbasierte Algorithmus erhöht jedoch die Instabilitätsfaktoren aufgrund einer hohen Unsicherheit (z. B. Unebenheiten auf der Straße) beim Fahren des Fahrzeugs.
  • INHALT DER VORLIEGENDEN ERFINDUNG
  • Die vorliegende Beschreibung stellt Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, um mindestens ein technisches Problem im Stand der Technik zu überwinden.
  • Gemäß einem ersten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells bereitgestellt, das umfasst:
    • einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
    • wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch denTrainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  • Optional wird der Trainingsprobensatz durch mindestens eine der Weisen erhalten:
    • erste Erfassungsweise:
      • im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden;
      • zweite Erfassungsweise:
      • die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.
  • Alternativ ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei der schritt, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, umfasst:
    • für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
    • die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
    • die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert;
    • wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
  • Alternativ ist es vorgesehen, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und iterativ optimiert wird, wodurch die aktualisierten Parameter des Vorhersagenetzwerks erhalten wird, umfasst:
    • wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
  • Alternativ ist es vorgesehen, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
  • Gemäß einem zweiten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird ein Verfahren zur Entscheidung für einen Spurwechsel eines unbemannten Fahrzeugs angegeben, das umfasst:
    • die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
    • das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
    • wobei die Steuergröße zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt wird, so dass das Zielfahrzeug den Spurwechsel durchführt.
  • Gemäß einem dritten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird eine Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells bereitgestellt, das umfasst:
    • ein Probenerfassungsmodul, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
    • ein Modelltrainingsmodul, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  • Alternativ ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei das Modelltrainingsmodul umfasst:
    • eine Probeneingabeeinheit, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
    • eine Belohnungserzeugungseinheit, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
    • eine Erfahrungsspeichereinheit, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
  • Alternativ ist es vorgesehen, dass die Parameteraktualisierungseinheit ferner umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
  • Gemäß einem vierten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs angegeben, das umfasst:
    • ein Datenerfassungsmodul, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
    • ein Steuergrößen-Erzeugungsmodul, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
    • ein Steuergrößenausgabemodul, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktuator zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.
  • Vorteilhafte Wirkungen der Ausführungsbeispiele der vorliegenden Beschreibung sind wie folgt:
    • Ausführungsbeispiele der vorliegende Beschreibung stellen ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den erhaltenen Trainingsprobensatz trainiert wird, wobei das Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei jede Gruppe von Zustandsgrößen im Trainingsprobensatz in das Vorhersagenetzwerk eingegeben wird, wobei Zustandsgröße und Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, wobei die Verlustfunktion gemäß der Wertschätzung des Ausführungsergebnisses der entsprechenden prädiktiven Steuergröße, die durch das Vorhersagenetzwerk ausgegeben wird, und der Wertschätzung des Zielnetzwerks für das Eingabetrainingsprobe berechnet wird, und die Verlustfunktion wird gelöst, um die Strategieparameter des Vorhersagenetzwerks zu aktualisieren, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und wobei die regelbasierte Strategie hinzugefügt wird, um das Problem zu lösen, dass die Verlustfunktion möglicherweise nicht in der Lage ist, zu konvergieren, was die Stabilität des Modells erhöht. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; und es weist im Vergleich zu reinen tiefen neuronalen Netzwerken eine bessere Planungseffizienz auf und erhöht die Anpassungsfähigkeit an spezifische Anwendungsszenarien.
  • Die Innovationspunkte der Ausführungsbeispiele der vorliegenden Beschreibung umfassen:
    1. 1. Das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell wird durch den erhaltenen Trainingsprobensatz trainiert, wobei das Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei jede Gruppe von Zustandsgrößen im Trainingsprobensatz in das Vorhersagenetzwerk eingegeben wird, wobei Zustandsgröße und Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, wobei die Verlustfunktion gemäß der Wertschätzung des Ausführungsergebnisses der entsprechenden prädiktiven Steuergröße, die durch das Vorhersagenetzwerk ausgegeben wird, und der Wertschätzung des Zielnetzwerks für das Eingabetrainingsprobe berechnet wird, und die Verlustfunktion wird gelöst, um die Strategieparameter des Vorhersagenetzwerks zu aktualisieren, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und wobei die reguläre Strategie hinzugefügt wird, um das Problem zu lösen, dass die Verlustfunktion möglicherweise nicht in der Lage ist, zu konvergieren, was die Stabilität des Modells erhöht. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; im Vergleich zu einem reinen tiefen neuronalen Netzwerk weist es eine bessere Planungseffizienz und eine erhöhte Anpassbarkeit an spezifische Anwendungsszenarien auf, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
    2. 2. Die Wertauswertung der Strategie des Trainingsproben wird durch das Zielnetzwerk basierend auf der Regel berechnet, um das Vorhersagenetzwerk basierend auf dem Lernen aus der Raumsuche von der Zustandsgröße zur Steuergröße zu führen und die optimierte Strategie zu verwenden, um die Aktualisierung der Vorhersagenetzwerkstrategie, wodurch das tiefe intensive Lernnetzwerk ein kompliziertes Spurwechselentscheidungsproblem lösen kann, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
    3. 3. Das Spurwechsel-Entscheidungsmodell, das nach dem Verfahren erlangt wird, kann die vom Sensor eingegebenen Sensordaten direkt lernen und die entsprechenden Steuergrößen ausgeben, was die Entscheidungsschwierigkeiten löst, die durch die komplexen Sensoren und die Umgebungsunsicherheit im Stand der Technik verursacht werden. Die Verschmelzung der optimierenden Weisen mit tief lernenden Netzwerken ermöglicht eine gute Effizienz der Planung, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
    4. 4. Durch die Berechnung der Verlustfunktion werden die Strategie des Vorhersagenetzwerks und die Optimierungsstrategie verbunden, wodurch die Parameter des Vorhersagenetzwerks fortlaufend und iterativ aktualisiert werden, so dass die vom Vorhersagenetzwerk ausgegebene prädiktive Steuergröße schrittweise einer menschlicheren Entscheidung nähern, wodurch das Entscheidungsmodell eine bessere Entscheidungsfähigkeit aufweist, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
    5. 5. Beim Training des Vorhersagenetzwerks werden die Erfahrungsdaten, die die voreingestellten Bedingungen erfüllen, mit einer voreingestellten Häufigkeit aus dem Erfahrungspool ausgewählt und dem Trainingsprobensatz des Zielnetzwerks hinzugefügt, und die Parameter des Zielnetzwerks werden aktualisiert, wodurch das Entscheidungsmodell eine bessere Planungseffizienz aufweist, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
  • Figurenliste
  • Um die technischen Lösungen in den Ausführungsbeispielen der vorliegenden Beschreibung oder im Stand der Technik deutlicher zu beschreiben, werden im Folgenden die beigefügten Zeichnungen, die zum Beschreiben der Ausführungsbeispielen oder des Standes der Technik erforderlich sind, kurz vorgestellt. Offensichtlich sind die Zeichnungen in der folgenden Beschreibung einige Ausführungsbeispiele der vorliegenden Erfindung. Für Fachleute auf dem Gebiet können auch andere Zeichnungen basierend auf diesen Zeichnungen ohne jegliche kreative Arbeit erhalten werden.
    • 1 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 2 zeigt ein schematisches Flussdiagramm, das einen Prozess zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 3 zeigt ein schematisches Prinzipdiagramm ist, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 4 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 5 zeigt ein schematisches Prinzipdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 6 zeigt ein schematisches Strukturdiagramm ist, das eine Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 7 zeigt ein schematisches Strukturdiagramm ist, das ein Modul zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
    • 8 zeigt ein schematisches Strukturdiagramm ist, das eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die technischen Lösungen in den Ausführungsbeispielen bei der Beschreibung werden nachfolgend mit den beigefügten Figuren in den Ausführungsbeispielen bei der Beschreibung übersichtlich und vollständig beschrieben. Offensichtlich ist die beschriebenen Ausführungsbeispiele nur ein Teil und nicht aller der Ausführungsbeispiele der Erfindung. Alle anderen Ausführungsbeispiele, die von einem Fachmann auf diesem Gebiet basierend auf den Ausführungsbeispielen der vorliegenden Erfindung ohne kreative Anstrengungen erhalten werden, sollen in den Schutzumfang der vorliegenden Erfindung fallen.
  • Es ist zu beachten, dass die Begriffe „umfassen“ und „aufweisen“ und jegliche Variationen davon, wie sie in den Ausführungsbeispielen und den Figuren der vorliegenden Beschreibung verwendet werden, eine nicht ausschließende Inklusion abdecken sollen. Ein Prozess, Verfahren, System, Produkt oder Gerät, das zum Beispiel eine Reihe von Schritten oder Einheiten umfasst, ist nicht auf die aufgelisteten Schritte oder Einheiten beschränkt, sondern umfasst optional auch nicht aufgelistete Schritte oder Einheiten oder optional weitere Schritte oder Einheiten, die solch einem Prozess, Verfahren, Produkt oder Gerät inhärent sind.
  • Ausführungsbeispiele der vorliegende Beschreibung offenbaren ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, die in den folgenden Ausführungsbeispielen ausführlich beschrieben werden.
  • Mit Bezug auf 1 ist ein schematisches Flussdiagramm gezeigt, das ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst insbesondere die folgenden Schritte:
    • S110: einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst.
  • Beim Spurwechsel unbemannter Fahrzeuge muss das Entscheidungssystem die externe Umgebung basierend auf den vom Wahrnehmungssystem eingegebenen Informationen verstehen, und entsprechend dem Eingabezustand wird die nächste Aktion des unbemannten Fahrzeugs erhalten. Das tiefe neuronale Netzwerk basierend auf Verstärkungslemen muss die Beziehung zwischen der Zustandsgröße und der Steuergröße lernen, wodurch der entsprechende Trainingsprobensatz erhalten wird, so dass das tiefe neuronale Netzwerk die entsprechende Steuergröße gemäß der Zustandsgröße erhalten kann, wobei der Trainingsprobensatz durch mindestens eine der Weisen erhalten wird:
    • erste Erfassungsweise:
      • im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden.
  • Die erste Erfassungsweise basiert auf regulären Optimierungsalgorithmen, und im Simulator wird das Fahrzeug nach dem Optimierungsalgorithmus für mehrere sanfte Spurwechsel simuliert, wodurch die Zustandsgrößen bei jedem Zeitschritt und die entsprechende Steuergröße während des Spurwechsels ermittelt werden, so dass das neuronale Netzwerk veranlasst wird, die Korrespondenz zwischen der Zustandsgröße und der entsprechenden Steuergröße zu lernen, wobei der Optimierungsalgorithmus ein gemischt ganzzahliger quadratischer Planung-MIQP-Algorithmus sein.
  • Zweite Erfassungsweise:
    • die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.
  • Die zweite Erfassungsweise besteht darin, die für den Trainingsprobensatz benötigten Daten aus der Datenbank zu erhalten, so dass das tiefe neuronale Netzwerk über Training auf der Grundlage des Trainingsprobensatzes einen Grad der Fähigkeit zum Produzieren von menschlichen Entscheidungen aufweist.
  • S120: das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell wird durch denTrainingsprobensatz trainiert, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  • In einem Ausführungsbeispiel ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst;
    • 2 zeigt ein schematisches Flussdiagramm, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß dem vorliegenden Ausführungsbeispiel darstellt. Der Trainingsschritt für das Spurwechsel-Entscheidungsmodell umfasst insbesondere:
    • S210: für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten.
  • Das Vorhersagenetzwerk kann die Steuergröße, die das unbemannte Fahrzeug beim nächsten Zeitschritt nehmen sollte, aus der Zustandsgröße beim aktuellen Zeitschritt vorhersagen, und das Zielnetzwerk erhält den entsprechenden Wertbewertungs-Q-Wert durch die eingegebene Zustandsgröße und der Steuergröße, wobei der Wertbewertungs-Q-Wert verwendet wird, um die Überlegenheit und Unterlegenheit einer Strategie entsprechend der Zustandsgröße und der Steuergröße zu charakterisieren.
  • Daher wird die Zustandsgröße unter dem aktuellen Zeitschritt in dem Trainingsprobensatz in das Vorhersagenetzwerk eingegeben, und die Vorhersagesteuergröße unter dem nächsten Zeitschritt, die durch das Vorhersagenetzwerk ausgegeben wird, wird erhalten, wobei Zustandsgröße und entsprechende Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, um eine Wertschätzung für eine entsprechende Strategie zu erhalten, wodurch die Differenz der Steuergrößen gemäß verschiedenen Strategien bei einem nächsten Zeitschritt verglichen werden kann.
  • S220: die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten.
  • Der Wertbewertungs-Q-Wert der prädiktiven Steuergröße, die von dem Vorhersagenetzwerk ausgegeben wird, wird berechnet, die prädiktive Steuergröße muss ausgeführt werden und die Feedback-Umgebungsbelohnung wird von der Umgebung erhalten, wobei die Durchführung der Simulation der prädiktiven Steuergröße durch einen vorab konstruierten Umgebungssimulator erfolgt, wodurch ein Ausführungsergebnis der prädiktiven Steuergröße und eine Umgebungsbelohnung erhalten werden, wodurch die prädiktive Steuergröße bewertet wird, und dann wird die Verlustfunktion konstruiert, um das Vorhersagenetzwerk zu aktualisieren.
  • S230: die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert.
  • Der prädiktive Steuergröße und die entsprechenden Umgebungsbelohnung und die Zustandsgröße des nächsten Zeitschritts werden im Erfahrungspool gespeichert. Einerseits werden mehr verfügbare Daten des Fahrzeugspurwechsels gewonnen und zweitens ist es von Vorteil, die Parameter des Zielnetzwerks basierend auf den Erfahrungsdaten zu aktualisieren, um eine vernünftigere Wertschätzung der Steuerungsstrategie zu erhalten, so dass es ermöglicht wird, dass das trainierte Entscheidungsmodell menschlichere Entscheidungen trifft.
  • S240: wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
  • Der Q-Wert, der die Wertbewertung der prädiktiven Steuergröße charakterisiert, wird gemäß der durch die prädiktive Steuergröße erhaltenen Umgebungsbelohnung berechnet, wobei die Verlustfunktion gemäß dem Wertbewertungs-Q-Wert mehrerer prädiktiver Steuergrößen und dem Wertbewertungs-Q-Wert entsprechend dem Trainingsprobe unter dem entsprechenden Zeitschritt konstruiert wird, wobei die Verlustfunktion die Abweichung einer Strategie, die durch ein aktuelles Vorhersagenetzwerk gelernt wird, von einer Zielstrategie in einer Trainingsprobe darstellt, wobei die Verlustfunktion durch ein stochastisches Gradientenabstiegsverfahren optimiert wird, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, wodurch der Parameter des Vorhersagenetzwerks aktualisiert wird, und die Parameteraktualisierung wird fortgesetzt, bis die Verlustfunktion konvergiert wird, wodurch Differenzen von Strategie des Vorhersagenetzwerks zu Zielstrategien allmählich reduziert werden, so dass das Entscheidungsmodell vernünftigere und menschlichere Entscheidungssteuergrößen ausgeben kann.
  • In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und iterativ optimiert wird, wodurch die aktualisierten Parameter des Vorhersagenetzwerks erhalten wird, umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
  • Durch Aktualisieren der Zielnetzwerkparameter ist das Entscheidungsmodell online optimierbar, so dass das Entscheidungsmodell mit einer besseren Planungseffizienz geschaffen wird und eine robustere Wirkung erzielt.
  • In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
  • In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass das Trainingsverfahren durch Konstruieren einer Verlustfunktion die Parameter des Vorhersagenetzwerks optimiert, sodass das Vorhersagenetzwerk eine bessere Strategie zum Lösen eines komplexen Problems bei einem Fahrzeugspurwechsel findet, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und erhöht die Stabilität des Modells.
  • 3 zeigt ein schematisches Prinzipdiagramm ist, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Wie in 3 gezeigt, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße s in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße a des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße s' des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße a' werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-QT-Wert der Ausgabe des Zielnetzwerks wird erhalten; die prädiktive Steuergröße a wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung r, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße sl zum nächsten Zeitschritt zu erhalten; die Zustandsgröße s, die entsprechende prädiktive Steuergröße a, die Umgebungsbelohnung r und die Zustandsgröße s1 zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert; wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem QT-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und iterativ optimiert, um die Parameter des aktualisierten Vorhersagenetzwerks bis zur Konvergenz zu erhalten.
  • In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass die Strategieoptimierung des lernbasierten neuronalen Netzwerkes durch die regelbasierte Strategie im Zielnetzwerk geleitet wird und der planungsbasierte Optimierungsalgorithmus in das Rahmenwerk des Verstärkungslernens eingebunden wird. Dies behält nicht nur den Vorteil, dass das neuronale Netzwerk direkt Sensordateneingaben empfangen kann, sondern verbessert auch die Planungseffizienz des Vorhersagenetzes, und wobei die Einbeziehung aufgrund der Planungsstrategie die Stabilität des Modells erhöht.
  • 4 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Der Schritt des Verfahrens zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs umfasst:
    • S310: die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen.
  • Die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur werden erfassen, und gemäß den Daten wird die Steuergröße erhalten, den das Zielfahrzeug ausführen muss, um einen Spurwechsel zu erzielen.
  • S320: das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt. S330: die Steuergröße wird zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt, so dass das Zielfahrzeug den Spurwechsel durchführt.
  • Ab dem anfänglichen Moment des Spurwechsels wird das Spurwechsel-Entscheidungsmodell aufgerufen, um die bei jedem Zeitschritt des Zielfahrzeugs erhaltene Zustandsgröße zu berechnen, und die entsprechende Steuergröße wird erhalten, so dass das Zielfahrzeug einen sanften Spurwechsel gemäß den entsprechenden Steuergrößen durchführen kann.
  • In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass die von dem Zielfahrzeug-Karosseriesensor erhaltenen Sensordaten direkt in das Spurwechsel-Entscheidungsmodell eingegeben werden, das gemäß dem Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells trainiert wurde, wobei entsprechende Steuergrößen abgeleitet werden, die das Entscheidungsmodul zu den entsprechenden Zeitpunkten ausgibt, wodurch das Zielfahrzeug reibungslos die Spur wechseln kann, und das Entscheidungsmodell kann die Eingaben des Sensors direkt empfangen und hat eine bessere Planungseffizienz.
  • 5 zeigt ein schematisches Prinzipdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Wie in 5 gezeigt, werden die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfassen; das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird; die Steuergröße wird zu jedem Zeitpunkt ausgeführt, so dass das Zielfahrzeug den Spurwechsel durchführt.
  • In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass das durch das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells trainierte Spurwechsel-Entscheidungsmodell direkt die Sensordateneingabe, die in dem Zielfahrzeug-Karosseriesensor erhalten wird, empfangen kann und die entsprechende Steuergröße zu dem entsprechenden Zeitpunkt ausgeben kann, so dass das Zielfahrzeug reibungslos die Spur wechselt. Das Spurwechselentscheidungsverfahren realisiert, dass die Sensordaten als direkte Eingabe des Entscheidungsmodells verwendet werden, und bewirkt, dass das unbemannte Fahrzeug den Spurwechsel gemäß der menschlichen Entscheidung reibungslos durchführt.
  • Entsprechend dem vorstehend erwähnten Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells und einem Verfahren zur Entscheidung für einen Spurwechsel eines unbemannten Fahrzeugs, stellt diese Beschreibung auch Ausführungsbeispiele einer Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells und einer Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, wobei Ausführungsbeispiele der Vorrichtung in Software oder in einer Kombination von Hardware und Software implementiert werden können. Zum Beispiel wird eine Software-Implementierung als eine logische Vorrichtung gebildet, indem die entsprechenden Computerprogrammanweisungen aus dem nichtflüchtigen Speicher in den RAM durch den Prozessor des Geräts, in dem die Vorrichtung sich befindet, eingelesen und durchgeführt werden. Aus der Sicht der Hardware kann eine Hardwarestruktur des Geräts, in dem sich in dieser Beschreibung die Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells und die Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs befinden, einen Prozessor, eine Netzwerkschnittstelle, einen RAM und eine Nicht- -flüchtiger Speicher und kann auch andere Hardware enthalten, die hier nicht weiter beschrieben werden.
  • 6 ist ein schematisches Strukturdiagramm, das eine Vorrichtung 400 zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Eine Vorrichtung 400 zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst:
    • ein Probenerfassungsmodul 410, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
    • ein Modelltrainingsmodul 420, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  • In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass das Probenerfassungsmodul 410 einen Trainingsprobensatz durch zumindest eine der Folgenden Weisen erhält:
    • erste Erfassungsweise:
      • im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden;
      • zweite Erfassungsweise:
      • die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.
  • 7 zeigt ein schematisches Strukturdiagramm ist, das ein Modul zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell umfasst ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk, wobei das Modelltrainingsmodul 420 umfasst:
    • eine Probeneingabeeinheit 402, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
    • eine Belohnungserzeugungseinheit 404, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
    • eine Erfahrungsspeichereinheit 406, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit 408, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
    • In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Parameteraktualisierungseinheit 408 ferner so konfiguriert ist, dass
    • wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
    • In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Verlustfunktionen der Parameteraktualisierungseinheit dadurch gekennzeichnet ist, dass, es umfasst: die Verlustfunktion stellt einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks dar, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Parameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Parameter des Zielnetzwerks bezieht.
  • 8 ist ein schematisches Strukturdiagramm, das eine Vorrichtung 500 zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Die Vorrichtung 500 zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs umfasst insbesondere folgende Module:
    • ein Datenerfassungsmodul 510, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
    • ein Steuergrößen-Erzeugungsmodul 520, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
    • ein Steuergrößenausgabemodul 530, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktor zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.
  • Einzelheiten zum Implementierungsprozess der Funktionen und Rollen jeder Einheit in der oben genannten Vorrichtung sind im Implementierungsprozess der entsprechenden Schritte im oben genannten Verfahren beschrieben. Einzelheiten werden hierin nicht erneut beschrieben.
  • Zusammenfassend wird das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den erhaltenen Trainingsprobensatz trainiert, wobei durch Konstruieren einer Verlustfunktion die Parameter des Vorhersagenetzwerks optimiert wird, sodass das Vorhersagenetzwerk eine bessere Strategie zum Lösen eines komplexen Problems bei einem Fahrzeugspurwechsel findet, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; und es weist im Vergleich zu reinen tiefen neuronalen Netzwerken eine bessere Lerneffizienz auf und erhöht die Anpassungsfähigkeit an spezifische Anwendungsszenarien.
  • Der Durchschnittsfachmann in diesem Gebiet kann verstehen, dass die beigefügten Figuren lediglich eine schematische Darstellung eines Ausführungsbeispiels sind, wobei die Blöcke oder Abläufe in den Figuren nicht notwendigerweise für die Verwirklichung der vorliegenden Erfindung erforderlich sind.
  • Der Durchschnittsfachmann in diesem Gebiet kann verstehen, dass die Module in den Vorrichtungen in dem Ausführungsbeispiel können auf Vorrichtungen des Ausführungsbeispiels wie in dem Ausführungsbeispiel beschrieben verteilt sein, und die entsprechenden Variationen können in einer oder mehreren Vorrichtungen durchgeführt werden, die sich von dem vorliegenden Ausführungsbeispiel unterscheiden. Die Module des oben beschriebenen Ausführungsbeispiels können zu einem Modul kombiniert werden oder weiter in mehrere Untermodule aufgeteilt werden.
  • Schließlich sollte festgestellt werden, dass die vorstehenden Ausführungsbeispiele lediglich zur Erläuterung der technischen Lösungen des vorliegenden Gebrauchsmusters und nicht als Einschränkungen gedacht sind; wobei obwohl die detaillierte Beschreibung der vorliegenden Erfindung unter Bezugnahme auf die vorhergehenden Ausführungsbeispiele erfolgt ist, ist es für den Durchschnittsfachmann auf diesem Gebiet verständlich, dass die in den vorstehenden Ausführungsbeispielen beschriebenen technischen Lösungen noch modifiziert werden können, oder einige der technischen Merkmale äquivalent ersetzt werden können; diese Modifikationen und Änderungen sind jedoch nicht dazu gedacht, die Essenz der entsprechenden technischen Lösungen vom Geist und Umfang der technische Lösungen der jeweiligen Ausführungsbeispiele der vorliegenden Erfindung abzuweichen.

Claims (10)

  1. Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, umfassend folgende Schritte: Erfassen eines Satzes von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, wobei jede Trainingsprobengruppe Trainingsproben zu jedem Zeitschritt umfasst, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  2. Verfahren nach Anspruch 1, wobei der Trainingsprobensatz durch mindestens eine der Weisen erhalten wird: erste Erfassungsweise: im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden; zweite Erfassungsweise: die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei der schritt, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, umfasst: für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten; die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten; die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert; wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und optimiert wird, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird, umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
  5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
  6. Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, umfassend: die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen; das Spurwechsel-Entscheidungsmodell wird aufgerufen, und durch das Spurwechsel-Entscheidungsmodell wird die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt des Spurwechselprozesses erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt; wobei die Steuergröße zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt wird, so dass das Zielfahrzeug den Spurwechsel durchführt.
  7. Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells, umfassend: ein Probenerfassungsmodul, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; ein Modelltrainingsmodul, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
  8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei das Modelltrainingsmodul umfasst: eine Probeneingabeeinheit, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten; eine Belohnungserzeugungseinheit, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten; eine Erfahrungsspeichereinheit, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
  9. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass die Parameteraktualisierungseinheit ferner so konfiguriert ist, dass wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
  10. Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, umfassend: ein Datenerfassungsmodul, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen; ein Steuergrößen-Erzeugungsmodul, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt; ein Steuergrößenausgabemodul, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktuator zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.
DE112020003136.5T 2019-11-27 2020-10-16 Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs Pending DE112020003136T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911181338.0 2019-11-27
CN201911181338.0A CN112937564B (zh) 2019-11-27 2019-11-27 换道决策模型生成方法和无人车换道决策方法及装置
PCT/CN2020/121339 WO2021103834A1 (zh) 2019-11-27 2020-10-16 换道决策模型生成方法和无人车换道决策方法及装置

Publications (1)

Publication Number Publication Date
DE112020003136T5 true DE112020003136T5 (de) 2022-03-24

Family

ID=76129958

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020003136.5T Pending DE112020003136T5 (de) 2019-11-27 2020-10-16 Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs

Country Status (4)

Country Link
US (1) US20220363259A1 (de)
CN (1) CN112937564B (de)
DE (1) DE112020003136T5 (de)
WO (1) WO2021103834A1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3523760B1 (de) * 2016-11-04 2024-01-24 DeepMind Technologies Limited Verstärkungslernsysteme
CN113324556B (zh) * 2021-06-04 2024-03-26 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113495563B (zh) * 2021-06-10 2022-09-20 吉林大学 用于自动驾驶虚拟测试的交通车换道决策规划方法
CN113552883B (zh) * 2021-07-19 2024-05-14 吉林大学 基于深度强化学习的地面无人车自主驾驶方法及系统
CN113777918A (zh) * 2021-07-28 2021-12-10 张金宁 一种数字孪生架构的汽车智能线控底盘控制方法
CN113807009B (zh) * 2021-08-31 2022-11-18 东南大学 一种微观换道轨迹的分段提取方法
CN113581182B (zh) * 2021-09-07 2024-04-19 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN114021840A (zh) * 2021-11-12 2022-02-08 京东鲲鹏(江苏)科技有限公司 换道策略生成方法和装置、计算机存储介质、电子设备
CN113928321B (zh) * 2021-11-24 2022-08-26 北京联合大学 一种基于端到端的深度强化学习换道决策方法和装置
CN114692890B (zh) * 2021-12-24 2024-06-25 中国人民解放军军事科学院战争研究院 基于模型的权值组合规划值扩展的方法
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114355936A (zh) * 2021-12-31 2022-04-15 深兰人工智能(深圳)有限公司 智能体的控制方法、装置、智能体及计算机可读存储介质
CN114723005B (zh) * 2022-03-28 2024-05-03 中国人民解放军国防科技大学 一种基于深度图表征学习的多层网络瓦解策略推断方法
CN115489320B (zh) * 2022-09-23 2024-06-18 西南交通大学 一种基于深度强化学习的列车受电弓智能控制方法
CN116069043B (zh) * 2023-03-24 2023-08-15 华南农业大学 一种无人驾驶农机作业速度自主决策方法
CN116859755B (zh) * 2023-08-29 2023-12-08 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法
CN117829256A (zh) * 2024-01-08 2024-04-05 南京航空航天大学 基于深度强化学习人机共驾转向权重系数预测分配方法
CN117601904B (zh) * 2024-01-22 2024-05-14 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质
CN118013868A (zh) * 2024-04-10 2024-05-10 北京交通发展研究院 车辆状态的预测方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106080590B (zh) * 2016-06-12 2018-04-03 百度在线网络技术(北京)有限公司 车辆控制方法和装置以及决策模型的获取方法和装置
CN106114507B (zh) * 2016-06-21 2018-04-03 百度在线网络技术(北京)有限公司 用于智能车辆的局部轨迹规划方法和装置
CN106740457A (zh) * 2016-12-07 2017-05-31 镇江市高等专科学校 基于bp神经网络模型的车辆换道决策方法
CN108313054B (zh) * 2018-01-05 2019-08-02 北京智行者科技有限公司 自动驾驶自主换道决策方法和装置及自动驾驶车辆
US11436484B2 (en) * 2018-03-27 2022-09-06 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
CN110356401B (zh) * 2018-04-05 2020-06-16 北京图森未来科技有限公司 一种自动驾驶车辆及其变道控制方法和系统
CN109739218A (zh) * 2018-12-24 2019-05-10 江苏大学 一种基于gru网络的仿优秀驾驶员换道模型建立方法
CN109933086B (zh) * 2019-03-14 2022-08-30 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110304045B (zh) * 2019-06-25 2020-12-15 中国科学院自动化研究所 智能驾驶横向换道决策方法、系统和装置
KR20190098735A (ko) * 2019-08-01 2019-08-22 엘지전자 주식회사 차량 단말 및 그의 동작 방법

Also Published As

Publication number Publication date
CN112937564A (zh) 2021-06-11
US20220363259A1 (en) 2022-11-17
CN112937564B (zh) 2022-09-02
WO2021103834A1 (zh) 2021-06-03

Similar Documents

Publication Publication Date Title
DE112020003136T5 (de) Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs
EP3688537A1 (de) Verfahren, vorrichtung und computerprogramm zum betreiben eines roboter-steuerungssystems
DE202017007641U1 (de) Training von maschinellen Lernmodellen auf mehrere maschinelle Lernaufgaben
DE102019001948A1 (de) Steuerung und maschinelle Lernvorrichtung
DE112020005577T5 (de) Simulieren diverser langfristiger zukünftiger Trajektorien in Strassenszenen
DE112016006692T5 (de) Verfahren zur Vorhersage einer Bewegung eines Objekts
WO2020094534A1 (de) Verfahren zum trainieren eines künstlichen neuronalen netzes, künstliches neuronales netz, verwendung eines künstlichen neuronalen netzes sowie entsprechendes computerprogramm, maschinenlesbares speichermedium und entsprechende vorrichtung
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
EP3757795A1 (de) Verfahren und vorrichtung zur optimalen aufteilung von testfällen auf unterschiedliche testplattformen
DE102020202350A1 (de) Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter
DE112020006045T5 (de) Formal sicheres symbolisches bestärkendes lernen anhand von visuellen eingaben
DE112021002866T5 (de) Modelltreueüberwachung und -neuerstellung zur entscheidungsunterstützung eines fertigungsverfahrens
DE102018002423A1 (de) Robotersteuerung, Vorrichtung für maschinelles Lernen und Verfahren für maschinelles Lernen
DE102019205359B4 (de) Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
EP3650964B1 (de) Verfahren zum steuern oder regeln eines technischen systems
DE102021114768A1 (de) Fahrzeugsteuerung unter Verwendung eines Controllers eines neuronalen Netzes in Kombination mit einem modellbasierten Controller
DE3927581A1 (de) Rechnersystem und verfahren zur ausfuehrung einer ungenauigkeitsbeurteilung
DE102020204979A1 (de) Verfahren und Vorrichtung zur Verkehrssteuerung
DE102019201045B4 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Aktion oder Trajektorie eines Roboters
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
DE102019128223A1 (de) Verfahren, Vorrichtungen und Computerprogramme
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
WO2021009153A1 (de) Komponentenbasierte verarbeitung von eingangsgrössen
DE102019132624A1 (de) Verfahren, Vorrichtung, Computerprogramm und computerlesbares Speichermedium zum Erstellen eines Motion Cueing Algorithmus
EP3620998A1 (de) Verfahren zum sicheren trainieren eines dynamischen modells

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R081 Change of applicant/patentee

Owner name: MOMENTA (SUZHOU) TECHNOLOGY CO., LTD., SUZHOU, CN

Free format text: FORMER OWNER: MOMEMTA (SUZHOU) TECHNOLOGY CO., LTD., SUZHOU, JIANGSU, CN

R082 Change of representative

Representative=s name: KARAKATSANIS, GEORGIOS, DR., DE