DE112020003136T5

DE112020003136T5 - Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs

Info

Publication number: DE112020003136T5
Application number: DE112020003136.5T
Authority: DE
Inventors: Tianyu Shi; Xu Ran
Original assignee: Momenta Suzhou Technology Co Ltd
Current assignee: Momenta Suzhou Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2020-10-16
Publication date: 2022-03-24
Also published as: CN112937564A; US20220363259A1; CN112937564B; WO2021103834A1

Abstract

Die vorliegende Beschreibung offenbart ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, wobei das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst: einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf das technische Gebiet des unbemannten Fahrens, insbesondere auf ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs.
STAND DER TECHNIK
Im Bereich des unbemannten Fahrens lässt sich die Architektur autonomer Systeme unbemannter Fahrzeuge in der Regel in Wahrnehmungssysteme und Entscheidungssteuerungssysteme unterteilen. Traditionelle Entscheidungssteuerungssysteme verwenden optimierungsbasierte Algorithmen, die meisten klassischen optimierungsbasierten Verfahren sind jedoch aufgrund der Komplexität der Berechnungen nicht in der Lage, komplexe Entscheidungsaufgaben zu lösen. Während das Fahrzeug in der Praxis eine komplexe Fahrsituation aufweist, verwendet das unbemannte Fahrzeug in einer unstrukturierten Umgebung komplexe Sensoren, wie z.B. Kameras und Laserentfernungsmesser. Da die von den oben erwähnten Sensoren erfassten Sensordaten im Allgemeinen von komplexen und unbekannten Umständen abhängen, ist es schwierig, dass nach dem direkten Eingeben der von den oben erwähnten Sensoren erhaltenen Sensordaten in das Algorithmus-Rahmenwerk der Algorithmus die optimalen Steuergrößen ausgeben kann. Bei der traditionellen Methode wird normalerweise der Slam-Algorithmus verwendet, um die Umgebung zu zeichnen, dann wird in der Ergebniskarte eine Trajektorie erhalten. Dieser modellbasierte Algorithmus erhöht jedoch die Instabilitätsfaktoren aufgrund einer hohen Unsicherheit (z. B. Unebenheiten auf der Straße) beim Fahren des Fahrzeugs.
INHALT DER VORLIEGENDEN ERFINDUNG
Die vorliegende Beschreibung stellt Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, um mindestens ein technisches Problem im Stand der Technik zu überwinden.
Gemäß einem ersten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells bereitgestellt, das umfasst:

einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch denTrainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.

Optional wird der Trainingsprobensatz durch mindestens eine der Weisen erhalten:

erste Erfassungsweise:
- im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden;
- zweite Erfassungsweise:
- die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.

Alternativ ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei der schritt, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, umfasst:

für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert;
wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.

Alternativ ist es vorgesehen, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und iterativ optimiert wird, wodurch die aktualisierten Parameter des Vorhersagenetzwerks erhalten wird, umfasst:

wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.

Alternativ ist es vorgesehen, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
Gemäß einem zweiten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird ein Verfahren zur Entscheidung für einen Spurwechsel eines unbemannten Fahrzeugs angegeben, das umfasst:

die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
wobei die Steuergröße zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt wird, so dass das Zielfahrzeug den Spurwechsel durchführt.

Gemäß einem dritten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird eine Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells bereitgestellt, das umfasst:

ein Probenerfassungsmodul, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
ein Modelltrainingsmodul, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.

Alternativ ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei das Modelltrainingsmodul umfasst:

eine Probeneingabeeinheit, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
eine Belohnungserzeugungseinheit, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
eine Erfahrungsspeichereinheit, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.

Alternativ ist es vorgesehen, dass die Parameteraktualisierungseinheit ferner umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
Gemäß einem vierten Aspekt eines Ausführungsbeispiels der vorliegenden Beschreibung wird eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs angegeben, das umfasst:

ein Datenerfassungsmodul, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
ein Steuergrößen-Erzeugungsmodul, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
ein Steuergrößenausgabemodul, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktuator zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.

Vorteilhafte Wirkungen der Ausführungsbeispiele der vorliegenden Beschreibung sind wie folgt:

Ausführungsbeispiele der vorliegende Beschreibung stellen ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den erhaltenen Trainingsprobensatz trainiert wird, wobei das Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei jede Gruppe von Zustandsgrößen im Trainingsprobensatz in das Vorhersagenetzwerk eingegeben wird, wobei Zustandsgröße und Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, wobei die Verlustfunktion gemäß der Wertschätzung des Ausführungsergebnisses der entsprechenden prädiktiven Steuergröße, die durch das Vorhersagenetzwerk ausgegeben wird, und der Wertschätzung des Zielnetzwerks für das Eingabetrainingsprobe berechnet wird, und die Verlustfunktion wird gelöst, um die Strategieparameter des Vorhersagenetzwerks zu aktualisieren, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und wobei die regelbasierte Strategie hinzugefügt wird, um das Problem zu lösen, dass die Verlustfunktion möglicherweise nicht in der Lage ist, zu konvergieren, was die Stabilität des Modells erhöht. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; und es weist im Vergleich zu reinen tiefen neuronalen Netzwerken eine bessere Planungseffizienz auf und erhöht die Anpassungsfähigkeit an spezifische Anwendungsszenarien.

Die Innovationspunkte der Ausführungsbeispiele der vorliegenden Beschreibung umfassen:

1. Das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell wird durch den erhaltenen Trainingsprobensatz trainiert, wobei das Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei jede Gruppe von Zustandsgrößen im Trainingsprobensatz in das Vorhersagenetzwerk eingegeben wird, wobei Zustandsgröße und Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, wobei die Verlustfunktion gemäß der Wertschätzung des Ausführungsergebnisses der entsprechenden prädiktiven Steuergröße, die durch das Vorhersagenetzwerk ausgegeben wird, und der Wertschätzung des Zielnetzwerks für das Eingabetrainingsprobe berechnet wird, und die Verlustfunktion wird gelöst, um die Strategieparameter des Vorhersagenetzwerks zu aktualisieren, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und wobei die reguläre Strategie hinzugefügt wird, um das Problem zu lösen, dass die Verlustfunktion möglicherweise nicht in der Lage ist, zu konvergieren, was die Stabilität des Modells erhöht. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; im Vergleich zu einem reinen tiefen neuronalen Netzwerk weist es eine bessere Planungseffizienz und eine erhöhte Anpassbarkeit an spezifische Anwendungsszenarien auf, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
2. Die Wertauswertung der Strategie des Trainingsproben wird durch das Zielnetzwerk basierend auf der Regel berechnet, um das Vorhersagenetzwerk basierend auf dem Lernen aus der Raumsuche von der Zustandsgröße zur Steuergröße zu führen und die optimierte Strategie zu verwenden, um die Aktualisierung der Vorhersagenetzwerkstrategie, wodurch das tiefe intensive Lernnetzwerk ein kompliziertes Spurwechselentscheidungsproblem lösen kann, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
3. Das Spurwechsel-Entscheidungsmodell, das nach dem Verfahren erlangt wird, kann die vom Sensor eingegebenen Sensordaten direkt lernen und die entsprechenden Steuergrößen ausgeben, was die Entscheidungsschwierigkeiten löst, die durch die komplexen Sensoren und die Umgebungsunsicherheit im Stand der Technik verursacht werden. Die Verschmelzung der optimierenden Weisen mit tief lernenden Netzwerken ermöglicht eine gute Effizienz der Planung, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
4. Durch die Berechnung der Verlustfunktion werden die Strategie des Vorhersagenetzwerks und die Optimierungsstrategie verbunden, wodurch die Parameter des Vorhersagenetzwerks fortlaufend und iterativ aktualisiert werden, so dass die vom Vorhersagenetzwerk ausgegebene prädiktive Steuergröße schrittweise einer menschlicheren Entscheidung nähern, wodurch das Entscheidungsmodell eine bessere Entscheidungsfähigkeit aufweist, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.
5. Beim Training des Vorhersagenetzwerks werden die Erfahrungsdaten, die die voreingestellten Bedingungen erfüllen, mit einer voreingestellten Häufigkeit aus dem Erfahrungspool ausgewählt und dem Trainingsprobensatz des Zielnetzwerks hinzugefügt, und die Parameter des Zielnetzwerks werden aktualisiert, wodurch das Entscheidungsmodell eine bessere Planungseffizienz aufweist, was eine der Neuerungen der Ausführungsbeispiele dieser Beschreibung ist.

Figurenliste
Um die technischen Lösungen in den Ausführungsbeispielen der vorliegenden Beschreibung oder im Stand der Technik deutlicher zu beschreiben, werden im Folgenden die beigefügten Zeichnungen, die zum Beschreiben der Ausführungsbeispielen oder des Standes der Technik erforderlich sind, kurz vorgestellt. Offensichtlich sind die Zeichnungen in der folgenden Beschreibung einige Ausführungsbeispiele der vorliegenden Erfindung. Für Fachleute auf dem Gebiet können auch andere Zeichnungen basierend auf diesen Zeichnungen ohne jegliche kreative Arbeit erhalten werden.

1 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
2 zeigt ein schematisches Flussdiagramm, das einen Prozess zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
3 zeigt ein schematisches Prinzipdiagramm ist, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
4 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
5 zeigt ein schematisches Prinzipdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
6 zeigt ein schematisches Strukturdiagramm ist, das eine Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
7 zeigt ein schematisches Strukturdiagramm ist, das ein Modul zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt;
8 zeigt ein schematisches Strukturdiagramm ist, das eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt.

AUSFÜHRLICHE BESCHREIBUNG
Die technischen Lösungen in den Ausführungsbeispielen bei der Beschreibung werden nachfolgend mit den beigefügten Figuren in den Ausführungsbeispielen bei der Beschreibung übersichtlich und vollständig beschrieben. Offensichtlich ist die beschriebenen Ausführungsbeispiele nur ein Teil und nicht aller der Ausführungsbeispiele der Erfindung. Alle anderen Ausführungsbeispiele, die von einem Fachmann auf diesem Gebiet basierend auf den Ausführungsbeispielen der vorliegenden Erfindung ohne kreative Anstrengungen erhalten werden, sollen in den Schutzumfang der vorliegenden Erfindung fallen.
Es ist zu beachten, dass die Begriffe „umfassen“ und „aufweisen“ und jegliche Variationen davon, wie sie in den Ausführungsbeispielen und den Figuren der vorliegenden Beschreibung verwendet werden, eine nicht ausschließende Inklusion abdecken sollen. Ein Prozess, Verfahren, System, Produkt oder Gerät, das zum Beispiel eine Reihe von Schritten oder Einheiten umfasst, ist nicht auf die aufgelisteten Schritte oder Einheiten beschränkt, sondern umfasst optional auch nicht aufgelistete Schritte oder Einheiten oder optional weitere Schritte oder Einheiten, die solch einem Prozess, Verfahren, Produkt oder Gerät inhärent sind.
Ausführungsbeispiele der vorliegende Beschreibung offenbaren ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, ein Verfahren und eine Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, die in den folgenden Ausführungsbeispielen ausführlich beschrieben werden.
Mit Bezug auf 1 ist ein schematisches Flussdiagramm gezeigt, das ein Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst insbesondere die folgenden Schritte:

S110: einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs wird erfasst, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst.

Beim Spurwechsel unbemannter Fahrzeuge muss das Entscheidungssystem die externe Umgebung basierend auf den vom Wahrnehmungssystem eingegebenen Informationen verstehen, und entsprechend dem Eingabezustand wird die nächste Aktion des unbemannten Fahrzeugs erhalten. Das tiefe neuronale Netzwerk basierend auf Verstärkungslemen muss die Beziehung zwischen der Zustandsgröße und der Steuergröße lernen, wodurch der entsprechende Trainingsprobensatz erhalten wird, so dass das tiefe neuronale Netzwerk die entsprechende Steuergröße gemäß der Zustandsgröße erhalten kann, wobei der Trainingsprobensatz durch mindestens eine der Weisen erhalten wird:

erste Erfassungsweise:
- im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden.

Die erste Erfassungsweise basiert auf regulären Optimierungsalgorithmen, und im Simulator wird das Fahrzeug nach dem Optimierungsalgorithmus für mehrere sanfte Spurwechsel simuliert, wodurch die Zustandsgrößen bei jedem Zeitschritt und die entsprechende Steuergröße während des Spurwechsels ermittelt werden, so dass das neuronale Netzwerk veranlasst wird, die Korrespondenz zwischen der Zustandsgröße und der entsprechenden Steuergröße zu lernen, wobei der Optimierungsalgorithmus ein gemischt ganzzahliger quadratischer Planung-MIQP-Algorithmus sein.
Zweite Erfassungsweise:

die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.

Die zweite Erfassungsweise besteht darin, die für den Trainingsprobensatz benötigten Daten aus der Datenbank zu erhalten, so dass das tiefe neuronale Netzwerk über Training auf der Grundlage des Trainingsprobensatzes einen Grad der Fähigkeit zum Produzieren von menschlichen Entscheidungen aufweist.
S120: das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell wird durch denTrainingsprobensatz trainiert, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
In einem Ausführungsbeispiel ist es vorgesehen, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst;

2 zeigt ein schematisches Flussdiagramm, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß dem vorliegenden Ausführungsbeispiel darstellt. Der Trainingsschritt für das Spurwechsel-Entscheidungsmodell umfasst insbesondere:
S210: für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten.

Das Vorhersagenetzwerk kann die Steuergröße, die das unbemannte Fahrzeug beim nächsten Zeitschritt nehmen sollte, aus der Zustandsgröße beim aktuellen Zeitschritt vorhersagen, und das Zielnetzwerk erhält den entsprechenden Wertbewertungs-Q-Wert durch die eingegebene Zustandsgröße und der Steuergröße, wobei der Wertbewertungs-Q-Wert verwendet wird, um die Überlegenheit und Unterlegenheit einer Strategie entsprechend der Zustandsgröße und der Steuergröße zu charakterisieren.
Daher wird die Zustandsgröße unter dem aktuellen Zeitschritt in dem Trainingsprobensatz in das Vorhersagenetzwerk eingegeben, und die Vorhersagesteuergröße unter dem nächsten Zeitschritt, die durch das Vorhersagenetzwerk ausgegeben wird, wird erhalten, wobei Zustandsgröße und entsprechende Steuergrößen bei einem nächsten Zeitschritt der Zustandsgröße im Trainingsprobensatz in das Zielnetzwerk eingegeben werden, um eine Wertschätzung für eine entsprechende Strategie zu erhalten, wodurch die Differenz der Steuergrößen gemäß verschiedenen Strategien bei einem nächsten Zeitschritt verglichen werden kann.
S220: die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten.
Der Wertbewertungs-Q-Wert der prädiktiven Steuergröße, die von dem Vorhersagenetzwerk ausgegeben wird, wird berechnet, die prädiktive Steuergröße muss ausgeführt werden und die Feedback-Umgebungsbelohnung wird von der Umgebung erhalten, wobei die Durchführung der Simulation der prädiktiven Steuergröße durch einen vorab konstruierten Umgebungssimulator erfolgt, wodurch ein Ausführungsergebnis der prädiktiven Steuergröße und eine Umgebungsbelohnung erhalten werden, wodurch die prädiktive Steuergröße bewertet wird, und dann wird die Verlustfunktion konstruiert, um das Vorhersagenetzwerk zu aktualisieren.
S230: die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert.
Der prädiktive Steuergröße und die entsprechenden Umgebungsbelohnung und die Zustandsgröße des nächsten Zeitschritts werden im Erfahrungspool gespeichert. Einerseits werden mehr verfügbare Daten des Fahrzeugspurwechsels gewonnen und zweitens ist es von Vorteil, die Parameter des Zielnetzwerks basierend auf den Erfahrungsdaten zu aktualisieren, um eine vernünftigere Wertschätzung der Steuerungsstrategie zu erhalten, so dass es ermöglicht wird, dass das trainierte Entscheidungsmodell menschlichere Entscheidungen trifft.
S240: wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
Der Q-Wert, der die Wertbewertung der prädiktiven Steuergröße charakterisiert, wird gemäß der durch die prädiktive Steuergröße erhaltenen Umgebungsbelohnung berechnet, wobei die Verlustfunktion gemäß dem Wertbewertungs-Q-Wert mehrerer prädiktiver Steuergrößen und dem Wertbewertungs-Q-Wert entsprechend dem Trainingsprobe unter dem entsprechenden Zeitschritt konstruiert wird, wobei die Verlustfunktion die Abweichung einer Strategie, die durch ein aktuelles Vorhersagenetzwerk gelernt wird, von einer Zielstrategie in einer Trainingsprobe darstellt, wobei die Verlustfunktion durch ein stochastisches Gradientenabstiegsverfahren optimiert wird, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, wodurch der Parameter des Vorhersagenetzwerks aktualisiert wird, und die Parameteraktualisierung wird fortgesetzt, bis die Verlustfunktion konvergiert wird, wodurch Differenzen von Strategie des Vorhersagenetzwerks zu Zielstrategien allmählich reduziert werden, so dass das Entscheidungsmodell vernünftigere und menschlichere Entscheidungssteuergrößen ausgeben kann.
In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und iterativ optimiert wird, wodurch die aktualisierten Parameter des Vorhersagenetzwerks erhalten wird, umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
Durch Aktualisieren der Zielnetzwerkparameter ist das Entscheidungsmodell online optimierbar, so dass das Entscheidungsmodell mit einer besseren Planungseffizienz geschaffen wird und eine robustere Wirkung erzielt.
In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass das Trainingsverfahren durch Konstruieren einer Verlustfunktion die Parameter des Vorhersagenetzwerks optimiert, sodass das Vorhersagenetzwerk eine bessere Strategie zum Lösen eines komplexen Problems bei einem Fahrzeugspurwechsel findet, womit die regelbasierte Strategie die räumliche Suche des lernbasierten neuronalen Netzwerkes von der Zustandsgröße zur Steuergröße führt, wodurch der planungsbasierte Optimierungsalgorithmus in den Rahmen des Verstärkungslernens eingebunden wird, was die Planungseffizienz des Vorhersagenetzwerks verbessert, und erhöht die Stabilität des Modells.
3 zeigt ein schematisches Prinzipdiagramm ist, das einen Trainingsprozess eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Wie in 3 gezeigt, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße s in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße a des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße s' des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße a' werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q^T-Wert der Ausgabe des Zielnetzwerks wird erhalten; die prädiktive Steuergröße a wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung r, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße sl zum nächsten Zeitschritt zu erhalten; die Zustandsgröße s, die entsprechende prädiktive Steuergröße a, die Umgebungsbelohnung r und die Zustandsgröße s1 zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert; wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q^T-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und iterativ optimiert, um die Parameter des aktualisierten Vorhersagenetzwerks bis zur Konvergenz zu erhalten.
In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass die Strategieoptimierung des lernbasierten neuronalen Netzwerkes durch die regelbasierte Strategie im Zielnetzwerk geleitet wird und der planungsbasierte Optimierungsalgorithmus in das Rahmenwerk des Verstärkungslernens eingebunden wird. Dies behält nicht nur den Vorteil, dass das neuronale Netzwerk direkt Sensordateneingaben empfangen kann, sondern verbessert auch die Planungseffizienz des Vorhersagenetzes, und wobei die Einbeziehung aufgrund der Planungsstrategie die Stabilität des Modells erhöht.
4 zeigt ein schematisches Flussdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Der Schritt des Verfahrens zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs umfasst:

S310: die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen.

Die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur werden erfassen, und gemäß den Daten wird die Steuergröße erhalten, den das Zielfahrzeug ausführen muss, um einen Spurwechsel zu erzielen.
S320: das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt. S330: die Steuergröße wird zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt, so dass das Zielfahrzeug den Spurwechsel durchführt.
Ab dem anfänglichen Moment des Spurwechsels wird das Spurwechsel-Entscheidungsmodell aufgerufen, um die bei jedem Zeitschritt des Zielfahrzeugs erhaltene Zustandsgröße zu berechnen, und die entsprechende Steuergröße wird erhalten, so dass das Zielfahrzeug einen sanften Spurwechsel gemäß den entsprechenden Steuergrößen durchführen kann.
In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass die von dem Zielfahrzeug-Karosseriesensor erhaltenen Sensordaten direkt in das Spurwechsel-Entscheidungsmodell eingegeben werden, das gemäß dem Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells trainiert wurde, wobei entsprechende Steuergrößen abgeleitet werden, die das Entscheidungsmodul zu den entsprechenden Zeitpunkten ausgibt, wodurch das Zielfahrzeug reibungslos die Spur wechseln kann, und das Entscheidungsmodell kann die Eingaben des Sensors direkt empfangen und hat eine bessere Planungseffizienz.
5 zeigt ein schematisches Prinzipdiagramm ist, das ein Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Wie in 5 gezeigt, werden die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfassen; das Spurwechsel-Entscheidungsmodell wird aufgerufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird; die Steuergröße wird zu jedem Zeitpunkt ausgeführt, so dass das Zielfahrzeug den Spurwechsel durchführt.
In dem vorliegenden Ausführungsbeispiel ist es vorgesehen, dass das durch das Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells trainierte Spurwechsel-Entscheidungsmodell direkt die Sensordateneingabe, die in dem Zielfahrzeug-Karosseriesensor erhalten wird, empfangen kann und die entsprechende Steuergröße zu dem entsprechenden Zeitpunkt ausgeben kann, so dass das Zielfahrzeug reibungslos die Spur wechselt. Das Spurwechselentscheidungsverfahren realisiert, dass die Sensordaten als direkte Eingabe des Entscheidungsmodells verwendet werden, und bewirkt, dass das unbemannte Fahrzeug den Spurwechsel gemäß der menschlichen Entscheidung reibungslos durchführt.
Entsprechend dem vorstehend erwähnten Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells und einem Verfahren zur Entscheidung für einen Spurwechsel eines unbemannten Fahrzeugs, stellt diese Beschreibung auch Ausführungsbeispiele einer Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells und einer Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs bereit, wobei Ausführungsbeispiele der Vorrichtung in Software oder in einer Kombination von Hardware und Software implementiert werden können. Zum Beispiel wird eine Software-Implementierung als eine logische Vorrichtung gebildet, indem die entsprechenden Computerprogrammanweisungen aus dem nichtflüchtigen Speicher in den RAM durch den Prozessor des Geräts, in dem die Vorrichtung sich befindet, eingelesen und durchgeführt werden. Aus der Sicht der Hardware kann eine Hardwarestruktur des Geräts, in dem sich in dieser Beschreibung die Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells und die Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs befinden, einen Prozessor, eine Netzwerkschnittstelle, einen RAM und eine Nicht- -flüchtiger Speicher und kann auch andere Hardware enthalten, die hier nicht weiter beschrieben werden.
6 ist ein schematisches Strukturdiagramm, das eine Vorrichtung 400 zum Erzeugen eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Eine Vorrichtung 400 zum Erzeugen eines Spurwechsel-Entscheidungsmodells umfasst:

ein Probenerfassungsmodul 410, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst;
ein Modelltrainingsmodul 420, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.

In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass das Probenerfassungsmodul 410 einen Trainingsprobensatz durch zumindest eine der Folgenden Weisen erhält:

7 zeigt ein schematisches Strukturdiagramm ist, das ein Modul zum Trainieren eines Spurwechsel-Entscheidungsmodells gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell umfasst ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk, wobei das Modelltrainingsmodul 420 umfasst:

eine Probeneingabeeinheit 402, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten;
eine Belohnungserzeugungseinheit 404, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten;
eine Erfahrungsspeichereinheit 406, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit 408, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Parameteraktualisierungseinheit 408 ferner so konfiguriert ist, dass
wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
In einem spezifischen Ausführungsbeispiel ist es vorgesehen, dass die Verlustfunktionen der Parameteraktualisierungseinheit dadurch gekennzeichnet ist, dass, es umfasst: die Verlustfunktion stellt einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks dar, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Parameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Parameter des Zielnetzwerks bezieht.

8 ist ein schematisches Strukturdiagramm, das eine Vorrichtung 500 zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs gemäß einem Ausführungsbeispiel der vorliegenden Beschreibung darstellt. Die Vorrichtung 500 zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs umfasst insbesondere folgende Module:

ein Datenerfassungsmodul 510, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen;
ein Steuergrößen-Erzeugungsmodul 520, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt;
ein Steuergrößenausgabemodul 530, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktor zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.

Einzelheiten zum Implementierungsprozess der Funktionen und Rollen jeder Einheit in der oben genannten Vorrichtung sind im Implementierungsprozess der entsprechenden Schritte im oben genannten Verfahren beschrieben. Einzelheiten werden hierin nicht erneut beschrieben.
Zusammenfassend wird das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den erhaltenen Trainingsprobensatz trainiert, wobei durch Konstruieren einer Verlustfunktion die Parameter des Vorhersagenetzwerks optimiert wird, sodass das Vorhersagenetzwerk eine bessere Strategie zum Lösen eines komplexen Problems bei einem Fahrzeugspurwechsel findet, so dass die Strategie des Vorhersagenetzwerks kontinuierlich an die Strategie der Trainingsprobendaten annähern wird. Das Entscheidungsmodell dazu fähig ist, Zustandsgrößen des Zielfahrzeugs mit entsprechenden Steuerbeträgen zu verknüpfen, und kann im Vergleich zu herkömmlichen Offline-Optimierungsalgorithmen direkt Sensoreingaben empfangen und weist eine gute Online-Planungseffizienz auf, was die Entscheidungsschwierigkeiten löst, die durch komplexe Sensoren und Umweltunsicherheit im Stand der Technik verursacht werden; und es weist im Vergleich zu reinen tiefen neuronalen Netzwerken eine bessere Lerneffizienz auf und erhöht die Anpassungsfähigkeit an spezifische Anwendungsszenarien.
Der Durchschnittsfachmann in diesem Gebiet kann verstehen, dass die beigefügten Figuren lediglich eine schematische Darstellung eines Ausführungsbeispiels sind, wobei die Blöcke oder Abläufe in den Figuren nicht notwendigerweise für die Verwirklichung der vorliegenden Erfindung erforderlich sind.
Der Durchschnittsfachmann in diesem Gebiet kann verstehen, dass die Module in den Vorrichtungen in dem Ausführungsbeispiel können auf Vorrichtungen des Ausführungsbeispiels wie in dem Ausführungsbeispiel beschrieben verteilt sein, und die entsprechenden Variationen können in einer oder mehreren Vorrichtungen durchgeführt werden, die sich von dem vorliegenden Ausführungsbeispiel unterscheiden. Die Module des oben beschriebenen Ausführungsbeispiels können zu einem Modul kombiniert werden oder weiter in mehrere Untermodule aufgeteilt werden.
Schließlich sollte festgestellt werden, dass die vorstehenden Ausführungsbeispiele lediglich zur Erläuterung der technischen Lösungen des vorliegenden Gebrauchsmusters und nicht als Einschränkungen gedacht sind; wobei obwohl die detaillierte Beschreibung der vorliegenden Erfindung unter Bezugnahme auf die vorhergehenden Ausführungsbeispiele erfolgt ist, ist es für den Durchschnittsfachmann auf diesem Gebiet verständlich, dass die in den vorstehenden Ausführungsbeispielen beschriebenen technischen Lösungen noch modifiziert werden können, oder einige der technischen Merkmale äquivalent ersetzt werden können; diese Modifikationen und Änderungen sind jedoch nicht dazu gedacht, die Essenz der entsprechenden technischen Lösungen vom Geist und Umfang der technische Lösungen der jeweiligen Ausführungsbeispiele der vorliegenden Erfindung abzuweichen.

Claims

Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, umfassend folgende Schritte: Erfassen eines Satzes von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, wobei jede Trainingsprobengruppe Trainingsproben zu jedem Zeitschritt umfasst, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; wobei das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
Verfahren nach Anspruch 1, wobei der Trainingsprobensatz durch mindestens eine der Weisen erhalten wird: erste Erfassungsweise: im Simulator kann das Fahrzeug nach dem regelbasierten Optimierungsalgorithmus den Spurwechsel vollziehen, wobei bei mehreren Spurwechseln zu jedem Zeitschritt die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur erfasst werden; zweite Erfassungsweise: die Fahrzeugdaten während eines Spurwechsels des Fahrzeugs werden aus einer Datenbank abgetastet, in der die Information über einen Spurwechsel des Fahrzeugs gespeichert wird, wobei die Fahrzeugdaten die Zustandsgrößen und entsprechende Steuergrößen des Zielfahrzeugs und des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur zu jedem Zeitschritt umfassen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei der schritt, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz trainiert wird, um das Spurwechsel-Entscheidungsmodell zu erhalten, umfasst: für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, wird jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks verwendet, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten; die prädiktive Steuergröße wird als Eingabe des vorgefertigten Umgebungssimulators verwendet, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten; die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt werden als ein Satz von Erfahrungsdaten im Erfahrungspool gespeichert; wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, wird die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, berechnet und optimiert, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass es nach dem Schritt, dass wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den Erfahrungsdaten berechnet und optimiert wird, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird, umfasst: wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Verlustfunktion einen mittleren quadratischen Fehler zwischen dem Wertbewertungs-Q-Wert der ersten voreingestellten Anzahl von voreingestellten Netzwerken und dem Wertbewertungs-Q-Wert des Zielnetzwerks darstellt, wobei sich der Wertbewertungs-Q-Wert des voreingestellten Netzwerks auf die Eingangszustandsgröße, die entsprechende prädiktive Steuergröße und den Strategieparameter des Vorhersagenetzwerks bezieht; wobei der Wertbewertungs-Q-Wert des Zielnetzes sich auf die Zustandsgröße im Eingabetrainingsprobe, die entsprechende Steuergröße und den Strategieparameter des Zielnetzwerks bezieht.
Verfahren zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, umfassend: die Sensordaten werden vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels erfasst, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen; das Spurwechsel-Entscheidungsmodell wird aufgerufen, und durch das Spurwechsel-Entscheidungsmodell wird die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt des Spurwechselprozesses erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt; wobei die Steuergröße zu jedem Zeitpunkt während des Spurwechsels an den Aktor übermittelt wird, so dass das Zielfahrzeug den Spurwechsel durchführt.
Vorrichtung zum Erzeugen eines Spurwechsel-Entscheidungsmodells, umfassend: ein Probenerfassungsmodul, das konfiguriert ist, um einen Satz von Trainingsprobensatz für einen Spurwechsel des Fahrzeugs zu erfassen, wobei der Trainingsprobensatz eine Vielzahl von Trainingsprobengruppen umfasst, jede Trainingsprobengruppe umfasst Trainingsproben zu jedem Zeitschritt, wenn das Fahrzeug den Spurwechsel gemäß der geplanten Spurwechseltrajektorie durchführt, wobei die Trainingsproben einen Satz von Zustandsgrößen und entsprechende Steuergrößen umfassen, wobei die Zustandsgröße eine Raumlage, eine Geschwindigkeit, eine Beschleunigung des Zielfahrzeugs, die Raumlage, die Geschwindigkeit, die Beschleunigung eines vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und die Raumlage, die Geschwindigkeit, die Beschleunigung eines nachfolgenden Fahrzeugs auf der Zielspur umfasst; wobei die Steuergröße eine Geschwindigkeit und eine Winkelgeschwindigkeit des Zielfahrzeugs umfasst; ein Modelltrainingsmodul, das konfiguriert ist, um das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell durch den Trainingsprobensatz zu trainieren, um das Spurwechsel-Entscheidungsmodell zu erhalten, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt.
Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass das auf dem tiefen intensiven Lernnetzwerk basierende Entscheidungsmodell ein auf Lernen basierendes Vorhersagenetzwerk und ein vortrainiertes regelbasiertes Zielnetzwerk umfasst, wobei das Modelltrainingsmodul umfasst: eine Probeneingabeeinheit, welche konfiguriert ist, für den Trainingsprobensatz, der dem Erfahrungspool vorab hinzugefügt wurde, jede Zustandsgröße in jeder Gruppe von Trainingsproben als Eingabe des Vorhersagenetzwerks zu verwenden, um die prädiktive Steuergröße des nächsten Zeitschritts der Zustandsgröße durch das Vorhersagenetzwerk zu erhalten; die Zustandsgröße des nächsten Zeitschritts der Zustandsgröße in der Trainingsprobe und die entsprechende Steuergröße werden als Eingabe des Zielnetzwerks verwendet und der Wertbewertungs-Q-Wert der Ausgabe des Zielnetzwerks wird erhalten; eine Belohnungserzeugungseinheit, die konfiguriert ist, um die prädiktive Steuergröße als Eingabe des vorgefertigten Umgebungssimulators zu verwenden, um die Umgebungsbelohnung, die vom Umgebungssimulator ausgegeben ist, und die Zustandsgröße zum nächsten Zeitschritt zu erhalten; eine Erfahrungsspeichereinheit, die konfiguriert ist, um die Zustandsgröße, die entsprechende prädiktive Steuergröße, die Umgebungsbelohnung und die Zustandsgröße zum nächsten Zeitschritt als ein Satz von Erfahrungsdaten im Erfahrungspool zu speichern; eine Parameteraktualisierungseinheit, die konfiguriert ist, um, wenn die Anzahl der Gruppen von Erfahrungsdaten die erste voreingestellte Anzahl erreicht, die Verlustfunktion gemäß den mehreren Gruppen von Erfahrungsdaten und dem Q-Wert, der von dem Zielnetzwerk entsprechend jeder Gruppe von Erfahrungsdaten ausgegeben wird, zu berechnen und optimieren, wodurch der Gradient der Parameteränderung des Vorhersagenetzwerks erhalten wird, und der Parameter des Vorhersagenetzwerks wird aktualisiert, bis die Verlustfunktion konvergiert wird.
Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass die Parameteraktualisierungseinheit ferner so konfiguriert ist, dass wenn die Anzahl der Aktualisierungen der Parameter des Vorhersagenetzwerks die zweite voreingestellte Zahl erreicht, werden die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die höher als der voreingestellte Wert im Erfahrungspool ist, erhalten, oder die prädiktive Steuergröße und die entsprechende Zustandsgröße mit einer Umgebungsbelohnung, die im oberen Drittel der voreingestellten Zahl im Erfahrungspool ist, werden erhalten, wobei die prädiktive Steuergröße und die entsprechende Zustandsgröße zu einem Satz von Zielnetzwerk-Trainingsproben für das Zielnetzwerk hinzugefügt werden, um die Parameter des Zielnetzwerks zu trainieren und zu aktualisieren.
Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs, umfassend: ein Datenerfassungsmodul, das konfiguriert ist, um die Sensordaten vom Karosseriesensor des Zielfahrzeugs zu dem bestimmten Zeitpunkt des Spurwechsels zu erfassen, wobei die Sensordaten die Raumlagen, Geschwindigkeiten, Beschleunigungen des Zielfahrzeugs, des vorausfahrenden Fahrzeugs auf der eigenen Spur des Zielfahrzeugs und des nachfolgenden Fahrzeugs auf der Zielspur umfassen; ein Steuergrößen-Erzeugungsmodul, das dafür konfiguriert ist, ein Spurwechsel-Entscheidungsmodell aufzurufen, wobei die Steuergröße des Zielfahrzeugs zu jedem Zeitpunkt während des Spurwechsels durch das Spurwechsel-Entscheidungsmodell erhalten wird, wobei das Spurwechsel-Entscheidungsmodell die Zustandsgröße des Zielfahrzeugs mit der entsprechenden Steuergröße in Beziehung setzt; ein Steuergrößenausgabemodul, das dafür konfiguriert ist, die Steuergrößen zu jedem Zeitpunkt während des Spurwechsels an den Aktuator zu senden, so dass das Zielfahrzeug den Spurwechsel durchführt.