-
Die vorliegende Erfindung betrifft allgemein das Gebiet neuronaler Netze, insbesondere neuronale Netze mit zahlreichen Zwischenschichten. Konkreter betrifft die Erfindung ein Verfahren und ein System zum Vorhersagen von Trajektorien basierend auf ersten Eingangsinformationen, z. B. zeitabhängigen Sensorinformationen, und zweiten Eingangsinformationen, bei denen es sich um regel- oder wissensbasierte Informationen (z. B. Regelwerk, Wissensgraphen usw.) handelt.
-
Die Trajektorienvorhersage spielt sowohl für höher entwickelte Fahrerassistenzsysteme (engl. Advanced Driver Assistance Systems - ADAS) als auch für Systeme für automatisiertes Fahren (engl. Systems for Automated Driving - AD-Systeme) eine wichtige Rolle. Die Trajektorienvorhersage ist zum Planen eines Manövers für ein Eigenfahrzeug in einer Situation mit weiteren Verkehrsteilnehmern unerlässlich. Neuronale Netze mit zahlreichen Zwischenschichten haben sich für die Trajektorienvorhersage als zweckdienlich erwiesen.
-
Shun Feng Su und Sou-Horng Li zeigen in „Neural Network Based Fusion of Global and Local Information in Predicting Time Series“, IEEE International Conference on Systems, Man and Cybernetics 2003, Bd. 5, 5. Okt. 2003, Seiten 4445-4450 - XP010668646, ISBN 978-0-7803-7952-7, dass neuronale Netze als globale Vorhersagestrukturen eingesetzt werden können und ein Fourier Gray Model (FGM) als lokale Vorhersagestruktur eingesetzt wird. Das FGM-Ergebnis kann als weitere Eingabe in das neuronale Netz aufgenommen werden. Das Gewicht für das FGM-Ergebnis kann so gewählt werden, dass es der Bedeutung der lokalen Vorhersage in Bezug auf die ursprüngliche Eingabe für das neuronale Netz entspricht.
-
Die Forschung zu Deep Learning hat gezeigt, dass neuronale Netze, insbesondere neuronale Netze mit zahlreichen Zwischenschichten, eine erhebliche Anzahl an Trainingsbeispielen zum Training benötigen, um akzeptable Vorhersageergebnisse zu erzielen. Daher sind Trainingsdaten in gewerblichen Anwendungen ein wertvolles Gut und häufig nicht in dem Maß, das zum Erhalt vielversprechender Ergebnisse nötig ist, verfügbar.
-
Als Ausgangspunkt zum Finden besserer Vorhersageverfahren dient die Schlussfolgerung, dass Prädiktoren dahingehend weiterentwickelt werden müssen, dass sie mit weniger Trainingsbeispielen arbeiten oder ein Einbeziehen von Vorhersagen erlauben, die bereits durch einen anderen Prädiktor (z. B. einen Expertensystem-Prädiktor) getroffen wurden. Das Vorhersagen von Trajektorien ist ein prominentes Beispiel für das Vorhersagen von Zeitreihendaten.
-
Neuronale Netze erfordern eine numerische Darstellung von Daten. Es existieren jedoch noch andere Wissensdarstellungen (z. B. regelbasierte Systeme, Wissensgraphen usw.), die ein Vorhersagen von Situationen oder Werten basierend auf einer symbolhaften Datendarstellung erlauben. Den Vorhersageansätzen aktueller neuronaler Netze mangelt es häufig an Möglichkeiten zum Einbeziehen wissensgesteuerter oder regelbasierter Prädiktoren.
-
Es werden nun mehrere Überlegungen bezüglich einer Optimierung der Trajektorienplanung vorgestellt:
- 1. Neuronale Netze erfordern eine numerische Darstellung von Daten. Für herkömmliche Trajektorienvorhersageansätze sind dies normalerweise Bilddaten und/oder Trajektoriendaten (z. B. Funktionen oder reine Zahlen). Es existieren jedoch noch andere Wissensdarstellungen (z. B. regelbasierte Systeme, Wissensgraphen), die ein Vorhersagen von Situationen oder Werten basierend auf einer symbolhaften Datendarstellung erlauben. Den (Trajektorien-)Vorhersageansätzen aktueller neuronaler Netze mangelt es häufig an Möglichkeiten oder Flexibilität zum Einbeziehen wissensgesteuerter (z. B. regelbasierter) Prädiktoren.
- 2. Die Forschung zu Deep Learning hat gezeigt, dass neuronale Netze (mit zahlreichen Zwischenschichten) eine erhebliche Anzahl an Trainingsbeispielen benötigen, um Ergebnisse zu erzielen, die dem Stand der Technik genügen. Für das Trajektorienvorhersagetraining sind mittlerweile Daten verfügbar, jedoch nicht genügend für sehr spezifische Szenarien. Sehr spezifische und seltene Verkehrsszenarien müssen aber in geeigneter Weise gelöst werden, um Unfälle oder gefährliche Szenen zu vermeiden. Infolgedessen müssen Prädiktoren dahingehend weiterentwickelt werden, dass sie mit weniger Trainingsbeispielen arbeiten oder ein Einbeziehen von Vorhersagen, die bereits von einem anderen Prädiktor (z. B. Bewegungsmodell) getroffen wurden, erlauben. Leider wurden diese Forschungsrichtungen vernachlässigt und daher können viele Vorhersagesysteme des Standes der Technik noch immer nicht für alle gewerblichen Anwendungen verwendet werden.
- 3. Viele Trajektorienvorhersagesysteme berücksichtigen verschiedene Informationsquellen (z. B. visuelle Daten, Trajektoriendaten usw.). Außerdem beziehen Arbeiten häufig mehrere Vorhersagesysteme oder andere Expertensysteme (z. B. Wissensgraphen mit Verkehrsregeln) in ihre Architektur ein. Da die Ausgabe von Experten-/Trajektorienvorhersagesystemen sich von System zu System unterscheidet, muss das Trajektorienprädiktornetz, das die Hauptrolle übernimmt, gemäß den anderen Netzen angepasst werden. Auf aktuellen neuronalen Netzen basierende Ansätze sind typischerweise nicht agnostisch gegenüber den verfügbaren Experten-/Trajektoriensystemen. Daher muss der Hauptprädiktor mit den einbezogenen Systemen auf eine Linie gebracht werden und seine Architektur muss evaluiert und letztlich überarbeitet werden.
- 4. Das Einbeziehen mehrerer Trajektorienvorhersagemodelle auf der Vorhersageebene durch die Verwendung von Ensembleverfahren wie Bagging oder Boosting ist gut bekannt, erlaubt es aber dem Trajektorienprädiktornetz, das die Hauptrolle übernimmt, nicht, Stärken anderer Modelle direkt auszunutzen. Stattdessen werden die Vorhersagen für jedes Modell separat berechnet und im Nachhinein kombiniert/integriert. Da jedes der Modelle in dem Ensemble isoliert arbeitet, leisten sie keinen Beitrag zur parametrischen Optimierung anderer Netze und infolgedessen können Netze in dem Ensemble sich Stärken oder Informationen, die in anderen Netzen enthalten sind, nicht zunutze machen.
-
Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zur Trajektorienvorhersage zur Manöverplanung, das ein Teilen von Wissen verwendet. Es werden vergangene Zeitwerte der gewünschten Variablen verwendet und mit zusätzlichen Informationen, die aus durch andere Trajektorienvorhersagesysteme getroffenen Vorhersagen extrahiert wurden, kombiniert, um Vorhersagen zukünftiger Werte der Zielvariablen zu erstellen. Diese Erfindung erlaubt es, mehrere Trajektorienvorhersagesysteme oder wissens- und datengesteuerte Techniken zu kombinieren. Dadurch kann sie die Genauigkeit erheblich verbessern und macht das/die zugrundeliegende(n) neuronale(n) Netz(e) weniger abhängig von Daten.
-
Im Allgemeinen lernen neuronale Netze Merkmale aus den Daten, die beim Erstellen von Vorhersagen für die Aufgabe, zu deren Lösung sie trainiert werden, hilfreich sind.
-
Gemäß einem Aspekt der Erfindung wird ein Trajektorienvorhersagesystem, das auf neuronalen Netzen basiert, dazu befähigt, Wissen aus anderen Modalitäten neben den Daten zu verwenden, und zwar durch Fusionieren von Informationen in (einen) latente(n) Raum/Räume des zugrundeliegenden neuronalen Hauptnetzes. Dies befähigt das Trajektorienvorhersagesystem dazu, basierend auf in der Experten- und der Datendomäne enthaltenen Informationen eine Transferfunktion zu lernen. Im Folgenden wird/werden das/die Expertensystem(e) als Beispiel für (eine) zusätzliche (wissensbasierte) Quelle(n) für die Trajektorienvorhersage herangezogen.
-
Den Ausführungsformen der Erfindung liegt die Aufgabe zugrunde, ein Verfahren für Vorhersagetrajektorien bereitzustellen, das auf einem neuronalen Netz basiert, das datengesteuerte und regel- oder wissensgesteuerte Informationen als Eingaben verwendet und Vorhersagen von Trajektorieninformationen bereitstellt, indem es sowohl datengesteuerte als auch wissensgesteuerte Informationen verwendet, um die Trainingsdatenanforderungen abzusenken und/oder - in Fällen, wo reichlich Daten verfügbar sind - verbesserte Vorhersagen bereitzustellen, da es Daten aus der Wissens- sowie der Datendomäne kombiniert. Die Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen angegeben. Wenn nicht ausdrücklich anders angegeben, können Ausführungsformen der Erfindung beliebig miteinander kombiniert werden.
-
Gemäß einem Aspekt betrifft die Erfindung ein Verfahren zum Vorhersagen von Trajektorien basierend auf einem neuronalen Hauptnetz. Das Verfahren umfasst die folgenden Schritte:
- Zuerst werden erste Eingangsinformationen empfangen. Die ersten Eingangsinformationen sind zeitabhängige numerische Informationen, beispielsweise Ausgangsinformationen eines Sensors. Konkreter können die ersten Eingangsinformationen durch einen Sensor eines höher entwickelten Fahrerassistenzsystems oder eines Erfassungssystems für automatisiertes Fahren, z. B. eines Radars, Lidars, eines Ultraschallsensors, Bildsensors oder einer Kamera, bereitgestellt werden. Die ersten Eingangsinformationen können Informationen bezüglich der Umgebung im Umfeld des Fahrzeugs, in dem der Sensor befindlich ist, umfassen. Die Sensordaten können Informationen über Positionen und die Bewegung des eigenen Fahrzeugs und weiterer Verkehrsteilnehmer umfassen. Trajektorien können im Zeitverlauf aus den Sensordaten extrahierbar sein.
-
Ferner werden zweite Eingangsinformationen empfangen, wobei die zweiten Eingangsinformationen regel- oder wissensbasierte Informationen sind. Die zweiten Eingangsinformationen können beispielsweise Trajektorienvorhersagen seitens eines Expertensystems sein. Die zweiten Eingangsinformationen werden den ersten Eingangsinformationen zugeordnet. Die zweiten Eingangsinformationen können beispielsweise Regeln oder zusätzliches Wissen, das den Kontext der ersten Eingangsinformationen betrifft, sein, werden aber durch eine andere Informationsquelle (z. B. Datenbank, Wissensgraph, anderes neuronales Netz usw.) bereitgestellt.
-
Die zweiten Eingangsinformationen werden unter Verwendung eines Autoencoders oder basierend auf einem Autoencoder verarbeitet. Der Autoencoder ist dazu ausgestaltet, die zweiten Eingangsinformationen zu codieren, indem er Merkmale aus den zweiten Eingangsinformationen extrahiert und dadurch codierte zweite Eingangsinformationen erhält. Die codierten zweiten Eingangsinformationen können verdichtete Informationen der zweiten Eingangsinformationen sein, d. h. sie umfassen noch immer die relevanten Informationen, aber redundante Informationen wurden entfernt.
-
Die zweiten Eingangsinformationen können numerisch oder nichtnumerisch dargestellt sein. Als Beispiel für nichtnumerische Informationen wird ein Wissensgraph herangezogen. Die grafisch codierten Informationen, die in einem Wissensgraphen enthalten sind, können durch ein mit Graphen arbeitendes neuronales Netz (engl. Graph Neural Network) in numerische Informationen übersetzt werden. Ein Graph kann beispielsweise mithilfe einer Adjazenzmatrix dargestellt werden.
Eine andere Möglichkeit besteht im Übersetzen der graphbasierten Informationen in Vektoren (vgl. Forschungsgebiet: Knowledge Representation Learning). Dies könnte durch eine erste Schicht des Autoencoders erfolgen. Folglich ist für die folgende(n) Schicht(en) des Autoencoders eine numerische Eingabe verfügbar.
-
Die codierten zweiten Eingangsinformationen werden einem Fusionsnetz bereitgestellt. Das Fusionsnetz stellt transformierte Informationen bereit, die durch Transformieren der codierten zweiten Eingangsinformationen gemäß den Eigenschaften des neuronalen Hauptnetzes erhalten werden. Unter Verwendung des Autoencoders und des Fusionsnetzes können die zweiten Eingangsinformationen derart transformiert werden, dass die Ausgabe des Fusionsnetzes, d. h. die transformierten Informationen, in dem gleichen Vektorraum liegen wie Merkmale, die in einem verdeckten Raum des neuronalen Hauptnetzes enthalten sind. Dadurch ist eine Fusion regel- oder wissensbasierter Informationen mit zeitaufgelösten Trajektoriendaten möglich.
-
Schließlich werden die ersten Eingangsinformationen und die transformierten Informationen dem neuronalen Hauptnetz bereitgestellt, wobei das neuronale Hauptnetz die ersten Eingangsinformationen und die transformierten Informationen fusioniert, um Trajektorienvorhersagen bereitzustellen, die auf den ersten Eingangsinformationen und den transformierten Informationen basieren.
-
Die erhaltenen Trajektorienvorhersagen können an ein ADAS oder ein AD-System ausgegeben werden, das unter Berücksichtigung der vorhergesagten Trajektorien eine Manöverplanung für das eigene Fahrzeug durchführen kann.
-
Das Verfahren ist vorteilhaft, weil eine Kombination unterschiedlicher Informationen aus unterschiedlichen Informationsquellen möglich ist und dadurch der Aufwand zum Bereitstellen ausreichender Trainingsdaten reduziert wird. Außerdem ist bei Verwendung des Autoencoders und des Fusionsnetzes eine Projektion zweiter Eingangsinformationen, konkret von Expertenvorhersagen, in die Domäne des neuronalen Hauptnetzes ohne Einschränkungen hinsichtlich der Modellarchitektur der Informationsquelle, welche die zweiten Eingangsinformationen bereitstellt, möglich.
-
Gemäß einer Ausführungsform umfasst der Autoencoder einen Encoderteil, der die zweiten Eingangsinformationen einem latenten Merkmalsraum mit niedrigerer Dimensionalität als die zweiten Eingangsinformationen zuordnet. Dadurch stellt der Autoencoder eine verdichtete Version der zweiten Eingangsinformationen bereit, die durch eine geringere Anzahl an Bits dargestellt werden kann. Der Autoencoder ist jedoch so trainiert, dass relevante Informationen noch immer in den codierten zweiten Eingangsinformationen enthalten sind, aber redundante Informationen entfernt werden.
-
Gemäß einer Ausführungsform passt das Fusionsnetz die Dimensionalität des Merkmalsvektors, der durch den Autoencoder bereitgestellt wird, an die Dimensionalität einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes an. Mit anderen Worten: Die codierten zweiten Eingangsinformationen werden durch das Fusionsnetz derart aufbereitet, dass die transformierten Informationen, die durch den Aufbereitungs- oder Transformationsschritt erhalten werden, direkt in eine verdeckte Schicht des neuronalen Hauptnetzes aufgenommen werden können, d. h. zu dem Vektorraum einer bestimmten verdeckten Schicht passen. Dadurch ist es möglich, die Gewichtungsfaktoren des neuronalen Hauptnetzes basierend auf beiden Informationen - den ersten Eingangsinformationen, bei denen es sich um zeitabhängige numerische Informationen handelt, und regel- oder wissensbasierten Experteninformationen/Expertenvorhersagen - zu trainieren.
-
Gemäß einer Ausführungsform umfasst der Schritt des Anpassens der Dimensionalität ein Transformieren wenigstens einer Dimension der Merkmalsvektoren, die durch den Autoencoder bereitgestellt werden, an wenigstens eine Dimension des Vektorraums der bestimmten verdeckten Schicht, sodass wenigstens eine Dimension der transformierten Informationen gleich wenigstens einer Dimension des Vektorraums der bestimmten verdeckten Schicht ist. Dadurch ist es möglich, transformierte Informationen, beispielsweise als eine weitere Reihe oder Spalte, der verdeckten Schicht des neuronalen Netzes hinzuzufügen.
-
Gemäß einer Ausführungsform projiziert das Fusionsnetz die codierten zweiten Eingangsinformationen, die durch den Autoencoder bereitgestellt werden, in einen latenten Teilraum, konkret einen Vektorraum, einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes. Dadurch werden die codierten zweiten Eingangsinformationen gemäß der Architektur des neuronalen Hauptnetzes transformiert, das durch die Natur der ersten Eingangsinformationen, die durch das neuronale Hauptnetz zu verarbeiten sind, vorgegeben sein kann.
-
Gemäß einer Ausführungsform werden die transformierten Informationen mit den Merkmalen, die in einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes enthalten sind, verkettet. Die Merkmale, die bereits in einer bestimmten verdeckten Schicht enthalten sind, werden nur durch die ersten Eingangsinformationen beeinflusst. Im Gegensatz dazu werden die transformierten Informationen durch die zweiten Eingangsinformationen beeinflusst. Nach der Verkettung wird der nächsten verdeckten Schicht ein Satz von Merkmalen bereitgestellt, der sowohl durch die ersten als auch die zweiten Informationen beeinflusst wird, und das neuronale Hauptnetz kann basierend auf beiden Informationen trainiert werden.
-
Gemäß einer Ausführungsform umfasst der Schritt des Verkettens der transformierten Informationen mit den Merkmalen einer bestimmten verdeckten Schicht ein Erhöhen der Dimensionalität des Vektorraums einer verdeckten Schicht. Der Verkettungsschritt kann beispielsweise ein Hinzufügen einer oder mehrerer Reihen oder Spalten zu dem Vektorraum der verdeckten Schicht umfassen. Dadurch kann eine Fusion datenbasierter und regel- oder wissensbasierter Informationen in einem einzigen neuronalen Netz erhalten werden.
-
Gemäß einer Ausführungsform wird die Dimensionalität derart erhöht, dass der Vektorraum der verdeckten Schicht, in den die transformierten Informationen projiziert werden, die Summe der Dimensionalität der Merkmale, die sich aus den ersten Eingangsinformationen ergeben und aus den transformierten Informationen ergeben, ist.
-
Gemäß einem weiteren Aspekt betrifft die Erfindung ein System zum Vorhersagen von Trajektorien, wobei das System einen Autoencoder, ein Fusionsnetz und ein neuronales Hauptnetz umfasst. Das System ist dazu ausgestaltet, die folgenden Schritte auszuführen:
- - Empfangen erster Eingangsinformationen, wobei die ersten Eingangsinformationen zeitabhängige numerische Informationen sind;
- - Empfangen zweiter Eingangsinformationen, wobei die zweiten Eingangsinformationen regel- oder wissensbasierte Informationen sind, die eine oder mehrere Trajektorienvorhersageinformationen enthalten;
- - Verarbeiten der zweiten Eingangsinformationen basierend auf dem Autoencoder, wobei der Autoencoder dazu ausgestaltet ist, die zweiten Eingangsinformationen zu codieren, indem er Merkmale aus den zweiten Eingangsinformationen extrahiert und dadurch codierte zweite Eingangsinformationen erhält;
- - Bereitstellen der codierten zweiten Eingangsinformationen an das Fusionsnetz, wobei das Fusionsnetz transformierte Informationen bereitstellt, die durch Transformieren der codierten zweiten Eingangsinformationen gemäß den Eigenschaften des neuronalen Hauptnetzes erhalten werden; und
- - Bereitstellen der ersten Eingangsinformationen und der transformierten Informationen an das neuronale Hauptnetz, wobei das neuronale Hauptnetz dazu ausgestaltet ist, die ersten Eingangsinformationen und die transformierten Informationen zu fusionieren, um Trajektorienvorhersagen bereitzustellen, die auf den ersten Eingangsinformationen und den transformierten Informationen basieren.
-
Das System ist vorteilhaft, weil eine Kombination unterschiedlicher Informationen aus unterschiedlichen Informationsquellen möglich ist und dadurch der Aufwand zum Bereitstellen ausreichender Trainingsdaten reduziert wird. Außerdem ist bei Verwendung des Autoencoders und des Fusionsnetzes eine Projektion zweiter Eingangsinformationen in die Domäne des neuronalen Hauptnetzes ohne Einschränkungen hinsichtlich der Modellarchitektur der Informationsquelle, welche die zweiten Eingangsinformationen bereitstellt, möglich.
-
Gemäß einer Ausführungsform des Systems ist das Fusionsnetz dazu ausgestaltet, die Dimensionalität des Merkmalsvektors, der durch den Autoencoder bereitgestellt wird, an die Dimensionalität einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes anzupassen. Mit anderen Worten: Die codierten zweiten Eingangsinformationen werden durch das Fusionsnetz derart aufbereitet, dass die transformierten Informationen, die durch den Aufbereitungs- oder Transformationsschritt erhalten werden, direkt in eine verdeckte Schicht des neuronalen Hauptnetzes aufgenommen werden können, d. h. zu dem Vektorraum einer bestimmten verdeckten Schicht passen. Dadurch ist es möglich, die Gewichtungsfaktoren des neuronalen Hauptnetzes basierend auf beiden Informationen - also den ersten Eingangsinformationen, bei denen es sich um zeitabhängige numerische Informationen handelt, und regel- oder wissensbasierten Experteninformationen - zu trainieren.
-
Gemäß einer Ausführungsform des Systems ist das Fusionsnetz dazu ausgestaltet, die Dimensionalität des Merkmalsvektors derart anzupassen, dass wenigstens eine Dimension des Merkmalsvektors, der durch den Autoencoder bereitgestellt wird, in wenigstens eine Dimension des Vektorraums der bestimmten verdeckten Schicht transformiert wird, sodass wenigstens eine Dimension der transformierten Informationen gleich wenigstens einer Dimension des Vektorraums der bestimmten verdeckten Schicht ist. Dadurch ist es möglich, transformierte Informationen, beispielsweise als eine weitere Reihe oder Spalte, der verdeckten Schicht des neuronalen Netzes hinzuzufügen.
-
Gemäß einer Ausführungsform des Systems ist das Fusionsnetz dazu ausgestaltet, die codierten zweiten Eingangsinformationen, die durch den Autoencoder bereitgestellt werden, in einen latenten Teilraum, konkret einen Vektorraum, einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes zu projizieren. Dadurch werden die codierten zweiten Eingangsinformationen gemäß der Architektur des neuronalen Hauptnetzes transformiert, das durch die Natur der ersten Eingangsinformationen, die durch das neuronale Hauptnetz zu verarbeiten sind, vorgegeben sein kann.
-
Gemäß einer Ausführungsform des Systems werden die transformierten Informationen mit den Merkmalen einer bestimmten verdeckten Schicht des neuronalen Hauptnetzes verkettet. Die Merkmale, die bereits in einer bestimmten verdeckten Schicht enthalten sind, werden nur durch die ersten Eingangsinformationen beeinflusst. Im Gegensatz dazu werden die transformierten Informationen durch die zweiten Eingangsinformationen beeinflusst. Nach der Verkettung wird der nächsten verdeckten Schicht ein Satz von Merkmalen bereitgestellt, der sowohl durch die ersten als auch die zweiten Informationen beeinflusst wird, und das neuronale Hauptnetz kann basierend auf beiden Informationen trainiert werden.
-
Gemäß einer Ausführungsform des Systems umfasst der Schritt des Verkettens der transformierten Informationen mit den Merkmalen einer bestimmten verdeckten Schicht ein Erhöhen der Dimensionalität des Vektorraums einer verdeckten Schicht. Der Verkettungsschritt kann beispielsweise ein Hinzufügen einer oder mehrerer Reihen oder Spalten zu dem Vektorraum der verdeckten Schicht umfassen. Dadurch kann eine Fusion datenbasierter und regel- oder wissensbasierter Informationen in einem einzigen neuronalen Netz erhalten werden.
-
Gemäß einer Ausführungsform des Systems wird die Dimensionalität derart erhöht, dass der Vektorraum der verdeckten Schicht, in den die transformierten Informationen projiziert werden, die Summe der Dimensionalität der Merkmale, die sich aus den ersten Eingangsinformationen ergeben und aus den transformierten Informationen ergeben, ist.
-
Beispiele für Wissenssysteme können aus den folgenden Trajektorienvorhersageverfahren entnommen werden:
- Die EP 3798912 A1 beschreibt ein Trainingsverfahren für ein faltendes neuronales Netz zum Vorhersagen eines Fahrmanövers wenigstens eines Verkehrsteilnehmers in einem Verkehrsszenario eines Eigenfahrzeugs.
-
Nachiket Deo et al. stellen in „Convolutional Social Pooling for Vehicle Trajectory Prediction“ ein Vorhersageverfahren vor, das unter Verwendung öffentlich zugänglicher Datensätze nach NGSIM US-101 und 1-80, die Weghistorien umfassen, trainiert wird.
Jedes als eine Ausführungsform des Verfahrens beschriebene oben genannte Merkmal ist auch als ein Systemmerkmal in dem System gemäß der vorliegenden Offenbarung anwendbar.
-
Der Begriff „Fahrzeug“, wie in der vorliegenden Offenbarung verwendet, kann einen Pkw, Lkw, Bus, Zug oder beliebige andere Transportmittel bezeichnen.
-
Der Begriff „zeitabhängige numerische Informationen“ kann beliebige Informationen bezeichnen, die durch Zahlenwerte, z. B. digitale Zahlen, ganze Zahlen, Gleitkommazahlen usw., dargestellt werden.
-
Der Begriff „wissensbasierte Informationen“ kann beliebige Informationen bezeichnen, die durch ein wissensbasiertes System bereitgestellt werden. Diese Informationen können Fakten oder Richtlinien bezüglich eines bestimmten Themas umfassen, die zum Bereitstellen von Vorhersagen verwendet werden können, oder Vorhersagen aus einem wissensbasierten System sein. Konkreter können wissensbasierte Informationen Expertenvorhersagen sein, wobei ein „Experte“ ein beliebiges anderes System, das auf logischen Regeln, statistischen Regeln, menschlichen Experten usw. basiert, sein kann.
-
Der Begriff „regelbasierte Informationen“ kann beliebige Informationen bezeichnen, die durch ein regelbasiertes System bereitgestellt werden, das Regeln oder Prinzipien bezüglich eines bestimmten Themas umfasst, und auf deren Basis Vorhersagen getroffen werden können, oder es kann sich um regelbasierte Vorhersagen handeln.
-
Der Begriff „verdeckte Schicht“ kann eine Zwischenschicht eines neuronalen Netzes bezeichnen, die sich zwischen einem Eingang und einem Ausgang des neuronalen Netzes befinden kann.
-
Die Begriffe „im Wesentlichen“ oder „ungefähr“, wie in der Erfindung verwendet, bedeuten Abweichungen vom genauen Wert um +/- 10 %, vorzugsweise um +/- 5 %, und/oder Abweichungen in Form von Änderungen, die für die Funktion und/oder verkehrsrechtlich unbedeutend sind.
-
Verschiedene Aspekte der Erfindung, darunter ihre besonderen Merkmale und Vorteile, sind der folgenden ausführlichen Beschreibung und den beigefügten Zeichnungen zu entnehmen, in denen:
- 1A eine erste Ausführungsform eines Systems zum Vorhersagen von Trajektorien basierend auf ersten und zweiten Eingangsinformationen zeigt;
- 1B eine zweite Ausführungsform, die eine Variante des Systems zum Vorhersagen von Trajektorien basierend auf ersten und zweiten Eingangsinformationen umfasst, zeigt;
- 2 eine dritte Ausführungsform eines Systems zum Vorhersagen von Trajektorien basierend auf ersten, zweiten und dritten Eingangsinformationen zeigt; und
- 3 ein Ablaufdiagramm, das die Verfahrensschritte zum Vorhersagen von Trajektorien basierend auf ersten und zweiten Eingangsinformationen darstellt, zeigt.
-
Die vorliegende Erfindung wird nun unter Bezugnahme auf die beigefügten Zeichnungen, in denen Ausführungsbeispiele gezeigt sind, ausführlicher beschrieben. Die Ausführungsformen in den Figuren können bevorzugte Ausführungsformen betreffen, während alle im Zusammenhang mit Ausführungsformen beschriebenen Elemente und Merkmale, soweit passend, in Kombination mit jeder/m anderen Ausführungsform und Merkmal, wie hierin dargelegt, insbesondere in Bezug auf jede andere weiter oben dargelegte Ausführungsform, verwendet werden können. Diese Erfindung sollte jedoch nicht als auf die hierin dargelegten Ausführungsformen beschränkt ausgelegt werden. in der gesamten folgenden Beschreibung wurden ähnliche Bezugszeichen verwendet, um ggf. ähnliche Elemente, Teile, Dinge oder Merkmale zu bezeichnen.
-
Die Merkmale der vorliegenden Erfindung, die in der Beschreibung, den Ansprüchen, Beispielen und/oder den Figuren offenbart werden, können sowohl einzeln als auch in jeder beliebigen Kombination davon für die Realisierung der Erfindung in verschiedenen Formen davon wesentlich sein.
-
1A stellt ein beispielhaftes System 10 zum Bereitstellen von Vorhersagen basierend auf ersten Eingangsinformationen, bei denen es sich um trajektorienbezogene Zeitreiheninformationen handelt, und zweiten Eingangsinformationen, die beispielsweise Expertenvorhersagen aus einer datengesteuerten Informationsquelle sein können, dar.
-
Wie weiter unten beschrieben, können die ersten Eingangsinformationen zeitabhängige Informationen sein, die durch einen Sensor bereitgestellt werden können, der in einem Fahrzeug befindlich ist, um basierend auf den Sensorinformationen autonome Fahrfähigkeiten bereitzustellen. In der vorliegenden Offenbarung werden solche zeitabhängigen Informationen auch als datengesteuerte Informationen bezeichnet.
-
Die zweiten Eingangsinformationen können Informationen einer anderen Informationsquelle sein. Im Gegensatz zu den ersten Eingangsinformationen sind die zweiten Eingangsinformationen wissensbasierte Informationen.
-
Das System 10 ist dazu ausgestaltet, Informationen unterschiedlicher Informationsarten, nämlich datengesteuerte Informationen und wissensbasierte Informationen, zu kombinieren und Informationen bereitzustellen, die auf beiden Informationsarten basieren. Genauer gesagt, werden die Informationen unterschiedlicher Informationsarten in einem einzigen neuronalen Netz, konkret einem einzigen neuronalen Netz mit zahlreichen Zwischenschichten, derart zusammengeführt, dass die Werte eines Merkmalsvektors einer bestimmten verdeckten Schicht basierend auf den ersten und zweiten Eingangsinformationen gewählt werden.
-
Das System 10 umfasst einen Autoencoder 11, ein Fusionsnetz 12 und ein neuronales Hauptnetz 13 zum Bereitstellen von Vorhersagen, die auf den ersten und zweiten Eingangsinformationen basieren. Mit anderen Worten umfasst das System 10 die folgenden drei Netze bzw. ist aus diesen gebildet:
- einen autoencoder-basierten Merkmalsextraktor 11, ein Fusionsnetz 12, das von dem Autoencoder gelernte latente Informationen als Eingabe für seinen Decoder verwendet, der transformierte Informationen erzeugt, und das neuronale Hauptnetz 13, d. h. das „Trajektorienprädiktornetz“.
-
Der Autoencoder 11 empfängt die zweiten Eingangsinformationen, bei denen es sich um Vorhersagen von einem Expertensystem handeln kann. Der Autoencoder 11 kann ein künstliches neuronales Netz sein, das dazu ausgestaltet ist, auf unüberwachte Weise effiziente Datencodierungen der zweiten Eingangsinformationen zu lernen.
-
Der Autoencoder 11 umfasst einen Encoderteil 11.1, der die zweiten Eingangsinformationen empfängt und codierte zweite Eingangsinformationen bereitstellt. Der Autoencoder 11 ist dazu ausgestaltet, effiziente Codierungen der Daten zu lernen. Konkreter kann der Autoencoder 11 die Dimensionalität der Informationen reduzieren, indem er lernt, redundante Informationen in den Daten zu ignorieren, d. h. der Autoencoder 11 ist dazu ausgestaltet, codierte zweite Eingangsinformationen bereitzustellen, die noch immer die zweiten Eingangsinformationen darstellen. In 1A sind die codierten zweiten Eingangsinformationen als latente Merkmale ausgewiesen. Im Folgenden wird diese Bezeichnung als Synonym verwendet. Mit anderen Worten sind latente Merkmale eine effiziente Codierung der zweiten Eingangsinformationen. Die codierten zweiten Eingangsinformationen können ein Vektor sein, der eine bestimmte Anzahl an digitalen Bits umfasst.
-
Ein autoencoder-basierter Merkmalsextraktor extrahiert zweckdienliche Merkmale aus von Expertennetzen (z. B. visuelles Trajektorienvorhersagesystem) getroffenen Trajektorienvorhersagen. Da das Trajektorienvorhersagesystem nur die durch das Expertensystem getroffenen Vorhersagen benötigt, ist es völlig agnostisch gegenüber der verwendeten Architektur des Expertenmodells. Der Autoencoder wird zunächst anhand von durch das Expertensystem getroffenen Trajektorienvorhersagen trainiert, um komprimierte Merkmalsdarstellungen (latente Informationen; codierte zweite Eingangsinformationen) zu lernen. Diese Darstellung codiert hervorstechende Informationen, die in dem wissensgesteuerten Verfahren enthalten sind.
-
Die codierten zweiten Eingangsinformationen (d. h. die latenten Merkmale), welche die Ausgabe des Autoencoders 11 sind, werden dem Fusionsnetz 12 als Eingabe bereitgestellt. Das Fusionsnetz 12 ist dazu ausgestaltet, die codierten zweiten Eingangsinformationen in einen latenten Teilraum des neuronalen Hauptnetzes 13 zu projizieren. Mit anderen Worten: Das Fusionsnetz transformiert die codierten zweiten Eingangsinformationen derart, dass die Größe und/oder Struktur der transformierten Informationen, die als Ausgabe des Fusionsnetzes 12 bereitgestellt werden, zu dem Teilraum der verdeckten Schicht des neuronalen Hauptnetzes 13 passt.
-
Zum Durchführen des Transformationsprozesses umfasst das Fusionsnetz 12 wenigstens einen Decoder 12.1. Der Decoder 12.1 des Fusionsnetzes 12 ist dazu ausgestaltet, die codierten zweiten Eingangsinformationen zu empfangen und die codierten zweiten Eingangsinformationen in transformierte Informationen zu transformieren. Die transformierten Informationen können dieselbe Dimension oder wenigstens eine gemeinsame Dimension wie der Vektorraum der verdeckten Schicht des neuronalen Hauptnetzes 13, dem die transformierten Informationen hinzugefügt werden, aufweisen. Der Decoder 12.1 des Fusionsnetzes 12 kann zusammen mit dem neuronalen Hauptnetz 13 trainiert werden.
-
Es ist zu erwähnen, dass das Hinzufügen von Informationen einer wissensgesteuerten Informationsquelle zu einer bestimmten verdeckten Schicht nicht auf eine verdeckte Schicht beschränkt ist, sondern dass diese Informationsfusion auch in mehreren Schichten durchgeführt werden kann. 1B stellt Einzelheiten einer Variante des in 1A dargestellten Systems dar. Eine Variante des ersten Fusionsnetzes 12' umfasst einen Decoder, der eine Projektion der latenten Merkmale (komprimierte Merkmalsdarstellung), die durch den Autoencoder 11 aus den zweiten Eingangsinformationen erzeugt wurden, erzeugt. Die Projektion wird in die verdeckte Schicht I einer Variante des neuronalen Hauptnetzes 13' eingespeist.
-
Das Fusionsnetz 12' nimmt die von dem Autoencoder 11 gelernten komprimierten Trajektorienmerkmalsvektoren als Eingabe in einen Decoder. Dieser Decoder des Fusionsnetzes 12' verbindet die komprimierten Merkmalsvektoren mit einer Zwischenschicht des neuronalen Hauptnetzes 13'. Der Decoder des Fusionsnetzes 12' dient zwei Zwecken:
- (i) er passt die Dimensionalität der komprimierten Merkmalsvektoren derjenigen der verdeckten Schicht des neuronalen Hauptnetzes 13' an und
- (ii) er projiziert die von dem Expertennetz gelernten komprimierten Merkmalsvektoren in einen latenten Teilraum des neuronalen Hauptnetzes 13'.
-
Eine bestimmte verdeckte Schicht des neuronalen Hauptnetzes 13' kann beispielsweise den Vektorraum 8x16 aufweisen. Um die codierten zweiten Eingangsinformationen, die durch den Autoencoder 11 bereitgestellt werden, dem neuronalen Hauptnetz 13' hinzufügen zu können, muss das Fusionsnetz 12' die Größe der codierten zweiten Eingangsinformationen an die Dimension dieses Vektorraums anpassen, beispielsweise auf eine Größe von 1x16. Wenn also die codierten zweiten Eingangsinformationen die Dimension 1x12 aufweisen, muss die Vektorgröße der codierten zweiten Eingangsinformationen auf 1x16 vergrößert werden, um die Informationen, die in den codierten zweiten Eingangsinformationen enthalten sind, als transformierte Informationen in einen latenten Raum einer verdeckten Schicht einzufügen. In der vorliegenden Ausführungsform kann die Endgröße der verdeckten Schicht 9x16 betragen, was dann die Eingabe der nächsten verdeckten Schicht sein kann. Im Allgemeinen erfolgt das Hinzufügen der transformierten Informationen zum Vektorraum der verdeckten Schicht durch Verkettung, d. h. der Vektorraum wird um eine oder mehrere Reihen oder Spalten vergrößert.
-
Nach dem Verketten empfangen die weiteren verdeckten Schichten Informationen, die von den ersten und zweiten Eingangsinformationen, d. h. von den datengesteuerten und wissensgesteuerten Informationen, abgeleitet sind. Daher stellt das neuronale Hauptnetz 13' Vorhersagen bereit, die sowohl auf datengesteuerten als auch auf wissensgesteuerten Informationen basieren. Der Decoder des Fusionsnetzes 12' wird zusammen mit dem neuronalen Hauptnetz 13' dieser Ausführungsform, welches das „Trajektorienprädiktornetz“ ist, trainiert. Dieses Netz ist ebenfalls agnostisch gegenüber jeglicher Architektur, da das Fusionsnetz 12' generisch ist und mit unterschiedlichen Architekturen neuronaler Netze verwendet werden kann. Dieser Schritt ist in 1B unten durch den Block 13' mit dem neuronalen Hauptnetz dargestellt.
-
Beispielsweise kann, wie in 2 gezeigt, eine erste verdeckte Schicht die transformierten Informationen eines ersten Fusionsnetzes 12 empfangen und eine zweite verdeckte Schicht desselben neuronalen Hauptnetzes 13 die transformierten Informationen eines zweiten Fusionsnetzes 12a empfangen. Das zweite Fusionsnetz 12a ist mit einem zweiten Autoencoder 11 a gekoppelt. Der zweite Autoencoder 11 empfängt dritte Eingangsinformationen, die ebenfalls wissensbasierte Informationen, die durch eine Expertendatenquelle bereitgestellt werden, sein können. Die dritten Eingangsinformationen können Informationen sein, die mit den zweiten Eingangsinformationen identisch sind, oder von den zweiten Eingangsinformationen verschieden sein. Die dritten Eingangsinformationen können durch den zweiten Autoencoder 11 a codiert werden und durch das zweite Fusionsnetz 12a in transformierte Informationen transformiert werden, um einer weiteren verdeckten Schicht des neuronalen Hauptnetzes 13 hinzugefügt zu werden. Dadurch können mehr als zwei unterschiedliche Informationen fusioniert werden, um Vorhersagen bereitzustellen.
-
Das Training des Systems 10 erfolgt in mehreren Trainingsschritten:
- In einem ersten Trainingsschritt wird der Autoencoder 11 anhand von zweiten Eingangsinformationen trainiert, um komprimierte Merkmalsdarstellungen zu lernen.
-
Nach dem Training des Autodecoders 11 wird das Fusionsnetz 12, konkret der Decoder 12.1, zusammen mit dem neuronalen Hauptnetz 13 trainiert.
-
Die Erfindung kann beispielsweise in den folgenden Anwendungsfällen verwendet werden:
- Ein möglicher Anwendungsbereich des offenbarten Verfahrens und Systems sind autonome Fahranwendungen mit dem Ziel des Entwickelns eines wenigstens teilweise selbstfahrenden Pkws. Angesicht der enormen Anzahl individueller Situationen, die im Straßenverkehr zu bewältigen sind, umfassen Fahrerassistenzsysteme und autonomes Fahren neuronale Netze, die dazu ausgestaltet sind, bestimmte Fahrsituationen einzuschätzen und Zukunftsvorhersagen für diese Fahrsituationen bereitzustellen. Ein möglicher Anwendungsfall kann die Manöverplanung sein, mit dem Ziel, komplexe Verkehrssituationen über einen erheblichen Zeithorizont hinweg vorherzusagen. Ein Spurwechsel bedingt beispielsweise spezifische Manöver aller anderen in der Nähe befindlichen Verkehrsteilnehmer. Infolgedessen erfordert ein Spurwechsel ein kooperatives Verhalten aller Verkehrsteilnehmer, wobei Menschen aufgrund ihrer langen Fahrerfahrung und ihrer Fähigkeit, Verkehrssituationen vorherzusagen, leicht in der Lage sind, diese Manöver durchzuführen.
-
Im Bereich des autonomen Fahrens ist es vorteilhaft, das Fahrsystem mit spezifischen Regeln, Welt- und/oder Expertenwissen und physischem Wissen, die typischerweise in separaten Wissensdatenbanken gespeichert sind, zu unterstützen und zu verbessern. Durch Ausnutzen dieses Wissens zum Treffen separater wissensbasierter Vorhersagen kann die vorliegende Offenbarung dazu verwendet werden, wissensbasierte Vorhersagen in einen ausgereifteren Prädiktor für komplexe Verkehrssituationen einzubeziehen.
-
Ein anderer, aber damit zusammenhängender Anwendungsfall ist der Umgang mit Fußgängern. Angesichts einer spezifischen Situation mit einem die Straße entlanglaufenden Fußgänger kann Expertenwissen in Form zuvor aufgetretener Situationen oder allgemeines Weltwissen ausgenutzt und in ein größeres Prädiktornetz integriert werden.
-
Ein zusätzlicher Anwendungsfall kann eine kontrollierte Regelverletzung sein. Beispielsweise ist die Spur durch ein Hindernis teilweise versperrt und die Mittellinie verbietet einen Überholvorgang. in diesem Fall muss das Auto die Regel bezüglich des Kreuzens der Mittellinie verletzen. Auch hier sagt die entsprechende Vorhersage den entgegenkommenden Verkehr durch Ausnutzen von Expertenwissen in Form von Regeln, Weltwissen und physischem Wissen vorher.
-
3 zeigt ein Blockdiagramm, das die Verfahrensschritte eines Verfahrens zum Vorhersagen von Trajektorien basierend auf einem neuronalen Hauptnetz darstellt.
-
Als erster Schritt werden erste Eingangsinformationen empfangen (S10). Die ersten Eingangsinformationen sind zeitabhängige numerische Informationen. Die zeitabhängigen numerischen Informationen können durch einen Sensor, der in einem Fahrzeug befindlich oder zur Aufnahme in ein Fahrzeug ausgelegt ist, bereitgestellt werden oder als Ausgabe eines Computersystems bereitgestellt werden.
Außerdem werden zweite Eingangsinformationen empfangen (S11). Die zweiten Eingangsinformationen sind wissensbasierte Informationen, die eine oder mehrere Vorhersageinformationen enthalten. Die Vorhersageinformationen hängen mit den ersten Eingangsinformationen zusammen, sodass die zweiten Eingangsinformationen dazu verwendet werden können, die Qualität der vorhergesagten Werte einer zukünftigen Trajektorie zu verbessern.
-
Als weiterer Schritt werden die zweiten Eingangsinformationen basierend auf einem Autoencoder 11 verarbeitet (S12). Der Autoencoder 11 ist dazu ausgestaltet, die zweiten Eingangsinformationen zu codieren, indem er Merkmale aus den zweiten Eingangsinformationen extrahiert und dadurch codierte zweite Eingangsinformationen erhält.
-
Die codierten zweiten Eingangsinformationen werden einem Fusionsnetz 12 bereitgestellt. Das Fusionsnetz 12 stellt transformierte Informationen bereit, die durch Transformieren der codierten zweiten Eingangsinformationen gemäß den Eigenschaften des neuronalen Hauptnetzes 13 erhalten werden (S13).
-
Als weiterer Schritt werden die ersten Eingangsinformationen und die transformierten Informationen dem neuronalen Hauptnetz 13 bereitgestellt. Das neuronale Hauptnetz 13 fusioniert die ersten Eingangsinformationen und die transformierten Informationen, um eine Trajektorienvorhersage bereitzustellen, die auf den ersten Eingangsinformationen und den transformierten Informationen basiert (S14).
-
Schließlich wird die bereitgestellte Trajektorienvorhersage ausgegeben, z. B. an ein ADAS oder ein AD-System, um unter Berücksichtigung der Trajektorienvorhersage ein Manöver zu planen.
-
Man beachte, dass die Beschreibung und die Zeichnungen lediglich die Prinzipien der vorgeschlagenen Erfindung darstellen. Der Fachmann ist in der Lage, verschiedene Anordnungen zu implementieren, die, obwohl sie hierin nicht ausdrücklich beschrieben oder gezeigt sind, die Prinzipien der Erfindung verkörpern.
-
Bezugszeichenliste
-
- 10
- System
- 11
- Autoencoder
- 11 a
- Autoencoder
- 11.1
- Encoderteil
- 12
- Fusionsnetz
- 12'
- abgewandeltes Fusionsnetz
- 12a
- Fusionsnetz
- 12.1
- Decoder
- 13
- neuronales Hauptnetz
- 13'
- abgewandeltes neuronales Hauptnetz
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-