EP4196379A1

EP4196379A1 - Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem

Info

Publication number: EP4196379A1
Application number: EP21745818.1A
Authority: EP
Inventors: Georg Schneider; Nils MURZYN; Vijay PARSI; Firas MUALLA
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2020-08-14
Filing date: 2021-07-19
Publication date: 2023-06-21
Also published as: WO2022033810A1; DE102020210379A1

Abstract

Computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsentation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend die Schritte: Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten des Fahrsystems (R) (V1) und Anordnen der Umfeldmerkmale in der Szenen-Repräsentation (HSRV) (V2) umfassend mehrere in räumlicher Relation angeordnete Schichten (A- H) umfassend jeweils statische (stat) oder dynamische (dyn) Umfeldmerkmale, wobei die statischen (stat) Umfeldmerkmale regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien umfassen, die dynamischen (dyn) Umfeldmerkmale semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer umfassen und das Fahrsystem (R) basierend auf der Szenen-Repräsentation (HSRV) geregelt und/oder gesteuert wird (V3).

Description

Computerimplementiertes Verfahren und Computerproqrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und Steuergerät für ein automatisiertes Fahrsystem

Die Erfindung bezieht sich auf ein computerimplementiertes Verfahren und ein Computerprogrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, ein computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und ein Steuergerät für ein automatisiertes Fahrsystems.

Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch-Roboter-Interaktion, reicht eine reine sensorielle Erfassung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterentwicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entscheidungen für beispielsweise automatisierte Fahrzeuge treffen zu können. Hierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, untereinander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.

Die Umwelt ist geprägt von einer Vielzahl von einerseits expliziten, sichtbaren Zeichen und Markierungen, beispielsweise Verkehrsschildern, Spurmarkierungen, Bordsteinen, Fahrbahnrändern, die mit zum Teil regional unterschiedlichen Bedeutungen, Regeln und realen Verhaltensweisen gekoppelt sind und mit einer großen Zahl von unterliegenden Regeln und Normen, die nicht sichtbar das Verhalten der Interakteure in der Umwelt bestimmen, wie zum Beispiel, dass wenn sich ein Rettungsfahrzeug von hinten nähert, eine Rettungsgasse zu bilden ist. Diese Regeln werden zum einen auch regional sehr unterschiedlich gelebt und zum anderen hängen sie von Begleitereignissen ab, wie im vorherigen Beispiel von dem Herannahen eines Rettungsfahrzeugs in einer akuten zu erkennenden Stausituation. Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu können, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgeprägten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden.

Im Stand der Technik sind occupancy grids bekannt, einer kartenartigen Repräsentation von statischer Umwelt und darin befindlichen Verkehrsteilnehmern, siehe beispielsweise EP 2 771 873 B1. Mittels derartigen Gitterdarstellungen sind räumliche Abhängigkeiten erfassbar. Nachteilig ist, dass zusätzliche semantische Informationen in der Regel nicht erfasst werden oder separat zu verwalten sind.

Der Erfindung hat die Aufgabe zugrunde gelegen, eine verbesserte Bewegungsplanung eines intelligenten Agenten umfassend automatisierte Fahrsysteme zu ermöglichen

Die Verfahren nach Anspruch 1 und 8, das Computerprogrammprodukt nach Anspruch 7 und das Steuergerät nach Anspruch 12 lösen jeweils diese Aufgabe. Die erfindungsgemäße Umfeldszenen-Repräsentation stellt eine hybride Repräsentation dar. Die auf dieser Repräsentation aufbauende weitere Verarbeitung, um zum Beispiel eine zeitliche Vorhersage von allen Verkehrsteilnehmern über mehrere Zeitschritte in die Zukunft zu ermöglichen, wird dadurch schneller, effizienter, leistungsstärker, exakter, weniger fehleranfällig, robuster und verlässlicher. Bei der erfindungsgemäßen Umfeldszenen-Repräsentation werden die Vorteile der räumlichen und der semantischen Repräsentation in einer intelligenten Weise miteinander in Einklang gebracht.

Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem umfassend die Schritte

Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten des Fahrsystems und • Anordnen der Umfeldmerkmale in der Szenen-Repräsentation umfassend mehrere in räumlicher Relation angeordnete Schichten umfassend jeweils statische oder dynamische Umfeldmerkmale.

Die statischen Umfeldmerkmale umfassen regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien. Die dynamischen Umfeldmerkmale umfassen semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer. Das Fahrsystem wird basierend auf der Szenen-Repräsentation geregelt und/oder gesteuert.

Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem. Das Computerprogramm umfasst Befehle, die bewirken, dass ein Computer ein erfindungsgemäßes Verfahren ausführt, wenn das Programm auf dem Computer ausgeführt wird.

Ein weiterer Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem. Dabei erhält ein Maschinenlernalgorithmus die nach einem erfindungsgemäßen Verfahren erhaltenen Umfeldszenen-Repräsentationen zusammen mit jeweiligen Referenz-Prädiktionen als Eingangsdatenpaare. Basierend auf diesen Eingangsdatenpaare wird Gradienten-basiert die Prädiktion aus den Umfeldszenen-Repräsentationen gelernt.

Ein weiterer Aspekt der Erfindung betrifft ein Steuergerät für ein automatisiertes Fahrsystem. Das Steuergerät umfasst erste Schnittstellen, über die das Steuergerät Umfeldsensordaten des Fahrsystems erhält. Ferner umfasst das Steuergerät eine Prozesssiereinheit, die aus den Umfeldsensordaten Umfeldmerkmale bestimmt, einen nach einem erfindungsgemäßen Verfahren angelernten Maschinenlernalgorithmus ausführt und prädizierte Umfeldszenen erhält und basierend auf den prädizier- ten Umfeldszenen Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems bestimmt. Außerdem umfasst das Steuergerät zweite Schnittstellen, über die das Steuergerät die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems bereitstellt. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.

Computerimplementiert bedeutet, dass die Schritte des Verfahrens von einer Datenverarbeitungsvorrichtung, beispielsweise einem Computer, einem Rechensystem, einem Rechnernetzwerk, beispielsweise einem Cloud-System, oder Teilen davon, ausgeführt werden.

Automatisierte Fahrsysteme umfassen automatisierte Fahrzeuge, Straßenfahrzeuge, People Mover, Roboter und Drohnen.

Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/oder -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilnehmer, Fahrzeuge, Fußgänger, Fahrradfahrer.

Umfeldsensordaten umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprimierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsensoren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offline- karten. Nach einem Aspekt der Erfindung sind die Umfeldsensordaten mit dem Fahrsystem real eingefahrene Daten. Nach einem weiteren Aspekt der Erfindung umfassen die Umfeldsensordaten virtuell erzeugte Daten, beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren. Nach einem weiteren Aspekt der Erfindung sind die Umfeldsensordaten reale Daten, die virtuell augmen- tiert und/oder variiert wurden.

Die Umfeldmerkmale werden aus den Umfeldsensordaten mittels Objekt-Klassifikatoren erhalten, beispielsweise künstlichen neuronalen Netzwerken zur semantischen Bildsegmentierung. Die Umfeldszenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen und damit semantischen Informationen dargestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen-Repräsentation auch Hybride Szenen Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße Umfeldszenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fotos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelperspektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weiteren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.

Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zustand kurzfristig nicht und werden als starr bezeichnet. Natürlich sieht HRSV auch eine Adaption dieser Elemente vor, wenn es beispielsweise zu einer Änderung der Verkehrsführung kommt. Dieser Aspekt der Adaption spielt sich allerdings auf einer anderen zeitlichen Skala ab. Ein Beispiel dafür bilden die Fahrbahnmarkierungen. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrszeichen eingeordnet.

Je nach der Region unterscheidet sich das Verhalten der Verkehrsteilnehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehalten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw.

Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale werden über Karteninformationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Karteninformation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zugeordnet wird. Die Werte basieren auf diskreten Labeln der Karte, beispielsweise Zahlencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebildet. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzungen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise “Rechts vor Links” mit der Beschilderung überlagert. Gegebenenfalls widersprüchliche Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggregiert, so dass die dann geltenden Regeln als vorrangig behandelt werden.

Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wechselverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel beschränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt.

Die Ankertrajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustandswechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach einem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an das Fahrsystem die Schichten der Verkehrsweiser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.

Die Befehle des Computerprogramms umfassen Software- und/oder Hardwarebefehle. Das Computerprogramm wird beispielsweise in einen Speicher des erfindungsgemäßen Steuergeräts geladen oder ist in diesem Speicher bereits geladen. Nach einem weiteren Aspekt der Erfindung wird das erfindungsgemäße Computerprogramm auf einer Hardware und/oder Software einer Cloud-Einrichtung ausgeführt.

Das Computerprogramm wird beispielsweise durch einen computerlesbaren Datenträger oder ein Datenträgersignal in den Speicher geladen. Damit wird die Erfindung auch als eine Aftermarket-Lösung realisiert.

Das Steuergerät, im Englischen electronic control unit, abgekürzt ECU, genannt, bereitet Eingangssignale auf, verarbeitet diese mittels einer elektronischen Schaltung und stellt Logik- und/oder Leistungspegel als Regel- und/oder Steuersignale bereit. Das erfindungsgemäße Steuergerät ist skalierbar für assistiertes Fahren bis hin zu vollautomatisiertes/autonomes/fahrerloses Fahren.

Nach einem Aspekt der Erfindung erhält das Steuergerät Rohdaten von Sensoren und umfasst eine Auswerteeinheit, die die Rohdaten für HSRV prozessiert. Nach einem weiteren Aspekt der Erfindung erhält das Steuergerät vorverarbeitete Rohdaten. Nach einem weiteren Aspekt der Erfindung umfasst das Steuergerät eine Schnittstelle zu einer Auswerteeinheit, die die Rohdaten für HSRV prozessiert.

Nach einem weiteren Aspekt der Erfindung umfasst das Steuergerät eine Software- und/oder Hardwareebene für die Trajektorienplanung Planung oder High-Level Controlling. Nach dieser Ebene werden dann die Signale an die Aktuatoren gesendet.

Die Prozessiereinheit umfasst beispielsweise eine programmierbare elektronische Schaltung. Nach einem Aspekt der Erfindung ist die Prozessiereinheit oder das Steuergerät als ein System-on-Chip ausgeführt.

Nach einem Aspekt der Erfindung umfasst die Szenen-Repräsentation:

• eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen,

• eine zweite Schicht umfassend Karteninformationen zur Bestimmung der Position des Fahrsystems,

• eine dritte Schicht umfassend die Verkehrsregelinformationen, • eine vierte Schicht umfassend die Verkehrsweiser,

• eine fünfte Schicht umfassend die Ankertrajektorien,

• eine sechste Schicht umfassend semantisch-explizite Informationen,

• eine siebte Schicht umfassend semantisch-latente Informationen und

• eine achte Schicht umfassend die Bewegungsinformationen.

Nach einem weiteren Aspekt der Erfindung werden

• die regionalen Informationen und/oder die Wetterinformationen in Form von Codes bereitgestellt oder ein Maschinenlernalgorithmus lernt über eine Eingabe von globalen Koordinaten und Fahrdaten des Fahrsystems einen Zusammenhang zwischen Region und Fahrverhalten,

• die Position des Fahrsystems zu einem bestimmten Zeitpunkt aus einem Kartenausschnitt bestimmt und der Kartenausschnitt für jeden neuen Zeitschritt generiert oder der Kartenausschnitt nach einer vorgegebenen Anzahl von Zeitschritten aktualisiert, wobei jedem Pixel der zweiten Schicht ein Wert der Karte zugeordnet wird,

• die Verkehrsregelinformationen mittels aus den Umfeldsensordaten erfassten Verkehrsschildern und/oder aus den regionalen Informationen abgeleiteten Verkehrsregeln bestimmt,

• ein Zustand der Verkehrsweiser als Pixelwert in der vierten Schicht dargestellt,

• die Ankertrajektorien, die nach einem Aspekt der Erfindung von einem Verkehrsteilnehmer erreichbaren Fahrbahnlinien umfassen, in Abhängigkeit der Verkehrsweiser priorisiert,

• die semantischen Informationen in Form von Merkmalsvektoren dargestellt und/oder

• die Bewegungsinformationen mittels eines Maschinenlernalgorithmus über Zeitschritte gelernt und bestimmt und räumlich dargestellt.

Das hinzuführen der regionalen Information, beispielsweise in Form eines Landescodes aus einer Tabelle, führt zu einer Verbesserung der Prädiktionsgüte. Jede Region wird über einen bestimmten Landes- oder Regionscode repräsentiert ist. Äquivalent dazu wird die aktuelle Wettersituation über einen Wettercode verarbeitet. Dieser Code kann dem Maschinenlernalgorithmus auch global, das heißt nicht über eine Schicht, zur Verfügung gestellt werden. Der Maschinenlernalgorithmus hat damit die Möglichkeit, die realen Zusammenhänge von Region und/oder Wetter und gelebtem Fahrverhalten zu erlernen. Alternativ wird, um den räumlichen Aspekt auch bei einem Faltungsnetzwerk zu erhalten, derselbe regionale Wert jedem Pixel in einer Schicht zugeordnet. In Bezug auf die regionale Information ist es eine Option, statt eines Landescodes unmittelbar über die globalen Koordinaten einen Zusammenhang zwischen Region und Fahrverhalten zu erlernen und somit eine Experten basierte Abgrenzung von Regionen nicht durchführen zu müssen. Solche Landes- oder Wettercodes bleiben meistens über einen längeren Zeitpunkt für denselben Ort gleich, sind damit also starr. Das Wetter ändert sich natürlich und dieser Änderung wird Rechnung getragen, aber zumeist ist die Änderung auch noch etwas langsamer als zum Beispiel die Änderungen einer Ampel und noch langsamer als die Bewegungen von anderen Verkehrsteilnehmern.

Beispielsweise werden Ländercodes über folgende Look-Up-Tabelle erhalten:

Pixelwerte für Ampeln werden beispielsweise aus folgender Look-Up-Tabelle entnommen: Nach einem weiteren Aspekt der Erfindung werden Straßenlinienarten beispielsweise aus folgender Look-Up-Tabelle entnommen:

Neben dem dynamischen Verhalten ist auch eine semantische Beschreibung der Verkehrsteilnehmer und ihrer Eigenschaften für die Prädiktion der Bewegung hilfreich. Beispielsweise hat ein Lastkraftwagen andere Begrenzungen des dynamischen Verhaltens als ein Fahrradfahrer. Nach einem Aspekt der Erfindung werden semantische Informationen in einem Merkmalsvektor gebündelt. Beispiele für diese Art von Information sind die Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Fahrrad, Fußgänger, die Höhe und Breite der Objekte oder Zustände der Blinklichter, beispielsweise rechts, links, warnen, aus. Deskriptoren beschreiben diese Eigenschaften, das heißt sie erzeugen die Merkmalsvektoren zur Eingabe in einen Maschinenlernalgorithmus. Diese Deskriptoren werden in gleicher Art und Weise wie die Deskriptoren der dynamischen Information angeordnet und bilden die Schicht der semantisch-expliziten Information.

Optional wird zusätzliche semantische Information des Verkehrsteilnehmers durch die Verwendung latenter Merkmalsvektoren realisiert. Latent bedeutet, dass die Information vom Menschen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten sind. Die Berechnung dieser latenten Merkmalsvektoren wird nach einem Aspekt der Erfindung mit künstlichen tiefen neuronalen Netzwerken durchgeführt. Beispielsweise sind Objekt-Klassifikatoren, die der erfindungsgemäßen Umfeldszenen-Repräsentation vorgelagert sind, als künstliche tiefe neuronale Netzwerke realisiert. Im Allgemeinen wird bei der Klassifikation ein solcher latenter Merkmalsvektor als Zwischenprodukt generiert. Diese latenten Zwischenvektoren aller Verkehrsteilnehmer werden in oben beschriebener Art und Weise räumlich angeordnet und bilden die Schicht der semantisch-latenten Information. Nach einem Aspekt der Erfindung wird die semantisch-explizite Schicht mit der semantisch-latenten Schicht ergänzt. Ein Vorteil der semantisch latenten Information ist die Robustheit gegenüber Rauschsignalen diskreter Klassen. Wenn die diskrete Klassifikation zwischen zwei Klassen schwankt, beispielsweise LKW und PKW, ist es schwierig, die Klasseninformation richtig zu interpretieren. Da der latente Merkmalsvektor ein Vektor kontinuierlicher Zahlen ist, wirken sich Schwankungen kaum bis gar nicht aus und es wird eine robustere Interpretation der semantischen Information des Objekts ermöglicht.

Der dynamische Teil beschreibt die beweglichen Verkehrsteilnehmer der Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer über einen bestimmten Zeitraum genutzt, um mit einem Deskriptor dieses dynamischen Bewegungsverhaltens zu generieren. Das Fahrverhalten kann durchaus auch latent enthalten sein. Die Berechnung dieses Deskriptors wird einerseits mittels eines künstlichen tiefen neuronalen Netzwerks gelernt, beispielsweise einem Netzwerk umfassend Long-Short-Term- Memory-Schichten, abgekürzt LSTM. Bei LSTMs ist nach einer Einschwingphase eine iterative Anpassung des Deskriptors nur durch Eingabe der Koordinate des nächsten Zeitschrittes möglich. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mittels Kalman-Filter. Die Deskriptoren aller Verkehrsteilnehmer werden basierend auf der letzten Koordinate räumlich angeordnet und bilden die Schicht der Bewegungsinformation.

Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten dargestellt werden. Die Merkmalsvektoren haben einen vorgegebenen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Farbwerte der Pixeln interpretiert.

Nach einem weiteren Aspekt der Erfindung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine korrespondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.

Nach einem weiteren Aspekt der Erfindung werden räumliche Koordinaten des Fahrsystems und/oder der Umfeldmerkmale in Pixeln dargestellt, wobei ein Pixel in jeder der Schichten einer gleichen Streckenlänge entspricht.

In einer Ausgestaltung des erfindungsgemäßen Verfahrens zum Lernen einer Prädiktion werden mehrere Umfeldszenen-Repräsentationen bereitgestellt, die die statischen und dynamischen Umfeldmerkmale umfassend die Verkehrsteilnehmer über eine variable Anzahl von x Zeitschritten abbilden.

Mittels dieser Umfeldszenen-Repräsentationen wird der Maschinenlernalgorithmus angelernt, validiert und getestet. Während der Validierung werden in dem Lernprozess enthaltene Meta-Parameter geeignet eingestellt. Während der Testphase wird die Vorhersage des angelernten Maschinenlernalgorithmus bewertet.

Die Umfeldszenen-Repräsentation wird erfindungsgemäß an die neuronalen Strukturen angekoppelt. Der Vorteil der erfindungsgemäßen Umfeldszenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die der Maschinenlernalgorithmus zugreifen kann. Innerhalb der Lernphase, in der die variablen Parameter/Gewichte des Maschinenlernalgorithmus eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgate der Prädiktion zu leisten.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens zum Lernen einer Prädiktion von Umfeldszenen umfasst der Maschinenlernalgorithmus eine Enco- dierer-Decodierer-Struktur umfasst,

• die Umfeldszenen-Repräsentationen encodiert in ein Faltungsnetzwerk eingegeben werden,

• das Faltungsnetzwerk lernt, Interaktionen zwischen den Schichten der Umfeldszenen-Repräsentation, Interaktionen zwischen Verkehrsteilnehmern und/oder Interaktionen zwischen Verkehrsteilnehmer und Umfeldmerkmalen darzustellen und in Form eines Ausgabevolumens, dessen Höhe und Breite gleich der Größe der Umfeldszenen-Repräsentation ist, auszugeben, wobei aus dem Ausgabevolumen für jeden Verkehrsteilnehmer eine Spalte basierend auf der Pixel-diskreten Position des Verkehrsteilnehmers ermittelt wird und die Spalte mit einem Vektor, der das dynamische Verhalten beschreibt, konkateniert wird,

• aus dem Konkatenieren erhaltenen zusammengesetzten Merkmalsvektoren in prädizierte Trajektorien des Fahrsystems und/oder der Verkehrsteilnehmer decodiert werden.

Nach einem weiteren Aspekt der Erfindung basieren die Encodierer und/oder Decodierer auf Long-Short-Term-Memory Technik.

Nach einem weiteren Aspekt der Erfindung werden durch generatives adversariales Lernen Rauschvektoren konkateniert und durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert. Dadurch werden multimodale Unsicherheiten von Prädiktionen erfasst.

In einer Ausführungsform der Erfindung ist der Maschinenlernalgorithmus ein Multi- Agent Tensor Fusion Encodierer-Decodierer. Ein Multi-Agent Tensor Fusion Enco- dierer-Decodierer für statische Umfeldszenen ist in arXiv: 1904.04776v2 [cs.CV] offenbart. Die Erfindung stellt einen Multi-Agent Tensor Fusion Algorithmus für die erfindungsgemäße Umfeldszenen-Repräsentation bereit, die neben statischen Umfeldmerkmalen auch dynamische Umfeldmerkmale umfasst. Der erfindungsgemäße Multi-Agent Tensor Fusion Algorithmus erhält keine statischen Umfeldszenen als Eingabe, sondern die HSRV umfassend dynamische Umfeldmerkmale.

Ein Encodierer-Decodierer-LSTM-Netzwerk ist besonders gut geeignet, um sequenzbasierte Probleme zu lösen. Nach einem Aspekt der Erfindung werden die Rauschvektoren durch ein generatives adversariales Netzwerk, abgekürzt GAN, erzeugt, beispielsweise durch das in arXiv: 1904.04776v2 [cs.CV] unter Punkt 3.3 offenbarte GAN.

Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

Fig. 1 eine Darstellung einer erfindungsgemäßen Umfeldszenen-Repräsentation,

Fig. 2 eine Darstellung eines erfindungsgemäßen Maschinenlernverfahrens,

Fig. 3 eine Darstellung eines erfindungsgemäßen Steuergeräts und

Fig. 4 eine Darstellung des erfindungsgemäßen Verfahrens zum Erhalten der Umfeldszenen-Repräsentation aus Fig. 1.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.

Fig. 1 zeigt beispielhaft eine erfindungsgemäße Umfeldszenen-Repräsentation HSRV. In der dargestellten Umfeldszene E befindet sich ein PKW als Beispiel eines Fahrsystems R an einer Einmündung. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Prädiktion der Trajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet. In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.

Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene E. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.

Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene E.

Fig. 2 zeigt eine exemplarische Architektur eines künstlichen tiefen neuronalen Netzwerks DNN, das die Umfeldszenen-Repräsentation HSRV als Eingabe bekommt, die Die Umfeldszenen-Repräsentation HSRV wird als Feature Volumen in das Netzwerk DNN eingegeben. Beispielsweise umfasst das Netzwerk DNN eine Faltungsnetz- werk-Encodierer-Decodierer Struktur, über die mittels Multi-Agent Tensor Fusion die Interaktionen zwischen den verschiedenen Schichten A-H und, aufgrund seiner auf Filtermasken basierenden Architektur, die Interaktionen mit sich in der Umgebung befindenden Elementen der Umfeldszenen-Repräsentation HSRV modelliert werden. Ein Feature Volumen resultiert aus dem Netzwerk DNN, wobei Höhe und Breite dem Eingabevolumen entsprechen. Das Eingabevolumen ist die Umfeldszenen-Repräsentation HSRV. Aus dem Ausgabevolumen V wird für jeden Verkehrsteilnehmer nun eine Spalte gewählt und mit dem Vektor, der das dynamische Verhalten beschreibt, und einem Rauschvektor konkateniert. Die Spalte wird basierend auf der quantisierten Position des Verkehrsteilnehmers ermittelt. Die zusammengesetzte Feature-Vektoren werden nun jeweils in einen LSTM Decoder gegeben. Dieser Decoder generiert dann die zukünftige Trajektorie pro Verkehrsteilnehmer. Da im Training gemäß des GAN Setups verschiedene Rauschvektoren konkateniert werden, können in der Inferenz durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert werden.

Das in Fig. 3 gezeigte Steuergerät ECU erhält über erste Schnittstellen INT 1 Umfeldsensordaten U, beispielsweise von einer oder mehreren Kameras des Fahrsystems R. Eine Prozessiereinheit P, beispielsweise eine CPU, GPU oder FPGA, führt Objekt-Klassifikatoren aus und bestimmt dabei aus den Umfeldsensordaten U die statischen und/oder dynamischen Umfeldmerkmale stat und dyn. Die Prozessiereinheit P prozessiert die Umfeldmerkmale mit einem erfindungsgemäß angelernten Maschinenlernalgorithmus und erhält prädizierte Umfeldszenen. Basierend auf den prädizierten Umfeldszenen bestimmt die Prozessiereinheit P Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems R. Über zweite Schnittstellen INT 2 stellt das Steuergerät ECU die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems R bereit.

Fig. 4 zeigt die Schritte des Verfahren zum Erhalten einer Umfeldszenen-Repräsen- tation. In Schritt V1 werden die Umfeldmerkmalen stat und dyn erhalten. In Schritt V2 werden die Schichten A-H mit den jeweiligen Umfeldmerkmalen stat und dyn erzeugt. In Schritt V3 wird das Fahrsystem R basierend auf der Szenen-Repräsentation HSRV geregelt und/oder gesteuert.

Bezuqszeichen

HSRV Umfeldszenen-Repräsentation stat statisches Umfeldmerkmal stat_1 statisch starre Umfeldmerkmale stat_2 statisch zustandswechselnde Umfeldmerkmale dyn dynamisches Umfeldmerkmal

A-H Schichten

E Umfeldszene

U Umfeldsensordaten

V Ausgabevolumen

W Fußgänger

L Ampel

DNN künstliches tiefes neuronales Netzwerk

V1 -V3 Verfahrensschritte

ECU Steuergerät

INT1 erste Schnittstellen

INT2 zweite Schnittstellen

P Prozessiereinheit

Claims

Patentansprüche

1. Computerimplementiertes Verfahren zum Erhalten einer Umfeldszenen-Repräsen- tation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend die Schritte

• Erhalten von Umfeldmerkmalen aus realen und/oder virtuellen Umfeldsensordaten (U) des Fahrsystems (R) (V1 ) und

• Anordnen der Umfeldmerkmale in der Szenen-Repräsentation (HSRV) (V2) umfassend mehrere in räumlicher Relation angeordnete Schichten (A-H) umfassend jeweils statische (stat) oder dynamische (dyn) Umfeldmerkmale, wobei

• die statischen (stat) Umfeldmerkmale regionale Informationen, Positionsdaten des Fahrsystems und/oder der Umfeldmerkmale, Verkehrsregelinformationen, Verkehrsweiser und Ankertrajektorien umfassen,

• die dynamischen (dyn) Umfeldmerkmale semantische Informationen und Bewegungsinformationen der Verkehrsteilnehmer umfassen und

• das Fahrsystem (R) basierend auf der Szenen-Repräsentation (HSRV) geregelt und/oder gesteuert wird (V3).

2. Verfahren nach Anspruch 1 , wobei die Szenen-Repräsentation (HSRV) umfasst:

• eine erste Schicht (A) umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen,

• eine zweite Schicht (B) umfassend Karteninformationen zur Bestimmung der Position des Fahrsystems,

• eine dritte Schicht (C) umfassend die Verkehrsregelinformationen,

• eine vierte Schicht (D) umfassend die Verkehrsweiser,

• eine fünfte Schicht (E) umfassend die Ankertrajektorien,

• eine sechste Schicht (F) umfassend semantisch-explizite Informationen,

• eine siebte Schicht (G) umfassend semantisch-latente Informationen und

• eine achte Schicht (H) umfassend die Bewegungsinformationen.

3. Verfahren nach Anspruch 1 oder 2, wobei • die regionalen Informationen und/oder die Wetterinformationen in Form von Codes bereitgestellt werden oder wobei ein Maschinenlernalgorithmus über eine Eingabe von globalen Koordinaten und Fahrdaten des Fahrsystems einen Zusammenhang zwischen Region und Fahrverhalten lernt,

• die Position des Fahrsystems zu einem bestimmten Zeitpunkt aus einem Kartenausschnitt bestimmt wird und der Kartenausschnitt für jeden neuen Zeitschritt generiert wird oder der Kartenausschnitt nach einer vorgegebenen Anzahl von Zeitschritten aktualisiert wird, wobei jedem Pixel der zweiten Schicht ein Wert basierend auf der Klasse des Kartensegments zugeordnet wird,

• die Verkehrsregelinformationen mittels aus den Umfeldsensordaten erfassten Verkehrsschildern und/oder aus den regionalen Informationen abgeleiteten Verkehrsregeln bestimmt werden,

• ein Zustand der Verkehrsweiser als Pixelwert in der vierten Schicht (D)darge- stellt wird,

• die Ankertrajektorien die von einem Verkehrsteilnehmer erreichbaren Fahrbahnlinien umfassen und/oder in Abhängigkeit der Verkehrsweiser priorisiert werden,

• die semantischen Informationen in Form von Merkmalsvektoren dargestellt werden und/oder

• die Bewegungsinformationen mittels eines Maschinenlernalgorithmus über Zeitschritte gelernt und bestimmt werden und räumlich dargestellt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Umfeldmerkmale (stat, dyn) in Pixeln der Schichten (A-H) und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten dargestellt werden.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei in jeder Schicht (A-H) eine räumliche Lage der Umfeldmerkmale (stat, dyn) über eine korrespondierende Position in einer Karte erfasst wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, wobei räumliche Koordinaten des Fahrsystems (R) und/oder der Umfeld merkmale (stat, dyn) in Pixeln dargestellt werden, wobei ein Pixel in jeder der Schichten (A-H) einer gleichen Streckenlänge entspricht.

7. Computerprogramm zum Erhalten einer Umfeldszenen-Repräsentation (HSRV) für ein automatisiertes Fahrsystem (R) umfassend Befehle, die bewirken, dass ein Computer eines der Verfahren der Ansprüche 1 bis 6 ausführt, wenn das Programm auf dem Computer ausgeführt wird.

8. Computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen (E) für ein automatisiertes Fahrsystem (R), wobei ein Maschinenlernalgorithmus die nach einem der Verfahren der Ansprüche 1 bis 6 erhaltenen Umfeldszenen-Re- präsentationen (HSRV) zusammen mit jeweiligen Referenz-Prädiktionen als Eingangsdatenpaare erhält und basierend auf diesen Eingangsdatenpaare Gradientenbasiert die Prädiktion aus den Umfeldszenen-Repräsentationen (HSRV) lernt.

9. Verfahren nach Anspruch 8, wobei der Maschinenlernalgorithmus eine Encodierer- Decodierer-Struktur umfasst, wobei

• die Umfeldszenen-Repräsentationen (HSRV) encodiert in ein Faltungsnetzwerk eingegeben werden,

• das Faltungsnetzwerk lernt, Interaktionen zwischen Schichten (A-H) der Umfeldszenen-Repräsentation (HSRV), Interaktionen zwischen Verkehrsteilnehmern und/oder Interaktionen zwischen Verkehrsteilnehmer und Umfeldmerkmalen (stat, dyn) darzustellen und in Form eines Ausgabevolumens (V), dessen Höhe und Breite gleich der Größe der Umfeldszenen-Repräsentation ist, auszugeben, wobei aus dem Ausgabevolumen (V) für jeden Verkehrsteilnehmer eine Spalte basierend auf der Pixel-diskreten Position des Verkehrsteilnehmers ermittelt wird und die Spalte mit einem Vektor, der das dynamische Verhalten beschreibt, konkateniert wird,

• aus dem Konkatenieren erhaltenen zusammengesetzten Merkmalsvektoren in prädizierte Trajektorien des Fahrsystems (R) und/oder der Verkehrsteilnehmer decodiert werden.

10. Verfahren nach Anspruch 9, wobei die Encodierer und/oder Decodierer auf Long- Short-Term-Memory Technik basieren.

11 . Verfahren nach Anspruch 9 oder 10, wobei durch generatives adversariales Lernen Rauschvektoren konkateniert werden und durch unterschiedliche Rauschvektoren für identische Trajektorien in der Vergangenheit unterschiedliche Trajektorien in der Zukunft generiert werden.

12. Steuergerät (ECU) für ein automatisiertes Fahrsystem (R)umfassend

• erste Schnittstellen (INT 1 ), über die das Steuergerät (ECU) Umfeldsensordaten des Fahrsystems (R) erhält,

• eine Prozesssiereinheit (P), die aus den Umfeldsensordaten Umfeldmerkmale (S, D) bestimmt, einen nach einem der Verfahren der Ansprüche 7 bis 10 angelernten Maschinenlernalgorithmus ausführt und prädizierte Umfeldszenen erhält und basierend auf den prädizierten Umfeldszenen Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems (R) bestimmt, und

• zweite Schnittstellen (INT2), über die das Steuergerät (ECU) die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems (R) bereitstellt.

21