DE102019204187A1

DE102019204187A1 - Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern

Info

Publication number: DE102019204187A1
Application number: DE102019204187.6A
Authority: DE
Inventors: Antonia Breuer; Jana Kirschner
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2018-11-26
Filing date: 2019-03-27
Publication date: 2020-05-28

Abstract

Ein Verfahren und eine Vorrichtung zur Erkennung taktischer Manöver von Objekten im Umfeld eines Egofahrzeugs umfasst in einer Trainingsphase die Schritte:- Trainieren eines faltendem neuronalen Netzwerks, kurz CNN, basierend- auf zeitlichen Folgen gelabelter Bildausschnitte von Kamerabildern für vorgegebene Objektklassen, wobei jeder Objektklasse eine Menge von vordefinierten Manövern zugeordnet ist, und- auf zeitlichen Folgen optischer Flussbilder erzeugt aus den Folgen gelabelter Bildausschnitte der Kamerabilder, wobei- jede Folge der gelabelten Bildausschnitte der Kamerabilder und die daraus abgeleitete Folge optischer Flussbilder jeweils eine Objektklasse und ein Manöver aus der Menge der vordefinierten Manöver dieser Objektklasse betrifft, und in einer Ausführungsphase die Schritte:- Erkennen von Objekten im Umfeld des Egofahrzeugs, wobei die erkannten Objekte zumindest in Kamerabildern enthalten sind,- Zuordnen von Bildausschnitten der Kamerabilder zu dem jeweiligen erkannten Objekt,- Extrahieren von zeitlichen Folgen der Bildausschnitte der jeweiligen erkannten Objekte und Generieren jeweiliger zeitlicher Folgen optischer Flussbilder zu dem jeweiligen erkannten Objekt aus der zeitlichen Folge der Bildausschnitte,- Zuführen der zeitlichen Folge der Bildausschnitte und der dazugehörigen Folge optischer Flussbilder eines erkannten Objekts an den trainierten CNN zur Bestimmung der Wahrscheinlichkeitsverteilung der taktischen Manöver dieses erkannten Objekts für jedes erkannte Objekt, und- Zuführen der Wahrscheinlichkeitsverteilung für das jeweilige erkannte Objekt an eine autonome Fahrfunktion des Egofahrzeugs.

Description

Die Erfindung betrifft ein Verfahren zur Klassifizierung und temporalen Erkennung von taktischen Fahrmanövern von Verkehrsteilnehmern sowie eine entsprechende Vorrichtung.
Um ein autonomes Fahren zu ermöglichen, ist eine Einschätzung der aktuellen und zukünftigen taktischen Manöver der anderen Verkehrsteilnehmer unabdingbar. Beispiele für derartige Manöver, die das autonome Fahrzeug in seinem Umfeld erkennen muss, sind:

- das andere Fahrzeug biegt links ab oder wird links abbiegen, und
- das andere Fahrzeug parkt aus oder wird ausparken.

Um daher eine legale und sensible Fahrentscheidung mit dem autonomen Fahrzeug treffen zu können, muss man die Verhaltensweisen der anderen Verkehrsteilnehmer erkennen und interpretieren, damit das autonome Fahrzeug auf diese Situationen angemessen und innerhalb der Verkehrsregeln reagieren kann.
Derzeit erfolgt die Einschätzung der Manöver der anderen Verkehrsteilnehmer überwiegend anhand von fusionierten Objektlisten und der Umgebungskarte. Es wird also beispielsweise aufgrund von vergangenen und momentanen Positionen und Beschleunigungen des anderen Verkehrsteilnehmers und aktuellen Umgebungsinformationen, wie beispielsweise dessen Abstand vom Fahrstreifen oder den Winkel des Fahrzeugs zu diesem, auf das zu erwartende Manöver des anderen Verkehrsteilnehmers geschlossen. Es wird also das Manöver des andren Verkehrsteilnehmers an Hand von definierten und damit vorgegebenen Merkmalen klassifiziert.
Um die taktischen Manöver an Hand von fusionierten Objektlisten zu erkennen, müssen diese zunächst berechnet werden, wobei in diesem Berechnungsschritt häufig Daten sozusagen „verloren gehen“. Dies kann beispielsweise dadurch geschehen, dass verschiedene Sensorquellen wie Kamera, Radar und Lidar vorhanden sind, deren Daten fusioniert werden müssen. Im Rahmen dieser Fusionierung werden die unterschiedlichen Sensorquellen entsprechend gewichtet, um Entscheidungen treffen zu können. Die Gewichtung der unterschiedlichen Sensorquellen führt zwangsläufig zu Unstimmigkeiten.
Ferner enthalten derartige Objektlisten eine begrenzte Anzahl von handdefinierten Merkmalen, die auf Expertenwissen basieren. Diese können in der Regel nicht dynamisch erweitert werden und die Rohdaten der Sensoren werden auf diese Merkmale herunter gebrochen, wodurch die Dimension der Daten reduziert wird. Naturgemäß gehen an dieser Stelle Informationen verloren, da eine reduzierte Dimensionalität gleichbedeutend mit einer reduzierten Datenmenge ist.
Um diese Nachteile zumindest teilweise ausgleichen zu können, wurden bislang die Merkmale, die der Bestimmung eines Manövers zur Grund liegen, entsprechend gewählt und erweitert, indem beispielsweise Karteninformationen sowie Abstand zur Spur zusätzlich zu dem Bewegungsvektor des anderen Verkehrsteilnehmers berücksichtigt werden.
So betrifft die Druckschrift DE 10 2017 204 404 B3 ein Verfahren zum Vorhersagen eines Verhaltens zumindest eines Objekts in einer Umgebung eines Kraftfahrzeugs. Dabei werden die Umgebung charakterisierenden Umgebungsdaten erfasst, auf deren Basis eine virtuelle Repräsentation der Umgebung erzeugt wird und anhand derer das Objekt automatisch erkannt wird. Für eine verbesserte Vorhersage des Verhaltens des Objekts wird dieses automatisch klassifiziert. Zudem werden auf der virtuellen Repräsentation der Umgebung und der Klassifizierung des Objekts basierenden Eingangsdaten an ein neuronales Netz bereitgestellt, mittels welchem das Verhalten des Objekts aus den bereitgestellten Eingangsdaten vorhergesagt wird. Die Druckschrift betrifft weiterhin ein Verfahren zum Steuern eines Fahrerassistenzsystems des Kraftfahrzeugs in Abhängigkeit von dem vorhergesagten Verhalten des Objekts.
Die Druckschrift US 10,019,011 B1 betrifft autonome Fahrzeuge und ein darin eingesetztes Verfahren eines maschinenlernenden Vorfahrtsmodell. Das maschinenlernende Vorfahrtsmodell kann trainiert oder anderweitig dazu ausgelegt sein, um Merkmalsdaten, die von dem autonomen Fahrzeug wahrgenommenen Objekte oder das umgebende Umfeld beschreiben, zu empfangen und zu verarbeiten und als Reaktion auf den Empfang dieser Merkmalsdaten Vorfahrtsentscheidungen bezüglich dieser Objekte für das autonome Fahrzeug bereitzustellen. Beispielsweise kann eine Vorfahrtentscheidung für ein erstes Objekt ein Vorfahrtsverhalten für das autonome Fahrzeug gegenüber dem Objekt bewirken, also Vorfahrt dem ersten Objekt gewähren oder eben keine Vorfahrt dem ersten Objekt gewähren. Beispielsobjekte umfassen Verkehrssignale, weitere Fahrzeuge oder andere Objekte. Daher kann die Bewegung des autonomen Fahrzeugs durch die von dem maschinenlernenden Vorfahrtsverfahren bereitgestellten Vorfahrtsentscheidungen gesteuert werden.
Die Druckschrift WO 2018/142394 A2 beschreibt ein Verfahren zum Betreiben eines Fahrzeugs. Dabei erfasst das Verfahren das Umfeld des Fahrzeugs durch zumindest einen Sensor des Fahrzeugs, wobei das Umfeld mindestens ein dynamisches Objekt enthält, schätzt eine voraussichtliche Kollision mit dem dynamischen Objekt mit der zukünftigen Bewegung des Fahrzeugs ab, wobei die Abschätzung auf Informationen basiert, die in einer dynamischen Datenbank abgelegt sind, wobei die Information eine voraussichtliche Bewegung des dynamischen Objekts betrifft, und führt einen fahrtbezogenen Betrieb des Fahrzeugs aus basierend auf der voraussichtlichen Kollision.
Die Veröffentlichung von G. Varol, I. Laptev, and C. Schmid : „Long-term Temporal Convolutions for Action Recognition“, arXiv: 1604.04494v2 [cs.CV], beschreibt Verfahren zur Erkennung menschlicher Aktionen und Vorgänge mittels faltender neuronaler Netzwerke mit langfristigen temporären Faltungen (Convolutional neural networks with long-term temporal convolutions: LTC-CNN).
Der Erfindung liegt daher die Aufgabe zugrunde, die Klassifizierung und temporale Erkennung von taktischen Fahrmanövern anderer Verkehrsteilnehmern zu verbessern.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine entsprechende Vorrichtung mit den Merkmalen des Anspruchs 12 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Das erfindungsgemäße Verfahren zur Erkennung taktischer Manöver von Objekten im Umfeld eines Egofahrzeugs, wobei das Verfahren eine Trainingsphase und eine Ausführungsphase aufweist, umfasst in der Trainingsphase die Schritte:

- Trainieren eines faltendem neuronalen Netzwerks, kurz CNN, basierend
- - auf zeitlichen Folgen gelabelter Bildausschnitte von Kamerabildern für vorgegebene Objektklassen, wobei jeder Objektklasse eine Menge von vordefinierten Manövern zugeordnet ist, und
- - auf zeitlichen Folgen optischer Flussbilder erzeugt aus den Folgen gelabelter Bildausschnitte der Kamerabilder, wobei
- - jede Folge der gelabelten Bildausschnitte der Kamerabilder und die daraus abgeleitete Folge optischer Flussbilder jeweils eine Objektklasse und ein

Manöver aus der Menge der vordefinierten Manöver dieser Objektklasse betrifft, und umfasst in der Ausführungsphase die Schritte:

- Erkennen von Objekten im Umfeld des Egofahrzeugs, wobei die erkannten Objekte zumindest in Kamerabildern enthalten sind,
- Zuordnen von Bildausschnitten der Kamerabilder zu dem jeweiligen erkannten Objekt,
- Extrahieren von zeitlichen Folgen der Bildausschnitte der jeweiligen erkannten Objekte und Generieren jeweiliger zeitlicher Folgen optischer Flussbilder zu dem jeweiligen erkannten Objekt aus der zeitlichen Folge der Bildausschnitte,
- Zuführen der zeitlichen Folge der Bildausschnitte und der dazugehörigen Folge optischer Flussbilder eines erkannten Objekts an den trainierten CNN zur Bestimmung der Wahrscheinlichkeitsverteilung der taktischen Manöver dieses erkannten Objekts für jedes erkannte Objekt, und
- Zuführen der Wahrscheinlichkeitsverteilung für das jeweilige erkannte Objekt an eine autonome Fahrfunktion des Egofahrzeugs.

Auf diese Weise ist es möglich taktische Manöver anderer Verkehrsteilnehmer allein aus den optischen Kamerabildern abzuleiten, ohne dass Trajektorien der anderen Verkehrsteilnehmer berechnet und berücksichtigt werden müssen.
Vorzugsweise wird zusätzlich eine gelabelte segmentierte zeitliche Pixelfolge dem CNN in der Trainingsphase zugeführt. In der Ausführungsphase wird dann aus der zeitlichen Folge der Bildausschnitte eines erkannten Objekts eine diesbezügliche segmentierte Pixelfolge generiert und dem trainierten CNN zugeführt. Dabei bedeutet die Pixelsegmentierung, dass jedem Pixel des Bildausschnitts eine Klasse oder Zuordnung zugewiesen wird, so dass erkennbar ist, ob das Pixel zur Fahrbahn, zum Fahrzeug, zu einem Gebäude, zu einer Person etc. im Bildausschnitt gehört.
Vorzugsweise werden zumindest die Objektklassen „Fahrzeuge“, „Fußgänger“ und „Fahrräder“ betrachtet. Weitere Objektklassen oder eine weitere Unterteilung einer Objektklasse sind möglich.
Vorzugsweise wird für jede Objektklasse ein CNN trainiert, was den allgemeinsten Fall darstellt. Insbesondere kann aber auch für alle Objektklassen ein gemeinsames CNN trainiert werden, wodurch die Komplexität des Verfahrens verringert wird.
Weiter bevorzugt sind die verwendeten Kamerabilder zur Generierung der Folge von Bildausschnitten entweder Grauwertbilder oder Farbbilder. Mit anderen Worten, es kann eine einfache Graubildkamera verwendet werden, was Kostenvorteile hat oder es kommt eine Farbbildkamera zum Einsatz.
Vorzugsweise werden erkannte Objekte im Umfeld des Egofahrzeugs getrackt, um eine zeitliche Folge von Bildausschnitten bezüglich des erkannten Objekts zu generieren. Es werden also erkannte Objekte zeitlich nachverfolgt.
Weiter bevorzugt werden zum Erkennen eines Objekts im Umfeld des Egofahrzeugs Daten von unterschiedlichen Umfeldsensoren erfasst und die Daten der unterschiedlichen Umfeldsensoren werden fusioniert, um ein Objekt zu erkennen.
Weiter bevorzugt wird zur Menge der vordefinierten Manöver jeder Objektklasse das Manöver „unbekanntes Manöver“ zugefügt, wodurch sich ein klareres Bild der Wahrscheinlichkeitsverteilung in kritischen Fällen ergibt.
Weiter bevorzugt werden die erkannten Objekte im CNN mittels der Folgen der Bildausschnitte für erkannte Objekte einschließlich der zugehörigen optischen Flussbilder und optional der segmentierten Pixelbilder nacheinander separat abgehandelt. Mit anderen Worten, es wird zunächst ein erstes erkanntes Objekt abgehandelt, dann ein weiteres erkanntes Objekt, usw., bis aller erkannten Objekte hinsichtlich ihrer Manöver beurteilt sind. Dabei stellt der Begriff „erstes erkanntes Objekt“ nicht notwendigerweise auf den Zeitpunkt der Erkennung ab, sondern es soll ausgedrückt werden, dass die erkannten Objekte einer nach dem anderen im CNN abgehandelt werden.
Vorzugsweise werden die erkannten Objekte einer Relevanzprüfung unterzogen, um die Relevanz jedes erkannten Objekts für das Egofahrzeug festzustellen. Die erkannten Objekte werden dann im CNN als Funktion ihrer Relevanz abgehandelt. Mit anderen Worten, das Objekt, welches für das Egofahrzeug am relevantesten ist, wird zuerst betrachtet und ist dann sozusagen das „erste“ Objekt. Das zweite Objekt ist dann für das Egofahrzeug weniger relevante, usw. Liefert beispielsweise die Objektfusion zwei Objekte, wovon eines 40m vom Egofahrzeug entfernt ist und das andere nur 4m vom Egofahrzeug entfernt ist, so ist offensichtlich, dass das nähere Objekt für das Egofahrzeug relevanter ist als das entferntere Objekt. Folglich wird das nähere Objekt zuerst analysiert.
Die erfindungsgemäße Vorrichtung zur Erkennung taktischer Manöver von Objekten im Umfeld eines Egofahrzeugs, wobei die Vorrichtung zur Durchführung des im Vorangegangenen erläuterten Verfahrens, umfasst

- eine Umfeldsensorik zum Erfassen des Umfelds des Egofahrzeugs mittels Generierung von Umfelddaten, wobei die Umfeldsensorik mindestens eine optische Kamera umfasst,
- eine Wahrnehmungseinrichtung zum Erkennen von Objekten im Umfeld des Egofahrzeugs, zum Tracken erkannter Objekte und zum Generieren der zeitlichen Folgen von Bildausschnitten der jeweiligen erkannten Objekte,
- eine CNN zum Verarbeiten der zeitlichen Folgen von Bildausschnitten,
- eine Einrichtung zum Aufnehmen der Wahrscheinlichkeitsverteilung über die Menge der Manöver eines zugeführten Objekts, und
- eine autonomen Fahrfunktion, die die Wahrscheinlichkeitsverteilung des jeweiligen erkannten Objekts berücksichtigt.

Vorzugsweise wird die mindestens eine optische Kamera durch eine Graubildkamera oder eine Farbbildkamera gebildet.
Ferner kann die Vorrichtung eine Einrichtung zur Prüfung der Relevanz der erkannten Objekte umfassen, so dass die erkannten Objekte als Funktion ihrer Relevanz bezüglich des Egofahrzeugs zur Manövererkennung im CNN abgehandelt werden können.
Zusammenfassend werden also Kamerarohdaten von getrackten Objekten als Grundlage für die Manövererkennung verwendet.
In einer Vorstufe werden anhand dieser Kamerarohdaten Objekte erkannt und nachverfolgt, also getrackt, so dass die Rohdaten zum Zeitpunkt t einem bestimmten Objekt zugeordnet werden können. Ein Beispiel hierfür wäre eine Abfolge von Kamerabildern für ein und das gleiche Objekt.

- Es müssen daher Objekte in den Rohdaten erkannt und die Rohdaten entsprechend den definierten Objektklassen zugeordnet werden. Mit anderen Worten, bei den Kamerabildern müssen im Bild Verkehrsteilnehmer wie beispielsweise Fahrzeuge oder Autos erkannt werden.
- Weiterhin müssen die erkannten Objekte zeitlich nachverfolgt werden. Wenn der Algorithmus folglich weiß, dass diverse Bildausschnitte beispielsweise im Gesamtbild zu den unterschiedlichen Zeitpunkt t und t+1 zu dem Objekt „Auto“ gehören, so können die Bildausschnitte von ein und demselben Objekt miteinander assoziiert werden.

Auf Grund dieser Eingabedaten wird dann ein neuronales Netz trainiert, welches anhand von gelabelten Daten im überwachten Lernen („supervised learning“) lernt Manöver zu erkennen.
Hierfür werden die Rohdaten für ein bestimmtes Objekt, beispielsweise Bildausschnitte eines Fahrzeugs, in der Rohdatenbildfolge über die Zeit in das neuronale Netz eingespeist, wobei auch ein neuronales Netz verwendet werden kann, welches sich zeitliche Informationen „merken“ kann („LSTM“s).
Eine Ausgabe dieses neuronalen Netzes könnte beispielsweise eine Wahrscheinlichkeitsverteilung über die vordefinierten Klassen sein, so dass das Ergebnis für ein beispielsweise vorausfahrendes Objekt „Fahrzeug“ wäre:

- das Fahrzeug parkt zu 10% ein, biegt zu 50% rechts ab und fährt zu 40% geradeaus.

Im Lernprozess, also in der Trainingsphase, wird die berechnete Ausgabe dann mit den gelabelten Daten verglichen, sodass das neuronale Netz dynamisch die „wahren“ Werte lernt.
In der Ausführungsphase wird dann das trainierte neuronale Netz auf aktuelle Kamerarohdaten der Umfeldsensorik angewendet, um die Manöver der erkannten Objekte im Umfeld des Egofahrzeugs rein aus Bildausschnitten von Kamerabildern bestimmen zu können.
Eine bevorzugte Ausführungsform der Erfindung wird nachfolgend anhand der Zeichnungen erläutert. Dabei zeigt

1 eine beispielhafte Verkehrsszene zu einem ersten Zeitpunkt,
2 die beispielhafte Verkehrsszene zu einem späteren Zeitpunkt,
3 das Verfahren zur Bestimmung taktischer Manöver eines anderen Verkehrsteilnehmer in schematischer Darstellung, und
4 die Erkennung taktischer Manöver anderer Verkehrsteilnehmer in einem Egofahrzeug.

1 zeigt das Kamerabild 1 einer Verkehrsszene zu einem ersten Zeitpunkt t-h, wobei h ein vorgegebenes Zeitintervall ist, wie sie beispielsweise von einer in Fahrtrichtung nach vorne gerichteten Kamera eines Egofahrzeugs (nicht dargestellt) aufgenommen wird. Eine Fahrbahn 2 weist zwei in Fahrtrichtung des Egofahrzeugs verlaufende Fahrspuren 3, 4 auf, wobei die linke Fahrspur 4 durch eine durchgezogen Linie 5 von der in entgegengesetzter Richtung verlaufenden Fahrspur 6 getrennt ist und zwischen der linken und der rechten Fahrspur 3, 4 eine durchgezogene Linie 7 verläuft. Rechts von der rechten Fahrspur 3 verläuft ein für Fußgänger reservierter Gehweg 8, der durch einen Randstein 9 von der Fahrbahn 2 getrennt ist.
Auf der rechten Fahrspur 3 befindet zum Zeitpunkt t-h vor der Frontkamera des Egofahrzeugs in dessen Fahrtrichtung ein Fahrzeug 10, in diesem Fall ein Transporter, dem im Kamerabild 1 eine Rahmenbox 11 zugeordnet wird, die die Silhouette des Fahrzeugs 10 umfasst. Ferner bewegt sich auf der linken Fahrspur 4 ein weiteres Fahrzeug 12 in Fahrtrichtung, wobei dem Fahrzeug 12 ebenfalls eine Rahmenbox zugeordnet ist. Im Kamerabild 1 ist auf dem Gehweg 8 ein Fußgänger 14 zu erkennen, dem ebenfalls eine Rahmenbox 15 zugeordnet ist. Weiter in Fahrtrichtung ist noch eine Ampel 16 mit einem Verkehrszeichen zu erkennen, die an einer Einmündung einer Fahrbahn 17 angeordnet ist.
2 zeigt die oben geschilderte Verkehrssituation im Kamerabild 1 des Egofahrzeugs zu einem späteren Zeitpunkt t. Mit anderen Worten , die in der 1 detektierten Objekte Fahrzeug 10, Fahrzeug 12 und Fußgänger 14 haben sich weiterbewegt. So ist aus derm Kamerabild 1 ersichtlich, dass sich das auf der Fahrspur 3 befindliche Fahrzeug 10 an der die Einmündung 17 steuernde Ampel 16 angekommen ist, das Fahrzeug 12 auf der Fahrspur 4 hat den Bereich der Einmündung 17 passiert und der Fußgänger 14 auf dem Fußweg 8 hat den Bereich der Ampel 16 an der Einmündung 17 erreicht.
Der zeitliche Abstand h zwischen der Verkehrssituation der 1 und derjenigen der 2 beträgt beispielsweise zwischen 0,5 und 5 Sekunden. Innerhalb dieses Zeitintervalls h gibt es eine Folge von Kamerabildern 1, mittels denen das Verhalten der Objekte verfolgt oder getrackt werden kann, um beispielsweise anhand der Veränderung der Position eines Objekts auf dessen künftiges Verhalten schließen zu können. Dazu werden innerhalb der Folge der Kamerabilder 1 die Rahmenboxen 11, 13 und 15 der Objekte 10, 12 und 14 extrahiert und betrachtet, um aus der zeitlichen Abfolge der Rahmenboxen 11, 13, 15, also den getrackten Rahmenboxen, extrahieren zu können, welches taktische Manöver jedes Objekt 10, 12, 14 wahrscheinlich auszuführen gedenkt.
Um taktische Manöver eines Objekts feststellen zu können, werden die in nachfolgenden Tabelle 1 aufgeführten Objektklassen „Fahrzeuge“, „Fußgänger“ und „Fahrräder“ definiert. Weitere Objektklassen können hinzugefügt werden, beispielsweise könnte die Objektklasse „Fahrzeuge“ weiter spezifiziert werden in „Personenkraftwagen“, „Motorräder“ und „Lastkraftwagen“. Für jede dieser Objektklassen wird dann eine Menge taktischer Manöver festgelegt, die die Mehrzahl an Fahrmanövern einer Objektklasse abdecken. Nicht in der nachfolgenden Tabelle 1 aufgeführte taktischen Manöver können beispielsweise in einer Klasse „unbekanntes Manöver“ zusammengefasst werden.
Die in der Tabelle 1 aufgeführten Manöver der einzelnen Objektklassen sind selbsterklärend und betreffen die Manöver eines Objekts hinsichtlich eines Egofahrzeugs in dessen Umfeld, wobei die Manöver aus der Sicht des jeweiligen Objekts definiert sind. So kann ein Objekt „Fahrzeug“ den Fahrweg des Egofahrzeugs kreuzen, dem Egofahrzeug entgegenkommen, Parken, dem Egofahrzeug vorausfahren, links oder rechts abbiegen, beispielswiese vor einer Ampel halten oder die Fahrspur wechseln.
Dies soll anhand eines Beispiels verdeutlicht werden. Dem Egofahrzeug kommt ein Fahrzeug entgegen. Das Manöver „Links abbiegen“ des entgegenkommenden Fahrzeugs bedeutet, dass das entgegenkommende Fahrzeug für das Egofahrzeug nach rechts fährt.

Bezüglich der Objektklasse „Fußgänger“ ist es für das Egofahrzeug nur wichtig zu wissen, ob der Fußgänger die Fahrbahn kreuzt, beispielsweise an einem Zebrastreifen, oder ob er sich auf der Fahrbahn befindet oder nicht. Die Manöver der Objektklasse „Fahrrad“ entsprechen bis auf das Manöver „Spurwechsel“ denjenigen der Objektklasse „Fahrzeug“. Das Manöver „Spurwechsel“ ist für die Objektklasse „Fahrräder“ nicht berücksichtigt, da Fahrräder üblicherweise auf mehrspurigen Fahrbahnen nicht üblich sind. Tabelle 1: Objektspezifische Manöver für die Objektklassen „Fahrzeuge“, „Fußgänger“ und „Fahrräder“

Fahrzeuge	Fußgänger	Fahrräder
Kreuzen	Kreuzen	Kreuzen
Entgegenkommen	Nicht auf der Straße	Entgegenkommen
Parken		Parken
Vorausfahren		Vorausfahren
Abbiegen links		Abbiegen links
Abbiegen rechts		Abbiegen rechts
Warten		Warten
Spurwechsel

3 zeigt in schematischer Darstellung das Training eines faltenden neuronalen Netzwerks 23 (Convolutional Neural Network), wofür im Folgenden der Begriff CNN 23 verwendet wird.
Das CNN 23 wird eingangsseitig trainiert mit diversen Folgen bzw. Sequenzen von getrackten Objektbildern 20, die gelabelt sind und als Sequenz ein Manöver einer Objektklasse beinhalten. Eine Sequenz von Objektbildern ergibt sich, wenn man beispielsweise die zeitliche Abfolge der Rahmenbox 11 des Fahrzeugs 10 in den 1 und 2 betrachtet. So könnte beispielsweise die Zeitpunkte t-h und t der Kamerabilder 1 der 1 und 2 ein Folge von sechzehn Rahmenboxen 10 des Objekts „Fahrzeug 11“ definieren, die beispielsweise das Manöver „Vorausfahren“ festlegen, d.h. labeln.
Diese Objektbildfolge 20 des getrackten Objekts „Fahrzeug 11“ dient als erste Eingangssequenz zum Trainieren des CNN 23, wobei die Objektbildfolge 20 als Graubild oder als Farbbild, insbesondere als RGB-Bildfolge, vorliegen kann. Diese erste Eingangsfolge wird also aus den aus den Kamerabildern 1 extrahierten Rahmenboxen 11 des Objektes 10 gebildet und stellen sozusagen die Rohdaten dar, wobei in 3 symbolisch eine Folge von vier Bildern dargestellt ist.
Als zweite Eingangssequenz 21 wird der optische Fluss 21 der Objektbildfolge 20 bestimmt und liegt als gelabelte Folge zum Trainieren des Manövers „Vorausfahren“ am CNN 23 an. Zur Bestimmung des optisches Flusses aus den einzelnen Bildern der Objektbildfolge 20 zur Bestimmung der zweiten Eingangssequenz 21 kann auf das Lucas-Kanade-Verfahren oder das Horn-Schunk-Verfahren zurückgegriffen werden.
Ein dritter optionaler Eingang 22 für das CNN 23 ist die segmentierte Objektbildfolge 22, in welcher jedem Pixel der entsprechenden Rahmenbox 11 eine Klassifizierung zugeordnet wird. So erhält ein Pixel der Rahmenbox 11 in 1 die Klassifizierung „Fahrzeug“, wenn dieser in den Bildbereich des Fahrzeugs fällt. Ein anderer Pixel des Rahmenbox 11 kann beispielsweise die Klassifizierung „Fahrbahn“ erhalte, wenn er im Bild zur Fahrbahn gehört. Um ausreichend zwischen den Pixeln einer Rahmenbox 11, 13 oder 15 unterscheiden zu können, ist die Größe der Rahmenbox variabel ausgelegt.
Weitere Eingangssequenzen neben den drei genannten zum Trainieren des CNN 23 sind zwar möglich, aber es hat sich herausgestellt, dass anhand der gelabelten Objektbildfolge 20 und der entsprechenden optischen Flussfolge 21 ein Trainieren des CNN 23 möglich ist. Ferner kann der CNN 23 einen optionalen temporären Informationsspeicher aufweisen (temporal information storage oder long short-term memories, kurz LSTM).
Der Ausgang des CNN 23 wird durch die Wahrscheinlichkeitsverteilung 24 über die Menge der vordefinierten Manöver einer Objektklasse gebildet. Mit anderen Worten, als Funktion der Eingänge 20, 21 und 22 wird die Wahrscheinlichkeitsverteilung über die in Tabelle 1 gegebenen möglichen vordefinierten Manöver ausgegeben. Als Ausgabe der Rahmenbox 11 des Fahrzeugs 10 in den 10 und 12 hat dann beispielsweise das Manöver „Vorausfahren“ die höchste Wahrscheinlichkeit.
Anhand einer Vielzahl von gelabelten Eingangssequenzen, wie sie beispielhaft anhand der 1 und 2 erläutert werden, basierend auf Mengen vordefinierter Manöver kann ein Trainieren des CNNs 23 erfolgen. Dabei ist herauszustellen, dass das CNN 23 für alle Objektklassen der Tabelle 1 und deren vordefinierte Manöver trainiert ist. Möglich ist auch, dass für jede Objektklasse separat ein neuronales Netz trainiert wird.
4 zeigt die Anwendung eines derart trainierten CNNs 23 in einem autonomen Egofahrzeug (nicht dargestellt). Das Egofahrzeug weist eine Umfeldsensorik 25 mit Sensorelementen auf, die zumindest eine optische Kamera umfasst, die zur Erfassung des Umfelds des Egofahrzeugs dient. Weitere Sensorelemente, wie beispielsweise ein Laserscanner oder Radarscanner, können Bestandteil der Umfeldsensorik 25 sein.
Die von der Umfeldsensorik 25 erzeugten Umfelddaten werden einer Wahrnehmungseinrichtung 26 zugeführt, die die Umfelddaten nach Objekten durchsucht. Wurden Objekte in den aktuellen Daten gefunden, wie die Objekte 10, 12 und 14 in den 1 und 2, so erfolgt ein Tracken der Objekte in den nachfolgenden Daten. Dabei können zur Detektion von Objekten die Daten der verschiedenen Sensorelemente fusioniert werden. Wird beispielsweise in den Daten einer Kamera ein erstes Objekt und in den Daten eines Laserscanners ein zweites Objekt erkannt, wobei es sich um identische Objekte handelt, so führt die Fusionierung dieser Daten zu einem 3D-Objekt eines Fahrzeugs, Fahrrads oder Fußgängers. Aufgrund der Kalibrierung der Kamera können die erkannten 3D-Objekte in die Bildausschnitte der Kamerabilder zurückprojiziert werden, wodurch in den einzelnen Kamerabildern die jeweiligen Rahmenboxen 11, 13, 15 der Objekte 10,12, 14 ermittelt werden können.
Aus der Abfolge der Rahmenboxen eines erkannten Objekts in den Kamerabildern generiert sich die optische Bildfolge 20 von Bildausschnitten des getrackten Objekts, die einen Eingang des CNNs bildet. Aus der so generierten optischen Bildfolge 20 wird für jedes Bild, im Beispiel der 1 und 2 also die Rahmenboxen 11, 13, 15 der Objekte 10, 12, 14, der optische Fluss bestimmt, wodurch sich die optische Flussfolge 21 ergibt, die den zweiten Eingang des CNNs bildet. Optional kann noch die Segmentierung jedes Bildes der optischen Bildfolge 20 erfolgen, wodurch sich die segmentierte Folge 22 des jeweiligen getrackten Objekts ergibt.
Die drei Folgen von Bildausschnitten für ein erkanntes Objekt werden durch das trainierte CNN ausgewertet und als Ausgabe ergibt sich die Wahrscheinlichkeitsverteilung der Manöver für dieses erkannte und getrackte Objekt, wobei die Wahrscheinlichkeitsverteilung in der Form einen eindimensionalen Vektors vorliegt, und jede Vektorkomponente die Wahrscheinlichkeit für eines der in Tabelle 1 genannten Manövers für eine Objektklasse wiedergibt.
Im Fall eines Objekts „Fahrzeug“ hat der Vektor für die Manöver der Tabelle 1 daher 8 Komponenten, im Fall des Objekts „Fußgänger“ 2 Komponenten und im Fall des Objekts „Fahrrad“ 7 Komponenten, wobei es in diesem Beispiel kein Fall eines „unbekannten Manövers“ gibt.
Aus den Kamerarohdaten werden daher für getrackte Objekte zumindest die beiden ersten Folgen 20 und 21, d.h. die Rohdatenfolge 20 und der optische Fluss 21 ermittelt und zur Bestimmung des Manövers des erkannten Objekts dem trainierten CNN 23 zur Manövererkennung zugeführt. Optional kann es sich bei dem CNN 23 um ein solches handeln, welches sich zeitliche Informationen „merken“ kann. Mit anderen Worten, dem CNN 23 sind sogenannte „long short-term memories“, kurz LSTMs zugefügt.
Die von CNN 23 bereitgestellte Wahrscheinlichkeitsverteilung 24, also der Wahrscheinlichkeitsvektor, für das getrackte Objekt wird einer autonomen Fahrfunktion 27 des Egofahrzeugs zugeführt, welche die Wahrscheinlichkeitsverteilung 24 der verschiedenen Manöver des jeweiligen Objekts der Fahrplanung des Egofahrzeugs zugrunde legt. Insbesondere kann das wahrscheinlichste taktische Manöver als Grundlage der Fahrplanung dienen.
Wenn beispielsweis ein Fußgänger zu 20% die Straße überquert u d zu 80% nicht, so kann die Fahrplanung des Egofahrzeugs dies berücksichtigen und die geplante Trajektorie derart auslegen, dass die Fahrplanung für die 20%-Wahrscheinlichkeit eine unkomfortable Reaktion plant und für die 80%-Wahrscheinlichkeit eine fahrdynamisch komfortable Trajektorie plant.
Bezugszeichenliste

1: Kamerabild
2: Fahrbahn
3: Fahrspur rechts
4: Fahrspur links
5: Fahrbahnmarkierung
6: Fahrbahn in entgegengesetzter Richtung
7: Fahrspurmarkierung
8: Gehweg
9: Randstein
10: Fahrzeug
11: Bildausschnitt / Rahmenbox
12: Fahrzeug
13: Bildausschnitt / Rahmenbox
14: Fußgänger
15: Bildausschnitt / Rahmenbox
16: Ampel mit Verkehrsschild
17: Einmündung
20: Folge getrackter Objektbilder
21: optische Fluss der getrackten Objektbildfolge
22: Segmentierte Pixelfolge der Objektbildfolge
23: Faltendes neuronales Netzwerk (Convolutional Neural Network)
24: Wahrscheinlichkeitsverteilung der Manöver eines Objekts
25: Umfeldsensorik des Egofahrzeugs
26: Objektwahrnehmung
27: autonome Fahrfunktion des Egofahrzeugs

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017204404 B3 [0008]
US 10019011 B1 [0009]
WO 2018/142394 A2 [0010]

Claims

Verfahren zur Erkennung taktischer Manöver von Objekten (10, 12, 14) im Umfeld eines Egofahrzeugs, wobei das Verfahren eine Trainingsphase und eine Ausführungsphase aufweist, mit den Schritten in der Trainingsphase: Trainieren zumindest eines faltendem neuronalen Netzwerks (23), kurz CNN, basierend - auf zeitlichen Folgen gelabelter Bildausschnitte von Kamerabildern für vorgegebene Objektklassen, wobei jeder Objektklasse eine Menge von vordefinierten Manövern zugeordnet ist, und - auf zeitlichen Folgen optischer Flussbilder erzeugt aus den Folgen gelabelter Bildausschnitte der Kamerabilder, wobei - jede Folge der gelabelten Bildausschnitte der Kamerabilder und die daraus abgeleitete Folge optischer Flussbilder jeweils eine Objektklasse und ein Manöver aus der Menge der vordefinierten Manöver dieser Objektklasse betrifft, und den Schritten in der Ausführungsphase: - Erkennen von Objekten (10, 12, 14) im Umfeld des Egofahrzeugs, wobei die erkannten Objekte zumindest in Kamerabildern enthalten sind, - Zuordnen von Bildausschnitten der Kamerabilder zu dem jeweiligen erkannten Objekt, - Extrahieren von zeitlichen Folgen der Bildausschnitte der jeweiligen erkannten Objekte und Generieren jeweiliger zeitlicher Folgen optischer Flussbilder zu dem jeweiligen erkannten Objekt aus der zeitlichen Folge der Bildausschnitte, - Zuführen der zeitlichen Folge der Bildausschnitte (20) und der dazugehörigen Folge optischer Flussbilder (21) eines erkannten Objekts an den trainierten CNN (23) zur Bestimmung der Wahrscheinlichkeitsverteilung (24) der taktischen Manöver dieses erkannten Objekts (10, 12, 14) für jedes erkannte Objekt (10, 12, 14), und - Zuführen der Wahrscheinlichkeitsverteilung (24) für das jeweilige erkannte Objekt an eine autonome Fahrfunktion des Egofahrzeugs.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zusätzlich ein gelabelte segmentiert zeitliche Pixelfolge (22) dem CNN (23) in der Trainingsphase zugeführt wird und in der Ausführungsphase aus der zeitlichen Folge der Bildausschnitte (20) eines erkannten Objekts (10, 12, 14) eine diesbezügliche segmentierte Pixelfolge generiert wird und dem CNN (23) zugeführt wird.
Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die zumindest die Objektklassen „Fahrzeuge“, „Fußgänger“ und „Fahrräder“ betrachtet werden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass für jede Objektklasse ein CNN (23) trainiert wird.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass für alle Objektklassen ein CNN (23) trainiert wird.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Kamerabilder zur Generierung der Folge von Bildausschnitten Grauwertbilder oder Farbbilder sind.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass erkannte Objekte (10, 12, 14) im Umfeld des Egofahrzeugs getrackt werden, um eine zeitliche Folge von Bildausschnitten bezügliche des erkannten Objekts (10, 12, 14) zu generieren.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass zum Erkennen eines Objekts (10, 12, 14) im Umfeld des Egofahrzeugs Daten von unterschiedlichen Umfeldsensoren erfasst werden und die Daten der unterschiedlichen Umfeldsensoren fusioniert werden, um ein Objekt (10, 12, 14) zu erkennen.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass zur Menge der vordefinierten Manöver jeder Objektklasse das Manöver „unbekanntes Manöver“ zugefügt wird.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die erkannten Objekte im CNN (23) mittels der Folgen der Bildausschnitte für erkannte Objekte (10, 12, 14) einschließlich der zugehörigen optischen Flussbilder und optional der segmentierten Pixelbilder nacheinander separat abgehandelt werden.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die erkannten Objekte (10, 12, 14) einer Relevanzprüfung unterzogen werden und die Abhandlung der erkannten Objekte (10, 12, 14) eine Funktion der Relevanz der erkannten Objekte (10, 12, 14) ist.
Vorrichtung zur Erkennung taktischer Manöver von Objekten (10, 12, 14) im Umfeld eines Egofahrzeugs, wobei die Vorrichtung zur Durchführung des Verfahrens nach einem der vorangegangenen Ansprüche eingerichtet und ausgelegt ist, mit - einer Umfeldsensorik (25) zum Erfassen des Umfelds des Egofahrzeugs mittels Generierung von Umfelddaten, wobei die Umfeldsensorik mindestens eine optische Kamera umfasst, - einer Wahrnehmungseinrichtung (26) zum Erkennen von Objekten (10, 12, 14) im Umfeld des Egofahrzeugs, zum Tracken erkannter Objekte (10, 12, 14) und zum Generieren der zeitlichen Folgen von Bildausschnitten der jeweiligen erkannten Objekte (10, 12, 14), - einem CNN (23) zum Verarbeiten der zeitlichen Folgen von Bildausschnitten, - einer Einrichtung zum Aufnehmen der Wahrscheinlichkeitsverteilung über die Menge der Manöver eines zugeführten Objekts (10, 12, 14), und - einer autonomen Fahrfunktion (27), die die Wahrscheinlichkeitsverteilung des jeweiligen erkannten Objekts (10, 12, 14) berücksichtigt.
Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die optische Kamera durch eine Graubildkamera oder durch eine Farbbildkamera gebildet wird.
Vorrichtung nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass die Vorrichtung eine Einrichtung zur Prüfung der Relevanz der erkannten Objekte (10, 12, 14) umfasst.