DE102020006564A1

DE102020006564A1 - Verfahren zum Labeling von Fußgängern in einem Bild

Info

Publication number: DE102020006564A1
Application number: DE102020006564.3A
Authority: DE
Inventors: Nick Schneider; Nicolai Schneider; Marius Cordts
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-14

Abstract

Die Erfindung betrifft ein Verfahren zum Labeling von Fußgängern (PD) in einem Bild, wobei ein Labelingsystem in Form eines maschinenlesbaren Labeling-Graphen (LGG) verwendet wird, in dem Klassenlabel als Knoten (N) und Beschränkungen von Klassenlabeln untereinander als Kanten (E) vorgesehen sind, wobei zumindest die Klassenlabel Fußgänger (PD), Gebäude (B), Haltestellenhäuschen (BS), Werbetafel (A), Fahrzeug (VL), Straße (R) und Himmel (S) vorgesehen sind, wobei folgende Beschränkungen für das Labeling als Fußgänger (PD) gelten:Ein Fußgänger (PD) befindet sich niemals innerhalb eines Gebäudes (B) und ist niemals mit einem Gebäude (B) oder einer Werbetafel (A) verbunden, die wiederum selbst niemals an oder auf einem Gebäude (B) befindlich sein kann, ein Fußgänger (PD) ist immer oberhalb der Straße (R) und niemals oberhalb des Himmels (S), wobei die Straße (R) ebenfalls nie oberhalb des Himmels (S) ist, ein Fußgänger (PD) ist niemals innerhalb eines Fahrzeugs (V), das sich selbst niemals oberhalb des Himmels (S) oder hinter einem Haltestellenhäuschen (BS) befinden kann, ein Fußgänger (PD) befindet sich niemals hinter einem Haltestellenhäuschen (BS), kann sich aber davor befinden oder befindet sich überwiegend davor, der Himmel (S) befindet sich niemals in einem Fahrzeug (V), das sich niemals oberhalb des Himmels (S) befindet.

Description

Die Erfindung betrifft ein Verfahren zum Labeling von Fußgängern in einem Bild gemäß Anspruch 1.
Die DE 10 2018 220 892 A1 offenbart ein Verfahren und ein Labelingsystem zum Erzeugen eines Labels zur symbolischen Beschreibung eines Objekts eines Umfelds eines mobilen Gerätes, z.B. eines Roboters oder Fahrzeugs. Das Label umfasst mindestens ein Attribut eines Objekts zu einem ersten Zeitpunkt, aus Beobachtungen dieses Objekts. Das Verfahren weist folgende Schritte auf:

- Auswählen, aus den Beobachtungen, einer ersten, zu dem ersten Zeitpunkt erfassten Beobachtung, einer zweiten, zu einem zweiten Zeitpunkt erfassten Beobachtung, wobei der zweite Zeitpunkt ein Zeitpunkt vor dem ersten Zeitpunkt ist, sowie einer dritten, zu einem dritten Zeitpunkt erfassten Beobachtung, wobei der dritte Zeitpunkt ein Zeitpunkt nach dem ersten Zeitpunkt ist;
- Ermitteln, unter Heranziehung der ausgewählten Beobachtungen von mindestens einem Attribut des Objekts.

Der Erfindung liegt die Aufgabe zu Grunde, ein verbessertes Verfahren zum Labeling von Fußgängern in einem Bild anzugeben.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Bei einem erfindungsgemäßen Verfahren zum Labeling von Fußgängern in einem Bild wird ein Labelingsystem in Form eines maschinenlesbaren Labeling-Graphen verwendet, in dem Klassenlabel als Knoten und Beschränkungen von Klassenlabeln untereinander als Kanten vorgesehen sind, wobei zumindest die Klassenlabel Fußgänger, Gebäude, Haltestellenhäuschen, Werbetafel, Fahrzeug, Straße und Himmel vorgesehen sind, wobei folgende Beschränkungen für das Labeling als Fußgänger gelten:

Ein Fußgänger befindet sich niemals innerhalb eines Gebäudes und ist niemals mit einem Gebäude oder einer Werbetafel verbunden, die wiederum selbst niemals an oder auf einem Gebäude befindlich sein kann, ein Fußgänger ist immer oberhalb der Straße und niemals oberhalb des Himmels, wobei die Straße ebenfalls nie oberhalb des Himmels ist, ein Fußgänger ist niemals innerhalb eines Fahrzeugs, das sich selbst niemals oberhalb des Himmels oder hinter einem Haltestellenhäuschen befinden kann, ein Fußgänger befindet sich niemals hinter einem Haltestellenhäuschen, kann sich aber davor befinden oder befindet sich überwiegend davor, der Himmel befindet sich niemals in einem Fahrzeug, das sich niemals oberhalb des Himmels befindet.

Auf diese Weise ist eine weitgehend sichere Klassifizierung einer erkannten Person als Fußgänger möglich.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
Dabei zeigen:

1 eine schematische Ansicht eines gelabelten Bildes,
2 eine schematische Ansicht eines Labeling-Graphen LGG für unterschiedliche Klassenlabel, und
3 eine schematische Ansicht eines aus dem in 1 gezeigten gelabelten Bild erstellten Graphen mit Knoten und Kanten.

Typischerweise wird ein Labelingsystem verwendet um einen externen oder internen Labeler dabei anzuleiten wie ein Bild gelabelt werden kann. Das Labelingsystem legt fest, warum ein bestimmter Bereich im Bild gelabelt wird und es werden Regeln festgelegt um dem Labeier dabei zu helfen zu unterscheiden, welches der gegebenen Labels auf den betrachteten Bildbereich zutrifft. Die Idee der vorliegenden Erfindung ist, das Labelingsystem als maschinenlesbaren Graphen zu formulieren, im Folgenden auch als Labeling-Graph LGG bezeichnet, der dann für verschiedene Aufgaben eingesetzt werden kann.
Die Kriterien im Labeling-Graphen LGG können automatisch mit einem gegebenen gelabelten Bild abgeglichen werden und können so helfen, automatisch Labeling-Fehler zu detektieren.
Der Labeling-Graph LGG kann während einer Testphase mit einem automatisch gelabelten Bild verglichen werden (zum Beispiel prädiziert ein neuronales Netz auf einem Bild einer für das autonome Fahren verwendeten Stereokamera ebenfalls Labels). Auf dieser Basis können diese Bilder dann automatisch auf Fehler untersucht werden und für eine Expertenanalyse oder für erneutes Labeling selektiert werden.
Weiterhin kann der Labeling-Graph LGG während des Trainings von Modellen des maschinellen Lernens verwendet werden um den Trainingsprozess zu unterstützen, z.B. als weiterer Term in der Zielfunktion. Hierzu kann der Labeling-Graph LGG aus einem gelabelten Datensatz während des Trainings automatisch generiert werden um bestimmte Sortierungsbeschränkungen zu lernen.
Der auf einem bestimmten Datensatz automatisch generierte Labeling-Graph LGG kann auch zur Validierung eines manuell erstellten Labeling-Graphen LGG verwendet werden. Dadurch können Inkonsistenzen effizient ermittelt werden und (teil-)automatisch korrigiert werden.
1 ist eine schematische Ansicht eines gelabelten Bildes 1, umfassend unterschiedlich mit Klassenlabeln versehene, das heißt klassifizierte Bereiche, darunter Straße R, Gehweg SW, Gebäude B, Pfahl PO, Verkehrsschild TS, Vegetation V, Boden TE, Himmel S, Person P, Auto C, Fahrrad BC.
Im Folgenden wird ein beispielhaftes Labelingsystem für Fußgänger beschrieben.
Alle Personen P, die nicht komplett von einem anderen Objekt, beispielsweise einem Gebäude oder einem Fahrzeug, umschlossen sind, und die nicht als Fahrer klassifiziert werden können, sollen als Fußgänger PD gelabelt werden.
Beispielsweise sollen Personen P, die unter einem Wetterschutz oder Unterstand, beispielsweise einem Haltestellenhäuschen BS, aber nicht in Gebäuden B oder Fahrzeugen VL stehen, als Fußgänger PD markiert werden.
Objekte hinter transparenten Objekten, zum Beispiel einem verglasten Haltestellenhäuschen BS, sollen nicht gelabelt werden.
2 ist eine schematische Ansicht eines Labeling-Graphen LGG für unterschiedliche Klassenlabel, nämlich die Klassenlabel Gebäude B, Haltestellenhäuschen BS, Werbetafel A, Fußgänger PD, Fahrzeug VL, Straße R und Himmel S. Die Klassenlabel stellen Knoten N des Labeling-Graphen LGG dar. Jedes Klassenlabel kommt im Labeling-Graphen LGG nur einmal vor. Die Kanten E des Labeling-Graphen LGG beschreiben Beschränkungen überwiegend als geometrische Verhältnisse, zum Beispiel „hinter“, „auf“, „links von“, könnten aber auch verwendet werden um komplexere Interaktionen zu beschreiben, zum Beispiel „beabsichtigt zu betreten“. Weiter können die Beschränkungen Wahrscheinlichkeiten („mostly“ - überwiegend) oder harte Beschränkungen („is never“ - ist niemals) modellieren.
Der gezeigte Labeling-Graph LGG zeigt als Kanten E Beschränkungen, um das Labeling für das Klassenlabel Fußgänger PD zu ermöglichen. Ebenso sind weitere Beschränkungen gezeigt, die für das Labeling anderer Klassenlabel Verwendung finden können.
Demnach befindet sich ein Fußgänger PD niemals innerhalb eines Gebäudes B und ist niemals mit einem Gebäude B oder einer Werbetafel A verbunden, die wiederum selbst niemals von einem Gebäude B umschlossen sein kann. Ein Fußgänger PD ist ferner immer oberhalb der Straße R und niemals oberhalb des Himmels S, wobei die Straße R ebenfalls nie oberhalb des Himmels S ist. Weiter ist ein Fußgänger PD niemals innerhalb eines Fahrzeugs V, das sich selbst niemals oberhalb des Himmels S oder hinter einem Haltestellenhäuschen BS befinden kann. Weiter befindet sich der Fußgänger PD niemals hinter einem Haltestellenhäuschen BS, kann sich aber davor befinden oder befindet sich überwiegend davor. Der Himmel S befindet sich niemals in einem Fahrzeug V, das sich niemals oberhalb des Himmels S befindet.
Um Labeling-Fehler in bereits gelabelten Bildern zu detektieren wird das gelabelte Bild 1 zu einem Graphen G transformiert, der Verhältnisse zwischen allen gelabelten Objekten und Klassen in einem Bild enthält.
3 zeigt einen solchen aus dem in 1 gezeigten gelabelten Bild 1 erstellten Graphen G mit Knoten N und Kanten E.
Im Gegensatz zum Labeling-Graphen LGG können im Graphen G verschiedene Knoten N der gleichen Klasse existieren. Zum Beispiel können mehrere Fußgänger PD sich in der gleichen Szene befinden. Der Graph G kann entweder automatisch extrahiert werden, zum Beispiel durch Nutzung von Geometrie und Tiefe im Bild (zum Beispiel „links von“, „auf“, „hinter“), oder er kann manuell erstellt werden, was komplexere Verhältnisse ermöglicht (zum Beispiel „auf dem Boden laufend“, Fußgänger ist auf einem Schild dargestellt‟).
In einem zweiten Stadium wird die Plausibilität des extrahierten Graphen G unter Verwendung des Labeling-Graphen LGG geprüft, beispielsweise mittels einer Plausbilitäts-Prüfungs-Einheit. Falls einige Knoten N des Graphen G nicht den Kriterien des Labeling-Graphen LGG entsprechen, wird ein Labeler informiert und kann die Fehler korrigieren, beispielsweise manuell.
Der Labeling-Graph LGG kann verwendet werden, um Segmentierungsfehler eines Convolutional Neural Networks (CNN) zu detektieren.
Viele Machine-Learning-Ansätze detektieren eine Vielzahl von Klassen in einem Bild, beispielsweise unter Verwendung eines CNN. Die Ausgabe des Ansatzes kann Ergebnisse bringen die im Konflikt mit dem Labeling-Graphen LGG stehen, wodurch potentiell eine fehlerhafte Ausgabe vorliegen kann. Beispielsweise kann auf einer Rückwand eines Lastkraftwagens eine Landschaft mit Vegetation und Himmel abgebildet sein, die von der semantischen Segmentierung prädiziert wird. Hierbei würde sich aber der Himmel S in einem Auto C befinden, was gegen die Beschränkungen des Labeling-Graphen LGG verstößt.
Zur Detektion von Segmentierungsfehlern wird wieder ein segmentiertes Bild 1 in einen Graphen G transformiert.
Zum Überprüfen der Plausibilität des extrahierten Graphen G kann eine Plausibilitätsüberprüfung durch ein weiteres neuronales Netz herangezogen werden, welches einschätzt, ob der extrahierte Graph gültig oder sinnvoll ist. Falls einige Bereiche des Graphen nicht den Kriterien des Labeling-Graphen LGG entsprechen, dann kann diese Information verwendet werden um die Konfidenz der Klassifikation dieses Bereiches in weiteren Verfahrensschritten zu bewerten und die Gewichtungsfaktoren im Training entsprechend anzupassen.
Während des Trainings eines CNNs kann in ähnlicher Weise ein Graph G aus dem semantisch segmentierten Bild 1 extrahiert werden. Der Labeling-Graph LGG wird dann verwendet um fehlerhafte Konfigurationen dieses Graphen G zu berechnen, die dann als Zielfunktion im neuronalen Netz verwendet werden kann.
Mithilfe eines Satzes gelabelter Bilder 1 kann der Labeling-Graph LGG automatisch angelernt werden, beispielsweise unter Verwendung eines Graph Neural Networks.
Der Labeling-Graph LGG kann weiter als Hilfsaufgabe angelernt werden um das Training eines neuronalen Netzes zu optimieren, das beispielsweise die Aufgabe hat, ein Bild zu segmentieren. Der Aufbau des Labeling-Graphen LGG ermöglicht dem neuronalen Netz, die Komposition der Szene zu verstehen und kann daher den Trainingsprozess unterstützen.
Die Hilfsaufgabe um den Labeling-Graphen LGG anzulernen kann während des tatsächlichen Betriebes des neuronalen Netzes abgeschaltet werden, beispielsweise wenn das neuronale Netz in einem Fahrzeug betrieben wird.
Bezugszeichenliste

1: gelabeltes Bild, segmentiertes Bild
A: Werbetafel
B: Gebäude
BC: Fahrrad
BS: Haltestellenhäuschen
C: Auto
E: Kante
G: Graph
LGG: Labeling-Graph
N: Knoten
P: Person
PD: Fußgänger
PO: Pfahl
R: Straße
S: Himmel
SW: Gehweg
TE: Boden
TS: Verkehrsschild
V: Vegetation
VL: Fahrzeug

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018220892 A1 [0002]

Claims

Verfahren zum Labeling von Fußgängern (PD) in einem Bild, dadurch gekennzeichnet, dass ein Labelingsystem in Form eines maschinenlesbaren Labeling-Graphen (LGG) verwendet wird, in dem Klassenlabel als Knoten (N) und Beschränkungen von Klassenlabeln untereinander als Kanten (E) vorgesehen sind, wobei zumindest die Klassenlabel Fußgänger (PD), Gebäude (B), Haltestellenhäuschen (BS), Werbetafel (A), Fahrzeug (VL), Straße (R) und Himmel (S) vorgesehen sind, wobei folgende Beschränkungen für das Labeling als Fußgänger (PD) gelten: Ein Fußgänger (PD) befindet sich niemals innerhalb eines Gebäudes (B) und ist niemals mit einem Gebäude (B) oder einer Werbetafel (A) verbunden, die wiederum selbst niemals an oder auf einem Gebäude (B) befindlich sein kann, ein Fußgänger (PD) ist immer oberhalb der Straße (R) und niemals oberhalb des Himmels (S), wobei die Straße (R) ebenfalls nie oberhalb des Himmels (S) ist, ein Fußgänger (PD) ist niemals innerhalb eines Fahrzeugs (V), das sich selbst niemals oberhalb des Himmels (S) oder hinter einem Haltestellenhäuschen (BS) befinden kann, ein Fußgänger (PD) befindet sich niemals hinter einem Haltestellenhäuschen (BS), kann sich aber davor befinden oder befindet sich überwiegend davor, der Himmel (S) befindet sich niemals in einem Fahrzeug (V), das sich niemals oberhalb des Himmels (S) befindet.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das zu labelnde Bild von einer Stereokamera in einem Fahrzeug erfasst wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das gelabelte Bild für das autonome Fahren des Fahrzeugs verwendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Labeling-Graph (LGG) zur Detektion von Labeling-Fehlern oder zur Anleitung eines Trainingsprozesses eines neuronalen Netzes verwendet wird.