-
Gebiet
-
Die vorliegende Offenbarung betrifft ein Verfahren und System für Bildanalyse, insbesondere im Bereich von Automobilanwendungen.
-
Hintergrund
-
Auf dem Gebiet von Computervision sind Deep Neural Networks (DNN) Stand der Technik für Herausforderungen im Bereich von Objekterfassung, - klassifikation und -segmentierung geworden. Um Echtzeitleistung zu erreichen, führt die derzeitige Architektur Objekterfassung unter Verwendung von Detektoren für einstufige Detektion, wie z.B. YOLO oder SSD, aus. Diese Detektoren für einstufige Objektdetektion haben viele Einschränkungen in Bezug auf die Erfassung mehrerer sich in der Nähe befindender Objekte. Zum Beispiel zwei Personen, die in der Nähe gehen oder stehen. Derzeitige Instanzsegmentierungsansätze, wie z.B. Mask-RCNN, verwenden die Ausgabe von Objekterfassung in Kombination mit der Ausgabe von semantischer Segmentierung, um die Fähigkeit zur Auflösung der Erfassung von sich in der Nähe befindenden Objekten zu verbessern. Sie sind jedoch immer noch durch die Leistung des Objektdetektors beschränkt. Bei Verwendung von Detektoren für zweistufige Objektdetektion, wie z.B. Fast-RCNN, verbessert dies die Erfassungsleistung, kann aber nicht in Echtzeitsystemen verwendet werden, was für sicherheitskritische Anwendungen, wie z.B. Selbstparken oder autonomes Fahren sehr wichtig ist.
-
Die derzeitige Multi-Task-Learning-(MTL)-CNN-Architektur führt Objekterfassung für Klassen, wie z.B. Fahrzeuge und Personen, aus, um Instanzen der Objekte in dem Szenario zu erlangen. Sie führt semantische Segmentierung für die Klassen, wie z.B. Straße, Bodenmarkierungen und Bordsteine, durch. Die Architektur ist wie in 1 dargestellt. Die Objekterfassungsausgabe wird dann zusammengefasst und möglicherweise mit einer Bodensegmentierungsausgabe verifiziert, um eine präzise Kartierung der Objekte am Boden zu erlangen. Eine exemplarische Ausgabe eines solchen MTL-CNN ist wie in 2 dargestellt. 2 zeigt, dass die Fahrzeuge in dem Bild durch Verwendung von Umgrenzungskästen erfasst werden, wobei meist jedes Fahrzeug durch einen Kasten dargestellt wird. Es gibt jedoch Fälle, in denen sich Fahrzeuge in der Nähe voneinander befinden und das MTL-CNN diese Fahrzeuge nicht als separate Fahrzeuge erfasst (Richtung links im Bild).
-
Kantenerfassung mit CNN zur Identifizierung von Objekten ist in dem chinesischen Patent mit der Veröffentlichungsnummer
CN107067015 (Wuhan Fiberhome, 2016) offenbart. Allerdings wirkt sich eine Verzerrung des Bildes stark auf die Leistung von Objektdetektoren aus, die Umgrenzungskästen zum Erfassen von Objekten verwenden. Das Auto in der Nähe der Kamera ist beispielsweise verzerrt und das CNN ist nicht in der Lage, das Auto in solch unmittelbarer Nähe zu erfassen. Dies stellt ein großes Problem für Anwendungen im Zusammenhang mit Bremsen und autonomem Fahren dar.
-
Ferner ist die Umgrenzungskastendarstellung eine vereinfachte Darstellung von Objekten. Die Objekterfassungsausgaben (Umgrenzungskastendarstellungen, die erfasste Objekte umgrenzen) sind typischerweise von Einzelbild zu Einzelbild sehr verrauscht, d.h. die Kastenausgabe umfasst nicht unbedingt das gesamte Objekt, sondern ändert sich ständig von Einzelbild zu Einzelbild. Dies führt zu vielen Problemen bei der Darstellung/Kartierung der Objekte in der 3D-Welt, wobei Objekte auf Grundlage dieser verrauschten Erfassungsausgaben näher oder weiter als die tatsächlichen Abstände erscheinen. Dies stellt auch ein Problem beim Bremsen oder Ausweichen eines autonomen oder teilautonomen Fahrzeugs in einer Notfallsituation dar.
-
Deshalb besteht seit langem ein Bedarf an einer effizienten Instanzsegmentierungstechnik, die die Erfassung sich in der Nähe befindender Objekte lösen und auch in Echtzeit ausgeführt werden kann.
-
Kurzdarstellung
-
Die vorliegende Erfindung betrifft ein Verfahren und System für Bildanalyse, wie in den anliegenden Ansprüchen beschrieben. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System für Bildanalyse mit neuronalen Netzwerken, die Instanzsegmentierung von sich überlappenden Objekten in einem Bild bereitstellen.
-
In einer Ausführungsform wird ein Verfahren für Bildanalyse bereitgestellt, das die Aufnahme von Bildern von der Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung umfasst, wobei die Bilder überlappende Instanzen mindestens eines Objekttyps umfassen, und das Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist. Das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ein neuronales Faltungsnetzwerk für Umgrenzungserfassung, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt. Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder überlappenden Instanz.
-
In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
-
In einer Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz des Objekttyps bildet.
-
In einer Ausführungsform umfasst das System eine Bildaufnahmevorrichtung, die dazu ausgelegt ist, Bilder von der Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. In einer bevorzugten Ausführungsform ist die Bildaufnahmevorrichtung eine Kamera mit Fischaugenobjektiv.
-
In einer anderen Ausführungsform wird ein Prozessor bereitgestellt, der betriebswirksam mit der Bildaufnahmevorrichtung gekoppelt ist, und ist der Prozessor dazu ausgelegt, die Bilder zu verarbeiten, wobei der Prozessor ausgelegt ist zum:
- Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
-
In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für Umgrenzungserfassung Klassen zum Erfassen von Umgrenzungen jeder überlappenden Instanz und umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
-
In einer Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
-
Figurenliste
-
Die Erfindung wird aus der folgenden Beschreibung einer Ausführungsform davon, die nur als Beispiel dient, mit Bezugnahme auf die beiliegenden Zeichnungen besser zu verstehen sein. In den Zeichnungen zeigen:
- 1 exemplarisch eine funktionale Architektur eines Verfahrens zur Objekterfassung in einem Bild gemäß dem Stand der Technik; und
- 2 exemplarisch die Umgrenzungskästen von erfassten Objekten, wobei die erfassten Objekte gemäß dem Stand der Technik erfasst werden und die erfassten Objektumgrenzungskästen dem Bild überlagert werden.
- 3 exemplarisch ein Ablaufdiagramm des Verfahrens für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung;
- 4 exemplarisch ein Blockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung.
- 5 ein Funktionsblockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung;
- 6 exemplarisch ein Ground-Truth-Trainingsbild zum Trainieren eines Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung gemäß einigen der Ausführungsformen der vorliegenden Erfindung; und
- 7 exemplarisch eine Ausgabe des Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung, die dem eingegebenen Bild überlagert wird.
-
Ausführliche Beschreibung der Zeichnungen
-
Die vorliegende Erfindung betrifft ein Verfahren und System für Bildanalyse, die in einem Fahrzeug oder einer Automobilanwendung verwendet werden. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System für Bildanalyse mit neuronalen Netzwerken, die Instanzsegmentierung von sich überlappenden Objekten in einem Bild bereitstellen.
-
3 zeigt exemplarisch ein Ablaufdiagramm des Verfahrens für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Das Verfahren für Bildanalyse umfasst das Aufnehmen 301 von Bildern von der Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung, wobei die Bilder überlappende Instanzen mindestens eines Objekttyps umfassen, und das Verarbeiten 302 der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt wird. Das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ein neuronales Faltungsnetzwerk für Umgrenzungserfassung, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt. Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz.
-
In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
-
In einer bevorzugten Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz des Objekttyps bildet.
-
4 zeigt exemplarisch ein Blockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Das System für Bildanalyse umfasst eine Bildaufnahmevorrichtung 403 und einen Prozessor 401, der mit einem Speichermodul 402 verbunden ist. Die Bildaufnahmevorrichtung 403 ist dazu ausgelegt, Bilder von der Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. In einer bevorzugten Ausführungsform ist die Bildaufnahmevorrichtung 403 eine Kamera mit einem Fischaugenobjektiv.
-
Der Prozessor 401 ist betriebswirksam mit der Bildaufnahmevorrichtung 403 gekoppelt und der Prozessor 401 ist dazu ausgelegt, die Bilder zu verarbeiten. Insbesondere ist der Prozessor 401 dazu ausgelegt, die Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung zu verarbeiten, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
-
Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz und das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung 403 aufgenommenen Bildern.
-
In einer bevorzugten Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
-
5 zeigt ein Funktionsblockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. In einer Ausführungsform umfasst das System für Bildanalyse eine Bildaufnahmevorrichtung 403, einen Kodierer 401a eines neuronalen Faltungsnetzwerks, der betriebswirksam mit der Bildaufnahmevorrichtung 403 gekoppelt ist, und einen Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung, der betriebswirksam mit dem Kodierer 401a eines neuronalen Faltungsnetzwerks gekoppelt ist.
-
Die Bildaufnahmevorrichtung 403 ist dazu ausgelegt, Bilder von einer Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. Der Kodierer 401a eines neuronalen Faltungsnetzwerks ist durch mindestens einen Prozessor umgesetzt, wobei der Prozessor betriebswirksam mit der Bildaufnahmevorrichtung gekoppelt ist. Der Kodierer 401a eines neuronalen Faltungsnetzwerks ist dazu ausgelegt, die Bilder zu verarbeiten, um Merkmalskarten zu erzeugen und überlappende Instanzen des mindestens einen Objekttyps auf den Bildern zu erfassen.
-
Der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung ist durch mindestens einen Prozessor umgesetzt, wobei der Dekodierer eines neuronalen Faltungsnetzwerks für semantische Segmentierung dazu ausgelegt ist, die Merkmalskarten und die erfassten Instanzen des mindestens einen Objekttyps zu verarbeiten und jede der erfassten überlappenden Instanzen mit einer Umrisslinie jeder der erfassten überlappenden Instanzen zu umgrenzen.
-
Der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz.
-
Der Kodierer 401a eines neuronalen Faltungsnetzwerks umfasst ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung 403 aufgenommenen Bildern.
-
In einer bevorzugten Ausführungsform wird der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
-
6 zeigt exemplarisch ein Ground-Truth-Trainingsbild zum Trainieren eines Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Der erfasste Fahrzeugobjekttyp (Fahrzeuge) 500 ist dargestellt und jedes Fahrzeug (überlappend und nicht überlappend) wird durch eine Umgrenzung segmentiert. Auf ähnliche Weise sind die umgrenzten Fußgänger 501 ganz rechts dargestellt. Ferner ist jede Instanz der Straßenmarkierung 502 dargestellt. Außerdem ist der Hintergrund in schwarzer Schattierung dargestellt.
-
7 zeigt exemplarisch eine Ausgabe des Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung, die dem Eingabebild überlagert wird. Die Fahrzeuge 500 sind dargestellt und die Umgrenzung 503 der Fahrzeuge ist durch eine „graue“ Farbe dargestellt. Personen 501 sind dargestellt und die Personenumgrenzungen, die die Personen definieren, sind dargestellt.
-
Es wird zu verstehen sein, dass die vorstehend beschriebene Erfindung folgende Vorteile gegenüber dem Stand der Technik hat:
- 1. Erlangen präziser Instanzebeneninformation
- 2. Lösen des Problems der Erfassung von sich in der Nähe befindenden Objekten und gruppierten Objekten
- 3. Schnell und in Echtzeit, da keinerlei Techniken zur Objekterfassung zum Erlangen von Instanzebeneninformation ausgeführt werden
- 4. Da die Technik semantische Segmentierung beinhaltet, kann sie auf Fischaugenrohbilder angewendet werden, bei denen andere auf Objekterfassung basierende Techniken schlechte Leistung bei Fischaugenrohdaten erzielen. Somit wäre eine Projektion von erfassten Objekten in die dreidimensionale Welt präzise. Außerdem spart die vorliegende Erfindung Verarbeitungs- und Speicherbandbreite zum Korrigieren der Verzerrung von Fischaugenbildern
- 5. Da die vorliegende Erfindung mit Fischaugenrohdaten verwendet werden kann, ist sie leicht für jegliches Fahrzeugmodell und jegliche Kameraposition skalierbar
- 6. Im Stand der Technik ist ein korrigiertes Ansichtsfenster erforderlich, wobei die Korrektur des Ansichtsfensters zu einer Verzerrung der Objekte führt, was die Leistung des Objekts beeinträchtigt. Die vorliegende Erfindung benötigt kein korrigiertes Ansichtsfenster und arbeitet mit den Rohdaten der Fischaugenkamera, so dass sie immun gegen durch die Umwandlung des Ansichtsfensters bedingte Verzerrungen und Ungenauigkeiten ist
-
Der Durchschnittsfachmann wird ferner verstehen, dass die verschiedenen veranschaulichenden Logik/Funktions-Blöcke, Module, Schaltungen und Prozessschritte, die in Verbindung mit den hierin offenbarten Ausführungsformen beschrieben sind, als elektronische Hardware oder eine Kombination aus Hardware und Software umgesetzt sein können. Um diese Austauschbarkeit von Hardware und einer Kombination aus Hardware und Software deutlich zu machen, wurden verschiedene veranschaulichende Komponenten, Blöcke, Module, Schaltungen und Schritte im Allgemeinen hinsichtlich ihrer Funktionalität beschrieben. Ob eine solche Funktionalität als Hardware oder eine Kombination aus Hardware und Software umgesetzt wird, hängt von der Konstruktionsentscheidung des Durchschnittsfachmanns ab. Dieser Fachmann kann die beschriebene Funktionalität für jede einzelne Anwendung auf unterschiedliche Weise implementieren, aber solche offensichtlichen Konstruktionsentscheidungen sollten nicht so interpretiert werden, dass sie eine Abweichung vom Offenbarungsumfang der vorliegenden Erfindung bewirken.
-
Der in der vorliegenden Offenbarung beschriebene Prozess kann mit verschiedenen Mitteln umgesetzt werden. Die in der vorliegenden Offenbarung beschriebene Vorrichtung kann beispielsweise in Hardware, Firmware, Software oder einer jeglichen Kombination davon umgesetzt werden. Für eine Hardware-Implementierung können die Verarbeitungseinheiten oder der(die) Prozessor(en) oder die Steuervorrichtung(en) innerhalb einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASIC), digitaler Signalprozessoren (DSP), digitaler Signalverarbeitungsvorrichtungen (DSPD), programmierbarer Logikvorrichtungen (PLD), feldprogrammierbarer Gate-Arrays (FPGA), Prozessoren, Steuervorrichtungen, Mikrocontroller, Mikroprozessoren, elektronischer Vorrichtungen und anderer elektronischer Einheiten, die zur Ausführung der hierin beschriebenen Funktionen ausgelegt sind, oder einer Kombination davon, umgesetzt werden.
-
Für eine Firmware- und/oder Softwareimplementierung können Softwarecodes in einem Speicher gespeichert und von einem Prozessor ausgeführt werden. Der Speicher kann innerhalb der Prozessoreinheit oder außerhalb der Prozessoreinheit umgesetzt werden. Wie hierin verwendet, bezieht sich der Begriff „Speicher“ auf jeglichen Typ von flüchtigem Speicher oder nichtflüchtigem Speicher.
-
In der Spezifikation gelten die Begriffe „umfassen, umfasst und umfassend“ oder jegliche Variation davon und die Begriffe „beinhalten, beinhaltet und beinhaltend“ oder jegliche Variation davon als völlig austauschbar und sollten alle so breit wie möglich interpretiert werden und umgekehrt.
-
Der Fachmann wird verstehen, dass die vorstehend beschriebene Erfindung eine solide und wirtschaftliche Lösung für die im Stand der Technik identifizierten Probleme bereitstellt.
-
Die Erfindung ist nicht auf die vorstehend beschriebenen Ausführungsformen beschränkt, sondern kann sowohl in der Konstruktion als auch im Detail variiert werden.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-