DE102019129107A1 - Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung - Google Patents

Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung Download PDF

Info

Publication number
DE102019129107A1
DE102019129107A1 DE102019129107.0A DE102019129107A DE102019129107A1 DE 102019129107 A1 DE102019129107 A1 DE 102019129107A1 DE 102019129107 A DE102019129107 A DE 102019129107A DE 102019129107 A1 DE102019129107 A1 DE 102019129107A1
Authority
DE
Germany
Prior art keywords
neural network
images
overlapping
object type
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019129107.0A
Other languages
English (en)
Inventor
Prashanth Viswanath
Ian Clancy
Stephen Foy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Connaught Electronics Ltd
Original Assignee
Connaught Electronics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Connaught Electronics Ltd filed Critical Connaught Electronics Ltd
Priority to DE102019129107.0A priority Critical patent/DE102019129107A1/de
Publication of DE102019129107A1 publication Critical patent/DE102019129107A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Die vorliegende Erfindung stellt ein Verfahren und System für Bildanalyse bereit, die das Aufnehmen von Bildern von der Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung, wobei die Bilder überlappende Instanzen mindestens eines Objekttyps umfassen, und das Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung umfassen, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist. Das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ein neuronales Faltungsnetzwerk für Umgrenzungserfassung, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt. Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz.

Description

  • Gebiet
  • Die vorliegende Offenbarung betrifft ein Verfahren und System für Bildanalyse, insbesondere im Bereich von Automobilanwendungen.
  • Hintergrund
  • Auf dem Gebiet von Computervision sind Deep Neural Networks (DNN) Stand der Technik für Herausforderungen im Bereich von Objekterfassung, - klassifikation und -segmentierung geworden. Um Echtzeitleistung zu erreichen, führt die derzeitige Architektur Objekterfassung unter Verwendung von Detektoren für einstufige Detektion, wie z.B. YOLO oder SSD, aus. Diese Detektoren für einstufige Objektdetektion haben viele Einschränkungen in Bezug auf die Erfassung mehrerer sich in der Nähe befindender Objekte. Zum Beispiel zwei Personen, die in der Nähe gehen oder stehen. Derzeitige Instanzsegmentierungsansätze, wie z.B. Mask-RCNN, verwenden die Ausgabe von Objekterfassung in Kombination mit der Ausgabe von semantischer Segmentierung, um die Fähigkeit zur Auflösung der Erfassung von sich in der Nähe befindenden Objekten zu verbessern. Sie sind jedoch immer noch durch die Leistung des Objektdetektors beschränkt. Bei Verwendung von Detektoren für zweistufige Objektdetektion, wie z.B. Fast-RCNN, verbessert dies die Erfassungsleistung, kann aber nicht in Echtzeitsystemen verwendet werden, was für sicherheitskritische Anwendungen, wie z.B. Selbstparken oder autonomes Fahren sehr wichtig ist.
  • Die derzeitige Multi-Task-Learning-(MTL)-CNN-Architektur führt Objekterfassung für Klassen, wie z.B. Fahrzeuge und Personen, aus, um Instanzen der Objekte in dem Szenario zu erlangen. Sie führt semantische Segmentierung für die Klassen, wie z.B. Straße, Bodenmarkierungen und Bordsteine, durch. Die Architektur ist wie in 1 dargestellt. Die Objekterfassungsausgabe wird dann zusammengefasst und möglicherweise mit einer Bodensegmentierungsausgabe verifiziert, um eine präzise Kartierung der Objekte am Boden zu erlangen. Eine exemplarische Ausgabe eines solchen MTL-CNN ist wie in 2 dargestellt. 2 zeigt, dass die Fahrzeuge in dem Bild durch Verwendung von Umgrenzungskästen erfasst werden, wobei meist jedes Fahrzeug durch einen Kasten dargestellt wird. Es gibt jedoch Fälle, in denen sich Fahrzeuge in der Nähe voneinander befinden und das MTL-CNN diese Fahrzeuge nicht als separate Fahrzeuge erfasst (Richtung links im Bild).
  • Kantenerfassung mit CNN zur Identifizierung von Objekten ist in dem chinesischen Patent mit der Veröffentlichungsnummer CN107067015 (Wuhan Fiberhome, 2016) offenbart. Allerdings wirkt sich eine Verzerrung des Bildes stark auf die Leistung von Objektdetektoren aus, die Umgrenzungskästen zum Erfassen von Objekten verwenden. Das Auto in der Nähe der Kamera ist beispielsweise verzerrt und das CNN ist nicht in der Lage, das Auto in solch unmittelbarer Nähe zu erfassen. Dies stellt ein großes Problem für Anwendungen im Zusammenhang mit Bremsen und autonomem Fahren dar.
  • Ferner ist die Umgrenzungskastendarstellung eine vereinfachte Darstellung von Objekten. Die Objekterfassungsausgaben (Umgrenzungskastendarstellungen, die erfasste Objekte umgrenzen) sind typischerweise von Einzelbild zu Einzelbild sehr verrauscht, d.h. die Kastenausgabe umfasst nicht unbedingt das gesamte Objekt, sondern ändert sich ständig von Einzelbild zu Einzelbild. Dies führt zu vielen Problemen bei der Darstellung/Kartierung der Objekte in der 3D-Welt, wobei Objekte auf Grundlage dieser verrauschten Erfassungsausgaben näher oder weiter als die tatsächlichen Abstände erscheinen. Dies stellt auch ein Problem beim Bremsen oder Ausweichen eines autonomen oder teilautonomen Fahrzeugs in einer Notfallsituation dar.
  • Deshalb besteht seit langem ein Bedarf an einer effizienten Instanzsegmentierungstechnik, die die Erfassung sich in der Nähe befindender Objekte lösen und auch in Echtzeit ausgeführt werden kann.
  • Kurzdarstellung
  • Die vorliegende Erfindung betrifft ein Verfahren und System für Bildanalyse, wie in den anliegenden Ansprüchen beschrieben. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System für Bildanalyse mit neuronalen Netzwerken, die Instanzsegmentierung von sich überlappenden Objekten in einem Bild bereitstellen.
  • In einer Ausführungsform wird ein Verfahren für Bildanalyse bereitgestellt, das die Aufnahme von Bildern von der Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung umfasst, wobei die Bilder überlappende Instanzen mindestens eines Objekttyps umfassen, und das Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist. Das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ein neuronales Faltungsnetzwerk für Umgrenzungserfassung, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt. Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder überlappenden Instanz.
  • In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
  • In einer Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz des Objekttyps bildet.
  • In einer Ausführungsform umfasst das System eine Bildaufnahmevorrichtung, die dazu ausgelegt ist, Bilder von der Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. In einer bevorzugten Ausführungsform ist die Bildaufnahmevorrichtung eine Kamera mit Fischaugenobjektiv.
  • In einer anderen Ausführungsform wird ein Prozessor bereitgestellt, der betriebswirksam mit der Bildaufnahmevorrichtung gekoppelt ist, und ist der Prozessor dazu ausgelegt, die Bilder zu verarbeiten, wobei der Prozessor ausgelegt ist zum:
    • Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
  • In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für Umgrenzungserfassung Klassen zum Erfassen von Umgrenzungen jeder überlappenden Instanz und umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
  • In einer Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
  • Figurenliste
  • Die Erfindung wird aus der folgenden Beschreibung einer Ausführungsform davon, die nur als Beispiel dient, mit Bezugnahme auf die beiliegenden Zeichnungen besser zu verstehen sein. In den Zeichnungen zeigen:
    • 1 exemplarisch eine funktionale Architektur eines Verfahrens zur Objekterfassung in einem Bild gemäß dem Stand der Technik; und
    • 2 exemplarisch die Umgrenzungskästen von erfassten Objekten, wobei die erfassten Objekte gemäß dem Stand der Technik erfasst werden und die erfassten Objektumgrenzungskästen dem Bild überlagert werden.
    • 3 exemplarisch ein Ablaufdiagramm des Verfahrens für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung;
    • 4 exemplarisch ein Blockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung.
    • 5 ein Funktionsblockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung;
    • 6 exemplarisch ein Ground-Truth-Trainingsbild zum Trainieren eines Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung gemäß einigen der Ausführungsformen der vorliegenden Erfindung; und
    • 7 exemplarisch eine Ausgabe des Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung, die dem eingegebenen Bild überlagert wird.
  • Ausführliche Beschreibung der Zeichnungen
  • Die vorliegende Erfindung betrifft ein Verfahren und System für Bildanalyse, die in einem Fahrzeug oder einer Automobilanwendung verwendet werden. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System für Bildanalyse mit neuronalen Netzwerken, die Instanzsegmentierung von sich überlappenden Objekten in einem Bild bereitstellen.
  • 3 zeigt exemplarisch ein Ablaufdiagramm des Verfahrens für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Das Verfahren für Bildanalyse umfasst das Aufnehmen 301 von Bildern von der Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung, wobei die Bilder überlappende Instanzen mindestens eines Objekttyps umfassen, und das Verarbeiten 302 der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt wird. Das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ein neuronales Faltungsnetzwerk für Umgrenzungserfassung, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt. Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz.
  • In einer Ausführungsform umfasst das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern.
  • In einer bevorzugten Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz des Objekttyps bildet.
  • 4 zeigt exemplarisch ein Blockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Das System für Bildanalyse umfasst eine Bildaufnahmevorrichtung 403 und einen Prozessor 401, der mit einem Speichermodul 402 verbunden ist. Die Bildaufnahmevorrichtung 403 ist dazu ausgelegt, Bilder von der Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. In einer bevorzugten Ausführungsform ist die Bildaufnahmevorrichtung 403 eine Kamera mit einem Fischaugenobjektiv.
  • Der Prozessor 401 ist betriebswirksam mit der Bildaufnahmevorrichtung 403 gekoppelt und der Prozessor 401 ist dazu ausgelegt, die Bilder zu verarbeiten. Insbesondere ist der Prozessor 401 dazu ausgelegt, die Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung zu verarbeiten, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie der entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
  • Das neuronale Faltungsnetzwerk für Umgrenzungserfassung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz und das neuronale Faltungsnetzwerk für semantische Segmentierung umfasst ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung 403 aufgenommenen Bildern.
  • In einer bevorzugten Ausführungsform wird das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
  • 5 zeigt ein Funktionsblockdiagramm eines Systems für Bildanalyse gemäß einigen der Ausführungsformen der vorliegenden Erfindung. In einer Ausführungsform umfasst das System für Bildanalyse eine Bildaufnahmevorrichtung 403, einen Kodierer 401a eines neuronalen Faltungsnetzwerks, der betriebswirksam mit der Bildaufnahmevorrichtung 403 gekoppelt ist, und einen Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung, der betriebswirksam mit dem Kodierer 401a eines neuronalen Faltungsnetzwerks gekoppelt ist.
  • Die Bildaufnahmevorrichtung 403 ist dazu ausgelegt, Bilder von einer Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen. Der Kodierer 401a eines neuronalen Faltungsnetzwerks ist durch mindestens einen Prozessor umgesetzt, wobei der Prozessor betriebswirksam mit der Bildaufnahmevorrichtung gekoppelt ist. Der Kodierer 401a eines neuronalen Faltungsnetzwerks ist dazu ausgelegt, die Bilder zu verarbeiten, um Merkmalskarten zu erzeugen und überlappende Instanzen des mindestens einen Objekttyps auf den Bildern zu erfassen.
  • Der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung ist durch mindestens einen Prozessor umgesetzt, wobei der Dekodierer eines neuronalen Faltungsnetzwerks für semantische Segmentierung dazu ausgelegt ist, die Merkmalskarten und die erfassten Instanzen des mindestens einen Objekttyps zu verarbeiten und jede der erfassten überlappenden Instanzen mit einer Umrisslinie jeder der erfassten überlappenden Instanzen zu umgrenzen.
  • Der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung umfasst Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz.
  • Der Kodierer 401a eines neuronalen Faltungsnetzwerks umfasst ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung 403 aufgenommenen Bildern.
  • In einer bevorzugten Ausführungsform wird der Dekodierer 401b eines neuronalen Faltungsnetzwerks für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
  • 6 zeigt exemplarisch ein Ground-Truth-Trainingsbild zum Trainieren eines Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung gemäß einigen der Ausführungsformen der vorliegenden Erfindung. Der erfasste Fahrzeugobjekttyp (Fahrzeuge) 500 ist dargestellt und jedes Fahrzeug (überlappend und nicht überlappend) wird durch eine Umgrenzung segmentiert. Auf ähnliche Weise sind die umgrenzten Fußgänger 501 ganz rechts dargestellt. Ferner ist jede Instanz der Straßenmarkierung 502 dargestellt. Außerdem ist der Hintergrund in schwarzer Schattierung dargestellt.
  • 7 zeigt exemplarisch eine Ausgabe des Dekodierers eines neuronalen Faltungsnetzwerks für semantische Segmentierung, die dem Eingabebild überlagert wird. Die Fahrzeuge 500 sind dargestellt und die Umgrenzung 503 der Fahrzeuge ist durch eine „graue“ Farbe dargestellt. Personen 501 sind dargestellt und die Personenumgrenzungen, die die Personen definieren, sind dargestellt.
  • Es wird zu verstehen sein, dass die vorstehend beschriebene Erfindung folgende Vorteile gegenüber dem Stand der Technik hat:
    1. 1. Erlangen präziser Instanzebeneninformation
    2. 2. Lösen des Problems der Erfassung von sich in der Nähe befindenden Objekten und gruppierten Objekten
    3. 3. Schnell und in Echtzeit, da keinerlei Techniken zur Objekterfassung zum Erlangen von Instanzebeneninformation ausgeführt werden
    4. 4. Da die Technik semantische Segmentierung beinhaltet, kann sie auf Fischaugenrohbilder angewendet werden, bei denen andere auf Objekterfassung basierende Techniken schlechte Leistung bei Fischaugenrohdaten erzielen. Somit wäre eine Projektion von erfassten Objekten in die dreidimensionale Welt präzise. Außerdem spart die vorliegende Erfindung Verarbeitungs- und Speicherbandbreite zum Korrigieren der Verzerrung von Fischaugenbildern
    5. 5. Da die vorliegende Erfindung mit Fischaugenrohdaten verwendet werden kann, ist sie leicht für jegliches Fahrzeugmodell und jegliche Kameraposition skalierbar
    6. 6. Im Stand der Technik ist ein korrigiertes Ansichtsfenster erforderlich, wobei die Korrektur des Ansichtsfensters zu einer Verzerrung der Objekte führt, was die Leistung des Objekts beeinträchtigt. Die vorliegende Erfindung benötigt kein korrigiertes Ansichtsfenster und arbeitet mit den Rohdaten der Fischaugenkamera, so dass sie immun gegen durch die Umwandlung des Ansichtsfensters bedingte Verzerrungen und Ungenauigkeiten ist
  • Der Durchschnittsfachmann wird ferner verstehen, dass die verschiedenen veranschaulichenden Logik/Funktions-Blöcke, Module, Schaltungen und Prozessschritte, die in Verbindung mit den hierin offenbarten Ausführungsformen beschrieben sind, als elektronische Hardware oder eine Kombination aus Hardware und Software umgesetzt sein können. Um diese Austauschbarkeit von Hardware und einer Kombination aus Hardware und Software deutlich zu machen, wurden verschiedene veranschaulichende Komponenten, Blöcke, Module, Schaltungen und Schritte im Allgemeinen hinsichtlich ihrer Funktionalität beschrieben. Ob eine solche Funktionalität als Hardware oder eine Kombination aus Hardware und Software umgesetzt wird, hängt von der Konstruktionsentscheidung des Durchschnittsfachmanns ab. Dieser Fachmann kann die beschriebene Funktionalität für jede einzelne Anwendung auf unterschiedliche Weise implementieren, aber solche offensichtlichen Konstruktionsentscheidungen sollten nicht so interpretiert werden, dass sie eine Abweichung vom Offenbarungsumfang der vorliegenden Erfindung bewirken.
  • Der in der vorliegenden Offenbarung beschriebene Prozess kann mit verschiedenen Mitteln umgesetzt werden. Die in der vorliegenden Offenbarung beschriebene Vorrichtung kann beispielsweise in Hardware, Firmware, Software oder einer jeglichen Kombination davon umgesetzt werden. Für eine Hardware-Implementierung können die Verarbeitungseinheiten oder der(die) Prozessor(en) oder die Steuervorrichtung(en) innerhalb einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASIC), digitaler Signalprozessoren (DSP), digitaler Signalverarbeitungsvorrichtungen (DSPD), programmierbarer Logikvorrichtungen (PLD), feldprogrammierbarer Gate-Arrays (FPGA), Prozessoren, Steuervorrichtungen, Mikrocontroller, Mikroprozessoren, elektronischer Vorrichtungen und anderer elektronischer Einheiten, die zur Ausführung der hierin beschriebenen Funktionen ausgelegt sind, oder einer Kombination davon, umgesetzt werden.
  • Für eine Firmware- und/oder Softwareimplementierung können Softwarecodes in einem Speicher gespeichert und von einem Prozessor ausgeführt werden. Der Speicher kann innerhalb der Prozessoreinheit oder außerhalb der Prozessoreinheit umgesetzt werden. Wie hierin verwendet, bezieht sich der Begriff „Speicher“ auf jeglichen Typ von flüchtigem Speicher oder nichtflüchtigem Speicher.
  • In der Spezifikation gelten die Begriffe „umfassen, umfasst und umfassend“ oder jegliche Variation davon und die Begriffe „beinhalten, beinhaltet und beinhaltend“ oder jegliche Variation davon als völlig austauschbar und sollten alle so breit wie möglich interpretiert werden und umgekehrt.
  • Der Fachmann wird verstehen, dass die vorstehend beschriebene Erfindung eine solide und wirtschaftliche Lösung für die im Stand der Technik identifizierten Probleme bereitstellt.
  • Die Erfindung ist nicht auf die vorstehend beschriebenen Ausführungsformen beschränkt, sondern kann sowohl in der Konstruktion als auch im Detail variiert werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • CN 107067015 [0004]

Claims (15)

  1. Verfahren für Bildanalyse zur Verwendung in einer Automobilanwendung, umfassend: Aufnehmen von Bildern (301) von einer Umgebung eines Kraftfahrzeugs durch eine Bildaufnahmevorrichtung, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen; gekennzeichnet durch den Schritt des: Verarbeitens der Bilder (302) durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie jeder entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
  2. Verfahren nach Anspruch 1, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern umfasst.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert wird, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz des Objekttyps bildet.
  5. System für Bildanalyse, umfassend: eine Bildaufnahmevorrichtung (403), die dazu ausgelegt ist, Bilder von einer Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen, dadurch gekennzeichnet, dass ein Prozessor (401) betriebswirksam mit der Bildaufnahmevorrichtung (403) gekoppelt ist und der Prozessor (401) dazu ausgelegt ist, die Bilder zu verarbeiten, wobei der Prozessor (403) ausgelegt ist zum: Verarbeiten der Bilder durch ein neuronales Faltungsnetzwerk für semantische Segmentierung, um jede Instanz des Objekttyps zu identifizieren, die durch eine Umrisslinie jeder entsprechenden Instanz umgrenzt ist, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ein neuronales Faltungsnetzwerk für Umgrenzungserfassung umfasst, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung die Umrisslinie jeder entsprechenden überlappenden Instanz bestimmt.
  6. System nach Anspruch 5, wobei das neuronale Faltungsnetzwerk für Umgrenzungserfassung Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz umfasst.
  7. System nach Anspruch 5 oder 6, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung aufgenommenen Bildern umfasst.
  8. System nach einem der Ansprüche 5, 6 oder 7, wobei das neuronale Faltungsnetzwerk für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert wird, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
  9. System nach einem der Ansprüche 5 bis 8, wobei die Bildaufnahmevorrichtung eine Kamera mit Fischaugenobjektiv ist.
  10. System für Bildanalyse zur Verwendung in einer Automobilanwendung, umfassend: eine Bildaufnahmevorrichtung (403), die dazu ausgelegt ist, Bilder von einer Umgebung eines Kraftfahrzeugs aufzunehmen, wobei die Bilder überlappende Instanzen von mindestens einem Objekttyp umfassen, gekennzeichnet durch einen Kodierer (401a) eines neuronalen Faltungsnetzwerks, der durch mindestens einen Prozessor (401) umgesetzt ist, wobei der Prozessor (401) betriebswirksam mit der Bildaufnahmevorrichtung (403) gekoppelt ist und der Kodierer (401a) eines neuronalen Faltungsnetzwerks dazu ausgelegt ist, die Bilder zu verarbeiten, wobei der Kodierer eines neuronalen Faltungsnetzwerks dazu ausgelegt ist, Merkmalskarten zu erzeugen und überlappende Instanzen des mindestens einen Objekttyps zu erfassen; und einen Dekodierer (401b) eines neuronalen Faltungsnetzwerks für semantische Segmentierung, der durch mindestens einen Prozessor (401) umgesetzt ist, wobei der Dekodierer (401b) eines neuronalen Faltungsnetzwerks für semantische Segmentierung ausgelegt ist zum: Verarbeiten der Merkmalskarten und der erfassten Instanzen des mindestens einen Objekttyps; und Umgrenzen jeder der erfassten überlappenden Instanzen mit einer Umrisslinie jeder der erfassten überlappenden Instanzen.
  11. System nach Anspruch 10, wobei der Dekodierer (401b) eines neuronalen Faltungsnetzwerks für semantische Segmentierung Klassen zum Erfassen von Umgrenzungen jeder entsprechenden überlappenden Instanz umfasst.
  12. System nach Anspruch 10 oder 11, wobei der Kodierer (401a) eines neuronalen Faltungsnetzwerks ferner Klassen zum Identifizieren einer Mehrzahl von Objekttypen in den von der Bildaufnahmevorrichtung (403) angenommenen Bildern umfasst.
  13. System nach Anspruch 10, 11 oder 12, wobei der Dekodierer (401b) eines neuronalen Faltungsnetzwerks für semantische Segmentierung unter Verwendung von mindestens einer Mehrzahl von Ground-Truth-Trainingsbildern trainiert wird, die mehrere überlappende Instanzen und nicht überlappende Instanzen eines Objekttyps umfassen, wobei jede der mehreren überlappenden Instanzen und nicht überlappenden Instanzen eines Objekttyps durch eine Umgrenzung abgegrenzt wird, die eine Umrisslinie jeder entsprechenden Instanz bildet.
  14. System nach einem der Ansprüche 10 bis 13, wobei die Bildaufnahmevorrichtung (403) eine Kamera mit Fischaugenobjektiv ist.
  15. Computerlesbares Medium, wobei das computerlesbare Medium Computercodes umfasst, wobei die Computercodes bewirken, dass einer oder mehrere Prozessoren das Verfahren nach einem der Ansprüche 1-4 ausführen.
DE102019129107.0A 2019-10-29 2019-10-29 Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung Pending DE102019129107A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019129107.0A DE102019129107A1 (de) 2019-10-29 2019-10-29 Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019129107.0A DE102019129107A1 (de) 2019-10-29 2019-10-29 Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung

Publications (1)

Publication Number Publication Date
DE102019129107A1 true DE102019129107A1 (de) 2021-04-29

Family

ID=75378915

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019129107.0A Pending DE102019129107A1 (de) 2019-10-29 2019-10-29 Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung

Country Status (1)

Country Link
DE (1) DE102019129107A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021240229B1 (en) * 2021-09-21 2023-02-02 Sensetime International Pte. Ltd. Stacked object recognition method, apparatus and device, and computer storage medium
WO2023047167A1 (en) * 2021-09-21 2023-03-30 Sensetime International Pte. Ltd. Stacked object recognition method, apparatus and device, and computer storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050667A1 (en) * 2017-03-10 2019-02-14 TuSimple System and method for occluding contour detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050667A1 (en) * 2017-03-10 2019-02-14 TuSimple System and method for occluding contour detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN, Y. T., Liu, X., Yang, M.. Multi-instance object segmentation with occlusion handling. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. S. 3470-3478. (URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_Multi-Instance_Object_Segmentation_2015_CVPR_paper.pdf) *
YANG, J., et al.. Object contour detection with a fully convolutional encoder-decoder network. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. S. 193-202. (URL: http://openaccess.thecvf.com/content_cvpr_2016/papers/Yang_Object_Contour_Detection_CVPR_2016_paper.pdf) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021240229B1 (en) * 2021-09-21 2023-02-02 Sensetime International Pte. Ltd. Stacked object recognition method, apparatus and device, and computer storage medium
WO2023047167A1 (en) * 2021-09-21 2023-03-30 Sensetime International Pte. Ltd. Stacked object recognition method, apparatus and device, and computer storage medium

Similar Documents

Publication Publication Date Title
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
DE112016007131B4 (de) Objektdetektionseinrichtung und Objektbestimmungsverfahren
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE112019001310T5 (de) Systeme und verfahren zum reduzieren der menge an datenspeicher beim maschinellen lernen
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102017120729A1 (de) Freiraumdetektion in einem Fahrerassistenzsystem eines Kraftfahrzeugs mit einem neuralen Netzwerk
WO2018059631A1 (de) Detektion und validierung von objekten aus sequentiellen bildern einer kamera mittels homographien
EP3520023A1 (de) Detektion und validierung von objekten aus sequentiellen bildern einer kamera
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102018217091A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102019129107A1 (de) Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung
DE102019117559A1 (de) Verfahren und System zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke
DE102019214558A1 (de) Projektionsinformations-erkennungsvorrichtung auf basis eines künstlichen neuronalen netzwerks und verfahren derselben
EP3520025A1 (de) Detektion und validierung von objekten aus sequentiellen bildern einer kamera mittels homographien
DE102020103575A1 (de) Merkmalspunktdetektionsvorrichtung und -verfahren zur Detektion von Merkmalspunkten in Bilddaten
DE102016011378A1 (de) Verfahren zur Selbstlokalisierung eines Fahrzeugs
DE102019204602A1 (de) Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten
DE102019129101A1 (de) Verfahren und System zum Schätzen eines Begrenzungsrahmens, der ein Zielfahrzeug einschließt
DE102021212020A1 (de) Verfahren zum Erkennen einer Verschmutzung an einer Linseneinheit einer Kamera einer landwirtschaftlichen Arbeitsmaschine
DE102021206625A1 (de) Computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors und Trainingsverfahren
DE102016124123A1 (de) Verfahren zum Erzeugen eines Clusters von Bildbereichen zum Erfassen eines Zielobjekts in einem Bild, Computerprogrammprodukt, Kamerasystem und Kraftfahrzeug
DE102007025620A1 (de) Vorrichtung zur Bestimmung einer Objekt- und/oder Existenzwahrscheinlichtkeit eines Suchobjekts in einem Auslesefenster eines Bildes, Verfahren sowie Computerprogramm
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen
DE102017214666A1 (de) Verfahren und Vorrichtung zum Schätzen einer Eigenbewegung eines Fahrzeugs
DE102021206316A1 (de) Verfahren und Vorrichtung zum Erkennen eines Objekts für ein eine Monokamera umfassendes Fahrzeug und Kamerasystem

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000