DE102016014783A1 - Verfahren zur Detektion von Objekten - Google Patents

Verfahren zur Detektion von Objekten Download PDF

Info

Publication number
DE102016014783A1
DE102016014783A1 DE102016014783.0A DE102016014783A DE102016014783A1 DE 102016014783 A1 DE102016014783 A1 DE 102016014783A1 DE 102016014783 A DE102016014783 A DE 102016014783A DE 102016014783 A1 DE102016014783 A1 DE 102016014783A1
Authority
DE
Germany
Prior art keywords
objects
images
stereo
confidence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102016014783.0A
Other languages
English (en)
Inventor
Stefan Gehrig
Juan Sebastian Ramos Pachon
Peter Pinggera
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler AG filed Critical Daimler AG
Priority to DE102016014783.0A priority Critical patent/DE102016014783A1/de
Publication of DE102016014783A1 publication Critical patent/DE102016014783A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Detektion von Objekten, wobei mittels einer Stereokamera Bilder (B1, B2) einer Umgebung erfasst werden, mittels einer Stereobildverarbeitung in den erfassten Bildern (B1, B2) Objekte detektiert werden und zur Auswertung der Bilder (B1, B2) zumindest ein lernbasiertes Auswerteverfahren verwendet wird. Erfindungsgemäß ist das zumindest eine Auswertewerteverfahren ein Deep-Learning-Verfahren, welches mittels eines künstlichen neuronalen Netzwerks durchgeführt wird, wobei ein mittels der Auswertung zu lösendes Problem als 3-Klassen-Problem beschrieben wird und zur Detektion der Objekte eine Fusion von geometrischen und semantischen Informationen durchgeführt wird, wobei im Rahmen der Fusion Existenzwahrscheinlichkeiten für alle Objekte berechnet werden und Disparitätsinformationen eines Stereoalgorithmus genutzt werden. Die Erfindung betrifft weiterhin eine Verwendung eines solchen Verfahrens zur Detektion von verlorener Ladung eines Fahrzeugs in einer Fahrzeugumgebung.

Description

  • Die Erfindung betrifft ein Verfahren zur Detektion von Objekten gemäß dem Oberbegriff des Anspruchs 1.
  • Die Erfindung betrifft weiterhin eine Verwendung eines solchen Verfahrens zur Detektion von verlorener Ladung eines Fahrzeugs in einer Fahrzeugumgebung.
  • Aus der DE 10 2012 021 617 A1 ist ein Verfahren zur Objektsegmentierung und Objekterkennung bekannt, bei dem eine Umgebung erfasst und in einem erzeugten Bild der Umgebung ein hindernisfreier Freiraum der Umgebung identifiziert wird. Das Bild wird außerhalb des Freiraums segmentiert, indem Segmente gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden, wobei im Bereich eines oder mehrerer Segmente nach Objekten gesucht wird und Objekte erkannt werden. In einer Lernphase wird aus Trainingsdaten ein einziger Codesatz für mehrere Objektklassen mit bildbasierten Merkmalen erzeugt, wobei eine Gruppe von Segmenten Objektmerkmalen zugeordnet und Modelle gebildet werden. Zur Erkennung der Objekte werden für beliebige Gruppen von Segmenten aus dem Bild bildbasierte Merkmale extrahiert und mit dem Codesatz verglichen, wobei eine Häufigkeitsstatistik der auftretenden bildbasierten Merkmale erstellt und anhand der Modelle des Codesatzes klassifiziert wird. Anhand der Klassifikation werden Wahrscheinlichkeiten für eine Zugehörigkeit der Gruppen von Segmenten zu zumindest einer Objektklasse ermittelt. Dabei ist das erzeugte Bild ein Disparitätsbild, wobei zur Erzeugung des Disparitätsbilds jeweils zumindest zwei Bilder der Umgebung aufgenommen werden und mittels Stereobildverarbeitung das Disparitätsbild erzeugt wird.
  • Der Erfindung liegt die Aufgabe zu Grunde, ein gegenüber dem Stand der Technik verbessertes Verfahren zur Detektion von Objekten und eine Verwendung eines solchen Verfahrens anzugeben.
  • Hinsichtlich des Verfahrens wird die Aufgabe erfindungsgemäß durch die im Anspruch 1 angegebenen Merkmale und hinsichtlich der Verwendung durch die im Anspruch 3 angegebenen Merkmale gelöst.
  • Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • In dem Verfahren zur Detektion von Objekten werden mittels einer Stereokamera Bilder einer Umgebung erfasst, mittels einer Stereobildverarbeitung werden in den erfassten Bildern Objekte detektiert und zur Auswertung der Bilder wird zumindest ein lernbasiertes Auswerteverfahren verwendet.
  • Erfindungsgemäß ist das zumindest eine Auswertewerteverfahren ein Deep-Learning-Verfahren, welches mittels eines künstlichen neuronalen Netzwerks durchgeführt wird, wobei ein mittels der Auswertung zu lösendes Problem als 3-Klassen-Problem beschrieben wird und zur Detektion der Objekte eine Fusion von geometrischen und semantischen Informationen durchgeführt wird, wobei im Rahmen der Fusion Existenzwahrscheinlichkeiten für alle Objekte berechnet werden und Disparitätsinformationen eines Stereoalgorithmus genutzt werden.
  • Das Verfahren ermöglicht eine signifikante Steigerung einer Detektionsreichweite und eine Erhöhung einer Zuverlässigkeit der Detektion von Objekten, beispielsweise von verlorener Ladung eines Fahrzeugs in einer Fahrzeugumgebung.
  • Ausführungsbeispiele der Erfindung werden im Folgenden anhand einer Zeichnung näher erläutert.
  • Dabei zeigt:
  • 1 schematisch einen Ablauf eines Verfahrens zur Detektion von Objekten.
  • In der einzigen 1 ist schematisch ein Ablauf eines möglichen Ausführungsbeispiels eines erfindungsgemäßen Verfahrens zur Detektion von Objekten dargestellt.
  • Zunächst werden mittels einer Stereokamera Bilder B1, B2 erfasst, wobei ein erstes Bild B1 beispielsweise ein rechtes Bild und ein zweites Bild B2 beispielsweise ein linkes Bild B2 ist.
  • Beide Bilder B1, B2 werden in einem Verfahrensschritt V1 einem so genannten Semi-Global Matching-Algorithmus zugeführt, mittels welchem in bekannter Weise zu einer genauen dreidimensionalen Rekonstruktion einer Szene für jeden Bildpunkt (= Pixel) jedes Bilds B1, B2 ein korrespondierender Bildpunkt im jeweils anderen Bild B2, B1 gesucht wird.
  • Weiterhin werden die beiden Bilder B1, B2 und ein Ergebnis des Verfahrensschritts V1 in einem weiteren Verfahrensschritt V2 einem so genannten stereobasierten Fast Direct Planar Hypothesis Testing Algorithmus (kurz: FPHT), wie er in "P. Pinggera, S. Ramos, S. Gehrig, U. Franke, C. Rother, und R. Mester: Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles; In: IROS, 2016" und "P. Pinggera, U. Franke und R. Mester: High-Performance Long Range Obstacle Detection Using Stereo Vision; In: IROS, 2015" näher beschrieben ist, zugeführt. Dieser Algorithmus führt eine statistische Hypothese durch Tests auf kleinen lokalen, über die stereoskopisch erfassten Bilder B1, B2 verteilten Flächen durch, wobei eine Teststatistik direkt auf normalisierten Überresten der Bilder B1, B2 basiert. Ein Freiraum in den Bildern B1, B2 wird dabei durch die Nullhypothese repräsentiert, während Objekte oder Hindernisse der Alternativhypothese entsprechen. Die Hypothesen sind durch Beschränken auf Orientierungen von lokalen dreidimensionalen flachen Modellen, einschließlich einer Verwendung von nicht-flachen Geländeoberflächen, gekennzeichnet. Für jede lokale Fläche wird ein verallgemeinerter Likelihood-Ratio-Test formuliert und durch Optimierung der Hypothesenmodellparameter in einen Disparitätsraum gelöst. Durch eine Bestimmung einer geeigneten Entscheidungsschwelle, werden Objekte bzw. Hindernisse darstellende Punkte in den Bildern B1, B2 zuverlässig im dreidimensionalen Raum erfasst und lokalisiert.
  • Die so lokalisierten Hindernispunkte werden gruppiert bzw. zu Clustern zusammengefasst und zu so genannten stixelartigen Gruppen (= FPHT-Stixel) umgeformt, was zu einer kompakten und flexiblen mittleren Hindernisrepräsentation.
  • Zusätzlich wird das erste Bild B1 in einem weiteren Verfahrensschritt V3 einer Objektdetektion zugeführt, welche auf semantischen Informationen und einem äußeren Erscheinungsbild der Objekte basiert und im Folgenden als Unbekannte-Objekte-Netzwerk bezeichnet wird.
  • Eine dabei verwendete Detektionsmethode beruht auf einer pixelweisen semantischen Kennzeichnung eines einzelnen Eingabebilds, d. h. vorliegend des Bilds B1. Diese Kennzeichnung nutzt ein visuelles Erscheinungsbild und Kontextinformationen anhand zumindest eines so genannten Deep-Learning-Ansatzes, wobei jeder Pixel des Bildes einer bestimmten Klasse zugewiesen wird.
  • Vorliegend soll ein vor einem Fahrzeug befindlicher befahrbarer Freiraum identifiziert werden. Gleichzeitig müssen alle innerhalb dieser relevanten Region befindlichen Hindernisse jeglicher Art erkannt werden. Hierzu werden folgende Klassen, welche vom lernbasierten Auswerteverfahren vorausberechnet werden müssen, definiert:
    • – Freiraum,
    • – auf einer Fahrbahn befindliche unbekannte Hindernisse und
    • – Hintergrund.
  • Diese Klassen ermöglichen unter Ausnutzung einer Leistungsfähigkeit von Deep-Learning-Verfahren, beispielsweise dem Lernen von Kontextinformationen, eine hohe Leistungsfähigkeit der Objektdetektion. Ein Lernen, dass relevante Hindernisse gemeinsame kontextuelle Eigenschaften sowie kleine Dimensionen aufweisen und zumindest teilweise von Freiraum umgeben sind ermöglicht die Realisierung eines Klassifikators, welcher die Fähigkeit besitzt, kleine Objekte mit vielfältigen Erscheinungsbildern in großen Entfernungen zu erkennen. Der Klassifikator ist in der Lage, weit über seine Trainingsdaten hinaus zu verallgemeinern.
  • Die Klasse des Hintergrunds ist definiert als jede Bildregion, welche keine Relevanz zur vorliegenden Anwendung, nämlich den Freiraum zu detektieren, hat. Beispielsweise gehören zur Klasse des Hintergrunds Bildregionen, welche den Himmel oder Gebäude zeigen. Weiterhin umfasst diese Klasse alle ”Standard”-Objekte in klassischen städtischen Verkehrsszenen, wie beispielsweise Fußgänger und Fahrzeuge. Aufgrund ihrer Größe und ihres gemeinsamen Auftretens können solche Objekte sicher durch Algorithmen mit universaler Wahrnehmung, wie z. B. in "L. Schneider, M. Cordts, T. Rehfeld, D. Pfeiffer, M. Enzweiler, U. Franke, M. Pollefeys und S. Roth: Semantic Stixels: Depth is Not Enough; In: IV Symposium, 2016", behandelt werden.
  • Um das erforderliche semantische Verständnis zu erlangen, wird ein so genanntes Fully Convolutional Network (kurz: FCN), wie beispielsweise in "J. Long, E. Shelhamer und T. Darrell: Fully Convolutional Networks for Semantic Segmentation; In: CVPR, 2015" beschrieben, kombiniert mit einer so genannten GoogLeNet Netzwerkarchitektur, wie in "C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke und A. Rabinovich: Going Deeper with Convolutions; In: CVPR, 2015" beschrieben, verwendet. Diese Kombination bietet eine hohe Klassifizierungsgenauigkeit bei relativ geringen Rechenkosten und Speicheranforderungen an eine so genannte GPU (= Global Processing Unit) sowie einen geeigneten Kompromiss für Hardwarebeschränkungen von autonom fahrenden Fahrzeugen. Diese Kombination wird im Folgenden als Unknown Obstacle Network (= Unbekannte-Hindernisse-Netzwerk; kurz: UON) bezeichnet. "J. Long, E. Shelhamer und T. Darrell: Fully Convolutional Networks for Semantic Segmentation; In: CVPR, 2015" folgend wird eine letzte vollständig verbundene Schicht der GoogleNet-Architektur ersetzt und es werden so genannte ”Skip”-Schichten und eine so genannte ”Dekonvolution”-Schicht mit einem bilinearen Gewichtsfilter aufgenommen, um eine Übereinstimmung mit der gewünschten Ausgabegröße zu realisieren. Das Fully Convolutional Network gibt dabei für alle Pixel des Bilds B1 eine Wahrscheinlichkeitskarte pro Klasse aus. Diese Wahrscheinlichkeitskarten, welche auch als Wärmekarten bezeichnet werden, werden durch eine so genannte Softmax-Normalisierungsschicht ermittelt und anschließend zusätzlich durch eine letzte so genannte Arg-Max-Schicht weiterverarbeitet.
  • Zum Trainieren des Unknown Obstacle Network werden zwei kürzlich präsentierte Datensätze für die semantische Kennzeichnung kombiniert. Diese Datensätze umfassen so genannte Lost-and-Found-Datensätze gemäß "P. Pinggera, S. Ramos, S. Gehrig, U. Franke, C. Rother, und R. Mester: Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles; In: IROS, 2016" und so genannte Cityscapes-Datensätze gemäß "M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth und B. Schiele: The Cityscapes Dataset for Semantic Urban Scene Understanding; In CVPR, 2016". Die Kombination dieser ergänzenden Datensätze liefert Beispiele für anspruchsvolle suburbane Straßenszenen mit kleinen Hindernissen auf der Straße sowie Beispiele für komplexe innerstädtische Szenen mit vielen Verkehrsteilnehmern und einer Vielzahl von Straßenmarkierungen, die zur Verbesserung der Robustheit des verwendeten Systems beitragen.
  • Zur Kompensation eines Ungleichgewichts von Pixeln aus jeder Klasse in der beschriebenen Kombination der Datensätze, wird ein Gewichtungsfaktor für eine Klasse, welche auf einer Straße vorhandene unbekannte Hindernisse umfasst, innerhalb eines Kreuzentropieverlustes eines so genannten Softmaxklassifikators integriert. Somit kann das Erreichen eines gewünschten Kompromisses zwischen wahren Detektionen und Fehlalarmen realisiert werden.
  • Ein Ergebnis des Verfahrensschritts V3 und das Ergebnis des Verfahrensschritts V1 werden einem weiteren Verfahrensschritt V4 zugeführt, in welchem so genannte UON-Stixel erzeugt werden. Die UON-Stixel werden aus einem Arg-Max-Bild des Fully Convolutional Network erzeugt. In einem ersten Schritt wird dieses Arg-Max-Bild mit einer Stixelbreite ausgerichtet, wobei ein Median jeder Klasse innerhalb einer Zeile eines Stixels berechnet wird. Dabei wird das Arg-Max-Bild horizontal um einen Faktor abgesenkt, der der definierten Stixelbreite entspricht, runtergesampelt. Ein Stixel wird erzeugt, wenn eine Hinderniskennzeichnung im Arg-Max-Bild auftritt. Das Stixel wird vertikal erweitert, bis sich die Kennzeichnung innerhalb der Spalte ändert. Auf diese Weise werden sogar Stixel von kleinen Hindernissen bei großen Entfernungen, z. B. von nur wenigen Pixeln Höhe im Bild B1, B2, berücksichtigt. Um jedem erzeugten Stixel eine dreidimensionale Position zuzuordnen, werden zugrundeliegende Disparitäten aus einer Disparitätskarte einer Echtzeitimplementierung des Semi-Global-Matching-Algorithmus im Verfahrensschritt V1 gemäß "S. Gehrig, R. Stalder und and N. Schneider: A Flexible High-Resolution Real-Time Low-Power Stereo Vision Engine; In: ICVS, 2015" ermittelt.
  • Anschließend werden die Ergebnisse der Verfahrensschritte V1, V2 und V4 in einem weiteren Verfahrensschritt V5 einer Fusion zugeführt. In dieser probabilistischen Fusion werden die die UON-Stixel und die FPHT-Stixel kombiniert und als Ergebnis E ausgegeben, wobei unverarbeitete Stereo-Disparitäts-Informationen aus dem Verfahrensschritt V1 berücksichtigt werden.
  • Zunächst werden als Basis zur Abschätzung optimaler Falsch-Positiv-Raten und Detektionsraten zwei einfache Fusionsschemata verwendet, welche durch logische UND-Operatoren zur Ermittlung der optimalen Falsch-Positiv-Raten und durch logische Oder-Operatoren zur Ermittlung der optimalen Detektionsrate Operatoren realisiert werden. Die Operatoren werden auf die UON-Stixel und FPHT-Stixel angewendet, was zu einem resultierenden Stixel führt, wenn entweder ein (Oder-Operator) oder beide (Und-Operator) Systeme (UON, FPHT) eine Stixel an einer bestimmten Position melden. Entsprechende Stixel werden durch Überprüfen auf eine Überlappung von mindestens 50% bestimmt. Wenn entsprechende Stixel gefunden werden, werden nur die von FPHT zur Verfügung gestellten FPHT-Stixel angezeigt. Eine aufwendigere Verfeinerung der Stixel-Dimensionen ist möglich, jedoch ist eine genaue Position der Stixel weniger wichtig ist als deren tatsächliche Existenz.
  • In der probabilistischen Fusion wird eine Existenz eines Stixels innerhalb eines Bayesschen Bezugssystem geschätzt. Der Einfachheit halber wird im Folgenden die Wahrscheinlichkeit der Existenz für ein Stixel als Konfidenzmaß betrachtet. Die Berechnung beginnt mit der Oder-verknüpften Liste von Stixeln, wobei für jedes Stixel drei Konfidenzmaße berechnet werden. Diese Konfidenzmaße umfassen eine FPHT-Konfidenz, eine UON-Konfidenz und eine Disparitäts-Konfidenz. Aufgrund der geringen Rechenkosten und der verlässlichen Freifeldschätzung mit definierten Objektgrenzen wird das disparitätsbasierte Konfidenzmaß gemäß "S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012" eingeschlossen. Obwohl der FPHT-Algorithmus die volle Disparitätskarte als Eingabe verwendet, können die einzelnen Konfidenzmaße als unabhängig betrachtet werden, da die Disparitätskarte nur als grobe Initialisierung für die FPHT-Hypothesenpositionen verwendet wird. Angesichts dieser Annahme wird eine resultierende Stixel-Konfidenz p(S) gemäß p(S) = N·p(SUON)·p(SFPHT)·p(D) (1) mit:
  • p(SUON)
    = UON-Konfidenz,
    p(SFPHT)
    = FPHT-Konfidenz,
    p(D)
    = Disparitäts-Konfidenz und
    N
    = Normalisierungsfaktor.
    berechnet. Die drei Konfidenzmaße werden dabei in geeigneter Weise normalisiert, um aussagekräftige Wahrscheinlichkeiten gemäß "S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012" zu erhalten, wobei pUOpr eine vorherige Wahrscheinlichkeit ist, ein Hindernis-Stixel zu beobachten: N = pUOpr = (pUOpr·p(SUON)·p(SFPHT)·p(D) + (1 – pUOpr)(1 – p(SUON))(1 – p(SFPHT))(1 – p(D))). (2)
  • Dabei wird vorliegend pUOpr = 0:5 bewusst gewählt, um Entscheidungen in Richtung von Hindernissen zu favorisieren, während Bildstatistiken der Lost-and-Found-Datensätze dagegen pUOpr < 0:01 vorschlagen.
  • Eine UON-Stixel-Konfidenz wird ermittelt, indem eine Summe einer pixelweisen UON-Wahrscheinlichkeit der Nicht-Freiraumklassen, d. h. eine Summe aus einer Wahrscheinlichkeit unbekannter Hindernisse (= p(unbekannte Hindernisse) und einer Wahrscheinlichkeit für das Vorliegen des Hintergrunds (= p(Hintergrund)), verwendet wird. Dabei wird Wahrscheinlichkeit unbekannter Hindernisse nicht direkt verwendet, da beispielsweise Fußgänger im Datensatz oft als Hintergrund gekennzeichnet sind und somit nicht berücksichtigt wären. Die UON-Stixel-Konfidenz wird gemäß
    Figure DE102016014783A1_0002
    berechnet, wobei hs die Stixelhöhe und i eine Laufvariable der Stixel sind.
  • In ähnlicher Weise wird eine FPHT-Stixel-Konfidenz ermittelt, indem die verfügbaren Likelihood-Wahrscheinlichkeitsverhältnisse für alle Punkthypothesen, die zu dem Stixel beitragen, bezeichnet als lavg,FPHT, gemittelt und dann gemäß
    Figure DE102016014783A1_0003
    in die FPHT-Konfidenz umgewandelt werden.
  • Dies ergibt ähnliche Wahrscheinlichkeiten für kleine Stixel mit sehr wenigen Hindernispunkten und großen Stixeln mit vielen Hindernispunkten. Um vorausgehende Informationen aus dem Clustering-Schritt des FPHT-Algorithmus zu berücksichtigen, werden zusätzlich auch Statistiken über eine Höhe und Anzahl von Hindernishypothesen sowohl für wahre als auch falsch-positive Stixel. Vergleicht man die resultierenden Wahrscheinlichkeitsdichtefunktionen auf dem Lost-and-Found-Datensatz, so kann eine Überlappung unter 50%, d. h. eine angemessene Trennung, beobachtet werden. Dabei werden 10 Hindernispunkte pro Stixel und eine Höhe von 10 cm als Wendepunkt erhalten, wenn wahr-positive Stixel eine höhere Wahrscheinlichkeit erhalten als die falsch-positiven Stixel. Dieser Vorbedingung wird mit p(SFPHT), modelliert durch eine sigmoidale Funktion ähnlich wie in "S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012" beschrieben, multipliziert.
  • Eine Schätzung der Disparitäts-Konfidenz folgt einem Hypothesenprüfschema. Eine Energie, beispielsweise eine absolute Disparitätsdifferenz, für Hindernishypothesen (konstante Disparität) wird mit den Freiraumhypothesen, bei welchen eine Disparitätsneigung entsprechend einer Kamerakonfiguration ausgebildet ist, verglichen. Diese Energien werden gemäß
    Figure DE102016014783A1_0004
    mit:
  • eo
    = Hindernisenergie,
    ef
    = Freiraumenergie,
    di
    = Disparität innerhalb eines Stixels,
    d
    = mittlere Disparität für den Stixel,
    rctr
    = mittlere Reihe des betrachteten Stixels,
    r
    = Reihenindex der Disparität di innerhalb des Stixels,
    Δd = B/H
    = erwartete Disparitätsneigung einer Straße, ermittelt aus der Basis B und einer Höhe H der Kamera oberhalb eines Bodens
    ermittelt.
  • Die Disparitäts-Konfidenz wird mittels einer Energie-Wahrscheinlichkeitsrelation, wie in "R. Gray: Entropy and information theory; Springer, 1990" beschrieben, gemäß
    Figure DE102016014783A1_0005
    abgeleitet. Eine Abweichung der Disparität wird hierbei mit 1,0 Pixel angenommen. Flächen mit konstanter Disparität werden Konfidenzmaße in der Nähe vom Wert 1 zugewiesen, während Flächen der Straßenoberfläche niedrige Konfidenzmaße zugewiesen werden.
  • Endgültige Entscheidungen über die Hindernisse werden durch Schwellenwertbildung der verschmolzenen Stixel-Konfidenzen gemäß Gleichung (1) erhalten. Wenn kein UON-Stixel in der betrachteten Position existiert, wird die UON-Konfidenz gemäß Gleichung (3) berechnet, da diese Informationen am besten die verfügbaren Beweise für die Existenz irgendeines Hindernis-Typs widerspiegeln. Wenn kein FPHT-Stixel vorhanden ist, wird in einem neutralen Fall p (FPHT) mit dem Wert 0,5 angenommen.
  • Im Folgenden ist ein vollständiger Fusionsalgorithmus von semantischer und geometrischer Informationen beispielhaft zusammengefasst:
  • INPUT
    • – UON-Wärmekarten, FPHT-Stixel
  • OUTPUT
    • – Liste von Hindernis-Stixeln
  • ALGORITHMUS
    • 1: Funktion ERMITTLUNG_UON_STIXEL()
    • 2: erzeuge Wärmekarte in Stixel-Zwischenräumen
    • 3: nutze UON Ergebnis aus Arg-Max-Bild als Startwert
    • 4: gehe entlang der Spalte bis sich die Arg-Max-Kennzeichnung ändert
    • 5: Ausgabe UON-Stixel
    • 6: Ende Funktion
    • 1: Funktion FUSION_FPHT_STIXEL_UON_STIXEL()
    • 2: finde Duplikate von Stixeln
    • 3: ODER fusioniere einzelne Stixel
    • 4: wende UON-Konfidenz aus Wärmekarte
    • 5: ermittle FPHT-Konfidenz
    • 6: ermittle Disparitäts-Konfidenz
    • 7: führe Bayessche Konfidenz-Schätzung aus
    • 8: Ausgabe der fusionierten Stixel mit ihrer Konfidenz
    • 9: Ende Funktion
  • Bezugszeichenliste
    • B1, B2
      Bild
      E
      Ergebnis
      V1 bis V5
      Verfahrensschritt
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102012021617 A1 [0003]
  • Zitierte Nicht-Patentliteratur
    • ”P. Pinggera, S. Ramos, S. Gehrig, U. Franke, C. Rother, und R. Mester: Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles; In: IROS, 2016” [0016]
    • ”P. Pinggera, U. Franke und R. Mester: High-Performance Long Range Obstacle Detection Using Stereo Vision; In: IROS, 2015” [0016]
    • ”L. Schneider, M. Cordts, T. Rehfeld, D. Pfeiffer, M. Enzweiler, U. Franke, M. Pollefeys und S. Roth: Semantic Stixels: Depth is Not Enough; In: IV Symposium, 2016” [0022]
    • ”J. Long, E. Shelhamer und T. Darrell: Fully Convolutional Networks for Semantic Segmentation; In: CVPR, 2015” [0023]
    • ”C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke und A. Rabinovich: Going Deeper with Convolutions; In: CVPR, 2015” [0023]
    • ”J. Long, E. Shelhamer und T. Darrell: Fully Convolutional Networks for Semantic Segmentation; In: CVPR, 2015” [0023]
    • ”P. Pinggera, S. Ramos, S. Gehrig, U. Franke, C. Rother, und R. Mester: Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles; In: IROS, 2016” [0024]
    • ”M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth und B. Schiele: The Cityscapes Dataset for Semantic Urban Scene Understanding; In CVPR, 2016” [0024]
    • ”S. Gehrig, R. Stalder und and N. Schneider: A Flexible High-Resolution Real-Time Low-Power Stereo Vision Engine; In: ICVS, 2015” [0026]
    • ”S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012” [0029]
    • ”S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012” [0029]
    • ”S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012” [0033]
    • ”R. Gray: Entropy and information theory; Springer, 1990” [0035]

Claims (3)

  1. Verfahren zur Detektion von Objekten, wobei – mittels einer Stereokamera Bilder (B1, B2) einer Umgebung erfasst werden, – mittels einer Stereobildverarbeitung in den erfassten Bildern (B1, B2) Objekte detektiert werden und – zur Auswertung der Bilder (B1, B2) zumindest ein lernbasiertes Auswerteverfahren verwendet wird, dadurch gekennzeichnet, dass – das zumindest eine Auswertewerteverfahren ein Deep-Learning-Verfahren ist, welches mittels eines künstlichen neuronalen Netzwerks durchgeführt wird, – wobei ein mittels der Auswertung zu lösendes Problem als 3-Klassen-Problem beschrieben wird und – zur Detektion der Objekte eine Fusion von geometrischen und semantischen Informationen durchgeführt wird, wobei im Rahmen der Fusion – Existenzwahrscheinlichkeiten für alle Objekte berechnet werden und – Disparitätsinformationen eines Stereoalgorithmus genutzt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass – in dem Deep-Learning-Verfahren die Bilder (B1, B2) einzeln pixelweise semantisch gekennzeichnet werden, – wobei bei der Kennzeichnung visuelle Erscheinungsbilder und Kontextinformationen mittels eines Tiefen-Lernansatzes berücksichtigt werden, wobei jedes Pixel der Bilder (B1, B2) einer bestimmten Klasse zugewiesen wird.
  3. Verwendung eines Verfahrens nach Anspruch 1 oder 2 zur Detektion von verlorener Ladung eines Fahrzeugs in einer Fahrzeugumgebung.
DE102016014783.0A 2016-12-02 2016-12-02 Verfahren zur Detektion von Objekten Withdrawn DE102016014783A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102016014783.0A DE102016014783A1 (de) 2016-12-02 2016-12-02 Verfahren zur Detektion von Objekten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016014783.0A DE102016014783A1 (de) 2016-12-02 2016-12-02 Verfahren zur Detektion von Objekten

Publications (1)

Publication Number Publication Date
DE102016014783A1 true DE102016014783A1 (de) 2017-07-06

Family

ID=59068987

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016014783.0A Withdrawn DE102016014783A1 (de) 2016-12-02 2016-12-02 Verfahren zur Detektion von Objekten

Country Status (1)

Country Link
DE (1) DE102016014783A1 (de)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019132012A1 (de) * 2019-11-26 2021-05-27 Connaught Electronics Ltd. Verfahren und System zur Detektion von kleinen unklassifizierten Hindernissen auf einer Straßenoberfläche
WO2021231984A1 (en) * 2020-05-14 2021-11-18 Raven Industries, Inc. Obstacle monitoring systems and methods for same
CN113886252A (zh) * 2021-09-30 2022-01-04 四川大学 基于热力图的回归测试用例优先级确定方法
CN114091598A (zh) * 2021-11-16 2022-02-25 北京大学 一种基于语义级信息融合的多车协同环境感知方法
DE102021107904A1 (de) 2021-03-29 2022-09-29 Conti Temic Microelectronic Gmbh Verfahren und System zur Bestimmung der Bodenebene mit einem künstlichen neuronalen Netz
DE102021206316A1 (de) 2021-06-21 2022-12-22 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Erkennen eines Objekts für ein eine Monokamera umfassendes Fahrzeug und Kamerasystem
CN117132973A (zh) * 2023-10-27 2023-11-28 武汉大学 一种地外行星表面环境重建与增强可视化方法及系统
US12008743B2 (en) 2020-05-22 2024-06-11 Robert Bosch Gmbh Hazard detection ensemble architecture system and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012021617A1 (de) 2012-11-06 2013-05-16 Daimler Ag Verfahren zur Objektdetektion

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012021617A1 (de) 2012-11-06 2013-05-16 Daimler Ag Verfahren zur Objektdetektion

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
"C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke und A. Rabinovich: Going Deeper with Convolutions; In: CVPR, 2015"
"J. Long, E. Shelhamer und T. Darrell: Fully Convolutional Networks for Semantic Segmentation; In: CVPR, 2015"
"L. Schneider, M. Cordts, T. Rehfeld, D. Pfeiffer, M. Enzweiler, U. Franke, M. Pollefeys und S. Roth: Semantic Stixels: Depth is Not Enough; In: IV Symposium, 2016"
"M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth und B. Schiele: The Cityscapes Dataset for Semantic Urban Scene Understanding; In CVPR, 2016"
"P. Pinggera, S. Ramos, S. Gehrig, U. Franke, C. Rother, und R. Mester: Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles; In: IROS, 2016"
"P. Pinggera, U. Franke und R. Mester: High-Performance Long Range Obstacle Detection Using Stereo Vision; In: IROS, 2015"
"R. Gray: Entropy and information theory; Springer, 1990"
"S. Gehrig, A. Barth, N. Schneider und J. Siegemund: A multi-cue approach for stereo-based object confidence estimation; In: IROS, 2012"
"S. Gehrig, R. Stalder und and N. Schneider: A Flexible High-Resolution Real-Time Low-Power Stereo Vision Engine; In: ICVS, 2015"

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019132012A1 (de) * 2019-11-26 2021-05-27 Connaught Electronics Ltd. Verfahren und System zur Detektion von kleinen unklassifizierten Hindernissen auf einer Straßenoberfläche
DE102019132012B4 (de) 2019-11-26 2024-08-22 Connaught Electronics Ltd. Verfahren und System zur Detektion von kleinen unklassifizierten Hindernissen auf einer Straßenoberfläche
WO2021231984A1 (en) * 2020-05-14 2021-11-18 Raven Industries, Inc. Obstacle monitoring systems and methods for same
US12008743B2 (en) 2020-05-22 2024-06-11 Robert Bosch Gmbh Hazard detection ensemble architecture system and method
DE102021107904A1 (de) 2021-03-29 2022-09-29 Conti Temic Microelectronic Gmbh Verfahren und System zur Bestimmung der Bodenebene mit einem künstlichen neuronalen Netz
EP4068223A1 (de) * 2021-03-29 2022-10-05 Conti Temic microelectronic GmbH Verfahren und system zur bestimmung der bodenebene mit einem künstlichen neuronalen netz
DE102021206316A1 (de) 2021-06-21 2022-12-22 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Erkennen eines Objekts für ein eine Monokamera umfassendes Fahrzeug und Kamerasystem
CN113886252A (zh) * 2021-09-30 2022-01-04 四川大学 基于热力图的回归测试用例优先级确定方法
CN113886252B (zh) * 2021-09-30 2023-05-23 四川大学 基于热力图的回归测试用例优先级确定方法
CN114091598A (zh) * 2021-11-16 2022-02-25 北京大学 一种基于语义级信息融合的多车协同环境感知方法
CN117132973A (zh) * 2023-10-27 2023-11-28 武汉大学 一种地外行星表面环境重建与增强可视化方法及系统
CN117132973B (zh) * 2023-10-27 2024-01-30 武汉大学 一种地外行星表面环境重建与增强可视化方法及系统

Similar Documents

Publication Publication Date Title
DE102016014783A1 (de) Verfahren zur Detektion von Objekten
DE112013001858B4 (de) Mehrfachhinweis-Objekterkennung und -Analyse
DE102013205810B4 (de) System und verfahren zum einschätzen von verfügbaren parkplätzen zum parken auf der strasse mit mehreren plätzen
DE69511620T2 (de) Videoverarbeitungssystem
DE69624614T2 (de) Verfahren zur Stereoübereinstimmungs- und Ungleichheitsmessung
DE102019005423A1 (de) Raum-Zeit-Speicher- bzw. Ablagenetzwerk zum Lokalisieren eines Zielobjektes in Videocontent
DE112018000899T5 (de) Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion
DE102013205952B4 (de) Rekonfigurierbares System und Verfahren zur Detektion eines freien Pfads
DE112011103690T5 (de) Erkennung und Verfolgung sich bewegender Objekte
DE19955919C1 (de) Verfahren zur Erkennung von Objekten in Bildern auf der Bildpixelebene
DE102013205854B4 (de) Verfahren zum Detektieren eines freien Pfads mittels temporärer Koherenz
DE102009038364A1 (de) Verfahren und System zur automatischen Objekterkennung und anschließenden Objektverfolgung nach Maßgabe der Objektform
DE112016005905T5 (de) Verfahren und System zum Verschmelzen erfasster Messungen
EP2005361A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
DE102011111440A1 (de) Verfahren zur Umgebungsrepräsentation
WO2018215031A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
DE102013226476B4 (de) Bildverarbeitungsverfahren und -system eines rundumsicht-überwachungssystems
DE102015104125A1 (de) Verfahren zur Bestimmung eines Blindheitszustands von mindestens einer, in einem stereoskopischen System eingebauten Kamera
DE102017203276A1 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE102022120332A1 (de) 3d-objekterkennungsverfahren unter nutzung der synergie heterogener sensoren für autonomes fahren
DE102011075412A1 (de) Verfahren und System zum Erfassen einer statischen Szene, zum Bestimmen von Rohereignissen und zum Erkennen von freien Flächen in einem Beobachtungsgebiet
DE102015211871A1 (de) Objekterkennungsvorrichtung
DE102019209473A1 (de) Verfahren und Vorrichtung zur schnellen Erfassung von sich wiederholenden Strukturen in dem Bild einer Straßenszene
DE102020204840A1 (de) Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Legal Events

Date Code Title Description
R230 Request for early publication
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee