DE102020210816A1 - Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem - Google Patents

Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem Download PDF

Info

Publication number
DE102020210816A1
DE102020210816A1 DE102020210816.1A DE102020210816A DE102020210816A1 DE 102020210816 A1 DE102020210816 A1 DE 102020210816A1 DE 102020210816 A DE102020210816 A DE 102020210816A DE 102020210816 A1 DE102020210816 A1 DE 102020210816A1
Authority
DE
Germany
Prior art keywords
camera
segment
determined
pixels
dimensional object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020210816.1A
Other languages
English (en)
Inventor
Fabian Gigengack
Emil Schreiber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020210816.1A priority Critical patent/DE102020210816A1/de
Priority to PCT/EP2021/068017 priority patent/WO2022042903A1/de
Publication of DE102020210816A1 publication Critical patent/DE102020210816A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren zur Erkennung dreidimensionaler Objekte (180) in einem Blickfeld (191) einer Kamera (111, 112, 120), umfassend die folgenden Schritte: Erfassung (210) wenigstens eines Kamerabildes (300) mittels der mindestens einen Kamera (111, 112, 120); semantische Segmentierung (220) des Kamerabildes (300) durch ein erstes angelerntes maschinelles Erkennungsverfahren; Zuordnung (221) einer Segmentinformation zu den Pixeln des Kamerabildes (300) in Abhängigkeit der semantischen Segmentierung; Ermittlung (222) von wenigstens einem Bildausschnitt als Segment (410, 420, 430, 440), wobei benachbarte Pixel des Kamerabildes (300) in Abhängigkeit der jeweils zugeordneten semantischen Segmentinformation zu einem Segment (410, 420, 430, 440) gruppiert werden; Ermittlung (250) von Abstandsdaten (501 bis 507) zwischen Umgebungsobjekten (180) im Kamerablickfeld (191) und der Kamera (111, 112, 120) und Zuordnung (252) einer Abstandsinformation zu den Pixeln zumindest eines Teils des Kamerabildes (300) in Abhängigkeit der ermittelten Abstandsdaten (501 bis 507), und/oder Ermittlung (230) eines optischen Flusses zu wenigstens einem Teil der Pixel des erfassten Kamerabilds in Abhängigkeit des Kamerabildes (300) sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes; und Bestimmung (270) wenigstens einer dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) als Segmentausschnitt eines ermittelten Segments (410, 420, 430, 440) in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformationen und/oder in Abhängigkeit des ermittelten optischen Flusses.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera. Die Erfindung betrifft ferner auch ein Computerprogramm, welches dazu eingerichtet ist, dieses Verfahren auszuführen, sowie ein maschinenlesbares Speichermedium, auf welchem das Computerprogramm gespeichert ist. Die Erfindung betrifft des Weiteren ein Steuergerät, welches dazu eingerichtet ist, das erfindungsgemäße Verfahren durchzuführen, und ein Fahrzeug mit diesem Steuergerät sowie ferner ein Videoüberwachungssystem mit diesem Steuergerät.
  • Stand der Technik
  • Die Erfassung von Kamerabildern an einem Fahrzeug mittels einer Mono- oder Stereokamera ist bekannt, wobei die Fahrzeugkamera beispielsweise den rückwärtigen oder den in Fahrrichtung vorne liegenden Bereich einer Umgebung des Fahrzeugs erfasst. Basierend auf wenigstens einem erfassten Kamerabild kann beispielsweise durch ein angelerntes maschinelles Erkennungsverfahren eine semantische Segmentierung und/oder eine Objekterkennung durchgeführt werden. Die erkannten Segmente und/oder Objekte in der Umgebung des Fahrzeugs werden in Fahrassistenzverfahren oder einer teil- oder vollautonomen Führung eines Fahrzeugs und/oder zur Anzeige in einem virtuellen dreidimensionalen Umgebungsmodell verwendet, beispielsweise wird ein Fahrmanöver in Abhängigkeit eines erkannten Objektes durchgeführt. Zusätzlich wird für Fahrassistenzverfahren oder einer teil- oder vollautonomen Führung eines Fahrzeugs eine Erfassung von Abstandsdaten zu erkannten Objekten benötigt, beispielsweise um einem Fremdfahrzeug folgen oder um einem Objekt ausweichen oder um ein Fahrmanöver durchführen zu können.
  • Maschinelle Erkennungsverfahren sind beispielsweise neuronale Netzwerke, insbesondere solche mit einer Vielzahl an Schichten, welche jeweils sogenannte Neuronen umfassen. Ein Neuron jeder Schicht ist typischerweise mit Neuronen einer vorherigen Schicht und Neuronen einer nachfolgenden Schicht verknüpft. Die Verknüpfungen zwischen den Neuronen weisen beispielsweise jeweils zugeordnete Gewichte auf. Maschinelle Erkennungsverfahren werden vorteilhafterweise mit einer Vielzahl an Daten trainiert, insbesondere umfassen diese Daten eine Vielzahl von Bildern, welche jeweils ein zugeordnetes Label beziehungsweise eine erwartete Ausgabe des Erkennungsverfahrens zu wenigstens einem Teilbereich eines jeweiligen Bildes aufweisen. Alternativ oder zusätzlich kann ein maschinelles Erkennungsverfahren mit Daten nur einer bekannten Ausgabe trainiert werden. Im Training werden typischerweise zumindest die Gewichte der Verknüpfungen angepasst. Jede der Schichten des neuronalen Netzes repräsentiert dabei vorteilhafterweise eine Abstraktionsebene des Bildes. Durch das Training kann ein maschinelles Erkennungsverfahren beispielsweise lernen, insbesondere durch die Anpassung der Gewichte der Verknüpfungen zwischen den Neuronen, ein Fahrzeug in einem Bild von einer Person oder einem Baum zu unterscheiden beziehungsweise das Fahrzeug zu erkennen, wobei das maschinelles Erkennungsverfahren typischerweise eine Wahrscheinlichkeit für das Vorliegen des Objektes ermittelt. Es resultiert ein recheneffizientes angelerntes maschinelles Erkennungsverfahren. Sowohl der Aufbau des maschinellen Erkennungsverfahrens beziehungsweise die Anzahl an Schichten und Neuronen pro Schicht als auch das Training beziehungsweise die Trainingsdaten des maschinellen Erkennungsverfahrens haben großen Einfluss auf die Erkennungsqualität. Für einen Anwender bleibt allerdings aufgrund der Vielzahl an Schichten und Neuronen ein resultierendes Prinzip des maschinellen Erkennungsverfahrens in der Anwendung häufig unklar. Mit anderen Worden kann ein maschinelles Erkennungsverfahren als nicht analytisches Verfahren beschrieben werden. Mit wiederum anderen Worten weiß ein Anwender häufig nicht genau, warum ein neuronales Netz beispielsweise ein Fahrzeug als Fahrzeug und eine Person als Person erkennt. Entsprechend können maschinelle Erkennungsverfahren, beispielsweise zur Objektdetektion unzuverlässige Ergebnisse liefern, da in der Regel keine physikalischen Modelle beziehungsweise kein abstrahiertes Modellwissen implementiert ist.
  • Eine semantische Segmentierung ist als angelerntes maschinelles Erkennungsverfahren bekannt. Ein Verfahren zur semantischen Segmentierung liefert als Ergebnis eine Klassifikation eines Pixels eines Kamerabildes in semantische Kategorien (z.B. Person, Auto, Straße, ...), wobei insbesondere aber nicht notwendigerweise alle Pixel des Bildes klassifiziert werden. Dies entspricht insbesondere einer Grobeinteilung der durch die Pixel abgebildeten Bildinhalte. Als einfaches Beispiel für die semantische Segmentierung kann eine Aufteilung eines Bilds in zwei Klassen beziehungsweise Teilbereiche erfolgen, zum Beispiel einen Teilbereich, welcher eine Person abbildet, und einen anderen Teilbereich, welcher den Hintergrund zur dargestellten Person abbildet.
  • Die Detektion statischer und/oder dynamischer Objekte auf Basis von dreidimensionalen Punktwolken ist ebenfalls bekannt, beispielsweise durch die Veröffentlichung von Y.Zhou und O. Tuzel „VoxeINet: End-to-End Learning for Point Cloud Based 3D Object Detection“ (CVPR 2018).
  • C.Godard et al. offenbaren in ihrer Veröffentlichung mit dem Titel „Unsupervised Monocular Depth Estimation with Left-Right Consistency“ (arXiv:1609.03677v3) eine Tiefenschätzung mittels eines angelernten maschinellen Erkennungsverfahrens.
  • D. Eigen et al. offenbaren in ihrer Veröffentlichung mit dem Titel „Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network“ eine Tiefenschätzung mittels eines anderen angelernten maschinellen Erkennungsverfahrens, wobei ein angelerntes maschinelles Erkennungsverfahren eine Grobschätzung der Tiefe für größere Bereiche eines Bildes durchführt und ein anderes angelerntes maschinelles Erkennungsverfahren lokal eine genauere Schätzung der Tiefe der Pixel des Bildes durchführt (http://papers.nips.cc/paper/5539-depth-map-prediction-from-a-singleimage-using-a-multi-scale-deep-network.pdf.).
  • Des Weiteren ermöglichen Stereokameras in bekannter Art und Weise die Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Blickfeld einer Kamera und der Kamera mittels zweier in einem festen Abstand angeordneter Kameras durch ein Triangulationsverfahren. Solche eine Stereokamera, umfassend zwei Kameras, kann beispielsweise an einem Fahrzeug angeordnet sein. Abstandsdaten zwischen Objekten und einem Fahrzeug oder der Kamera können alternativ oder zusätzlich mittels eines Ultraschallsensors, mittels eines Radarsensors oder mittels eines Lidarsensors erfasst werden. Ein zusätzlich zu einer Kamera angeordnete Sensor erhöht allerdings die Kosten des Gesamtsystems, beispielsweise des Fahrzeugs, und erfordert bei einer Sensordatenfusion eine aufwändige und gegebenenfalls regelmäßige Kalibrierung zwischen dem Sensor und der Kamera sowie eine leistungsstärkere Recheneinheit zur Sensordatenfusion.
  • Die Aufgabe der vorliegenden Erfindung ist es, die Detektion statischer und/oder dynamischer Objekte gegenüber dem Stand der Technik zu verbessern.
  • Offenbarung der Erfindung
  • Die vorstehende Aufgabe wird erfindungsgemäß entsprechend der unabhängigen Ansprüche 1 und 11 bis 15 gelöst.
  • Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera. Die Kamera ist insbesondere eine Fahrzeugkamera, welche bevorzugt zumindest einen Teil einer Umgebung des Fahrzeugs erfasst. Eine Fahrzeugkamera ist beispielsweise an einer erhöhten Position hinter der Windschutzscheibe an dem Fahrzeug angeordnet. In einem ersten Schritt wird wenigstens ein Kamerabild mittels wenigstens der Kamera erfasst. Es kann vorteilhafterweise vorgesehen sein, näherungsweise gleichzeitig mehrere Kamerabilder mittels jeweils einer Kamera zu erfassen, wobei die Kameras unterschiedliche Blickfelder beziehungsweise Perspektiven aufweisen beziehungsweise einen anderen Teilbereich der Umgebung erfassen. Mit anderen Worten kann es vorgesehen sein, dass mehrere Kamerabilder mehrerer Fahrzeugkameras erfasst werden, welche vorteilhafterweise jeweils Teil eines Surround View-Systems des Fahrzeugs sind. Vorteilhafterweise ist die Kamera beziehungsweise Fahrzeugkamera dazu eingerichtet, einen in Fahrrichtung vorne liegenden Bereich einer Umgebung des Fahrzeugs zu erfassen. Die Kamera beziehungsweise Fahrzeugkamera ist, insbesondere aus Kostengründen, bevorzugt eine Monokamera, wobei die Monokamera eine Weitwinkeloptik aufweisen kann. Alternativ ist die Kamera beziehungsweise Fahrzeugkamera vorteilhafterweise Teil einer Stereokamera, insbesondere um eine erhöhte Zuverlässigkeit oder Genauigkeit des Verfahrens zu erreichen. In einem zweiten Verfahrensschritt wird eine semantische Segmentierung des wenigstens einen Kamerabildes durch ein erstes angelerntes maschinelles Erkennungsverfahren durchgeführt. Dabei wird vorteilhafterweise in wenigstens einem Teilbereich des Kamerabildes wenigstens eine Bildregion erkannt, welche eine statische und/oder bewegte Objektklasse abbildet, beispielsweise werden andere Fahrzeuge in dem Kamerabild erkannt. Anschließend wird in einem weiteren Verfahrensschritt in Abhängigkeit der semantischen Segmentierung eine Segmentinformation zu den Pixeln des Kamerabildes zugeordnet, wobei die jeweiligen Pixel insbesondere das erkannte Objekt abbilden. Beispielsweise wird den Pixeln des Kamerabildes, welche ein Fahrzeug abbilden, als Segmentinformation ein Wert zugeordnet, welcher Fahrzeuge repräsentiert. Anschließend wird wenigstens ein Bildausschnitt des Kamerabildes als Segment ermittelt, welcher benachbarte Pixel mit der gleichen zugeordneten Segmentinformation aufweist. Mit anderen Worten werden benachbarte Pixel des Kamerabildes in Abhängigkeit der jeweils zugeordneten Segmentinformation zu einem Segment gruppiert. Als benachbarte Pixel werden dabei vorteilhafterweise alle Pixel eines Kamerabildes verstanden, welche eine Verbindung zu dem jeweiligen Pixel durch Pixel mit der gleichen Segmentinformation aufweisen. Ein einzelnes Segment kann folglich insbesondere mehr als ein Fahrzeug oder mehr als eine Person umfassen. Anschließend erfolgt eine Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Kamerablickfeld und der Kamera, insbesondere zwischen Objekten in der Umgebung des Fahrzeugs und dem Fahrzeug. Bevorzugt werden die Abstandsdaten in Abhängigkeit des erfassten Kamerabilds ermittelt. Besonders bevorzugt werden die Abstandsdaten in Abhängigkeit des erfassten Kamerabilds durch ein zweites angelerntes maschinelles Erkennungsverfahren ermittelt, siehe Veröffentlichung von C.Godard et al. oder D. Eigen et al.. Alternativ oder zusätzlich können die Abstandsdaten durch ein Stereovision-Verfahren und/oder ein structure-from-motion-Verfahren ermittelt werden. Alternativ oder zusätzlich können die Abstandsdaten durch einen Ultraschallsensor, einen Radarsensor und/oder einen Lidarsensor ermittelt werden. In einem weiteren Schritt des Verfahrens wird eine Abstandsinformation zu den Pixeln zumindest eines Teils des Kamerabildes in Abhängigkeit der ermittelten Abstandsdaten zugeordnet. Die zugeordnete Abstandsinformation des jeweiligen Pixels repräsentiert vorteilhafterweise einen Abstand eines von dem Pixel abgebildeten Objektes der Umgebung zum Fahrzeug. Alternativ oder zusätzlich zur Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Kamerablickfeld und der Kamera wird eine Ermittlung eines optischen Flusses beziehungsweise einer Relativbewegung zu wenigstens einem Teil der Pixel des erfassten Kamerabilds durchgeführt. Insbesondere wird ein optischer Fluss der Pixel eines ermittelten Segments bestimmt. Die Ermittlung des optischen Flusses zu wenigstens einem Teil der Pixel des Kamerabildes erfolgt in Abhängigkeit des erfassten Kamerabildes sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes. In einem weiteren Schritt wird wenigstens eine dreidimensionale Objekthypothese in einem ermittelten Segment bestimmt, wobei Pixel des ermittelten Segments vorteilhafterweise in Abhängigkeit der jeweils zugeordneten Abstandsinformationen zu einem Segmentausschnitt untergruppiert beziehungsweise gruppiert werden. Die Gruppierung der Pixel in einem Segment zu einer dreidimensionalen Objekthypothese erfolgt insbesondere wenn eine Differenz zwischen den zugeordneten Abstandsinformationen dieser Pixel oder zumindest einer vorbestimmten Anzahl dieser Pixel kleiner oder gleich einem Abstandstoleranzwert ist. Mit anderen Worten wird ein Segmentausschnitt des Segments als dreidimensionale Objekthypothese vorteilhafterweise in Abhängigkeit der zugeordneten Abstandsinformationen der Pixel des Segments bestimmt, wobei dieser Segmentausschnitt vorteilhafterweise zumindest eine definierte Anzahl an Pixeln aufweist, deren zugeordnete Abstandsinformationen jeweils zueinander eine Differenz kleiner oder gleich einem Abstandstoleranzwert aufweisen. Alternativ oder zusätzlich wird die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments in Abhängigkeit des ermittelten optischen Flusses der Pixel des Segments durchgeführt. Mit anderen Worten werden vorteilhafterweise bei der Bestimmung der dreidimensionalen Objekthypothese zusätzlich oder alternativ die Pixel eines ermittelten Segments in Abhängigkeit des ermittelten optischen Flusses zu einem Segmentausschnitt zusammengefasst beziehungsweise gruppiert. Dabei werden insbesondere zusätzlich oder alternativ diejenigen Pixel des Segments zum Segmentausschnitt zusammengefasst, deren optische Flussvektoren näherungsweise gleich sind und/oder deren Änderung der Flussvektoren näherungsweise gleich sind und/oder deren optische Flussvektoren in die näherungsweise gleiche Richtung zeigen. Vorteilhafterweise sind die zu einer dreidimensionalen Objekthypothese gruppierten Pixel benachbart. Das Verfahren weist den Vorteil auf, dass eine zuverlässige Ermittlung der Objekthypothesen erfolgt, weil das oder die angelernte(n) maschinellen Erkennungsverfahren mit einem physikalischen Modell verknüpft werden. Mit anderen Worten werden Fehler in der Objekterkennung und/oder in einer ermittelten Objektausdehnung vermieden, insbesondere, wenn zwei Objekte einander verdecken, da sich gegenseitig verdeckende Objekte einen unterschiedlichen Abstand zur Kamera und/oder eine unterschiedliche Bewegungsrichtung und/oder einen unterschiedliche Geschwindigkeit aufweisen. Das dabei angewendete physikalische Modell besagt, dass in einem Bildausschnitt des Kamerabildes bzw. in einem Segment, welches einen gleichem semantischen Inhalt abbildet, insbesondere keine signifikant unterschiedlichen Abstände zur Kamera beziehungsweise zum Fahrzeug und/oder keine signifikant unterschiedlichen Geschwindigkeiten oder Bewegungsrichtungen vorliegen können, wenn dieses nur ein Objekt repräsentieren würde. Mit anderen Worten können in einem Segment vorteilhafterweise unterschiedliche Segmentausschnitte identifiziert werden, welche unterschiedliche dreidimensionale Objekthypothesen repräsentieren. Dies ist beispielsweise von Vorteil, wenn ein Fahrzeug in dem erfassten Kamerabild von einem anderen Fahrzeug oder eine Person in dem erfassten Kamerabild von einer anderen Person verdeckt wird. Darüber hinaus lässt sich das erste angelernte maschinelle Erkennungsverfahren vorteilhafterweise robuster trainieren, da es gegenüber klassischen Objekterkennungsverfahren eine abstrahiertere Ausgabe erzeugen kann, beispielsweise müssen statische und bewegte Objekte oder Fahrzeugklassen zunächst nicht unterschieden werden. Bevorzugt wird das Verfahren mittels nur einer Kamera beziehungsweise Fahrzeugkamera beziehungsweise mittels einer Monokamera oder mittels einer Stereokamera durchgeführt und auf zusätzliche aktive Sensoren, welche elektromechanische Strahlung oder Druck bzw. Ultraschall aussenden, verzichtet. Dadurch kann das Verfahren kostengünstig und sehr recheneffizient durchgeführt werden.
  • In einer vorteilhaften Weiterbildung der Erfindung wird die Objekthypothese nur bestimmt, wenn die den Pixeln des Segmentausschnitts zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist. Dadurch wird das Verfahren recheneffizienter und zuverlässiger.
  • In einer Ausführung des Verfahren erfolgt die Bestimmung der dreidimensionalen Objekthypothese nur, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist. Dadurch werden unrealistisch kleine Ausdehnungen von Objekthypothesen oder unwichtige Objekthypothesen vermieden.
  • In einer Weiterführung des Verfahrens wird bei der Bestimmung der dreidimensionalen Objekthypothese der Abstandstoleranzwert in Abhängigkeit der zugeordneten Segmentinformation, der zugeordneten Abstandsinformation und/oder einer erfassten Geschwindigkeit des Fahrzeugs angepasst. Dadurch kann der Abstandstoleranzwert vorteilhafterweise an eine zu erwartende Ausdehnung einer Objektklasse und/oder an eine zu erwartende Ausrichtung einer Objektklasse, beispielsweise von Fahrzeugen oder Personen, welche sich verdecken, und/oder an eine sich mit wechselnder Fahrzeuggeschwindigkeit ändernde Genauigkeit der ermittelten Abstandsdaten angepasst werden. Vorteilhafterweise ist beispielsweise der Abstandstoleranzwert zur Trennung von Objekthypothesen in einem Segment für eine zugeordnete Segmentinformation, welche Personen repräsentiert, kleiner als für eine zugeordnete Segmentinformation, welche Fahrzeuge repräsentiert.
  • In einer anderen Ausführung wird vor der Bestimmung der dreidimensionalen Objekthypothese wenigstens ein Objekt in dem ermittelten Segment durch ein weiteres angelerntes maschinelles Erkennungsverfahren erkannt. Beispielsweise wird ein Kopf einer Person oder ein Nummernschild erkannt. Anschließend wird die Objekthypothese in einem Segment in Abhängigkeit des erkannten Objektes ermittelt, beispielsweise wird die Anzahl der Objekthypothesen in Abhängigkeit der Anzahl der in dem Segment abgebildeten Fahrzeuge oder der Personen ermittelt. Mit anderen Worten werden beispielsweise Objekthypothesen in Abhängigkeit der Anzahl der in dem Segment abgebildeten Fahrzeuge oder der Personen ermittelt. Optional erfolgt in einem weiteren Schritt vor der Bestimmung der dreidimensionalen Objekthypothese eine Zuordnung einer Objektinformation zu den jeweiligen Pixeln des ermittelten Segments, welche das erkannte Objekt abbilden, in Abhängigkeit des erkannten Objektes. Danach wird in dieser optionalen Ausgestaltung die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zumindest einigen Pixeln im Segmentausschnitt zugeordneten Objektinformation durchgeführt. Optional wird mit anderen Worten die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der den Pixeln zugeordneten Objektinformation durchgeführt. In dieser Ausführung kann beispielsweise ein Abstandstoleranzwert in Abhängigkeit der Anzahl der erkannten Objekte angepasst werden, falls die Anzahl der ermittelten Objekthypothesen nicht der ermittelten Anzahl der erkannten Objekte entspricht. Alternativ oder zusätzlich wird die Anzahl der bestimmten Objekthypothesen in Abhängigkeit der ermittelten Anzahl der erkannten Objekte durchgeführt. In dieser Ausführung wird somit vorteilhafterweise eine Objekthypothese für ein sich im Vordergrund befindliches Objekt im Blickfeld der Kamera bestimmt, wenn beispielsweise eine notwendige Bedingung, wie ein Nummernschild eines Fahrzeugs oder ein Kopf einer Person, erkannt wird. Alternativ oder zusätzlich wird vorteilhafterweise die Anzahl der ermittelten dreidimensionalen Objekthypothesen überprüft und gegebenenfalls ein Parameter des Verfahrens angepasst, wenn die Anzahl der ermittelten Objekthypothesen nicht zur Anzahl der erkannten Objekte korreliert.
  • In einer weiteren Ausführung kann es vorgesehen sein, wenigstens eine Texturinformation und/oder eine Farbinformation der Pixel in dem ermittelten Segment zu ermitteln. Anschließend wird die ermittelte Texturinformation und/oder die ermittelte Farbinformation den jeweiligen Pixeln des ermittelten Segments zugeordnet, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation abbilden. Danach erfolgt die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation. Mit anderen Worten werden die Pixel eines ermittelten Segments zusätzlich in Abhängigkeit der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu einer dreidimensionalen Objekthypothese beziehungsweise einem Segmentausschnitt zusammengefasst beziehungsweise gruppiert, wobei insbesondere diejenigen Pixel des Segments zusammengefasst werden, deren ermittelte beziehungsweise zugeordnete Texturinformation und/oder deren ermittelte beziehungsweise zugeordnete Farbinformation näherungsweise gleich sind. Dadurch resultiert der Vorteil, dass einander teilweise verdeckende und/oder nebeneinanderfahrende unterschiedliche Fahrzeuge oder einander teilweise verdeckende und/oder nebeneinander gehende Personen als unterschiedliche dreidimensionale Objekthypothesen leichter ermittelt werden können.
  • In einer anderen Weiterführung werden die mittels einer Fahrzeugkamera ermittelten Abstandsdaten zwischen der Umgebung des Fahrzeugs und dem Fahrzeug mittels eines Ultraschallsensors, eines Lidarsensors und/oder eines Radarsensors korrigiert. Dadurch resultiert der Vorteil, dass die ermittelten Abstandsdaten genau erfasst beziehungsweise ermittelt werden. Dies ermöglicht eine genauere Ermittlung von dreidimensionalen Objekthypothesen, so dass vorteilhafterweise beispielsweise in einer Ansammlung von Menschen an einer Ampel mehrere neben- oder hintereinanderstehender und/oder einander teilweise verdeckender Personen als dreidimensionale Objekthypothesen leichter ermittelt werden können.
  • Bevorzugt kann des Weiteren nach der Bestimmung der dreidimensionalen Objekthypothese eine Validierung der dreidimensionalen Objekthypothese durchgeführt werden, wobei das Verfahren basierend auf einem anderen vorher oder später mittels der Kamera beziehungsweise Fahrzeugkamera erfassten Kamerabild wiederholt durchgeführt wird. Dadurch wird vorteilhafterweise die Ermittlung der Objekthypothesen auf zeitliche Konsistenz überprüft. Mit anderen Worten wird in dieser Ausgestaltung überprüft, ob eine Person oder ein Fahrzeug vorher und nachher im Kamerabild erfasst und als Objekthypothese bereits ermittelt wurde, da die Person oder das Fahrzeug nicht plötzlich verschwinden oder auftauchen kann.
  • Darüber hinaus kann optional eine Validierung der dreidimensionalen Objekthypothese erfolgen, wobei das Verfahren basierend auf einem anderen vorher oder später oder zeitgleich mittels einer anderen Kamera aus einer anderen Perspektive erfassten Kamerabild durchgeführt wird. Dadurch wird vorteilhafterweise die Ermittlung der Objekthypothesen auf perspektivische Konsistenz überprüft. Vorteilhafterweise sind die andere Kamera und die Kamera beziehungsweise die Fahrzeugkamera in dieser Ausführung Teil einer Stereokamera, so dass die Abstandsdaten zusätzlich genau erfasst beziehungsweise ermittelt werden können. In dieser Weiterführung ist das Verfahren besonders genau und zuverlässig.
  • In einer optionalen Ausgestaltung des Verfahrens wird die wenigstens eine bestimmte dreidimensionale Objekthypothese anschließend in einem virtuellen dreidimensionalen Umgebungsmodell angezeigt. Vorteilhafterweise wird das Umgebungsmodell aus einer Vogelperspektive angezeigt beziehungsweise dargestellt. Es kann vorgesehen sein, dass die dreidimensionale Objekthypothese mittels eines in Abhängigkeit der dreidimensionalen Objekthypothese geladenen synthetisches Modells angezeigt beziehungsweise dargestellt wird, wobei das synthetische Modell die Objekthypothese repräsentiert. Dabei wird insbesondere die dreidimensionale Objekthypothese zum Fahrzeug in Abhängigkeit der den Pixeln zugeordneten Abstandsinformation angezeigt, welche die jeweilige ermittelte Objekthypothese darstellen. Es kann vorteilhafterweise des Weiteren vorgesehen sein, dass die dreidimensionale Objekthypothes zusätzlich in Abhängigkeit einer basierend auf einem anderen angelernten maschinellen Erkennungsverfahren ermittelten Ausrichtung der bestimmten Objekthypothese angezeigt wird.
  • Die Erfindung betrifft auch ein Computerprogramm, welches dazu eingerichtet ist, ein erfindungsgemäßes Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera durchzuführen.
  • Die Erfindung betrifft des Weiteren ein maschinenlesbares Speichermedium, auf welchem das erfindungsgemäße Computerprogrammprodukt gespeichert ist.
  • Des Weiteren betrifft die Erfindung ein Steuergerät. Das erfindungsgemäße Steuergerät ist dazu eingerichtet, mit wenigstens einer Kamera verbunden zu sein, wobei die Kamera insbesondere eine Fahrzeugkamera ist. Das Steuergerät ist des Weiteren dazu eingerichtet, ein erfindungsgemäßes Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera durchzuführen.
  • Ferner betrifft die Erfindung ein Fahrzeug mit einem erfindungsgemäßen Steuergerät.
  • Darüber hinaus betrifft die Erfindung ein Videoüberwachungssystem mit einem erfindungsgemäßen Steuergerät.
  • Weitere Vorteile ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen mit Bezug zu den Figuren.
    • 1: Fahrzeug
    • 2: Verfahren
    • 3: erfasstes Kamerabild
    • 4: Grobeinteilung des erfassten Kamerabilds zu Segmenten
    • 5: ermittelte Abstandsdaten zu dem erfassten Kamerabild
  • Ausführungsbeispiele
  • In 1 ist ein Fahrzeug 100 schematisch dargestellt, welches verschiedene Sensoren 111, 112, 120, 130, 140 zur Erfassung der Umgebung des Fahrzeugs 100 aufweist. Das Fahrzeug 100 weist eine Kamera 111 beziehungsweise Fahrzeugkamera auf, welche aus Kostengründen vorteilhafterweise als Monokamera ausgestaltet ist. Die Kamera 111 erfasst einen Teilbereich 191 der Umgebung 190, welcher im Blickfeld 191 der Kamera liegt. Die Kamera 111 ist dazu eingerichtet, wenigstens ein Kamerabild des Teilbereichs 191 im Blickfeld 191 von der Umgebung 190 des Fahrzeugs 100 bzw. einer Abfolge von Kamerabildern der Umgebung 190 zu erfassen. Insbesondere wird von der Kamera 111 ein Blickfeld 191 beziehungsweise ein Teilbereich der Umgebung 190 in Fahrtrichtung des Fahrzeugs 100 beziehungsweise die vordere Umgebung 190 des Fahrzeugs 100 erfasst. Es kann vorgesehen sein, dass alternativ mittels der Kamera 111 oder mittels einer weiteren Kamera 120 zusätzlich ein rückwärtiger Teilbereich der Umgebung 190 des Fahrzeugs 100 erfasst wird, wobei die jeweilige Kamera 111 als Weitwinkelkamera ausgestaltet sein kann. Des Weiteren kann vorgesehen sein, dass alternativ oder zusätzlich mehrere Weitwinkelkameras 120 eines Surround-View-Kamerasystems als Kameras 111 am Fahrzeug angeordnet sind. Optional umfasst das Fahrzeug 100 ein Stereovision-System 110, welches die Kamera 111 beziehungsweise Fahrzeugkamera und eine weitere Kamera 112 umfasst. Mittels der Kamera 111 und der weiteren Kamera 112 können jeweils einer Abfolge von Kamerabildern beziehungsweise Kamerabilder erfasst und durch ein Triangulationsverfahren basierend auf gleichzeitig erfassten Kamerabildern der Kamera 111 und der weiteren Kamera 112 Abstände beziehungsweise Abstandsdaten zwischen der Kamera 111 beziehungsweise dem Fahrzeug und der Umgebung 190 beziehungsweise Objekten 180 in der Umgebung 190 des Fahrzeugs 100 ermittelt werden. Umgebungsobjekte 180 sind beispielsweise andere Fahrzeuge beziehungsweise Fremdfahrzeuge, welche beispielsweise dem Fahrzeug 100, beispielsweise auf einer gemeinsamen Fahrbahn 182, voraus- oder nachfahren, oder andere Fahrzeuge, welche dem Fahrzeug 100 beispielsweise auf einer anderen Fahrbahn 182 entgegenkommen, oder Personen, welche sich beispielsweise auf einem Bürgersteig 181 neben der Fahrbahn bewegen. Alternativ oder zusätzlich kann das Fahrzeug 100 zusätzlich zur Kamera 111 zur Erfassung bzw. Ermittlung von Abstandsdaten beispielsweise wenigstens einen Radarsensor 130, einen Lidarsensor (nicht dargestellt) und/oder einen Ultraschallsensor 140 als optionalen Sensor aufweisen. Das Fahrzeug 100 weist ferner eine Anzeigevorrichtung 150 auf, welche dazu eingerichtet ist, einem Nutzer beziehungsweise Fahrer des Fahrzeugs 100 Informationen, welche auf den erfassten Sensordaten der verschiedene Sensoren 111, 112, 120, 130, 140 basieren, anzuzeigen. Das Fahrzeug 100 kann mittels eines Steuergeräts optional dazu eingerichtet sein, eine Führung des Fahrzeugs 100 zu unterstützen. Das Fahrzeug 100 kann ferner optional dazu mittels eines Steuergeräts eingerichtet sein, manche Fahrsituationen teilautonom oder vollautonomen durchzuführen, beispielsweise einen Einparkvorgang oder eine Fahrt auf einer Autobahn.
  • In 2 ist ein Ablauf des Verfahrens zur Erkennung dreidimensionaler Objekte 180 in einem Blickfeld 191 einer Kamera 111 als Blockschaltbild schematisch dargestellt. Das Verfahren beginnt mit einer Erfassung 210 wenigstens eines Kamerabildes mittels der Kamera 111, 112 und/oder 120, wobei die Kamera 111, 112 und/oder 120 insbesondere an einem Fahrzeug 100 angeordnet ist beziehungsweise wobei die Kamera 111, 112 und/oder 120 insbesondere die Fahrzeugkamera gemäß 1 ist.
  • Alternativ kann die Kamera 111, 112 und/oder 120 Teil eines Überwachungssystems sein, wobei das Überwachungssystem insbesondere ortsfest ist. Anschließend wird im Schritt 220 eine semantische Segmentierung des Kamerabildes durch ein erstes angelerntes maschinelles Erkennungsverfahren durchgeführt. Beispielsweise werden im Schritt 220 durch das erste angelernte maschinelles Erkennungsverfahren beziehungsweise die semantische Segmentierung Teilbereiche des Kamerabildes, welche semantische Kategorien abbilden, wie zum Beispiel wenigstens eine Person, ein Fahrzeug beziehungsweise ein Auto und/oder eine Straße und/oder ein für die Fahrt beziehungsweise Überwachung unwichtiger Hintergrund der Umgebung, erkannt. Durch die semantische Segmentierung 220 werden insbesondere alle Pixel des Kamerabildes klassifiziert, wobei die semantische Segmentierung 220 eine Grobeinteilung des Kamerabildes in die jeweiligen abgebildeten Kategorien repräsentiert, beispielsweise umfassen die Kategorien einen Hintergrund des Kamerabildes oder bewegte Objekte. Mit anderen Worten werden bevorzugt durch die semantische Segmentierung 220 alle Objekte in der Umgebung der Kamera 111, welche sich im Blickfeld 191 der Kamera befinden, klassifiziert und insbesondere zusätzlich beispielsweise auch ein Teilbereich des Kamerabildes als Hintergrund erkannt beziehungsweise klassifiziert. Anschließend erfolgt eine Zuordnung 221 einer Segmentinformation zu denjenigen Pixeln des jeweiligen Teilbereichs des Kamerabildes für welchen eine Kategorie erkannt wurde. Die im Schritt 221 einem jeweiligen Pixel des Kamerabildes oder einer Repräsentation des Kamerabildes zugeordnete Segmentinformation repräsentiert die erkannte semantische Kategorie, welche durch das Pixel abgebildet wird. Danach werden im Schritt 222 benachbarte Pixel des Kamerabildes in Abhängigkeit der jeweils zugeordneten semantischen Segmentinformation zu einem Segment 410, 420 gruppiert. Mit anderen Worten wird im Schritt 222 wenigstens ein Bildausschnitt als Segment 410, 420 in Abhängigkeit der den Pixeln zugeordneten semantischen Segmentinformationen ermittelt, wobei ein Segment 410, 420 bevorzugt nur einander benachbarte Pixel aufweist. Die Nachbarschaft von Pixeln kann auf verschiedene Art und Weise entsprechend des Standes der Technik ermittelt werden. Beispielsweise können Pixel als zueinander benachbart gelten, wenn zwischen zwei Pixeln nur Pixel mit der gleichen zugeordneten semantischen Segmentinformation angeordnet sind oder, wenn zwischen zwei Pixeln eine direkte Verbindung durch Pixel mit der gleichen zugeordneten semantischen Segmentinformation möglich ist. Ein Segment 410, 420 kann ein oder mehrere einander zumindest teilweise verdeckende Objekte, beispielsweise mehrere Personen oder mehrere Fahrzeuge, aufweisen. In einem zum Schritt 250 alternativen oder zusätzlichen Schritt 230 werden optische Flussvektoren beziehungsweise ein optischer Fluss zu wenigstens einem Teil der Pixel des erfassten Kamerabilds ermittelt, siehe unten. Im Schritt 230 werden insbesondere optische Flussvektoren zu den Pixeln jedes ermittelten Segments 410, 420 in Abhängigkeit des Kamerabildes sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes ermittelt, insbesondere wenn das Segment 410, 420 beziehungsweise der Teilbereich des Kamerabildes mindestens ein bewegtes und/oder nicht bewegtes Umgebungsobjekt abbildet. Des Weiteren kann optional eine Ermittlung 240 wenigstens einer Texturinformation und/oder einer Farbinformation der Pixel in dem ermittelten Segment 410, 420 durchgeführt werden. Anschließend wird in dieser optionalen Ausgestaltung eine Zuordnung 241 der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu den jeweiligen Pixeln des ermittelten Segments 410, 420 durchgeführt. Die jeweiligen Pixel, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation zugeordnet wird, bilden die ermittelte Texturinformation und/oder die ermittelte Farbinformation ab. In einem zum Schritt 230 alternativen oder zusätzlichen weiteren Schritt 250 des Verfahrens werden Abstandsdaten 501 bis 507 zwischen Umgebungsobjekten 180 im Kamerablickfeld 191 beziehungsweise dem von der Kamera 111, 112 und/oder 120 erfassten Teilbereich der Umgebung und der Kamera 111, 112 und/oder 120 ermittelt. Die Abstandsdaten 501 bis 507 werden im Schritt 250 bevorzugt mittels eines angelernten zweiten maschinellen Erkennungsverfahrens basierend auf dem Kamerabild 300 einer Monokamera als Kamera 111 oder mittels einer Stereokamera 110 ermittelt. Alternativ können die Abstandsdaten zwischen Umgebungsobjekten 180 im Kamerablickfeld 191 und der Kamera 111, 112 und/oder 120 wenigstens mittels eines Ultraschallsensors, eines Lidarsensors und/oder eines Radarsensors ermittelt werden. Es kann in einem optionalen Schritt 251 vorgesehen sein, dass im Schritt 250 kamerabasiert ermittelte Abstandsdaten durch mittels Ultraschallsensor, Lidarsensor und/oder Radarsensor ermittelte Abstandsdaten korrigiert und/oder validiert werden. Danach wird im Schritt 252 Pixeln zumindest eines Teils des Kamerabildes in Abhängigkeit der im Schritt 250 oder der im Schritt 251 ermittelten Abstandsdaten jeweils eine Abstandsinformation zugeordnet. In einem optionalen Schritt 260 wird wenigstens ein Objekt beziehungsweise Detailobjekt in dem ermittelten Segment 410, 420 durch ein weiteres angelerntes maschinelles Erkennungsverfahren erkannt, wobei das erkannte Detailobjekt in dem Segment 410, 420 einen niedrigeren Abstraktionsgrad aufweist als die zugeordnete Segmentinformation beziehungsweise die erkannte semantische Kategorie des Segments 410, 420. Beispielsweise wird im optionalen Schritt 260 ein Nummernschild zu dem ermittelten Segment Fahrzeuge beziehungsweise bewegliches Objekt ermittelt. In einem in 2 nicht dargestellten optionalen Schritt 261 wird das erkannte Detailobjekt zu den jeweiligen Pixeln des ermittelten beziehungsweise zugehörigen beziehungsweise übergeordneten Segments 410, 420 zugeordnet. Im nächsten Schritt 270 wird wenigstens eine dreidimensionale Objekthypothese als Segmentausschnitt eines ermittelten Segments 410, 420 in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformationen bestimmt. Eine Objekthypothese wird insbesondere im Schritt 270 bestimmt, wenn die benachbarten Pixel zugeordnete Abstandsinformationen näherungsweise gleich sind beziehungsweise die zugeordnete Abstandsinformationen der Pixel jeweils zueinander eine Differenz kleiner oder gleich einen Abstandstoleranzwert aufweisen. Mit anderen Worten wird die Objekthypothese vorteilhafterweise im Schritt 270 bestimmt, wenn die den Pixeln eines Segmentausschnitts des Segments 410, 420 zugeordneten Abstandsinformationen, insbesondere für zumindest eine vorgegebene Anzahl an Pixeln, näherungsweise gleich sind beziehungsweise die zugeordneten Abstandsinformationen der Pixel in zumindest einem Segmentausschnitt jeweils zueinander eine Differenz kleiner oder gleich einen Abstandstoleranzwert aufweisen. Die Bestimmung 270 der Objekthypothese ist dazu eingerichtet, zwei unterschiedliche im gleichen Segment 410, 420 abgebildete Objekte, welche sich insbesondere gegenseitig verdecken, voneinander zu trennen, da diese einen unterschiedlichen Abstand zur Kamera aufweisen, welcher durch die Abstandsinformationen repräsentiert wird. Es kann im Schritt 270 optional vorgesehen sein, dass die Objekthypothese nur bestimmt wird, wenn die den Pixeln eines Segmentausschnitts des Segments 410, 420 zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist. Mit anderen Worten werden dreidimensionale Objekthypothesen im Schritt 270 vorteilhafterweise nur innerhalb einer näheren Umgebung zur Kamera beziehungsweise zum Fahrzeug bestimmt, wobei dieser nähere Umgebungsbereich durch den Abstandsschwellenwert definiert ist. Die Bestimmung 270 der dreidimensionalen Objekthypothese erfolgt des Weiteren in einer optionalen Weiterführung nur, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist. Es kann darüber hinaus im Schritt 270 vorgesehen sein, dass bei der Bestimmung 260 der dreidimensionalen Objekthypothese ein Abstandstoleranzwert in Abhängigkeit der den Pixeln des Segments zugeordneten Segmentinformation, in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformation und/oder in Abhängigkeit einer erfassten Geschwindigkeit des Fahrzeugs angepasst wird. Vorteilhafterweise erfolgt die Bestimmung 270 der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich oder alternativ in Abhängigkeit des ermittelten optischen Flusses. Ferner kann es vorgesehen sein, dass die Bestimmung 270 der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit des erkannten Objektes beziehungsweise des erkannten Detailobjektes durchgeführt wird. Beispielsweise wird vorteilhafterweise ein vorausfahrendes Fahrzeuges erkannt, wenn ein Nummernschild in dem Segmentausschnitt erkannt wird. Es kann des Weiteren im Schritt 270 vorgesehen sein, dass die dreidimensionale Objekthypothese in Abhängigkeit einer ermittelten Anzahl an Objekten in dem Segment ermittelt wird, beispielsweise durch Anpassung des Abstandstoleranzwertes. Ferner kann die Bestimmung 270 der dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation erfolgen, so dass ein grünes Fahrzeug leichter von einem roten Fahrzeug getrennt beziehungsweise unterschieden werden kann. In einem weiteren optionalen Verfahrensschritt 280 wird das Verfahren zunächst basierend auf einem anderen vorher oder später mittels der Fahrzeugkamera erfassten Kamerabild wiederholt durchgeführt. Anschließend wird im optionalen Schritt 280 die Konsistenz der Objekthypothese mit früher oder später ermittelten Objekthypothesen überprüft beziehungsweise die bestimmte Objekthypothese in Abhängigkeit der zu einem anderen Zeitpunkt ermittelten Objekthypothese validiert oder verworfen. Des Weiteren kann in einem anderen optionalen Schritt 281 das Verfahren basierend auf einem aus einer anderen Perspektive erfassten Kamerabild wiederholt durchgeführt werden. Anschließend wird im optionalen Schritt 281 die Konsistenz der bestimmten dreidimensionalen Objekthypothese mit einer aus einer anderen Perspektive ermittelten Objekthypothesen überprüft beziehungsweise die bestimmte Objekthypothese in Abhängigkeit der aus einer anderen Perspektive ermittelten Objekthypothese validiert oder verworfen. Schließlich kann in einem optionalen Verfahrensschritt 290 vorgesehen sein, die wenigstens eine bestimmten dreidimensionalen Objekthypothese in einem virtuellen dreidimensionalen Umgebungsmodel darzustellen.
  • In 3 ist ein erfasstes Kamerabild 300 schematisch dargestellt, welches mittels einer an einem Fahrzeug 100 angeordneten und in Vorwärtsrichtung ausgerichteten Kamera 111, 112 und/oder 120 erfasst wurde. Das Kamerabild 300 bildet den im Blickfeld 191 der Kamera 111, 112 und/oder 120 erfassten Teilbereich der Umgebung ab. Abgebildet sind beispielsweise eine Fahrbahn beziehungsweise Fahrspur 182 mit einem vorausfahrendes Fahrzeug 320 als bewegliches Objekt 180 und einander teilweise verdeckende Fußgänger 310 als weitere bewegliche Objekte 180 auf einem Bürgersteig 181 sowie ein auf einem Bürgersteig 181 parkendes Fahrzeug 330 als stehendes bewegliches Objekt 180, wobei das parkende Fahrzeug 330 teilweise von dem vorausfahrenden Fahrzeug 320 verdeckt wird.
  • In 4 ist eine nach den Schritten 220, 221 und 222 ermittelte kategorisierte Darstellung beziehungsweise Grobeinteilung 400 des erfassten Kamerabilds 300 aus 3 dargestellt, wobei benachbarter Pixel des Kamerabildes zu Segmenten 410, 420 und 430 und 440 gruppiert wurden. In dem Kamerabild 300 werden zunächst durch ein erstes angelerntes maschinelles Erkennungsverfahren bewegliche Objekte 180 als semantische Kategorie erkannt, beispielsweise Personen und Fahrzeuge. Des Weiteren wird durch die semantische Segmentierung 220 ein für die Fahrt des Fahrzeugs nicht relevanter Hintergrund im Kamerabild 300 erkannt. Es kann vorgesehen sein, weitere semantische Kategorien zu erkennen, beispielsweise die Fahrbahn 182. Den jeweiligen Pixeln, welche die Fahrzeuge und Personen abbilden, werden als Segmentinformation im Schritt 221 die Kategorie bewegliches Objekt 180 zugeordnet. Anschließend werden im Schritt 222 beispielsweise die Segmente 410 und 420, sowie vorteilhafterweise wenigstens ein Segment 430 zur Fahrbahn 182 und wenigstens ein Segment 440 zum Hintergrund, durch Gruppierung benachbarter Pixel mit der gleichen zugeordneten Segmentinformation, insbesondere bewegliches Objekt 180, gebildet beziehungsweise ermittelt. Die semantische Segmentierung 220 des erfassten Kamerabilds resultiert folglich durch die Schritte 221 und 222 in der in 4 dargestellten Grobeinteilung 400 des Kamerabildes 300 in Segmente 410, 420 und 430 und 440, wobei diese Grobeinteilung 400 insbesondere benachbarte Pixel mit einer unterschiedlichen zugeordneten Segmentinformation voneinander trennt. Ein Segment 410, 420 des Kamerabildes kann dabei mehrere Personen und/oder Fahrzeuge repräsentieren beziehungsweise umfassen.
  • In 5 sind mittels des zweiten angelernten maschinelles Erkennungsverfahrens ermittelte Abstandsdaten zu dem erfassten Kamerabild 300 aus 3 schematisch dargestellt. Die Bereiche 501 bis 507, welche teilweise aber nicht notwendigerweise ringförmig verlaufen, repräsentieren jeweils einen unterschiedlichen Abstand der Umgebung mit den Umgebungsobjekten 180, 310, 320, 330 zur Kamera 111, 112 und/oder 120 beziehungsweise zum Fahrzeug 100. Es lässt sich erkennen, dass basierend auf den erfassten beziehungsweise ermittelten Abstandsdaten 501 bis 507 zumindest einer Vielzahl an Pixeln des Kamerabilds 300 eine ermittelte Abstandsinformation zugeordnet werden kann. Die Abstandsdaten 501 bis 507 werden vorteilhafterweise sehr recheneffizient durch das zweite angelernte maschinelle Erkennungsverfahren abgeschätzt beziehungsweise ermittelt beziehungsweise erkannt oder, nicht dargestellt in 5, technisch bevorzugt durch ein Stereokamera verfahren ermittelt, da mittels eines Stereokameraverfahrens ermittelte Abstandsdaten eine hohe Güte beziehungsweise Zuverlässigkeit aufweisen. Alternativ können die Abstandsdaten durch einen Ultraschall-, Radar- oder Lidarsensor erfasst beziehungsweise ermittelt werden, wobei vorteilhafterweise Abstandsdaten mit einer hohen Güte beziehungsweise Zuverlässigkeit resultieren. Im Schritt 270 lässt sich in dem Segment 410 basierend auf den ermittelten Abstandsdaten beispielsweise die Person 510 im Vordergrund leicht von den dahinter befindlichen Personen 511, 512 als separate dreidimensionale Objekthypothese bestimmen beziehungsweise unterscheiden. Analog können sich verdeckende voreinander herfahrende Fahrzeuge mit dem erfindungsgemäßen Verfahren gut voneinander als getrennte dreidimensionale Objekthypothesen bestimmt werden (nicht dargestellt). Die im Kamerabild 300 abgebildeten Fahrzeuge 320 und 330 sind trotz der unterschiedlichen Abstände an deren jeweiligem Heck nicht eindeutig basierend auf Abstandsdaten voneinander zu unterscheiden, da die Fahrzeuge 320 und 330 aufgrund ihrer jeweiligen räumlichen Tiefenausdehnung unterschiedliche und teils gleiche Abstände zur Kamera aufweisen. Allerdings weisen die optischen Flussvektoren für die Fahrzeuge 320 und 330 sehr unterschiedliche Beträge auf, da das Fahrzeug 320 fährt und das Fahrzeug 330 parkt beziehungsweise steht. Die Fahrzeuge 320 und 330 können demnach im gleichen Segment 420 vorteilhafterweise sehr zuverlässig als unterschiedliche dreidimensionale Objekthypothesen bestimmt werden, wenn die Bestimmung der dreidimensionale Objekthypothese in Abhängigkeit des optischen Flusses beziehungsweise der optischen Flussvektoren der jeweiligen Pixel eines Segments durchgeführt wird.

Claims (15)

  1. Verfahren zur Erkennung dreidimensionaler Objekte (180) in einem Blickfeld (191) einer Kamera (111, 112, 120), wobei die Kamera (111, 112, 120) insbesondere zumindest einen Teil einer Umgebung (190) eines Fahrzeugs (100) erfasst, umfassend die folgenden Schritte • Erfassung (210) wenigstens eines Kamerabildes (300) mittels der mindestens einen Kamera (111, 112, 120), wobei die Kamera (111, 112, 120) insbesondere an dem Fahrzeug (100) angeordnet ist, • semantische Segmentierung (220) des Kamerabildes (300) durch ein erstes angelerntes maschinelles Erkennungsverfahren, • Zuordnung (221) einer Segmentinformation zu den Pixeln des Kamerabildes (300) in Abhängigkeit der semantischen Segmentierung, • Ermittlung (222) von wenigstens einem Bildausschnitt als Segment (410, 420, 430, 440), wobei benachbarte Pixel des Kamerabildes (300) in Abhängigkeit der jeweils zugeordneten semantischen Segmentinformation zu einem Segment (410, 420, 430, 440) gruppiert werden, • Ermittlung (250) von Abstandsdaten (501 bis 507) zwischen Umgebungsobjekten (180) im Kamerablickfeld (191) und der Kamera (111, 112, 120) und Zuordnung (252) einer Abstandsinformation zu den Pixeln zumindest eines Teils des Kamerabildes (300) in Abhängigkeit der ermittelten Abstandsdaten (501 bis 507), und/oder • Ermittlung (230) eines optischen Flusses zu wenigstens einem Teil der Pixel des erfassten Kamerabilds, insbesondere des ermittelten Segments, in Abhängigkeit des Kamerabildes (300) sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes, und • Bestimmung (270) wenigstens einer dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) als Segmentausschnitt eines ermittelten Segments (410, 420, 430, 440) in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformationen und/oder in Abhängigkeit des ermittelten optischen Flusses der Pixel des Segments.
  2. Verfahren nach Anspruch 1, wobei die Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) nur erfolgt, wenn die den Pixeln des Segmentausschnitts zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) nur erfolgt, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) ein Abstandstoleranzwert in Abhängigkeit der zugeordneten Segmentinformation, der zugeordneten Abstandsinformation und/oder einer erfassten Geschwindigkeit des Fahrzeugs (100) angepasst wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt vor der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • Erkennung (240) wenigstens eines Detailobjektes in dem ermittelten Segment durch ein weiteres angelerntes maschinelles Erkennungsverfahren, wobei • die Bestimmung (270) der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit des erkannten Detailobjektes erfolgt.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt vor der Bestimmung der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • Ermittlung (260) wenigstens einer Texturinformation und/oder einer Farbinformation der Pixel in dem ermittelten Segment, und • Zuordnung (261) der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu den jeweiligen Pixeln des ermittelten Segments, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation abbilden, wobei • die Bestimmung (270) der wenigstens einen dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation erfolgt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die ermittelten Abstandsdaten zwischen Umgebungsobjekten (180) im Kamerablickfeld (191) und der Kamera (111, 112, 120) wenigstens mittels eines Ultraschallsensors (140), eines Lidarsensors und/oder eines Radarsensors (130) ermittelt oder korrigiert werden.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt nach der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • Validierung (280) der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530), wobei das Verfahren basierend auf einem anderen vorher und/oder später mittels der Kamera (111, 112, 120) erfassten Kamerabild wiederholt durchgeführt und eine vorher und/oder später ermittelte dreidimensionale Objekthypothese mit der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) verglichen wird.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt nach der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • Validierung (281) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530), wobei das Verfahren basierend auf einem anderen vorher oder später oder zeitgleich mittels einer anderen Kamera (112) aus einer anderen Perspektive erfassten Kamerabild wiederholt durchgeführt und eine aus anderer Perspektive ermittelte dreidimensionale Objekthypothese mit der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) verglichen wird.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt durchgeführt wird • Anzeige (290) der wenigstens einen bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) in einem virtuellen dreidimensionalen Umgebungsmodel.
  11. Computerprogramm, welches dazu eingerichtet ist, ein Verfahren zur Erkennung dreidimensionaler Objekte nach einem der Ansprüche 1 bis 10 durchzuführen.
  12. Maschinenlesbares Speichermedium, auf dem das Computerprogrammprodukt nach Anspruch 11 gespeichert ist.
  13. Steuergerät, wobei das Steuergerät dazu eingerichtet ist, mit wenigstens einer Kamera (111, 112, 120) verbunden zu sein und ein Verfahren zur Erkennung dreidimensionaler Objekte nach einem der Ansprüche 1 bis 10 durchzuführen.
  14. Fahrzeug (100) mit einem Steuergerät nach Anspruch 13.
  15. Videoüberwachungssystem mit einem Steuergerät nach Anspruch 13.
DE102020210816.1A 2020-08-27 2020-08-27 Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem Pending DE102020210816A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102020210816.1A DE102020210816A1 (de) 2020-08-27 2020-08-27 Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem
PCT/EP2021/068017 WO2022042903A1 (de) 2020-08-27 2021-06-30 Verfahren zur erkennung dreidimensionaler objekte, computerprogramm, maschinenlesbares speichermedium, steuergerät, fahrzeug und videoüberwachungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020210816.1A DE102020210816A1 (de) 2020-08-27 2020-08-27 Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem

Publications (1)

Publication Number Publication Date
DE102020210816A1 true DE102020210816A1 (de) 2022-03-03

Family

ID=76859603

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020210816.1A Pending DE102020210816A1 (de) 2020-08-27 2020-08-27 Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem

Country Status (2)

Country Link
DE (1) DE102020210816A1 (de)
WO (1) WO2022042903A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018123518A1 (de) 2017-09-26 2019-03-28 Nvidia Corporation Lernen von Affinität über ein neuronales Netzwerk mit räumlicher Propagierung
DE102018220024B3 (de) 2018-11-22 2020-03-12 Audi Ag Verfahren zur Fusion von Sensordaten von mehreren Sensoren und Fusionsvorrichtung zum Fusionieren von Sensordaten von mehreren Sensoren
DE102018132805A1 (de) 2018-12-19 2020-06-25 Valeo Schalter Und Sensoren Gmbh Verfahren für eine verbesserte Objekterfassung
DE102020003008A1 (de) 2020-05-19 2020-07-16 Daimler Ag Automatische visuelle Warnehmung mittels einer Umfeldsensoranordnung

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009009047A1 (de) * 2009-02-16 2010-08-19 Daimler Ag Verfahren zur Objektdetektion
JP6501501B2 (ja) * 2014-11-12 2019-04-17 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018123518A1 (de) 2017-09-26 2019-03-28 Nvidia Corporation Lernen von Affinität über ein neuronales Netzwerk mit räumlicher Propagierung
DE102018220024B3 (de) 2018-11-22 2020-03-12 Audi Ag Verfahren zur Fusion von Sensordaten von mehreren Sensoren und Fusionsvorrichtung zum Fusionieren von Sensordaten von mehreren Sensoren
DE102018132805A1 (de) 2018-12-19 2020-06-25 Valeo Schalter Und Sensoren Gmbh Verfahren für eine verbesserte Objekterfassung
DE102020003008A1 (de) 2020-05-19 2020-07-16 Daimler Ag Automatische visuelle Warnehmung mittels einer Umfeldsensoranordnung

Also Published As

Publication number Publication date
WO2022042903A1 (de) 2022-03-03

Similar Documents

Publication Publication Date Title
EP3292510B1 (de) Verfahren und vorrichtung zur erkennung und bewertung von fahrbahnreflexionen
DE112018007287T5 (de) Fahrzeugsystem und -verfahren zum erfassen von objekten und einer objektentfernung
DE102013101639A1 (de) Verfahren und Vorrichtung zur Bestimmung eines Fahrbahnzustands
DE102009050505A1 (de) Detektion eines freien Pfads durch Strassenmodellerstellung
DE102014207802B3 (de) Verfahren und System zum proaktiven Erkennen einer Aktion eines Verkehrsteilnehmers
DE102014112797A1 (de) Fahrzeugaußenumgebungerkennungsvorrichtung
WO2007107315A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
EP3631677A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
WO2020025091A1 (de) Erkennung der bewegungsabsicht eines fussgängers aus kamerabildern
EP3044727B1 (de) Verfahren und vorrichtung zur objekterkennung aus tiefenaufgelösten bilddaten
WO2019201565A1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE102018133441A1 (de) Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102015206546A1 (de) Fahrbahnmarkierungserkennungsvorrichtung
DE102018121008A1 (de) Kreuzverkehrserfassung unter verwendung von kameras
DE102013012930A1 (de) Verfahren zum Bestimmen eines aktuellen Abstands und/oder einer aktuellen Geschwindigkeit eines Zielobjekts anhand eines Referenzpunkts in einem Kamerabild, Kamerasystem und Kraftfahrzeug
DE102016218853A1 (de) Detektion und Validierung von Objekten aus Bildern einer Kamera
DE102011082477A1 (de) Verfahren und System zur Erstellung einer digitalen Abbildung eines Fahrzeugumfeldes
DE102018100667A1 (de) Computersichtvorfusion und räumlich-zeitliche Verfolgung
EP3655299B1 (de) Verfahren und vorrichtung zum ermitteln eines optischen flusses anhand einer von einer kamera eines fahrzeugs aufgenommenen bildsequenz
DE102019214558A1 (de) Projektionsinformations-erkennungsvorrichtung auf basis eines künstlichen neuronalen netzwerks und verfahren derselben
DE102013021840A1 (de) Verfahren zum Erzeugen eines Umgebungsmodells eines Kraftfahrzeugs, Fahrerassistenzsystem und Kraftfahrzeug
DE102007024641A1 (de) Verfahren und Vorrichtung zur Darstellung einer Fahrzeugumgebung

Legal Events

Date Code Title Description
R012 Request for examination validly filed