DE102016208056A1 - Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug - Google Patents

Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug Download PDF

Info

Publication number
DE102016208056A1
DE102016208056A1 DE102016208056.3A DE102016208056A DE102016208056A1 DE 102016208056 A1 DE102016208056 A1 DE 102016208056A1 DE 102016208056 A DE102016208056 A DE 102016208056A DE 102016208056 A1 DE102016208056 A1 DE 102016208056A1
Authority
DE
Germany
Prior art keywords
data
image data
fusion
depth
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102016208056.3A
Other languages
English (en)
Inventor
Stephan Simon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102016208056.3A priority Critical patent/DE102016208056A1/de
Priority to US15/487,162 priority patent/US10150485B2/en
Priority to GB1707260.4A priority patent/GB2552058B/en
Priority to CN201710324963.0A priority patent/CN107452016B/zh
Publication of DE102016208056A1 publication Critical patent/DE102016208056A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R1/00Optical viewing arrangements; Real-time viewing arrangements for drivers or passengers using optical image capturing systems, e.g. cameras or video systems specially adapted for use in or on vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/13Receivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Verarbeitung von Bilddaten (104). Das Verfahren umfasst einen Schritt des Bestimmens von Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten, die auf von einer Kamera (106) zu einem ersten Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren, und vorangegangenen Bilddaten, die auf von der Kamera (106) zu einem vorangegangenen Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren. In einem Schritt des Bestimmens werden Tiefendaten auf Basis einer unter Verwendung der Korrespondenzdaten durchgeführten Eigenbewegungsschätzung bestimmt. In einem Schritt des Ermittelns werden Fusionsdaten unter Verwendung der Tiefendaten und übertragenen Fusionsdaten ermittelt, wobei die Fusionsdaten eine auf den Bilddaten basierende Tiefeninformation umfassen.

Description

  • Stand der Technik
  • Die Erfindung geht aus von einer Vorrichtung oder einem Verfahren nach Gattung der unabhängigen Ansprüche. Gegenstand der vorliegenden Erfindung ist auch ein Computerprogramm.
  • Fahrerassistenzsysteme von Fahrzeugen können von Kameras erfasste Daten verwenden. Dazu können die Daten vor der Verwendung durch die Fahrerassistenzsysteme vorverarbeitet, beispielsweise verdichtet werden.
  • Offenbarung der Erfindung
  • Vor diesem Hintergrund werden mit dem hier vorgestellten Ansatz ein Verfahren zur Verarbeitung von Bilddaten, weiterhin eine Vorrichtung, die das Verfahren verwendet, ein Fahrzeugassistenzsystem sowie schließlich ein entsprechendes Computerprogramm gemäß den Hauptansprüchen vorgestellt. Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen der im unabhängigen Anspruch angegebenen Vorrichtung möglich.
  • Der beschriebene Ansatz kann beispielsweise im Zusammenhang mit kamerabasierten Fahrerassistenzsystemen oder im Zusammenhang mit anderen Systemen mit Kameras, z. B. mobilen Robotern, eingesetzt werden.
  • Kamerabasierte Informationsgewinnung ist typischerweise geprägt von einer zügigen Verdichtung der Information. Das originale Messsignal kann dabei z. B. ein Flussfeld (optical flow map) oder eine Disparitätskarte (stereo disparity map) sein. Ergebnis der Verdichtung sind z. B. Stixel (spaltenweise Pixelgruppen) oder Objektboxen (bounding box). Verfolgung und gegebenenfalls Fusion erfolgt dann auf höherer Ebene.
  • Die frühe Verdichtung hat historische und architektonische Gründe. So kann beispielsweise der optische Fluss mit überschaubarem Ressourcenaufwand auf einem FPGA oder ASIC berechnet werden und ein dichtes Ergebnisfeld (hohe Datenmenge pro Bild) produzieren.
  • Den Flaschenhals stellt die weitere Auswertung und Verarbeitung dar, insbesondere wenn sie auf einem General Purpose Prozessor durchgeführt wird. Bei der notwendigen Verdichtung geht ein enormer Anteil an Information verloren.
  • Diese frühe Informationsverdichtung behindert auch die Entwicklung neuer Funktionen, da die Architektur für die bestehenden Funktionen optimiert ist.
  • Ein „Occupancy Grid“ genanntes Belegungsgitter, das geeignet ist, eine Fusion von mehreren Messungen, die auch von mehreren Sensoren stammen können, zu unterstützen, kann genutzt werden. Dies wird z. B. in der Robotik häufig verwendet, beispielsweise zur Pfadplanung. Das Koordinatensystem entspricht häufig dem einer Landkarte (Vogelperspektive).
  • Bei „3D Punktwolken" (point clouds) stellt ein einzelner solcher 3D Punkt eine 3D Messung eines Weltpunkts dar, für den ggf. auch Messunsicherheiten angegeben werden können. Oberflächen werden häufig durch Interpolation anhand von Punktwolken dargestellt. Auf Embedded-Systemen können solche Punktwolken die reale 3D-Welt aus Aufwandsgründen meist nur sehr dünn (sparse) abbilden, da die Verwaltung und Nutzung von großen Punktwolken hohe Anforderungen an die Rechnerplattform stellt.
  • Der hier beschriebene Ansatz kommt ohne Occupancy Grid und 3D Punktwolken aus. Stattdessen wird eine spezielle Fusion auf dem Pixelgitter vorgeschlagen, mit der hohe Datendichten auch auf kostengünstigen Embedded Systemen effizient bewältigt werden können.
  • Ein Verfahren zur Verarbeitung von Bilddaten umfasst die folgenden Schritte:
    Bestimmen von Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten, die auf von einer Kamera zu einem ersten Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren, und vorangegangenen Bilddaten, die auf von der Kamera zu einem vorangegangenen Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren;
    Bestimmen von Tiefendaten auf Basis einer unter Verwendung der Korrespondenzdaten durchgeführten Eigenbewegungsschätzung; und
    Ermitteln von Fusionsdaten unter Verwendung der Tiefendaten und übertragenen Fusionsdaten, wobei die Fusionsdaten eine auf den Bilddaten basierende Tiefeninformation umfassen.
  • Bei den zu verarbeitenden Bilddaten kann es sich um von zumindest einer Kamera bereitgestellte Bilddaten handeln. Unter einer Kamera kann eine Bilderfassungseinrichtung verstanden werden, die zu aufeinanderfolgenden Zeitpunkten ein Umfeld der Bilderfassungseinrichtung abbildende Bilddaten bereitstellen kann. Bei den ersten Bilddaten sowie den vorangegangenen Bilddaten kann es sich jeweils um Daten handeln, wie sie direkt von einer Kamera bereitgestellt werden oder um bereits aufbereitete Daten handeln. Der vorangegangene Zeitpunkt kann zeitlich vor dem ersten Zeitpunkt liegen. Bei den vorangegangenen Bilddaten kann es sich somit um gespeicherte Bilddaten handeln. Die Korrespondenzbildung kann eine Korrespondenzanalyse umfassen. Die Korrespondenzdaten können eine Information über zueinander korrespondierende Merkmale, beispielsweise zueinander korrespondierende Bildpunkte, auch Pixel genannt, in den ersten Bilddaten und den vorangegangenen Bilddaten umfassen. Die Korrespondenzdaten können Informationen darüber umfassen, wie sich Positionen korrespondierender Bildpunkte in den ersten Bilddaten und den vorangegangenen Bilddaten zueinander verschoben haben. Unter Durchführung der Eigenbewegungsschätzung kann eine räumliche Struktur eines in den Bilddaten abgebildeten Objekts unter Verwendung korrespondierender Merkmale in den Bilddaten erkannt werden. Die dazu erforderliche Information über die korrespondierenden Merkmale kann dabei in den Korrespondenzdaten enthalten sein. Die Tiefendaten können ein Tiefenbild darstellen. Die Bestimmung der Tiefendaten kann in zwei Schritten erfolgen. Zunächst kann eine Bestimmung der Egomotion, also der Eigenbewegung, durchgeführt werden. Dazu werden nicht alle Korrespondenzen benötigt, sondern es genügt eine kleine Auslese. Als Nächstes wird die Bestimmung der Tiefendaten für alle Pixel durchgeführt, für die Korrespondenzdaten vorliegen. Für den Anwendungsfall einer Mono-Kamera kann zur Bestimmung der Tiefendaten eine Eigenbewegungsschätzung durchgeführt werden. Unter der Eigenbewegungsschätzung kann die Bestimmung der relativen Orientierung der beiden Kamerapositionen (6 Parameter, von denen 5 bestimmbar sind, also alles außer Maßstab) bei einer bewegten monokularen Kamera verstanden werden. Bei einer Stereo-Kamera sind bei einer starren Stereoanordnung die relative Orientierung und der Maßstab normalerweise bekannt. Falls die relative Orientierung trotzdem geschätzt werden soll, kann anstelle einer Eigenbewegungsschätzung eine Online-Kalibrierung durchgeführt werden. Sobald die relative Orientierung und der Kameraabstand bekannt sind, können die gefundenen Korrespondenzen durch Triangulation in Tiefen umgerechnet werden.
  • Durch die Fusion mit den übertragenen Fusionsdaten kann eine Qualität der Tiefendaten verbessert werden. Die Fusion kann beispielsweise eine Mittelwertbildung umfassen. Die Tiefeninformation kann somit ein Tiefenbild repräsentieren.
  • Gemäß einer Ausführungsform wird durch das Verfahren eine Fusion von Tiefenmessungen im Pixelgitter mittels optischem Fluss durchgeführt.
  • Dies ermöglicht eine hohe Reichweite der Bilderfassung durch eine nahtlose Einbeziehung beziehungsweise Fusion von zusätzlichen Flussfeldern mit größerem zeitlichen Abstand. Der Abstand kann beispielsweise 2T, 4T oder 8T betragen, wobei T einen Zeitschritt darstellen kann. Ferner wird eine hohe Genauigkeit in allen Entfernungsbereichen durch Reduktion der Messunsicherheit ermöglicht. Wenn zwei Kameras eingesetzt werden, ist zudem ein nahtloser Übergang des Systemverhaltens von Stereo nach Mono durchführbar, beispielsweise wenn eine der beiden Kameras gestört oder nicht verfügbar ist. Bei videobasierten Fahrerassistenzsystemen ist nur ein geringer Entwicklungsaufwand erforderlich, da verschiedene Kamerasystem-Ausprägungen (z. B. Monokulares System, Stereo-System, Multi-Kamera-System) auf dem hier beschriebenen einheitlichen Konzept zur Basissignalverarbeitung aufbauen können.
  • Der beschriebene Ansatz basiert gemäß einer Ausführungsform auf einer Anreicherung von Information auf dem Pixelgitter. Dabei werden Güte und Genauigkeit der Messung erheblich verbessert (im Vergleich zu den Einzelmessungen). Die Anreicherung erfolgt unabhängig von der späteren Verdichtung und kann massiv parallel z. B. auf einer FPGA- oder ASIC-Plattform durchgeführt werden.
  • Dazu findet zu vordefinierten Zeiten oder zu variablen Zeiten eine Fusion statt, die ein altes und ein oder mehrere neue Bilder von Messergebnissen gewichtet kombiniert. Beispielsweise kann zu jedem Zeitschritt eine Fusion stattfinden. Es ist jedoch nicht unbedingt notwendig, nach jedem festen Zeitabschnitt T die Fusion durchzuführen. Der Zeitabstand darf durchaus auch unregelmäßig sein, z.B. 2T, wenn zwischendurch ein Flussfeld fehlt (z.B. weil die Recheneinheit mit etwas anderem beschäftigt war), oder sogar 1.2739T und beim nächsten Mal 0.9864T. Gemäß einer Ausführungsform können die Kameras auch nicht mit einer festen Zeitbasis laufen, sondern etwa nach einer festen gefahrenen Strecke getriggert oder ausgelesen werden. Somit kann die Fusion auch zu von einer Zeitbasis unabhängigen Zeitpunkten durchgeführt werden. Bei den nachfolgend beschriebenen Ausführungsbeispielen wird lediglich der Einfachheit halber überwiegend ein fester Zeitabstand T angenommen.
  • Unterstützt werden zum einen optische Flüsse zu einem oder mehreren Vorgängerbildern sowie optional Stereo-Disparitäten (ebenfalls vorzugsweise dicht), und zum anderen sowohl monokulare Kamerasysteme als auch Stereo- oder sogar Multi-Kamerasysteme. Die optischen Flüsse können dicht, also möglichst für jedes Pixel vorhanden sein. Vorteilhafterweise können die optischen Flüsse jedoch lediglich regionenweise dicht anstelle von ganz dicht sein. Es ist z.B. nicht notwendig und auch nicht gut möglich, den optischen Fluss auf dem blauen Himmel zu bestimmen. Nur wenn ausreichend Textur vorhanden ist, kann der optische Fluss sinnvoll bestimmt werden. Wo keine ausreichende Textur vorhanden ist, kann auf den Fluss verzichtet werden. Die Stereo-Disparitäten können ebenfalls ganz oder regionenweise dicht sein.
  • Das genannte Verfahren umfasst gemäß einer Ausführungsform einen Schritt des Bestimmens der übertragenen Fusionsdaten als Ergebnis einer Übertragung von in einem vorangegangenen Schritt des Ermittelns ermittelten Fusionsdaten und den Korrespondenzdaten. Durch die Übertragung kann eine seit dem vorangegangenen Schritt erfolgte Bewegung berücksichtigt werden, sodass die übertragenen Fusionsdaten im Schritt des Ermittelns direkt mit den Tiefendaten fusioniert werden können.
  • Im Schritt des Bestimmens der Korrespondenzdaten können Flussvektoren als die Korrespondenzdaten bestimmt werden. Die Flussvektoren können dabei Bildpunkten der ersten Bilddaten und zusätzlich oder alternativ Bildpunkten der vorangegangenen Bilddaten zugeordnet sein. Dabei weisen die Korrespondenzen in der Regel Sub-Pixel-Genauigkeit auf, zeigen also nicht exakt von Bildpunktmitte zu Bildpunktmitte, sondern liegen mindestens in einem der beiden Bilder nichtmittig auf dem Raster. Generell sind Ganz-Pixel-Bewegungen ebenso zulässig. Somit kann es auch Korrespondenzen geben, die exakt von Bildpunktmitte auf Bildpunktmitte zeigen. Vorteilhafterweise kann für die Bestimmung von Flussvektoren auf bekannte Verfahren zurückgegriffen werden.
  • Im Schritt des Bestimmens von Tiefendaten können Tiefenwerte als die Tiefendaten bestimmt werden. Die Tiefenwerte können Bildpunkten der ersten Bilddaten und zusätzlich oder alternativ Bildpunkten der vorangegangenen Bilddaten zugeordnet sein. Tiefenwerte stellen eine wichtige Information dar, die beispielsweise für Anwendungen im Bereich von Fahrerassistenzsystemen oder mobilen Robotern eingesetzt werden können.
  • Beispielsweise können die Fusionsdaten im Schritt des Ermittelns unter Verwendung einer Mittelwertbildung zwischen den Tiefendaten und den übertragenen Fusionsdaten ermittelt werden. Eine solche Mittelwertbildung kann mit einfachen Mitteln durchgeführt werden.
  • Für den Fall, dass keine übertragenen Fusionsdaten vorliegen, können die im Schritt des Ermittelns ermittelten Fusionsdaten den Tiefendaten entsprechen. Dies bietet sich beispielsweise bei einer Initialisierung des Systems an.
  • Wenn keine Tiefendaten vorliegen, können die Fusionsdaten den übertragenen Fusionsdaten entsprechen. Dies bietet sich beispielsweise dann an, wenn keine neuen Bilddaten mehr bereitgestellt werden.
  • Im Schritt des Ermittelns der Fusionsdaten kann eine Konsistenz zwischen den Tiefendaten und den übertragenen Fusionsdaten überprüft werden. Abhängig von einem Ergebnis der Überprüfung der Konsistenz kann die Fusion zwischen den Tiefendaten und den übertragenen Fusionsdaten durchgeführt oder ausgesetzt werden. Auf diese Weise kann eine Verfälschung vermieden werden, wenn eine Inkonsistenz zwischen den zu fusionierenden Daten vorliegt.
  • Das Verfahren kann erweitert werden, indem weitere Korrespondenzdaten, beispielsweise unter Verwendung der ersten Bilddaten und zu weiteren vorangegangenen Zeitpunkten erfassten Bilddaten, bestimmt werden und diese weiteren Korrespondenzdaten zur Bestimmung weiterer Tiefendaten verwendet werden, die dann mit den erstgenannten Tiefendaten und den übertragenen Fusionsdaten fusioniert werden können, um die Fusionsdaten zu ermitteln. Auf diese Weise kann die Genauigkeit und Qualität der Fusionsdaten weiter erhöht werden.
  • Somit kann das Verfahren zumindest einen Schritt des Bestimmens von weiteren Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen den ersten Bilddaten und weiteren vorangegangenen Bilddaten, die auf von der Kamera zu einem weiteren vorangegangenen Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren umfassen. Entsprechend kann das Verfahren zumindest einen Schritt des Bestimmens von weiteren Tiefendaten auf Basis einer unter Verwendung der weiteren Korrespondenzdaten durchgeführten Eigenbewegungsschätzung umfassen. Im Schritt des Ermittelns können die Fusionsdaten ferner unter Verwendung der weiteren Tiefendaten ermittelt werden.
  • Gemäß einer Ausführungsform kann das Verfahren einen Schritt des Bestimmens von Stereo-Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen den ersten Bilddaten und zweiten Bilddaten umfassen. Die zweiten Bilddaten können auf von einer weiteren Kamera zu dem ersten Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren. In einem Schritt des Bestimmens können Stereo-Tiefendaten, die Tiefendaten und/oder einen Maßstab repräsentieren, auf Basis einer unter Verwendung der Stereo-Korrespondenzdaten durchgeführten Triangulation bestimmt werden. Durch den Maßstab kann eine zurückgelegte Strecke abgebildet werden. Im Schritt des Ermittelns können die Fusionsdaten ferner unter Verwendung der Stereo-Tiefendaten und/oder des Maßstabs ermittelt werden. Auf diese Weise können die Bilddaten einer weiteren Kamera, beispielsweise eines Stereo-Kamerasystems in die Ermittlung der Fusionsdaten einfließen. Unter dem Maßstab wird gemäß einer Ausführungsform ein Umrechnungsfaktor verstanden, um die Tiefendaten z.B. von einer Einheit 1/s (TTC) in einen metrischen Abstand umrechnen zu können. Ein monokulares System kann diesen Maßstab nicht selbst bestimmen. Beispiel: Bei einer aus einer fahrenden Lokomotive aufgenommenen Videosequenz kann anhand der Bewegung im Bild nicht festgestellt werden, ob es sich um eine Modelleisenbahn- oder eine echte Lokomotive handelt. Erst wenn von außen eine Maßstabsinformation bereitgestellt wird, z.B. gefahrener Weg in Metern zwischen zwei Bildaufnahmen oder Höhe der Kamera über den Schienen, wird die Angabe metrischer Tiefendaten möglich. Der Maßstab kann auch von einer Stereokamera stammen, deren Abstand bekannt ist (Basisweite).
  • Beispielsweise kann das Verfahren einen Schritt des Erfassens der Bilddaten unter Verwendung zumindest einer Kamera umfassen. Zusätzlich oder alternativ kann das Verfahren einen Schritt des Verwendens der Fusionsdaten in einem Fahrerassistenzsystem für ein Fahrzeug oder in einer Steuereinrichtung für einen mobilen Roboter. Auf diese Weise kann das Verfahren in ein Gesamtsystem eingebunden werden.
  • Dieses Verfahren kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in einem Steuergerät implementiert sein.
  • Der hier vorgestellte Ansatz schafft ferner eine Vorrichtung, die ausgebildet ist, um die Schritte einer Variante eines hier vorgestellten Verfahrens in entsprechenden Einrichtungen durchzuführen, anzusteuern bzw. umzusetzen. Auch durch diese Ausführungsvariante der Erfindung in Form einer Vorrichtung kann die der Erfindung zugrunde liegende Aufgabe schnell und effizient gelöst werden.
  • Hierzu kann die Vorrichtung zumindest eine Recheneinheit zum Verarbeiten von Signalen oder Daten, zumindest eine Speichereinheit zum Speichern von Signalen oder Daten, zumindest eine Schnittstelle zu einem Sensor oder einem Aktor zum Einlesen von Sensorsignalen von dem Sensor oder zum Ausgeben von Daten- oder Steuersignalen an den Aktor und/oder zumindest eine Kommunikationsschnittstelle zum Einlesen oder Ausgeben von Daten aufweisen, die in ein Kommunikationsprotokoll eingebettet sind. Die Recheneinheit kann beispielsweise ein Signalprozessor, ein Mikrocontroller oder dergleichen sein, wobei die Speichereinheit ein Flash-Speicher, ein EPROM oder eine magnetische Speichereinheit sein kann. Die Kommunikationsschnittstelle kann ausgebildet sein, um Daten drahtlos und/oder leitungsgebunden einzulesen oder auszugeben, wobei eine Kommunikationsschnittstelle, die leitungsgebundene Daten einlesen oder ausgeben kann, diese Daten beispielsweise elektrisch oder optisch aus einer entsprechenden Datenübertragungsleitung einlesen oder in eine entsprechende Datenübertragungsleitung ausgeben kann.
  • Eine entsprechende Vorrichtung zur Verarbeitung von Bilddaten weist die folgenden Merkmale auf:
    eine Bestimmungseinrichtung, die ausgebildet ist, um Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten, die auf von
    einer Kamera zu einem ersten Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren, und vorangegangenen Bilddaten, die auf von der Kamera zu einem vorangegangenen Zeitpunkt erfassten Bilddaten basierende Daten repräsentieren, zu bestimmen;
    eine Bestimmungseinrichtung, die ausgebildet ist, um Tiefendaten auf Basis einer unter Verwendung der Korrespondenzdaten durchgeführten Eigenbewegungsschätzung zu bestimmen; und
    eine Ermittlungseinrichtung, die ausgebildet ist, um unter Verwendung der Tiefendaten und übertragenen Fusionsdaten zu ermitteln, wobei die Fusionsdaten eine auf den Bilddaten basierende Tiefeninformation umfassen.
  • Ein Fahrzeug weist zumindest eine Kamera, eine genannte Vorrichtung zum Verarbeiten der Bilddaten der zumindest einen Kamera und ein Fahrerassistenzsystem auf. Das Fahrerassistenzsystem ist ausgebildet, um unter Verwendung von der Vorrichtung bereitgestellten Fusionsdaten eine Fahrerassistenzfunktion auszuführen.
  • Für den Anwendungsfall eines mobilen Roboters kann der mobile Roboter ebenfalls eine Kamera und die genannte Vorrichtung umfassen. Die Fusionsdaten können in diesem Fall beispielsweise von einer Einrichtung zum Steuern einer Funktion oder Bewegung des Roboters verwendet werden.
  • Von Vorteil ist auch ein Computerprogrammprodukt oder Computerprogramm mit Programmcode, der auf einem maschinenlesbaren Träger oder Speichermedium wie einem Halbleiterspeicher, einem Festplattenspeicher oder einem optischen Speicher gespeichert sein kann und zur Durchführung, Umsetzung und/oder Ansteuerung der Schritte des Verfahrens nach einer der vorstehend beschriebenen Ausführungsformen verwendet wird, insbesondere wenn das Programmprodukt oder Programm auf einem Computer oder einer Vorrichtung ausgeführt wird.
  • Ausführungsbeispiele des hier vorgestellten Ansatzes sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:
  • 1 eine schematische Darstellung eines Fahrzeugs mit einer Vorrichtung zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel;
  • 2 ein Ablaufdiagramm eines Verfahrens zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel;
  • 3 ein Blockschaltbild einer Vorrichtung zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel;
  • 4 ein Blockschaltbild einer Vorrichtung zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel; und
  • 5 ein Blockschaltbild einer Vorrichtung zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel.
  • In der nachfolgenden Beschreibung günstiger Ausführungsbeispiele der vorliegenden Erfindung werden für die in den verschiedenen Figuren dargestellten und ähnlich wirkenden Elemente gleiche oder ähnliche Bezugszeichen verwendet, wobei auf eine wiederholte Beschreibung dieser Elemente verzichtet wird.
  • 1 zeigt ein Fahrzeug 100 mit einer Vorrichtung 102 zur Verarbeitung von Bilddaten 104 einer Kamera 106 des Fahrzeugs 100 gemäß einem Ausführungsbeispiel. Die Vorrichtung 102 ist ausgebildet, um die Bilddaten 104 der Kamera 106 über eine Schnittstelle zu empfangen und unter Verwendung der Bilddaten 104 Fusionsdaten 108 zu erzeugen und bereitzustellen. Die Fusionsdaten 108 repräsentieren gemäß einem Ausführungsbeispiel ein Tiefenbild, das unter Verwendung von zu unterschiedlichen Zeitpunkten von der Kamera 106 erfassten Bilddaten 104 ermittelt wurde.
  • Die Vorrichtung 102 ist ausgebildet, um die Fusionsdaten 108 über eine weitere Schnittstelle an eine weitere Einrichtung 110 des Fahrzeugs 100, beispielsweise ein Fahrerassistenzsystem 110 des Fahrzeugs 100 bereitzustellen.
  • Beispielsweise können die Fusionsdaten 108 von dem Fahrerassistenzsystem 110 zur Lösung einer Fahraufgabe des Fahrzeugs 100 verwendet werden.
  • Gemäß einem alternativen Ausführungsbeispiel zeigt 1 einen mobilen Roboter 100. In diesem Fall können die von der Vorrichtung 102 bereitgestellten Fusionsdaten 108 von einer Steuereinrichtung 110 des Roboters 100 zum Ausführen einer Funktion des mobilen Roboters 100 verwendet werden. Bei dem mobilen Roboter 100 kann es sich auch um ein hoch automatisiertes Fahrzeug handeln.
  • Wenn mehr als eine Kamera 106 vorhanden ist, kann die Vorrichtung 102 ausgebildet sein, um die Bilddaten 104 der mehreren Kameras 106 zu verwenden, um die Fusionsdaten 108 zu ermitteln.
  • 2 zeigt ein Ablaufdiagramm eines Verfahrens zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel. Das Verfahren kann beispielsweise unter Verwendung der anhand von 1 beschriebenen Vorrichtung zur Verarbeitung von Bilddaten ausgeführt werden.
  • In einem Schritt 220 werden Korrespondenzdaten als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten und vorangegangenen Bilddaten bestimmt. Die ersten Bilddaten basieren dabei auf von einer Kamera zu einem ersten Zeitpunkt erfassten Bilddaten. Die vorangegangenen Bilddaten basieren auf von der Kamera zu einem vorangegangenen Zeitpunkt erfassten Bilddaten. Gemäß einem Ausführungsbeispiel werden dabei Flussvektoren als die Korrespondenzdaten bestimmt. Die Flussvektoren können dabei den Bildpunkten der ersten Bilddaten zugeordnet sein. Zusätzlich oder alternativ können die Flussvektoren Bildpunkten der vorangegangenen Bilddaten zugeordnet sein.
  • In einem Schritt 222 werden basierend auf den Korrespondenzdaten Tiefendaten bestimmt. Dazu wird unter Verwendung der Korrespondenzdaten eine Eigenbewegungsschätzung durchgeführt. Dabei können Tiefenwerte als die Tiefendaten bestimmt werden. Die so bestimmten Tiefenwerte können dabei den Bildpunkten der ersten Bilddaten und/oder den Bildpunkten der vorangegangenen Bilddaten zugeordnet sein.
  • In einem Schritt 224 werden Fusionsdaten unter Verwendung der Tiefendaten und übertragenen Fusionsdaten ermittelt. Die Fusionsdaten werden dabei durch eine Fusionierung der Tiefendaten und übertragenen Fusionsdaten ermittelt.
  • In einem optionalen Schritt 226 werden die übertragenen Fusionsdaten aus den in einem vorangegangenen Schritt des Ermittelns ermittelten Fusionsdaten und den Korrespondenzdaten bestimmt.
  • Die Schritte 220, 222, 224, 226 können fortlaufend wiederholt ausgeführt werden. Auf diese Weise können beispielsweise die ersten Bilddaten bei einem nachfolgenden Durchgang den vorangegangenen Bilddaten entsprechen.
  • Gemäß einem Ausführungsbeispiel wird im Schritt 220 für jeden Bildpunkt oder für eine Anzahl der Bildpunkte der ersten Bilddaten und/oder der vorangegangenen Bilddaten ein Flussvektor bestimmt. Es ist dabei nicht notwendig, für jeden Bildpunkt einen Flussvektor angeben zu können. Es dürfen also „Lücken“ vorhanden sein. Somit umfassen die Korrespondenzdaten für jeden oder zumindest für eine Anzahl von Bildpunkten der ersten Bilddaten und/oder der vorangegangenen Bilddaten je einen Flussvektor.
  • Gemäß einem Ausführungsbeispiel wird im Schritt 222 für jeden Bildpunkt der ersten Bilddaten und/oder der vorangegangenen Bilddaten ein Tiefenwert bestimmt. Somit umfassen die Tiefendaten für jeden Bildpunkt der ersten Bilddaten und/oder der vorangegangenen Bilddaten je einen Tiefenwert.
  • Gemäß einem Ausführungsbeispiel wird im Schritt 224 für jeden Bildpunkt der ersten Bilddaten und/oder der vorangegangenen Bilddaten ein Tiefenwert bestimmt. Somit umfassen die Fusionsdaten für jeden Bildpunkt der ersten Bilddaten und/oder der vorangegangenen Bilddaten je einen Tiefenwert.
  • Gemäß einem Ausführungsbeispiel werden im Schritt 226 die Koordinaten für jeden Bildpunkt eingelesener Fusionsdaten auf die Koordinaten nachfolgender Bilddaten, beispielsweise der ersten Bilddaten übertragen.
  • 3 zeigt ein Blockschaltbild einer Vorrichtung 102 zur Verarbeitung von Bilddaten gemäß einem Ausführungsbeispiel. Dabei kann es sich um ein Ausführungsbeispiel der anhand von 1 beschriebenen Vorrichtung handeln.
  • Gemäß diesem Ausführungsbeispiel ist eine erste Kamera 106 zum Bereitstellen von Bilddaten 104 und eine zweite Kamera 306 zum Bereitstellen von Bilddaten 304 vorgesehen. Die Vorrichtung 102 ist gemäß diesem Ausführungsbeispiel ausgebildet, um die Bilddaten 104, 304 der Kameras 106, 306 über eine geeignete Schnittstelle zu empfangen und zu verarbeiten.
  • Die Vorrichtung 102 weist eine Mehrzahl von Speichereinrichtungen 330, 332, 334, 336, 338 auf, in denen zu unterschiedlichen Zeitpunkten erfasste Bilddaten 104 der Kamera 106 gespeichert sind. Die Anzahl der Speichereinrichtungen 330, 332, 334, 336, 338 ist hier nur beispielhaft gewählt. Zwischen zeitlich aufeinanderfolgenden Zeitpunkten liegt gemäß diesem Ausführungsbeispiel beispielhaft die Zeitdauer T. Alternativ kann zwischen zeitlich aufeinanderfolgenden Zeitpunkten eine andere vorgegebene oder variable Zeitdauer liegen.
  • In der Speichereinrichtung 330 sind von der ersten Kamera 106 aktuell oder zuletzt bereitgestellte Bilddaten 104 als erste Bilddaten 340 gespeichert. Die ersten Bilddaten 340 werden gemäß diesem Ausführungsbeispiel auch mit IL(t) bezeichnet.
  • In der Speichereinrichtung 332 sind von der Kamera 106 zu einem ersten vorangegangenen Zeitpunkt bereitgestellte Bilddaten 104 als erste vorangegangenen Bilddaten 342 gespeichert. Die ersten vorangegangenen Bilddaten 342 werden gemäß diesem Ausführungsbeispiel auch mit IL(t – T) bezeichnet.
  • In der Speichereinrichtung 334 sind von der Kamera 106 zu einem zweiten vorangegangenen Zeitpunkt bereitgestellte Bilddaten 104 als zweite vorangegangene Bilddaten 344 gespeichert. Die zweiten vorangegangenen Bilddaten 344 werden gemäß diesem Ausführungsbeispiel auch mit IL(t – 2T) bezeichnet.
  • In der Speichereinrichtung 336 sind von der Kamera 106 zu einem dritten vorangegangenen Zeitpunkt bereitgestellte Bilddaten 104 als dritte vorangegangene Bilddaten 346 gespeichert. Die dritten vorangegangenen Bilddaten 346 werden gemäß diesem Ausführungsbeispiel auch mit IL(t – 3T) bezeichnet.
  • In der Speichereinrichtung 338 sind von der Kamera 106 zu einem vierten vorangegangenen Zeitpunkt bereitgestellte Bilddaten 104 als vierte vorangegangene Bilddaten gespeichert. Die vierten vorangegangenen Bilddaten werden gemäß diesem Ausführungsbeispiel auch mit IL(t – 4T) bezeichnet.
  • Nach Ablauf eines aktuellen Zeitschritts werden die ersten Bilddaten 340 an die Speichereinrichtung 332, die ersten vorangegangenen Bilddaten 342 an die Speichereinrichtung 334, die zweiten vorangegangenen Bilddaten 344 an die Speichereinrichtung 336 und die dritten vorangegangenen Bilddaten 346 an die Speichereinrichtung 338 übergeben.
  • Ferner weist die Vorrichtung 102 eine weitere Speichereinrichtung 350 auf, die ausgebildet, ist, um von der zweiten Kamera 306 aktuell oder zuletzt bereitgestellte Bilddaten 304 als zweite Bilddaten zu speichern.
  • Gemäß einem Ausführungsbeispiel handelt es sich bei den Kameras 106, 306 um eine linke Kamera 106 und eine rechte Kamera 306. Gezeigt sind dabei verschieden alte Bilddaten 340, 342, 344, 346 sowie Verbindungen, zwischen denen Berechnungen zur Korrespondenzbildung stattfinden.
  • In 3 ist dabei ein allgemeineres Ausführungsbeispiel gezeigt. Später werden anhand des in 4 gezeigten einfacheren Beispiels wichtige Details erläutert und zuletzt wird das allgemeinere Beispiel anhand von 5 weiter detailliert.
  • Das in 3 dargestellte System enthält zwei Kameras 106, 306. Hierbei kann es sich beispielsweise um ein Stereo-Fahrerassistenzsystem mit linker Kamera 106 und rechter Kamera 306 handeln, die in Vorwärts-Richtung eines Fahrzeugs blicken. Die Kameras 106, 306 liefern je ein aktuelles Bild 104, 304, die auch mit IL(t) und IR(t) bezeichnet werden, wobei t für den aktuellen Zeitpunkt (neuestes Bild) steht. Die Bilder IL(t – n·T) mit n = 1, 2, 3, ... stammen von früheren Zeitpunkten und wurden in einem Speicher 330, 332, 334, 336, 338 aufbewahrt. Statt Originalbilder als Bilddaten 340, 342, 344, 346 aufzubewahren, können auch weiterverarbeitete Bilddaten (Feature-Bilder) als Bilddaten 340, 342, 344, 346 aufbewahrt werden.
  • Von der rechten Kamera 306 werden in diesem Ausführungsbeispiel keine alten Bilder aufbewahrt.
  • Die Pfeile (mit Pfeilspitzen) im Blockschaltbild stehen für Verbindungen, auf denen Daten 340, 342, 344, 346 transportiert oder im Speicher bereitgehalten werden, z. B. in einem Ringpufferspeicher.
  • Des Weiteren sind in 3 vier Verbindungen eingezeichnet, die jeweils auf einer Seite mit einem Kringel enden. Auf jeder dieser „Verbindungen“ wird eine Korrespondenzanalyse durchgeführt. Auf den drei Verbindungen zwischen verschieden alten Bildern der linken Kamera 106 handelt es sich bei der Korrespondenzanalyse jeweils um einen optischen Fluss Algorithmus (optical flow). Das Ergebnis sind jeweils Flussvektoren pro Pixel.
  • Der Kringel zeigt jeweils an, in Bezug zu welchem Bild die Ergebnisse vorliegen sollen. Hier befinden sich alle Kringel am aktuellen linken Bild, das durch die ersten Bilddaten 340 repräsentiert wird. Dies bedeutet, dass für jedes Pixel in diesem Bild ermittelt wird, woher es im jeweiligen Vorgängerbild stammt. Die Suche nach der Korrespondenz erfolgt also in Rückwärtsrichtung (Rückwärtsfluss).
  • Die vierte Verbindung mit Kringel besteht zwischen dem aktuellen linken Kamerabild, das durch die ersten Bilddaten 340 repräsentiert wird, und dem rechten Kamerabild, das durch die zweiten Bilddaten 350 repräsentiert wird, wobei auch hier das Ergebnis in Bezug zum aktuellen linken Bild gesucht wird. Auf dieser vierten Verbindung werden sogenannte Stereo-Korrespondenzen zwischen einem Kamerapaar, hier bestehend aus den Kameras 106, 306, gebildet. Das Ergebnis ist hier ein Disparitätsvektor pro Pixel. Bei einem kalibrierten Stereosystem ist die zweite Komponente des Disparitätsvektors Null und kann ignoriert werden, es verbleibt also ein eindimensionaler Disparitätswert pro Pixel.
  • 4 zeigt ein Blockschaltbild einer Vorrichtung 102 zur Verarbeitung von Bilddaten 104 gemäß einem Ausführungsbeispiel. Dabei kann es sich um ein Ausführungsbeispiel der anhand von 1 beschriebenen Vorrichtung handeln.
  • Wie bereits anhand von 3 beschrieben, umfasst die Vorrichtung 102 eine Speichereinrichtung 330 zum Speichern von ersten Bilddaten 340, die von der hier alleinigen Kamera 106 aktuell oder zuletzt bereitgestellte Bilddaten 104 darstellen. Die ersten Bilddaten 340 werden wiederum auch mit IL(t) bezeichnet. Ferner umfasst die Vorrichtung 102 die bereits anhand von 3 beschriebene Speichereinrichtung 332 zum Speichern von vorangegangenen Bilddaten 342, die von der Kamera 106 zu einem vorangegangenen Zeitpunkt bereitgestellte Bilddaten 104 repräsentieren. Die vorangegangenen Bilddaten 342 werden wiederum auch mit IL(t – T) bezeichnet.
  • Die Vorrichtung 102 umfasst gemäß diesem Ausführungsbeispiel ferner zwei Bestimmungseinrichtungen 460, 462, 464 und eine Ermittlungseinrichtung 466. Die Bestimmungseinrichtung 460 ist ausgebildet, um eine Korrespondenz zwischen den ersten Bilddaten 340 und den vorangegangenen Bilddaten 342 zu bilden und durch eine solche Korrespondenzbildung bestimmte Korrespondenzdaten 470 bereitzustellen. Die Bestimmungseinrichtung 462 ist ausgebildet, um unter Verwendung der Korrespondenzdaten 470 eine Eigenbewegungsschätzung durchzuführen und Tiefendaten 472 auf Basis der Eigenbewegungsschätzung bereitzustellen. Die Ermittlungseinrichtung 466 ist ausgebildet ist, um unter Verwendung der Tiefendaten 472 und übertragener Fusionsdaten 474 Fusionsdaten 476 zu ermitteln und bereitzustellen. Gemäß diesem Ausführungsbeispiel werden die übertragenen Fusionsdaten 474 von der Bestimmungseinrichtung 464 bereitgestellt. Die Bestimmungseinrichtung 464 ist ausgebildet, um die übertragenen Fusionsdaten 474 unter Verwendung der von der Ermittlungseinrichtung 466 bereitgestellten Fusionsdaten 474 und den von der Bestimmungseinrichtung 460 bereitgestellten Korrespondenzdaten 470 zu bestimmen.
  • In 4 ist somit ein vereinfachtes Blockschaltbild der Vorrichtung 102 gezeigt, bei dem nur die bereits anhand von 3 beschriebene linke Kamera 106 betrachtet wird. Durch die Korrespondenzdaten 470 repräsentierte Korrespondenzen (Corresp) werden zwischen dem durch die ersten Bilddaten 340 repräsentierten neuen Kamerabild und dem durch die vorangegangenen Bilddaten 342 repräsentierten vorausgegangenem Kamerabild berechnet. Basierend auf diesen Korrespondenzen wird unter Verwendung der Bestimmungseinrichtung 462 die Eigenbewegung (Egomotion) und Tiefe (Depth) berechnet (EM&D). Das als Tiefendaten 472 vorliegende Ergebnis hiervon wird fusioniert mit früheren Ergebnissen, die zunächst ins Pixelgitter des aktuellen Bildes gewarpt werden. Dazu wird die Bestimmungseinrichtung 464 verwendet.
  • Zur Erläuterung weiterer Details wird zunächst ein anhand von 4 gezeigtes einfacheres Ausführungsbeispiel betrachtet, das auch als Ausschnitt aus dem anhand von 3 gezeigten Beispiel angesehen werden kann.
  • Mit der Bestimmungseinrichtung 460, auch als „Corresp“ bezeichnet, ist hier die Korrespondenzbildung bezeichnet, in die über den Doppelpfeil die (ggf. vorverarbeiteten) Bilddaten 340 h(t) und 342 h(t – T) eingehen.
  • Anschließend wird in der Bestimmungseinrichtung 462, auch als „EM&D“ (Egomotion & Depth) bezeichnet, eine Eigenbewegungsschätzung durchgeführt und zu jedem Pixel eine Tiefe bestimmt. Dazu wird gemäß einem Ausführungsbeispiel ein sogenanntes „Structure from Motion“ Verfahren verwendet.
  • Bei einer monokularen Kamera 106 können von den sechs Parametern der Eigenbewegung (3 Rotationswinkel und ein 3-dimensionaler Translationsvektor) bekanntlich nur fünf Parameter bestimmt werden (3 Rotationswinkel und die Richtung der Translation), der Maßstab (zurückgelegte Strecke) bleibt also zunächst unbekannt oder kann optional aus einer anderen Quelle z. B. von einem GPS-Empfänger oder von Radsensoren (Odometrie), bezogen werden.
  • Es ist aber auch möglich und unproblematisch, die weitere Verarbeitung trotz zunächst unbekanntem Maßstab durchzuführen. Dazu werden die als „Tiefe“ bezeichneten Zwischenergebnisse vorzugsweise als TTC pro Pixel oder Kehrwert 1/TTC pro Pixel ausgedrückt, wobei TTC (Time To Collision) für eine Zeit steht, beispielsweise für die Zeit, die bei unveränderter Relativbewegung zwischen Kamera und Szene vergeht, bis der beobachtete Weltpunkt die gedachte Ebene durchschreitet, die durch das Projektionszentrum der Kamera 106 verläuft und senkrecht zu ihrer Hauptachse (optische Achse) steht.
  • Aus numerischen Gründen wird statt TTC auch gerne der Kehrwert 1/TTC verwendet. Die Einheit der TCC kann beispielsweise in Sekunden oder durch die Anzahl der Kamerabilder (Frames) angegeben sein.
  • Nachfolgend wird verallgemeinernd von „Tiefe“ gesprochen. Damit kann eine räumliche Distanz oder eine Zeitdifferenz oder eine beliebige nichtlineare Funktion (z. B. Kehrwert) von einer der beiden Größen gemeint sein.
  • Bis hierher sind dem Fachmann die verwendeten Begriffe und Verfahren bekannt. Nachfolgend wird ein Kerngedanke des hier beschriebenen Ansatzes näher beschrieben. Dabei geht es im Wesentlichen um die Blöcke in dem in 4 gezeigten Blockschaltbild, die die Bestimmungseinrichtung 464 und die Ermittlungseinrichtung 466 betreffen.
  • Zunächst wird dazu eine erste Variante einer Fusion im Pixelgitter beschrieben. Gemäß diesem Ausführungsbeispiel ist die Ermittlungseinrichtung 466 ausgebildet, um einen auch als „Fusion“ bezeichneten Fusionsalgorithmus auszuführen.
  • An den Fusionsalgorithmus werden also durch die Tiefendaten 472 repräsentierte „Tiefenbilder“ mit dem beschriebenen Inhalt pro Pixel übergeben.
  • Optional wird pro Pixel auch eine Information über die Messunsicherheit pro Pixel mitgeliefert. Diese kann als Bild vorliegen oder als Rechenvorschrift. Die Rechenvorschrift benötigt weniger Speicherplatz und weniger Übertragungsbandbreite. Die Messunsicherheit kann beispielsweise in Form einer Standardabweichung bezüglich des jeweiligen Tiefenwerts angegeben sein.
  • Die hier beschriebene erste Variante der in der Ermittlungseinrichtung 466 durchgeführten Fusion im Pixelgitter ist dadurch gekennzeichnet, dass die durch die Tiefendaten 472 repräsentierten Tiefen vorab in der Bestimmungseinrichtung 460 so berechnet werden, dass das durch die Tiefendaten 472 repräsentierte Tiefenbild in den Koordinaten des älteren der beiden Bilder vorliegt, die durch die Bilddaten 340, 342 repräsentiert sind.
  • Das ist so zu verstehen, dass der Tiefenwert eines Pixels dem entsprechenden Pixel an gleicher Position im älteren der beiden Originalbilder, die durch die Bilddaten 340, 342 repräsentiert sind, zuzuordnen ist.
  • In dem vereinfachten Blockschaltbild gemäß 4 gehen keine weiteren Ergebnisse ein, sondern es findet nur eine Fusion zwischen dem gerade ermittelten Tiefenbild (ggf. mit Messunsicherheiten) 472 und dem durch die übertragenen Fusionsdaten 474 repräsentierten Inhalt des Fusionsspeichers, der durch die Bestimmungseinrichtung 464 dargestellt ist, statt. Bei diesem Inhalt 474 handelt es sich um das Ergebnis der Fusion für die vorausgegangenen Zeitschritte, welches nun zunächst im Block 464 von alten Pixelkoordinaten auf die aktuellen Pixelkoordinaten übertragen (gewarpt) wird, denn die Bildszene hat sich in der Zwischenzeit verändert, und zwar im Wesentlichen pixelweise verschoben, wobei diese pixelweise Verschiebung durch das optische Flussfeld bekannt ist, das durch die Korrespondenzdaten 470 repräsentiert wird. Wie oben bereits angemerkt muss es sich dabei nicht um ganzzahlige pixelweise Verschiebungen handeln, sondern es treten im Allgemeinen auch subpixelweise Verschiebungen auf, sodass dann optional eine Interpolation beim Warping angewendet wird.
  • Dazu werden die Korrespondenzdaten 470 als das bereits vorliegende Ergebnis der in der Bestimmungseinrichtung 460 durchgeführten Korrespondenzbildung verwendet.
  • Den in der Bestimmungseinrichtung 464 durchgeführten Schritt des Warpings, auch Schritt des Übertragens genannt, kann man sich vorstellen wie ein Bild auf einem Gummituch, das verzerrt wird, indem man jeden Punkt des Gummituchs mit dem zugehörigen Flussvektor verschiebt, der durch die Korrespondenzdaten 470 bereitgestellt wird.
  • Vorteilhafterweise wird beim Warping auch eine Interpolation durchgeführt. Diese ist damit begründet, dass die pixelweisen Verschiebungen im Allgemeinen nicht ganzzahlig sind, sondern auch Nachkommaanteile aufweisen. Die Interpolation ist also ratsam, wenn mit der in der Ermittlungseinrichtung 466 durchgeführten Fusion eine möglichst hohe Genauigkeit erreicht werden soll.
  • Nach dem in der Bestimmungseinrichtung 464 durchgeführten Warping sind die Bildkoordinaten der übertragenen Fusionsdaten 474 bereits auf den aktuellen Stand gebracht, die Inhalte, also die Tiefenwerte der übertragenen Fusionsdaten 474 jedoch noch nicht. Sie beziehen sich noch auf den vorherigen Zeitpunkt.
  • Das ist in dieser ersten Variante auch so gewollt, denn die neuen Tiefenwerte der Tiefendaten 472 werden ebenfalls so berechnet, dass sie damit kompatibel sind, also auch dem vorherigen Zeitpunkt zuzuordnen sind.
  • Wenn mit Messunsicherheiten gearbeitet wird, so wird für diese ebenfalls ein Warping durchgeführt. Dies kann analog zum Warping der Tiefenwerte in der Bestimmungseinrichtung 464 erfolgen. Bei diesem Schritt ist vorteilhafterweise zu berücksichtigen, dass das Warping selbst zu einer Erhöhung der Messunsicherheiten führt. Dies lässt sich dadurch veranschaulichen, dass die Messung „altert"! Eine Begründung hierfür sind z. B. die Unsicherheit bei der Bestimmung des zum Warping verwendeten Flussfelds und unter Umständen das „Altern“ der Daten, denn die Szene kann sich verändert haben, seitdem die letzte Messung stattgefunden hat. Die Erhöhung der Messunsicherheiten kann im einfachsten Falle durch eine konstante additive Korrektur aller Messunsicherheiten erfolgen.
  • Nun kann die Fusion der durch die Tiefendaten 472 und die übertragenen Fusionsdaten 474 repräsentierten Tiefenwerte stattfinden, bei der die neue Messung 472 und das alte (gewarpte) Ergebnis 474 zusammengebracht werden. Diese in der Ermittlungseinrichtung 466 durchgeführte Fusion erfolgt Pixel für Pixel und ohne weitere Abhängigkeiten von anderen Daten. Pixel für Pixel durchgeführten Fusionen können also parallel und unabhängig voneinander durchgeführt werden und sind dabei sehr einfach.
  • Es sind vier mögliche Fälle zu betrachten. Die ersten drei Fälle sind dabei mehr oder weniger trivial, während der vierte Fall der interessante und wichtige ist.
  • Für den ersten Fall ist am jeweiligen Pixel weder ein altes noch ein neues Ergebnis vorhanden. Also gibt es auch kein fusioniertes Ergebnis. Mit anderen Worten enthalten weder die Tiefendaten 472 noch die übertragenen Fusionsdaten 474 für das entsprechende Pixel einen zugeordneten Tiefenwert. Dies bedeutet, dass die neu ermittelten Fusionsdaten 476 für das entsprechende Pixel keinen Tiefenwert enthalten.
  • Für den zweiten Fall ist ein neues Ergebnis, jedoch kein altes Ergebnis vorhanden. Das neue Ergebnis wird als fusioniertes Ergebnis übernommen, seine Messunsicherheit ebenfalls. Mit anderen Worten enthalten die Tiefendaten 472 für das entsprechende Pixel einen zugeordneten Tiefenwert, die übertragenen Fusionsdaten 474 jedoch nicht. Dies bedeutet, dass die neu ermittelten Fusionsdaten 476 für das entsprechende Pixel den durch die Tiefendaten 472 für das entsprechende Pixel bereitgestellten Tiefenwert enthalten.
  • Für den dritten Fall ist ein altes Ergebnis, jedoch kein neues Ergebnis vorhanden. Das alte Ergebnis wird als fusioniertes Ergebnis übernommen, seine (inzwischen wegen Alterung angestiegene) Messunsicherheit ebenfalls. Mit anderen Worten enthalten die Tiefendaten 472 für das entsprechende Pixel keinen zugeordneten Tiefenwert, die übertragenen Fusionsdaten 474 dagegen schon. Dies bedeutet, dass die neu ermittelten Fusionsdaten 476 für das entsprechende Pixel den durch die übertragenen Fusionsdaten 474 für das entsprechende Pixel bereitgestellten Tiefenwert enthalten.
  • Für den vierten Fall sind sowohl altes als auch neues Ergebnis vorhanden. Zunächst wird geprüft, ob diese konsistent sind oder sich widersprechen. Im Falle des Widerspruchs wird keines der beiden Ergebnisse übernommen oder alternativ das neuere oder alternativ dasjenige mit der kleineren Messunsicherheit. Ein Widerspruch liegt vor, wenn beide Ergebnisse weiter voneinander entfernt liegen, als dies mit der kleineren der beiden Messunsicherheiten zu erklären ist. Im gegenteiligen Fall (konsistente Ergebnisse) findet die Fusion statt. Dabei wird vorzugsweise eine varianzgewichtete Mittelung durchgeführt, die dem Fachmann bekannt ist. Dabei werden auch die Messunsicherheiten fusioniert. Mit anderen Worten enthalten bei diesem vierten Fall sowohl die Tiefendaten 472 als auch die übertragenen Fusionsdaten 474 für das entsprechende Pixel einen zugeordneten Tiefenwert. Dies bedeutet, dass die neu ermittelten Fusionsdaten 476, sofern die Tiefenwerte zueinander konsistent sind, für das entsprechende Pixel einen Tiefenwert enthalten, der sich aus einer Fusion, beispielsweise einer Mittelung, der Tiefenwerte ergibt, die dem entsprechenden Pixel in den Tiefendaten 472 und den übertragenen Fusionsdaten 474 zugeordnet sind.
  • Zuletzt werden die in den Fusionsdaten 474 enthaltenen fusionierten Tiefenwerte beispielsweise unter Verwendung der Bestimmungseinrichtung 464 vom vorherigen Zeitpunkt auf den aktuellen Zeitpunkt übertragen. Maßgeblich hierfür ist die Eigenbewegung zwischen diesen beiden Zeitschritten, die beispielsweise unter Verwendung der Bestimmungseinrichtung 460 bereits geschätzt wurde und damit also vorliegt und angewendet werden kann.
  • Diese Fortschreibung der Tiefenwerte ist besonders einfach, wenn die Eigenbewegung aus einer reinen Translation (ohne Rotation) besteht. Dann ist lediglich eine additive Korrektur anzuwenden, die für alle Tiefenwerte identisch ist. Der Begriff „additive Korrektur“ schließt dabei auch das negative Vorzeichen ein. Bei Vorwärtsfahrt und nach vorne gerichteter Kamera (wichtigster Fall) ist das negative Vorzeichen zutreffend.
  • Falls die Eigenbewegung zusätzlich zur Translation auch eine Rotation beinhaltet, so ist zur Fortschreibung der Tiefenwerte eine Rotation im dreidimensionalen Raum erforderlich. Hierfür gibt es mehrere Möglichkeiten und Vereinfachungen, die dem Fachmann bekannt sind. Die größtmögliche Vereinfachung ergibt sich aus dem Verzicht auf diese Korrektur. Diese kann gerechtfertigt sein, wenn die Rotationswinkel klein sind, was bei einem schnell vorwärts fahrenden Fahrzeug der Fall ist.
  • Nun wird eine zweite Variante der Fusion im Pixelgitter beschrieben. Die zweite Variante der Fusion im Pixelgitter ist dadurch gekennzeichnet, dass die Tiefen vorab so berechnet werden, dass das Tiefenbild, das durch die Tiefendaten 472 repräsentiert wird, in den Koordinaten des neueren der beiden Bilder, die durch die Bilddaten 340, 342 repräsentiert werden, vorliegt. Das ist so zu verstehen, dass der Tiefenwert eines Pixels dem entsprechenden Pixel an gleicher Position im neueren der beiden Originalbilder, als dem durch die ersten Bilddaten 340 repräsentierten Originalbild, zuzuordnen ist.
  • Entsprechend wird also auch die in der Ermittlungseinrichtung 466 durchgeführte Fusion in den neuen Koordinaten durchgeführt.
  • Dazu ist es notwendig, den zu fusionierenden Inhalt, in Form der Fusionsdaten 476, des Fusionsspeichers, der in 4 durch die Bestimmungseinrichtung 464 repräsentiert wird, in zwei Schritten darauf vorzubereiten. Der eine Schritt ist das oben beschriebene Warping. Der zweite Schritt ist das ebenfalls oben beschriebene Übertragen der Tiefenwerte der Fusionsdaten 476 vom vorherigen Zeitpunkt auf den aktuellen Zeitpunkt, wobei hier die Tiefenwerte des Fusionsspeichers zu übertragen sind. Die Reihenfolge der beiden Schritte kann auch umgekehrt werden.
  • Nach dieser Vorbereitung kann die Fusion zwischen den übertragenen Fusionsdaten 474 und den Tiefendaten 472 erfolgen.
  • Beide Varianten sind vom Aufwand und vom Ergebnis vergleichbar.
  • 5 zeigt ein Blockschaltbild einer Vorrichtung 102 zur Verarbeitung von Bilddaten 104 gemäß einem Ausführungsbeispiel. Dabei kann es sich um ein Ausführungsbeispiel der anhand von 1 beschriebenen Vorrichtung handeln.
  • Wie bereits anhand der 3 und 4 beschrieben, umfasst die Vorrichtung 102 Speichereinrichtungen 330, 332, 334, 336, 338 sowie die Bestimmungseinrichtungen 460, 462, 464 und die Ermittlungseinrichtung 466.
  • Lediglich beispielhaft umfasst die Vorrichtung 102 zwei weitere Bestimmungseinrichtungen 560, 561, die entsprechend der Bestimmungseinrichtung 460 ausgeführt sind und zwei weitere Bestimmungseinrichtungen 562, 563, die entsprechend der Bestimmungseinrichtung 462 ausgeführt sind.
  • Die Bestimmungseinrichtung 560 ist ausgebildet, um wie anhand von 4 beschrieben, eine Korrespondenz zwischen den ersten Bilddaten 340 und den vierten vorangegangene Bilddaten 548 zu bilden und durch eine solche Korrespondenzbildung bestimmte Korrespondenzdaten 570 bereitzustellen.
  • Die Bestimmungseinrichtung 561 ist ausgebildet, um wie anhand von 4 beschrieben, eine Korrespondenz zwischen den ersten Bilddaten 340 und den zweiten vorangegangene Bilddaten 344 zu bilden und durch eine solche Korrespondenzbildung bestimmte Korrespondenzdaten 571 bereitzustellen.
  • Die Bestimmungseinrichtung 562 ist ausgebildet, um wie anhand von 4 beschrieben, unter Verwendung der Korrespondenzdaten 570 eine Eigenbewegungsschätzung durchzuführen und Tiefendaten 572 auf Basis der Eigenbewegungsschätzung bereitzustellen.
  • Die Bestimmungseinrichtung 563 ist ausgebildet, um wie anhand von 4 beschrieben, unter Verwendung der Korrespondenzdaten 571 eine Eigenbewegungsschätzung durchzuführen und Tiefendaten 573 auf Basis der Eigenbewegungsschätzung bereitzustellen.
  • Die Ermittlungseinrichtung 466 ist gemäß diesem Ausführungsbeispiel ausgebildet ist, um unter Verwendung der Tiefendaten 472, 572, 573 und der übertragenen Fusionsdaten 474 die Fusionsdaten 476 zu ermitteln und bereitzustellen.
  • Gemäß diesem Ausführungsbeispiel werden die übertragenen Fusionsdaten 474, wie anhand von 4 beschrieben, von der Bestimmungseinrichtung 464 bereitgestellt.
  • Gemäß einem Ausführungsbeispiel umfasst die Vorrichtung 102 ferner zwei weitere Bestimmungseinrichtungen 580, 582.
  • Die Bestimmungseinrichtung 580 ist ausgebildet, um eine Korrespondenz zwischen den ersten Bilddaten 340, die auf von der ersten Kamera 106 bereitgestellten Daten basieren, und zweiten Bilddaten 584, die auf von der zweiten Kamera 106 bereitgestellten Daten basieren, zu bilden, und durch eine solche Korrespondenzbildung 580 bestimmte Stereo-Korrespondenzdaten 586 bereitzustellen. Dabei repräsentieren die ersten Bilddaten 340 und die zweiten Bilddaten 584 zu einander entsprechenden Zeitpunkten erfasste Daten.
  • Die Bestimmungseinrichtung 582 ist ausgebildet, unter Verwendung der Stereo-Korrespondenzdaten 586 eine Triangulation durchzuführen und auf Basis der Triangulation Stereo-Tiefendaten 588 bereitzustellen, die Tiefendaten und/oder einen Maßstab umfassen.
  • Die Ermittlungseinrichtung 466 ist gemäß diesem Ausführungsbeispiel ausgebildet, um die Fusionsdaten ferner unter Verwendung der Stereo-Tiefendaten und/oder den Maßstab zu ermitteln, die über die Stereo-Tiefendaten 588 bereitgestellt werden.
  • Somit werden gemäß diesem Ausführungsbeispiel vier Tiefenmessungen in Form der Tiefendaten 472, 572, 573 sowie der Stereo-Tiefendaten 588 und ein fortgeschriebenes früheres Ergebnis in Form der übertragenen Fusionsdaten 474 miteinander fusioniert. Die Anzahl der verwendeten Tiefenmessungen sowie die zur Bestimmung der Tiefenmessungen verwendeten Bilddaten 340, 342, 344, 548, 584 ist dabei nur beispielhaft gewählt und kann entsprechend den gewünschten Einsatzgebieten der Vorrichtung 102 angepasst werden.
  • Für das in 5 gezeigte komplexere Ausführungsbeispiel ist die anhand von 4 beschriebene zweite Variante zu empfehlen, da es darin keinen gemeinsamen älteren Zeitpunkt gibt, wohl aber einen gemeinsamen neueren Zeitpunkt, auf den sich alle vier neuen Tiefenbildmessungen beziehen.
  • In dem in 5 gezeigten komplexeren Ausführungsbeispiel ist das bekannte Blockschaltbild aus 3 enthalten. Das Blockschaltbild aus 4 ist ebenfalls enthalten.
  • Das Blockschaltbild in 5 enthält insgesamt vier Blöcke „Corresp“, dargestellt durch die Bestimmungseinrichtungen 460, 560, 561, 580, in denen jeweils die Korrespondenzbildung stattfindet. Dabei wird auf der linken Seite dreimal der optische Fluss bestimmt, also eine Korrespondenzbildung in zeitlicher Richtung mit unterschiedlichen zeitlichen Abständen T, 2T, 4T, und auf der rechten Seite einmal eine Korrespondenzbildung zeitsynchron in örtlicher Richtung zwischen linker Kamera 106 und rechter Kamera 306, für den Stereo-Fall, durchgeführt.
  • Nach den „Corresp“-Blöcken schließt sich jeweils wieder eine Egomotion- und Tiefenbestimmung an, dargestellt durch die Bestimmungseinrichtungen 462, 562, 563. Die Bestimmungseinrichtung 582 stellt dabei einen „D&S“-Block (Depth & Scale-Block) dar, der ein Tiefenbild und gemäß einem Ausführungsbeispiel zusätzlich auch einen Maßstab liefert. Eine Egomotion-Schätzung ist im Allgemeinen im Block 582 nicht nötig, da das Stereo-Kamerapaar normalerweise mechanisch fest zueinander steht. Der Maßstab ergibt sich aus dem in der Regel bekannten festen Abstand zwischen den beiden Kameras 106, 306 (Basisweite). Dieser Maßstab kann innerhalb der in der Ermittlungseinrichtung 466 durchgeführten Fusion unmittelbar weiterverwendet werden oder mit einem Maßstab aus einer anderen Quelle, wie oben beschrieben, fusioniert werden.
  • Der durch die Ermittlungseinrichtung 466 dargestellte Fusionsblock hat im Unterschied zu dem anhand von 4 beschriebenen Ausführungsbeispiel nun vier Eingangsbilder, statt einem Eingangsbild. Die vier Eingangsbilder werden durch die Bilddaten 340, 342, 344, 548 repräsentiert. Das Prinzip der Fusion bleibt aber das gleiche wie oben beschrieben. Stehen für einen Pixel mehrere Messungen zur Verfügung, so sind diese zu fusionieren. Dazu wird bevorzugt auch hier wieder die varianzgewichtete Mittelung durchgeführt, die dem Fachmann bekannt ist.
  • Optional kann diese Fusion auch Schritt für Schritt nacheinander erfolgen, also z. B. Fusion von erster und zweiter Messung, Fusion des Zwischenergebnisses mit dritter Messung, Fusion des weiteren Zwischenergebnisses mit vierter Messung.
  • Der in der Bestimmungseinrichtung 464 durchgeführte Warping-Schritt verwendet vorzugsweise auch hier das durch die Korrespondenzdaten 470 repräsentierte Ergebnis der Korrespondenzbildung zwischen den Bildern IL(t) und IL(t – T).
  • Die beschriebene Fusion im Pixelgitter stellt eine zentrale Schnittstelle im System dar, an die die beteiligten Sensoren, hier die Kameras 106, 306, ihre Daten 104, 304 einspeisen und an der sich die weiteren Algorithmen bedienen.
  • Die bereitgestellten Fusionsdaten 476 können beispielsweise von Fahrerassistenzsystemen oder Informationssystemen genutzt werden, die eine gesteigerte Anforderung hinsichtlich Reichweite und Genauigkeit haben. Das beschriebene einheitliche Konzept der Basissignalverarbeitung kann für alle Kamerasysteme (Mono, Stereo, Duales Mono, Multi-Kamera) eingesetzt werden.
  • Umfasst ein Ausführungsbeispiel eine „und/oder“-Verknüpfung zwischen einem ersten Merkmal und einem zweiten Merkmal, so ist dies so zu lesen, dass das Ausführungsbeispiel gemäß einer Ausführungsform sowohl das erste Merkmal als auch das zweite Merkmal und gemäß einer weiteren Ausführungsform entweder nur das erste Merkmal oder nur das zweite Merkmal aufweist.

Claims (14)

  1. Verfahren zur Verarbeitung von Bilddaten (104; 304), wobei das Verfahren die folgenden Schritte umfasst: Bestimmen (220) von Korrespondenzdaten (470) als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten (340), die auf von einer Kamera (106) zu einem ersten Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren, und vorangegangenen Bilddaten (342), die auf von der Kamera (106) zu einem vorangegangenen Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren, wobei die ersten Bilddaten (340) Daten repräsentieren, die auf von einer Kamera (106) zu einem ersten Zeitpunkt erfassten Bilddaten (104) basieren, und wobei die vorangegangenen Bilddaten (342) Daten repräsentieren, die auf von der Kamera (106) zu einem vorangegangenen Zeitpunkt erfassten Bilddaten (104) basieren; Bestimmen (222) von Tiefendaten (472) auf Basis einer unter Verwendung der Korrespondenzdaten (470) durchgeführten Eigenbewegungsschätzung; und Ermitteln (224) von Fusionsdaten (476) unter Verwendung der Tiefendaten (472) und übertragenen Fusionsdaten (474), wobei die Fusionsdaten (476) eine auf den Bilddaten (340, 342) basierende Tiefeninformation umfassen.
  2. Verfahren gemäß Anspruch 1, mit einem Schritt des Bestimmens (226) der übertragenen Fusionsdaten (474) als Ergebnis einer Übertragung von in einem vorangegangenen Schritt des Ermittelns ermittelten Fusionsdaten (476) und den Korrespondenzdaten (470).
  3. Verfahren gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Bestimmens (220) der Korrespondenzdaten (470) Flussvektoren als die Korrespondenzdaten (470) bestimmt werden, die Bildpunkten der ersten Bilddaten (340) und/oder Bildpunkten der vorangegangenen Bilddaten (342) zugeordnet sind.
  4. Verfahren gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Bestimmens (222) von Tiefendaten (472) Tiefenwerte als die Tiefendaten (472) bestimmt werden, die Bildpunkten der ersten Bilddaten (340) und/oder Bildpunkten der vorangegangenen Bilddaten (342) zugeordnet sind.
  5. Verfahren gemäß einem der vorangegangenen Ansprüche, bei dem die Fusionsdaten (476) im Schritt des Ermittelns (224) unter Verwendung einer Mittelwertbildung zwischen den Tiefendaten (472) und den übertragenen Fusionsdaten (474) ermittelt werden.
  6. Verfahren gemäß einem der vorangegangenen Ansprüche, bei dem die Fusionsdaten (476) im Schritt des Ermittelns (224) den Tiefendaten (472) entsprechen, wenn keine übertragenen Fusionsdaten (474) vorliegen, und die Fusionsdaten (476) den übertragenen Fusionsdaten (474) entsprechen, wenn keine Tiefendaten (472) vorliegen.
  7. Verfahren gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Ermittelns (224) der Fusionsdaten (476), eine Konsistenz zwischen den Tiefendaten (472) und den übertragenen Fusionsdaten (474) überprüft wird.
  8. Verfahren gemäß einem der vorangegangenen Ansprüche, mit zumindest einem Schritt des Bestimmens (220) von weiteren Korrespondenzdaten (570, 571) als Ergebnis einer Korrespondenzbildung zwischen den ersten Bilddaten (340) und weiteren vorangegangenen Bilddaten (344; 548), wobei die vorangegangenen Bilddaten (344; 548) Daten repräsentieren, die auf von der Kamera (106) zu einem weiteren vorangegangenen Zeitpunkt erfassten Bilddaten (104) basieren, und mit zumindest einem Schritt des Bestimmens (222) von weiteren Tiefendaten (572, 573) auf Basis einer unter Verwendung der weiteren Korrespondenzdaten (570, 571) durchgeführten Eigenbewegungsschätzung, und wobei im Schritt des Ermittelns (224) die Fusionsdaten (476) ferner unter Verwendung der weiteren Tiefendaten (572, 573) ermittelt werden.
  9. Verfahren gemäß einem der vorangegangenen Ansprüche, mit einem Schritt des Bestimmens von Stereo-Korrespondenzdaten (586) als Ergebnis einer Korrespondenzbildung zwischen den ersten Bilddaten (340) und zweiten Bilddaten (584), wobei die zweiten Bilddaten (584) Daten repräsentieren, die auf von einer weiteren Kamera (306) zu dem ersten Zeitpunkt erfassten Bilddaten (304) basieren, und mit einem Schritt des Bestimmens von Stereo-Tiefendaten (588), die Tiefendaten und/oder einen Maßstab repräsentieren, auf Basis einer unter Verwendung der Stereo-Korrespondenzdaten (586) durchgeführten Triangulation und wobei im Schritt des Ermittelns (224) die Fusionsdaten (476) ferner unter Verwendung der Stereo-Tiefendaten (588) ermittelt werden.
  10. Verfahren gemäß einem der vorangegangenen Ansprüche, mit einem Schritt des Erfassens der Bilddaten (104; 304) unter Verwendung zumindest einer Kamera (106) und/oder mit einem Schritt des Verwendens der Fusionsdaten (476) in einem Fahrerassistenzsystem (110) für ein Fahrzeug (100) oder in einer Steuereinrichtung für einen mobilen Roboter.
  11. Vorrichtung zur Verarbeitung von Bilddaten (104; 304), wobei die Vorrichtung die folgenden Merkmale aufweist: eine Bestimmungseinrichtung, die ausgebildet ist, um Korrespondenzdaten (470) als Ergebnis einer Korrespondenzbildung zwischen ersten Bilddaten (340), die auf von einer Kamera (106) zu einem ersten Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren, und vorangegangenen Bilddaten (342), die auf von der Kamera (106) zu einem vorangegangenen Zeitpunkt erfassten Bilddaten (104) basierende Daten repräsentieren, zu bestimmen; eine Bestimmungseinrichtung, die ausgebildet ist, um Tiefendaten (472) auf Basis einer unter Verwendung der Korrespondenzdaten (470) durchgeführten Eigenbewegungsschätzung zu bestimmen; und eine Ermittlungseinrichtung, die ausgebildet ist, um Fusionsdaten (476) unter Verwendung der Tiefendaten (472) und übertragenen Fusionsdaten (474) zu ermitteln, wobei die Fusionsdaten (476) eine auf den Bilddaten (340, 342) basierende Tiefeninformation umfassen.
  12. Fahrzeug mit zumindest einer Kamera (106), einer Vorrichtung gemäß Anspruch 11 zum Verarbeiten der Bilddaten (104; 304) der zumindest einen Kamera (106) und einem Fahrerassistenzsystem (110), das ausgebildet ist, um unter Verwendung von der Vorrichtung bereitgestellten Fusionsdaten (476) eine Fahrerassistenzfunktion auszuführen.
  13. Computerprogramm, das dazu eingerichtet ist, das Verfahren gemäß einem der vorangegangenen Ansprüche auszuführen.
  14. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 13 gespeichert ist.
DE102016208056.3A 2016-05-11 2016-05-11 Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug Pending DE102016208056A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102016208056.3A DE102016208056A1 (de) 2016-05-11 2016-05-11 Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
US15/487,162 US10150485B2 (en) 2016-05-11 2017-04-13 Method and device for processing image data, and driver-assistance system for a vehicle
GB1707260.4A GB2552058B (en) 2016-05-11 2017-05-05 Method and device for processing image data and driver assistance system for a vehicle
CN201710324963.0A CN107452016B (zh) 2016-05-11 2017-05-10 用于处理图像数据的方法和设备和用于车辆的驾驶员辅助系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016208056.3A DE102016208056A1 (de) 2016-05-11 2016-05-11 Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug

Publications (1)

Publication Number Publication Date
DE102016208056A1 true DE102016208056A1 (de) 2017-11-16

Family

ID=60163125

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016208056.3A Pending DE102016208056A1 (de) 2016-05-11 2016-05-11 Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug

Country Status (4)

Country Link
US (1) US10150485B2 (de)
CN (1) CN107452016B (de)
DE (1) DE102016208056A1 (de)
GB (1) GB2552058B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020213855A1 (de) 2020-11-04 2022-05-05 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren, Computerprogramm, Speichermedium und Steuereinheit zur Objekterkennung
WO2023011816A1 (de) * 2021-08-02 2023-02-09 Robert Bosch Gmbh Verfahren zur sensordatenverarbeitung in einem sensorsystem und zugehöriges sensorsystem

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10764561B1 (en) 2016-04-04 2020-09-01 Compound Eye Inc Passive stereo depth sensing
DE102017217156B4 (de) * 2017-09-27 2021-12-23 Robert Bosch Gmbh Verfahren und Vorrichtung zur Ansteuerung eines Fahrerassistenzsystems unter Verwendung eines Stereokamerasystems mit einer ersten und einer zweiten Kamera
US20200118287A1 (en) * 2018-10-16 2020-04-16 Augentix Inc. Method of Assembly Calibration for Multi-Camera system and Related Device
WO2021108626A1 (en) 2019-11-27 2021-06-03 Compound Eye Inc. System and method for correspondence map determination
WO2021150784A1 (en) 2020-01-21 2021-07-29 Compound Eye Inc. System and method for camera calibration
WO2021150779A1 (en) 2020-01-21 2021-07-29 Compound Eye Inc. System and method for egomotion estimation
CN112092732A (zh) * 2020-09-22 2020-12-18 福建龙马环卫装备股份有限公司 基于图像识别的路面保洁环卫车作业装置控制系统及方法
CN113466247B (zh) * 2021-06-30 2023-09-12 中国铁道科学研究院集团有限公司 基于惯性技术及机器视觉融合的钢轨焊缝检测方法及系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008002567A1 (de) * 2008-06-20 2009-12-24 Robert Bosch Gmbh Bilddatenverarbeitungsverfahren
DE102009003110A1 (de) * 2009-05-14 2010-11-18 Robert Bosch Gmbh Bildverarbeitungsverfahren zur Bestimmung von Tiefeninformation aus wenigstens zwei mittels eines Stereokamerasystems aufgenommenen Eingangsbildern
US8537200B2 (en) 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
US8644697B1 (en) 2010-08-13 2014-02-04 Csr Technology Inc. Method for progressively determining depth from defocused images
US9213883B2 (en) * 2012-01-10 2015-12-15 Samsung Electronics Co., Ltd. Method and apparatus for processing depth image
US9098911B2 (en) * 2012-11-01 2015-08-04 Google Inc. Depth map generation from a monoscopic image based on combined depth cues
DE102013224502A1 (de) * 2012-12-07 2014-06-12 Continental Teves Ag & Co. Ohg Verfahren zur Kalibrierung einer Stereokamera eines Fahrzeugs
US9299152B2 (en) * 2012-12-20 2016-03-29 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Systems and methods for image depth map generation
DE102014202639A1 (de) * 2013-02-15 2014-08-21 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bestimmen einer Fahrzeugbewegung eines Fahrzeugs
US9424650B2 (en) * 2013-06-12 2016-08-23 Disney Enterprises, Inc. Sensor fusion for depth estimation
US20150002636A1 (en) * 2013-06-28 2015-01-01 Cable Television Laboratories, Inc. Capturing Full Motion Live Events Using Spatially Distributed Depth Sensing Cameras
US20150146928A1 (en) * 2013-11-27 2015-05-28 Electronics And Telecommunications Research Institute Apparatus and method for tracking motion based on hybrid camera
DE102013226101A1 (de) * 2013-12-16 2015-07-02 Robert Bosch Gmbh Überwachungskameravorrichtung mit Tiefeninformationsbestimmung
US9779508B2 (en) 2014-03-26 2017-10-03 Microsoft Technology Licensing, Llc Real-time three-dimensional reconstruction of a scene from a single camera
WO2015158570A1 (en) 2014-04-17 2015-10-22 Koninklijke Philips N.V. System, method for computing depth from video
EP3696774A1 (de) 2014-05-12 2020-08-19 ML Netherlands C.V. Verfahren und vorrichtung zum abtasten eines 3d-objekts
CN104318561B (zh) * 2014-10-22 2017-05-03 上海理工大学 基于双目立体视觉与光流融合的车辆运动信息检测方法
JP2016170522A (ja) * 2015-03-11 2016-09-23 株式会社東芝 移動体検出装置
JP6545997B2 (ja) * 2015-04-24 2019-07-17 日立オートモティブシステムズ株式会社 画像処理装置
US10451422B2 (en) * 2016-04-28 2019-10-22 Rogerson Aircraft Corporation System and method for providing persistent mission data to a fleet of vehicles
US10816650B2 (en) * 2016-05-27 2020-10-27 Interson Corporation Ultrasonic imaging probe including composite aperture receiving array

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020213855A1 (de) 2020-11-04 2022-05-05 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren, Computerprogramm, Speichermedium und Steuereinheit zur Objekterkennung
WO2023011816A1 (de) * 2021-08-02 2023-02-09 Robert Bosch Gmbh Verfahren zur sensordatenverarbeitung in einem sensorsystem und zugehöriges sensorsystem

Also Published As

Publication number Publication date
CN107452016B (zh) 2023-09-01
GB2552058A (en) 2018-01-10
US10150485B2 (en) 2018-12-11
US20170327127A1 (en) 2017-11-16
GB201707260D0 (en) 2017-06-21
CN107452016A (zh) 2017-12-08
GB2552058B (en) 2022-10-05

Similar Documents

Publication Publication Date Title
DE102016208056A1 (de) Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
EP2406769B1 (de) Verfahren und vorrichtung zur reduktion des speicherbedarfs bei der bestimmung von disparitätswerten für mindestens zwei stereoskopisch aufgenommene bilder
DE102009028743B4 (de) Verfahren und Steuergerät zur Entzerrung eines Kamerabildes
DE112017006840B4 (de) Informationsverarbeitungsprogramm, Informationsverarbeitungsverfahren und Informationsverarbeitungsvorrichtung
WO2015173092A1 (de) Verfahren und vorrichtung zur kalibrierung eines kamerasystems eines kraftfahrzeugs
DE102020110379A1 (de) Fahrassistenzsystem, elektronische vorrichtung und betriebsverfahren dafür
DE102018113992A1 (de) Verfahren und Gerät zum Erfassen einer Fahrspur
DE102016225595A1 (de) Verfahren und Anordnung zur Kalibrierung mindestens eines Sensors eines Schienenfahrzeugs
DE102018111935A1 (de) Bildverarbeitungssystem, Bildverarbeitungsverfahren, Informationsverarbeitungsvorrichtung und Aufzeichnungsmedium
DE112020001255T5 (de) Tiefes neurales netzwerk mit niedrigem leistungsverbrauch zur gleichzeitigen objekterkennung und semantischen segmentation in bildern auf einem mobilen rechengerät
DE102013205854A1 (de) Temporäre Koherenz bei Detektion eines freien Pfads
DE102020129096A1 (de) Erzeugung dreidimensionaler punktwolken mittels einer polarimetrischen kamera in einem mit einem fahrassistenzsystem ausgestatteten fahrzeug
WO2020078615A1 (de) Verfahren und vorrichtung zur bestimmung einer umgebungskarte
DE112018004819T5 (de) Bildverarbeitungsvorrichtung
DE102019218479A1 (de) Verfahren und Vorrichtung zur Klassifikation von Objekten auf einer Fahrbahn in einem Umfeld eines Fahrzeugs
DE112022001197T5 (de) Datengesteuerte dynamisch umkonfigurierte disparitätsabbildung
DE102016105298A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und fahrzeugbasierte Vorrichtung
DE112017005211T5 (de) Anzeigesteuerungsvorrichtung
EP3685352B1 (de) Verfahren und vorrichtung zum bewerten von bildern, betriebsassistenzverfahren und betriebsvorrichtung
DE102017117212A9 (de) System und Verfahren zur Stereotriangulation
DE112020005735T5 (de) Positionsabschätzungsvorrichtung, Fahrzeug, Positionsabschätzungsverfahren und Positionsabschätzungsprogramm
WO2020119996A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE112016001238B4 (de) Fahrzeugumgebungsbildanzeigesteuerungsvorrichtung und fahrzeugumgebungsbildanzeigesteuerungsprogramm
DE112019002126T5 (de) Positionsschätzungsvorrichtung, positionsschätzungsverfahren und programm dafür
DE102021213756B3 (de) Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks

Legal Events

Date Code Title Description
R012 Request for examination validly filed