DE102018130229B4 - Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten - Google Patents

Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten Download PDF

Info

Publication number
DE102018130229B4
DE102018130229B4 DE102018130229.0A DE102018130229A DE102018130229B4 DE 102018130229 B4 DE102018130229 B4 DE 102018130229B4 DE 102018130229 A DE102018130229 A DE 102018130229A DE 102018130229 B4 DE102018130229 B4 DE 102018130229B4
Authority
DE
Germany
Prior art keywords
image data
data
scene
scene image
reference image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102018130229.0A
Other languages
English (en)
Other versions
DE102018130229A1 (de
Inventor
Ercan Kücükkaraca
Dirk Hansen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gestigon GmbH
Original Assignee
Gestigon GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gestigon GmbH filed Critical Gestigon GmbH
Priority to DE102018130229.0A priority Critical patent/DE102018130229B4/de
Publication of DE102018130229A1 publication Critical patent/DE102018130229A1/de
Application granted granted Critical
Publication of DE102018130229B4 publication Critical patent/DE102018130229B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zur automatischen Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten (13), wobei das Verfahren aufweist:Empfangen von sensorisch gewonnenen Szenenbilddaten (13), die drei räumliche Dimensionen einer realen, insbesondere einen Fahrzeuginnenraum zumindest teilweise darstellenden, Szene repräsentieren, welche neben einer vorbekannten Objektanordnung (30) zumindest ein nicht zur Objektanordnung gehörendes zu extrahierendes Objekt (R, L) darstellt;Erzeugen von Referenzbilddaten (24), welche die Objektanordnung (30) in ihrer szenengemäßen Lage in drei räumliche Dimensionen repräsentieren, auf Basis von vorab erzeugten Objektbeschreibungsdaten (15b), die eine abstrakte Beschreibung der Objektanordnung (30) repräsentieren;Extrahieren zumindest eines der nicht zur Objektanordnung (30) gehörenden Objekte (L, R) und Erzeugung von das Objekt (L, R) repräsentierende Objektbilddaten (25) mittels eines Abgleichs (14) der Szenenbilddaten (13) mit den Referenzbilddaten (24), wobei die Objektbilddaten (25) beruhend auf einem Entfernen von zumindest einem durch die Referenzbilddaten (24) repräsentierten und zu der Objektanordnung (30) korrespondierenden Bestandteil der Szene aus den Szenenbilddaten (13) erzeugt werden.

Description

  • Die vorliegende Erfindung betrifft ein, insbesondere computerimplementiertes, Verfahren sowie eine Vorrichtung zur Objektextraktion aus Szenenbilddaten, die eine, insbesondere dynamische (d.h. zeitlich veränderliche), dreidimensionale Szene darstellen. Darüber hinaus betrifft die Erfindung ein Computerprogramm, das zur Ausführung des Verfahrens konfiguriert ist.
  • Aus dem Stand der Technik ist die JP 2017097607 A2 bekannt, die ein Bilderkennungsgerät offenbart, welches die Auswirkungen eines Entfernungserkennungsfehlers in einer Time Of Flight -Kamera reduziert und die Genauigkeit der Erkennung einer Geste verbessert. Dazu berechnet die Bilderkennungsvorrichtung unter Verwendung der Position eines festen Gegenstandes, wie eines Lenkrads als Bezugspunkt, ein Verhältnis auf der Grundlage eines zuvor registrierten Entfernungsreferenzwertes und eines gemessenen Wertes der Entfernung zu einem erkannten festen Objekt und korrigiert einen gemessenen Wert der Entfernung von einer TOF-Kamera zu einer Hand, deren Verhalten erkannt werden soll.
  • Das Dokument „BORGHI, Guido, et al. Hands on the wheel: a dataset for driver hand detection and tracking. In: 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018. S. 564-570., 07.06.2018, DOI: 10.1 109/FG.2018.00090“ offenbart ein Verfahren zur Erkennung und Verortung der Hände eines Fahrers am Lenkrad bei Aktivitätsaufgaben während des Fahrens mittels einer Stereokamera.
  • Auf dem Gebiet der Bildverarbeitung sind allgemein verschiedenste Verfahren bekannt, um aus einem, insbesondere digitalen, Bild, welches in einem Bildraum definiert ist, mittels Objektextraktion ein oder mehrere Merkmale von einem oder mehreren in dem Bild repräsentierten Objekten aus diesem zu extrahieren, um sodann im Rahmen einer Bildauswertung auf Basis dieser Merkmale Muster (im allgemeinen Sinne) zu erkennen und darauf beruhend eine Bildinterpretation vorzunehmen.
  • Insbesondere kann die Objektextraktion dazu eingesetzt werden, Hintergrund- und Vordergrunddaten in einer Szene voneinander zu separieren. Dazu werden üblicherweise probabilistische Verfahren eingesetzt. Diese Verfahren bedürfen in der Regel entweder einer gro-ßen Menge an nur unter größerem Aufwand zu beschaffenden Trainingsdaten, um einen geeigneten Klassifikator zur Trennung von Hintergrund und Vordergrund zu generieren, oder aber sehr rechenintensive Verfahren, die zeitlich Änderungen im Bild zur Laufzeit analysieren.
  • Verfahren der Objektextraktion kommen insbesondere im Zusammenhang mit bildbasierten Mensch-Maschine-Schnittstellen (abgek. „MMS“ oder häufiger „MMI“) regelmäßig zum Einsatz. Während klassische MMI auf einer kontaktbasierten Interaktion eines Benutzers mit einem entsprechenden Bedienelement, beispielsweise einem physischen Schalter oder einer berührungsempfindlichen Oberfläche oder Anzeigevorrichtung usw. beruhen, sind inzwischen moderne bildbasierte MMI bekannt, bei denen eine von einem menschlichen Benutzers ausgeführte statische oder dynamische Geste bildsensorisch erfasst wird. Diese bildsensorische Erfassung solcher Gesten, kann beispielsweise mittels einer geeigneten Kamera erfolgen, welche die Geste zweidimensional oder dreidimensional (beispielsweise in Form einer Tiefenkarte, auch oft nur als „2,5-D“ bezeichnet) erfasst. Sodann werden mittels mathematischer Verfahren, insbesondere Bilderkennungsverfahren, aus den sensorisch erfassten Daten Rückschlüsse auf eine mittels der erfassten Geste intendierten Benutzereingabe gezogen. Die Geste kann speziell eine „Freiraumgeste“, d.h. eine im freien Raum ohne physischen Kontakt mit einer MMI-Vorrichtung ausgeführte statische oder dynamische Geste eines menschlichen Benutzers sein.
  • Insbesondere im Zusammenhang mit fahrzeugbezogenen Anwendungen können derartige zur Erkennung von Benutzergesten fähige MMI dazu eingesetzt werden, Eingaben zur Bedienung des Fahrzeugs oder eines Teilsystems davon vorzunehmen. Des Weiteren ist es auch möglich, dass sich die Gesten auf das Umfeld des Fahrzeugs beziehen, wie etwa ein Zeigen auf ein interessantes, vom Fahrzeug aus sichtbaren, fahrzeugexternes Objekt, und das Erkennen einer solchen Freiraumgeste dazu dient, eine Eingabe für ein System zu liefern, welches eine auf das Objekt bezogene Information liefern soll, oder das Fahrzeug veranlasst, darauf zu reagieren.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, die automatische Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten weiter zu verbessern, insbesondere im Hinblick auf eine Geschwindigkeitssteigerung bzw. Komplexitätsreduktion der entsprechenden Bildverarbeitung.
  • Die Lösung dieser Aufgabe wird gemäß der Lehre der unabhängigen Ansprüche erreicht. Verschiedene Ausführungsformen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
  • Ein erster Aspekt der Erfindung betrifft ein, insbesondere computerimplementiertes, Verfahren zur automatischen Objektextraktion aus eine, insbesondere dynamische (d.h. zeitlich variable), dreidimensionale Szene darstellenden Szenenbilddaten. Das Verfahren weist auf: (i) Empfangen von sensorisch gewonnenen Szenenbilddaten, die drei räumliche Dimensionen einer realen, insbesondere einen Fahrzeuginnenraum zumindest teilweise darstellenden, Szene repräsentieren, welche neben einer vorbekannten Objektanordnung, die insbesondere ein oder mehrere zugehörigen Objekte aufweisen kann, zumindest ein nicht zur Objektanordnung gehörendes und zu extrahierendes Objekt darstellt; (ii) Erzeugen von Referenzbilddaten, welche die Objektanordnung in ihrer szenengemäßen räumlichen Konfiguration in drei räumlichen Dimensionen repräsentieren, auf Basis von vorab erzeugten Objektbeschreibungsdaten, die eine abstrakte Beschreibung der Objektanordnung repräsentieren; und (iii) Extrahieren zumindest eines der nicht zur Objektanordnung gehörenden Objekte und Erzeugung von das Objekt repräsentierende Objektbilddaten mittels eines Abgleichs der Szenenbilddaten mit den Referenzbilddaten, wobei die Objektbilddaten beruhend auf einem Entfernen von zumindest einem durch die Referenzbilddaten repräsentierten und zu der Objektanordnung korrespondierenden Bestandteil der Szene aus den Szenenbilddaten erzeugt werden.
  • Unter „Bilddaten“, insbesondere Szenenbilddaten, Referenzbilddaten bzw. Objektbilddaten, jeweils im Sinne der Erfindung, sind Daten zu verstehen, die ein oder mehrere statische oder dynamische Bilder, insbesondere zeitliche Bildfolgen, repräsentieren. Die Repräsentation kann insbesondere digital und dabei insbesondere anhand von Bildpunkten erfolgen, die regelmäßig im zweidimensionalen Raum als „Pixel“ und im dreidimensionalen Raum „Voxel“ bezeichnet werden. Die Objektbilddaten können je nach Implementierung räumlich zwei- oder dreidimensional sein, während die Szenenbilddaten sowie die Referenzbilddaten erfindungsgemäß räumlich dreidimensional sind. Die vorgenannten verschiedenen Arten von Bilddaten können insbesondere ganz oder teilweise in denselben Datenstrukturen in beliebiger Kombination aber auf separierbare Weise enthalten sein. Es muss sich insbesondere nicht um getrennte Datensätze handeln.
  • Unter einer „Szene“ im Sinne der Erfindung ist eine Szene im Sinne des Sprachgebrauchs auf dem Gebiet der Bildverarbeitung und Computergraphik, d.h. eine dreidimensionale Beschreibung von Objekten, optional auch von Lichtquellen und/oder Materialeigenschaften, sowie der Position und Blickrichtung eines virtuellen Betrachters zu verstehen. Vorliegend kann der virtuelle Betrachter insbesondere durch ein die Szene aufnehmendes Bildsensorsystem definiert sein.
  • Unter einer „Objektanordnung“ im Sinne der Erfindung ist ein Objekt, eine Anordnung mehrerer, insbesondere benachbarter Objekte, oder eine Mehrzahl von miteinander gekoppelten Objekten zu verstehen. Letzteres könnte beispielsweise ein Sitz eines Fahrzeugs sowie eine daran mittels eines Verbindungselements (z.B. Stabelements) angekoppelte Kopfstütze sein oder ein einen Lenkradkranz und Speichen als Elemente aufweisendes Lenkrad.
  • Unter einer „abstrakten Beschreibung“ der Objektanordnung ist eine Beschreibung derselben zu verstehen, die anstelle einer bildlichen Repräsentation der Objektanordnung durch Bilddaten, eine Repräsentation mittels abstrakter, die Objektanordnung kennzeichnender Eigenschaften bzw. mittels entsprechender Daten oder eines Modells davon verwendet. Insbesondere stellt die in der Computergrafik und digitalen Bildverarbeitung weitverbreitete 3D-Modellierung von Objekten, insbesondere anhand von Polygonen oder anderen geometrischen Modellobjekten, eine abstrakte Beschreibung im Sinne der Erfindung dar.
  • Unter einer „szenengemäßen räumlichen Konfiguration“ der Objektanordnung in den Referenzbilddaten ist im Sinne der Erfindung zu verstehen, dass die durch die Referenzbilddaten repräsentierte räumliche Konfiguration, zu der insbesondere die Position und die Orientierung der Objektanordnung oder wenigstens eines Abschnitts davon und gegebenenfalls eine Stellung eines oder mehrerer beweglicher Teile davon gehören können, der durch die Szenenbilddaten repräsentierten räumlichen Konfiguration der Objektanordnung aus Sicht des Betrachters, zumindest im Wesentlichen, entspricht.
  • Bei der verfahrensgemäßen Lösung erfolgt demnach die Extraktion der Objektbilddaten insbesondere dadurch, dass durch die Referenzbilddaten repräsentiertes Vorwissen über das Vorhandensein, das Aussehen und die Lage (d.h. Position und Orientierung) der Objektanordnung in der Szene vorhanden ist, genutzt wird. Es wird dazu im Rahmen eines einfachen Abgleichs, z.B. anhand eines Differenzverfahrens, herangezogen, um die bildliche Repräsentation der Objektanordnung in den Szenenbilddaten zumindest teilweise zu entfernen und somit eine Separierung zwischen der durch die Szenenbilddaten repräsentierten bildlichen Darstellung des zumindest einen zu extrahieren Objekts einerseits und der Objektanordnung andererseits zu erreichen.
  • Während der Abgleich, insbesondere auch bei dynamischen Szenen, bereits mit geringer Rechenleistung schnell, insbesondere in Echtzeit, durchgeführt werden kann, können die Objektbeschreibungsdaten bereits vorab, d. h. vor Durchführung des erfindungsgemäßen Verfahrens, insbesondere mittels eines oder mehrerer leistungsstarker Rechner, ermittelt werden und sodann als gespeicherte Daten, etwa in einer sogenannten Lookup-Tabelle oder Datenbank, dem Verfahren zur Verfügung gestellt werden. Insbesondere kann dies so geschehen, dass die Objektbeschreibungsdaten die Objektanordnung in verschiedenen Lagen repräsentieren. Während des Verfahrensablaufs muss dann im Hinblick auf die Erzeugung der Referenzdaten nur noch die relevante und durch die Objektbeschreibungsdaten repräsentierte abstrakte Beschreibung der Objektanordnungen in eine bildliche Repräsentation (d.h. die Referenzbilddaten) umgewandelt werden (insbesondere durch sogenannte Bildsynthese bzw. (Bild)-Rendering).
  • Auf diese Weise lässt sich auf einfache und sehr performante Weise eine, insbesondere dynamische (d.h. zeitabhängige) Objektextraktion aus der dreidimensionalen Szene erreichen bzw. bei vergleichbarer Rechenleistung deren Geschwindigkeit zur Laufzeit steigern.
  • Das Verfahren kommt insbesondere ohne die vorgenannten aufwändigen probabilistischen Methoden aus, die darauf abzielen, das zu extrahierende Objekt in entsprechenden, die interessierende Szene darstellenden Bilddaten vor einem (unbekannten) Bildhintergrund zu erkennen. Das Verfahren ist somit insbesondere als echtzeitfähiges Verfahren bzw. Teilverfahren in zeitkritischen Bildverarbeitungsprozessen geeignet. Ein möglicher Anwendungsfall des Verfahrens liegt dabei in der Extraktion von Objekten aus Szenen, die das Innere, insbesondere einen Fahrgastraum eines Fahrzeugs darstellen, da hier regelmäßig aufgrund der vorbekannten Ausstattung des Fahrzeugs geeignetes Vorwissen über die Art und Lage von relevanten, im Rahmen der Extraktion auszufilternden, Objektanordnungen, wie etwa eines Armaturenbretts oder Bedienelementen davon, eines Lenkrads, eines Ganghebels, eines Sitzes, einer Kopfstütze, eines Sicherheitsgurts, eines Rückspiegels, einer Tür, eines Fachdeckels, eines Karrosseriebestandteils und Ähnlichem vorliegen, die mittels entsprechender Objektbeschreibungsdaten vorab erfasst werden können.
  • Nachfolgend werden bevorzugte Ausführungsformen des Verfahrens beschrieben, die jeweils, soweit dies nicht ausdrücklich ausgeschlossen wird oder technisch unmöglich ist, beliebig miteinander sowie mit den weiteren beschriebenen anderen Aspekten der Erfindung kombiniert werden können.
  • Bei einigen Ausführungsformen repräsentieren die Szenenbilddaten neben den drei räumlichen Dimensionen zusätzlich eine zeitliche Abhängigkeit der realen Szene, und das Verfahren weist des Weiteren auf: Empfangen von sensorisch erfassten Kontextdaten, die eine zur zeitlichen Abhängigkeit der Szenenbilddaten zeitlich korrespondierende räumliche Konfiguration der Objektanordnung repräsentieren. Zudem erfolgt das Erzeugen der Referenzbilddaten auf Basis der Objektbeschreibungsdaten unter Berücksichtigung der Kontextdaten, um kontextangepasste Referenzbilddaten zu erhalten, welche für zumindest einen ausgewählten Zeitpunkt oder Zeitabschnitt die Objektanordnung in einer durch die Kontextdaten definierten räumlichen Konfiguration repräsentieren. Die Kontextdaten und in der Folge die kontextangepassten Referenzbilddaten können sich insbesondere auf einen bestimmten Zeitpunkt oder Zeitabschnitt, bevorzugt die Gegenwart oder einen dazu nur geringfügig versetzten, insbesondere unmittelbar bevorstehenden, Zeitpunkt oder Zeitabschnitt, beziehen, der innerhalb der von den Szenenbilddaten beschriebenen Zeitspanne liegt. Auf diese Weise kann bei der auf den Kontext angepassten Referenzbilddaten aufsetzenden Objektextraktion zur Erzeugung der Objektbilddaten eine durch die Kontextdaten beschriebene räumliche Konfiguration der Objektanordnung, beispielsweise die Stellung der Speichen eines Lenkrades oder eine bestimmte Sitzeinstellung oder Ganghebelstellung, berücksichtigt werden. Somit können Extraktionsfehler, die sich ergeben würden, wenn man die vorliegende räumliche Konfiguration der Objektanordnung nicht berücksichtigen würde, wodurch unerwünschte zur Objektanordnung korrespondierende Bildbestandteile in die Objektbilddaten aufgenommen würden, zumindest weitgehend, vermieden werden.
  • Bei einigen dieser vorgenannten Ausführungsformen weist die Objektanordnung zumindest ein, jedenfalls teilweise bewegliches, Element eines Fahrzeugs, insbesondere eines Fahrzeuginterieurs, auf und die Kontextdaten repräsentieren eine gegenwärtige oder erwartete zukünftige, insbesondere unmittelbar bevorstehende, räumliche Konfiguration zumindest eines der beweglichen Elemente der Objektanordnung. Beispiele für solche zumindest teilweise beweglichen Elemente eines Fahrzeugs wurden bereits vorausgehend genannt, wie etwa Lenkrad, Ganghebel, verstellbarer Sitz usw.. So ist es möglich, die Qualität der Objektextraktion für Szenen, die zumindest Elemente eines Fahrzeugs aufweisen, zu erhöhen.
  • Dies kann insbesondere im Zusammenhang mit Gestenerkennung oder Überwachungssystemen für Fahrzeuge verwendet werden, bei denen die Szenenbilddaten Teile des Fahrzeugs, insbesondere dessen Inneres, zumindest teilweise abbilden. Vorteilhaft ist dabei auch, dass die entsprechenden räumlichen Konfigurationen vieler beweglicher Elemente eines Fahrzeugs über entsprechende vorhandene Steuerdaten oder Sensordaten bereits als Informationen zur Verfügung stehen, die entsprechend als Kontextdaten oder zu deren Generierung verwendet werden können. Beispielsweise können solche Steuer- oder Sensordaten bei elektrisch verstellbaren Sitzen vorliegen, bei denen die Sitzstellung genau auf Basis solcher Daten eingestellt wird. Elektronisch verstellbare Rückspiegel sind neben dem bereits oben genannten Objektanordnungen ein weiteres Beispiel. Bei Lenkrädern kommen bei vielen modernen Fahrzeugen Drehwinkelsensoren zum Einsatz, die entsprechende Informationen über den aktuellen Drehwinkel des Lenkrads liefern.
  • Gemäß einiger zugehöriger Ausführungsformen können die Kontextdaten insbesondere über ein Kommunikationsnetzwerk des Fahrzeugs empfangen werden. Das Kommunikationsnetzwerk kann dabei insbesondere ein CAN-Bus, ein LIN-bus, ein MOST-Bus oder ein Ethernet basiertes Netzwerk sein. Da solche Kommunikationsnetzwerke regelmäßig in modernen Fahrzeugen vorgesehen sind, entfällt somit bei diesen Ausführungsformen der Aufwand für eine zusätzliche Datenübertragungsinfrastruktur im Fahrzeug.
  • Gemäß einiger weiterer zugehöriger Ausführungsformen werden die zum Erzeugen der Referenzbilddaten verwendeten Objektbeschreibungsdaten in Form von konfigurationsabhängigen Objektbeschreibungsdaten aus einer vorab bereitgestellten Datenbank entnommen, d.h. gelesen. Durch die konfigurationsabhängigen Objektbeschreibungsdaten ist dabei die Objektanordnung in verschiedenen räumlichen Konfigurationen als Modell und/oder mittels ihrer zuvor sensorisch erfassten tatsächlichen Eigenschaften repräsentiert. Zudem erfolgt das Erzeugen der Referenzbilddaten des Weiteren auf Basis von selektiv anhand der Kontextdaten aus der Datenbank ausgewählten konfigurationsabhängigen Objektbeschreibungsdaten (insbesondere durch Rendering auf deren Basis). Auf diese Weise können verschiedene Konfigurationsmöglichkeiten der Objektanordnung bereits vorab anhand der entsprechenden konfigurationsabhängigen Objektbeschreibungsdaten beschrieben und diese in einer Datenbank bereitgestellt werden. So können zur Laufzeit zur Erzeugung der Referenzbilddaten gemäß von durch die Kontextdaten bereitgestellten Auswahlkriterien die am besten passende konfigurationsabhängige Objektbeschreibung aus der Datenbank ausgewählt und ausgelesen und auf deren Basis sodann die Referenzbilddaten erzeugt werden. Dies fördert wiederum die Performanz des Verfahrens zur Laufzeit, insbesondere dessen Echtzeitfähigkeit, da rechenintensive Rechenschritte zur Bestimmung von Daten, welche die Objektanordnung in verschiedenen räumlichen Konfigurationen beschreiben, bereits auf Ebene der Objektbeschreibungsdaten, d. h. insbesondere eines Modells, vorab erfolgen können. Letzteres kann somit insbesondere auch mit leistungsfähigeren Rechnern erfolgen, als dies im Einzelfall in der Laufzeitumgebung (etwa im Steuergerät eines Fahrzeugs) möglich oder wünschenswert wäre.
  • Gemäß einiger Ausführungsformen erfolgt das Erzeugen der Referenzbilddaten des Weiteren unter Berücksichtigung von Sensordaten, die zumindest eine intrinsische oder eine extrinsische Eigenschaft des zur Gewinnung der Szenenbilddaten verwendeten Sensorsystems oder eine Kombination aus zumindest einer intrinsischen und zumindest einer extrinsischen Eigenschaft repräsentieren. Als extrinsische Eigenschaften kommen dabei insbesondere die Position und/oder Orientierung des die Szenenbilddaten aufnehmenden Sensorsystems infrage. Als intrinsische Eigenschaften eignen sich insbesondere Parameter der optischen Eigenschaften des Sensorsystems, wie etwa seine Auflösung, seine Blende, seine Fokuslänge, seine Messgenauigkeit, insbesondere bezüglich von Tiefeninformation, und vor allem seine optischen Verzerrungseigenschaften. Durch die Berücksichtigung der Sensordaten kann die Qualität des Verfahrens weiter erhöht werden, da die Lage des Bildsensors (extrinsisch) sowie dessen bildbeeinflussende intrinsische Eigenschaften, insbesondere Verzerrungseigenschaften, bei der Erzeugung der Referenzbilddaten oder dem nachfolgenden Abgleich berücksichtigt werden können.
  • Dies kann im Hinblick auf optische Verzerrungen insbesondere auf zweierlei Weise erfolgen: (a) die Sensordaten werden verwendet, um die mittels des Sensors aufgenommenen Szenenbilddaten rechnerisch zu entzerren, sodass der Abgleich auf Basis von, zumindest weitgehend, verzerrungsfreien Bilddaten, d. h. einerseits den Szenenbilddaten und andererseits den Referenzbilddaten, erfolgt; oder (b) die Sensordaten werden verwendet, um entsprechend verzerrte Referenzbilddaten, insbesondere auf Basis zugehöriger Objektbeschreibungsdaten, zu erzeugen, sodass der Abgleich auf Basis von verzerrten Bilddaten, d.h. einerseits den sensorbedingt verzerrten Szenenbilddaten und andererseits den auf Basis der Sensordaten rechnerisch verzerrten Referenzbilddaten erfolgt.
  • Dementsprechend repräsentieren bei einigen zugehörigen Ausführungsformen die Objektbeschreibungsdaten bzw. die Sensordaten eine optische Verzerrungseigenschaft des zur Gewinnung der Szenenbilddaten verwendeten Sensorsystems. Zudem erfolgt das Erzeugen der Referenzbilddaten unter Berücksichtigung dieser Verzerrungseigenschaft.
  • Bei dem Sensorsystem kann es sich insbesondere um eine sogenannte Time-of-Flight (TOF)-Kamera handeln. Derartige Kamerasysteme sind in der Lage, eine dreidimensionale Aufnahme eines Raums zu liefern, was insbesondere in Form einer sogenannten Tiefenkarte erfolgen kann. Der Vollständigkeit halber sei hier erwähnt, dass solche Aufnahmen in der Literatur manchmal auch als „2,5-dimensionale“ Aufnahmen bezeichnet werden, da sie je nach Aufnahmerichtung nicht immer in der Lage sind vollständige 3D Informationen, wie beispielsweise Hohlräume oder „Überhänge“ in dreidimensionalen Strukturen vollständig abzubilden. Für die Zwecke der vorliegenden Erfindung werden die Begriffe „2,5-D“ und „3D“ als gleichbedeutend verwendet.
  • Gemäß einiger Ausführungsformen repräsentieren die Szenenbilddaten zumindest eines der folgenden: (i) ein Tiefenbild, d.h. eine Tiefenkarte, der realen Szene, bei dem bzw. der die verschiedenen Tiefen mittels verschiedener zugeordneter Grauwerte oder Farben repräsentiert sind; (ii) ein Amplitudenbild der realen Szene. Die vorgenannten Möglichkeiten zur Festlegung des Charakters der Szenenbilddaten stellen besonders effiziente Varianten zur Repräsentation der 3D-Informationen durch die Szenenbilddaten dar. Insbesondere kann es vorteilhaft sein, die Szenenbilddaten in Form einer Kombination aus mehreren der genannten Darstellungsarten zu nutzen, wodurch sich insbesondere Inkonsistenzen zwischen den Daten ermitteln lassen und daraus auf mögliche Fehler in den Daten geschlossen werden kann. Derart ermittelte fehlerhafte Bildaspekte, wie beispielsweise einzelne defekte Voxel oder Bildbereiche, können dann bei der weiteren Verarbeitung soweit möglich korrigiert oder bei der Bestimmung der Objektbilddaten außer Betracht bleiben, um dadurch drohenden Qualitätseinbußen zu begegnen.
  • Gemäß einiger Ausführungsformen werden die Szenenbilddaten vor ihrem Abgleich mit den Referenzbilddaten zumindest einem der folgenden Vorverarbeitungsschritte oder einer Kombination daraus unterzogen: (i) Clipping des durch die Szenenbilddaten dargestellten Raumbereichs bezüglich zumindest einer Raumdimension; (ii) Ausfiltern von Bildpunkten in den Szenenbilddaten, deren durch die Szenenbilddaten repräsentierte zeitliche Abhängigkeit eine Schwankung ihres zugeordneten Tiefenwerts aufweist, welche ein vordefiniertes Filterkriterium erfüllt; (iii) Rauschfiltern. Auf diese Weise kann die Qualität der Szenenbilddaten weiter verbessert werden und dementsprechend darauf aufbauend auch eine höhere Qualität der verfahrensgemäß resultierenden Objektbilddaten erreicht werden. Bezüglich Variante (ii) kann das Filterkriterium insbesondere mittels zumindest einer Schwelle oder eines Schwankungsbereichs festgelegt sein, so dass Bildpunkte, bei denen Schwankungen auftreten, welche die Schwelle überschreiten bzw. den Schwankungsbereich verlassen, als fehlerhaft markiert bzw. ausgefiltert werden.
  • Gemäß einiger Ausführungsformen erfolgt der Abgleich der Szenenbilddaten mit den Referenzbilddaten zur Erzeugung von Objektbilddaten, die insbesondere die Form einer Tiefenkarte aufweisen können, bildpunktbasiert und auf Basis einer durch die Szenenbilddaten und die Referenzbilddaten jeweils repräsentierten bildpunktbezogenen Tiefeninformation. Dies stellt eine besonders effiziente Implementierung dar, die sich insbesondere gut eignet, wenn die Auflösungen von Szenenbilddaten und Referenzbilddaten übereinstimmen.
  • Gemäß einiger Ausführungsformen weist das Verfahren des Weiteren auf: (i) Segmentieren des durch die Objektbilddaten repräsentierten zumindest einen Objekts in zwei oder mehr verschiedene Segmente; und (ii) Klassifizieren der dabei definierten Segmente gemäß einer vorbestimmten Klassifikation zur Erzeugung von Segmentdaten, welche verschiedene Aspekte des zumindest einen Objekts segment- und klassifikationsbezogen repräsentieren. Dies kann eingesetzt werden, um weitergehende Aussagen bezüglich des durch die Objekt Bilddaten repräsentierten Objekts zu erhalten. Beispielsweise könnte das Objekt zwei Hände eines Fahrers eines Fahrzeugs zeigen, und die Segmentierung dahingehend erfolgen, dass jeder der beiden Hände eigenes Segment zugeordnet wird. Die Klassifikation kann dann beispielsweise eine Unterscheidung in „linke Hand“ und „rechte Hand“ liefern. In etwaigen nachfolgenden Prozessen, die auf Basis der Objektbilddaten erfolgen, kann somit eine solche Klassifikation getroffene Unterscheidung eingesetzt werden, um segment- bzw. klassifikationsbezogene Schlüsse aus den Objektbilddaten zu ziehen.
  • Gemäß einiger Ausführungsformen weist das Verfahren des Weiteren auf: Durchführen einer automatisierten Erkennung einer von einem Benutzer ausgeführten und in den Szenenbilddaten repräsentierten Geste auf Basis der Objektbilddaten oder auf Basis der gemäß der unmittelbar vorausgehend beschriebenen Ausführungsformen daraus gewonnenen Segmentdaten. Insbesondere kann die Klassifikation so gewählt werden, dass sie, wenn die Objektanordnung zumindest zwei verschiedene Körperteile eines Körpers eines menschlichen Benutzers zumindest teilweise darstellt, zumindest zwei der verschiedenen Körperteile verschiedenen Klassen zuordnet. (vgl. obiges Beispiel „linke/rechte Hand“). Das Verfahren kann somit im Sinne einer Vorprozessierung der Szenenbilddaten aufgefasst werden, um einen nachfolgenden Gestenerkennungsprozess vorzubereiten. Letzterer setzt dann auf Bilddaten auf, die aufgrund der Vorprozessierung von bereits durch die Referenzbilddaten repräsentierten Bildelementen, insbesondere Bildhintergrund, befreit sind. Somit kann die Qualität und darauf beruhend die Zuverlässigkeit der Gestenerkennung erhöht werden.
  • Ein zweiter Aspekt der Erfindung betrifft eine Vorrichtung zur automatischen Objektextraktion aus eine dynamische dreidimensionale Szene darstellenden Szenenbilddaten, wobei die Vorrichtung konfiguriert ist, das Verfahren gemäß dem ersten Aspekt der Erfindung auszuführen.
  • Unter „konfiguriert“ ist im Sinne der Erfindung zu verstehen, dass die entsprechende Vorrichtung bereits eingerichtet ist oder einstellbar - d.h. konfigurierbar - ist, eine bestimmte Funktion zu erfüllen. Die Konfiguration kann dabei beispielsweise über eine entsprechende Einstellung von Parametern eines Prozessablaufs oder von Schaltern oder ähnlichem zur Aktivierung bzw. Deaktivierung von Funktionalitäten bzw. Einstellungen erfolgen. Insbesondere kann die Vorrichtung mehrere vorbestimmte Konfigurationen oder Betriebsmodi aufweisen, so dass das konfigurieren mittels einer Auswahl einer dieser Konfigurationen bzw. Betriebsmodi erfolgen kann.
  • Ein dritter Aspekt der Erfindung betrifft ein Computerprogramm zur automatischen Objektextraktion aus eine dynamische dreidimensionale Szene darstellenden Szenenbilddaten, wobei das Computerprogramm konfiguriert ist, das Verfahren gemäß dem ersten Aspekt der Erfindung auszuführen.
  • Das Computerprogramm kann insbesondere auf einem nichtflüchtigen Datenträger gespeichert sein. Bevorzugt ist dies ein Datenträger in Form eines optischen Datenträgers oder eines Flashspeichermoduls. Dies kann vorteilhaft sein, wenn das Computerprogramm als solches unabhängig von einer Prozessorplattform gehandelt werden soll, auf der das ein bzw. die mehreren Programme auszuführen sind. In einer anderen Implementierung kann das Computerprogramm als eine Datei auf einer Datenverarbeitungseinheit, insbesondere auf einem Server vorliegen, und über eine Datenverbindung, beispielsweise das Internet oder eine dedizierte Datenverbindung, wie etwa ein proprietäres oder lokales Netzwerk, herunterladbar sein. Zudem kann das Computerprogramm eine Mehrzahl von zusammenwirkenden einzelnen Programmodulen aufweisen.
  • Die Vorrichtung gemäß dem zweiten Aspekt der Erfindung kann entsprechend einen Programmspeicher aufweisen, in dem das Computerprogramm abgelegt ist. Alternativ kann sie auch eingerichtet sein, über eine Kommunikationsverbindung auf ein extern, beispielsweise auf einem oder mehreren Servern oder anderen Datenverarbeitungseinheiten verfügbares Computerprogramm zuzugreifen, insbesondere um mit diesem Daten auszutauschen, die während des Ablaufs des Verfahrens bzw. Computerprogramms Verwendung finden oder Ausgaben des Computerprogramms darstellen.
  • Die in Bezug auf den ersten Aspekt der Erfindung erläuterten Merkmale und Vorteile gelten entsprechend auch für die weiteren Aspekte der Erfindung.
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden detaillierten Beschreibung im Zusammenhang mit den Figuren.
  • Dabei zeigt:
    • 1 schematisch ein System zur Objektextraktion gemäß einer Ausführungsform der Erfindung;
    • 2 ein illustriertes Flussdiagramm zur Veranschaulichung einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens; und
    • 3 eine schematische Darstellung eines Beispiels zur Illustration der Wirkung der Berücksichtigung von Kontextdaten im Rahmen des erfindungsgemäßen Verfahrens, gemäß bevorzugter Ausführungsformen davon.
  • In den Figuren werden durchgängig dieselben Bezugszeichen für dieselben oder einander entsprechenden Elemente der Erfindung verwendet.
  • 1 zeigt schematisch ein System 1 zur Objektextraktion gemäß verschiedener Ausführungsformen der Erfindung. Das System 1 weist eine Bildverarbeitungsvorrichtung 2 sowie einen Sensor 3 zur dreidimensionalen Erfassung einer durch einen Benutzer des Systems ausgeführten Geste, insbesondere einer Freiraumgeste, auf. Die Bildverarbeitungsvorrichtung 2 stellt bereits als solche eine erfindungsgemäße Vorrichtung dar und kann insbesondere einen Computer sein, der insbesondere mit einer Prozessorplattform 2a und einem Programm- und Datenspeicher 2b sowie einem Datenausgang 2c zur Ausgabe von durch den Computer bestimmten Ausgangsdaten, insbesondere in Form von Objektbilddaten oder bereits aus solchen abgeleiteten anderen Informationen, ausgestattet sein kann. Der Sensor 3 kann insbesondere ein TOF-(time of flight)-Kamerasystem aufweisen. Auch andere Sensorarten, insbesondere auf Ultraschall- oder Radarmessung beruhende Sensoren, können stattdessen oder in Kombination damit verwendet werden. In dem Programmspeicher 2b kann ein Computerprogramm abgelegt sein, welches aus einem oder mehreren Programmodulen bestehen kann und das konfiguriert ist, bei seinem Ablauf auf der Prozessorplattform 2a die Bildverarbeitungsvorrichtung 2 zu veranlassen, das erfindungsgemäße Verfahren, beispielsweise wie nachfolgend anhand der 2 beschrieben, auszuführen.
  • Das in 2 in Form eines illustrierten Flussdiagramms dargestellte Verfahren gemäß einer beispielhaften Ausführungsform der Erfindung weist drei Verfahrensabschnitte auf.
  • In einem ersten Verfahrensabschnitt, der zu den Bezugszeichen 10-13 korrespondiert, werden mittels eines 3D-Bildsensors, der hier beispielhaft und ohne, dass dies als Beschränkung aufzufassen wäre eine TOF-Kamera 3 sein kann, 3D (bzw. 2,5-D) Bildaufnahmen im Innenraum eines Kraftfahrzeugs gemacht. Im illustrierten Beispiel werden dabei die beiden Hände eines Fahrers am Lenkrad aus Blickrichtung von der Windschutzscheibe aus aufgenommen. Die TOF-Kamera 3 kann dazu insbesondere am Armaturenbrett aus Fahrersicht hinter dem Lenkrad angeordnet sein. Die von der TOF-Kamera 3 erzeugten Bildaufnahmen können insbesondere ein Amplitudenbild 10, ein 3D-Tiefenbild bzw. gleichbedeutend eine Tiefenkarte 11, bei der die Tiefenwerte (d.h. die dritte Dimension des Bilds (Tiefe)) beispielsweise als Grauwerte eines zweidimensionalen Bilds repräsentiert sind, und/oder eine entsprechende 3D-Tiefenkarte 12, bei der die Tiefenwerte stattdessen als Farbwerte repräsentiert sind, beinhalten. Jedes dieser Bilder repräsentiert in zeitlicher Abhängigkeit Bilddaten, die sowohl als zu extrahierende Objekte die beiden Hände des Fahrers als auch einen (im Rahmen der Extraktion zu entfernenden) dazwischenliegenden Abschnitt des Lenkrades (Objektanordnung) über eine bestimmten Zeitraum hinweg darstellen. Mittels Auswahl oder Kombination aus diesen Bildern 10 bis 12 für jeden betrachteten Zeitpunkt und vorzugsweise zusätzlicher Bildvorverarbeitung, insbesondere durch 3D-Clipping, Rauschfilterung und Entfernung von in ihrem Wert stark zeitlich schwankenden Pixeln, werden zeitlich abhängige Szenenbilddaten 13 daraus abgeleitet.
  • In einem zweiten Verfahrensabschnitt, der zu dem Bezugszeichen 15 a-c bis 24 korrespondiert, werden ebenfalls zeitlich abhängige und denselben Zeitabschnitt betreffende Referenzbilddaten 24 generiert. Dies erfolgt durch eine Bildsynthese 23 (in der Fachsprache der Computergraphik meist als „(Bild-)Rendering“ bezeichnet). Dazu erhält diese zumindest die folgenden drei verschiedenen Eingangsinformationen: (a) aus einer Datenbank 16 für Objektbeschreibungsdaten 15a-c werden Eingangsinformationen in Form von Objektbeschreibungsdaten, vorliegend Objektbeschreibungsdaten 15b für das Lenkrad, für die Bildsynthese 23 gelesen, die auf abstrakte Weise eine Objektanordnung, wie im vorliegenden Beispiel das Lenkrad, speziell als Modell, beispielsweise als polygonbasiertes 3D-Modell, beschreiben bzw. repräsentieren; (b) aus einem Datenspeicher 19 für Sensoreigenschaften, dessen Implementierung mit der der Datenbank 16 zusammenfallen kann, werden Informationen 17 bezüglich intrinsischer Sensoreigenschaften sowie Informationen 18 bezüglich extrinsischer Sensoreigenschaften der TOF-Kamera 3 gelesen. Die intrinsischen Sensoreigenschaften betreffen dabei insbesondere optische Abbildungseigenschaften der TOF-Kamera 3, gegebenenfalls einschließlich von deren Verzerrungseigenschaften. Die extrinsischen Sensoreigenschaften 18 betreffen insbesondere die Position und Orientierung der TOF-Kamera 3 im Fahrzeug, beispielsweise in auf ein bezüglich des Fahrzeugs definiertes Koordinatensystem bezogenen Koordinaten; (c) aus einem Datenspeicher 22 für Kontextinformationen 20, 21 gelesene Kontextdaten.
  • Die Kontextinformationen bzw. diese repräsentierenden Kontextdaten 20 können insbesondere über ein im Fahrzeug vorhandenes Kommunikationsnetzwerk, wie etwa einen Feldbus (z.B. CAN, LIN oder MOST-Bus) oder ein Ethernet-Netzwerk an den Datenspeicher 22 übermittelt werden und insbesondere von anderen Sensoreinrichtungen oder Steuergeräten des Fahrzeugs stammen. Zusätzlich können weitere Kontextinformationen bzw. -daten 21 aus anderen Quellen, beispielsweise aus anderen auf der Bildverarbeitungsvorrichtung 2 ablaufenden Algorithmen an den Datenspeicher 22 übermittelt werden beziehungsweise in diesem vorgehalten werden. Die Kontextinformationen betreffen im vorliegenden Beispiel insbesondere den Drehwinkel des Lenkrads in zeitlicher Abhängigkeit über den genannten Zeitabschnitt hinweg. Sie beschreiben somit den zeitlichen Verlauf der durch den Drehwinkel ausgedrückten Lenkradstellung, welche hier im Beispiel als räumliche Konfiguration der Objektanordnung, d.h. des Lenkrads, betrachtet wird.
  • Die Bildsynthese 23 erzeugt sodann aus der Menge dieser Eingangsinformationen aus den Datenspeichern bzw. Datenbanken 16, 19 und 22 dazu korrespondierende zeitlich abhängige Referenzbilddaten 24. Dabei werden zum einen die Sensordaten 17, 18 aus dem Datenspeicher 19 im Hinblick auf erforderliche Bildanpassungen, die insbesondere Verzerrungen, Drehungen, Vergrößerungen und/oder Bildzuschnitt (Clipping) umfassen können, und zum anderen die Kontextdaten 20 bzw. 21 aus dem Datenspeicher 22 berücksichtigt. Die Berücksichtigung der Kontextdaten 20 bzw. 21 erfolgt insbesondere dahingehend, dass aus diesen eine Orientierung des Lenkrads, insbesondere sein Drehwinkel um seine Drehachse, entnommen wird. Auf Basis dieser Information wird sodann per Bildsynthese das Bild des Lenkrads, beziehungsweise eines Ausschnitts davon, entweder (i) gemäß dieser Orientierung aus den bezüglich einer Standardorientierung definierte abstrakten Objektbeschreibungsdaten mathematisch generiert oder (ii) soweit der Datenspeicher bzw. die Datenbank 16 bereits entsprechende vorab berechnete zu verschiedenen Orientierungen korrespondierende konfigurationsabhängige Objektbeschreibungsdaten für das Lenkrad enthält, zu der Orientierung korrespondierende kontextangepasste Objektbeschreibungsdaten ausgewählt und auf deren Basis das Bild generiert.
  • Die Berücksichtigung der Sensordaten 19 erfolgt insbesondere dahingehend, dass bei der Bildsynthese zur Gewinnung der Szenenbilddaten 24 eine Verzerrung so durchgeführt wird, dass die sich zunächst auf eine unverzerrte Darstellung des Lenkrads beziehendende abstrakte Beschreibung des Lenkrads gemäß den Objektbeschreibungsdaten oder ein daraus per Bildsynthese bereits generiertes Zwischenbild auf Basis der durch die intrinsischen Sensorinformationen 17 aus den Sensordaten 19 gelieferten Verzerrungsinformation verzerrt wird.
  • Der erste und der zweite Verfahrensabschnitt können insbesondere sequentiell in beliebiger Reihenfolge oder auch gleichzeitig oder zum Teil gleichzeitig erfolgen, da sie unabhängig voneinander sind.
  • In einem dritten Verfahrensabschnitt, der zu dem Bezugszeichen 14, 14a, 25 und 26 korrespondiert, werden schließlich aus den im ersten Verfahrensabschnitt gewonnenen Szenenbilddaten 13 und den im zweiten Verfahrensabschnitt gewonnenen Referenzbilddaten 24 mittels eines Abgleichs 14, der gemäß einem vorbestimmten Abgleichprozess 14a ausgeführt wird, die gewünschten Objektbilddaten 25 oder daraus mittels Segmentierung 26 hervorgehende Segmentdaten 27 erzeugt. Idealerweise entspricht die 3D-Auflösung (Bildpunktdichte) der Referenzbilddaten derjenigen der Szenenbilddaten, so dass der Abgleich auf Basis zueinander bzgl. ihrer Lage korrespondierende Bildpunkte einfach und mit geringem Aufwand erfolgen kann. Davon wird in diesem Ausführungsbeispiel ausgegangen.
  • Der durch den Abgleichprozess 14a definierte Abgleich 14 zwischen den Szenenbilddaten 13 und den Referenzbilddaten 24 erfolgt dabei auf solche Weise, dass diejenigen 3D-Bildpunkte die (i) sowohl 3D-Bildpunkte der Szenenbilddaten als auch 3D-Bildpunkte der Referenzbilddaten oder (ii) die nur 3D-Bildpunkte der Referenzbilddaten sind, entfernt werden, d.h. nicht in die Objektbilddaten übernommen werden, während (iii) diejenigen 3D-Bildpunkte, die nur 3D-Bildpunkte der Szenenbilddaten sind, erhalten bleiben, d.h. in die Objektbilddaten 25 übernommen werden. Im Ergebnis unterscheidet sich das von den Objektbilddaten 25 repräsentierte Bild somit insbesondere dadurch, dass der durch die Referenzbilddaten 24 repräsentierte Bildhintergrund aus den Szenenbilddaten 13 entfernt wurde, sodass die resultierenden Objektbilddaten 25 nun, zumindest im Wesentlichen, nur noch die beiden Hände L, R des Fahrers darstellen.
  • Bei der Segmentierung 26, die mit aus der digitalen Bildverarbeitung bekannten Segmentierungsmethoden durchgeführt werden kann, erfolgt sodann eine Segmentierung dahingehend, dass jede der beiden Hände einem eigenen Segment zugeordnet wird, sodass für eine nachfolgende weitere Bildverarbeitung gemäß einer entsprechenden auf der Segmentierung fußenden Klassifizierung der Hände eine Unterscheidung bezüglich der linken Hand L und der rechten Hand R getroffen werden kann. Im Hinblick auf eine Gestenerkennung kann dies insbesondere dann relevant sein, wenn es darauf ankommt welche der beiden Hände die Geste oder einen bestimmten Aspekt davon im Zusammenspiel mit der anderen Hand ausführt.
  • Unter Bezugnahme auf die 3 soll der Vorteil der kontextbezogenen Generierung der Referenzbilddaten im Falle dynamischer Szenen noch kurz am Beispiel einer Lenkradstellung erläutert werden: Man denke sich ein übliches Lenkrad 30 mit einem im Wesentlichen kreisförmigen Lenkradkranz 31 und drei daran befestigten Speichen 32 bis 34 (Objektanordnung). Das Lenkrad 30 sei, wie in 3 (A) dargestellt, so angeordnet, dass bei Geradeausfahrt die Speiche 32 nach links zeigt (9-Uhr-Stellung), die Speiche 33 nach rechts (3-Uhr-Stellung) und die Speiche 34 nach unten (6-Uhr-Stellung). Bei maximalem Einschlag nach rechts sei, wie in 3 (B) dargestellt, die Anordnung dagegen so, das die Speiche 33 genau nach oben zeigt (12-Uhr-Stellung), die Speiche 34 nach rechts (3-Uhr-Stellung) und die Speiche 32 nach unten (6-Uhr-Stellung), sodass keine der Speichen nach links zeigt (9-Uhr-Stellung).
  • Jeder der beiden Fälle stellt somit eine bestimmte räumliche Konfiguration der Objektanordnung, d. h. des Lenkrads 30 dar. Würde die Objektextraktion (d.h. die Extraktion des Bilds der Hände) unabhängig von der Stellung des Lenkrades erfolgen, würden in Abhängigkeit von dieser bestimmte in den Szenenbilddaten 13 repräsentierte Abschnitte des Lenkrads 30, einer oder mehrerer der Speichen, nach dem verfahrensgemäßen Abgleich 14 der Szenenbilddaten 13 mit den Referenzbilddaten 24 in den resultierenden Objektbilddaten 25 weiterhin beschrieben werden. Bei einer nachfolgenden Weiterverarbeitung (z.B. der Segmentierung 26) oder nachgelagerter Auswertung der Objektbilddaten 25 bzw. Segmentbilddaten 27 könnte dies zu einer fehlerhaften Bildinterpretation führen.
  • Im obigen Beispiel würde etwa, wenn die Referenzbilddaten 24 statisch ein Bild der Lenkradstellung bei Geradeausfahrt repräsentieren (vgl. 3(A)), im Falle eines durch die Szenenbilddaten 13 dargestellten Bilds eines voll eingeschlagenen Lenkrads (vgl. 3(B)) die in den Szenenbilddaten 13 dargestellte Speiche 33 nicht im Rahmen des Abgleichs 14 entfernt, sondern würde als Artefakt in den Objektbilddaten verbleiben und einen nachfolgende Bildinterpretation potentiell beeinträchtigen.
  • Wird dagegen, gemäß der hier beschriebenen Ausführungsform der Erfindung, die durch die Kontextdaten beschriebene räumliche Konfiguration, d. h. hier Drehstellung des Lenkrads 30, berücksichtigt, sodass eine zeitlich übereinstimmende Zuordnung zwischen den Kontextdaten 20, 21 und somit den daraus abgeleiteten Referenzbilddaten 24 einerseits und den Szenenbilddaten 13 andererseits besteht, dann fällt die mittels der Kontextdaten 20, 21 beschriebene Lenkradstellung und somit Lage der Speichen 32 bis 34 des Lenkrads 30 mit der durch die Szenenbilddaten 13 beschriebenen Lenkradstellung/Lage der Speichen 32 bis 34 zusammen. Folglich wird bei dem Abgleich das Bild des Lenkrads 30 in dem Sinne entfernt, dass es, zumindest im Wesentlichen, nicht in die resultierenden Objektbilddaten 25 überführt wird. Somit können Extraktionsfehler, die sich ergeben würden, wenn man die vorliegende räumliche Konfiguration der Objektanordnung 30 nicht berücksichtigen würde, zumindest weitgehend, vermieden werden.
  • Bei der unter Bezugnahme auf die 2 und 3 beschriebenen beispielhaften Ausführungsform wird die Objektanordnung, d.h. das Lenkrad 30, im zeitlichen Verlauf als Ganzes um seine Drehachse gedreht. Bei andere Objektanordnungen, beispielsweise einem vielfältig einstellbaren Sitz, kann stattdessen auch der Fall auftreten, dass einerseits ein Teil der Objektanordnung im betrachteten Zeitabschnitt zeitlich unverändert bleibt (beispielsweise die Sitzfläche), während andererseits sich ein (anderes) bewegliches Element der Objektanordnung (z.B. die Rückenlehne) über den Zeitabschnitt hinweg zumindest einmalig bewegt. In diesem Fall können sich die Kontextdaten insbesondere speziell nur auf die Bewegung dieses beweglichen Elements beziehen.
  • Bezugszeichenliste
  • 1
    System zur Objektextraktion
    2
    Bildverarbeitungsvorrichtung
    2a
    Prozessorplattform
    2b
    Programm- und Datenspeicher
    2c
    Datenausgang
    3
    TOF-Kamerasystem
    10
    Amplitudenbild
    11
    ungefilterte Tiefenkarte (Tiefen durch Grauwerte repräsentiert)
    12
    farbige Tiefenkarte (Tiefen durch Farbwerte repräsentiert, hier jedoch aus formalen Gründen anhand von Grauwerten dargestellt)
    13
    Szenenbilddaten
    14
    Abgleich von Szenenbilddaten und Referenzbilddaten
    14a
    Abgleichprozess dazu
    15 a-c
    verschiedene durch jeweilige Objektbeschreibungsdaten beschriebene Objektanordnungen
    16
    Datenbank für Objektbeschreibungsdaten
    17
    Informationen bezüglich intrinsischer Sensoreigenschaften
    18
    Informationen bezüglich extrinsischer Sensoreigenschaften
    19
    Datenspeicher für Sensoreigenschaften
    20
    Kontextinformationen, die über ein Fahrzeugnetzwerk empfangen werden
    21
    weitere Kontextinformationen
    22
    Datenspeicher für Kontextdaten
    23
    Bild-Rendering
    24
    Referenzbilddaten
    25
    Objektbilddaten
    26
    Segmentierung
    27
    Segmentbilddaten
    L
    linke Hand des Fahrers
    R
    rechte Hand des Fahrers
    30
    Lenkrad
    31
    Lenkradkranz des Lenkrads
    32-34
    Speichen des Lenkrads

Claims (14)

  1. Verfahren zur automatischen Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten (13), wobei das Verfahren aufweist: Empfangen von sensorisch gewonnenen Szenenbilddaten (13), die drei räumliche Dimensionen einer realen, insbesondere einen Fahrzeuginnenraum zumindest teilweise darstellenden, Szene repräsentieren, welche neben einer vorbekannten Objektanordnung (30) zumindest ein nicht zur Objektanordnung gehörendes zu extrahierendes Objekt (R, L) darstellt; Erzeugen von Referenzbilddaten (24), welche die Objektanordnung (30) in ihrer szenengemäßen Lage in drei räumliche Dimensionen repräsentieren, auf Basis von vorab erzeugten Objektbeschreibungsdaten (15b), die eine abstrakte Beschreibung der Objektanordnung (30) repräsentieren; Extrahieren zumindest eines der nicht zur Objektanordnung (30) gehörenden Objekte (L, R) und Erzeugung von das Objekt (L, R) repräsentierende Objektbilddaten (25) mittels eines Abgleichs (14) der Szenenbilddaten (13) mit den Referenzbilddaten (24), wobei die Objektbilddaten (25) beruhend auf einem Entfernen von zumindest einem durch die Referenzbilddaten (24) repräsentierten und zu der Objektanordnung (30) korrespondierenden Bestandteil der Szene aus den Szenenbilddaten (13) erzeugt werden.
  2. Verfahren nach Anspruch 1, wobei die Szenenbilddaten neben den drei räumlichen Dimensionen zusätzlich eine zeitliche Abhängigkeit der realen Szene repräsentieren, und das Verfahren des Weiteren aufweist: Empfangen von sensorisch erfassten Kontextdaten (20, 21), die eine zur zeitlichen Abhängigkeit der Szenenbilddaten zeitlich korrespondierende räumliche Konfiguration der Objektanordnung repräsentieren; wobei das Erzeugen der Referenzbilddaten auf Basis der Objektbeschreibungsdaten unter Berücksichtigung der Kontextdaten erfolgt, um kontextangepasste Referenzbilddaten zu erhalten, welche für zumindest einen ausgewählten Zeitpunkt oder Zeitabschnitt die Objektanordnung in einer durch die Kontextdaten definierten räumlichen Konfiguration repräsentieren.
  3. Verfahren nach Anspruch 2, wobei die Objektanordnung zumindest ein, jedenfalls teilweise bewegliches Element eines Fahrzeugs aufweist und die Kontextdaten eine gegenwärtige oder erwartete zukünftige räumliche Konfiguration zumindest eines der beweglichen Elemente der Objektanordnung repräsentieren.
  4. Verfahren nach Anspruch 3, wobei die Kontextdaten über ein Kommunikationsnetzwerk des Fahrzeugs empfangen werden.
  5. Verfahren nach einem der Ansprüche 2 bis 4, wobei die zum Erzeugen der Referenzbilddaten verwendeten Objektbeschreibungsdaten in Form von konfigurationsabhängigen Objektbeschreibungsdaten aus einer vorab bereitgestellten Datenbank (16) entnommen werden, in der die Objektanordnung in verschiedenen räumlichen Konfigurationen als Modell und/oder mittels ihrer zuvor sensorisch erfassten tatsächlichen Eigenschaften durch entsprechende konfigurationsabhängige Objektbeschreibungsdaten repräsentiert ist; und das Erzeugen der Referenzbilddaten des Weiteren auf Basis von selektiv anhand der Kontextdaten aus der Datenbank ausgewählten konfigurationsabhängigen Objektbeschreibungsdaten erfolgt.
  6. Verfahren nach einem der vorausgehenden Ansprüche, wobei das Erzeugen der Referenzbilddaten des Weiteren unter Berücksichtigung von Sensordaten (17, 18) erfolgt, die zumindest eine intrinsische oder eine extrinsische Eigenschaft des zur Gewinnung der Szenenbilddaten verwendeten Sensorsystems, oder eine Kombination aus zumindest einer intrinsischen und zumindest einer extrinsischen Eigenschaft repräsentieren.
  7. Verfahren nach Anspruch 5 oder 6, wobei die Objektbeschreibungsdaten bzw. die Sensordaten eine optische Verzerrungseigenschaft des zur Gewinnung der Szenenbilddaten verwendeten Sensorsystems repräsentieren; und das Erzeugen der Referenzbilddaten unter Berücksichtigung dieser Verzerrungseigenschaft erfolgt.
  8. Verfahren nach einem der vorausgehenden Ansprüche, wobei die Szenenbilddaten zumindest eines der folgenden repräsentieren: ein Tiefenbild (11; 12) der realen Szene, bei dem die verschiedenen Tiefen mittels verschiedener zugeordneter Grauwerte oder Farben repräsentiert sind; ein Amplitudenbild (10) der realen Szene.
  9. Verfahren nach einem der vorausgehenden Ansprüche, wobei die Szenenbilddaten vor ihrem Abgleich mit den Referenzbilddaten zumindest einem der folgenden Vorverarbeitungsschritte oder einer Kombination daraus unterzogen werden: Clipping des durch die Szenenbilddaten dargestellten Raumbereichs bezüglich zumindest einer Raumdimension; Ausfiltern von Bildpunkten in den Szenenbilddaten, deren durch die Szenenbilddaten repräsentierte zeitliche Abhängigkeit eine Schwankung ihres zugeordneten Tiefenwerts aufweist, welche ein vordefiniertes Filterkriterium erfüllt; Rauschfiltern.
  10. Verfahren nach einem der vorausgehenden Ansprüche, wobei der Abgleich der Szenenbilddaten mit den Referenzbilddaten zur Erzeugung von Objektbilddaten bildpunktbasiert und auf Basis einer durch die Szenenbilddaten und die Referenzbilddaten jeweils repräsentierten bildpunktbezogenen Tiefeninformation erfolgt.
  11. Verfahren nach einem der vorausgehenden Ansprüche, des Weiteren aufweisend: Segmentieren (26) des durch die Objektbilddaten repräsentierten zumindest einen Objekts (L, R) in zwei oder mehr verschiedene Segmente; und Klassifizieren der dabei definierten Segmente gemäß einer vorbestimmten Klassifikation zur Erzeugung von Segmentdaten (27), welche verschiedene Aspekte des zumindest einen Objekts (L, R) segment- und klassifikationsbezogen repräsentieren.
  12. Verfahren nach einem der vorausgehenden Ansprüche, des Weiteren aufweisend: Durchführen einer automatisierten Erkennung einer von einem Benutzer ausgeführten und in den Szenenbilddaten repräsentierten Geste auf Basis der Objektbilddaten oder auf Basis der gemäß Anspruch 11 daraus gewonnenen Segmentdaten.
  13. Vorrichtung (1; 2) zur automatischen Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten, wobei die Vorrichtung konfiguriert ist, das Verfahren gemäß einem der vorausgehenden Ansprüche auszuführen.
  14. Computerprogramm zur automatischen Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten, wobei das Computerprogramm konfiguriert ist, das Verfahren gemäß einem der Ansprüche 1 bis 12 auszuführen.
DE102018130229.0A 2018-11-29 2018-11-29 Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten Active DE102018130229B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102018130229.0A DE102018130229B4 (de) 2018-11-29 2018-11-29 Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018130229.0A DE102018130229B4 (de) 2018-11-29 2018-11-29 Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten

Publications (2)

Publication Number Publication Date
DE102018130229A1 DE102018130229A1 (de) 2020-06-04
DE102018130229B4 true DE102018130229B4 (de) 2022-07-14

Family

ID=70681289

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018130229.0A Active DE102018130229B4 (de) 2018-11-29 2018-11-29 Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten

Country Status (1)

Country Link
DE (1) DE102018130229B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023202806A1 (de) 2023-03-28 2024-10-02 Continental Automotive Technologies GmbH Verfahren zur bildverarbeitung für videokonferenzen

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097607A (ja) 2015-11-24 2017-06-01 矢崎総業株式会社 画像認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097607A (ja) 2015-11-24 2017-06-01 矢崎総業株式会社 画像認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BORGHI, Guido, et al. Hands on the wheel: a dataset for driver hand detection and tracking. In: 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018. S. 564-570., 07.06.2018DOI: 10.1109/FG.2018.00090

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023202806A1 (de) 2023-03-28 2024-10-02 Continental Automotive Technologies GmbH Verfahren zur bildverarbeitung für videokonferenzen

Also Published As

Publication number Publication date
DE102018130229A1 (de) 2020-06-04

Similar Documents

Publication Publication Date Title
EP2043045B1 (de) Verfahren zur Objektverfolgung
DE112016007131B4 (de) Objektdetektionseinrichtung und Objektbestimmungsverfahren
DE102018206208A1 (de) Verfahren, Vorrichtung, Erzeugnis und Computerprogramm zum Betreiben eines technischen Systems
EP3292510B1 (de) Verfahren und vorrichtung zur erkennung und bewertung von fahrbahnreflexionen
DE102011088332B4 (de) Verfahren zur Verbesserung der Objektdetektion bei Multikamerasystemen
DE102014222617B4 (de) Fahrzeugerfassungsverfahren und Fahrzeugerfassungssytem
DE112010003914T5 (de) Verfahren und Vorrichtung zur Erkennung von Müdigkeit am Steuer sowie ein Fahrzeug
DE102018212655A1 (de) Erkennung der Bewegungsabsicht eines Fußgängers aus Kamerabildern
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
EP3044727B1 (de) Verfahren und vorrichtung zur objekterkennung aus tiefenaufgelösten bilddaten
DE102011087901A1 (de) Verfahren zur Darstellung eines Fahrzeugumfeldes
DE102013114996A1 (de) Bildsuperauflösung für dynamischen Rückspiegel
WO2022128014A1 (de) Korrektur von bildern eines rundumsichtkamerasystems bei regen, lichteinfall und verschmutzung
DE102016104730A1 (de) Verfahren zum Detektieren eines Objekts entlang einer Straße eines Kraftfahrzeugs, Rechenvorrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
EP2562681B1 (de) Objektverfolgungsverfahren für ein Kamerabasiertes Fahrerassistenzsystem
EP3924932A1 (de) Modulares inpainting verfahren
WO2022128013A1 (de) Korrektur von bildern einer kamera bei regen, lichteinfall und verschmutzung
DE102018130229B4 (de) Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten
DE102013012778A1 (de) Verfahren zum Detektieren eines sich bewegenden Fußgängers anhand von charakteristischen Merkmalen und optischen Flussvektoren eines Bilds, Kamerasystem und Kraftfahrzeug
DE102011121473A1 (de) Verfahren zum Anzeigen von Bildern auf einer Anzeigeeinrichtung eines Kraftfahrzeugs,Fahrerassistenzeinrichtung, Kraftfahrzeug und Computerprogramm
EP2996327A2 (de) Surround-view-system für fahrzeuge mit anbaugeräten
DE102014209863A1 (de) Verfahren und Vorrichtung zum Betreiben einer Stereokamera für ein Fahrzeug sowie Stereokamera für ein Fahrzeug
DE102014007565A1 (de) Verfahren zum Ermitteln einer jeweiligen Grenze zumindest eines Objekts, Sensorvorrichtung, Fahrerassistenzeinrichtung und Kraftfahrzeug
EP3610643B1 (de) Surround-view-system für ein fahrzeug

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final