DE102007043836B3 - Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild - Google Patents

Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild Download PDF

Info

Publication number
DE102007043836B3
DE102007043836B3 DE102007043836A DE102007043836A DE102007043836B3 DE 102007043836 B3 DE102007043836 B3 DE 102007043836B3 DE 102007043836 A DE102007043836 A DE 102007043836A DE 102007043836 A DE102007043836 A DE 102007043836A DE 102007043836 B3 DE102007043836 B3 DE 102007043836B3
Authority
DE
Germany
Prior art keywords
image
silhouette
silhouette image
region
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102007043836A
Other languages
English (en)
Inventor
Peter Dr. Eisert
Philipp Fechteler
Jürgen Rurainsky
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102007043836A priority Critical patent/DE102007043836B3/de
Priority to PCT/EP2008/005782 priority patent/WO2009036831A1/de
Application granted granted Critical
Publication of DE102007043836B3 publication Critical patent/DE102007043836B3/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Eine Vorrichtung (20) zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung (12) entsprechenden Bild, mit einer Einrichtung (21) zum Segmentieren des Bildes (22) in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild (23) zu erhalten, einer Einrichtung (24) zum Synthetisieren eines zweiten Silhouettenbildes (25) des 3D-Objektes in einer Ausgangslage, und einer Einrichtung (26) zum Schätzen von Ausrichtungsparametern (27) zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten und dem zweiten Silhouettenbild.

Description

  • Die vorliegende Erfindung bezieht sich auf Verfahren und Vorrichtungen zur Bild- bzw. Videoanalyse und -synthese, insbesondere auf Verfahren und Vorrichtungen zum Ausrichten und Bestimmen der Ausrichtung eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild.
  • Zur virtuellen Anprobe von beispielsweise individualisierten Schuhen wird u. a. eine computergestützte Erweiterung der Realitätswahrnehmung eingesetzt, bei denen reale Bilder bzw. Videos mit virtuellen 3D-Objekten kombiniert werden, die von 3D-Computer-Grafik-Modellen repräsentiert werden.
  • Um einer Person eine Vorstellung davon zu geben, wie ein Bekleidungsstück, z. B. ein Schuh, an ihr aussehen wird, nachdem es hergestellt worden ist, kann die Person bei bereits existierenden Systemen vor einen sogenannten virtuellen Spiegel treten. Dabei zeichnet eine Aufnahmevorrichtung, wie z. B. eine Kamera, die Person, die spezielle Anprobeschuhe mit einem Standarddesign trägt, auf. Eine Wiedergabevorrichtung, beispielsweise in Form eines Monitors, ersetzt dabei einen realen Spiegel und gibt ein horizontal gedrehtes Kamerabild aus. Der Monitor ist derartig angebracht, so dass die Person bzw. Körperteile von ihr zumindest näherungsweise an der gleichen Position erscheinen, wo die Person sie zu sehen erwarten würde, wenn sie in einen realen Spiegel schauen würde. Um einen virtuellen Eindruck zu verstärken, wird ein Hintergrund der von der Aufnahmevorrichtung aufgezeichneten Bilder von einem Bildvordergrund getrennt und durch eine synthetische Umgebung ersetzt.
  • Für die virtuelle Anprobe werden Position und Orientierung von relevanten Körperteilen geschätzt. Sind diese bekannt, werden Computer-Grafik-Modelle (z. B. von Kleidungsstücken) gerendert und in die Videosequenz integriert, so dass reale Kleidungsstücke durch entsprechende virtuelle Kleidungsstücke ersetzt werden können. Rendern bezeichnet im Folgenden die Erzeugung eines digitalen Bildes aus einer Bildbeschreibung. Damit sich die Person bei der virtuellen Anprobe frei bewegen kann, ist es notwendig ihre Bewegung zu schätzen und die virtuellen Objekte bzw. Kleidungsstücke entsprechend der geschätzten Bewegung in der Videosequenz auszurichten bzw. zu orientieren.
  • Es ist die daher Aufgabe der vorliegenden Erfindung ein verbessertes Konzept zum Ausrichten eines 3D-Grafik-Objekts in einem Videobild zur Verfügung zu stellen.
  • Die Aufgabe wird durch eine Vorrichtung gemäß Patentanspruch 1, ein Verfahren gemäß Patentanspruch 12 und ein Computerprogramm gemäß Patentanspruch 13 gelöst.
  • Die Erkenntnis der vorliegenden Erfindung besteht darin, dass eine Ausrichtung eines 3D-Grafik-Objekts in einem Videobild bzw. in einer Videosequenz dadurch erreicht werden kann, indem sowohl von einem aus dem 3D-Grafik-Objekt synthetisierten Bild als auch von einem Vordergrund der aufgezeichneten Videosequenz Silhouettenbilder erzeugt werden. Durch Überlagern der einzelnen Silhouettenbilder und einer Bestimmung von Abweichungen der Silhouettenbilder voneinander kann eine Silhouette des 3D-Objekts an eine Silhouette des realen Bildes zumindest in einem interessierenden Teilbereich angepasst werden. Dies erfolgt gemäß Ausführungsbeispielen mittels eines gradientenbasierten Konzepts, welches die sogenannte Optische-Fluss-Gleichung verwendet. Dabei wird für einen interessierenden Bereich, in dem ein erstes Silhouettenbild eines realen Bildes und ein zweites Silhouettenbild des aus dem 3D-Objekt synthetisierten Bildes aneinander angeglichen werden soll, bestimmt, wie Pixel des synthesierten Bildes verschoben werden müssen, um einen Abgleich der jeweiligen Silhouetten in dem interessierenden Bereich zu erhalten.
  • Somit können mit Ausführungsbeispielen der vorliegenden Erfindung in einem Videobild beispielsweise virtuelle Schuhe über real vorhandene Schuhe gelegt werden, um somit eine virtuelle Anprobe der virtuellen Schuhe zu bewirken. Dabei kann sich eine Person vor einer Aufnahmevorrichtung frei bewegen. Eine virtuelle Anprobe von anderen Bekleidungsgegenständen oder Accessoires, Schmuck, Frisuren ist natürlich ebenfalls möglich.
  • Dazu schafft die vorliegende Erfindung eine Vorrichtung zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Aufnahmevorrichtungsbild, mit einer Einrichtung zum Segmentieren des Aufnahmevorrichtungsbilds in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild zu erhalten, einer Einrichtung zum Synthetisieren eines zweiten Silhouettenbildes des 3D-Objekts in einer Ausgangslage und einer Einrichtung zum Schätzen von Ausrichtungsparametern zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten und dem zweiten Silhouettenbild.
  • Gemäß Ausführungsbeispielen handelt es sich bei der Aufnahmevorrichtung um eine Kamera zur zweidimensionalen Aufzeichnung von Videosequenzen mit einer vorbestimmten Auflösung in horizontaler und vertikaler Richtung. Bei dem 3D-Objekt handelt es sich bei Ausführungsbeispielen der vorliegenden Erfindung um ein 3D-Objekt eines Schuhs, insbesondere eines Sportschuhs. Somit können Ausführungsbeispiele der vorliegenden Erfindung dazu dienen, eine virtuelle Anprobe von Schuhen, insbesondere Sportschuhen, zu ermöglichen. Dabei sind Verfahren zum Ausrichten des 3D-Objekts gemäß Ausführungsbeispielen derart implementiert, dass sie die Ausrichtung des 3D-Objekts in dem aufgezeichneten Bild in Echtzeit ermöglichen, um dadurch einer Bewegung einer Person vor der Aufnahmevorrichtung gerecht zu werden. Dabei meint Echtzeit die Zeit, die Abläufe in der „realen Welt" verbrauchen.
  • Um das Ausrichten des 3D-Objekts bzw. den Abgleich des ersten und zweiten Silhouettenbildes in dem interessierenden Bildbereich möglichst zuverlässig zu gestalten, werden bei Ausführungsbeispielen der vorliegenden Erfindung die beiden Silhouettenbilder jeweils mit einem Tiefpassfilter gefiltert, um abrupte Silhouettenkanten in lineare Rampen mit konstanten Intensitätsgradienten zu transformieren.
  • Ein Vorteil der vorliegenden Erfindung besteht darin, dass eine Bewegung von Körperteilen mit geringer Komplexität geschätzt und auf Computer-Grafik-Modelle übertragen werden kann. Die geringe Komplexität erlaubt einen Abgleich von Körperbewegungen und 3D-Objekt-Bewegungen in Echtzeit.
  • Bevorzugte Ausführungsbeispielen der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • 1 eine schematische Darstellung eines virtuellen Spiegels als mögliche Anwendung von Ausführungsbeispielen der vorliegenden Erfindung;
  • 2 ein Blockdiagramm einer Vorrichtung zum Ausrichten eines 3D-Objekts gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3a eine schematische Darstellung eines Silhouettenbildes von zwei Beinen und Schuhen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3b eine schematische Darstellung eines ein vertikalen Intensitäts-Histogramms gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3c eine schematische Darstellung eines ein horizontalen Intensitäts-Histogramms gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 4 eine Darstellung einer Überlagerung eines ersten Silhouettenbildes und eines zweiten Silhouettenbildes in einer Ausgangslage gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 5 eine Darstellungen zur Erläuterung eines Prinzips der Ausrichtungsparameterschätzung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 6 eine perspektivische Projektion, bei der 3D-Koordinaten eines 3D-Objektpunkts in eine Bildebene projiziert werden;
  • 7a, b zwei Beispiele eines Schuh-Rendering mit einigen entfernten Schuhteilen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und
  • 8 Darstellungen von aufgezeichneten realen Bildern und entsprechend virtuell erweiterter Bilder mit individualisierten Schuhen.
  • Bezüglich der nachfolgenden Beschreibung sollte beachtet werden, dass bei den unterschiedlichen Ausführungsbeispielen gleiche oder gleichwirkende Funktionselemente gleiche Bezugszeichen aufweisen und somit die Beschreibungen dieser Funktionselemente in den nachfolgend dargestellten Ausführungsbeispielen untereinander austauschbar sind.
  • 1 zeigt schematisch ein System 10 zur Realisierung eines virtuellen Spiegels, in dem Ausführungsbeispiele der vorliegenden Erfindung Anwendung finden können.
  • Das System 10 umfasst eine Kamera 12, eine Einrichtung 14 zum Verarbeiten von mit der Kamera 12 aufgezeichneten Bil dern und eine Ausgabeeinrichtung 16 zum Ausgeben eines virtuellen Spiegelbilds von einem mit der Kamera 12 aufgezeichneten Bild. Dabei ist das virtuelle Spiegelbild computergestützt beispielsweise um virtuelle Kleidungsstücke, wie z. B. Schuhe, erweitert.
  • Die Kamera 12, welche beispielsweise eine XGA (XGA = Extended Graphics Array) FireWire-Kamera (FireWire = i.Link oder IEEE 1394) sein kann, ist nahe an dem Monitor 16 angebracht. Die Kamera 12 ist für eine Anwendung des Systems 10 zur virtuellen Anprobe von Schuhen abwärts gerichtet, um die Füße einer Person, die vor dem System 10 auf einem Boden 18 steht, aufzuzeichnen. Die Beine der Person, welche in dem von der Kamera 12 aufgezeichneten realen Bild zum Vordergrund gehören, werden in der Einrichtung 14 zum Verarbeiten von dem Hintergrund des aufgezeichneten Bildes getrennt und auf dem Monitor 16 wiedergegeben, nachdem das aufgezeichnete Bild horizontal gespiegelt wurde. Die Position des Monitors 16 und die Blickrichtung der Kamera 12 sind derart gewählt, dass eine durchschnittlich gewachsene Person auf dem Monitor 16 ungefähr das gleiche sieht, wie wenn sie in einen realen Spiegel sehen würde, der in der gleichen Position wie der Monitor 16 angebracht ist.
  • Der Boden 18 vor der Kamera 12 ist beispielsweise grün oder blau gehalten, um eine Anwendung von sogenannten Chroma-Keying-Techniken zu erlauben, um die Segmentierung von Bildvordergrund und Bildhintergrund mit wechselnder Beleuchtung und beliebigen Farben von Kleidungen zu erleichtern. Als Chroma-Keying werden in der Film- bzw. Fernsehtechnik Verfahren bezeichnet, die es ermöglichen, Gegenstände oder Personen nachträglich vor einen Hintergrund zu setzen, der entweder eine reale Filmaufnahme oder eine Computergrafik enthalten kann. Eine zusätzliche Lichtquelle unterhalb der Kamera 12 kann durch Schatten hervorgerufene Effekte reduzieren.
  • In der Einrichtung 14 zum Verarbeiten sind Bildverarbeitungsverfahren, Bewegungsverfolgung, Rendering und computergestützte Erweiterung der Realitätswahrnehmung implementiert. Bei Ausführungsbeispielen der vorliegenden Erfindung kann es sich bei der Einrichtung 14 zum Verarbeiten beispielsweise um einen Personalcomputer handeln. Bei Ausführungsbeispielen der vorliegenden Erfindung umfasst die Einrichtung 14 zum Verarbeiten einen Server, der die Kontrolle des Systems 10 erlaubt und eine Schnittstelle mit einer Konfigurationsdatenbank umfasst.
  • Die Einrichtung 14 umfasst gemäß Ausführungsbeispielen eine Vorrichtung 20 zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld der Kamera 12 entsprechenden Bild, welche schematisch in 2 gezeigt ist.
  • Die Vorrichtung 20 umfasst eine Einrichtung 21 zum Segmentieren des von der Kamera 12 aufgezeichneten Kamerabildes 22 in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild 23 zu erhalten. Ferner umfasst die Vorrichtung 20 eine Einrichtung zum Synthetisieren eines zweiten Silhouettenbildes 25 des 3D-Objekts in einer Ausgangslage. Das erste Silhouettenbild 23 und das zweite Silhouettenbild 25 bilden Eingänge einer Einrichtung 26 zum Schätzen von Ausrichtungsparametern 27 zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten Silhouettenbild 23 und dem zweiten Silhouettenbild 25.
  • Die (kalibrierte) Kamera 12 zeichnet kontinuierlich den Raum vor dem System 10 auf und überträgt die aufgezeichneten Kamerabilder 22 beispielsweise mit einer Auflösung von 1024×768 Pixeln zu der Einrichtung 21 zum Segmentieren. Dabei sind sämtliche automatische Kamerakontrollen abgeschaltet, um ein unerwartetes Verhalten beispielsweise nach Lichtwechseln zu vermeiden. Um Interferenz mit einer künstlichen Umgebungsbeleuchtung zu vermeiden, ist die Verschlussfrequenz der Kamera 12 mit der Flimmerfrequenz einer Umgebungsbeleuchtung synchronisiert. Die Belichtung der Kamera 12 wird gemäß einem Ausführungsbeispiel jedes Mal wieder berechnet und die Verstärkung der Kamera entsprechend nachgeregelt, wenn niemand in der Nähe der Kamera 12 ist, um die Kamera 12 entsprechend wechselnder Beleuchtung einzustellen.
  • Ein Leerlauf- bzw. Bereitschaftszustand des Systems 10 wird durch einen Veränderungsdetektor bestimmt, der Informationen über räumlich-zeitliche Variationen in dem von der Kamera 12 gelieferten Videosignal 22 ausnutzt. Nachdem die Kamerabelichtung entsprechend einer momentanen Umgebungslichtsituation eingestellt worden ist, wird bei Ausführungsbeispielen ein Hintergrundbild berechnet, indem beispielsweise zehn aufeinanderfolgende Videobilder gemittelt werden. Dieses Hintergrundbild wird von der Einrichtung 21 zum Segmentieren benutzt, um den hauptsächlich grünen bzw. blauen Hintergrund von Schuhen und Beinen im Vordergrund des aufgezeichneten Kamerabildes 22 zu trennen.
  • Um Echtzeitbeschränkungen Rechnung zu tragen, ist die Einrichtung 21 zum Segmentieren angepasst, um eine Bildauflösung der aufgezeichneten Kamerabilder 22 zu skalieren. Dadurch kann die Bildsignalverarbeitung in einer sogenannten Bildpyramide erfolgen. Dazu wird das aufgezeichnete Kamerabild 22 gefiltert und beispielsweise viermal hintereinander jeweils um einen Faktor 2 herunterskaliert, bis eine Auflösung von beispielsweise 64×48 Pixeln erreicht ist. Andere Skalierungsfaktoren und Auflösungen sind selbstverständlich ebenfalls denkbar.
  • Gemäß Ausführungsbeispielen der vorliegenden Erfindung ist die Einrichtung 21 zum Segmentieren angepasst, um Vorder- und Hintergrund des aufgezeichneten Kamerabildes 22 zu trennen, indem der Hintergrund von dem Vordergrund zunächst für ein in der Auflösung gegenüber dem Kamerabild 22 herunterskalierten Bild auf Basis einer Hintergrundinformation und Kenntnis von Untergrundfarbe und möglichen Schattenein flüssen getrennt wird, um ein Niederauflösungssilhouettenbild zu erhalten, und somit Silhouettenränder des ersten Silhouettenbilds 23 in der Auflösung des Kamerabilds 22 auf Basis des Niederauflösungssilhouettenbilds und der Hintergrundinformation zu ermitteln. Das heißt die Trennung bzw. Segmentierung beginnt beispielsweise mit einem auf 64×48 Pixel herunterskalierten Bild, in dem sämtliche Pixelfarben des aufgezeichneten Bildes mit den entsprechenden Pixelfarben des vorher berechneten Hintergrundbildes verglichen werden. Bei der Entscheidung, ob ein Pixel zum Vordergrund oder zum Hintergrund gehört, wird gemäß Ausführungsbeispielen eine RGB-Farbtabelle (RGB = Rot Grün Blau) mit 643 Einträgen benutzt. Der RGB-Farbraum kann in Form eines Würfels schematisiert werden. Dieser Farbwürfel wird adaptiv mit den grünen Hintergrundpixeln gefüllt. Um auch Schatten und Reflexionen auf dem Boden 18 verarbeiten zu können, wird die resultierende Form der Hintergrundpixel in dem RGB-Farbwürfel durch zylinder- und konus-ähnliche Modelle erweitert. Nachdem die Pixel klassifiziert worden sind, d. h. ob sie zu Vorder- oder Hintergrund gehören, werden kleine Löcher gefüllt und kleine Gebiete entfernt bis lediglich die zwei Beine mit den Schuhen übrig bleiben. Eine daraus resultierendes Silhouettenbild bzw. eine Segmentierungsmaske wird anschließend an höhere Auflösungsstufen der Bildpyramide weitergegeben. Dort werden dann lediglich diejenigen Bildbereiche in Vorder- und Hintergrund segmentiert, die ihren Ursprung in Randbereichen des Silhouettenbilds des jeweils niedrigeren Auflösungsbereichs der Bildpyramide haben. Dabei meint Randbereich den Randbereich zwischen Bildvordergrund und Bildhintergrund. Diese Prozedur wird solange wiederholt, bis die ursprüngliche Auflösung (1024×768) erreicht ist, wodurch Segmentierungsmasken bzw. erste Silhouettenbilder für jede Bildpyramiden- bzw. Auflösungsstufe erhalten werden.
  • Aus Gründen der Übersichtlichkeit wird im Nachfolgenden lediglich von einem ersten und einem zweiten Silhouettenbild gesprochen, wobei sich das erste und zweite Silhouettenbild auf beliebige Bildpyramiden- bzw. Auflösungsstufe beziehen kann.
  • Gemäß Ausführungsbeispielen der vorliegenden Erfindung umfasst die Einrichtung 21 eine Einrichtung zum Bestimmen eines Bereichs in dem ersten Silhouettenbild 23 an dem das 3D-Objekt ausgerichtet werden soll. Dazu ist bei Ausführungsbeispielen die Einrichtung zum Bestimmen des Bereichs angepasst, um in dem ersten Silhouettenbild Intensitätsverteilungen in horizontaler und vertikaler Dimension zu ermitteln, um daraus Koordinaten für die Ausgangslage des 3D-Objekts zu erhalten. Dazu können horizontale und vertikale Intensitäts-Histogramme berechnet werden, die auch dazu verwendet werden können, um zu bestimmen, ob eine Person in das Gesichtsfeld der Kamera 12 getreten ist.
  • Eine schematische Darstellung eines Silhouettenbildes von zwei Beinen und Schuhen ist schematisch in 3a gezeigt. 3b zeigt schematisch ein vertikales Intensitäts-Histogramm, welches sich aus dem Silhouettenbild gemäß 3a ergibt. Demgemäss zeigt 3c ein horizontales Intensitäts-Histogramm resultierend aus dem Silhouettenbild von 3a.
  • Aus dem in 3b dargestellten vertikalen Histogramm lässt sich ein Beginn von Intensitätswerten bei einer y-Koordinate y1 erkennen. y1 dient somit als Indiz für die Fußposition der auf gemäß diesem Beispiel auf einer vertikalen Höhe stehenden Füße.
  • Aus dem in 3c dargestellten horizontalen Histogramm lassen sich zwei Bereiche x1 – x2 und x3 – x4 mit erhöhter Intensität ausmachen. Diese beiden Bereiche entsprechen den Bereichen der beiden Beine und Füße. Somit lässt sich aus den Koordinaten (x1, y1) die linke Fußspitze bestimmen und aus der Koordinate (x4, y1) die rechte Fußspitze. D. h. die Einrichtung zum Bestimmen des Bereichs ist gemäß Ausführungsbeispielen angepasst, um die Koordinate y1 für die Ausgangslage des 3D-Objekts in vertikaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in vertikaler Richtung in einem unteren Bereich des ersten Silhouettenbilds 23 zu erhalten, und um eine Koordinate x1 oder x4 für die Ausgangslage des 3D-Objekts in horizontaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in horizontaler Richtung in dem ersten Silhouettenbild 23 zu erhalten. Zur Berücksichtigung nicht auf einer gemeinsamen vertikalen Höhe stehenden Füße können alternativ zwei getrennte Vertikale Histogramme für die durch x1 – x2 und x3 – x4 horizontal getrennten Bereiche berechnet werden. Auf die so ermittelten Ausgangskoordinaten können nun jeweils zweite Silhouettenbilder durch geeignete Ausrichtung von 3D-Objekten (z. B. von Schuhmodellen) gelegt werden, die von der Einrichtung 24 synthetisiert worden sind. Dieser Sachverhalt ist schematisch in 4 gezeigt.
  • 4 zeigt ein erstes Silhouettenbild 23 von einem Schuh mit einem Bein und ein zweites synthetisiertes Silhouettenbild 25 eines (z. B. einem Schuh entsprechenden) 3D-Objektes in einer Ausgangslage. Die Ausgangslage wird durch die mittels der Histogramme ermittelten Startkoordinaten und eine Ausgangsorientierung (z. B. senkrecht) des 3D-Objekts bestimmt.
  • Die Einrichtung 26 zum Schätzen schätzt die Ausrichtungsparameter für das 3D-Objekt mittels eines einem einzigen Frame entsprechenden ersten Silhouettenbilds 23, welches von einem von der Kamera 12 aufgezeichneten Kamerabild 22 abgeleitet worden ist.
  • Anstatt eine bestimmte Anzahl von Merkmalspunkten in dem aufgezeichneten Kamerabild 22 zu verfolgen, wird das ganze aufgezeichnete Kamerabild 22 für eine robuste Bewegungs- bzw. Ausrichtungsparameterschätzung ausgenutzt. Das Prinzip der Ausrichtungsparameterschätzung soll im Nachfolgenden anhand von 5 kurz erläutert werden.
  • 5 zeigt ein erstes Silhouettenbild 23 eines Beines mit Schuh und ein zweites Silhouettenbild 25 eines synthetisierten Schuhs in einer Ausgangslage. Es sollen nun Bewegungs- bzw. Ausrichtungsparameter für das 3D-Objekt des synthetisierten Schuhs derart geschätzt werden, dass ein entsprechend den Ausrichtungsparametern ausgerichtetes 3D-Objekt bzw. das daraus resultierende zweite Silhouettenbild 25 über der Silhouette des Schuhs des ersten Silhouettenbildes 23 zu liegen kommt. Dadurch kann der zu dem zweiten Silhouettenbild 25 korrespondierende synthetische Schuh über den zu dem ersten Silhouettenbild 23 korrespondierenden realen Schuh gelegt werden, so dass später der Eindruck entsteht, dass eine Person den synthetisierten Schuh trägt.
  • Das zweite Silhouettenbild 25 des 3D-Objekts wird mit dem ersten Silhouettenbild 23 des aufgezeichneten Bildes abgeglichen. Sämtliche Bewegungs- bzw. Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) werden optimiert, um einen möglichst perfekten Abgleich zwischen erstem und zweitem Silhouettenbild zu erhalten. Dabei bedeuten Rx, Ry und Rz Rotationswinkel (z. B. Eulersche Winkel bzw. Eulerwinkel) und tx, ty und tz Komponenten des Verschiebungs- oder Translationsvektors [tx ty tz)T für ein 3D-Objekt.
  • Das Verwenden von Silhouettenbildern 23, 25 als Eingang für die Einrichtung 26 zum Schätzen der Ausrichtungsparameter führt zu robusten Resultaten für die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) selbst für hochgradig spiegelnde Materialien von Bekleidungsstücken, insbesondere Sportschuhen mit eventuellen Reflektoren. Gemäß Ausführungsbeispielen können der Einrichtung 26 zum Schätzen der Ausrichtungsparameter aber auch Textur- und Farbinformationen (eventuell zusätzlich) bereitgestellt werden. D. h. die Einrichtung 26 zum Schätzen der Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) ist gemäß Ausführungsbeispielen ausgebildet, um zusätzlich zu den Silhouettenbildern 23, 25 Texturinformation aus dem Videobild 22 oder daraus durch Bildsignalverarbeitung, wie z. B. Detektion horizontaler und/oder vertikaler Kanten, abgeleitete Bildinformationen zu verwenden.
  • Die Bewegungsnachführung (Tracking) entspricht dem Auffinden derjenigen 3D-Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz), die zu einem optimalen Abgleich der zweidimensionalen Silhouettenbilder 23, 25 (und/oder Farbinformationen) führen. Eine komplette Suche im sechs-dimensionalen (bzw. für ein Paar Schuhe im zwölf-dimensionalen Raum) wäre an dieser Stelle sehr ineffizient. Daher werden die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) gemäß Ausführungsbeispielen mittels einer gradienten-basierten Technik direkt berechnet.
  • Dafür ist die Einrichtung 26 zum Schätzen angepasst, um das erste und zweite Silhouettenbild 23, 25 jeweils mit einem Tiefpassfilter zu filtern, um Intensitätswerte bzw. Graustufen an den Silhouettenrändern des ersten und des zweiten Silhouettenbilds zu glätten. Gemäß Ausführungsbeispielen wird dies durch eine zweidimensionale Faltung mit einem separablen gleitenden Mittelwertfilter (Box-Filter) mit einer Mehrzahl von Koeffizienten in jeder Dimension erreicht. Dabei kann die Anzahl der Koeffizienten in x- und y-Dimension beispielsweise jeweils sieben betragen oder je nach Auflösungsstufe unterschiedlich gewählt sein. Diese Filteroperation transformiert die binären Silhouettenkanten in lineare Rampen mit konstanten Intensitätsgradienten. Je näher ein Pixel einem Silhouettenobjekt also ist, desto höher ist der entsprechende Intensitätswert I(x, y) des Pixels an der Stelle (x, y).
  • Gemäß Ausführungsbeispielen ist die Einrichtung 26 zum Schätzen ausgebildet, um die Ausrichtungsparameter 27 basierend auf Abweichungen von Intensitätswerten von Randbereichen des ersten und des zweiten Silhouettenbildes zu schätzen. Dazu kann ein Gleichungssystem aufgestellt und gelöst werden, das von einer aus dem ersten und dem zweiten Silhouettenbild gebildeten Differenz (I2(x, y) – I1(x, y)) und räumlichen Ableitungen I -x(x, y), I -y(x, y) einer aus dem ersten und dem zweiten Silhouettenbild gebildeten konstruktiven Überlagerung und Parametern, die das Gesichtsfeld der Aufnahmevorrichtung definieren, abhängt. Dies erfolgt gemäß Ausführungsbeispielen auf Basis der optischen Fluss-Gleichung I -x(x, y)·dx + I -y(x, y)·dy = I2(x, y) – I1(x, y) (1) und [dxdy] = f(Rx, Ry, Rz, tx, ty, tz), (2)wobei I -x(x, y) einen gemittelten Intensitätsgradienten in x-Richtung, I -y(x, y) einen gemittelten Intensitätsgradienten in y-Richtung, (I2(x, y) – I1(x, y)) eine Intensitätsdifferenz zwischen dem gefilterten zweiten Silhouettenbild 25 und dem gefilterten ersten Silhouettenbild 23 und dx, dy zweidimensionale Verschiebungsparameter in x- und y-Richtung beschreiben. Die zweidimensionalen Verschiebungsparameter dx, dy stehen gemäß Gl. (2) in funktionalem Zusammenhang mit den Bewegungsparametern (Rx, Ry, Rz, tx, ty, tz). Dabei beruht Gl. (2) auf Informationen über ein starres Körperbewegungsmodell und auf Wissen über Parameter der Kamera 12. Darüber hinaus benutzt Gl. (2) noch für jeden Bildpunkt Informationen über die Entfernung z zwischen Kamera und zugehörigem Objektpunkt des synthetisierten Bildes 25, die beispielsweise effizient aus dem z-Puffer der Graphikkarte bestimmt werden können.
  • Ein Kamera-Modell beschreibt einen Zusammenhang zwischen einer virtuellen 3D-Welt und den 2D-Videobildern der Kamera 12 und wird sowohl für das Rendern als auch die Ausrichtungsparameterschätzung benötigt. Eine perspektivische Projektion, bei der 3D-Koordinaten eines 3D-Objektpunkts [x, y, z]T in eine Bildebene 60 projiziert werden, ist exemplarisch in 6 gezeigt.
  • Die 3D-Koordinaten [x, y, z]T werden gemäß
    Figure 00150001
    in die Bildebene 60 projiziert. Dabei bedeuten fx und fy die Brennweite der Kamera 12 multipliziert mit Skalierungsfaktoren in x- und y-Richtung. Diese Skalierungsfaktoren fx, fy transformieren die 3D-Objektkoordinaten [x, y, z]T in 2D-Pixel-Koordinaten X und Y. Zusätzlich erlauben sie die Benutzung von nicht-quadratischen Pixelgeometrien. Die zwei Parameter X0 und Y0 beschreiben den Bildmittelpunkt und seine Verschiebung von der optischen Achse der Kamera 12 aufgrund einer unakkuraten Platzierung eines CCD-Sensors (CCD = Charge Coupled Device) der Kamera 12. Die vier Parameter fx, fy, X0 und Y0 können beispielsweise aus einer Kamerakalibrierung erhalten werden.
  • Die gemittelten Intensitätsgradienten I -x(x, y), I -y(x, y) können beispielsweise durch eine konstruktive Überlagerung gemäß
    Figure 00150002
    erhalten werden, wobei Ix n(x, y) (n = 1, 2) beispielsweise gemäß
    Figure 00150003
    und Iy n(x, y) (n = 1, 2) beispielsweise gemäß
    Figure 00150004
    bestimmt werden kann. Dabei entspricht Ix 1(x, y) dem Intensitätsgradienten des ersten gefilterten Silhouettenbilds 23 in x-Richtung und Iy 1(x, y) dem Intensitätsgradienten des ersten gefilterten Silhouettenbilds 23 in y-Richtung. Ent sprechendes gilt für Ix 2(x, y) und Iy 2(x, y) für das zweite gefilterte Silhouettenbild 25. I1(x, y) und I2(x, y) entsprechen jeweils Intensitäten des ersten und des zweiten gefilterten Silhouettenbilds an der Stelle (x, y). Andere Vorschriften um die partiellen Intensitätsableitungen bzw. Intensitätsgradienten I -x(x, y), I -y(x, y) zu bestimmen sind natürlich ebenfalls möglich.
  • Gl. (1) kann für jeden Pixel (x, y) oder jede Zwischenpixelposition der Silhouettenbilder 23, 25 aufgestellt werden. Bei bevorzugten Ausführungsformeln der vorliegenden Erfindung wird sie jedoch nur für diejenigen Punkte aufgestellt, für die der rechte Teil der Gl. (1) verschieden von Null ist.
  • Eine Kombination aus Gl. (1) und Gl. (2) ähnlich zu P. Eisert und B. Girod, „Analyzing facial expressions for virtual conferencing", IEEE Computer Graphics and Applications, pp. 70–78, Sep. 1998, stellt eine weitere Gleichung für jeden Pixel (x, y), für den der rechte Teil der Gl. (1) verschieden von Null ist, nahe der Silhouettenkanten der Silhouettenbilder 23, 25 bereit. Dadurch wird ein überbestimmtes lineares Gleichungssystem erhalten, welches effizient nach dem Least-Squares-Ansatz gelöst werden kann, um die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) zu erhalten. Verbleibende Fehler in dem Ausrichtungsparametersatz (Rx, Ry, Rz, tx, ty, tz) können beispielsweise behoben werden, indem die Bewegungsnachführung iterativ angewandt wird.
  • Die optische-Fluss-Bedingung der Gl. (1) basiert auf der Annahme eines relativ kleinen Bewegungsversatzes zwischen dem erstem Silhouettenbild 23 und dem zweitem Silhouettenbild 25. Um diese Limitierung zu überwinden, wird, wie im vorhergehenden bereits beschrieben wurde, gemäß Ausführungsbeispielen ein hierarchischer bzw. Bildpyramidenansatz verfolgt. Dabei wird zuerst eine Grobschätzung der Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) basierend auf herunterskalierten und tiefpassgefilterten Silhouettenbildern bestimmt, wobei die Annahme der Linearität hier für einen größeren Bildbereich gültig ist. Die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) für das 3D-Objekt werden geschätzt und verbleibende Fehler werden basierend auf Silhouettenbildern 23, 25 mit höherer Auflösung reduziert.
  • Wurden die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) zur Ausrichtung des 3D-Objekts, beispielsweise für jeden einzelnen eines Paars Schuhe, bestimmt, können 3D-Computer-Grafik-Modelle von individualisierten Schuhen an der momentanen Bildposition der realen Schuhe gerendert werden, so dass die realen Schuhe der Person im Gesichtsfeld der Kamera 12 durch die 3D-Computer-Grafik-Modelle ersetzt bzw. überlagert werden.
  • Die 3D-Modelle können individuell konfiguriert werden, indem beispielsweise ein Basismodell ausgewählt wird und anschließend zwischen verschiedenen Sohlentypen, Materialien und Farben gewählt wird. Zusätzlich können individuelle Stickereien, wie z. B. Flaggen oder Text hinzugefügt werden. Ausgehend von diesen Konfigurationsdaten wird ein individuelles 3D-Modell zusammengesetzt. Dazu werden Geometrie, Textur und Farben der 3D-Modelle modifiziert, um das ausgewählte Design zu repräsentieren. Jedes 3D-Schuhmodell besteht aus verschiedenen 3D-Subobjekten, die aus Dreiecks-Gitternetzen zusammengesetzt sind. Diese 3D-Subobjekte können ersetzt werden, um verschiedene Geometrien zu erhalten.
  • Zur Modellierung von verschiedenen Oberflächenmaterialien können individualisierte Texturen aus einer Datenbank gewählt werden. Zusätzlich können den Texturen Farben zugeordnet werden, um einzelne Teile der Schuhe zu individualisieren. Auf diese Art und Weise kann eine Person zwischen vielen Modellen wählen und einen Schuh gemäß ihren persönlichen Vorlieben zusammenstellen.
  • Das 3D-Objekt bzw. die 3D-Objekte können mit gängigen 3D-Software-Tools an der Position der realen Schuhe und mit der Orientierung, die von der Einrichtung 26 zum Schätzen ermittelt wurden, gerendert werden. In dem Rendering- und computergestützten Realitätswahrnehmungserweiterungsprozess wird zuerst ein Hintergrund gerendert. Dieser kann beispielsweise aus realen und/oder synthetischen Videos/Animation oder Einzelbildern bestehen. Danach wird die ursprüngliche Videosequenz gerendert, indem die entsprechende Silhouettenbildsequenz als Alphakanal für die RGBA-Texturkarte benutzt wird. Die Verwendung von Zwischenwerten des Alphakanals an den Objekträndern kann das Einbetten der segmentierten Videosequenz in den Hintergrund verbessern. Der Alphakanal (α-Kanal) ist ein zusätzlicher Farbkanal in digitalen Bildern, der zusätzlich zu den in einem Farbraum kodierten Farbinformationen die Transparenz bzw. Durchsichtigkeit der einzelnen Bildpunkte speichert. Schließlich werden die 3D-Objekte entsprechend den virtuellen Schuhen, die die Originalschuhe in dem segmentierten Video überdecken, überlagert.
  • Jedoch sollten die Beine in dem ursprünglichen 2D-Video ebenfalls einige Teile der synthetisierten Schuhe überdecken. Indem ein transparentes, nicht sichtbares Beinmodell hinzugeführt wird, kann der Z-Puffer einer Grafik-Karte derart manipuliert werden, dass sämtliche Überdeckungen korrekt erkannt werden und das 3D-Modell in das 2D-Video eingesetzt werden kann. Z-Pufferung wird in der Computergrafik angewendet, um verdeckte Flächen in einer 3D-Computergrafik zu ermitteln. Durch Informationen im Z-Puffer stellt das Verfahren pixelweise fest, welche Elemente einer Szene gezeichnet werden müssen und welche verdeckt sind. Heutige Grafikkarten unterstützen Z-Buffering als Standardverfahren zur Lösung des Sichtbarkeitsproblems in Hardware. Wenn ein Objekt von einer 3D-Grafikkarte gerendert wird, wird die Tiefeninformation der erzeugten Pixel (die z-Koordinate im so genannten Z-Buffer abgelegt. Dieser Puffer, gewöhnlich als zweidimensionales Array (mit den Indizes X und Y) aufgebaut, enthält für jeden auf dem Bildschirm sichtbaren Punkt des Objekts einen Tiefenwert. Wenn ein anderes Objekt im selben Pixel dargestellt werden soll, vergleicht der Renderalgorithmus die Tiefenwerte beider Objekte und weist dem Pixel den Farbwert des Objekts zu, das dem Beobachter am nächsten liegt. Die Tiefeninformation des ausgewählten Objekts wird dann im Z-Buffer gespeichert und ersetzt den alten Wert. Durch den Z-Buffer kann die Grafikkarte die natürliche Tiefenwahrnehmung nachbilden: ein nahe gelegenes Objekt verdeckt ein fernes Objekt. Darüber hinaus können die bei der Synthetisierung entstehenden pixelweisen Tiefenwerte des z-Puffers verwendet werden, um effizient die Entfernungsinformation von Objektpunkten, die in Gl. (2) benötigt werden, zu ermitteln.
  • Dazu zeigen die 7a und 7b zwei Beispiele eines Schuh-Renderings mit einigen entfernten Schuhteilen, die später von den Beinen überdeckt werden.
  • Im Nachfolgenden werden einige Ergebnisse des Schätzens der Ausrichtungsparameter 27 und des Renderings präsentiert. Dazu wurden vier verschiedene Schuhmodelle konfiguriert und das virtuelle Spiegelsystem 10 gestartet.
  • Eine Kamera 12 zeichnet eine Szene mit einer Auflösung von 1024×768 Pixeln auf. Eine Person betritt den grünen bzw. blauen Bereich 18 vor dem System 10.
  • In allen Fällen, wurden die Schuhe korrekt detektiert, segmentiert und in ihrer Bewegung verfolgt. Dazu zeigt 8 verschiedene Beispiele einer Ausgabe des virtuellen Spiegelsystems. Die obere Bildreihe zeigt einige Bilder aus der ursprünglichen Szene, die mit der Kamera 12 festgehalten wurden. Die zu diesen Bildern korrespondierenden Resultate, die auf dem Monitor 16 ausgegeben wurden, sind in der unteren Bildreihe dargestellt. Es lässt sich erkennen, dass die 3D-Computer-Modelle der 3D-Bewegung der Originalschuhe korrekt folgen – selbst für ziemlich extreme Fußpositionen.
  • Da das gesamte System sich wie ein realer Spiegel verhalten soll, wird Echtzeit-Signalverarbeitung benötigt. Alle Algorithmen sind deshalb im Hinblick auf Geschwindigkeit optimiert. Bildverarbeitungs-Algorithmen werden in einer Bildpyramide verwendet und die Bewegungsnachführung wird ebenfalls mit einer niedrigeren Auflösung berechnet.
  • Zusammenfassend schaffen Ausführungsbeispiele. der vorliegenden Erfindung ein Konzept zur Echtzeit-3D-Bewegungsverfolgung von Objekten, insbesondere Schuhen, in einer virtuellen Spiegelumgebung. Von Bildern einer einzelnen Kamera 12 werden Ausrichtungsparameter entsprechend der Bewegung von Körperteilen mittels linearer Optimierungsmethoden niedriger Komplexität geschätzt. Die Bewegungsnachführung ist dabei nicht auf Schuhmodelle beschränkt, sondern kann ebenfalls auf andere Objekte angewandt werden, wenn eine entsprechende dreidimensionale Geometriebeschreibung verfügbar ist. Die Bewegungsinformation bzw. die Ausrichtungsparameter werden dann benutzt, um individualisierte Sportschuhe in die reale Szene zu rendern, so dass sich eine Person mit den neuen Schuhen beobachten kann.
  • Es ist darauf hinzuweisen, dass die vorliegende Erfindung nicht auf die jeweiligen Bauteile der Vorrichtung oder die erläuterte Vorgehensweise beschränkt ist, da diese Bauteile und Verfahren variieren können. Die hier verwendeten Begriffe sind lediglich dafür bestimmt, besondere Ausführungsformen zu beschreiben und werden nicht einschränkend verwendet. Wenn in der Beschreibung und in den Ansprüchen die Einzahl oder unbestimmte Artikel verwendet werden, beziehen sich diese auch auf die Mehrzahl dieser Elemente, solange nicht der Gesamtzusammenhang eindeutig etwas Anderes deutlich macht. Dasselbe gilt in umgekehrter Richtung.
  • Abhängig von den Gegebenheiten können die erfindungsgemäßen Verfahren in Hardware oder Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette, CD oder DVD mit elektro nisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogramm-Produkt auf einem maschinenlesbaren Medium gespeichertem Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogramm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die vorliegende Erfindung somit auch ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens zum Ausrichten, wenn das Computerprogramm auf einem Computer und/oder Mikrocontroller abläuft.

Claims (13)

  1. Vorrichtung (20) zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung (12) entsprechenden Aufnahmevorrichtungsbild (22), mit folgenden Merkmalen: einer Einrichtung (21) zum Segmentieren des Aufnahmevorrichtungsbilds (22) in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild (23) zu erhalten; einer Einrichtung zum Bestimmen eines interessierenden Bereichs in dem ersten Silhouettenbild (23), an dem das 3D-Objekt ausgerichtet werden soll; einer Einrichtung (24) zum Synthetisieren eines zweiten Silhouettenbildes (25) des 3D-Objektes gemäß dem Gesichtsfeld in einer Ausgangslage; und einer Einrichtung (26) zum Schätzen von Ausrichtungsparametern (27) zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem interessierenden Bereich des ersten Silhouettenbilds und dem zweiten Silhouettenbild, um, basierend auf den geschätzten Ausrichtungsparametern (27), einen Abgleich des ersten und des zweiten Silhouettenbilds in dem interessierenden Bereich zu erhalten, um das 3D-Objekt einem dem interessierenden Bereich entsprechenden Bereich des Aufnahmevorrichtungsbilds (22) überlagern zu können.
  2. Vorrichtung gemäß Anspruch 1, wobei die Aufnahmevorrichtung (12) eine Kamera umfasst.
  3. Vorrichtung gemäß einem Anspruch 1 oder 2, wobei das 3D-Objekt ein 3D-Objekt eines Schuhs darstellt.
  4. Vorrichtung gemäß Anspruch 1 bis 3, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um in dem ersten Silhouettenbild Intensitätsverteilungen in horizontaler und vertikaler Dimension zu ermitteln, und daraus Koordinaten für die Ausgangslage des 3D-Objekts zu erhalten.
  5. Vorrichtung gemäß Anspruch 4, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um eine Koordinate für die Ausgangslage des 3D-Objekts in vertikaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in vertikaler Richtung in einem unteren Bereich des ersten Silhouettenbilds (23) zu erhalten.
  6. Vorrichtung gemäß Anspruch 4, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um eine Koordinate für die Ausgangslage des 3D-Objekts in horizontaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in horizontaler Richtung in dem ersten Silhouettenbild (23) zu erhalten.
  7. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung zum Segmentieren (21) angepasst ist, um den Vorder- und Hintergrund zu trennen, indem der Hintergrund von dem Vordergrund zunächst für ein in der Auflösung gegenüber dem Aufnahmevorrichtungsbild (22) herunterskalierten Bild auf Basis einer Hintergrundinformation getrennt wird, um ein Niederauflösungssilhouettenbild zu erhalten, und somit Silhouettenränder des ersten Silhouettenbilds (23) in der Auflösung des Aufnahmevorrichtungsbilds (22) auf Basis des Niederauflösungssilhouettenbilds und der Hintergrundinformation zu erhalten.
  8. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen angepasst ist, um das erste und das zweite Silhouettenbild tiefpass zufiltern, um Silhouettenränder des ersten und des zweiten Silhouettenbilds zu glätten.
  9. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen ausgebildet ist, um ein Gleichungssystem gemäß einer Optischen-Fluss-Gleichung aufzustellen und zu lösen, das von einer aus dem ersten und dem zweiten Silhouettenbild gebildeten Differenz und örtlichen Ableitungen einer aus dem ersten und dem zweiten Silhouettenbild gebildeten konstruktiven Überlagerung und Parametern, die das Gesichtsfeld der Aufnahmevorrichtung definieren, abhängt.
  10. Vorrichtung gemäß Anspruch 9, wobei die Einrichtung (26) zum Schätzen ausgebildet ist, um die Ausrichtungsparameter (27) basierend auf einer Kombination von I -x(x, y)·dx + I -y(x, y)·dy = I2(x, y) – I1(x, y)und [dxdy] = f(Rx, Ry, Rz, tx, ty, tz)zu ermitteln, wobei f(.) eine Funktionsvorschrift, (Rx , Ry, Rz, tx, ty, tz) die Ausrichtungsparameter (27), I -x(x, y) einen gemittelten Intensitätsgradienten in x-Richtung, I -y(x, y) einen gemittelten Intensitätsgradienten in y-Richtung, (I2(x, y) – I1(x, y)) eine Intensitätsdifferenz zwischen dem gefilterten zweiten Silhouettenbild (25) und dem gefilterten ersten Silhouettenbild (23) und dx, dy zweidimensionale Verschiebungsparameter in x- und y-Richtung bedeuten.
  11. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen der Ausrichtungsparameter (27) zur Ausrichtung des 3D-Objekts zusätzlich zu dem ersten und dem zweiten Silhouettenbild Texturinformation aus dem Aufnahmevorrichtungsbild (22) oder daraus abgeleitete Bildinformationen verwendet.
  12. Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung (12) entsprechenden Aufnahmevorrichtungsbild (22), mit folgenden Schritten: Segmentieren des Aufnahmevorrichtungsbilds (22) in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild (23) zu erhalten; Bestimmen eines interessierenden Bereichs in dem ersten Silhouettenbild (23), an dem das 3D-Objekt ausgerichtet werden soll; Synthetisieren eines zweiten Silhouettenbildes (25) des 3D-Objektes in einer Ausgangslage; und Schätzen von Ausrichtungsparametern (27) zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem interessierenden Bereich des ersten Silhouettenbilds (23) und dem zweiten Silhouettenbild, um, basierend auf den geschätzten Ausrichtungsparametern (27), einen Abgleich des ersten und des zweiten Silhouettenbilds in dem interessierenden Bereich zu erhalten, um das 3D-Objekt einem dem interessierenden Bereich entsprechenden Bereich des Aufnahmevorrichtungsbilds (22) überlagern zu können.
  13. Computerprogramm zur Durchführung des Verfahrens gemäß Anspruch 13, wenn das Computerprogramm auf einem Computer und/oder Microcontroller und/oder Graphikkarte abläuft.
DE102007043836A 2007-09-14 2007-09-14 Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild Active DE102007043836B3 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102007043836A DE102007043836B3 (de) 2007-09-14 2007-09-14 Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild
PCT/EP2008/005782 WO2009036831A1 (de) 2007-09-14 2008-07-15 Vorrichtung und verfahren zum ausrichten eines 3d-objekts in einem einem gesichtsfeld einer aufnahmevorrichtung entsprechenden bild

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007043836A DE102007043836B3 (de) 2007-09-14 2007-09-14 Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild

Publications (1)

Publication Number Publication Date
DE102007043836B3 true DE102007043836B3 (de) 2009-01-02

Family

ID=39758870

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007043836A Active DE102007043836B3 (de) 2007-09-14 2007-09-14 Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild

Country Status (2)

Country Link
DE (1) DE102007043836B3 (de)
WO (1) WO2009036831A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4156067A4 (de) * 2020-06-24 2023-08-09 Beijing Bytedance Network Technology Co., Ltd. Verfahren und vorrichtung zum wechseln virtueller kleidung sowie vorrichtung und medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489765B2 (en) 2013-11-18 2016-11-08 Nant Holdings Ip, Llc Silhouette-based object and texture alignment, systems and methods

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020190982A1 (en) * 2001-06-11 2002-12-19 Canon Kabushiki Kaisha 3D computer modelling apparatus
US20040161164A1 (en) * 2003-02-19 2004-08-19 Agfa-Gevaert Method of detecting the orientation of an object in an image

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3237975B2 (ja) * 1993-09-20 2001-12-10 富士通株式会社 画像処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020190982A1 (en) * 2001-06-11 2002-12-19 Canon Kabushiki Kaisha 3D computer modelling apparatus
US20040161164A1 (en) * 2003-02-19 2004-08-19 Agfa-Gevaert Method of detecting the orientation of an object in an image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K. Vaghani: "Real-Time Human Body Tracking in Publ ic Spaces", Univ. of Canterbury, Christchurch,New Zealand, 2004, Pgs. 1-43
K. Vaghani: "Real-Time Human Body Tracking in Public Spaces", Univ. of Canterbury, Christchurch,New Zealand, 2004, Pgs. 1-43; *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4156067A4 (de) * 2020-06-24 2023-08-09 Beijing Bytedance Network Technology Co., Ltd. Verfahren und vorrichtung zum wechseln virtueller kleidung sowie vorrichtung und medium

Also Published As

Publication number Publication date
WO2009036831A1 (de) 2009-03-26

Similar Documents

Publication Publication Date Title
Zhang et al. Fast haze removal for nighttime image using maximum reflectance prior
US10949978B2 (en) Automatic background replacement for single-image and multi-view captures
DE60209365T2 (de) Verfahren zur mehrfachansichtssynthese
US7359562B2 (en) Enhancing low quality videos of illuminated scenes
US7206449B2 (en) Detecting silhouette edges in images
US7218792B2 (en) Stylized imaging using variable controlled illumination
US7295720B2 (en) Non-photorealistic camera
DE102015213832B4 (de) Verfahren und Vorrichtung zum Erzeugen eines künstlichen Bildes
DE69635347T2 (de) Verfahren und system zum wiedergeben und kombinieren von bildern
US7102638B2 (en) Reducing texture details in images
US7103227B2 (en) Enhancing low quality images of naturally illuminated scenes
EP2206089B1 (de) Verfahren und vorrichtung zum darstellen eines virtuellen objekts in einer realen umgebung
DE19983341B4 (de) Verfahren und Einrichtung zur Erfassung stereoskopischer Bilder unter Verwendung von Bildsensoren
DE112020003794T5 (de) Tiefenbewusste Fotobearbeitung
DE102007045835B4 (de) Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
DE69735488T2 (de) Verfahren und vorrichtung zum ausrichten von bildern
DE112016004731T5 (de) Erweitern von Mehrfachansicht-Bilddaten mit synthetischen Objekten unter Verwendung von IMU und Bilddaten
DE112011103221T5 (de) Erweitern von Bilddaten basierend auf zugehörigen 3D-Punktwolkendaten
DE112016005343T5 (de) Elektronische Anzeigestabilisierung unter Verwendung von Pixelgeschwindigkeiten
DE202014010969U1 (de) Kamerafähiges Mobilgerät
DE112011105371T5 (de) Vorrichtung zum Synthetisieren von dreidimensionalen Bildern zum Visualisieren der Fahrzeugumgebung und zugehöriges Verfahren
DE60219141T2 (de) Bildverarbeitungsgerät
Brostow et al. Motion based decompositing of video
DE102010009291A1 (de) Verfahren und Vorrichtung für ein anatomie-adaptiertes pseudoholographisches Display
DE602004012341T2 (de) Verfahren und System zur Bereitstellung einer Volumendarstellung eines dreidimensionalen Objektes

Legal Events

Date Code Title Description
8364 No opposition during term of opposition