DE102007021518A1

DE102007021518A1 - Verfahren zum Verarbeiten eines Videodatensatzes

Info

Publication number: DE102007021518A1
Application number: DE102007021518A
Authority: DE
Inventors: Sebastian Dipl.-Ing. Knorr; Thomas Prof. Dr. Sikora
Original assignee: Technische Universitaet Berlin
Current assignee: Imcube Media 10587 Berlin De GmbH
Priority date: 2007-05-04
Filing date: 2007-05-04
Publication date: 2008-11-13
Anticipated expiration: 2027-05-05
Also published as: DE102007021518B4; WO2008135024A3; US20100158482A1; WO2008135024A2; US8577202B2

Abstract

Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge von ursprünglichen Bildern aus diesen abgeleitete, virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten, bei dem eine SfM-Analyse für die ursprünglichen Bilder und eine jeweils zugeordnete ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeeinrichtung durchgeführt wird, virtuelle Positionen für eine Aufnahmeeinrichtung zum Aufnehmen von virtuellen Bildern gebildet werden, für die virtuellen Positionen der Aufnahmeeinrichtung mit zugehörigem virtuellen Ausgangsbild eine jeweilige Zuordnung zu wenigstens einer der ursprünglichen Positionen der Aufnahmeeinrichtung mit zugehörigem ursprünglichen Bild gebildet wird, für die Zuordnungen eine jeweilige Homografie zwischen virtuellem Ausgangsbild und zugehörigem ursprünglichen Bild bestimmt wird und für die virtuellen Ausgangsbilder aus dem zugehörigen ursprünglichen Bild jeweils ein virtuelles Endbild erzeugt wird, indem unter Verwendung der jeweils bestimmten Homografie das ursprüngliche Bild in das zugehörige Endbild abgebildet wird.

Description

Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge ursprünglicher Bilder virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten.
Hintergrund der Erfindung
Derartige Verfahren zum Bearbeiten von Videodatensätzen werden unter anderem dazu benutzt, aus so genannten monokularen Videos Mehrfachdarstellungsvideos („Multi-View-Video") zu erzeugen. Solche Videosequenzen können zum Beispiel in Verbindung mit 3D-Anzeigen oder auto-stereoskopische Anzeigen genutzt werden, um dem Betrachter auch einen Tiefeneindruck des betrachteten Bildes zu vermitteln. Mit Hilfe der Verfahren zum Verarbeiten von Videodatensätzen findet praktisch eine Transformation von Videosequenzen für zweidimensionale Darstellungen in Videosequenzen für eine dreidimensionale Darstellung statt. Hierfür wurden verschiedene Verfahren vorgeschlagen. Die existierenden Verfahren können grob in Verfahren zum Erzeugen eines kompletten 3D-Modells für die im Bild eingefangene Szene (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003; Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000; Tomasi et al., Journal of Computer Vision 9(2), S. 137–154, 1992; Knorr et al., "A modular scheme for 2D/3D conversion of TV broadcast", 3rd Int. Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT), Chapel Hill, USA, 2006) und Verfahren unterteilt werden, bei denen eine stereoskopische Darstellung erzeugt wird, entweder mittels Berechnen von planaren Transformationen (vgl. Rotem et al., Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XII, Vol. 5664, S. 198–206, March 2005; WO 02/091754 ) oder mit Hilfe einer Tiefenanalyse für jedes Bild aus der Videosequenz, wobei die so genannte DIBR-Technologie (DIBR – „Depth-Image-Base-Rendering"); (K. Moustakas et al., IEEE Trans. on Circuits and Systems for Video Technology, Vol. 15, Nr. 8, S. 106–1073, August 2005; K. T. Kim et al., "Synthesis of a high-resolution 3D stereoscopic image pair from a high-resolution monoscopic image and a low-resolution depth map", Proc. of the SPIE: Stereoscopic Displays and Applications IX, San José, USA, 1998; C. Fehn, "Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3D-TV", Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XI, San José, USA, 2004; L. Zhang et al., "Stereoscopic image generation based on depth images", IEEE Int. Conf. on Image Processing (ICIP), Singapore, 2004; WO 2005/013623 ) genutzt wird.
Zu den Methoden, die versuchen, ein vollständiges 3D-Modell einer aufgenommenen Szene zu ermitteln, gehört die so genannte SfM-Analyse oder SfM-Technik (SfM – „Structure from Motion"); (Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Mit Hilfe der SfM-Analyse werden in einem frei wählbaren Koordinatensystem die räumlichen Koordinaten für die zur Aufnahme der Bilder der Videosequenz genutzten Aufnahmeeinrichtung ermittelt, zum Beispiel eine Kamera. Gleichzeitig können mit Hilfe dieser Analyse im gewählten Koordinatensystem die räumlichen Koordinaten für Referenzbildpunkte in den 2D-Bildern der existierenden Videosequenz berechnet werden. Die SfM-Technik kann allerdings eine Dichte und exakte 3D-Modellierung nicht liefern, was jedoch für eine Erzeugung von stereoskopischen Bildern mit hoher Qualität notwendig ist. Das DIBR-Verfahren verlangt wiederum eine dichte Tiefenabschätzung, die ihrerseits äußerst zeitaufwendig und fehlerbehaftet ist.
Zusammenfassung der Erfindung
Aufgabe der Erfindung ist es, ein verbessertes Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge ursprünglicher Bilder umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge ursprünglicher Bilder virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten anzugeben, mit dem Mehrfachdarstellungs-Videosequenzen aus monokularen Videosequenzen erzeugt werden können, ohne dass dieses eine aufwendige dichte Tiefenanalyse der in den Bildern dargestellten Szenen erfordert.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach dem unabhängigen Anspruch 1 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand von abhängigen Unteransprüchen.
Die Erfindung umfasst den Gedanken, beim Verarbeiten eines Videodatensatzes mit ursprünglichen Bildern diese zunächst einer SfM-Analyse zu unterziehen. Weiterhin werden virtuelle Ausgangsbilder erzeugt, denen jeweils eine virtuelle Position einer zur Aufnahme des virtuellen Ausgangsbildes genutzten Aufnahmeeinrichtung, zum Beispiel eine Kamera, zugeordnet ist. Im folgenden wird dann jeder ursprünglichen Position der Aufnahmeeinrichtung, zu der ein jeweiliges ursprüngliches Bild gehört, wenigstens eine der virtuellen Positionen der Aufnahmeeinrichtung für die virtuellen Ausgangsbilder zugeordnet. Für die so ermittelten Zuordnungen wird danach eine jeweilige Homografie zwischen ursprünglichem Bild und zugehörigem virtuellen Ausgangsbild ermittelt. Bei der jeweiligen Homografie handelt es sich um eine berechnete planare Transformation zwischen ursprünglichem Bild und zugehörigem virtuellen Ausgangsbild. Anschließend können die Homografien dazu genutzt werden, ein jeweiliges vollständiges virtuelles Bild, nämlich ein virtuelles Endbild, aus dem jeweils zugehörigen ursprünglichen Bild zu erzeugen. Der geänderte Videodatensatz umfasst dann neben den ursprünglichen Bildern die erzeugten virtuellen Endbilder. Die geänderte Videodatensequenz kann mit Hilfe einer geeigneten Wiedergabeeinrichtung genutzt werden, eine stereoskopische 3D-Darstellung der in den Bildern gezeigten Szene zu erzeugen.
Vorteile der Erfindung gegenüber den Verfahren zur Erstellung eines vollständigen 3D-Modells liegen zum einen in einer reduzierten Rechenkomplexität und zum anderen in der Vermeidung von störenden Artefakten bei der stereoskopischen 3D-Darstellung, die bei der Erzeugung von virtuellen Bildern aus zuvor geschätzten 3D-Modellen entstehen. Gegenüber den Verfahren, die die sogenannte DIBR-Technologie verwenden, liegen Vorteile darin, dass der Einsatz der DIBR-Technologie nur in Verbindung mit der zusätzlichen Information der Tiefe für jeden Bildpunkt aller ursprünglichen Bilder des Videodatensatzes möglich ist. Die Bestimmung der Tiefeninformation aller Bildpunkte ist hingegen sehr rechenintensiv und fehleranfällig. Zudem ist eine Erhöhung der Auflösung (Super-Resolution) bei der Erzeugung eines virtuellen Bildes mit der DIBR-Technologie nicht möglich.
Bei einer vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, dass die Zuordnungen gebildet werden, indem den virtuellen Positionen der Aufnahmeeinrichtung mit zugehörigem virtuellen Ausgangsbild jeweils wenigstens eine seitlich nächstliegende der ursprünglichen Positionen der Aufnahmeeinrichtung mit zugehörigem ursprünglichen Bild zugeordnet wird.
Eine zweckmäßige Weiterbildung der Erfindung sieht vor, dass die wenigstens eine seitlich nächstliegende, ursprüngliche Position der Aufnahmeeinrichtung in einem seitlichen Abstand von etwa 64 mm zu der zugeordneten virtuellen Position der Aufnahmeeinrichtung gebildet ist. Der vorgeschlagene Abstand entspricht einem durchschnittlichen Augenabstand.
Eine Fortbildung der Erfindung kann vorsehen, dass die virtuellen Positionen für die Aufnahmeeinrichtung zum Aufnehmen der virtuellen Bilder in im Wesentlichen äquidistanten Abständen zu den ursprünglichen Positionen gebildet werden.
Bei einer bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass zu den ursprünglichen Positionen jeweils mehrere virtuelle Positionen der Aufnahmeeinrichtung gebildet werden, die untereinander wahlweise äquidistant beabstandet sind.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der geänderte Videodatensatz in einen geänderten Videodatensatz mit Bildern erhöhter Auflösung umgewandelt wird, indem unter Verwendung der jeweils bestimmten Homografien aus der Folge der ursprünglichen Bilder und den zusätzlichen virtuellen Bildern eine Folge von Bildern mit einer erhöhten Auflösung erzeugt wird, die höher ist als eine ursprüngliche Auflösung der ursprünglichen Bilder und der zusätzlichen virtuellen Bilder.
Beschreibung bevorzugter Ausführungsbeispiele der Erfindung
Die Erfindung wird im Folgenden anhand von bevorzugten Ausführungsbeispielen unter Bezugnahme auf Figuren einer Zeichnung näher erläutert. Hierbei zeigen:
1 eine schematische Darstellung zur Beschreibung des Ablaufs eines Verfahrens zum Bearbeiten eines Videodatensatzes mit ursprünglichen Bildern,
2 eine schematische Darstellung zur Erläuterung eines Ausführungsbeispiels für das Erzeugen eines mit einer virtuellen Aufnahmeeinrichtung aufgenommenen virtuellen Endbildes ausgehend von einer mit einer ursprünglichen Aufnahmeeinrichtung aufgenommenen Folge ursprünglicher Bilder einer 3D-Szene,
3 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Bestimmen einer Position einer virtuellen Aufnahmeeinrichtung im Abstand zu einer ursprünglichen Aufnahmeeinrichtung,
4 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Erzeugen eines virtuellen Endbildes,
5 ein ursprüngliches Bild (links) und ein hierzu erzeugtes, zugehöriges virtuelles Endbild (rechts),
6 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Auffüllen nicht ausgefüllter Bildinhalte virtueller Endbilder,
7 ein aus 30 ursprünglichen Bildern erzeugtes virtuelles Endbild (links) und ein aus 62 ursprünglichen Bildern erzeugtes virtuelles Endbild (rechts),
8 ein Ablaufdiagramm für ein Verfahren zum Erzeugen eines hochauflösenden virtuellen Bildes,
9 eine schematische Darstellung zur Erläuterung des Verfahrens zum Erzeugen eines hochauflösenden virtuellen Bildes,
10 vier virtuelle Endbilder eines Videodatensatzes „Statur" sowie das ursprüngliche Bild in der Mitte und
11 zwei weitere virtuelle Endbilder des Videodatensatzes „Statur", wobei das virtuelle Endbild auf der rechten Seite mit höherer Auflösung erzeugt wurde.
Im Folgenden wird zunächst die Analyse des als Ausgang des Verfahrens dienenden und zu bearbeitenden Videodatensatzes mit ursprünglichen Bildern mittels der SfM-Analyse näher beschrieben. Ziel der SfM-Analyse ist es, äußere und innere Parameter der zur Aufnahme der von dem zu bearbeitenden Videodatensatz umfassten ursprünglichen Bilder genutzten Aufnahmeeinrichtung (Kamera) sowie die räumlichen Koordinaten von zumindest Referenzbildpunkten in den ursprünglichen Bildern des Videodatensatzes in einem frei wählbaren Koordinatensystem zu ermitteln. Die SfM-Analyse verlangt eine Relativbewegung zwischen der aufzunehmenden statischen Szene und der Aufnahmeeinrichtung.
In einem Anfangsschritt werden Beziehungen zwischen den ursprünglichen Bildern des Videodatensatzes gesucht. Solche geometrischen Beziehungen, die auch als epipolare Geometrie bezeichnet werden, können aus einer ausreichenden Anzahl von Referenzbildpunkte in den ursprünglichen Bildern ermittelt werden (vgl. beispielsweise Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Wenn die ursprünglichen Bilder miteinander in Beziehung gesetzt sind, können für die Aufnahmeeinrichtung Projektionsmatrizen berechnet werden, indem die Einzelwertdekomposition verwendet wird (vgl. zum Beispiel Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003). Wenn die Korrespondenz zwischen den Referenzbildpunkten in den ur sprünglichen Bildern und die Projektionsmatrizen ermittelt sind, können die räumlichen Koordinaten für die zuvor ermittelten Referenzbildpunkte unter Verwendung der Triangulation (vgl. beispielsweise R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146–157, 1997) berechnet werden. Für eine noch genauere Bestimmung der berechneten Parameter kann optional noch eine so genannte Bündelanpassung verwendet werden („bundle adjustment"; vgl. zum Beispiel B. Triggs et al., "Bundle adjustment – a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer-Verlag, 2000).
Im Folgenden werden die zuvor grob skizzierten Verfahrensschritte der SfM-Analyse näher erläutert.
A. Ermitteln von Referenzbildpunkten und Bildauswahl
Referenzbildpunkte oder -objekte können beliebige Elemente aus den ursprünglichen Bildern sein. Bevorzugt werden in den Bildern des Videodatensatzes sich nicht ändernde Bildelemente ausgewählt. Es sind verschiedene Verfahren als solche bekannt, geeignete Referenzbildpunkte oder -objekte auszuwählen. Der Harris-Detektor (vgl. beispielsweise C. G. Harris et al., "A combined corner and edge detector", In 4th Alvey Vision Conference, S. 147–151, 1988) zählt dabei zu den am häufigsten zitierten Detektoren, mit dessen Hilfe Eckpunkte (Corner) oder Kanten in Bildern anhand von Gradienten bei den Intensitätswerten gefunden werden. Diese Eckpunkte, die sich durch einen hohen Gradienten in alle Richtungen auszeichnen, können als Referenzbildpunkte leichter in den Bildern des Videodatensatzes gefunden bzw. verfolgt werden (vgl. beispielsweise C. Tomasi et al., "Detection and tracking of point features", Technical Report CMU-CS-91-132, Carnegie Mellon University Technical, 1991).
B. Multidarstellungs-Rekonstruktion
Nach der Auswahl von Schlüsselbildern unter den ursprünglichen Bildern, nämlich von Bildern, die für die SfM-Analyse zunächst genutzt werden, und der Bestimmung der Referenzbildelemente wird zunächst eine Fundamentalmatrix F zwischen zwei ersten der Schlüsselbilder des Videodatensatzes berechnet. Die RANSAC-Technik (RANSAC – „RANdom SAmple Consensus"; M. Fischler et al., Communications of the ACM, S. 381–385, 1981) liefert ein robustes Verfahren, welches einen Teil der Referenzbildelemente (Inliers) für die Berechnung von F auswählt. Danach werden Projektionsmatrizen P1 und P2 mittels der Einzelwert-Dekomposition bestimmt. Das Referenzkoordinatensystem wird mit der Position der ersten Aufnahmeeinrichtung ausgerichtet (vgl. zum Beispiel Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Wenn die Projektionsmatrizen P1 und P2 bekannt sind, können dann räumliche Koordinaten der Referenzbildelemente mittels Triangulation gefunden werden (vgl. zum Beispiel R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146–157, 1997).
Der nächste Schritt betrifft die Aktualisierung der räumlichen Koordinaten der Referenzbildelemente und der Bewegung der Aufnahmeeinrichtung. Erst wird die Projektionsmatrix für die Aufnahmeeinrichtung für ein nächstes der Schlüsselbilder bestimmt, indem die bereits existierenden 3D-2D-Referenzbildelement-Korrespondenzen genutzt werden, wie dieses als solches bekannt ist (vgl. zum Beispiel Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Danach können die räumlichen Koordinaten für die Referenzbildelemente und die Matrix der Aufnahmeeinrichtung mittels weiterer 3D-2D-Referenzbildelement-Korrespondenzen verfeinert werden. Diese Prozedur wird für alle Schlüsselbilder aus der Gruppe der ursprünglichen Bilder in dem zu bearbeitenden Videodatensatz wiederholt.
Eine abschließende Feinanpassung der räumlichen Koordinaten der Referenzbildelemente kann dann mittels globaler nichtlinearer Minimierungstechniken für alle ursprünglichen Bilder des zu bearbeitenden Videodatensatzes ausgeführt werden, was auch als Bündelanpassung („bundle adjustment") bekannt ist (vgl. zum Beispiel B. Triggs et al., "Bundle adjustment – a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer-Verlag, 2000).
C. Selbstkalibrierung
Wenn die internen Einstellungen für die zum Aufnehmen der ursprünglichen Bilder genutzte Aufnahmeeinrichtung (interne Kamera(-kalibrierungs)parameter) unbekannt sind, was häufig bei TV-Übertragungen, privaten Filmen oder Kinofilmen der Fall ist, muss eine Selbstkalibrierungsprozedur ausgeführt werden. Dabei werden aus den zuvor bestimmten Projektions matrizen die internen Kameramatrizen
mit den internen Parameter der ursprünglichen Aufnahmeeinrichtung (α_x: Fokale Länge in Bildpunktkoordinaten in x-Richtung, α_y: Fokale Länge in Bildpunktkoordinaten in y-Richtung, s: Scherungsparameter, x₀: x-Koordinate des Hauptpunktes der Aufnahmeeinrichtung und y₀: y-Koordinate des Hauptpunktes der Aufnahmeeinrichtung), die Rotationsmatrizen R_i, welche die Parameter für die Ausrichtungen der ursprünglichen Aufnahmeeinrichtungen enthalten, und die Positionen C_i der ursprünglichen Aufnahmeeinrichtungen berechnet (vgl. beispielsweise Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 oder Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000).
Mit Hilfe der vorangehend erläuterten SfM-Analyse stehen nun die folgenden Informationen zur Verfügung: räumliche Koordinaten der ausgewählten Referenzbildelemente in den ursprünglichen Bildern des zu bearbeitenden Videodatensatzes, räumliche Koordinaten für die Positionen und Ausrichtungen für die zum Aufnehmen der ursprünglichen Bilder genutzte Aufnahmeeinrichtung relativ zu dem gewählten Koordinatensystem (externe Kameraparameter) und die internen Einstellungen für die zum Aufnehmen der ursprünglichen Bilder genutzte Aufnahmeeinrichtung (interne Kamera(-kalibrierungs)parameter). Ausgehend hiervon werden danach zusätzlich virtuelle Bilder mit zugehörigen Positionen der genutzten Aufnahmeeinrichtung erzeugt, was im Folgenden näher erläutert wird. Die virtuellen Bilder werden hierbei zunächst als virtuelle Ausgangsbilder erzeugt, für die nur eine begrenzte Anzahl von virtuellen Bildpunkten vorliegt, die ihrerseits in Beziehung zu den oben ausgewählten Referenzbildpunkten stehen.
Unter Verwendung des Ergebnisses der SfM-Analyse werden die räumlichen Referenzbildpunkte in die virtuellen Ausgangsbilder projiziert. So ergibt sich, dass jedes der virtuellen Ausgangsbilder eine abgewandelte Version der Referenzbildelemente in den ursprünglichen Bilder ist.
Unter Verwendung einer ermittelten Homografie zwischen virtuellem Ausgangsbild und zugehörigem ursprünglichen Bild, was in einem Folgeschritt ausgeführt wird (vgl. insbesondere Abschnitt E. unten), kann dann schließlich ein vollständiges virtuelles Bild, nämlich ein virtuelles Endbild, erzeugt werden, indem sämtliche Bildpunkte oder Bildelemente aus dem ursprünglichen Bild in das zugehörige virtuelle Endbild projiziert werden. Auf diese Weise können zu einem ursprünglichen Bild ein oder mehrere virtuelle Endbilder erzeugt werden, je nachdem wie viele virtuelle Ausgangsbilder einem ursprünglichen Bild zugeordnet wurden, was im Folgenden noch weiter erläutert wird.
D. Bestimmen der Positionen der virtuellen Aufnahmeeinrichtungen (Schritt 102)
Die Anordnung der virtuellen Aufnahmeeinrichtung erfordert die Definition eines horizontalen Abstandes zwischen den Bildern, die so genannten Bildschirm-Parallax-Werte. Der durchschnittliche menschliche Augenabstand beträgt 64 mm, d. h. für jede ursprüngliche Aufnahmeeinrichtung muss mindestens eine (oder mehrere für entsprechende 3D Ausgabegeräte) virtuelle Aufnahmeeinrichtung bestimmt werden, bei der der horizontale Abstand etwa 64 mm beträgt. Sollen mehrere virtuelle Aufnahmeeinrichtungen erzeugt werden, so müssen die Abstände zwischen den virtuellen Aufnahmeeinrichtungen jeweils äquidistant etwa 64 mm betragen.
Im Folgenden wird die Bestimmung der Position einer virtuellen Aufnahmeeinrichtung im Abstand von 64 mm zu einer ursprünglichen Aufnahmeeinrichtung näher beschrieben (vgl. 3)
Die SFM-Analyse lieferte einen relativen Bezug der Positionen und Ausrichtungen der ursprünglichen Aufnahmeeinrichtung und der Referenzbildelemente zu einem gewählten Koordinatensystem. Für die Bestimmung einer virtuellen Aufnahmeeinrichtung im Abstand von 64 mm zu einer ursprünglichen Aufnahmeeinrichtung werden absolute Beziehungen benötigt, d. h. der Abstand zum Beispiel zwischen zwei ursprünglichen Aufnahmeeinrichtungen oder zwischen dem gewählten Referenzkoordinatensystem und einer ursprünglichen Aufnahmeeinrichtung muss in Meter bekannt sein. Im Folgenden werden die Schritte zur Bestimmung einer virtuellen Aufnahmeeinrichtung beschrieben (vgl. 3):

D1. Manuelle Eingabe der Distanz ts zwischen der ersten ursprünglichen Aufnahmeeinrichtung der Folge der ursprünglichen Bilder und dem gewählten Referenzkoordinatensystem (zum Beispiel der räumliche Schwerpunkt der 3D-Referenzbildpunkte in 2) in Metern (Schritt 301).
D2. Normierung der Positionen C_i der ursprünglichen Aufnahmeeinrichtungen auf ein metrisches Maß innerhalb des gewählten Referenzkoordinatensystems mit
wobei ||C_l|| die Euklidische Distanz zwischen dem Ursprung des gewählten Referenzkoordinatensystems und der ersten ursprünglichen Aufnahmeeinrichtung ist (Schritt 302).
D3. Berechnung der Positionen Cmi,virtuell der virtuellen Aufnahmeeinrichtung
wobei R–1i die Inverse der Rotationsmatrix
der ursprünglichen Aufnahmeeinrichtung, für die die Position der virtuellen Aufnahmeeinrichtung bestimmt wird, und ±n·t_x der horizontale Abstand der virtuellen Aufnahmeeinrichtung von der ursprünglichen Aufnahmeeinrichtung (±n·64 mm) nach links bzw. rechts ist (n ist die Anzahl der zu erzeugenden virtuellen Bilder in eine der beiden möglichen horizontalen Richtungen) (Schritt 303).
D4. Berechnung der Abstände der virtuellen Aufnahmeeinrichtung Cmi,virtuell zu allen ursprünglichen Aufnahmeeinrichtungen des Videodatensatzes Cmi (Schritt 304).
D5. Inversion der Normierung für die Positionen der virtuellen Aufnahmeeinrichtung
(Schritt 305).
D6. Bestimmung der Projektionsmatrizen P_i der ursprünglichen Aufnahmeeinrichtungen mit Pi = KRi[I| – C ~i] und P_i,virtuell der virtuellen Aufnahmeeinrichtungen mit Pi,virtuell = KRi[I| – C ~i,virtuell], wobei K die interne Kameramatrix mit den internen Parametern der ursprünglichen Aufnahmeeinrichtung, R_i die Rotationsmatrizen der ursprünglichen Aufnahmeeinrichtung,
die Einheitsmatrix und C ~i bzw. C ~i,virtuell die Positionen der entsprechenden Aufnahmeeinrichtungen in inhomogenen Koordinaten sind (Schritt 306).

E. Erzeugen eines virtuellen Endbildes über Homografien (Schritt 103)
Referenzbildelemente in den ursprünglichen Bildern m_k (k = 1, 2, ...; Anzahl der Referenzbildelemente im i-ten Bild) einerseits und den virtuellen Ausgangsbildern m_k,virtuell andererseits stehen über die Homografie H in Beziehung. Wenn der Abstand zwischen der virtuellen Position der Aufnahmeeinrichtung für das virtuelle Ausgangsbild und der ursprünglichen Position der Aufnahmeeinrichtung für das zugehörige ursprüngliche Bild klein ist, ergibt sich: mk = Himk,virtuell.
H ist eine 3×3-Matrix, enthält deshalb neun Einträge und ist bis auf einen Skalierungsfaktor bestimmt. m_k ist aus der SfM-Analyse bekannt. m_k,virtuell ergibt sich aus der Beziehung m_k,virtuell = P_i,virtuellM_k (M_k – räumliche Koordinaten der Referenzbildpunkte oder 3D Referenzbildpunkte). Somit kann H_i bestimmt werden, und zwar mit einer minimalen Anzahl von Korrespondenzen zwischen vier Referenzbildpunkten (vgl. zum Beispiel Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003).
Wenn die Homografie H zwischen einem virtuellen Ausgangsbild und dem zugeordneten ursprünglichen Bild bekannt ist, können danach alle Bildpunkte/Bildelemente aus dem ursprünglichen Bild in das zugehörige virtuelle Endbild projiziert werden, so dass das virtuelle Endbild entsteht. Bei nicht exakter Korrespondenz der Bildpunktraster wird eine bilineare Interpolation der Bildpunktwerte ausgeführt. Im Folgenden werden die Schritte der Erzeugung eines virtuellen Endbildes unter Bezugnahme auf 4 im Detail beschrieben (Schritt 103):

E1. Projektion der 3D Referenzbildpunkte M_k in die der virtuellen Aufnahmeeinrichtung dichteste ursprüngliche Aufnahmeeinrichtung mit m_k = P_i·M_k (Schritt 401).
E2. Projektion der 3D Referenzbildpunkte M_k in die virtuelle Aufnahmeeinrichtung mit m_k,vituell = P_i,vituell·M_k zur Erzeugung eines virtuellen Ausgangsbildes (Schritt 402).
E3. Bestimmung der Homografie zwischen dem virtuellen Ausgangsbild und dem der dichtesten ursprünglichen Aufnahmeeinrichtung zugeordneten ursprünglichen Bild mittels Lösen der Gleichung m_k = H_i·m_k,virtuell (zum Beispiel mittels Minimierung einer Transformationsfehlerfunktion (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) oder mithilfe der Direkten Linearen Transformation (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) (Schritt 403).
E4. Projektion der Bildpunkte aus dem ursprünglichen Bild in das zugehörige virtuelle Ausgangsbild über die im Schritt E3. bestimmte Transformationsmatrix H_i mit B_virtuell(m_j,virtuell) = B(H_i·m_j,virtuell) = B(m_j) (j = 1, 2, ..., Anzahl aller Bildpunkte des dem virtuellen Ausgangsbild B_virtuell zugehörigen ursprünglichen Bildes B) zur Erzeugung des virtuellen Endbildes (Schritt 404).
E5. Wiederholung der Schritte E1. bis E4. für alle zu erzeugenden virtuellen Endbilder des Videodatensatzes.

5 zeigt ein Beispiel für ein ursprüngliches Bild (5, links), zu dem ein virtuelles Bild erzeugt werden soll, und das entsprechende virtuelle Endbild (5, rechts), welches aus einem anderen ursprünglichen Bild des Videodatensatzes, das dem virtuellen Bild am dichtesten lag, erzeugt wurde.
F. Auffüllen nicht ausgefüllter Bildinhalte der virtuellen Endbilder (optional) (Schritt 405)
Da das Erzeugen eines virtuellen Endbildes nur durch das am dichtesten liegende ursprüngliche Bild nicht immer zu einem komplett mit Bildpunkten ausgefüllten Endbild führt (vgl. 5, rechts), müssen zusätzliche ursprüngliche Bilder der ursprünglichen Aufnahmeeinrichtung herangezogen werden. Im Folgenden werden die Schritte zum Auffüllen nicht ausgefüllter Bildinhalte (Schritt 601) der virtuellen Endbilder unter Bezugnahme auf 6 beschrieben:

F1. Projektion der 3D Referenzbildpunkte M_k in die der virtuellen Aufnahmeeinrichtung nächst dichteste ursprüngliche Aufnahmeeinrichtung mit m_k = P_i,neu·M_k (Schritt 602).
F2. Bestimmung der Homografie zwischen dem virtuellen Ausgangsbild und dem der nächst dichtesten ursprünglichen Aufnahmeeinrichtung zugeordneten ursprünglichen Bild mittels Lösen der Gleichung m_k = H_i,neu·m_k,virtuell (zum Beispiel mittels Minimierung einer Transformationsfehlerfunktion (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) oder mithilfe der Direkten Linearen Transformation (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) (Schritt 603).
F3. Projektion noch fehlender Bildpunkte aus dem ursprünglichen Bild in das zugehörige virtuelle Ausgangsbild über die Transformationsmatrix H_i,neu mit B_virtuell(m_j,virtuell) = B(H_i,neu·m_j,virtuell) = B(m_j) (j = 1, 2, ..., Anzahl der fehlenden Bildpunkte des dem virtuellen Ausgangsbild B_virtuell zugehörigen ursprünglichen Bildes B) zur Erzeugung des virtuellen Endbildes (Schritt 603).
F4. Wiederholung der Schritte F1. bis F3. bis das virtuelle Endbild aufgefüllt ist (Der Grad der Füllung des virtuellen Endbildes ist dabei frei wählbar) (Schritt 601).

7 zeigt ein Beispiel für ein aus 30 ursprünglichen Bildern der ursprünglichen Aufnahmeeinrichtung erzeugtes virtuelles Endbild (7, links) und ein aus 62 ursprünglichen Bildern der ursprünglichen Aufnahmeeinrichtung erzeugtes virtuelles Endbild (7, rechts), welches zu einem ursprünglichen Bild (5, links) im Augenabstand von 64 mm entsprechend erzeugt werden sollte.
G. Erzeugen von hochauflösenden virtuellen Bildern (optional) (Schritt 406)
Da gemäß Beschreibung im Abschnitt F. oben mehrere ursprüngliche Bilder einer ursprünglichen Aufnahmeeinrichtung zur Erzeugung eines virtuellen Endbildes verwendet werden können, kann die zusätzlich zur Verfügung stehende Information aller zur Erzeugung des virtuellen Endbildes verwendeten ursprünglichen Bilder dazu herangezogen werden, die Auflösung des virtuellen Endbildes zu erhöhen, was auch als Super-Resolution bezeichnet werden kann. Im Folgenden werden die Schritte zur Erzeugung eines hochauflösenden virtuellen Endbildes beschrieben (8 und 9):

G1. Erzeugung eines virtuellen Endbildes wie in den Abschnitten E. und F. oben beschrieben (Schritte 401, ..., 405).
G2. Festlegung der neuen Auflösung eines virtuellen Endbildes (Schritt 801).
G3. Erzeugung eines virtuellen Ausgangsbildes mit der im Schritt G2. festgelegten Auflösung (Schritt 802).
G4. Berechnung der Positionen eines Bildpunktes des virtuellen Ausgangsbildes aus Schritt G3. in den im Schritt 1. verwendeten ursprünglichen Bildern über die im Schritt G1. bestimmten Homografien mit m_l = H_l·m_virtuell (l = 1, 2, ..., Anzahl der ursprünglichen Bilder, die für die Erzeugung eines virtuellen Endbildes nach dem Schritt G1. verwendet wurden) (Schritt 804).
G5. Berechnung der Bildpunktwerte an den im Schritt G4. berechneten Positionen in den ursprünglichen Bildern (Schritt 805).
G6. Berechnung des Medianwertes der im Schritt G5. berechneten Bildpunktwerte mit Bmed(ml) = median ∀lBl(ml) (Schritt 806).
G7. Projektion des Bildpunktwertes, welcher sich innerhalb eines definierten Toleranzbereiches um den Medianwert befindet und dessen Position am dichtesten am Bildpunktraster liegt (9, ursprüngliches Bild 2) (Schritt 807).
G8. Wiederholung der Schritte G4. bis G8. bis das virtuelle Ausgangsbild aus dem Schritt G3. aufgefüllt ist (Schritt 803). Der Grad der Füllung ist frei wählbar.

H. Experimentelle Untersuchungen
10 zeigt vier virtuelle Bilder eines Videodatensatzes „Statur", die dem vorangehend beschriebenen Verfahren entsprechend (in äquidistanten Abständen von 64 mm) erzeugt wurden, sowie das ursprüngliche Bild in der Mitte.

Tabelle 1 zeigt das Ergebnis experimenteller Untersuchungen unter Verwendung des oben beschriebenen Verfahrens. Verschiedene Videodatensätze wurden untersucht, bei denen es sich jeweils um TV-Übertragungen bzw. um Filmaufnahmen einer digitalen Handkamera handelte. Neben der Bildpunktauflösung ist der Abstand t_s des räumlichen Schwerpunktes der 3D-Szene in Meter angegeben. In der letzten Spalte ist die mittlere Anzahl der verwendeten ursprünglichen Bilder zur Erzeugung eines virtuellen Bildes angegeben. Tabelle 1

Videodatensatz	Auflösung	Abstand t_s in m	Mittlere Anzahl von ursprünglichen Bildern zur Erzeugung eines virtuellen Bildes
TV Übertragung
Pyramide	720 × 405	8	2,13
Vase	720 × 405	5	1,69
Klippe	720 × 576	10	3,04
Wand	720 × 576	10	10,50
Tal	720 × 576	10	14,38

Handkamera
Medusa	448 × 358	3	14,04
Dom	720 × 576	8	61,24
Fasade	720 × 576	6	37,11
Statur	720 × 576	8	53,70
Kirche	576 × 720	6	8,14

11 zeigt jeweils das gleiche virtuelle Endbild des Videodatensatzes „Statur", die dem vorangehend beschriebenen Verfahren entsprechend erzeugt wurden. Das rechte virtuelle Endbild in 11 wurde mit dem optionalen Verfahren (wie im Abschnitt G. oben beschrieben) in einer höheren Auflösung (1080 × 864 Bildpunkte) als die Auflösung der ursprünglichen Bilder (720 × 576 Bildpunkte) erzeugt. Zum Vergleich dazu wurde das linke virtuelle Endbild in 11 mit dem in den Abschnitten E. und F. beschrieben Verfahren erzeugt (Auflösung des virtuellen Endbildes entsprechend der Auflösung der ursprünglichen Bilder des Videodatensatzes, 720 × 576 Bildpunkte) und anschließend mittels Lanczos-Filterung auf die höhere Auflösung (1080 × 864) gebracht.
Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- WO 02/091754 [0002]
- WO 2005/013623 [0002]

Zitierte Nicht-Patentliteratur

- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0002]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0002]
- Tomasi et al., Journal of Computer Vision 9(2), S. 137–154, 1992 [0002]
- Knorr et al., "A modular scheme for 2D/3D conversion of TV broadcast", 3rd Int. Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT), Chapel Hill, USA, 2006 [0002]
- Rotem et al., Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XII, Vol. 5664, S. 198–206, March 2005 [0002]
- K. Moustakas et al., IEEE Trans. on Circuits and Systems for Video Technology, Vol. 15, Nr. 8, S. 106–1073, August 2005 [0002]
- K. T. Kim et al., "Synthesis of a high-resolution 3D stereoscopic image pair from a high-resolution monoscopic image and a low-resolution depth map", Proc. of the SPIE: Stereoscopic Displays and Applications IX, San José, USA, 1998 [0002]
- C. Fehn, "Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3D-TV", Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XI, San José, USA, 2004 [0002]
- L. Zhang et al., "Stereoscopic image generation based on depth images", IEEE Int. Conf. on Image Processing (ICIP), Singapore, 2004 [0002]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0003]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0026]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0026]
- R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146–157, 1997 [0026]
- B. Triggs et al., "Bundle adjustment – a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer-Verlag, 2000 [0026]
- C. G. Harris et al., "A combined corner and edge detector", In 4th Alvey Vision Conference, S. 147–151, 1988 [0028]
- C. Tomasi et al., "Detection and tracking of point features", Technical Report CMU-CS-91-132, Carnegie Mellon University Technical, 1991 [0028]
- M. Fischler et al., Communications of the ACM, S. 381–385, 1981 [0029]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0029]
- R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146–157, 1997 [0029]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0030]
- B. Triggs et al., "Bundle adjustment – a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer-Verlag, 2000 [0031]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0032]
- Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000 [0032]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0040]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0041]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0041]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0043]
- Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 [0043]

Claims

Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge von ursprünglichen Bildern aus diesen abgeleitete, virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten, bei dem: – eine SfM-Analyse für die ursprünglichen Bilder und eine jeweils zugeordnete ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeinrichtung durchgeführt wird, – virtuelle Positionen für eine Aufnahmeeinrichtung zum Aufnehmen von virtuellen Bildern gebildet werden, – für die virtuellen Positionen der Aufnahmeinrichtung mit zugehörigem virtuellen Ausgangsbild eine jeweilige Zuordnung zu wenigstens einer der ursprünglichen Positionen der Aufnahmeinrichtung mit zugehörigem ursprünglichen Bild gebildet wird, – für die Zuordnungen eine jeweilige Homografie zwischen virtuellem Ausgangsbild und zugehörigem ursprünglichen Bild bestimmt wird und – für die virtuellen Ausgangsbilder aus dem zugehörigen ursprünglichen Bild jeweils ein virtuelles Endbild erzeugt wird, indem unter Verwendung der jeweils bestimmten Homografie das ursprüngliche Bild in das zugehörige Endbild abgebildet wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zuordnungen gebildet werden, indem den virtuellen Positionen der Aufnahmeinrichtung mit zugehörigem virtuellen Ausgangsbild jeweils wenigstens eine seitlich nächstliegende der ursprünglichen Positionen der Aufnahmeinrichtung mit zugehörigem ursprünglichen Bild zugeordnet wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die wenigstens eine seitlich nächstliegende, ursprüngliche Position der Aufnahmeinrichtung in einem seitlichen Abstand von etwa 64 mm zu der zugeordneten virtuellen Position der Aufnahmeinrichtung gebildet ist.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die virtuellen Positionen für die Aufnahmeeinrichtung zum Aufnehmen der virtuellen Bilder in im wesentlichen äquidistanten Abständen zu den ursprünglichen Positionen gebildet werden.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass zu den ursprünglichen Positionen jeweils mehrere virtuelle Positionen der Aufnahmeeinrichtung gebildet werden, die untereinander wahlweise äquidistant beabstandet sind.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der geänderte Videodatensatz in einen geänderten Videodatensatz mit Bildern erhöhter Auflösung umgewandelt wird, indem unter Verwendung der jeweils bestimmten Homografie aus der Folge der ursprünglichen Bilder und den zusätzlichen virtuellen Bildern eine Folge von Bildern mit einer erhöhten Auflösung erzeugt wird, die höher ist als eine ursprüngliche Auflösung der ursprünglichen Bilder und der zusätzlichen virtuellen Bilder.