DE69635347T2

DE69635347T2 - Verfahren und system zum wiedergeben und kombinieren von bildern

Info

Publication number: DE69635347T2
Application number: DE69635347T
Authority: DE
Inventors: Rakesh Kumar; Padmanabhan Anandan; R. James BERGEN; James Keith HANNA; Kevin Williams; Mike Tinker
Original assignee: Sarnoff Corp
Current assignee: Sarnoff Corp
Priority date: 1995-07-10
Filing date: 1996-07-08
Publication date: 2006-07-13
Anticipated expiration: 2016-07-09
Also published as: WO1997003416A1; DE69635347D1; JPH11509064A; EP0838068A4; EP0838068B1; US6522787B1; EP0838068A1

Description

Die Erfindung betrifft Bildverarbeitungssysteme und insbesondere ein Bildverarbeitungssystem und ein begleitendes Verfahren, das ein künstliches Bild einer Szene aus einem Mosaik aus Bildern ableitet und das synthetische Bild mit einem getrennt erzeugten Zweitbild kombiniert, um ein realistisches zusammengesetztes Bild zu bilden, wobei Objekte des zweiten Bildes in dem künstlichen Bild erscheinen.
Um einen Film oder ein Fernsehprogramm zu erzeugen, investiert die Unterhaltungsindustrie mehr als 50% eines Produktionsbudgets in die Erzeugung von „Sets" einschließlich dem wiederholten Aufbau und Abbau der Sets bzw. der Dekoration und Bauten. Für die Produktion eines typischen Fernsehprogramms wird eine übermäßige Zeitmenge und Anstrengung dem wiederholten Auf- und Abbau der Sets gespendet. Die beträchtliche benötigte Zeit, um Produktionssets zu erzeugen und zu verwenden, beschränkt die Verfügbarkeit solcher Sets und beschränkt folglich die Kreativität und Flexibilität der Drehbuchschreiber und Produzenten. Weiterhin erhöht die Verwendung von komplexen und/oder großen Sets die Produktionskosten des Programms weiter.
Um die Kosten, die mit der Setverwendung verbunden sind, zu verringern, wurden Versuche mit künstlich erzeugten Objekten und Szenen unter Verwendung von Computergraphik unternommen. Diese graphischen Techniken erzeugen jedoch im allgemeinen Bilder, denen die Detailtiefe fehlt, da, wenn Detailtiefe zu einem computererzeugten Bild hinzugefügt wird, sich die Verarbeitungszeit und die Kosten dramatisch ausweiten. Im Grunde genommen werden computererzeugte Graphiken gegenwärtig auf die unverarbeitete Darstellung von dreidimensionalen Objekten und Szenen verbannt. Weiterhin ist das Fehlen der Bilddetailtiefe der Grund, daß die Bilder unrealistisch oder künstlich erscheinen.
Graf K. Ch. et al.: „Perspective Terrain Visualisation – A Fusion of Remote Sensing, Gis, and Computer Graphics" Computers and Graphics, GB, Pergamon Press Ltd. Oxford, Band 8, Nr. 6, 1. November 1994 (1994-11-01), Seiten 795–802, XP 000546612 ISSN: 0097-8493 beschreibt ein Verfahren der Bildverarbeitung, in dem ein Bild eines künstlichen oder abstrakten Objekts in ein Bild einer Szene platziert wird. Das Bild der Szene kann ein Mosaikbild von unterschiedlichen Bildern sein, die verschiedenen Korrekturen ausgesetzt wurden, um eine genaue Zueinanderausrichtung der unterschiedlichen Bilder zu erzielen. Das Bild des Objekts wird dargestellt und dann in der Szene korrekt platziert. Das Platzieren des Objekts besteht aus einer Bildzusammensetzung. Die Verwendung von identischen Betrachtungsparametern garantiert, daß die Objekte in ihrer korrekten Form und Position in Bezug auf den Boden in der Szene angezeigt werden.
R. Kumar, P. Anandan, K. Hanna: „Shape recovery from multiple views: a parallax based approach" Arpa Image Understanding Workshop, November 1994 (1994-11), Seiten 947–955, XP 000905130 beschreibt das folgende:
Gegeben seien zwei willkürliche Ansichten einer Szene unter einer Zentralprojektion, falls die Bewegung von Punkten einer parametrischen Oberfläche kompensiert wird, ist das Parallaxenrestverrückungsfeld auf dem Referenzbild ein Epipolarfeld. Die Parallaxengröße an einem Punkt nach geeigneter Skalierung ist eine affine Invariante, falls die ausgerichtete Oberfläche eine Ebene ist, ist sie direkt proportional zu der Höhe des Punktes über der Ebene und umgekehrt proportional zu ihrem Abstand von der Kamera. Wir nutzen das obige Ergebnis aus, um 3D-Höheninformation aus schrägen 3D-Luftbildern abzuleiten. Wir verwenden direkte Verfahren, um die Luftbilder auszurichten, entwickeln Verfahren, um Höheninformation unter den folgenden drei Bedingungen abzuleiten: (i) Fokuslänge und Bildzentrum sind beide bekannt, (ii) nur die Fokuslänge ist bekannt und (iii) beide sind unbekannt. Wir verwenden die Invarianzeigenschaft der skalierten Parallaxengrößen, um mehrere Einzelbildinformationen zu kombinieren, um genaue Höhen zu erhalten, und um neue Ansichten von einem gegebenen Satz von Ansichten zu extrapolieren (z. B. in photogrammetrischen Begriffen, um eine „Übertragung" zu erzielen). Wir verwenden den Blickextrapolationsprozeß, um ein Panoramamosaikbild zu konstruieren durch Kombinieren mehrerer Ansichten, das hinsichtlich 3D-Positionen von Oberflächen genau ist.
Die US-A-4,393,394 beschreibt ein Verfahren und ein System für das Erzeugen eines Hintergrundbildes kombiniert mit einem Vordergrundbild und in dem sich das Hintergrundbild entsprechend der Bewegung einer Kamera, die auf das Vordergrundbild blickt, bewegt. Das Hintergrundbild wird durch Einblendung mit dem Vordergrundbild kombiniert. Um dies durchzuführen blickt eine erste Kamera, die relativ zu dem Vordergrund bewegbar ist, auf einen Vordergrund vor einem Hintergrund mit einer ersten Farbe, die jedoch ebenso einen ausgeprägten Marker hierauf hat. Der Marker kann beispielsweise von derselben Farbe wie die erste Farbe, jedoch dunkler sein.
Zwei andere Kameras betrachten sich überlappende Abschnitte einer Hintergrundszene. Ein Schalterbild wählt zwischen den Ansichten, die durch die zwei Kameras geliefert werden, aus. Ein Markerdetektor erfaßt den Marker, der von der ersten Kamera betrachtet wird (der relativ zu der Vordergrundszene sich bewegen kann) und ein Verrückungsgenerator variiert die Synchronisierungspulse, die zu den beiden anderen Kameras geliefert werden, in Übereinstimmung mit der erfaßten Position des Markers und variiert die Taktung des Schalters durch den Schalter zwischen den beiden Blickrichtungen, die durch die anderen Kameras bereitgestellt werden, um das Hintergrundbild zu verrücken, wenn sich die erste Kamera bewegt. Eine Einblendvorrichtung kombiniert den Ausgang des Schalters mit dem Vordergrundbild.
Es besteht somit die Notwendigkeit, in der Technik nach einem System, daß die Notwendigkeit für das wiederholte Erzeugen, Aufbauen und Abbauen von Produktionssets durch elektronische Abbildung und Speicherung des Produktionssets für nachfolgende, wiederholte Verwendungen eliminiert. Weiterhin besteht die Notwendigkeit nach einem System, das eine Szene, wie z. B. ein Produktionsset, abbildet, elektronisch die Szene speichert, erlaubt, daß die abgebildete Szene danach realistisch von irgendeinem Blickpunkt betrachtet wird, einschließlich eines sich bewegenden Blickpunktes und erlaubt, daß ein synthetisiertes Bild, das den neuen Blickpunkt darstellt, mit anderen Bildern kombiniert wird.
Aspekte der Erfindung werden in den Ansprüchen spezifiziert, auf die die Aufmerksamkeit hiermit gerichtet wird.
Eine Ausführungsform der vorliegenden Erfindung ist ein System für das Abbilden einer dreidimensionalen Szene (z. B. eines Produktionssets), um eine Mehrzahl von Bildern hiervon zu erzeugen und für die Bildverarbeitung der Mehrzahl von Bildern. Die Bildverarbeitung beinhaltet das Abfragen der Mehrzahl von Bildern von Speicher oder direkt von einer Bildquelle, das Kombinieren der Bilder in ein Mosaik, das Auswählen eines neuen Blickpunktes aus der Szene und das Darstellen eines synthetischen Bildes der Szene von diesem neuen Blickpunkt. Das synthetische Bild wird dann mit einem zweiten Bild kombiniert. Die Kombination des zweiten Bildes und des synthetischen Bildes erzeugt ein zusammengesetztes Bild, das eine realistische Kombination der beiden Bilder enthält.
Weiterhin, wenn das zweite Bild erzeugt wird, überwacht das System die Pose bzw. Position der Kamera, d.h. die Drehung der Kamera, die Bewegung und das Zoomen der Kamera, um ein Indiz des Blickpunktes der Kamera zu erzeugen. Das System verwendet diese Positionsinformation, um die Ansicht der Szene zu aktualisieren, so daß die Ansicht der Szene, die in dem synthetischen Bild gezeigt ist, in Echtzeit der Kameraposition folgt, um das zweite Bild zu erzeugen. Im Grunde genommen, wenn das zweite Bild mit dem künstlichen Bild kombiniert wird, stellt das zusammengesetzte Bild realistische Objekte des zweiten Bildes in der Szene dar. Falls beispielsweise die Szene ein Produktionsset ist und das zweite Bild ein Auftritt von einem oder mehreren Darstellern ist, ist das zusammengesetzte Bild der Auftritt innerhalb des Produktionssets. Unter Verwendung des Systems, wenn sich die Kameraposition aufgrund der Kamerabewegung verändert, während der Auftritt abgebildet wird, wird die Sicht auf das Produktionsset dargestellt, um die Bewegung auf die zweite Bildkamera anzupassen. Somit erscheint dem Betrachter des zusammengesetzten Bildes der Auftritt realistisch als ob er am Produktionsset erfolgt.
In den Zeichnungen:
Die Lehren der vorliegenden Erfindung können leicht verstanden werden durch Betrachten der folgenden detaillierten Beschreibung in Verbindung mit den begleitenden Zeichnungen, in denen:
1 ein höheres Blockdiagramm eines Bildverarbeitungssystems in Übereinstimmung mit der vorliegenden Erfindung zeigt,
2 ein schematisches Diagramm einer Hardwareanordnung zeigt, die nützlich bei der Abbildung eines Produktionssets in Übereinstimmung mit der vorliegenden Erfindung ist,
3 eine mosaikbasierte Darstellung eines Bildes zeigt,
4 eine Hardware zeigt, die verwendet wird, um einen Kameraverfolgungsprozeß in Übereinstimmung mit der vorliegenden Erfindung zu implementieren,
5 ein Flußdiagramm des Kameraparametermeß- und Verfolgungsprozesses zeigt, und
6 ein Blockdiagramm eines Bildzusammensetzprozesses zeigt.
Um das Verständnis zu erleichtern, wurden identische Bezugszahlen verwendet, wo dies möglich war, um identische Elemente, die in den Figuren gleich sind, zu bezeichnen.
Die Erfindung ist ein Bildverarbeitungssystem und ein begleitendes Verfahren für das Aufzeichnen einer dreidimensionalen Szene, wie z. B. eines Produktionssets und das nachfolgende reproduzierende Betrachten der Szene von irgendeinem Blickpunkt. Das System kombiniert dann die reproduzierten Ansichten (auf ein synthetisches Bild) mit einem zweiten Bild von beispielsweise „realen" Darstellern, die getrennt von der Szene aufgenommen werden, um ein zusammengesetztes Bild zu bilden. Das System kombiniert das zweite Bild mit dem synthetischen Bild der Szene von einem Blickpunkt der Kamera, die verwendet wurde, um das zweite Bild zu erzeugen. Im Grunde genommen verfolgt der „synthetische" Blick auf die Szene die Bewegung der Kamera, die verwendet wird, um das zweite Bild zu erzeugen. Das zusammengesetzte Bild stellt somit realistisch Objekte in dem zweiten Bild innerhalb der Szenenumgebung dar, z. B. Darsteller, die innerhalb eines Produktionssets agieren. Im allgemeinen sind die Bilder der Szene und das zweite Bild Videobilder, z. B. Sequenzen von Einzelbildern, die jeweils eine Anordnung von Pixeln enthalten. Im Grunde genommen ist das zusammengesetzte Bild eine Sequenz von Bildern, die ein Video bilden. Im breitesten Sinn kann diese Erfindung verwendet werden, um irgendeine digitale Darstellung von Bildern einschließlich individuellen Bildern, wie z. B. unbewegten Fotografien oder sich bewegende Bilder, wie z. B. Filmbilder und Video- oder animierte Bilder oder irgendeine Kombination hiervon, zu verarbeiten und zu kombinieren.
1 stellt ein höheres Blockdiagramm des bildverarbeitenden Systems 100 in Übereinstimmung mit der Erfindung dar. Genauer gesagt stellt 1 eine Kombination von Hardware, die das System implementiert und Prozeßschritten, die von der Systemhardware ausgeführt werden, um die Systemfunktonalität zu erreichen, dar. Das System 10 weist ein Computersystem 30, eine Szenenabbildungskamera 15, eine zweite Abbildungskamera 20, zumindest einen Kameraparametersensor, wie z. B. einen Kameraorientierungssensor 55 und/oder ein Kamerapositionslokalisierungssystem 60, eine Videospeichervorrichtung 25 und eine oder mehrere Ein- und Ausgabevorrichtungen für das Computersystem auf. Das Computersystem kann ein Allzweckcomputersystem mit einer Hauptverarbeitungseinheit (CPU) 35 sein, die programmiert wird durch Ausführen von ein oder mehreren Programmen, die im Speicher 50 residieren (z. B. Speicher mit wahlfreiem Zugriff, Disketten, Festplatte und dergleichen). Die CPU arbeitet in Verbindung mit bekannten Unterstützungsschaltkreisen 40, wie z. B. Nur-Lese-Speicher, Energieversorgungen, Co-Prozessoren und dergleichen. Das Computersystem wird gesteuert durch konventionelle Eingabevorrichtungen und zeigt Information über konventionelle Ausgabeeinrichtungen an. Die Videospeichervorrichtung ist eine optionale Systemkomponente, die verwendet wird abhängig davon, ob die CPU Videosignale in Echtzeit verarbeiten kann oder ob das Video von der Szenenabbildungskamera 15 und/oder von der zweiten Bildkamera vor der Verarbeitung gespeichert werden muß. Ebenso kann das Videospeichergerät verwendet werden, um die Ausgangsbilder 116, die von dem System erzeugt werden, zu speichern. Das Videospeichergerät kann irgendeinen Typ von Videospeichermedien verwenden, einschließlich Videoband, Halbleiterspeicher, Festplattenspeicher, Flopticalspeicher usw.
Das System führt drei Hauptprozesse durch, nämlich einen Bilddarstellungsprozeß 100, der die dreidimensionale Szene in solch einer Art und Weise aufzeichnet, daß die verschiedenen Bilder des Satzes leicht verarbeitet werden, um ein Bildmosaik zu bilden, ein Verfolgungsprozeß 102, der das zweite Bild erzeugt und die Kameraposition der Kamera 20 verfolgt, die verwendet wird, um dieses Bild zu erzeugen, und einen Zusammensetzprozeß 104, der das zweite Bild mit einem synthetischen Bild, das von dem Bildmosaik der Szene abgeleitet ist, kombiniert. Obgleich für die Vereinfachung die drei Hauptprozesse als von einem einzelnen Computer 30 ausgeführt dargestellt werden, versteht es sich, daß die Prozesse auf getrennten Computersystemen ausgeführt werden könnten. Im Grunde genommen könnte jede der drei Prozesse an unterschiedlichen Orten und zu unterschiedlichen Zeiten ausgeführt werden. Weiterhin könnten die drei Hauptprozesse auf einem einzelnen Computer, jedoch zu unterschiedlichen Zeiten ausgeführt werden.
Genauer gesagt zeichnet der Bildverarbeitungsprozeß in Schritt 106 verschiedene Ansichten des Produktionssets auf unter Verwendung einer Kamera 15, die unter Verwendung von verschiedenen Kameraparametern, wie z. B. Position, Orientierung und Zoom arbeitet. Diese Bilder (typischerweise Videobilder) können unter Verwendung des Videospeichergerätes 25 gespeichert werden oder können im Computerspeicher abgelegt werden. In Schritt 108 werden die verschiedenen Bildansichten des Sets in einer Bildmosaikdarstellung des Sets kombiniert. Die Mosaikdarstellung beinhaltet eine zweidimensionale Darstellung der Bilder sowie eine Parallaxeninformation, so daß das Mosaik ausreichend Information für die nachfolgende Reproduktion eines realistischen dreidimensionalen Bildes enthält, d.h., das Mosaik ist ein dreidimensionales Mosaik.
Obgleich, wie aus der vorliegenden Beschreibung verständlich werden soll, das zweite Bild von vielen Bildquellen bereitgestellt werden kann, verwendet das System anschaulich den Verfolgungsprozeß 102 und die Kamera 20 für das Erzeugen des zweiten Bildes. Wenn das zweite Bild im Schritt 110 erzeugt wird, zeichnet das System ebenso ein Indiz des Kamerablickpunktes auf. Das Indiz ist typischerweise zumindest einer der Kameraparameter wie z. B. die Position (x, y, z), die Orientierung (θ, Φ, φ) und Zoom (M), die gemessen werden unter Verwendung von zumindest einem Kameraorientierungssensor 55 und/oder einem Positionslokalisierungssystem 60. Diese Parameter werden im folgenden durch den Zusammensetzprozeß 104 verwendet. Der Zusammensetzprozeß 104 kombiniert das zweite Bild mit einem synthetisierten Bild der Szene. Genauer gesagt werden die Kameraparameter verwendet, um einen Blickpunkt zu bestimmen, von dem die Szene betrachtet werden soll, um das synthetische Bild zu erzeugen. Das System kombiniert in Schritt 112 die Mosaikdarstellung mit den Kameraparametern, um ein synthetisches Bild der Szene betrachtet von der Kameraposition, die verwendet wurde, um das zweite Bild aufzuzeichnen, abzuleiten (oder zu synthetisieren). Das System kombiniert dann in Schritt 114 dieses synthetisierte Bild mit dem zweiten Bild, das in Schritt 110 erzeugt wurde. Das Endbild wird in Schritt 116 angezeigt, wo dieses Bild (typischerweise eine Videosequenz von Bildern) das Objekt des zweiten Bildes innerhalb der zweiten Szene enthält. Es ist wichtig, daß, wenn die Blickrichtung der zweiten Bildkamera sich verändert, z. B. einen Kameraschwenk oder ein Verkippen der Kamera stattfindet, da das synthetische Bild der Szene variiert, um sich an die Kamerabewegung anzupassen. Folglich erscheint das Objekt des zweiten Bildes, als ob es gleichzeitig mit der dreidimensionalen Szene aufgenommen wäre. Im Grunde genommen, falls die Szene ein Produktionsset ist und das zweite Bild Darsteller enthält, enthält das zusammengesetzte Bild Darsteller, die auf dem Produktionsset agieren.
Jeder der Prozesse, der das Bildverarbeitungssystem aufweist, wird einzeln im Detail unten erörtert.
2 stellt eine Hardwareanordnung einer Kamera (s) innerhalb einer dreidimensionalen Szene anschaulich einem Studio oder einem Produktionsset 200 dar, die von dem Bilddarstellungsprozeß verwendet wird, um eine Mosaikdarstellung der Szene zu erzeugen. Das Mosaik wird von einem Mosaikdarstellungssystem (nicht gezeigt) erzeugt, wie z. B. dem zweidimensionalen Mosaiksystem, das im gemeinsam übertragenen US-Patent US 6,393,163 mit dem Titel „Mosaic Based Image Processing System" oder dem dreidimensionalen Mosaiksystem, beschrieben in dem gemeinsam übertragenen US-Patent US 5,963,664 mit dem Titel „Method And System For Image Combination Using A Parallax-Based Technique". Jedes dieser Mosaikerzeugungssysteme würde ausreichend funktionieren, um ein nützliches Mosaik darzustellen. Für beste Ergebnisse ist jedoch die dreidimensionale Mosaikerzeugungstechnik bevorzugt.
Wie in der US 5,963,664 -Anmeldung beschrieben, kann das System, wenn ein existierendes 3D-Mosaik, das eine dreidimensionale Szene darstellt, und die Pose (Rotation, Translation und Zoom) eines neuen Blickpunktes in Bezug auf dieses Mosaik gegeben ist, das System ein synthetisches Bild der Szene ableiten. Im Grunde genommen kann das System durch Aufnehmen einer Szene unter Verwendung von unterschiedlichen Kameras mit unterschiedlichen Blickpunkten auf die Szene Bilder synthetisieren, die eine Ansicht der Szene von Blickpunkten sind, die sich von denen der Kamera unterscheiden. Natürlich kann eine einzelnen Kamera verwendet werden, um die Szene von unterschiedlichen Orten abzubilden und das Mosaik kann von diesen Bildern erzeugt werden.
2 stellt eine Hardwareanordnung einer Kamera (von Kameras) innerhalb eines dreidimensionalen Studios 200 (oder Produktionsaufbaus) dar, die verwendet wird, um eine 3D-Mosaikdarstellung des Studios zu erzeugen und ein synthetisches Bild der Szene aus dem Mosaik abzuleiten. Das Studio ist lediglich anschaulich für einen Typ einer dreidimensionalen Szene, die durch das System aufgezeichnet werden kann. Es kann natürlich mit irgendeiner anderen dreidimensionalen Szene ersetzte werden einschließlich Filmmaterial von historischen Ereignissen, Sportereignissen und dergleichen. Der 3D-Mosaikerzeugungsprozeß verwendet weine Mehrzahl von Bildern der Szene, um ein oder mehrere Mosaike, die die Szene darstellen, zu erzeugen. Obgleich das Mosaik (die Mosaiken) von irgendeiner Serie von sich überlappenden Bildern erzeugt werden kann, um Löcher in dem Mosaik zu verhindern und andere Anomalien in dem Mosaik, ist es am besten, die Szene bewußt unter Verwendung eines zweidimensionalen Gitters für die Kamerapositionierung abzubilden. Im Grunde genommen wird ein zweidimensionales Gitter 202, das einer Mehrzahl von Quadraten mit den Abmessungen ein Fuß mal ein Fuß definiert, verwendet, um Kamerapositionen innerhalb eines Gebietes nahe des Sets festzulegen. Im allgemeinen wird die spezifische Größe der Gitterquadrate, d.h. die Anzahl von Kamerapositionen, abhängig von der Komplexität der Szene variieren. Ebenso wird die Form des Gitters abhängig von dem Typ der Szene, der aufgezeichnet wird, z. B. einige Szenen, wie z. B. ein Sportereignis, kann durch das Gitter umschrieben werden, variieren.
Um die Bilder für das Mosaik (die Mosaiken) zu erzeugen, zeichnet eine Kamera 204 ein Bild (oder eine Reihe von Bildern, z. B. ein Video) von jedem der Gitterquadrate auf. Die Bilder werden typischerweise bei verschiedener Kameraschwenkung, -kippung, -drehung und Zoompositionen für jedes Gitterquadrat aufgezeichnet, um die Mehrzahl von Bildern von einer Mehrzahl von Blickpunkten zu erzeugen, der Bilddarstellungsprozeß erzeugt ein 3D-Mosaik aus den verschiedenen Bildern, die an jedem Kameraort aufgezeichnet wurden. In gleicher Weise werden 3D-Mosaiken für die anderen Kameraorte an jedem der Gitterpunkte erzeugt. Beispielsweise stellen die 3D-Mosaiken 206, 208, 210 (nur der Bildmosaikabschnitt ist dargestellt) die Szene dar, wie sie von den Gitterorten 212, 214 und 216 aufgezeichnet wurde. Diese 3D-Mosaiken werden verschmolzen, um ein synthetisches Bild 218 zu erzeugen, daß die Szene darstellt, wie sie beispielsweise von dem Ort 220 gesehen wird. Das Bild, das an dem künstlichen Blickpunkt erzeugt wird, ist kein „realer" Kamerablickpunkt, sondern wird stattdessen aus der Information synthetisiert, die in den verschiedenen Mosaiken enthalten ist.
Um ein Mosaik zu erzeugen, um genau die dreidimensionale Szene darzustellen, richtet der Darstellungsprozeß die Bilder, die an jedem Kameraort aufgezeichnet wurden, aus. Der Ausrichtungs- bzw. Registrierungsprozeß verwendet typischerweise eine hierarchische Direktausrichtungstechnik, um die Translationsparameter zu bestimmen, die verwendet werden können, um die Bilder zu verformen bzw. zu verzerren, so daß sie ausgerichtet sind. Sobald sie ausgerichtet sind, können die Bilder zusammengeführt (oder verschmolzen) werden, um ein Mosaik der Szene zu bilden. US-Patent US 6,393,163 beschreibt eine anschauliche Technik für das Erzeugen von Mosaiken unter Verwendung hierarchischer Direktausrichtung. Weiterhin, sobald das Mosaik erzeugt wurde, können zusätzliche Bilder zu dem Mosaik hinzugefügt werden, unter Verwendung von konventionellen Bildmisch- und Verschmelzungstechniken.
Genauer gesagt werden, wie in 3 gezeigt ist, die verschiedenen an jedem Kameraort aufgezeichneten Bilder, in eine Mehrzahl von Mosaiken kombiniert, d.h. ein Mosaik 300 für jeden Gitterpunkt. Um jedes der Mosaiken zu erzeugen, wird die Kamera an jedem Gitterpunkt geschwenkt, gekippt, gedreht und gezoomt. Im Grunde genommen erzeugt das System für jeden Gitterpunkt ein Mosaik, das die Bildinformation in Bezug auf vier Kameraparameter enthält. Da jedes Mosaik einem bestimmten dreidimensionalen Ort zugeordnet ist, bilden die Mosaiken eine adressierbare dreidimensionale Anordnung. Jedes Mosaik steht mit den benachbarten Mosaiken durch eine parametrische Transformation 302 und ein Bewegungsflußfeld 304 in Bezug. Da das Produktionsset, das abgebildet wird, typischerweise statisch ist, stellt das Bewegungsflußfeld eine Parallaxenbewegung von Objekten innerhalb des Bildes dar, d.h. die dreidimensionale Geometrie der Szene. Diese Parallaxenbewegung wird ebenso als die „Form" der Szene bezeichnet. Mit anderen Worten, wenn sich die Kamera von Ort zu Ort bewegt, verursacht die Parallaxe, daß Objekte in der Szene sich relativ zum Hintergrund bewegen, z. B. wenn eine Kamera vesschwenkt wird, erscheint ein Stuhl im Vordergrund, als ob er sich in Bezug auf eine Hintergrundwand bewegt. Durch Speichern der Mosaiken sowie einer parametrischen Transformation in Bezug auf ein nebenstehendes Mosaik, z. B. die Bewegung des Hintergrundes, wenn sich die Kamera physikalisch bewegt und die Bewegungsflußfeldinformation, z. B. die Parallaxeninformation, die die dreidimensionale Geometrie der Szene darstellt, kann die gesamte Szene von irgendeinem Blickpunkt aus wiedererzeugt werden und nichts von der dreidimensionalen Geometrie geht verloren. Somit weist ein gegebenes dreidimensionales Mosaik eine Bildmosaikdarstellung, eine Panaromaansicht der Szene und ein Formmosaik auf, daß die dreidimensionale Geometrie der Szene darstellt.
Der Prozeß, der verwendet wurde, um eine künstliche Bildansicht der Szene zu erzeugen, ist als „image tweening" bekannt. Dieser Prozeß verzerrt jedes der einzelnen Mosaiken (z. B. die Mosaiken 206, 208 und 210), um es an den Ort des synthetischen Blickpunktes (z. B. den Ort 220) anzupassen, somit, wenn jedes 3D-Mosaik für jeden Gitterpunkt erzeugt wird, wird das 3D-Mosaik im Speicher (Mosaikspeicher 222) in Bezug auf seinen verknüpften Gitterpunkt abgelegt. Wird ein neuer Blickpunktort gegebenen, werden die Mosaiken aus dem Speicher wieder abgerufen, um ein synthetisches Bild zu erzeugen, daß die Szene von dem neuen Blickpunkt aus darstellt. Abhängig von der Komplexität der abzubildenden Szene kann das System alle der 3D-Mosaiken im Speicher abrufen oder eine Untergruppe dieser Mosaiken kann z. B. nur diejenigen Mosaiken wieder aufrufen, die dem neuen Betrachtungspunkt am nächsten liegen. Unter Verwendung des Bildtweeningprozesses 224, wird jedes wieder aufgerufene 3D-Mosaik verzerrt, so daß es an den neuen Blickpunktort angepaßt ist (z. B. den Ort 220) und die Mosaiken werden verschmolzen, um das neue Sichtbild 218 zu bilden. Die Bildverschmelzung (ebenso als Bildmischen bekannt) wird typischerweise verwirklicht durch Mitteln der Pixel der verschiedenen Mosaiken, die verwendet wurden, um das synthetische Bild zu bilden. Andere Formen des Bildmischens sind jedoch bekannt und können an diese 3D-Mosaiken angewendet werden. Für ein Beispiel einer Bildverschmelzungstechnik siehe das ebenfalls übertragene US-Patent Nr. 5,325,449 und die US-Patentanmeldung mit der Seriennr. 08/059,616. Das Ergebnis, das durch den Imagetweeningprozeß erzeugt wird, ist ein synthetisches Bild (z. B. das Bild 218), das einen neuen Blickpunkt der Szene 200 darstellt. Das synthetische Bild wird in Echtzeit erzeugt, so daß, wie unten erörtert wird, das synthetische Bild mit einer Echtzeitproduktion des zweiten Bildes kombiniert werden kann.
Dieser Darstellungsprozess kann natürlich durch einen computergestützten Konstruktionsprozeß (CAD-Prozeß) ersetzt oder durch diesen unterstützt werden, der Graphikbilder eines Produktionssets erzeugt. Es ist vorhersehbar, daß, wenn Computerverarbeitungsleistung billiger wird, daß CAD-Prozesse in der Lage sein werden, realistische Bilder von Produktionssets zu vernünftigen Kosten zu erzeugen. Typischweise weist ein graphisch erzeugtes Bild eine Mehrzahl von miteinander verbundenen Polygongen auf, die „gefärbt" mit einer Textur sind, die ein „reales" Bild simulieren. Texturen enthalten verschiedene vorberechnete oder aufgenommene Pixelmuster, die auf die Oberflächen, die durch die Polygone repräsentiert werden, abgebildet werden können. Verbesserte Rechnung ermöglicht es, daß die Polygone und ihre verknüpften Texturen Realismus erzielen.
Solch eine graphisch erzeugte Szene kann eine Mehrzahl von Mosaiken aufweisen, die unterschiedliche Ansichten der Szene darstellen. Eine extensive Zeitmenge kann aufgewandt werden, um realistische graphische Bilder der Szene zu erzeugen. Diese Mosaiken werden wie oben beschrieben dargestellt, um zu ermöglichen, daß jeder Blickpunkt der Szene in Echtzeit synthetisiert wird. Im Grunde genommen kann eine graphisch erzeugte Szene in derselben Art und Weise verwendet werden, wie das Mosaik (die Mosaiken), das oben erörtert wurde, um synthetisierte Bilder von synthetisierten Blickpunkten zu erzeugen. Folglich kann Zeit und finanzieller Aufwand aufgewendet werden für die Erzeugung der graphisch erzeugten Szenemosaiken, sobald sie jedoch erzeugt wurden, kann das System der Erfindung neue Ansichten der Szene in Echtzeit darstellen.
Der Kameraverfolgungsprozeß verwendet eine Kombination von Hardware und Software, um eine Vielzahl von Indizien eines Blickpunktes für die Kamera zu verfolgen und aufzuzeichnen, während die Kamera verwendet wird, um das zweite Bild zu erzeugen. 4 stellt eine Tonstufe 402 einschließlich einer Kamera 20 für das Abbilden der Performance von ein oder mehreren Darstellern (nicht gezeigt) und/oder eines anderen Objektes des zweiten Bildes und ein Computersystem 30 für das Speichern und Korrigieren des Indizes des Blickpunktes dar. Das Indiz des Blickpunktes ist für dieses anschauliche Beispiel zumindest ein Kameraparameter und ist typischerweise ein Satz von Kameraparametern, der durch das Computersystem korrigiert wird. Unter Verwendung eines Satzes von korrigierten Kameraparametern wird im folgenden das zweite Bild mit dem synthetischen Bild kombiniert, um das zusammengesetzte Bild zu erzeugen.
Typischerweise, um die Verwendung von Chroma-Key-Techniken während des Bildzusammensetzprozesses zu erleichtern, wird das Objekt des zweiten Bildes vor einem blauen (oder manchmal grünen) Schirm positioniert. In dem dargestellten Raum 402 sind die Wände 404 blau gestrichen. Um bei der Kamerapositionverfolgung zu helfen, enthalten die Wände ein Reihe von Indizien 408, die ungefähr an der Oberseite des Raums 402 positioniert sind, z. B. blaue Xe auf einer blauen Wand, die außerhalb der abzubildenden Szene liegen. Natürlich können die Indizien auf dem Boden oder an irgendeinem anderen Ort in dem Studio lokalisiert sein. Diese Indizien können identisch zueinander oder einzigartig sein. Weiterhin werden durch die Verwendung von blauen Indizien auf den blauen Wänden die Indizien leicht von dem zweiten Bild extrahiert, was nur noch das Objekt des zweiten Bildes hinterläßt für das Kombinieren mit dem synthetischen Bild.
Diese Indizien 408 werden vorzugsweise kontinuierlich durch eine oder mehrere „Verfolgungs-" Kameras 106 (eine hiervon ist gezeigt), die über der Kamera 20 für das zweite Bild positioniert sind, aufgenommen. Alternativ dazu, wie unten im Detail erörtert wird, können die Indizien direkt durch die zweite Bildkamera abgebildet werden, wenn diese das zweite Bild erzeugt. In jedem Fall, sobald verarbeitet und kombiniert mit dem synthetischen Bild, bildet das Indiz keinen Teil des zweiten Bildes, da die Indizien, wenn sie überhaupt erscheinen, derart ausgebildet sind, daß sie von dem zweiten Bild extrahiert werden durch den Bildzusammensetzprozeß.
Zusätzlich zu der Verfolgungskamera ist die zweite Bildkamera mit einem Zoomsensor 410 und einer Vielzahl von Kameraorientierungssensoren 412 ausgestattet. Ein Hochgeschwindigkeitscomputersystem 30 speichert das Ausgangsvideo von der Verfolgungskamera sowie die Kameraparameter. Das Videosignal der Verfolgungskamera kann alternativ getrennt in einem Videosignalaufzeichnungsmedium, wie z. B. einem Videoband gespeichert werden. In gleicher Weise wird das Videosignal (im folgenden als das Darstellungsbild oder zweites Bild bezeichnet) von der zweiten Bildkamera direkt zu dem Zusammensetzprozeß für die Echtzeitkombinie rung mit dem synthetischen Bild gesendet oder alternativ dazu kann das Videosignal auf einem Aufzeichnungsmedium, wie z. B. einem Videoband aufgezeichnet werden.
Die Kamerapositionsbestimmung wird unter Verwendung von zwei Schritten verwirklicht, nämlich mißt in Schritt 1 das System direkt die Kameraparameter, um grob die Kameraposition abzuschätzen und in Schritt 2 verwendet das System die Indizienbilder von der Verfolgungskamera (im folgenden als Referenzbild bezeichnet), um die Kameraparameter von Schritt 1 zu verfeinern (zu korrigieren). Wenn sich die Kamera bewegt, während das zweite Bild erzeugt wird, zeichnet der Computer 30 im Parameterspeicher 414 sieben Kameraparameter auf, z. B. die Position (x, y, z), die Drehung (θ), der Schwenk (Φ), die Verkippung (φ) und den Zoom (M). Um die Positionsparameter zu erzeugen, mißt ein Positionsortungssystem 60 die x,y,z-Position relativ zu einem Ursprung, der willkürlich gewählt wird, so daß er beispielsweise die Ecke des Raumes ist. Um die anderen Kameraparameter zu erzeugen, verwendet das System kommerziell verfügbare Sensorsysteme für das Überwachen des Kameraschwenks, der Verkippung, der Drehung und des Zooms, z. B. den Speicherkopf, der von der Ultimatte Corporation of Chatsworth, Kalifornien, hergestellt wird.
Die Kamerapositionsparameter (x, y, z) können erlangt werden unter Verwendung eines Positionsortungssystems basierend auf Ultraschall-, Infrarot- oder Breitspektrumstechnologie, beispielsweise hat ein typischer, kommerziell erhältlicher Ultraschallbereichpositionsfinder eine Genauigkeit von 1,5%. In einem typischen Studio würde die Verwendung von drei Ultraschallbereichspositionsfindern, um eine dreidimensionale Position zu bestimmen, solch eine Genauigkeit zu einem Kamerapositionsfehler von weniger als 3 Zoll führen. Solch eine Genauigkeit in den Kameraparametern ist ausreichend, um die Kameraposition abzuschätzen, jedoch kann weitere Information notwendig sein von der Verfolgungskamera, um die Positionsabschätzung zu verbessern auf eine Genauigkeit, die ausreichend ist, um ein realistisches Bild zu erzeugen durch Kombinieren des Darstellungsbildes mit einem synthetischen Bildpunkt. Die Parameterkorrektur wird in Prozeß 416 verwirklicht. Die korrigierten Kameraparameter werden von dem Zusammensetzprozeß verwendet, um das zweite Bild und das synthetische Bild zu kombinieren.
In einigen Studios sind der Kameraort oder, falls mehr als eine Kamera verwendet wird, die Kamerapositionen fest. In dieser Anordnung sind die Kamerapositionen relativ zu dem Positionsursprung fixiert und müssen nur einmal bestimmt werden. Danach wird die Kamerabewegung nur gemessen durch die kommerziell verfügbaren Schwenk-, Kipp-, Dreh- und Zoomsensoren. Diese Sensoren sind ausreichend genau, um die Kameraparameter ohne weitere Verfeinerung oder Korrektur der direkt gemessenen Parameter zu bestimmen. Somit wären eine Verfolgungskamera und Studioindizien nicht notwendig.
5 stellt ein detailliertes Flußdiagramm der Kameraparametermessung des Korrekturprozesses 500 dar, der das Indiz des Kamerablickpunktes erzeugt. Dieser Prozeß enthält zwei Beispiele von vielen möglichen verfügbaren Techniken, um das Indiz des Kamerablickpunktes zu erzeugen. Die Erfindung kann irgendeine dieser Techniken enthalten einschließlich lediglich genauer Messung der Position und der Orientierung der Kamera ohne weitere Verfeinerung.
Das System der vorliegenden Erfindung verwendet anschaulich eines von zwei Verfahren der Verfeinerung der Kameraparameter. Die Kameraparameter, wenn sie zusammengenommen werden, legen die Kamerapose fest. Das erste Verfahren 510 verwendet eine symbolische Darstellung des Studios, während das zweite Verfahren 512 eine Bilddarstellung des Studios verwendet.
Für die symbolische Darstellung des Studios wird die Position von jeder Landmarke in Schritt 514 in absoluten Größen in Bezug auf ein festes Koordinatensystem, z. B. mit dem Ursprung des Koordinatensystems in der Ecke des Studios vorgemessen. Unter Verwendung des Verfolgungskamerabildes (bzw. der Bilder), das in Schritt 524 bereitgestellt wird, bestimmt das Verfahren die Pose bzw. die Darstellung der Kamera, d.h. die Drehungs-, Translations- und Zoomparameter relativ zu dem Referenzkoordinatensystem. Die Kamerapose wird in Schritt 516 berechnet durch zunächst Abschätzen der Pose unter Verwendung der gemessenen Kameraparameter, dann Verfeinern (Korrigieren) der Abschätzung unter Verwendung eines Posenabschätzungsprozesses. Die Kameraposebestimmung und Abschätzung unter Verwendung von Indizien der Szeneorientierung ist eine bekannte Technik. Siehe z. B. Kumar et al. „Robust Methods for Estimating Pose and a Sensitivity Analysis" CVGIP: Image Understanding, Band 60, Nr. 3, November, Seiten 313–342 (1994). Unter Verwendung dieser Technik und einer gegebenen Korrespondenz zwischen der Indizien in einem Bild, bestimmt die Technik die Rotations- und Translationsmatrizen, die ein Referenz- oder „Welt-" Koordinatensystem auf ein Kamerakoordinatensystem abbilden. Die in dieser Veröffentlichung beschriebene Technik wird an die Indizien auf den Studiowänden angewendet, so daß die Kamerapose, die zunächst durch die Sensoren abgeschätzt wurde, verfeinert wird, um genaue Kameraparameter zu berechnen. Das System iteriert die Kamerapose durch die Niveaus der Bildpyramidendarstellung des Referenzbildes bis ein ausreichender Grad von Genauigkeit erzielt wird. In Schritt 520 gibt das System die korrigierte Kamerapose aus.
Für die Bilddarstellung des Studios wird in Schritt 502 das gesamte Studio von verschienen bekannten Orten des Raumes (z. B. unter Verwendung eines Gittermusters) abgebildet und das Videosignal von der Verfolgungskamera wird als eine Serie von Referenzbildern gespeichert. In Schritt 504 werden diese Referenzbilder der Indizien mit Bezug auf eine Anordnung von Kamerapositionen, wie sie von dem Kamerapositionsortungssystem und den Orientierungssensoren gemessen wurde, abgelegt. Die Anordnung bildet die Kamerapositionen, wie sie an jedem Gitterpunkt des Gittermusters gemessen wurden, auf eine spezifische Ansicht der Indizien in jedem Referenzbild ab. Auf diese Art und Weise ruft das System bei der in Schritt 506 gegebener Kamerapose (z. B. einen Satz von Kameraparametern, der die Drehung, Translation und den Zoom der Kamera in Bezug auf ein bekanntes Referenzkoordinatensystem darstellt), in Schritt 508 eine bestimmte Sicht der Indizien auf, d.h. das System ruft ein bestimmtes Referenzbild ab. Typischerweise, um schnelle Berechnungen unter Verwendung der Bilder zu erlauben, wird jedes Referenzbild als eine Bildpyramide abgelegt. Bildpyramiden sind im Stand der Technik für ihre Verwendung bei der Darstellung eines einzelnen Bildes als eine Reihe von Niveaus, wo jedes Niveau eine geringere Auflösung als ein vorheriges Niveau hat, bekannt. Im allgemeinen werden Bildpyramiden gebildet durch Laplace- oder Gauß-gefilterte Pixel in jedem Niveau einer Pyramide, um ein Niveau mit geringerer Auflösung zu bilden. Zwei Beispiele einer Bildpyramidenverwendung in der Bildverarbeitungstechnik werden beschrieben durch Anderson et al. im US-Patent Nr. 4,692,806 und von van der Wal in US-Patent Nr. 4,703,514. Unter Verwendung der Bilddarstellung werden die Referenzbilder selbst verwendet, um Offsetparameter zu berechnen, die die relative Ausrichtung zwischen den gemessen Kameraparametern und der Referenzausrichtungsinformation abzuschätzen.
Da die Kameraparameter mit jedem Referenzbild verknüpft sind, sind diese Kameraparameter die Kamerapose für das Erzeugen von jedem Referenzbild. Die gegenwärtigen Kameraparameter werden verwendet, um aus dem Speicher ein Referenzbild auszuwählen, das ein Bild darstellt, das von der nächsten Gitterposition aufgenommen wurde zu der gegenwärtigen Kameraposition, die von den gemessenen Kameraparametern identifiziert wird. Danach verzerrt das System in Schritt 522 das Referenzbild, so das es mit einem Bild der Indizien ausgerichtet wird (im folgenden als Landmark-Bild bezeichnet), das mit dem Ausführungsbild, das in Schritt 524 bereitgestellt wird, verknüpft ist, um einen iterativen Prozeß bereitzustellen, wird das Landmarkenbild typischerweise gefiltert, um eine Bildpyramide zu bilden. Die Bildverzerrung wird iterativ durch Schritt 526 über die Bildpyramiden des Referenzbildes und des Landmark-Bildes durchgeführt, bis das Referenzbild genau mit dem Landmark-Bild ausgerichtet ist. Die notwendige Translation, um das Referenz- und Landmark-Bild zueinander auszurichten, erzeugt einen Satz von Oftsetparametern in Schritt 528, die die Ungenauigkeit der Kameraparameter anzeigen, wie sie von den verschiedenen Sensoren angegeben werden und insbesondere durch das Positionsortungssystem. Diese Oftsetparameter werden in Schritt 530 verwendet, um die gemessenen Kameraparameter zu korrigieren, um eine im wesentlichen genaue Position relativ zu dem Raumursprung zu erhalten. Die korrigierten Parameter, die in Schritt 532 ausgegeben werden, zeigen die aktuelle Position der Kamera relativ zu einem Referenzkoordinatensystem an. Solch ein Bildausrichtungsansatz wird beschrieben von K. J. Hanna, „Direct Multi-Resolution Estimation of Ego-Motion and Structure From Motion", Proceedings of the IEEE Workshop on Visual Motion, Princeton, New Jersey, 7. bis 9. Oktober, 1991, Seiten 156–162 und durch Hanna in dem ebenfalls übertragenen US-Patent Nr. 5,259,040. Zusätzlich beschreibt das gemein sam übertragene US-Patent US 5,963,664 mit dem Titel „Method And System For Image Combination Using A Parallax-Based Technique" ebenso einen Bildausrichtungsprozeß.
Alternativ verfolgt das System die Kameraposition durch Abbilden der Indizien mit der zweiten Bildkamera, d.h. ohne Verwendung der Trackingkamera. Im Grunde genommen ist das Indizienbild im wesentlichen in dem zweiten Bild eingebettet und die Referenzbilder werden vorher aufgezeichnet unter Verwendung der zweiten Bildkamera. In diesem alternativen Ansatz ist das Sichtfeld der zweiten Bildkamera breit genug, um die Indizien sowie das Objekt des zweiten Bildes abzubilden. Der verwendete Prozeß, um die Offsetparameter zu berechnen, bleibt der gleiche wie oben beschrieben, z. B. wird das Referenzbild in Ausrichtung mit dem Landmark-Bild (nun ein Abschnitt des zweiten Bildes) verzerrt und die Offsetparameter werden basierend auf dem Grad der Bildverzerrung, die verwendet wird, um das Referenz- und Indizbild zueinander auszurichten, berechnet. Im folgenden können während der Bildzusammensetzung die Indizien im Endbild maskiert werden. Verschiedene Techniken für die Kameraorientierungsindizienverfolgung und -verwendung werden erörtert in den zusammen übertragenen US-Patenten US 5,488,675 , angemeldet am 31. März 1994, US 5,581,629 , angemeldet am 30. Januar 1995 und US 5,566,251, eingereicht am 31. Mai 1995.
Zusätzlich müssen einige der Parameter nicht so genau bestimmt werden wie andere Parameter. Im Grunde genommen kann die Berechnung der absoluten Kameraposition vereinfacht werden. Die Vereinfachung beinhaltet die Glättung einiger der Kameraparameter, wie z. B. Zoom, Schwenk, Kipp und Dreh, während andere Parameter, wie z. B. die Positionsparameter (x, y, z) korrigiert werden unter Verwendung von einer der Landmark-Abbildungstechniken, die oben beschrieben wurden. Auf diese Art und Weise müssen die Indizienabbildungstechniken nur an drei Variablen angewendet werden und die vier anderen Variablen werden mathematisch berechnet unter Verwendung von Mittelung oder Interpolation der gemessenen Paramter.
Die vorhergehenden Abschnitte erörterten das Erzeugen eines dreidimensionalen Mosaiks einer Szene (z. B. eines Produktionssets, einem Hintergrundbild und dergleichen) und ebenso das Erzeugen eines zweiten Bildes sowie von Indizien des Blickpunktes, der mit dem zweiten Bild verknüpft ist. Obgleich sich die vorhergehende Erörterung auf die Erzeugung des zweiten Bildes unter Verwendung des Verfolgungsprozesses fokussiert hat, kann das zweite Bild von irgendeiner Anzahl von Quellen einschließlich Computergraphik, animierte Kunst, ein zweites synthetisches Bild, das von einem zweiten 3D-Mosaik dargestellt wird, historischen Filmen, Fotografien und dergleichen erzeugt werden. Dieser Abschnitt beschreibt den Prozeß durch den das erfindungsgemäße System das zweite Bild mit einem künstlichen Bild, das aus dem dreidimensionalen Mosaik der Szene extrahiert wurde, kombiniert. Das Ergebnis ist ein realistisches zusammengesetztes Bild, das das Objekt des zweiten Bildes innerhalb der Szene darstellt.
6 stellt ein Blockdiagramm des Bildzusammensetzprozesses 104 dar. Wie oben beschrieben, stellt der Bilddarstellungsprozeß 100 ein synthetisches Bild auf dem Pfad 606 von einer Mehrzahl von Bildern 602 und 604 einer Szene bereit. Der Tweeningprozeß erzeugt das synthetisierte Bild unter Verwendung der korrigierten Kameraparameter, die auf Pfad 612 während des Kameraverfolgungsprozesses 102 erzeugt wurden. Die sieben korrigierten Kameraparameter bilden eine Eingabe zu dem Tweeningprozeß innerhalb des Bilddarstellungsprozesses 100. Von diesen sieben Parametern erzeugt der Tweeningprozeß von dem Bildmosaik ein synthetisches Bild, das einen Blick auf die Szene darstellt (z. B. auf eine Produktionsset, eine Hintergrundszene und dergleichen), wie sie von der Position der zweiten Bildkamera aus aussehen würde.
Unter Verwendung einer konventionellen Chroma-Key-Bildzusammensetztechnik wird das zweite Bild auf Pfad 614 mit dem synthetisierten Bild auf Pfad 606 kombiniert. Allgemien ausgedrückt überwacht die Chroma-Key-Technik unter Verwendung eines Blaupixeldetektors 608, das zweite Bild (die zweiten Bilder) auf Pixel mit blauer Farbe. Jedes erfaßte blaue Pixel wird auf einer Pixelortbasis mit einem Pixel von dem synthetisierten Bild ersetzt. Dieser Ersetzungsprozeß wird durch den Schalter 610 dargestellt. Das zusammengesetzte oder finale Bild 116 ist eine nahtlose Kombination des zweiten Bildes und des synthetisierten Bildes. Das System führt den Zusammensetzprozeß für jedes Einzelbild des Videos, so daß das Ausgangsbild typischerweise ein Videosignal ist. Zusätzlich, wenn die Kamera, die das zweite Bild erzeugt, sich relativ zu ihrem Referenzsystem bewegt, werden neue Kameraparameter zu dem Tweeningprozeß gesendet, um aktualisierte synthetisierte Bilder zu erzeugen, so wie sich die Szene mit der Kameraposition verändert. Im Grunde genommen erzeugt das System Videobilder des Objektes des zweiten Bildes innerhalb der Szene. Falls das Objekt des zweiten Bildes eine Vorführung ist und die Szene ein Produktionsset ist, kann das Set wiederverwendet werden ohne kostenintensiven Aufbau und Abbau. Solch ein System reduziert für nahezu jede Produktion die Produktionskosten und die Produktionszeit.
Alternative Ansätze für die Bildkombination sind verfügbar, die nicht die Chroma-Key-Technik verwenden. Ein solcher Ansatz wird beschrieben in dem ebenfalls übertragenen US-Patent US 5,488,674 mit dem Titel „Method For Fusing Images And Apparatus Therefore" und dem gemeinsam übertragenen US-Patent 5,325,449. Die Erfindung kann jede Bildzusammensetztechnik verwenden, die den Hintergrund maskieren oder entfernen kann (oder einen Abschnitt hiervon) sowie die Indizien von dem zweiten Bild maskieren oder entfernen kann und den entfernten oder maskierten Abschnitt mit einem geeigneten Abschnitt des synthetisierten Bildes ersetzen kann.
Das synthetisierte Bild kann manchmal eine Belichtung enthalten, die nicht mit der Belichtung übereinstimmt, die verwendet wurde, während die Aufführung aufgezeichnet wurde. Das System kann diesem Problem Rechnung tragen unter Verwendung von verschiedenen Belichtungsanpaßprozessen.
Genauer gesagt werden drei verschiedenen Lichtniveaus verwendet, während die individuellen Bilder für die Mosaiken erzeugt werden, um verschiedene Lichtniveaus anzupassen, wenn das zusammengesetzte Bild produziert wird. Im Ergebnis werden drei Mosaiken für jeden Gitterpunkt erzeugt, ein Mosaik für jedes Lichtniveau. Während der Bildsynthese wird das synthetisierte Bild produziert durch Interpolieren der Pixelhelligkeit der drei Mosaiken für jedes Pixel in dem synthetisierten Bild. Die in der Interpolation verwendete Gewichtung ist benutzerdefiniert, so daß ein Systemoperator den Grad des Einschlusses oder des Ausschlusses von einem der drei Mosaiken einstellen kann, um ein Lichtniveau zu erzielen, das zu der Belichtung in das Durchführungsbild paßt.
Zusätzlich zu dem vorhergehenden Belichtungskompensationsprozeß kann das System eine Anzahl von Bildfilterungs- und Verbesserungstechniken verwenden, um das Helligkeitsniveau eines speziellen Abschnittes (spezielle Abschnitte) des Bildes einzustellen. Beispielsweise können Objekte in dem synthetisierten Bild mit Oberflächen, die im rechten Winkel zu der Lichtrichtung, das verwendet wird, um das Objekt des zweiten Bildes zu beleuchten, ausgerichtet sind, verstärkt werden, so daß sie ebenso als beleuchtet erscheinen. Auf diese Art und Weise erscheint das synthetisierte Bild einer Szene, als ob es gleichzeitig mit dem zweiten Bild aufgenommen worden wäre.
Genauer gesagt, wenn die Belichtung auf eine Szene projiziert wird, hat eine Struktur, die senkrecht zu der Belichtung verläuft, typischerweise einen Kontrast. Ein Ansatz eine neue Belichtungsrichtung zu synthetisieren ist es, ein Bild in eine Struktur bei unterschiedlichen Orientierungen zu zerlegen, die Struktur bei jeder Orientierung zu modifizieren und das Bild zu rekombinieren, um ein verändertes Ausgangsbild zu erzeugen. Beispielsweise kann ein Bild in verschiedene Gradientenorientierungen und Skalierungsbänder unter Verwendung einer orientierten Laplace-Pyramide zerlegt werden. Diese Pyramide hat die Eigenschaft, daß das Summieren aller unveränderten Bänder zu dem ursprünglichen Bild führt. Um den Effekt eines anderen Belichtungswinkels auf das Bild zu synthetisieren, werden die Orientierungsbänder senkrecht zu dem gewünschten synthetischen Belichtungswinkel verstärkt und diejenigen Orientierungsbänder parallel zu dem gewünschten Belichtungswinkel werden abgeschwächt. Um dies zu illustrieren kann eine orientierte Laplace-Pyramide von einem Eingangsbild berechnet werden, was zu einem Satz von vier gefilterten Bildern bei unterschiedlichen Skalierungen führt. Der Kosinus des Winkels zwischen der Filterorientierung, die jedes gefilterte Bild erzeugt, und der gewünschten synthetischen Belichtung wird dann berechnet. Das gefilterte Bild wird dann mit dieser Verstärkung multipliziert. Dies wird für jede Orientierung bei jeder Skalierung verwirklicht. Die Bilder werden dann rekombiniert, um ein Ausgangsbild zu erzeugen. Eine Einstellung erlaubt es einem Bediener, verschiedene Belichtungseinstellungen zu durchlaufen bis die gewünschte synthetische Belichtung erreicht wird.
Zusätzlich können die Verstärkungen auf den orientierten Filterausgaben adaptiv eingestellt werden abhängig von der Bildstruktur statt einer einzelnen Verstärkung für jedes gefilterte Bild. Dies erlaubt eine genauere Belichtungssynthese, da spezifische Bildmerkmale anders als andere Merkmale verarbeitet werden können. Beispielsweise können schwierige Schattenkanten von verschiedenen physikalischen Kanten unterschieden werden, z. B. steuerbare Filter, die das Filtern bei einer willkürlichen Orientierung unter Verwendung von nur einem kleinen Satz von Basisfiltern erlauben. Dies kann eine präzisere Belichtungssynthese erlauben, da die Bilddarstellung reichhaltiger ist.
Das System der vorliegenden Erfindung hat viele praktische Verwendungen außer der anschaulichen Anwendung der Abbildung eines Produktionssets für die nachfolgende wiederholten Verwendung. Andere Anwendungen beinhalten die Videospielproduktion, wo eine „reale" Szene dargestellt werden kann, so daß sequenzielle synthetische Bilder erzeugt werden, wenn sich das Spiel entwickelt. Das zweite Bild könnte ein computererzeugter, animierter Charakter sein. Der Charakter würde beispielsweise durch die Szene sich bewegen, wie er von einem Benutzer gesteuert wird, der eine Eingabeeinrichtung manipuliert, wie z. B. ein Joystick, der mit dem System verbunden ist. Für jeden Benutzerbefehl wird ein neues synthetisches Szenenbild aus dem Szenenmosaik dargestellt. Im Grunde genommen würde der Benutzer die Blickpunktindizien steuern, die in dem Darstellungsprozeß verwendet werden und der animierte Charakter würde diesem Blickpunkt folgen, weiterhin könnte der Charakter aus einem zweiten Mosaik synthetisiert werden, so daß der Charakter aus dem zweiten Mosaik in Übereinstimmung mit dem gegenwärtigen Blickpunkt dargestellt wird. Zusätzlich könnten anderer Charaktere, die möglicherweise andere Spieler eines Computerspiels darstellen, der Szene in einer ähnlichen Art und Weise hinzugefügt werden. Folglich wird eine virtuelle Realität erzeugt, die verschiedene Objekte und Charaktere innerhalb der Szene darstellt, die ihre Position und ihre Erscheinung in Übereinstimmung mit dem Blickpunkt jedes Nutzers ändern werden.
Obgleich verschiedene Ausführungsformen, die die Lehren der vorliegenden Erfindung beinhalten, hier gezeigt und im Detail beschrieben wurden, können Fachleute leicht viele andere variierte Ausführungsformen ableiten, die immer noch diese Lehren enthalten.

Claims

Verfahren der Bildverarbeitung, das die Schritte aufweist: Erzeugen (15, 106, 108) eines Mosaiks, das eine Mehrzahl von ersten Bildern einer Szene enthält, wobei das Mosaik eine zweidimensionale Darstellung der Mehrzahl von ersten Bildern und einer Parallaxeninformation beinhaltet, und wobei die Mehrzahl von ersten Bildern zumindest ein Bild mit einem ersten Blickpunkt auf die Szene und ein Bild mit einem zweiten Blickpunkt auf die Szene beinhaltet, wobei der erste und zweite Blickpunkt nicht aufeinanderliegen, Erzeugen (20, 110) eines zweiten Bildes, Produzieren (110) eines charakteristischen Merkmals des Blickpunktes, während das zweite Bild erzeugt wird, Darstellen (112), in Antwort auf das charakteristische Merkmal des Blickpunktes, eines synthetisierten Bildes aus dem Mosaik, wobei das synthetisierte Bild eine Bildinformation von dem ersten und dem zweiten Blickpunkt der Szene aufweist, und Zusammensetzen (104) des synthetisierten Bildes mit dem zweiten Bild, um ein zusammengesetztes Bild zu erzeugen.
Verfahren nach Anspruch 1, bei dem das Mosaik eine Mehrzahl von Mosaiken aufweist.
Verfahren nach Anspruch 1, wobei der Schritt (20, 110) des Erzeugens des zweiten Bildes den Schritt des Darstellens des ersten Bildes aus einem zweiten Mosaik beinhaltet.
Verfahren nach Anspruch 1, wobei das charakteristische Merkmal des Blickpunktes zumindest ein Kameraparameter ist.
Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens (20, 110) eines zweiten Bildes weiterhin aufweist den Schritt des Abbildens einer Performance vor einem Hintergrund mit einer Farbe, die aus dem zweiten Bild entfernt werden kann unter Verwendung einer Farbschlüsseltechnik.
Verfahren nach Anspruch 1, wobei der Schritt des Produzierens eines charakteristischen Merkmals des Blickpunktes weiterhin aufweist den Schritt des Aufzeichnens (55, 60) von zumindest einem Kameraparameter, der aus der folgenden Gruppe von Kameraparametern ausgewählt ist: dreidimensionale Position, Schwenk-, Kipp-, Roll- und Zoom-Parameter.
Verfahren nach Anspruch 1, wobei der Schritt des Produzierens eines charakteristischen Merkmals des Blickpunktes die Schritte aufweist: Bereitstellen einer Mehrzahl von charakteristischen Merkmalen (408) in der Nähe eines Bereiches (402), wo eine Performance abgebildet wird, als das zweite Bild und Abbilden (406) der Mehrzahl von charakteristischen Merkmalen (408) als ein charakteristisches Bild, während das zweite Bild erzeugt wird.
Verfahren nach Anspruch 7, wobei der charakteristikumabbildende Schritt des Erzeugens des zweiten Bildes unter Verwendung einer Kamera aufweist.
Verfahren nach Anspruch 7, bei dem der charakteristikumabbildende Schritt verwirklicht wird unter Verwendung einer Verfolgungskamera (406), die getrennt ist von einer Kamera, die verwendet wird, um das zweite Bild zu erzeugen.
Verfahren nach Anspruch 7, das einen Schritt (502, 504) des Abbildens einer Mehrzahl von Referenzbildern aufweist, die das charakteristische Merkmal darstellen von einer Mehrzahl von Blickpunkten aus.
Verfahren nach Anspruch 10, das weiterhin aufweist einen Schritt (508–530) des Korrigierens des charakteristischen Merkmals des Blickpunktes unter Verwendung der Mehrzahl von Referenzbildern.
Verfahren nach Anspruch 11, das die Schritte aufweist: Auswählen (504, 508) eines Referenzbildes, das einen Blickpunkt darstellt, der am besten einen Blickpunkt darstellt, der von dem charakteristischen Merkmal des Blickpunktes angezeigt wird, Deformieren (522) des ausgewählten Referenzbildes in Ausrichtung mit einem charakteristischen Bild, das von dem Blickpunkt erzeugt wurde, der von dem charakteristischen Merkmal des Blickpunktes dargestellt wird, Berechnen (528) in Antwort auf die Ausrichtung von Offset-Parametern für das Korrigieren des charakteristischen Merkmals des Blickpunktes, Korrigieren (530) des charakteristischen Merkmals des Blickpunktes unter Verwendung der Offset-Parameter und Erzeugen des synthetisierten Bildes in Antwort auf das korrigierte charakteristische Merkmal des Blickpunktes.
Verfahren nach Anspruch 11, das weiterhin die Schritte aufweist: Messen eines absoluten Ortes des charakteristischen Merkmals und Berechnen einer Kameraposition in Antwort auf den absoluten Ort des charakteristischen Merkmals und eine Messung der Kameraposition, die durch das charakteristische Merkmal des Blickpunktes dargestellt wird.
Verfahren nach Anspruch 1, bei dem das Mosaik ein dreidimensionales Mosaik ist, das ein Bildmosaik enthält, das eine Panoramaansicht der Szene darstellt, und ein Formmosaik enthält, das eine dreidimensionale Geometrie der Szene darstellt.
Verfahren nach Anspruch 14, bei dem das synthetisierte Bild aus dem dreidimensionalen Mosaik dargestellt wird.
Verfahren nach Anspruch 15, bei dem der mosaikerzeugende Schritt weiterhin die Schritte aufweist: Abbilden einer Szene von einer Mehrzahl von Gitterpunkten, Erzeugen eines Mosaiks an jedem der Gitterpunkte und Speichern jedes der Mosaiken in Bezug auf einen bestimmten Gitterpunkt.
Verfahren nach Anspruch 16, wobei der Schritt des Erzeugens eines Mosaiks an jedem der Gitterpunkte weiterhin aufweist: Erzeugen einer Mehrzahl von Mosaiken an jedem Gitterpunkt, wobei jedes der Mosaiken mit einem anderen Beleuchtungsgrad der Szene erzeugt wird, und Darstellen des synthetisierten Bildes durch Anpassen der Beleuchtungsgrade des synthetisierten Bildes und des zweiten Bildes.
Verfahren nach Anspruch 1, wobei das charakteristische Merkmal des Blickpunktes erzeugt wird durch eine benutzergesteuerte Eingabeeinrichtung.
Bildverarbeitungssystem, das aufweist: Mosaikerzeugungseinrichtungen (15, 106, 108) für das Erzeugen eines Mosaiks des ersten Bildes, das eine Szene darstellt, wobei das Mosaik eine zweidimensionale Darstellung der Mehrzahl von ersten Bildern und eine Parallaxeninformation beinhaltet, und wobei die ersten Bilder zumindest ein Bild enthalten mit einem ersten Blickpunkt der Szene und ein Bild enthalten mit einem zweiten Blickpunkt der Szene, wobei der erste und zweite Blickpunkt nicht aufeinander liegen, Blickpunktcharakteristikumeinrichtungen (55, 60, 110) für das Produzieren eines charakteristischen Merkmals des Blickpunktes für ein zweites Bild, während das zweite Bild erzeugt wird, Darstellungseinrichtungen (112), die mit der Mosaikerzeugungseinrichtung und der Blickpunktcharakteristikumseinrichtung verbunden sind, für das Produzieren eines synthetischen Bildes, das Bildinformation von dem ersten und dem zweiten Blickpunkt der Szene beinhaltet und einen Blick der Szene entsprechend dem charakteristischen Merkmal des Blickpunktes darstellt, und Zusammensetzungseinrichtungen (114), die mit der Darstellungseinrichtung und der Blickpunktcharakteristikumseinrichtung verbunden ist, für das Kombinieren des synthetisierten Bildes und des zweiten Bildes, um ein zusammengesetztes Bild zu bilden.
System nach Anspruch 19, wobei die Mosaikerzeugungseinrichtung weiterhin aufweist: eine Einrichtung für das Erzeugen einer Mehrzahl von Mosaiken, wobei jedes Mosaik in der Mehrzahl von Mosaiken eine Panoramaansicht der Szene von einem eindeutigen Ort darstellt.
System nach Anspruch 19, wobei die Blickpunktcharakteristikumseinrichtung aufweist: eine Einrichtung (55, 60) für das Verfolgen einer Kameraposition, wenn die Kamera das zweite Bild erzeugt, und eine Einrichtung (110), die mit der Verfolgungseinrichtung verbunden ist, für das Erzeugen der Kameraposition als ein charakteristisches Merkmal des Blickpunktes.
System nach Anspruch 19, wobei die Blickpunktcharakteristikumseinrichtung aufweist: eine Einrichtung für das Produzieren des charakteristischen Merkmals des Blickpunktes in Antwort auf Benutzerbefehle.
System nach Anspruch 19, wobei die Zusammensetzungseinrichtung aufweist: eine Einrichtung für das Kombinieren des synthetischen Bildes und des zweiten Bildes unter Verwendung eines Farbschlüsselprozesses.
System nach Anspruch 21, bei dem die Kameraposition ein charakteristisches Merkmal des Blickpunktes beinhaltet, das aus der folgenden Gruppe von Kameraparametern ausgewählt ist: dreidimensionale Position, Schwenk, Kipp, Rollen und Zoom.
System nach Anspruch 19, das weiterhin aufweist: zweite Mosaikerzeugungseinrichtung für das Erzeugen eines zweiten Mosaiks von Bildern, das eine zweite Szene darstellt, und eine zweite Darstellungseinrichtung, die mit der Blickpunktcharakteristikumseinrichtung und der zweiten Mosaikerzeugungseinrichtung verbunden ist, für das Erzeugen des zweiten Bildes.