-
Die
Erfindung betrifft Bildverarbeitungssysteme und insbesondere ein
Bildverarbeitungssystem und ein begleitendes Verfahren, das ein
künstliches Bild
einer Szene aus einem Mosaik aus Bildern ableitet und das synthetische
Bild mit einem getrennt erzeugten Zweitbild kombiniert, um ein realistisches zusammengesetztes
Bild zu bilden, wobei Objekte des zweiten Bildes in dem künstlichen
Bild erscheinen.
-
Um
einen Film oder ein Fernsehprogramm zu erzeugen, investiert die
Unterhaltungsindustrie mehr als 50% eines Produktionsbudgets in
die Erzeugung von „Sets" einschließlich dem
wiederholten Aufbau und Abbau der Sets bzw. der Dekoration und Bauten.
Für die
Produktion eines typischen Fernsehprogramms wird eine übermäßige Zeitmenge
und Anstrengung dem wiederholten Auf- und Abbau der Sets gespendet.
Die beträchtliche
benötigte
Zeit, um Produktionssets zu erzeugen und zu verwenden, beschränkt die
Verfügbarkeit
solcher Sets und beschränkt
folglich die Kreativität
und Flexibilität
der Drehbuchschreiber und Produzenten. Weiterhin erhöht die Verwendung
von komplexen und/oder großen
Sets die Produktionskosten des Programms weiter.
-
Um
die Kosten, die mit der Setverwendung verbunden sind, zu verringern,
wurden Versuche mit künstlich
erzeugten Objekten und Szenen unter Verwendung von Computergraphik
unternommen. Diese graphischen Techniken erzeugen jedoch im allgemeinen
Bilder, denen die Detailtiefe fehlt, da, wenn Detailtiefe zu einem
computererzeugten Bild hinzugefügt
wird, sich die Verarbeitungszeit und die Kosten dramatisch ausweiten.
Im Grunde genommen werden computererzeugte Graphiken gegenwärtig auf die
unverarbeitete Darstellung von dreidimensionalen Objekten und Szenen
verbannt. Weiterhin ist das Fehlen der Bilddetailtiefe der Grund,
daß die
Bilder unrealistisch oder künstlich
erscheinen.
-
Graf
K. Ch. et al.: „Perspective
Terrain Visualisation – A
Fusion of Remote Sensing, Gis, and Computer Graphics" Computers and Graphics,
GB, Pergamon Press Ltd. Oxford, Band 8, Nr. 6, 1. November 1994
(1994-11-01), Seiten 795–802,
XP 000546612 ISSN: 0097-8493 beschreibt ein Verfahren der Bildverarbeitung,
in dem ein Bild eines künstlichen
oder abstrakten Objekts in ein Bild einer Szene platziert wird.
Das Bild der Szene kann ein Mosaikbild von unterschiedlichen Bildern
sein, die verschiedenen Korrekturen ausgesetzt wurden, um eine genaue Zueinanderausrichtung
der unterschiedlichen Bilder zu erzielen. Das Bild des Objekts wird
dargestellt und dann in der Szene korrekt platziert. Das Platzieren des
Objekts besteht aus einer Bildzusammensetzung. Die Verwendung von
identischen Betrachtungsparametern garantiert, daß die Objekte
in ihrer korrekten Form und Position in Bezug auf den Boden in der
Szene angezeigt werden.
-
R.
Kumar, P. Anandan, K. Hanna: „Shape
recovery from multiple views: a parallax based approach" Arpa Image Understanding
Workshop, November 1994 (1994-11), Seiten 947–955, XP 000905130 beschreibt
das folgende:
Gegeben seien zwei willkürliche Ansichten einer Szene
unter einer Zentralprojektion, falls die Bewegung von Punkten einer
parametrischen Oberfläche kompensiert
wird, ist das Parallaxenrestverrückungsfeld
auf dem Referenzbild ein Epipolarfeld. Die Parallaxengröße an einem
Punkt nach geeigneter Skalierung ist eine affine Invariante, falls
die ausgerichtete Oberfläche
eine Ebene ist, ist sie direkt proportional zu der Höhe des Punktes über der
Ebene und umgekehrt proportional zu ihrem Abstand von der Kamera. Wir
nutzen das obige Ergebnis aus, um 3D-Höheninformation aus schrägen 3D-Luftbildern
abzuleiten. Wir verwenden direkte Verfahren, um die Luftbilder auszurichten,
entwickeln Verfahren, um Höheninformation
unter den folgenden drei Bedingungen abzuleiten: (i) Fokuslänge und
Bildzentrum sind beide bekannt, (ii) nur die Fokuslänge ist
bekannt und (iii) beide sind unbekannt. Wir verwenden die Invarianzeigenschaft
der skalierten Parallaxengrößen, um
mehrere Einzelbildinformationen zu kombinieren, um genaue Höhen zu erhalten,
und um neue Ansichten von einem gegebenen Satz von Ansichten zu
extrapolieren (z. B. in photogrammetrischen Begriffen, um eine „Übertragung" zu erzielen). Wir
verwenden den Blickextrapolationsprozeß, um ein Panoramamosaikbild zu
konstruieren durch Kombinieren mehrerer Ansichten, das hinsichtlich
3D-Positionen von Oberflächen genau
ist.
-
Die
US-A-4,393,394 beschreibt ein Verfahren und ein System für das Erzeugen
eines Hintergrundbildes kombiniert mit einem Vordergrundbild und
in dem sich das Hintergrundbild entsprechend der Bewegung einer
Kamera, die auf das Vordergrundbild blickt, bewegt. Das Hintergrundbild
wird durch Einblendung mit dem Vordergrundbild kombiniert. Um dies
durchzuführen
blickt eine erste Kamera, die relativ zu dem Vordergrund bewegbar
ist, auf einen Vordergrund vor einem Hintergrund mit einer ersten
Farbe, die jedoch ebenso einen ausgeprägten Marker hierauf hat. Der
Marker kann beispielsweise von derselben Farbe wie die erste Farbe,
jedoch dunkler sein.
-
Zwei
andere Kameras betrachten sich überlappende
Abschnitte einer Hintergrundszene. Ein Schalterbild wählt zwischen
den Ansichten, die durch die zwei Kameras geliefert werden, aus.
Ein Markerdetektor erfaßt
den Marker, der von der ersten Kamera betrachtet wird (der relativ
zu der Vordergrundszene sich bewegen kann) und ein Verrückungsgenerator
variiert die Synchronisierungspulse, die zu den beiden anderen Kameras
geliefert werden, in Übereinstimmung
mit der erfaßten
Position des Markers und variiert die Taktung des Schalters durch
den Schalter zwischen den beiden Blickrichtungen, die durch die
anderen Kameras bereitgestellt werden, um das Hintergrundbild zu
verrücken,
wenn sich die erste Kamera bewegt. Eine Einblendvorrichtung kombiniert
den Ausgang des Schalters mit dem Vordergrundbild.
-
Es
besteht somit die Notwendigkeit, in der Technik nach einem System,
daß die
Notwendigkeit für
das wiederholte Erzeugen, Aufbauen und Abbauen von Produktionssets
durch elektronische Abbildung und Speicherung des Produktionssets
für nachfolgende,
wiederholte Verwendungen eliminiert. Weiterhin besteht die Notwendigkeit
nach einem System, das eine Szene, wie z. B. ein Produktionsset,
abbildet, elektronisch die Szene speichert, erlaubt, daß die abgebildete
Szene danach realistisch von irgendeinem Blickpunkt betrachtet wird,
einschließlich eines
sich bewegenden Blickpunktes und erlaubt, daß ein synthetisiertes Bild,
das den neuen Blickpunkt darstellt, mit anderen Bildern kombiniert
wird.
-
Aspekte
der Erfindung werden in den Ansprüchen spezifiziert, auf die
die Aufmerksamkeit hiermit gerichtet wird.
-
Eine
Ausführungsform
der vorliegenden Erfindung ist ein System für das Abbilden einer dreidimensionalen
Szene (z. B. eines Produktionssets), um eine Mehrzahl von Bildern
hiervon zu erzeugen und für
die Bildverarbeitung der Mehrzahl von Bildern. Die Bildverarbeitung
beinhaltet das Abfragen der Mehrzahl von Bildern von Speicher oder
direkt von einer Bildquelle, das Kombinieren der Bilder in ein Mosaik,
das Auswählen
eines neuen Blickpunktes aus der Szene und das Darstellen eines
synthetischen Bildes der Szene von diesem neuen Blickpunkt. Das
synthetische Bild wird dann mit einem zweiten Bild kombiniert. Die
Kombination des zweiten Bildes und des synthetischen Bildes erzeugt
ein zusammengesetztes Bild, das eine realistische Kombination der
beiden Bilder enthält.
-
Weiterhin,
wenn das zweite Bild erzeugt wird, überwacht das System die Pose
bzw. Position der Kamera, d.h. die Drehung der Kamera, die Bewegung
und das Zoomen der Kamera, um ein Indiz des Blickpunktes der Kamera
zu erzeugen. Das System verwendet diese Positionsinformation, um
die Ansicht der Szene zu aktualisieren, so daß die Ansicht der Szene, die
in dem synthetischen Bild gezeigt ist, in Echtzeit der Kameraposition
folgt, um das zweite Bild zu erzeugen. Im Grunde genommen, wenn
das zweite Bild mit dem künstlichen
Bild kombiniert wird, stellt das zusammengesetzte Bild realistische
Objekte des zweiten Bildes in der Szene dar. Falls beispielsweise
die Szene ein Produktionsset ist und das zweite Bild ein Auftritt
von einem oder mehreren Darstellern ist, ist das zusammengesetzte
Bild der Auftritt innerhalb des Produktionssets. Unter Verwendung des
Systems, wenn sich die Kameraposition aufgrund der Kamerabewegung
verändert,
während
der Auftritt abgebildet wird, wird die Sicht auf das Produktionsset
dargestellt, um die Bewegung auf die zweite Bildkamera anzupassen.
Somit erscheint dem Betrachter des zusammengesetzten Bildes der
Auftritt realistisch als ob er am Produktionsset erfolgt.
-
In
den Zeichnungen:
Die Lehren der vorliegenden Erfindung können leicht verstanden
werden durch Betrachten der folgenden detaillierten Beschreibung
in Verbindung mit den begleitenden Zeichnungen, in denen:
-
1 ein
höheres
Blockdiagramm eines Bildverarbeitungssystems in Übereinstimmung mit der vorliegenden
Erfindung zeigt,
-
2 ein
schematisches Diagramm einer Hardwareanordnung zeigt, die nützlich bei
der Abbildung eines Produktionssets in Übereinstimmung mit der vorliegenden
Erfindung ist,
-
3 eine
mosaikbasierte Darstellung eines Bildes zeigt,
-
4 eine
Hardware zeigt, die verwendet wird, um einen Kameraverfolgungsprozeß in Übereinstimmung
mit der vorliegenden Erfindung zu implementieren,
-
5 ein
Flußdiagramm
des Kameraparametermeß-
und Verfolgungsprozesses zeigt, und
-
6 ein
Blockdiagramm eines Bildzusammensetzprozesses zeigt.
-
Um
das Verständnis
zu erleichtern, wurden identische Bezugszahlen verwendet, wo dies
möglich
war, um identische Elemente, die in den Figuren gleich sind, zu
bezeichnen.
-
Die
Erfindung ist ein Bildverarbeitungssystem und ein begleitendes Verfahren
für das
Aufzeichnen einer dreidimensionalen Szene, wie z. B. eines Produktionssets
und das nachfolgende reproduzierende Betrachten der Szene von irgendeinem
Blickpunkt. Das System kombiniert dann die reproduzierten Ansichten
(auf ein synthetisches Bild) mit einem zweiten Bild von beispielsweise „realen" Darstellern, die
getrennt von der Szene aufgenommen werden, um ein zusammengesetztes
Bild zu bilden. Das System kombiniert das zweite Bild mit dem synthetischen Bild
der Szene von einem Blickpunkt der Kamera, die verwendet wurde,
um das zweite Bild zu erzeugen. Im Grunde genommen verfolgt der „synthetische" Blick auf die Szene
die Bewegung der Kamera, die verwendet wird, um das zweite Bild
zu erzeugen. Das zusammengesetzte Bild stellt somit realistisch
Objekte in dem zweiten Bild innerhalb der Szenenumgebung dar, z.
B. Darsteller, die innerhalb eines Produktionssets agieren. Im allgemeinen
sind die Bilder der Szene und das zweite Bild Videobilder, z. B.
Sequenzen von Einzelbildern, die jeweils eine Anordnung von Pixeln
enthalten. Im Grunde genommen ist das zusammengesetzte Bild eine
Sequenz von Bildern, die ein Video bilden. Im breitesten Sinn kann
diese Erfindung verwendet werden, um irgendeine digitale Darstellung
von Bildern einschließlich
individuellen Bildern, wie z. B. unbewegten Fotografien oder sich bewegende
Bilder, wie z. B. Filmbilder und Video- oder animierte Bilder oder
irgendeine Kombination hiervon, zu verarbeiten und zu kombinieren.
-
1 stellt
ein höheres
Blockdiagramm des bildverarbeitenden Systems 100 in Übereinstimmung mit
der Erfindung dar. Genauer gesagt stellt 1 eine Kombination
von Hardware, die das System implementiert und Prozeßschritten,
die von der Systemhardware ausgeführt werden, um die Systemfunktonalität zu erreichen,
dar. Das System 10 weist ein Computersystem 30,
eine Szenenabbildungskamera 15, eine zweite Abbildungskamera 20,
zumindest einen Kameraparametersensor, wie z. B. einen Kameraorientierungssensor 55 und/oder
ein Kamerapositionslokalisierungssystem 60, eine Videospeichervorrichtung 25 und
eine oder mehrere Ein- und Ausgabevorrichtungen für das Computersystem
auf. Das Computersystem kann ein Allzweckcomputersystem mit einer
Hauptverarbeitungseinheit (CPU) 35 sein, die programmiert
wird durch Ausführen
von ein oder mehreren Programmen, die im Speicher 50 residieren
(z. B. Speicher mit wahlfreiem Zugriff, Disketten, Festplatte und
dergleichen). Die CPU arbeitet in Verbindung mit bekannten Unterstützungsschaltkreisen 40,
wie z. B. Nur-Lese-Speicher, Energieversorgungen, Co-Prozessoren
und dergleichen. Das Computersystem wird gesteuert durch konventionelle
Eingabevorrichtungen und zeigt Information über konventionelle Ausgabeeinrichtungen
an. Die Videospeichervorrichtung ist eine optionale Systemkomponente, die
verwendet wird abhängig
davon, ob die CPU Videosignale in Echtzeit verarbeiten kann oder
ob das Video von der Szenenabbildungskamera 15 und/oder
von der zweiten Bildkamera vor der Verarbeitung gespeichert werden
muß. Ebenso
kann das Videospeichergerät
verwendet werden, um die Ausgangsbilder 116, die von dem
System erzeugt werden, zu speichern. Das Videospeichergerät kann irgendeinen
Typ von Videospeichermedien verwenden, einschließlich Videoband, Halbleiterspeicher, Festplattenspeicher,
Flopticalspeicher usw.
-
Das
System führt
drei Hauptprozesse durch, nämlich
einen Bilddarstellungsprozeß 100,
der die dreidimensionale Szene in solch einer Art und Weise aufzeichnet,
daß die
verschiedenen Bilder des Satzes leicht verarbeitet werden, um ein
Bildmosaik zu bilden, ein Verfolgungsprozeß 102, der das zweite Bild
erzeugt und die Kameraposition der Kamera 20 verfolgt,
die verwendet wird, um dieses Bild zu erzeugen, und einen Zusammensetzprozeß 104,
der das zweite Bild mit einem synthetischen Bild, das von dem Bildmosaik
der Szene abgeleitet ist, kombiniert. Obgleich für die Vereinfachung die drei
Hauptprozesse als von einem einzelnen Computer 30 ausgeführt dargestellt
werden, versteht es sich, daß die
Prozesse auf getrennten Computersystemen ausgeführt werden könnten. Im
Grunde genommen könnte
jede der drei Prozesse an unterschiedlichen Orten und zu unterschiedlichen
Zeiten ausgeführt
werden. Weiterhin könnten
die drei Hauptprozesse auf einem einzelnen Computer, jedoch zu unterschiedlichen
Zeiten ausgeführt
werden.
-
Genauer
gesagt zeichnet der Bildverarbeitungsprozeß in Schritt 106 verschiedene
Ansichten des Produktionssets auf unter Verwendung einer Kamera 15,
die unter Verwendung von verschiedenen Kameraparametern, wie z.
B. Position, Orientierung und Zoom arbeitet. Diese Bilder (typischerweise
Videobilder) können
unter Verwendung des Videospeichergerätes 25 gespeichert
werden oder können
im Computerspeicher abgelegt werden. In Schritt 108 werden
die verschiedenen Bildansichten des Sets in einer Bildmosaikdarstellung
des Sets kombiniert. Die Mosaikdarstellung beinhaltet eine zweidimensionale Darstellung
der Bilder sowie eine Parallaxeninformation, so daß das Mosaik
ausreichend Information für die
nachfolgende Reproduktion eines realistischen dreidimensionalen
Bildes enthält,
d.h., das Mosaik ist ein dreidimensionales Mosaik.
-
Obgleich,
wie aus der vorliegenden Beschreibung verständlich werden soll, das zweite
Bild von vielen Bildquellen bereitgestellt werden kann, verwendet
das System anschaulich den Verfolgungsprozeß 102 und die Kamera 20 für das Erzeugen
des zweiten Bildes. Wenn das zweite Bild im Schritt 110 erzeugt
wird, zeichnet das System ebenso ein Indiz des Kamerablickpunktes
auf. Das Indiz ist typischerweise zumindest einer der Kameraparameter
wie z. B. die Position (x, y, z), die Orientierung (θ, Φ, φ) und Zoom
(M), die gemessen werden unter Verwendung von zumindest einem Kameraorientierungssensor 55 und/oder
einem Positionslokalisierungssystem 60. Diese Parameter
werden im folgenden durch den Zusammensetzprozeß 104 verwendet. Der
Zusammensetzprozeß 104 kombiniert
das zweite Bild mit einem synthetisierten Bild der Szene. Genauer
gesagt werden die Kameraparameter verwendet, um einen Blickpunkt
zu bestimmen, von dem die Szene betrachtet werden soll, um das synthetische
Bild zu erzeugen. Das System kombiniert in Schritt 112 die
Mosaikdarstellung mit den Kameraparametern, um ein synthetisches
Bild der Szene betrachtet von der Kameraposition, die verwendet
wurde, um das zweite Bild aufzuzeichnen, abzuleiten (oder zu synthetisieren).
Das System kombiniert dann in Schritt 114 dieses synthetisierte
Bild mit dem zweiten Bild, das in Schritt 110 erzeugt wurde.
Das Endbild wird in Schritt 116 angezeigt, wo dieses Bild
(typischerweise eine Videosequenz von Bildern) das Objekt des zweiten Bildes
innerhalb der zweiten Szene enthält.
Es ist wichtig, daß,
wenn die Blickrichtung der zweiten Bildkamera sich verändert, z.
B. einen Kameraschwenk oder ein Verkippen der Kamera stattfindet,
da das synthetische Bild der Szene variiert, um sich an die Kamerabewegung
anzupassen. Folglich erscheint das Objekt des zweiten Bildes, als
ob es gleichzeitig mit der dreidimensionalen Szene aufgenommen wäre. Im Grunde
genommen, falls die Szene ein Produktionsset ist und das zweite
Bild Darsteller enthält, enthält das zusammengesetzte
Bild Darsteller, die auf dem Produktionsset agieren.
-
Jeder
der Prozesse, der das Bildverarbeitungssystem aufweist, wird einzeln
im Detail unten erörtert.
-
2 stellt
eine Hardwareanordnung einer Kamera (s) innerhalb einer dreidimensionalen
Szene anschaulich einem Studio oder einem Produktionsset
200 dar,
die von dem Bilddarstellungsprozeß verwendet wird, um eine Mosaikdarstellung
der Szene zu erzeugen. Das Mosaik wird von einem Mosaikdarstellungssystem
(nicht gezeigt) erzeugt, wie z. B. dem zweidimensionalen Mosaiksystem,
das im gemeinsam übertragenen
US-Patent
US 6,393,163 mit
dem Titel „Mosaic
Based Image Processing System" oder dem
dreidimensionalen Mosaiksystem, beschrieben in dem gemeinsam übertragenen
US-Patent
US 5,963,664 mit
dem Titel „Method
And System For Image Combination Using A Parallax-Based Technique". Jedes dieser Mosaikerzeugungssysteme
würde ausreichend
funktionieren, um ein nützliches
Mosaik darzustellen. Für
beste Ergebnisse ist jedoch die dreidimensionale Mosaikerzeugungstechnik
bevorzugt.
-
Wie
in der
US 5,963,664 -Anmeldung
beschrieben, kann das System, wenn ein existierendes 3D-Mosaik,
das eine dreidimensionale Szene darstellt, und die Pose (Rotation,
Translation und Zoom) eines neuen Blickpunktes in Bezug auf dieses
Mosaik gegeben ist, das System ein synthetisches Bild der Szene
ableiten. Im Grunde genommen kann das System durch Aufnehmen einer
Szene unter Verwendung von unterschiedlichen Kameras mit unterschiedlichen
Blickpunkten auf die Szene Bilder synthetisieren, die eine Ansicht
der Szene von Blickpunkten sind, die sich von denen der Kamera unterscheiden.
Natürlich
kann eine einzelnen Kamera verwendet werden, um die Szene von unterschiedlichen Orten
abzubilden und das Mosaik kann von diesen Bildern erzeugt werden.
-
2 stellt
eine Hardwareanordnung einer Kamera (von Kameras) innerhalb eines
dreidimensionalen Studios 200 (oder Produktionsaufbaus)
dar, die verwendet wird, um eine 3D-Mosaikdarstellung des Studios zu erzeugen
und ein synthetisches Bild der Szene aus dem Mosaik abzuleiten.
Das Studio ist lediglich anschaulich für einen Typ einer dreidimensionalen
Szene, die durch das System aufgezeichnet werden kann. Es kann natürlich mit
irgendeiner anderen dreidimensionalen Szene ersetzte werden einschließlich Filmmaterial
von historischen Ereignissen, Sportereignissen und dergleichen.
Der 3D-Mosaikerzeugungsprozeß verwendet
weine Mehrzahl von Bildern der Szene, um ein oder mehrere Mosaike,
die die Szene darstellen, zu erzeugen. Obgleich das Mosaik (die
Mosaiken) von irgendeiner Serie von sich überlappenden Bildern erzeugt
werden kann, um Löcher
in dem Mosaik zu verhindern und andere Anomalien in dem Mosaik,
ist es am besten, die Szene bewußt unter Verwendung eines zweidimensionalen
Gitters für
die Kamerapositionierung abzubilden. Im Grunde genommen wird ein
zweidimensionales Gitter 202, das einer Mehrzahl von Quadraten
mit den Abmessungen ein Fuß mal
ein Fuß definiert,
verwendet, um Kamerapositionen innerhalb eines Gebietes nahe des
Sets festzulegen. Im allgemeinen wird die spezifische Größe der Gitterquadrate,
d.h. die Anzahl von Kamerapositionen, abhängig von der Komplexität der Szene
variieren. Ebenso wird die Form des Gitters abhängig von dem Typ der Szene, der
aufgezeichnet wird, z. B. einige Szenen, wie z. B. ein Sportereignis,
kann durch das Gitter umschrieben werden, variieren.
-
Um
die Bilder für
das Mosaik (die Mosaiken) zu erzeugen, zeichnet eine Kamera 204 ein
Bild (oder eine Reihe von Bildern, z. B. ein Video) von jedem der
Gitterquadrate auf. Die Bilder werden typischerweise bei verschiedener
Kameraschwenkung, -kippung, -drehung und Zoompositionen für jedes Gitterquadrat
aufgezeichnet, um die Mehrzahl von Bildern von einer Mehrzahl von
Blickpunkten zu erzeugen, der Bilddarstellungsprozeß erzeugt
ein 3D-Mosaik aus den verschiedenen Bildern, die an jedem Kameraort
aufgezeichnet wurden. In gleicher Weise werden 3D-Mosaiken für die anderen
Kameraorte an jedem der Gitterpunkte erzeugt. Beispielsweise stellen
die 3D-Mosaiken 206, 208, 210 (nur der Bildmosaikabschnitt
ist dargestellt) die Szene dar, wie sie von den Gitterorten 212, 214 und 216 aufgezeichnet
wurde. Diese 3D-Mosaiken werden verschmolzen, um ein synthetisches
Bild 218 zu erzeugen, daß die Szene darstellt, wie
sie beispielsweise von dem Ort 220 gesehen wird. Das Bild,
das an dem künstlichen
Blickpunkt erzeugt wird, ist kein „realer" Kamerablickpunkt, sondern wird stattdessen
aus der Information synthetisiert, die in den verschiedenen Mosaiken
enthalten ist.
-
Um
ein Mosaik zu erzeugen, um genau die dreidimensionale Szene darzustellen,
richtet der Darstellungsprozeß die
Bilder, die an jedem Kameraort aufgezeichnet wurden, aus. Der Ausrichtungs-
bzw. Registrierungsprozeß verwendet
typischerweise eine hierarchische Direktausrichtungstechnik, um
die Translationsparameter zu bestimmen, die verwendet werden können, um
die Bilder zu verformen bzw. zu verzerren, so daß sie ausgerichtet sind. Sobald
sie ausgerichtet sind, können
die Bilder zusammengeführt
(oder verschmolzen) werden, um ein Mosaik der Szene zu bilden. US-Patent
US 6,393,163 beschreibt eine
anschauliche Technik für
das Erzeugen von Mosaiken unter Verwendung hierarchischer Direktausrichtung.
Weiterhin, sobald das Mosaik erzeugt wurde, können zusätzliche Bilder zu dem Mosaik
hinzugefügt
werden, unter Verwendung von konventionellen Bildmisch- und Verschmelzungstechniken.
-
Genauer
gesagt werden, wie in 3 gezeigt ist, die verschiedenen
an jedem Kameraort aufgezeichneten Bilder, in eine Mehrzahl von
Mosaiken kombiniert, d.h. ein Mosaik 300 für jeden
Gitterpunkt. Um jedes der Mosaiken zu erzeugen, wird die Kamera
an jedem Gitterpunkt geschwenkt, gekippt, gedreht und gezoomt. Im
Grunde genommen erzeugt das System für jeden Gitterpunkt ein Mosaik,
das die Bildinformation in Bezug auf vier Kameraparameter enthält. Da jedes
Mosaik einem bestimmten dreidimensionalen Ort zugeordnet ist, bilden
die Mosaiken eine adressierbare dreidimensionale Anordnung. Jedes
Mosaik steht mit den benachbarten Mosaiken durch eine parametrische
Transformation 302 und ein Bewegungsflußfeld 304 in Bezug.
Da das Produktionsset, das abgebildet wird, typischerweise statisch ist,
stellt das Bewegungsflußfeld
eine Parallaxenbewegung von Objekten innerhalb des Bildes dar, d.h. die
dreidimensionale Geometrie der Szene. Diese Parallaxenbewegung wird
ebenso als die „Form" der Szene bezeichnet.
Mit anderen Worten, wenn sich die Kamera von Ort zu Ort bewegt,
verursacht die Parallaxe, daß Objekte
in der Szene sich relativ zum Hintergrund bewegen, z. B. wenn eine
Kamera vesschwenkt wird, erscheint ein Stuhl im Vordergrund, als
ob er sich in Bezug auf eine Hintergrundwand bewegt. Durch Speichern
der Mosaiken sowie einer parametrischen Transformation in Bezug
auf ein nebenstehendes Mosaik, z. B. die Bewegung des Hintergrundes,
wenn sich die Kamera physikalisch bewegt und die Bewegungsflußfeldinformation,
z. B. die Parallaxeninformation, die die dreidimensionale Geometrie
der Szene darstellt, kann die gesamte Szene von irgendeinem Blickpunkt
aus wiedererzeugt werden und nichts von der dreidimensionalen Geometrie geht
verloren. Somit weist ein gegebenes dreidimensionales Mosaik eine
Bildmosaikdarstellung, eine Panaromaansicht der Szene und ein Formmosaik auf,
daß die
dreidimensionale Geometrie der Szene darstellt.
-
Der
Prozeß,
der verwendet wurde, um eine künstliche
Bildansicht der Szene zu erzeugen, ist als „image tweening" bekannt. Dieser
Prozeß verzerrt
jedes der einzelnen Mosaiken (z. B. die Mosaiken 206, 208 und 210),
um es an den Ort des synthetischen Blickpunktes (z. B. den Ort 220)
anzupassen, somit, wenn jedes 3D-Mosaik für jeden Gitterpunkt erzeugt wird,
wird das 3D-Mosaik im Speicher (Mosaikspeicher 222) in
Bezug auf seinen verknüpften
Gitterpunkt abgelegt. Wird ein neuer Blickpunktort gegebenen, werden
die Mosaiken aus dem Speicher wieder abgerufen, um ein synthetisches
Bild zu erzeugen, daß die
Szene von dem neuen Blickpunkt aus darstellt. Abhängig von
der Komplexität
der abzubildenden Szene kann das System alle der 3D-Mosaiken im Speicher
abrufen oder eine Untergruppe dieser Mosaiken kann z. B. nur diejenigen
Mosaiken wieder aufrufen, die dem neuen Betrachtungspunkt am nächsten liegen.
Unter Verwendung des Bildtweeningprozesses 224, wird jedes
wieder aufgerufene 3D-Mosaik
verzerrt, so daß es
an den neuen Blickpunktort angepaßt ist (z. B. den Ort 220)
und die Mosaiken werden verschmolzen, um das neue Sichtbild 218 zu
bilden. Die Bildverschmelzung (ebenso als Bildmischen bekannt) wird
typischerweise verwirklicht durch Mitteln der Pixel der verschiedenen Mosaiken,
die verwendet wurden, um das synthetische Bild zu bilden. Andere
Formen des Bildmischens sind jedoch bekannt und können an
diese 3D-Mosaiken angewendet werden. Für ein Beispiel einer Bildverschmelzungstechnik
siehe das ebenfalls übertragene
US-Patent Nr. 5,325,449
und die US-Patentanmeldung mit der Seriennr. 08/059,616. Das Ergebnis,
das durch den Imagetweeningprozeß erzeugt wird, ist ein synthetisches
Bild (z. B. das Bild 218), das einen neuen Blickpunkt der Szene 200 darstellt.
Das synthetische Bild wird in Echtzeit erzeugt, so daß, wie unten
erörtert
wird, das synthetische Bild mit einer Echtzeitproduktion des zweiten
Bildes kombiniert werden kann.
-
Dieser
Darstellungsprozess kann natürlich durch
einen computergestützten
Konstruktionsprozeß (CAD-Prozeß) ersetzt
oder durch diesen unterstützt
werden, der Graphikbilder eines Produktionssets erzeugt. Es ist
vorhersehbar, daß,
wenn Computerverarbeitungsleistung billiger wird, daß CAD-Prozesse
in der Lage sein werden, realistische Bilder von Produktionssets
zu vernünftigen
Kosten zu erzeugen. Typischweise weist ein graphisch erzeugtes Bild
eine Mehrzahl von miteinander verbundenen Polygongen auf, die „gefärbt" mit einer Textur
sind, die ein „reales" Bild simulieren.
Texturen enthalten verschiedene vorberechnete oder aufgenommene
Pixelmuster, die auf die Oberflächen,
die durch die Polygone repräsentiert
werden, abgebildet werden können.
Verbesserte Rechnung ermöglicht
es, daß die Polygone
und ihre verknüpften
Texturen Realismus erzielen.
-
Solch
eine graphisch erzeugte Szene kann eine Mehrzahl von Mosaiken aufweisen,
die unterschiedliche Ansichten der Szene darstellen. Eine extensive
Zeitmenge kann aufgewandt werden, um realistische graphische Bilder
der Szene zu erzeugen. Diese Mosaiken werden wie oben beschrieben
dargestellt, um zu ermöglichen,
daß jeder
Blickpunkt der Szene in Echtzeit synthetisiert wird. Im Grunde genommen
kann eine graphisch erzeugte Szene in derselben Art und Weise verwendet
werden, wie das Mosaik (die Mosaiken), das oben erörtert wurde,
um synthetisierte Bilder von synthetisierten Blickpunkten zu erzeugen.
Folglich kann Zeit und finanzieller Aufwand aufgewendet werden für die Erzeugung
der graphisch erzeugten Szenemosaiken, sobald sie jedoch erzeugt
wurden, kann das System der Erfindung neue Ansichten der Szene in
Echtzeit darstellen.
-
Der
Kameraverfolgungsprozeß verwendet eine
Kombination von Hardware und Software, um eine Vielzahl von Indizien
eines Blickpunktes für
die Kamera zu verfolgen und aufzuzeichnen, während die Kamera verwendet
wird, um das zweite Bild zu erzeugen. 4 stellt
eine Tonstufe 402 einschließlich einer Kamera 20 für das Abbilden
der Performance von ein oder mehreren Darstellern (nicht gezeigt) und/oder
eines anderen Objektes des zweiten Bildes und ein Computersystem 30 für das Speichern
und Korrigieren des Indizes des Blickpunktes dar. Das Indiz des
Blickpunktes ist für
dieses anschauliche Beispiel zumindest ein Kameraparameter und ist
typischerweise ein Satz von Kameraparametern, der durch das Computersystem
korrigiert wird. Unter Verwendung eines Satzes von korrigierten
Kameraparametern wird im folgenden das zweite Bild mit dem synthetischen
Bild kombiniert, um das zusammengesetzte Bild zu erzeugen.
-
Typischerweise,
um die Verwendung von Chroma-Key-Techniken während des Bildzusammensetzprozesses
zu erleichtern, wird das Objekt des zweiten Bildes vor einem blauen
(oder manchmal grünen)
Schirm positioniert. In dem dargestellten Raum 402 sind
die Wände 404 blau
gestrichen. Um bei der Kamerapositionverfolgung zu helfen, enthalten
die Wände
ein Reihe von Indizien 408, die ungefähr an der Oberseite des Raums 402 positioniert sind,
z. B. blaue Xe auf einer blauen Wand, die außerhalb der abzubildenden Szene
liegen. Natürlich können die
Indizien auf dem Boden oder an irgendeinem anderen Ort in dem Studio
lokalisiert sein. Diese Indizien können identisch zueinander oder
einzigartig sein. Weiterhin werden durch die Verwendung von blauen
Indizien auf den blauen Wänden
die Indizien leicht von dem zweiten Bild extrahiert, was nur noch das
Objekt des zweiten Bildes hinterläßt für das Kombinieren mit dem synthetischen
Bild.
-
Diese
Indizien 408 werden vorzugsweise kontinuierlich durch eine
oder mehrere „Verfolgungs-" Kameras 106 (eine
hiervon ist gezeigt), die über
der Kamera 20 für
das zweite Bild positioniert sind, aufgenommen. Alternativ dazu,
wie unten im Detail erörtert
wird, können
die Indizien direkt durch die zweite Bildkamera abgebildet werden,
wenn diese das zweite Bild erzeugt. In jedem Fall, sobald verarbeitet
und kombiniert mit dem synthetischen Bild, bildet das Indiz keinen
Teil des zweiten Bildes, da die Indizien, wenn sie überhaupt
erscheinen, derart ausgebildet sind, daß sie von dem zweiten Bild
extrahiert werden durch den Bildzusammensetzprozeß.
-
Zusätzlich zu
der Verfolgungskamera ist die zweite Bildkamera mit einem Zoomsensor 410 und einer
Vielzahl von Kameraorientierungssensoren 412 ausgestattet.
Ein Hochgeschwindigkeitscomputersystem 30 speichert das
Ausgangsvideo von der Verfolgungskamera sowie die Kameraparameter.
Das Videosignal der Verfolgungskamera kann alternativ getrennt in
einem Videosignalaufzeichnungsmedium, wie z. B. einem Videoband
gespeichert werden. In gleicher Weise wird das Videosignal (im folgenden als
das Darstellungsbild oder zweites Bild bezeichnet) von der zweiten
Bildkamera direkt zu dem Zusammensetzprozeß für die Echtzeitkombinie rung
mit dem synthetischen Bild gesendet oder alternativ dazu kann das
Videosignal auf einem Aufzeichnungsmedium, wie z. B. einem Videoband
aufgezeichnet werden.
-
Die
Kamerapositionsbestimmung wird unter Verwendung von zwei Schritten
verwirklicht, nämlich mißt in Schritt
1 das System direkt die Kameraparameter, um grob die Kameraposition
abzuschätzen und
in Schritt 2 verwendet das System die Indizienbilder von der Verfolgungskamera
(im folgenden als Referenzbild bezeichnet), um die Kameraparameter
von Schritt 1 zu verfeinern (zu korrigieren). Wenn sich die Kamera
bewegt, während
das zweite Bild erzeugt wird, zeichnet der Computer 30 im
Parameterspeicher 414 sieben Kameraparameter auf, z. B.
die Position (x, y, z), die Drehung (θ), der Schwenk (Φ), die Verkippung
(φ) und
den Zoom (M). Um die Positionsparameter zu erzeugen, mißt ein Positionsortungssystem 60 die
x,y,z-Position relativ zu einem Ursprung, der willkürlich gewählt wird,
so daß er
beispielsweise die Ecke des Raumes ist. Um die anderen Kameraparameter
zu erzeugen, verwendet das System kommerziell verfügbare Sensorsysteme
für das Überwachen
des Kameraschwenks, der Verkippung, der Drehung und des Zooms, z.
B. den Speicherkopf, der von der Ultimatte Corporation of Chatsworth,
Kalifornien, hergestellt wird.
-
Die
Kamerapositionsparameter (x, y, z) können erlangt werden unter Verwendung
eines Positionsortungssystems basierend auf Ultraschall-, Infrarot-
oder Breitspektrumstechnologie, beispielsweise hat ein typischer,
kommerziell erhältlicher
Ultraschallbereichpositionsfinder eine Genauigkeit von 1,5%. In einem
typischen Studio würde
die Verwendung von drei Ultraschallbereichspositionsfindern, um
eine dreidimensionale Position zu bestimmen, solch eine Genauigkeit
zu einem Kamerapositionsfehler von weniger als 3 Zoll führen. Solch
eine Genauigkeit in den Kameraparametern ist ausreichend, um die
Kameraposition abzuschätzen,
jedoch kann weitere Information notwendig sein von der Verfolgungskamera,
um die Positionsabschätzung
zu verbessern auf eine Genauigkeit, die ausreichend ist, um ein
realistisches Bild zu erzeugen durch Kombinieren des Darstellungsbildes
mit einem synthetischen Bildpunkt. Die Parameterkorrektur wird in
Prozeß 416 verwirklicht.
Die korrigierten Kameraparameter werden von dem Zusammensetzprozeß verwendet,
um das zweite Bild und das synthetische Bild zu kombinieren.
-
In
einigen Studios sind der Kameraort oder, falls mehr als eine Kamera
verwendet wird, die Kamerapositionen fest. In dieser Anordnung sind
die Kamerapositionen relativ zu dem Positionsursprung fixiert und
müssen
nur einmal bestimmt werden. Danach wird die Kamerabewegung nur gemessen durch
die kommerziell verfügbaren
Schwenk-, Kipp-, Dreh- und Zoomsensoren. Diese Sensoren sind ausreichend
genau, um die Kameraparameter ohne weitere Verfeinerung oder Korrektur
der direkt gemessenen Parameter zu bestimmen. Somit wären eine
Verfolgungskamera und Studioindizien nicht notwendig.
-
5 stellt
ein detailliertes Flußdiagramm der
Kameraparametermessung des Korrekturprozesses 500 dar,
der das Indiz des Kamerablickpunktes erzeugt. Dieser Prozeß enthält zwei
Beispiele von vielen möglichen
verfügbaren
Techniken, um das Indiz des Kamerablickpunktes zu erzeugen. Die
Erfindung kann irgendeine dieser Techniken enthalten einschließlich lediglich
genauer Messung der Position und der Orientierung der Kamera ohne
weitere Verfeinerung.
-
Das
System der vorliegenden Erfindung verwendet anschaulich eines von
zwei Verfahren der Verfeinerung der Kameraparameter. Die Kameraparameter,
wenn sie zusammengenommen werden, legen die Kamerapose fest. Das
erste Verfahren 510 verwendet eine symbolische Darstellung
des Studios, während
das zweite Verfahren 512 eine Bilddarstellung des Studios
verwendet.
-
Für die symbolische
Darstellung des Studios wird die Position von jeder Landmarke in
Schritt 514 in absoluten Größen in Bezug auf ein festes
Koordinatensystem, z. B. mit dem Ursprung des Koordinatensystems
in der Ecke des Studios vorgemessen. Unter Verwendung des Verfolgungskamerabildes (bzw.
der Bilder), das in Schritt 524 bereitgestellt wird, bestimmt
das Verfahren die Pose bzw. die Darstellung der Kamera, d.h. die
Drehungs-, Translations- und Zoomparameter relativ zu dem Referenzkoordinatensystem.
Die Kamerapose wird in Schritt 516 berechnet durch zunächst Abschätzen der
Pose unter Verwendung der gemessenen Kameraparameter, dann Verfeinern
(Korrigieren) der Abschätzung
unter Verwendung eines Posenabschätzungsprozesses. Die Kameraposebestimmung
und Abschätzung
unter Verwendung von Indizien der Szeneorientierung ist eine bekannte
Technik. Siehe z. B. Kumar et al. „Robust Methods for Estimating
Pose and a Sensitivity Analysis" CVGIP:
Image Understanding, Band 60, Nr. 3, November, Seiten 313–342 (1994).
Unter Verwendung dieser Technik und einer gegebenen Korrespondenz
zwischen der Indizien in einem Bild, bestimmt die Technik die Rotations-
und Translationsmatrizen, die ein Referenz- oder „Welt-" Koordinatensystem
auf ein Kamerakoordinatensystem abbilden. Die in dieser Veröffentlichung
beschriebene Technik wird an die Indizien auf den Studiowänden angewendet,
so daß die
Kamerapose, die zunächst
durch die Sensoren abgeschätzt
wurde, verfeinert wird, um genaue Kameraparameter zu berechnen.
Das System iteriert die Kamerapose durch die Niveaus der Bildpyramidendarstellung
des Referenzbildes bis ein ausreichender Grad von Genauigkeit erzielt
wird. In Schritt 520 gibt das System die korrigierte Kamerapose
aus.
-
Für die Bilddarstellung
des Studios wird in Schritt 502 das gesamte Studio von
verschienen bekannten Orten des Raumes (z. B. unter Verwendung eines
Gittermusters) abgebildet und das Videosignal von der Verfolgungskamera
wird als eine Serie von Referenzbildern gespeichert. In Schritt 504 werden diese
Referenzbilder der Indizien mit Bezug auf eine Anordnung von Kamerapositionen,
wie sie von dem Kamerapositionsortungssystem und den Orientierungssensoren
gemessen wurde, abgelegt. Die Anordnung bildet die Kamerapositionen,
wie sie an jedem Gitterpunkt des Gittermusters gemessen wurden,
auf eine spezifische Ansicht der Indizien in jedem Referenzbild
ab. Auf diese Art und Weise ruft das System bei der in Schritt 506 gegebener
Kamerapose (z. B. einen Satz von Kameraparametern, der die Drehung,
Translation und den Zoom der Kamera in Bezug auf ein bekanntes Referenzkoordinatensystem
darstellt), in Schritt 508 eine bestimmte Sicht der Indizien
auf, d.h. das System ruft ein bestimmtes Referenzbild ab. Typischerweise,
um schnelle Berechnungen unter Verwendung der Bilder zu erlauben, wird
jedes Referenzbild als eine Bildpyramide abgelegt. Bildpyramiden
sind im Stand der Technik für
ihre Verwendung bei der Darstellung eines einzelnen Bildes als eine
Reihe von Niveaus, wo jedes Niveau eine geringere Auflösung als
ein vorheriges Niveau hat, bekannt. Im allgemeinen werden Bildpyramiden gebildet
durch Laplace- oder Gauß-gefilterte
Pixel in jedem Niveau einer Pyramide, um ein Niveau mit geringerer
Auflösung
zu bilden. Zwei Beispiele einer Bildpyramidenverwendung in der Bildverarbeitungstechnik
werden beschrieben durch Anderson et al. im US-Patent Nr. 4,692,806
und von van der Wal in US-Patent Nr. 4,703,514. Unter Verwendung
der Bilddarstellung werden die Referenzbilder selbst verwendet,
um Offsetparameter zu berechnen, die die relative Ausrichtung zwischen
den gemessen Kameraparametern und der Referenzausrichtungsinformation
abzuschätzen.
-
Da
die Kameraparameter mit jedem Referenzbild verknüpft sind, sind diese Kameraparameter die
Kamerapose für
das Erzeugen von jedem Referenzbild. Die gegenwärtigen Kameraparameter werden
verwendet, um aus dem Speicher ein Referenzbild auszuwählen, das
ein Bild darstellt, das von der nächsten Gitterposition aufgenommen
wurde zu der gegenwärtigen
Kameraposition, die von den gemessenen Kameraparametern identifiziert
wird. Danach verzerrt das System in Schritt
522 das Referenzbild, so
das es mit einem Bild der Indizien ausgerichtet wird (im folgenden
als Landmark-Bild bezeichnet), das mit dem Ausführungsbild, das in Schritt
524 bereitgestellt
wird, verknüpft
ist, um einen iterativen Prozeß bereitzustellen,
wird das Landmarkenbild typischerweise gefiltert, um eine Bildpyramide
zu bilden. Die Bildverzerrung wird iterativ durch Schritt
526 über die
Bildpyramiden des Referenzbildes und des Landmark-Bildes durchgeführt, bis
das Referenzbild genau mit dem Landmark-Bild ausgerichtet ist. Die notwendige
Translation, um das Referenz- und Landmark-Bild zueinander auszurichten,
erzeugt einen Satz von Oftsetparametern in Schritt
528,
die die Ungenauigkeit der Kameraparameter anzeigen, wie sie von
den verschiedenen Sensoren angegeben werden und insbesondere durch
das Positionsortungssystem. Diese Oftsetparameter werden in Schritt
530 verwendet,
um die gemessenen Kameraparameter zu korrigieren, um eine im wesentlichen
genaue Position relativ zu dem Raumursprung zu erhalten. Die korrigierten
Parameter, die in Schritt
532 ausgegeben werden, zeigen
die aktuelle Position der Kamera relativ zu einem Referenzkoordinatensystem
an. Solch ein Bildausrichtungsansatz wird beschrieben von K. J.
Hanna, „Direct
Multi-Resolution Estimation of Ego-Motion and Structure From Motion", Proceedings of
the IEEE Workshop on Visual Motion, Princeton, New Jersey, 7. bis
9. Oktober, 1991, Seiten 156–162
und durch Hanna in dem ebenfalls übertragenen US-Patent Nr. 5,259,040.
Zusätzlich
beschreibt das gemein sam übertragene
US-Patent
US 5,963,664 mit
dem Titel „Method
And System For Image Combination Using A Parallax-Based Technique" ebenso einen Bildausrichtungsprozeß.
-
Alternativ
verfolgt das System die Kameraposition durch Abbilden der Indizien
mit der zweiten Bildkamera, d.h. ohne Verwendung der Trackingkamera.
Im Grunde genommen ist das Indizienbild im wesentlichen in dem zweiten
Bild eingebettet und die Referenzbilder werden vorher aufgezeichnet
unter Verwendung der zweiten Bildkamera. In diesem alternativen
Ansatz ist das Sichtfeld der zweiten Bildkamera breit genug, um
die Indizien sowie das Objekt des zweiten Bildes abzubilden. Der
verwendete Prozeß,
um die Offsetparameter zu berechnen, bleibt der gleiche wie oben
beschrieben, z. B. wird das Referenzbild in Ausrichtung mit dem
Landmark-Bild (nun ein Abschnitt des zweiten Bildes) verzerrt und
die Offsetparameter werden basierend auf dem Grad der Bildverzerrung,
die verwendet wird, um das Referenz- und Indizbild zueinander auszurichten,
berechnet. Im folgenden können
während
der Bildzusammensetzung die Indizien im Endbild maskiert werden. Verschiedene
Techniken für
die Kameraorientierungsindizienverfolgung und -verwendung werden erörtert in
den zusammen übertragenen
US-Patenten
US 5,488,675 , angemeldet
am 31. März
1994,
US 5,581,629 ,
angemeldet am 30. Januar 1995 und US 5,566,251, eingereicht am 31.
Mai 1995.
-
Zusätzlich müssen einige
der Parameter nicht so genau bestimmt werden wie andere Parameter.
Im Grunde genommen kann die Berechnung der absoluten Kameraposition
vereinfacht werden. Die Vereinfachung beinhaltet die Glättung einiger
der Kameraparameter, wie z. B. Zoom, Schwenk, Kipp und Dreh, während andere
Parameter, wie z. B. die Positionsparameter (x, y, z) korrigiert
werden unter Verwendung von einer der Landmark-Abbildungstechniken,
die oben beschrieben wurden. Auf diese Art und Weise müssen die
Indizienabbildungstechniken nur an drei Variablen angewendet werden
und die vier anderen Variablen werden mathematisch berechnet unter
Verwendung von Mittelung oder Interpolation der gemessenen Paramter.
-
Die
vorhergehenden Abschnitte erörterten das
Erzeugen eines dreidimensionalen Mosaiks einer Szene (z. B. eines
Produktionssets, einem Hintergrundbild und dergleichen) und ebenso
das Erzeugen eines zweiten Bildes sowie von Indizien des Blickpunktes,
der mit dem zweiten Bild verknüpft
ist. Obgleich sich die vorhergehende Erörterung auf die Erzeugung des
zweiten Bildes unter Verwendung des Verfolgungsprozesses fokussiert
hat, kann das zweite Bild von irgendeiner Anzahl von Quellen einschließlich Computergraphik,
animierte Kunst, ein zweites synthetisches Bild, das von einem zweiten 3D-Mosaik
dargestellt wird, historischen Filmen, Fotografien und dergleichen
erzeugt werden. Dieser Abschnitt beschreibt den Prozeß durch
den das erfindungsgemäße System
das zweite Bild mit einem künstlichen
Bild, das aus dem dreidimensionalen Mosaik der Szene extrahiert
wurde, kombiniert. Das Ergebnis ist ein realistisches zusammengesetztes
Bild, das das Objekt des zweiten Bildes innerhalb der Szene darstellt.
-
6 stellt
ein Blockdiagramm des Bildzusammensetzprozesses 104 dar.
Wie oben beschrieben, stellt der Bilddarstellungsprozeß 100 ein
synthetisches Bild auf dem Pfad 606 von einer Mehrzahl von
Bildern 602 und 604 einer Szene bereit. Der Tweeningprozeß erzeugt
das synthetisierte Bild unter Verwendung der korrigierten Kameraparameter,
die auf Pfad 612 während
des Kameraverfolgungsprozesses 102 erzeugt wurden. Die
sieben korrigierten Kameraparameter bilden eine Eingabe zu dem Tweeningprozeß innerhalb
des Bilddarstellungsprozesses 100. Von diesen sieben Parametern
erzeugt der Tweeningprozeß von
dem Bildmosaik ein synthetisches Bild, das einen Blick auf die Szene
darstellt (z. B. auf eine Produktionsset, eine Hintergrundszene
und dergleichen), wie sie von der Position der zweiten Bildkamera
aus aussehen würde.
-
Unter
Verwendung einer konventionellen Chroma-Key-Bildzusammensetztechnik
wird das zweite Bild auf Pfad 614 mit dem synthetisierten
Bild auf Pfad 606 kombiniert. Allgemien ausgedrückt überwacht
die Chroma-Key-Technik unter Verwendung eines Blaupixeldetektors 608,
das zweite Bild (die zweiten Bilder) auf Pixel mit blauer Farbe.
Jedes erfaßte
blaue Pixel wird auf einer Pixelortbasis mit einem Pixel von dem
synthetisierten Bild ersetzt. Dieser Ersetzungsprozeß wird durch
den Schalter 610 dargestellt. Das zusammengesetzte oder
finale Bild 116 ist eine nahtlose Kombination des zweiten
Bildes und des synthetisierten Bildes. Das System führt den Zusammensetzprozeß für jedes
Einzelbild des Videos, so daß das
Ausgangsbild typischerweise ein Videosignal ist. Zusätzlich,
wenn die Kamera, die das zweite Bild erzeugt, sich relativ zu ihrem
Referenzsystem bewegt, werden neue Kameraparameter zu dem Tweeningprozeß gesendet,
um aktualisierte synthetisierte Bilder zu erzeugen, so wie sich
die Szene mit der Kameraposition verändert. Im Grunde genommen erzeugt
das System Videobilder des Objektes des zweiten Bildes innerhalb
der Szene. Falls das Objekt des zweiten Bildes eine Vorführung ist und
die Szene ein Produktionsset ist, kann das Set wiederverwendet werden
ohne kostenintensiven Aufbau und Abbau. Solch ein System reduziert
für nahezu
jede Produktion die Produktionskosten und die Produktionszeit.
-
Alternative
Ansätze
für die
Bildkombination sind verfügbar,
die nicht die Chroma-Key-Technik verwenden.
Ein solcher Ansatz wird beschrieben in dem ebenfalls übertragenen
US-Patent
US 5,488,674 mit dem Titel „Method
For Fusing Images And Apparatus Therefore" und dem gemeinsam übertragenen US-Patent 5,325,449.
Die Erfindung kann jede Bildzusammensetztechnik verwenden, die den
Hintergrund maskieren oder entfernen kann (oder einen Abschnitt
hiervon) sowie die Indizien von dem zweiten Bild maskieren oder
entfernen kann und den entfernten oder maskierten Abschnitt mit
einem geeigneten Abschnitt des synthetisierten Bildes ersetzen kann.
-
Das
synthetisierte Bild kann manchmal eine Belichtung enthalten, die
nicht mit der Belichtung übereinstimmt,
die verwendet wurde, während
die Aufführung
aufgezeichnet wurde. Das System kann diesem Problem Rechnung tragen
unter Verwendung von verschiedenen Belichtungsanpaßprozessen.
-
Genauer
gesagt werden drei verschiedenen Lichtniveaus verwendet, während die
individuellen Bilder für
die Mosaiken erzeugt werden, um verschiedene Lichtniveaus anzupassen,
wenn das zusammengesetzte Bild produziert wird. Im Ergebnis werden
drei Mosaiken für
jeden Gitterpunkt erzeugt, ein Mosaik für jedes Lichtniveau. Während der
Bildsynthese wird das synthetisierte Bild produziert durch Interpolieren
der Pixelhelligkeit der drei Mosaiken für jedes Pixel in dem synthetisierten
Bild. Die in der Interpolation verwendete Gewichtung ist benutzerdefiniert,
so daß ein
Systemoperator den Grad des Einschlusses oder des Ausschlusses von
einem der drei Mosaiken einstellen kann, um ein Lichtniveau zu erzielen,
das zu der Belichtung in das Durchführungsbild paßt.
-
Zusätzlich zu
dem vorhergehenden Belichtungskompensationsprozeß kann das System eine Anzahl
von Bildfilterungs- und Verbesserungstechniken verwenden, um das
Helligkeitsniveau eines speziellen Abschnittes (spezielle Abschnitte)
des Bildes einzustellen. Beispielsweise können Objekte in dem synthetisierten
Bild mit Oberflächen,
die im rechten Winkel zu der Lichtrichtung, das verwendet wird,
um das Objekt des zweiten Bildes zu beleuchten, ausgerichtet sind,
verstärkt
werden, so daß sie
ebenso als beleuchtet erscheinen. Auf diese Art und Weise erscheint
das synthetisierte Bild einer Szene, als ob es gleichzeitig mit
dem zweiten Bild aufgenommen worden wäre.
-
Genauer
gesagt, wenn die Belichtung auf eine Szene projiziert wird, hat
eine Struktur, die senkrecht zu der Belichtung verläuft, typischerweise
einen Kontrast. Ein Ansatz eine neue Belichtungsrichtung zu synthetisieren
ist es, ein Bild in eine Struktur bei unterschiedlichen Orientierungen
zu zerlegen, die Struktur bei jeder Orientierung zu modifizieren
und das Bild zu rekombinieren, um ein verändertes Ausgangsbild zu erzeugen.
Beispielsweise kann ein Bild in verschiedene Gradientenorientierungen
und Skalierungsbänder
unter Verwendung einer orientierten Laplace-Pyramide zerlegt werden.
Diese Pyramide hat die Eigenschaft, daß das Summieren aller unveränderten
Bänder
zu dem ursprünglichen
Bild führt. Um
den Effekt eines anderen Belichtungswinkels auf das Bild zu synthetisieren,
werden die Orientierungsbänder
senkrecht zu dem gewünschten
synthetischen Belichtungswinkel verstärkt und diejenigen Orientierungsbänder parallel
zu dem gewünschten Belichtungswinkel
werden abgeschwächt.
Um dies zu illustrieren kann eine orientierte Laplace-Pyramide von
einem Eingangsbild berechnet werden, was zu einem Satz von vier
gefilterten Bildern bei unterschiedlichen Skalierungen führt. Der
Kosinus des Winkels zwischen der Filterorientierung, die jedes gefilterte
Bild erzeugt, und der gewünschten
synthetischen Belichtung wird dann berechnet. Das gefilterte Bild
wird dann mit dieser Verstärkung
multipliziert. Dies wird für
jede Orientierung bei jeder Skalierung verwirklicht. Die Bilder
werden dann rekombiniert, um ein Ausgangsbild zu erzeugen. Eine
Einstellung erlaubt es einem Bediener, verschiedene Belichtungseinstellungen
zu durchlaufen bis die gewünschte synthetische
Belichtung erreicht wird.
-
Zusätzlich können die
Verstärkungen
auf den orientierten Filterausgaben adaptiv eingestellt werden abhängig von
der Bildstruktur statt einer einzelnen Verstärkung für jedes gefilterte Bild. Dies
erlaubt eine genauere Belichtungssynthese, da spezifische Bildmerkmale
anders als andere Merkmale verarbeitet werden können. Beispielsweise können schwierige
Schattenkanten von verschiedenen physikalischen Kanten unterschieden
werden, z. B. steuerbare Filter, die das Filtern bei einer willkürlichen Orientierung
unter Verwendung von nur einem kleinen Satz von Basisfiltern erlauben.
Dies kann eine präzisere
Belichtungssynthese erlauben, da die Bilddarstellung reichhaltiger
ist.
-
Das
System der vorliegenden Erfindung hat viele praktische Verwendungen
außer
der anschaulichen Anwendung der Abbildung eines Produktionssets
für die
nachfolgende wiederholten Verwendung. Andere Anwendungen beinhalten
die Videospielproduktion, wo eine „reale" Szene dargestellt werden kann, so daß sequenzielle
synthetische Bilder erzeugt werden, wenn sich das Spiel entwickelt.
Das zweite Bild könnte
ein computererzeugter, animierter Charakter sein. Der Charakter
würde beispielsweise durch
die Szene sich bewegen, wie er von einem Benutzer gesteuert wird,
der eine Eingabeeinrichtung manipuliert, wie z. B. ein Joystick,
der mit dem System verbunden ist. Für jeden Benutzerbefehl wird
ein neues synthetisches Szenenbild aus dem Szenenmosaik dargestellt.
Im Grunde genommen würde
der Benutzer die Blickpunktindizien steuern, die in dem Darstellungsprozeß verwendet
werden und der animierte Charakter würde diesem Blickpunkt folgen, weiterhin
könnte
der Charakter aus einem zweiten Mosaik synthetisiert werden, so
daß der
Charakter aus dem zweiten Mosaik in Übereinstimmung mit dem gegenwärtigen Blickpunkt
dargestellt wird. Zusätzlich
könnten
anderer Charaktere, die möglicherweise
andere Spieler eines Computerspiels darstellen, der Szene in einer ähnlichen
Art und Weise hinzugefügt
werden. Folglich wird eine virtuelle Realität erzeugt, die verschiedene
Objekte und Charaktere innerhalb der Szene darstellt, die ihre Position
und ihre Erscheinung in Übereinstimmung
mit dem Blickpunkt jedes Nutzers ändern werden.
-
Obgleich
verschiedene Ausführungsformen, die
die Lehren der vorliegenden Erfindung beinhalten, hier gezeigt und
im Detail beschrieben wurden, können
Fachleute leicht viele andere variierte Ausführungsformen ableiten, die
immer noch diese Lehren enthalten.