DE602004008794T2

DE602004008794T2 - Bildwiedergabe mit interaktiver bewegungsparallaxe

Info

Publication number: DE602004008794T2
Application number: DE602004008794T
Authority: DE
Inventors: Bartolomeus W. Van Geest; Marc J. Op De Beeck
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-09-30
Filing date: 2004-09-22
Publication date: 2008-06-12
Anticipated expiration: 2024-09-23
Also published as: CN1860503A; WO2005031652A1; JP2007507781A; EP1671276B1; ATE372563T1; JP4533895B2; US7692640B2; US20070035530A1; EP1671276A1; KR20060088549A; DE602004008794D1; CN100449572C

Description

Die vorliegende Erfindung bezieht sich auf eine Wiedergabeanordnung zum Schaffen interaktiver Bewegungsparallaxe durch Wiedergabe eines Ausgangsbildes auf Basis von 3D visueller Information.
Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Schaffen interaktiver Bewegungsparallaxe durch Wiedergabe eines Ausgangsbildes auf Basis von 3D visueller Information.
Die vorliegende Erfindung bezieht sich auf ein Computerprogrammprodukt, das con einer Computeranordnung geladen werden soll, mit Instruktionen zum Rendern eines Ausgangsbildes auf Basis von 3D visueller Information, wobei die Computeranordnung Verarbeitungsmittel und einen Speicher aufweist.
In dem Bereich der 3D Visualisierung sind eine Anzahl Tiefenaufrufe bekannt, die an dem 3D Empfinden einen Beitrag liefern. Zwei davon sind Stereoskopie und interaktive Bewegungsparallaxe. Bei Stereoskopie werden den Augen des Zuschauers Bilder angeboten, die einen etwas anderen perspektivischen Gesichtspunkt der visualisierten Szene haben. Bei interaktiver Bewegungsparallaxe sind die visualisierten perspektivischen Gesichtspunkte in Bezug auf die Kopflage des Zuschauers adaptiv.
Untenstehend werden zwei Beispiele der Präsentation dieser Tiefenaufrufe an einen Zuschauer kurz beschrieben. In dem ersten Beispiel wird die dreidimensionale (3D) visuelle Information mit Hilfe eines geometrischen 3D-Modells dargestellt. Der Anwendungsbereich umfasst synthetisierten Inhalt, d.h. Computergraphiken, beispielsweise Spielapplikationen und CAD. In dem vorliegenden Fall werden die zu visualisierenden Szenen durch ein geometrisches 3D-Modell beschrieben, beispielsweise VRML ("Virtual Reality Modeling Language") Information über die Kopflage des Zuschauers, gemessen mit einem sog. "Head-tracker" (Kopffolger), wird verwendet um den Gesichtspunkt als Parameter in der Stereobildsynthese (das Rendern) einzustellen. Das recht und das linke Bild werden beispielsweise an einem CRT-basierten Monitor "gezeitmultiplext" und ein elektrovisueller Schalter in Kombination mit einer passiven Brille, ermöglicht, auf Basis von Polarisation, die 3D Visualisierung. Dieser Typ von Visualisierung ist nur illustrativ, es können Alternativen, einschließlich Auto-Stereoskopie, angewandt werden.
Das zweite Beispiel gilt die 3D Visualisierung eines Bildes auf Basis von Inhalt. Die 3D visuelle Information wird mit Hilfe von Bildern und entsprechenden Tiefenkarten präsentiert. Die Daten in diesem Format werden beispielsweise gespeichert und als Rot, Grün, Blau und Tiefe (RGBD) ausgetauscht.
Das bedeutet, dass jedem Pixel ein Tiefenwert zugeordnet wird, der den Abstand des entsprechenden Szenenpunktes von der Kamera angibt. Der Tiefenteil in dieser Darstellung kann verschiedenartig erhalten werden. Beispielsweise unmittelbar aufgezeichnet zusammen mit den Bilddaten, und zwar unter Verwendung einer Tiefenkamera oder erhalten aus stereographischen Aufzeichnungen unter Anwendung von Disparitätsschätzung. Die adaptive Synthese von Bildern mit neuen Gesichtspunkten aus diesem Eingangsmaterial wird bewerkstelligt durch die Anwendung sog. Bildwölbungstechniken, beispielsweise wie beschrieben in: "View interpolation for image synthesis", von Shenchang Eric Chen und Lance Williams, in "Computer Graphics Annual Conference Series", "Proceedings of SIGGRAPH 93", Seiten 279–288. Dieses Verwölben stammt im Grunde von der Neuabtastung der Pixel des ursprünglichen Eingangsbild, und zwar in einem Ausmaß, das zu den Tiefenwerten umgekehrt proportional ist, und der nachfolgenden Neuabtastung der erhaltenen Daten her. Wenn dieses Verfahren angewandt wird, tritt ein Problem auf, da die Bilder durch den Wölbungsprozess verzerrt werden. Das Ausmaß an Verzerrung ist abhängig von dem angewandten Offset des Gesichtspunktes, aber auch von dem Bildinhalt: wenn die Tiefendarstellung, d.h. die Tiefenabbildung relativ viele Unterbrechungen aufweist, wird es oft passieren, dass in bestimmten Gebieten des neuen Bildes, Objekte neu erscheinen sollen: Entdeckung. Diese Information ist nicht verfügbar, da das Objekt in dem ursprünglichen Bild versteckt war. Dies lässt Löcher in dem künstlichen Bild, die irgendwie aufgefüllt werden sollen, aber immerhin wird die Bildqualität beeinträchtigt. Das Ausmaß, in dem diese Degradation des Bildes von dem Zuschauer wahrgenommen wird, ist wieder von dem Inhalt abhängig: wenn der Hintergrund um einen Gegenstand eine homogene Art hat, wird das Auffüllen der Löcher mit anderer Hintergrundinformation weniger störend wirken. Wenn auf interaktive Bewegungsparallaxe angewandt, können die Verzerrungen für relativ große Kopfbewegungen, wenn der Zuschauer den Stuhl verlagert, stärker sein.
Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, eine Wiedergabeanordnung der eingangs beschriebenen Art zu schaffen, die vorgesehen ist zum Rendern eines Vorgabebildes entsprechend eines vorbestimmten Bildes der 3D visuellen Information, wenn ein Zuschauer während einer bestimmten Zeitspanne kaum bewegt.
Diese Aufgabe der vorliegenden Erfindung wird dadurch erfüllt, dass die Wiedergabeanordnung Folgendes umfasst:

– erste Empfangsmittel zum Empfangen eines ersten Signals, das die 3D visuelle Information darstellt,
– zweite Empfangsmittel zum Empfangen eines zweiten Signals, das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung relativ ist,
– Filtermittel zur Hochpassfilterung des zweiten Signals, was zu einem dritten Signal führt;
– Aufbereitungsmittel zum Aufbereiten des Ausgangsbildes auf Basis des ersten Signals und der jüngsten Werte des dritten Signals; und
– Wiedergabemittel zum Wiedergeben des Ausgangsbildes.

Ein wichtiger Aspekt der vorliegenden Erfindung ist die Filterung des zweiten Signals, das Lageninformation des Zuschauers des Bildes darstellt. Durch Filterung des zweiten Signals gibt es keine lineare Beziehung zwischen der wirklichen Lageninformation und dem Ausgang der Renderingmittel, es gibt aber eine Beziehung zwischen der Änderung der wirklichen Lageninformation je Zeiteinheit und dem Ausgang der Renderingmittel. Das bedeutet, dass wenn die Änderung wirklicher Lageninformation während einer bestimmten Zeitperiode Null ist, d.h. wenn die Geschwindigkeit des Zuschauers Null ist, ist der Ausgang der Filtermittel gleich Null. Dadurch werden die Renderingmittel das Vorgabebild entsprechend einer Vorgabelageninformation, und zwar einem vorbestimmten Bild der 3D visuellen Information, rendern. Andererseits, wenn die Änderung der wirklichen Lageninformation während einer bestimmten Zeitperiode relativ groß ist, d.h. wenn die Geschwindigkeit und/oder die Beschleunigung des Zuschauers relativ groß ist, ist der Ausgang der Filtermittel relativ hoch, was zu einer Folge von gerenderten Ausgangsbildern führt, entsprechend relativ großen Winkeln in Bezug auf das Vorgabebild. Der Vorteil der Wiedergabeanordnung nach der vorliegenden Erfindung ist, dass sie vorgesehen ist um auf schnelle Kopfbewegungen des Zuschauers, entsprechend Bewegungen zum Observieren interaktiver Bewegungsparallaxe, zu reagieren, während sie vorgesehen ist um ein bevorzugtes Vorgabebild wiederzugeben, wenn eine kürzlich erfolgte Bewegung nicht als solche gemeint war sondern beispielsweise dadurch verursacht wird, dass nur eine andere Haltung angenommen wird oder dass nur der Stuhl, in dem der Zuschauer sitzt, verlagert wird. In dem letzteren Fall wird die Wiedergabeanordnung ggf. in einen Zustand gehen, in dem das genannte Vorgabebild wiedergegeben wird, wenn nach der kürzlich erfolgten Bewegung der Zuschauer eine Zeitlang sich kaum bewegt hat.
Die 3D visuelle Information könnte verschiedenartig dargestellt werden: als ein 3D-Modell in VRML, als einen Satz von Volumenelementen, als einen Satz von Oberflächenbeschreibungen oder als ein Bild plus Tiefenabbildung.
In einer Ausführungsform der Wiedergabeanordnung nach der vorliegenden Erfindung umfasst die 3D visuelle Information ein Eingangsbild und eine entsprechende Tiefenabbildung und das Eingangsbild und das Ausgangsbild entsprechen einander im Wesentlichen um einen vorbestimmten Wert des dritten Signals, während für einen weiteren Wert des dritten Signals das Ausgangsbild ein anderes Gesicht auf die Szene darstellt als ein erstes Gesicht auf die Szene entsprechend dem Eingangsbild. Mit anderen Worten: die Wiedergabeanordnung nach der vorliegenden Erfindung gibt ein Ausgangsbild mit minimaler Verzerrung wieder. Folglich ist die Bildqualität optimal, wenn der Zuschauer sich einige Zeit nicht verlagert hat. Es können zwischen dem Eingangsbild und dem Ausgangsbild geringfügige Unterschiede sein, d.h. die Bilder stimmen miteinander im Wesentlichen überein und sind einander nicht unbedingt gleich. Diese Unterschiede könnten beispielsweise durch geringfügige Wölbungsvorgänge, durch Quantisierung oder durch andere Bildverarbeitungsvorgänge, durchgeführt zum Berechnen des Ausgangsbildes auf Basis des Eingangsbildes, verursacht werden.
Eine Ausführungsform der Wiedergabeanordnung nach der vorliegenden Erfindung umfasst weiterhin Beschneidemittel zum Beschneiden des dritten Signals zwischen einer unteren Grenze und einer oberen Grenze. Das dritte Signal, das von dem Kopffolger herrührt, wird derart gefiltert, dass relativ große Standpunkverschiebungen vermieden werden. Dies vermeidet die assoziierte Verzerrung auf Kosten der Standpunksanpassungsfähigkeit für relativ große Kopfbewegungen.
Eine Ausführungsform der Wiedergabeanordnung nach der vorliegenden Erfindung umfasst weiterhin Inhaltsanalysiermittel, vorgesehen zum Ermitteln eines Maßes eines Satzes von Maßen mit einem ersten Maß entsprechend der Anzahl Unterbrechungen in der Tiefenabbildung, ein zweites Maß entsprechend der Homogenität des Hintergrundes des Eingangsbildes und ein drittes Maß entsprechend der Anzahl Löcher in dem Ausgangsbild, wobei die Inhaltsanalysiermittel (128) zum Anpassen der Grenzfrequenz der Filtermittel (122) und/oder zum Ändern der unteren und/oder oberen Grenze der Beschneidemittel (124) vorgesehen ist. Die angewandte Steuerung ist vorzugsweise wie folgt:

– die Inhaltsanalysiermittel sind vorgesehen zur Steigerung der unteren Grenze und/oder zur Verringerung der oberen Grenze, wenn das erste Maß relativ hoch oder das zweite Maß relativ niedrig ist oder das dritte Maß relativ hoch ist; und
– die Inhaltsanalysiermittel sind vorgesehen um die Grenzfrequenz der Filtermittel zu verringern, wenn das erste Maß relativ hoch oder das zweite Mβ relativ niedrig ist oder das dritte Maß relativ hoch ist.

Auf alternative Weise wird das Steuersignal offline ermittelt und in die 3D visuelle Information als Metadaten eingebettet.
Vorzugsweise ist die Wiedergabeanordnung eine Mehrfachwiedergabeanordnung, vorgesehen zum rendern eines weiteren Ausgangssignals und zum Wiedergeben des Ausgangsbildes in einer ersten Richtung zum Wiedergeben des weiteren Ausgangsbildes in einer zweiten Richtung. Mit anderen Worten, es ist vorteilhaft, die vorliegende Erfindung in einer 3D Wiedergabeanordnung, die auch als stereoskopische Wiedergabeanordnung bezeichnet wird, anzuwenden.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren der eingangs beschriebenen Art zu schaffen, ein Vorgabebild entsprechend einem vorbestimmten Bild der 3D visuellen Information zu rendern, wenn ein Zuschauer während einer bestimmten Zeitspanne kaum bewegt.
Diese Aufgabe wird nach der vorliegenden Erfindung dadurch erfüllt, das das Verfahren Folgendes umfasst:

– das Empfangen eines ersten Signals, das die 3D visuelle Information darstellt,
– das Empfangen eines zweiten Signals, das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung relativ ist,
– das Hochpassfiltern des zweiten Signals, was zu einem dritten Signal führt;
– das Aufbereiten des Ausgangsbildes, und zwar auf Basis des ersten Signals und neuer Werte des dritten Signals; und
– das Wiedergeben des Ausgangsbildes.

Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Computerprogrammprodukt der eingangs beschriebenen Art zu schaffen, um ein Vorgabebild entsprechend einem vorbestimmten Bild der 3D visuellen Information zu rendern, wenn ein Zuschauer sich während einer bestimmten Zeitspanne kaum bewegt.
Diese Aufgabe der vorliegenden Erfindung wird dadurch erfüllt, dass das Computerprogrammprodukt, nachdem es geladen worden ist, die genannten Verarbeitungsmittel mit der Fähigkeit versieht, Folgendes durchzuführen:

– das Empfangen eines ersten Signals, das die 3D visuelle Information darstellt,
– das Empfangen eines zweiten Signals, das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung relativ ist,
– das Hochpassfiltern des zweiten Signals, was zu einem dritten Signal führt;
– das Aufbereiten des Ausgangsbildes, und zwar auf Basis des ersten Signals und neuer Werte des dritten Signals.

Modifikationen der Wiedergabeanordnung und Variationen davon können Modifikationen und Variationen davon des Verfahrens und des Computerprogrammproduktes entsprechen, wie diese beschrieben worden sind.
Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 eine schematische Darstellung einer Ausführungsform der Wiedergabeanordnung nach der vorliegenden Erfindung,
2 drei verschiedene Ausgangsbilder, die mit Hilfe des Wiedergabeanordnung nach 1 erzeugt worden sind,
3 eine schematische Darstellung einer Ausführungsform einer stereoskopischen Wiedergabeanordnung nach der vorliegenden Erfindung,
4 eine schematische Darstellung der Übertragungskennlinie der Beschneideeinheit; und
5 ein von dem Kopffolger geliefertes Kopffolgersignal und das aus diesem Kopffolgersignal hergeleitete hochpassgefilterte Signal.
In den Figuren sind gleiche Elemente mit denselben Bezugszeichen angegeben.
1 zeigt schematisch eine Ausführungsform der Wiedergabeanordnung 100 nach der vorliegenden Erfindung. Die Wiedergabeanordnung 100 ist vorgesehen zum Wiedergeben eines Ausgangsbildes auf Basis von 3D visueller Information und gelieferter Lageninformation. Typischerweise ist die Wiedergabeanordnung 100 mit einem Kopffolger 108 verbunden, der vorgesehen ist zum Ermitteln der Lage 102 eines Beobachters 104, d.h. eines Zuschauers, gegenüber der Wiedergabeanordnung 100. Auf alternative Weise umfasst die Wiedergabeanordnung 100 einen derartigen Kopffolger 108. Die Lage 102 des Beobachters 104 kann durch ein Ultraschallfolgesystem angastet werden oder der Beobachter 194 kann einen Magneten tragen um seine Position 102 gegenüber dem Magnetenfolgesystem anzugeben. Bei einer weiteren Ausführungsform können eine oder mehrere Kameras das Beobachtungsgebiet abtasten um die Position des Beobachters zu ermitteln, beispielsweise durch Liefern von Bilddaten zu einem System, das die Augen des Beobachters erkennt. In noch einer anderen Ausführungsform trägt der Beobachter 104 einen Reflektor, der elektromagnetische Energie, wie IR-Energie, reflektiert. Eine abtastende IR-Quelle und ein IR-Detektor oder eine IR-Weitwinkelquelle und ein abtastender IR-Detektor ermitteln die Position des Reflektors, der vorzugsweise zwischen den Augen des Beobachters 104 getragen wird.
Die Wiedergabeanordnung 100 umfasst Folgendes:

– eine erste Eingangseinheit 101 zum Empfangen eines ersten Signals 3DV, das die 3D visuelle Information darstellt;
– eine zweite Eingangseinheit 116 zum Empfangen eines zweiten Signals P, das die Positionsinformation des Beobachters als Funktion der Zeit darstellt;
– eine Hochpassfiltereinheit 122 zur Hochpassfilterung des zweiten Signals P, was zu einem dritten Signal PF führt;
– eine Renderingeinheit 118 zum rendern des Ausgangsbildes auf Basis des ersten Signals 3DV und des dritten Signals PF; und
– eine Wiedergabeanordnung 112 zur Wiedergabe des Ausgangsbildes.

Die Wiedergabeanordnung 100 umfasst ggf. eine Beschneideeinheit 124 zum Beschneiden des zweiten Signals PF und eines dritten Signals zwischen einer unteren Grenze und einer oberen Grenze, was zu einem vierten Signal PFC führt.
Die Wiedergabeanordnung 100 umfasst ggf. eine Signaltransformationseinheit 126 zum transformieren des vierten Signals PFC in ein fünftes Signal PP mit Werten, die zum Rendern geeignet sind. Die Transformation könnte eine Skalierung oder eine Abbildung zwischen Koordinatensystemen aufweisen, beispielsweise zum Transformieren von Weltkoordinaten des Beobachters in Bildkoordinaten der der 3D visuellen Information oder von Kartesischen Koordinaten in Polenkoordinaten.
Die Wirkungsweise der Wiedergabeanordnung 100 wird nachstehend im Zusammenhang mit 1 und 2 näher beschrieben. 2 zeigt drei verschiedene Ausgangsbilder 200–204, die mit Hilfe der Wiedergabeanordnung 100 nach der vorliegenden Erfindung erzeugt worden sind. Es wird nun vorausgesetzt, dass das erste Signal 3DV ein Eingangsbild und eine entsprechende Tiefenabbildung aufweist. Es wird auch vorausgesetzt, dass der Beobachter 104 sich an einer bestimmten Stelle 102 zu einem bestimmten Zeitpunkt vor der Wiedergabeanordnung 112 befindet. Diese bestimmte Stelle 102 entspricht dem räumlichen Ursprung des Koordinatensystems des Kopffolgers 108. Die Wiedergabeanordnung 100 gibt ein erstes Bild 200 der Ausgangsbilder wieder. Das erste Bild 200 der Ausgangsbilder stellt einen Teil einer Person dar, beispielsweise einen Kopf 208, Schultern 210 und einen rechten Arm 212. Es sieht aus, als könne der Beobachter 104 die Person recht in die Augen 206 schauen. Das erste Bild 200 der Ausgangsbilder ist im Wesentlichen gleich dem Eingangsbild, das der Wiedergabeanordnung 100 zugeführt wird.
Danach bewegt der Beobachter 104 schnell in eine durch einen ersten Pfeil 105 angegebenen Richtung. Der Kopffolger 108 detektiert die Bewegung und liefert das zweite Signals P auf entsprechende Weise. Das zweite Signal wird mit Hilfe der Hochpassfiltereinheit 122 hochpassgefiltert. Das zweite Signal wird mit Hilfe der Hochpassfiltereinheit 122 hochpassgefiltert. Das Ausgangssignal der Hochpassfiltereinheit 122 wird ggf. zugeschnitten und transformiert und ggf. der Renderingeinheit 118 zugeführt. Folglich startet die Renderingeinheit 118 die Berechnung einer Reihe von Ausgangsbildern auf Basis des Eingangsbildes, der Tiefenabbildung und der gefilterten Positionsinformation. Jedes der Ausgangsbilder basierte auf einem anderen Wert des verarbeiteten Signals entsprechend der Positionsinformation. Die Ausgangsbilder werden vorzugsweise berechnet, wie in: "View interpolation for image synthesis", von Shenchang Eric Chen und Lance Williams, in "Computer Graphics Annual Conference Series", "Proceedings of SIGGRAPH 93", Seiten 279–288 beschrieben. Ein zweites Bild 204 der Reihe von Ausgangsbildern, wie an der Wiedergabeanordnung 112 wiedergegeben, ist in 2 dargestellt. Dieses zweite Bild 204 der Ausgangsbilder stellt den Teil der Person dar, d.h. den Kop 208, die Schultern 210 und den rechten Arm 212. Nun scheint es, als könne der Beobachter 104 nicht die Person recht in die Augen 206 schauen, sondern es sieht aus, als habe die Person den Kopf etwa nach links gedreht.
Wenn der Beobachter 104 danach relativ schnell in der entgegen gesetzten Richtung bewegt, d.h. in der Richtung, angegeben durch den zweiten Pfeil 103, wird ein gleicher Prozess durchgeführt. Die Folge ist, dass dem Beobachter 104 ein drittes Bild 204 der Ausgangsbilder gezeigt wird. Dieses dritte Bild 204 der Ausgangsbilder stellt auch den Teil der Person dar, d.h. den Kopf 208, die Schultern 210 und den rechten Arm 212. Auch hier sieht es aus, als könne der Beobachter 104 nicht die Person recht in die Augen 206 sehen. Nun aber sieht es aus, als habe die Person den Kopf 208 etwas nach recht gedreht.
Die Beschneideeinheit 214 wird das dritte hochpassgefilterte Signal PF beschneiden, wenn es vorbestimmte Schwellen übersteigt. Folglich wird dem Beobachter 104 dasselbe dritte Bild 204 der Ausgangsbilder für die beiden Positionen 107 und 109 entsprechend den Abständen d1 und d2 in Bezug auf den Ursprung 102 präsentiert.
Wie oben beschrieben wird wegen der Bewegungen dem Beobachter 104 verschiedene Ausgangsbilder 200–204 entsprechend verschiedenen Gesichter auf eine Szene präsentiert. In diesem Beispiel umfasst die Szene eine sprechende Person. Dieses Bildpräsentationsphänomen wird als interaktive Bewegungsparallaxe bezeichnet.
Es wird vorausgesetzt, dass der Beobachter sich an einer zweiten Stelle 107 befindet und sich eine Zeitlang, beispielsweise 1–5 Sekunden, nicht berührt hat. Dadurch ist der Wert des hochpassgefilterten dritten Signals PF gleich Null. Die Renderingeinheit 118 wird das Vorgabeausgangsbild erzeugen, d.h. das erste Bild 200 der Ausgangsbilder.
Wenn der Beobachter startet, sich aus der zweiten Lage 107 in einer durch den zweiten Pfeil 103 angegebenen Richtung zu verlagern, wird dem Beobachter das dritte Bild 204 der Ausgangsbilder präsentiert. Wenn der Beobachter startet, sich von der zweiten Lage 107 aus in der durch den ersten Pfeil 105 angegebenen entgegen gesetzten Richtung verlagert, wird dem Beobachter das zweite Bild 202 der Ausgangsbilder präsentiert.
Die erste Eingangseinheit 101, die zweite Eingangseinheit 116, die Hochpassfiltereinheit 122, die Beschneideeinheit 124, die Renderingeinheit 118 und die Signaltransformationseinheit 126 können unter Verwendung eines einzigen Prozessors implementiert werden. Normalerweise werden diese Funktionen unter Ansteuerung eines Softwareprogrammproduktes durchgeführt. Während der Durchführung wird normalerweise das Softwareprogrammprodukt in einen Speicher, wie einen RAM, geladen und von hieraus durchgeführt. Das Programm kann aus einem Hintergrundspeicher, wie einem ROM, einer Festplatte oder einem magnetischen und/oder optischen Speicher geladen werden, oder es kann über ein Netzwerk, wie Internet, geladen werden. Gegebenenfalls schafft eine applikationsspezifische integrierte Schaltung die beschriebene Funktionalität.
3 zeigt schematisch eine Ausführungsform einer stereoskopischen Wiedergabeanordnung 300 nach der vorliegenden Erfindung. Die Wirkungsweise dieser Ausführungsform 200 ist der Wirkungsweise der Ausführungsform 100, wie diese im Zusammenhang mit den 1 und 2 beschrieben worden ist, im Wesentlichen gleich. Einige Unterschiede wird nachstehen näher beschrieben.
Die stereoskopische Wiedergabeanordnung 300 umfasst eine Renderingeinheit 118 zum Rendern eine Linksauge-Ausgangsbildes und eine weitere Renderingeinheit 120 zum Rendern eines Rechtsauge-Ausgangsbildes, wobei das Linksauge-Ausgangsbild und das Rechtsauge-Ausgangsbild ein Stereopaar bilden. Die beiden Ausgangsbilder des Stereopaares werden berechnet, wie im Zusammenhang mit 1 beschrieben worden ist, sei es, dass für die Renderingeinheit 118 und die weitere Renderingeinheit 120 verschiedene Lageninformationssignale PPL und PPR geliefert werden. Der Unterschied zwischen diesen zwei Signalen PPL und PPR bezieht sich auf den Abstand (oder den vorausgesetzten Abstand) zwischen den Augen des Beobachters 104. Das Linksauge-Ausgangsbild und das Rechtsauge-Ausgangsbild werden mit Hilfe der Multiplexereinheit 114 gezeitmultiplext und an der CRT-basierten Wiedergabeanordnung 112 wiedergegeben. Der elektrooptische Schalter 110 ermöglicht in Kombination mit einer passiven Brille 106 auf Basis von Polarisation die stereoskopische Visualisierung. Dieser Visualisierungstyp ist nur illustrativ, es können Alternativen, einschließlich Auto-Stereoskopie, angewandt werden.
Die stereoskopische Wiedergabeanordnung 300 umfasst weiterhin einen Bildinhaltanalysator 128, der zur Steuerung der Beschneideeinheit 124 und der Hochpassfiltereinheit 122 vorgesehen ist. Das Verhalten der Wiedergabeanordnung 300 ist derart, dass eine geeignete Bildqualität der Ausgangsbilder angestrebt wird. Das bedeutet, dass im Falle der Ausgangsbilder mit erwarteter niedriger Qualität die Beschneideeinheit 124 den linearen Teil 406 der Transformationscharakteristik 400 verengt. Das Verengen des linearen Teils entspricht der Abnahme des maximalen Ausgangswertes Cmax 402 und/oder Zunahme des minimalen Ausgangswertes Cmin 404. Die Erwartung kann auf der Anzahl bei der Wölbung des Eingangsbildes in die Ausgangsbilder gezählter Löcher oder den Analysen des Hintergrundes der Eingangsbilder basiert sein. Analysen des Hintergrundes umfassen Strukturanalysen, beispielsweise mit Hilfe von Hochpassfilterung des Eingangsbildes, mit einem etwaigen nachfolgenden Schwellenbestimmungsvorgang. Das Vorhandensein relativ vieler HF-Anteile ist ein Hinweis auf einen detaillierten Hintergrund.
Vorzugsweise wird während der Wölbung Information über den Hintergrund verwendet. Ein bekanntes Verfahren zum reduzieren der Verzerrungsprobleme ist das Bild samt Tiefe mit Information über versteckten Gebieten zu ergänzen. Derartige Information ist für Bild samt Tiefeninformation verfügbar, erhalten aus Stereoaufzeichnungen. Weiterhin machen immer mehr Filme Gebrauch von "Chromakey"-Verfahren. Dies ist ein Verfahren, wobei die Darsteller vor einem blauen oder grünen im Filmstudio vorgesehenen Hintergrund spielen. In einem späteren, dem Editierstadium wird der ursprüngliche blaue oder grüne Hintergrund durch den beabsichtigten Hintergrund ersetzt (ausgetastet), der auf allen Arten von Filmmaterial beruhen kann, beispielsweise Außenaufnahmen, oder sogar vom Computer erzeugtem Material. Für derartige Fälle ist der komplette Hintergrund, einschließlich der Teile, die von Darstellern abgedeckt sind, verfügbar und kann in Kombination mit dem Bild samt Tiefeninformation ausgetauscht werden. Der Videocodierungsstandard MPEG-4 unterstützt derartige Ergänzungen durch Verwendung sog. Verbesserungsschichten.
Wie bereits erwähnt, ist das Verhalten der Wiedergabeanordnung 300 derart, dass eine geeignete Bildqualität der Ausgangsbilder angestrebt wird. Das Bedeutet, dass die Hochpassfiltereinheit 122 schneller reagiert um zu dem Vorgabeausgangsbild 200 zurückzukehren im Falle von Ausgangsbildern mit erwarteter niedrigerer Qualität. Die Erwartung kann auf der Anzahl Löcher basiert sein, die während der Verwölbung des Eingangsbildes in die Ausgangsbilder oder der Analysen des Hintergrundes der Eingangsbilder gezählt wurden. Die Schätzung der Anzahl Unterbrechungen in der Tiefenabbildung ist eine andere Art und Weise der Quantifizierung der erwarteten Bildqualität.
Obschon die 3D visuelle Information als Bild samt Tiefenabbildung in den Ausführungsformen der Wiedergabeanordnung 100 und 200, wie im Zusammenhang mit 1 und 3 beschrieben worden ist, geliefert wird, dürfte es einleuchten, dass alternative Ausführungsformen imstande sind, die 3D visuelle Information zu empfangen, die auf eine andere Art und Weise dargestellt wird, beispielsweise als ein 3D-Modell in VRML, als einen Volumensatz von Voxeln oder als einen Satz von Oberflächenbeschreibungen. In dem Fall werden von den Renderingeinheiten 118 und 120 andere Renderingtypen durchgeführt.
Gegebenenfalls wird die Filterkennlinie der Hochpassfiltereinheit 122 auf Basis der Beschneideeinheit 124 gesteuert. Die Grenzfrequenz wird abhängig von der Tatsache, ob der Eingang PF der Beschneideeinheit 124 beschnitten ist oder nicht, angepasst. Außerdem wird bevorzugt, dass die Hochpassfiltereinheit 122 ein sog. asymmetrisches Verhalten aufweist, beispielsweise schnelle Reaktionen auf Bewegungen aber langsame Reaktionen auf stationäre Zustände.
Die Wiedergabeanordnung könnte ein Teil eines Videokonferenzsystems, einer Konsumentenanordnung, wie eines Fernsehers oder einer Spieleinrichtung sein.
5 zeigt ein (Eingangs) Kopffolgersignal P, das von einem Kopffolger 108 geliefert wird, und das (Ausgangs) hochpassgefilterte Signal PF, hergeleitet von diesem Kopffolgersignal P. Das angewandte Filter ist ein Hochpassfilter mit einer Grenzfrequenz von 0,05 Hz. Aus 5 ist deutlich ersichtlich, dass das hochpassgefilterte Signal PF mit dem Kopffolgersignal P während der Zeit = 0 bis zur Zeit = 5 Sekunden durchaus übereinstimmt. Nach der Zeit = 6 Sekunden verwandelt sich das hochpassgefilterte Signal PF langsam in den Vorgabewert, der zu der betreffenden Position 102 entsprechend dem räumlichen Ursprung des Koordinatensystems des Kopffolgers 108 gehört. Mit anderen Worten der NF-Teil in dem Kopffolgersignal P, der einem räumlichen Offset von etwa 0,2–0,25 m entspricht, wird unterdrückt.
Es sei bemerkt, dass die oben genannten Ausführungsformen die vorliegende Erfindung illustrieren statt begrenzen und dass der Fachmann imstande sein wird, im Rahmen der beiliegenden Patentansprüche alternative Ausführungsformen zu entwerfen. In den Patentansprüchen sollen eingeklammerte Bezugszeichen nicht als den Anspruch begrenzend betrachtet werden. Das Wort "enthalten" schließt das Vorhandensein von Elementen oder Verfahrensschritten, die nicht in dem Anspruch erwähnt werden, nicht aus. Das Wort "ein" vor einem Element schließt das Vorhandensein einer Anzahl derartiger Elemente nicht aus. Die vorliegende Erfindung kann mit Hilfe von Hardware mit verschiedenen einzelnen Elementen und mit Hilfe eines auf geeignete Art und Weise programmierten Computers implementiert werden. In den Einrichtungsansprüchen, in denen verschiedne Mittel nummeriert sind, können verschiedene dieser Mittel von ein und demselben Hardware-Item verkörpert werden. Die Verwendung des Wortes erste, zweite und dritte usw. gibt nicht eine gewisse Reihenfolge an. Diese Wörter sollen als Name betrachtet werden.
Text in der Zeichnung
4

Ausgang PFC
Eingang PF

5

Filter für das gefilterte Kopffolgersignal
Kopfposition x
Eingang
Ausgang

Claims

Wiedergabeanordnung (100, 300) zum Schaffen einer interaktiven Bewegungsparallaxe durch Wiedergabe eines Ausgangsbildes auf Basis von visueller dreidimensionaler Information wobei die Wiedergabeanordnung (100, 300) Folgendes umfasst: – erste Empfangsmittel (101) zum Empfangen eines ersten Signals (3DV), das die 3D visuelle Information darstellt, – zweite Empfangsmittel (116) zum Empfangen eines zweiten Signals (P), das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung (100, 300) relativ ist, – Aufbereitungsmittel (118) zum Aufbereiten des Ausgangsbildes; – Wiedergabemittel (112) zum Wiedergeben des Ausgangsbildes, dadurch gekennzeichnet, dass – die Anordnung weiterhin Filtermittel (122) zur Hochpassfilterung des zweiten Signals (P) aufweist, was zu einem dritten Signal (PF) führt, das die Änderung der wirklichen Positionsinformation je Zeiteinheit darstellt; und – dass die Aufbereitungsmittel (118) das Ausgangsbild auf Basis des ersten Signals (3DV) und junger Werte des dritten Signals (PF) derart aufbereiten, dass wenn die Änderung der wirklichen Positionsinformation Null ist, die Aufbereitungsmittel das Ausgangsbild entsprechend einer vorgegebenen Positionsinformation aufbereiten, und wenn die Änderung der wirklichen Positionsinformation relativ groß ist, das Ausgangsbild entsprechend relativ großen Winkeln in Bezug auf das vorgegebene Bild aufbereitet wird.
Wiedergabeanordnung (100, 300) nach Anspruch 1, wobei die visuelle 3D Information ein Eingangsbild und eine entsprechende Tiefenabbildung aufweist.
Wiedergabeanordnung (100, 300) nach Anspruch 2, wobei für einen vorbestimmten Wert des dritten Signals (PF) das Eingangsbild und das Ausgangsbild einander im Wesentlichen entsprechen.
Wiedergabeanordnung (100, 300) nach Anspruch 2, die weiterhin Beschneidemittel (124) aufweist zum Beschneiden des dritten Signals zwischen einer unteren Grenze (404) und einer oberen Grenze (402).
Wiedergabeanordnung (300) nach Anspruch 2 oder 4, die weiterhin Inhaltsanalysiermittel (128) aufweist, vorgesehen zum Ermitteln eines Maßes eines Satzes von Maßen mit einem ersten Maß entsprechend der Anzahl Unregelmäßigkeiten in der Tiefenabbildung, einem zweiten Maß entsprechend der Homogenität des Eingangsbildes und einem dritten Maß entsprechend der Anzahl Löcher in dem Ausgangsbild, wobei die genannten Inhaltsanalysiermittel (128) dazu vorgesehen sind, die Grenzfrequenz der Filtermittel (122) anzupassen und/oder die untere und/oder obere Grenze der Beschneidemittel (124) zu ändern.
Wiedergabeanordnung (300) nach Anspruch 5, wobei die Inhaltsanalysiermittel (128) dazu vorgesehen sind, die untere Grenze zu erhöhen und/oder die obere Grenze zu verringern, wenn das erste Maß relativ hoch oder das zweite Maß relativ niedrig ist oder das dritte Maß relativ hoch ist.
Wiedergabeanordnung (100, 300) nach Anspruch 5, wobei die Inhaltsanalysiermittel (128) dazu vorgesehen sind, die Grenzfrequenz der Filtermittel (124) zu erhöhen, wenn das erste Maß relativ hoch ist oder das zweite Maß relativ niedrig ist oder das dritte Maß relativ hoch ist.
Wiedergabeanordnung (300) nach Anspruch 1, wobei die Wiedergabeanordnung (300) eine Mehrfachbildwiedergabeanordnung ist, vorgesehen zum Aufbereiten eines weiteren Ausgangsbildes und zum Wiedergeben des Ausgangsbildes in einer ersten Richtung und zum Wiedergeben des weiteren Ausgangsbildes in einer zweiten Richtung.
Verfahren zum Schaffen einer interaktiven Bewegungsparallaxe durch Wiedergabe eines Ausgangsbildes auf Basis von visueller 3D Information wobei das Verfahren Folgendes umfasst: – das Empfangen eines ersten Signals, das die 3D visuelle Information darstellt, – das Empfangen eines zweiten Signals, das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung (100, 300) relativ ist, – das Aufbereiten des Ausgangsbildes; und – das Wiedergeben des Ausgangsbildes, dadurch gekennzeichnet, dass – das Verfahren weiterhin Hochpassfilterung des zweiten Signals aufweist, was zu einem dritten Signal führt, das die Änderung der wirklichen Positionsinformation je Zeiteinheit darstellt; und dass – das Ausgangsbild auf Basis des ersten Signals und junger Werte des dritten Signals derart aufbereitet wird, dass wenn die Änderung der wirklichen Positionsinformation Null ist, das Ausgangsbild entsprechend einer vorgegebenen Positionsinformation aufbereitet wird, und wenn die Änderung der wirklichen Positionsinformation relativ groß ist, das Ausgangsbild entsprechend relativ großen Winkeln in Bezug auf das vorgegebene Bild aufbereitet wird.
Computerprogrammprodukt, das von einer Computeranordnung geladen werden soll zum Schaffen einer interaktiven Bewegungsparallaxe, mit Instruktionen zum Aufbereiten eines Ausgangsbildes auf Basis von visueller dreidimensionaler Information wobei die Computeranordnung Verarbeitungsmittel und einen Speicher umfasst, wobei das Computerprogrammprodukt nach dem Laden die genannten Verarbeitungsmittel mit der Fähigkeit versieht, Folgendes durchzuführen: – das Empfangen eines ersten Signals, das die 3D visuelle Information darstellt, – das Empfangen eines zweiten Signals, das Positionsinformation eines Zuschauers des Ausgangsbildes darstellt, als eine Funktion der Zeit, wobei die Positionsinformation gegenüber der Wiedergabeanordnung (100, 300) relativ ist, – die Hochpassfilterung des zweiten Signals, was zu einem dritten Signal führt, das die Änderung der wirklichen Positionsinformation je Zeiteinheit darstellt; und – das Aufbereiten des Ausgangsbildes auf Basis des ersten Signals und junger Werte des dritten Signals derart, dass wenn die Änderung der wirklichen Positionsinformation Null ist, das Ausgangsbild entsprechend einer vorgegebenen Positionsinformation aufbereitet wird, und wenn die Änderung der wirklichen Positionsinformation relativ groß ist, das Ausgangsbild entsprechend relativ großen Winkeln in Bezug auf das vorgegebene Bild aufbereitet wird.