DE69812591T2

DE69812591T2 - Autostereoskopische Anzeigevorrichtung

Info

Publication number: DE69812591T2
Application number: DE69812591T
Authority: DE
Inventors: David Richard Thomas
Original assignee: Texas Instruments France SAS
Current assignee: Texas Instruments France SAS
Priority date: 1998-05-20
Filing date: 1998-05-20
Publication date: 2004-03-25
Anticipated expiration: 2018-05-21
Also published as: EP0961506A1; DE69812591D1; US7027659B1; EP0961506B1

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein das Gebiet der Videobilder und insbesondere ein Verfahren und eine Vorrichtung zum Erzeugen von Videobildern, die vom Betrachter als dreidimensional wahrgenommen werden.
HINTERGRUND DER ERFINDUNG
Viele Systeme zum Erzeugen pseudo-dreidimensionaler Bilder (Pseudo-3D-Bilder) wurden im Laufe der letzten Jahre entwickelt. Im allgemeinen können diese Systeme durch die Verfahren charakterisiert werden, durch die der Betrachter so getäuscht wird, daß er das Bild als dreidimensional (also als eine Tiefe aufweisend) wahrnimmt.
In der wirklichen Welt nimmt das menschliche Auge Tiefe in einem Bild durch die Kombination einer Anzahl von Sichthinweisen wahr.
Mit dem ersten Sichthinweis werden fernere Objekte vom Betrachter im Gesichtsfeld als kleiner und höher wahrgenommen als Objekte, die näher beim Betrachter liegen. Typischerweise werden ferne Objekte auch durch nähere Objekte im Gesichtsfeld des Betrachters blockiert, und der Betrachter nimmt die Auflösung, den Kontrast und die Helligkeit als weniger ausgeprägt wahr.
Mit dem zweiten Sichthinweis nimmt der Betrachter eine scheinbare Änderung der Position des Objekts in bezug auf das fernere Hintergrundbild wahr, wenn sich seine eigene Position ändert. Diese Wirkung ist als Parallaxe bekannt und kann das vom Betrachter wahrgenommene Bild sowohl in der horizontalen als auch in der vertikalen Ebene beeinflussen.
Beim dritten Sichthinweis bedeutet die seitliche Trennung der Augen des Betrachters, daß der Abstand zwischen einem Punkt auf einem Objekt und jedem Auge verschieden sein kann. Diese Wirkung ist auf dem Fachgebiet als binokulare Abweichung bekannt und führt dazu, daß jedes Auge eine etwas andere Perspektive sieht. In der Wirklichkeit wird diese Wirkung jedoch vom menschlichen Gehirn aufgelöst, um das vom Betrachter wahrgenommene einzige klare Bild zu erzeugen.
Der vierte Sichthinweis auf die dreidimensionale Wahrnehmung von Videobildern ist die Tiefenabweichung. Weil das menschliche Auge sowohl in der horizontalen als auch in der vertikalen Ebene ein begrenztes Gesichtsfeld hat, neigt das Auge dazu, ein Objekt oder einen Bereich eines Objekts zu fokussieren, das oder der von unmittelbarem Interesse ist. Folglich liegen umgebende Objekte oder Bereiche des Objekts, welche das Hintergrundbild bilden, außerhalb des Brennpunkts und sind unscharf. Das menschliche Gehirn nimmt diese umgebenden Objekte oder Bereiche als in einem anderen Abstand liegend wahr, um einen Tiefenhinweis bereitzustellen.
Bekannte stereoskopische und autostereoskopische Systeme zum Erzeugen pseudo-dreidimensionaler Bilder erzeugen alternierende und leicht verschiedene Rahmen des Videobilds für jedes Auge. Die verschiedenen Rahmen sollen den verschiedenen Ansichten entsprechen, welche infolge der Trennung zwischen den Augen vom menschlichen Gehirn wahrgenommen werden, und eine binokulare Abweichung erzeugen.
Dem Betrachter eines unter Verwendung eines stereoskopischen Systems erzeugten Videobilds muß eine optische Vorrichtung in der Art eines Paars von Sichtgläsern mit einer roten Linse und einer grünen Linse gegeben werden. Ein getrennter Rahmen des Videobilds wird jedem Auge alternierend und bei einer Frequenz, die ausreicht, damit der Betrachter ein Einzelbild auflösen kann, gezeigt.
Es wurden autostereoskopische Systeme entwickelt, um Videobilder mit mehreren Bildebenen zu erzeugen (so daß der Betrachter um Vordergrundobjekte herum sehen kann). Diese autostereoskopischen Systeme sind so ausgelegt, daß ge trennte Rahmen des Bilds unter Verwendung einer Anordnung optischer Elemente in jedes Auge fokussiert werden. Typischerweise weisen diese Elemente vertikal ausgerichtete lentikuläre Linsen auf. Diese Systeme haben Anwendungen in solchen Gegenständen, wie Postkarten, gefunden, ihre weitere Anwendung ist jedoch durch das schmale Gesichtsfeld begrenzt.
Wenn der Betrachter eines stereoskopischen oder autostereoskopischen Bilds seinen Fokussierungspunkt ändert, entweder indem er von einem Objekt zu einem anderen sieht oder indem er auf einen anderen Bereich des Objekts sieht, müssen sich die Augen wieder anpassen. Jedes Auge benötigt einen begrenzten Zeitraum zum Anpassen an die Brennebene, die dem vom Betrachter wahrgenommenen Objekt zugeordnet ist. Daher kann die Brennebene des von jedem Auge wahrgenommenen Bilds abweichen, und das menschliche Gehirn muß die Bilder zu einem einzigen fokussierten Bild des Objekts konvergieren (auf dem Fachgebiet als Konvergenz bekannt).
In ähnlicher Weise hat das menschliche Auge eine begrenzte Schärfentiefe oder einen Bereich im Raum, in dem der Brennpunkt eines Objekts aufgelöst werden kann. Dies liegt an der physikalischen Anforderung der Augenhornhaut, ihre Form zu ändern, um ein scharfes Bild des Objekts auf der Oberfläche der Netzhaut zu erzeugen. Wenn der Betrachter daher seine Aufmerksamkeit von einem fernen Objekt auf ein nahes Objekt richtet oder umgekehrt, werden Objekte außerhalb des Gesichtsfelds weniger wohldefiniert und verschwommen (auf dem Fachgebiet als Akkomodation bezeichnet).
Jüngere Forschungsarbeiten haben gezeigt, daß Benutzer stereoskopischer und autostereoskopischer Systeme zu Ermüdung, Augenspannungen und Kopfschmerzen neigen. Es wird angenommen, daß dies darauf zurückzuführen ist, daß die Konvergenz und die Akkomodation von Bildern in der Wirklichkeit zusammenfallen und daß das menschliche Gehirn daher Muskeltätigkeiten, die mit der Steuerung der Augenhornhaut verbunden sind, interpretiert, um vorauszusagen, daß sich die Objekte in verschiedenen Abständen befinden.
Umgekehrt treten bei stereoskopischen und autostereoskopischen Systemen die Konvergenz und die Akkomodation an verschiedenen Punkten im Raum auf. 1 zeigt ein stereoskopisches System zum Erzeugen dreidimensionaler Videobilder, worin ein Anzeigeschirm 10 in der Art einer LCD- oder CRT-Anzeige ein Bild 12 eines Objekts zeigt. Die Augen des Betrachters 16 fokussieren die Anzeige 10, wodurch ein Akkomodationsabstand D_a erzeugt wird. Das Objekt 12 wird jedoch als vor der Anzeige 10 liegend wahrgenommen, und der Konvergenzabstand D_c, bei dem das Bild 14 des Objekts 12 wahrgenommen wird, liegt daher zwischen der Anzeige 10 (wo das Objekt fokussiert ist) und dem Betrachter 16.
Weil das Objekt 12 vom Betrachter 16 nicht als an der Anzeigefläche 10 liegend wahrgenommen wird, richtet das menschliche Gehirn die Augen auf den Punkt im Raum, an dem es das Vorhandensein des Bilds 14 voraussagt. Dies führt dazu, daß dem menschlichen Gehirn widersprechende Signale geliefert werden, welche die Akkomodation und die Konvergenz angeben, was zu Ermüdung, Augenspannungen und Kopfschmerzen führen kann.
Aus K. OMURA U. A., "39.2: 3-D Display with accomodative compensation (3DDAC) employing real-time gaze detection", SID INTERNATIONAL SYMPOSIUM DIGEST OF TECHNICAL PAPERS, SAN DIEGO, 12. - 17. Mai 1996, Band 27, 12. Mai 1996, S. 889 - 892, XP0006210075 SOCIETY FOR INFORMATION DISPLAY, ist ein binokulares stereoskopisches Anzeigesystem bekannt, bei dem konsistente Akkomodationshinweise entsprechend der Tiefe betrachteter Objekte in Computer-erzeugten CG-Bildern konstant bereitgestellt werden, wobei die Bilder durch ein Echtzeit-Betrachtungserfassungssystem erhalten werden.
Dieses System umfaßt auch eine CG-Technik, die quasioptisch Objekte unscharf macht, welche in Tiefen auftreten, die von derjenigen des betrachteten Objekts verschieden sind. Es wurde herausgefunden, daß diese CG-Technik die binokulare Diplopie von Objekten, welche in Tiefen auftreten, die von derjenigen des betrachteten Objekts verschieden sind, unterdrückt.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist daher ein Bedarf an einem Verfahren und einer Vorrichtung zum Erzeugen eines Bilds, das vom Betrachter als dreidimensional wahrgenommen wird, aufgetreten, wobei die Akkomodation und die Konvergenz des Bilds im wesentlichen zusammenfallen, wodurch Augenspannungen und Ermüdungserscheinungen abgeschwächt werden.
Ein erfindungsgemäßes Verfahren ist in Anspruch 1 dargelegt, und eine entsprechende Vorrichtung ist in Anspruch 13 dargelegt.
Dementsprechend sieht die vorliegende Erfindung ein Verfahren und ein System zum Erzeugen eines Videobilds vor. Ein Objekt wird mit einer Videokamera überwacht, um eine Folge von Videorahmen zu erzeugen. Jeder der Videorahmen wird in mehrere Bereiche unterteilt, wobei jeder Bereich einen Abschnitt des Objekts darstellt. Beispielsweise kann der Rahmen des Videobilds den Kopf- und Schulterbereich eines Benutzers aufweisen. Es können Bereiche ausgewählt werden, welche vorgegebenen Gesichtsmerkmalen entsprechen, wie das Kinn, entgegengesetzte Ränder des Munds, die Nase und der Außenrand jedes Auges. Vorzugsweise wird der Rahmen des Videobilds in im wesentlichen dreieckige Bereiche oder Pixelblöcke unterteilt. Die Auswahl der Rahmenbereiche eines überwachten Videobilds ist in der am 23. Juli 1997 eingereichten anhängigen europäischen Patentanmeldung 97 401 772.5 erörtert.
Es wird mindestens einer der mehreren Bereiche ausgewählt. In dem dargestellten Beispiel kann der ausgewählte Bereich den Mund des überwachten Benutzers enthalten. Der ausgewählte Bereich wird dann mit jedem der restlichen Bereiche des Videorahmens rekombiniert, um ein Anzeigevideobild zu erzeugen.
Die Folge von Videorahmen wird dann so angezeigt, daß der ausgewählte Bereich von einem Betrachter als ein scharfes Bild erzeugend wahrgenommen wird und die restlichen Bereiche des Anzeigevideobilds entsprechend dem Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem ausgewählten Bereich weniger scharf sind.
Weiterhin werden gemäß der Erfindung Videodaten, die jeden Bereich der Videorahmen angeben, zu einem Empfänger übertragen.
Typischerweise ist der ausgewählte Bereich ein Bereich des Rahmens des Videobilds, der ein Vordergrundobjekt definiert. Es können von einem Betrachter jedoch auch Bereiche des Rahmens ausgewählt werden.
Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung wird der Bereich des Videorahmens entsprechend der Position eines Objekts in bezug auf mindestens ein anderes von der Videokamera überwachtes Objekt ausgewählt. Typischerweise umfaßt dies das Auswählen eines Bereichs des Rahmens, der eine aktive Einheit bei einem überwachten Ereignis definiert, beispielsweise des Munds oder der Augen eines überwachten Benutzers.
Das Videobild wird in mehrere Bereiche unterteilt, die jeweils eine Brennebene definieren, so daß jede Brennebene einen anderen Abstand zwischen einem jeweiligen Abschnitt des Objekts und der Videokamera darstellt.
Vorzugsweise werden die restlichen Bereiche des Rahmens entsprechend dem Abstand zwischen einem jeweiligen Abschnitt des Objekts und dem ausgewählten Bereich unterdrückt. Eine größere Unterdrückung wird auf Bereiche des Videobilds angewendet, die Abschnitte des Objekts darstellen, in denen ein größerer Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem ausgewählten Bereich auftritt, als auf Bereiche des Videobilds, die Abschnitte des Objekts darstellen, in denen ein kleinerer Abstand zwischen dem jeweiligen Abschnitt des Objekts und der Videokamera auftritt. Daher sind weiter entfernte Abschnitte des Objekts im sich ergebenden Videobild weniger gut definiert.
Gemäß einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung wird der ausgewählte Bereich des Rahmens des Videobilds mit künstlich erzeugten Simulationen der restlichen Bereiche des Videobilds rekombiniert.
KURZBESCHREIBUNG DER ZEICHNUNG
Die vorliegende Erfindung wird nun beispielhaft mit Bezug auf die anliegende Zeichnung beschrieben, wobei:

– 1 eine schematische Ansicht eines stereoskopischen Systems zum Erzeugen pseudo-dreidimensionaler Videobilder gemäß dem Stand der Technik zeigt,
– die 2a – 2c eine Mehrfachanordnung beabstandeter photographischer Folien zum Erläutern der Grundgedanken des erfindungsgemäßen Verfahrens zeigen,
– 3 ein Blockdiagramm ist, in dem das erfindungsgemäße Verfahren dargestellt ist,
– die 4a – 4c eine Ansicht des in einem Videokonferenzsystem verwendeten Verfahrens aus 3 zeigen,
– 5 die Unterteilung des Kopf- und Schulterabschnitts einer aktiven Einheit in Pixelblöcke zur Verwendung beim Verfahren aus 3 zeigt,
– die 6a – 6b den Sendeabschnitt bzw. den Empfangsabschnitt des Videokonferenzsystems aus den 4a – 4c zeigen,
– 7 ein Verfahren zum Bestimmen der das Videoanzeigebild ausmachenden relativen Bildebenen zeigt,
– die 8a – 8b Blockdiagramme sind, in denen die Arbeitsweise des Sendeabschnitts und des Empfangsabschnitts des Videokonferenzsystems aus den 4a – 4c dargestellt ist,
– 9 ein Blockdiagramm ist, in dem ein Verfahren zum Auffrischen des Videoanzeigebilds dargestellt ist,
– 10 eine schematische Ansicht einer Kamera ist, die auf ein Objekt in einer Brennebene fokussiert ist,
– 11 eine schematische Ansicht ist, welche zeigt, wie Objekte jenseits der Brennebene der Kamera in 10 gemäß einem Aspekt der vorliegenden Erfindung um einen Betrag defokussiert erscheinen, der der Tiefenabweichung entspricht,
– 12 eine schematische Ansicht ist, welche zeigt, wie eine andere Tiefenabweichung gemäß einem Aspekt der vorliegenden Erfindung zu einem anderen Defokussierungsbetrag führt,
– 13 ein Blockdiagramm einer Kamera ist, die einen digitalen Signalprozessor zum Verarbeiten von Bildern gemäß Aspekten der vorliegenden Erfindung enthält,
– 14 eine schematische Ansicht ist, in der zwei getrennte Kameras dargestellt sind, die auf ein Objekt in einer Brennebene fokussiert sind,
– 15 eine schematische Ansicht ist, welche zeigt, wie ein Ausrichtungsfehler gemäß einem Aspekt der vorliegenden Erfindung korrigiert werden kann, wenn die mechanische Brennebene der zwei Kamerass aus 14 gegenüber der optischen Brennebene versetzt ist,
– 16 eine schematische Ansicht ist, welche zeigt, wie Objekte jenseits der Brennebene der Kameras in 14 gemäß einem Aspekt der vorliegenden Erfindung als um einen der Tiefenabweichung entsprechenden Betrag defokussiert erscheinen, und
– die 17a – 17b die Erzeugung von Bildebenen aus Pixelblöcken zeigt.

DETAILLIERTE BESCHREIBUNG DER ZEICHNUNG
Das Verfahren gemäß der vorliegenden Erfindung kann als dem Betrachten einer Mehrfachanordnung beabstandeter photographischer Folien analog angesehen werden, wie in den 2a – 2c dargestellt ist. Die Folien (20, 22, 24) sind so angeordnet, daß jede Folie (20, 22, 24) von benachbarten Folien (20, 22, 24) um einen Abstand d_X getrennt ist. Zu Erläuterungszwecken weist jede Folie (20, 22, 24) ein Bild eines anderen Objekts (26, 28, 30) auf und definiert eine Bildebene.
Es sei bemerkt, daß, wenngleich die vorliegende Erfindung in Bezug auf eine Mehrfachanordnung von Folien (20, 22, 24) beschrieben wird, von denen jede ein anderes Objekt darstellt, die offenbarten Grundgedanken gleichennaßen auf eine Mehrfachanordnung anwendbar sind, bei der jede Folie (20, 22, 24) einen anderen Bereich eines einzigen Objekts in einem vorgegebenen Abstand vom Betrachter darstellt.
Die erste Folie 20 zeigt ein Bild eines Objekts 26 (d. h. von Blumen), die zweite Folie 22 zeigt ein Bild eines Objekts 28 (d. h. eines Elefanten), und die dritte Folie 24 zeigt ein Bild eines Objekts 30 (d. h. eines Gebäudes). Die erste, zweite und dritte Folie (20, 22, 24) sind vom Betrachter 16 durch Abstände d₁, d₂ bzw. d₃ getrennt.
Mit Bezug auf 2a sei bemerkt, daß der Akkomodationsabstand und der Konvergenzabstand mit dem Abstand d₁ äquivalent sind, wenn der Betrachter 16 auf das Objekt 26 fokussiert ist, das in der ersten Folie 20 enthalten ist. Weil die Augen des Betrachters 16 auf das in der ersten Folie 20 enthaltene Objekt 26 fokussiert sind, werden die in der zweiten und dritten Folie (22, 24) enthaltenen Objekte (28, 30) infolge der Tiefenabweichung vom Betrachter 16 als unscharf wahrgenommen.
Wenn der Betrachter 16 seine Aufmerksamkeit von dem in der ersten Folie 20 enthaltenen Objekt 26 abwendet, beispielsweise durch Fokussieren auf das in der zweiten Folie 22 enthaltene Objekt 28 (2b), fokussieren die Augen das Objekt 28 nicht sofort. Die Augen fokussieren das Objekt 28 vielmehr nach Abschluß eines begrenzten Akklimatisationszeitraums, und der Akkomodations- und der Konvergenzabstand sind dann dem Abstand d₂ gleichwertig.
Wenn die Augen des Betrachters 16 das in der zweiten Folie 22 enthaltene Objekt 28 fokussieren, werden die in der ersten und der dritten Folie (20, 24) enthal tenen Objekte (26, 30) infolge der Tiefenabweichung vom Betrachter 16 als unscharf wahrgenommen. Weil das in der ersten Folie 20 enthaltene Objekt 26 jedoch vor den in der zweiten und dritten Folie (22, 24) enthaltenen Objekten (28, 30) liegt, kann das fokussierte Bild des Objekts 28 durch das Objekt 26 der ersten Folie 20 teilweise verdeckt werden. Wenn der Betrachter 16 seine Position in Bezug auf das in der ersten Folie 20 enthaltene Objekt 26 ändert, kann ein größerer oder ein kleinerer Teil des in der zweiten Folie 22 enthaltenen Objekts 28 in das Gesichtsfeld des Betrachters gelangen. In ähnlicher Weise kann ein größerer oder ein kleinerer Teil des in der dritten Folie 24 enthaltenen Objekts 30 in das Gesichtsfeld des Betrachters gelangen, wenn der Betrachter 16 seine Position bzw. seine Orientierung bezüglich des in der ersten Folie 20 enthaltenen Objekts 26 ändert.
Wenn der Betrachter 16 seine Aufmerksamkeit auf das in der dritten Folie 24 enthaltene Objekt 30 richtet, wie in 2c dargestellt ist, fokussieren die Augen das Objekt 30 nach einem begrenzten Akklimatisationszeitraum. Folglich sind der Akkomodationsabstand und der Konvergenzabstand dem Abstand d₃ gleichwertig. Die Augen des Betrachters 16 fokussieren dann das in der dritten Folie 24 enthaltene Objekt 30, wobei die in der ersten und der zweiten Folie (20, 22) enthaltenen Objekte (26, 28) vom Betrachter 16 infolge der Tiefenabweichung als unscharf wahrgenommen werden, wobei das Objekt 26 in der ersten Folie 20 weniger definiert ist als das Objekt 28 in der zweiten Folie 22.
Weil die in der ersten und der zweiten Folie (20, 22) enthaltenen Objekte (26, 28) vor dem Objekt 30 liegen, kann es von den in der ersten und der zweiten Folie (20, 22) enthaltenen Objekten (26, 28) teilweise verdeckt werden. Wenn der Betrachter 16 seine Position bzw. seine Orientierung bezüglich der in der ersten oder der zweiten Folie (20, 22) enthaltenen Objekte (26, 28) ändert, kann ein größerer oder ein kleinerer Teil des in der dritten Folie 26 enthaltenen Objekts 30 in das Gesichtsfeld des Betrachters gelangen.
Das System erzeugt im wesentlichen mehrere virtuelle Bildebenen, so daß das sich im Brennpunkt befindende Bild im freien Raum betrachtet werden kann.
3 zeigt in Form eines schematischen Blockdiagramms das erfindungsgemäße Verfahren. Zuerst wird ein Ereignis oder eine Szene unter Verwendung einer Videokamera überwacht (Block 302). Die Videokamera erzeugt Videodaten, die eine Folge von Videorahmen enthalten, wobei jeder Videorahmen das überwachte Ereignis zu einem Zeitpunkt angibt (Block 304). Der Videorahmen wird dann in eine Anzahl von Bereichen oder Pixelblöcken unterteilt (Block 306).
Im allgemeinen wird der Videorahmen in eine vorgegebene Anzahl von Bereichen unterteilt. Wo bestimmte Abschnitte des Videorahmens Objekte oder Informationen enthalten, die eine größere Schärfe erfordern, kann die Anzahl der Pixel in jedem Bereich oder Block oder die Anzahl der Bereiche oder Blöcke erhöht werden. Wo der Videorahmen alternativ Objekte oder Informationen enthält, die eine geringere Schärfe erfordern, können Unterbereiche oder Unterblöcke bereitgestellt werden, die Gruppen von beispielsweise vier Pixeln darstellen. Diese Unterbereiche oder Unterblöcke ermöglichen das Abschwächen der Datenübertragungs- oder Datenspeicheranforderungen.
Typischerweise werden die Bereiche oder Blöcke und die Unterbereiche oder Unterblöcke von einem Prozessor gewählt. Digitale Prozessoren (DSP) in der Art jener, die von Texas Instruments Incorporated aus Dallas, Texas, hergestellt werden, sind für diese Anwendungen besonders geeignet. Der Betrieb des Prozessors kann jedoch vom Benutzer überschrieben werden, wenn besonders wichtige Objekte, beispielsweise eine in einer Präsentation verwendete weiße Tafel, verwendet werden. Daher kann der Videorahmen in mehrere Bereiche unterschiedlicher Größe unterteilt werden, wobei eine größere Anzahl der Bereiche Bereichen des Videorahmens zugewiesen werden, die Objekte oder Informationen enthalten, welche eine größere Schärfe erfordern.
Es wurde herausgefunden, daß in einer Videokonferenzurngebung Betrachter der erzeugten Anzeigevideobilder Tondaten (Sprache) besser verstehen können, wenn die Gesichtsbewegungen anderer Benutzer ausgeprägt sind. Es ist daher wünschenswert, die Auflösung des Anzeigevideobilds in Bereichen, die die Gesichtsmerkmale des Benutzers enthalten, aufrechtzuerhalten und sogar zu erhöhen.
Weil ein großer Teil der Gesichtsbewegung, die während eines Gesprächs auftritt, erzeugt wird, um gesprochene Informationen hervorzubringen, gibt es zu jedem Zeitpunkt eine natürliche Korrelation zwischen der erzeugten Sprache und den Gesichtsmerkmalen des Benutzers. Demgemäß erfordern die Bereiche des Videorahmens, die Gesichtsmerkmale des Benutzers enthalten, wie der Mund, die Augen, das Kinn usw., eine größere Schärfe.
Ein oder mehrere Bereiche des Videorahmens werden entsprechend einem Bezugspunkt auf dem Videorahmen entweder vom Benutzer oder von einem Prozessor ausgewählt (Block 308). Die ausgewählten Bereiche werden im allgemeinen in einem Speicher gespeichert, und die restlichen Bereiche des Videorahmens werden unterdrückt (Block 310), so daß diese Bereiche im sich ergebenden Anzeigevideobild unscharf oder als außerhalb des Brennpunkts liegend erscheinen. Diese restlichen Bereiche können durch das Anzeigeempfangsgerät künstlich simuliert werden, um die Datenübertragungsanforderungen des Systems abzuschwächen.
Alternativ können Schlüsselzahlen der restlichen Bereiche des Videorahmens vom Benutzer oder einem Prozessor bestimmt werden und zum Erzeugen einer Simulation der restlichen Bereiche des Videorahmens verwendet werden.
Die unterdrückten oder simulierten restlichen Bereiche werden dann mit dem ausgewählten Bereich (den ausgewählten Bereichen) des Videorahmens rekombiniert, um jeden Rahmen des Anzeigevideobilds zu erzeugen (Block 312). Jeder Rahmen des Anzeigevideobilds wird dann der Reihe nach dem Betrachter gezeigt (Block 314).
Aus Gründen der Zweckmäßigkeit wird die vorliegende Erfindung nun detailliert mit Bezug auf ein Videokommunikationssystem und insbesondere eine Videokonferenzvorrichtung beschrieben. Der Fachmann wird jedoch verstehen, daß die Grundgedanken, Vorrichtungen und Merkmale der Erfindung auch auf verschiedene andere Gebiete angewendet werden können, in denen pseudodreidimensionale Bilder erforderlich sind.
Die 4a – c zeigen ein typisches Videokonferenzszenario, in dem Teilnehmer 410 an einem ersten Ort (allgemein mit 400 bezeichnet) in Ton-Nideokommunikation mit den Teilnehmern 410' an einem zweiten Ort (allgemein mit 400' bezeichnet) stehen.
Mit Bezug auf den in den 4a und 4b dargestellten ersten Ort 400 sei bemerkt, daß eine Videokamera 412 verwendet wird, um den ersten Ort während der Videokonferenz zu überwachen. 4b zeigt drei alternative Orte für die einzige Videokamera 412. Der Fachmann wird verstehen, daß das System jeden beliebigen Ort für die Videokamera 412 oder eine Kombination von mehr als einem dieser und anderer Orte für die Videokamera 412 verwenden kann. Insbesondere wird die Videokamera 412 zum Überwachen der aktiven Einheit 405 oder des momentan aktiven Teilnehmers (also der entsprechenden oder eine Präsentation gebenden Person) an dem ersten Ort verwendet und auf die aktive Einheit 405 gerichtet und fokussiert. Infolge des großen Gesichtsfelds und der Schärfentiefe der Kamera 412 werden von dieser jedoch im allgemeinen auch andere Teilnehmer 410 und Umgebungs- und Hintergrundmerkmale am ersten Ort eingefangen, während sie die aktive Einheit 405 überwacht.
Mit Bezug auf den in 4c dargestellten zweiten Ort 400' sei bemerkt, daß die Teilnehmer 410' am zweiten Ort auf einem Bildschirm 415 ein Anzeigevideobild betrachten, das von der Szene erzeugt wird, die von der Kamera 412 eingefangen wurde. Insbesondere betrachten die Teilnehmer ein Anzeigevideobild der aktiven Einheit 405 und anderer Objekte innerhalb des Gesichtsfelds der Kamera 412.
Es wurde herausgefunden, daß Teilnehmer 410' wesentliche Informationen aus den Gesichtsbereichen ableiten, wenn das Anzeigevideobild ein Bild der aktiven Einheit 405 aufweist. Tatsächlich wurde herausgefunden, daß Teilnehmer 410' besser in der Lage sind, die Tonkomponente (also die Sprache) zu verstehen, wenn Bereiche, insbesondere um den Mund und die Augen, einer aktiven Einheit 405 wohldefiniert sind und die Auflösung des Anzeigevideobilds in diesen Bereichen gut ist. Insbesondere ist bekannt, daß Teilnehmer 410' besser in der Lage sind, die Sprache der aktiven Einheit 405 zu bestimmen, wenn die momentane Form des Munds bestimmt werden kann.
In der anhängigen europäischen Patentanmeldung 97 401 772.5, die am 23. Juli 1997 eingereicht und auf Texas Instruments, Frankreich, übertragen wurde, ist ein Videokommunikationssystem beschrieben, bei dem dieses Konzept verwendet wird, indem die Daten, die den Gesichtsbereichen der aktiven Einheit 405 zugeordnet sind, im Anzeigevideobild häufiger aktualisiert werden als umgebende Bereiche.
5 zeigt den Kopf- und den Schulterbereich einer aktiven Einheit 405, die von der Videokamera 412 überwacht wird, wie in den Lehren der anhängigen europäischen Patentanmeldung 97 401 772.5 beschrieben ist.
Vorzugsweise wählt ein Prozessor ganze Zahlen, die vorgegebenen Gesichtsmerkmalen entsprechen. Beispielsweise können die gewählten Untereinheiten in 5 das Kinn 512, entgegengesetzte Ränder des Munds 514' bzw. 514'', die Nase 516 und der Außenrand jedes Auges 518 bzw. 520 sein.
Das Videobild kann in im wesentlichen dreieckige Bereiche oder Blöcke von Pixeln unterteilt werden. Jeder dieser Bereiche ist durch eine Eigenphase dargestellt. Bereiche, in denen eine häufige Bewegung auftritt (also der Hintergrund), die den Teilnehmern 410' beim Verstehen der Tondaten (Sprache) jedoch wenig nützen, weisen eine größere Pixelfläche als andere Bereiche auf. Umgekehrt weisen Bereiche, anhand derer Teilnehmer 410' viel Hilfe beim Verstehen der Tondaten erhalten (beispielsweise der Mund, das Kinn, die Augen, die Nase) eine kleinere Pixelfläche auf. Daher stellen die Eigenphasen für Videodaten, die Bereichen entsprechen, welche von den ganzen Zahlen 512, 514, 516, 518, 520 eingeschlossen sind, eine kleinere Pixelfläche dar als die Eigenphasen, die einer Fläche anderer Bereiche entsprechen.
Weil sich Betrachter gewöhnlich auf die Informationen tragenden Gesichtsbereiche 512, 514, 516, 518, 520, 521 der aktiven Einheit 405 konzentrieren, müssen andere benachbarte Gesichtsmerkmale, wie beispielsweise die Ohren, nicht so häufig aufgefrischt werden. Weil sich die Betrachter des Anzeigebilds weiterhin gewöhnlich auf den Informationen tragenden Abschnitt der Gesichtsbereiche der aktiven Einheit 405 konzentrieren, können andere Bereiche des Anzeigebilds weniger scharf sein, ohne daß dem Betrachter ein Nachteil entsteht.
Weiterhin wurde entdeckt, daß diese Bereiche unterdrückt werden können, um ein Anzeigebild zu erzeugen, das, wenn es von den Teilnehmern 410' betrachtet wird, jemandem analog ist, der ein Bild von sich selbst in einem Spiegel betrachtet. Es wurde weiterhin herausgefunden, daß bei einem Bild, bei dem die Informationen tragenden Gesichtsbereiche scharf im Fokus liegen und andere Bereiche unterdrückt sind, ein sogenannter "Mona-Lisa-Effekt" erzeugt wird, bei dem es jedem Teilnehmer 410' so scheint, als ob die aktive Einheit diesen Teilnehmer 410' direkt betrachtet.
Die Arbeitsweise eines Videokommunikationssystems 600 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird nun mit Bezug auf die 6 – 16 beschrieben. Aus Gründen der Zweckmäßigkeit wird die schematische Darstellung des Videokommunikationssystems 600 in Bezug auf einen Sendeabschnitt 610 und einen Empfangsabschnitt 650 beschrieben. Fachleute werden jedoch verstehen, daß es im allgemeinen für den Betrieb des Videokommunikationssystems 600 erforderlich ist, daß sowohl der Sendeabschnitt 610 als auch der Empfangsabschnitt 650 dazu in der Lage sind, Videodaten sowohl zu erzeugen als auch zu übertragen und die Videodaten zu empfangen und umzuwandeln, um ein Anzeigevideobild zu erzeugen.
Der Sendeabschnitt 610 weist eine Videokamera 412, eine Kamerabetätigungsvorrichtung 614, ein Bildebenenmodul 616, ein Videoquantisierungsmodul 618, ein Codiermodul 620, ein Vorverarbeitungsmodul 622, eine Schleifenfilterschaltung 624, ein Bewegungsschätzmodul 626, einen Speicher 628, ein Kompressionsmodul 630 und ein Audioquantisierungsmodul 632 auf.
Der Empfangsabschnitt 650 umfaßt eine Videoanzeige 652, ein Dequantisierungsmodul 654, ein Decodiermodul 656, ein Nachverarbeitungsmodul 658, ein Schleifenfiltermodul 660, ein Bewegungsschätzmodul 662, einen Speicher 664 und ein Dekompressionsmodul 666. Es sei bemerkt, daß verschiedene Komponenten in der Lage sein können, duale Funktionen auszuführen. Insbesondere liegen der Sendeabschnitt 610 und/oder der Empfangsabschnitt 650 vorzugsweise in Form eines Transceivers vor, der in der Lage ist, in einem Sende- oder einem Empfangsmodus zu arbeiten. Es sei weiterhin bemerkt, daß der Sendeabschnitt 610 und der Empfangsabschnitt 650 in der Lage sind, eine Datenkommunikation über ein Übertragungsmedium 699 auszuführen, das eine "festverdrahtete" elektrische Verbindung, eine faseroptische Verbindung oder eine drahtlose Verbindung aufweisen kann.
Mit Bezug auf 8a sei bemerkt, daß die Videokamera 412 die Umgebung überwacht, in der sich das Videokommunikationssystem 600 befindet (Block 805) und ein Signal (Block 806) erzeugt, das den Ton- und Videodatengehalt der überwachten Umgebung darstellt. Als nächstes bestimmt die Kamerabetätigungsvorrichtung 614 den Ort einer momentan aktiven Einheit 405 innerhalb der Umgebung (Block 807).
Diese Kommunikationssysteme verwenden im allgemeinen eine Anzahl strategisch angeordneter Mikrophone, welche von der Kamerabetätigungsvorrichtung 614 verwendet werden können, um die Position der aktiven Einheit 405 in der Umgebung durch eine Triangulationstechnik zu bestimmen. Alternativ kann die Kamerabetätigungsvorrichtung 614 durch Bewegung ausgelöst werden, weil die aktive Einheit 405 (beispielsweise eine Person, die mit einer Gruppe spricht) ihre Sprache im allgemeinen beispielsweise mit Handbewegungen unterstreicht.
Nachdem die aktive Einheit 405 in der Umgebung bestimmt wurde, richtet die Betätigungsvorrichtung 614 die Kamera 412 auf die aktive Einheit 405 und überwacht die unmittelbare Umgebung der aktiven Einheit 405. Das Bildebenenmodul 616 unterteilt dann das von der Videokamera 412 überwachte Ereignis in mehrere Bildebenen (Block 808). Das Bildebenenmodul 616 bestimmt die Position wesentlicher Merkmale in der überwachten Umgebung sowohl in Bezug auf andere wesentliche Merkmale als auch in Bezug auf die Kamera 412. Wie in 6b dargestellt ist, unterteilt das Bildebenenmodul 616 das überwachte Bild in eine Anzahl von Pixelblöcken (Block 809), wobei jeder Block einem Bereich des Bilds auf einer Bildebene (oder einem anderen Abstand von der Kamera 412) entspricht. Es sei bemerkt, daß das Bildebenenmodul 616 Bildebenen zwischen der aktiven Einheit 405 und der Kamera 412 auswählen kann und auch Bild-ebenen für wesentliche Hintergrundmerkmale hinter der aktiven Einheit 405 auswählen kann. Daten für jeden der ein Objekt in einer Bildebene darstellenden Pixelblöcke (die also jedem der wesentlichen Merkmale entsprechen) werden dann als eine Nachschlagetabelle im Speicher 628 gespeichert.
Alternativ kann das Videokommunikationssystem 600 eine Vielzahl von Kameras 412 aufweisen, die jeweils auf einen getrennten Bereich der überwachten Umgebung gerichtet sind. Demgemäß betätigt die Kamerabetätigungsvorrichtung 614 die geeignete Kamera 412 für den Bereich, in dem sich die aktive Einheit 405 befindet.
Vorzugsweise überwacht das Videokommunikationssystem 600 zunächst eine Szene, bevor darin Teilnehmer 410 vorhanden sind. Folglich weiß das System 600 bei einem künftigen Bezug auf die für eine bestimmte Umgebung erzeugte Nachschlagetabelle beispielsweise, daß sich zwischen dem Tisch und der Kamera 412 ein Stuhl befindet.
Kurz auf 7 Bezug nehmend sei bemerkt, daß jede Bildebene 720, 722, 724 einen anderen Abstand zwischen der Kamera 412 und einem ausgewählten wesentlichen Merkmal in der überwachten Umgebung darstellt. Falls folglich zu einem späteren Zeitpunkt ein weiteres Merkmal, wie eine Person, beispielsweise zwischen dem Objekt 726 (Blumen) und dem Objekt 728 (Elefant) durchläuft, kann das Bildebenenmodul 616 eine weitere Bildebene 721 zwischen den Bildebenen 720 und 722 einfügen.
Wenn das Videokommunikationssystem 600 alternativ häufig in der gleichen Umgebung verwendet wird und wesentliche Merkmale innerhalb der Umgebung konstant sind, wie beispielsweise Tische, Pflanzen, Bilder usw., können die Bild ebenen für diese Merkmale in eine Nachschlagetabelle eingegeben werden, die im Speicher 628 oder im Speicher 664 gespeichert ist. Bei jeder Gelegenheit, bei der das Kommunikationssystem 600 verwendet wird, bestimmt das Bildebenenmodul 616 zunächst, ob jedes der wesentlichen Merkmale vorhanden ist und ob irgendwelche weiteren Merkmale eingeführt worden sind. Wenn seit dem vorhergehenden Betrieb des Videokommunikationssystems 600 weitere Merkmale eingeführt worden sind, kann das Bildebenenmodul 616 weitere Bildebenen durch Bestimmen der Position des neuen wesentlichen Merkmals in Bezug auf bekannte wesentliche Merkmale innerhalb der Umgebung erzeugen.
Als nächstes wählt das Quantisierungsmodul 618 der Reihe nach jeden der vom Bildebenenmodul 616 empfangenen Blöcke entsprechend ihrer relativen Wichtigkeit innerhalb des überwachten Bilds aus (Block 820). Beispielsweise hat der Block, der den Informationen tragenden Abschnitt der Gesichtsmerkmale der aktiven Einheit 405 enthält, eine größere Wichtigkeit als weniger wichtige Merkmale der aktiven Einheit 405, und diese weniger wichtigen Merkmale der aktiven Einheit 405 haben wiederum eine größere Wichtigkeit als Hintergrundmerkmale. Das Quantisierungsmodul 618 ordnet vom Bildebenenmodul 616 empfangene Videodaten einem vorgegebenen Quantisierungsniveau zu (Bits der Videodaten entsprechen im allgemeinen einem Pixel des von der Videokamera 412 überwachten Bilds).
Das Quantisierungsmodul 618 ist weiterhin mit dem Codiermodul 620 verbunden, das die quantisierten Videodaten empfängt und jeden Pixelblock codiert (Block 822).
Das Vorverarbeitungsmodul 622 empfängt die codierten Videodaten vom Codiermodul 620 und beseitigt das stochastisch erzeugte Rauschen (Block 824), das von der Videokamera 412 ausgehende Einzelpixelfehler hervorrufen kann. Durch die nachfolgende Kompression dieses Rauschens werden die Datenübertragungsanforderungen des Systems 600 erhöht und Datenbandbreite des Übertragungsmediums verschwendet. Wenngleich das Rauschen durch eine einfache Tiefpaßfilterung verringert werden kann, führt es im allgemeinen zu einer Unschärfe des resultierenden Videobilds. Daher werden komplexere Filtertechniken verwendet (ein lineares oder nichtlineares Filtern), damit das von der Videokamera 412 erzeugte Rauschen verringert wird, während die Auflösung des sich ergebenden Anzeigevideobilds bewahrt bleibt.
Das Kompressionsmodul 630 empfängt die codierten und vorverarbeiteten Videodaten und führt einen Kompressionsprozeß aus, um die Videodaten zu komprimieren (Block 826). Die Arbeitsweise des Kompressionsmoduls wird nachstehend in näheren Einzelheiten beschrieben. Die komprimierten Videodaten werden dann über das Übertragungsmedium 699 zum Empfangsmodul 650 übertragen (Block 828), jedoch auch im Speicher 628 gespeichert, um dabei zu helfen, den Datengehalt nachfolgend übertragener Rahmen des Videobilds zu verringern.
In typischen Betriebssituationen bleiben der Hintergrund und verschiedene Merkmale, die von der Videokamera 412 überwacht werden, von einer Rahmenperiode des Videobilds zur nächsten Rahmenperiode im wesentlichen stationär. Die Bewegung eines Merkmals zwischen aufeinanderfolgenden Rahmenperioden bewirkt jedoch, daß sich Pixel, die das Merkmal wiedergeben, als ein Block bewegen.
Die im Speicher 628 gespeicherten codierten Videodaten werden vom Bewegungsschätzmodul 626 verwendet, um Bewegungsvektoren zu erzeugen (Block 830), die die Position jedes Pixels oder Pixelblocks entsprechend der Position dieses Pixels oder Pixelblocks in einem vorhergehenden Rahmen schätzen.
Nach der Erzeugung von Bewegungsvektoren durch das Bewegungsschätzmodul 626 wird eine weitere Verbesserung der Qualität des Videobilds durch Verringern großer Fehler in den Vorhersagedaten und Schätzvektoren erhalten (Block 832). Dies wird durch das Schleifenfiltermodul 624 erreicht, das einen Schleifenfilterprozeß ausführt, wenn "Innerrahmen"-Codiertechniken verwendet werden.
Mit Bezug auf das Empfangsmodul 650 sei bemerkt, daß komprimierte und codierte Videodaten über das Übertragungsmedium 699 vom Sendeabschnitt 610 empfangen werden. Die empfangenen Videodaten werden am Dekompressions modul 666 dekomprimiert. Die von Videokommunikationssystemen implementierten Kompressionsalgorithmen können jedoch "Moskito-Rauschen" in den Videodaten erzeugen, wodurch Artefakte im sich ergebenden Videobild hervorgerufen werden. Das Moskito-Rauschen kann einer übermäßigen Quantisierung der Videodaten zugeschrieben werden, die zur Beseitigung wichtiger Hochfrequenzinformationen entlang Konturen im Videobild führt (beispielsweise dem Rand zwischen einem Gesicht und dem Hintergrund). Das Nachverarbeitungsmodul 658 bewirkt ein Verringern der Wirkungen des "Moskito-Rauschens" durch eine Nachverarbeitung der Videodaten vor der Anzeige des Videobilds.
Nach der Nachverarbeitung werden die Videodaten über das Decodiermodul 656 und das Dequantisierungsmodul 654 zur Videoanzeige 652 zur Erzeugung des Videobilds übertragen.
Es ist bevorzugt, daß die Bewegungsschätzung und die Schleifenfilterung vom Sendemodul 610 ausgeführt wird, damit unnötige Datenbits keine Bandbreite verwenden, die wirksamer von Datenbits verwendet werden kann, welche sich von Rahmen zu Rahmen ändern. Die Bewegungsschätzung kann jedoch auch am Empfangsabschnitt 610 ausgeführt werden.
Bei Implementierung in einer Videokonferenzanwendung fokussiert der Betrachter ein einziges Objekt (die aktive Einheit 405). Bei solchen Anwendungen muß die Kamera 412 jedoch eine Szene überwachen, welche sowohl das interessierende Objekt (die aktive Einheit 405) als auch eine Anzahl von Hintergrundoder Vordergrundobjekten (beispielsweise die Teilnehmer 410, die Objekte 726, 727, 728, 730) enthält. Typischerweise ist die Kamera 412 auf das Objekt fokussiert, das zu einem gegebenen Zeitpunkt die aktive Einheit 405 ist (beispielsweise der sprechende Teilnehmer).
Die 9a – b zeigen ein bevorzugtes Verfahren zum Auffrischen der erzeugten Videoanzeigebilder. Zuerst sei mit Bezug auf 9a bemerkt, daß die aktive Einheit 405 durch den Block 1F dargestellt wird. Dieser Pixelblock wird in jedem Auffrischungszyklus aufgefrischt, wobei die Videokamera 412 (beispiels weise die in den 10 – 16 beschriebenen Kameras) Daten nur aus den Pixelblöcken auswählen, welche die aktive Einheit 405 enthalten. In jedem zweiten Zyklus werden Pixelblöcke, die Objekte in der nächsten Bildebene (entweder vor oder hinter der aktiven Einheit 405) darstellen, aufgefrischt (wie in den Blöcken 2A – 2D angegeben ist). In jedem dritten Zyklus werden Pixelblöcke, die Objekte in der nächsten Bildebene darstellen, aufgefrischt (wie in den Blöcken 3A – 3D dargestellt ist). Dies wird für Y Bildebenen wiederholt, die das Videoanzeigebild ausmachen. Demgemäß werden die das Videoanzeigebild ausmachenden Bildebenen in der Folge 1F, 1F, 2A – D, 1F, 2A – D, 3A – D,........., 1F, 2A – D, 3A – D,......... YA – D aufgefrischt. Das Auffrischungsverfahren ist in 9b schematisch dargestellt.
Wie in 9b dargestellt ist, wird ein Zähler (nicht dargestellt) entweder dann, wenn das System 600 initialisiert wird, oder dann, wenn die Kamerabetätigungsvorrichtung 614 eine neue aktive Einheit 405 identifiziert, auf Null zurückgesetzt (Block 910). Als nächstes wird der Zähler zu Beginn des ersten Auffrischungszyklus um eins inkrementiert (Block 912), und die erste Bildebene (1F) wird aufgefrischt (Block 914), indem die Daten ersetzt werden, die den Pixeln in dem die aktive Einheit 405 darstellenden Block 1F entsprechen.
Falls der Inhalt des Zählers (Y) kleiner ist als die Anzahl der ausgewählten Bildebenen (Z), wird der Zähler zu Beginn des zweiten Auffrischungszyklus wieder um eins inkrementiert (Block 912). Die erste Bildebene wird durch Ersetzen der Daten, welche den Pixeln in dem die aktive Einheit 405 darstellenden Block 1F entsprechen, aufgefrischt (Block 914), bevor die zweite Bildebene aufgefrischt wird (920), indem die Pixel in jedem der Blöcke 2A – D ersetzt werden.
Falls der Inhalt des Zählers (Y) kleiner ist als die Anzahl der ausgewählten Bildebenen (Z), wird der Zähler zu Beginn des dritten Auffrischungszyklus wieder um eins inkementiert (Block 912). Die erste Bildebene wird durch Ersetzen der Daten, welche den Pixeln im die aktive Einheit 405 darstellenden Block 1F entsprechen, aufgefrischt (Block 914), wobei dies zusammen mit der zweiten Bildebene, welche durch Ersetzen der Pixel in jedem der Blöcke 2A – D aufge frischt wird (Block 920), und der dritten Bildebene, die durch Ersetzen der Pixel in jedem der Blöcke 3A – D aufgefrischt wird (Block 926), erfolgt.
Dieser Zyklus des Auffrischens der jede der Bildebenen darstellenden Datenblöcke wird wiederholt, bis alle Bildebenen aufgefrischt worden sind. Der Zähler wird dann zurückgesetzt, und der Zyklus wird wiederholt. Falls die aktive Einheit 405 alternativ geändert wird, wird der Zähler sofort auf Null zurückgesetzt, und die Auffrischungszyklen werden reinitialisiert.
Weil Objekte in der überwachten Umgebung oder an der Position eines Objekts einem vorhergehenden Rahmen des Videobilds entsprechen können, können im Speicherblock 664 entsprechende Pixelblöcke (1F, 2A – 2D, 3A – 3D) gespeichert werden. Typischerweise werden die Daten für jeden ein Objekt darstellenden Pixelblock mit einem Zeiger gespeichert, der es der Videoanzeige 652 ermöglicht, Pixelblöcke aus einer Bibliothek dieser im Speicher 664 gespeicherten Daten zu identifizieren und zur Anzeige auszuwählen.
Ein weiterer Aspekt der Erfindung wird nun mit Bezug auf 10 beschrieben, welche ein schematisches Diagramm einer Kamera 2000 ist, die auf ein Objekt 2011 in einer Brennebene 2010 fokussiert ist. Die Kamera 2000 ist eine Einzellinsenkamera zur Verwendung mit dem vorstehend mit Bezug auf die 6a und 6b beschriebenen Videokonferenzsystem 600, wobei eine Tiefenabweichung zum Erzeugen eines Eindrucks eines 3D-Bilds auf der Videoanzeige 652 verwendet wird. Das Videokonferenzsystem 600 erfaßt, speichert und vorverarbeitetdas Bild einer Person (von Personen) und/oder eines Objekts sowie die relative Position zu Hintergrundobjekten bzw. -szenen. Durch Wiedererzeugen der Tiefenabweichung zwischen der Person (den Personen) und den Hintergrundobjekten und der Hintergrundszene am Empfänger erzeugt das System 600 für einen fernen Betrachter einen 3D-Eindruck (Teleeindruck). Für die Zwecke der folgenden Beschreibung sei die Kamera 2000 an Stelle der Kamera 2000 mit dem Videokonferenzsystem 600 aus 6a verbunden.
Die Kamera 2000 weist eine unabhängige Fokussierungsoptik 2001 und eine Brennebene 2002 auf, die so angeordnet ist, daß die Brennachse der Kamera 412 und die Brennebene 2010 in etwa an einem Punkt zwischen den Augen der sprechenden bzw. an einer Videokonferenzsitzung teilnehmenden Person liegen, beispielsweise bei einem Sprecher 405 oder einem der Teilnehmer 410. Die Brennweite der Kamera 2000 wird so eingestellt, daß die maximalen Tiefeninformationen hinsichtlich der sprechenden bzw. an der Videokonferenzsitzung teilnehmenden Person erhalten werden.
Die von einer CCD- oder CMOS-Bildaufnahmeeinrichtung (nicht dargestellt) in der Brennebene 2002 aufgezeichneten Pixelinformationen werden digitalisiert und bei einer Zeilen- und Rahmenräte an eine Speichermehrfachanordnung 628 ausgegeben, die angemessen ist, um ein Flackern beim Empfänger zu verhindern. Jeder Rahmen wird in einem getrennten Teil des Speichen 628 zwischengespeichert. Unter Verwendung digitaler Signalverarbeitungstechniken werden die Pixel in jedem Rahmen, die die Merkmale des Sprechen darstellen, und jene, die Hintergrundobjekte bzw. Hintergrundszenen darstellen, getrennt und zu unabhängigen Zwischenspeichern übertragen.
Die Analyse wird rahmenweise ausgeführt, um den Umriß getrennter Objekte zu identifizieren und zu verfolgen. Im einfachen Fall einer Einzelperson wird der Umriß des Kopfs bzw. der Schultern anhand der Änderung der Farbe bzw. des Kontrasts gegenüber dem Hintergrund identifiziert. In ähnlicher Weise müssen Objekte im Hintergrund identifiziert werden. Es gibt eine Anzahl bekannter DSP-Techniken zum Identifizieren und Trennen von Objekten, so daß diese Vorgehensweise hier nicht weiter beschrieben wird.
11 ist eine schematische Ansicht, in der dargestellt ist, wie Objekte jenseits der Brennebene 2010 der Kamera 2000 in 10 gemäß einem Aspekt der vorliegenden Erfindung um einen Betrag D defokussiert erscheinen, welcher der Tiefenabweichung (d) entspricht. Diese Charakteristik wird im Empfangsabschnitt des Videokonferenzsystems verwendet, um für einen fernen Betrachter einen 3D-Eindruck (Teleeindruck) zu erzeugen. Bilder, die Hintergrundobjekte, wie das Objekt 2012, darstellen, werden getrennt zum Empfangsabschnitt des Videokonferenzsystems gesendet, wie in 6b dargestellt ist. Unter Verwendung digitaler Signalverarbeitungstechniken wird das Hintergrundobjekt 2012 um einen Betrag defokussiert, der dem Dispersionsabstand (D) entspricht. Der Dispersionsabstand D korreliert mit der Tiefenabweichung (d) des Hintergrundbilds 2012, wodurch die Tiefe des Hintergrundobjekts 2012 in bezug auf das Objekt 2011 dargestellt wird. Andere Hintergrundobjekte (nicht dargestellt) werden gemäß ihrer entsprechenden Tiefenabweichung defokussiert.
Die Pixelinformationen, welche die sprechende bzw. an der Videokonferenzsitzung teilnehmende Person darstellen (durch das Objekt 2011 dargestellt), werden den die Hintergrundobjekte darstellenden modifizierten Informationen wieder hinzugefügt und wieder im Hauptspeicher 628 gespeichert. Das auf diese Weise gebildete zusammengesetzte Bild wird dem fernen Betrachter auf der Anzeige 652 gezeigt. Die Prozedur wird für die nachfolgenden Rahmen wiederholt.
12 ist eine schematische Ansicht, in der dargestellt ist, wie eine andere Tiefenabweichung d' zu einem anderen Defokussierungsbetrag oder einem anderen Dispersionsabstand D' führt. Weil der Dispersionsabstand (D) eines Bilds des Hintergrundobjekts den Abstand (d) des Hintergrundobjekts von der Person (Objekt 2011) darstellt, kann die anscheinende Tiefenabweichung eines Objekts durch Ändern des Defokussierungsbetrags oder des Dispersionsabstands D geändert werden. Das Ergebnis einer solchen Transformation besteht darin, daß die wirksame Brennweite der Kamera für die sprechende bzw. an der Videokonferenzsitzung teilnehmende Person und die Hintergrundobjekte geändert wird. Der Betrag, der Tiefenabweichung und damit die 3D-Wirkung können demgemäß durch Ändern des Werts von D ansprechend auf einen Tiefenabweichungsparameter N geändert werden. Der Tiefenabweichungsparameter N wird vom Bildebenenmodul 616' bereitgestellt. Weiterhin kann der Tiefenabweichungsparameter N vom Empfangssystem aus 6b modifiziert werden. Beispielsweise kann ein Betrachter der Videoanzeige 652'' das Verarbeitungsmodul 622 anweisen, die 3D-Wirkung zu erhöhen oder zu verringern, was wiederum dazu führt, daß der Tiefenabwei chungsparameter N vergrößert bzw. verkleinert wird. Natürlich gibt es in einer Szene mit mehreren (m) Hintergrundbildebenen eine Vielzahl von Tiefenabweichungsparametern N(m), die jeder Bildebene entsprechen.
Unter Verwendung digitaler Signalverarbeitungstechniken kann das Videokonferenzsystem 600 das Bild der sprechenden bzw. an der Videokonferenzsitzung teilnehmenden Person durch Verstärken von 3D-Sichtmerkmalen (Schatten, Krümmungen, Strukturen und Tiefenabweichung) vor dem Hinzufügen zu den Hintergrundinformationen weiter verbessern.
Weil die Rekonstruktion des Bilds am Empfänger von der Wiedererzeugung der Tiefenabweichung abhängt und kein stereoskopisches Abbilden ist, kann ein Bild unter Verwendung nur einer Kamera erfaßt und rekonstruiert werden. Die Informationen können dann gespeichert oder zur weiteren Reduktion zum Videokompressionsmodul 630' übertragen werden oder als ein einziges Bild zum empfangenden Endgerät übertragen werden.
Wie zuvor erörtert wurde, kann das Bild des Sprechers 405 oder des Teilnehmers 410 getrennt von Bildern von Hintergrundobjekten, wie dem Objekt 2012, übertragen werden. Das Hintergrundobjekt 2012 wird entsprechend einem Tiefenabweichungsparameter N defokussiert und wird mit dem Bild des Sprechers 405 oder des Teilnehmers 410 rekombiniert, um ein einziges zusammengesetztes Bild im Empfangssystem aus 6b zu erzeugen. Alternativ kann das Bild des Sprechers 405 oder des Teilnehmers 410 von Bildern von Hintergrundobjekten, wie dem Objekt 2012, getrennt werden. Das Hintergrundobjekt 2012 wird ansprechend auf einen Tiefenabweichungsparameter N defokussiert und mit dem Bild des Sprechers 405 oder des Teilnehmers 410 rekombiniert, um vor der Übertragung ein einziges zusammengesetztes Bild im Übertragungssystem aus 6a zu erzeugen. Das sich ergebende zusammengesetzte Bild wird dann zum Empfangssystem aus 6b übertragen.
Weil in der Kamera 2000 eine Brennebene vorhanden ist, liegt bei jedem Bildrahmen, der von der Kamera abgetastet wird, das Personenobjekt 2011 im Brenn punkt, während das Hintergrundobjekt 2012 infolge der Tiefenabweichung, die proportional zum Abstand des Hintergrundobjekts von der Brennebene ist, außerhalb des Brennpunkts liegt. Der Betrag der im Hintergrundobjekt 2012 vorhandenen Defokussierung hängt von der Brennweite der Kamera 2000 ab. Nachdem das Hintergrundobjekt 2012 vom Bildrahmen getrennt wurde, wird die Tiefenabweichung des Objekts 2012 vergrößert, um den 3D-Eindruck zu erzeugen, wie vorstehend erörtert wurde. Dies kann durch Hinzufügen von "Rauschen" zum Bild des Objekts 2012 erfolgen, um scharfe Kanten weicher zu machen. Alternativ kann jedes Pixel des Bilds des Hintergrundobjekts 2012 über eine Kreisfläche mit einem Durchmesser (D(n)), entsprechend der gewünschten Tiefenabweichung (d(n)) für das Objekt 2012 verteilt werden. Weiterhin kann die Position der scharfen Kanten im Raum oszilliert werden (d. h., die Position einer Kante kann für wechselnde Rahmen des Anzeigevideobilds zwischen zwei oder mehr Positionen im Raum gewechselt werden).
13 ist ein Blockdiagramm einer Kamera 2200, die einen digitalen Signalprozessor (DSP) 2230 zum Verarbeiten von Bildern entsprechend Aspekten der vorliegenden Erfindung enthält. Die Kamera 2200 hat eine unabhängige Fokussierungsoptik 2201 und eine Brennebene 2202, die so angeordnet ist, daß die Brennachse der Kamera mit der Brennebene 2210, welche das Objekt 2211 enthält, ausgerichtet ist. Pixelinformationen werden von einer CCD- oder CMOS-Abbildungseinrichtung 2203 in der Brennebene 2202 aufgezeichnet und digitalisiert und bei einer Zeilen- und Rahmenrate, die zum Verhindern eines Flackerns am Empfänger geeignet ist, an eine Speichermehrfachanordnung 2240 ausgegeben. Der DSP 2230 enthält Software, die im Speicher 2240 gespeichert wird, um einige oder alle der von den Modulen 614' – 632' ausgeführten Bildverarbeitungsschritte auszuführen. Bilddaten werden von der Kamera 2200 über die Ausgangssignalleitung 2250 übertragen.
Alternativ kann der DSP 2230 programmiert werden, um Pixel, welche sich auf ein Bild des Sprechers 405 oder des Teilnehmers 410 beziehen, von Bildern von Hintergrundobjekten, wie dem Objekt 2012, zu trennen. In diesem Fall wer den nur die Bilder des Sprechen 405 oder des Teilnehmers 410 zum Videokonferenzsystem übertragen, nachdem die Hintergrundbilder einmal übertragen und im Speicher 619' gespeichert worden sind.
Die Erfindung ermöglicht das elektronische Ändern der Brennweite einer Kamera zum Modifizieren der wahrgenommenen Schärfentiefe für verschiedene Objekte. Unter Verwendung dieser Technik kann die Tiefenabweichung einer Videokonferenzszene optimiert werden. Weil die Tiefenabweichung ein Schlüsselbeitrag für den 3D-Eindruck ist, kann der Präsenzeindruck innerhalb einer Videokonferenzszene durch Ändern des Tiefenabweichungsparameters (N(m)) für die Person und Hintergrundobjekte erhöht werden. Weil das System zum Rekonstruieren der 3D-Szene auf Tiefeninformationen zurückgreift (also den Versatz der Bildebenen in den 2a – 2c), kann das System nur ein Bild der Szene erfassen, speichern und übertragen.
Ein Vorteil der Erfindung besteht darin, daß sich bei ihr die Möglichkeit ergibt, eine einzige Kamera zum Erfassen und Vorverarbeiten von Videoinformationen von einer Videokonferenzszene zu verwenden, während die Sichtlinien optimiert werden, welche zum Erzeugen eines 3D-Eindrucks erforderlich sind, wenn das Bild am Empfänger rekonstruiert wird.
Ein weiterer Vorteil der Erfindung besteht darin, daß sie zu einer Verringerung der Datenmenge führt, die erfaßt, gespeichert und übertragen werden muß, um ein 3D-artiges Videokonferenzsystem mit einer hohen Qualität zu erreichen.
Ein weiterer Aspekt der vorliegenden Erfindung wird nun mit Bezug auf 14 erörtert, welche eine schematische Ansicht ist, in der zwei getrennte Kameras 2100 und 2105 dargestellt sind, welche auf ein Objekt 2111 in einer Brennebene 2110 fokussiert sind. Die Einrichtung weist zwei unabhängige Kameras 2100, 2105 mit zwei unabhängigen Fokussierungsoptiken 2101, 2106 auf, die so angeordnet sind, daß der Abstand zwischen den Brennzentren der Optiken in etwa dem Abstand zwischen den Augen eines Betrachters 16 gleicht. Die Brennachsen 2103, 2108 der jeweiligen Kameras sind so eingerichtet, daß sie in etwa auf die Person (die Personen) zeigen, die an der Videokonferenzsitzung teilnimmt (teilnehmen) und hier durch das Objekt 2111 dargestellt ist (sind). Die Kameras 2100, 2105 können jeweils beispielsweise der Kamera 2000 oder der Kamera 2200 ähneln.
Ein klassisches Verfahren zum Erfassen von stereoskopischen Informationen besteht darin, eine Kamera um ein Objekt zu drehen, das sich im Zentrum des von der Kamera abgefahrenen Bogens befindet (alternativ können sich mehrere Kameras auf dem Bogen befinden). Die Drehung der Kamera über den Bogen wird verwendet, um der Anforderung Rechnung zu tragen, daß die Brennweite der Linse konstant bleibt, weil ansonsten eine Ansicht der Person bzw. des Objekts größer bzw. kleiner als die andere wäre. Die verschiedenen Rahmen bzw. Ansichten, die von der Kamera bzw. den Kameras genommen werden, enthalten Informationen, die sich auf die Seiten des Objekts beziehen. Die einzelnen Rahmen (die alle im Brennpunkt liegen) können dann zum Konstruieren eines 3D-Modells des Objekts verwendet werden. Falls das Objekt jedoch nicht im Zentrum des Bogens liegt, treten in den einzelnen Bildern unterschiedliche Tiefenabweichungen auf.
15 ist eine schematische Ansicht, in der dargestellt ist, wie ein Ausrichtungsfehler korrigiert werden kann, wenn die mechanische Brennebene E der zwei Kameras aus 14 gemäß einem Aspekt der vorliegenden Erfindung gegenüber der optischen Brennebene 2110 versetzt ist. Diese Fehlausrichtung führt dazu, daß ein von der Kamera 2200 erfaßtes Bildpixel 2223 an einer anderen relativen Position liegt als ein von der Kamera 2205 erfaßtes entsprechendes Bildpixel 2224. Zum Kompensieren eines solchen Ausrichtungsfehlers zwischen den Kameras kann zwischen den Zeilensynchronisationsimpulsen, die zum Auslesen von Informationen aus der CCD- (oder CMOS-)-Abbildungseinrichtung 2203 der Kameras in den Kameraspeicher 2201 verwendet werden, eine Verzögerung herbeigeführt werden. Der Versatz ist als die Verzögerung definiert, die erforderlich ist, um Schlüsselmerkmale des Gesichts der aktiven Einheit 405 oder des Teilnehmers 410, wie beispielsweise die Winkel des Munds und der Augen, innerhalb der zwei getrennten Bilder in der Brennebene auszurichten.
Weil die Rekonstruktion des Bilds beim Empfänger von der Wiedererzeugung der Tiefenabweichung und nicht vom stereoskopischen Abbilden abhängt, wie zuvor beschrieben wurde, können die Bilder von jeder der Kameras zu einem einzigen Bild kombiniert werden. Ein wesentlicher Unterschied zwischen diesem Fall und dem Fall einer einzigen Kamera besteht darin, daß Informationen, die sich auf die Seite des Objekts beziehen, aufrechterhalten werden. Digitale Signalverarbeitungstechniken können dann auch verwendet werden, um andere 3D-Sichtmerkmale, wie beispielsweise Strukturen und Schatten und Krümmungen, der Gesichtsmerkmale der Person, die sich innerhalb der Brennebene befindet (also der aktiven Einheit 405 oder des Teilnehmers 410) beizubehalten.
Die Tiefenabweichung wird innerhalb des sich ergebenden 2D-Bilds beibehalten, indem Hintergrundbilder 2112 erfaßt und gespeichert werden, die außerhalb des Gesichtsfelds 2110 liegen. 16 ist eine schematische Ansicht, in der dargestellt ist, wie ein Objekt 2112 jenseits der Brennebene 2110 der Kameras in 14 gemäß einem Aspekt der vorliegenden Erfindung um einen Betrag D entsprechend der Tiefenabweichung (d) defokussiert erscheint. Die Hintergrundobjekten entsprechenden vorverarbeiteten Informationen können gespeichert oder zur weiteren Reduktion zum Videokompressionssystem übertragen werden oder als ein Einzelbild zum Empfangsendgerät übertragen werden.
Die Kameras fangen an Stelle der stereoskopischen Abweichung die Tiefenabweichung d ein, die einem 3D-Bild zugeordnet ist. Weil die Informationen zum Rekonstruieren der 3D-Szene der Versatz der Bildebenen (d in 16) sind, kann die Fehlausrichtung der Mechanik der Kamera kompensiert werden, wenn die Bilder von den CCD- oder CMOS-Abbildungseinrichtungen abgetastet werden.
Wie mit Bezug auf die 10 – 16 beschrieben wurde, werden die Objekte innerhalb jedes Rahmens des überwachten Bilds vom DSP 2230 identifiziert. Typischerweise werden schnelle Fouriertransformationsalgorithmen verwendet, um den Umriß jedes Objekts anhand Unterschieden in der Leuchtkraft, im Kontrast oder in der Struktur der Objekte in jeder Bildebene zu bestimmen. Der Umriß der Objekte kann jedoch auch anhand der relativen Position der Pixel bestimmt werden. Insbesondere sind Pixel, die den Umriß eines Objekts definieren, dicht beabstandet, und es ergibt sich ein scharfer Kontrast zwischen diesen Pixeln und benachbarten Pixeln, welche Hintergrundobjekte definieren.
Sobald die Objekte innerhalb jedes Rahmens des Videobilds identifiziert worden sind, kann jeder der ein Objekt darstellenden Pixelblöcke individuell verarbeitet werden. Vorzugsweise werden die jede Bildebene darstellenden Blöcke im Speicher gespeichert, um bei der Erzeugung nachfolgender Rahmen des Anzeigevideobilds verwendet zu werden.
17a zeigt eine Vielzahl von Pixelblöcken 2A – 2D, die eine zweite Bildebene darstellen, und von Pixelblöcken 3A – 3D, die eine dritte Bildebene darstellen. Weil die durch die Pixelblöcke 2A – 2D dargestellten Objekte von dem durch den Pixelblock 1F dargestellten Vordergrundobjekt teilweise verdeckt werden, liefern die Abschnitte (2w – 2z) der Pixelblöcke 2A – 2D keine zusätzlichen Informationen. Diese Abschnitte (2w – 2z) können ausgeschnitten werden, um die Datengehaltsanforderungen des zum Empfangsabschnitt 650 des Videokommunikationssystems 600 übertragenen Signals abzuschwächen.
Dieses Merkmal ist in 17b näher erläutert, wo eine Vielzahl eine dritte Bildebene 3 darstellender Pixelblöcke 3A – 3D durch Vordergrundobjekte, die durch Pixelblöcke 2A – 2D in der zweiten Bildebene 2 dargestellt sind, teilweise verdeckt werden. Daher liefern die Abschnitte (3w – 3z) der Pixelblöcke 3A – 3D keine zusätzlichen Informationen. Diese Abschnitte (3w – 3z) können ausgeschnitten werden, um die Datengehaltsanforderungen des zum Empfangsabschnitt 650 des Videokommunikationssystems 600 übertragenen Signals abzuschwächen.
Wie hier zuvor beschrieben wurde, werden die in der Brennebene aufgezeichneten Pixelinformationen digitalisiert und an die Speichermehrfachanordnung 628 übergeben. Den jeden Pixelblock oder jedes Objekt darstellenden Daten wird eine eindeutige Referenz zugewiesen, welche Informationen über die Position des Pixelblocks in horizontaler und in vertikaler Ebene zusammen mit Informationen hinsichtlich der Tiefenabweichung (d) enthält. Wenngleich die Abbildungseinrichtung eine Folge von Rahmen erfaßt (wie in Verbindung mit den 10 – 16 beschrieben wurde), wobei die Objekte in jeder Bildebene fokussiert oder scharf sind, ist das Videokommunikationssystem gemäß der vorliegenden Erfindung in der Lage, den Betrag der Abweichung entsprechend der Position des Betrachters zu ändern. Folglich weist das von jedem Betrachter betrachtete Anzeigevideobild ein Objekt im Brennpunkt (1F) auf, während Objekte in vorhergehenden und/oder nachfolgenden Bildebenen entsprechend ihrem Abstand bezüglich des Objekts im Brennpunkt (1F) unterdrückt sind.
Das System gemäß der vorliegenden Erfindung ist auch in der Lage, ein anderes Anzeigevideobild für mehrere Betrachter, die jeweils das Anzeigevideobild an einem anderen Ort betrachten, zu liefern, weil der Empfangsabschnitt den Blick der Betrachter verfolgt und die Tiefenabweichung dementsprechend anpaßt. Weil Vordergrundobjekte den Blick der Betrachter auf Hintergrundobjekte behindern, weisen die im Speicher 628 gespeicherten Daten, die sich auf Vordergrundobjekte beziehen, "Löcher" für redundante Informationen auf.
Es wurde herausgefunden, daß dann, wenn der Betrachter ein Objekt im Vordergrund (1F) des Anzeigevideobilds betrachtet, der Rand der Hintergrundobjekte (3A – 3D) hervorgehoben wird, wenn er scharf ist. Es ist daher erforderlich, diese Kanten zu unterdrücken, damit die Wahrnehmung des Anzeigevideobilds durch die Betrachter nicht beeinflußt wird. Wenngleich die Wahrnehmung des Anzeigevideobilds durch die Betrachter nicht beeinträchtigt wird, wenn die redundanten Bereiche (2w – 2z) der zweiten Bildebene wohldefinierte Kanten behalten, haben Kanten der redundanten Bereiche (3w – 3z) der dritten Bildebene und von redundanten Bereichen in jeder folgenden Bildebene eine nachteilige Wirkung.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung können Ähnlichkeiten in der Farbe, in der Leuchtkraft und/oder in der Intensität von Objekten entfernt werden, um Bandbreitenanforderungen des Videokommunikationssystems abzuschwächen. Dies ist möglich, weil der Betrachter Unterschiede in der relativen Leuchtkraft, Intensität und Farbe verwendet, um das Bestimmen der re lativen Positionen von Objekten im Raum zu erleichtern. Schon vorhandene räumliche Ähnlichkeiten (beispielsweise ferne Objekte, Hintergrundszenerie oder der Himmel), zeitliche Ähnlichkeiten (beispielsweise stationäre Objekte) und/oder Ähnlichkeiten in der Farbe, in der Leuchtkraft oder in der Intensität zwischen Objekten in aufeinanderfolgenden Rahmen des Videobilds können unter Verwendung des digitalen Signalprozessors 2230 entfernt werden. Demgemäß kann der Datengehalt des erzeugten und vom Sendeabschnitt 610 übertragenen Signals verringert werden, wenn diese Merkmale angebende Daten entfernt werden. Diese Daten können durch einen weiteren digitalen Signalprozessor (nicht dargestellt) im Empfangsabschnitt 650 künstlich wiedereingeführt werden.
Dies führt zu einer Verringerung der Datenmenge, die zum Erreichen eines qualitativ hochwertigen 3D-artigen Videokonferenzsystems erfaßt, gespeichert und übertragen werden muß.
Die Rahmen des erzeugten Videoanzeigebilds müssen periodisch aufgefrischt werden. Herkömmliche Anzeigesysteme frischen das gesamte Videoanzeigebild in jedem Auffrischungszyklus auf. Wie jedoch hier zuvor erörtert wurde, entsprechen große Bereiche jedes Rahmens des Videoanzeigebilds dem vorhergehenden Rahmen. Es wude auch experimentell herausgefunden, daß Betrachter den größten Informationsgehalt aus dem Gebiet des Videoanzeigebilds erhalten, auf das sie fokussiert sind, und daß der Informationsgehalt anderer Bereiche des Bilds weniger wichtig ist.
Es wurde daher herausgefunden, daß es möglich ist, andere Bereiche des Videobilds weniger häufig aufzufrischen, während ein qualitativ hochwertiges Videoanzeigebild aufrechterhalten wird.
Es ist möglich, die Rahmen des überwachten Videobilds unter Verwendung des hier offenbarten erfindungsgemäßen Verfahrens und insbesondere mit den in Zusammenhang mit den 10 – 16 beschriebenen Kameras 412 in mehrere Blöcke zu unterteilen. Daher werden Pixelblöcke, welche die aktive Einheit 405 im Anzeigebild darstellen, häufiger aufgefrischt als Pixelblöcke, welche bei spielsweise Hintergrundobjekte 410 aufweisen. Dieses Verfahren ermöglicht das Sparen von wertvoller Bandbreite bei Anwendungen, wie beispielsweise dem Videokonferenzsystem aus 5.
Die Videoanzeige 652 kann einen einzigen Projektor aufweisen, der das Videoanzeigebild unter Verwendung von Frontal- oder Rückprojektionstechniken auf eine Wand oder einen Bildschirm projiziert. Es wurde herausgefunden, daß digitale Projektoren, beispielsweise von dem Typ, bei dem die DLP-Technologie von Texas Instruments Limited verwendet wird, für diese Anwendungen besonders geeignet sind.

Claims

Verfahren zum Erzeugen eines Videobilds eines Objekts, aufweisend: Erzeugen von Videodaten (304), die Videorahmen darstellen, um das Videobild des Objekts zu erzeugen, Verarbeiten der Videodaten durch: Unterteilen (306) jedes Videorahmens in mehrere Bereiche, wobei jeder Bereich einen Abschnitt des Objekts darstellt, Auswählen (308) von mindestens einem vorgegebenen der mehreren Bereiche des Videorahmens, Deakzentuieren (310) der restlichen der mehreren Bereiche des Videorahmens und Rekombinieren (312) der Bereiche von jedem der Videorahmen zum Erzeugen eines Anzeigevideobilds, wobei der Rekombinationsschritt das Erzeugen eines Anzeigevideobilds aufweist, in dem der ausgewählte Bereich des Videorahmens scharf oder wohldefiniert ist und die restlichen der mehreren Bereiche des Videorahmens entsprechend dem relativen Abstand zwischen dem jeweiligen Abschnitt des Objekts und einem Referenzpunkt deakzentuiert oder unscharf sind, dadurch gekennzeichnet, daß das Verfahren weiter vor dem Schritt des Rekombinierens der Bereiche von jedem der Videorahmen einen Schritt aufweist, bei dem Videodaten, die den ausgewählten mindestens einen vorgegebenen und den restlichen der mehreren Bereiche der Videorahmen angeben, zu einem Empfänger übertragen werden, der eine Anzeigeeinrichtung zum Anzeigen (314) des Anzeigevideobilds aufweist.
Verfahren nach Anspruch 1, wobei der Schritt des Auswählens des Bereichs das Auswählen eines Bereichs aufweist, der ein Vordergrundobjekt definiert.
Verfahren nach Anspruch 1 oder 2, wobei der Schritt des Auswählens des Bereichs das Auswählen eines Bereichs des Objekts durch einen Betrachter aufweist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der Schritt des Auswählens des Bereichs das Auswählen eines Bereichs des Videorahmens entsprechend der Position des Objekts in bezog auf mindestens ein anderes Objekt aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Auswählens des Bereichs das Auswählen eines Bereichs des Videorahmens aufweist, der eine aktive Einheit definiert.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Unterteilens des Videobilds in mehrere Bereiche das Unterteilen des Videobilds in mehrere Bereiche aufweist, die jeweils eine Brennebene definieren.
Verfahren nach Anspruch 6, wobei der Schritt des Unterteilens des Videobilds in mehrere Bereiche, die jeweils eine Brennebene definieren, das Unterteilen des Videobilds in Bereiche aufweist, wobei jede Brennebene einen anderen Abstand zwischen einem jeweiligen Abschnitt des Objekts und dem Referenzpunkt darstellt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Deakzentuierens der restlichen Abschnitte des Videobilds das Anwenden einer stärkeren Deakzentuierung auf Bereiche des Videobilds, die Abschnitte des Objekts darstellen, welche einen größeren Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem Referenzpunkt aufweisen, als auf Bereiche des Videobilds, die Abschnitte des Objekts darstellen, welche einen kleineren Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem Referenzpunkt aufweisen, beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem weiter jeder restliche Bereich des Videobilds künstlich erzeugt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Erzeugens von Videodaten das Überwachen eines Objekts mit einer Videokamera zum Erzeugen von einem oder mehreren Videorahmen aufweist.
Verfahren nach Anspruch 10, wobei der Schritt des Übertragens von Videodaten das Übertragen der Videodaten zu einem Empfänger aufweist, der eine Anzeigeeinrichtung zum derartigen Anzeigen des Videorahmens aufweist, daß die restlichen Bereiche des Anzeigevideobilds entsprechend dem relativen Abstand zwischen dem jeweiligen Abschnitt des Objekts und der Videokamera weniger scharf sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Erzeugers von Videodaten das Erzeugen einer Folge von Videorahmen aufweist und wobei der Schritt des Übertragens der Videodaten das Übertragen von Videodaten aufweist, die eine Folge von Videorahmen aufweisen.
Vorrichtung zum Erzeugen eines Videobilds eines Objekts, aufweisend eine Schaltungsanordnung zum Erzeugen von Videodaten, die Videorahmen darstellen, um das Videobild des Objekts zu erzeugen, eine Bildverarbeitungs-Schaltungsanordnung, welche aufweist: eine Schaltungsanordnung zum Unterteilen jedes Videorahmens in mehrere Bereiche, so daß jeder Bereich einen Abschnitt des Objekts darstellt, und eine Einrichtung zum Auswählen von mindestens einem vorgegebenen der mehreren Bereiche des Videorahmens, eine Schaltungsanordnung zum Deakzentuieren der restlichen der mehreren Bereiche des Videorahmens und eine Schaltungsanordnung zum Rekombinieren der Bereiche von jedem der Videorahmen zum Erzeugen eines Anzeigevideobilds, wobei die Schaltungsanordnung dafür eingerichtet ist, ein Anzeigevideobild zu erzeugen, in dem der ausgewählte Bereich des Videorahmens scharf oder wohldefiniert ist und die restlichen der mehreren Bereiche des Videorahmens entsprechend dem relativen Abstand zwischen dem jeweiligen Abschnitt des Objekts und einem Referenzpunkt deakzentuiert oder unscharf sind, dadurch gekennzeichnet, daß die Vorrichtung weiter vor der Schaltungsanordnung zum Rekombinieren der Bereiche von jedem der Videorahmen eine Einrichtung zum Übertragen von jeden Bereich des Videorahmens angebenden Videodaten zu einem Empfänger aufweist, der eine Anzeigeeinrichtung zum Anzeigen des Anzeigevideobilds aufweist.
Vorrichtung nach Anspruch 13, wobei die Einrichtung zum Auswählen dafür eingerichtet ist, einen Bereich auszuwählen, der ein Vordergrundobjekt definiert.
Vorrichtung nach Anspruch 13 oder 14, wobei die Einrichtung zum Auswählen so eingerichtet ist, daß ein Betrachter einen Bereich des überwachten Objekts auswählen kann.
Vorrichtung nach einem der Ansprüche 13 bis 15, wobei die Einrichtung zum Auswählen dafür eingerichtet ist, einen Bereich des Videorahmens entsprechend der Position des Objekts in Bezug auf mindestens ein anderes Objekt auszuwählen.
Vorrichtung nach einem der Ansprüche 13 bis 16, wobei die Einrichtung zum Auswählen dafür eingerichtet ist, einen Bereich des Videorahmens auszuwählen, der eine aktive Einheit definiert.
Vorrichtung nach einem der Ansprüche 13 bis 17, wobei die Schaltungsanordnung zum Unterteilen des Videobilds in mehrere Bereiche dafür eingerichtet ist, das Videobild in mehrere Bereiche zu unterteilen, die jeweils eine Brennebene definieren.
Vorrichtung nach Anspruch 18, wobei die Schaltungsanordnung zum Unterteilen des Videobilds in mehrere Bereiche, die jeweils eine Brennebene definieren, dafür eingerichtet ist, das Videobild in Bereiche zu unterteilen, wobei jede Brennebene einen anderen Abstand zwischen einem jeweiligen Abschnitt des Objekts und dem Referenzpunkt darstellt.
Vorrichtung nach einem der Ansprüche 13 bis 19, wobei die Deakzentuierungsschaltungsanordnung dafür eingerichtet ist, eine stärkere Deakzentuierung auf Bereiche des Videobilds anzuwenden, die Abschnitte des Objekts darstellen, welche einen größeren Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem Referenzpunkt aufweisen, als auf Bereiche des Videobilds, die Abschnitte des Objekts darstellen, die einen kleineren Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem Referenzpunkt aufweisen.
Vorrichtung nach einem der Ansprüche 13 bis 20, welche weiter eine Einrichtung zum künstlichen Erzeugen jedes restlichen Bereichs des Videobilds aufweist.
Vorrichtung nach einem der Ansprüche 13 bis 21, wobei die Schaltungsanordnung zum Erzeugen von Videodaten eine Videokamera zum. Überwachen eines Objekts aufweist, die dazu dient, einen oder mehrere Videorahmen zu erzeugen.
Vorrichtung nach Anspruch 22, wobei die Anzeige in der Lage ist, den Videorahmen so anzuzeigen, daß die restlichen Bereiche des Anzeigevideobilds entsprechend dem relativen Abstand zwischen dem jeweiligen Abschnitt des Objekts und der Videokamera weniger scharf sind.
Vorrichtung nach einem der Ansprüche 13 bis 23, wobei die Schaltungsanordnung zum Erzeugen von Videodaten dafür eingerichtet ist, eine Folge von Videorahmen zu erzeugen, und wobei die Übertragungseinrichtung dafür eingerichtet ist, Videodaten zu übertragen, die eine Folge von Videorahmen aufweisen.
Videoanzeigesystem, welches aufweist: eine Vorrichtung nach einem der Ansprüche 13 bis 24 und einen Empfänger mit einer Anzeigeeinrichtung zum Anzeigen des Anzeigevideobilds.