-
GEBIET DER ERFINDUNG
-
Die vorliegende Erfindung betrifft
allgemein das Gebiet der Videobilder und insbesondere ein Verfahren
und eine Vorrichtung zum Erzeugen von Videobildern, die vom Betrachter
als dreidimensional wahrgenommen werden.
-
HINTERGRUND
DER ERFINDUNG
-
Viele Systeme zum Erzeugen pseudo-dreidimensionaler
Bilder (Pseudo-3D-Bilder)
wurden im Laufe der letzten Jahre entwickelt. Im allgemeinen können diese
Systeme durch die Verfahren charakterisiert werden, durch die der
Betrachter so getäuscht wird,
daß er
das Bild als dreidimensional (also als eine Tiefe aufweisend) wahrnimmt.
-
In der wirklichen Welt nimmt das
menschliche Auge Tiefe in einem Bild durch die Kombination einer
Anzahl von Sichthinweisen wahr.
-
Mit dem ersten Sichthinweis werden
fernere Objekte vom Betrachter im Gesichtsfeld als kleiner und höher wahrgenommen
als Objekte, die näher beim
Betrachter liegen. Typischerweise werden ferne Objekte auch durch
nähere
Objekte im Gesichtsfeld des Betrachters blockiert, und der Betrachter
nimmt die Auflösung,
den Kontrast und die Helligkeit als weniger ausgeprägt wahr.
-
Mit dem zweiten Sichthinweis nimmt
der Betrachter eine scheinbare Änderung
der Position des Objekts in bezug auf das fernere Hintergrundbild wahr,
wenn sich seine eigene Position ändert.
Diese Wirkung ist als Parallaxe bekannt und kann das vom Betrachter
wahrgenommene Bild sowohl in der horizontalen als auch in der vertikalen
Ebene beeinflussen.
-
Beim dritten Sichthinweis bedeutet
die seitliche Trennung der Augen des Betrachters, daß der Abstand
zwischen einem Punkt auf einem Objekt und jedem Auge verschieden
sein kann. Diese Wirkung ist auf dem Fachgebiet als binokulare Abweichung bekannt
und führt
dazu, daß jedes
Auge eine etwas andere Perspektive sieht. In der Wirklichkeit wird
diese Wirkung jedoch vom menschlichen Gehirn aufgelöst, um das
vom Betrachter wahrgenommene einzige klare Bild zu erzeugen.
-
Der vierte Sichthinweis auf die dreidimensionale
Wahrnehmung von Videobildern ist die Tiefenabweichung. Weil das
menschliche Auge sowohl in der horizontalen als auch in der vertikalen
Ebene ein begrenztes Gesichtsfeld hat, neigt das Auge dazu, ein
Objekt oder einen Bereich eines Objekts zu fokussieren, das oder
der von unmittelbarem Interesse ist. Folglich liegen umgebende Objekte
oder Bereiche des Objekts, welche das Hintergrundbild bilden, außerhalb
des Brennpunkts und sind unscharf. Das menschliche Gehirn nimmt
diese umgebenden Objekte oder Bereiche als in einem anderen Abstand
liegend wahr, um einen Tiefenhinweis bereitzustellen.
-
Bekannte stereoskopische und autostereoskopische
Systeme zum Erzeugen pseudo-dreidimensionaler Bilder erzeugen alternierende
und leicht verschiedene Rahmen des Videobilds für jedes Auge. Die verschiedenen
Rahmen sollen den verschiedenen Ansichten entsprechen, welche infolge
der Trennung zwischen den Augen vom menschlichen Gehirn wahrgenommen
werden, und eine binokulare Abweichung erzeugen.
-
Dem Betrachter eines unter Verwendung
eines stereoskopischen Systems erzeugten Videobilds muß eine optische
Vorrichtung in der Art eines Paars von Sichtgläsern mit einer roten Linse
und einer grünen
Linse gegeben werden. Ein getrennter Rahmen des Videobilds wird
jedem Auge alternierend und bei einer Frequenz, die ausreicht, damit
der Betrachter ein Einzelbild auflösen kann, gezeigt.
-
Es wurden autostereoskopische Systeme entwickelt,
um Videobilder mit mehreren Bildebenen zu erzeugen (so daß der Betrachter
um Vordergrundobjekte herum sehen kann). Diese autostereoskopischen
Systeme sind so ausgelegt, daß ge trennte Rahmen
des Bilds unter Verwendung einer Anordnung optischer Elemente in
jedes Auge fokussiert werden. Typischerweise weisen diese Elemente
vertikal ausgerichtete lentikuläre
Linsen auf. Diese Systeme haben Anwendungen in solchen Gegenständen, wie
Postkarten, gefunden, ihre weitere Anwendung ist jedoch durch das
schmale Gesichtsfeld begrenzt.
-
Wenn der Betrachter eines stereoskopischen
oder autostereoskopischen Bilds seinen Fokussierungspunkt ändert, entweder
indem er von einem Objekt zu einem anderen sieht oder indem er auf
einen anderen Bereich des Objekts sieht, müssen sich die Augen wieder
anpassen. Jedes Auge benötigt
einen begrenzten Zeitraum zum Anpassen an die Brennebene, die dem
vom Betrachter wahrgenommenen Objekt zugeordnet ist. Daher kann
die Brennebene des von jedem Auge wahrgenommenen Bilds abweichen,
und das menschliche Gehirn muß die
Bilder zu einem einzigen fokussierten Bild des Objekts konvergieren
(auf dem Fachgebiet als Konvergenz bekannt).
-
In ähnlicher Weise hat das menschliche Auge
eine begrenzte Schärfentiefe
oder einen Bereich im Raum, in dem der Brennpunkt eines Objekts aufgelöst werden
kann. Dies liegt an der physikalischen Anforderung der Augenhornhaut,
ihre Form zu ändern,
um ein scharfes Bild des Objekts auf der Oberfläche der Netzhaut zu erzeugen.
Wenn der Betrachter daher seine Aufmerksamkeit von einem fernen
Objekt auf ein nahes Objekt richtet oder umgekehrt, werden Objekte
außerhalb
des Gesichtsfelds weniger wohldefiniert und verschwommen (auf dem Fachgebiet
als Akkomodation bezeichnet).
-
Jüngere
Forschungsarbeiten haben gezeigt, daß Benutzer stereoskopischer
und autostereoskopischer Systeme zu Ermüdung, Augenspannungen und Kopfschmerzen
neigen. Es wird angenommen, daß dies
darauf zurückzuführen ist,
daß die
Konvergenz und die Akkomodation von Bildern in der Wirklichkeit
zusammenfallen und daß das
menschliche Gehirn daher Muskeltätigkeiten,
die mit der Steuerung der Augenhornhaut verbunden sind, interpretiert,
um vorauszusagen, daß sich
die Objekte in verschiedenen Abständen befinden.
-
Umgekehrt treten bei stereoskopischen
und autostereoskopischen Systemen die Konvergenz und die Akkomodation
an verschiedenen Punkten im Raum auf. 1 zeigt
ein stereoskopisches System zum Erzeugen dreidimensionaler Videobilder,
worin ein Anzeigeschirm 10 in der Art einer LCD- oder CRT-Anzeige
ein Bild 12 eines Objekts zeigt. Die Augen des Betrachters 16 fokussieren
die Anzeige 10, wodurch ein Akkomodationsabstand Da erzeugt wird. Das Objekt 12 wird
jedoch als vor der Anzeige 10 liegend wahrgenommen, und
der Konvergenzabstand Dc, bei dem das Bild 14 des
Objekts 12 wahrgenommen wird, liegt daher zwischen der
Anzeige 10 (wo das Objekt fokussiert ist) und dem Betrachter 16.
-
Weil das Objekt 12 vom Betrachter 16 nicht als
an der Anzeigefläche 10 liegend
wahrgenommen wird, richtet das menschliche Gehirn die Augen auf den
Punkt im Raum, an dem es das Vorhandensein des Bilds 14 voraussagt.
Dies führt
dazu, daß dem menschlichen
Gehirn widersprechende Signale geliefert werden, welche die Akkomodation
und die Konvergenz angeben, was zu Ermüdung, Augenspannungen und Kopfschmerzen
führen
kann.
-
Aus K. OMURA U. A., "39.2: 3-D Display
with accomodative compensation (3DDAC) employing real-time gaze
detection", SID
INTERNATIONAL SYMPOSIUM DIGEST OF TECHNICAL PAPERS, SAN DIEGO, 12.
- 17. Mai 1996, Band 27, 12. Mai 1996, S. 889 - 892, XP0006210075
SOCIETY FOR INFORMATION DISPLAY, ist ein binokulares stereoskopisches
Anzeigesystem bekannt, bei dem konsistente Akkomodationshinweise
entsprechend der Tiefe betrachteter Objekte in Computer-erzeugten
CG-Bildern konstant bereitgestellt werden, wobei die Bilder durch
ein Echtzeit-Betrachtungserfassungssystem erhalten werden.
-
Dieses System umfaßt auch
eine CG-Technik, die quasioptisch Objekte unscharf macht, welche in
Tiefen auftreten, die von derjenigen des betrachteten Objekts verschieden
sind. Es wurde herausgefunden, daß diese CG-Technik die binokulare
Diplopie von Objekten, welche in Tiefen auftreten, die von derjenigen
des betrachteten Objekts verschieden sind, unterdrückt.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Es ist daher ein Bedarf an einem
Verfahren und einer Vorrichtung zum Erzeugen eines Bilds, das vom
Betrachter als dreidimensional wahrgenommen wird, aufgetreten, wobei
die Akkomodation und die Konvergenz des Bilds im wesentlichen zusammenfallen,
wodurch Augenspannungen und Ermüdungserscheinungen
abgeschwächt
werden.
-
Ein erfindungsgemäßes Verfahren ist in Anspruch
1 dargelegt, und eine entsprechende Vorrichtung ist in Anspruch
13 dargelegt.
-
Dementsprechend sieht die vorliegende
Erfindung ein Verfahren und ein System zum Erzeugen eines Videobilds
vor. Ein Objekt wird mit einer Videokamera überwacht, um eine Folge von
Videorahmen zu erzeugen. Jeder der Videorahmen wird in mehrere Bereiche
unterteilt, wobei jeder Bereich einen Abschnitt des Objekts darstellt.
Beispielsweise kann der Rahmen des Videobilds den Kopf- und Schulterbereich
eines Benutzers aufweisen. Es können
Bereiche ausgewählt
werden, welche vorgegebenen Gesichtsmerkmalen entsprechen, wie das
Kinn, entgegengesetzte Ränder
des Munds, die Nase und der Außenrand
jedes Auges. Vorzugsweise wird der Rahmen des Videobilds in im wesentlichen
dreieckige Bereiche oder Pixelblöcke
unterteilt. Die Auswahl der Rahmenbereiche eines überwachten
Videobilds ist in der am 23. Juli 1997 eingereichten anhängigen europäischen Patentanmeldung
97 401 772.5 erörtert.
-
Es wird mindestens einer der mehreren
Bereiche ausgewählt.
In dem dargestellten Beispiel kann der ausgewählte Bereich den Mund des überwachten
Benutzers enthalten. Der ausgewählte
Bereich wird dann mit jedem der restlichen Bereiche des Videorahmens
rekombiniert, um ein Anzeigevideobild zu erzeugen.
-
Die Folge von Videorahmen wird dann
so angezeigt, daß der
ausgewählte
Bereich von einem Betrachter als ein scharfes Bild erzeugend wahrgenommen
wird und die restlichen Bereiche des Anzeigevideobilds entsprechend
dem Abstand zwischen dem jeweiligen Abschnitt des Objekts und dem
ausgewählten
Bereich weniger scharf sind.
-
Weiterhin werden gemäß der Erfindung
Videodaten, die jeden Bereich der Videorahmen angeben, zu einem
Empfänger übertragen.
-
Typischerweise ist der ausgewählte Bereich ein
Bereich des Rahmens des Videobilds, der ein Vordergrundobjekt definiert.
Es können
von einem Betrachter jedoch auch Bereiche des Rahmens ausgewählt werden.
-
Gemäß einer weiteren bevorzugten
Ausführungsform
der Erfindung wird der Bereich des Videorahmens entsprechend der
Position eines Objekts in bezug auf mindestens ein anderes von der
Videokamera überwachtes
Objekt ausgewählt.
Typischerweise umfaßt
dies das Auswählen
eines Bereichs des Rahmens, der eine aktive Einheit bei einem überwachten
Ereignis definiert, beispielsweise des Munds oder der Augen eines überwachten
Benutzers.
-
Das Videobild wird in mehrere Bereiche
unterteilt, die jeweils eine Brennebene definieren, so daß jede Brennebene
einen anderen Abstand zwischen einem jeweiligen Abschnitt des Objekts
und der Videokamera darstellt.
-
Vorzugsweise werden die restlichen
Bereiche des Rahmens entsprechend dem Abstand zwischen einem jeweiligen
Abschnitt des Objekts und dem ausgewählten Bereich unterdrückt. Eine
größere Unterdrückung wird
auf Bereiche des Videobilds angewendet, die Abschnitte des Objekts
darstellen, in denen ein größerer Abstand
zwischen dem jeweiligen Abschnitt des Objekts und dem ausgewählten Bereich
auftritt, als auf Bereiche des Videobilds, die Abschnitte des Objekts
darstellen, in denen ein kleinerer Abstand zwischen dem jeweiligen
Abschnitt des Objekts und der Videokamera auftritt. Daher sind weiter
entfernte Abschnitte des Objekts im sich ergebenden Videobild weniger
gut definiert.
-
Gemäß einer weiteren bevorzugten
Ausführungsform
der vorliegenden Erfindung wird der ausgewählte Bereich des Rahmens des
Videobilds mit künstlich
erzeugten Simulationen der restlichen Bereiche des Videobilds rekombiniert.
-
KURZBESCHREIBUNG DER ZEICHNUNG
-
Die vorliegende Erfindung wird nun
beispielhaft mit Bezug auf die anliegende Zeichnung beschrieben,
wobei:
-
- – 1 eine schematische Ansicht
eines stereoskopischen Systems zum Erzeugen pseudo-dreidimensionaler
Videobilder gemäß dem Stand
der Technik zeigt,
- – die 2a – 2c eine
Mehrfachanordnung beabstandeter photographischer Folien zum Erläutern der Grundgedanken
des erfindungsgemäßen Verfahrens zeigen,
- – 3 ein Blockdiagramm ist,
in dem das erfindungsgemäße Verfahren
dargestellt ist,
- – die 4a – 4c eine
Ansicht des in einem Videokonferenzsystem verwendeten Verfahrens
aus 3 zeigen,
- – 5 die Unterteilung des Kopf-
und Schulterabschnitts einer aktiven Einheit in Pixelblöcke zur
Verwendung beim Verfahren aus 3 zeigt,
- – die 6a – 6b den
Sendeabschnitt bzw. den Empfangsabschnitt des Videokonferenzsystems
aus den 4a – 4c zeigen,
- – 7 ein Verfahren zum Bestimmen
der das Videoanzeigebild ausmachenden relativen Bildebenen zeigt,
- – die 8a – 8b Blockdiagramme
sind, in denen die Arbeitsweise des Sendeabschnitts und des Empfangsabschnitts
des Videokonferenzsystems aus den 4a – 4c dargestellt ist,
- – 9 ein Blockdiagramm ist, in dem ein Verfahren zum
Auffrischen des Videoanzeigebilds dargestellt ist,
- – 10 eine schematische Ansicht
einer Kamera ist, die auf ein Objekt in einer Brennebene fokussiert ist,
- – 11 eine schematische Ansicht
ist, welche zeigt, wie Objekte jenseits der Brennebene der Kamera
in 10 gemäß einem
Aspekt der vorliegenden Erfindung um einen Betrag defokussiert erscheinen,
der der Tiefenabweichung entspricht,
- – 12 eine schematische Ansicht
ist, welche zeigt, wie eine andere Tiefenabweichung gemäß einem
Aspekt der vorliegenden Erfindung zu einem anderen Defokussierungsbetrag
führt,
- – 13 ein Blockdiagramm einer
Kamera ist, die einen digitalen Signalprozessor zum Verarbeiten
von Bildern gemäß Aspekten
der vorliegenden Erfindung enthält,
- – 14 eine schematische Ansicht
ist, in der zwei getrennte Kameras dargestellt sind, die auf ein
Objekt in einer Brennebene fokussiert sind,
- – 15 eine schematische Ansicht
ist, welche zeigt, wie ein Ausrichtungsfehler gemäß einem
Aspekt der vorliegenden Erfindung korrigiert werden kann, wenn die
mechanische Brennebene der zwei Kamerass aus 14 gegenüber der optischen Brennebene versetzt
ist,
- – 16 eine schematische Ansicht
ist, welche zeigt, wie Objekte jenseits der Brennebene der Kameras
in 14 gemäß einem
Aspekt der vorliegenden Erfindung als um einen der Tiefenabweichung
entsprechenden Betrag defokussiert erscheinen, und
- – die 17a – 17b die
Erzeugung von Bildebenen aus Pixelblöcken zeigt.
-
DETAILLIERTE
BESCHREIBUNG DER ZEICHNUNG
-
Das Verfahren gemäß der vorliegenden Erfindung
kann als dem Betrachten einer Mehrfachanordnung beabstandeter photographischer
Folien analog angesehen werden, wie in den 2a – 2c dargestellt ist. Die Folien
(20, 22, 24) sind so angeordnet, daß jede Folie
(20, 22, 24) von benachbarten Folien
(20, 22, 24) um einen Abstand dX getrennt ist. Zu Erläuterungszwecken weist jede
Folie (20, 22, 24) ein Bild eines anderen
Objekts (26, 28, 30) auf und definiert
eine Bildebene.
-
Es sei bemerkt, daß, wenngleich
die vorliegende Erfindung in Bezug auf eine Mehrfachanordnung von
Folien (20, 22, 24) beschrieben wird,
von denen jede ein anderes Objekt darstellt, die offenbarten Grundgedanken
gleichennaßen
auf eine Mehrfachanordnung anwendbar sind, bei der jede Folie (20, 22, 24)
einen anderen Bereich eines einzigen Objekts in einem vorgegebenen
Abstand vom Betrachter darstellt.
-
Die erste Folie 20 zeigt
ein Bild eines Objekts 26 (d. h. von Blumen), die zweite
Folie 22 zeigt ein Bild eines Objekts 28 (d. h.
eines Elefanten), und die dritte Folie 24 zeigt ein Bild
eines Objekts 30 (d. h. eines Gebäudes). Die erste, zweite und
dritte Folie (20, 22, 24) sind vom Betrachter 16 durch
Abstände
d1, d2 bzw. d3 getrennt.
-
Mit Bezug auf 2a sei bemerkt, daß der Akkomodationsabstand
und der Konvergenzabstand mit dem Abstand d1 äquivalent
sind, wenn der Betrachter 16 auf das Objekt 26 fokussiert
ist, das in der ersten Folie 20 enthalten ist. Weil die
Augen des Betrachters 16 auf das in der ersten Folie 20 enthaltene Objekt 26 fokussiert
sind, werden die in der zweiten und dritten Folie (22, 24)
enthaltenen Objekte (28, 30) infolge der Tiefenabweichung
vom Betrachter 16 als unscharf wahrgenommen.
-
Wenn der Betrachter 16 seine
Aufmerksamkeit von dem in der ersten Folie 20 enthaltenen
Objekt 26 abwendet, beispielsweise durch Fokussieren auf
das in der zweiten Folie 22 enthaltene Objekt 28 (2b), fokussieren die Augen
das Objekt 28 nicht sofort. Die Augen fokussieren das Objekt 28 vielmehr nach
Abschluß eines
begrenzten Akklimatisationszeitraums, und der Akkomodations- und
der Konvergenzabstand sind dann dem Abstand d2 gleichwertig.
-
Wenn die Augen des Betrachters 16 das
in der zweiten Folie 22 enthaltene Objekt 28 fokussieren,
werden die in der ersten und der dritten Folie (20, 24)
enthal tenen Objekte (26, 30) infolge der Tiefenabweichung
vom Betrachter 16 als unscharf wahrgenommen. Weil das in
der ersten Folie 20 enthaltene Objekt 26 jedoch
vor den in der zweiten und dritten Folie (22, 24)
enthaltenen Objekten (28, 30) liegt, kann das
fokussierte Bild des Objekts 28 durch das Objekt 26 der
ersten Folie 20 teilweise verdeckt werden. Wenn der Betrachter 16 seine
Position in Bezug auf das in der ersten Folie 20 enthaltene
Objekt 26 ändert,
kann ein größerer oder
ein kleinerer Teil des in der zweiten Folie 22 enthaltenen
Objekts 28 in das Gesichtsfeld des Betrachters gelangen.
In ähnlicher Weise
kann ein größerer oder
ein kleinerer Teil des in der dritten Folie 24 enthaltenen
Objekts 30 in das Gesichtsfeld des Betrachters gelangen,
wenn der Betrachter 16 seine Position bzw. seine Orientierung
bezüglich
des in der ersten Folie 20 enthaltenen Objekts 26 ändert.
-
Wenn der Betrachter 16 seine
Aufmerksamkeit auf das in der dritten Folie 24 enthaltene
Objekt 30 richtet, wie in 2c dargestellt
ist, fokussieren die Augen das Objekt 30 nach einem begrenzten
Akklimatisationszeitraum. Folglich sind der Akkomodationsabstand
und der Konvergenzabstand dem Abstand d3 gleichwertig.
Die Augen des Betrachters 16 fokussieren dann das in der
dritten Folie 24 enthaltene Objekt 30, wobei die
in der ersten und der zweiten Folie (20, 22) enthaltenen
Objekte (26, 28) vom Betrachter 16 infolge
der Tiefenabweichung als unscharf wahrgenommen werden, wobei das
Objekt 26 in der ersten Folie 20 weniger definiert
ist als das Objekt 28 in der zweiten Folie 22.
-
Weil die in der ersten und der zweiten
Folie (20, 22) enthaltenen Objekte (26, 28)
vor dem Objekt 30 liegen, kann es von den in der ersten
und der zweiten Folie (20, 22) enthaltenen Objekten
(26, 28) teilweise verdeckt werden. Wenn der Betrachter 16 seine
Position bzw. seine Orientierung bezüglich der in der ersten oder
der zweiten Folie (20, 22) enthaltenen Objekte
(26, 28) ändert,
kann ein größerer oder ein
kleinerer Teil des in der dritten Folie 26 enthaltenen
Objekts 30 in das Gesichtsfeld des Betrachters gelangen.
-
Das System erzeugt im wesentlichen
mehrere virtuelle Bildebenen, so daß das sich im Brennpunkt befindende
Bild im freien Raum betrachtet werden kann.
-
3 zeigt
in Form eines schematischen Blockdiagramms das erfindungsgemäße Verfahren. Zuerst
wird ein Ereignis oder eine Szene unter Verwendung einer Videokamera überwacht
(Block 302). Die Videokamera erzeugt Videodaten, die eine
Folge von Videorahmen enthalten, wobei jeder Videorahmen das überwachte
Ereignis zu einem Zeitpunkt angibt (Block 304). Der Videorahmen
wird dann in eine Anzahl von Bereichen oder Pixelblöcken unterteilt (Block 306).
-
Im allgemeinen wird der Videorahmen
in eine vorgegebene Anzahl von Bereichen unterteilt. Wo bestimmte
Abschnitte des Videorahmens Objekte oder Informationen enthalten,
die eine größere Schärfe erfordern,
kann die Anzahl der Pixel in jedem Bereich oder Block oder die Anzahl
der Bereiche oder Blöcke
erhöht
werden. Wo der Videorahmen alternativ Objekte oder Informationen
enthält,
die eine geringere Schärfe
erfordern, können
Unterbereiche oder Unterblöcke
bereitgestellt werden, die Gruppen von beispielsweise vier Pixeln
darstellen. Diese Unterbereiche oder Unterblöcke ermöglichen das Abschwächen der
Datenübertragungs-
oder Datenspeicheranforderungen.
-
Typischerweise werden die Bereiche
oder Blöcke
und die Unterbereiche oder Unterblöcke von einem Prozessor gewählt. Digitale
Prozessoren (DSP) in der Art jener, die von Texas Instruments Incorporated
aus Dallas, Texas, hergestellt werden, sind für diese Anwendungen besonders
geeignet. Der Betrieb des Prozessors kann jedoch vom Benutzer überschrieben
werden, wenn besonders wichtige Objekte, beispielsweise eine in
einer Präsentation verwendete
weiße
Tafel, verwendet werden. Daher kann der Videorahmen in mehrere Bereiche
unterschiedlicher Größe unterteilt
werden, wobei eine größere Anzahl
der Bereiche Bereichen des Videorahmens zugewiesen werden, die Objekte
oder Informationen enthalten, welche eine größere Schärfe erfordern.
-
Es wurde herausgefunden, daß in einer
Videokonferenzurngebung Betrachter der erzeugten Anzeigevideobilder
Tondaten (Sprache) besser verstehen können, wenn die Gesichtsbewegungen
anderer Benutzer ausgeprägt
sind. Es ist daher wünschenswert,
die Auflösung
des Anzeigevideobilds in Bereichen, die die Gesichtsmerkmale des
Benutzers enthalten, aufrechtzuerhalten und sogar zu erhöhen.
-
Weil ein großer Teil der Gesichtsbewegung, die
während
eines Gesprächs
auftritt, erzeugt wird, um gesprochene Informationen hervorzubringen,
gibt es zu jedem Zeitpunkt eine natürliche Korrelation zwischen
der erzeugten Sprache und den Gesichtsmerkmalen des Benutzers. Demgemäß erfordern
die Bereiche des Videorahmens, die Gesichtsmerkmale des Benutzers
enthalten, wie der Mund, die Augen, das Kinn usw., eine größere Schärfe.
-
Ein oder mehrere Bereiche des Videorahmens
werden entsprechend einem Bezugspunkt auf dem Videorahmen entweder
vom Benutzer oder von einem Prozessor ausgewählt (Block 308). Die
ausgewählten
Bereiche werden im allgemeinen in einem Speicher gespeichert, und
die restlichen Bereiche des Videorahmens werden unterdrückt (Block 310), so
daß diese
Bereiche im sich ergebenden Anzeigevideobild unscharf oder als außerhalb
des Brennpunkts liegend erscheinen. Diese restlichen Bereiche können durch
das Anzeigeempfangsgerät
künstlich simuliert
werden, um die Datenübertragungsanforderungen
des Systems abzuschwächen.
-
Alternativ können Schlüsselzahlen der restlichen Bereiche
des Videorahmens vom Benutzer oder einem Prozessor bestimmt werden
und zum Erzeugen einer Simulation der restlichen Bereiche des Videorahmens
verwendet werden.
-
Die unterdrückten oder simulierten restlichen Bereiche
werden dann mit dem ausgewählten
Bereich (den ausgewählten
Bereichen) des Videorahmens rekombiniert, um jeden Rahmen des Anzeigevideobilds
zu erzeugen (Block 312). Jeder Rahmen des Anzeigevideobilds
wird dann der Reihe nach dem Betrachter gezeigt (Block 314).
-
Aus Gründen der Zweckmäßigkeit
wird die vorliegende Erfindung nun detailliert mit Bezug auf ein
Videokommunikationssystem und insbesondere eine Videokonferenzvorrichtung
beschrieben. Der Fachmann wird jedoch verstehen, daß die Grundgedanken,
Vorrichtungen und Merkmale der Erfindung auch auf verschiedene andere
Gebiete angewendet werden können,
in denen pseudodreidimensionale Bilder erforderlich sind.
-
Die 4a – c zeigen ein typisches Videokonferenzszenario,
in dem Teilnehmer 410 an einem ersten Ort (allgemein mit 400 bezeichnet)
in Ton-Nideokommunikation
mit den Teilnehmern 410' an
einem zweiten Ort (allgemein mit 400' bezeichnet) stehen.
-
Mit Bezug auf den in den 4a und 4b dargestellten ersten Ort 400 sei
bemerkt, daß eine
Videokamera 412 verwendet wird, um den ersten Ort während der
Videokonferenz zu überwachen. 4b zeigt drei alternative
Orte für
die einzige Videokamera 412. Der Fachmann wird verstehen,
daß das
System jeden beliebigen Ort für
die Videokamera 412 oder eine Kombination von mehr als
einem dieser und anderer Orte für
die Videokamera 412 verwenden kann. Insbesondere wird die
Videokamera 412 zum Überwachen
der aktiven Einheit 405 oder des momentan aktiven Teilnehmers
(also der entsprechenden oder eine Präsentation gebenden Person) an
dem ersten Ort verwendet und auf die aktive Einheit 405 gerichtet
und fokussiert. Infolge des großen Gesichtsfelds
und der Schärfentiefe
der Kamera 412 werden von dieser jedoch im allgemeinen
auch andere Teilnehmer 410 und Umgebungs- und Hintergrundmerkmale
am ersten Ort eingefangen, während sie
die aktive Einheit 405 überwacht.
-
Mit Bezug auf den in 4c dargestellten zweiten Ort 400' sei bemerkt,
daß die
Teilnehmer 410' am
zweiten Ort auf einem Bildschirm 415 ein Anzeigevideobild
betrachten, das von der Szene erzeugt wird, die von der Kamera 412 eingefangen
wurde. Insbesondere betrachten die Teilnehmer ein Anzeigevideobild
der aktiven Einheit 405 und anderer Objekte innerhalb des
Gesichtsfelds der Kamera 412.
-
Es wurde herausgefunden, daß Teilnehmer 410' wesentliche
Informationen aus den Gesichtsbereichen ableiten, wenn das Anzeigevideobild
ein Bild der aktiven Einheit 405 aufweist. Tatsächlich wurde herausgefunden,
daß Teilnehmer 410' besser in der Lage
sind, die Tonkomponente (also die Sprache) zu verstehen, wenn Bereiche,
insbesondere um den Mund und die Augen, einer aktiven Einheit 405 wohldefiniert
sind und die Auflösung
des Anzeigevideobilds in diesen Bereichen gut ist. Insbesondere
ist bekannt, daß Teilnehmer 410' besser in der
Lage sind, die Sprache der aktiven Einheit 405 zu bestimmen, wenn
die momentane Form des Munds bestimmt werden kann.
-
In der anhängigen europäischen Patentanmeldung
97 401 772.5, die am 23. Juli 1997 eingereicht und auf Texas Instruments,
Frankreich, übertragen
wurde, ist ein Videokommunikationssystem beschrieben, bei dem dieses
Konzept verwendet wird, indem die Daten, die den Gesichtsbereichen der
aktiven Einheit 405 zugeordnet sind, im Anzeigevideobild
häufiger
aktualisiert werden als umgebende Bereiche.
-
5 zeigt
den Kopf- und den Schulterbereich einer aktiven Einheit 405,
die von der Videokamera 412 überwacht wird, wie in den Lehren
der anhängigen
europäischen
Patentanmeldung 97 401 772.5 beschrieben ist.
-
Vorzugsweise wählt ein Prozessor ganze Zahlen,
die vorgegebenen Gesichtsmerkmalen entsprechen. Beispielsweise können die
gewählten
Untereinheiten in 5 das
Kinn 512, entgegengesetzte Ränder des Munds 514' bzw. 514'', die Nase 516 und der
Außenrand
jedes Auges 518 bzw. 520 sein.
-
Das Videobild kann in im wesentlichen
dreieckige Bereiche oder Blöcke
von Pixeln unterteilt werden. Jeder dieser Bereiche ist durch eine
Eigenphase dargestellt. Bereiche, in denen eine häufige Bewegung
auftritt (also der Hintergrund), die den Teilnehmern 410' beim Verstehen
der Tondaten (Sprache) jedoch wenig nützen, weisen eine größere Pixelfläche als
andere Bereiche auf. Umgekehrt weisen Bereiche, anhand derer Teilnehmer 410' viel Hilfe
beim Verstehen der Tondaten erhalten (beispielsweise der Mund, das
Kinn, die Augen, die Nase) eine kleinere Pixelfläche auf. Daher stellen die
Eigenphasen für
Videodaten, die Bereichen entsprechen, welche von den ganzen Zahlen 512, 514, 516, 518, 520 eingeschlossen
sind, eine kleinere Pixelfläche
dar als die Eigenphasen, die einer Fläche anderer Bereiche entsprechen.
-
Weil sich Betrachter gewöhnlich auf
die Informationen tragenden Gesichtsbereiche 512, 514, 516, 518, 520, 521 der
aktiven Einheit 405 konzentrieren, müssen andere benachbarte Gesichtsmerkmale,
wie beispielsweise die Ohren, nicht so häufig aufgefrischt werden. Weil
sich die Betrachter des Anzeigebilds weiterhin gewöhnlich auf
den Informationen tragenden Abschnitt der Gesichtsbereiche der aktiven
Einheit 405 konzentrieren, können andere Bereiche des Anzeigebilds
weniger scharf sein, ohne daß dem
Betrachter ein Nachteil entsteht.
-
Weiterhin wurde entdeckt, daß diese
Bereiche unterdrückt
werden können,
um ein Anzeigebild zu erzeugen, das, wenn es von den Teilnehmern 410' betrachtet
wird, jemandem analog ist, der ein Bild von sich selbst in einem
Spiegel betrachtet. Es wurde weiterhin herausgefunden, daß bei einem
Bild, bei dem die Informationen tragenden Gesichtsbereiche scharf
im Fokus liegen und andere Bereiche unterdrückt sind, ein sogenannter "Mona-Lisa-Effekt" erzeugt wird, bei
dem es jedem Teilnehmer 410' so scheint,
als ob die aktive Einheit diesen Teilnehmer 410' direkt betrachtet.
-
Die Arbeitsweise eines Videokommunikationssystems 600 gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung wird nun mit Bezug auf die 6 – 16 beschrieben. Aus Gründen der
Zweckmäßigkeit
wird die schematische Darstellung des Videokommunikationssystems 600 in
Bezug auf einen Sendeabschnitt 610 und einen Empfangsabschnitt 650 beschrieben.
Fachleute werden jedoch verstehen, daß es im allgemeinen für den Betrieb
des Videokommunikationssystems 600 erforderlich ist, daß sowohl
der Sendeabschnitt 610 als auch der Empfangsabschnitt 650 dazu
in der Lage sind, Videodaten sowohl zu erzeugen als auch zu übertragen und
die Videodaten zu empfangen und umzuwandeln, um ein Anzeigevideobild
zu erzeugen.
-
Der Sendeabschnitt 610 weist
eine Videokamera 412, eine Kamerabetätigungsvorrichtung 614, ein
Bildebenenmodul 616, ein Videoquantisierungsmodul 618,
ein Codiermodul 620, ein Vorverarbeitungsmodul 622,
eine Schleifenfilterschaltung 624, ein Bewegungsschätzmodul 626,
einen Speicher 628, ein Kompressionsmodul 630 und
ein Audioquantisierungsmodul 632 auf.
-
Der Empfangsabschnitt 650 umfaßt eine
Videoanzeige 652, ein Dequantisierungsmodul 654, ein
Decodiermodul 656, ein Nachverarbeitungsmodul 658,
ein Schleifenfiltermodul 660, ein Bewegungsschätzmodul 662,
einen Speicher 664 und ein Dekompressionsmodul 666.
Es sei bemerkt, daß verschiedene
Komponenten in der Lage sein können, duale
Funktionen auszuführen.
Insbesondere liegen der Sendeabschnitt 610 und/oder der
Empfangsabschnitt 650 vorzugsweise in Form eines Transceivers vor,
der in der Lage ist, in einem Sende- oder einem Empfangsmodus zu
arbeiten. Es sei weiterhin bemerkt, daß der Sendeabschnitt 610 und
der Empfangsabschnitt 650 in der Lage sind, eine Datenkommunikation über ein Übertragungsmedium 699 auszuführen, das
eine "festverdrahtete" elektrische Verbindung,
eine faseroptische Verbindung oder eine drahtlose Verbindung aufweisen
kann.
-
Mit Bezug auf 8a sei bemerkt, daß die Videokamera 412 die
Umgebung überwacht,
in der sich das Videokommunikationssystem 600 befindet (Block 805)
und ein Signal (Block 806) erzeugt, das den Ton- und Videodatengehalt
der überwachten Umgebung
darstellt. Als nächstes
bestimmt die Kamerabetätigungsvorrichtung 614 den
Ort einer momentan aktiven Einheit 405 innerhalb der Umgebung (Block 807).
-
Diese Kommunikationssysteme verwenden im
allgemeinen eine Anzahl strategisch angeordneter Mikrophone, welche
von der Kamerabetätigungsvorrichtung 614 verwendet
werden können,
um die Position der aktiven Einheit 405 in der Umgebung
durch eine Triangulationstechnik zu bestimmen. Alternativ kann die
Kamerabetätigungsvorrichtung 614 durch Bewegung
ausgelöst
werden, weil die aktive Einheit 405 (beispielsweise eine
Person, die mit einer Gruppe spricht) ihre Sprache im allgemeinen
beispielsweise mit Handbewegungen unterstreicht.
-
Nachdem die aktive Einheit 405 in
der Umgebung bestimmt wurde, richtet die Betätigungsvorrichtung 614 die
Kamera 412 auf die aktive Einheit 405 und überwacht
die unmittelbare Umgebung der aktiven Einheit 405. Das
Bildebenenmodul 616 unterteilt dann das von der Videokamera 412 überwachte
Ereignis in mehrere Bildebenen (Block 808). Das Bildebenenmodul 616 bestimmt
die Position wesentlicher Merkmale in der überwachten Umgebung sowohl
in Bezug auf andere wesentliche Merkmale als auch in Bezug auf die
Kamera 412. Wie in 6b dargestellt ist,
unterteilt das Bildebenenmodul 616 das überwachte Bild in eine Anzahl
von Pixelblöcken
(Block 809), wobei jeder Block einem Bereich des Bilds
auf einer Bildebene (oder einem anderen Abstand von der Kamera 412)
entspricht. Es sei bemerkt, daß das Bildebenenmodul 616 Bildebenen
zwischen der aktiven Einheit 405 und der Kamera 412 auswählen kann und
auch Bild-ebenen für
wesentliche Hintergrundmerkmale hinter der aktiven Einheit 405 auswählen kann.
Daten für
jeden der ein Objekt in einer Bildebene darstellenden Pixelblöcke (die
also jedem der wesentlichen Merkmale entsprechen) werden dann als eine
Nachschlagetabelle im Speicher 628 gespeichert.
-
Alternativ kann das Videokommunikationssystem 600 eine
Vielzahl von Kameras 412 aufweisen, die jeweils auf einen
getrennten Bereich der überwachten
Umgebung gerichtet sind. Demgemäß betätigt die
Kamerabetätigungsvorrichtung 614 die geeignete
Kamera 412 für
den Bereich, in dem sich die aktive Einheit 405 befindet.
-
Vorzugsweise überwacht das Videokommunikationssystem 600 zunächst eine
Szene, bevor darin Teilnehmer 410 vorhanden sind. Folglich
weiß das System 600 bei
einem künftigen
Bezug auf die für eine
bestimmte Umgebung erzeugte Nachschlagetabelle beispielsweise, daß sich zwischen
dem Tisch und der Kamera 412 ein Stuhl befindet.
-
Kurz auf 7 Bezug nehmend sei bemerkt, daß jede Bildebene 720, 722,
724 einen anderen Abstand zwischen der Kamera 412 und einem
ausgewählten
wesentlichen Merkmal in der überwachten Umgebung
darstellt. Falls folglich zu einem späteren Zeitpunkt ein weiteres
Merkmal, wie eine Person, beispielsweise zwischen dem Objekt 726 (Blumen)
und dem Objekt 728 (Elefant) durchläuft, kann das Bildebenenmodul 616 eine
weitere Bildebene 721 zwischen den Bildebenen 720 und 722 einfügen.
-
Wenn das Videokommunikationssystem 600 alternativ
häufig
in der gleichen Umgebung verwendet wird und wesentliche Merkmale
innerhalb der Umgebung konstant sind, wie beispielsweise Tische, Pflanzen,
Bilder usw., können
die Bild ebenen für
diese Merkmale in eine Nachschlagetabelle eingegeben werden, die
im Speicher 628 oder im Speicher 664 gespeichert
ist. Bei jeder Gelegenheit, bei der das Kommunikationssystem 600 verwendet
wird, bestimmt das Bildebenenmodul 616 zunächst, ob
jedes der wesentlichen Merkmale vorhanden ist und ob irgendwelche
weiteren Merkmale eingeführt
worden sind. Wenn seit dem vorhergehenden Betrieb des Videokommunikationssystems 600 weitere
Merkmale eingeführt
worden sind, kann das Bildebenenmodul 616 weitere Bildebenen
durch Bestimmen der Position des neuen wesentlichen Merkmals in
Bezug auf bekannte wesentliche Merkmale innerhalb der Umgebung erzeugen.
-
Als nächstes wählt das Quantisierungsmodul 618 der
Reihe nach jeden der vom Bildebenenmodul 616 empfangenen
Blöcke
entsprechend ihrer relativen Wichtigkeit innerhalb des überwachten
Bilds aus (Block 820). Beispielsweise hat der Block, der
den Informationen tragenden Abschnitt der Gesichtsmerkmale der aktiven
Einheit 405 enthält,
eine größere Wichtigkeit
als weniger wichtige Merkmale der aktiven Einheit 405,
und diese weniger wichtigen Merkmale der aktiven Einheit 405 haben
wiederum eine größere Wichtigkeit
als Hintergrundmerkmale. Das Quantisierungsmodul 618 ordnet
vom Bildebenenmodul 616 empfangene Videodaten einem vorgegebenen
Quantisierungsniveau zu (Bits der Videodaten entsprechen im allgemeinen
einem Pixel des von der Videokamera 412 überwachten
Bilds).
-
Das Quantisierungsmodul 618 ist
weiterhin mit dem Codiermodul 620 verbunden, das die quantisierten
Videodaten empfängt
und jeden Pixelblock codiert (Block 822).
-
Das Vorverarbeitungsmodul 622 empfängt die
codierten Videodaten vom Codiermodul 620 und beseitigt
das stochastisch erzeugte Rauschen (Block 824), das von
der Videokamera 412 ausgehende Einzelpixelfehler hervorrufen
kann. Durch die nachfolgende Kompression dieses Rauschens werden
die Datenübertragungsanforderungen
des Systems 600 erhöht
und Datenbandbreite des Übertragungsmediums
verschwendet. Wenngleich das Rauschen durch eine einfache Tiefpaßfilterung
verringert werden kann, führt
es im allgemeinen zu einer Unschärfe
des resultierenden Videobilds. Daher werden komplexere Filtertechniken
verwendet (ein lineares oder nichtlineares Filtern), damit das von
der Videokamera 412 erzeugte Rauschen verringert wird,
während
die Auflösung
des sich ergebenden Anzeigevideobilds bewahrt bleibt.
-
Das Kompressionsmodul 630 empfängt die codierten
und vorverarbeiteten Videodaten und führt einen Kompressionsprozeß aus, um
die Videodaten zu komprimieren (Block 826). Die Arbeitsweise
des Kompressionsmoduls wird nachstehend in näheren Einzelheiten beschrieben.
Die komprimierten Videodaten werden dann über das Übertragungsmedium 699 zum
Empfangsmodul 650 übertragen
(Block 828), jedoch auch im Speicher 628 gespeichert,
um dabei zu helfen, den Datengehalt nachfolgend übertragener Rahmen des Videobilds
zu verringern.
-
In typischen Betriebssituationen
bleiben der Hintergrund und verschiedene Merkmale, die von der Videokamera 412 überwacht
werden, von einer Rahmenperiode des Videobilds zur nächsten Rahmenperiode
im wesentlichen stationär.
Die Bewegung eines Merkmals zwischen aufeinanderfolgenden Rahmenperioden
bewirkt jedoch, daß sich
Pixel, die das Merkmal wiedergeben, als ein Block bewegen.
-
Die im Speicher 628 gespeicherten
codierten Videodaten werden vom Bewegungsschätzmodul 626 verwendet,
um Bewegungsvektoren zu erzeugen (Block 830), die die Position
jedes Pixels oder Pixelblocks entsprechend der Position dieses Pixels oder
Pixelblocks in einem vorhergehenden Rahmen schätzen.
-
Nach der Erzeugung von Bewegungsvektoren
durch das Bewegungsschätzmodul 626 wird
eine weitere Verbesserung der Qualität des Videobilds durch Verringern
großer
Fehler in den Vorhersagedaten und Schätzvektoren erhalten (Block 832).
Dies wird durch das Schleifenfiltermodul 624 erreicht,
das einen Schleifenfilterprozeß ausführt, wenn "Innerrahmen"-Codiertechniken
verwendet werden.
-
Mit Bezug auf das Empfangsmodul 650 sei bemerkt,
daß komprimierte
und codierte Videodaten über
das Übertragungsmedium 699 vom
Sendeabschnitt 610 empfangen werden. Die empfangenen Videodaten
werden am Dekompressions modul 666 dekomprimiert. Die von
Videokommunikationssystemen implementierten Kompressionsalgorithmen
können
jedoch "Moskito-Rauschen" in den Videodaten erzeugen,
wodurch Artefakte im sich ergebenden Videobild hervorgerufen werden.
Das Moskito-Rauschen kann einer übermäßigen Quantisierung
der Videodaten zugeschrieben werden, die zur Beseitigung wichtiger
Hochfrequenzinformationen entlang Konturen im Videobild führt (beispielsweise
dem Rand zwischen einem Gesicht und dem Hintergrund). Das Nachverarbeitungsmodul 658 bewirkt
ein Verringern der Wirkungen des "Moskito-Rauschens" durch eine Nachverarbeitung der Videodaten
vor der Anzeige des Videobilds.
-
Nach der Nachverarbeitung werden
die Videodaten über
das Decodiermodul 656 und das Dequantisierungsmodul 654 zur
Videoanzeige 652 zur Erzeugung des Videobilds übertragen.
-
Es ist bevorzugt, daß die Bewegungsschätzung und
die Schleifenfilterung vom Sendemodul 610 ausgeführt wird,
damit unnötige
Datenbits keine Bandbreite verwenden, die wirksamer von Datenbits verwendet
werden kann, welche sich von Rahmen zu Rahmen ändern. Die Bewegungsschätzung kann
jedoch auch am Empfangsabschnitt 610 ausgeführt werden.
-
Bei Implementierung in einer Videokonferenzanwendung
fokussiert der Betrachter ein einziges Objekt (die aktive Einheit 405).
Bei solchen Anwendungen muß die
Kamera 412 jedoch eine Szene überwachen, welche sowohl das
interessierende Objekt (die aktive Einheit 405) als auch
eine Anzahl von Hintergrundoder Vordergrundobjekten (beispielsweise
die Teilnehmer 410, die Objekte 726, 727, 728, 730)
enthält.
Typischerweise ist die Kamera 412 auf das Objekt fokussiert,
das zu einem gegebenen Zeitpunkt die aktive Einheit 405 ist
(beispielsweise der sprechende Teilnehmer).
-
Die 9a – b zeigen ein bevorzugtes Verfahren zum
Auffrischen der erzeugten Videoanzeigebilder. Zuerst sei mit Bezug
auf 9a bemerkt, daß die aktive
Einheit 405 durch den Block 1F dargestellt wird.
Dieser Pixelblock wird in jedem Auffrischungszyklus aufgefrischt,
wobei die Videokamera 412 (beispiels weise die in den 10 – 16 beschriebenen Kameras)
Daten nur aus den Pixelblöcken
auswählen,
welche die aktive Einheit 405 enthalten. In jedem zweiten
Zyklus werden Pixelblöcke,
die Objekte in der nächsten
Bildebene (entweder vor oder hinter der aktiven Einheit 405)
darstellen, aufgefrischt (wie in den Blöcken 2A – 2D angegeben
ist). In jedem dritten Zyklus werden Pixelblöcke, die Objekte in der nächsten Bildebene
darstellen, aufgefrischt (wie in den Blöcken 3A – 3D dargestellt
ist). Dies wird für
Y Bildebenen wiederholt, die das Videoanzeigebild ausmachen. Demgemäß werden
die das Videoanzeigebild ausmachenden Bildebenen in der Folge 1F, 1F, 2A – D, 1F, 2A – D, 3A – D,........., 1F, 2A – D, 3A – D,......... YA – D aufgefrischt.
Das Auffrischungsverfahren ist in 9b schematisch
dargestellt.
-
Wie in 9b dargestellt
ist, wird ein Zähler (nicht
dargestellt) entweder dann, wenn das System 600 initialisiert
wird, oder dann, wenn die Kamerabetätigungsvorrichtung 614 eine
neue aktive Einheit 405 identifiziert, auf Null zurückgesetzt
(Block 910). Als nächstes
wird der Zähler
zu Beginn des ersten Auffrischungszyklus um eins inkrementiert (Block 912),
und die erste Bildebene (1F) wird aufgefrischt (Block 914),
indem die Daten ersetzt werden, die den Pixeln in dem die aktive
Einheit 405 darstellenden Block 1F entsprechen.
-
Falls der Inhalt des Zählers (Y)
kleiner ist als die Anzahl der ausgewählten Bildebenen (Z), wird der
Zähler
zu Beginn des zweiten Auffrischungszyklus wieder um eins inkrementiert
(Block 912). Die erste Bildebene wird durch Ersetzen der
Daten, welche den Pixeln in dem die aktive Einheit 405 darstellenden
Block 1F entsprechen, aufgefrischt (Block 914), bevor die
zweite Bildebene aufgefrischt wird (920), indem die Pixel
in jedem der Blöcke 2A – D ersetzt werden.
-
Falls der Inhalt des Zählers (Y)
kleiner ist als die Anzahl der ausgewählten Bildebenen (Z), wird der
Zähler
zu Beginn des dritten Auffrischungszyklus wieder um eins inkementiert
(Block 912). Die erste Bildebene wird durch Ersetzen der
Daten, welche den Pixeln im die aktive Einheit 405 darstellenden Block
1F entsprechen, aufgefrischt (Block 914), wobei dies zusammen
mit der zweiten Bildebene, welche durch Ersetzen der Pixel in jedem
der Blöcke 2A – D aufge frischt
wird (Block 920), und der dritten Bildebene, die durch
Ersetzen der Pixel in jedem der Blöcke 3A – D aufgefrischt
wird (Block 926), erfolgt.
-
Dieser Zyklus des Auffrischens der
jede der Bildebenen darstellenden Datenblöcke wird wiederholt, bis alle
Bildebenen aufgefrischt worden sind. Der Zähler wird dann zurückgesetzt,
und der Zyklus wird wiederholt. Falls die aktive Einheit 405 alternativ geändert wird,
wird der Zähler
sofort auf Null zurückgesetzt,
und die Auffrischungszyklen werden reinitialisiert.
-
Weil Objekte in der überwachten
Umgebung oder an der Position eines Objekts einem vorhergehenden
Rahmen des Videobilds entsprechen können, können im Speicherblock 664 entsprechende Pixelblöcke (1F, 2A – 2D, 3A – 3D)
gespeichert werden. Typischerweise werden die Daten für jeden
ein Objekt darstellenden Pixelblock mit einem Zeiger gespeichert,
der es der Videoanzeige 652 ermöglicht, Pixelblöcke aus
einer Bibliothek dieser im Speicher 664 gespeicherten Daten
zu identifizieren und zur Anzeige auszuwählen.
-
Ein weiterer Aspekt der Erfindung
wird nun mit Bezug auf 10 beschrieben,
welche ein schematisches Diagramm einer Kamera 2000 ist,
die auf ein Objekt 2011 in einer Brennebene 2010 fokussiert ist.
Die Kamera 2000 ist eine Einzellinsenkamera zur Verwendung
mit dem vorstehend mit Bezug auf die 6a und 6b beschriebenen Videokonferenzsystem 600,
wobei eine Tiefenabweichung zum Erzeugen eines Eindrucks eines 3D-Bilds
auf der Videoanzeige 652 verwendet wird. Das Videokonferenzsystem 600 erfaßt, speichert
und vorverarbeitetdas Bild einer Person (von Personen) und/oder
eines Objekts sowie die relative Position zu Hintergrundobjekten bzw.
-szenen. Durch Wiedererzeugen der Tiefenabweichung zwischen der
Person (den Personen) und den Hintergrundobjekten und der Hintergrundszene am
Empfänger
erzeugt das System 600 für einen fernen Betrachter einen
3D-Eindruck (Teleeindruck). Für
die Zwecke der folgenden Beschreibung sei die Kamera 2000 an
Stelle der Kamera 2000 mit dem Videokonferenzsystem 600 aus 6a verbunden.
-
Die Kamera 2000 weist eine
unabhängige Fokussierungsoptik 2001 und
eine Brennebene 2002 auf, die so angeordnet ist, daß die Brennachse
der Kamera 412 und die Brennebene 2010 in etwa
an einem Punkt zwischen den Augen der sprechenden bzw. an einer
Videokonferenzsitzung teilnehmenden Person liegen, beispielsweise
bei einem Sprecher 405 oder einem der Teilnehmer 410.
Die Brennweite der Kamera 2000 wird so eingestellt, daß die maximalen
Tiefeninformationen hinsichtlich der sprechenden bzw. an der Videokonferenzsitzung
teilnehmenden Person erhalten werden.
-
Die von einer CCD- oder CMOS-Bildaufnahmeeinrichtung
(nicht dargestellt) in der Brennebene 2002 aufgezeichneten
Pixelinformationen werden digitalisiert und bei einer Zeilen- und
Rahmenräte
an eine Speichermehrfachanordnung 628 ausgegeben, die angemessen
ist, um ein Flackern beim Empfänger
zu verhindern. Jeder Rahmen wird in einem getrennten Teil des Speichen 628 zwischengespeichert. Unter
Verwendung digitaler Signalverarbeitungstechniken werden die Pixel
in jedem Rahmen, die die Merkmale des Sprechen darstellen, und jene,
die Hintergrundobjekte bzw. Hintergrundszenen darstellen, getrennt
und zu unabhängigen
Zwischenspeichern übertragen.
-
Die Analyse wird rahmenweise ausgeführt, um
den Umriß getrennter
Objekte zu identifizieren und zu verfolgen. Im einfachen Fall einer
Einzelperson wird der Umriß des
Kopfs bzw. der Schultern anhand der Änderung der Farbe bzw. des
Kontrasts gegenüber
dem Hintergrund identifiziert. In ähnlicher Weise müssen Objekte
im Hintergrund identifiziert werden. Es gibt eine Anzahl bekannter
DSP-Techniken zum
Identifizieren und Trennen von Objekten, so daß diese Vorgehensweise hier
nicht weiter beschrieben wird.
-
11 ist
eine schematische Ansicht, in der dargestellt ist, wie Objekte jenseits
der Brennebene 2010 der Kamera 2000 in 10 gemäß einem Aspekt der vorliegenden
Erfindung um einen Betrag D defokussiert erscheinen, welcher der
Tiefenabweichung (d) entspricht. Diese Charakteristik wird im Empfangsabschnitt
des Videokonferenzsystems verwendet, um für einen fernen Betrachter einen
3D-Eindruck (Teleeindruck)
zu erzeugen. Bilder, die Hintergrundobjekte, wie das Objekt 2012,
darstellen, werden getrennt zum Empfangsabschnitt des Videokonferenzsystems
gesendet, wie in 6b dargestellt ist.
Unter Verwendung digitaler Signalverarbeitungstechniken wird das
Hintergrundobjekt 2012 um einen Betrag defokussiert, der
dem Dispersionsabstand (D) entspricht. Der Dispersionsabstand D
korreliert mit der Tiefenabweichung (d) des Hintergrundbilds 2012, wodurch
die Tiefe des Hintergrundobjekts 2012 in bezug auf das
Objekt 2011 dargestellt wird. Andere Hintergrundobjekte
(nicht dargestellt) werden gemäß ihrer
entsprechenden Tiefenabweichung defokussiert.
-
Die Pixelinformationen, welche die
sprechende bzw. an der Videokonferenzsitzung teilnehmende Person
darstellen (durch das Objekt 2011 dargestellt), werden
den die Hintergrundobjekte darstellenden modifizierten Informationen
wieder hinzugefügt
und wieder im Hauptspeicher 628 gespeichert. Das auf diese
Weise gebildete zusammengesetzte Bild wird dem fernen Betrachter
auf der Anzeige 652 gezeigt. Die Prozedur wird für die nachfolgenden
Rahmen wiederholt.
-
12 ist
eine schematische Ansicht, in der dargestellt ist, wie eine andere
Tiefenabweichung d' zu
einem anderen Defokussierungsbetrag oder einem anderen Dispersionsabstand
D' führt. Weil
der Dispersionsabstand (D) eines Bilds des Hintergrundobjekts den
Abstand (d) des Hintergrundobjekts von der Person (Objekt 2011)
darstellt, kann die anscheinende Tiefenabweichung eines Objekts
durch Ändern
des Defokussierungsbetrags oder des Dispersionsabstands D geändert werden.
Das Ergebnis einer solchen Transformation besteht darin, daß die wirksame
Brennweite der Kamera für
die sprechende bzw. an der Videokonferenzsitzung teilnehmende Person
und die Hintergrundobjekte geändert
wird. Der Betrag, der Tiefenabweichung und damit die 3D-Wirkung
können
demgemäß durch Ändern des Werts
von D ansprechend auf einen Tiefenabweichungsparameter N geändert werden.
Der Tiefenabweichungsparameter N wird vom Bildebenenmodul 616' bereitgestellt.
Weiterhin kann der Tiefenabweichungsparameter N vom Empfangssystem
aus 6b modifiziert werden.
Beispielsweise kann ein Betrachter der Videoanzeige 652'' das Verarbeitungsmodul 622 anweisen,
die 3D-Wirkung zu erhöhen
oder zu verringern, was wiederum dazu führt, daß der Tiefenabwei chungsparameter
N vergrößert bzw.
verkleinert wird. Natürlich
gibt es in einer Szene mit mehreren (m) Hintergrundbildebenen eine
Vielzahl von Tiefenabweichungsparametern N(m), die jeder Bildebene
entsprechen.
-
Unter Verwendung digitaler Signalverarbeitungstechniken
kann das Videokonferenzsystem 600 das Bild der sprechenden
bzw. an der Videokonferenzsitzung teilnehmenden Person durch Verstärken von
3D-Sichtmerkmalen (Schatten, Krümmungen, Strukturen
und Tiefenabweichung) vor dem Hinzufügen zu den Hintergrundinformationen
weiter verbessern.
-
Weil die Rekonstruktion des Bilds
am Empfänger
von der Wiedererzeugung der Tiefenabweichung abhängt und kein stereoskopisches
Abbilden ist, kann ein Bild unter Verwendung nur einer Kamera erfaßt und rekonstruiert
werden. Die Informationen können
dann gespeichert oder zur weiteren Reduktion zum Videokompressionsmodul 630' übertragen werden
oder als ein einziges Bild zum empfangenden Endgerät übertragen
werden.
-
Wie zuvor erörtert wurde, kann das Bild
des Sprechers 405 oder des Teilnehmers 410 getrennt von
Bildern von Hintergrundobjekten, wie dem Objekt 2012, übertragen
werden. Das Hintergrundobjekt 2012 wird entsprechend einem
Tiefenabweichungsparameter N defokussiert und wird mit dem Bild
des Sprechers 405 oder des Teilnehmers 410 rekombiniert,
um ein einziges zusammengesetztes Bild im Empfangssystem aus 6b zu erzeugen. Alternativ kann
das Bild des Sprechers 405 oder des Teilnehmers 410 von
Bildern von Hintergrundobjekten, wie dem Objekt 2012, getrennt
werden. Das Hintergrundobjekt 2012 wird ansprechend auf
einen Tiefenabweichungsparameter N defokussiert und mit dem Bild
des Sprechers 405 oder des Teilnehmers 410 rekombiniert,
um vor der Übertragung
ein einziges zusammengesetztes Bild im Übertragungssystem aus 6a zu erzeugen. Das sich
ergebende zusammengesetzte Bild wird dann zum Empfangssystem aus 6b übertragen.
-
Weil in der Kamera 2000 eine
Brennebene vorhanden ist, liegt bei jedem Bildrahmen, der von der
Kamera abgetastet wird, das Personenobjekt 2011 im Brenn punkt,
während
das Hintergrundobjekt 2012 infolge der Tiefenabweichung,
die proportional zum Abstand des Hintergrundobjekts von der Brennebene
ist, außerhalb
des Brennpunkts liegt. Der Betrag der im Hintergrundobjekt 2012 vorhandenen
Defokussierung hängt
von der Brennweite der Kamera 2000 ab. Nachdem das Hintergrundobjekt 2012 vom Bildrahmen
getrennt wurde, wird die Tiefenabweichung des Objekts 2012 vergrößert, um
den 3D-Eindruck zu erzeugen, wie vorstehend erörtert wurde. Dies kann durch
Hinzufügen
von "Rauschen" zum Bild des Objekts 2012 erfolgen,
um scharfe Kanten weicher zu machen. Alternativ kann jedes Pixel
des Bilds des Hintergrundobjekts 2012 über eine Kreisfläche mit
einem Durchmesser (D(n)), entsprechend der gewünschten Tiefenabweichung (d(n))
für das
Objekt 2012 verteilt werden. Weiterhin kann die Position
der scharfen Kanten im Raum oszilliert werden (d. h., die Position
einer Kante kann für
wechselnde Rahmen des Anzeigevideobilds zwischen zwei oder mehr
Positionen im Raum gewechselt werden).
-
13 ist
ein Blockdiagramm einer Kamera 2200, die einen digitalen
Signalprozessor (DSP) 2230 zum Verarbeiten von Bildern
entsprechend Aspekten der vorliegenden Erfindung enthält. Die
Kamera 2200 hat eine unabhängige Fokussierungsoptik 2201 und
eine Brennebene 2202, die so angeordnet ist, daß die Brennachse
der Kamera mit der Brennebene 2210, welche das Objekt 2211 enthält, ausgerichtet
ist. Pixelinformationen werden von einer CCD- oder CMOS-Abbildungseinrichtung 2203 in
der Brennebene 2202 aufgezeichnet und digitalisiert und
bei einer Zeilen- und Rahmenrate, die zum Verhindern eines Flackerns
am Empfänger
geeignet ist, an eine Speichermehrfachanordnung 2240 ausgegeben.
Der DSP 2230 enthält
Software, die im Speicher 2240 gespeichert wird, um einige
oder alle der von den Modulen 614' – 632' ausgeführten Bildverarbeitungsschritte
auszuführen.
Bilddaten werden von der Kamera 2200 über die Ausgangssignalleitung 2250 übertragen.
-
Alternativ kann der DSP 2230 programmiert werden,
um Pixel, welche sich auf ein Bild des Sprechers 405 oder
des Teilnehmers 410 beziehen, von Bildern von Hintergrundobjekten,
wie dem Objekt 2012, zu trennen. In diesem Fall wer den
nur die Bilder des Sprechen 405 oder des Teilnehmers 410 zum Videokonferenzsystem übertragen,
nachdem die Hintergrundbilder einmal übertragen und im Speicher 619' gespeichert
worden sind.
-
Die Erfindung ermöglicht das elektronische Ändern der
Brennweite einer Kamera zum Modifizieren der wahrgenommenen Schärfentiefe
für verschiedene
Objekte. Unter Verwendung dieser Technik kann die Tiefenabweichung
einer Videokonferenzszene optimiert werden. Weil die Tiefenabweichung
ein Schlüsselbeitrag
für den
3D-Eindruck ist, kann der Präsenzeindruck
innerhalb einer Videokonferenzszene durch Ändern des Tiefenabweichungsparameters
(N(m)) für
die Person und Hintergrundobjekte erhöht werden. Weil das System
zum Rekonstruieren der 3D-Szene auf Tiefeninformationen zurückgreift
(also den Versatz der Bildebenen in den 2a – 2c), kann das System nur
ein Bild der Szene erfassen, speichern und übertragen.
-
Ein Vorteil der Erfindung besteht
darin, daß sich
bei ihr die Möglichkeit
ergibt, eine einzige Kamera zum Erfassen und Vorverarbeiten von
Videoinformationen von einer Videokonferenzszene zu verwenden, während die
Sichtlinien optimiert werden, welche zum Erzeugen eines 3D-Eindrucks
erforderlich sind, wenn das Bild am Empfänger rekonstruiert wird.
-
Ein weiterer Vorteil der Erfindung
besteht darin, daß sie
zu einer Verringerung der Datenmenge führt, die erfaßt, gespeichert
und übertragen
werden muß,
um ein 3D-artiges Videokonferenzsystem mit einer hohen Qualität zu erreichen.
-
Ein weiterer Aspekt der vorliegenden
Erfindung wird nun mit Bezug auf 14 erörtert, welche eine
schematische Ansicht ist, in der zwei getrennte Kameras 2100 und 2105 dargestellt
sind, welche auf ein Objekt 2111 in einer Brennebene 2110 fokussiert sind.
Die Einrichtung weist zwei unabhängige
Kameras 2100, 2105 mit zwei unabhängigen Fokussierungsoptiken 2101, 2106 auf,
die so angeordnet sind, daß der
Abstand zwischen den Brennzentren der Optiken in etwa dem Abstand
zwischen den Augen eines Betrachters 16 gleicht. Die Brennachsen 2103, 2108 der
jeweiligen Kameras sind so eingerichtet, daß sie in etwa auf die Person
(die Personen) zeigen, die an der Videokonferenzsitzung teilnimmt
(teilnehmen) und hier durch das Objekt 2111 dargestellt
ist (sind). Die Kameras 2100, 2105 können jeweils
beispielsweise der Kamera 2000 oder der Kamera 2200 ähneln.
-
Ein klassisches Verfahren zum Erfassen
von stereoskopischen Informationen besteht darin, eine Kamera um
ein Objekt zu drehen, das sich im Zentrum des von der Kamera abgefahrenen
Bogens befindet (alternativ können
sich mehrere Kameras auf dem Bogen befinden). Die Drehung der Kamera über den
Bogen wird verwendet, um der Anforderung Rechnung zu tragen, daß die Brennweite
der Linse konstant bleibt, weil ansonsten eine Ansicht der Person
bzw. des Objekts größer bzw.
kleiner als die andere wäre.
Die verschiedenen Rahmen bzw. Ansichten, die von der Kamera bzw.
den Kameras genommen werden, enthalten Informationen, die sich auf die
Seiten des Objekts beziehen. Die einzelnen Rahmen (die alle im Brennpunkt
liegen) können
dann zum Konstruieren eines 3D-Modells des Objekts verwendet werden.
Falls das Objekt jedoch nicht im Zentrum des Bogens liegt, treten
in den einzelnen Bildern unterschiedliche Tiefenabweichungen auf.
-
15 ist
eine schematische Ansicht, in der dargestellt ist, wie ein Ausrichtungsfehler
korrigiert werden kann, wenn die mechanische Brennebene E der zwei
Kameras aus 14 gemäß einem
Aspekt der vorliegenden Erfindung gegenüber der optischen Brennebene 2110 versetzt
ist. Diese Fehlausrichtung führt
dazu, daß ein
von der Kamera 2200 erfaßtes Bildpixel 2223 an
einer anderen relativen Position liegt als ein von der Kamera 2205 erfaßtes entsprechendes
Bildpixel 2224. Zum Kompensieren eines solchen Ausrichtungsfehlers
zwischen den Kameras kann zwischen den Zeilensynchronisationsimpulsen, die
zum Auslesen von Informationen aus der CCD- (oder CMOS-)-Abbildungseinrichtung
2203 der Kameras in den Kameraspeicher 2201 verwendet werden,
eine Verzögerung
herbeigeführt
werden. Der Versatz ist als die Verzögerung definiert, die erforderlich
ist, um Schlüsselmerkmale
des Gesichts der aktiven Einheit 405 oder des Teilnehmers 410,
wie beispielsweise die Winkel des Munds und der Augen, innerhalb
der zwei getrennten Bilder in der Brennebene auszurichten.
-
Weil die Rekonstruktion des Bilds
beim Empfänger
von der Wiedererzeugung der Tiefenabweichung und nicht vom stereoskopischen
Abbilden abhängt,
wie zuvor beschrieben wurde, können
die Bilder von jeder der Kameras zu einem einzigen Bild kombiniert
werden. Ein wesentlicher Unterschied zwischen diesem Fall und dem
Fall einer einzigen Kamera besteht darin, daß Informationen, die sich auf
die Seite des Objekts beziehen, aufrechterhalten werden. Digitale
Signalverarbeitungstechniken können
dann auch verwendet werden, um andere 3D-Sichtmerkmale, wie beispielsweise Strukturen und
Schatten und Krümmungen,
der Gesichtsmerkmale der Person, die sich innerhalb der Brennebene befindet
(also der aktiven Einheit 405 oder des Teilnehmers 410)
beizubehalten.
-
Die Tiefenabweichung wird innerhalb
des sich ergebenden 2D-Bilds beibehalten, indem Hintergrundbilder 2112 erfaßt und gespeichert
werden, die außerhalb
des Gesichtsfelds 2110 liegen. 16 ist eine schematische Ansicht, in
der dargestellt ist, wie ein Objekt 2112 jenseits der Brennebene 2110 der Kameras
in 14 gemäß einem
Aspekt der vorliegenden Erfindung um einen Betrag D entsprechend der
Tiefenabweichung (d) defokussiert erscheint. Die Hintergrundobjekten
entsprechenden vorverarbeiteten Informationen können gespeichert oder zur weiteren
Reduktion zum Videokompressionssystem übertragen werden oder als ein
Einzelbild zum Empfangsendgerät übertragen
werden.
-
Die Kameras fangen an Stelle der
stereoskopischen Abweichung die Tiefenabweichung d ein, die einem
3D-Bild zugeordnet ist. Weil die Informationen zum Rekonstruieren
der 3D-Szene der Versatz der Bildebenen (d in 16) sind, kann die Fehlausrichtung der
Mechanik der Kamera kompensiert werden, wenn die Bilder von den
CCD- oder CMOS-Abbildungseinrichtungen abgetastet werden.
-
Wie mit Bezug auf die 10 – 16 beschrieben
wurde, werden die Objekte innerhalb jedes Rahmens des überwachten
Bilds vom DSP 2230 identifiziert. Typischerweise werden
schnelle Fouriertransformationsalgorithmen verwendet, um den Umriß jedes
Objekts anhand Unterschieden in der Leuchtkraft, im Kontrast oder
in der Struktur der Objekte in jeder Bildebene zu bestimmen. Der
Umriß der Objekte
kann jedoch auch anhand der relativen Position der Pixel bestimmt
werden. Insbesondere sind Pixel, die den Umriß eines Objekts definieren,
dicht beabstandet, und es ergibt sich ein scharfer Kontrast zwischen
diesen Pixeln und benachbarten Pixeln, welche Hintergrundobjekte
definieren.
-
Sobald die Objekte innerhalb jedes
Rahmens des Videobilds identifiziert worden sind, kann jeder der
ein Objekt darstellenden Pixelblöcke
individuell verarbeitet werden. Vorzugsweise werden die jede Bildebene
darstellenden Blöcke
im Speicher gespeichert, um bei der Erzeugung nachfolgender Rahmen
des Anzeigevideobilds verwendet zu werden.
-
17a zeigt
eine Vielzahl von Pixelblöcken 2A – 2D,
die eine zweite Bildebene darstellen, und von Pixelblöcken 3A – 3D,
die eine dritte Bildebene darstellen. Weil die durch die Pixelblöcke 2A – 2D dargestellten
Objekte von dem durch den Pixelblock 1F dargestellten Vordergrundobjekt
teilweise verdeckt werden, liefern die Abschnitte (2w – 2z)
der Pixelblöcke 2A – 2D keine
zusätzlichen
Informationen. Diese Abschnitte (2w – 2z) können ausgeschnitten werden,
um die Datengehaltsanforderungen des zum Empfangsabschnitt 650 des
Videokommunikationssystems 600 übertragenen Signals abzuschwächen.
-
Dieses Merkmal ist in 17b näher erläutert, wo eine Vielzahl eine
dritte Bildebene 3 darstellender Pixelblöcke 3A – 3D durch
Vordergrundobjekte, die durch Pixelblöcke 2A – 2D in
der zweiten Bildebene 2 dargestellt sind, teilweise verdeckt
werden. Daher liefern die Abschnitte (3w – 3z)
der Pixelblöcke 3A – 3D keine
zusätzlichen
Informationen. Diese Abschnitte (3w – 3z) können ausgeschnitten
werden, um die Datengehaltsanforderungen des zum Empfangsabschnitt 650 des
Videokommunikationssystems 600 übertragenen Signals abzuschwächen.
-
Wie hier zuvor beschrieben wurde,
werden die in der Brennebene aufgezeichneten Pixelinformationen
digitalisiert und an die Speichermehrfachanordnung 628 übergeben.
Den jeden Pixelblock oder jedes Objekt darstellenden Daten wird
eine eindeutige Referenz zugewiesen, welche Informationen über die
Position des Pixelblocks in horizontaler und in vertikaler Ebene
zusammen mit Informationen hinsichtlich der Tiefenabweichung (d)
enthält.
Wenngleich die Abbildungseinrichtung eine Folge von Rahmen erfaßt (wie
in Verbindung mit den 10 – 16 beschrieben wurde), wobei
die Objekte in jeder Bildebene fokussiert oder scharf sind, ist
das Videokommunikationssystem gemäß der vorliegenden Erfindung
in der Lage, den Betrag der Abweichung entsprechend der Position
des Betrachters zu ändern. Folglich
weist das von jedem Betrachter betrachtete Anzeigevideobild ein
Objekt im Brennpunkt (1F) auf, während
Objekte in vorhergehenden und/oder nachfolgenden Bildebenen entsprechend
ihrem Abstand bezüglich
des Objekts im Brennpunkt (1F) unterdrückt sind.
-
Das System gemäß der vorliegenden Erfindung
ist auch in der Lage, ein anderes Anzeigevideobild für mehrere
Betrachter, die jeweils das Anzeigevideobild an einem anderen Ort
betrachten, zu liefern, weil der Empfangsabschnitt den Blick der
Betrachter verfolgt und die Tiefenabweichung dementsprechend anpaßt. Weil
Vordergrundobjekte den Blick der Betrachter auf Hintergrundobjekte
behindern, weisen die im Speicher 628 gespeicherten Daten,
die sich auf Vordergrundobjekte beziehen, "Löcher" für redundante
Informationen auf.
-
Es wurde herausgefunden, daß dann,
wenn der Betrachter ein Objekt im Vordergrund (1F) des Anzeigevideobilds
betrachtet, der Rand der Hintergrundobjekte (3A – 3D)
hervorgehoben wird, wenn er scharf ist. Es ist daher erforderlich,
diese Kanten zu unterdrücken,
damit die Wahrnehmung des Anzeigevideobilds durch die Betrachter
nicht beeinflußt
wird. Wenngleich die Wahrnehmung des Anzeigevideobilds durch die
Betrachter nicht beeinträchtigt
wird, wenn die redundanten Bereiche (2w – 2z)
der zweiten Bildebene wohldefinierte Kanten behalten, haben Kanten
der redundanten Bereiche (3w – 3z) der dritten
Bildebene und von redundanten Bereichen in jeder folgenden Bildebene
eine nachteilige Wirkung.
-
Gemäß einem weiteren Aspekt der
vorliegenden Erfindung können Ähnlichkeiten
in der Farbe, in der Leuchtkraft und/oder in der Intensität von Objekten
entfernt werden, um Bandbreitenanforderungen des Videokommunikationssystems
abzuschwächen.
Dies ist möglich,
weil der Betrachter Unterschiede in der relativen Leuchtkraft, Intensität und Farbe
verwendet, um das Bestimmen der re lativen Positionen von Objekten
im Raum zu erleichtern. Schon vorhandene räumliche Ähnlichkeiten (beispielsweise
ferne Objekte, Hintergrundszenerie oder der Himmel), zeitliche Ähnlichkeiten
(beispielsweise stationäre
Objekte) und/oder Ähnlichkeiten
in der Farbe, in der Leuchtkraft oder in der Intensität zwischen
Objekten in aufeinanderfolgenden Rahmen des Videobilds können unter
Verwendung des digitalen Signalprozessors 2230 entfernt
werden. Demgemäß kann der
Datengehalt des erzeugten und vom Sendeabschnitt 610 übertragenen
Signals verringert werden, wenn diese Merkmale angebende Daten entfernt
werden. Diese Daten können
durch einen weiteren digitalen Signalprozessor (nicht dargestellt) im
Empfangsabschnitt 650 künstlich
wiedereingeführt
werden.
-
Dies führt zu einer Verringerung der
Datenmenge, die zum Erreichen eines qualitativ hochwertigen 3D-artigen
Videokonferenzsystems erfaßt,
gespeichert und übertragen
werden muß.
-
Die Rahmen des erzeugten Videoanzeigebilds
müssen
periodisch aufgefrischt werden. Herkömmliche Anzeigesysteme frischen
das gesamte Videoanzeigebild in jedem Auffrischungszyklus auf. Wie
jedoch hier zuvor erörtert
wurde, entsprechen große
Bereiche jedes Rahmens des Videoanzeigebilds dem vorhergehenden
Rahmen. Es wude auch experimentell herausgefunden, daß Betrachter
den größten Informationsgehalt
aus dem Gebiet des Videoanzeigebilds erhalten, auf das sie fokussiert
sind, und daß der
Informationsgehalt anderer Bereiche des Bilds weniger wichtig ist.
-
Es wurde daher herausgefunden, daß es möglich ist,
andere Bereiche des Videobilds weniger häufig aufzufrischen, während ein
qualitativ hochwertiges Videoanzeigebild aufrechterhalten wird.
-
Es ist möglich, die Rahmen des überwachten Videobilds
unter Verwendung des hier offenbarten erfindungsgemäßen Verfahrens
und insbesondere mit den in Zusammenhang mit den 10 – 16 beschriebenen Kameras 412 in
mehrere Blöcke
zu unterteilen. Daher werden Pixelblöcke, welche die aktive Einheit 405 im
Anzeigebild darstellen, häufiger
aufgefrischt als Pixelblöcke,
welche bei spielsweise Hintergrundobjekte 410 aufweisen.
Dieses Verfahren ermöglicht
das Sparen von wertvoller Bandbreite bei Anwendungen, wie beispielsweise
dem Videokonferenzsystem aus 5.
-
Die Videoanzeige 652 kann
einen einzigen Projektor aufweisen, der das Videoanzeigebild unter Verwendung
von Frontal- oder Rückprojektionstechniken
auf eine Wand oder einen Bildschirm projiziert. Es wurde herausgefunden,
daß digitale
Projektoren, beispielsweise von dem Typ, bei dem die DLP-Technologie
von Texas Instruments Limited verwendet wird, für diese Anwendungen besonders
geeignet sind.