-
Gebiet der
Erfindung
-
Die
vorliegende Erfindung liegt auf dem Gebiet der Videokonferenzschaltungen
und verwandter digitaler Netzwerkanwendungen und betrifft insbesondere
Verfahren und Vorrichtungen zum Definieren der scheinbaren Position
eines Teilnehmers in einer Videokonferenz in Bezug auf die Kamerageräte.
-
Hintergrund
der Erfindung
-
Eine
Kommunikation über
weitflächige
Netzwerke (WANs), wie das wohlbekannte Internet, ist praktischer
und nützlicher
geworden, da verschiedene darin eingesetzte Technologien, wie Fernkonferenzschaltungen,
verbessert wurden. Beispielsweise sind Videotelekonferenzschaltungen
während
der letzten Jahre beträchtlich
verbessert worden. Verbesserungen an Videokameras, Ausstattung und
Videokonferenzsoftware haben eine sauberere und flüssigere
Bildfolge, klareren Ton und ein schärferes Bild ermöglicht.
In vielen Fällen
sind Verbesserungen in den Videokodierverfahren, Datenkompressionstechniken
und Bandbreitereservierungsschemas überwiegend für die verbesserte
Qualität
verantwortlich. Jedoch haben auch eine bessere Hardware, einschließlich Kameras
und dergleichen, zu einer besseren Qualität geführt.
-
In
einer typischen Videokonferenzsitzung sind zwei oder mehrere Nutzer
mit einer Netzwerk fähigen
Ausrüstung,
wie einem PC, einer Videokamera und der geeigneten Software, über ein
Netzwerk so miteinander verbunden, dass sich jeder Nutzer mit einer
Video-/Rudiodarstellung aller anderen Nutzer, die in einer bestimmten
Sitzung teilnehmen, austauschen kann. Solche Nutzer sind typisch
in Rahmensichtfenstern dargestellt, die auf den jeweiligen Anzeigemonitoren
der Teilnehmer erscheinen. Solche Monitore können Kathodenstrahl-Monitore,
Flachbildschirme oder andere geeignete Betrachterschnittstellen
sein.
-
In
einer einfachsten Anwendung kann ein Nutzer nur einen weiteren Nutzer,
zu dem er einen offenen Kanal hat, sehen und hören. Um mit einer dritten Seite
zu konferieren, muss ein zweiter Kanal geöffnet und der erste Kanal in
Wartestellung gesetzt werden. Bei verbesserten Anwendungen kann
es mehrere Nutzer geben, die an einer Sitzung teilnehmen. Jeder
der mehreren Nutzer kann, wenn es durch Software und geeignete Hardware
möglich
ist, alle anderen teilnehmenden Nutzer gleichzeitig in separaten
Rahmenfenstern auf der Anzeige während einer
Sitzung sehen. Eine Grenze oder Kapazität in Bezug auf die mögliche Zahl
der teilnehmenden Seiten ist im allgemeinen jeder aktiven Sitzung
auferlegt. Diese Zahl hängt
vom Ausmaß an
Komplexität
der Software und Hardware, der in der Sitzung eingesetzten Netzwerkausrüstung ab.
-
Ein
Problem bei den im Stand der Technik bekannten Bildkonferenzsystemen
liegt darin, dass typisch nur eine Kamera vorgesehen ist, die in
einer Position montiert und zu jedem teilnehmenden Nutzer gerichtet
ist. Deshalb muss ein Nutzer in die Kamera schauen, damit ein Korrespondent
dem Nutzer ins Angesicht blicken kann. Wenn der Blick eines Nutzers
von der Kamera weg gerichtet ist, kann bei den Korrespondenten,
die mit dem Nutzer konferieren, ein schlechtes Gefühl entstehen.
Dieses schlechte Gefühl
hat mit einem Zustand zu tun, dass man mit jemandem spricht, der
den Blick nicht erwidert. Mit anderen Worten, ein Nutzer erscheint
auf dem Bildschirm verloren bzw. er hat einen verlorenen Blick.
Dieses Problem wird in der Fernsehindustrie routinemäßig vermieden,
indem eine Person veranlasst wird, nur in eine Kamera zu blicken,
die an ist und aktiv aufzeichnet. Es wird allgemein angenommen,
dass wenn jemand dies nicht macht und eine Kamera ihn einfängt, wenn
er in eine andere Kamera blickt, dass dann die Effektivität der Darstellung
oder die Botschaft vermindert werden kann.
-
Während dieses
Problem ein instinktives menschliches Unbehagen bedeutet und von
Praktikern der Videokonferenzsysteme abgetan wird, ist es nichtsdestotrotz
erwünscht,
dass Verbesserungen vorgenommen werden um das Problem zu korrigieren,
indem ein Bildkonferenzsystem angegeben wird, bei welchem alle Teilnehmer
fokussiert und beteiligt erscheinen (nicht zur Seite blicken).
-
Die
Ursache für
den Effekt des verlorenen Blicks liegt beim Nutzer, der anstelle,
dass er direkt in eine Kamera schaut während er spricht, die Person oder
Personen sehen will, zu denen er spricht. Er macht dies, indem er
seinen Blick von der Kamera zu einem Rahmenfenster auf seiner Anzeige
bewegt, welche eine Darstellung eines der Korrespondenten enthält. Wenn
es mehr als ein Fenster gibt, welche Darstellungen von Korrespondenten
enthalten, kann ein Nutzer seinen Blick von einem zum anderen lenken,
während
er mit ihnen spricht und überhaupt nicht
in die Kamera blicken. Der sich hieraus ergebende verlorene Blick
kann eine beträchtliche
Auswirkung auf die Ernsthaftigkeit der Nachricht eines Nutzers haben.
-
Einige
Firmen haben versucht das Problem zu vermindern, indem die Kamera
in den Monitor oder Sichtschirm eines Nutzers integriert wird. Eine Kamera,
die beispielsweise in der Mitte des Monitors platziert ist, kann
den seitlichen Abstand von der Kamera zu irgend einem Rahmenfenster
vermindern. Dies kann den Effekt des verlorenen Blicks vermindern,
ihn jedoch nicht beseitigen. Wenn der Monitor sehr groß ist und
die entsprechenden Fenster am Rand eines solchen Monitors sind,
kann der Effekt des verlorenen Blicks überdies immer noch signifikant
sein.
-
Ein
weiterer Versuch um den Effekt des verlorenen Blicks zu minimieren,
ist von Firmen angeboten worden, die einen speziellen Bildschirm
liefern, vielmehr einen Projektionsschirm, bei welchem eine Kamera
in dem Bildschirm gespiegelt ist. Die Lichtempfindlichkeit ist ein
Nachteil dieses Systemtyps, welcher erforderlich macht, dass die
Komponenten klein und umschlossen gehalten werden. Ebenso ist der
Bildschirm beträchtlich
kleiner als ein Standard-PC-Monitor.
Wenn die Korrespondentenfenster am Rand des Monitors sind, wird
deshalb immer noch ein Effekt des verlorenen Blicks vorliegen.
-
Andere
Entwickler haben versucht, zwei Kameras und eine Stereosoftware
zu verwenden um eine Kamera virtuell innerhalb eines Sichtschirms
zu positionieren. Das US-Patent Nr. 5,886,735 wurde auf ein solches
System erteilt, welches in einer in Verbindung mit dieser Patentanmeldung
eingereichten Erfindungsoffenbarung angegeben ist. Jedoch gibt es
sogar bei dieser Entwicklung einige Probleme.
-
Aus
der WO 99/31889 A1 ist eine Videokonferenzstation gemäß dem Oberbegriff
des Anspruchs 1, ein Videokonferenzsystem gemäß dem Oberbegriff des Anspruchs
7 und ein Verfahren gemäß dem Oberbegriff
des Anspruchs 13 bekannt.
-
Was
eindeutig benötigt
wird, ist ein Verfahren und eine Vorrichtung, die den Effekt einer
virtuellen Kamera erzeugt, welche irgendwo in einem Videokonferenzschirm
platziert werden kann. Eine solche Kamera kann darauf trainiert
werden, dem Blickwinkel eines Nutzers in seinem Bildschirm folgen,
wenn der Nutzer nicht in eine echte Kamera blickt, und zwar so,
dass ein den Nutzer darstellender Datenstrom von Bildern des Angesichts
erzeugt und anstelle einer Winkelaufnahme mit einem verlorenen Blick an
die Korrespondenten übertragen
werden kann.
-
Zusammenfassung
der Erfindung
-
In
einer bevorzugten Ausführungsform
der vorliegenden Erfindung ist eine Videokonferenzstation angegeben,
welche einen Anzeigemonitor mit einem Sichtschirm zum Anzeigen der
Bilder von entfernten Konferenzteilnehmern; zwei oder mehr Videokameras
außerhalb
des Anzeigemonitors zum Aufnehmen der Bilder von einem oder mehreren örtlichen
Teilnehmern vor dem Sichtschirm; und ein Computer-gestütztes Verarbeitungssystem,
welches sowohl mit dem Anzeigemonitor als auch den Videokameras
gekoppelt ist, zum Empfangen von zu Videokonferenzen gehörenden Videodatenströmen und zum
Anzeigen von Bildern aus den Videodatenströmen, zum Senden eines Videodatenstroms
zu den entfernten Konferenzteilnehmern, und zum Verarbeiten der
von den zwei oder mehr Videokameras aufgenommenen Bilder umfasst.
Durch Ausführen
der Software, einschließlich
eines Feldgraphen, und Verwenden der von den zwei oder mehr Videokameras aufgenommenen
Bilder, erzeugt und sendet das Verarbeitungssystem einen einzelnen
Videodatenstrom, welcher ein Bild eines lokalen Teilnehmers liefert,
als ob der Datenstrom von einer innerhalb der Fläche des Sichtschirms positionierten
virtuellen Videokamera aufgenommen worden wäre.
-
In
einer Ausführungsform
positioniert das Verarbeitungssystem die virtuelle Videokamera in oder
nahe der Mitte des Sichtschirms. In anderen Ausführungsformen verwendet das
Verarbeitungssystem die Eingangsdaten der aktiven Fenster in dem
Sichtschirm um die virtuelle Videokamera an einer zu dem aktiven
Fenster gehörenden
Position zu positionieren.
-
In
einer weiteren Ausführungsform
umfasst die Videokonferenzstation zusätzlich zu einzelnen der Videokameras
gehörende
Bedienroboter, zwei oder mehr Positionen für lokale Teilnehmer vor dem Monitorschirm,
und ein Audioeingabesystem für
die Teilnehmer mit Richtungsfähigkeit,
wobei das Verarbeitungssystem bewirkt, dass die Bedienroboter einzelne
der Videokameras auf einzelne der lokalen Teilnehmer entsprechend
der Richtungseingabe aus dem Audioeingabesystem richten. Die Richtungsfähigkeit
kann mit sich bringen, dass jeder lokale Teilnehmer ein einzelnes
Mikrofon hat, wobei jedes einzelne Mikrofon zu einer Position vor
dem Sichtschirm für
den lokalen Teilnehmer gehört,
oder ein Stereomikrofon, bei welchem das Verarbeitungssystem in
der Lage ist, basierend auf Eingangsdaten von dem Stereomikrofon,
die Position von lokalen Teilnehmern vor dem Sichtschirm zu bestimmen.
-
Nach
einem weiteren Gegenstand der Erfindung ist ein Videokonferenzsystem
angegeben, welches zwei oder mehr Videokonferenzstationen und eine
videofähige
Verbindung zwischen den zwei oder mehr Stationen umfasst, wobei
eine oder mehrere der Stationen gekennzeichnet sind, durch einen
Anzeigemonitor mit einem Sichtschirm zum Anzeigen von Bildern von
entfernten Konferenzteilnehmern, zwei oder mehr, außerhalb
des Sichtmonitors befindlichen Videokameras zum Aufnehmen von Bildern von
einem oder mehreren, vor dem Sichtschirm positionierten lokalen
Teilnehmern, und ein Computer gestütztes Verarbeitungssystem,
welches sowohl mit dem Sichtmonitor, als auch den Videokameras gekoppelt
ist, zum Empfangen von zu Videokonferenzen gehörenden Videodatenströmen und
zum Anzeigen von Bildern aus den Videodatenströmen, zum Senden eines Videodatenstroms
zu den entfernten Konferenzteilnehmern, und zum Verarbeiten der
Bilder, der von den zwei oder mehr Videokameras aufgenommenen Bilder,
wobei das Verarbeitungssystem durch Ausführen von Software, einschließlich eines
Feldgraphen, und Verwenden der aufgenommenen Bilder, die von den
zwei oder mehr Videokameras geliefert werden, einen einzelnen Videodatenstrom
erzeugt und sendet, der ein Bild eines lokalen Teilnehmers ergibt,
als ob der Datenstrom von einer virtuellen Kamera aufgenommen worden
wäre, die innerhalb
der Fläche
des Sichtschirms positioniert ist.
-
In
einigen Ausführungsformen
positioniert das Verarbeitungssystem die virtuelle Videokamera in
oder nahe der Mitte des Sichtschirms. In anderen verwendet das Verarbeitungssystem
die Eingangsdaten der aktiven Fenster in dem Sichtschirm um die virtuelle
Videokamera an einer zu dem aktiven Fenster gehörenden Position zu positionieren.
In weiteren Ausführungsformen
umfasst die Videokonferenzstation zusätzlich zu einzelnen der Videokameras
gehörende
Bedienroboter, zwei oder mehr Positionen für lokale Teilnehmer vor dem
Monitorschirm und ein Audioeingabesystem für die Teilnehmer mit Richtungsfähigkeit,
wobei das Verarbeitungssystem bewirkt, dass die Bedienroboter einzelne
der Videokameras auf einzelne der lokalen Teilnehmer entsprechend der
Richtungseingabe aus dem Audioeingabesystem richten. Die Richtungsfähigkeit
umfasst in einigen Fällen,
dass jeder lokale Teilnehmer ein einzelnes Mikrofon hat, wobei jedes
einzelne Mikrofon zu einer Position vor dem Sichtschirm für den lokalen
Teilnehmer gehört.
In anderen Ausführungsformen
umfasst die Richtungsfähigkeit
ein Stereomikrofon und das Verarbeitungssystem ist in der Lage,
basierend auf Eingangsdaten von dem Stereomikrofon, die Position von
lokalen Teilnehmern vor dem Sichtschirm zu bestimmen.
-
Nach
einem weiteren Gegenstand der Erfindung ist ein Verfahren zum Korrigieren
eines verlorenen Blicks in einem Videokonferenzsystem angegeben,
welches die Schritte umfasst: (a) Aufnehmen von Bildern eines Konferenzteilnehmers
durch zwei oder mehr Videokameras, welche außerhalb eines Sichtschirms
positioniert sind; und (b) Zuführen
eines Videodatenstroms von den zwei oder mehr Videokameras zu einem
Prozessor; und (c) Erzeugen eines einzelnen Videodatenstroms aus
den zwei oder mehr Datenströmen
und gespeicherten Variablen und Konstanten, und Verwenden eines
Feldgraphenalgorithmus, wobei der einzelne Videodatenstrom den Konferenzteilnehmer
darstellt, als ob er von einer innerhalb des Monitorschirms platzierten
virtuellen Kamera aufgenommen worden wäre.
-
In
einer Ausführungsform
positioniert der Prozessor die virtuelle Kamera in oder nahe der
Mitte des Monitorschirms. In einer anderen benutzt das Verarbeitungssystem
die Eingangsdaten der aktiven Fenster in dem Sichtschirm um die
virtuelle Videokamera an einer zu dem aktiven Fenster gehörenden Position
zu positionieren. Es kann ein zusätzlicher Schritt zum Bedienen
der Bedienroboter vorhanden sein, welche zu einzelnen der Videokameras
gehören,
um auf einen einzelnen vor dem Monitorschirm positionierten Teilnehmer
zu fokussieren, indem Eingangsdaten von einem Audioeingabesystem
mit Richtungsfähigkeit
verarbeitet werden. Die Richtungsfähigkeit umfasst in manchen
Ausführungsformen,
dass jeder lokale Teilnehmer ein einzelnes Mikrofon hat, wobei jedes
einzelne Mikrofon zu einer Position vor dem Sichtschirm für den lokalen
Teilnehmer gehört.
In Bezug auf die Richtungsstabilität kann ein Stereomikrofon umfasst
sein, und das Verarbeitungssystem ist in der Lage, basierend auf
Eingangsdaten von dem Stereomikrofon, die Position von lokalen Teilnehmern
vor dem Sichtschirm zu bestimmen.
-
In
den verschiedenen Ausführungsformen der
Erfindung, die in den Einzelheiten weiter unten beschrieben sind,
sind Videokonferenzsysteme zum ersten Mal in der Lage, eine virtuelle
Kamera innerhalb einer Bildschirmfläche zu positionieren und die Position
der virtuellen Kamera entsprechend den Verschiebungen in den Blickrichtungen
eines Teilnehmers anzupassen.
-
Kurze Beschreibung
der Figuren
-
1 ist ein Blockdiagramm
zur Veranschaulichung einer Videokonferenzstation aus dem Stand
der Technik.
-
2 ist ein Blockdiagramm
zur Veranschaulichung einer Videokonferenzstation gemäß einer
Ausführungsform
der vorliegenden Erfindung.
-
3 ist ein Blockdiagramm
zur Veranschaulichung der Videokonferenzstation von 2, welche mit einem Video-Codec-Prozessor gemäß einer
Ausführungsform
der vorliegenden Erfindung zusammenwirkt.
-
4 ist ein Blockdiagramm
zur Veranschaulichung einer Videokonferenzstation, bei welcher es
mehreren Nutzern möglich
ist, einen Videokonferenzschirm gemäß einer Ausführungsform
der vorliegenden Erfindung zu teilen.
-
Beschreibung
der bevorzugten Ausführungsformen
-
1 ist ein Blockdiagramm
zum Veranschaulichen eines in einer aktiven Sitzung teilnehmenden
Videokonferenzsystems 100 aus dem Stand der Technik. Das
System 100 weist einen Anzeigemonitor 103 auf,
welcher ein Kathodenstrahl-Monitor, ein Flachbildschirm oder jeder
andere zur Videokonferenzschaltung geeignete Standard-Anzeigemonitor sein
kann. In diesem Beispiel aus dem Stand der Technik ist der Monitor 103 ein
Kathodenstrahl-Monitor, wie er typisch zu einem Personalcomputer
gehört.
Jedoch kann der Monitor 103 anstelle dessen zu einem Videotelefon,
einem Web-TV oder jeder anderen bekannten Vorrichtung, die zur Netzwerk-Videokonferenzschaltung
geeignet ist, gehören.
-
Eine
Kamera 101 ist in einer typischen, außen-montierten Weise vorgesehen,
so wie bei den meisten Videokonferenzsystemen aus dem Stand der
Technik. Die Kamera 101 ist in diesem Beispiel in der oberen
Mitte des Monitors 103 montiert. Bei neueren Einrichtungen
des Stands der Technik, kann die Kamera 101 als eine integrierte
Einheit innerhalb des Bildschirms 103 vorgesehen sein.
-
Während einer
Videokonferenzsitzung können
ein oder mehr Inhaltsfenster auf dem Bildschirm 103 erscheinen.
In dieser Sitzung erscheinen die Inhaltsfenster 105a-c
im Bildschirm 103 und gehören zur aktuellen Videokonferenzsitzung.
Beispielsweise enthält
wenigstens eines der Fenster 105a-c eine Video-/Audio-Darstellung
eines Korrespondenten (Sitzungsteilnehmer). Andere Fenster können andere teilnehmende
Korrespondenten (wenn mehr als zwei teilnehmen), Text- oder Textdialogboxen,
bzw, andere mit einer bestimmten Videokonferenzsitzung verbundene
informative Anzeigen enthalten.
-
Es
ist klar, dass wenn man ein Bild vom Angesicht eines auf dem Bildschirm 103 konferierenden Nutzers
erhalten möchte,
dass dieser Nutzer direkt in die Kamera 101 blicken muss.
Wenn ein Nutzer anstelle dessen auf den Inhalt eines der Fenster 105a-c blickt,
dann sieht jeder andere in dieser Sitzung von einem fernen System
aus teilnehmender Nutzer den ersten Teilnehmer nicht direkt von
vorne. Dies erzeugt in unnatürlicher
Weise den Effekt des verlorenen Blicks, der bereits im Zusammenhang
mit dem Hintergrund der Erfindung beschrieben wurde.
-
Wenn
die Kamera 101 in den Bildschirm 103 so integriert
wäre, dass
sie in einer festen Position innerhalb des Bildschirms 103 gehalten
wird, gegebenenfalls in der Mitte, kann der Effekt des verlorenen Blicks
vermindert, jedoch nicht in allen Fällen beseitigt werden.
-
Der
Erfinder löst
das, durch das Beispiel aus dem Stand der Technik veranschaulichte,
Problem, indem mehrere Kameras und eine Software-Anwendung vorgesehen
sind, welche eine virtuelle Kamera erzeugt, die ein Bild an beliebiger
Stelle des Bildschirms 103 machen kann, und welche die
Position der virtuellen Kamera wie erforderlich einstellt. Das Verfahren
und die Vorrichtung der vorliegenden Erfindung werden weiter unten
näher erläutert.
-
2 ist
ein Blockdiagramm zum Veranschaulichen eines in einer aktiven Sitzung
teilnehmenden Videokonferenzsystems 200 nach einer Ausführungsform
der vorliegenden Erfindung. Der Monitor 202 ist in dieser
Ausführungsform
ein Kathodenstrahl-Monitor,
typischerweise derjenige eines Personalcomputers, der zur Durchführung der
vorliegenden Erfindung geeignet ist, wie bereits bei dem Monitor 103 von 1 beschrieben
wurde.
-
Jedoch
kann der Monitor 202 eine Anzeigevorrichtung irgendeines
Typs von Netzwerkvorrichtung sein, welche zur Videokonferenzschaltung
geeignet ist, wie beispielsweise ein Videotelefon oder gegebenenfalls
ein Web-TV-Schirm.
-
Anstelle
eine einzelne Kamera zu verwenden, wie Kamera 101 des Systems 100 aus
dem Stand der Technik (1), sieht der Erfinder eine Vielzahl
von Kameras 201a-d vor, die um den Umfang des Bildschirms 202 montiert
sind. Die Kameras 201a-d können in anderen Positionen,
als wie im Beispiel gezeigt sind, montiert werden, ohne aus dem Umfang
der Erfindung zu gelangen. Ferner können weniger oder mehr Kameras 203a-d
vorliegen als die vier, welche hier veranschaulicht sind, solange
wenigstens zwei solche Kameras-vorliegen. Mehr Kameras können Vorteile
beim virtuellen Platzieren in Ausführungsformen der vorliegenden
Erfindung bringen. In einer Ausführungsform
können
nur 2 Kameras vorhanden sein, beispielsweise 201d und 201b, die
gegenüberliegend
montiert sind. In einer stärker bevorzugten
Ausführungsform
sind wenigstens drei Kameras vorgesehen, beispielsweise die Kameras 201a, 201b und 201d.
Der Vorzug von mehr als 3 Kameras 201 ergibt sich aus der
Tatsache, dass mehr Kameras dem System 200 mehr Eingangsdaten
liefern können,
wie unten näher
erläutert
wird.
-
Das
spezifische Montiermuster der Kameras 201a-d ist zur Durchführung der
Erfindung nicht besonders wichtig, solange sie allgemein um den
Bildschirm 202 verteilt sind. Jede Kamera 201a-d
ist geeignet, dass sie von jeder Montierposition auf einen Nutzer
so fokussieren kann, dass es mehrere Kamerawinkel in der Rufzeichnungssichtlinie
gibt.
-
Auf
dem Bildschirm 202 sind 3 Videodarstellungsfenster 203a-c
dargestellt. Die Fenster 203a-c sind zu den Fenstern 105a-c
des Systems 100 aus dem Stand der Technik (1)
analog. Beispielsweise können
alle drei Fenster 203a-d Bilder von Korrespondenten aufweisen,
welche die vorliegende Erfindung ausführen und mit einem Nutzerbediensystem 200 konferieren.
In einer Ausführungsform
kann Fenster 201a ein Bild eines Korrespondenten aufweisen,
während
Fenster 203b einen Text und Fenster 203c eine
andere Art von Textdialog, beispielsweise einen Chat oder ein Meldungssystem
enthält.
Es gibt viele Möglichkeiten.
-
Eine
besondere Aufgabe der vorliegenden Erfindung liegt darin, eine virtuelle
Kameraposition in der Bildschirmfläche des Monitors zu schaffen,
indem spezifische Bilddaten der Kameras 201a-d kombiniert
werden. Eine solche virtuelle Kamera ist keine tatsächliche
Kamera, sondern ein wiedererschaffenes Bild eines Nutzers, das sich
aus einer Abfolge von berechneten Daten aus einer Kombination der Echtzeit-Kameraeingänge der
Kameras 201a-d ergibt. Andere Daten, welche Eingabedaten
und variable Informationen, wie die Koordinatenpositionen der Fenster 203a-c,
welches der Fenster 203a-c in der Sitzung aktuell aktiv
ist, und dergleichen Informationen umfassen, sind auch in einer
Berechnungsfolge für
die virtuelle Kamera enthalten.
-
Beim
Ausführen
der vorliegenden Erfindung kann ein Nutzer, der in einer Sitzung
beteiligt ist und das System 200 einsetzt, auf das Fenster 203b schauen,
von dem für
den Zweck der vorliegenden Erfindung angenommen ist, dass es das
aktuell aktive Fenster in der Sitzung ist. Wie zuvor beschrieben, kann
Fenster 203b ein Bildfenster für einen Korrespondenten sein,
oder beispielsweise eine Schrift- oder Textanzeige. Es wird angenommen,
dass während
ein Nutzer direkt auf das Fenster 203b schaut, er nicht
auf irgendeine der Kameras 201a-d schaut. Jedoch sind die
Kameras 203a-d auf den Nutzer gerichtet und nehmen separate
und vollständige
Bildfolgen des Nutzers von den jeweiligen Winkeln und Perspektiven
ihrer Montierpositionen um den Bildschirm 202 auf. Zusammen
mit den bekannten Aufnahmewinkeln für jede Kamera 203a-d,
ist von jeder Kamera der genaue Abstand zum Gesicht des Nutzers ebenso
bekannt.
-
Während ein
Nutzer auf das Fenster 203b schaut, zeichnen die Kameras 201a-d
auf und senden ihre separaten Datenströme in ein Verarbeitungsmittel
(in 2 nicht gezeigt) zum Erfassen und Analysieren,
wobei anschließend
nur die kombinierten und berechneten Daten benutzt werden, die erforderlich
sind um eine virtuelle Bildfolge des Nutzers zu erzeugen. Die erzeugte
Bildfolge erscheint anderen Korrespondenten als ob eine Kamera an
dem Aufnahmepunkt des Blick des Nutzers, in diesem Fall ungefähr an einem
Mittelpunkt des Fensters 203b, positioniert worden wäre, und
dass die Kamera eine Abfolge des Angesichts aufzeichnet.
-
Es
sei festgestellt, dass in dieser Ausführungsform die Position der
virtuellen Kamera auf die ungefähre
Mitte des aktiven Fensters eingestellt ist. Wenn ein anderes Fenster
aktiviert wird, sind die Koordinaten dieses Fensters bekannt und
die Position der virtuellen Kamera kann zu dem neuen aktiven Fenster
verschoben werden. Es kann ein Vorteil aus der hohen Wahrscheinlichkeit
gezogen werden, dass ein Nutzer in irgendein gerade aktives Fenster
blickt, und, falls ein Nutzer absichtlich ein Fenster aktiviert, dass
es eine hohe Wahrscheinlichkeit gibt, dass der Nutzer direkt in
das neu aktivierte Fenster blickt.
-
Auf
diese Weise wird ein virtueller Kameraeffekt erzeugt und der sich
ergebende Videodatenstrom, der an andere Korrespondenten übertragen wird,
erscheint auf diese, als ob sich eine mobile Kamera immer dem Nutzer
gegenüber
befindet, sogar wenn sich sein Blick von einer Fläche des
Bildschirms 202 zu einer anderen bewegt. Als ein Ergebnis
beseitigt das System 200 den Effekt des verlorenen Blicks,
der bei den meisten Systemen des Stands der Technik auftritt. Weiter
unten sind Details über
die Kombination und Berechnung getrennter Dateneingänge zum
Erzeugen einer solchen virtuellen Kamera angegeben.
-
3 ist
ein Blockdiagramm zum Veranschaulichen eines Videokonferenzsystems 200,
das in einer aktiven Sitzung beteiligt ist und mit einer durch die
Software 302 verbesserten Video-Codec-Verarbeitungseinheit 301 zusammenwirkt,
entsprechend einer Ausführungsform
der vorliegenden Erfindung. Das System 200 verwendet eine
Verarbeitungseinheit 301, welche ein System zur Video-Codec-Verarbeitung ist.
Die Verarbeitungseinheit 301 kann jede geeignete Verarbeitungshardware
sein, die geeignet ist, Software zum Verarbeiten und Puffern digitaler
Videodaten einzusetzen.
-
Der
Prozessor 301 kann ein Computerprozessorsystem sein, eine
verbesserte Videotelefoneinheit, oder jeder andere angeschlossene
Prozessor, der eine geeignete Prozessorleistung zum Verarbeiten
von Video-/Audiodatenströmen
gemäß der Erfindung
hat. In dieser Ausführungsform
ist der Prozessor 301 ein Computerprozessor, auf dem beispielsweise
Windows 98TM läuft, welcher alle dem Fachmann
bekannten notwendigen Komponenten enthält, die für die Video-/Audio-Verarbeitung
notwendig sind. Solche Komponenten umfassen eine Videoaufnahmevorrichtung,
einen Videogerätetreiber, ausreichend
Arbeitsspeicher (RAM), eine Sound-/Videokarte und so weiter, sind
jedoch hierauf nicht beschränkt.
-
Die
Verarbeitungseinheit 301 empfängt separate Videodatenströme von jeder
der Kameras 203a-d, wie durch die angeschlossenen Richtleitungen 305,
die von den Kameras 203a-d stammen und zur Einheit 301 laufen,
veranschaulicht ist. Es ist eine durch die Bezugsziffer 303 veranschaulichte,
zweigerichtete Netzwerkverbindung vorgesehen, welche geeignet ist
eine Kommunikationsnetzwerkverbindung für das System 200,
wie sie im Stand der Technik bekannt ist, zu ermöglichen. In dieser Ausführungsform
wird angenommen, dass die Verbindung 303 eine Internetverbindung
ist, welche eine Landleitungsverbindung durch ein ISP, oder eine
drahtlose feste oder mobile Verbindung sein kann. In einer Ausführungsform
kann die Verbindung 303 zu einem lokalen Flächennetzwerk
(LAN) bestehen, welches darüber
hinaus mit einem großflächigen Netzwerk (WAN)
oder einer Internetverbindung verbunden ist.
-
Im
allgemeinen stellt die Verbindung 303 jede zweigerichtete
Kommunikationsverbindung dar, die zwischen Knoten eingerichtet werden
kann, die auf einem Kommunikationsnetzwerk arbeiten und die vorliegende
Erfindung ausführen.
Ein Videoausgangskanal 307 ist vorgesehen, welcher geeignet
ist, ankommende Videodaten von der Einheit 301 zu tragen,
damit diese auf dem Bildschirm 202 angezeigt werden können, wie
durch die Richtung des Pfeils auf der Verbindung 307 veranschaulicht
ist. Die Verbindung 307 ist von herkömmlicher Art und größtenteils durch
die Architektur der Computerhardware vorgegeben. In anderen Ausführungsformen,
beispielsweise bei einem Videotelefon, können alle genannten Komponenten,
welche das System 200 umfasst, in einer physikalischen
Einheit enthalten sein.
-
Zusätzlich zu
den normalen Videoverarbeitungskomponenten, die für das System 200 vorgesehen
sind und welche zum Senden und Empfangen von Video/Audio-Daten über ein
Verbindungsnetzwerk geeignet sind, gibt der Erfinder eine verbesserte Feldgraphen-Software-Anwendung
(SW) 302 an, welche in der für die Verarbeitungseinheit 301 vorgesehenen
normalen Video-/Audio-Verarbeitungssoftware
integriert werden kann.
-
SW 302 enthält Routinen,
die erforderlich sind, um die von den Kameras 201a-d über die
Leitungen 305 empfangenen Daten, einschließlich anderer
bekannter Dateneingänge,
zu kombinieren und Berechnungen durchzuführen um virtuelle Daten zu erhalten
und um den oben beschriebenen virtuellen Bilddatenstrom zu erzeugen.
Einmal verarbeitet in der Einheit 301, wird der sich ergebende
Bilddatenstrom mittels der Verbindung 303 und über ein
geeignetes Netzwerk übertragen.
-
Feldgraphen
sind in der Technik der holographischen Bildgebung wohlbekannt.
Sie werden eingesetzt um eine bestimmte Ansicht eines Gegenstands
in einem virtuellen 3D-Raum zu berechnen. Die Verwendung eines Feldgraphen
basiert im allgemeinen auf einer holographischen Aufzeichnung, manchmal
jedoch auch auf dem Einsatz von Stereokameras. Typisch wird ein
Feldgraph eingesetzt um ein zu einem Bild gehörendes Interferenzmuster zu berechnen.
Das berechnete Interferenzmuster präsentiert das holographische
Bild aus einem bestimmten Blickwinkel.
-
SW 302 ist
in dieser Ausführungsform
eine verbesserte Feldgraphenanwendung, welche im Stand der Technik
nicht bekannt ist. Ein Unterschied zwischen einer im Stand der Technik
bekannten Anwendung eines Feldgraphen und dem Feldgraphen SW 302 der
vorliegenden Erfindung liegt darin, dass, basierend auf einer gewünschten
virtuellen Position und Richtung einer virtuellen Kamera, welche
sich aus dem Daten ergeben, die von einer Vielzahl von tatsächlichen
Kameras, wie den Kameras 201a-d, geliefert werden, nur
ein virtuelles Bild berechnet wird. Moderne CPUs, wie der Intel
Pentium IITM und der AMD K6TM,
weisen einen Satz eingebauter Beschleunigerfunktionen auf um solche
Feldgraphenberechnungen zu unterstützen.
-
Bei
der allgemeinen Ausführung
der vorliegenden Erfindung nimmt ein Nutzerbediensystem 200 an
einem Konferenzruf mit wenigstens einem weiteren entfernten Nutzer
teil. Wenn Inhaltsfenster, wie die Fenster 203a-c, auf
dem Bildschirm 202 während
einer Sitzung erscheinen, kann ein Nutzer geneigt sein, eine Zeit
lang auf eines der Fenster zu blicken. Wenn alle drei Fenster 202a-c
empfangene Videodatenströme
enthalten, welche beteiligte Korrespondenten darstellen, wird ein
Nutzer geneigt sein, auf ein gerade aktives oder in einer aktuellen Übermittlung
beteiligtes Fenster zu blicken.
-
Wenn
nun angenommen wird, dass ein Nutzerbediensystem 200 mit
einem im Fenster 203a dargestellten Korrespondenten zusammenwirkt,
dann ist es sehr wahrscheinlich, dass der Nutzer während der Interaktion
auf das Fenster 203a blickt. Interaktion umfasst Sprechen
mit oder Anhören
des im Fenster 203a dargestellten Korrespondenten. Das
Fenster 203a ist dem Computer als aktives Fenster bekannt. Während dieses
Zeitraums, der eine Abfolge darstellt, nehmen die Kameras 201a-d
separate Videodatenströme
des Nutzers während
der Interaktion auf. Jeder Datenstrom wird von jeder Kamera 201a-d über die
jeweiligen Verbindungen 305 zur Einheit 301 zur
Verarbeitung geleitet.
-
In
diesem Beispiel ist die Koordinatenposition des Fensters 203a auf
dem Bildschirm 202 bekannt. Das Fenster 203a kann
in manchen Ausführungsformen
als aktiv bestimmt werden, indem der Nutzer auf das Fenster klickt.
Die Koordinaten des Fensters 203a werden dann in die von
SW 302 durchgeführte
Berechnung einbezogen. SW 302 erzeugt, basierend auf den
von den Kameras 201a-d gelieferten Daten, ein Bild wie
von einer virtuellen Position aufgenommen. Die zum Fenster 203a gehörenden Koordinatendaten
werden in Verbindung mit allen oder nur den angrenzenden Bildkoordinatendatenzuweisungen,
die von den Kameras 201a-d aufgenommen werden, verwendet.
-
In
diesem Beispiel können
die Daten aus den Kameras, beispielsweise 201d und 201c,
welche die nächsten
Aufnahmen des Angesichts des Nutzers darstellen, alle Daten sein,
die zur Berechnung eines annehmbaren virtuellen Bilds des Angesichts
erforderlich sind. Beispielsweise zeigt Kamera 201d den Nutzer
mit einer Gesichtsposition, bei welcher er nach rechts und im Winkel
nach unten blickt, während
Kamera 201c den Nutzer zeigt, wie er nach links und im
Winkel aufwärts
blickt. In Bezug auf den Abstand des Fensters 201a, das
Fenster, dem die aktuelle Aufmerksamkeit des Nutzers gehört, sind
die restlichen Kameras weiter entfernt. Deshalb werden nur die Kameras 201a und 201c für Daten
benutzt. Wenn das Fenster 201b das aktive Fenster wäre (empfängt den
Blick des Nutzers), dann würden
die Daten aus den Kameras 201a-d benutzt werden.
-
SW 302 hat
die Fähigkeit
einen neuen Bilddatenstrom aus den Eingangsdatenströmen und
variablen und konstanten Daten zu modellieren, wobei der neue Datenstrom
neue Pixelwerte enthält,
die aus den tatsächlichen
Pixeldaten der beiden separaten Bilddatenströme aus den Kameras 201d und 201c (die
besten Aufnahmen) erzeugt sind. Der modellierte bzw. virtuelle Datenstrom
wird über
die Verbindung 303 an alle anderen Korrespondenten übertragen.
Der Effekt ist, dass ein Nutzer erscheint, als ob er in einer frontalen
Angesichtsposition aufgezeichnet worden wäre, bzw. als wie wenn eine
Kamera genau hinter dem Fenster 203a positioniert worden
wäre.
-
In
einer weiteren Ausführungsform
berücksichtigt
die Software auch die Cursorposition auf dem Bildschirm um eine
virtuelle Position für
eine Videokamera zu bestimmen. In einer anderen Ausführungsform
ist eine Aktivierung irgendeines Fensters zum Gewinnen der wahrscheinlichen
Koordinaten für den
Blick eines Nutzers, beim Ausführen
der vorliegenden Erfindung nicht spezifisch erforderlich. In dieser
Ausführungsform
ist SW 302 mit der Fähigkeit verbessert
worden, die Neigungsrichtung und den Winkel des Gesichts einer Nutzers
längs einer x-y-z-Achse
zu erkennen, indem eine tatsächliche Kameraansicht
des Gesichts eines Nutzers mit einem zuvor eingegebenen direkten
Anblick des Gesichts eines Nutzers verglichen wird, wobei es SW 302 möglich ist,
den Richtungswinkel des Blicks eines Nutzers zu jedem gegebenen
Zeitpunkt vorherzusagen. Die kombinierten Werte von beispielsweise vier
Kameras 201a-d ergeben einen genauen Satz von Koordinaten
für jede
Fläche
auf dem Bildschirm 202, welche den Blick des Nutzers empfängt. Auf
diese Weise ist der Nutzer nicht darauf beschränkt, auf ein als aktiv festgestelltes
Fenster bzw. einen Gegenstand auf dem Bildschirm 202 zu
blicken. Er kann die Richtung seines Blicks über den Bildschirm 202 willkürlich verändern. Ein
Nutzer kann sogar auf Abschnitte des Bildschirms oder der Arbeitsfläche blicken,
die nicht spezifisch zu dem System 200 gehören, beispielsweise
eine Tool-Balkenfläche,
eine Seitenbalkenfläche
oder eine Fläche,
die gar nicht zum Bildschirm 202 gehört, wie eine Tastaturfläche. SW 302 kann
mit ausreichender Verarbeitungsleistung einen virtuellen Bilddatenstrom
in Echtzeit berechnen, der eine Übertragung
des direkten Anblicks des Nutzers darstellt.
-
Dem
Fachmann ist klar, dass das Verfahren und die Vorrichtung der vorliegenden
Erfindung mit extern montierten Kameras, beispielsweise den oben beschriebenen
Kameras 201a-d, oder mit Kameras, die in den Sichtschirm
oder Monitor integriert sind, durchgeführt werden kann, ohne aus dem
Umfang der vorliegenden Erfindung zu gelangen.
-
In
einer weiteren Ausführungsform
der vorliegenden Erfindung ist es wünschenswert, dass ein System,
wie System 200, dafür
geeignet ist, dass sich mehr als ein Nutzer einen einzelnen Sichtschirm teilen.
Der Erfinder gibt eine Verbesserung an, welche Richtungsindikatoren
von Eingangsaudiodaten zu Punktpositionen von mehr als einem, sich
eine Anzeige teilenden Nutzer verwendet, um es den montierten Kameras
zu ermöglichen
während
der Videokonferenzaktivität
auf den geeigneten Nutzer zu zeigen. Eine solche verbesserte Ausführungsform
der vorliegenden Erfindung ist unten im einzelnen dargestellt.
-
4 ist
ein Blockdiagramm, dass ein Videokonferenzsystem 401 veranschaulicht,
bei welchem sich mehrere Nutzer gemäß einer Ausführungsform der
vorliegenden Erfindung einen Sichtschirm teilen. System 401 ist
in diesem Beispiel als ein System 200 veranschaulicht,
wie es bereits oben beschrieben wurde, mit Ausnahme, dass es den
Nutzern das Aufteilen eines gleichen Sichtschirms ermöglicht.
Das System 401 umfasst eine Nutzeranlage 403 und
eine Nutzeranlage 405. Die Anlagen 403 und 405 sind voneinander
entfernte Ausrüstungsgruppen,
die über ein
Kommunikationsnetzwerk 417 miteinander verbunden sind,
und somit ein funktionierendes Videokonferenzverbindungssystem 401 ergeben.
Von den Anlagen 403 und 405 kann angenommen werden, das
sie gleichermaßen
geeignet sind, mehrere Nutzer in geteilter Weise zu unterstützen. Jedoch
ist dies nicht unbedingt erforderlich, solange eine Anlage mehrere
Nutzer unterstützt.
-
Die
Anlage 403 umfasst einen Nutzer 407 in dieser
Ausführungsform,
der eine Station mit einem Sichtmonitor 409 bedient. Der
Sichtmonitor 409 kann ein modifizierter (vergrößerter)
Kathodenstrahl-Monitorschirm sein, der mit einem Personalcomputer
verbunden ist, wie hier durch die Bezugsziffer 412 veranschaulicht
ist. In einer Ausführungsform
kann der Sichtmonitor 409 ein Vorwärts- oder Rückwärtsprojektionsschirm sein,
oder eine andere Art von Bildschirm, die zu einer Netzwerkanwendung
gehört
und zum Ausführen
der vorliegenden Erfindung geeignet ist. Die Tatsache, dass nur
ein Nutzer 407 zum Bedienen der Anlage 403 dargestellt,
legt der vorliegenden Erfindung keine Beschränkung auf. Wie oben beschrieben,
können
mehrere Nutzer an der Anlage 403 in geteilter Weise arbeiten,
jedoch ist zum Zwecke der Diskussion nur ein Nutzer 407 an
der Anlage 403 dargestellt.
-
Eine
Vielzahl von extern montierten Kameras 411 ist vorgesehen,
welche geeignet ist, den Nutzer 407 während einer Videokonferenzsitzung
visuell aufzuzeichnen. Die Kameras 411 sind zu den Kameras 201a-d
von 3 analog, mit Ausnahme, dass sie in einer Ausführungsform
bezüglich
einer gegenüberliegenden
Position durch Roboter einstellbar bzw. fest montiert und manuell
einstellbar sind. Drei Kameras 411 sind in Montierpositionen
um den Monitor 409 erkennbar. Es können mehr als drei montierte Kameras 411 vorliegen,
oder es können
nur zwei Kameras 411 vorgesehen sein, wie in 2 in
Bezug auf die Kameras 201a-d beschrieben ist.
-
In
diesem Beispiel verwendet der Nutzer 407 ein Standardmikrofon
(eigentliches Mikrofon ist nicht dargestellt) um die Audiofunktion
während
einer Videokonferenzsitzung zu ermöglichen, wie im allgemeinen
im Stand der Technik bekannt ist. Eine Mikrofonleitung 413 veranschaulicht
die oben beschriebene Implementierung und aktive Verbindung mit
dem Computer 412 durch einen Mikrofonanschluss oder Buchse 415.
Der Mikrofonanschluss 415 kann so ausgelegt sein, dass
mehrere Mikrofone gleichzeitig bedient werden können, wenn er, eine Vielzahl
von Mikrofonsockeln installiert hat.
-
Die
Anlage 405 umfasst eine Vielzahl von Nutzern 425a-b,
welche sich die Bedienung des Sichtschirms 423 teilen.
Alle der obigen Parameter und Optionen, die bei dem Schirm 409 diskutiert
wurden, sind auf den Schirm 423 der Anlage 405 anwendbar.
Eine Vielzahl von extern montierten Kameras 421 ist vorgesehen
und um den Schirm 423 montiert. Die Kameras 423 sind
zu den oben beschriebenen Kameras 411 analog. Die Nutzer 425 verwenden Standardmikrofone
um die Audiofunktionen in Videokonferenzschaltungen zu ermöglichen,
wie im Stand der Technik bekannt ist. Der Grund zum Verwenden von
mehr als einem Mikrofon an der Anlage 405 ist weiter unten
beschrieben.
-
Die
Mikrofonanschlussmöglichkeit
des Nutzers 425a ist durch eine Mikrofonleitung d veranschaulicht,
die in einen Mikrofonanschluss oder Fuchse 427 führt. Die
Mikrofonleitungen e und f veranschaulichen die Mikrofonanschlussmöglichkeiten der
Nutzer 425b bzw. 425c (tatsächliche Mikrofone sind nicht
ausgeführt).
Alle Mikrofonleitungen d-f sind als in einen einzigen Anschluss 427 eingesteckt
dargestellt, welcher eine Vielzahl von Mikrofonsockeln enthält. Der
Anschluss 427 kann geeignet sein, mehr oder weniger Mikrofonverbindungen
zu erlauben, ohne dabei aus dem Umfang der vorliegenden Erfindung
zu gelangen.
-
In
einer einfachen Ausführungsform
wird allen angeschlossenen Mikrofonen eine eindeutige Anschlussadresse
gegeben, wobei jeder verfügbare Eingangssockel
im Anschluss 427 identifiziert wird. Im Falle der Nutzer 425a-c
erhält
jeder ein separates Mikrofon mit einer eindeutigen Adresse, welche
verwendet werden kann, um die von den Nutzern 425a-c vor
dem Schirm 423 bei der Videokonferenzschaltung eingenommene
Sitzanordnung zu identifizieren.
-
In
einer Ausführungsform
ist die Einstellbarkeit der Kameras 421 und 411 durch
Roboter über eine
Software mit dem Adressierverfahren der angeschlossenen Mikrofonleitungen
verbunden. Wenn beispielsweise einer der Nutzer 425a-b auserkoren ist
in sein Mikrofon sprechen, wird von diesem bestimmten Nutzer angenommen,
dass er aktiv ist, was bewirkt, dass die Kameras 421 ihre
Positionen entsprechend einstellen. Immer wenn einer der Nutzer 425a-b
auf diese Weise aktiv in sein Mikrofon spricht, schwenken die Kameras 421 automatisch
auf diesen bestimmten Nutzer. Wenn ein anderer der Nutzer 425a-c übernimmt,
dann schwenken die Kameras 421 entsprechend über. Dies
erfordert natürlich,
dass jeder Nutzer bei der Videokonferenzschaltung unabhängig von
den anderen Nutzern spricht, wenn alle Kameras auf diesen Nutzer
gerichtet sind.
-
Zur
Ausführung
der vorliegenden Erfindung nach den hier beschriebenen Ausführungsformen wird
bemerkt, dass der Nutzer 407 in einer Videokonferenzsitzung
mit den Nutzern 425a-c teilnimmt. Die Situation kann von
der Art eines Gesprächs
sein, bei welchem der Nutzer 407 ein Gesprächsleiter
und die Nutzer 425a-c Teilnehmer des Gesprächs sind.
Der Gesprächsleiter 407 kann
drei Inhaltsfenster haben (nicht gezeigt), welche auf dem Schirm 409 angezeigt
werden, wobei jedes Fenster geeignet ist, einen virtuellen Bilddatenstrom
seines zugeordneten Korrespondenten 425 anzuzeigen.
-
Weil
es nur einen Gesprächsleiter 407 gibt, ist
es nicht erforderlich, dass die Kameras 411 schwenken,
vielmehr- sind sie einfach auf den Nutzer 407 gerichtet.
Wenn der Nutzer 407 auf ein Mikrofon umschaltet, das einem
anderen Sitz zugewiesen ist, dann muss er sich auch zu diesem Sitz
hin bewegen, da die Kameras 411 auf diese Position schwenken, wenn
er zu sprechen beginnt. Wenn der Gesprächsleiter 407 auf
eine Antwort von einem der Teilnehmer 425a-c wartet, beginnt
das geeignete Inhaltsfenster auf dem Bildschirm 409 in
der Anlage 403 die virtuelle Bildantwort anzuzeigen. Ein
Indikator kann vor einer erwarteten Antwort übertragen werden, so dass die
Kameras vor dem Beginn der Antwort in die Position schwenken.
-
In
einer Ausführungsform
können
bestimmte Kameras 421 zum Schwenken bestimmt werden, während anderen
feste Positionen zugewiesen werden. Es gibt viele mögliche Kombinationen.
Die virtuelle Bildfähigkeit
des Systems 401 ist, anders als die oben beschriebene Audio/Kamera-Steuerverbesserung,
identisch zu der des in den 2 und 3 beschriebenen
Systems 200. Spezielle Gruppenkonferenzsysteme mit vielen
Mikrofonen und Roboterkameras können
geschaffen werden.
-
Es
sei nun angenommen, dass es drei auf dem Schirm 409 angezeigte
Inhaltsfenster gibt, die jeweils Bilddatenströme der Nutzer 425a-c
herausgreifen. In diesem Fall hat der Nutzer 407 drei typische
Blickwinkel, welche durch gepunktete Pfeile veranschaulicht sind.
Wenn einer der Nutzer 425a-c sprechen soll, entsteht ein
virtueller Kameraeffekt wenn die Kameras 421 auf diesen
Nutzer gerichtet sind. Der resultierende Bilddatenstrom erscheint
als ein Bilddatenstrom des Anblicks des Nutzers 407, während die
restlichen beiden Nutzer einen verlorenen Blickeffekt haben. Dies
ergibt sich, weil alle Kameras 421 auf den aktiven Nutzer
gerichtet sind. In einer anderen Ausführungsform können spezifische Kameras
unterteilte Zuweisungen haben. In dem oben beschriebenen Beispiel
schauen alle Nutzer 425a-c in ein Inhaltsfenster, das den
Bilddatenstrom des Nutzers 407 herausgreift, wie durch
die gepunkteten Pfeile dargestellt ist. Wenn die Nutzer 425a-c zum
Sprechen dran sind, gewährleistet
die virtuelle Kamerafähigkeit
in der Anlage 409, dass der virtuelle Bilddatenstrom in
dem Inhaltsfenster, welches den Nutzer 407 auf dem Bildschirm 423 darstellt,
diesen immer direkt von vorne zeigt, obwohl der Nutzer 407 mit
seinem Blick zwischen den Fenstern auf dem Bildschirm 409,
welche die Nutzer 425a-c darstellen, wechselt.
-
Wenn
zusätzliche
Fenster erscheinen, wie eine Textbox oder eine andere Textanzeige,
kann jeder Nutzer das Fenster aktivieren und den virtuellen Kameraeffekt ändern, und
zwar so, als ob eine Kamera direkt hinter dem nichtaktiven Textfenster
wäre. Auf
diese Weise bleiben die virtuellen Bilddatenströme beteiligt und in einer Angesichts-Darstellung
fokussiert.
-
In
einer weiteren Ausführungsform
sind mehrere Mikrophone mit einzelnen Adressen nicht erforderlich
um die vorliegende Erfindung auszuführen. Beispielsweise kann,
anstelle der Verwendung von Mikrofonverbindungen d-f, eine einzelne
oder Stereo-Mikrofoneinrichtung vorgesehen sein, bei welcher ein
oder mehr gerichtete Audiosensoren, die zum Erfassen von Richtung
und Abstand geeignet sind, in das Mikrofon integriert sind. Auf
diese Weise schwenken die Kameras 421 auf einen neuen Nutzer, wenn
er zu sprechen beginnt, und die Sensoren erfassen seinen Ort. Der
einzige Nachteil bei dieser Ausführungsform
ist, dass ein Nutzer eine Bestätigung
irgendeiner Art äußern muss,
bevor er mit einer Antwort beginnt, um den Kameras 421 genug
Zeit zu geben in seine Position zu schwenken.
-
Einem
Fachmann ist klar, dass das Konferenzsystem mit virtuellem Bild
als ein neues System vorgesehen werden kann, oder in bestehende
Konferenzsysteme integriert werden kann, ohne aus dem Umfang der
vorliegenden Erfindung zu gelangen. Beispielsweise kann ein Software/Hardware-Aufrüstpaket,
um eine Ausführung
der vorliegenden Erfindung zu ermöglichen und spezifische bestehende Systeme
zu verbessern, vorgesehen werden. Ein solches Aufrüstprodukt
wird natürlich
dem zum Aufrüsten
ausgesuchten Systemtyp, einschließlich seiner Plattform und
ausführender
Hardware, angepasst.
-
Entsprechend
einer weiteren Ausführungsform
kann ein 3-D-System
vorgesehen werden, indem eine geeignete 3-D-Grafik-Software und Hardware
in dem System enthalten ist. In einem solchen System kann ein virtueller
Bilddatenstrom so erzeugt werden, dass er als eine 3-dimensionale
Darstellung eines entsprechenden Nutzers erscheint. Wenn beispielsweise
ein Nutzer in einem Winkel zu einem Inhaltsfenster, das einen Korrespondenten
zeigt, auf die Seite gesetzt wird, dann kann das virtuelle Bild die
Bewegungen des Nutzers so einfangen, dass es so aussieht als ob
er seinen Blick neigt und verschiebt um den Nutzer direkt anzublicken.
Eine solche komplexe Ausführungsform
erfordert eine beträchtliche
Rechenleistung und ist für
tagtägliche Nutzer
nicht praktikabel. Jedoch ist eine solche Ausführungsform möglich.
-
Verfahren
und Vorrichtung der vorliegenden Erfindung sollten im Hinblick auf
die oben dargestellten zahlreichen möglichen Ausführungsformen,
einschließlich
anderer anwendbarer Ausführungsformen,
die vom Erfinder beabsichtigt sind, hier jedoch keine Erwähnung finden,
aufgefasst werden. Deshalb ist der Umfang der vorliegenden Erfindung
nur durch die beigefügten
Ansprüche
begrenzt.