DE602004008397T2

DE602004008397T2 - Videokonferenzsystem mit physischen Hinweisen

Info

Publication number: DE602004008397T2
Application number: DE602004008397T
Authority: DE
Inventors: Karsten Schulz
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2003-11-26
Filing date: 2004-11-25
Publication date: 2008-05-21
Anticipated expiration: 2024-11-26
Also published as: US20050110867A1; ATE371337T1; US7092001B2; EP1536645B1; EP1536645A1; DE602004008397D1

Description

TECHNISCHES GEBIET
Diese Beschreibung bezieht sich auf Videokonferenzsysteme.
HINTERGRUND
Konventionelle Videokonferenzsysteme existieren, welche es Menschen ermöglichen, miteinander über große Distanzen zu kommunizieren. Derartige Videokonferenzsysteme stellen häufig sowohl eine visuelle Darstellung (Video) als auch eine hörbare Darstellung (Audio) von jedem der Konferenzteilnehmer plus einen Satz von Kommunikationswerkzeugen, wie beispielsweise ein Whiteboard oder eine geteilte bzw. gemeinsam genutzte Computeranwendung zur Verfügung.
Beispielsweise kann bzw. können jeder der Konferenzteilnehmer (oder Gruppen von Teilnehmern) an einer Mehrzahl von Orten angeordnet sein. An jedem der Orte können eine Kamera und ein assoziiertes Mikrophon Audio-Video-Information für eine Übertragung zu jedem der anderen Orte aufnehmen. Zusätzlich kann jeder Ort einen Videoschirm und (einen) zugehörige(n) Lautsprecher zum Ausgeben von Audio-Video-Information aufweisen, die von den anderen Orten empfangen ist bzw. wird. Auf diese Weise können alle Teilnehmer die anderen Teilnehmer im wesentlichen in Echtzeit sehen und hören.
Auf dem Gebiet von Robotern existieren Roboter und andere mechanische Vorrichtungen, welche fähig sind, Bewegungen eines Benutzers in einer Distanz für den Zweck eines Ausführens einer Funktion oder einer Aufgabe zu reflektieren.
D.h. eine Verwender- bzw. Benutzerbewegung an einem ersten Ort wird verfolgt und die Bewegung wird durch einen Roboter an einem entfernten Ort reflektiert (beispielsweise gespiegelt). Beispielsweise existieren Systeme, welche es einem Chirurgen ermöglichen, ein Verfahren in einer Entfernung auszuführen, wobei ein ferngesteuerter Roboter physische Tätigkeiten an einem Patienten ausführt, während der Chirurg die Bewegungen des Roboters steuert bzw. regelt, während er seine Tätigkeiten unter Verwendung einer Kamera beobachtet bzw. sieht.
ZUSAMMENFASSUNG
Gemäß einem allgemeinen Aspekt beinhaltet ein System ein audiovisuelles Eingabesystem an einem ersten Ort, welches betätigbar ist, um audiovisuelle Information zu empfangen, die mit einem Konferenzteilnehmer assoziiert ist, ein Gesten- bzw. Gebärdenbestimmungssystem an dem ersten Ort, welches betätigbar ist, um Gesten- bzw. Gebärdeninformation zu bestimmen, die mit einem Gemütszustand des Konferenzteilnehmers assoziiert ist, und eine Tele-Ausbildungseinheit an einem Konferenzort, der von dem ersten Ort entfernt ist, welche betätigbar ist, um die Gebärdeninformation zu empfangen und sich in einer Bewegung entsprechend der Gebärdeninformation zu engagieren, wodurch die Bewegung der Tele-Ausbildungseinheit den Gemütszustand des Konferenzteilnehmers ausdrückt.
Implementierungen können eines oder mehrere der folgenden Merkmale aufweisen. Beispielsweise kann der Konferenzort eine Stelle einer Konferenz sein und die Tele-Ausbildungseinheit kann eine physische Anwesenheit des Konferenzteilnehmers übertragen bzw. liefern.
Ein audiovisuelles Ausgabesystem kann an dem Konferenzort beinhaltet sein, welches betätigbar ist, um die audiovisuelle Information auszugeben, die mit dem Konferenzteilnehmer assoziiert ist. Die Tele-Ausbildungseinheit kann einen Roboterarm beinhalten, der mit einem Monitor und einer Kamera assoziiert ist. In diesem Fall kann die Tele-Ausbildungseinheit betätigbar bzw. betreibbar sein, um den Monitor und die Kamera in Ausrichtung bzw. Übereinstimmung miteinander zu bewegen.
Das Gesten- bzw. Gebärdenbestimmungssystem kann eine Gebärden-Steuer- bzw. -Regeleinrichtung beinhalten, durch welche der Konferenzteilnehmer die Gebärden- bzw. Gesteninformation eingibt. In diesem Fall kann die Gebärdeninformation auswählbare emotionale bzw. Emotionszustände beinhalten und die Bewegung der Tele-Ausbildungseinheit kann vorprogrammiert sein, um mit einem gewählten emotionalen Zustand übereinzustimmen bzw. diesem zu entsprechen.
Das Gebärdenbestimmungssystem kann eine Gebärden-Steuer- bzw. -Regelvorrichtung beinhalten, welche betätigbar ist, um physische Bewegungen des Konferenzteilnehmers zu verfolgen. In diesem Fall kann das Gebärdenbestimmungssystem eine Gebärdeninterpretationseinrichtung zum Assoziieren der physischen Bewegungen mit dem Gemütszustand des Konferenzteilnehmers beinhalten.
Gemäß einem anderen allgemeinen Aspekt wird eine audiovisuelle Eingabe von einem Konferenzteilnehmer empfangen, eine Ausdrucksinformation, die mit einer nicht verbalen Kommunikation des Konferenzteilnehmers assoziiert ist, wird bestimmt, die audiovisuelle Eingabe und die Ausdrucksinfor mation werden zu einem Konferenzort übertragen, die audiovisuelle Eingabe wird an einer audiovisuellen Ausgabe gerendert, die mit einer Tele-Ausbildungseinheit an dem Konferenzort assoziiert ist, und die Tele-Ausbildungseinheit wird basierend auf der Ausdrucksinformation bewegt, um die nicht verbale Kommunikation des Konferenzteilnehmers zu reflektieren.
Implementierungen können eines oder mehrere der folgenden Merkmale aufweisen. Beispielsweise beim Bestimmen einer Ausdrucksinformation kann eine Auswahl von Ausdrucksinformation von einer vorausgewählten Liste empfangen werden, die dem Konferenzteilnehmer verfügbar ist.
Auch beim Bestimmen einer Ausdrucksinformation können physische Bewegungen des Konferenzteilnehmers verfolgt werden und ein Softwarealgorithmus kann laufen gelassen werden, um die nicht verbale Kommunikation basierend auf den physischen Bewegungen zu bestimmen.
Bei einem Bewegen der Tele-Ausbildungseinheit kann ein Videoschirm, welcher an einem Roboterarm festgelegt ist, bewegt werden, um in drei Dimensionen schwenkbar und bewegbar zu sein. Die Tele-Ausbildungseinheit kann eine unmittelbare bzw. Eins-zu-Eins-Übereinstimmung mit dem Konferenzteilnehmer aufweisen, so daß eine physische Anwesenheit des Konferenzteilnehmers an dem Konferenzort übertragen wird.
Das System kann weiterhin ein Videokonferenzsystem umfassen, umfassend eine Mehrzahl von Teilnehmereingabesystemen entsprechend einer Mehrzahl von Konferenzteilnehmern, wobei jedes Eingabesystem betätigbar bzw. betreibbar ist, um eine audiovisuelle Eingabe von seinem entsprechenden Konferenzteilnehmer zu empfangen, und eine Mehrzahl von Tele-Ausbildungseinheiten, die an einem Konferenzort angeordnet sind, welcher von einem Ort von jedem der Teilnehmereingabe systeme entfernt ist, wobei jede der Tele-Ausbildungseinheiten einem der Mehrzahl von Konferenzteilnehmern entspricht und audiovisuelle Ausgabefähigkeiten beinhaltet, wobei die Tele-Ausbildungseinheiten eine physische Anwesenheit ihrer entsprechenden Konferenzteilnehmer an dem Konferenzort übertragen.
Implementierungen können eines oder mehrere der folgenden Merkmale aufweisen. Beispielsweise kann jedes Teilnehmereingabesystem ein Gebärden- bzw. Gestenbestimmungssystem, das betätigbar bzw. betreibbar ist, um Gebärden- bzw. Gesteninformation zu empfangen, die mit einem Gemütszustand ihres entsprechenden Konferenzteilnehmers assoziiert ist, und eine entfernte Kommunikationshandhabungseinheit beinhalten, die betätigbar ist, um die Gebärdeninformation und die audiovisuelle Eingabe zu ihrer entsprechenden Tele-Ausbildungseinheit weiterzuleiten.
In diesem Fall kann das Gebärdenbestimmungssystem eine Gebärden-Steuer- bzw. -Regelvorrichtung, die betätigbar ist, um physische Bewegungen ihres entsprechenden Konferenzteilnehmers zu verfolgen, und eine Gebärdeninterpretationseinrichtung beinhalten, die betätigbar ist, um die physischen Bewegungen mit dem Gemütszustand zu assoziieren.
Jede Tele-Ausbildungseinheit kann eine Robotereinheit beinhalten, die betätigbar bzw. betreibbar ist, um sich in Koordination bzw. Übereinstimmung mit der Gebärdeninformation zu bewegen, so daß die Tele-Ausbildungseinheit physisch den Gemütszustand ihres entsprechenden Konferenzteilnehmers ausdrückt. In diesem Fall kann die Robotereinheit einen Videoschirm beinhalten, der mit einer Kamera ausgerichtet ist und an einem Roboterarm festgelegt ist, welcher betätigbar ist, um den Videoschirm und die Kamera gemeinsam mit der Gebärdeninformation und der audiovisuellen Eingabe zu bewegen. Weiterhin kann in diesem Fall der Roboterarm betätigbar bzw. betreibbar sein, um den Videoschirm und die Kamera in drei Dimensionen zu bewegen.
Die Details von einer oder mehreren Implementierung(en) sind in den beiliegenden Zeichnungen und der nachfolgenden Beschreibung ausgeführt. Andere Merkmale werden aus der Beschreibung und den Zeichnungen und aus den Ansprüchen ersichtlich werden.
BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm eines Videokonferenzsystems mit physischen Hinweisen.
2 ist eine Darstellung bzw. Illustration einer Robotereinheit zur Verwendung in dem Videokonferenzsystem von 1.
3 ist eine Illustration der Robotereinheit von 2, die einen neutralen Ausdruck reflektiert.
4 ist eine Illustration der Robotereinheit von 2, die einen Ausdruck von starkem Interesse reflektiert.
5 ist eine Illustration der Robotereinheit von 2, die einen nicht entschiedenen Ausdruck reflektiert.
6 ist eine Illustration der Robotereinheit von 2, die einen Ausdruck von niedergeschlagener Reserviertheit bzw. Zurückhaltung zeigt.
7 ist eine Illustration der Robotereinheit von 2, die einen Ausdruck von verärgerter Reserviertheit zeigt.
8 ist ein Blockdiagramm der Tele-Ausbildungseinheiten von 1.
9 ist ein Blockdiagramm, welches eine Softwarefunktionalität der Tele-Ausbildungseinheit von 8 darstellt.
10 ist ein Blockdiagramm der lokalen Einheiten von 1.
11 ist ein Blockdiagramm, das eine Softwarefunktionalität der lokalen Einheit von 10 repräsentiert.
12 ist ein Blockdiagramm des Videokonferenzsystems von 1, welches die spezifischen Einheiten und Funktionalität illustriert, die in 8-11 dargestellt bzw. illustriert sind.
DETAILLIERTE BESCHREIBUNG
1 ist ein Blockdiagramm eines Videokonferenzsystems 100 mit physischen Merkmalen bzw. Hinweisen. In 1 ist ein Konferenzort 102 die Stelle bzw. der Ort einer Konferenz 104, welche verschiedene Teilnehmer involviert. In einer derartigen Konferenz ist es, wie dies oben festgehalten wurde, häufig der Fall, daß entfernte Teilnehmer über irgendeine Art eines audiovisuellen Systems involviert sein bzw. werden können.
In 1 ist spezifisch ein entfernter Teilnehmer 106 an der Konferenz 104 durch eine Tele-Ausbildungseinheit 108 dargestellt, welche sich an dem Konferenzort 102 befindet. Die Tele-Ausbildungseinheit 108 beinhaltet eine roboterartige bzw. Robotereinheit 110, welche durch ein Tele-Ausbildungs-Steuer- bzw. -Regelsystem 112 betätigt ist bzw. wird. Wie dies weiter unten im Detail diskutiert ist, beinhaltet die Robotereinheit 110 verschiedene audiovisuelle Systeme zum Aufnehmen von Information von der Konferenz 104 und für ein Anzeigen von Information über den entfernten Teilnehmer 106 zu den anderen Teilnehmern der Konferenz 104 an dem Konferenzort 102.
In 1 wird Information betreffend den entfernten Teilnehmer 106 an einer lokalen Einheit 114 gesammelt, welche lokal zu dem entfernten Teilnehmer 106 ist, und welche durch ein lokales Steuer- bzw. Regelsystem 116 gesteuert bzw. geregelt ist. Beispielsweise kann das lokale Steuer- bzw. Regelsystem 116 eine Kamera und ein Mikrophon betätigen, die mit der lokalen Einheit 114 assoziiert sind, um audiovisuelle Information betreffend den entfernten Teilnehmer 106 zu sammeln und dann diese Information zu der Tele-Ausbildungseinheit 108 über ein Netzwerk 118 zu übertragen. Das Netzwerk 118 kann beispielsweise das öffentliche Telefonnetzwerk (PSTN), das Internet und ein firmenweites Intranet beinhalten.
Die Tele-Ausbildungseinheit 108 dient zum Liefern bzw. Übertragen einer physischen Anwesenheit des entfernten Teilnehmers 106 an die Teilnehmer der Konferenz 104. D.h. die allgemeine Eins-zu-Eins-Korrespondenz bzw. -Übereinstimmung zwischen der Tele-Ausbildungseinheit 108 und dem entfernten Teilnehmer 106 dient als eine Erinnerung an die Teilnehmer an dem Konferenzort 102, daß der entfernte Teilnehmer 106 ebenfalls an der Konferenz teilnimmt. Als ein Ergebnis werden die Teilnehmer allgemein mehr Kenntnis von dem entfernten Teilnehmer 106 nehmen, als wenn ein einziger Monitor verwendet würde, um alle entfernten Teilnehmer an zuzeigen, welche lokal mit dem entfernten Teilnehmer 106 präsent bzw. anwesend sein können oder nicht.
Auf diese Weise können die Teilnehmer an dem Konferenzort 102 wahrscheinlicher veranlaßt sein, sich an den entfernten Teilnehmer 106 betreffend einen speziellen Punkt zu wenden, mit ihm zu konversieren oder ihn zu konsultieren. Beispielsweise kann ein Teilnehmer an dem Konferenzort 102 die Tele-Ausbildungseinheit 108 sehen, die den entfernten Teilnehmer 106 repräsentiert (beispielsweise beinhaltend ein Gesicht des entfernten Teilnehmers 106, das auf einem Videoschirm angezeigt ist, der mit der Robotereinheit 110 assoziiert ist), und kann sich ins Gedächtnis rufen, daß der entfernte Teilnehmer 106 einen bestimmten Erfahrungs- bzw. Expertenbereich besitzt, welcher für einen gegenwärtigen Gegenstand der Konversation relevant ist. Als ein anderes Beispiel können die Teilnehmer an dem Konferenzort 102 wahrscheinlicher veranlaßt sein, den entfernten Teilnehmer 106 zu involvieren, wenn eine Abstimmung betreffend einen bestimmten Tagesordnungspunkt durchgeführt wird.
Die physische Anwesenheit, die durch die Tele-Ausbildungseinheit 108 geliefert ist bzw. wird, kann in gleicher Weise durch eine Tele-Ausbildungseinheit 120 implementiert sein, welche einen entfernten Teilnehmer 122 repräsentiert. Wie dies in 1 gezeigt ist, ist die Tele-Ausbildungseinheit 120 mit ihrer eigenen Robotereinheit 124 und einem Tele-Ausbildungs-Steuer- bzw. -Regelsystem 126 assoziiert, während der entfernte Teilnehmer 122 mit einer lokalen Einheit 128 und einem lokalen Steuer- bzw. Regelsystem 130 assoziiert ist. Noch eine andere Tele-Ausbildungseinheit 132, welche eine Robotereinheit 134 und ein Tele-Ausbildungs-Steuer- bzw. -Regelsystem 136 beinhaltet, kann an dem Kon ferenzort 102, um einen entfernten Teilnehmer 138 zu repräsentieren, mittels einer lokalen Einheit 140 und einem assoziierten lokalen Steuer- bzw. Regelsystem 142 verwendet werden.
Es sollte verstanden werden, daß die entfernten Teilnehmer 106, 122 und 138 an drei unterschiedlichen Orten bzw. Stellen oder an einem einzigen Ort angeordnet bzw. vorhanden sein können. An dem Ort (den Orten) der entfernten Teilnehmer 106, 122 und 138 können Tele-Ausbildungseinheiten vorliegen, die die Teilnehmer an dem Konferenzort 102 repräsentieren.
D.h. die Teilnehmer an dem Konferenzort 102 können Verwendung von ihren eigenen lokalen Einheiten machen, so daß ihre physische Anwesenheit an die entfernten Teilnehmer 106, 122 und 138 übertragen bzw. zugeleitet werden kann. In einem Beispiel kann es lediglich ein Konferenzteilnehmer sein, welcher tatsächlich physisch an einem gegebenen einen aus einer Mehrzahl von Orten anwesend ist, wo jeder Ort Tele-Ausbildungseinheiten für alle anderen Teilnehmer aufweisen kann. Auf diese Weise haben alle Teilnehmer ihre physische Anwesenheit zu allen anderen Teilnehmern übertragen bzw. geliefert.
Wie oben diskutiert, gibt es einen Vorteil einfach beim Übertragen einer derartigen Information einer physischen Anwesenheit während einer Konferenz. Beispielsweise kann ein Sprecher an dem Konferenzort 102 in dem Raum herumschauen und erinnert werden, daß beispielsweise neun andere Teilnehmer vorhanden sind, selbst obwohl lediglich sechs tatsächlich an dem Konferenzort 102 anwesend sein können. Darüber hinaus würde, wie dies oben erwähnt ist, wenn die Tele-Ausbildungseinheiten 108, 120 und 132 Monitore für ein Anzeigen bzw. Darstellen von visueller Information beinhalten, der Sprecher tatsächlich fähig sein, in die individuellen Gesichter der entfernten Teilnehmer 106, 122 und 138 zu sehen, während er spricht.
Insbesondere sollte verstanden werden, daß die Tele-Ausbildungseinheiten 108, 120 und 132 um einen Konferenztisch an Positionen angeordnet sein bzw. werden könnten, welche durch die entfernten Teilnehmer 106, 122 und 138 eingenommen würden, wenn sie tatsächlich an dem Konferenzort 102 anwesend wären. Selbst hinausgehend über eine lediglich physische Anwesenheit der entfernten Teilnehmer 106, 122 und 138 können die Robotereinheiten 110, 124 und 134 als Vehikel bzw. Elemente für ein Übertragen von zusätzlicher Information zwischen den und über die verschiedenen lokalen bzw. anwesenden und entfernten Konferenzteilnehmer verwendet werden.
Spezifisch können, wie dies unten in größerem Detail diskutiert ist, die Robotereinheiten 110, 124 und 134 so gehandhabt werden, um Kommunikationsinformation, wie beispielsweise einen emotionalen Zustand ihrer entsprechenden entfernten Teilnehmer 106, 122, 138 in einer physischen Weise auszudrücken. Wie dies ebenfalls unten beschrieben ist, kann eine derartige Information an den lokalen Einheiten 114, 128 und 140 aufgenommen bzw. aufgezeichnet bzw. eingefangen werden und auf die entsprechenden Tele-Ausbildungseinheiten 108, 120 und 132 unter Verwendung des Netzwerks 118 übertragen werden. Auf diese Weisen stellen die Tele-Ausbildungseinheiten 108, 120 und 132 eine Durchführung von Videokonferenzen zur Verfügung, welche physische Hinweise in bezug auf alle entfernten Teilnehmer beinhalten.
2 ist eine Illustration einer Robotereinheit zur Verwendung in dem Videokonferenzsystem von 1. Spezifisch illustriert 2 die Robotereinheit 110 der Tele-Ausbildungseinheit 108. In 2 ist die Robotereinheit 110 auf einer Basis 202 positioniert. Die Basis 202 kann als ein einfaches bzw. bequemes Werkzeug für dein leichtes und zuverlässiges Positionieren der Robotereinheit 110 um beispielsweise einen Konferenzraumtisch dienen.
Eine erste Verbindung bzw. ein erstes Gelenk 204 verbindet die Basis 202 mit einem ersten Arm 206. Auf einem Paar von Achsen, die durch den ersten Arm 206 definiert sind, wenn er senkrecht zu einer Oberfläche ist, auf welcher die Basis 202 aufruht, erlaubt die erste Verbindung 204 eine Bewegung des ersten Arms 206, beinhaltend eine rotierende (Schwenk-)Bewegung und/oder entlang irgendeiner Achse.
Eine zweite Verbindung bzw. ein zweites Gelenk 208 verbindet den ersten Arm 206 mit einem zweiten Arm 210. Die zweite Verbindung 208 erlaubt eine Bewegung des ersten Arms 206 und/oder des zweiten Arms 210, beinhaltend eine rotierende bzw. Rotationsbewegung, um und entlang einer Achse parallel zur Oberfläche, auf welcher die Basis 202 aufruht.
Eine dritte Verbindung bzw. ein drittes Gelenk 212 verbindet den zweiten Arm 210 mit einem Schirm 214. Die dritte Verbindung 212 erlaubt eine Bewegung des Schirms 214 (in Zusammenhang bzw. Verbindung mit dem ersten Arm 206 und dem zweiten Arm 210) um und entlang des Paars von Achsen, die oben definiert sind. Zusätzlich erlaubt die dritte Verbin dung 212 eine Bewegung des Schirms um eine und entlang einer Achse, welche senkrecht zu beiden dieser Achsen ist (d.h. eine Achse, die aus dem Papier in 2 herausführt).
Auch in 2 sind ein erstes Mikrophon 216 und ein zweites Mikrophon 218 mit dem Schirm 214 verbunden, um Audioinformation von der Konferenz zu sammeln. In gleicher Weise ist eine Kamera 220 mit dem Schirm 214 verbunden, und ein Lautsprecher 222 ist an der Basis 202 angelenkt bzw. festgelegt.
Die Robotereinheit 110 überträgt bzw. übermittelt somit nicht nur eine physische Anwesenheit ihres assoziierten entfernten Teilnehmers 106 an einer Konferenz, sondern sie dient auch andererseits dazu, um eine Kommunikation zwischen allen (lokalen und entfernten) Konferenzteilnehmern zu erleichtern. Beispielsweise ist, da die Kamera 220 mit dem Schirm 214 ausgerichtet ist, ein Gesichtsfeld eines entfernten Teilnehmers mit einem Aussehen des Gesichts des entfernten Teilnehmers ausgerichtet, ebenso wie sich die Augen einer Person allgemein gemeinsam mit einer Richtung des Kopfs der Person bewegen.
Als ein Ergebnis kann der entfernte Teilnehmer 106 die Robotereinheit 110 wie erforderlich drehen, um beispielsweise in einer Richtung eines neuen Sprechers zu schauen (eine Betätigung der Robotereinheit 110 unter Verwendung der lokalen Einheit 114 ist unten in größerem Detail diskutiert). In ähnlicher Weise sind die Mikrophone 216 und 218 lokal an dem Schirm 214 positioniert und bewegen sich mit dem Schirm 214, so daß der entfernte Teilnehmer 106 die Robotereinheit 110 betätigen kann, um sich zu einem Teil nehmer unmittelbar rechts oder links von der Robotereinheit 110 an dem Konferenzort 102 zu drehen (welche eine der Robotereinheiten 124 oder 136 sein kann). Auf diese Weise kann der entfernte Teilnehmer 106 eine halb private Konversation mit diesem anderen Teilnehmer haben, im wesentlichen in derselben Weise, welche auftreten würde, wenn der entfernte Teilnehmer 106 physisch an dem Konferenzort 102 anwesend wäre.
Basierend auf dem Obigen kann das Videokonferenzsystem 100 von 1 verstanden werden, eine physische Anwesenheit oder Repräsentation bzw. Darstellung von entfernten Teilnehmern zu übertragen und um eine Kommunikation zwischen allen Teilnehmern individuell und insgesamt zu erleichtern. Insbesondere stellt das System 100 Information darüber zur Verfügung, ob entfernte Teilnehmer "schauen", ebenso wie Gesichtsausdrücke der entfernten Teilnehmer, welche nicht verfügbar sein würden, wenn eine einzige Kamera an dem entfernten Ort für eine Mehrzahl von Teilnehmern verwendet würde.
Derartige Gesichtsausdrücke können für Kommunikationen der Teilnehmer wichtig sein. D.h. eine derartige, nicht verbale Kommunikation, beinhaltend beispielsweise einen Ausdruck einer Überraschung oder Zustimmung/Nichtzustimmung, ein Schütteln oder Nicken des Kopfs, oder verschiedene andere Gesichtsausdrücke können sehr wichtig für ein Durchführen einer vollständigen Kommunikation zwischen Teilnehmern sein.
Es gibt verschiedene andere Arten von nicht verbaler Kommunikation. Beispielsweise gibt es eine hörbare Art, welche das Volumen, die Modulation und die Tonhöhe der Stimme beinhaltet. Eine andere Art von nicht verbaler Kommunikation wird allgemein als Körpersprache oder Gesten bzw. Gebärden bezeichnet. Derartige Gesten beziehen sich allgemein auf Bewegungen des Körpers, welche (oft unbewußt) durchgeführt werden, um einen Gedanken auszudrücken oder zu illustrieren, um zu unterstreichen, was zu einer speziellen Zeit gesagt wurde, und/oder um auf das zu reagieren, was durch einen anderen Teilnehmer gesagt wurde. Als solches kann diese Art einer nicht verbalen Kommunikation als ein Ausdruck eines Gemütszustands einer Person zu einem speziellen Zeitpunkt erachtet werden.
Die Art von nicht verbaler Kommunikation kann schwierig in konventionellen Systemen zu übertragen sein. Beispielsweise kann in einem konventionellen Videokonferenzsystem eine einzige Kamera auf mehrere Individuen gerichtet sein oder sie kann auf ein Individuum bzw. eine Einzelperson von einem derartigen Abstand fokussiert sein, daß es schwierig ist für entfernte Betrachter, physische Bewegungen der Individuen bzw. Einzelpersonen zu sehen. In anderen Fällen kann bzw. muß die Kamera überhaupt nicht auf ein Individuum zu einer speziellen Zeit fokussiert sein (beispielsweise in Systemen, wo die Kamera automatisch auf eine sprechende Person fokussiert), in welchem Fall eine derartige physische Information vollständig für nicht lokale bzw. nicht anwesende Teilnehmer verloren ist.
Beispiele von häufig verwendeten Gesten bzw. Gebärden, von welchen jede einen signifikanten Einfluß auf die Wahrnehmung haben kann, die eine Person übermittelt, beinhalten: nach vorwärts Lehnen, wenn man interessiert ist; nach rückwärts Lehnen, wenn man nicht interessiert ist oder unentschieden betreffend die Materie ist; Nicken, um den Sprecher zu ermuntern oder weitere Information zu erfragen; Neigen seines Kopfs, wenn man im Zweifel ist; oder als ein letztes Beispiel, seinen eigenen Kopf schütteln, um Mißfallen zu zeigen. Derartige Gesten drücken das Interesse einer Person an der diskutierten Materie aus und können nicht aufdringlich in dem Kontext eines Sprechens von anderen übertragen bzw. übermittelt werden (beispielsweise erfordern keine Unterbrechung eines Sprechers, um Zustimmung anzuzeigen).
Die Robotereinheit 110 der Tele-Ausbildungseinheit 108 ist fähig, eine derartige Information einer physischen Geste anzuzeigen bzw. darzustellen. Spezifisch ist die Robotereinheit 110 fähig, sich in einer Weise zu bewegen, welche eine Geste des entfernten Teilnehmers 106 reflektiert und demonstriert, wodurch ein Gemütszustand des entfernten Teilnehmers 106 nicht verbal an Teilnehmer an dem Konferenzort 102 in einer intuitiven, nicht aufdringlichen, einfachen bzw. bequemen Weise ausgedrückt wird.
3 ist eine Darstellung bzw. Illustration der Robotereinheit 110 von 2, welche einen neutralen Ausdruck reflektiert. In 3 neigt sich die Robotereinheit 110 weder nach vorwärts noch nach rückwärts oder drückt in irgendeiner anderen Weise eine Gesteninformation zum Übertragen von nicht verbaler Kommunikation aus.
4 ist im Gegensatz eine Illustration der Robotereinheit 110 von 2, welche einen Ausdruck von starkem Interesse reflektiert. D.h. die Arme 206 und 210 der Robotereinheit 110 sind an den Verbindungen 204, 208 und 212 derart bewegt, daß sich die Robotereinheit 110 insbesondere beinhaltend den Schirm 214 nach vorne lehnt bzw. neigt.
Eine derartige Position ahmt das Verhalten eines Konferenzteilnehmers nach, welcher sehr daran interessiert ist, was gegenwärtig gesagt wird, und kann ein Hinweis beispielsweise dafür sein, daß der entfernte Teilnehmer 106 gerne zu der Konversation, wenn machbar, beitragen würde (d.h. wenn der gegenwärtige Sprecher beim Sprechen pausiert).
5 ist eine Illustration der Robotereinheit 110 von 2, welche einen nicht entschiedenen Ausdruck reflektiert. Eine derartige Geste kann beispielsweise ausgedrückt sein bzw. werden, wenn der entfernte Teilnehmer Zweifel darüber hat, was gesagt wird. Beispielsweise kann dieser Ausdruck verwendet werden, wenn der entfernte Teilnehmer im Zweifel ist, daß ein Einkommens- bzw. Umsatzziel erreicht wird oder daß ein Projekt in seiner gegenwärtig diskutierten Form machbar ist.
6 ist eine Illustration der Robotereinheit 110 von 2, welche einen Ausdruck von niedergeschlagener Reserviertheit bzw. Zurückhaltung darstellt bzw. reflektiert. Dieser Ausdruck ahmt eine Tendenz für beispielsweise ein Fallenlassen von Schultern einer Person oder anderweites Zusammensinken nach, wenn sie deprimiert bzw. niedergeschlagen ist. Diese Bewegung wird im Absenken des Schirms 214 zu der Basis 202 und einer geringen Bewegung des Schirms 214 weg von der Konversation (d.h. zu der zweiten Verbindung 208 in 6) reflektiert.
7 ist eine Illustration der Robotereinheit 110 von 2, welche einen Ausdruck von böser Reserviertheit bzw. zornigem Vorbehalt reflektiert. Dieser Ausdruck ahmt eine Tendenz einer Person nach, sich indigniert oder böse bzw. zornig von einer Konversation zurückzuziehen. Diese Bewe gung wird durch die extreme Bewegung des Schirms 214 weg von der Konversation und ein mögliches Anheben des Schirms in einer vertikalen Richtung weg von der Basis 202 reflektiert.
Obwohl die mehreren Beispiele oben unter Bezugnahme auf 3–7 gegeben sind, sollte es ersichtlich sein, daß zahlreiche weitere Emotionen, Ausdrücke und Gemütszustände unter Verwendung der Robotereinheit 110 ausgedrückt bzw. dargestellt werden können. Beispielsweise kann der Schirm 214 veranlaßt werden, um Zustimmung "zu nicken", indem er in einer vertikalen Richtung um die dritte Verbindung 212 rotiert, oder in ähnlicher Weise kann er sich von einer Seite zur anderen Seite schütteln, um eine Nichtzustimmung bzw. ein Mißfallen anzuzeigen. Insbesondere wenn berücksichtigt wird, daß ein Gesichtsausdruck des entfernten Teilnehmers 106 auf dem Schirm 214 gezeigt werden wird, können die verschiedenen Positionen und Bewegungen der Robotereinheit verwendet werden, um die Gemütszustände von Benutzern in einer bequemen, intuitiven und nicht aufdringlichen Weise auszudrücken.
8 ist ein Blockdiagramm der Tele-Ausbildungseinheit 108 von 1. 8 illustriert, daß die verschiedenen Merkmale der Tele-Ausbildungseinheit 108 durch einen Computer 802 gesteuert bzw. geregelt und betätigt werden können, welcher verwendet wird, um das Tele-Ausbildungs-Steuer- bzw. -Regelsystem 112 zu implementieren.
Spezifisch empfängt der Computer 802 Kommunikationen unter Verwendung einer Kommunikationsverbindung 804 von dem lokalen Steuer- bzw. Regelsystem 116 über das Netzwerk 118. Die Kommunikationen bzw. Mitteilungen werden dann implemen tiert, um die verschiedenen Effekte, die oben beschrieben sind, zu erzielen.
Der Computer 802 kann vollständig oder teilweise mit der Robotereinheit 110 (beispielsweise in der Basis 202) integriert sein. In anderen Implementierungen kann ein einziger Computer 802 verbunden sein und verwendet werden, um alle drei (oder mehr) der Tele-Ausbildungseinheiten 108, 120 und 132 zu betätigen bzw. zu betreiben.
Eine Betätigung bzw. ein Betrieb der Tele-Ausbildungseinheit 108 kann somit durch eine geeignete Auswahl von Software, Hardware oder irgendeiner Kombination davon implementiert werden. Beispielsweise kann eine derartige Software allgemein einen Speicher beinhalten, um Instruktionen zu speichern, die durch einen oder mehrere eines Prozessors (beinhaltend einen digitalen Signalprozessor (DSP)), eines feldprogrammierbaren Gate Array (FPGA), einer anwendungsspezifischen integrierten Schaltung (ASIC), anderen programmierbaren Logik oder Gate Arrays oder einer programmierbaren Logik mit einem Prozessorkern zu implementieren sind.
9 ist ein Blockdiagramm, das eine Softwarefunktionalität der Tele-Ausbildungseinheit von 8 repräsentiert. Spezifisch illustriert 9 Softwaremodule, die mit einem Betriebssystem 902 Wechselwirken, welches gemeinsam das Tele-Ausbildungs-Steuer- bzw. -Regelsystem 112 umfaßt.
In 9 ist ein Roboterarmtreiber 904 betätigbar, um Befehle zu dem (den) Roboterarm(en) 206, 210 derart zu übertragen, daß sich die Roboterarmeinheit 110 in beispiels weise den verschiedenen Weisen bewegt, die oben ausgeführt wurden. Zusätzlich überträgt der Roboterarmtreiber 904 Befehle zu dem Roboterarm 206, 210 und detektiert oder erhält anders Information betreffend eine gegenwärtige Position und/oder einen Status des Roboterarms 206, 210.
Beispielsweise kann, wenn die Robotereinheit 110 unabsichtlich durch einen Konferenzteilnehmer gestoßen wird, sie von ihrer gewünschten oder konfigurierten Position wegbewegt werden. Der Roboterarmtreiber 904 kann bei Bestimmen einer tatsächlichen gegenüber einer gewünschten Position der Robotereinheit 110 behilflich sein, so daß jegliche Diskrepanzen eliminiert werden können. Wie es unten in größerem Detail diskutiert wird, kann der Roboterarmtreiber 904 während einer typischen Betätigung in Kommunikation bzw. Verbindung mit der lokalen Einheit 114 sein.
Eine Handhabungseinrichtung 906 für entfernte Kommunikation ist eine allgemeine Komponente, welche Kommunikationsdaten über das Netzwerk 118 mit der lokalen Einheit 114 betreffend beispielsweise eine Steuerung bzw. Regelung des Roboterarms und den Zoom oder den Fokus bzw. Brennpunkt der Kamera 220 austauscht. Diese Netzwerkkommunikation kann unter Verwendung von Standardinterpretationsprotokollen, wie beispielsweise Transmission Control Protocol/Internet Protocol (TCP/IP) oder User Datagram Protocol (UDP) durchgeführt werden. Zusätzlich können Protokolle höheren Niveaus verwendet werden, beispielsweise Hyper Text Transfer Protocol (HTTP(s)), Simple Object Access Protocol (SOAP) und Extensible Mark-up Language (XML). Die Handhabungseinrichtung 906 für entfernte Kommunikation kann somit eine bidirektionale Kommunikation mit ihrem Gegenüber bzw. Gegenstück in der lokalen Einheit 114 durchführen.
Ein Video- und Audiosystem 906 überträgt lokales Audio und Audio zu der Tele-Ausbildungseinheit 108 und spielt Audio und Video von der lokalen Einheit 114 (die über die Handhabungseinrichtung 906 für entfernte Kommunikation empfangen werden) auf der Tele-Ausbildungseinheit 108. Beispielsweise vermittelt das Video- und Audiosystem 906 Information zu/von dem Schirm 214, den Mikrophonen 216, 218 der Kamera 220 und dem Lautsprecher 222.
Schließlich führt in 9 ein Kameratreiber 910 verschiedene Funktionen betreffend die Kamera 220 aus. Beispielsweise kann der Kameratreiber 910 verwendet werden, um Zoom- oder Brennpunktbefehle von dem entfernten Teilnehmer 106 zu der Kamera 220 zu transformieren.
10 ist ein Blockdiagramm der lokalen Einheit 114 von 1. In 10 ist von der lokalen Einheit 114 gezeigt, daß sie zahlreiche derselben Elemente wie die Tele-Ausbildungseinheit 108 von 1 umfaßt. Spezifisch beinhaltet die lokale Einheit 114 eine Kamera 1002, einen Monitor 1004, ein Mikrophon 1006, ein weiteres Mikrophon 1008 und einen Lautsprecher 1010. Weiterhin beinhaltet die lokale Einheit 114 einen Roboterarm 1012, einen Computer 1014 und eine Kommunikationsverbindung 1016 zum Kommunizieren mit der Tele-Ausbildungseinheit 108 über das Netzwerk 118. Zusätzlich beinhaltet die lokale Einheit 114 auch eine Gesten-Steuer- bzw. -Regelvorrichtung 1018, welche in größerem Detail unten beschrieben ist, um eine Geste bzw. Gebärde des entfernten Teilnehmers 106 für einen Ausdruck davon durch die Tele-Ausbildungseinheit 108 zu bestimmen, wie dies oben beschrieben ist.
Somit sollte in 10 verstanden werden, daß die lokale Einheit 114 im wesentlichen ihre eigene Tele-Ausbildungseinheit beinhalten oder Zugriff darauf haben kann, die alle der verschiedenen Merkmale und Vorteile der Tele-Ausbildungseinheit 108 aufweist. Beispielsweise kann in einem Szenario, wo lediglich zwei Teilnehmer konferenzieren, ein erster Teilnehmer an einem Tisch an einem ersten Ort sitzen, der zu einer Tele-Ausbildungseinheit schaut, die eine physische Anwesenheit des zweiten Teilnehmers überträgt. In diesem Fall ist die Tele-Ausbildungseinheit fähig, die gesamte Funktionalität der lokalen Einheit 114 zur Verfügung zu stellen unter der Voraussetzung, daß die Gesten-Steuer- bzw. -Regelvorrichtung vorhanden ist. Währenddessen kann der zweite Teilnehmer an einen Tisch an einem zweiten Ort sitzen, der zu einer Tele-Ausbildungseinheit schaut, die eine physische Anwesenheit des ersten Teilnehmers überträgt, welche neuerlich als eine lokale Einheit für einen zweiten Teilnehmer dienen kann.
Dieses Modell kann auf jede Anzahl "N" von Teilnehmern jeweils an einem unterschiedlichen Ort ausgedehnt bzw. erweitert werden. In diesem Fall kann jeder Teilnehmer mit N-1 Tele-Ausbildungseinheiten sitzen, die die anderen N-1 Teilnehmer repräsentieren. Auf diese Weise haben alle Teilnehmer den Vorteil von beispielsweise der übertragenen physischen Anwesenheit und Gesteninformation für alle anderen Teilnehmer. In diesem Fall können die Elemente von 10 verschieden von der Gesten-Steuer- bzw. -Regelvorrichtung 1018 N-1 dieser Elemente repräsentieren. Beispielsweise können N-1 Monitore vorhanden sein, da jeder Monitor das Gesicht von einem der anderen Teilnehmer zeigen würde. Jedoch würde lediglich eine Gesten-Steuer- bzw. -Regelvorrichtung 1018 allgemein notwendig sein, um Gesten daten von dem Teilnehmer zu bestimmen, welcher tatsächlich anwesend ist.
In anderen Implementierungen muß die lokale Einheit nicht die gesamte Funktionalität der Tele-Ausbildungseinheit beinhalten. Beispielsweise kann es in 1 der Fall sein, daß der entfernte Teilnehmer 106 der einzige Teilnehmer an einem speziellen Ort ist, und dieser Ort muß nicht mit der (den) vollständigen Tele-Ausbildungseinheit(en), beinhaltend die Robotereinheit(en), ausgestattet bzw. versehen sein. Statt dessen kann der Ort lediglich eine stationäre Kamera, einen Monitor, ein Mikrophon und einen Lautsprecher gemeinsam mit der Gesten-Steuer- bzw. -Regelvorrichtung 1018 aufweisen. In diesem Beispiel würden dann die Teilnehmer an dem Konferenzort 102 den Vorteil der übertragenen physischen Anwesenheit des entfernten Teilnehmers 106 besitzen, selbst obwohl der entfernte Teilnehmer 106 nicht den umgekehrten Vorteil besitzen würde.
Die Gesten-Steuer- bzw. -Regelvorrichtung 1018 kann irgendeine oder mehrere einer Mehrzahl von Formen annehmen. In einem Beispiel kann die Gesten-Steuer- bzw. -Regelvorrichtung 1018 (einen) Joystick(s) darstellen, welche(r) der entfernte Teilnehmer 106 handhaben kann, um einen emotionalen Zustand anzuzeigen (beispielsweise indem er nach vorwärts gedrückt wird, um Interesse an dem gegenwärtigen Gegenstand anzuzeigen). In ähnlicher Weise kann die Gesten- bzw. Gebärden-Steuer- bzw. -Regelvorrichtung 1018 eine Tastatur oder ein Switchboard mit einer Mehrzahl von markierten Zuständen (beispielsweise "interessiert", "zweifelnd" oder "böse") darstellen bzw. repräsentieren, welche der entfernte Teilnehmer 106 auswählen kann, indem ein entsprechender Knopf gedrückt wird. Selbstverständlich können ähnliche Implementierungen in der Software durch beispielsweise Implementieren eines Benutzerinterface implementiert werden, welches es dem entfernten Teilnehmer 106 ermöglicht, einen emotionalen Zustand unter Verwendung einer Maus, einer Tastatur oder anderen Eingabevorrichtung auszuwählen.
In anderen Implementierungen kann bzw. muß die Gesten-Steuer- bzw. -Regelvorrichtung 1018 nicht eine explizite Eingabe von dem entfernten Teilnehmer 106 erfordern. Beispielsweise kann die Gesten-Steuer- bzw. -Regelvorrichtung 1018 mit Software assoziiert sein, die auf dem Computer 1014 läuft, und betätigbar sein, um einen emotionalen Zustand des entfernten Teilnehmers 106 unter Verwendung einer Vielzahl von Techniken abzuleiten.
In einer derartigen Implementierung kann die Gesten-Steuer- bzw. -Regelvorrichtung 1018 in einem Stuhl (oder einem Teil des Stuhls) des entfernten Teilnehmers 106 eingebettet sein, um eine Körperbewegung zu detektieren. In einer anderen Implementierung können Bewegungsdetektoren verwendet werden im Zusammenhang mit der Kamera 1002, dem Monitor 1004, den Mikrophonen 1006/1008, dem Lautsprecher 1010 und/oder dem Computer 1014 (oder mit der Gesten-Steuer- bzw. -Regelvorrichtung 1018 selbst oder allgemein innerhalb beispielsweise eines Raums an dem Ort des entfernten Teilnehmers 106 positioniert sein), um jegliche Bewegungen des entfernten Teilnehmers 106 zu detektieren.
In noch einer anderen Implementierung können Sensoren in Gegenständen beinhaltet sein, welche leicht an der Person des entfernten Teilnehmers 106 befestigbar sind. Beispielsweise können Sensoren in Handschuhen, Bruststreifen, Kopf hörern oder anderen tragbaren Gegenständen beinhaltet sein, welche der entfernte Teilnehmer 106 leicht anziehen und entfernen bzw. ausziehen kann. Derartige Sensoren können mit anderen Komponenten der lokalen Einheit 114 integriert sein; beispielsweise können Sensoren mit dem Mikrophon 1008 integriert sein, welches an einem Revers, einer Tasche oder einem Halstuch des entfernten Teilnehmers 106 festgelegt ist.
In anderen Implementierungen kann Software auf einem Computer 1014 implementiert sein, welcher in Zusammenhang mit den anderen Komponenten der lokalen Einheit 114 arbeitet. Beispielsweise kann die Kamera 1002 verwendet werden, um Gesichtserkennungssoftware zu implementieren, welche einen Gesichtsausdruck des entfernten Teilnehmers 106 überprüft und einen entsprechenden Softwarealgorithmus implementiert, um einen emotionalen Zustand des entfernten Teilnehmers 106 zu bestimmen, welcher als eine Geste unter Verwendung der Tele-Ausbildungseinheit 108 zu reflektieren ist. In ähnlicher Weise können die Mikrophone 1006, 1008 verwendet werden, um Stimmdaten des entfernten Teilnehmers 106 zu sammeln, so daß Software auf dem Computer 1014 Stimmcharakteristika analysieren kann, wie beispielsweise Modulation, Tonhöhe, Sprechgeschwindigkeit (oder Änderung davon) oder Volumen beim Bestimmen eines emotionalen Zustands des entfernten Teilnehmers 106.
In den oben beschriebenen Implementierungen wird Software verwendet, um Daten betreffend einen emotionalen Zustand und/oder eine physische Position des entfernten Teilnehmers 106 zu erhalten bzw. zu sammeln und zu interpretieren. Selbstverständlich kann jegliche Kombination der oben beschriebenen Implementierungen oder verschiedenen anderen Implementierungen auch verwendet werden, um einen emotionalen Zustand des entfernten Teilnehmers 106 zu bestimmen, so daß diese Information in einer physikalischen bzw. physischen Weise als eine Bewegung (Geste) der Robotereinheit 110 dargestellt bzw. repräsentiert werden kann.
Ein Aspekt der lokalen Einheit 114 ist jener, daß sie allgemein dem entfernten Teilnehmer 106 ermöglicht, entfernt bzw. von der Ferne die Robotereinheit 110 für die Zwecke einer konventionellen Videokonferenz-Funktionalität zu steuern bzw. zu regeln. Beispiele einer derartigen Funktionalität beinhalten Zoomen/Fokussieren der Kamera 220, Zeigerichtung der Kamera 220, oder ein Volumen oder eine Richtung der Mikrophone 216, 218 und/oder des Lautsprechers 222.
In 10 können diese oder andere Funktionen insgesamt oder teilweise unter Verwendung der Gesten-Steuer- bzw. -Regelvorrichtung 1018 implementiert werden. Beispielsweise in Implementierungen, wo die Gesten-Steuer- bzw. -Regelvorrichtung 1018 ein Joystick oder eine Schalttafel zum Eingeben von emotionalen Zuständen beinhaltet, kann dieselbe Vorrichtung verwendet werden, um die Kamera 220 auszurichten. In anderen Implementierungen (beispielsweise wo eine Gestenerkennung (d.h. Funktionalität der Gesten-Steuer- bzw. -Regelvorrichtung 1018) vollständig durch eine Gesichts- und Stimmerkennungssoftware durchgeführt wird) können getrennte Vorrichtungen verwendet werden, um eine Steuerung bzw. Regelung der Robotereinheit 110 und assoziierten bzw. zugehörigen Vorrichtungen zu implementieren.
Es sollte verstanden werden, daß die Funktionalität der Gestensammlungssteuerung bzw. -regelung und Vorrichtungs steuerung bzw. -regelung einander überlappen können. Beispielsweise kann der Monitor 214 der Robotereinheit 110 zu der Seite gedreht werden, um einen bestimmten Betrachtungs- bzw. Sichtwinkel zu erhalten, oder als Teil einer Seiten-zu-Seiten-Indikation einer Nichtzustimmung (entsprechend einem nicht zustimmenden Kopfschütteln).
11 ist ein Blockdiagramm, das eine Softwarefunktionalität der lokalen Einheit von 10 repräsentiert. In 11 läuft ein Betriebssystem 1102 auf dem Computer 1014. Eine Gesteninterpretationseinrichtung 1104 empfängt Daten von der Gesten-Steuer- bzw. -Regelvorrichtung 1018 betreffend physische Bewegungen und/oder einen emotionalen Zustand des entfernten Teilnehmers 106 und bestimmt eine entsprechende Bewegung der Tele-Ausbildungseinheit 108 (Robotereinheit 110), welche zu implementieren ist.
Ein Betätigungs- bzw. Actor-Controller-Modul 1106 wird verwendet, um die Robotereinheit 110 zu steuern bzw. zu regeln. Spezifisch kann das Actor-Controller-Modul 1106 als ein Teil einer Feedback- bzw. Rückkopplungsschleife verwendet werden, in welcher die Tele-Ausbildungseinheit 108 Festlegungen bzw. Einstellungen der Robotereinheit 110 zu dem Actor-Controller-Modul 1106 kommuniziert, so daß der Actor-Controller, falls notwendig, den Roboterarm neu einstellen kann.
Beispielsweise kann das Actor-Controller-Modul 1106 verwendet werden, um die oben beschriebene Funktionalität eines Positionierens der Kamera 220 zu implementieren (oder in Fällen, wo die Gesten-Steuer- bzw. -Regelvorrichtung 1018 für diese Funktionalität verwendet wird, kann das Actor-Controller-Modul 1106 Information von der Gesten interpretationseinrichtung 1104 erhalten, um die Kamera 220 zu positionieren). In einigen Fällen kann der Actor-Controller eine Diskrepanz zwischen der ausgenommenen Position der Robotereinheit 110 und einer tatsächlichen Position erkennen, die durch den Roboterarmantrieb bzw. -treiber 904 berichtet ist bzw. wird. Beispielsweise kann, wie dies oben bezeichnet ist, eine derartige Situation auftreten, wo die Robotereinheit zufällig durch einen Konferenzteilnehmer an dem Konferenzort 102 gestoßen wurde. In diesen Fällen kann das Actor-Controller-Modul 1106 verwendet werden, um die Robotereinheit 110 (oder eine andere Komponente) zu ihrer gewünschten Position neu auszurichten.
Schließlich kommuniziert eine entfernte Kommunikationshandhabungseinrichtung 1108 mit der entfernten Kommunikationshandhabungseinrichtung 906 von 9 und arbeitet in einer Weise ähnlich zu der entfernten Kommunikationshandhabungseinrichtung 906 bzw. Handhabungseinrichtung für entfernte Kommunikation, wie dies oben beschrieben ist. Ein Video- und Audiosystem 1110 sammelt und gibt Audio- und Videoinformation betreffend den entfernten Teilnehmer 106 unter Verwendung der entsprechenden Vorrichtungen (Kamera 1002, Mikrophone 1006/1008, Monitor 1004 und Lautsprecher 1010) aus, die oben beschrieben sind.
12 ist ein Blockdiagramm des Videokonferenzsystems von 1, welches die spezifischen Einheiten und die Funktionalität illustriert, die in 8-11 gezeigt sind. Spezifischer illustriert 12 ein Beispiel der Wechselwirkung bzw. Interaktion zwischen den Software- und Hardwarekomponenten der Implementierungen, die oben beschrieben sind.
In 12 werden dann Video-, Audio- und Gestendaten durch das Video- und Audiosystem 1110 und die Gesten-Steuer- bzw. -Regelvorrichtung 1018 gesammelt. Es ist festzuhalten, daß die verschiedenen Audio/Video-Hardwarekomponenten der lokalen Einheit 114 allgemein nicht in 12 dargestellt bzw. illustriert sind; jedoch sollte aus der obigen Diskussion verstanden werden, daß derartige Komponenten eine Einheit ähnlich zu der Robotereinheit 110 beinhalten können, oder konventionelle Audio-Video-Konferenzkomponenten oder irgendeine Kombination davon beinhalten können.
Die Gesteninterpretationseinrichtung 1104 bestimmt Gesteninformation basierend auf der Eingabe von der Gesten-Steuer- bzw. -Regelvorrichtung 1018, und Betätigungsparameter für die Robotereinheit 110 (beispielsweise Kamera Zoom) werden von der Gesten-Steuer- bzw. -Regelvorrichtung 1018 und/oder von anderen Hardwarekomponenten unter Verwendung des Actor-Controller-Moduls 1106 eingegeben. Alle Gesteninformation, Audio/Videoinformation und Betätigungsparameter werden unter Verwendung der entfernten Kommunikationshandhabungseinrichtung 1108 zu der zugehörigen entfernten Kommunikationshandhabungseinrichtung 906 über das Netzwerk 118 übertragen.
An der Tele-Ausbildungseinheit 108 wird diese Information zu dem Roboterarmtreiber 904, dem Kameratreiber 910 und dem Video- und Audiosystem 908 verteilt, um die Robotereinheit 110 und die assoziierten bzw. zugehörigen Komponenten zu betätigen. Demgegenüber werden Audio/Videoinformation und Positionierungs/Betätigungsinformation basierend auf einer Betätigung der Robotereinheit 110 gesammelt oder bestimmt, und zu der lokalen Einheit 114 unter Verwendung der ent fernten Kommunikationshandhabungseinrichtung 906 zurückgesandt.
Auf diese Weise und wie dies allgemein oben beschrieben ist, kann ein Durchführen einer Videokonferenz in einer Weise ausgeführt werden, die eine physische Anwesenheit der entfernten Teilnehmer überträgt bzw. übermittelt. Darüber hinaus können ein emotionaler Zustand der entfernten Teilnehmer, ebenso wie andere nicht verbale Kommunikationsmerkmale bzw. -hinweise und Körpersprache in einer physischen intuitiven Weise dargestellt und übertragen werden.
Zusätzlich sollte verstanden werden, daß die obigen Vorteile einfach und billig erhalten werden können. D.h. Implementierungen, die oben beschrieben sind, erfordern allgemein keine komplizierten oder teuren Komponenten zur Betätigung. Beispielsweise kann die Robotereinheit 110, die oben beschrieben ist, einfach aufgebaut und betätigt werden. Die Robotereinheit 110 bildet eine diskrete Komponente, welche leicht von einem Ort zu einem anderen Ort, (beispielsweise Konferenzraum zu Konferenzraum) bewegt werden kann, wie dies erforderlich ist. In ähnlicher Weise kann die Robotereinheit 110 leicht in einem speziellen Raum oder einer anderen Umgebung angeordnet werden; beispielsweise auf einem Konferenztisch oder auf einem zentral angeordneten Podium.
Da die Robotereinheit 110 durch Software gesteuert bzw. geregelt ist, können mehrere Robotereinheiten durch einen einzigen Computer gesteuert bzw. geregelt werden, auf dem mehrere Fälle bzw. Instanzen des Tele-Ausbildungs-Steuer- bzw. -Regelsystems 112 laufen. Alternativ kann ein Computer (beispielsweise ein Prozessor und Speicher) in der (den) Robotereinheit(en) eingebettet sein.
Darüber hinaus sollte, obwohl die obigen Implementierungen allgemein in bezug auf Videokonferenzen beschrieben wurden, verstanden werden, daß andere Implementierungen auch verwendet werden können. Beispielsweise kann eine Illusion einer physischen Anwesenheit einer entfernten Person erhalten werden, selbst wenn die entfernte Person gegenwärtig nicht mit der Vorrichtung durch die lokale(n) Einheit(en) wechselwirkt bzw. interagiert. Beispielsweise kann die Robotereinheit 110 einen Satz von zufällig gewählten oder vorprogrammierten Bewegungen ausführen. Eine derartige Implementierung oder ähnliche Implementierungen können beispielsweise verwendbar bzw. nützlich sein, wenn eine Person oder ihre oder seine Tele-Ausbildungseinheit in unterschiedlichen Zeitzonen angeordnet ist.
Als ein weiteres Beispiel können einige Implementierungen in einem Klassenzimmer oder einer anderen Lernumgebung verwendet werden, oder bei irgendeinem Ereignis, wo eine Zuhörerschaft bzw. ein Publikum teilnehmen kann. Auf diese Weise können Teilnehmer an diesen Ereignissen besser in den Verfahren bzw. Vorgängen involviert sein.
Zusätzlich sollte, obwohl die obigen Implementierungen in bezug auf die Robotereinheit 110 beschrieben wurden, verstanden werden, daß andere Robotereinheiten verwendet werden können. Beispielsweise kann die Robotereinheit mit mehr oder weniger Armen und Verbindungen bzw. Gelenken verwendet werden, als es hierin illustriert ist. Die Robotereinheit 110 kann zusätzliche Merkmale aufweisen, die hierin nicht explizit beschrieben sind, wie einen Arm, welcher gesondert von dem Schirm 214 angehoben werden kann, um es beispielsweise dem entfernten Teilnehmer 106 zu ermöglichen, den Arm als ein Mittel für ein Erzielen von Aufmerksamkeit anzuheben, oder in irgendeiner anderen Weise eine Geste durchzuführen (beispielsweise Zeigen auf einen anderen Teilnehmer oder auf ein Whiteboard).
Die Robotereinheit 110 kann bewegbar sein. Beispielsweise kann die Robotereinheit 110 auf Rädern oder anderen Mitteln montiert bzw. festgelegt sein, um der Einheit eine Bewegung zu ermöglichen. In diesem Fall kann beispielsweise die Robotereinheit 110 (beispielsweise lokal oder entfernt) zu der Vorderseite eines Raums bewegt werden, um eine Präsentation zu geben.
Alternativ kann die Robotereinheit 110 vollständig unterschiedliche Formen von jenen annehmen, die hierin beschrieben sind. Beispielsweise kann die Robotereinheit mehr eine menschliche oder halbmenschliche Form annehmen. In diesem Fall kann beispielsweise die Robotereinheit zwei ausfahr- bzw. erstreckbare und bewegbare Arme aufweisen und kann assoziierte Kameras, die als Augen positioniert sind, oder andere Merkmale aufweisen, die mit einem menschlichen Gesicht assoziiert sind. Auf diese Weise kann noch mehr physische Gesteninformationen unter Verwendung der Robotereinheit 110 übertragen bzw. übermittelt werden, als dies hierin explizit beschrieben ist.
Eine Anzahl von Implementierungen wurde beschrieben. Nichtsdestotrotz wird es verstanden werden, daß verschiedene Modifikationen gemacht werden können. Dementsprechend sind andere Implementierungen innerhalb des Rahmens der folgenden Ansprüche.

Claims

System, umfassend: ein audiovisuelles Eingabesystem an einem ersten Ort, welches betätigbar bzw. betreibbar ist, um audiovisuelle Information zu empfangen, die mit einem Konferenzteilnehmer (106) assoziiert ist; ein Gesten- bzw. Gebärdenbestimmungssystem an dem ersten Ort (104), welches betätigbar bzw. betreibbar ist, um Gebärdeninformation zu bestimmen, die mit einem Gemütszustand bzw. -verfassung des Konferenzteilnehmers assoziiert ist; und eine Tele-Ausbildungseinheit (Englisch: tele-embodiment unit) an einem Konferenzort (102) entfernt von dem ersten Ort, welche betätigbar bzw. betreibbar ist, um die Gebärdeninformation zu empfangen und sich in einer Bewegung entsprechend der Gebärdeninformation zu engagieren bzw. sich entsprechend der Gebärdeninformation zu bewegen, wodurch die Bewegung der Tele-Ausbildungseinheit (108) den Gemütszustand des Konferenzteilnehmers ausdrückt.
System nach Anspruch 1, wobei der Konferenzort (102) entfernt von dem ersten Ort eine Konferenzstelle ist und die Tele-Ausbildungseinheit (108) eine physische Präsenz des Konferenzteilnehmers überträgt bzw. liefert bzw. ausdrückt.
System nach Anspruch 1 oder 2, umfassend ein audiovisuelles Ausgabesystem an dem Konferenzort (102) entfernt von dem ersten Ort, welches betätigbar ist, um die audiovisuelle Information auszugeben, die mit dem Konferenzteilnehmer (106) assoziiert ist.
System nach einem der Ansprüche 1 bis 3, wobei die Tele-Ausbildungseinheit (108) einen Roboterarm beinhaltet, der mit einem Monitor und einer Kamera assoziiert ist.
System nach Anspruch 4, wobei die Tele-Ausbildungseinheit (108) betätigbar ist, um den Monitor und die Kamera in Übereinstimmung bzw. Ausrichtung miteinander zu bewegen.
System nach einem der Ansprüche 1 bis 5, wobei das Gebärdenbestimmungssystem eine Gebärden-Steuer- bzw. -Regelvorrichtung beinhaltet, durch welche der Konferenzteilnehmer (106) die Gebärdeninformation eingibt.
System nach Anspruch 6, wobei die Gebärdeninformation auswählbare emotionale Zustände beinhaltet und die Bewegung der Tele-Ausbildungseinheit (108) vorprogrammiert ist, um einem gewählten emotionalen Zustand zu entsprechen.
System nach einem der Ansprüche 1 bis 7, wobei das Gebärdenbestimmungssystem eine Gebärden-Steuer- bzw. -Regelvorrichtung beinhaltet, welche betätigbar ist, um physische Bewegungen des Konferenzteilnehmers (106) zu verfolgen.
System nach Anspruch 8, wobei das Gebärdenbestimmungssystem eine Gebärdeninterpretationseinrichtung bzw. Gebärdeninterpretierer beinhaltet, um die physischen Bewegungen mit dem Gemütszustand des Konferenzteilnehmers (106) zu assoziieren.
System nach Anspruch 1, weiterhin umfassend ein Videokonferenzsystem, umfassend: eine Mehrzahl von Teilnehmereingabesystemen entsprechend einer Mehrzahl von Konferenzteilnehmern (106, 122, 138), wobei jedes Eingabesystem betätigbar bzw. betreibbar ist, um eine audiovisuelle Eingabe von seinem entsprechenden Konferenzteilnehmer zu empfangen; und eine Mehrzahl von Tele-Ausbildungseinheiten (108, 120, 132), die an einem Konferenzort (102) angeordnet sind, welcher von einem Ort von jedem der Teilnehmereingabesysteme entfernt ist, wobei jede der Tele-Ausbildungseinheiten einem der Mehrzahl von Konferenzteilnehmern entspricht und audiovisuelle Ausgabefähigkeiten beinhaltet, wobei die Tele-Ausbildungseinheiten eine physische Präsenz ihrer entsprechenden Konferenzteilnehmer an dem Konferenzort übertragen bzw. liefern bzw. ausdrücken.
System nach Anspruch 10, wobei jedes Teilnehmereingabesystem umfaßt: ein Gesten- bzw. Gebärdenbestimmungssystem, das betätigbar bzw. betreibbar ist, um Gebärdeninformation zu empfangen, die mit einem Gemütszustand seines entsprechenden Konferenzteilnehmers (106) assoziiert ist; und eine entfernte Kommunikationshandhabungseinrichtung bzw. -handhaber, die betätigbar bzw. betreibbar ist, um die Gebärdeninformation und die audiovisuelle Eingabe zu ihrer entsprechenden Tele-Ausbildungseinheit (108) zu liefern bzw. weiterzuleiten.
System nach Anspruch 11, wobei das Gebärdenbestimmungssystem umfaßt: eine Gebärden-Steuer- bzw. -Regelvorrichtung, die betätigbar ist, um physische Bewegungen ihres entsprechenden Konferenzteilnehmers zu verfolgen; und eine Gebärdeninterpretationseinrichtung, die betätigbar ist, um die physischen Bewegungen mit dem Gemütszustand zu assoziieren.
System nach Anspruch 11 oder 12, wobei jede Tele-Ausbildungseinheit eine Robotereinheit (110, 124, 134) umfaßt, die betätigbar ist, um sich in Übereinstimmung bzw. Koordination mit der Gebärdeninformation zu bewegen, so daß die Tele-Ausbildungseinheit physisch den Gemütszustand ihres entsprechenden Konferenzteilnehmers ausdrückt.
System nach Anspruch 13, wobei die Robotereinheit einen Videoschirm umfaßt, der mit einer Kamera ausgerichtet ist und an einem Roboterarm festgelegt ist, welcher betätigbar ist, um den Videoschirm und die Kamera in Übereinstimmung bzw. Verbindung mit der Gebärdeninformation und der audiovisuellen Eingabe zu bewegen.
System nach Anspruch 14, wobei der Roboterarm betätigbar ist, um den Videoschirm und die Kamera in drei Dimensionen zu bewegen.
Verfahren, umfassend: Empfangen von audiovisueller Eingabe von einem Konferenzteilnehmer (106); Bestimmen von Ausdrucksinformation, die mit einer nicht verbalen Kommunikation des Konferenzteilnehmers assoziiert wird; Übertragen der audiovisuellen Eingabe und der Ausdrucksinformation zu einem Konferenzort (102); Rendern bzw. Wiedergeben der audiovisuellen Eingabe an einer audiovisuellen Ausgabe, die mit einer Tele-Ausbildungseinheit (Englisch: tele-embodiment unit) (108) an dem Konferenzort assoziiert wird; und Bewegen der Tele-Ausbildungseinheit, basierend auf der Ausdrucksinformation, um die nicht verbale Kommunikation des Konferenzteilnehmers zu reflektieren.
Verfahren nach Anspruch 16, wobei ein Bestimmen von Ausdrucksinformation ein Empfangen einer Auswahl von Ausdrucksinformation aus einer voraus gewählten Liste umfaßt, die dem Konferenzteilnehmer (108) verfügbar ist.
Verfahren nach Anspruch 16 oder 17, wobei ein Bestimmen von Ausdrucksinformation umfaßt: Verfolgen von physischen Bewegungen des Konferenzteilnehmers (106); und Laufenlassen bzw. Ausführen eines Softwarealgorithmus, um die nicht verbale Kommunikation basierend auf den physischen Bewegungen zu bestimmen.
Verfahren nach einem der Ansprüche 16 bis 18, wobei ein Bewegen der Tele-Ausbildungseinheit ein Bewegen eines Videoschirms umfaßt, welcher an einem Roboterarm festgelegt wird, um in drei Dimensionen schwenkbar bzw. drehbar und bewegbar zu sein.
Verfahren nach einem der Ansprüche 16 bis 19, wobei die Tele-Ausbildungseinheit eine Eins-zu-Eins-Übereinstimmung mit dem Konferenzteilnehmer (106) aufweist, so daß eine physische Anwesenheit des Konferenzteilnehmers an den bzw. dem Konferenzort (102) übertragen bzw. geleitet bzw. ausgedrückt wird.