DE102023127310A1

DE102023127310A1 - IP-basiertes Remote-Videokonferenzsystem

Info

Publication number: DE102023127310A1
Application number: DE102023127310.8A
Authority: DE
Inventors: Christian SANDER; Thomas Jaskolka
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic Se & Co Kg De
Priority date: 2022-10-14
Filing date: 2023-10-06
Publication date: 2024-04-25
Also published as: US20240129433A1; CN117896485A

Abstract

Ein IP-basiertes Remote-Videokonferenzsystem (100) umfasst ein nahes Ende (200) mit einem ersten Raum (200a) und mindestens einem Mikrofon (210), das konfiguriert ist, Audiosignale von mindestens einem Teilnehmer (201, 202) in dem ersten Raum (200a) zu erfassen und Positionsinformationen bezüglich des mindestens einen ersten Teilnehmers (201, 202) zu bestimmen, ein fernes Ende (300) mit einem zweiten Raum (300a) mit mindestens einem zweiten Teilnehmer (301) und mindestens einem Audiowiedergabegerät (330), wobei das mindestens eine Audiowiedergabegerät (330) räumliche Audiosignale empfängt und basierend auf den Audiosignalen und den Positionsinformationen, die von dem mindestens einen Mikrofon (210) erfasst werden, wiedergibt, und einen Videokonferenzdienst (400), der an das nahe Ende (200) und das ferne Ende (300) gekoppelt ist, der konfiguriert ist, Audiosignale von dem nahen Ende (200) zu dem fernen Ende (300) weiterzuleiten.

Description

Die vorliegende Erfindung betrifft ein IP-basiertes Remote-Videokonferenzsystem.
1 zeigt eine grundlegende Darstellung eines IP-basierten Remote-Videokonferenzsystems. Das Konferenzsystem 100 umfasst ein nahes Ende 200 und ein fernes Ende 300. Am nahen Ende 200 befinden sich zwei oder mehr Teilnehmer 201, 202 in dem Konferenzraum. Der Konferenzraum umfasst mindestens ein Mikrofon 210 und eine Kamera 220. Die Audiosignale von den zwei Teilnehmern 201, 202 werden von dem mindestens einen Mikrofon 210 erfasst und als Audiosignale 211 zu einem Cloud-basierten Videokonferenzdienst 400 weitergeleitet. Andererseits ist am fernen Ende 300 ein weiterer Konferenzraum vorhanden, wo sich ein dritter Teilnehmer 301 an einem fernen Standort in Bezug auf das nahe Ende 200 befindet und auch an der Videokonferenz teilnehmen möchte. Im Konferenzraum sind eine Anzeigevorrichtung 310 und eine Kamera 320 vorgesehen. Der Benutzer oder Teilnehmer 301 trägt Kopfhörer oder Ohrhörer 330. Der Kopfhörer 330 empfängt Audiosignale 302 von dem Cloud-basierten Videokonferenzdienst 400. Ferner empfängt die Anzeigevorrichtung 310 Videosignale 303 von dem Cloud-basierten Videokonferenzdienst 400. Daher kann der Teilnehmer 301 am fernen Ende 300 gemeinsam mit den zwei Teilnehmern 201, 202 am nahen Ende 200 an der Videokonferenz teilnehmen.
Der Teilnehmer 301 muss sich jedoch auf das Audiosignal 302 verlassen, wie es von dem Cloud-basierten Videokonferenzdienst empfangen wird. Der Cloud-basierte Videokonferenzdienst kann auf einer IP-Verbindung wie dem Internet basieren und ein Konferenzsystem wie Microsoft® Teams, Zoom usw. läuft in der Cloud. Daher ist in 1 eine hybride Videokonferenz offenbart. Während die mindestens zwei Teilnehmer 201, 202 am nahen Ende 200 keine Einschränkungen hinsichtlich ihres Hörerlebnisses haben, mangelt es dem Teilnehmer 301 am fernen Ende an dem Hörerlebnis der zwei Teilnehmer 201, 202 am nahen Ende. Insbesondere, wenn die Sprecher 201, 202 der Reihe nach sprechen, kann der Teilnehmer 301 am fernen Ende 300 Schwierigkeiten haben, der Konversation zu folgen.
Es ist daher eine Aufgabe der Erfindung, ein IP-basiertes Remote-Videokonferenzsystem vorzusehen, das den Teilnehmern erlaubt, über ein komfortableres Videokonferenzsystem zu verfügen. Insbesondere ist es eine Aufgabe der Erfindung, ein Videokonferenzsystem vorzusehen, das ein verbessertes Hörerlebnis ermöglicht.
Diese Aufgabe wird durch ein IP-basiertes Remote-Videokonferenzsystem nach Anspruch 1 gelöst.
Mit dem Videokonferenzsystem gemäß einem Beispiel ist es für einen Teilnehmer an einem fernen Ende der Videokonferenz möglich, auch ein ähnliches räumliches Hörerlebnis wie ein Benutzer am nahen Ende zu erfahren, d.h. ein Benutzer, der sich in demselben Raum wie die anderen Benutzer befindet. Dies kann durch Rendering von Audiosignalen mit räumlichen Informationen über die Kopfhörer des Benutzers oder Teilnehmers erreicht werden.
Gemäß einem Beispiel ist ein Videokonferenzsystem mit einem nahen Ende, einem fernen Ende und einem Videokonferenzdienst vorgesehen. Am nahen Ende ist ein Mikrofon vorgesehen, das Audiosignale von Teilnehmern in einem Konferenzraum erfassen kann. Ferner ist das Mikrofon imstande, Positionsinformationen der Teilnehmer basierend auf den empfangenen Audiosignalen zu erfassen. Insbesondere kann das Mikrofon eine Position eines Benutzers durch Bestimmen einer erfassten Richtung von Schall erfassen. Die Positionsinformationen wie auch die erfassten Audiosignale werden von einem Audioprozessor verarbeitet, um räumliches Audio zu generieren. Der Audioprozessor kann am fernen Ende oder am nahen Ende angeordnet sein. Mit dieser Anordnung kann ein räumliches Hörerlebnis für einen Teilnehmer am fernen Ende vorgesehen sein.
Wenn in dem Videokonferenzraum eine Videokamera vorhanden ist, muss die Position der Audiosignale (d.h. der Teilnehmer) mit der Position der Kamera ausgerichtet sein. Daher ist es möglich, ein räumliches Audiosignal zu generieren, das mit der Position der Kamera (und nicht mit der absoluten Position der Teilnehmer am nahen Ende) ausgerichtet ist.
Gemäß einem Beispiel ist ein Videokonferenzsystem mit einem nahen Ende mit Teilnehmern und einem Mikrofon, einem fernen Ende mit mindestens einem Teilnehmer und einem Videokonferenzdienst vorgesehen. Am nahen Ende ist ein Mikrofon vorgesehen, das Audiosignale erfassen kann und das Positionsinformationen der Teilnehmer bestimmen kann. Am fernen Ende ist eine Kopfverfolgung eines Benutzers vorgesehen. Die Kopfverfolgungsinformationen (d.h. die Richtung des Kopfs des Benutzers) werden zu einem Audioprozessor weitergeleitet, der räumliches Audio generiert. Der Audioprozessor kann am fernen Ende oder am nahen Ende angeordnet sein. Daher kann, gemeinsam mit den Kopfverfolgungsinformationen, ein verbessertes räumliches Audioerlebnis für den Teilnehmer 301 am fernen Ende vorgesehen sein, selbst wenn er seinen Kopf dreht. Er empfängt weiterhin die richtige Richtung einer Quelle eines Audiosignals. Somit kann ein natürlicheres räumliches Hörerlebnis selbst für einen Teilnehmer am fernen Ende eines Videokonferenzsystems vorgesehen sein. Optional kann die Position der Anzeigevorrichtung, wo ein Videosignal angezeigt wird, zur weiteren Verbesserung eines räumlichen Hörerlebnisses verwendet werden.
Gemäß einem Beispiel ist ein Videokonferenzsystem vorgesehen, das ein nahes Ende mit mehreren Teilnehmern, ein fernes Ende mit mindestens einem Teilnehmer und einen Videokonferenzdienst aufweist. Das Audiosignal von den Teilnehmern am nahen Ende, das Videosignal von den Teilnehmern am nahen Ende wie auch Positionsinformationen der Teilnehmer am nahen Ende sind synchronisiert, um ein synchronisiertes räumliches Audioerlebnis zu ermöglichen, das mit dem Videosignal ausgerichtet ist, das auf der Anzeigevorrichtung angezeigt wird.
Mit dem IP-basierten Remote-Videokonferenzsystem ist es nun möglich, ein räumliches Audio auch in hybriden Konferenzen zu ermöglichen, sodass die Teilnehmer auf natürliche Weise interagieren können, selbst wenn sie an fernen Standorten sitzen. Dies ist vorteilhaft, da es den Fokus, die Einbindung aller Teilnehmer und die Zusammenarbeit der Teilnehmer, erhöhen kann. Daher kann das Videokonferenzsystem produktiver und unterhaltsamer werden.
Weitere Aspekte der Erfindung sind in den abhängigen Ansprüchen beschrieben.
Vorteile und Ausführungsformen der Erfindung werden nun unter Bezugnahme auf die Figuren beschrieben.

1 offenbart ein Cloud-basiertes Videokonferenzsystem am Stand der Technik,
2A offenbart eine schematische Darstellung eines Videokonferenzsystems mit einem Audiorendering an einem fernen Ende,
2B offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering am nahen Ende,
3A offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering am fernen Ende,
3B offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering an einem nahen Ende und
4 offenbart eine grundlegende Darstellung eines Videokonferenzsystems.

2A offenbart eine schematische Darstellung eines Videokonferenzsystems mit einem Audiorendering an einem fernen Ende. Das Konferenzsystem 100 umfasst ein nahes Ende 200, ein fernes Ende 300 und einen Cloud-basierten Videokonferenzdienst 400. Am nahen Ende 200 sind ein Raum 200a, mindestens ein Mikrofon 210 und eine Videokamera 220 vorgesehen. Das Mikrofon 210 erfasst Audiosignale von Teilnehmern 201, 202 wie auch deren Position. Das Mikrofon 210 gibt ein gemeinsames Mono-Audiosignal 211 wie auch Positionsinformationen 212 der Teilnehmer aus. Die Videokamera 220 gibt ein Videosignal 221 der Teilnehmer 201, 202 aus. Das Audiosignal 211 wie auch das Videosignal 221 werden von dem Videokonferenzdienst 400 empfangen. Der Videokonferenzdienst 400 gibt ein Audiosignal 401 und ein Videosignal 402 aus.
Am fernen Ende 300 kann optional eine Anzeigevorrichtung 310 vorgesehen sein, die das Videosignal 402 empfängt und das Videosignal auf der Anzeigevorrichtung 310 anzeigt, sodass mindestens die Teilnehmer 201, 202 auf der Anzeigevorrichtung 310 sichtbar sind. Zusätzlich ist am fernen Ende 300 ein Audioprozessor 340 vorgesehen, der das Audiosignal 401 von dem Dienst 400 wie auch die Positionsinformationen 212 empfängt. Basierend auf diesen Informationen ist ein räumliches Audiosignal 341 vorgesehen, das an das Headset 330 des Teilnehmers 301 ausgegeben wird. Daher wird das Audiosignal gemeinsam mit räumlichen Informationen ausgegeben, d.h. ein räumliches Audio. Das räumliche Audiosignal 341 kann ein Zwei-Kanal-Signal sein, das einen linken Kanal und einen rechten Kanal umfasst. Im Fall einer Wiedergabe des räumlichen Audiosignals 341 über das Headset 330 kann das räumliche Audiosignal 341 durch binaurales Rendering generiert werden.
Alternativ zu dem Headset 330 kann ein Lautsprecheraufbau im Raum 300a am fernen Ende zum Abspielen des räumlichen Audiosignals 341 verwendet werden. In diesem Fall generiert der Audioprozessor 340 die Signale für alle Lautsprecher in einem Lautsprecheraufbau.
Das Mikrofon 210 kann als ein Mikrofon-Array implementiert sein, das an der Decke des Konferenzraums 200a angeordnet ist. Das Mikrofon-Array kann das Erfassen verschiedener Audiosignale in einem Konferenzraum ermöglichen (zum Beispiel Audiosignale von Teilnehmern). Das Mikrofon-Array kann auch imstande sein, eine Position eines Benutzers basierend auf der Richtung zu erfassen, aus der der Schall kommt. Daher kann das Mikrofon 210 Audiosignale erfassen und die Position aus den Ursprüngen der Audiosignale bestimmen. In der Ausführungsform von 2A ermöglicht das Videokonferenzsystem ein Rendering von räumlichem Audio für einen Teilnehmer am fernen Ende. Das Audiosignal 211 wie auch die Positionsinformationen 212 können zu dem Videokonferenzdienst 400 weitergeleitet werden, der Daten verarbeiten kann und die Daten zu dem fernen Ende weiterleiten kann. Alternativ können die Positionsinformationen 212 direkt zu dem fernen Ende weitergeleitet werden, ohne von dem Videokonferenzdienst verarbeitet zu werden. Der Videokonferenzdienst 400 kann auf einem IP-Protokoll basieren. Der Videokonferenzdienst 400 kann als ein Cloud-basierter Videokonferenzdienst implementiert sein. Es sind jedoch auch andere Implementierungen möglich. Am fernen Ende ist ein Audioprozessor 340 vorgesehen, der die Positionsinformationen wie auch das Audiosignal empfängt und ein räumliches Audiosignal zum Beispiel in Stereo erzeugt, sodass das Stereosignal von dem Lautsprecher oder durch Kopfhörer (d.h. binaurales Audio) wiedergegeben werden kann.
2B offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering am nahen Ende. Das Videokonferenzsystem 100 umfasst ein nahes Ende 200, ein fernes Ende 300 und einen Videokonferenzdienst 400. Am nahen Ende 200 können sich Teilnehmer 201, 202 befinden. Ferner ist ein Mikrofon 210 vorgesehen, das Audiosignale von den Teilnehmern 201, 202 wie auch ihre Positionen erfasst. Daher gibt das Mikrofon 210 Positionsinformationen 212 wie auch Audiosignale 211 aus. Am nahen Ende 200 ist ein Audiosignalprozessor 240 vorgesehen, der die Audiosignale 211 wie auch die Positionsinformationen 212 empfängt und ein räumliches Audiosignal 241 generiert. Das räumliche Audiosignal 241 kann ein Zwei-Kanal-Signal sein, das einen linken Kanal und einen rechten Kanal umfasst. Am nahen Ende 200 kann ferner eine Kamera 220 vorgesehen sein, die ein Videosignal 221 ausgibt. Das Videosignal 221 wie auch das räumliche Audiosignal 241werden von dem Cloud-basierten Dienst 400 empfangen. Der Cloud-basierte Dienst 400 gibt ein räumliches Audiosignal 403 wie auch ein Videosignal 402 aus, das auf der Anzeigevorrichtung 310 angezeigt werden kann. Das räumliche Audiosignal 403 kann auf den Kopfhörern 330 abgespielt werden.
In der Ausführungsform von 2A wurde das räumliche Audiosignal am fernen Ende generiert. Im Gegensatz dazu wird gemäß der Ausführungsform von 2B das räumliche Audiosignal von dem Audioprozessor 240 am nahen Ende generiert. Der Audioprozessor 240 empfängt die Positionsinformationen 212 wie auch das Audiosignal 211 und generiert ein räumliches Audiosignal 241, das an den Videokonferenzdienst 400 und von dort zu dem fernen Ende übertragen wird, sodass das räumliche Audiosignal von einem Kopfhörer 330 eines Benutzers wiedergegeben werden kann. In der Ausführungsform von 2B kann das räumliche Audiosignal 241 ein Zwei-Kanal-Signal sein, das einen linken Kanal und einen rechten Kanal umfasst. Somit muss der Videokonferenzdienst 400 konfiguriert sein, ein zwei-Kanal Audiosignal 241 von dem nahen Ende zu dem fernen Ende zu übertragen. Die Ausführungsform von 2B ist günstig, wenn die Konfiguration, wie im Raum 300a am fernen Ende verwendet, das erforderliche Gerät für räumliches Rendering nicht enthält.
Alternativ kann das räumliche Audiosignal auch von einem Audiosystem wiedergegeben werden, das ein Abspielen in Stereo ermöglicht.
In einem Aspekt der Erfindung sieht das Gerät im Raum 200a am nahen Ende optional beide für den Videokonferenzdienst 400 vor: das Mono-Audiosignal 211 mit den Positionsinformationen 212, wie in 2A gezeigt, und das räumliche Zwei-Kanal-Audiosignal 241, wie in 2B gezeigt. Dies ist für eine Unterstützung unterschiedlicher Konfigurationen am fernen Ende vorteilhaft. Wenn die Konfiguration am fernen Ende das Gerät 340 für räumliches Rendering enthält, kann dieses Gerät verwendet werden. Wenn die Konfiguration am fernen Ende ein solches Gerät nicht enthält, kann immer noch eine räumliche Hörwirkung vorgesehen sein. Vorsehen des räumlichen Audios ist für den Teilnehmer am fernen Ende vorteilhaft, da es ihm ermöglicht zu lokalisieren, aus welcher Richtung das Audiosignal (Sprachsignal) kommt. In der Ausführungsform von 2A und 2B wird die Position des Kopfs eines Benutzers und somit seiner Ohren beim Generieren der räumlichen Audiosignale nicht berücksichtigt. Wenn eine Person daher ihren Kopf und somit ihre Ohren dreht, kann sich das räumliche Audioerlebnis verändern. Wenn zum Beispiel der Teilnehmer seinen Kopf nach links dreht, scheint der Schall aus den Kopfhörern auch von links zu kommen, Somit könnte das räumliche Audioerlebnis nicht mit dem Videosignal übereinstimmen, das auf der Anzeigevorrichtung 310 am fernen Ende 300 angezeigt werden kann.
3A offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering am fernen Ende. Das Videokonferenzsystem 100 umfasst ein nahes Ende 200, ein fernes Ende 300 und einen Videokonferenzdienst 400. Am nahen Ende 200 sind ein Mikrofon 210 wie auch optional eine Kamera 220 in einem Konferenzraum vorgesehen. Das Mikrofon 210 erfasst Audiosignale wie auch die Positionen von Teilnehmern 201, 202 in dem Raum. Das Mikrofon gibt ein Audiosignal wie auch Positionsinformationen 212 aus. Die Videokamera 220 gibt ein Videosignal 221 aus. Der Videokonferenzdienst 400 empfängt das Videosignal 221 wie auch das Audiosignal 211 und gibt ein Audiosignal 401 wie auch ein Videosignal 402 aus. Am fernen Ende 300 ist eine Anzeigevorrichtung 310 vorgesehen, die das Videosignal 402 empfängt und es anzeigt. Ein Teilnehmer 301 kann einen Kopfhörer oder Ohrhörer 330 tragen. Ferner ist ein Audioprozessor 340 vorgesehen, der die Positionsinformationen 212 wie auch das Audiosignal 401 empfängt und ein räumliches Audiosignal 341 generiert. An dem fernen Ende 300 ist ein Kamerasystem 350 vorgesehen und dient als Kopfverfolgungseinrichtung des Benutzers, um den Winkel des Kopfs in Bezug auf die Kamera zu bestimmen. Somit ist eine optische Kopfverfolgungseinrichtung vorgesehen. Diese Informationen 351 werden zu dem Audioprozessor 340 weitergeleitet, der imstande ist, diese Informationen in das räumliche Audiosignal aufzunehmen.
In der Ausführungsform von 3A wird eine Kopfverfolgung eines Teilnehmers 301 am fernen Ende 300 durchgeführt. Diese Kopfverfolgungsinformationen werden dem Audioprozessor 340 bereitgestellt und verwendet, um das räumliche Audiosignal 341 zu bestimmen. Wenn daher eine Person ihren Kopf (und daher auch ihre Ohren) dreht, erfasst die Kopfverfolgungseinrichtung diese Abweichung und der Audioprozessorkann das räumliche Audiosignal entsprechend anpassen. Dies ist vorteilhaft, da sich die Wahrnehmung eines Ursprungs des Audiosignals auch dann nicht ändert, wenn der Teilnehmer seinen Kopf dreht. Somit kann ein natürlicheres räumliches Audiohören für einen Teilnehmer an einem fernen Ende eines Videokonferenzsystems erreicht werden.
Die Kopfverfolgung kann von einer optischen Kopfverfolgungseinrichtung 350 oder von einer Kopfverfolgungseinrichtung, die in dem Headset 330 implementiert ist, durchgeführt werden. Die einzigen wichtigen Informationen sind die Informationen bezüglich des Winkels des Kopfs eines Benutzers.
3B offenbart eine grundlegende Darstellung eines Videokonferenzsystems mit einem Rendering an einem nahen Ende. Das Videokonferenzsystem 100 umfasst ein nahes Ende 200, ein fernes Ende 300 und einen Videokonferenzdienst 400. Am nahen Ende 200 befinden sich Teilnehmer 201, 202 in einem Raum. Optional ist eine Videokamera 220 vorgesehen, die ein Videosignal ausgibt. Ferner ist mindestens ein Mikrofon 210 zum Erfassen von Audiosignalen wie auch Positionsinformationen der Benutzer 201, 202 vorgesehen. Das Mikrofon gibt das Audiosignal 211 wie auch Positionsinformationen 212 an einen Audioprozessor 240 aus, der ein räumliches Audiosignal 241 generiert, das gemeinsam mit dem Videosignal zu dem Videokonferenzdienst 400 weitergeleitet wird. Der Videokonferenzdienst 400 generiert ein Audiosignal 401 basierend auf dem räumlichen Audiosignal 241. Ferner generiert der Videokonferenzdienst 400 ein Videosignal 402. Das Audiosignal 401 wie auch das Videosignal 402 werden zu dem fernen Ende 300 weitergeleitet. Das Videosignal kann auf der Anzeigevorrichtung 310 angezeigt werden und das Audiosignal 401 kann bei einem Kopfhörer 330 eines Teilnehmers 301 an dem fernen Ende abgespielt werden. Ferner kann eine Kopfverfolgungseinrichtung 350 in der Form einer Kamera vorgesehen sein. Die Kopfverfolgungseinrichtung dient zum Erfassen der Kopfposition des Benutzers. Diese Informationen 351 werden zu dem Audioprozessor 240 am nahen Ende 200 zurückgeleitet, wo diese Informationen in das räumliche Audiosignal 241 eingegliedert werden.
Die Ausführungsform von 3B entspricht im Wesentlichen der Ausführungsform von 3A. Der einzige Unterschied ist die Anordnung des Audioprozessors zum Generieren von räumlichem Audio. Während in der Ausführungsform von 3A der Audioprozessor am fernen Ende angeordnet ist, ist in der Ausführungsform von 3B der Audioprozessor am nahen Ende angeordnet. In beiden Fällen kann der Audioprozessor Kopfverfolgungsinformationen des Kopfs des Teilnehmers am fernen Ende empfangen. Die Kopfverfolgungsinformationen können von einem optischen Detektor 350 oder von einer Kopfverfolgungseinrichtung erfasst werden, die in den Kopfhörer 330 integriert ist.
Die Ausführungsform von 3A (das Vorsehen des Audioprozessors 340 am fernen Ende) scheint vorteilhaft zu sein, da sie eine Anwendung niedriger Latenz ermöglicht. In der Ausführungsform von 3B müssen die Kopfverfolgungsinformationen vom fernen Ende zu dem nahen Ende zurückgeleitet werden, bevor der Audioprozessor das räumliche Audio bestimmen kann.
4 offenbart eine grundlegende Darstellung eines Videokonferenzsystems. Das Videokonferenzsystem 100 umfasst ein nahes Ende 200, ein fernes Ende 300 und einen Videokonferenzdienst 400. Am nahen Ende 200 sind mindestens ein Mikrofon 210 und optional eine Kamera 220 vorgesehen. Das Mikrofon 210 erfasst Audiosignale und Positionen von Teilnehmern 201, 202 in dem Konferenzraum am nahen Ende 200 und gibt Positionsinformationen 212 wie auch ein allgemeines Audiosignal 211 aus. Die Videokamera 220 gibt ein Videosignal 221 aus. Der Videokonferenzdienst 400 kann einen Verarbeitungsdienst 410 für räumliches Audio umfassen, der die Positionsinformationen 212 wie auch das Audiosignal 211 empfängt und ein räumliches Audiosignal 411 zu dem Videokonferenzdienst 400 weiterleitet. Der Videokonferenzdienst 400 gibt ein räumliches Audiosignal 404 wie auch ein Videosignal 402 aus, das auf der Anzeigevorrichtung 310 angezeigt wird. Am fernen Ende 300 hat der Teilnehmer 301 einen Kopfhörer, ein Headset oder Ohrhörer 330. Am fernen Ende 300 kann eine optische Kopfverfolgungseinrichtung 350 in der Form der Kamera vorgesehen sein und die Kopfposition des Benutzers erfassen. Diese Informationen 351 werden zu dem Audioverarbeitungsdienst 410 weitergeleitet. Diese Informationen sind auch in dem räumlichen Audiosignal 411 enthalten.
In der Ausführungsform von 4 sind die Kopfverfolgungsinformationen wie auch der Audioprozessor in der Cloud angeordnet. Daher ist die Ausführungsform von 4 eine alternative Lösung zu den Ausführungsformen von 3A oder 3B.
Die Steuerung für das Videokonferenzsystem kann am nahen Ende (zum Beispiel in oder an dem Mikrofon 210), in der Cloud oder am fernen Ende implementiert sein. Die Funktionalität des Videokonferenzsystems kann in eine Videokonferenzsoftware oder einen Videokonferenzdienst eingeführt werden oder darin enthalten sein. Alternativ kann ein eigenständiger Videokonferenzdienst vorgesehen sein. Überdies kann eine Hotkey-Funktionalität bei der Mediensteuerung am nahen Ende implementiert sein.

Claims

IP-basiertes Remote-Videokonferenzsystem (100), umfassend ein nahes Ende (200) mit einem ersten Raum (200a) und mindestens einem Mikrofon (210), das konfiguriert ist, Audiosignale von mindestens einem Teilnehmer (201, 202) in dem ersten Raum (200a) zu erfassen und Positionsinformationen bezüglich des mindestens einen ersten Teilnehmers (201, 202) zu bestimmen, ein fernes Ende (300) mit einem zweiten Raum (300a) mit mindestens einem zweiten Teilnehmer (301) und mindestens einem Audiowiedergabegerät (330), wobei das mindestens eine Audiowiedergabegerät (330) räumliche Audiosignale empfängt und basierend auf den Audiosignalen und den Positionsinformationen, die von dem mindestens einen Mikrofon (210) erfasst werden, wiedergibt, und einen Videokonferenzdienst (400), der an das nahe Ende (200) und das ferne Ende (300) gekoppelt ist, der konfiguriert ist, Audiosignale von dem nahen Ende (200) zu dem fernen Ende (300) weiterzuleiten.
IP-basiertes Remote-Videokonferenzsystem (100) nach Anspruch 1, wobei das ferne Ende (300) einen Audioprozessor (340) umfasst, der konfiguriert ist, ein räumliches Audiosignal basierend auf einem Audiosignal, das über den Videokonferenzdienst (400) empfangen wird, und Positionsinformationen des mindestens einen ersten Teilnehmers (201, 202) zu generieren, wobei das räumliche Audiosignal von dem Audiowiedergabegerät (330) wiedergegeben wird, um ein räumliches Hörerlebnis für den mindestens einen zweiten Teilnehmer zu erzeugen.
IP-basiertes Remote-Videokonferenzsystem (100) nach Anspruch 2, wobei eine Kopfverfolgungseinrichtung (350) am fernen Ende (300) vorgesehen und konfiguriert ist, eine Kopfposition des mindestens einen zweiten Teilnehmers zu erfassen, wobei der Audioprozessor (340) an dem fernen Ende (300) konfiguriert ist, ein räumliches Audiosignal basierend auf einem Audiosignal, den Positionsinformationen des mindestens einen ersten Teilnehmers (201, 202) und den Kopfverfolgungsdaten zu generieren.
IP-basiertes Remote-Videokonferenzsystem (100) nach Anspruch 1, wobei das nahe Ende (300) einen Audioprozessor (240) umfasst, der konfiguriert ist, ein räumliches Audiosignal (241) basierend auf einem Audiosignal und Positionsinformationen von dem mindestens einen Mikrofon (210) zu generieren, wobei das räumliche Audiosignal von dem Videokonferenzsystem (400) an das ferne Ende (300) übertragen wird und von dem Audiowiedergabegerät (330) wiedergegeben wird, um ein räumliches Hörerlebnis für den mindestens einen zweiten Teilnehmer zu erzeugen.
IP-basiertes Remote-Videokonferenzsystem (100) nach Anspruch 4, wobei eine Kopfverfolgungseinrichtung (350) am fernen Ende (300) vorgesehen ist und konfiguriert ist, eine Kopfposition des mindestens einen zweiten Teilnehmers zu erfassen, wobei das nahe Ende (200) den Audioprozessor (240) umfasst, der konfiguriert ist, ein räumliches Audiosignal basierend auf einem Audiosignal, den Positionsinformationen des mindestens einen ersten Teilnehmers (201, 202) und den Kopfverfolgungsdaten, die über den Videokonferenzdienst (400) empfangen werden, zu generieren.
IP-basiertes Remote-Videokonferenzsystem (100) nach Anspruch 1, wobei der Videokonferenzdienst (400) einen Audioprozessor (410) umfasst, der konfiguriert ist, ein räumliches Audiosignal basierend auf einem Audiosignal von dem mindestens einen Mikrofon (210) und Positionsinformationen des mindestens einen ersten Teilnehmers (201, 202) zu generieren, wobei das räumliche Audiosignal von dem Audiowiedergabegerät (330) wiedergegeben wird, um ein räumliches Hörerlebnis für den mindestens einen zweiten Teilnehmer zu erzeugen.
IP-basiertes Remote-Videokonferenzsystem (100) nach einem der Ansprüche 1 bis 6, wobei das nahe Ende (200) eine Videokamera (220) umfasst, die konfiguriert ist, ein Videosignal (221) des mindestens einen ersten Teilnehmers (201, 202) zu generieren, wobei das Videosignal an den Videokonferenzdienst (400) übertragen wird, wobei das Audiosignal (211), die Positionsinformationen und das Videosignal (221), die von dem nahe Ende (200) übertragen werden, synchronisiert sind.