DE102022205633A1 - Räumliche audiosteuerung - Google Patents

Räumliche audiosteuerung Download PDF

Info

Publication number
DE102022205633A1
DE102022205633A1 DE102022205633.7A DE102022205633A DE102022205633A1 DE 102022205633 A1 DE102022205633 A1 DE 102022205633A1 DE 102022205633 A DE102022205633 A DE 102022205633A DE 102022205633 A1 DE102022205633 A1 DE 102022205633A1
Authority
DE
Germany
Prior art keywords
input audio
virtual sound
local device
gui
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022205633.7A
Other languages
English (en)
Inventor
Sean A. Ramprashad
Peter D. Callaway
Jae Woo Chang
Martin E. Johnson
Daniel K. Boothe
Kostyantyn Komarov
Patrick Miauton
Christopher M. GARRIDO
Austin W. SHYU
Karthick Santhanam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of DE102022205633A1 publication Critical patent/DE102022205633A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1601Constructional details related to the housing of computer displays, e.g. of CRT monitors, of flat displays
    • G06F1/1605Multimedia displays, e.g. with integrated or attached speakers, cameras, microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/161Indexing scheme relating to constructional details of the monitor
    • G06F2200/1614Image rotation following screen orientation, e.g. switching from landscape to portrait mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Abstract

Ein Verfahren, das von einer lokalen Vorrichtung ausgeführt wird, die kommunikativ mit mehreren entfernten Vorrichtungen gekoppelt ist, wobei das Verfahren Folgendes einschließt: Empfangen eines Eingangsaudiostroms von jeder entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist; Empfangen eines Parametersatzes von jeder entfernten Vorrichtung; Bestimmen, für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom 1) individuell gerendert werden soll, oder 2) als eine Mischung von Eingangsaudioströmen gerendert werden soll, basierend auf dem Parametersatz; räumliches Rendern des Eingangsaudiostroms als eine individuelle virtuelle Tonquelle, die nur diesen Eingangsaudiostrom enthält, für jeden Eingangsaudiostrom, für den bestimmt wird, dass er individuell gerendert werden soll; und räumliches Rendern der Mischung von Eingangsaudioströmen als eine einzelne virtuelle Tonquelle, welche die Mischung von Eingangsaudioströmen enthält, für Eingangsaudioströme, für die bestimmt wird, dass sie als die Mischung von Eingangsaudioströmen gerendert werden sollen.

Description

  • GEBIET
  • Ein Gesichtspunkt der Offenbarung bezieht sich auf ein System, das eine räumliche Audiosteuerung einschließt, die steuert, wie Audio in Kommunikationssitzungen verräumlicht wird. Es werden auch andere Gesichtspunkte beschrieben.
  • HINTERGRUND
  • Viele Vorrichtungen, wie z. B. ein Smartphone, sind in der Lage, verschiedene Telekommunikationstypen mit anderen Vorrichtungen zu verwenden. Zum Beispiel kann ein Smartphone einen Telefonanruf mit einer anderen Vorrichtung ausführen. Wenn eine Telefonnummer gewählt wird, verbindet sich das Smartphone mit einem Mobilfunknetz, das dann das Smartphone mit einer anderen Vorrichtung (z. B. einem anderen Smartphone oder einem Festnetz) verbinden kann. Darüber hinaus kann das Smartphone auch in der Lage sein, einen Videokonferenzaufruf durchzuführen, bei dem Videodaten und Audiodaten mit einer anderen Vorrichtung ausgetauscht werden.
  • KURZDARSTELLUNG
  • Während eine lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist, wie z. B. an einem Videokonferenzanruf, kann die lokale Vorrichtung Videodaten und Audiodaten der Sitzung von jeder entfernten Vorrichtung empfangen. Die lokale Vorrichtung kann die Videodaten verwenden, um eine dynamische Videodarstellung jedes entfernten Teilnehmers anzuzeigen, und kann die Audiodaten verwenden, um verräumlichte Audiorausgaben jedes entfernten Teilnehmers zu erstellen. Dazu kann die lokale Vorrichtung räumliche Rendering-Vorgänge bei den Audiodaten jeder entfernten Vorrichtung ausführen, sodass der lokale Benutzer jeden entfernten Teilnehmer von einer anderen Position wahrnimmt. Das Ausführen dieser Videoverarbeitungs- und Audioverarbeitungsvorgänge bedeutet jedoch eine hohe Verarbeitungsbelastung für die Elektronik (z. B. eine zentrale Verarbeitungseinheit (CPU)) der lokalen Vorrichtung. Daher besteht ein Bedarf an einer räumlichen Audiosteuerung, die räumliche Audio-Renderings während einer Kommunikationssitzung mit entfernten Vorrichtungen, unter Berücksichtigung sowohl der Komplexität als auch der Videodarstellung, erzeugt und verwaltet, während die Audioqualität bewahrt wird.
  • Um diese Mängel zu überwinden, beschreibt die vorliegende Offenbarung eine lokale Vorrichtung mit einer räumlichen Audiosteuerung zum Ausführen von Audiosignalverarbeitungsvorgängen, um Eingangsaudioströme von einer oder mehreren entfernten Vorrichtungen während einer Kommunikationssitzung effizient und effektiv räumlich zu rendern. Ein Gesichtspunkt der Offenbarung ist ein Verfahren, das von einer elektronischen Vorrichtung (z. B. einer lokalen Vorrichtung) ausgeführt wird, die kommunikativ mit einer oder mehreren entfernten Vorrichtungen gekoppelt ist und an einer Kommunikationssitzung beteiligt ist. Während des Beteiligtseins an der Sitzung empfängt die lokale Vorrichtung von jeder entfernten Vorrichtung einen Eingangsaudiostrom und empfängt einen Satz von Kommunikationssitzungsparametern für jede entfernte Vorrichtung. Zum Beispiel können die Parameter einen oder mehrere Sprachaktivitätserkennungsparameter (VAD-Parameter) einschließen, die auf einem VAD-Signal basieren, das von jeder entfernten Vorrichtung empfangen wird, die mindestens eine von Sprachaktivität und Sprachstärke eines entfernten Teilnehmers einer jeweiligen entfernten Vorrichtung angibt. Wenn die Vorrichtungen außerdem an einer Videokommunikationssitzung (z. B. Videokonferenzanruf), in der Eingangsvideoströme empfangen werden, beteiligt sind, und visuelle Darstellungen (oder Kacheln) der Videoströme in einer grafischen Benutzerschnittstelle (GUI) (Fenster) auf einem Anzeigebildschirm der lokalen Vorrichtung angeordnet sind, können die Sitzungsparameter Folgendes angeben: wie die visuellen Darstellungen innerhalb der GUI angeordnet sind (z. B. ob in einem größeren Pro-Benutzer-Kachel-Canvas-Bereich oder einem kleineren Pro-Benutzer-Listenbereich), die Größe der visuellen Darstellungen usw. Die lokale Vorrichtung bestimmt für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom 1) in Bezug auf die anderen empfangenen Eingangsaudioströme individuell gerendert werden soll, oder 2) innerhalb einer Mischung von Eingangsaudioströmen mit einem oder mehreren anderen Eingangsaudioströmen gerendert werden soll, basierend auf dem Satz von Kommunikationssitzungsparametern. Zum Beispiel kann ein Eingangsaudiostrom individuell gerendert werden, wenn mindestens eines von: einem VAD-Parameter, wie die Sprachaktivität, die über einem Sprachaktivitätsschwellenwert liegt (z. B. angibt, dass der entfernte Teilnehmer aktiv spricht), der visuellen Darstellung, die dem Eingangsaudiostrom zugeordnet ist, innerhalb eines markanten Bereichs der GUI enthalten ist (z. B. in dem Canvas-Bereich der GUI), bzw. einer Größe der visuellen Darstellung (z. B. die Größe der Darstellung, die zum Anzeigen des Videos eines entfernten Teilnehmers verwendet wird), die über einer Schwellenwertgröße liegt. Somit rendert die lokale Vorrichtung für jeden Eingangsaudiostrom, für den bestimmt wird, dass er individuell gerendert werden soll, den Eingangsaudiostrom räumlich als eine individuelle virtuelle Tonquelle, die nur den Eingangsaudiostrom enthält, und für Eingangsaudioströme, für die bestimmt wird, dass sie als die Mischung von Eingangsaudioströmen gerendert werden sollen, rendert sie die Mischung von Eingangsaudioströmen räumlich als eine einzelne virtuelle Tonquelle, welche die Mischung von Eingangsaudioströmen enthält. Daher kann die lokale Vorrichtung durch räumliches Rendern einiger individueller Eingangsaudioströme, die für den lokalen Teilnehmer von größerer Bedeutung sein können, während des räumlichen Renderns einer Mischung anderer Eingangsaudioströme, die möglicherweise nicht so kritisch sind, den Umfang der Rechenverarbeitung reduzieren, die erforderlich ist, um alle Ströme der Kommunikationssitzung räumlich zu rendern.
  • Gemäß einem Gesichtspunkt kann die lokale Vorrichtung basierend auf den Kommunikationssitzungsparametern eine Anordnung von Positionen für die individuellen virtuellen Tonquellen vor, hinter oder auf einer Seite des Anzeigebildschirms der lokalen Vorrichtung bestimmen. Zum Beispiel bestimmt die lokale Vorrichtung für jede individuelle virtuelle Tonquelle eine Position innerhalb der GUI der visuellen Darstellung eines jeweiligen Eingangsvideostroms, der einem jeweiligen Eingangsaudiostrom zugeordnet ist, der als die individuelle virtuelle Tonquelle räumlich gerendert werden soll, und bestimmt räumliche Parameter (z. B. einen Azimutwinkel, einen Höhenwinkel, einen Abstand und sogar einen Nachhallpegel), die eine Position der individuellen virtuellen Tonquelle innerhalb der Anordnung (z. B. in Bezug auf einen Referenzpunkt im Raum) basierend auf der bestimmten Position der visuellen Darstellung angeben, wobei das räumliche Rendern des Eingangsaudiostroms als die individuelle virtuelle Tonquelle das Verwenden der bestimmten räumlichen Parameter, um den Eingangsaudiostrom als die individuelle virtuelle Tonquelle an der Position räumlich zu rendern, einschließen kann. Eine solche Position kann auch bei einem virtuellen Raummodell eingeschlossen sein und räumliche Parameter schließen Modellaspekte wie einen Nachhallpegel für ein Nachhallmodell des Raums in Abhängigkeit von Abstand bzw. Stelle im Raum ein. Somit kann die lokale Vorrichtung als innerhalb dieses virtuellen Raumes liegend betrachtet werden. Gemäß einem Gesichtspunkt schließt die Anordnung auch eine Position der einzelnen virtuellen Tonquelle für eine Gruppe (z. B. eine Mischung) von Eingangsaudioquellen ein, wobei das Bestimmen der Position das Verwenden einer oder mehrerer der Positionen innerhalb der GUI der visuellen Darstellung jedes der jeweiligen Eingangsvideoströme, die jedem der Eingangsaudioströme der Mischung zugeordnet sind, bzw. der Ebenen jedes der Eingangsaudioströme der Mischung, einschließt, und basierend auf diesen Informationen Bestimmen einer Position sowie der räumlichen Parameter, die eine Position der virtuellen (gruppierten und gemischten) Tonquelle des gemischten Eingangsaudiostroms angeben. Diese Gruppenposition wird auch zum Bestimmen neuer räumlicher Parameter verwendet. Zum Beispiel schließt das Bestimmen der neuen räumlichen Parameter das Bestimmen einer gewichteten Kombination der räumlichen Positionsdaten aller Eingangsaudioströme der Mischung ein, wobei die Gewichtung eine Funktion des Energiepegels von einzelnen Strömen sein kann. Gemäß einem Gesichtspunkt schließen Ströme, die für die Gruppierung in einer solchen gemeinsamen Position ausgewählt sind, diejenigen ein, für welche die visuelle Darstellung weniger markant (z. B. kleinere Videokacheln als Kacheln innerhalb der markanten Region der GUI) oder für die visuelle Darstellung nicht sichtbar ist (z. B. gegenwärtig implizit vom Anzeigebildschirm). Somit kann ein einzelner gruppierter Audiostrom, der in einem räumlichen Sinne zu einer einzelnen Position gerendert wird, verwendet werden, wenn einige der visuellen Darstellungen weniger markant oder nicht sichtbar sind. Somit können in Summe die virtuellen Tonquellen, die individuell oder gruppiert sind, als Funktion und in entsprechender Beziehung zu der Anordnung von visuellen Darstellungen angeordnet sein, um dem lokalen Benutzer eine optimierte räumliche Erfahrung bereitzustellen, während die Komplexität und die Berücksichtigung der markanten Aspekte in der Videokommunikationssitzung gesteuert werden.
  • Gemäß einem anderen Gesichtspunkt der Offenbarung wird ein Verfahren durch die lokale Vorrichtung ausgeführt, das eine andere Anordnung von virtuellen Tonquellenpositionen bereitstellt. Zum Beispiel empfängt die lokale Vorrichtung von jeder entfernten Vorrichtung einen Eingangsaudiostrom und einen Eingangsvideostrom, zeigt die Eingangsvideoströme als visuelle Darstellungen in einer GUI auf einem Anzeigebildschirm an und rendert mindestens einen Eingangsaudiostrom räumlich, um eine einzelne virtuelle Tonquelle auszugeben, die nur den Strom einschließt. Empfangen eines Eingangsaudiostroms und eines Eingangsvideostroms für jede der zusätzlichen Vorrichtungen als Reaktion auf das Bestimmen, dass sich zusätzliche entfernte Vorrichtungen an der Videokommunikationssitzung beteiligt haben. Die lokale Vorrichtung bestimmt, ob die Vorrichtung zusätzliche individuelle virtuelle Tonquellen für einen oder mehrere Eingangsaudioströme der zusätzlichen Vorrichtungen unterstützt. Als Reaktion auf das Bestimmen, dass die lokale Vorrichtung keine zusätzlichen individuellen virtuellen Tonquellen unterstützt, definiert die lokale Vorrichtung mehrere Benutzerschnittstellenzonen (UI-Zonen), die sich in der GUI befinden, wobei jede UI-Zone eine oder mehrere visuelle Darstellungen eines oder mehrerer Videoströme einschließt, und für jede UI-Zone eine Mischung von einem oder mehreren Eingangsaudioströmen, die der einen oder den mehreren visuellen Darstellungen zugeordnet sind, die in der UI-Zone eingeschlossen sind, räumlich rendert.
  • Gemäß einem anderen Gesichtspunkt der Offenbarung stellt ein von der lokalen Vorrichtung ausgeführtes Verfahren eine Anpassung an die Position der virtuellen Tonquelle basierend auf Änderungen an Schwenkbereichen (oder Grenzen) bereit, da sich die lokale Vorrichtung in eine andere Ausrichtung dreht. Insbesondere empfängt die entfernte Vorrichtung einen Eingangsaudiostrom und bestimmt eine erste Ausrichtung der lokalen Vorrichtung (z. B. eine Hochformat-Ausrichtung). Die lokale Vorrichtung bestimmt einen Schwenkbereich mehrerer Lautsprecher für die erste Ausrichtung der lokalen Vorrichtung, die sich entlang einer horizontalen Achse erstreckt. Die lokale Vorrichtung rendert den Eingangsaudiostrom als virtuelle Tonquelle an einer Position entlang der horizontalen Achse und innerhalb des Schwenkbereichs unter Verwendung der Lautsprecher. Die lokale Vorrichtung kann auch gemeinsam in horizontaler Richtung und vertikaler Richtung schwenken. Schwenkgrenzen oder ein gemeinsamer Bereich von horizontalen und vertikalen Schwenkrichtungen können basierend auf der Ausrichtung der Vorrichtung bestimmt werden. Die Ausrichtung der Vorrichtung kann implizieren, wie sich das Audio relativ zu horizontalen und vertikalen Bereichen der Vorrichtung (z. B. dem rechteckigen Bildschirm der Vorrichtung, die vom Benutzer betrachtet wird) befindet. Als Reaktion auf das Bestimmen, dass sich die lokale Vorrichtung in einer zweiten Ausrichtung befindet (z. B. die Vorrichtung, die um 90° in eine Querformat-Ausrichtung gedreht wurde), bestimmt die lokale Vorrichtung einen angepassten Schwenkbereich der Lautsprecher, der sich weiter entlang der horizontalen Achse als der ursprüngliche Schwenkbereich erstreckt, und passt die Position der virtuellen Tonquelle entlang der horizontalen Achse basierend auf dem angepassten Schwenkbereich an. Somit wird, wenn sich die lokale Vorrichtung dreht, die virtuelle Tonquelle von einem lokalen Benutzer als in einer weiteren Stelle wahrgenommen, als wie die lokale Vorrichtung in der vorherigen Ausrichtung war. Gemäß einem Gesichtspunkt kann die gemeinsame horizontale und vertikale Schwenkgrenze eine Funktion der Ausrichtung sein. Individuelle oder gemischte Tonquellen weisen virtuelle Azimut- und Höhenwinkel innerhalb dieses Bereichs auf, wobei die Abbildung von den Positionen visueller Darstellungen diesen Bereich verwendet, um die Funktion für die Abbildung zu definieren.
  • Gemäß einem anderen Gesichtspunkt der Offenbarung bestimmt ein von der lokalen Vorrichtung ausgeführtes Verfahren einen Schwenkbereich mehrerer Lautsprecher basierend auf einem Seitenverhältnis der GUI (z. B. Fenster, das auf der GUI angezeigt wird) der Kommunikationssitzung, die auf dem Anzeigebildschirm angezeigt wird. Die lokale Vorrichtung empfängt einen Eingangsaudiostrom und einen Eingangsvideostrom und zeigt eine visuelle Darstellung des Eingangsvideostroms innerhalb einer GUI der Videokommunikationssitzung, die auf einem Anzeigebildschirm angezeigt wird (der z. B. in die lokale Vorrichtung integriert sein kann, und auf dem ein Fenster sein kann, das die Kommunikationssitzung enthält). Die lokale Vorrichtung bestimmt ein Seitenverhältnis der GUI und bestimmt einen Azimut-Schwenkbereich, der mindestens ein Abschnitt eines gesamten Azimut-Schwenkbereichs mehrerer Lautsprecher ist, und einen Höhen-Schwenkbereich, der mindestens ein Abschnitt eines gesamten Höhen-Schwenkbereichs der Lautsprecher ist, basierend auf dem Seitenverhältnis. Die lokale Vorrichtung rendert den Eingangsaudiostrom, um eine virtuelle Tonquelle innerhalb der Azimut- und Höhen-Schwenkbereiche auszugeben.
  • Die vorstehende Zusammenfassung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der Offenbarung ein. Die Offenbarung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden ausführlichen Beschreibung offenbart werden und die in den Ansprüchen ausdrücklich genannt sind. Solche Kombinationen können bestimmte Vorteile aufweisen, die in der obigen Kurzdarstellung nicht spezifisch angegeben sind.
  • Figurenliste
  • Die Gesichtspunkte werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezugszeichen gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt dieser Offenbarung nicht notwendigerweise auf denselben Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann im Interesse der Kürze und des Reduzierens der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.
    • 1 zeigt ein System, das eine oder mehrere entfernte Vorrichtungen einschließt, die an einer Kommunikationssitzung mit einer lokalen Vorrichtung beteiligt sind, die eine räumliche Audiosteuerung für räumliches Rendern von Audio von der einen oder den mehreren entfernten Vorrichtungen gemäß einem Gesichtspunkt einschließt.
    • 2 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die Eingangsaudioströme von entfernten Vorrichtungen, mit denen die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist, um virtuelle Tonquellen auszugeben, gemäß einem Gesichtspunkt räumlich rendert.
    • 3 veranschaulicht eine beispielhafte grafische Benutzerschnittstelle (GUI) einer Kommunikationssitzung, die durch die lokale Vorrichtung angezeigt wird, und eine Anordnung von virtuellen Tonpositionen von einem räumlichen Audio, das von der lokalen Vorrichtung während der Kommunikationssitzung gemäß einem Gesichtspunkt ausgegeben wird.
    • 4 zeigt ein Blockdiagramm der lokalen Vorrichtung, welche die räumliche Audiosteuerung einschließt, die räumliche Rendering-Vorgänge während einer Kommunikationssitzung gemäß einem Gesichtspunkt ausführt.
    • 5 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses zum Bestimmen, ob Eingangsaudioströme individuell als individuelle virtuelle Tonquellen gerendert werden sollen oder gemischt und als eine einzelne virtuelle Tonquelle gerendert werden sollen, und zum Bestimmen einer Anordnung der virtuellen Tonquellen.
    • 6 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses zum Definieren von UI-Zonen und zum räumlichen Rendern von Eingangsaudioströmen, die den UI-Zonen zugeordnet sind.
    • 7 veranschaulicht mehrere Stufen, in denen eine lokale Vorrichtung Benutzerschnittstellenzonen (UI-Zonen) für eine oder mehrere visuelle Darstellungen von Eingangsvideoströmen einer oder mehrerer entfernten Vorrichtungen definiert und räumlich einen oder mehrere Eingangsaudioströme, die den definierten UI-Zonen zugeordnet sind, gemäß einem Gesichtspunkt rendert.
    • 8 veranschaulicht Schwenkwinkel, die verwendet werden, um Eingangsaudioströme an ihren jeweiligen virtuellen Tonquellenpositionen gemäß einem Gesichtspunkt zu rendern.
    • 9 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses zum Bestimmen von räumlichen Parametern, die eine Position angeben, an der ein Eingangsaudiostrom räumlich als eine virtuelle Tonquelle basierend auf einer Position einer jeweiligen visuellen Darstellung gemäß einem Gesichtspunkt gerendert werden soll.
    • 10 zeigt ein Beispiel zum Bestimmen von räumlichen Parametern durch Verwenden einer oder mehrerer linearer Funktionen zum Abbilden von Positionen visueller Darstellungen auf Winkeln, bei denen Eingangsaudioströme gemäß einem Gesichtspunkt gerendert werden sollen.
    • 11A und 11B zeigen ein Beispiel zum Bestimmen von räumlichen Parametern durch Verwenden einer oder mehrerer Funktionen zum Abbilden von Positionen geschätzter oder realer Betrachtungswinkel visueller Darstellungen (z. B. unter Verwendung einer angenommenen Bildschirmgröße und Betrachtungsstelle) zu Audio-Schwenkwinkeln, bei denen Eingangsaudioströme gemäß einem Gesichtspunkt gerendert werden sollen.
    • 12 zeigt mehrere Stufen, in denen Schwenkbereiche eines oder mehrerer Lautsprecher basierend auf der lokalen Vorrichtung, die sich von einer Hochformat-Ausrichtung in eine Querformat-Ausrichtung dreht, angepasst werden.
    • 13 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses zum Anpassen von Positionen einer oder mehrerer virtueller Tonquellen basierend auf Änderungen an einem oder mehreren Schwenkbereichen eines oder mehrerer Lautsprecher basierend auf einer Änderung einer Ausrichtung der lokalen Vorrichtung.
    • 14A und 14B zeigen mehrere Stufen, in denen Schwenkbereiche basierend auf einem Seitenverhältnis der GUI der Kommunikationssitzung angepasst werden, gemäß einigen Gesichtspunkten.
    • 15 ist ein Flussdiagramm eines Aspekts eines Prozesses 170 zum Anpassen der Position einer oder mehrerer virtueller Tonquellen basierend auf einer Änderung eines Seitenverhältnisses der GUI der Kommunikationssitzung.
  • DETAILLIERTE BESCHREIBUNG
  • Mehrere Gesichtspunkte der Offenbarung werden nun unter Bezugnahme auf die beigefügten Zeichnungen erklärt. In Fällen, in denen die Formen, relativen Positionen und anderen Gesichtspunkte der gemäß einem gegebenen Gesichtspunkt beschriebenen Teile nicht klar definiert sind, ist der Schutzumfang der Offenbarung hier nicht nur auf die gezeigten Teile beschränkt, die lediglich zum Zweck der Veranschaulichung vorgesehen sind. Auch wenn zahlreiche Details dargelegt werden, versteht es sich außerdem, dass manche Gesichtspunkte ohne diese Details ausgeführt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu verunklaren. Ferner werden, sofern die Bedeutung nicht eindeutig gegenteilig ist, alle hierin dargelegten Bereiche als die Endpunkte jedes Bereichs einschließend angesehen.
  • 1 zeigt ein System 1, das eine oder mehrere entfernte Vorrichtungen einschließt, die an einer Kommunikationssitzung mit einer lokalen Vorrichtung beteiligt sind, die eine räumliche Audiosteuerung für räumliches Rendern von Audio von der einen oder den mehreren entfernten Vorrichtungen gemäß einem Gesichtspunkt einschließt. Wie hierin beschrieben, kann dies ermöglichen, dass die lokale Vorrichtung eine realistischere Hörerfahrung während einer (z. B. Video-) Kommunikationssitzung (z. B. eines Videokonferenzanrufs) mit den entfernten Vorrichtungen für einen lokalen Benutzer simuliert, in dem ein Audio vom lokalen Benutzer so wahrgenommen wird, dass es von Tonquellen in einem separaten Referenzrahmen, wie der physischen Umgebung, die ihm umgibt oder vor dem Benutzer, kommt, und sich von und um den Bildschirm bewegt, wenn eine visuelle Darstellung vorliegt. Das Audiosystem schließt eine lokale (oder erste elektronische) Vorrichtung 2, eine entfernte (oder zweite elektronische) Vorrichtung 3, ein Netzwerk 4 (z. B. ein Computernetzwerk wie das Internet) und eine Audioausgabevorrichtung 6 ein. Gemäß einem Gesichtspunkt kann das System mehr oder weniger Elemente einschließen. Zum Beispiel kann das System eine oder mehrere entfernte Vorrichtungen aufweisen, wobei alle Vorrichtungen gleichzeitig an der Kommunikationssitzung mit der lokalen Vorrichtung beteiligt sind, wie hierin beschrieben wird. Gemäß einem anderen Gesichtspunkt kann das Audiosystem einen oder mehrere entfernte (elektronische) Server einschließen, die kommunikativ mit mindestens einigen der Vorrichtungen des Audiosystems 1 gekoppelt sind und konfiguriert sein können, um mindestens einige der hierin beschriebenen Vorgänge auszuführen. Gemäß einem anderen Gesichtspunkt kann das System möglicherweise keine Audioausgabevorrichtung einschließen. In diesem Fall kann die lokale Vorrichtung Audioausgabevorgänge ausführen, wie unter Verwendung eines oder mehrerer Audiotreibersignale, um einen oder mehrere Lautsprecher anzusteuern, die in die lokale Vorrichtung integriert oder von der lokalen Vorrichtung getrennt sein können (z. B. eigenständige Lautsprecher, die kommunikativ mit der lokalen Vorrichtung gekoppelt sind, wie beispielsweise ein Satz von Kopfhörern).
  • Gemäß einem Gesichtspunkt kann die lokale Vorrichtung (bzw. die entfernte Vorrichtung) eine beliebige elektronische Vorrichtung sein (z. B. mit elektronischen Komponenten, wie einem Prozessor, Speicher usw.), die in der Lage ist, sich an einer Kommunikationssitzung zu beteiligen, wie beispielsweise an einem Videoanruf (Konferenzanruf). Zum Beispiel kann die lokale Vorrichtung ein Desktop-Computer, ein Laptop-Computer, ein digitaler Mediaplayer usw. sein. Gemäß einem Gesichtspunkt kann die Vorrichtung eine tragbare elektronische Vorrichtung sein (z. B. handbetrieben), wie ein Tablet-Computer, ein Smartphone usw. Gemäß einem anderen Gesichtspunkt kann die Vorrichtung eine am Kopf angebrachte Vorrichtung, wie Smartglasses, oder eine tragbare Vorrichtung, wie eine Smartwatch, sein. Gemäß einem Gesichtspunkt kann/können die entfernte(n) Vorrichtung(en) die gleiche Art von Vorrichtung wie die lokale Vorrichtung sein (beide Vorrichtungen sind z. B. Smartphones). Gemäß einem anderen Gesichtspunkt können mindestens einige der entfernten Vorrichtungen unterschiedlich sein, z. B. können einige Desktop-Computer sein, während andere Smartphones sind.
  • Wie veranschaulicht, ist die lokale Vorrichtung 2 (z. B. kommunikativ) mit der entfernten Vorrichtung 3 über das Computernetzwerk (z. B. Internet) 4 gekoppelt. Insbesondere können die lokalen und entfernten Vorrichtungen so konfiguriert sein, dass sie einen Videokonferenzaufruf herstellen und sich daran beteiligen, in dem die Vorrichtungen, die am Anruf beteiligt sind, Audio- und Videodaten austauschen. Zum Beispiel kann die lokale Vorrichtung jedes beliebige Signalisierungsprotokoll (z. B. Session Initiation Protocol (SIP)) verwenden, um eine Kommunikationssitzung herzustellen, und ein beliebiges Kommunikationsprotokoll (z. B. Übertragungssteuerungsprotokoll (TCP), Real-Time Transport Protocol (RTP) usw.) verwenden, um Audio- und Videodaten während der Sitzung auszutauschen. Wenn die Sitzung zum Beispiel initiiert wird (z. B. durch eine Kommunikationssitzungsanwendung, die innerhalb der lokalen Vorrichtung ausgeführt werden kann), kann die lokale Vorrichtung ein oder mehrere Mikrofonsignale (unter Verwendung eines oder mehrerer Mikrofone der lokalen Vorrichtung) erfassen, die Audiodaten (z. B. unter Verwendung eines beliebigen Audio-Codecs) verschlüsseln und die Audiodaten (z. B. als IP-Pakete) an eine oder mehrere entfernte Vorrichtungen übertragen und Audiodaten (z. B. als Eingangsaudioströme) von jeder der entfernten Vorrichtungen zum Ansteuern eines oder mehrerer Lautsprecher der lokalen Vorrichtung über das Netzwerk empfangen.
  • Zusätzlich kann die lokale Vorrichtung Videodaten (die von einer oder mehreren Kameras der Vorrichtung erfasst werden) an jede entfernte Vorrichtung, die am Anruf beteiligt ist, übertragen und Videodaten (als Eingangsvideostrom) von jeder entfernten Vorrichtung als Ausgangsvideostrom empfangen und mindestens ein Videosignal (oder ein Eingangsvideostrom) zur Anzeige auf einem oder mehreren Anzeigebildschirmen empfangen. Gemäß einem Gesichtspunkt kann die lokale Vorrichtung beim Übertragen von Videodaten die Videodaten unter Verwendung eines beliebigen Video-Codecs (z. B. H.264) verschlüsseln, die dann auf jeder der entfernten Vorrichtungen, an welche die lokale Vorrichtung die verschlüsselten Daten überträgt, entschlüsselt und gerendert werden können.
  • Gemäß einem Gesichtspunkt kann das Netzwerk 4 jede Art von Netzwerk sein, welches es der lokalen Vorrichtung ermöglicht, mit einer oder mehreren entfernten Vorrichtungen kommunikativ gekoppelt zu werden. Gemäß einem anderen Gesichtspunkt kann das Netzwerk ein Telekommunikationsnetzwerk mit einem oder mehreren Mobilfunkmasten einschließen, die Teil eines Kommunikationsnetzwerks sein können (z. B. ein 4G-Long Term Evolution-Netzwerk (LTE-Netzwerk)), das Datenübertragung (bzw. Sprachanrufe) für elektronische Vorrichtungen wie mobile Vorrichtungen (z. B. Smartphones) unterstützt.
  • Gemäß einem Gesichtspunkt kann die Audioausgabevorrichtung 6 jede elektronische Vorrichtung sein, die mindestens einen Lautsprecher einschließt und dazu konfiguriert ist, eine Ausgabe eines Tons durch Ansteuern des Lautsprechers auszuführen. Zum Beispiel ist die Vorrichtung, wie veranschaulicht, ein drahtloser Kopfhörer (z. B. In-Ohr-Kopfhörer oder Ohrhörer), der so ausgelegt ist, dass er an (oder in) den Ohren des Benutzers positioniert ist, und dazu ausgelegt ist, Ton in den Gehörgang des Benutzers auszugeben. Gemäß einigen Gesichtspunkten kann es sich beim Ohrhörer um einen abdichtenden Typ handeln, der eine flexible Ohrspitze aufweist, die dazu dient, den Eingang des Gehörgangs des Benutzers akustisch von einer Umgebung abzuschotten, indem sie den Gehörgang blockiert oder verschließt. Wie gezeigt, schließt die Ausgabevorrichtung einen linken Ohrhörer für das linke Ohr des Benutzers und einen rechten Ohrhörer für das rechte Ohr des Benutzers ein. In diesem Fall kann jeder Ohrhörer konfiguriert sein, um mindestens einen Audiokanal von Medieninhalt auszugeben (z. B. der rechte Ohrhörer, der einen rechten Audiokanal ausgibt, und der linke Ohrhörer, der einen linken Audiokanal eines Zweikanaleingangs einer stereophonischen Aufzeichnung, wie einem musikalischen Werk, ausgibt). Gemäß einem anderen Gesichtspunkt kann die Ausgabevorrichtung eine beliebige elektronische Vorrichtung sein, die mindestens einen Lautsprecher einschließt und so angeordnet ist, dass sie vom Benutzer getragen werden kann, und angeordnet ist, um den Lautsprecher mit einem Audiosignal anzusteuern. Als weiteres Beispiel kann die Ausgabevorrichtung jede Art von Kopfhörer sein, wie z. B. ein Über-dem-Ohr-Kopfhörer (oder Auf-dem-Ohr-Kopfhörer), der die Ohren des Benutzers mindestens teilweise abdeckt und angeordnet ist, um einen Ton in die Ohren des Benutzers zu leiten.
  • Gemäß einigen Gesichtspunkten kann die Audioausgabevorrichtung eine am Kopf getragene Vorrichtung sein, wie hierin veranschaulicht wird. Gemäß einem weiteren Gesichtspunkt kann die Audioausgabevorrichtung eine beliebige elektronische Vorrichtung sein, die so angeordnet ist, dass sie Ton in die Raumumgebung ausgibt. Beispiele können ein eigenständiger Lautsprecher, ein intelligenter Lautsprecher, ein Heimkinosystem oder ein Infotainmentsystem sein, das in ein Fahrzeug integriert ist.
  • Gemäß einem Gesichtspunkt kann die Audioausgabevorrichtung 6 eine drahtlose Vorrichtung sein, die kommunikativ mit der lokalen Vorrichtung gekoppelt sein kann, um Audiodaten auszutauschen. Zum Beispiel kann die lokale Vorrichtung konfiguriert sein, um die drahtlose Verbindung mit der Audioausgabevorrichtung über ein drahtloses Kommunikationsprotokoll herzustellen (z. B. BLUETOOTH-Protokoll oder ein beliebiges anderes drahtloses Kommunikationsprotokoll). Während der hergestellten drahtlosen Verbindung kann die lokale Vorrichtung Datenpakete (z. B. Internetprotokollpakete (IP-Pakete)) mit der Audioausgabevorrichtung austauschen (z. B. übertragen und empfangen), die audiodigitale Daten in einem beliebigen Audioformat einschließen können. Insbesondere kann die lokale Vorrichtung konfiguriert sein, um die Audioausgabevorrichtung über eine bidirektionale drahtlose Audioverbindung herzustellen und mit ihr zu kommunizieren (z. B. was es beiden Vorrichtungen ermöglicht, Audiodaten auszutauschen), zum Beispiel um einen freihändigen Anruf durchzuführen oder Sprachbefehle zu verwenden. Beispiele für ein bidirektionales drahtloses Kommunikationsprotokoll schließen, ohne Einschränkung, das Hands-Free Profile (HFP) und das Headset Profile (HSP) ein, die beide BLUETOOTH-Kommunikationsprotokolle sind. Gemäß einem anderen Aspekt kann die lokale Vorrichtung konfiguriert sein, um mit der Ausgabevorrichtung über eine unidirektionale drahtlose Audioverbindung (z. B. Advanced Audio Distribution Profile-Protokoll (A2DP-Protokoll)) eine Kommunikation herzustellen, was es der lokalen Vorrichtung ermöglicht, Audiodaten an eine oder mehrere Audioausgabevorrichtungen zu übertragen.
  • Gemäß einem anderen Aspekt kann die lokale Vorrichtung 2 mit der Audioausgabevorrichtung 6 über andere Verfahren kommunikativ gekoppelt sein. Zum Beispiel können beide Vorrichtungen über eine drahtgebundene Verbindung gekoppelt sein. In diesem Fall kann ein Ende der drahtgebundenen Verbindung (z. B. fest) mit der Audioausgabevorrichtung verbunden sein, während ein anderes Ende einen Steckverbinder, wie einen Medienanschluss oder einen Universal Serial Bus-Steckverbinder (USB-Steckverbinder), der in eine Buchse der Audioquellenvorrichtung eingesteckt ist, aufweisen kann. Nach dem Verbinden kann die lokale Vorrichtung konfiguriert sein, um einen oder mehrere Lautsprecher der Audioausgabevorrichtung mit einem oder mehreren Audiosignalen über die drahtgebundene Verbindung anzusteuern. Zum Beispiel kann die lokale Vorrichtung die Audiosignale als digitales Audio (z. B. digitales PCM-Audio) übertragen. Gemäß einem anderen Gesichtspunkt kann das Audio in analoger Form übertragen werden.
  • Gemäß einigen Gesichtspunkten können die lokale Vorrichtung 2 und die Audioausgabevorrichtung 6 unterschiedliche (separate) elektronische Vorrichtungen sein, wie hierin gezeigt wird. Gemäß einem anderen Gesichtspunkt kann die lokale Vorrichtung ein Teil von der Audioausgabevorrichtung (oder darin integriert) sein. Zum Beispiel können, wie hierin beschrieben, mindestens einige der Komponenten der lokalen Vorrichtung (wie eine Steuerung) Teil der Audioausgabevorrichtung sein, bzw. mindestens einige der Komponenten der Audioausgabevorrichtung können Teil der lokalen Vorrichtung sein. In diesem Fall kann jede der Vorrichtungen über Leiterbahnen kommunikativ gekoppelt sein, die Teil einer oder mehrerer Leiterplatten (PCBs) innerhalb der Audioausgabevorrichtung sind.
  • 2 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die Eingangsaudioströme von entfernten Vorrichtungen, mit denen die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist, um virtuelle Tonquellen auszugeben, gemäß einem Gesichtspunkt räumlich rendert. Die lokale Vorrichtung 2 schließt eine Steuerung 10, eine Netzwerkschnittstelle 11, einen Lautsprecher 12, ein Mikrofon 14, eine Kamera 15, einen Anzeigebildschirm 13, eine Trägheitsmesseinheit (IMU) 16 und (optional) einen oder mehrere zusätzliche Sensoren 17 ein. Gemäß einem Gesichtspunkt kann die lokale Vorrichtung mehr oder weniger Elemente, wie hierin beschrieben, einschließen. Zum Beispiel kann die Vorrichtung zwei oder mehr von mindestens einigen der Elemente einschließen, wie beispielsweise zwei oder mehr Lautsprecher, zwei oder mehr Mikrofone, zwei oder mehr Kameras und zwei oder mehr Anzeigebildschirme.
  • Die Steuerung 10 kann ein Spezialprozessor wie eine anwendungsspezifische integrierte Schaltung (Application-Specific Integrated Circuit, ASIC), ein Universalmikroprozessor, eine feldprogrammierbare Gatteranordnung (Field-Programmable Gate Array, FPGA), eine digitale Signalsteuerung oder ein Satz von Hardware-Logikstrukturen (z. B. Filter, arithmetisch-logische Einheiten und dedizierte Zustandsmaschinen) sein. Die Steuerung ist konfiguriert, um Audiosignalverarbeitungsvorgänge bzw. Netzwerkvorgänge durchzuführen. Zum Beispiel kann die Steuerung 10 konfiguriert sein, um sich an einer Videokommunikationssitzung mit einer oder mehreren entfernten Vorrichtungen über die Netzwerkschnittstelle 11 zu beteiligen. Gemäß einem anderen Gesichtspunkt kann die Steuerung konfiguriert sein, um Audiosignalverarbeitungsvorgänge bei Audiodaten (z. B. Eingangsaudioströmen), die einer beteiligten Kommunikationssitzung zugeordnet sind, auszuführen, wie zum Beispiel räumliches Rendern der Ströme, um sie als virtuelle Tonquellen auszugeben, um eine realistischere Hörerfahrung für den lokalen Benutzer bereitzustellen. Mehr zu den Vorgängen, die von der Steuerung 10 ausgeführt werden, wird hierin beschrieben.
  • Gemäß einem Gesichtspunkt sind der eine oder die mehreren Sensoren 17 konfiguriert, um die Umgebung (z. B. in der sich die lokale Vorrichtung befindet) zu erfassen und Sensordaten basierend auf der Umgebung zu erzeugen. Gemäß einigen Gesichtspunkten kann die Steuerung konfiguriert sein, um Vorgänge basierend auf den Sensordaten, die von einem oder mehreren Sensoren 17 erzeugt werden, auszuführen. Zum Beispiel können die Sensoren einen (z. B. optischen) Näherungssensor einschließen, der dazu ausgelegt ist, Sensordaten zu erzeugen, die angeben, dass sich ein Objekt in einem bestimmten Abstand vom Sensor (oder der lokalen Vorrichtung) befindet, wie das Erfassen eines Betrachtungsabstands zwischen der lokalen Vorrichtung und dem lokalen Benutzer. Die Sensoren können auch einen Beschleunigungsmesser einschließen, der angeordnet und konfiguriert ist, um Vibrationen (z. B. Sprachvibrationen, die beim Sprechen des Benutzers erzeugt werden) zu empfangen (zu erkennen oder zu erfassen) und ein Beschleunigungsmessersignal zu erzeugen, welches die Vibrationen darstellt (oder enthält). Die IMU ist dazu ausgelegt, die Stelle bzw. Ausrichtung der lokalen Vorrichtung zu messen. Zum Beispiel kann die IMU Sensordaten erzeugen, die eine Änderung der Ausrichtung (z. B. um beliebige X-, Y-, Z-Achsen) der lokalen Vorrichtung bzw. eine Änderung der Stelle der Vorrichtung angeben.
  • Der Lautsprecher 12 kann ein elektrodynamischer Treiber sein, der speziell zur Tonausgabe in bestimmten Frequenzbändern ausgelegt sein kann, wie zum Beispiel ein Tieftöner, ein Hochtöner oder ein Mitteltöner. Gemäß einem Gesichtspunkt kann der Lautsprecher 12 ein elektrodynamischer „Vollbereichs“-Treiber (oder „Vollband“-Treiber) sein, der einen möglichst großen hörbaren Frequenzbereich wiedergibt. Das Mikrofon 14 kann jeder Typ von Mikrofon (z. B. ein Mikrofon mit einem mikroelektromechanischen Differenzdruckgradientensystem (MEMS-System)) sein, das dazu ausgelegt ist, akustische Energie, die durch eine Tonwelle verursacht wird, die sich in einer akustischen Umgebung ausbreitet, in ein Mikrofoneingangssignal (oder Audiosignal) umzuwandeln.
  • Gemäß einem Gesichtspunkt ist die Kamera 15 ein komplementärer Metalloxid-Halbleiter-Bildsensor (CMOS-Bildsensor), der in der Lage ist, digitale Bilder einschließlich Bilddaten, die ein Sichtfeld der Kamera 15 darstellen, aufzunehmen, wobei das Sichtfeld eine Szene einer Umgebung einschließt, in der sich die lokale Vorrichtung 2 befindet. Gemäß einigen Aspekten kann die Kamera eine kameraartige ladungsgekoppelte Vorrichtung (CCD) sein. Die Kamera ist konfiguriert, um noch digitale Bilder bzw. Videos aufzunehmen, die durch eine Reihe digitaler Bilder dargestellt werden. Gemäß einem Gesichtspunkt kann die Kamera irgendwo über der lokalen Vorrichtung positioniert sein. Gemäß einigen Gesichtspunkten kann die Vorrichtung mehrere Kameras einschließen (z. B. wobei jede Kamera ein anderes Sichtfeld aufweisen kann).
  • Der Anzeigebildschirm 13 ist dazu ausgelegt, digitale Bilder oder Videos von Videodaten (oder Bilddaten) darzustellen (oder anzuzeigen). Gemäß einem Gesichtspunkt kann der Anzeigebildschirm die Technologie der Flüssigkristallanzeige (LCD), die Technologie der lichtemittierenden Polymeranzeige (LPD) oder die Technologie der Leuchtdiode (LED) verwenden, obwohl andere Anzeigetechnologien in anderen Gesichtspunkten verwendet werden können. Gemäß einigen Gesichtspunkten kann die Anzeige ein berührungsempfindlicher Anzeigebildschirm sein, der konfiguriert ist, um eine Benutzereingabe als Eingangssignale zu erfassen. Gemäß einigen Gesichtspunkten kann die Anzeige beliebige Berührungserfassungstechnologien verwenden, einschließlich, aber nicht beschränkt auf kapazitive, resistive, Infrarot- und akustische Oberflächenwellen-Technologien.
  • Gemäß einem Gesichtspunkt kann jedes der hierin beschriebenen Elemente ein Teil von der lokalen Vorrichtung (oder darin integriert) sein (z. B. in ein Gehäuse der lokalen Vorrichtung integriert). Gemäß einem anderen Gesichtspunkt können mindestens einige der Elemente separate elektronische Vorrichtungen sein, die kommunikativ mit der (z. B. Steuerung über die Netzwerkschnittstelle der) lokalen Vorrichtung gekoppelt sind (z. B. über eine BLUETOOTH-Verbindung). Zum Beispiel können der/die Lautsprecher in eine andere elektronische Vorrichtung integriert sein, die konfiguriert ist, um Audiodaten von der lokalen Vorrichtung zum Ansteuern des/der Lautsprecher(s) zu empfangen. Als weiteres Beispiel kann der Anzeigebildschirm 13 in die lokale Vorrichtung integriert sein, oder der Anzeigebildschirm kann eine separate elektronische Vorrichtung (z. B. ein Monitor) sein, die kommunikativ mit der lokalen Vorrichtung gekoppelt ist.
  • Gemäß einem Gesichtspunkt ist die Steuerung 10 konfiguriert, um Audiosignalverarbeitungsvorgänge bzw. Netzwerkvorgänge, wie hierin beschrieben, auszuführen. Zum Beispiel kann die Steuerung konfiguriert sein, um sich an einer Kommunikationssitzung mit einer oder mehreren entfernten Vorrichtungen zu beteiligen und Audio-/Videodaten von den entfernten Vorrichtungen zu erhalten (oder zu empfangen). Die Steuerung ist konfiguriert, um die Videodaten auf dem Anzeigebildschirm auszugeben (anzuzeigen) und die Audiodaten räumlich zu rendern. Mehr über das räumliche Rendern von Audiodaten wird hierin beschrieben. Gemäß einem Gesichtspunkt können die von der Steuerung ausgeführten Vorgänge in Software implementiert werden (z. B. als Anweisungen, die in einem Speicher gespeichert sind und von der Steuerung ausgeführt werden) bzw. können sie durch Hardware-Logikstrukturen, wie hierin beschrieben, implementiert werden.
  • Gemäß einem Gesichtspunkt kann die Steuerung 10 konfiguriert sein, um (zusätzliche) Audiosignalverarbeitungsvorgänge basierend auf Elementen durchzuführen, die mit der Steuerung gekoppelt sind. Wenn zum Beispiel die Ausgabevorrichtung zwei oder mehr „extra-aurale“ Lautsprecher einschließt, die angeordnet sind, um einen Ton in die akustische Umgebung auszugeben, anstatt Lautsprecher, die angeordnet sind, um einen Ton in ein Ohr des Benutzers (z. B. als Lautsprecher eines In-Ohr-Kopfhörers) auszugeben, kann die Steuerung einen Tonausgabe-Beamformer einschließen, der konfiguriert ist, um Lautsprechertreibersignale zu erzeugen, die beim Ansteuern der zwei oder mehr Lautsprecher eine räumlich selektive Tonausgabe erzeugen. Somit kann die Ausgabevorrichtung, wenn sie zum Ansteuern der Lautsprecher verwendet wird, gerichtete Strahlmuster erzeugen, die auf Positionen innerhalb der Umgebung gerichtet werden können.
  • Gemäß manchen Gesichtspunkten kann die Steuerung 10 einen Tonaufnahme-Strahlformer einschließen, der konfiguriert sein kann, um die Audiosignale (oder Mikrofonsignale), die von zwei oder mehr externen Mikrofonen der Ausgabevorrichtung erzeugt werden, so zu verarbeiten, dass Richtstrahlmuster (als ein oder mehrere Audiosignale) für die räumlich selektive Tonaufnahme in bestimmten Richtungen gebildet werden, um empfindlicher gegenüber einem oder mehreren Tonquellenpositionen zu sein. Gemäß einigen Gesichtspunkten kann die Steuerung Audioverarbeitungsvorgänge auf den Audiosignalen ausführen, welche die gerichteten Strahlmuster enthalten (z. B. ein spektrales Formen ausführen).
  • 3 veranschaulicht eine beispielhafte grafische Benutzerschnittstelle (GUI) (oder ein GUI-Fenster) einer Kommunikationssitzung, die durch die lokale Vorrichtung angezeigt wird, und eine Anordnung von virtuellen Tonpositionen von einem räumlichen Audio, das von der lokalen Vorrichtung während der Kommunikationssitzung gemäß einem Gesichtspunkt ausgegeben wird. Insbesondere veranschaulicht diese Figur eine GUI 41 einer Kommunikationssitzung, die auf dem Anzeigebildschirm 13 der lokalen Vorrichtung angezeigt wird, und zeigt eine Anordnung von virtuellen Tonquellenpositionen 50, an denen sich ein räumliches Audio, das einem oder mehreren entfernten (Teilnehmern von entfernten) Vorrichtungen zugeordnet ist, befindet und vom lokalen Benutzer 40 wahrgenommen wird. Die GUI 41 schließt eine Anordnung von visuellen Darstellungen (oder Videodarstellungen) (oder Kacheln) 51 ein, von denen fünf von 44-48 jeweils einem anderen entfernten Teilnehmer zugeordnet sind und eine Kachel 49 dem lokalen Benutzer 40 zugeordnet ist. Insbesondere zeigt jede visuelle Darstellung des entfernten Teilnehmers einen Eingangsvideostrom, der von jeder entfernten Vorrichtung des jeweiligen Teilnehmers empfangen wird, die an der Kommunikationssitzung mit der lokalen Vorrichtung beteiligt ist. Gemäß einem Gesichtspunkt können mindestens einige der Darstellungen dynamisch sein, in denen ein aktives Video während (zumindest einem Teil) der Länge der Kommunikationssitzung angezeigt wird. Gemäß einem anderen Aspekt können eine oder mehrere visuelle Darstellungen ein statisches Bild (z. B. des entfernten Teilnehmers) anzeigen. Die visuelle Darstellung 49 zeigt Videodaten des lokalen Benutzers 40 an, die von der Kamera 15 erfasst werden können (und an mindestens einige der entfernten Vorrichtungen zur Anzeige auf ihren jeweiligen Vorrichtungen während der Kommunikationssitzung übertragen werden). Wie gezeigt, ist die GUI in zwei Bereiche unterteilt: einen Canvas-Bereich (oder primären Bereich) 42 und einen Listenbereich (oder sekundären Bereich) 43. Der Canvas-Bereich schließt drei visuelle Darstellungen, 44-46, ein und der Listenbereich schließt zwei visuelle Darstellungen 47 und 48 ein. Wie in der Veranschaulichung können visuelle Darstellungen innerhalb des Canvas-Bereichs visuell größer sein als im Listenbereich, wo entfernte Teilnehmer mit der markanten Sprachaktivität (z. B. in Bezug auf andere entfernte Teilnehmer, die an der Sitzung beteiligt sind) innerhalb des Canvas-Bereichs positioniert sind. Wie hierin beschrieben, können entfernte Teilnehmer zwischen Bereichen bewegt werden, wie z. B. die entfernten Teilnehmer, die sich adaptiv basierend auf Sprachaktivität vom Listenbereich in den Canvas-Bereich bewegen können. Wie hierin beschrieben, kann die lokale Vorrichtung Audiodaten unterschiedlich räumlich rendern, basierend darauf, in welchem Bereich sich die visuelle Darstellung befindet. Zum Beispiel kann die lokale Vorrichtung Audiodaten, die entfernten Teilnehmern im Canvas-Bereich zugeordnet sind, individuell räumlich rendern, während im Gegensatz dazu Audiodaten, die den entfernten Teilnehmern im Listenbereich zugeordnet sind, gemischt werden können, und dann kann die Mischung als eine virtuelle Tonquelle räumlich gerendert werden. Mehr über räumliches Rendern und die Bereiche der GUI wird hierin beschrieben.
  • Bei traditionellen (Video-) Kommunikationssitzungen zwischen mehreren entfernten Teilnehmern und einem lokalen Benutzer der lokalen Vorrichtung 2 wird das Audio von allen entfernten Teilnehmern von der gleichen Position relativ zum lokalen Benutzer wahrgenommen (z. B. als ob die entfernten Teilnehmer alle direkt vom selben Punkt im Raum aus miteinander sprechen würden). Eine solche Interaktion führt zu vielen Unterbrechungen, da es für den lokalen Benutzer schwierig ist, Gespräche zu verfolgen, wenn mehr als ein entfernter Teilnehmer gleichzeitig spricht. Darüber hinaus ist das Halten des Augenkontakts oder das Folgen des Gesprächs zwischen verschiedenen entfernten Teilnehmern innerhalb der verschiedenen Bereiche in der GUI schwierig, wenn ein Audio von allen entfernten Teilnehmern von demselben Punkt im Raum (oder eher wie vom lokalen Benutzer wahrgenommen) stammt, was keine Beziehung haben kann, wenn der entfernte Teilnehmer visuell positioniert ist. Um dies zu überwinden, rendert die lokale Vorrichtung von den entfernten Vorrichtungen empfangene Audiodaten räumlich anders, sodass der Ton von mindestens einigen der entfernten Teilnehmern von verschiedenen Positionen (im Raum) in Bezug auf den lokalen Benutzer 40 stammt. Insbesondere zeigt diese Figur eine Anordnung von virtuellen Tonquellenpositionen 50, wobei die lokale Vorrichtung Audiodaten von entfernten Teilnehmern, die visuellen Darstellungen 44-46 als jeweils individuelle virtuelle Tonquellen 54-56 zugeordnet sind, individuell räumlich rendert, und Audiodaten von einem oder mehreren entfernten Vorrichtungen räumlich rendert, die den Darstellungen 47 und 48 als eine einzelne virtuelle Tonquelle 53 zugeordnet sind, die eine Mischung von Audio, das von diesen Vorrichtungen empfangen wird, einschließt. Gemäß einem Gesichtspunkt kann die Anordnung der virtuellen Tonquellenpositionen ähnlich der Anordnung von visuellen Darstellungen sein, um dem lokalen Benutzer den Eindruck zu verleihen, dass Sprache von entfernten Teilnehmern von derselben allgemeinen Position als ihre jeweiligen visuellen Darstellungen auf dem Bildschirm stammt, wie gezeigt wird. Zum Beispiel sind, wie veranschaulicht, die individuellen virtuellen Tonquellen oben auf ihrer jeweiligen visuellen Darstellungen angeordnet (oder darauf positioniert), während die einzelne virtuelle Tonquelle 53 der visuellen Listendarstellungen 47 und 48 zwischen den visuellen Darstellungen zentriert ist. Somit wird während der Kommunikationssitzung, wenn der entfernte Teilnehmer 44 spricht, der lokale Benutzer die Rede des entfernten Teilnehmers so wahrnehmen, als würde sie von der visuellen Darstellung des Teilnehmers stammen (oder darüber). Gemäß einem anderen Gesichtspunkt kann die Anordnung von virtuellen Tonquellenpositionen unterschiedlich sein. Zum Beispiel kann die Anordnung der Anordnung visueller Darstellungen ähnlich sein, aber proportional größer, obwohl Sprache nicht von jeder relativen visuellen Darstellung stammt, kann sie von der allgemeinen Position stammen. Dies kann Vorteile haben, wenn der Bildschirm klein ist oder wenn der Benutzer die Größe der GUI minimiert. In beiden Fällen kann eine größere natürlichere räumliche Darstellung komfortabler und für den lokalen Benutzer nützlich sein. Mehr darüber, wie Audiodaten des entfernten Teilnehmers räumlich gerendert werden, wird hierin beschrieben.
  • Wie in dieser Figur gezeigt, ist der lokale Benutzer an einer Kommunikationssitzung mit fünf entfernten Teilnehmern beteiligt. Gemäß einem Gesichtspunkt können die entfernteren Teilnehmer an der Kommunikationssitzung teilnehmen, wobei diese (oder vielmehr ihre zugeordneten visuellen Darstellungen) innerhalb des Canvas-Bereichs oder des Listenbereichs platziert sein können. Wenn mehr entfernte Teilnehmer innerhalb des Canvas-Bereichs platziert sind, führt die lokale Vorrichtung zusätzliches räumliches Rendern durch, was mehr Ressourcen und Rechenverarbeitung erfordern kann. Diese zusätzliche Verarbeitung kann eine große Belastung für die Elektronik wie die Steuerung 10 bedeuten. Daher führt die Steuerung 10, wie hierin beschrieben, räumliche Rendering-Vorgänge aus, die das räumliche Rendern von Audio während einer Kommunikationssitzung mit entfernten Vorrichtungen verwalten. Mehr über diese Vorgänge wird hierin beschrieben.
  • 4 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, welche die räumliche Audiosteuerung einschließt, die räumliche Rendering-Vorgänge während einer Kommunikationssitzung gemäß einem Gesichtspunkt ausführt. Insbesondere zeigt diese Figur, dass die Steuerung 10 mehrere Betriebsblöcke zum Ausführen von Audiosignalverarbeitungsvorgängen aufweist, um Eingangsaudioströme von einer oder mehreren entfernten Vorrichtungen, die an einer Kommunikationssitzung mit der lokalen Vorrichtung beteiligt sind, räumlich zu rendern. Wie gezeigt, schließt die Steuerung eine räumliche Audiosteuerung 20, einen Videokommunikationssitzungsmanager 21, einen Video-Renderer 22 und einen räumlichen Audio-Renderer 23 ein.
  • Der Videokommunikationssitzungsmanager 21 ist konfiguriert, um eine Kommunikationssitzung zwischen der lokalen Vorrichtung 2 (z. B. über die Netzwerkschnittstelle 11) und einer oder mehrerer entfernter Vorrichtungen 3 zu initiieren (und zu leiten). Zum Beispiel kann der Sitzungsmanager ein Teil einer Kommunikationssitzungsanwendung (z. B. einer Telefonie-Anwendung) sein (oder Anweisungen von ihr erhalten), die durch die (z. B. die Steuerung 10 der) lokale(n) Vorrichtung 2 ausgeführt wird. Zum Beispiel kann die Anwendung eine GUI auf dem Anzeigebildschirm 13 der lokalen Vorrichtung anzeigen, die dem lokalen Benutzer 40 die Fähigkeit bereitstellen kann, die Sitzung zu initiieren (z. B. unter Verwendung einer simulierten Tastatur, einer Kontaktliste usw.). Sobald die GUI Benutzereingaben empfängt (z. B. durch Wählen einer Telefonnummer des entfernten Benutzers unter Verwendung der Tastatur), kann der Sitzungsmanager 21 mit dem Netzwerk 4 kommunizieren, um die Kommunikationssitzung, wie hierin beschrieben, herzustellen.
  • Nach dem Initiieren kann der Videokommunikationssitzungsmanager 21 Kommunikationssitzungsdaten von jeder („N“) der entfernten Vorrichtungen empfangen, mit der die lokale Vorrichtung an der Kommunikationssitzung beteiligt ist. Gemäß einem Gesichtspunkt können die empfangenen Daten von jeder entfernten Vorrichtung einen Eingangsaudiostrom, der Audiodaten eines jeweiligen entfernten Teilnehmers einschließt (z. B. erfasst von einem oder mehreren Mikrofonen der entfernten Vorrichtung), und einen Eingangsvideostrom einschließen, der Videodaten des jeweiligen entfernten Teilnehmers einschließt (z. B. erfasst von einer oder mehreren Kameras der entfernten Vorrichtung). Somit kann der Sitzungsmanager N Eingangsaudioströme und N Eingangsvideoströme empfangen. Gemäß einem Gesichtspunkt kann der Sitzungsmanager jeden Eingangsaudiostrom einem bestimmten Eingangsaudiokanal einer vordefinierten Anzahl von Eingangsaudiokanälen zuweisen. Gemäß einem Gesichtspunkt kann ein zugewiesener Kanal einem bestimmten Eingangsaudiostrom (z. B. einer entfernten Vorrichtung) für eine Dauer einer Kommunikationssitzung zugewiesen bleiben. Gemäß einem Gesichtspunkt kann der Sitzungsmanager die Eingangsaudiokanäle dynamisch an entfernte Teilnehmer zuweisen, wenn sie der Kommunikationssitzung beitreten. Gemäß einem Gesichtspunkt kann der Manager mehr oder weniger der Ströme empfangen (z. B. kann der Manager nur einen Audiostrom empfangen, wenn eine entfernte Vorrichtung ihre Kamera deaktiviert hat).
  • Gemäß einem Gesichtspunkt kann der Sitzungsmanager 21 ein oder mehrere Audiosignale von jeder entfernten Vorrichtung empfangen. Zum Beispiel kann ein Eingangsaudiostrom ein Audiokanal (z. B. ein Monoaudiosignal) sein. Gemäß einem anderen Gesichtspunkt kann ein Eingangsaudiostrom zwei oder mehr Audiokanäle einschließen, wie beispielsweise eine stereophonische Aufzeichnung oder eine Audioaufzeichnung in einem Mehrkanalformat, wie einem 5.1-Umgebungsformat.
  • Gemäß einem Gesichtspunkt können die Sitzungsdaten zusätzliche Daten von mindestens einigen der N entfernten Vorrichtungen einschließen, wie z. B. ein Sprachaktivitätserkennungssignal (VAD-Signal). Zum Beispiel kann eine entfernte Vorrichtung ein VAD-Signal erzeugen (z. B. unter Verwendung eines Mikrofonsignals, das von der entfernten Vorrichtung erfasst wird), was angibt, ob Sprache innerhalb des jeweiligen Eingangsaudiostroms der entfernten Vorrichtung enthalten ist oder nicht. Zum Beispiel kann das VAD-Signal einen hohen Signalpegel (z. B. eins) aufweisen, wenn das Vorhandensein von Sprache erfasst wird, und kann einen niedrigen Signalpegel (z. B. von Null) aufweisen, wenn keine Sprache erfasst wird (oder zumindest nicht innerhalb eines Schwellenwertpegels erfasst wird). Gemäß einem anderen Gesichtspunkt muss das VAD-Signal keine binäre Entscheidung (Sprache/Nicht-Sprache) sein; es könnte stattdessen eine Sprachpräsenzwahrscheinlichkeit sein. Gemäß einigen Gesichtspunkten kann das VAD-Signal auch den Signalenergiepegel (z. B. Schalldruckpegel (SPL)) der erfassten Sprache angeben.
  • Gemäß einem Gesichtspunkt kann der Videokommunikationssitzungsmanager 21 konfiguriert sein, um Daten (z. B. Audiodaten, Videodaten, ein VAD-Signal usw.) an eine oder mehrere der N entfernten Vorrichtungen zu übertragen. Zum Beispiel kann der Manager ein Mikrofonsignal empfangen, das vom Mikrofon 14 erzeugt wird (das Sprache des lokalen Benutzers 4 einschließen kann) und kann Videodaten empfangen, die von der Kamera 15 erzeugt werden. Nach dem Empfangen kann der Sitzungsmanager 21 die Daten auf mindestens einige der N entfernten Vorrichtungen verteilen.
  • Der Videokommunikationssitzungsmanager 21 ist konfiguriert, um die N Videoströme und für jeden Videostrom einen oder mehrere VAD-Werte (oder Parameter) basierend auf dem VAD-Signal an den Video-Renderer 22 zu übertragen. Zum Beispiel kann jeder (oder mindestens ein) Videostrom einem oder mehreren VAD-Parametern zugeordnet sein, die eine Sprachaktivität eines entfernten Teilnehmers innerhalb eines Eingangsaudiostroms, der dem Eingangsvideostrom zugeordnet ist, angeben (z. B. kann der Wert Null oder 1 sein, wie hierin beschrieben wird). Gemäß einem Gesichtspunkt kann der Manager einen VAD-Parameter übertragen, der eine Dauer angeben kann, für die ein entfernter Teilnehmer gesprochen hat. Insbesondere kann der VAD-Parameter eine Zeitdauer angeben, für die ein entfernter Teilnehmer derzeit spricht (z. B. kann die Zeitdauer einer Dauer entsprechen, da der VAD-Wert von Null zu 1 ging). Gemäß einem anderen Gesichtspunkt kann ein VAD-Parameter eine Gesamtzeit während der gesamten Dauer der Sitzung, für die ein entfernter Teilnehmer gesprochen hat, angeben (z. B. zwanzig Minuten einer dreißigminütigen Kommunikationssitzung). Gemäß einem anderen Aspekt kann ein VAD-Parameter eine Sprachstärke (z. B. einen Signalenergiepegel) des entfernten Teilnehmers (z. B. in SPL) angeben. Gemäß einem anderen Aspekt kann der Sitzungsmanager die von den entfernten Vorrichtungen empfangenen (ursprünglichen) VAD-Signale an den Video-Renderer übertragen.
  • Der Video-Renderer ist konfiguriert, um die Eingangsvideoströme als eine Anordnung visueller Darstellungen (wie die Anordnung 51, die in 3 veranschaulicht ist) zu rendern. Gemäß einem Gesichtspunkt ist der Renderer konfiguriert, um die visuellen Darstellungen basierend auf einem oder mehreren VAD-Parametern, die vom Sitzungsmanager 21 empfangen werden, anzuordnen. Zum Beispiel kann der Renderer, bezugnehmend auf 3, (visuelle Darstellungen der) entfernte(n) Teilnehmer 44-48 in ihren jeweiligen Bereichen basierend auf ihrer jeweiligen Sprachaktivität bzw. Sprachstärke positionieren. Zum Beispiel kann der Renderer visuelle Darstellungen innerhalb des Canvas-Bereichs positionieren, wenn die Sprachaktivität über (oder gleich) einem Sprachaktivitätsschwellenwert (z. B. gleich eins) ist, was anzeigen kann, dass der entfernte Teilnehmer aktiv spricht. Wenn jedoch die Sprachaktivität unter dem Schwellenwert liegt, kann der Renderer die visuellen Darstellungen des entfernten Teilnehmers im Listenbereich positionieren. Darüber hinaus kann der Renderer visuelle Darstellungen innerhalb des Canvas-Bereichs 42 in einer bestimmten Reihenfolge basierend auf Sprachaktivität bzw. Sprachstärke positionieren. Zum Beispiel können entfernte Teilnehmer, die häufig sprechen (bzw. die aktuell sprechen), in der Anordnung höher positioniert werden. Beispielsweise kann der entfernte Teilnehmer 44 aktuell sprechen bzw. während des Großteils der Kommunikationssitzung (z. B. über einem Schwellenwert) gesprochen haben. Im Gegensatz dazu können entfernte Teilnehmer, die weniger häufig sprechen, näher am Listenbereich 43 positioniert werden (z. B. visuelle Darstellung 46), und diejenigen, die wesentlich unregelmäßiger (z. B. unter dem Schwellenwert) sprechen, können im Listenbereich positioniert werden. Gemäß einem anderen Gesichtspunkt können entfernte Teilnehmer, die eine hohe Sprachstärke aufweisen (z. B. mit einem Signalenergiepegel über einem Schwellenwert), höher positioniert sein als diejenigen, die das nicht aufweisen.
  • Zusammen mit der Positionierung der visuellen Darstellungen (z. B. basierend auf den VAD-Parametern) kann der Renderer die Größe der Darstellungen basierend auf einem oder mehreren Kriterien definieren. Insbesondere können ein oder mehrere ähnliche, oben erwähnte Kriterien in Bezug auf die Position von visuellen Darstellungen auf die Größe der visuellen Darstellungen zutreffen. Zum Beispiel können entfernte Teilnehmer, die während der Kommunikationssitzung länger und häufiger sprechen (als andere Teilnehmer), eine größere visuelle Darstellung aufweisen als die beiden, die weniger sprechen (z. B. der entfernte Teilnehmer 44 spricht möglicherweise häufiger als Teilnehmer 45 und 46). Gemäß einem anderen Gesichtspunkt kann die Größe der visuellen Darstellung auf der Sprachstärke basieren. Wenn zum Beispiel entfernte Teilnehmer lauter sprechen (z. B. über einem Signalschwellenwert), kann der Renderer die Größe der Darstellung des Teilnehmers erhöhen. Gemäß einem anderen Gesichtspunkt kann die Größe (bzw. die Position) auf einem Signal-Rausch-Verhältnis (SNR) des Eingangsaudiostroms des entfernten Teilnehmers basieren, wobei eine Darstellung eines Teilnehmers mit einem höheren SNR größer als eine Größe einer Darstellung mit einem niedrigeren SNR (z. B. unter einem Schwellenwert) ist. Gemäß einem Gesichtspunkt können Darstellungen größer erscheinen und höher positioniert werden, um dem lokalen Benutzer einen visuellen Sinn von demjenigen bereitzustellen, dem während der Kommunikationssitzung mehr Aufmerksamkeit geschenkt werden sollte. Gemäß anderen Gesichtspunkten kann die (z. B. vertikale) Stelle innerhalb des Canvas-Bereichs auf der Größe der Darstellung basieren. Zum Beispiel ist die größte Darstellung 44 (mit mehr jeweiliger Oberflächenfläche) über der Darstellung 45 positioniert, die größer ist als die Darstellung 46.
  • Gemäß einem Gesichtspunkt kann der Renderer 22 Darstellungen innerhalb der Liste basierend auf einem der hierin beschriebenen Kriterien positionieren, die unter einem oder mehreren jeweiligen Schwellenwerten sind. Zum Beispiel können entfernte Teilnehmer im Listenbereich positioniert werden, wenn die Sprachaktivität unregelmäßig und für kurze Zeiträume ist. Gemäß einigen Gesichtspunkten können die Entscheidungen zum Ort der Positionierung entfernter Teilnehmer und deren Größe auch auf der Sprachstärke basieren. Zum Beispiel können entfernte Teilnehmer mit hoher Stärke (z. B. mit Energiepegel über einem Schwellenwert) innerhalb des Canvas-Bereichs positioniert sein bzw. können Darstellungsgrößen aufweisen, die größer sind als entfernte Teilnehmer mit geringerer Sprachstärke, wie hierin beschrieben wird. Gemäß einem Aspekt können visuelle Darstellungen innerhalb des Listenbereichs alle eine gleiche Größe aufweisen, wie in 3 veranschaulicht wird.
  • Gemäß einem Gesichtspunkt können die Rendering-Vorgänge, die vom Renderer 22 ausgeführt werden, während der Kommunikationssitzung dynamisch sein. Zum Beispiel kann der Renderer die visuellen Darstellungen kontinuierlich und dynamisch neu anordnen bzw. die Größe basierend auf Änderungen bei einem oder mehreren VAD-Parametern ändern. Als ein Beispiel kann sich die Position der visuellen Darstellung 44 ändern (z. B. entlang der Anordnung abgesenkt) bzw. ihre Größe kann sich innerhalb des Canvas-Bereichs ändern (z. B. die Größe wird reduziert), wenn der entfernte Teilnehmer weniger spricht. Der Renderer kann schließlich diese visuelle Darstellung innerhalb der Liste platzieren, wenn die Sprachaktivität für einen Zeitraum abnimmt (z. B. unter dem Sprachaktivitätsschwellenwert). Umgekehrt kann der Renderer die Position einer oder mehrerer Listen-Darstellungen basierend auf den hierin erwähnten Kriterien anpassen. Wenn beispielsweise der entfernte Teilnehmer, welcher der Darstellung 47 zugeordnet ist, häufiger zu sprechen beginnt, kann der Renderer die Darstellung in den Canvas-Bereich bewegen. Gemäß einem Gesichtspunkt kann diese Bestimmung darauf basieren, ob die VAD-Parameter angeben, dass der entfernte Teilnehmer für einen Zeitraum (z. B. kontinuierlich) gesprochen hat.
  • Gemäß einem Gesichtspunkt kann der Renderer durch Bewegen visueller Darstellungen in und aus beiden Bereichen die Anordnung nach Bedarf anpassen. Wenn der Renderer zum Beispiel die Darstellung 47 in den Canvas-Bereich bewegen würde, können die Canvas-Darstellungen um den Canvas-Bereich bewegt werden, um die Hinzufügung aufzunehmen. Insbesondere kann der Renderer die Darstellungen gleichmäßig innerhalb des Canvas-Bereichs verteilen. Gemäß einem anderen Aspekt kann der Renderer die Darstellungen so anordnen, dass sie sich nicht überlappen. Gemäß einigen Gesichtspunkten kann der Renderer die Anordnung visueller Darstellungen 51 anpassen, wenn zusätzliche entfernte Teilnehmer der Kommunikationssitzung beitreten, wobei ihre jeweiligen visuellen Darstellungen entweder dem Canvas-Bereich 42 oder dem Listenbereich 43, entsprechend den hierin erwähnten Kriterien, hinzugefügt werden. Der Renderer 22 überträgt die N Videoströme zum Anzeigen in der GUI 41 an den Anzeigebildschirm 13, wie hierin beschrieben wird.
  • Gemäß einem Gesichtspunkt ist der Renderer konfiguriert, um N Sätze von Kommunikationssitzungsparametern, einen Satz von Parametern für jede(n) (Eingangsaudiostrom, der empfangen wird von einer jeweiligen entfernten) Vorrichtung, basierend auf den hierin erwähnten Kriterien zu erzeugen. Zum Beispiel kann der Satz von Kommunikationssitzungsparametern: 1) eine Größe der GUI (z. B. die Ausrichtung der GUI bzw. die Größe in Bezug auf den Anzeigebildschirm) angeben, 2) eine Position (z. B. X-, Y-Koordinaten) der visuellen Darstellungen angeben, 3) eine Größe einer visuellen Darstellung eines jeweiligen Eingangsvideostroms in der GUI angeben und 4) kann einen oder mehrere der hierin beschriebenen VAD-Parameter einschließen. Gemäß einem Gesichtspunkt kann die durch die Parameter angegebene Position eine bestimmte Position innerhalb einer visuellen Darstellung sein. Zum Beispiel kann die Position ein Mittelpunkt der visuellen Darstellung sein. Gemäß einem anderen Gesichtspunkt kann die Position auf dem Video basieren, das innerhalb der visuellen Darstellung angezeigt wird. Zum Beispiel kann die Position ein bestimmter Teil des entfernten Teilnehmers sein, der innerhalb der visuellen Darstellung angezeigt wird, wie dem Mund des entfernten Teilnehmers. Gemäß einem Gesichtspunkt kann der Renderer, um die Position zu bestimmen, einen Objekterkennungsalgorithmus ausführen, um den Mund des entfernten Teilnehmers zu identifizieren.
  • Gemäß einem Gesichtspunkt kann die Position der visuellen Darstellung in Bezug auf die Größe der GUI bzw. in Bezug auf den Anzeigebildschirm der lokalen Vorrichtung sein. Als weiteres Beispiel können die Koordinaten in Bezug auf eine Komponente der lokalen Vorrichtung sein, wie zum Beispiel wenn die lokale Vorrichtung eine multimediale tragbare Vorrichtung (z. B. ein Smartphone) ist, können die Koordinaten auf Abmessungen eines Gehäuses der Vorrichtung basieren oder können auf einer Anzeigebildgröße basieren, welche die GUI anzeigt. In diesem Fall können die Parameter auch Randbedingungen der GUI bzw. der Komponente (z. B. eine Breite der GUI (in der X-Richtung) und eine Höhe der GUI (in der Y-Richtung)) einschließen. Gemäß einem Gesichtspunkt kann der Renderer einen oder mehrere der VAD-Parameter in eine andere Domäne übersetzen, um einen Bedeutungswert zu erzeugen, der eine Rangfolge von am markantesten „1“ zum am wenigsten markanten „N“ von Audioströmen ist. Somit würde in 3 jede der visuellen Darstellungen 44-48 ein bedeutender Wert zwischen 1 bis 5 zugewiesen werden. Gemäß einem Gesichtspunkt kann der Bedeutungswert der Stelle bzw. Größe der visuellen Darstellungen innerhalb der GUI entsprechen (z. B. die visuelle Darstellung, die einen höheren Bedeutungswert als die anderen visuellen Darstellungen aufweist).
  • Der Renderer 22 überträgt die N Sätze von Kommunikationssitzungsparametern an den Videokommunikationssitzungsmanager 21, der die N Sätze von Parametern und die N Eingangsaudioströme, die den Parametern zugeordnet sind, an die räumliche Audiosteuerung 20 überträgt. Gemäß einem Gesichtspunkt kann der Video-Renderer die Sätze von Kommunikationssitzungsparametern direkt an die räumliche Audiosteuerung übertragen. Die räumliche Audiosteuerung ist konfiguriert, um die Parameter und die Eingangsaudioströme zu empfangen, und ist konfiguriert, um einen oder mehrere Audiosignalverarbeitungsvorgänge auszuführen, um mindestens einige der Eingangsaudioströme gemäß den Kommunikationssitzungsparametern räumlich zu rendern. Wie hierin beschrieben, kann räumliches Rendern von Audioströmen eine erhebliche Menge an Verarbeitungsleistung erfordern. Wenn der lokale Benutzer an einer Kommunikationssitzung mit einer kleinen Anzahl von entfernten Teilnehmern beteiligt ist, kann die räumliche Audiosteuerung 20 die Ressourcen aufweisen, um Audiodaten von jedem der entfernten Teilnehmer individuell räumlich zu rendern. Wenn die Anzahl der entfernten Teilnehmer zunimmt, ist die Steuerung möglicherweise jedoch nicht in der Lage, alle Daten als individuelle virtuelle Tonquellen zu verarbeiten. Daher ist die Steuerung konfiguriert, um für jeden Eingangsaudiostrom zu bestimmen, ob der Eingangsaudiostrom 1) in Bezug auf die anderen empfangenen Eingangsaudioströme individuell gerendert werden soll, oder 2) als eine Mischung von Eingangsaudioströmen mit einem oder mehreren anderen Eingangsaudioströmen gerendert werden soll, basierend auf dem Satz von Kommunikationssitzungsparametern. Nach dem Bestimmen kann die räumliche Audiosteuerung so konfiguriert sein, dass sie bestimmt, wie die Eingangsaudioströme räumlich gerendert werden (z. B. wo virtuelle Tonquellen davon ausgegeben werden). Infolgedessen kann die räumliche Audiosteuerung die Ausgabe von Eingangsaudioströmen verwalten, wodurch sichergestellt wird, dass genügend Rechenressourcen vorhanden sind.
  • Die räumliche Audiosteuerung 20 schließt einen individuellen Audiostromselektor 27, einen räumlichen Parametergenerator 25 und eine Matrix/einen Router 26 ein. Der Selektor ist konfiguriert, um einen oder mehrere der N Eingangsaudioströme auszuwählen, die individuell gerendert werden sollen, und um einen oder mehrere der verbleibenden N Eingangsaudioströme auszuwählen, die als Mischung gerendert werden sollen. Gemäß einem Gesichtspunkt kann der räumliche Audio-Renderer 23 konfiguriert sein, um eine begrenzte Anzahl von Ausgangsaudiokanälen als virtuelle Tonquellen räumlich zu rendern (z. B. aufgrund von Ressourcenbeschränkungen, wie hierin beschrieben wird). Wenn die räumliche Audiosteuerung Eingangsaudioströme räumlich rendert, kann die Steuerung einen oder mehrere Eingangsaudioströme einem der Ausgangsaudiokanäle zuweisen, von dem der räumliche Audio-Renderer als virtuelle Tonquelle rendert. Bei einer begrenzten Anzahl von Ausgangsaudiokanälen kann die Steuerung daher begrenzt sein, um eine vordefinierte Anzahl von virtuellen Tonquellen auszugeben, da die Anzahl der virtuellen Tonquellen auf die Anzahl von Ausgangsaudiokanälen beschränkt sein kann. Gemäß einem Gesichtspunkt liegt die vordefinierte Anzahl zwischen drei bis sechs Ausgangsaudiokanälen. Somit kann der Selektor nur eine Anzahl von Eingangsaudioströmen zum individuellen räumlichen Rendern auswählen, die gleich oder kleiner als die vordefinierte Anzahl ist. Gemäß einigen Gesichtspunkten kann eine der vordefinierten Anzahl von Ausgangsaudiokanälen für das räumliche Rendern der Mischung von Eingangsaudioströmen für entfernte Teilnehmer des Listenbereichs 43 reserviert sein. Mehr zum räumlichen Rendern der Eingangsaudioströme wird hierin beschrieben.
  • Gemäß einem Gesichtspunkt ist der Selektor 27 konfiguriert, um zu bestimmen, welcher der N Eingangsaudioströme individuell räumlich gerendert werden soll (z. B. als M individuelle Audioströme, die kleiner oder gleich den N Audioströmen sind) bzw. als die Mischung gerendert werden soll, basierend auf den N Sätzen von Kommunikationssitzungsparametern, die vom Sitzungsmanager 21 empfangen werden. Zum Beispiel kann der Selektor bestimmen, ob ein Eingangsaudiostrom basierend auf der Sprachaktivität, der Sprachstärke bzw. einem durch einen oder mehrere VAD-Werte eines entfernten Teilnehmers angezeigten (oder bestimmten) Bedeutungswert individuell gerendert werden soll. Insbesondere kann der Selektor bestimmen, dass ein Eingangsaudiostrom individuell gerendert werden soll, wenn die Sprachaktivität über dem Schwellenwert liegt (z. B. angibt, dass der entfernte Teilnehmer aktuell bzw. regelmäßig während der Kommunikationssitzung spricht). Gemäß einigen Gesichtspunkten kann der Selektor, wenn die Rangordnung in einen Bedeutungswert verfügbar ist, die oberen „M“ Ströme als diejenigen auswählen, die individuell gerendert werden sollen. Gemäß einem Gesichtspunkt sind M Ströme kleiner oder gleich der vordefinierten Anzahl von Audioausgangskanälen, die für das räumliche Rendern als virtuelle Tonquelle verfügbar sind, wie hierin beschrieben wird.
  • Gemäß einem anderen Gesichtspunkt kann der Selektor bestimmen, ob ein Eingangsaudiostrom basierend auf Eigenschaften von visuellen Darstellungen eines Eingangsvideostroms, der dem Eingangsaudiostrom zugeordnet ist (z. B. das Video des entfernten Teilnehmers enthält), der in der GUI angezeigt wird, wie der Position und der Größe der Darstellung, individuell gerendert werden soll. Zum Beispiel kann der Selektor bestimmen, dass der Eingangsaudiostrom individuell gerendert werden soll, wenn sich die Position der visuellen Darstellung innerhalb des Canvas-Bereichs der GUI befindet. Als weiteres Beispiel kann der Selektor bestimmen, dass der Eingangsaudiostrom individuell wiedergegeben werden soll, wenn die Größe der visuellen Darstellung über einer Schwellenwertgröße liegt (z. B. größer als eine Größe aller oder einiger der im Listenbereich angezeigten Darstellungen). Gemäß einem Gesichtspunkt kann der Selektor bestimmen, ob ein Eingangsaudiostrom als die Mischung basierend auf den gleichen Kriterien gerendert werden soll. Zum Beispiel kann der Selektor bestimmen, dass der Eingangsaudiostrom als die Mischung gerendert werden soll, wenn eine zugehörige visuelle Darstellung eine Größe unterhalb der Schwellenwertgröße aufweist, bzw. eine Sprachaktivität aufweist, die unter dem Schwellenwert liegt. Gemäß einem Gesichtspunkt kann die Bestimmung, die durch den Selektor erfolgt, auf einem oder mehreren Kriterien basieren. Zum Beispiel kann der Selektor bestimmen, dass ein Eingangsaudiostrom individuell gerendert werden soll, wenn eines oder mehrere der hierin erwähnten Kriterien erfüllt sind.
  • Der räumliche Parametergenerator 25 ist konfiguriert, um die N Sätze von Kommunikationssitzungsparametern vom Sitzungsmanager 21 zu empfangen, und ist konfiguriert, um eine Anordnung von Positionen für individuelle virtuelle Tonquellen (z. B. die Anordnung 50 von 3) für Eingangsaudioströme zu bestimmen, die individuell bzw. an einer Position einer oder mehrerer einzelner virtueller Tonquellen gerendert werden sollen, wobei jede eine Mischung von einem oder mehreren Eingangsaudioströmen aufweist, die innerhalb der physischen Umgebung (z. B. in Bezug auf den lokalen Benutzer 40) basierend auf den Kommunikationssitzungsparametern nicht individuell gerendert werden sollen. Gemäß einem Gesichtspunkt kann die Anordnung von virtuellen Tonquellenpositionen, die durch die lokale Vorrichtung gerendert werden sollen, die gleiche (oder eine ähnliche) wie die Anordnung von visuellen Darstellungen sein. Bezugnehmend auf 3 stellt die Anordnung von virtuellen Tonquellenpositionen 50 zum Beispiel die Anordnung visueller Darstellungen dar (z. B. ungefähr), sodass die Quelle 54 vom lokalen Benutzer 40 als von dem entfernten Teilnehmer 44 stammend wahrgenommen wird. Gemäß einem anderen Gesichtspunkt kann die Anordnung von Tonquellenpositionen unterschiedlich sein. Zum Beispiel können die virtuellen Positionen die gleiche Anordnung wie die visuellen Darstellungen aufweisen, können jedoch proportional größer oder kleiner sein. Indem die Anordnung von Tonquellen proportional oder in einem relativen, wenn auch nicht genauen Sinn angemessen gemacht wird, bietet dies Vorteile, wie hierin beschrieben wird. Gemäß einem weiteren Gesichtspunkt ist eine solche Anordnung in Fällen, in denen die Stellen der visuellen Darstellungen relativ zum lokalen Benutzer nicht fest oder nicht bestimmt werden können, vorteilhaft. Anstatt dass der lokale Benutzer, unter Bezugnahme auf 3, daher die individuellen virtuellen Quellen an der gleichen (oder ungefähr gleichen) Position wie entsprechende visuelle Darstellungen wahrnimmt, können die Positionen, wenn sie von der lokalen Vorrichtung gerendert werden, weiter und höher als die GUI sein, wenn sie proportional vergrößert werden.
  • Gemäß einem anderen Gesichtspunkt kann die Anordnung von virtuellen Tonquellenpositionen 50 nicht ähnlich wie die visuellen Darstellungen sein. Beispielsweise können die virtuellen Tonquellen, anstatt dass sie um eine zweidimensionale (2D) XY-Ebene verteilt werden, entlang einer Achse (z. B. entlang einer vertikalen Achse) verteilt werden. Gemäß einem anderen Gesichtspunkt, obwohl als eine 2D-Ebene veranschaulicht, können die virtuellen Tonquellen ein Teil eines dreidimensionalen (3D) Tonfelds sein, in dem virtuelle Tonquellen aus verschiedenen Abständen vom lokalen Benutzer stammen. Mehr zum Erzeugen eines 3D-Tonfelds wird hierin beschrieben.
  • Gemäß einem Gesichtspunkt bestimmt der Generator, für jeden Eingangsaudiostrom unter Verwendung eines jeweiligen Satzes von Kommunikationssitzungsparametern, einen oder mehrere räumliche Parameter (oder räumliche Daten), die räumliche Eigenschaften zum räumlichen Rendern des Eingangsaudiostroms als eine virtuelle Tonquelle angeben. Zum Beispiel können die räumlichen Parameter eine Position der virtuellen Tonquelle innerhalb der Anordnung von virtuellen Tonquellenpositionen basierend auf der bestimmten Position der visuellen Darstellung einschließen. Insbesondere können die räumlichen Parameter die virtuellen Tonquellen auf (über, hinter oder neben) ihren jeweiligen visuellen Darstellungen abbilden. Zum Beispiel können die räumlichen Parameter angeben, dass die Position einer virtuellen Tonquelle auf ihrer entsprechenden visuellen Darstellung positioniert ist, sodass der Ton des entfernten Teilnehmers vom lokalen Benutzer so wahrgenommen wird, dass er von der visuellen Darstellung des Teilnehmers stammt.
  • Gemäß einem Gesichtspunkt können die räumlichen Parameter, welche die Position der virtuellen Tonquelle angeben, in Bezug auf einen (z. B. vordefinierten) Referenzpunkt liegen, der vor dem Anzeigebildschirm 13 der lokalen Vorrichtung liegen kann. Gemäß einigen Gesichtspunkten ist der Referenzpunkt eine vorbestimmte Betrachtungsposition (z. B. wo der Kopf des lokalen Benutzers positioniert ist) innerhalb der physischen Umgebung, während der er auf den Anzeigebildschirm 13 blickt. Gemäß einem anderen Gesichtspunkt kann der Referenzpunkt durch den räumlichen Parametergenerator bestimmt werden. Zum Beispiel kann der Generator Sensordaten verwenden, um die Position des lokalen Benutzers zu bestimmen, wie Näherungssensordaten, die von einem oder mehreren Näherungssensoren erzeugt werden. Gemäß einem anderen Gesichtspunkt kann der Generator eine Benutzereingabe empfangen (z. B. über eine auf dem Anzeigebildschirm angezeigte GUI), welche die Position des lokalen Benutzers angibt (z. B. den Abstand, von dem der Benutzer von (dem Anzeigebildschirm) der lokalen Vorrichtung positioniert ist).
  • Um die Positionen der (z. B. individuellen) virtuellen Tonquellen abzubilden, die mit den visuellen Canvas-Darstellungen verknüpft sind, kann der räumliche Parametergenerator konfiguriert sein, um einen oder mehrere Schwenkbereiche eines oder mehrerer Lautsprecher 12 zu bestimmen, in denen virtuelle Tonquellen positioniert werden können. Gemäß einem Gesichtspunkt können die Schwenkbereiche vordefiniert sein. Mit den Schwenkbereichen erzeugt der räumliche Parametergenerator einen oder mehrere räumliche Parameter, die einen oder mehrere Winkel innerhalb des einen oder der mehreren Schwenkbereiche einschließen können, vom Referenzpunkt zu einer Position innerhalb der Anordnung von virtuellen Tonquellenpositionen, die einer jeweiligen visuellen Darstellung entsprechen. Bezugnehmend auf die visuelle Darstellung 44 von 8, können diese Winkel als Beispiel einen Azimutwinkel (z. B. -θL1) entlang einer ersten Achse (z. B. X-Achse) zwischen der Position der individuellen virtuellen Tonquelle (z. B. L1) und einer zweiten (Referenz- oder o°-) Achse (z. B. die Z-Achse) einschließen und können einen Höhenwinkel (z. B. + βL1) entlang einer dritten Achse (z. B. Y-Achse) zwischen L1 und der zweiten Achse einschließen. Mehr zum Bestimmen der Position der virtuellen Tonquelle wird hierin beschrieben.
  • Gemäß einem anderen Gesichtspunkt kann der Generator einen oder mehrere zusätzliche räumliche Parameter bestimmen. Zum Beispiel kann der Generator einen Abstand (z. B. einen Abstand in der Z-Richtung) bestimmen, bei dem die virtuelle Tonquelle vom lokalen Benutzer wahrgenommen werden soll. Gemäß einem Gesichtspunkt kann der Abstand basierend auf der Größe bzw. der Position der visuellen Darstellung innerhalb der GUI bestimmt werden. Zum Beispiel kann der Generator einen ersten Abstand (z. B. vom Referenzpunkt) zu einer ersten visuellen Darstellung einer ersten Größe zuweisen und einen zweiten Abstand zu einer zweiten visuellen Darstellung einer zweiten Größe zuweisen.
  • Gemäß einem Gesichtspunkt kann der erste Abstand kürzer als der zweite Abstand sein, wenn die erste visuelle Darstellung größer als die zweite visuelle Darstellung ist. Zum Beispiel kann für die visuelle Darstellung 44 von 3 ein kürzerer Abstand zu einem Referenzpunkt zugewiesen werden als ein Abstand, welcher der Darstellung 45 und 46 zugewiesen ist. Gemäß einem anderen Gesichtspunkt kann der Abstand auf der Position von visuellen Canvas-Darstellungen basieren, wobei höher positionierte visuelle Darstellungen einen kürzeren Abstand aufweisen können als visuelle Darstellungen, die tiefer innerhalb des Canvas-Bereichs positioniert sind. Gemäß einem anderen Gesichtspunkt kann der Abstand basierend darauf definiert werden, in welchem Bereich sich eine Darstellung befindet. Zum Beispiel können Darstellungen innerhalb des Listenbereichs 43 einen größeren Abstand als die Darstellungen (beliebige davon) innerhalb des Canvas aufweisen.
  • Gemäß einem anderen Gesichtspunkt können die räumlichen Parameter einen Nachhallpegel einschließen, mit der räumliche Audio-Renderer einen Nachhallwert auf einen Eingangsaudiostrom anwenden. Gemäß einem Gesichtspunkt kann die Hinzufügung von Nachhall auf Ströme darauf basieren, wo die virtuellen Audio-Positionen so modelliert sind, dass sie sich in einem virtuellen Raum um die Vorrichtung herum befinden. Insbesondere kann der räumliche Parametergenerator ein Nachhallmodell eines Raums in Abhängigkeit vom Abstand bzw. der Stelle im Raum erzeugen (oder empfangen), sodass, wenn es auf einen oder mehrere Eingangsaudioströme angewendet wird, der lokale Benutzer den akustischen Eindruck erhält, dass die Kommunikationssitzung innerhalb eines virtuellen Raumes auftritt (z. B. das Gespräch tritt zwischen den entfernten Teilnehmern und dem lokalen Benutzer innerhalb eines Konferenzraums auf). Gemäß einigen Gesichtspunkten kann der Generator basierend auf einem oder mehreren Kommunikationssitzungsparametern einen Nachhallpegel bestimmen, der auf einen oder mehrere Eingangsaudioströme angewendet werden soll. Beispielsweise kann ein Nachhallpegel auf der Stelle bzw. Größe der visuellen Darstellung basieren, wie ein Vorhandensein eines größeren Nachhallpegels für kleinere visuelle Darstellungen, um dem Zuhörer den Eindruck zu verleihen, dass die virtuelle Tonquelle, die der visuellen Darstellung zugeordnet ist, weiter entfernt ist als eine virtuelle Tonquelle (die einer visuellen Darstellung zugeordnet sein kann, die größer als die kleinere ist) mit einem niedrigeren angewendeten Nachhallpegel. Gemäß einem Gesichtspunkt kann die Nachhallanwendung (durch den Renderer 23) eine räumliche Tiefe für die virtuellen Tonquellen bereitstellen. Mehr über die räumlichen Parameter und wie die Parameter erzeugt werden, wird in 8-11B beschrieben.
  • Sobald ein oder mehrere räumliche Parameter für alle (oder die meisten) der virtuellen Tonquellen bestimmt werden, bestimmt der Generator, ob räumliche Parameter von Eingangsaudioströmen verwendet werden sollen, um individuelle Quellen zu rendern. Insbesondere empfängt der Generator ein oder mehrere Steuersignale vom Selektor 27, die angeben, welche Sätze von Kommunikationsparametern den Eingangsaudioströmen, die individualisiert werden sollen, zugeordnet sind, und welche Parametersätze Strömen zugeordnet sind, die nicht individualisiert werden sollen. Der Generator 25 leitet räumliche Parameter an den räumlichen Audio-Renderer 23 weiter, die er zum räumlichen Rendern jeweiliger Eingangsaudioströme als einzelne virtuelle Tonquellen an der durch den einen oder die mehreren räumlichen Parameter angegebenen Position verwenden soll.
  • Für nicht individualisierte Ströme kann der Generator jedoch einen anderen einen oder mehrere räumliche Parameter (oder einen neuen Satz davon) für eine Mischung eines oder mehrerer Eingangsaudioströme erzeugen, die eine bestimmte Position basierend auf mindestens einigen der räumlichen Parameter der Ströme in der Mischung angeben. Zum Beispiel können die unterschiedlichen räumlichen Parameter das Bestimmen einer gewichteten Kombination der räumlichen Parameter aller (oder einiger der) Eingangsaudioströme der Mischung einschließen. Als Beispiel ist die einzelne virtuelle Tonquelle 53, die den visuellen Listendarstellungen 47 und 48 zugeordnet ist, in der Mitte der visuellen Darstellungen innerhalb des Listenbereichs positioniert (oder kann als von einer Mitte des Listenbereichs stammend wahrgenommen werden). Diese Stelle kann daher durch Mitteln der räumlichen Parameter der beiden Listendarstellungen bestimmt werden.
  • Gemäß einem anderen Gesichtspunkt kann die Position einer einzelnen virtuellen Tonquelle, die eine Mischung von einem oder mehreren Eingangsströmen einschließt, darauf basieren, ob ein entfernter Teilnehmer innerhalb der Mischung spricht. Zum Beispiel kann der Generator VAD-Parameter des Satzes von Sitzungsparametern analysieren, und wenn die Parameter angeben, dass ein Teilnehmer spricht (z. B. die Sprachaktivität über einem Schwellenwert liegt), kann der Generator einen oder mehrere räumliche Parameter für die Mischung erzeugen, sodass sich die virtuelle Tonquelle der Mischung an einer Position der visuellen Darstellung dieses Teilnehmers befindet, ähnlich der Platzierung der individuellen virtuellen Tonquellen. Zur Veranschaulichung kann, unter Bezugnahme auf 3, die einzelne virtuelle Tonquelle basierend darauf in einer Position positioniert werden, welcher der beiden entfernten Teilnehmer 47 oder 48 spricht. In diesem Fall kann sich die virtuelle Tonquelle 53 von zwei Stellen (z. B. entlang der X-Achse) bewegen (oder umschalten), je nachdem, welcher der beiden Teilnehmer spricht.
  • Gemäß einem anderen Gesichtspunkt kann der Generator eine gewichtete Kombination der Stelle visueller Darstellungen verwenden; wenn die Gewichtung der visuellen Darstellung eines bestimmten Stroms vom Energiepegel des Audios des Stroms abhängig ist, kann der virtuelle Ton durch die Stellendaten der dominanteren Audioquellen (z. B. mit den höchsten Stimmaktivität usw.) in der Mischung bestimmt werden. Wenn die visuellen Darstellungen des Listenbereichs zum Beispiel in einem Bereich liegen, wie in 3, kann die Tonposition näher an der Darstellung eines entfernten Teilnehmers liegen, der die meiste (oder höchste) Sprachaktivität in Bezug auf die anderen entfernten Teilnehmer aufweist. Somit kann sich die Audiostelle auch bewegen, wenn sich die visuellen Darstellungen selbst nicht bewegen, wobei ein Anpassen an die Sprachaktivität innerhalb der Zeile (oder Spalte) von visuellen Darstellungen erfolgt. Wenn sich ferner visuelle Darstellungen zwischen dem Canvas-Bereich und dem Listenbereich bewegen, kann eine Bestimmung darüber, welche Ströme individuell gerendert und welche gemischt werden, basierend auf einem oder mehreren der gleichen Kriterien, die hierin erwähnt werden, angepasst werden. Somit kann die Erzeugung von räumlichen Parametern während der Kommunikationssitzung sowohl für die individuellen virtuellen Tonquellen als auch für die einzelne Tonquelle der Mischung dynamisch sein. Wie bei den individualisierten virtuellen Tonquellen leitet der Generator die räumlichen Parameter der einzelnen virtuellen Tonquelle an den Renderer 23 weiter.
  • Gemäß einem Gesichtspunkt können die Differenzen bei den Anordnungen auf den Schwenkbereichen der Lautsprecher basieren. Mehr über Schwenkbereiche wird hierin beschrieben.
  • Die Matrix/der Router 26 ist konfiguriert, um die N Eingangsaudioströme (z. B. als N Eingangsaudiokanäle) vom Manager 21 zu empfangen und ein oder mehrere Steuersignale vom Stromselektor 27 zu empfangen, der angibt, welche Ströme individualisiert und nicht individualisiert sind, und konfiguriert ist, um die Audioströme über (z. B. die vordefinierten) Ausgangsaudioströme an den räumlichen Audio-Renderer 23 zu leiten. Insbesondere ist die Matrix/der Router 26 konfiguriert, um M individuelle Audioströme, von denen jeder durch den Stromselektor ausgewählt wurde, um individuell räumlich gerendert zu werden, über den eigenen Ausgangsaudiostrom zu leiten. Mit anderen Worten weist der Router einen Ausgangsaudiostrom (oder Kanal) jedem der N Audioströme, die getrennt räumlich gerendert werden, zu. Zusätzlich mischt die Matrix/der Router nicht individualisierte Audioströme (z. B. durch Ausführen von Matrixmischvorgängen) in eine Mischung von Audioströmen (z. B. als ein einzelner Audioausgangsstrom).
  • Der räumliche Audio-Renderer 23 ist konfiguriert, um eine Anzahl von Eingangsaudioströmen zu empfangen. Wie veranschaulicht, kann dies den M individuellen Audioströmen und einem oder mehreren einzelnen Audioströmen entsprechen, die einer Mischung von einem oder mehreren Audioströmen entsprechen. Gemäß einem Gesichtspunkt kann mehr als ein Eingangsaudiostrom, der, wie hierin beschrieben einer Mischung entspricht, vorhanden sein. Für jeden Eingangsaudiostrom empfängt der Renderer auch räumliche Parameter, die anweisen, wie der Eingangsstrom gerendert werden soll. Der Renderer empfängt Eingangsströme und räumliche Parameter für jeden Strom und ist konfiguriert, um die Ströme gemäß den räumlichen Parametern räumlich zu rendern, um eine Anordnung (z. B. ein dreidimensionales (3D) Tonfeld, das diese einschließt) von virtuellen Tonquellen unter Verwendung eines oder mehrerer Lautsprecher 12 zu erzeugen.
  • Insbesondere erzeugt der räumliche Audio-Renderer 23 für jeden Eingangsstrom intern ein räumliches Rendern dieses Stroms. Diese räumlichen Renderings werden dann kombiniert, z. B. durch Summieren, um einen Ausgangsaudiostrom zu erzeugen (z. B. der zwei oder mehr Treibersignale zum Ansteuern der Lautsprecher einschließen kann). Gemäß einem Gesichtspunkt kann das räumliche Rendern von einem Audio jeden der Audioströme unter Verwendung eines beliebigen räumlichen Renderingverfahrens, wie etwa vektorbasiertes Amplitudenschwenken (VBAP), rendern, um die individuellen virtuellen Tonquellen, die jeweils einen separaten individuellen Audiostrom einschließen, und eine einzelne Tonquelle, welche die Mischung von Audioströmen an Positionen einschließt, die durch jeweilige räumliche Parameter angegeben sind, durch zwei oder mehr Lautsprecher auszugeben. Gemäß einem anderen Aspekt kann der Renderer andere räumliche Vorgänge anwenden, wie etwa das Hochmischen eines oder mehrerer einzelner Audioströme unter Verwendung der räumlichen Parameter, um einen Mehrkanal zum Ansteuern von zwei oder mehr Lautsprechern zu erzeugen. Zum Beispiel kann der Renderer ein Mehrkanalaudio in einem Umgebungston-Mehrkanalformat (z. B. 5,1, 7,1 usw.) erzeugen, wobei jeder Kanal verwendet wird, um einen bestimmten Lautsprecher 12 anzusteuern.
  • Gemäß einem Gesichtspunkt kann der Renderer andere räumliche Vorgänge anwenden, um ein binaurales Zweikanal-Ausgangssignal zu erzeugen (z. B. das zum Ansteuern von Kopfhörern, wie hierin beschrieben wird, verwendet werden kann). Gemäß einem Gesichtspunkt kann der Renderer, um die Eingangsaudioströme räumlich zu rendern, einen oder mehrere räumliche Filter, wie kopfbezogene Übertragungsfunktionen (HRTFs), anwenden. Zum Beispiel kann der Renderer unter Verwendung der räumlichen Parameter (die Azimutwinkel, Höhenwinkel, Abstand, Nachhallpegel usw. einschließen können, wie hierin beschrieben wird) eine oder mehrere HRTFs bestimmen und die HRTFs auf die empfangenen Eingangsaudioströme anwenden, um binaurale Audiosignale zu erzeugen, die räumliches Audio bereitstellen. Gemäß einem Gesichtspunkt können die räumlichen Filter generische oder vorbestimmte Raumfilter sein (z. B. bestimmt in einem kontrollierten Setting, wie z. B. einem Labor), die vom Renderer für eine vorbestimmte Position basierend auf dem Abstand, der durch die räumlichen Parameter angegeben wird (z. B. der im Allgemeinen für einen oder mehrere Hörer bzw. den idealen Punkt vor der Audiovorrichtung optimiert ist), angewendet werden können. Gemäß einem anderen Gesichtspunkt können die räumlichen Filter gemäß einer oder mehrerer Messungen des Kopfes eines Hörers benutzerspezifisch sein (z. B. sie können basierend auf einer Benutzereingabe bestimmt werden oder sie können automatisch durch die lokale Vorrichtung bestimmt werden). Zum Beispiel kann das System die HRTFs oder äquivalent eine kopfbezogene Impulsantwort (HRIR) bestimmen, die auf der Anthropometrie des Hörers basiert. Zum Beispiel kann der Renderer Sensordaten (z. B. Bilddaten, die von der Kamera 15 erzeugt werden) empfangen und die Daten verwenden, um die Anthropometrie des Hörers zu bestimmen.
  • Gemäß einem anderen Gesichtspunkt kann der Renderer einen Übersprechunterdrückungsalgorithmus (XTC-Algorithmus) ausführen. Zum Beispiel kann der Renderer den Algorithmus durch Mischen bzw. Verzögern von (z. B. durch Anwenden eines oder mehrerer XTC-Filter auf) den Audioströmen ausführen, um ein oder mehrere XTC-Signale (oder Treibersignale) zu erzeugen. Gemäß einem Gesichtspunkt kann der Renderer ein oder mehrere erste XTC-Audiosignale erzeugen, der (mindestens einen Teil von) Audioinhalt der Audioströme enthält, die hauptsächlich an einem Ohr (z. B. einem linken Ohr) des Hörers, der sich innerhalb eines idealen Punkts befindet (z. B. der möglicherweise vor und der lokalen Vorrichtung zugewandt liegt), gehört werden sollen, und kann ein oder mehrere zweite XTC-Audiosignale erzeugen, die Audioinhalt der Audioströme enthalten, die hauptsächlich an einem anderen Ohr des Benutzers gehört werden sollen (z. B. rechtes Ohr), wenn dies verwendet wird, um einen oder mehrere der Lautsprecher anzusteuern.
  • Gemäß einigen Gesichtspunkten kann der Renderer 23 einen oder mehrere zusätzliche Audiosignalverarbeitungsvorgänge ausführen. Zum Beispiel kann der Renderer basierend auf dem empfangenen Nachhallpegel, der mit den räumlichen Parametern empfangen wird, einen Nachhall auf einen oder mehrere der Eingangsaudioströme (oder das Rendern der Ströme) anwenden. Gemäß einem anderen Gesichtspunkt kann der Renderer einen oder mehrere Entzerrungsvorgänge (z. B. auf spektrale Form) auf einem oder mehreren Strömen ausführen, wie beispielsweise durch Anwenden eines oder mehrerer Filter, wie eines Tiefpassfilters, eines Bandpassfilters, eines Hochpassfilters usw. Gemäß einem anderen Gesichtspunkt kann der Renderer einen oder mehrere skalare Verstärkungswerte an einem oder mehreren Strömen anwenden. Gemäß einigen Gesichtspunkten kann die Anwendung von Entzerrungs- und skalaren Verstärkungswerten auf dem Abstandswert der räumlichen Parameter basieren, sodass die Anwendung der Vorgänge den jeweiligen virtuellen Tonquellen eine Speicherfähigkeit (oder Tiefe) bereitstellt.
  • Als Ergebnis des räumlichen Renderns jedes individuellen Eingangsaudiostroms und des einen oder der mehreren Mischungen von Eingangsaudioströmen erzeugt der Renderer einen einzelnen Satz von (z. B. einem oder mehreren) Treibersignalen, die verwendet werden, um einen oder mehrere Lautsprecher 12 anzusteuern, die ein Teil der lokalen Vorrichtung sein können oder von der lokalen Vorrichtung getrennt sein können, um das 3D-Tonfeld zu erzeugen, das jede der individuellen virtuellen Tonquellen und eine oder mehrere einzelne virtuelle Tonquellen einschließt, wie hierin beschrieben wird.
  • Gemäß einigen Gesichtspunkten kann die Steuerung 10 einen oder mehrere zusätzliche Audiosignalverarbeitungsvorgänge ausführen. Zum Beispiel kann die Steuerung konfiguriert sein, um eine aktive Rauschunterdrückungsfunktion (ANC-Funktion) auszuführen, um zu bewirken, dass der eine oder die mehreren Lautsprecher einen Rauschschutz erzeugen, um Grundrauschen aus der Umgebung zu reduzieren, die in die Ohren des Benutzers eintreten (z. B. wenn die Lautsprecher ein Teil der Kopfhörer sind, die vom lokalen Benutzer getragen werden). Die ANC-Funktion kann als eine von einer Vorwärtskopplungs-ANC, einer Rückkopplungs-ANC oder einer Kombination davon implementiert sein. Infolgedessen kann die Steuerung ein Referenzmikrofonsignal von einem Mikrofon, das äußere Umgebungsgeräusche erfasst, wie dem Mikrofon 14, empfangen. Gemäß einem anderen Gesichtspunkt kann die Steuerung ein beliebiges ANC-Verfahren ausführen, um den Rauschschutz zu erzeugen. Gemäß einem anderen Gesichtspunkt kann die Steuerung eine Transparenzfunktion ausführen, in der ein von der Vorrichtung wiedergegebener Ton eine Reproduktion des Umgebungstons ist, der vom externen Mikrofon der Vorrichtung auf „transparente“ Weise erfasst wird, z. B. als ob die Kopfhörer nicht vom Benutzer getragen würden. Die Steuerung verarbeitet mindestens ein Mikrofonsignal, das von mindestens einem Mikrofon erfasst wird, und filtert das Signal durch einen Transparenzfilter, der eine akustische Okklusion reduzieren kann, da sich die Audioausgabevorrichtung auf, in oder über dem Ohr des Benutzers befindet, während gleichzeitig auch die räumliche Filterwirkung der anatomischen Merkmale des Trägers (z. B. Kopf, Ohrmuschel, Schulter usw.) beibehalten wird. Der Filter trägt auch dazu dabei, die Klangfarbe und die räumlichen Hinweise, die mit den tatsächlichen Umgebungsgeräuschen verbunden sind, zu bewahren. Gemäß einem Gesichtspunkt kann der Filter der Transparenzfunktion gemäß spezifischen Messungen des Kopfes des Benutzers benutzerspezifisch sein. Zum Beispiel kann die Steuerung den Transparenzfilter gemäß einer HRTF oder äquivalent einer HRIR bestimmen, die auf der Anthropometrie des Benutzers basiert.
  • Gemäß einem anderen Gesichtspunkt kann die Steuerung 10 eine Dekorrelation auf einem oder mehreren Audioströmen ausführen, um ein mehr (oder weniger) diffuses 3D-Tonfeld bereitzustellen. Gemäß einigen Gesichtspunkten kann die Dekorrelation basierend darauf aktiviert werden, ob die lokale Vorrichtung das 3D-Tonfeld mit einem Kopfhörer oder über einen oder mehrere (extra-aurale) Lautsprecher ausgibt, die in die lokale Vorrichtung integriert sein können. Gemäß einem anderen Gesichtspunkt kann die Steuerung Echounterdrückungsvorgänge ausführen. Insbesondere kann die Steuerung einen linearen Filter basierend auf einem Übertragungsweg zwischen einem oder mehreren Mikrofonen 14 und einem oder mehreren Lautsprechern 12 bestimmen und den Filter auf die Audioströme anwenden, um eine Schätzung von Echo zu erzeugen, die von dem/den Mikrofonsignal(en), das/die von dem einen oder den mehreren Mikrofonen erfasst wird/werden, abgezogen wird.
  • Gemäß einigen Gesichtspunkten kann die Steuerung jedes Echounterdrückungsverfahren verwenden.
  • Wie bisher beschrieben, ist die räumliche Audiosteuerung 20 konfiguriert, um einen oder mehrere Eingangsaudioströme, die den visuellen Canvas-Darstellungen zugeordnet sind, als individuelle virtuelle Tonquellen räumlich zu rendern. Gemäß einem anderen Gesichtspunkt kann die Steuerung jedoch eine Mischung eines oder mehrerer Eingangsaudioströme von entfernten Canvas-Teilnehmern als eine virtuelle Tonquelle räumlich rendern. Gemäß einem Aspekt kann sie nur eine solche gruppierte Mischung aufweisen, oder sie kann mehrere Mischungen verwenden. Wie hierin beschrieben, kann die räumliche Audiosteuerung eine vordefinierte Anzahl von Ausgangsaudiokanälen zum individualisierten räumlichen Rendern aufweisen. In einigen Fällen kann die Steuerung jedoch bestimmen, dass mehr virtuelle Tonquellen erforderlich sind als die lokale Vorrichtung ausgeben kann. Zum Beispiel können zusätzliche entfernte Teilnehmer der Kommunikationssitzung beitreten und die Steuerung kann bestimmen, dass einer oder mehrere ihrer jeweiligen Eingangsaudioströme individuell gerendert werden sollen, wie hierin beschrieben wird. Als ein weiteres Beispiel kann die Steuerung bestimmen, dass vorhandene entfernte Teilnehmer, die zuvor nicht individuell gerendert wurden, nun ihre individuelle virtuelle Tonquelle erfordern können. Zum Beispiel kann die Steuerung während der Kommunikationssitzung bestimmen, dass sich ein entfernter Listen-Teilnehmer auf der Grundlage der hierin erwähnten Kriterien von dem Listen- in den Canvas-Bereich bewegen soll. Wenn also Ausgangsaudiokanäle erforderlich sind, aber nicht genügend verfügbare Kanäle vorhanden sind (z. B. die Gesamtzahl der Ausgangsaudiokanäle wurde durch das vorhandene räumliche Rendern vorhandener virtueller Tonquellen erreicht, usw.), kann die räumliche Audiosteuerung damit beginnen, eine Mischung von Canvas-Eingangsaudioströmen zu einer einzelnen virtuellen Tonquelle räumlich zu rendern. Gemäß einem Aspekt kann diese Bestimmung auf der Stelle visueller Darstellungen innerhalb des Canvas-Bereichs basieren. Zum Beispiel kann die Steuerung Vektorquantisierungsvorgänge in Bezug auf visuelle Darstellungspositionen innerhalb der GUI ausführen, um einen oder mehrere Eingangsaudioströme benachbarter visueller Darstellungen zu gruppieren (als eine Mischung). Gemäß einem anderen Gesichtspunkt kann die Steuerung Ströme basierend auf dem Abstand zwischen visuellen Darstellungen innerhalb des Canvas-Bereichs (z. B. innerhalb eines Schwellenwertabstands) gruppieren. Gemäß einem noch weiteren Gesichtspunkt kann die Steuerung vordefinierte Bereiche innerhalb der (z. B. des Canvas-Bereichs der) GUI zuweisen, wobei Ströme, die visuellen Darstellungen innerhalb eines Bereichs zugeordnet sind, gemischt werden. Mehr über Bereiche wird hierin beschrieben.
  • Sobald Gruppierungen eines oder mehrerer Eingangsaudioströme bestimmt werden, kann die (z. B. der räumliche Parametergenerator 25 der) Steuerung einen oder mehrere räumliche Parameter für die Mischung bestimmen (z. B. auf ähnliche Weise wie die Bestimmung von räumlichen Parametern für Listendarstellungen, wie das Bestimmen einer gewichteten Kombination von räumlichen Parametern von Strömen in der Mischung usw.), und die räumlichen Elemente zu der Matrix/dem Router 26 übertragen, um die Eingangsaudioströme zu mischen und die Mischung als einen der Ausgangsaudiokanäle zu übertragen. Gemäß einem Gesichtspunkt kann das Mischen von Audioströmen dynamisch sein, wie die visuellen Darstellungen innerhalb der GUI-Änderung.
  • Gemäß einem anderen Gesichtspunkt können die Ausgangsaudiokanäle basierend darauf vordefiniert sein, ob der Kanal einen individuellen Eingangsaudiostrom oder eine Mischung von Eingangsaudioströmen unterstützt. In diesem Fall kann die Steuerung konfiguriert sein, um eine Anzahl von individuellen virtuellen Tonquellen und eine Anzahl von gemischten Tonquellen aufzunehmen. Gemäß einem Gesichtspunkt kann die Bestimmung, welche Eingangsaudioströme gemischt werden sollen und wie viele, auf diesen Zahlen basieren.
  • Gemäß einem Gesichtspunkt kann die räumliche Audiosteuerung 20 Eingangsaudioströme dynamisch rendern, sodass die Steuerung das Rendern basierend auf Änderungen am Audiosystem 1 (z. B. an der lokalen Vorrichtung daran) anpasst. Wie hierin beschrieben, können die räumlichen Parameter basierend auf den Schwenkbereichen der Lautsprecher der lokalen Vorrichtung erzeugt werden. Gemäß einem Gesichtspunkt können sich Schwenkbereiche basierend auf bestimmten Kriterien ändern. Zum Beispiel können Schwenkbereiche auf der physischen Anordnung von Lautsprechern basieren, die in die lokale Vorrichtung integriert sind. Wenn die lokale Vorrichtung ihre Stelle bzw. Ausrichtung ändert, können sich die Schwenkbereiche auch ändern. Infolgedessen kann die räumliche Audiosteuerung konfiguriert sein, um das räumliche Rendern basierend auf beliebigen Änderungen der lokalen Vorrichtung anzupassen, wie eine Änderung der Ausrichtung bzw. eine Änderung des Seitenverhältnisses der GUI in Bezug auf den Anzeigebildschirm. Mehr zum Anpassen des räumlichen Renderns basierend auf Änderungen an der lokalen Vorrichtung bzw. des Seitenverhältnisses der GUI wird in 12-15 beschrieben.
  • 5, 6, 9, 13 und 15 sind Flussdiagramme von Prozessen 30, 90, 80, 140 bzw. 170 zum Ausführen eines oder mehrerer Audiosignalverarbeitungsvorgänge zum räumlichen Rendern von Eingangsaudioströmen einer Kommunikationssitzung. Gemäß einem Gesichtspunkt können die Prozesse von einer oder mehreren Vorrichtungen des Audiosystems 1, wie in 1 veranschaulicht wird, ausgeführt werden. Zum Beispiel können mindestens einige der Vorgänge dieser Prozesse durch (z. B. die Steuerung 10) die lokale Vorrichtung 2 ausgeführt werden. Gemäß einem anderen Gesichtspunkt können mindestens einige der Vorgänge von einer anderen Vorrichtung ausgeführt werden, wie einem entfernten Server, der kommunikativ mit der lokalen Vorrichtung gekoppelt ist.
  • Bezugnehmend auf 5 ist diese Figur ein Flussdiagramm eines Gesichtspunktes eines Prozesses 30 zum Bestimmen, ob Eingangsaudioströme individuell als individuelle virtuelle Tonquellen gerendert werden sollen oder gemischt und als eine einzelne virtuelle Tonquelle gerendert werden sollen, und zum Bestimmen einer Anordnung der virtuellen Tonquellen. Gemäß einem Gesichtspunkt werden die im Prozess beschriebenen Vorgänge durch einen oder mehrere Betriebsblöcke der Steuerung 10 ausgeführt, wie in 4 beschrieben wird. Gemäß einem Gesichtspunkt hat sich die lokale Vorrichtung 2 vor dem Beginn des Prozesses an einer Kommunikationssitzung mit einer oder mehreren entfernten Vorrichtungen 3 beteiligt, wie hierin beschrieben wird. Der Prozess beginnt, indem die Steuerung 10 Kommunikationssitzungsdaten (z. B. einen Eingangsaudiostrom, einen Eingangsvideostrom bzw. ein VAD-Signal) von jeder entfernten Vorrichtung von einer oder mehreren entfernten Vorrichtungen empfängt, mit denen die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist (bei Block 31). Die Steuerung 10 bestimmt für jede entfernte Vorrichtung einen Satz von Kommunikationssitzungsparametern (z. B. basierend auf dem Eingangsvideostrom bzw. dem VAD-Signal) (bei Block 32). Zum Beispiel kann der Video-Renderer einen oder mehrere VAD-Parameter, eine Größe einer visuellen Darstellung jedes Eingangsvideostroms innerhalb der GUI, eine Position der visuellen Darstellung, einen Nachhallpegel usw. als die Parameter bestimmen. Die Steuerung 10 bestimmt für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom 1) in Bezug auf die anderen empfangenen Eingangsaudioströme individuell gerendert werden soll, oder 2) als eine Mischung von Eingangsaudioströmen mit einem oder mehreren anderen Eingangsaudioströmen gerendert werden soll, basierend auf dem Satz von Kommunikationssitzungsparametern (bei Block 33). Die Steuerung 10 bestimmt eine Anordnung von Positionen für 1) individuelle virtuelle Tonquellen, von denen jede einen individuell gerenderten Eingangsaudiostrom einschließen soll, und 2) eine Position von einer oder mehreren einzelnen virtuellen Tonquellen, die jeweils eine Mischung von Eingangsaudiosignalen einschließen, basierend auf dem Satz von Kommunikationssitzungsparametern (bei Block 34). Insbesondere bestimmt die Steuerung beim Bestimmen der Anordnung räumliche Parameter für jeden Eingangsaudiostrom (z. B. basierend auf der Position einer visuellen Darstellung eines jeweiligen Eingangsvideostroms innerhalb der auf dem Anzeigebildschirm 13 angezeigten Kommunikationssitzungs-GUI). Zusätzlich kann die Steuerung (z. B. die Matrix/der Router 26 davon) die Matrixmischvorgänge ausführen, um den einen oder die mehreren Eingangsaudioströme zu mischen, um die Mischung von Eingangsaudioströmen basierend auf der Anordnung visueller Darstellungen zu erzeugen. Die Steuerung 10 rendert jeden Eingangsaudiostrom räumlich, für den bestimmt wird, dass er individuell als eine individuelle virtuelle Tonquelle, die nur den Eingangsaudiostrom enthält, gerendert werden soll (bei Block 35). Die Steuerung 10 rendert auch jede Mischung von Eingangsaudioströmen als eine einzelne virtuelle Tonquelle, die eine Mischung enthält, räumlich (bei Block 36).
  • Wie bisher beschrieben, verwaltet die Steuerung 10 die Zuweisung von Ausgangsaudiokanälen an einzelne Eingangsaudioströme basierend auf einem oder mehreren Kriterien (z. B. ob ein entfernter Teilnehmer aktiv spricht). Dies soll sicherstellen, dass die Anzahl der zugewiesenen Ausgangsaudiokanäle (einige davon schließen individualisierte Eingangsaudioströme bzw. eine Mischung eines oder mehrerer Eingangsaudiokanäle ein) eine vordefinierte Anzahl nicht überschreitet, um Rechenressourcen zu optimieren. In einigen Fällen kann die Steuerung jedoch bestimmen, dass die Anzahl der Eingangsaudioströme, für die bestimmt wird, dass sie als individuelle virtuelle Tonquellen gerendert werden sollen, die vordefinierte Anzahl von Audioausgangskanälen überschreitet. Dies kann zum Beispiel auf eine signifikante Anzahl von entfernten Teilnehmern zurückzuführen sein, die aktiv sprechen (z. B. mit einem VAD-Parameterwert, der über dem Schwellenwert liegt). Infolgedessen kann die Steuerung, anstatt die vordefinierte Anzahl von Ausgangsaudioströmen zu überschreiten, einen oder mehrere Eingangsaudioströme als eine Mischung zu einer einzelnen virtuellen Tonquelle zuweisen, wie hierin beschrieben wird. Zusätzlich kann die Steuerung die Anordnung von virtuellen Tonquellenpositionen anpassen. Wie hierin beschrieben, kann die Steuerung einen oder mehrere Eingangsaudioströme des Canvas-Bereichs gruppieren und die Gruppe an eine virtuelle Tonquelle rendern. Gemäß einem anderen Gesichtspunkt kann die Steuerung die Anordnung von virtuellen Tonquellenpositionen und visuellen Darstellungen in einer netzartigen Weise anpassen, um mehr entfernte Teilnehmer aufzunehmen. 6 beschreibt den Prozess des Bestimmens, ob die Anordnungen basierend auf der Hinzufügung von entfernten Teilnehmern innerhalb der Kommunikationssitzung anzupassen sind, was dazu führen kann, dass die vordefinierte Anzahl von Ausgangsaudiokanälen überschritten wird, wenn ihre jeweiligen Eingangsaudioströme als individuelle virtuelle Tonquellen individuell räumlich gerendert würden.
  • Insbesondere ist 6 ein Flussdiagramm eines Gesichtspunkts eines Prozesses 90 zum Definieren von Benutzerschnittstellenzonen (UI-Zonen) (z. B. in einem Netz), die jeweils eine oder mehrere visuelle Darstellungen einschließen, und zum räumlichen Rendern von Eingangsaudioströmen, die den Darstellungen zugeordnet sind, die sich innerhalb der UI-Zonen befinden. Der Prozess 90 beginnt, indem die Steuerung einen Eingangsaudiostrom und einen Eingangsvideostrom für jede einer ersten Gruppe von entfernten Vorrichtungen empfängt, die an einer Videokommunikationssitzung mit der lokalen Vorrichtung beteiligt ist (bei Block 91). Die Steuerung zeigt für jeden Eingangsvideostrom eine visuelle Darstellung des Eingangsvideostroms in einer GUI auf dem Anzeigebildschirm 13 an (bei Block 92). Insbesondere empfängt der Video-Renderer 22 die Eingangsvideoströme (und VAD-Parameter) und bestimmt die Anordnung der visuellen Darstellungen. Nach dem Bestimmen zeigt der Renderer die Videoströme auf der Anzeige an. Die Steuerung rendert die Eingangsaudioströme räumlich, um eine oder mehrere individuelle virtuelle Tonquellen bzw. eine einzelne virtuelle Tonquelle auszugeben, die eine Mischung von Eingangsaudioströmen einschließt (bei Block 93). Somit kann der lokale Benutzer 40 das Audio der entfernten Teilnehmer an virtuellen Tonquellenpositionen innerhalb der physischen Umgebung wahrnehmen, wie in 3 veranschaulicht wird. Zum Beispiel kann die Steuerung mindestens einen Eingangsaudiostrom räumlich rendern, um eine (z. B. individuelle) virtuelle Tonquelle auszugeben, die den Eingangsaudiostrom durch einen oder mehrere Lautsprecher 12 einschließt. Gemäß einem Gesichtspunkt kann eine Anzahl individueller virtueller Tonquellen unter der vordefinierten Anzahl sein
  • Die Steuerung 10 bestimmt, dass eine zweite Gruppe von (einer oder mehreren zusätzlichen) entfernten Vorrichtungen der Videokommunikationssitzung beigetreten ist (bei Block 94). Gemäß einem Gesichtspunkt kann diese Bestimmung auf einer Anforderung basieren, die vom Sitzungsmanager 21 für eine oder mehrere zusätzliche entfernte Vorrichtungen, die an der vor-vorhandenen Kommunikationssitzung beteiligt sind, empfangen werden. Als Reaktion darauf kann der Sitzungsmanager die Anforderung akzeptieren und einen Kommunikationskanal mit den entfernten Vorrichtungen herstellen, um mit dem Empfangen von Sitzungsdaten zu beginnen. Gemäß einem anderen Gesichtspunkt kann die Bestimmung darauf basieren, dass der Sitzungsmanager Sitzungsdaten von neu hinzugefügten entfernten Vorrichtungen zur Kommunikationssitzung empfängt. Zum Beispiel kann die Sitzung eine „offene“ Sitzung sein, bei der entfernte Teilnehmer der Sitzung frei beitreten können (z. B. ohne erforderliche Autorisierung von der lokalen Vorrichtung bzw. anderen entfernten Vorrichtungen, die bereits an der Sitzung beteiligt sind). Als Reaktion auf das Bestimmen, dass die zweite Gruppe dem Anruf beigetreten ist, empfängt die Steuerung Eingangsaudio- und Eingangsvideoströme von jeder der entfernten Vorrichtungen.
  • Die Steuerung 10 bestimmt, ob die lokale Vorrichtung zusätzliche individuelle virtuelle Tonquellen für einen oder mehrere Eingangsaudioströme der zweiten Gruppe von entfernten Vorrichtungen unterstützt (bei Entscheidungsblock 95). Insbesondere kann, wie hierin beschrieben, die (z. B. Steuerung 10 der) lokale(n) Vorrichtung so konfiguriert sein, dass sie eine vordefinierte Anzahl von Eingangsaudioströmen als individuelle virtuelle Tonquellen räumlich rendert. In der vorhandenen Konfiguration (z. B. Beteiligtsein an einer Videokommunikationssitzung mit der ersten Gruppe von entfernten Vorrichtungen) rendert die Steuerung 10 bereits eine Anzahl individueller Eingangsaudioströme, die unter der vordefinierten Anzahl liegen können. Somit kann der einzelne Audiostromselektor 27 zusätzliche Sätze von Kommunikationssitzungsparametern empfangen und bestimmen, ob zusätzliche Eingangsaudioströme als individuelle virtuelle Tonquellen gerendert werden sollen. Insbesondere bestimmt der Selektor, ob eine Anzahl von Eingangsaudioströmen der ersten und zweiten Gruppe von entfernten Vorrichtungen, für die bestimmt wird, dass sie als individuell räumlich gerendert werden sollen, größer als die vordefinierte Anzahl ist.
  • Wenn dies der Fall ist, bestimmt die Steuerung, dass die lokale Vorrichtung die Aggregation von individualisierten Strömen, die für die Kommunikationssitzung erforderlich sein können, nicht unterstützt. Als Reaktion darauf definiert die Steuerung 10 einige (oder eine oder mehrere) UI-Zonen, die sich in der GUI befinden, wobei jede UI-Zone eine oder mehrere visuelle Darstellungen eines oder mehrerer Eingangsvideoströme entweder der ersten Gruppe von entfernten Vorrichtungen, der zweiten Gruppe von entfernten Vorrichtungen oder einer Kombination davon einschließt, die in der UI-Zone angezeigt werden sollen (bei Block 97). Zum Beispiel kann die Steuerung 10 (z. B. der Video-Renderer 22 davon) alle visuellen Darstellungen anzeigen, die der ersten und der zweiten Gruppe von entfernten Vorrichtungen in einem Netz (z. B. in einer oder mehreren Zeilen und einer oder mehreren Spalten) zugeordnet sind. Gemäß einem Aspekt können die visuellen Darstellungen gleichmäßig zwischen den Rändern des Anzeigebildschirms und voneinander beabstandet sein bzw. eine gleiche Größe aufweisen. Die Steuerung 10 stellt ein virtuelles Netz von UI-Zonen auf der GUI her, wobei jede UI-Zone eine oder mehrere visuelle Darstellungen umfasst. Zum Beispiel kann die Steuerung beim Erstellen des Netzes eine oder mehrere benachbarte visuelle Darstellungen innerhalb der GUI an jede UI-Zone zuweisen. Gemäß einem anderen Gesichtspunkt kann die Steuerung die UI-Zonen basierend auf der Anzahl von visuellen Darstellungen bzw. Eingangsaudioströmen definieren, die von den zwei Gruppen von entfernten Vorrichtungen empfangen werden. Wenn zum Beispiel die vordefinierte Anzahl von individuellen virtuellen Tonquellen (oder Ausgangskanälen) vier und acht Eingangsaudioströme sind, kann die Steuerung zwei Eingangsaudioströme an jede UI-Zone gleichmäßig zuweisen (oder verteilen), sodass eine Anzahl von definierten UI-Zonen die vordefinierte Anzahl nicht überschreitet.
  • Sobald die UI-Zonen definiert sind, rendert die Steuerung für jede UI-Zone eine Mischung eines oder mehrerer Eingangsaudioströme räumlich, die der einen oder den mehreren visuellen Darstellungen zugeordnet sind, die in der UI-Zone als virtuelle Tonquelle durch die Lautsprecher 12 eingeschlossen sind (bei Block 98). Insbesondere kann die Steuerung die Mischung räumlich so rendern, dass jede Zone einer eigenen virtuellen Tonquelle zugeordnet ist. Zum Beispiel kann sich jede virtuelle Tonquelle der Zone an einer Position innerhalb der auf dem Anzeigebildschirm angezeigten UI-Zone befinden. Insbesondere kann die virtuelle Tonquelle in einer Mitte der UI-Zone positioniert sein, sodass ein Audio aus Eingangsaudioströmen der Zone vom lokalen Benutzer so wahrgenommen wird, als würde es aus der Zone stammen. Gemäß einem Gesichtspunkt kann die Steuerung eine virtuelle Tonquelle basierend auf der Sprachaktivität eines oder mehrerer entfernten Teilnehmer, die der Zone zugeordnet sind, dynamisch positionieren. Zum Beispiel kann die Steuerung die virtuelle Tonquelle auf einer visuellen Darstellung platzieren, die einem Eingangsaudiostrom der Mischung von Eingangsaudioströmen der Zone, die einen Signalenergiepegel aufweist, der über einem Schwellenwert liegt, zugeordnet ist (z. B. ist er einer Sprachaktivität zugeordnet, die größer als ein Schwellenwert ist, was angibt, dass der entfernte Teilnehmer spricht).
  • Wenn die lokale Vorrichtung jedoch zusätzliche Eingangsaudioströme unterstützt, die individuell wiedergegeben werden sollen, rendert die Steuerung die zusätzlichen Eingangsaudioströme, um eine oder mehrere zusätzliche individuelle virtuelle Tonquellen auszugeben (bei Block 96). Insbesondere kann die Steuerung visuelle Darstellungen der GUI (z. B. des Canvas-Bereichs davon) der Kommunikationssitzung hinzufügen und die zusätzlichen Ströme als einzelne Quellen ausgeben. Wenn dies nicht der Fall ist, kann die Steuerung die Anordnung von virtuellen Tonquellenpositionen neu anordnen. Zusätzlich zum Hinzufügen einzelner virtueller Tonquellen kann die Steuerung auch einen oder mehrere Eingangsaudioströme zur Mischung von Eingangsaudioströmen hinzufügen, die als eine einzelne virtuelle Tonquelle des Listenbereichs der GUI gerendert werden.
  • Gemäß einem Gesichtspunkt kann die Steuerung 10 UI-Zonen basierend darauf neu definieren, ob entfernte Vorrichtungen zur Kommunikationssitzung hinzugefügt oder davon entfernt werden. Zum Beispiel kann die Steuerung als Reaktion auf eine dritte Gruppe von entfernten Vorrichtungen, die der Sitzung beitreten, die UI-Zonen durch mindestens einen von Folgendem neu definieren: 1) Hinzufügen visueller Darstellungen von Eingangsaudioströmen von der dritten Gruppe zu bereits definierten UI-Zonen, 2) Erstellen einer oder mehrerer neuer UI-Zonen (z. B. die mindestens einen Eingangsvideostrom der dritten Gruppe einschließen können) oder 3) eine Kombination davon. Somit kann die Steuerung die UI-Zonen nach Bedarf dynamisch neu definieren. Gemäß einem anderen Gesichtspunkt kann die Steuerung die UI-Zonen basierend auf einer Benutzereingabe der lokalen Vorrichtung definieren (z. B. wählt der Benutzer eine Menüoption aus, die, wenn sie ausgewählt ist, die Steuerung anweist, die UI-Zonen zu definieren, wie hierin beschrieben wird). Gemäß einigen Gesichtspunkten kann die Steuerung 10 zwischen dem Definieren von UI-Zonen zum räumlichen Rendern von Eingangsaudioströmen und dem Bereitstellen der GUI mit dem Canvas-Bereich und dem Listenbereich (z. B. basierend darauf, ob die vordefinierte Anzahl von Ausgangsaudiokanälen überschritten wurde) umschalten.
  • 7 veranschaulicht mehrere Stufen 70 und 71, in denen die lokale Vorrichtung 2 UI-Zonen für eine oder mehrere visuelle Darstellungen von Eingangsvideoströmen definiert und einen oder mehrere Eingangsaudioströme, die den definierten UI-Zonen zugeordnet sind, gemäß einem Gesichtspunkt räumlich rendert. Insbesondere veranschaulicht die erste Stufe 70 die Kommunikationssitzungs-GUI 41 und Positionen virtueller Tonquellen 62 der Sitzung, während der lokale Benutzer an der Sitzung teilnimmt. Insbesondere zeigt diese Figur die visuellen Darstellungen 44-48 der entfernten Teilnehmer und die visuelle Darstellung des lokalen Benutzers 49 in einer Anordnung 61 in der GUI 41, die auf dem Anzeigebildschirm 13 der lokalen Vorrichtung angezeigt wird. Insbesondere unterscheidet sich diese Anordnung von der Anordnung 51 von 3 aufgrund der Ausrichtung der lokalen Vorrichtung. Die lokale Vorrichtung, die in 3 veranschaulicht wird, ist zum Beispiel in einer Hochformat-Ausrichtung, wobei die in dieser Figur veranschaulichte Vorrichtung in einer Querformat-Ausrichtung ist (z. B. um 90° um eine Mittelachse der lokalen Vorrichtung gedreht). In dieser Anordnung 61 sind Darstellungen innerhalb des Canvas-Bereichs 42 innerhalb der GUI weiter verteilt als ihre Positionen in Anordnung 51 von 3 (z. B. entlang der X-Achse weiter verteilt). Außerdem ist der Listenbereich 43 auf der Seite (rechten Seite) der GUI gezeigt, wo die visuellen Darstellungen in einer Spalte statt einer Zeile gestapelt sind. Außerdem ist die Anordnung von virtuellen Tonquellenpositionen 62 in ähnlicher Weise wie die Anordnung von visuellen Darstellungen 61 angeordnet. Zum Beispiel ist die Tonquelle 55, die der visuellen Darstellung 45 entspricht, vertikal höher und zwischen den Tonquellen 54 und 56, die jeweils den visuellen Darstellungen 44 und 46 entsprechen, die vertikal niedriger und auf jeder Seite der Darstellung 45 sind. Wie hierin beschrieben, kann die Anordnung der virtuellen Tonquellen 62 proportional größer sein als die Anordnung visueller Darstellungen (z. B. breiter und höher in Bezug auf die Darstellungen verteilt). Gemäß einem anderen Gesichtspunkt können die Tonquellen jedoch auf (oder in der Nähe von) ihren jeweiligen Darstellungen angeordnet sein, wobei die Tonquellen 54-56 auf ihren jeweiligen visuellen Darstellungen 44-46 zentriert sind und die virtuelle Tonquelle der Liste 53 in der Mitte beider Listendarstellungen 47 und 48 positioniert ist.
  • Gemäß einem Gesichtspunkt kann die Stelle des Listenbereichs 43 in dieser Anordnung ähnlich positioniert sein wie in der Anordnung 51 von 3. Beispielsweise können die visuellen Listendarstellungen nicht in einer gestapelten Spalte, sondern in einer Zeile positioniert sein, z. B. am unteren Rand der GUI 41. Gemäß einem anderen Gesichtspunkt können die visuellen Darstellungen innerhalb des Listenbereichs optional sein, sodass entfernte Teilnehmer möglicherweise nicht in den Listenbereich platziert werden, wenn dies nicht erforderlich ist. Wenn zum Beispiel genügend Ausgangsaudiokanäle vorhanden sind bzw. jeder der entfernten Teilnehmer die Kriterien, innerhalb des Canvas-Bereichs zu sein, erfüllt, kann die Steuerung 10 alle entfernten Teilnehmer innerhalb des Canvas-Bereichs positionieren. In diesem Fall schließt die GUI möglicherweise den Listenbereich nicht ein.
  • Die zweite Stufe 71 veranschaulicht das Ergebnis von mehr entfernten Teilnehmern, die der Kommunikationssitzung beitreten, und als Reaktion darauf definiert die Steuerung 10 der lokalen Vorrichtung UI-Zonen, von denen jede eine oder mehrere visuelle Darstellungen aufweist. Insbesondere sind die drei neuen entfernten Teilnehmer 73-75, wie gezeigt, der Kommunikationssitzung beigetreten. Gemäß einem Gesichtspunkt kann die Steuerung bestimmt haben, dass einer oder mehrere der neuen Teilnehmer als individuelle virtuelle Tonquelle räumlich gerendert werden sollten. Zusätzlich kann die Steuerung jedoch bestimmt haben, dass, wenn sie individuell gerendert werden, die lokale Vorrichtung die optimale (vordefinierte) Anzahl von individuellen Renderings überschreiten kann. Infolgedessen hat die Steuerung vier (simulierte) Bereiche 76-79 als ein Netz definiert, wobei jeder Bereich im Netz eine UI-Zone ist. Die Anordnung von visuellen Darstellungen 63, die drei neu hinzugefügte entfernte Teilnehmer einschließen, wurde ebenfalls in einem Netz angeordnet, wo jeder Zone zwei visuelle Darstellungen zugewiesen wurden. Außerdem wurde die Größe der vorhandenen visuellen Darstellungen so angepasst, dass alle Darstellungen die gleiche Größe aufweisen.
  • Zusammen mit der Neuanordnung der visuellen Darstellungen gibt die Steuerung vier verschiedene virtuelle Tonquellen 65-68 aus, die in einer neuen Anordnung 64 liegen. Insbesondere wurden die virtuellen Tonquellen 65-68 in einem Netz ähnlich dem Netz der simulierten Bereiche 76-79 angeordnet. Gemäß einem Aspekt kann die Anordnung von virtuellen Tonquellenpositionen 64 proportional zur Anordnung der UI-Zonen 76-79 sein. Gemäß einem anderen Aspekt kann die virtuelle Tonquellenposition auf (oder benachbart zu) der jeweiligen UI-Zone sein. In diesem Fall kann jede virtuelle Tonquelle in einer Mitte ihrer jeweiligen Zone positioniert sein. Gemäß einem Gesichtspunkt kann die Anordnung von virtuellen Tonquellenpositionen 64 während der Kommunikationssitzung statisch sein, sodass entfernte Teilnehmer, die eine virtuelle Tonquelle teilen (z. B. entfernte Teilnehmer 74 und 75, die eine Tonquelle 68 teilen), die gleichen räumlichen Signale haben, wenn sie sprechen. Gemäß einem anderen Gesichtspunkt kann eine virtuelle Tonquellenposition der UI-Zone ihre Position dynamisch ändern, basierend darauf, welcher entfernte Teilnehmer innerhalb der Zone spricht. Zum Beispiel kann sich die virtuelle Tonquelle 68 horizontal bewegen, abhängig davon, ob der entfernte Teilnehmer 74 oder 75 spricht.
  • Gemäß einem Gesichtspunkt kann die Steuerung die visuellen Darstellungen bzw. die virtuellen Tonquellen unterschiedlich anordnen. Zum Beispiel kann die Steuerung unterschiedlich große Bereiche innerhalb der GUI definieren, wobei jeder Bereich einer oder mehreren virtuellen Tonquellen zugeordnet ist, die einen oder mehrere Eingangsaudioströme einschließen.
  • Wie bisher beschrieben, bestimmt die Steuerung räumliche Parameter basierend auf der Position der visuellen Darstellung innerhalb der GUI. Gemäß einem Gesichtspunkt kann die Steuerung Eingangsaudioströme, die nicht angezeigten (oder sichtbaren) visuellen Darstellungen innerhalb der GUI zugeordnet sind, räumlich rendern. Insbesondere kann der Video-Renderer eine oder mehrere visuelle Darstellungen, die gerenderten Eingangsaudioströme zugeordnet sind, nicht anzeigen. Zum Beispiel kann der Video-Renderer bestimmen, dass die GUI nicht genügend freien Platz aufweist, um das Anzeigen einer oder mehrerer zusätzlicher visueller Darstellungen (z. B. ohne Überbelegen der Anzeige) zu unterstützen. Als weiteres Beispiel kann die Kommunikationssitzung mehr entfernte Listenteilnehmer aufweisen, als im Listenbereich angezeigt werden kann. Bezugnehmend auf 3, schließt der Listenbereich zum Beispiel zwei visuelle Darstellungen 47 und 48 ein. Wenn jedoch mehrere weitere entfernte Teilnehmer hinzugefügt würden, würden die visuellen Darstellungen (in dieser Größe) nicht entlang der Breite der GUI passen. In noch einem anderen Beispiel kann der Video-Renderer keinen Eingangsaudiostrom von einer oder mehreren entfernten Vorrichtungen empfangen. In diesem Fall kann der räumliche Parametergenerator 25 eine Position einer virtuellen Tonquelle bestimmen, die keine zugehörige visuelle Darstellung einschließt, die von der GUI (bzw. auf der Seite anderer virtueller Tonquellen) entfernt (oder seitlich davon) positioniert werden kann. Wenn eine „unsichtbare“ virtuelle Tonquelle in der Anordnung 50 gerendert wird, kann, bezugnehmend auf 3, die Quelle rechts von der GUI 41 positioniert sein.
  • Wie hierin beschrieben, ist die (z. B. räumliche Audiosteuerung 20 der) Steuerung 10 konfiguriert, um räumliche Parameter zu bestimmen, die Positionen von virtuellen Tonquellen für einen oder mehrere Eingangsaudioströme basierend auf den visuellen Darstellungen, die in der GUI 41 angezeigt werden, anzeigen. Diese räumlichen Parameter können Schwenkwinkel einschließen, wie Azimut-Schwenkwinkel und Höhen-Schwenkwinkel in Bezug auf mindestens einen Referenzpunkt im Raum (z. B. eine Position des lokalen Benutzers oder des Kopfes des Benutzers), einen Abstand zwischen der virtuellen Tonquelle und dem Referenzpunkt und Nachhallpegel. 8 veranschaulicht Schwenkwinkel, die verwendet werden, um Eingangsaudioströme an ihren jeweiligen virtuellen Tonquellenpositionen in einem 3D-Tonfeld zu rendern. Insbesondere zeigt diese Figur die Anordnung von virtuellen Tonquellenpositionen 62, die der Anordnung von visuellen Darstellungen 61, wie in 7 veranschaulicht, entsprechen, gemeinsam mit Azimut- und Höhen-Schwenkwinkeln für jede Quelle und einem Abstand zwischen den Quellen und einem Referenzpunkt. Wie gezeigt, ist die Anordnung 62 durch Schwenkbereiche des einen oder der mehreren Lautsprecher begrenzt, die verwendet werden, um die virtuellen Quellen auszugeben. Insbesondere schließen diese Grenzen einen Azimut-Schwenkbereich, -φ - +ω, ein, der sich über die Breite der Anordnung entlang der X-Achse erstreckt, und der Höhen-Schwenkbereich, -φ - + β, erstreckt sich über die Höhe der Anordnung entlang der Y-Achse. Gemäß einem Gesichtspunkt können die Lautsprecher eine virtuelle Tonquelle überall innerhalb der begrenzten Bereiche erzeugen. Gemäß einigen Gesichtspunkten entsprechen die Grenzen der Anordnung Stellen der Lautsprecher. Zum Beispiel können diese Grenzen den Abmessungen der lokalen Vorrichtung entsprechen, wobei die lokale Vorrichtung dazu konfiguriert sein kann, virtuelle Tonquellen vor (z. B. dem Anzeigebildschirm) der Vorrichtung zu erzeugen. Insbesondere kann sich der Azimut-Schwenkbereich über eine Breite von (z. B. dem Anzeigebildschirm) der lokalen Vorrichtung erstrecken und der Höhen-Schwenkbereich kann sich über eine Höhe von (z. B. dem Anzeigebildschirm) der lokalen Vorrichtung erstrecken. Infolgedessen können sich die Positionen der virtuellen Tonquellen 54-56 auf (oder vor) ihren entsprechenden visuellen Darstellungen 44-46 befinden, wie hierin beschrieben wird. Gemäß einem anderen Gesichtspunkt kann die Steuerung diese Schwenkbereiche (von breiteren möglichen Schwenkbereichen) definieren, um die virtuellen Tonquellen innerhalb eines bestimmten Bereichs des Anzeigebildschirms der lokalen Vorrichtung zu positionieren.
  • Darüber hinaus veranschaulicht diese Figur die Schwenkwinkel in Bezug auf einen Referenzpunkt 99 im Raum (z. B. innerhalb der physischen Umgebung). Zum Beispiel schließt der Azimut-Schwenkbereich 100 Azimutwinkel der vier virtuellen Tonquellen 53-54 (oder jeweils L1-L4) relativ zu (oder an) dem Referenzpunkt 99 entlang der horizontalen X-Achse ein. Insbesondere ist der Referenzpunkt der Scheitelpunkt jedes Winkels und jeder Azimut-Schwenkwinkel erstreckt sich von einer o°-Referenzachse, der Z-Achse (oder z. B. in Richtung von entweder -φ oder +ω), entlang der horizontalen X-Achse. In ähnlicher Weise zeigt der Höhen-Schwenkbereich 101 jeden der Höhenwinkel für die vier virtuellen Tonquellen relativ zum Referenzpunkt entlang der vertikalen Y-Achse. Wie erwähnt ist der Referenzpunkt der Scheitelpunkt jedes Winkels und jeder Höhenwinkel erstreckt sich entlang der vertikalen Y-Achse weg von der o°-Referenzachse (oder z. B. in Richtung entweder -φ oder + β), entlang der vertikalen Y-Achse. Zusätzlich wird der Abstand (entlang der Z-Achse) zwischen dem Referenzpunkt und jeder der virtuellen Tonquellen als DL1-DL4 für die jeweils vier Quellen L1-L4 gezeigt. Somit werden die virtuellen Tonquellen, welche den räumlichen Parametern entsprechen, wenn sie räumlich gerendert werden, vom lokalen Benutzer so wahrgenommen, dass sie von dem Azimut, der Höhe und dem Abstand vom lokalen Benutzer stammen, um eine dreidimensionale (3D) räumliche Erfahrung bereitzustellen.
  • 9 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses 80 zum Bestimmen eines oder mehrerer räumlicher Parameter, die eine (3D-) Position angeben, an der ein Eingangsaudiostrom räumlich als eine virtuelle Tonquelle basierend auf einer Position einer jeweiligen visuellen Darstellung gemäß einem Gesichtspunkt gerendert werden soll. Gemäß einem Gesichtspunkt kann der räumliche Parametergenerator 25 der Steuerung 20 mindestens einige dieser Vorgänge ausführen, um räumliche Parameter für jeden Eingangsaudiostrom einer Kommunikationssitzung zu bestimmen. Dieser Vorgang wird unter Bezugnahme auf 10-11B beschrieben, wobei jede davon verschiedene Beispiele dazu veranschaulicht, wie Positionen von virtuellen Tonquellen zu entsprechenden visuellen Darstellungen abgebildet werden sollen.
  • Der Prozess 80 beginnt durch den Generator 25, wobei er einen Satz von Kommunikationssitzungsparametern eines Eingangsaudiostroms auswählt (bei Block 81). Zum Beispiel kann der Generator alle N Sätze vom Sitzungsmanager in einer Datenstruktur empfangen und kann den ersten Satz auswählen. Wie hierin beschrieben, können die Sitzungsparameter Informationen bezüglich der visuellen Darstellungen, wie ihrer Größe, ihrer Position, ihres Bedeutungswerts und zugehörigen VAD-Parametern einschließen. Der Generator bestimmt unter Verwendung des Satzes von Kommunikationssitzungsparametern eine Position einer visuellen Darstellung eines Eingangsaudiostroms, der dem Eingangsaudiostrom zugeordnet ist (bei Block 82). Zum Beispiel können die Sitzungsparameter Positionsinformationen (z. B. X-, Y-Koordinaten) der visuellen Darstellung in Bezug auf die GUI bzw. in Bezug auf den Anzeigebildschirm, auf dem die GUI angezeigt wird, einschließen. Der Generator bestimmt einen oder mehrere Schwenkbereiche (z. B. einen Azimut-Schwenkbereich, einen Höhen-Schwenkbereich usw.) eines oder mehrerer Lautsprecher (bei Block 83). Insbesondere können diese Winkelbereiche dem maximalen (oder minimalen) Bereich entsprechen, an dem eine virtuelle Tonquelle (z. B. optimale) Stellen innerhalb des Raums wie Azimut-Schwenkbereiche -φ - +ω und Höhen-Schwenkbereiche -φ - +β, wie in 8 gezeigt, sein kann. Gemäß einem Gesichtspunkt können die Schwenkbereiche auf der physischen Stelle bzw. Ausrichtung der Lautsprecher (bzw. der Vorrichtung, in der die Lautsprecher untergebracht sind) basieren. Zum Beispiel können (z. B. wenn die Lautsprecher innerhalb der lokalen Vorrichtung integriert sind) die Schwenkbereiche auf der Ausrichtung der Vorrichtung basieren. Wenn sich die lokale Vorrichtung zum Beispiel in einer Hochformat-Ausrichtung befindet (z. B. wie in 3 veranschaulicht), können die Lautsprecher der Vorrichtung einen schmalen Azimut-Schwenkbereich aufweisen, der sich entlang der Breite der Vorrichtung erstreckt, während, wenn sich die lokale Vorrichtung in einer Querformat-Ausrichtung befindet (z. B. wie in 7 veranschaulicht), die Lautsprecher der Vorrichtung einen breiteren Azimut-Schwenkbereich aufweisen können, der sich entlang der Breite der Vorrichtung (z. B. relativ zu einem Referenzpunkt im Raum) erstreckt. Somit kann der Generator die Ausrichtung der Lautsprecher (z. B. der lokalen Vorrichtung, welche die Lautsprecher unterbringt) bestimmen und basierend auf der Ausrichtung den Azimut-Schwenkbereich bestimmen (der sich z. B. entlang einer horizontalen X-Achse erstreckt) und einen Höhen-Schwenkbereich (der sich z. B. entlang einer vertikalen Y-Achse erstreckt) bestimmen. Zum Beispiel kann der Generator beim Bestimmen der Ausrichtung (z. B. basierend auf IMU-Daten von der IMU 16) eine Tabellensuche in einer Datenstruktur ausführen, die vordefinierte Schwenkbereiche speichert, die einer oder mehreren Ausrichtungen der Vorrichtung zugeordnet sind. Mehr über das Bestimmen von Schwenkbereichen basierend auf der Ausrichtung der Vorrichtung wird in 12 und 13 beschrieben. Der Generator bestimmt räumliche Parameter (z. B. einen Azimutwinkel und einen Höhenwinkel), die eine Position einer virtuellen Tonquelle (z. B. in Bezug auf einen Referenzpunkt im Raum) innerhalb des einen oder der mehreren Schwenkbereiche für den Eingangsaudiostrom basierend auf der bestimmten Position der visuellen Darstellung innerhalb der GUI angeben (bei Block 84).
  • Zum Beispiel kann der Generator ein oder mehrere Verfahren ausführen, um die räumlichen Parameter für jede virtuelle Tonquelle zu bestimmen. So können räumliche Parameter basierend auf der physischen Stelle des lokalen Benutzers in Bezug auf die Ausrichtung (oder Stelle) der lokalen Vorrichtung bestimmt werden. Zum Beispiel kann der Generator Sensordaten verwenden (z. B. Bilddaten, die von der Kamera 15 erfasst werden), um die Stelle bzw. Ausrichtung des lokalen Benutzers (z. B. des Kopfes des lokalen Benutzers) in Bezug auf den Anzeigebildschirm zu bestimmen. Der Generator kann mindestens einen Azimutwinkel und einen Höhenwinkel vom lokalen Benutzer zu jeder visuellen Darstellung bestimmen, die auf der GUI der lokalen Vorrichtung angezeigt wird.
  • In einem anderen Aspekt kann der Generator räumliche Parameter durch lineares Abbilden von Winkeln basierend auf den Positionen visueller Darstellungen relativ zur Größe der GUI innerhalb des Anzeigebildschirms bestimmen. Bezugnehmend auf 10 kann der Generator zum Beispiel die räumlichen Parameter bestimmen, indem eine oder mehrere Funktionen verwendet werden, um Positionen visueller Darstellungen abzubilden, in denen die Eingangsaudioströme gemäß einem Gesichtspunkt gerendert werden sollen. Insbesondere kann der Generator Positionen von virtuellen Tonquellen basierend auf Positionen von visuellen Darstellungen abbilden, die in der GUI in Bezug auf Abmessungen der GUI angezeigt werden. Diese Abbildung zeigt die GUI 41 der Kommunikationssitzung (auf dem Anzeigebildschirm der lokalen Vorrichtung angezeigt), die zwei visuelle Darstellungen 44 und 45 einschließt, die jeweils einen entfernten Teilnehmer aufweisen, mit dem der lokale Benutzer an der Sitzung beteiligt ist. Die GUI weist eine Breite, X, entlang der X-Achse auf und weist eine Höhe, Y, entlang der Y-Achse auf. Gemäß einem Gesichtspunkt können die Abmessungen der GUI auf der Größe der GUI basieren, die auf dem Anzeigebildschirm (oder in Bezug auf den Anzeigebildschirm) angezeigt wird. Gemäß einem Gesichtspunkt würden, wenn die GUI den gesamten Anzeigebildschirm abdeckt, die Abmessungen der GUI gleich der des Anzeigebildschirms sein. Auf jeder visuellen Darstellung ist ein simulierter Mittelpunkt der Darstellungen dargestellt, der die Position (z. B. X-, Y-Koordinaten) der Darstellung innerhalb der GUI darstellt. Zum Beispiel ist die Position der Darstellung 44, L1, (XL1, YL1) und die Position der Darstellung 45, L2, ist (XL2, YL2). Gemäß einem anderen Gesichtspunkt können andere Positionen definiert werden. Zum Beispiel kann der simulierte Punkt über einem bestimmten Abschnitt einer visuellen Darstellung positioniert sein, wie einem Abschnitt, der einen Mund des entfernten Teilnehmers anzeigt (der unter Verwendung eines Objekterkennungsalgorithmus identifiziert werden kann).
  • Gemäß einem Gesichtspunkt sind die Funktionen, die verwendet werden, um die Positionen der (z. B. Schwenkwinkel der) virtuellen Tonquellen zu den visuellen Darstellungen abzubilden, lineare Funktionen von Schwenkwinkeln in Bezug auf die Abmessungen der GUI. Zum Beispiel ist die Azimutfunktion 111 eine lineare Funktion des Azimut-Schwenkbereichs - θ - +ω in Bezug auf eine fraktionelle Beziehung zwischen X-Positionen und der Gesamtbreite, X, der GUI. Somit beginnt der Azimut-Schwenkbereich von der linken Seite der GUI (z. B. wo X = o) und endet auf der rechten Seite der GUI. Die Höhenfunktion 113 ist eine lineare Funktion des Höhen-Schwenkbereichs -φ - +β in Bezug auf einen fraktionellen Zusammenhang zwischen Y-Positionen und der Gesamthöhe, Y, der GUI. Somit beginnt der Höhen-Schwenkbereich von der Unterseite der GUI (z. B. wo Y=0) und endet an einer Oberseite der GUI. Diese Beziehungen zwischen Schwenkbereichen und Abmessungen der GUI ermöglichen es dem Generator, Positionen relativ zur GUI, unabhängig von der Größe der GUI bzw. unabhängig von der Größe des Schwenkbereichs, abzubilden.
  • Um die Schwenkwinkel der visuellen Darstellungen zu bestimmen, kann der Generator fraktionelle Beziehungen der Stellen der visuellen Darstellungen als Eingabe in eine oder beide der linearen Funktionen anwenden. Zum Beispiel kann der Generator zum Bestimmen eines Azimutwinkels für eine virtuelle Tonquelle eine x-Koordinate einer Position einer visuellen Darstellung innerhalb der GUI als Eingabe in eine Funktion des Azimut-Schwenkbereichs verwenden. Insbesondere werden, wie gezeigt, fraktionelle Positionsbeziehungen der visuellen Darstellungen (XL1/X und XL2/X) auf Azimut-Schwenkwinkel abgebildet, welche die lineare Funktion bei XL1/X und XL2/X, wie in 111 gezeigt, schneiden. Die resultierende Abbildung dieser fraktionellen Beziehungen zu Azimutwinkeln wird durch den Azimut-Schwenkbereich 112 veranschaulicht, der den Azimutwinkel für L1, -θL1 und für L2, +ωL2 am Referenzpunkt 99 zeigt. In ähnlicher Weise kann der Generator zum Bestimmen eines Höhen-Schwenkwinkels für eine virtuelle Tonquelle eine y-Koordinate einer Position der visuellen Darstellung als Eingabe in eine (z. B. separate) Funktion des Höhen-Schwenkbereichs verwenden. Insbesondere werden fraktionelle Positionsbeziehungen der visuellen Darstellungen (YL,/Y und YL2/Y) auf Höhen-Schwenkwinkel abgebildet, welche die lineare Funktion 113 bei YL1/Y und YL2/Y schneiden. Die resultierende Abbildung dieser fraktionellen Beziehungen zu Höhenwinkeln wird durch den Höhen-Schwenkbereich 114 veranschaulicht, der eine Seitenansicht der Höhenwinkel für L1, -φL1, und für L2, + βL2 am Referenzpunkt zeigt.
  • Gemäß einem anderen Gesichtspunkt können die räumlichen Parameter basierend auf Betrachtungswinkeln einer (vordefinierten) Stelle des lokalen Benutzers bestimmt werden (z. B. wobei der Benutzer oder ein Referenzpunkt im Raum ein Scheitelpunkt ist, von dem die Winkel bestimmt werden). 11A und 11B zeigen ein Beispiel zum Bestimmen von räumlichen Parametern durch Verwenden einer oder mehrerer Funktionen zum Abbilden von Positionen von Betrachtungswinkeln visueller Darstellungen auf Schwenkwinkeln, bei denen Eingangsaudioströme gemäß einem Gesichtspunkt gerendert werden sollen. Insbesondere kann der Generator Positionen visueller Darstellungen als Betrachtungswinkel an einem Referenzpunkt auf einen oder mehrere Schwenkwinkel eines oder mehrerer Schwenkbereiche abbilden. Bezugnehmend auf 11A, zeigt diese Figur die GUI 41, die beide visuellen Darstellungen 44 und 45, wie in 9 gezeigt, einschließt. Anstatt jedoch die fraktionelle Beziehung zwischen den Positionen der visuellen Darstellung und der Gesamtbreite/Höhe der GUI zu bestimmen, bestimmt der Generator geschätzte Betrachtungswinkel der GUI von einem Referenzpunkt 69 (z. B. an einem vordefinierten Ort im Raum). Zum Beispiel weist die GUI einen geschätzten Azimut-Betrachtungsbereich 115 zwischen -θ' - +ω' auf, der sich über die Breite, W', der GUI und entlang der X-Achse erstreckt. Der geschätzte Azimut-Betrachtungsbereich wird als eine Draufsicht gezeigt, in welcher der Referenzpunkt 69 in einem Abstand, D', vor der GUI (oder dem Anzeigebildschirm) von der GUI (oder dem Anzeigebildschirm) liegt, wobei die GUI eine Breite W' aufweist. Gemäß einem Gesichtspunkt ist der geschätzte Azimut-Betrachtungsbereich ein vorbestimmter Betrachtungsbereich des lokalen Benutzers, da der Benutzer auf den Anzeigebildschirm blickt, während er die GUI anzeigt. Gemäß einigen Gesichtspunkten, können W, D' bzw. die Position des Referenzpunkts, zum Beispiel, D', die optimale Betrachtungsposition für den lokalen Benutzer sein. Gemäß einem anderen Aspekt können diese Abmessungen durch den Generator bestimmt werden. Zum Beispiel kann der Generator Sensordaten von einem oder mehreren Sensoren (z. B. Bilddaten von der Kamera 15, Näherungssensordaten usw.) erhalten, und aus den Sensordaten den Abstand, in dem der lokale Benutzer positioniert ist, bestimmen. In Bezug auf die Breite kann der Generator die Breite der GUI bestimmen, die aktuell auf dem Anzeigebildschirm angezeigt wird. In Kenntnis von D', W' und der Position des Referenzpunkts bestimmt der Generator den Azimut-Betrachtungswinkel für L1 als -θL1 und den Azimut-Betrachtungswinkel für L2 als +ω'L2, wobei diese Winkel von ihren jeweiligen visuellen Darstellungen auf der GUI zum Referenzpunkt abweichen.
  • Um die (tatsächlichen) Azimut-Schwenkwinkel zu bestimmen, kann der Generator die Betrachtungswinkel als Eingabe für eine oder mehrere lineare Funktionen anwenden. Zum Beispiel zeigt diese Figur eine Azimutfunktion 116, die eine lineare Funktion des Azimut-Schwenkbereichs -θ - +ω in Bezug auf den geschätzten Azimut-Betrachtungsbereich -θ'- +ω' ist. Der Generator bildet die Betrachtungswinkel -θ'L1 und +ω'L2 zu den tatsächlichen Azimutwinkeln, welche die lineare Funktion schneiden, ab. Die Abbildung davon wird durch den Azimut-Schwenkbereich 117 veranschaulicht, der -θL1 und +ωL2 am Referenzpunkt 99 zeigt. Gemäß einem Gesichtspunkt kann der Referenzpunkt 99 derselbe wie der Referenzpunkt 69 sein (z. B. in der gleichen Position im Raum in Bezug auf die lokale Vorrichtung).
  • Bezugnehmend auf 11B, bezieht sich diese Figur auf das Bestimmen der Höhen-Schwenkwinkel basierend auf geschätzten Höhen-Betrachtungswinkeln aus dem Referenzpunkt 69. Insbesondere kann die Steuerung ähnliche Vorgänge ausführen, wie in 11A beschrieben, um die Höhen-Schwenkwinkel zu bestimmen. Wie gezeigt erstreckt sich der geschätzte Höhen-Betrachtungsbereich 118 zum Beispiel zwischen -φ' - +β' über die Höhe, H', der GUI und entlang der Y-Achse. Insbesondere ist dieser Betrachtungsbereich eine Seitenansicht der GUI (oder Anzeigebildschirms) und des Referenzpunkts 69, der sich in dem (vordefinierten) Abstand, D', befindet. Gemäß einem Gesichtspunkt kann H' eine vordefinierte Höhe für die GUI sein oder kann die aktuelle Höhe der GUI in Bezug auf den Anzeigebildschirm sein. Vom Referenzpunkt aus bestimmt der Generator den Höhen-Betrachtungswinkel für L1 als +β'L1 und den Höhen-Betrachtungswinkel für L2 als -φ'L2. Zum Bestimmen der tatsächlichen Höhenwinkel wendet der Generator die Höhen-Betrachtungswinkel als Eingabe für die Höhenfunktion 119 des Höhen-Schwenkbereichs -φ - +β in Bezug auf den Höhen-Betrachtungsbereich -φ' - + β' an. Der Generator bildet die Betrachtungswinkel +β'L1 und -cp'L2 auf die tatsächlichen Höhenwinkel, welche die Funktion 119 schneiden, ab. Die Abbildung davon wird durch den Höhen-Schwenkbereich 120 veranschaulicht. Gemäß einem Gesichtspunkt kann der Generator jedes Verfahren ausführen, das in 10-11B beschrieben wird, um die Positionen der visuellen Darstellungen an Positionen der virtuellen Tonquellen abzubilden.
  • Zusätzlich kann der Generator andere räumliche Parameter bestimmen, wie beispielsweise Abstände zwischen virtuellen Tonquellen und dem Referenzpunkt basierend auf den Kommunikationssitzungsparametern. Wie hierin beschrieben, kann der Abstand zwischen einer virtuellen Tonquelle und dem lokalen Benutzer auf der Größe bzw. der Position der visuellen Darstellungen basieren. Zum Beispiel kann der Generator ähnlich einem physischen Gespräch, bei dem Personen in der Nähe lauter als weiter entfernte Personen sind, einen kürzeren Abstand zu visuellen Darstellungen zuweisen, die größer als ein Abstand für eine visuelle Darstellung sind, die kleiner ist. Gemäß einem Gesichtspunkt kann der Abstand auf der Stelle der visuellen Darstellungen innerhalb der GUI basieren. Zum Beispiel können visuelle Darstellungen, die innerhalb des Canvas-Bereichs (z. B. entlang der Y-Achse) höher sind, einen kürzeren Abstand als visuelle Darstellungen aufweisen, die an der Y-Achse weiter unten sind. Gemäß einigen Gesichtspunkten können visuelle Darstellungen, die sich innerhalb der Liste befinden, dem am weitesten entfernten Abstand in Bezug auf alle der visuellen Canvas-Darstellungen zugewiesen werden. Gemäß einem anderen Gesichtspunkt kann der Abstand auch auf VAD-Parametern basieren. Zum Beispiel können entfernten Teilnehmern, die VAD-Parametern zugeordnet sind, die einen hohen Signalenergiepegel (z. B. über einem Schwellenwert) angeben, einem sich näher befindlichen Abstand als entfernten Teilnehmern mit niedrigeren VAD-Parametern zugewiesen werden. Gemäß einigen Gesichtspunkten kann der Generator Hallwerte für jeden der Eingangsaudioströme basierend auf den gleichen Kriterien definieren, wie vorstehend erwähnt wurde. Zum Beispiel kann entfernten Teilnehmern innerhalb des Listenbereichs ein hoher Hallwert zugewiesen werden, um für den lokalen Benutzer diffuser zu klingen.
  • Wie hierin beschrieben, kann die Steuerung die Verwendung einer oder mehrerer linearer Funktionen anwenden, um Schwenkwinkel zu bestimmen. Gemäß einigen Gesichtspunkten können eine oder mehrere der Funktionen allgemeinere nicht-lineare oder stückweise lineare Funktionen von Schwenkwinkeln sein (z. B. in Bezug auf fraktionelle Beziehungen bzw. Betrachtungsschwenkwinkel, wie hierin beschrieben).
  • Bezugnehmend auf 9, bestimmt die Steuerung, ob zusätzliche Sätze von Kommunikationssitzungsparametern vorhanden sind, von denen ein oder mehrere räumliche Parameter noch nicht bestimmt wurden (bei Entscheidungsblock 85). Wenn ja, wählt die Steuerung einen anderen Satz von Kommunikationssitzungsparametern eines anderen Eingangsaudiostroms aus, der nicht zum Bestimmen eines oder mehrerer räumlicher Parameter analysiert wurde. Andernfalls bestimmt die Steuerung, ob alle Eingangsaudioströme als eine Mischung ausgegeben werden sollen (bei Entscheidungsblock 87). Zum Beispiel kann die Steuerung bestimmen, ob jeder der Eingangsaudioströme entfernten Teilnehmern, die sich im Listenbereich befinden, zugeordnet ist. Gemäß einigen Gesichtspunkten kann diese Bestimmung darauf basieren, ob der Selektor 27 einen oder mehrere Eingangsaudioströme einem einzelnen Ausgangsaudiostrom zugewiesen hat (z. B. was der Fall sein kann, wenn keine individuellen Ausgangsaudioströme für entfernte Canvas-Teilnehmer mehr vorhanden sind, um individuelle virtuelle Tonquellen aufzuweisen). Gemäß einem anderen Gesichtspunkt kann diese Bestimmung auf dem Ausgangsaudiostrom basieren, dem die Eingangsaudioströme zugewiesen wurden, wie hierin beschrieben wird. Wenn dies der Fall, bestimmt die Steuerung für die Eingangsaudioströme, die als eine Mischung gerendert werden sollen, neue (oder andere) räumliche Parameter, die eine bestimmte Position basierend auf mindestens einigen der räumlichen Parameter der Eingangsaudioströme der Mischung angeben (bei Block 87). Wie hierin beschrieben, soll die Steuerung die Mischung räumlich rendern, um die einzelne virtuelle Tonquelle, welche die Mischung einschließt, auszugeben. Somit bestimmt die Steuerung einen Satz von räumlichen Parametern für den einzelnen virtuellen Ton, der auf mindestens einigen der bestimmten räumlichen Parameter basieren kann. Zum Beispiel können die neuen räumlichen Parameter eine gewichtete Kombination von mindestens einigen der räumlichen Parameter sein. In diesem Fall kann die einzelne virtuelle Tonquelle in der Mitte simulierter virtueller Tonquellen positioniert sein, die andernfalls erzeugt würden, wenn jeder der Eingangsaudioströme als individuelle virtuelle Audioströme, die an Positionen basierend auf ihren jeweiligen visuellen Darstellungen innerhalb des Listenbereichs abgebildet werden sollten, räumlich gerendert würde. Gemäß einem anderen Gesichtspunkt können die bestimmten räumlichen Parameter anstelle neuer räumlicher Parameter auf einem Satz von bestimmten Daten basieren. Gemäß einem anderen Gesichtspunkt basieren die räumlichen Parameter möglicherweise nicht auf den bestimmten Daten, sondern die räumlichen Parameter können einer bestimmten Position im Raum zugeordnet sein. Zum Beispiel können die räumlichen Parameter einen Azimutwinkel und einen Höhenwinkel angeben, die beide bei o° liegen, sodass sich das räumliche Audio der Liste rechts vor dem lokalen Benutzer befindet.
  • Gemäß einigen Gesichtspunkten kann die Steuerung die räumlichen Parameter für die Mischung von Eingangsaudioströmen unterschiedlich bestimmen. Anstatt beispielsweise die räumlichen Parameter aus den individuell bestimmten räumlichen Parametern zu bestimmen, kann die Steuerung Kommunikationssitzungsparameter (z. B. Positionen/Größen visueller Darstellungen, Abstände, VAD-Parameter, Bedeutungswert usw.) für mindestens einige der Eingangsaudioströme der Mischung kombinieren. Zum Beispiel kann die Steuerung einen Durchschnitt von mindestens einigen der Parameter bestimmen. Sobald die kombinierten (oder verbundenen) Kommunikationssitzungsparameter bestimmt werden, kann die Steuerung die räumlichen Parameter bestimmen, wie hierin beschrieben wird.
  • Sobald die Steuerung die räumlichen Parameter bestimmt, werden die Eingangsaudioströme gemäß den Daten verräumlicht, um eine oder mehrere virtuelle Tonquellen auszugeben, von denen jede einen oder mehrere Eingangsaudioströme einschließt, wie hierin beschrieben wird.
  • Gemäß einem Gesichtspunkt können sich die Positionen virtueller Tonquellen basierend auf einem oder mehreren Kriterien ändern. Zum Beispiel werden, wie hierin beschrieben, zum räumlichen Rendern eines Eingangsaudiostrom räumliche Parameter bestimmt, welche die Position der resultierenden virtuellen Tonquelle angeben. Die bestimmten räumlichen Parameter können vom Schwenkbereich der lokalen Vorrichtung, wie hierin beschrieben, abhängig sein. Infolgedessen kann die lokale Vorrichtung, wenn Änderungen an den Schwenkbereichen auftreten, virtuelle Tonquellen anpassen, die derzeit ausgegeben werden, um die Änderung aufzunehmen. Zum Beispiel können sich Schwenkbereiche als Ergebnis der lokalen Vorrichtung ändern. Als weiteres Beispiel können Schwenkbereiche auf einem Seitenverhältnis der GUI der Kommunikationssitzung basieren, die auf dem Anzeigebildschirm der lokalen Vorrichtung angezeigt wird. Die folgenden Figuren beschreiben das Anpassen der virtuellen Tonquellen basierend auf Änderungen an Schwenkbereichen der lokalen Vorrichtung.
  • 12 zeigt mehrere Stufen 130 und 131, in denen Schwenkbereiche eines oder mehrerer Lautsprecher basierend auf der lokalen Vorrichtung, die sich von einer Hochformat-Ausrichtung in eine Querformat-Ausrichtung dreht, angepasst werden. Zum Beispiel zeigt jede Stufe die GUI 41 der lokalen Vorrichtung 2, während sie an einer Kommunikationssitzung beteiligt ist, und eine entsprechende Anordnung von virtuellen Tonquellenpositionen, wobei jede Anordnung mehrere Schwenkwinkelbereiche zeigt. Insbesondere zeigt jede Stufe den Azimut-Schwenkbereich -θ - +ω entlang der X-Achse und den Höhen-Schwenkbereich -φ - + β entlang der Y-Achse. Wie hierin beschrieben, können sich einer oder mehrere der Bereiche basierend auf der Ausrichtung der Vorrichtung ändern.
  • Die erste Stufe 130 zeigt die lokale Vorrichtung, die in einer Hochformat-Ausrichtung ausgerichtet ist, wobei die Höhe entlang der Y-Achse größer ist als die Breite entlang der X-Achse. Ebenfalls dargestellt ist die Anordnung von virtuellen Tonquellenpositionen 50, die vier virtuelle Tonquellen 53-56 zeigen. Insbesondere wird, wie hierin beschrieben, für jede der Quellen 54-56 die lokale Vorrichtung einen Eingangsaudiostrom als virtuelle Quelle an einer Position innerhalb der Anordnung von Positionen 50 in Bezug auf einen Referenzpunkt, der außerhalb von der lokalen Vorrichtung ist, ausgegeben (z. B. ein Punkt, an dem sich der lokale Benutzer befindet, oder ein vordefinierter Punkt, wie hierin beschrieben). Darüber hinaus wird die lokale Vorrichtung als einzelne virtuelle Tonquelle 53 eine Mischung von Eingangsaudioströmen ausgeben. Zusätzlich zur Darstellung der Positionen virtueller Tonquellen zeigt die Anordnung 50 auch die Schwenkbereiche für die lokale Vorrichtung, während sie sich in dieser Hochformat-Ausrichtung befindet. Insbesondere ist der Azimut-Schwenkbereich -θP - +ωP und der Höhen-Schwenkbereich -φP -+βP.
  • Die zweite Stufe 131 zeigt das Ergebnis der lokalen Vorrichtung um 90° um die Z-Achse herum. Insbesondere hat sich die lokale Vorrichtung in eine Querformat-Ausrichtung gedreht, wobei die Breite entlang der X-Achse größer als die Höhe entlang der Y-Achse ist. Darüber hinaus haben sich auch die Schwenkbereiche der lokalen Vorrichtung geändert. Wie gezeigt, ist der Azimut-Schwenkbereich -θL - +ωL2 ist breiter (z. B. mit einem größeren Bereich) als -θL - +ωP, und der Höhenbereich ist -φL - +βL, was schmaler (z. B. mit einem reduzierten Bereich) als -φP - +βP ist. Gemäß einem Gesichtspunkt können die Änderungen der Schwenkbereiche auf den Komponenten oder dem Design der lokalen Vorrichtung basieren. Zum Beispiel können die Schwenkbereiche basierend auf der Anzahl bzw. Stelle der Lautsprecher der lokalen Vorrichtung definiert werden. Wenn sich die Vorrichtung in eine neue Ausrichtung dreht, können sich die Schwenkbereiche ebenfalls drehen. Gemäß einem anderen Gesichtspunkt können die Schwenkbereiche durch die Steuerung definiert werden und können durch die Steuerung als Reaktion auf das Bestimmen, dass sich die Ausrichtung der lokalen Vorrichtung geändert hat, angepasst werden. Zum Beispiel kann die Steuerung beim Bestimmen, dass sich die Vorrichtung nun in einer Querformat-Ausrichtung befindet, Schwenkbereiche für diese Ausrichtung bestimmen (z. B. durch Ausführen einer Tabellensuche in einer Datenstruktur, die einen oder mehreren Schwenkbereichen Ausrichtungen zuordnet), und dann die bestimmten Schwenkbereiche für das räumliche Rendern verwenden, wie hierin beschrieben wird.
  • Zusätzlich werden als Reaktion darauf, dass sich die Ausrichtung der lokalen Vorrichtung auf die neue Querformat-Ausrichtung ändert, eine oder mehrere Positionen von virtuellen Tonquellen entlang einer oder mehrerer Achsen in Bezug auf einen Referenzpunkt angepasst. Insbesondere befinden sich aufgrund der Drehung der lokalen Vorrichtung die virtuellen Tonstellen in der Anordnung 62. Wie hierin beschrieben, wurden die Positionen der virtuellen Tonquellen so angepasst, dass sie entlang der X-Achse breiter verteilt sind und entlang der Y-Achse schmaler sind, verglichen mit den virtuellen Tonquellen, während sie in der Anordnung 50 waren, als die lokale Vorrichtung in der Hochformat-Ausrichtung war. Infolgedessen kann der lokale Benutzer virtuelle Tonquellen basierend auf der Ausrichtung der lokalen Vorrichtung unterschiedlich wahrnehmen.
  • 13 ist ein Flussdiagramm eines Gesichtspunktes eines Prozesses 140 zum Anpassen von Positionen einer oder mehrerer virtueller Tonquellen basierend auf Änderungen an einem oder mehreren Schwenkbereichen eines oder mehrerer Lautsprecher basierend auf einer Änderung einer Ausrichtung der lokalen Vorrichtung. Gemäß einem Gesichtspunkt wird dieser Prozess unter Bezugnahme auf 12 beschrieben. Der Prozess 140 beginnt damit, dass die Steuerung 10 der lokalen Vorrichtung 2 einen oder mehrere Eingangsaudioströme (und einen oder mehrere Eingangsvideoströme) von einer oder mehreren entfernten Vorrichtungen empfängt, mit denen die lokale Vorrichtung an einer (Video-) Kommunikationssitzung beteiligt ist (bei Block 141). Die Steuerung bestimmt eine erste Ausrichtung der lokalen Vorrichtung (bei Block 142). Zum Beispiel kann die Steuerung 10 die Ausrichtung der Vorrichtung basierend auf Sensordaten, wie IMU-Daten von der IMU 16, bestimmen. Gemäß einem Gesichtspunkt können die IMU-Daten angeben, dass sich die lokale Vorrichtung in einer Hochformat-Ausrichtung befindet, wie in der ersten Stufe 130 in 12 veranschaulicht wird. Die Steuerung bestimmt einen oder mehrere Schwenkbereiche des einen oder der mehreren Lautsprecher der lokalen Vorrichtung (die mit ihr oder einem Teil kommunikativ gekoppelt sind) (bei Block 143). Wie hierin beschrieben, kann die Steuerung eine Tabellensuche in einer Datenstruktur ausführen, die Ausrichtungen bzw. Stellen der Lautsprecher bzw. der lokalen Vorrichtung einem oder mehreren Schwenkbereichen zuordnet. Als Reaktion darauf kann die Steuerung den Azimut-Schwenkbereich (z. B. den horizontalen Schwenkbereich), während sich die Vorrichtung in der Hochformat-Ausrichtung befindet, als -θP - +ωP und den Höhen-Schwenkbereich (z. B. den vertikalen Schwenkbereich) als -φP - +βP bestimmen. Die Steuerung bestimmt für jeden Eingangsaudiostrom einen oder mehrere räumliche Parameter, die eine Position für eine virtuelle Tonquelle innerhalb des bestimmten einen oder der mehreren Schwenkbereiche angeben, die den Eingangsaudiostrom einschließen, und die Ströme als virtuelle Tonquellen an einer oder mehreren Positionen innerhalb der bestimmten Schwenkbereiche räumlich rendert (bei Block 144). Zum Beispiel kann die Steuerung mindestens einige der im Prozess 80 von 9 beschriebenen Vorgänge ausführen, um Eingangsaudioströme als eine oder mehrere individuelle virtuelle Tonquellen räumlich zu rendern bzw. eine Mischung eines oder mehrerer Ströme als eine einzelne virtuelle Tonquelle räumlich zu rendern.
  • Die Steuerung bestimmt, ob die lokale Vorrichtung Ausrichtungen geändert hat (z. B. bei Entscheidungsblock 145). Insbesondere kann die Steuerung basierend auf IMU-Daten, wie hierin beschrieben, bestimmen, ob sich die Ausrichtung geändert hat (z. B. von der Hochformat-Ausrichtung zu einer Querformat-Ausrichtung). Wenn dies der Fall ist, bestimmt die Steuerung einen oder mehrere angepasste Schwenkbereiche des einen oder der mehreren Lautsprecher basierend auf der geänderten Ausrichtung (bei Block 146). Bezugnehmend auf 12, entsprechen zum Beispiel die angepassten Schwenkbereiche der lokalen Vorrichtung, die sich in der Querformat-Ausrichtung befindet. Die Steuerung passt dann eine oder mehrere Positionen der virtuellen Tonquellen basierend auf den angepassten Schwenkbereichen an (bei Block 147). Zum Beispiel kann die Steuerung den Azimutwinkel bzw. Höhenwinkel einer virtuellen Tonquelle in Bezug auf einen Referenzpunkt anpassen. Zum Beispiel, wie in 12 veranschaulicht, erweitert sich der Azimutwinkel der virtuellen Tonquelle 54, als Reaktion darauf, dass sich die lokale Vorrichtung in das Querformat dreht, näher zur unteren Grenze, -θL, von ihrer Azimutposition, während sich die lokale Vorrichtung im Hochformat befindet. Gemäß einem Gesichtspunkt kann die Steuerung die Vorgänge von Prozess 80 ausführen, um die Positionen anzupassen. Als Reaktion auf das Ausführen der Vorgänge basierend darauf, dass sich die lokale Vorrichtung in eine Querformat-Ausrichtung dreht, erstrecken sich die virtuellen Tonquellenpositionen 62 in 12 zum Beispiel weiter entlang des Azimut-Schwenkbereichs und schmaler entlang des Höhen-Schwenkbereichs. Gemäß einem anderen Gesichtspunkt kann die Steuerung die Positionen anpassen, ohne dass neue räumliche Parameter bestimmt werden müssen, wie in Prozess 80 beschrieben wird. Zum Beispiel kann die Steuerung die virtuellen Tonquellenpositionen durch Drehen der Positionen basierend auf der Drehung der Vorrichtung anpassen. Zum Beispiel kann die Steuerung die virtuellen Tonquellenpositionen um 90° drehen, als Reaktion auf das Bestimmen, dass die lokale Vorrichtung von Hochformat in Querformat gedreht wurde.
  • Gemäß einem anderen Gesichtspunkt kann die Steuerung Positionen basierend auf Differenzen von Schwenkwinkeln zwischen zwei oder mehr Ausrichtungen anpassen. Zum Beispiel kann die Steuerung Positionen proportional zu Differenzen zwischen dem Schwenkwinkel der ersten Ausrichtung und dem Schwenkwinkel der zweiten Ausrichtung anpassen. Bezugnehmend auf 12, kann der Azimut-Schwenkwinkel zum Beispiel von Hochformat zu Querformat um 50 % ansteigen, während die Höhe um 50 % abnehmen kann. Somit können sich die Azimut- und Höhenwinkel zum Anpassen der Positionen proportional in Bezug auf der Differenz zwischen ihren jeweiligen Schwenkbereichen der beiden Ausrichtungen ändern.
  • Gemäß einem Gesichtspunkt können die Positionen der virtuellen Tonquellen in ihren gleichen Positionen (z. B. auf dem Anzeigebildschirm) in Bezug auf die GUI verbleiben, wenn sich die lokale Vorrichtung dreht. Bezugnehmend auf 12, können die Stellen der virtuellen Tonquellen in Bezug auf die gedrehte lokale Vorrichtung gleich bleiben, sodass die virtuellen Tonquellen gemeinsam mit der lokalen Vorrichtung gedreht werden, obwohl sich die Stellen der virtuellen Tonquellen in Bezug auf die Schwenkbereiche geändert haben. Somit kann der lokale Benutzer, wenn sich die Vorrichtung dreht, die virtuelle Tonquelle wahrnehmen, um ihre Position in Bezug auf den Anzeigebildschirm beizubehalten, sodass sich sowohl die visuelle Darstellung als auch ihre zugehörige virtuelle Tonquelle zusammen bewegen.
  • Gemäß einem anderen Gesichtspunkt können sich die virtuellen Tonquellen zurück zu ihren ursprünglichen Positionen bewegen, sobald sich die lokale Vorrichtung in die entgegengesetzte Richtung dreht. Wenn beispielsweise der lokale Benutzer die lokale Vorrichtung um -90° dreht, können die virtuellen Tonquellen zu ihren ursprünglichen Positionen zurückkehren, wie in der ersten Stufe 130 von 12 gezeigt wird.
  • Gemäß einem Gesichtspunkt können Schwenkbereiche an Rändern eines Anzeigebildschirms angebracht sein (oder ihnen entsprechen) und solche Schwenkbereiche werden dann im GUI-Fenster innerhalb des Bildschirms unter Berücksichtigung einer maximal vergrößerten Version des GUI-Fensters, welches möglichst viel vom Bildschirm füllt, angewendet (z. B. wobei mindestens zwei gegenüberliegende Ränder des GUI-Fensters gleich oder benachbart zu entsprechenden Rändern des Anzeigebildschirms sind). Ein solches System hat den Vorteil, dass die Schwenkbereiche hauptsächlich eine Funktion des Seitenverhältnisses des GUI-Fensters sind und nicht die Größe der GUI, wodurch ein akustisches Audiobild, das sich nicht mit der GUI-Größe, der Position bzw. der Stelle ändert oder einklappt, wenn das Fenster minimiert wird, oder wenn das Fenster in einen Bild-in-Bild-Modus übergeht. 14A und 14B zeigen mehrere Stufen, in denen Schwenkbereiche auf einem Seitenverhältnis der Kommunikationssitzungs-GUI gemäß einigen Gesichtspunkten basieren.
  • Insbesondere kann, wie hierin beschrieben, die lokale Vorrichtung die Schwenkbereiche des einen oder der mehreren Lautsprecher basierend auf dem Seitenverhältnis der GUI definieren. Zum Beispiel zeigt 14A zwei Stufen 150 und 151, in denen der Azimut-Schwenkbereich kleiner als der gesamte (mögliche) Azimut-Schwenkbereich der Lautsprecher der lokalen Vorrichtungen basierend auf dem Seitenverhältnis der GUI 41 ist. Die erste Stufe 150 zeigt die Kommunikationssitzungs-GUI (während die lokale Vorrichtung an einer Kommunikationssitzung mit fünf entfernten Teilnehmern beteiligt ist, wie hierin beschrieben wird), die auf dem Anzeigebildschirm 13 der lokalen Vorrichtung angezeigt wird. Insbesondere wird die GUI einer Startbildschirm-GUI 152 überlagert, die auf dem Anzeigebildschirm angezeigt wird und dem lokalen Benutzer eine Schnittstelle bereitstellt, um eine oder mehrere Computerprogrammanwendungen (welche die Kommunikationssitzungsanwendung, wie hierin beschrieben, einschließen kann) auszuführen bzw. zu beenden. Wie gezeigt, ist die Kommunikationssitzung GUI kleiner (oder weist eine kleinere Oberfläche auf) als die Startbildschirm-GUI. Gemäß einem Gesichtspunkt kann die lokale Vorrichtung eine Eingabe empfangen (z. B. über jede Eingabevorrichtung, wie z. B. eine Maus oder über den Anzeigebildschirm, der ein berührungsempfindlicher Anzeigebildschirm sein kann, wie hierin beschrieben wird), um die Größe bzw. die Position der GUI 41 innerhalb der Startbildschirm-GUI 152 anzupassen. Wie gezeigt, weist die GUI 41 ein aktuelles Seitenverhältnis von 4:3 auf.
  • Darüber hinaus veranschaulicht diese Stufe auch die (z. B. Azimut- und Höhen-) Schwenkbereiche der Lautsprecher der lokalen Vorrichtung. Wie gezeigt, erstrecken sich die Gesamtschwenkbereiche (z. B. die maximalen Winkel, bei denen virtuelle Tonquellen positioniert werden können, wenn jeweilige Eingangsaudioströme unter Verwendung der Lautsprecher der lokalen Vorrichtung räumlich gerendert werden) zu den Rändern des Anzeigebildschirms. Zum Beispiel erstreckt sich der Azimut-Schwenkbereich des Lautsprechers, -θ - +ω, über die Gesamtbreite (entlang der X-Achse) des Anzeigebildschirms 13 und der Höhen-Schwenkbereich, -φ - +β, erstreckt sich über die Gesamthöhe (entlang der Y-Achse) des Anzeigebildschirms 13. Somit kann die lokale Vorrichtung virtuelle Tonquellen überall auf (oder vor) dem Anzeigebildschirm positionieren.
  • Die zweite Stufe 151 zeigt das Ergebnis des Simulierens der Vergrößerung der Kommunikationssitzungs-GUI, bis zwei Seiten der GUI jeweilige Ränder des Anzeigebildschirms erreichen. Wie in dieser Abbildung gezeigt, zeigt der Anzeigebildschirm eine simulierte GUI 153 an, die vollständig in der Y-Richtung vergrößert wurde (z. B. sichtbare Abschnitte der Sitzungs-GUI können sich nicht weiter in der Y-Richtung ausdehnen), während die Ränder entlang der Breite der GUI von den Rändern des Anzeigebildschirms getrennt sind. Da sich die Höhe der Sitzungs-GUI über die Höhe des Anzeigebildschirms erstreckt, bleiben die Höhen-Schwenkwinkel gleich, während, da die Breite der Sitzungs-GUI kürzer als die Breite des Anzeigebildschirms ist, der Azimut-Schwenkbereich auf -θw - +ωw reduziert wird, was kleiner als der gesamte Azimut-Schwenkbereich ist. Somit kann die Steuerung 10 der lokalen Vorrichtung die Azimut- und Höhen-Schwenkbereiche entsprechend definieren.
  • 14B zeigt zwei Stufen 160 und 161, in denen der Höhen-Schwenkbereich basierend auf dem Seitenverhältnis der GUI 41 kleiner ist als der gesamte Höhen-Schwenkbereich der Lautsprecher der lokalen Vorrichtung. Diese Stufe ähnelt der Stufe 150 von 14A, außer dass das Seitenverhältnis der GUI 16:9 und nicht 4:3 beträgt. Infolgedessen zeigt im Gegensatz zur zweiten Stufe 151 die zweite Stufe 161 dieser Figur, dass die simulierte GUI 154 sich vollständig entlang der Breite des Anzeigebildschirms 13 ausgedehnt hat, aber sich nicht vollständig entlang der Höhe des Anzeigebildschirms ausgedehnt hat. Wenn die GUI 41 daher ein größeres Seitenverhältnis aufweist, kann der definierte Azimut-Schwenkbereich dem gesamten Schwenkbereich entsprechen, während der Höhen-Schwenkbereich auf -ωw - +βw reduziert wird, was kleiner ist als der gesamte Höhen-Schwenkbereich.
  • Wie bisher beschrieben, kann die (Steuerung 10 der) lokale(n) Vorrichtung Schwenkbereiche basierend darauf definieren, ob die GUI ein Seitenverhältnis von 4:3 oder 16:9 aufweist. In einem anderen Aspekt können die Schwenkbereiche für jedes Seitenverhältnis definiert werden. Gemäß einem Gesichtspunkt kann die Steuerung räumliche Parameter eines oder mehrerer Eingangsaudioströme basierend auf dem Seitenverhältnis oder darauf, ob sich das Seitenverhältnis geändert hat (z. B. als Reaktion auf die Benutzereingabe), bestimmen bzw. anpassen. Mehr dazu wird in 15 beschrieben.
  • 15 ist ein Flussdiagramm eines Aspekts eines Prozesses 170 zum Anpassen der Position einer oder mehrerer virtueller Tonquellen basierend auf einer Änderung eines Seitenverhältnisses der GUI der Kommunikationssitzung. Der Prozess 170 beginnt mit dem Empfangen eines Eingangsaudiostroms und eines Eingangsvideostroms durch die Steuerung 10 von einer entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Videokommunikationssitzung beteiligt ist (bei Block 171). Gemäß einem Gesichtspunkt kann die Steuerung auch andere Daten (z. B. ein VAD-Signal), wie hierin beschrieben, empfangen. Die Steuerung zeigt eine visuelle Darstellung des Eingangsvideostroms innerhalb einer GUI der Videokommunikationssitzung an (die ein Seitenverhältnis aufweist), die auf dem Anzeigebildschirm angezeigt wird (bei Block 172). Die Steuerung bestimmt ein Seitenverhältnis der GUI der Videokommunikationssitzung (bei Block 173). Insbesondere kann der Video-Renderer 22 das Seitenverhältnis bestimmen, bei dem die GUI angezeigt wird. Die Steuerung bestimmt einen Azimut-Schwenkbereich, der mindestens ein Abschnitt des gesamten Azimut-Schwenkbereichs und eines Höhen-Schwenkbereichs ist, der mindestens ein Abschnitt des gesamten Höhen-Schwenkbereichs der Lautsprecher basierend auf dem Seitenverhältnis der GUI ist (bei Block 174). Insbesondere kann die Steuerung die Vorgänge ausführen, die in 14A und 14B beschrieben sind. Zum Beispiel kann die (z. B. der Video-Renderer der) Steuerung die GUI vergrößern (oder ausdehnen), bis mindestens eine von einer Breite der GUI vollständig auf die Breite des Anzeigebildschirms ausgedehnt ist oder einer Höhe der GUI vollständig auf die Höhe des Anzeigebildschirms ausgedehnt ist, während das Seitenverhältnis beibehalten wird. Gemäß einem Gesichtspunkt kann dies das Ausdehnen der GUI bedeuten, bis mindestens zwei Seiten (oder Ränder) der GUI mit zwei vergleichbaren Seiten des Anzeigebildschirms in Kontakt kommen. Zum Beispiel kann der Renderer die GUI vergrößern, bis die oberen und unteren Ränder der GUI mit den Rändern des Anzeigebildschirms in Kontakt kommen (wie in 14A veranschaulicht), oder kann die GUI vergrößern, bis die Seitenränder der GUI mit den Rändern des Anzeigebildschirms in Kontakt kommen (wie in 14B veranschaulicht wird). Nach dem Vergrößern kann die Steuerung die Schwenkbereiche basierend auf der Größe der simulierten GUI in Bezug auf die Größe des Anzeigebildschirms definieren. Insbesondere sind die Schwenkbereiche definiert, dass sie sich über die Breite und Höhe der GUI in Bezug auf Schwenkbereiche in Abhängigkeit von der Breite und Höhe des Anzeigebildschirms erstrecken. Wenn die GUI das gleiche Seitenverhältnis wie der Anzeigebildschirm aufweist, können die bestimmten Schwenkbereiche die gesamten Schwenkbereiche der Lautsprecher sein.
  • Wie hierin beschrieben wird, können sich die Bereiche beim Bestimmen der Schwenkbereiche beim Vergrößern der GUI über die Breite und Höhe des Anzeigebildschirms erstrecken. Gemäß einem anderen Aspekt können sich die Schwenkbereiche über die Grenzen des Anzeigebildschirms hinaus ausdehnen. In diesem Fall können die Schwenkbereiche basierend auf dem Prozentsatz der vergrößerten simulierten GU bestimmt werden. Bezugnehmend auf 14B, können die bestimmten Azimut-Schwenkbereiche zum Beispiel 100 % des gesamten Azimut-Schwenkbereichs betragen, da die simulierte GUI zu den Seitenrändern des Anzeigebildschirms ausgedehnt wurde. Im Gegensatz dazu können die bestimmten Höhen-Schwenkbereiche 70 % des gesamten Höhen-Schwenkbereichs betragen, da sich die simulierte GUI nur entlang 70 % der Gesamthöhe des Anzeigebildschirms ausgedehnt hat.
  • Die Steuerung bestimmt räumliche Parameter, die eine Position innerhalb der bestimmten Azimut- und Höhen-Schwenkbereiche der virtuellen Tonquelle angeben, basierend auf einer Position der visuellen Darstellung innerhalb der GUI, wie hierin beschrieben wird (bei Block 175). Die Steuerung rendert dann den Eingangsaudiostrom räumlich, um die virtuelle Tonquelle (z. B. an der Position) innerhalb der Azimut- und Höhen-Schwenkbereiche basierend auf den räumlichen Parametern, unter Verwendung der Lautsprecher, auszugeben (bei Block 176). Somit gibt die Steuerung zusammen mit dem Anzeigen der visuellen Darstellung das Eingangsaudiosignal als die virtuelle Tonquelle an der Position innerhalb der Umgebung aus (z. B. in der sich die lokale Vorrichtung befindet).
  • Die Steuerung bestimmt, ob sich das Seitenverhältnis der GUI geändert hat (bei Entscheidungsblock 177). Gemäß einem Gesichtspunkt kann diese Bestimmung darauf basieren, ob die Benutzereingabe über eine oder mehrere Eingabevorrichtungen empfangen wurde, um entweder eine Breite oder eine Höhe der GUI zu ändern. Zum Beispiel kann die Steuerung eine Angabe empfangen (z. B. über den Video-Renderer 22), dass der Benutzer einen Klick-Zieh-Vorgang unter Verwendung einer Maus ausgeführt hat, um die GUI in einer oder mehreren Richtungen manuell zu vergrößern (oder zu strecken) (z. B. durch Auswählen einer Seite und Ausführen einer Ziehbewegung weg von oder in Richtung der GUI). Gemäß einem anderen Gesichtspunkt kann, wenn der Anzeigebildschirm ein berührungsempfindlicher Anzeigebildschirm ist, die Benutzereingabe empfangen werden, wenn der Benutzer eine Berührungsziehbewegung mit einem oder mehreren Fingern ausführt, um die Größe der GUI anzupassen. Gemäß einigen Gesichtspunkten kann die Steuerung die in Block 173 beschriebenen Vorgänge ausführen (z. B. periodisch), um zu bestimmen, ob sich das Seitenverhältnis geändert hat. Als Reaktion auf das Bestimmen, dass sich das Seitenverhältnis geändert hat, passt die Steuerung einen oder mehrere Schwenkbereiche basierend auf dem geänderten Seitenverhältnis an (bei Block 178). Zum Beispiel kann die Steuerung die in Block 174 beschriebenen Vorgänge ausführen, um die geänderten (oder neuen) Azimut-Schwenkbereiche zu bestimmen. Zum Beispiel kann, wenn das Seitenverhältnis erhöht wird, der angepasste Azimut-Schwenkbereich eine Breite des Anzeigebildschirms erweitern, während sich der angepasste Höhen-Schwenkbereich nicht vollständig über eine Höhe des Anzeigebildschirms erstreckt, wie in 14B gezeigt wird. Die Steuerung passt dann die Position der virtuellen Tonquelle basierend auf dem angepassten Schwenkbereich an (bei Block 179). Zum Beispiel kann die Steuerung die räumlichen Parameter gemäß einem der hierin beschriebenen Verfahren bestimmen und dann das Eingangsaudiosignal gemäß den neuen räumlichen Parametern räumlich rendern.
  • Gemäß einem anderen Gesichtspunkt kann die Steuerung die Position basierend auf den Änderungen an den angepassten Schwenkbereichen anpassen. Anstatt insbesondere die Positionen der virtuellen Tonquellen neu zu berechnen (z. B. wie in 9 beschrieben), kann die Steuerung die vorhandenen Positionen basierend auf den angepassten Schwenkbereichen anpassen. Zum Beispiel kann das Erhöhen des Seitenverhältnisses (z. B. von 4:3 auf 16:9) von 60 % auf 100 % des gesamten Azimut-Schwenkbereichs ansteigen (oder erhöht werden) und der Höhen-Schwenkbereich kann von 100 % auf 70 % abnehmen (oder verringert werden), wie in 14A und 14B veranschaulicht wird. Als Reaktion darauf kann die Steuerung den Azimutwinkel durch die virtuelle Tonquelle anpassen, indem sie den Winkel um 40 % erhöht, und kann den Höhenwinkel der virtuellen Tonquelle anpassen, indem sie den Winkel um 30 % verringert. Insbesondere kann die Steuerung den Azimutwinkel erhöhen, sodass die Position der virtuellen Tonquelle in eine breitere Azimutposition bewegt wird, und sie kann den Höhenwinkel verringern, sodass die Position zu einer schmaleren Höhenposition (z. B. in Bezug auf eine o°-Referenz-Z-Achse) bewegt wird.
  • Gemäß einem Gesichtspunkt stellt das Bestimmen des Schwenkbereichs basierend auf dem Seitenverhältnis der GUI unabhängig von der Stelle der GUI in Bezug auf den Anzeigebildschirm ein konsistentes räumliches Audio für die lokalen Hörer bereit. Zum Beispiel sind, unter Verwendung des Seitenverhältnisses, Positionen von virtuellen Tonquellen unabhängig von der Stelle, der Position bzw. der Größe der GUI, die innerhalb des Anzeigebildschirms angezeigt wird. Somit kann der lokale Benutzer die GUI über den gesamten Anzeigebildschirm bewegen, ohne die räumlichen Signale des entfernten Teilnehmers zu beeinträchtigen, während er an der Kommunikationssitzung beteiligt ist. Außerdem sind die räumlichen Signale (z. B. die Positionen von virtuellen Tonquellen) auch unabhängig von einer Stelle bzw. Ausrichtung des Anzeigebildschirms, die zwischen verschiedenen Benutzern unterschiedlich sein können.
  • Gemäß einem Gesichtspunkt können die Schwenkbereiche über die Ränder des Anzeigebildschirms hinaus erweitert sein. In diesem Fall können die Schwenkbereiche eine Funktion einer Größe der simulierten vergrößerten GUI in Bezug auf eine Größe des Anzeigebildschirms (oder die Fläche des Anzeigebildschirms, der die Videodaten anzeigt) sein. Bei einem niedrigeren Seitenverhältnis, wie in 14A veranschaulicht, kann die Steuerung daher den vollständigen Azimut-Schwenkbereich nutzen, um virtuelle Tonquellen räumlich zu rendern, während nur ein Abschnitt des vollständigen Höhen-Schwenkbereichs verwendet wird (z. B. der auf der Differenz zwischen der Höhe der vergrößerten GUI und der Höhe der anzeigbaren Fläche des Anzeigebildschirms basieren kann, wie hierin beschrieben wird).
  • Einige Aspekte können Variationen an den Prozessen 30, 90, 80, 140 und 170 ausführen, die jeweils in 5, 6, 9, 13 und 15 beschrieben werden. Zum Beispiel müssen die spezifischen Vorgänge von mindestens einigen der Verfahren nicht in der exakten Reihenfolge, die gezeigt und beschrieben wird, ausgeführt werden. Die spezifischen Vorgänge müssen nicht in einer fortlaufenden Serie von Vorgängen ausgeführt werden, und verschiedene spezifische Vorgänge können gemäß verschiedenen Gesichtspunkten ausgeführt werden.
  • Wie bisher beschrieben, können der eine oder die mehreren Lautsprecher, die eine oder die mehreren virtuellen Tonquellen ausgeben, so angeordnet sein, dass sie einen Ton in die Umgebung ausgeben, wie z. B. extra-aurale Lautsprecher, die in die lokale Vorrichtung, den Anzeigebildschirm oder jede elektronische Vorrichtung integriert sein können, wie hierin beschrieben wird. Gemäß einem anderen Gesichtspunkt können die Lautsprecher ein Teil eines Kopfhörers sein, wie der Kopfhörer 6 von 1. In diesem Fall kann die Steuerung ähnliche Vorgänge ausführen, wie hierin beschrieben wird, um räumliche Parameter zu bestimmen und die Daten zu verwenden, um einen oder mehrere Eingangsaudioströme räumlich zu rendern. Gemäß einem Gesichtspunkt kann die Steuerung jedoch das eine oder die mehreren Schwenkbereiche unterschiedlich definieren. Zum Beispiel können sich der Azimut-Schwenkbereich und der Höhen-Schwenkbereich um den lokalen Benutzer herum um 360° erstrecken. Infolgedessen können virtuelle Tonquellen irgendwo innerhalb des Tonfelds positioniert sein. Gemäß einem anderen Gesichtspunkt können extra-aurale Lautsprecher des Systems 1 einen ähnlichen Schwenkbereich aufweisen.
  • Wie bisher beschrieben, bestimmt die Steuerung 10 verschiedene Parameter und Daten zum räumlichen Rendern von Eingangsaudioströmen, wie: einen oder mehrere Azimut-Schwenkbereiche und einen oder mehrere Höhen-Schwenkbereiche (z. B. eine Gruppe von Bereichen, während sich die lokale Vorrichtung in einer Hochformat-Ausrichtung befindet, und eine Gruppe von Bereichen, während sich die lokale Vorrichtung in einer Querformat-Ausrichtung befindet), einen oder mehrere Schwenkwinkel pro Eingangsaudiostrom, Abstand (z. B. zwischen dem lokalen Benutzer und virtuellen Tonquellen, zwischen dem lokalen Benutzer und dem Anzeigebildschirm usw.), Hall, Vorrichtungsausrichtung, GUI-Abmessungen (z. B. Größe, Form, Stelle und Seitenverhältnis) und Abmessungen des Anzeigebildschirms (z. B. Breite, Höhe und Seitenverhältnis). Gemäß einem anderen Gesichtspunkt können diese Daten auch vordefinierte Daten einschließen, wie vordefinierte Abmessungen der GUI, einen vordefinierten Abstand zwischen dem Anzeigebildschirm und einem Referenzpunkt usw. Gemäß einem Gesichtspunkt kann jeder dieser Parameter oder Werte durch den lokalen Benutzer geändert werden. Zum Beispiel kann die lokale Vorrichtung ein Menü anzeigen (z. B. basierend auf einer Benutzerauswahl einer UI innerhalb der Kommunikationssitzungs-GUI). Nach der Anzeige kann der Benutzer jeden der Parameter oder Werte anpassen. Zum Beispiel kann der Benutzer Schwenkbereiche basierend auf bestimmten Umständen anpassen. Insbesondere kann der Benutzer Schwenkbereiche reduzieren wollen, die vom Anzeigebildschirm begrenzt werden sollen, anstatt sich über den Anzeigebildschirm hinaus zu erstrecken (z. B. um den Tonaustritt innerhalb der akustischen Umgebung zu minimieren).
  • Es versteht sich, dass die Verwendung persönlich identifizierbarer Informationen Datenschutzvorschriften und Praktiken folgen sollte, von denen allgemein anerkannt wird, dass sie Industrie- oder Regierungsanforderungen zum Aufrechterhalten der Privatsphäre von Benutzern erfüllen oder übererfüllen. Insbesondere sollten persönlich identifizierbare Informationsdaten so verwaltet und gehandhabt werden, dass Risiken eines unbeabsichtigten oder unautorisierten Zugangs oder einer unbeabsichtigten oder unautorisierten Verwendung minimiert werden, und die Art einer autorisierten Verwendung sollte den Benutzern klar angegeben werden.
  • Gemäß einem Gesichtspunkt weist mindestens eine visuelle Darstellung eines jeweiligen Eingangsvideostroms, der einem individuell gerenderten Eingangsaudiostrom zugeordnet ist, eine Größe auf, die größer als die Größen visueller Darstellungen von Eingangsvideoströmen ist, die den Eingangsaudioströmen einer Mischung von Eingangsaudioströmen zugeordnet sind, wobei alle visuellen Darstellungen jeweiliger Eingangsvideoströme, die allen Eingangsaudioströmen zugeordnet sind, die als die Mischung gerendert werden, eine gleiche Größe aufweisen. Mit anderen Worten können visuelle Listendarstellungen die gleiche Größe aufweisen. Gemäß einem Gesichtspunkt befindet sich eine Anordnung von Positionen für die individuellen virtuellen Tonquellen auf der Grundlage der Kommunikationssitzungsparameter vor dem Anzeigebildschirm der lokalen Vorrichtung. Gemäß einigen Gesichtspunkten umfasst die Anordnung von Positionen für die individuellen virtuellen Tonquellen für jede individuelle virtuelle Tonquelle das Bestimmen, unter Verwendung des Satzes von Kommunikationssitzungsparametern, einer Position innerhalb der GUI der visuellen Darstellung eines jeweiligen Eingangsvideostroms, der einem jeweiligen Eingangsaudiostrom zugeordnet ist, der als eine individuelle virtuelle Tonquelle räumlich gerendert werden soll; und das Bestimmen eines oder mehrerer räumlicher Parameter, die eine Position der individuellen virtuellen Tonquelle innerhalb der Anordnung basierend auf der bestimmten Position der visuellen Darstellung angeben, wobei das räumliche Rendern des Eingangsaudiostroms als die individuelle virtuelle Tonquelle das Verwenden der bestimmten räumlichen Daten, um den Eingangsaudiostrom als die individuelle virtuelle Tonquelle an der Position räumlich zu rendern, umfasst. Gemäß einem Gesichtspunkt umfassen die räumlichen Parameter einen Azimutwinkel entlang einer ersten Achse zwischen der Position der individuellen virtuellen Tonquelle und einer zweiten Achse und einem Höhenwinkel entlang einer dritten Achse zwischen der Position der individuellen virtuellen Tonquelle und der zweiten Achse. Gemäß einigen Gesichtspunkten schließt die Anordnung auch eine Position der einzelnen virtuellen Tonquelle ein, wobei das Bestimmen der Positionen für jeden Eingangsaudiostrom der Mischung ferner Folgendes umfasst: Bestimmen einer Position innerhalb der GUI der visuellen Darstellung eines jeweiligen Eingangsvideostroms, der dem Eingangsaudiostrom der Mischung zugeordnet ist, unter Verwendung des Satzes von Kommunikationssitzungsparametern; Bestimmen von räumlichen Parametern, die eine Position einer virtuellen Tonquelle des Eingangsaudiostroms angeben, basierend auf der bestimmten Position; und Bestimmen neuer räumlicher Parameter, die eine bestimmte Position basierend auf mindestens einigen der räumlichen Parameter angeben, wobei das räumliche Rendern der Mischung von Eingangsaudioströmen das Verwenden der neuen räumlichen Parameter umfasst, um die Mischung des Eingangsaudiostroms als die einzelne virtuelle Tonquelle an der bestimmten Position räumlich zu rendern. Gemäß einigen Gesichtspunkten werden die neuen räumlichen Parameter bestimmt, indem eine gewichtete Kombination der räumlichen Parameter aller Eingangsaudioströme der Mischung bestimmt wird, wobei sich die jeweilige Position an einer anderen Position als die Positionen der virtuellen Tonquellen der Eingangsaudioströme der Mischung befindet. Gemäß einem Gesichtspunkt sind visuelle Darstellungen von Eingangsvideoströmen, die den Eingangsaudioströmen der Mischung von Eingangsaudioströmen zugeordnet sind, in einer Zeile oder einer Spalte basierend auf einer Ausrichtung der lokalen Vorrichtung angeordnet, wobei sich die andere Position in einer Mitte der Zeile oder der Spalte auf dem Anzeigebildschirm befindet.
  • Gemäß einem Gesichtspunkt der Offenbarung kann die (z. B. Steuerung 10 der) lokale(n) Vorrichtung 2 ein Verfahren ausführen, das einen oder mehrere Vorgänge einschließt, wie z. B Empfangen, für jede einer ersten Vielzahl von entfernten Vorrichtungen, die an einer Videokommunikationssitzung mit der lokalen Vorrichtung beteiligt sind, eines Eingangsaudiostroms und eines Eingangsvideostroms; Anzeigen, für jeden Eingangsaudiostrom, einer visuellen Darstellung des Eingangsvideostroms in einer grafischen Benutzerschnittstelle (GUI) auf einem Anzeigebildschirm; räumliches Rendern des Eingangsaudiostroms für mindestens einen Eingangsaudiostrom, um eine einzelne virtuelle Tonquelle auszugeben, die nur den Eingangsaudiostrom über die Vielzahl von Lautsprechern einschließt; Empfangen eines Eingangsaudiostroms und eines Eingangsvideostroms für jede der zweiten Vielzahl von entfernten Vorrichtungen als Reaktion auf das Bestimmen, dass eine zweite Vielzahl von entfernten Vorrichtungen der Videokommunikationssitzung beigetreten ist; Bestimmen, ob die lokale Vorrichtung zusätzliche individuelle virtuelle Tonquellen für einen oder mehrere Eingangsaudioströme der zweiten Vielzahl von entfernten Vorrichtungen unterstützt; Definieren einer Vielzahl von Benutzerschnittstellenzonen (UI-Zonen), welche sich in der GUI befinden, als Reaktion auf das Bestimmen, dass die lokale Vorrichtung keine zusätzlichen individuellen virtuellen Tonquellen unterstützt, wobei jede UI-Zone eine oder mehrere visuelle Darstellungen eines oder mehrerer Eingangsvideoströme entweder der ersten Vielzahl von entfernten Vorrichtungen, der zweiten Vielzahl von entfernten Vorrichtungen oder einer Kombination davon einschließt, die in der UI-Zone angezeigt werden; und räumliches Rendern, für jede UI-Zone, einer Mischung eines oder mehrerer Eingangsaudioströme, die der einen oder den mehreren visuellen Darstellungen zugeordnet sind, die in der UI-Zone als eine virtuelle Tonquelle durch die Vielzahl von Lautsprechern eingeschlossen sind.
  • Gemäß einem Gesichtspunkt ist die lokale Vorrichtung konfiguriert, um eine vordefinierte Anzahl von Eingangsaudioströmen als individuelle virtuelle Tonquellen räumlich zu rendern, wobei das Bestimmen, ob die lokale Vorrichtung zusätzliche individuelle virtuelle Tonquellen unterstützt, das Bestimmen umfasst, ob eine Anzahl von Eingangsaudioströmen der ersten und der zweiten Vielzahl von entfernten Vorrichtungen, für die bestimmt wird, dass sie individuell räumlich gerendert werden sollen, größer als die vordefinierte Anzahl ist. Gemäß einem anderen Gesichtspunkt überschreitet eine Anzahl von definierten UI-Zonen die vordefinierte Anzahl von Eingangsaudioströmen, die als individuelle virtuelle Tonquellen räumlich gerendert werden können, nicht. Gemäß einem Gesichtspunkt umfasst das Definieren der Vielzahl von UI-Zonen Folgendes: Anzeigen aller visuellen Darstellungen, die der ersten und der zweiten Vielzahl von entfernten Vorrichtungen in einem Netz zugeordnet sind; und Einrichten eines virtuellen Netzes von UI-Zonen auf der GUI, wobei jede UI-Zone eine oder mehrere visuelle Darstellungen umfasst. Gemäß einigen Gesichtspunkten umfasst das Herstellen des virtuellen Netzes von UI-Zonen das Zuweisen einer oder mehrerer benachbarter visueller Darstellungen zu jeder UI-Zone.
  • Gemäß einem Gesichtspunkt umfasst das Definieren der Vielzahl von UI-Zonen das Bestimmen einer Anzahl von Eingangsaudioströmen, die von der ersten und der zweiten Vielzahl von entfernten Vorrichtungen empfangen werden, wobei eine Anzahl der Vielzahl von UI-Zonen basierend auf der Anzahl von Eingangsaudioströmen definiert ist. Gemäß einem Gesichtspunkt sind Eingangsaudioströme der ersten und der zweiten Vielzahl von entfernten Vorrichtungen gleichmäßig unter der Vielzahl von UI-Zonen verteilt. Gemäß einigen Gesichtspunkt umfasst das Verfahren ferner Folgendes: Empfangen eines Eingangsaudiostroms und eines Eingangsvideostroms für jede der dritten Vielzahl von entfernten Vorrichtungen als Reaktion auf das Bestimmen, dass eine dritte Vielzahl von entfernten Vorrichtungen der Videokommunikationssitzung beigetreten ist; und Neudefinieren der Vielzahl von UI-Zonen durch 1) Hinzufügen visueller Darstellungen von Eingangsvideoströmen von der dritten Vielzahl von entfernten Vorrichtungen zu bereits definierten UI-Zonen, 2) Erstellen einer oder mehrerer neuer UI-Zonen oder 3) eine Kombination davon. Gemäß einem Gesichtspunkt befindet sich für jede UI-Zone eine virtuelle Tonquelle einer jeweiligen UI-Zone an einer Position auf der auf dem Anzeigebildschirm angezeigten UI-Zone. Gemäß einigen Gesichtspunkten befindet sich die Position in einer Mitte der UI-Zone. Gemäß einem anderen Gesichtspunkt befindet sich die Position auf einer visuellen Darstellung, die einem Eingangsaudiostrom der Mischung eines oder mehrerer Eingangsaudioströme zugeordnet ist, die einen Signalenergiepegel aufweisen, der über einem Schwellenwert liegt.
  • Gemäß einem Gesichtspunkt der Offenbarung kann die (Steuerung 10 der) lokale(n) Vorrichtung 2 ein Verfahren ausführen, das einen oder mehrere Vorgänge einschließt, wie z. B Empfangen eines Eingangsaudiostroms von einer entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist; Bestimmen einer ersten Ausrichtung der lokalen Vorrichtung; Bestimmen eines Schwenkbereichs der Vielzahl von Lautsprechern für die erste Ausrichtung der lokalen Vorrichtung, die sich entlang einer horizontalen Achse erstreckt; räumliches Rendern des Eingangsaudiostroms als virtuelle Tonquelle an einer Position entlang der horizontalen Achse und innerhalb des Schwenkbereichs unter Verwendung der Vielzahl von Lautsprechern; Bestimmen eines angepassten Schwenkbereichs der Vielzahl von Lautsprechern, die sich weiter entlang der horizontalen Achse als der Schwenkbereich erstrecken, als Reaktion auf das Bestimmen, dass sich die lokale Vorrichtung in einer zweiten Ausrichtung befindet; und Anpassen der Position der virtuellen Tonquelle entlang der horizontalen Achse basierend auf dem angepassten Schwenkbereich.
  • Gemäß einem Gesichtspunkt ist die erste Ausrichtung eine Hochformat-Ausrichtung der lokalen Vorrichtung und die zweite Ausrichtung ist eine Querformat-Ausrichtung. Gemäß einem anderen Gesichtspunkt wird die Position der virtuellen Tonquelle proportional entlang der horizontalen Achse in Bezug auf den angepassten Schwenkbereich angepasst. Gemäß einem Gesichtspunkt ist der Schwenkbereich ein horizontaler Schwenkbereich und der angepasste Schwenkbereich ist ein angepasster horizontaler Schwenkbereich, wobei das Verfahren ferner Folgendes umfasst: das Bestimmen, während die lokale Vorrichtung in der ersten Ausrichtung ausgerichtet ist, eines vertikalen Schwenkbereichs der Vielzahl von Lautsprechern, der sich entlang einer vertikalen Achse erstreckt, entlang der sich die Position der virtuellen Tonquelle befindet; Bestimmen eines angepassten vertikalen Schwenkbereichs der Vielzahl von Lautsprechern, die sich entlang der vertikalen Achse erstrecken, der kleiner als der vertikale Schwenkbereich ist, als Reaktion auf das Bestimmen, dass die lokale Vorrichtung in der zweiten Ausrichtung ausgerichtet ist; und Anpassen der Position der virtuellen Tonquelle entlang der vertikalen Achse basierend auf dem angepassten vertikalen Schwenkbereich und entlang der horizontalen Achse basierend auf dem angepassten horizontalen Schwenkbereich.
  • Gemäß einem Gesichtspunkt umfasst das Verfahren ferner das Empfangen, von der entfernten Vorrichtung, des Eingangsaudiostroms und eines Eingangsvideostroms zum Anzeigen als visuelle Darstellung in einer grafischen Benutzerschnittstelle (GUI) auf einem Anzeigebildschirm der lokalen Vorrichtung. Gemäß einigen Gesichtspunkten ist in der ersten Ausrichtung die Position entlang der horizontalen Achse, an der sich die virtuelle Tonquelle befindet, die gleiche Position, an der die visuelle Darstellung in Bezug auf den Anzeigebildschirm angezeigt wird; und als Reaktion auf das Bestimmen, dass die lokale Vorrichtung in der zweiten Ausrichtung ausgerichtet ist, Beibehalten der Position der visuellen Darstellung in Bezug auf den Anzeigebildschirm, während die Position der virtuellen Tonquelle so angepasst wird, dass die virtuelle Tonquelle und die visuelle Darstellung an derselben Position in Bezug auf den Anzeigebildschirm verbleiben. Gemäß einem Gesichtspunkt umfasst das Verfahren ferner Folgendes: Empfangen eines individuellen Eingangsaudiostroms von jeder von einer Vielzahl von entfernten Vorrichtungen, mit denen die lokale Vorrichtung an der Kommunikationssitzung beteiligt ist; und räumliches Rendern einer Mischung der individuellen Eingangsaudioströme als eine einzelne virtuelle Tonquelle, welche die Mischung individueller Eingangsaudioströme und eine Mischung von Eingangsaudioströmen enthält. Gemäß einem anderen Gesichtspunkt umfasst das Verfahren ferner Folgendes: Empfangen einer Vielzahl von Eingangsvideoströmen, wobei jeder von einer anderen entfernten Vorrichtung der Vielzahl von entfernten Vorrichtungen ist; Anzeigen, während sich die lokale Vorrichtung in der ersten Ausrichtung befindet, einer Vielzahl von visuellen Darstellungen, jeweils für einen anderen Eingangsvideostrom der Vielzahl von Eingangsvideoströmen, in einer Zeile entlang der horizontalen Achse innerhalb einer grafischen Benutzerschnittstelle (GUI) auf einem Anzeigebildschirm der lokalen Vorrichtung, wobei die einzelne virtuelle Tonquelle an einer Position einer der visuellen Darstellungen gerendert wird. Gemäß einem Gesichtspunkt wird die einzelne virtuelle Tonquelle an der Position der einen der visuellen Darstellungen als Reaktion auf den individuellen Eingangsaudiostrom gerendert, der dem Eingangsvideostrom zugeordnet ist, der in der einen der visuellen Darstellungen angezeigt wird, mit einem Energiepegel, der größer als ein Rest einzelner Eingangsaudioströme in der Mischung einzelner Eingangsaudioströme ist. Gemäß einigen Gesichtspunkten ändert sich die Position, an der die einzelne virtuelle Tonquelle gerendert wird, entlang der horizontalen Achse, aber nicht entlang einer vertikalen Achse, basierend darauf, welcher individuelle Audiostrom, der einer jeweiligen visuellen Darstellung der Zeile zugeordnet ist, einen größeren Energiepegel aufweist. Gemäß einem anderen Gesichtspunkt umfasst das Verfahren ferner das Anzeigen der Vielzahl von visuellen Darstellungen in einer Spalte entlang einer vertikalen Achse innerhalb der GUI auf dem Anzeigebildschirm der lokalen Vorrichtung, als Reaktion auf das Bestimmen, dass die lokale Vorrichtung in der zweiten Ausrichtung ausgerichtet ist; und das Anpassen der einzelnen virtuellen Tonquelle, um weiterhin die virtuelle Signal-Tonquelle an der Position der einen der visuellen Darstellungen innerhalb der Spalte zu rendern. Gemäß einigen Gesichtspunkten ändert sich die Position, an der die virtuelle Signal-Tonquelle gerendert wird, entlang der vertikalen Achse, aber nicht entlang der horizontalen Achse, basierend darauf, welcher individuelle Audiostrom, der einer jeweiligen visuellen Darstellung der Spalte zugeordnet ist, einen größeren Energiepegel als ein Rest der einzelnen Audioströme aufweist.
  • Gemäß einem Gesichtspunkt umfasst das Verfahren, vor dem Bestimmen, dass die lokale Vorrichtung in der zweiten Ausrichtung ausgerichtet ist, ferner das Bestimmen von räumlichen Daten, mit denen der Eingangsaudiostrom räumlich gerendert wird, was die Position der individuellen virtuellen Tonquelle als einen Winkel zwischen einem Referenzpunkt und der Position entlang der horizontalen Achse angibt. Gemäß einem anderen Gesichtspunkt umfasst das Anpassen der Position der virtuellen Tonquelle das Bestimmen von angepassten räumlichen Daten, welche die angepasste Position als einen angepassten Winkel zwischen dem Referenzpunkt und der angepassten Position entlang der horizontalen Achse und innerhalb des angepassten Schwenkbereichs angeben; und Verwenden der angepassten räumlichen Daten, um den Eingangsaudiostrom als die virtuelle Tonquelle an der angepassten Position räumlich zu rendern.
  • Gemäß einem anderen Gesichtspunkt kann die (z. B. Steuerung 10 der) lokale(n) Vorrichtung 2 ein Verfahren ausführen, das eine oder mehrere Vorgänge einschließt, wie z. B das Empfangen eines Eingangsaudiostroms und eines Eingangsvideostroms von einer entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Videokommunikationssitzung beteiligt ist; Anzeigen einer visuellen Darstellung des Eingangsvideostroms innerhalb einer grafischen Benutzerschnittstelle (GUI) der Videokommunikationssitzung, die auf einem Anzeigebildschirm angezeigt wird; Bestimmen eines Seitenverhältnisses der GUI der Videokommunikationssitzung; Bestimmen eines Azimut-Schwenkbereichs, der mindestens ein Abschnitt eines gesamten Azimut-Schwenkbereichs einer Vielzahl von Lautsprechern ist, und eines Höhen-Schwenkbereichs, der mindestens ein Abschnitt eines gesamten Höhen-Schwenkbereichs der Vielzahl von Lautsprechern ist, basierend auf dem Seitenverhältnis der GUI der Videokommunikationssitzung; und räumliches Rendern des Eingangsaudiostroms, um eine virtuelle Tonquelle auszugeben, die den Eingangsaudiostrom innerhalb der Azimut- und Höhen-Schwenkbereiche unter Verwendung der Vielzahl von Lautsprechern einschließt.
  • Gemäß einem anderen Gesichtspunkt ist die GUI der Videokommunikationssitzung kleiner als der Anzeigebildschirm, auf dem sie angezeigt wird, wobei die Azimut- und Höhen-Schwenkbereiche unabhängig von einer Position der GUI innerhalb des Anzeigebildschirms sind. Gemäß einem Gesichtspunkt sind die Azimut- und Höhen-Schwenkbereiche unabhängig von einer Stelle und einer Ausrichtung des Anzeigebildschirms. Gemäß einigen Gesichtspunkten ist der Anzeigebildschirm innerhalb der lokalen Vorrichtung integriert, wobei sich der gesamte Azimut-Schwenkbereich über eine Breite des Anzeigebildschirms erstreckt und sich der gesamte Höhen-Schwenkbereich über eine Höhe des Anzeigebildschirms erstreckt. Gemäß einem anderen Gesichtspunkt umfasst das Bestimmen der Azimut- und Höhen-Schwenkbereiche das Ausdehnen der GUI der Videokommunikationssitzung, bis eine von einer Breite der GUI vollständig auf die Breite des Anzeigebildschirms ausgedehnt ist oder einer Höhe der GUI vollständig auf die Höhe des Anzeigebildschirms ausgedehnt ist, während das Seitenverhältnis beibehalten wird; und Definieren des Azimut-Schwenkbereichs, um sich über die Breite der GUI zu erstrecken und den Höhen-Schwenkbereich zu definieren, um sich über die Höhe der GUI zu erstrecken. Gemäß einem anderen Gesichtspunkt ist, wenn die Breite der GUI die Breite des Anzeigebildschirms ist, der Azimut-Schwenkbereich der gesamte Azimut-Schwenkbereich, und der Höhen-Schwenkbereich ist kleiner als der gesamte Höhen-Schwenkbereich, wenn die Höhe der GUI die Höhe des Anzeigebildschirms ist, der Azimut-Schwenkbereich kleiner als der gesamte Azimut-Schwenkbereich ist und der Höhen-Schwenkbereich der gesamte Höhen-Schwenkbereich ist.
  • Gemäß einem Gesichtspunkt umfasst das Verfahren ferner das Bestimmen des räumlichen Parameters, der eine Position innerhalb der Azimut- und Höhen-Schwenkbereiche der virtuellen Tonquelle basierend auf einer Position der visuellen Darstellung innerhalb der GUI angibt, wobei der Eingangsaudiostrom unter Verwendung des räumlichen Parameters räumlich gerendert wird. Gemäß einigen Gesichtspunkten umfasst der räumliche Parameter einen Azimutwinkel entlang des Azimut-Schwenkbereichs und einen Höhenwinkel entlang des Höhen-Schwenkbereichs in Bezug auf einen Referenzpunkt vor dem Anzeigebildschirm. Gemäß einem Gesichtspunkt umfasst das Verfahren ferner Folgendes: Bestimmen, dass das Seitenverhältnis der GUI geändert wurde; Anpassen mindestens eines von dem Azimut-Schwenkbereich und dem Höhen-Schwenkbereich basierend auf dem geänderten Seitenverhältnis; Anpassen des räumlichen Parameters derart, dass die Position mindestens innerhalb des angepassten Azimut-Schwenkbereichs und des Höhen-Schwenkbereichs liegt; und räumliches Rendern des Eingangsaudiostroms unter Verwendung des angepassten räumlichen Parameters.
  • Gemäß einigen Gesichtspunkten umfasst das Bestimmen des räumlichen Parameters Folgendes: Bestimmen des Azimutwinkels für die virtuelle Tonquelle unter Verwendung einer x-Koordinate einer Position eines Mittelpunkts der visuellen Darstellung innerhalb der GUI als Eingabe in eine erste lineare Funktion des Azimut-Schwenkbereichs; Bestimmen des Höhenwinkels für die virtuelle Tonquelle unter Verwendung einer y-Koordinate der Position des Mittelpunkts der visuellen Darstellung innerhalb der GUI als Eingabe in eine zweite lineare Funktion des Höhen-Schwenkbereichs; und räumliches Rendern des Eingangsaudiostroms gemäß dem Azimutwinkel und dem Höhenwinkel, um die virtuelle Tonquelle auszugeben. Gemäß einem anderen Gesichtspunkt umfasst das Bestimmen des räumlichen Parameters Folgendes: Schätzen eines Azimut-Betrachtungsbereichs der GUI mit einer vordefinierten Breite und eines Höhenbetrachtungsbereichs der GUI mit einer vordefinierten Höhe; Bestimmen eines Referenzpunkts, der sich in einem vordefinierten Abstand von einer Vorderseite des Anzeigebildschirms, auf dem die GUI angezeigt wird, befindet; Bestimmen eines Betrachtungsazimutwinkels von der visuellen Darstellung auf der GUI zum Referenzpunkt und eines Betrachtungshöhenwinkels von der visuellen Darstellung auf der GUI zum Referenzpunkt; Bestimmen des Azimutwinkels für die virtuelle Tonquelle unter Verwendung des Betrachtungsazimutwinkels als Eingabe in eine erste lineare Funktion des Azimut-Schwenkbereichs in Bezug auf den geschätzten Azimutbetrachtungsbereich; und Bestimmen des Höhenwinkels für die virtuelle Tonquelle unter Verwendung des Betrachtungshöhenwinkels als Eingabe in eine zweite lineare Funktion des Höhen-Schwenkbereichs in Bezug auf den geschätzten Höhenbetrachtungsbereich.
  • Gemäß einem Gesichtspunkt schließt die Position einen Azimutwinkel und einen Höhenwinkel in Bezug auf einen Referenzpunkt vor der lokalen Vorrichtung ein, wobei die angepasste Position einen kleineren Azimutwinkel und einen größeren Höhenwinkel als Reaktion auf das Bestimmen, dass das Seitenverhältnis reduziert wurde, aufweist. Während die GUI das verringerte Seitenverhältnis aufweist, ist der kleinere Azimutwinkel gemäß einem anderen Gesichtspunkt ein Winkel innerhalb eines Azimut-Schwenkbereichs der Vielzahl von Lautsprechern, der sich nicht vollständig über eine Breite des Anzeigebildschirms erstreckt, und der größere Höhenwinkel ist ein Winkel innerhalb eines Höhen-Schwenkbereichs der Vielzahl von Lautsprechern, der sich über eine Höhe des Anzeigebildschirms erstreckt.
  • Wie zuvor erklärt, kann ein Gesichtspunkt der Offenbarung ein nicht transitorisches maschinenlesbares Medium (wie zum Beispiel ein mikroelektronischer Speicher) sein, auf dem Anweisungen gespeichert sind, die eine oder mehrere Datenverarbeitungskomponenten (hierin generisch als ein Prozessor bezeichnet) programmieren, um die Netzwerkvorgänge und Audiosignalverarbeitungsvorgänge, wie hierin beschrieben, auszuführen. In anderen Gesichtspunkten könnten manche dieser Vorgänge durch spezifische Hardwarekomponenten ausgeführt werden, die fest verdrahtete Logik enthalten. Diese Vorgänge könnten alternativ durch eine beliebige Kombination von programmierten Datenverarbeitungskomponenten und festen fest verdrahteten Schaltungskomponenten ausgeführt werden. Gemäß einem Gesichtspunkt können die Vorgänge der hierin beschriebenen Verfahren durch die lokale Vorrichtung ausgeführt werden, wenn der eine oder die mehreren Prozessoren Anweisungen ausführen, die innerhalb des nicht-transitorischen maschinenlesbaren Mediums gespeichert sind.
  • Auch wenn gewisse Gesichtspunkte beschrieben und in den begleitenden Zeichnungen gezeigt wurden, sollte es sich verstehen, dass solche Gesichtspunkte für die breite Offenbarung lediglich veranschaulichend und nicht einschränkend sind und dass die Offenbarung nicht auf die gezeigten und beschriebenen spezifischen Konstruktionen und Anordnungen eingeschränkt ist, weil dem Fachmann verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend und nicht als einschränkend zu betrachten.
  • Gemäß manchen Gesichtspunkten kann dieser Offenbarung zum Beispiel die Sprache „mindestens eines von [Element A] und [Element B]“ einschließen. Diese Sprache kann sich auf eines oder mehrere der Elemente beziehen. Zum Beispiel kann sich „mindestens eines von A und B“ auf „A“, „B“ oder „A und B“ beziehen. Speziell kann sich „mindestens eines von A und B“ auf „mindestens eines von A und mindestens eines von B“ oder „mindestens von entweder A oder B“ beziehen. Gemäß manchen Gesichtspunkten kann diese Offenbarung zum Beispiel die Sprache „[Element A], [Element B] und/oder [Element C]“ einschließen. Diese Sprache kann sich auf eines der Elemente oder jede Kombination davon beziehen. Zum Beispiel kann sich „A, B und/oder C“ auf „A“, „B“, „C“, „A und B“, „A und C, „B und C“ oder „A, B und C“ beziehen.

Claims (23)

  1. Verfahren, das von einem programmierten Prozessor einer lokalen Vorrichtung ausgeführt wird, die kommunikativ mit einer Vielzahl von entfernten Vorrichtungen gekoppelt ist, wobei das Verfahren Folgendes umfasst: Empfangen eines Eingangsaudiostroms von jeder entfernten Vorrichtung der Vielzahl von entfernten Vorrichtungen, mit denen die lokale Vorrichtung an einer Kommunikationssitzung beteiligt ist; Empfangen eines Satzes von Kommunikationssitzungsparametern für jede entfernte Vorrichtung; Bestimmen, für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom 1) in Bezug auf die anderen empfangenen Eingangsaudioströme individuell gerendert werden soll, oder 2) als eine Mischung von Eingangsaudioströmen mit einem oder mehreren anderen Eingangsaudioströmen gerendert werden soll, basierend auf dem Satz von Kommunikationssitzungsparametern; räumliches Rendern des Eingangsaudiostroms als eine individuelle virtuelle Tonquelle, die nur diesen Eingangsaudiostrom enthält, für jeden Eingangsaudiostrom, für den bestimmt wird, dass er individuell gerendert werden soll; und räumliches Rendern der Mischung von Eingangsaudioströmen als eine einzelne virtuelle Tonquelle, welche die Mischung von Eingangsaudioströmen enthält, für Eingangsaudioströme, für die bestimmt wird, dass sie als die Mischung von Eingangsaudioströmen gerendert werden sollen.
  2. Verfahren nach Anspruch 1, wobei das räumliche Rendern jedes der Eingangsaudioströme und der Mischung von Eingangsaudioströmen das Erzeugen eines einzelnen Satzes von Treibersignalen umfasst, die verwendet werden, um eine Vielzahl von Lautsprechern der lokalen Vorrichtung anzusteuern.
  3. Verfahren nach Anspruch 1, wobei die lokale Vorrichtung konfiguriert ist, um eine vordefinierte Anzahl von virtuellen Tonquellen auszugeben, wobei eine Anzahl von Eingangsaudioströmen, für die bestimmt wird, dass sie individuell gerendert werden sollen, kleiner ist als die vordefinierte Anzahl von virtuellen Tonquellen.
  4. Verfahren nach Anspruch 1, ferner umfassend das Empfangen eines Sprachaktivitätserkennungssignals (VAD-Signals) von jeder entfernten Vorrichtung der Vielzahl von entfernten Vorrichtungen, wobei jeder Satz von Kommunikationssitzungsparametern mindestens einen VAD-Parameter basierend auf dem VAD-Signal einschließt, das mindestens eines von Sprachaktivität und Sprachstärke eines entfernten Teilnehmers einer jeweiligen entfernten Vorrichtung angibt, wobei das Bestimmen, für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom individuell oder als eine Mischung von Eingangsaudioströmen gerendert werden soll, Folgendes umfasst: Bestimmen, dass der Eingangsaudiostrom individuell gerendert werden soll, wenn der VAD-Parameter über einem Schwellenwert liegt; und Bestimmen, dass der Eingangsaudiostrom als die Mischung gerendert werden soll, wenn der VAD-Parameter unter dem Schwellenwert liegt.
  5. Verfahren nach Anspruch 1, ferner umfassend das Empfangen, von jeder entfernten Vorrichtung der Vielzahl von entfernten Vorrichtungen, des Eingangsaudiostroms und eines Eingangsvideostroms zum Anzeigen als eine visuelle Darstellung in einer grafischen Benutzerschnittstelle (GUI) auf einem Anzeigebildschirm der lokalen Vorrichtung.
  6. Verfahren nach Anspruch 5, wobei jeder Satz von Kommunikationssitzungsparametern eine Position der visuellen Darstellung eines jeweiligen Eingangsvideostroms in der GUI angibt, wobei das Bestimmen, für jeden Eingangsaudiostrom, ob der Eingangsaudiostrom individuell oder als die Mischung von Eingangsaudioströmen gerendert werden soll, Folgendes umfasst: Bestimmen, dass der Eingangsaudiostrom individuell gerendert werden soll, wenn die visuelle Darstellung des jeweiligen Eingangsvideostroms, der dem Eingangsaudiostrom zugeordnet ist, innerhalb eines Canvas-Bereichs der GUI ist; und Bestimmen, dass der Eingangsaudiostrom als die Mischung gerendert werden soll, wenn die visuelle Darstellung des jeweiligen Eingangsvideostroms, der dem Eingangsaudiostrom zugeordnet ist, innerhalb eines Listenbereichs der GUI ist, der vom Canvas-Bereich getrennt ist.
  7. Verfahren nach Anspruch 5, wobei jeder Satz von Videokommunikationssitzungsparametern eine Größe der visuellen Darstellung eines jeweiligen Eingangsvideostroms in der GUI angibt, wobei das Bestimmen, ob der Eingangsaudiostrom individuell oder als die Mischung von Eingangsaudioströmen gerendert werden soll, Folgendes umfasst: Bestimmen, dass der Eingangsaudiostrom individuell gerendert werden soll, wenn die Größe der visuellen Darstellung des jeweiligen Eingangsvideostroms, der dem Eingangsaudiostrom zugeordnet ist, über einer Schwellenwertgröße liegt; und Bestimmen, dass der Eingangsaudiostrom als die Mischung gerendert werden soll, wenn die Größe der visuellen Darstellung des jeweiligen Eingangsvideostroms, der dem Eingangsaudiostrom zugeordnet ist, unter der Schwellenwertgröße liegt.
  8. Verfahren nach Anspruch 1, wobei die visuellen Darstellungen der Eingangsvideoströme in einer ersten Anordnung in der GUI sind, wobei das Verfahren ferner das Bestimmen einer zweiten Anordnung von Positionen für die individuellen virtuellen Tonquellen und die einzelne virtuelle Quelle, die jeweils entweder vor, hinter oder auf einer Seite des Anzeigebildschirms der lokalen Vorrichtung sind, basierend auf den Kommunikationssitzungsparametern umfasst.
  9. Verfahren nach Anspruch 8, wobei die zweite Anordnung die gleiche wie die erste Anordnung ist, sodass sich jede der individuellen virtuellen Tonquellen an einer jeweiligen visuellen Darstellung befindet.
  10. Verfahren nach Anspruch 8, wobei die zweite Anordnung die gleiche und proportional größer als die erste Anordnung ist.
  11. Verfahren, das von einem programmierten Prozessor einer lokalen Vorrichtung ausgeführt wird, wobei das Verfahren Folgendes umfasst: Ausgeben, unter Verwendung einer Vielzahl von Lautsprechern, eines Eingangsaudiostroms von einer entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Kommunikationssitzung als eine virtuelle Tonquelle an einer Position in Bezug auf einen Referenzpunkt, der außerhalb der lokalen Vorrichtung ist, beteiligt ist; und Anpassen der Position der virtuellen Tonquelle entlang einer horizontalen Achse in Bezug auf den Referenzpunkt als Reaktion auf eine Ausrichtung der lokalen Vorrichtung, die sich in eine neue Ausrichtung ändert.
  12. Verfahren nach Anspruch 11, wobei die Position, an der sich die virtuelle Tonquelle vor dem Anpassen befindet, einen ersten Azimutwinkel entlang der horizontalen Achse in Bezug auf den Referenzpunkt aufweist und die angepasste Position einen zweiten Azimutwinkel aufweist, der größer als der erste Azimutwinkel ist.
  13. Verfahren nach Anspruch 12, wobei der erste Azimutwinkel innerhalb eines ersten Azimut-Schwenkbereichs der Vielzahl von Lautsprechern ist, während die lokale Vorrichtung innerhalb der Ausrichtung ist, und der zweite Azimutwinkel innerhalb eines zweiten Azimut-Schwenkbereichs der Vielzahl von Lautsprechern ist, der größer als der erste Azimut-Schwenkbereich ist, während die lokale Vorrichtung innerhalb der neuen Ausrichtung ist, wobei der zweite Azimutwinkel proportional größer als der erste Azimutwinkel in Bezug auf die Differenz zwischen dem ersten und dem zweiten Azimut-Schwenkbereich ist.
  14. Verfahren nach Anspruch 11, ferner umfassend das Anpassen der Position der virtuellen Tonquelle entlang einer vertikalen Achse in Bezug auf den Referenzpunkt als Reaktion darauf, dass sich die Ausrichtung der lokalen Vorrichtung auf die neue Ausrichtung ändert, wobei die Position einen ersten Höhenwinkel entlang der vertikalen Achse aufweist und die angepasste Position einen zweiten Höhenwinkel aufweist, der kleiner als der erste Höhenwinkel ist.
  15. Verfahren nach Anspruch 11, wobei die Ausrichtung eine Hochformat-Ausrichtung ist und die neue Ausrichtung eine Querformat-Ausrichtung ist.
  16. Verfahren nach Anspruch 11, ferner umfassend das Anpassen der Position der virtuellen Tonquelle entlang der horizontalen Achse zurück zur Position in Bezug auf den Referenzpunkt als Reaktion darauf, dass sich die neue Ausrichtung der lokalen Vorrichtung zurück auf die Ausrichtung ändert.
  17. Verfahren, das von einem programmierten Prozessor einer lokalen Vorrichtung ausgeführt wird, wobei das Verfahren Folgendes umfasst: Ausgeben, unter Verwendung einer Vielzahl von Lautsprechern, eines Eingangsaudiostroms von einer entfernten Vorrichtung, mit der die lokale Vorrichtung an einer Videokommunikationssitzung als eine virtuelle Tonquelle an einer Position innerhalb einer Umgebung, in der sich die entfernte Vorrichtung befindet, beteiligt ist; Anzeigen einer grafischen Benutzerschnittstelle (GUI) der Videokommunikationssitzung auf einem Anzeigebildschirm, der eine visuelle Darstellung eines entfernten Teilnehmers der entfernten Vorrichtung einschließt, wobei die GUI ein Seitenverhältnis auf dem Anzeigebildschirm aufweist; Bestimmen, dass das Seitenverhältnis geändert wurde; und Anpassen der Position der virtuellen Tonquelle gemäß dem geänderten Seitenverhältnis.
  18. Verfahren nach Anspruch 17, wobei das Bestimmen, dass sich das Seitenverhältnis geändert hat, das Empfangen einer Benutzereingabe umfasst, die entweder eine Breite oder eine Höhe der GUI ändert.
  19. Verfahren nach Anspruch 17, wobei die Position einen Azimutwinkel und einen Höhenwinkel in Bezug auf einen Referenzpunkt vor der lokalen Vorrichtung einschließt, wobei die angepasste Position einen höheren Azimutwinkel und einen niedrigeren Höhenwinkel als Reaktion auf das Bestimmen, dass das Seitenverhältnis erhöht wurde, aufweist.
  20. Verfahren nach Anspruch 19, wobei, während die GUI das erhöhte Seitenverhältnis aufweist, der höhere Azimutwinkel ein Winkel innerhalb eines Azimut-Schwenkbereichs der Vielzahl von Lautsprechern ist, der sich über eine Breite des Anzeigebildschirms erstreckt, und der niedrigere Höhenwinkel ein Winkel innerhalb eines Höhen-Schwenkbereichs der Vielzahl von Lautsprechern ist, der sich nicht vollständig über eine Höhe des Anzeigebildschirms erstreckt.
  21. Verfahren nach Anspruch 17, wobei die angepasste Position der virtuellen Tonquelle unabhängig von einer Position und Ausrichtung des Anzeigebildschirms ist.
  22. Verfahren nach Anspruch 17, wobei die angepasste Position der virtuellen Tonquelle unabhängig von einer Größe der GUI ist, die innerhalb des Anzeigebildschirms angezeigt wird.
  23. Verfahren nach Anspruch 17, wobei die angepasste Position der virtuellen Tonquelle unabhängig von einer Position der GUI innerhalb des Anzeigebildschirms ist.
DE102022205633.7A 2021-06-04 2022-06-02 Räumliche audiosteuerung Pending DE102022205633A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/339,864 US11832077B2 (en) 2021-06-04 2021-06-04 Spatial audio controller
US17/339,864 2021-06-04

Publications (1)

Publication Number Publication Date
DE102022205633A1 true DE102022205633A1 (de) 2022-12-08

Family

ID=84101983

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022205633.7A Pending DE102022205633A1 (de) 2021-06-04 2022-06-02 Räumliche audiosteuerung

Country Status (3)

Country Link
US (1) US11832077B2 (de)
CN (1) CN115442556A (de)
DE (1) DE102022205633A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117082435B (zh) * 2023-10-12 2024-02-09 腾讯科技(深圳)有限公司 虚拟音频的交互方法、装置和存储介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2848009B1 (de) 2012-05-07 2020-12-02 Dolby International AB Verfahren und vorrichtung für layout- und formatunabhängige 3d-audiowiedergabe
US20150189457A1 (en) * 2013-12-30 2015-07-02 Aliphcom Interactive positioning of perceived audio sources in a transformed reproduced sound field including modified reproductions of multiple sound fields
US11523243B2 (en) 2020-09-25 2022-12-06 Apple Inc. Systems, methods, and graphical user interfaces for using spatialized audio during communication sessions

Also Published As

Publication number Publication date
US11832077B2 (en) 2023-11-28
CN115442556A (zh) 2022-12-06
US20220394407A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
US8411126B2 (en) Methods and systems for close proximity spatial audio rendering
DE202017105484U1 (de) Dreidimensionales Telepräsenzsystem
DE102015100911A1 (de) Verbesserte Kommunikation zwischen entfernten Teilnehmern/Teilnehmerinnen mittels erweiterter und virtueller Realität
IL298624B2 (en) System and tools to improve the creation and presentation of 3D sound
EP3588926B1 (de) Vorrichtungen und zugehörige verfahren zur räumlichen präsentation von audio
DE102006017791A1 (de) Wiedergabegerät und Wiedergabeverfahren
EP3331240A1 (de) Verfahren und vorrichtung zum aufbau einer virtuellen sitzungsszene
DE102016101316A1 (de) Informationsverarbeitungsverfahren und elektronisches Gerät
US9438859B2 (en) Method and device for controlling a conference
US11221821B2 (en) Audio scene processing
DE102021103210A1 (de) Surround-Sound-Wiedergabe basierend auf Raumakustik
US8155358B2 (en) Method of simultaneously establishing the call connection among multi-users using virtual sound field and computer-readable recording medium for implementing the same
DE112021001516T5 (de) Hörhilfeneinheit mit intelligenter audiofokussteuerung
DE102022205633A1 (de) Räumliche audiosteuerung
DE112021003592T5 (de) Informationsverarbeitungsvorrichtung, Ausgabesteuerverfahren und Programm
DE102022204702A1 (de) Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs
Aoki et al. Design and control of shared conferencing environments for audio telecommunication using individually measured HRTFs
DE112021004887T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem
DE112021004727T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm
WO2022253856A2 (en) Virtual interaction system
DE102022117387A1 (de) Verfahren und system zur lautstärkesteuerung
DE102023116204A1 (de) Verfahren und System zur akkustischen Durchleitung
US11589184B1 (en) Differential spatial rendering of audio sources
AT413010B (de) Vorrichtung zur herleitung von räumlichen schallsignalen
DE202014105825U1 (de) Drahtloses Akustiksystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed