ES3049082T3

ES3049082T3 - Audio apparatus, audio distribution system and method of operation therefor

Info

Publication number: ES3049082T3
Application number: ES19733813T
Authority: ES
Inventors: Christiaan Varekamp; Jeroen Koppens; Bart Kroon; Nathan Souviraà-Labastie; Arnoldus Oomen
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-07-09
Filing date: 2019-07-02
Publication date: 2025-12-12
Anticipated expiration: 2039-07-02
Also published as: WO2020011588A1; PL3821333T3; JP7354225B2; EP3821333B1; EP3594802A1; US20230251819A1; MX2021000136A; CN118413804A; US12147730B2; US11656839B2; US20220137916A1; CN112400158A; BR112021000163A2; EP3821333A1; CN112400158B; EP3821333C0; JP2021524612A

Abstract

Un sistema de distribución comprende un servidor de audio (101) para recibir audio entrante de clientes remotos (103) y transmitir audio derivado de dicho audio a dichos clientes. Un aparato de audio comprende un receptor de audio (401) que recibe datos que incluyen: datos de audio para varios componentes de audio que representan audio de uno de los clientes remotos; y datos de proximidad para al menos uno de los componentes de audio. Los datos de proximidad indican la proximidad entre clientes remotos. Un generador (403) del aparato genera una mezcla de audio a partir de los componentes de audio en respuesta a los datos de proximidad. Por ejemplo, un componente de audio que se indique próximo a un cliente remoto puede excluirse de la mezcla de audio para dicho cliente. (Traducción automática con Google Translate, sin valor legal)

Description

[0001] DESCRIPCIÓN

[0003] Aparato de audio, sistema de distribución de audio y procedimiento de funcionamiento del mismo

[0005] CAMPO DE LA INVENCIÓN

[0007] La invención se refiere a un aparato de audio, a un sistema de distribución de audio y a un procedimiento para el mismo y, en particular, pero no exclusivamente, a su uso para admitir una aplicación de conferencia de realidad aumentada/virtual.

[0009] ANTECEDENTES DE LA INVENCIÓN

[0011] La variedad y la gama de experiencias basadas en contenidos audiovisuales han aumentado sustancialmente en los últimos años con nuevos servicios y formas de usar y consumir dichos contenidos que se desarrollan e introducen continuamente. En particular, se están desarrollando muchos servicios, aplicaciones y experiencias espaciales e interactivas para ofrecer a los usuarios una experiencia más participativa e inmersiva.

[0013] Ejemplos de tales aplicaciones son las aplicaciones de realidad virtual RV y realidad aumentada RA que se están convirtiendo rápidamente en la corriente principal, con una serie de soluciones dirigidas al mercado de consumo. Varios organismos de estandarización también están desarrollando una serie de estándares. Dichas actividades de estandarización están desarrollando activamente estándares para los diversos aspectos de los sistemas de RV/RA, incluyendo, por ejemplo, la transmisión, la radiodifusión, la representación, etc.

[0015] Las aplicaciones de RV tienden a proporcionar experiencias de usuario correspondientes al usuario que se encuentra en un mundo/entorno/escena diferente, mientras que las aplicaciones de<r>A (incluyendo la realidad mixta(Mixed Reality,MR) tienden a proporcionar experiencias de usuario correspondientes al usuario que se encuentra en el entorno actual, pero con información adicional u objetos virtuales o información que se agrega. Por lo tanto, las aplicaciones de RV tienden a proporcionar un mundo/escena generado sintéticamente totalmente inmersivo, mientras que las aplicaciones de RA tienden a proporcionar un mundo/escena parcialmente sintético que se superpone a la escena real donde el usuario está físicamente presente. Sin embargo, los términos a menudo se usan indistintamente y tienen un alto grado de superposición. A continuación, se usará el término realidad virtual/RV para denotar tanto la realidad virtual como la realidad aumentada.

[0017] Como ejemplo, un servicio cada vez más popular es la provisión de imágenes y audio de tal manera que un usuario pueda interactuar activa y dinámicamente con el sistema para cambiar los parámetros de la representación de tal manera que esto se adapte al movimiento y los cambios en la posición y orientación del usuario. Una característica muy atractiva en muchas aplicaciones es la capacidad de cambiar la posición de visualización efectiva y la dirección de visualización del espectador, tal como, por ejemplo, permitir que el espectador se mueva y “mire a su alrededor” en la escena que se presenta.

[0019] Dicha característica puede permitir específicamente que se proporcione una experiencia de realidad virtual a un usuario. Esto puede permitir al usuario moverse (relativamente) libremente en un entorno virtual y cambiar dinámicamente su posición y dónde está mirando. Típicamente, dichas aplicaciones de realidad virtual se basan en un modelo tridimensional de la escena, evaluándose el modelo dinámicamente para proporcionar la vista específica solicitada. Esta estrategia es bien conocida, por ejemplo, en aplicaciones de juegos, como en la categoría deshootersen primera persona, para ordenadores y consolas.

[0021] También es deseable, en particular para aplicaciones de realidad virtual, que la imagen que se presente sea una imagen tridimensional. De hecho, con el fin de optimizar la inmersión del espectador, típicamente se prefiere que el usuario experimente la escena presentada como una escena tridimensional. De hecho, una experiencia de realidad virtual debería permitir preferentemente que un usuario seleccione su propia posición, punto de vista de la cámara y momento en el tiempo en relación con un mundo virtual.

[0023] Típicamente, las aplicaciones de realidad virtual están intrínsecamente limitadas al basarse en un modelo predeterminado de la escena y, típicamente, en un modelo artificial de un mundo virtual. En algunas aplicaciones, se puede proporcionar una experiencia de realidad virtual basada en la captura del mundo real. En muchos casos, dicha estrategia tiende a basarse en un modelo virtual del mundo real que se construye a partir de las capturas del mundo real. A continuación, se genera la experiencia de realidad virtual mediante la evaluación de este modelo.

[0025] Muchas estrategias actuales tienden a ser subóptimas y a menudo tienen un alto requisito de recursos computacionales o de comunicación y/o proporcionan una experiencia de usuario subóptima con, por ejemplo, calidad reducida o libertad restringida.

[0027] Como ejemplo de una aplicación, han entrado en el mercado gafas de realidad virtual que permiten a los espectadores experimentar vídeo capturado en 360° (panorámico) o 180°. Estos vídeos de 360° a menudo se capturan previamente usando plataformas de cámara donde las imágenes individuales se unen en un único mapeo esférico. Los formatos estéreo comunes para vídeo de 180° o 360° son superior/inferior e izquierda/derecha. Al igual que el vídeo estéreo no panorámico, las imágenes del ojo izquierdo y del ojo derecho se comprimen, por ejemplo, como parte de una sola transmisión de vídeo H.264.

[0029] Además de la representación visual, la mayoría de las aplicaciones de RV/RA proporcionan además una experiencia de audio correspondiente. En muchas aplicaciones, el audio proporciona preferentemente una experiencia de audio espacial donde se percibe que las fuentes de audio llegan desde posiciones que corresponden a las posiciones de los objetos correspondientes en la escena visual. Por lo tanto, las escenas de audio y vídeo se perciben preferentemente como consistentes y con ambas proporcionando una experiencia espacial completa.

[0031] Para el audio, la estrategia hasta ahora se ha centrado principalmente en la reproducción de auriculares usando la tecnología de representación de audio binaural. En muchos escenarios, la reproducción de auriculares permite una experiencia altamente inmersiva y personalizada para el usuario. Mediante el seguimiento del movimiento de la cabeza (headtracking), la representación puede hacerse sensible a los movimientos de la cabeza del usuario, lo que aumenta en gran medida la sensación de inmersión.

[0033] Recientemente, tanto en el mercado como en las discusiones sobre estándares, se comienzan a proponer casos de uso que involucran un aspecto "social" o "compartido" de la RV (y RA), es decir, la posibilidad de compartir una experiencia junto con otras personas. Pueden ser personas en diferentes ubicaciones, pero también personas en la misma ubicación (o una combinación de ambas). Por ejemplo, varias personas en la misma sala pueden compartir la misma experiencia de RV con una proyección (audio y vídeo) de cada participante presente en el contenido/escena de RV. Por ejemplo, en un juego donde participan varias personas, cada jugador puede tener una ubicación diferente en la escena del juego y, en consecuencia, una proyección diferente de la escena de audio y vídeo.

[0035] En un ejemplo específico, MPEG intenta estandarizar un flujo de bits y un decodificador para experiencias de RA/RV realistas e inmersivas con seis grados de libertad. La RV social es una característica importante y permite a los usuarios interactuar en un entorno compartido (juegos, conferencias telefónicas, compras en línea, etc.). El concepto de RV social también facilita hacer de una experiencia de RV una actividad más social para los usuarios físicamente en la misma ubicación, pero donde, por ejemplo, una pantalla montada en la cabeza u otro auricular de RV proporciona un aislamiento perceptivo del entorno físico.

[0037] Un ejemplo particular de aplicaciones sociales de RV es una aplicación de conferencia donde los usuarios en diferentes ubicaciones pueden compartir una "sala de reuniones" virtual con los usuarios, por ejemplo, estando representados por avatares. En otro ejemplo, a cada usuario se le puede presentar una representación de otros participantes que se representan virtualmente en el propio entorno local del usuario, por ejemplo, superponiendo el mundo real usando gafas de RA con avatares correspondientes a otros usuarios, de modo que los avatares den la impresión de que están presentes en la sala. Además, se puede proporcionar al usuario individual una escena de audio que incluya el audio relevante de todos los demás participantes y representándose espacialmente este audio en las posiciones de fuente de audio percibidas apropiadas. Esta representación de audio y vídeo se realiza de tal manera que las posiciones visuales y de audio para un participante dado se corresponden entre sí.

[0039] En los documentos WO 2017/205986A1 y US 7379 962 B1 se describen ejemplos de sistemas de teleconferencia que admiten participantes remotos.

[0041] Para proporcionar la experiencia óptima, es deseable que la percepción de audio y vídeo se alinee estrechamente, y en particular para las aplicaciones de RA, es deseable que esto se alinee aún más con la escena del mundo real. Sin embargo, esto a menudo es difícil de lograr, ya que puede haber una serie de problemas que pueden afectar la percepción del usuario. Por ejemplo, en la práctica, el usuario típicamente usará el aparato en una ubicación que no se puede garantizar que sea completamente silenciosa u oscura. Aunque los auriculares pueden tratar de bloquear la luz y el sonido, esto típicamente solo se logrará parcialmente. Además, en las aplicaciones de RA, a menudo es parte de la experiencia que el usuario también pueda experimentar el entorno local y, por lo tanto, no es práctico bloquear este entorno por completo.

[0043] Por lo tanto, una estrategia mejorada para generar audio, en particular para una experiencia/aplicación de realidad virtual/aumentada, tal como, por ejemplo, una aplicación de conferencia de RV/RA, sería ventajoso. En particular, una estrategia que permita un funcionamiento mejorado, una mayor flexibilidad, una complejidad reducida, una implementación facilitada, una experiencia de audio mejorada, una percepción más consistente de una escena de audio y visual, una menor sensibilidad a errores de fuentes en un entorno local; una experiencia de realidad virtual mejorada y/o un desempeño y/o funcionamiento mejorados sería ventajoso.

[0045] RESUMEN DE LA INVENCIÓN

[0047] Por consiguiente, la invención busca preferentemente mitigar, aliviar o eliminar una o más de las desventajas mencionadas anteriormente individualmente o en cualquier combinación.

[0048] Según un aspecto de la invención, se proporciona un aparato de audio según la reivindicación 1.

[0050] La invención puede proporcionar una experiencia de usuario mejorada en muchas realizaciones y puede proporcionar específicamente una distribución de audio mejorada en muchas aplicaciones, tales como específicamente aplicaciones de conferencia basadas en una estrategia de RA/RV. La estrategia puede proporcionar una percepción de audio mejorada en escenarios donde los usuarios/participantes están, por ejemplo, en la misma sala. Típicamente, se puede lograr una percepción mejorada y más natural de la escena de audio y, en muchos escenarios, se pueden mitigar o reducir la interferencia y la inconsistencia resultantes de los usuarios/clientes colocados. La estrategia puede ser particularmente ventajosa para las aplicaciones de realidad virtual, RV (incluida la realidad aumentada, RA). Por ejemplo, puede proporcionar una experiencia de usuario mejorada para, por ejemplo, aplicaciones sociales de RV/RA donde una pluralidad de participantes está presente en la misma ubicación.

[0052] En muchas realizaciones, la estrategia puede proporcionar un desempeño mejorado mientras se mantiene una baja complejidad y uso de recursos.

[0054] Los datos de proximidad pueden ser específicamente datos de proximidad acústicos. Los datos de proximidad pueden comprender indicaciones de proximidad para conjuntos (típicamente pares) de clientes remotos. Una indicación de proximidad para un conjunto de clientes remotos puede ser indicativa de una distancia espacial entre los clientes remotos y/o las fuentes/usuarios de audio asociados, o puede, por ejemplo, ser indicativa de una atenuación acústica entre los clientes remotos y/o las fuentes/usuarios de audio asociados.

[0056] La mezcla de audio puede ser un conjunto de señales/canales de audio (potencialmente) comprendiendo contribuciones de una pluralidad de los componentes de audio.

[0058] Los datos de proximidad son indicativos de una proximidad del mundo real/absoluta/física entre clientes remotos. Los datos de proximidad reflejan específicamente la proximidad física real entre clientes remotos en el entorno acústico del mundo real.

[0060] El generador está dispuesto para generar una primera mezcla de audio para un primer cliente remoto de la pluralidad de clientes remotos, incluyendo la generación de la primera mezcla de audio determinar una atenuación en la primera mezcla de audio de un segundo componente de audio para un segundo cliente remoto en respuesta a los datos de proximidad.

[0062] Esto puede proporcionar una experiencia de usuario mejorada y/o un desempeño y percepción de audio mejorados en muchos escenarios. En particular, puede permitir una mejor adaptación de la percepción de audio combinada a la posible interferencia de audio entre la escena de audio reproducida y la escena de audio del mundo real. La atenuación en la primera mezcla de audio del segundo componente de audio para el segundo cliente remoto puede ser en respuesta a una indicación de proximidad en los datos de proximidad, siendo la indicación de proximidad indicativa de una proximidad/distancia entre el primer cliente remoto y el segundo cliente remoto.

[0064] Según una característica de la invención, el generador está dispuesto para atenuar el segundo componente de audio en la primera mezcla de audio para que los datos de proximidad cumplan un criterio de proximidad para el primer cliente remoto y el segundo cliente remoto.

[0066] Esto puede proporcionar una experiencia de usuario mejorada y/o un desempeño y percepción de audio mejorados en muchos escenarios. El generador puede estar dispuesto para atenuar el segundo componente de audio para los datos de proximidad que indican una medida de distancia entre el primer cliente remoto y el segundo cliente remoto por debajo de un umbral. La atenuación puede ser infinita. Específicamente, el generador puede estar dispuesto para suprimir/descartar/excluir el segundo componente de audio para los datos de proximidad que cumplen el criterio de proximidad para el primer cliente remoto y el segundo cliente remoto.

[0068] Según una característica opcional de la invención, el generador está dispuesto para atenuar el segundo componente de audio en la primera mezcla de audio para que los datos de proximidad cumplan un criterio de proximidad para el primer cliente remoto y el segundo cliente remoto.

[0070] Esto puede proporcionar una experiencia de usuario mejorada y/o un desempeño y percepción de audio mejorados en muchos escenarios. El generador puede estar dispuesto para atenuar el segundo componente de audio para los datos de proximidad que indican una medida de distancia entre el primer cliente remoto y el segundo cliente remoto por debajo de un umbral. La atenuación puede ser infinita. Específicamente, el generador puede estar dispuesto para suprimir/descartar/excluir el segundo componente de audio para los datos de proximidad que cumplen el criterio de proximidad para el primer cliente remoto y el segundo cliente remoto.

[0072] Según una característica de la invención, el aparato de audio forma parte del servidor de audio.

[0073] Esto puede proporcionar un alto desempeño y una implementación eficiente en muchas realizaciones.

[0074] Según una característica de la invención, el aparato de audio forma parte de un cliente remoto de la pluralidad de clientes remotos.

[0075] Esto puede proporcionar un alto desempeño y una implementación eficiente en muchas realizaciones.

[0076] Según una característica opcional de la invención, los datos de proximidad comprenden una indicación de proximidad escalar para al menos un primer cliente remoto y un segundo cliente remoto, siendo la indicación de proximidad escalar indicativa de una atenuación acústica desde una fuente de audio del segundo cliente remoto a un elemento de captura del primer cliente remoto.

[0077] Esto puede proporcionar un funcionamiento particularmente ventajoso en muchas realizaciones. En algunas realizaciones, la indicación de proximidad escalar puede ser una indicación de proximidad binaria que indica si los clientes remotos correspondientes son proximales o no (por ejemplo, en la misma sala).

[0078] Según una característica opcional de la invención, los datos de proximidad comprenden una indicación de proximidad diferente de un primer cliente remoto a un segundo cliente remoto que del segundo cliente remoto al primer cliente remoto.

[0079] Esto puede proporcionar un funcionamiento ventajoso en muchos escenarios. La estrategia puede permitir y admitir indicaciones de proximidad asimétricas, por ejemplo, que reflejen las diferencias acústicas locales (como cuando se usan micrófonos direccionales o un participante usa auriculares cerrados).

[0080] Según una característica opcional de la invención, el receptor está dispuesto para recibir datos de proximidad que se adaptan dinámicamente a los cambios en las posiciones de al menos uno de la pluralidad de clientes remotos. Esto puede proporcionar un funcionamiento eficiente y puede proporcionar una estrategia que se adapte dinámicamente a los movimientos del usuario.

[0081] Según un aspecto de la invención, se proporciona un sistema de distribución de audio según la reivindicación 6. Según una característica opcional de la invención, el sistema de distribución de audio comprende un detector de proximidad dispuesto para determinar una indicación de proximidad para un primer cliente remoto y un segundo cliente remoto en respuesta a una comparación de un primer componente de audio para el primer cliente remoto y un segundo componente de audio para un segundo cliente remoto; y un transmisor para transmitir datos de proximidad comprendiendo la indicación de proximidad al receptor.

[0082] Esto puede proporcionar un desempeño particularmente ventajoso y una baja complejidad en muchas realizaciones. Según una característica opcional de la invención, el detector de proximidad forma parte del servidor de audio. Esto puede proporcionar un desempeño particularmente ventajoso y una baja complejidad en muchas realizaciones. Según una característica opcional de la invención, un primer cliente remoto de la pluralidad de clientes remotos comprende: una entrada para generar una señal de micrófono correspondiente al audio capturado por un conjunto de micrófonos; un detector de proximidad dispuesto para determinar una indicación de proximidad para el primer cliente remoto en respuesta a una comparación de la señal de micrófono y el audio recibido desde el servidor de audio; y un transmisor para transmitir datos de audio acústicos comprendiendo la indicación de proximidad al servidor de audio. Esto puede proporcionar un desempeño particularmente ventajoso y una baja complejidad en muchas realizaciones. El conjunto de micrófonos puede incluir, en algunas realizaciones, un único micrófono o puede comprender, por ejemplo, una pluralidad de micrófonos, tal como, por ejemplo, una matriz de micrófonos, por ejemplo, usada para la formación de haz/captura direccional.

[0083] Según una característica opcional de la invención, el transmisor está dispuesto para transmitir datos de proximidad que son indicativos de que se determina que un cliente remoto actualmente activo es proximal en respuesta al primer detector de proximidad que detecta una alta correlación entre la señal de micrófono y el audio recibido desde el servidor de audio.

[0084] Esto puede proporcionar un desempeño particularmente ventajoso y una baja complejidad en muchas realizaciones. Según un aspecto de la invención, se proporciona un procedimiento según la reivindicación 11.

[0085] Estos y otros aspectos, características y ventajas de la invención resultarán evidentes y se esclarecerán en referencia a las realizaciones que se describen a continuación.

[0087] BREVE DESCRIPCIÓN DE LOS DIBUJOS

[0089] Las realizaciones de la invención se describirán solo a modo de ejemplo, con referencia a los dibujos, donde

[0090] la FIG. 1 ilustra un ejemplo de un sistema de distribución de audio;

[0091] la FIG. 2 ilustra un ejemplo de un sistema de distribución de audio;

[0092] la FIG. 3 ilustra un ejemplo de un sistema de distribución de audio para audioconferencia;

[0093] la FIG. 4 ilustra un ejemplo de elementos de un aparato de audio según algunas realizaciones de la invención; la FIG. 5 ilustra un ejemplo de elementos de un sistema de distribución de audio según algunas realizaciones de la invención y

[0094] la FIG. 6 ilustra un ejemplo de elementos de un cliente remoto para un sistema de distribución de audio según algunas realizaciones de la invención.

[0096] DESCRIPCIÓN DETALLADA DE ALGUNAS REALIZACIONES DE LA INVENCIÓN

[0098] Las experiencias virtuales (incluidas las aumentadas) que permiten a un usuario moverse en un mundo virtual o aumentado son cada vez más populares y se están desarrollando servicios para satisfacer tales demandas. En muchas de estas estrategias, los datos visuales y de audio pueden generarse dinámicamente para reflejar la pose actual de un usuario (o espectador).

[0100] En el campo, los términos colocación y pose se usan como un término común para posición y/o dirección/orientación. La combinación de la posición y la dirección/orientación de, por ejemplo, un objeto, una cámara, una cabeza o una vista se puede denominar pose o colocación. Por lo tanto, una indicación de colocación o pose puede comprender hasta seis valores/componentes/grados de libertad describiendo cada valor/componente típicamente una propiedad individual de la posición/ubicación o la orientación/dirección del objeto correspondiente. Por supuesto, en muchas situaciones, una colocación o pose puede estar representada por menos componentes, por ejemplo, si uno o más componentes se consideran fijos o irrelevantes (por ejemplo, si se considera que todos los objetos están a la misma altura y tienen una orientación horizontal, cuatro componentes pueden proporcionar una representación completa de la pose de un objeto). A continuación, el término pose se usa para referirse a una posición y/u orientación que puede estar representada por uno a seis valores (correspondientes a los máximos grados de libertad posibles).

[0102] Muchas aplicaciones de RV se basan en una pose que tiene los grados máximos de libertad, es decir, tres grados de libertad de cada una de la posición y la orientación, lo que da como resultado un total de seis grados de libertad. Por lo tanto, una pose puede representarse mediante un conjunto o vector de seis valores que representan los seis grados de libertad y, por lo tanto, un vector de pose puede proporcionar una posición tridimensional y/o una indicación de dirección tridimensional. Sin embargo, se apreciará que en otras realizaciones, la pose puede estar representada por menos valores.

[0104] Un sistema o entidad basado en proporcionar el máximo grado de libertad para el espectador típicamente se conoce como tener 6 grados de libertad(6 Degrees of Freedom,6 DoF). Muchos sistemas y entidades solo proporcionan una orientación o posición, y se conocen normalmente como poseedores de 3 grados de libertad (3Degrees of Freedom,3 DoF).

[0106] La FIG. 5 ilustra un ejemplo de elementos de un sistema de distribución de audio según algunas realizaciones de la invención; y

[0108] La FIG. 6 ilustra un ejemplo de elementos de un cliente remoto para un sistema de distribución de audio según algunas realizaciones de la invención.

[0110] DESCRIPCIÓN DETALLADA DE ALGUNAS REALIZACIONES DE LA INVENCIÓN

[0112] Las experiencias virtuales (incluidas las aumentadas) que permiten a un usuario moverse en un mundo virtual o aumentado son cada vez más populares y los servicios son entidades que solo proporcionan una orientación o posición y, típicamente, se conocen como 3 grados de libertad (3Degrees of Freedom,3DoF).

[0114] Típicamente, la aplicación de realidad virtual genera una salida tridimensional en forma de imágenes de vista separadas para los ojos izquierdo y derecho. A continuación, estas pueden presentarse al usuario por medios adecuados, tales como pantallas para los ojos izquierdo y derecho típicamente individuales de un auricular de RV. En otras realizaciones, una o más imágenes de visualización pueden, por ejemplo, presentarse en una pantalla autoestereoscópica, o de hecho, en algunas realizaciones solo se puede generar una única imagen bidimensional (por ejemplo, usando una pantalla bidimensional convencional).

[0116] De manera similar, para una pose dada de espectador/usuario/oyente, se puede proporcionar una representación de audio de la escena. La escena de audio se representa típicamente para proporcionar una experiencia espacial donde se percibe que las fuentes de audio se originan desde las posiciones deseadas. Como las fuentes de audio pueden estar estáticas en la escena, los cambios en la pose del usuario darán como resultado un cambio en la posición relativa de la fuente de audio con respecto a la pose del usuario. Por consiguiente, la percepción espacial de la fuente de audio debe cambiar para reflejar la nueva posición con respecto al usuario. Por consiguiente, la representación de audio puede adaptarse según la pose del usuario.

[0118] En muchas realizaciones, la representación de audio es una representación binaural que usa funciones de transferencia relacionadas con la cabeza(Head Related Transfer Functions,HRTF) o respuestas de impulso de sala binaural(Binaural Room Impulse Responses,BRIR) (o similares) para proporcionar el efecto espacial deseado para un usuario que usa un auricular. Sin embargo, se apreciará que en algunos sistemas, el audio en su lugar se puede representar usando un sistema de altavoces y las señales para cada altavoz se pueden representar de modo que el efecto general en el usuario corresponda a la experiencia espacial deseada.

[0120] La entrada de pose de espectador o usuario puede determinarse de diferentes maneras en diferentes aplicaciones. En muchas realizaciones, el movimiento físico de un usuario puede rastrearse directamente. Por ejemplo, una cámara que inspecciona un área de usuario puede detectar y rastrear la cabeza del usuario (o incluso los ojos (seguimiento ocular)). En muchas realizaciones, el usuario puede usar un auricular de RV que puede ser rastreado por medios externos y/o internos. Por ejemplo, los auriculares pueden comprender acelerómetros y giroscopios que proporcionan información sobre el movimiento y la rotación de los auriculares y, por lo tanto, de la cabeza. En algunos ejemplos, los auriculares de RV pueden transmitir señales o comprender identificadores (por ejemplo, visuales) que permiten que un sensor externo determine la posición y orientación de los auriculares de RV.

[0122] En algunos sistemas, la pose del espectador puede ser proporcionada por medios manuales, por ejemplo, por el usuario que controla manualmente un joystick o una entrada manual similar. Por ejemplo, el usuario puede mover manualmente el espectador virtual en la escena virtual controlando un primer joystick analógico con una mano y controlando manualmente la dirección donde mira el espectador virtual moviendo manualmente un segundo joystick analógico con la otra mano.

[0124] En algunas aplicaciones, se puede usar una combinación de estrategias manuales y automatizadas para generar la pose del espectador de entrada. Por ejemplo, un auricular puede rastrear la orientación de la cabeza y el usuario puede controlar el movimiento/posición del espectador en la escena mediante un joystick.

[0126] En algunos sistemas, la aplicación de RV puede proporcionarse localmente a un espectador mediante, por ejemplo, un dispositivo independiente que no usa, o incluso no tiene acceso a, ningún procesamiento o datos de RV remotos. Por ejemplo, un dispositivo tal como una consola de juegos puede comprender un almacén para almacenar los datos de escena, una entrada para recibir/generar la pose del espectador y un procesador para generar las imágenes correspondientes a partir de los datos de escena.

[0128] En otros sistemas, la aplicación de RV puede implementarse y realizarse a distancia del espectador. Por ejemplo, un dispositivo local para el usuario puede detectar/recibir datos de movimiento/pose que se transmiten a un dispositivo remoto que procesa los datos para generar la pose del espectador. El dispositivo remoto puede a continuación generar imágenes de vista adecuadas para la pose del espectador según los datos de la escena que describen la escena. Las imágenes de visualización se transmiten a continuación al dispositivo local al espectador donde se presentan. Por ejemplo, el dispositivo remoto puede generar directamente un flujo de vídeo (típicamente un flujo de vídeo estéreo/3D) que es presentado directamente por el dispositivo local. De manera similar, el dispositivo remoto puede generar una escena de audio que refleje el entorno de audio virtual. En muchas realizaciones, esto se puede hacer generando señales de audio que corresponden a la posición relativa de diferentes fuentes de audio en el entorno de audio virtual, por ejemplo, aplicando procesamiento binaural a los componentes de audio individuales correspondientes a la posición actual de estos con respecto a la pose de la cabeza. Por lo tanto, en dicho ejemplo, el dispositivo local no puede realizar ningún procesamiento de RV, excepto para transmitir datos de movimiento y presentar datos de vídeo y audio recibidos.

[0130] Por ejemplo, un dispositivo de RV remoto puede generar datos de audio que representan una escena de audio y puede transmitir componentes/objetos de audio correspondientes a diferentes fuentes de audio en la escena de audio junto con información de posición indicativa de la posición de estos (que puede, por ejemplo, cambiar dinámicamente para objetos en movimiento). A continuación, el dispositivo de RV local puede representar dichas señales de manera apropiada, por ejemplo, aplicando un procesamiento binaural apropiado que refleje la posición relativa de las fuentes de audio para los componentes de audio.

[0132] Para el lado de audio, un servidor central puede, por consiguiente, en algunas realizaciones generar una mezcla de audio espacial que puede representar directamente el dispositivo cliente remoto. Por ejemplo, el servidor central puede generar audio espacial como una cantidad de canales de audio para la representación directa mediante una configuración de altavoces de sonido envolvente. Sin embargo, más comúnmente, el servidor central puede generar una mezcla procesando binauralmente todas las señales de audio en la escena que se va a representar y a continuación combinándolas en una señal estéreo binaural que se puede representar directamente en el lado del cliente usando un conjunto de auriculares.

[0134] En muchas aplicaciones, el servidor central puede proporcionar en su lugar una serie de objetos o componentes de audio, correspondiendo cada uno de los cuales típicamente a una única fuente de audio. A continuación, el cliente puede procesar dichos objetos/componentes para generar la escena de audio deseada. Específicamente, puede procesar binauralmente cada objeto de audio según la posición deseada y combinar los resultados.

[0136] En dichos sistemas, los datos de audio transmitidos a un cliente remoto pueden incluir datos para una pluralidad de componentes u objetos de audio. El audio puede representarse, por ejemplo, como audio codificado para un componente de audio dado que se va a representar. Los datos de audio pueden comprender además datos de posición que indican una posición de la fuente del componente de audio. Los datos posicionales pueden, por ejemplo, incluir datos de posición absoluta que definen una posición de la fuente de audio en la escena. En tal realización, el aparato local puede determinar una posición relativa de la fuente de audio con respecto a la pose de usuario actual. Por lo tanto, los datos de posición recibidos pueden ser independientes de los movimientos del usuario y una posición relativa para las fuentes de audio puede determinarse localmente para reflejar la posición de la fuente de audio con respecto al usuario. Dicha posición relativa puede indicar la posición relativa de donde el usuario debe percibir que se origina la fuente de audio y, por consiguiente, variará según los movimientos de la cabeza del usuario. En otras realizaciones, los datos de audio pueden comprender datos de posición que describen directamente la posición relativa.

[0138] La FIG. 1 ilustra un ejemplo de un sistema de RV donde un servidor central 101 se comunica con una serie de clientes remotos 103, por ejemplo, a través de una red 105, tal como, por ejemplo, Internet. El servidor central 101 puede estar dispuesto para admitir simultáneamente un número potencialmente grande de clientes remotos 103.

[0140] En muchos escenarios, dicha estrategia puede proporcionar una compensación mejorada, por ejemplo, entre la complejidad y las demandas de recursos para diferentes dispositivos, requisitos de comunicación, etc. Por ejemplo, la pose del espectador y los datos de escena correspondientes pueden transmitirse con intervalos más grandes con el dispositivo local procesando la pose del espectador y los datos de escena recibidos localmente para proporcionar una experiencia de bajo retardo en tiempo real. Esto puede, por ejemplo, reducir sustancialmente el ancho de banda de comunicación requerido al tiempo que proporciona una experiencia en tiempo real de baja latencia al tiempo que permite que los datos de la escena se almacenen, generen y mantengan centralmente. Puede ser adecuado, por ejemplo, para aplicaciones donde se proporciona una experiencia de RV a una pluralidad de dispositivos remotos.

[0141] Una aplicación de RV/RA particularmente atractiva es una aplicación de teleconferencia virtual donde los usuarios/participantes pueden estar en diferentes ubicaciones. Un ejemplo de dicha aplicación se ilustra en la FIG. 2, que muestra un servidor central 101, correspondiente al servidor central de la FIG. 1, que admite una pluralidad de clientes remotos (de audio) 103. Como se puede observar, todos los clientes remotos 103 se comunican directamente con el servidor central 101 en lugar de entre sí. Por lo tanto, cada cliente remoto 103 puede cargar un componente de audio correspondiente a una o más fuentes de audio locales para el cliente remoto 103 en el servidor central 101. El servidor central 101 puede transmitir datos de audio al cliente remoto individual 103 que representa el audio de otros clientes remotos 103. Típicamente, cada usuario o participante tendrá un dispositivo separado que implementa un cliente remoto 103 aunque, por supuesto, un cliente remoto puede, en algunas realizaciones y escenarios, ser compartido por una pluralidad de usuarios/participantes.

[0143] Sin embargo, los inventores se han dado cuenta de que un problema para muchos de estos sistemas y aplicaciones prácticos es que el audio en el entorno local puede afectar la experiencia del usuario. En la práctica, tiende a ser difícil suprimir completamente el audio en el entorno local y, de hecho, incluso cuando se usan auriculares, típicamente hay una contribución perceptible del entorno local al audio percibido. En algunos casos, dichos sonidos pueden suprimirse usando, por ejemplo, la cancelación activa de ruido. Sin embargo, esto no es práctico para las fuentes de audio que tienen una contraparte directa en la escena de RV y, a menudo, tiende a ser imperfecta.

[0145] De hecho, el problema de la interferencia entre los sonidos del entorno real y los sonidos de la escena de audio es particularmente problemático para las aplicaciones que proporcionan una experiencia de RV que también refleja el entorno local, como, por ejemplo, muchas experiencias de RA.

[0147] Por ejemplo, se están buscando aplicaciones que incluyan un aspecto "social" o "compartido" de la RV donde, por ejemplo, una pluralidad de personas en el mismo entorno local (por ejemplo, una sala) compartan una experiencia común. Tales casos de uso "social" o "compartido" se están proponiendo, por ejemplo, en el grupo de expertos en imágenes en movimiento(Moving Picture Experts Group,MPEG), y ahora son una de las principales clases de experiencia para la actividad actual de estandarización de MPEG-1. Un ejemplo de dicha aplicación es cuando varias personas están en la misma sala y comparten la misma experiencia de RV con una proyección (audio y vídeo) de cada participante también presente en el contenido de RV.

[0149] En dicha aplicación, el entorno de RV puede incluir una fuente de audio correspondiente a cada participante, pero además de esto, el usuario puede, por ejemplo, debido a las fugas típicas de los auriculares, también escuchar a otros participantes directamente si están presentes localmente. De hecho, en muchas situaciones, un participante puede usar intencionalmente auriculares abiertos para escuchar el entorno local. Esta interferencia puede ser perjudicial para la experiencia del usuario y puede reducir la inmersión para el participante. Sin embargo, realizar la cancelación de ruido en el componente de sonido real es muy difícil y es computacionalmente muy caro. Las técnicas más típicas de cancelación de ruido se basan en un micrófono dentro del auricular junto con un bucle de retroalimentación que minimiza (preferentemente por completo) cualquier componente de señal del mundo real en la señal del micrófono (la señal del micrófono puede considerarse la señal de error que conduce el bucle). Sin embargo, dicha estrategia no es factible cuando se desea que la fuente de audio esté realmente presente en el audio percibido.

[0151] Los inventores se han dado cuenta de que para un sistema de conferencia como el de la FIG. 2, la experiencia de audio puede degradarse particularmente cuando diferentes usuarios/participantes están en la misma ubicación física y cada usuario tiene su propio micrófono y conexión al servidor de conferencia, es decir, cuando diferentes usuarios colocados usan diferentes clientes remotos. Un servidor de conferencias puede enviar a cada cliente remoto una combinación única que incluya todas las señales entrantes de otros clientes remotos. En el caso donde los usuarios estén en la misma ubicación física, típicamente escuchan a los otros usuarios en la ubicación acústicamente (dependiendo de cuán acústicamente abiertos estén los auriculares) pero también a través de sus auriculares, ya que el audio recibido incluye el componente de audio del cliente remoto del otro usuario. El retraso en esta conexión de conferencia suele ser lo suficientemente grande como para que esta sea una experiencia muy desagradable.

[0153] Este es un problema particularmente importante para RA/RV, ya que esto añade un componente visual. Si una persona remota se une a una experiencia de RA, esta persona también puede representarse visualmente, por ejemplo, a través de un avatar.

[0155] Incluso si todos los usuarios usan auriculares lo suficientemente cerrados como para reducir los niveles de sonido externos para el usuario (el caso de uso más probable para la RV), todavía hay un componente (acústico directo) del habla de cada usuario para todas las señales de micrófono que se graban en la ubicación común. Esto puede causar artefactos porque el habla llega con retrasos ligeramente diferentes a los diferentes micrófonos y, por lo tanto, se mezcla con retrasos ligeramente diferentes (y versiones más atenuadas) de sí misma. Un resultado podría ser un efecto correspondiente a un filtro de peine que se aplica.

[0157] Por lo tanto, las fuentes de sonido locales pueden interferir tanto con la percepción de audio del usuario de la etapa de audio representada como con la captura del sonido del participante individual.

[0159] Aunque los sistemas de conferencia pueden silenciar o atenuar a los usuarios con señales de micrófono de bajo nivel para mejorar la inteligibilidad del habla activa al eliminar el ruido o los sonidos de fondo de los micrófonos de los participantes que no están hablando, esto tiende a no abordar completamente el problema. Por ejemplo, si los micrófonos de otros participantes captan el habla con un nivel suficientemente alto, es posible que no estén silenciados o atenuados, lo que resulta en una relación señal/ruido reducida.

[0161] El problema puede ilustrarse mediante el ejemplo de la FIG. 3. El escenario de la Sala A da como resultado artefactos posiblemente graves en los sistemas de conferencia actuales. Con dos conexiones al servidor, el dispositivo del usuario A1 reproduce la voz retardada del usuario A2 y viceversa.

[0163] Típicamente, si se usan dos o más conexiones en la misma sala, o al menos en las proximidades de la otra, el audio de cada usuario del servidor de conferencia excluirá su propia señal de micrófono, pero incluirá el audio de todos los demás usuarios con una latencia determinada por el códec de conferencia, el sistema y las conexiones entre los usuarios y el servidor, etc. Para los sistemas de conferencia típicos, estos retrasos serán inferiores a 500 ms.

[0165] Esta situación tiene varias desventajas:

[0167] - Un usuario que escucha su propio discurso con un retraso (retroalimentación auditiva retrasada) es muy molesto y se sabe que causa estrés mental.

[0168] - Si el usuario A1 está hablando, afectará negativamente la inteligibilidad del habla para la(s) otra(s) persona(s) en la sala, lo que aumenta el esfuerzo auditivo y la fatiga.

[0169] - Si el usuario A1 está hablando, el micrófono del usuario A1 también capta el habla retardada de los altavoces de los clientes de otros usuarios en la sala, que nuevamente se reproducirá a través de los altavoces de los otros usuarios, etc., lo que puede causar retroalimentación acústica ('timbre').

[0170] - Si el usuario A1 está hablando, también será recogido por los micrófonos de todos los demás usuarios, lo que puede causar problemas para que el sistema de conferencia determine qué persona está hablando (evitando que el sistema silencie o atenúe a otros para gestionar la relación señal/ruido(Signal to Noise Ratio,SNR), o causar acumulación de nivel de señal.

[0172] A continuación, se describirá una estrategia que típicamente puede mitigar dichos efectos y desventajas. La estrategia se basa en generar y distribuir metadatos indicativos de la relación acústica/espacial entre diferentes clientes remotos. Por ejemplo, se pueden generar metadatos que indiquen qué clientes remotos (si los hay) están colocados, y específicamente indicativos de si los clientes remotos están en la misma sala (la posición de un cliente remoto puede, por ejemplo, considerarse que corresponde a la posición de la captura de audio local, como, por ejemplo, la posición de uno o más micrófonos que capturan el audio local). Los metadatos pueden distribuirse, por ejemplo, a un servidor central u (otros) clientes remotos donde pueden usarse en la generación de audio adecuado (así como potencialmente también para otros fines).

[0174] La FIG. 4 ilustra ejemplos de un aparato de audio para un sistema de distribución de audio que incluye un servidor de audio que sirve a una pluralidad de clientes remotos y que está dispuesto para recibir y transmitir audio desde/a los clientes remotos. La siguiente descripción se centrará en un sistema de distribución de audio en forma de un sistema de conferencia de RV, y se describirá específicamente con referencia a un sistema como el de las FIG. 1-3. Sin embargo, se apreciará que la estrategia y los principios generales no se limitan a dicho sistema de audioconferencia, sino que se pueden aplicar a muchos otros sistemas y aplicaciones de distribución de audio, como otros servicios sociales de Ra .

[0176] Por lo tanto, en lo sucesivo, el servidor central 101 se denominará como un servidor de audio 101. Es compatible específicamente con una aplicación de audioconferencia y, por lo tanto, puede considerarse un servidor de conferencia. De manera similar, cada uno de los clientes remotos 103 representa a un participante/usuario de la conferencia (o potencialmente a una pluralidad de los mismos) y cumple la función de capturar/generar un componente de audio que representa el sonido/audio para el participante y de representar la escena de audio de la conferencia combinada al usuario. Cada cliente remoto puede comprender además la funcionalidad para generar una escena visual correspondiente, por ejemplo, generando una escena completamente virtual con avatares que representan a otros participantes, o por ejemplo, generando superposiciones visuales para un auricular de RA. Las escenas de audio y visuales se generan para ser consistentes y proporcionar una representación integrada de un escenario de conferencia adecuado.

[0178] Típicamente, cada cliente remoto comprende al menos un micrófono dispuesto para capturar el sonido. El cliente remoto está dispuesto además para generar un componente de audio a partir de la señal de micrófono capturada y este componente de audio puede transmitirse al servidor de audio 101.

[0180] El servidor de audio 101 recibe los componentes de audio de los diferentes clientes remotos 103. El servidor de audio 101 transmite a continuación audio a cada uno de los clientes remotos 103 que refleja los componentes de audio recibidos de otros clientes remotos 103. En algunas realizaciones, el servidor de audio 101 puede reenviar los componentes de audio recibidos de tal manera que los clientes remotos 103 reciban componentes de audio de otros clientes remotos 103. En otras realizaciones, el servidor de audio 101 puede generar una representación de mezcla de audio combinada (por ejemplo, una señal de sonido envolvente, señales binaurales o una señal mono) combinando los componentes de audio para los clientes remotos apropiados 103. En tales realizaciones, el servidor de audio 101 puede generar una mezcla descendente de audio específica para cada cliente remoto 103. La mezcla de audio puede incluir señales de audio que representan componentes de audio de una pluralidad de clientes remotos 103.

[0182] El aparato de audio de la FIG. 2 comprende un receptor 401 que está dispuesto para recibir datos de audio y metadatos asociados que comprenden datos de proximidad.

[0184] El receptor 401 está dispuesto específicamente para recibir una pluralidad de componentes de audio, cada uno de los cuales representa el sonido de un cliente remoto. Por lo tanto, el aparato de audio recibe una pluralidad de componentes de audio, estando cada uno de estos asociado con un cliente remoto 103 desde el que se recibe. Cada componente de audio puede corresponder específicamente al audio/sonido capturado por un conjunto de micrófonos en el cliente remoto 103.

[0186] Además, el receptor 401 recibe datos de proximidad para al menos uno, y típicamente algunos, o incluso todos, los componentes de audio. Los datos de proximidad proporcionan datos de relación que proporcionan información sobre la relación acústica/espacial entre clientes remotos 103.

[0188] Los datos de proximidad son específicamente indicativos de la proximidad entre clientes remotos de la pluralidad de clientes remotos. La indicación de proximidad desde un primer cliente remoto a un segundo cliente remoto puede reflejar la atenuación acústica (del mundo real) (específicamente de la propagación del sonido por vibraciones en el aire u otros medios) desde una fuente de audio para el primer cliente remoto (tal como un participante que habla asociado con el primer cliente remoto) a una posición asociada con el segundo cliente remoto. Esta posición puede ser específicamente la posición de un micrófono del primer cliente remoto que captura una señal a partir de la cual se genera el componente de audio para el primer cliente remoto, o puede ser, por ejemplo, una posición de un usuario (y específicamente los oídos de un usuario) o usuarios.

[0190] Por lo tanto, los datos de proximidad pueden ser específicamente datos de proximidad acústicos, y pueden comprender indicaciones de proximidad para clientes remotos, tales como indicaciones de proximidad para pares o conjuntos de clientes remotos 103.

[0191] Los datos de proximidad/indicación de proximidad pueden reflejar por consiguiente la función/atenuación de transferencia acústica desde una posición del primer cliente remoto a una posición del segundo cliente remoto. La indicación de proximidad para un primer cliente remoto a un segundo cliente remoto puede reflejar el grado o nivel de audio asociado con el segundo cliente remoto que interfiere con el audio asociado con el primer cliente remoto.

[0192] La indicación de proximidad de un primer cliente remoto a un segundo cliente remoto puede reflejar específicamente la cantidad de audio de una fuente de audio asociada con el segundo cliente remoto que se captura en el componente de audio del primer cliente remoto. Específicamente, la indicación de proximidad puede reflejar cuánto audio de un altavoz/participante para el segundo cliente remoto es capturado por el primer cliente remoto.

[0194] Los datos/indicaciones de proximidad pueden corresponder en muchos escenarios directamente a una proximidad espacial y se puede usar el término proximidad espacial. Por lo tanto, los datos de proximidad pueden ser datos indicativos de la proximidad espacial de diferentes clientes remotos. En muchas realizaciones, los datos de proximidad pueden proporcionar información de qué clientes remotos están próximos y colocados específicamente. Los clientes remotos pueden considerarse colocados/proximales si el audio representado por el componente de audio de un cliente remoto también puede ser capturado por otro cliente remoto. En algunas realizaciones, los clientes remotos pueden considerarse colocados/proximales si las posiciones de los clientes remotos cumplen un criterio de distancia, tal como, por ejemplo, que la distancia espacial es menor que un umbral o que los clientes remotos están en la misma sala. En algunas realizaciones, la histéresis puede incorporarse en el umbral para evitar cambiar la decisión.

[0196] Los datos de proximidad pueden ser indicativos de una proximidad en el mundo real entre los clientes remotos, y específicamente de la proximidad de propagación acústica/sonora en el mundo real entre clientes remotos. La indicación de proximidad puede ser independiente de una posición deseada del audio correspondiente en la escena de audio generada de la mezcla de audio. La indicación de proximidad puede ser independiente de las posiciones de escena virtuales (de audio). La indicación/datos de proximidad pueden ser indicativos de propiedades espaciales/acústicas del mundo real. Por lo tanto, en lugar de reflejar alguna forma de proximidad deseada entre el audio que se va a representar, los datos de proximidad reflejan esa proximidad física real y el entorno acústico entre clientes remotos. Los datos de proximidad no reflejan alguna forma de proximidad imaginaria, teórica, virtual o deseada, por ejemplo, de algún ámbito no físico, sino que reflejan la proximidad del mundo real (típicamente acústica).

[0197] En muchas realizaciones, las indicaciones de proximidad pueden ser simétricas, es decir, la misma indicación/medida de proximidad puede aplicarse a la proximidad de un primer cliente remoto a un segundo cliente remoto, así como del segundo cliente remoto al primer cliente remoto. Sin embargo, en algunas realizaciones, pueden aplicarse indicaciones de proximidad asimétricas. Por ejemplo, para clientes remotos que usan micrófonos direccionales, la atenuación en un segundo cliente remoto de un altavoz asociado con un primer cliente remoto puede ser diferente de la atenuación en el primer cliente remoto de un altavoz asociado con el segundo cliente remoto. De manera similar, cuando los datos de proximidad incluyen una posición en los oídos de un participante/usuario del primer cliente remoto que usa auriculares, la atenuación depende de la atenuación acústica ejercida por los auriculares y puede ser diferente de la atenuación en los oídos de un participante/usuario del segundo cliente remoto.

[0199] Por lo tanto, el receptor 401 recibe datos de proximidad que pueden representar interrelaciones espaciales/acústicas entre los clientes remotos 103 y, específicamente, pueden indicar qué clientes remotos 103 están colocados/proximales, como, por ejemplo, en la misma sala.

[0201] El receptor 401 está acoplado a un generador 403 que recibe los componentes de audio y los datos de proximidad. El generador está dispuesto para generar una mezcla de audio de la pluralidad de componentes de audio en respuesta a los datos de proximidad. La mezcla de audio puede comprender una pluralidad de componentes de audio de diferentes clientes remotos combinados en un conjunto de señales. Al menos una de las señales puede comprender audio desde una pluralidad de componentes de audio/clientes remotos.

[0203] Por ejemplo, el generador 403 puede generar una mezcla descendente de sonido envolvente o una señal estéreo binaural combinando/mezclando el componente de audio en canales. La mezcla descendente se realiza además dependiendo de los datos de proximidad de modo que, por ejemplo, el nivel de los componentes de audio depende de los datos de proximidad.

[0205] El generador 403 puede disponerse específicamente para generar una señal de audio para un cliente remoto específico combinando todos los componentes de audio, excepto los componentes de audio de los clientes remotos que se indican mediante los datos de proximidad a colocarse con el cliente remoto específico para el que se genera la señal de audio.

[0207] En el sistema, los metadatos que comprenden datos de proximidad se incluyen en los flujos de bits de un sistema de distribución de audio que indica, por ejemplo, qué usuarios/clientes comparten una ubicación física. Los metadatos se pueden usar, por ejemplo, para determinar qué señales reproducir en cada participante de la conferencia. Por ejemplo, las señales de audio reproducidas para los participantes que comparten una ubicación común pueden no incluir las señales capturadas entre sí, sino solo de usuarios remotos, mientras que su voz se envía a usuarios remotos. Esto puede, por ejemplo, evitar el estrés mental, la fatiga y los artefactos de audio debido a la latencia del sistema de conferencia, evitar la retroalimentación acústica y/o evitar la reducción de la SNR.

[0209] En lugar de excluir directamente el audio para usuarios colocados/clientes remotos, el generador 403 puede proporcionar en su lugar una atenuación más gradual del componente de audio de otros usuarios colocados.

[0211] Por lo tanto, en muchas realizaciones, el generador 403 puede estar dispuesto para generar la mezcla para un primer cliente remoto, donde la atenuación/ponderación de un componente de audio de un segundo cliente remoto depende de si los datos de proximidad indican que el segundo cliente remoto está cerca del primer cliente remoto.

[0213] En algunas realizaciones, los datos de proximidad pueden comprender un valor escalar indicativo de la distancia entre el primer y el segundo cliente remoto. El generador 403 puede estar dispuesto en algunas de tales realizaciones para determinar la atenuación como una función monótonamente decreciente de la distancia de tal manera que cuanto más cerca está el segundo cliente remoto del primer cliente remoto, menor es el peso/mayor es la atenuación del componente de audio. Si el segundo cliente remoto está muy cerca del primer cliente remoto, el primer cliente remoto puede representar por consiguiente una escena de audio donde el audio para el segundo cliente remoto está sustancialmente atenuado. Esto puede reflejar que, en tales situaciones, el usuario del primer cliente remoto podrá escuchar directamente al usuario del segundo cliente remoto. Sin embargo, cuanto más lejos está el segundo cliente remoto, más alto es el audio representado de este.

[0215] Esto puede proporcionar un desempeño particularmente atractivo en muchas realizaciones. Por ejemplo, en una situación donde la aplicación de audioconferencia es usada por un grupo de personas de las cuales algunas están en un concierto en una sala de conciertos grande, al participante individual en la sala de conciertos se le puede proporcionar una representación de audio personalizada donde otros participantes que no están presentes se representan a volumen completo, mientras que los participantes muy cercanos se representan con un volumen muy bajo y los participantes en la sala de conciertos, pero a distancias adicionales, se representan con volúmenes intermedios. En muchas situaciones, la estrategia puede proporcionar un equilibrio mejorado entre el audio recibido directamente por la transmisión acústica en el entorno local y el audio proporcionado por la aplicación de la conferencia.

[0217] En algunas realizaciones, el generador 403 puede atenuar un componente de audio si los datos de proximidad para los dos clientes remotos cumplen un criterio de proximidad. La atenuación puede ser en una cantidad predeterminada, que en muchas realizaciones puede ser una atenuación infinita (correspondiente a que el componente de audio no se represente o no se incluya en la mezcla de audio generada en absoluto).

[0219] En muchas realizaciones, el criterio de proximidad puede comprender un requisito de que una indicación de proximidad para los dos clientes remotos debe indicar una distancia por debajo de un umbral. Si la indicación de proximidad cumple con el requisito, el generador 403 puede proceder a no seleccionar el componente de audio correspondiente para su inclusión en la mezcla de audio generada. El umbral puede establecerse en un valor "seguro" bajo indicativo de que no hay sustancialmente ninguna correlación.

[0221] La estrategia a menudo se puede usar con indicaciones binarias de proximidad que indican si los pares de clientes remotos se consideran colocados/proximales o no (por ejemplo, en la misma sala). Si es así, el componente de audio del otro cliente remoto no se incluye al generar señales de audio para el cliente remoto individual.

[0223] En algunas realizaciones, el aparato de audio de la FIG. 4 puede ser implementado como parte del servidor de audio 101. En algunas realizaciones, la mezcla descendente de los componentes/objetos de audio de una pluralidad de clientes remotos 103 en una mezcla de audio combinada comprendiendo componentes de audio de una pluralidad de clientes remotos 103 puede realizarse en el servidor de audio 101. En tales realizaciones, los clientes remotos 103 transmiten datos de proximidad al servidor de audio 101 que a continuación pueden usar esto para generar mezclas de audio individuales para los clientes remotos 103. El servidor de audio 101 puede generar específicamente una mezcla de audio para cada uno de los clientes remotos 103 combinando/mezclando los componentes de audio recibidos de los clientes remotos 103 considerando los datos de proximidad. En un ejemplo específico, el servidor de audio 101 puede generar mezclas descendentes que incluyen todos los componentes de audio excepto aquellos para los cuales los datos de proximidad indican que el cliente remoto correspondiente está colocado con el cliente remoto para el cual se genera la mezcla de audio.

[0225] En algunas realizaciones, el aparato de audio de la FIG. 4 puede implementarse como parte de uno de los clientes remotos 103, y de hecho todos los clientes remotos pueden incluir dicho aparato de audio. En algunas realizaciones, la mezcla descendente de los componentes/objetos de audio de una pluralidad de clientes remotos 103 en una mezcla de audio combinada comprendiendo componentes de audio de una pluralidad de clientes remotos 103 puede realizarse en los clientes remotos 103. En tales realizaciones, el servidor de audio 101 puede transmitir tanto el componente de audio como los datos de proximidad a los clientes remotos individuales 103 que a continuación pueden generar localmente una mezcla de audio y representarla al usuario. En algunas de tales realizaciones, el servidor de audio 101 puede recibir los componentes de audio de los diferentes clientes remotos 103 y reenviar todos estos a los clientes remotos individuales 103. Además, el servidor de audio 101 puede, en algunas realizaciones, recibir datos de proximidad de los clientes remotos 103 y distribuir estos datos de proximidad a los otros clientes remotos 103. En otras realizaciones, el servidor de audio 101 puede recibir los componentes de audio de los diferentes clientes remotos 103 y a continuación generar por sí mismo los datos de proximidad según los componentes de audio. El cliente remoto individual puede, por ejemplo, generar una mezcla descendente local, por ejemplo, incluyendo todos los componentes de audio, excepto aquellos para los cuales los datos de proximidad indican que el cliente remoto correspondiente está colocado con el cliente remoto que genera la mezcla.

[0227] Se apreciará que se pueden usar diferentes estrategias para determinar los datos de proximidad en diferentes realizaciones. En muchas realizaciones, los datos de proximidad pueden determinarse específicamente comparando los diferentes componentes de audio entre sí. El sistema puede incluir un detector de proximidad que determina una indicación de proximidad para dos clientes remotos comparando los dos componentes de audio de los dos clientes remotos entre sí. Los datos de proximidad pueden generarse, por ejemplo, para reflejar la similitud entre estas señales, y específicamente puede generarse una medida de correlación cruzada con la indicación de proximidad que se genera a partir de esta medida de correlación cruzada. Por ejemplo, el valor de correlación cruzada puede usarse directamente, o por ejemplo, la indicación de proximidad puede establecerse para indicar que los dos clientes remotos están colocados si la medida de correlación cruzada máxima dentro de un cierto intervalo de retraso excede un umbral dado. Un transmisor puede a continuación generar los datos de proximidad para incluir la indicación de proximidad y transmitirla (típicamente junto con el componente de audio).

[0229] En realizaciones donde el aparato de audio se implementa en los clientes remotos 103, se puede implementar un detector de proximidad en el servidor de audio 101 que determina los valores de correlación cruzada para todos los pares de componentes de audio y determina una indicación de proximidad para cada par. Los datos de proximidad pueden generarse para incluir todas las indicaciones de proximidad, y esto puede transmitirse a todos los clientes remotos 103, o por ejemplo, solo los datos de proximidad para un cliente remoto dado pueden transmitirse a ese cliente remoto. Además, el servidor de audio 101 puede transmitir los componentes de audio y el cliente puede proceder a generar localmente una mezcla de audio.

[0231] En realizaciones donde el aparato de audio se implementa en el servidor de audio 101, se puede implementar un detector de proximidad en los clientes remotos 103. Cada cliente remoto puede incluir un detector de proximidad que correlaciona, por ejemplo, el componente de audio local con los componentes de audio recibidos de otros clientes remotos 103. Se puede generar una indicación de proximidad para cada uno de los componentes de audio recibidos y transmitirse de vuelta al servidor de audio 101 junto con el componente de audio local. El servidor de audio 101 puede a continuación usar dichos datos de proximidad recibidos de todos los clientes remotos en la generación de mezclas de audio para los clientes remotos individuales 103.

[0233] Por lo tanto, como se ilustra en la FIG. 5, una primera entidad 501 puede comprender un detector de proximidad 503 que determina valores de correlación cruzada para uno o más pares de componentes de audio y determina una indicación de proximidad para cada par. Por ejemplo, una primera entidad 501 puede comprender un detector de proximidad 503 que determina una indicación de proximidad para un primer cliente remoto y un segundo cliente remoto en respuesta a una comparación de un primer componente de audio para el primer cliente remoto y un segundo componente de audio para un segundo cliente remoto. Comprende además un transmisor de datos 505 que está dispuesto para transmitir datos de proximidad comprendiendo la indicación de proximidad a una segunda entidad 507 que comprende el aparato de audio de la FIG. 4. Además de los datos de proximidad, el transmisor 505 puede transmitir uno o más componentes de audio. Por lo tanto, el transmisor 505 puede transmitir específicamente datos de proximidad y datos de componentes de audio al receptor 401 del aparato de audio. En algunas realizaciones, la primera entidad 501 puede ser un cliente remoto y la segunda entidad 507 puede ser el servidor de audio. En otras realizaciones, la primera entidad 501 puede ser el servidor de audio y la segunda entidad 507 puede ser un cliente remoto.

[0235] Por lo tanto, en muchas realizaciones, el procesamiento de señal de los componentes de audio (por ejemplo, correspondiente a las señales de micrófono de los clientes remotos) en el servidor de audio 101 puede detectar qué usuarios/clientes remotos están próximos (por ejemplo, comparten una sala), y los metadatos correspondientes se enviarán a los clientes remotos 103.

[0237] Si, por ejemplo, se genera una matriz de correlación con valores máximos de correlación cruzada para todos los emparejamientos de componentes de audio en la matriz, los componentes de audio para los clientes remotos 103 que están en la misma sala (proximal) tendrán un valor máximo alto de correlación cruzada.

[0239] Por ejemplo, el servidor de audio 101 puede calcular para cada combinación única deiyj,coni ¿ j:

[0240]

[0242] donde x, denota la señal del componente de audio que el servidor recibió del cliente remoto con el índicei,11*11 = v * * 'xla norma,nel índice de muestra al (historial del) componente de audio conn= 0 que denota la última muestra disponible,Nhstel número de muestras pasadas usadas en el análisis ySméxel retraso máximo admitido entre los componentes de audio.

[0244]

[0246] micrófono y H la operación de redondeo a la baja. El valor atípico para la frecuencia de muestreo para el habla es de 16 kHz. En caso de audio, a menudo se usa una frecuencia de muestreo más alta de, por ejemplo, 48 kHz. En particular, para esta estrategia, el valor deSméxpuede elegirse lo suficientemente grande como para tener en cuenta los retrasos entre los componentes de audio debido a las diferentes longitudes de ruta acústica entre los usuarios y los micrófonos (en la misma sala) y las diferencias de retraso en la transmisión desde los clientes remotos al servidor de audio 101.

[0247] Si para una cierta combinación deiyjla correlación cruzada anterior es alta, por ejemplo,S,j> 0,3, los clientes remotosiyjpueden considerarse proximales, y específicamente en la misma sala. Las correlaciones cruzadas pueden ser bajas cuando ninguno de los participantes está hablando. Por lo tanto, es ventajoso calcular la correlación cruzada solo cuando uno de los participantesiojestá activo.

[0248] Como ejemplo, la determinación de si el usuariokestá activo se puede hacer según:

[0251]

[0253] con, por ejemplo, Lumbral = -30 dB, para señales x con una amplitud a escala completaF.

[0254] Alternativamente, se puede aplicar un detector de voz en las señales.

[0255] La determinación de si dos clientes remotos 103 son proximales típicamente solo se evalúa cuando uno de los usuarios está activo, y la última decisión determinada se mantiene cuando no están activos. Esto evita la conmutación de los metadatos dependiendo de si los altavoces están activos.

[0256] Se pueden tomar medidas adicionales para garantizar la solidez de la decisión. Por ejemplo, una decisión sobre si los clientes remotosiyjestán en la misma habitación solo se puede cambiar cuando al menos 15 segundos de señal activa (a,-== 1 o ay == 1) dan como resultado una señal diferente.

[0257] En algunas realizaciones, el servidor de audio 101 determina qué clientes remotos están en la misma sala y envía la información como metadatos a los clientes remotos 103. En particular, esta realización es ventajosa cuando las señales de audio de los usuarios no se mezclan en el servidor de audio 101 para cada cliente, sino que se envían por separado. Por ejemplo, aplicaciones de RV donde la señal de cada usuario se representa en una ubicación específica en la realidad virtual (o aumentada). En este caso, los clientes remotos pueden usar los metadatos de los cuales otros usuarios están, por ejemplo, en la misma sala para decidir no representar o reproducir las señales correspondientes recibidas del servidor de conferencias.

[0258] En algunas realizaciones, el detector de proximidad puede, como se mencionó, estar ubicado en el cliente remoto. Un ejemplo de los elementos de dicho cliente remoto se ilustra en la FIG. 6.

[0260] El cliente remoto comprende una entrada 601 acoplada a un micrófono y dispuesta para generar una señal de micrófono correspondiente al audio capturado por el micrófono. La señal de micrófono se alimenta a un codificador 603 que codifica la señal para generar el componente de audio (en algunas realizaciones, la señal de micrófono puede usarse directamente como el componente de audio).

[0262] El codificador está acoplado a una interfaz 605 que está dispuesta para comunicarse con el servidor de audio 101. Por lo tanto, la interfaz comprende un transmisor para transmitir datos al servidor de audio 101 y un receptor para recibir datos desde el servidor de audio 101. La interfaz 605 recibe los datos del componente de audio y los transmite al servidor de audio 101.

[0264] Además, la interfaz 605 recibe componentes de audio y datos de proximidad de otros clientes remotos, y específicamente la interfaz 605 puede comprender el receptor 401 de la FIG. 4.

[0266] El cliente remoto comprende además un reproductor de audio 607 que puede corresponder directamente al generador 403 de la FIG. 4. El generador 403 puede, como se ha descrito anteriormente, proceder a generar una mezcla local para su presentación al usuario local.

[0268] En otras realizaciones, el audio recibido desde el servidor de audio 101 puede ser una señal de mezcla descendente, es decir, el generador 409 puede estar comprendido en el servidor de audio 101 y el audio transmitido puede ser, por ejemplo, una señal estéreo binaural o una señal de sonido envolvente. En tales realizaciones, el reproductor 607 puede representar directamente la señal recibida.

[0270] El cliente remoto de la FIG. 6 comprende además un detector de proximidad 607 que está dispuesto para determinar una indicación de proximidad para el primer cliente remoto en respuesta a una comparación de la señal de micrófono (posiblemente como se representa por el componente de audio) y el audio recibido desde el servidor de audio.

[0271] Por ejemplo, si el audio recibido corresponde a componentes de audio de otros clientes remotos, estos pueden alimentarse directamente al detector de proximidad 609 que a continuación puede proceder a correlacionar la señal de micrófono (posiblemente como se representa por el componente de audio) con los componentes de audio recibidos y generar una indicación de proximidad para cada uno de los componentes de audio recibidos. Las indicaciones de proximidad se pueden alimentar a la interfaz 605 que puede transmitir datos de proximidad comprendiendo las indicaciones de proximidad al servidor de audio 101.

[0273] En el caso donde el audio recibido corresponda a una mezcla de audio comprendiendo una pluralidad de componentes de audio de otros clientes remotos combinados/mezclados en la(s) misma(s) señal(es)/canal(es) de audio, el detector de proximidad 609 puede correlacionar la señal de micrófono con la mezcla de audio.

[0275] Por ejemplo, si la mezcla de audio comprende solo una única señal, el detector de proximidad 609 puede correlacionar la señal recibida con la señal de micrófono y si se detecta una correlación por encima de un nivel dado, se puede generar una indicación de proximidad para indicar que el cliente remoto actualmente activo (para el altavoz actualmente activo) está próximo al cliente remoto actual.

[0277] Si la mezcla de audio comprende más de un canal/señales, estas se pueden combinar, por ejemplo, antes de la correlación, o se pueden hacer correlaciones para cada señal de canal, y, por ejemplo, solo se puede considerar la correlación más grande.

[0279] En los casos donde el cliente remoto conoce la identidad del cliente/altavoz remoto actualmente activo (por ejemplo, dicha actividad puede ser detectada por el servidor de audio 101 y la información correspondiente puede enviarse al cliente remoto), el cliente remoto puede generar una indicación de proximidad que incluye esta identificación del otro cliente remoto como proximal.

[0281] En los casos donde dicha información puede no estar disponible, el cliente remoto puede transmitir simplemente una indicación de proximidad que indica que el altavoz/cliente remoto actualmente activo está próximo. En tal caso, el servidor de audio 101 puede, por ejemplo, estar dispuesto para detectar el altavoz actualmente activo (por ejemplo, usando detección de voz) y puede determinar la identidad apropiada del cliente remoto que está proximal al cliente remoto que transmite la indicación de proximidad como el altavoz/cliente remoto actualmente activo identificado.

[0282] Por lo tanto, en algunas realizaciones, los clientes remotos pueden detectar clientes remotos proximales que comparan la(s) señal(es) recibida(s) del servidor de audio 101 con su señal de micrófono local (por ejemplo, después de la cancelación de eco acústico(Acoustic Echo Cancellation,AEC)).

[0284] Por ejemplo, el cliente puede determinar la correlación cruzada entre las señales recibidas del servidor y la señal del micrófono del cliente remoto:

[0287]

[0290] <donde y,denota una señal recibida del servidor de audio, x la señal del micrófono local,>\<l l>\<A>x\<l>\<l>=<—>s<V>jx<*>* • X<la norma,>n

el índice de muestra al (historial de las) señales del micrófono conn= 0 que denota la última muestra disponible, Whist el número de muestras pasadas usadas en el análisis y Smáx el retraso máximo admitido entre las señales del micrófono.

[0292]

[0294] de micrófono y L J la operación de redondeo a la baja. En particular, para esta estrategia, el valor de 5máX debe ser lo suficientemente grande como para tener en cuenta los retrasos entre la señal del micrófono y las señales recibidas del servidor de audio debido a los retrasos del sistema en el sistema (distribuido) debido a, por ejemplo, la codificación, la transmisión (de cliente a servidor), el procesamiento en el servidor, la transmisión (de servidor a cliente) y la decodificación y debido a diferentes longitudes de ruta acústica entre los usuarios y los micrófonos (en la misma sala).

[0295] Si para un cierto i la correlación cruzada anterior es alta, por ejemplo,Si >0,2, el usuario i puede considerarse que está en la misma sala (proximal).

[0297] Alternativamente, el cliente puede usar la señal del micrófono antes de que se le aplique AEC. Puede centrarse en retrasos superiores a, por ejemplo, 15 ms para separar la retroalimentación acústica entre el altavoz y el micrófono en el cliente del mayor retraso del sistema de conferencia. El cliente también puede buscar ambos picos de correlación y proporcionar el retraso más corto a la AEC.

[0299] Si uno o más clientes envían más de un componente de audio, el algoritmo puede, por ejemplo, seleccionar la señal de micrófono más fuerte para su análisis, calcular una mezcla descendente de todas las señales de micrófono o elegir una señal de micrófono específica.

[0301] De manera similar, como en la estrategia del lado del servidor, la correlación típicamente solo se calculará cuando un usuario esté hablando, y más específicamente, cuando un altavoz activo esté presente en una de las señales recibidas del servidor.

[0303] Los componentes/señales de audioy¡recibidos del servidor de audio 101 pueden representar típicamente (al menos parcialmente) a otros usuarios en la llamada de conferencia. Esto permite al cliente remoto determinar qué usuarios están en la misma sala según qué señales tienen altas correlaciones. Es posible que las señales de algunos usuarios no se transmitan debido a que el servidor de audio las silencie o determine que están inactivas.

[0305] Como se mencionó, en algunas señales los componentes de audio pueden combinarse en una mezcla de audio en el servidor de audio 101. Cuando las señales y representan dicha mezcla de audio, pueden representar canales de audio y las señales de algunos usuarios pueden estar presentes en múltiples canales de audio. Por lo tanto, analizar los canales de audio individualmente no siempre puede resultar en información adicional particularmente útil. Por lo tanto, puede ser ventajoso mezclar las señales y determinar la correlación del resultado con la señal del micrófono local. La mezcla descendente se puede calcular mediante:

[0308]

[0309] dondeImes el conjunto de índices de señales de entrada relacionadas con un conjunto de señales de audio y n.°Im esla cardinalidad del conjuntoIm.

[0311] Un resultado de esta estrategia es una menor complejidad computacional, lo que es ventajoso para reducir el uso de CPU en general y/o mejorar la vida útil de la batería en dispositivos portátiles.

[0313] Tal estrategia es particularmente ventajosa cuando las señales de todos los clientes están (al menos parcialmente) premezcladas o prerrepresentadas en el servidor, sin embargo, también se puede aplicar para señales que no están premezcladas o prerrepresentadas.

[0315] En algunos casos, cuando se recibe una mezcla de audio, puede no ser posible determinar directamente qué usuarios están en la misma sala, ya que puede no ser posible diferenciar directamente entre los componentes de audio de diferentes clientes remotos cuando están integrados en la misma mezcla de audio. Sin embargo, el cliente puede enviar metadatos que indiquen que el usuario actualmente activo está (probablemente esté) en la misma sala. El servidor de audio 101 puede tener esto en cuenta, por ejemplo, al no mezclar previamente o representar previamente la señal del usuario activo en la señal que envía al cliente que envió los metadatos, y viceversa.

[0317] Algunas aplicaciones de conferencia envían información de los participantes en la llamada. En tales casos, esto se puede usar para determinar qué usuario está activo en el lado del cliente cuando se detecta una alta correlación cruzada, y el cliente remoto puede enviar esa información al servidor.

[0319] El servidor puede procesar posteriormente los metadatos que recibe para mejorar la solidez. Por ejemplo, se puede indicar que varios usuarios están activos simultáneamente mientras que un tercer cliente envía metadatos que indican que el usuario actualmente activo está en la misma sala. El servidor de audio puede a continuación combinar esto con la información de estos otros dos usuarios, donde también se puede indicar que el usuario actualmente activo está en la misma sala. Por lo tanto esto puede significar que los tres están en la misma sala. Como alternativa, puede marcar al más ruidoso de los usuarios activos como en la misma sala, o aumentar un valor de probabilidad para ambos usuarios activos. Cuando el valor de probabilidad es mayor que un cierto valor umbral, se puede considerar que el usuario correspondiente está en la misma sala. Alternativamente, puede reducir el nivel de los usuarios en la premezcla en relación con el valor de probabilidad creciente.

[0321] Se pueden combinar diferentes procedimientos descritos anteriormente para clientes donde se reciben señales premezcladas y señales individuales, y/o cuando las propiedades de la señal cambian con el tiempo (por ejemplo, debido al cambio de disponibilidad de ancho de banda).

[0323] Del mismo modo, en cuanto a la estrategia del lado del servidor, la solidez se puede mejorar dentro de los clientes usando los mismos procedimientos o similares.

[0325] En realizaciones donde se realiza correlación cruzada entre señales, se puede realizar en las señales de dominio de tiempo completo como se ha descrito anteriormente. Como alternativa, en algunas realizaciones, la correlación se puede realizar en una representación de tiempo-frecuencia (por ejemplo, después del análisis de banco de filtros de espejo en cuadratura(Quadrature Mirror Filter,QMF), transformada de Fourier a corto plazo(Short-Term Fourier Transform,STFT) o transformada discreta de coseno modificada(Modified Discrete Cosine Transform,MDCT) o transformada rápida de Fourier(Fast Fourier Transform,FFT) en ventana). En esos casos, cada suma en las ecuaciones de correlación anteriores se convierte en una suma bidimensional de intervalos o marcos de tiempo extra en la dimensión temporal (n) y bandas de frecuencia o contenedores en la dimensión espectral(b).

[0328]

[0330] dondef(n, b)representa la función correspondiente de x y/o y en la ecuación de correlación, con x e y tomandoncomo índice de dominio de tiempo ybcomo índice de dominio de frecuencia. A/h¡sty ^ máx son A/h¡st respectivamente 5máX en _ w híst Í ' W I

[0331] términos de intervalos de tiempo o marcos. Por ejemplo,<” h is t 64>para un banco de filtros QMF con ung_<'Enáx r£máxl>

[0332] factor de muestreo descendente de 64, o max - 25612561 para una FFT de ventana con un tamaño de salto de 256 muestras con H la operación de redondeo al alza.

[0334] En otro ejemplo, en algunas realizaciones, la correlación cruzada se puede aplicar en la envolvente, el perfil de energía o el perfil de energía dependiente de la frecuencia de las señales. Esto es ventajoso para lograr una menor complejidad computacional y puede ser ventajoso en los casos donde las señalesyise reconstruyen paramétricamente a partir de un menor número de señales de mezcla descendente y, por lo tanto, es más probable que tengan una alta correlación en la estructura fina local de las señales reconstruidas. Alternativamente, en este último caso, la correlación también podría aplicarse a los parámetros de reconstrucción.

[0336] En el caso de los cálculos de correlación dependientes de la frecuencia, algunas realizaciones pueden aplicar una ponderación a ciertos contenedores/bandas de frecuencia para enfatizar las frecuencias de voz típicas.

[0338] Se podría calcular un perfil de energía (dependiente de la frecuencia) a partir de las señales de la siguiente manera:

[0341]

[0344] donde cada nueva representación de tiempo-frecuencia del perfil de energía x es la energía total de todos los mosaicos de tiempo-frecuencia en la representación de señalx(n, b).Los contenedores de inicio y parada para el contenedor6se indican mediante binicio y ¿5final, respectivamente, y los intervalos de tiempo de inicio y parada se indican mediante ninicio y final, respectivamente. En el caso de señales puramente de dominio de tiempo (por ejemplo, señal PCM), el índice6y la suma pueden omitirse.

[0346] En algunas realizaciones, se pueden usar alternativa o adicionalmente otras estrategias para determinar la proximidad entre clientes remotos 103.

[0348] Por ejemplo, en algunas realizaciones, las indicaciones de proximidad pueden determinarse mediante configuración manual directa, por ejemplo, usando una interfaz de usuario de los clientes remotos individuales. Otras realizaciones pueden usar tecnología de localización tal como GPS, tecnologías de localización de interiores, direcciones IP o por medio de ID de red, etc. En algunas realizaciones, los clientes remotos 103 pueden enviar dichos datos al servidor y este a continuación puede evaluar los datos recibidos para determinar qué clientes remotos 103 están cerca entre sí.

[0349] Por ejemplo, las direcciones IP/MAC y/o los tiempos de retraso de la red pueden usarse como una indicación de que los clientes remotos son proximales. Por ejemplo, el hecho de que los clientes remotos 103 compartan equipos de red es indicativo de la colocación.

[0351] En algunas realizaciones, la proximidad de dos clientes remotos puede detectarse detectando una retroalimentación acústica, en cuyo caso el sistema puede proceder a evitar dicha retroalimentación acústica (por ejemplo, cambiando las características del bucle para evitar la retroalimentación positiva).

[0353] Un ejemplo de un proceso de prueba que puede usarse para detectar la proximidad mediante la detección de retroalimentación acústica puede comenzar con todos los micrófonos silenciados (o con componentes de audio que no se retroalimentan a los clientes) para garantizar que actualmente no haya retroalimentación acústica. A continuación, los micrófonos de diferentes pares de clientes remotos pueden encenderse y si esto da como resultado una retroalimentación acústica, a continuación el par correspondiente de clientes remotos se considera proximal. Esta estrategia puede interrumpir la conferencia telefónica durante algún tiempo para permitir la detección de retroalimentación acústica en cada par de clientes.

[0355] La detección de la retroalimentación acústica se puede realizar de varias maneras. Una estrategia de baja complejidad sería determinar si los niveles de múltiples clientes están aumentando, o si uno o más micrófonos de cliente proporcionan un nivel exponencialmente creciente. Teniendo en cuenta el retraso medio de ida y vuelta en el sistema, esto puede mostrar que el aumento exponencial del nivel RMS es gradual con una periodicidad similar al retraso de ida y vuelta. Una medida de planicidad espectral(Spectral Flatness Measure,SFM) que también puede usarse para la detección de retroalimentación acústica se describe en el documento de Devis Thomas , AR Jayan, Automated Suppression of Howling Noise Using Sinusoidal Model based Analysis/Synthesis, IEEE International Advance Computing Conference (IACC), ITM University, Gurgaon, India, págs. 761-765, 2014. Otras estrategias pueden determinar similitudes en múltiples señales de micrófono de diferentes clientes, tales como altas correlaciones entre espectros o espectrogramas. Otro ejemplo sería determinar la presencia de recorte en las señales del micrófono.

[0356] Otro ejemplo de una estrategia para detectar qué clientes están, por ejemplo, en la misma ubicación, es añadiendo una señal de marcador o marca de agua en el componente de audio de cada cliente. Este marcador puede elegirse de modo que generalmente no sea perceptible por los humanos, y puede diseñarse de modo que pueda detectarse en una señal de micrófono a pesar de las distorsiones impuestas por el códec y la ruta acústica usados.

[0358] Por ejemplo, el servidor puede insertar estos marcadores en el audio transmitido a los clientes. A menudo es beneficioso si cada cliente obtiene un marcador único. Posteriormente, en algunas realizaciones, el servidor puede analizar las señales de micrófono de los clientes recibidas en busca de marcadores de otros clientes. En otras realizaciones, los clientes pueden analizar sus propias señales de micrófono y transmitir información de marcador al servidor. Esta información de marcador puede ser un ID de marcador detectado, o puede haber mapeado el ID de marcador detectado a un cliente correspondiente en respuesta a los metadatos de mapeo que recibió del servidor.

[0359] En los ejemplos descritos anteriormente, la generación de una mezcla de audio depende de los datos de proximidad. Sin embargo, se apreciará que dichos datos también se puedan usar para otros fines.

[0361] Por ejemplo, en algunas realizaciones, los datos de proximidad pueden usarse para (por ejemplo, espacialmente) agrupar a los usuarios según cómo se agrupan físicamente. En algunas realizaciones, por ejemplo, RA, los datos de proximidad se pueden usar para determinar qué usuarios no están físicamente presentes en la sala y, de ser así, se puede presentar un avatar virtual para el usuario. En algunas realizaciones, los datos de proximidad pueden usarse (adicionalmente) para representar las señales de los usuarios que no están en la sala física en ubicaciones que no se superponen con los usuarios que sí lo están.

[0363] En algunas realizaciones, los metadatos y/o el análisis del lado del cliente pueden usarse para sincronizar la reproducción en los diferentes dispositivos, de modo que se logre la reproducción con pequeños retrasos mutuos.

[0364] En algunas realizaciones, los datos de proximidad se pueden usar para no representar las señales recibidas del servidor relacionadas con los usuarios en la misma sala, sino para usar alternativamente la captura del micrófono local de esos usuarios para la representación. Esto puede ser ventajoso cuando los usuarios usan auriculares que pueden bloquear o atenuar las rutas acústicas. Al mantener el procesamiento local, se puede eliminar el retraso del sistema de conferencia, lo que resulta en una mejor sincronización de labios.

[0366] En algunas realizaciones, un primer cliente remoto puede transmitir una señal de micrófono generada o un componente de audio a un segundo cliente remoto que se detecta que está colocado. La transmisión puede ser a través de un enlace de datos directo (red de área local(Local Area Network,LAN/óptico/(radiofrecuencia(Radio Frequency,RF)), y puede excluir específicamente el servidor de audio 101. Esto puede proporcionar un enlace/comunicación con un retraso de transmisión reducido. A continuación, el segundo cliente remoto puede usar esta señal recibida directamente para atenuar o suprimir la señal de la fuente de audio del primer cliente remoto. Dicha estrategia puede ser una alternativa al uso de la ruta acústica y se beneficia de una transmisión más rápida (debido a la diferencia en la velocidad de la luz y el sonido. Puede evitar el procesamiento de audio innecesariamente complejo o propenso a errores al tener una "referencia" de audio limpia disponible a tiempo en el segundo cliente remoto.

[0368] En algunas realizaciones, dicho enlace puede usarse para sincronizar la reproducción de la mezcla de audio entre los clientes remotos que están en la misma sala. Alternativamente, dichos metadatos de sincronización se ejecutan a través del servidor de audio. La sincronización en la mayoría de las realizaciones tendrá en cuenta el cliente colocado con la latencia más alta con respecto a los datos recibidos del servidor y retrasará la reproducción de la mezcla de audio en los otros clientes colocados para sincronizar. Este proceso de sincronización continua es conocido en la técnica y se puede lograr usando protocolos de sincronización de tiempo tales como el protocolo de tiempo de red(Network Time Protocol,NTP) o el protocolo de tiempo de precisión(Precisión Time Protocol,PTP).

[0370] Como se mencionó anteriormente, la proximidad acústica puede ser diferente en una dirección desde un primer cliente remoto a un segundo cliente remoto que desde el segundo cliente remoto al primer cliente remoto, lo que refleja que la función de transferencia acústica puede ser diferente en las dos direcciones. Por consiguiente, en muchas realizaciones, los datos de proximidad pueden comprender diferentes indicaciones de proximidad para un par de clientes remotos 103 dependiendo de la dirección.

[0372] Por ejemplo, los datos de proximidad proporcionados por el servidor de audio 101 a un cliente remoto pueden incluir dos valores para otro cliente remoto dado y la mezcla de audio local puede ser, por consiguiente, en respuesta a la indicación de proximidad del otro cliente remoto a este.

[0374] El uso de indicaciones de proximidad asimétricas/direccionales puede proporcionar un desempeño mejorado en muchas realizaciones, incluidas situaciones particulares donde, por ejemplo, un usuario usa auriculares, mientras que el otro usa una representación de altavoz.

[0376] En algunas realizaciones, los datos de proximidad pueden comunicarse/distribuirse en la inicialización de un servicio/aplicación y estos datos de proximidad pueden usarse hasta el final de este. Por ejemplo, cuando se inicializa una nueva sesión de conferencia, los datos de proximidad pueden intercambiarse y usarse hasta el final de la sesión.

[0377] Sin embargo, en la mayoría de las realizaciones prácticas, el sistema puede disponerse para determinar/adaptar/actualizar/distribuir dinámicamente al menos algunos datos de proximidad. Por lo tanto, el receptor 401 está dispuesto típicamente para recibir datos de proximidad que se adaptan dinámicamente a los cambios en las posiciones de los clientes remotos.

[0379] Específicamente, el(los) detector(es de proximidad del servidor de audio 101 y/o los clientes remotos 103 puede(n) correlacionar continuamente las señales apropiadas y determinar las indicaciones de proximidad según los resultados de la correlación. A continuación, el sistema puede distribuir continuamente indicaciones de proximidad, por ejemplo, transmitiendo continuamente metadatos comprendiendo indicaciones de proximidad con la distribución de los componentes de audio.

[0380] En muchas realizaciones, el sistema puede estar dispuesto para transmitir indicaciones de proximidad para (al menos) un primer par de clientes remotos con una velocidad de actualización de no más de un minuto y, a menudo, no más de 30 segundos.

[0381] Dichas actualizaciones dinámicas pueden proporcionar un sistema eficiente y adaptable que puede adaptarse a los cambios en las posiciones de los usuarios. Por ejemplo, en muchas realizaciones puede adaptarse rápidamente a un participante de la conferencia con una conexión a través de su teléfono entrando en una sala de reuniones donde está otro cliente. Por ejemplo, a menudo puede evitar que se produzca retroalimentación acústica cuando el participante entra en la sala de reuniones.

[0382] Se apreciará que los datos de proximidad pueden transmitirse como metadatos de muchas maneras diferentes y que la estrategia específica usada puede depender de las preferencias y requisitos de la realización individual.

[0383] La estructura, la sintaxis y el contenido exactos de los metadatos dependerán de la realización específica. Por lo tanto, los metadatos se pueden configurar y transmitir de diversas maneras y la estrategia preferida también puede depender de si se usa la detección del lado del cliente o la detección del lado del servidor, (o una combinación).

[0384] En el caso de la detección del lado del servidor, los metadatos típicamente se envían desde el servidor a uno o más clientes. Los metadatos pueden contener información sobre qué usuarios/clientes están en la misma ubicación. Por ejemplo, se puede usar una indicación de índices o nombres de clientes, o un mapa de bits. Parte de la sintaxis de los flujos de bits enviados por el servidor a los clientes podría ser, por ejemplo, la siguiente:

[0385]

[0386]

[0389] Este ejemplo muestra una sintaxis que admite tres procedimientos diferentes para enviar los metadatos a los clientes y elige uno según una configuración preferida. Proporciona a todos los clientes información sobre cuántas ubicaciones únicas (alternativamente, cuántas ubicaciones con más de 1 usuario) hay y qué usuarios están presentes en cada ubicación.

[0391] En otro ejemplo, los metadatos relevantes solo se pueden enviar a los usuarios que comparten una ubicación. Esto se muestra en el siguiente ejemplo de sintaxis:

[0392]

[0395] 

[0397] En el caso de la detección del lado del cliente, los metadatos se envían típicamente al servidor y el servidor puede enviar típicamente metadatos con información similar o derivada a uno o más clientes.

[0398] El cliente, por ejemplo, puede enviar un indicador que indique si en ese momento se detecta una alta correlación entre la señal de salida y la señal del micrófono (después de AEC). De forma adicional o alternativa, puede enviar una indicación del valor de correlación máximo.

[0399] En otras realizaciones, el cliente puede usar adicionalmente metadatos que indican qué usuarios están activos y puede transmitir datos que indican uno o más usuarios específicos que se determina que están en la misma ubicación. Esto se puede hacer usando una sintaxis similar a la descrita anteriormente.

[0400] Además, el cliente puede enviar metadatos que describan con qué procedimiento se detectó y/o cuál es el retraso entre la captura acústica directa y la alta correlación en la señal de audio recibida del servidor de conferencia. Una sintaxis de ejemplo de los datos enviados del cliente al servidor es la siguiente:

[0403]

[0406] Una definición de ejemplo de los metadatos del procedimiento de detección podrá ser la siguiente:

[0409]

[0410] En respuesta a metadatos similares de uno o más clientes, el servidor puede enviar metadatos similares a los descritos anteriormente. El servidor puede agrupar la información recibida de múltiples clientes. Con ese fin, puede combinar todas las indicaciones de uso compartido de la ubicación. Si, por ejemplo, los clientes A y B indican que están en la misma ubicación que el usuario D y el cliente D indica una ubicación compartida con los usuarios A y C, el servidor puede indicar que los usuarios A, B, C y D están en la misma ubicación.

[0412] Alternativamente, puede indicar que los usuarios A y D están en la misma ubicación, porque se indicaron mutuamente una ubicación compartida.

[0414] Se apreciará que la descripción anterior para mayor claridad ha descrito realizaciones de la invención con referencia a diferentes circuitos, unidades y procesadores funcionales. Sin embargo, será evidente que se puede usar cualquier distribución adecuada de funcionalidad entre diferentes circuitos, unidades o procesadores funcionales sin restar importancia a la invención. Por ejemplo, la funcionalidad ilustrada para realizarse mediante procesadores o controladores separados se puede realizar mediante el mismo procesador o controladores. Por lo tanto, las referencias a unidades o circuitos funcionales específicos solo deben verse como referencias a medios adecuados para proporcionar la funcionalidad descrita en lugar de ser indicativas de una estructura u organización lógica o física estricta.

[0416] La invención se puede implementar en cualquier forma adecuada, incluyendo hardware, software, firmware o cualquier combinación de estos. La invención se puede implementar opcionalmente al menos en parte como software informático que se ejecuta en uno o más procesadores de datos y/o procesadores de señales digitales. Los elementos y componentes de una realización de la invención pueden implementarse física, funcional y lógicamente de cualquier manera adecuada. De hecho, la funcionalidad puede implementarse en una sola unidad, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención puede implementarse en una sola unidad o puede distribuirse física y funcionalmente entre diferentes unidades, circuitos y procesadores.

[0418] Aunque la presente invención se ha descrito en relación con algunas realizaciones, no pretende quedar limitada a la forma específica expuesta en esta invención. Más bien, el alcance de la presente invención está limitado únicamente por las reivindicaciones adjuntas. En las reivindicaciones, la expresión "comprendiendo" no excluye la presencia de otros elementos o etapas.

[0420] Además, aunque se enumeran individualmente, se puede implementar una pluralidad de medios, elementos, circuitos o etapas de procedimiento, por ejemplo, por un único circuito, unidad o procesador. Los signos de referencia en las reivindicaciones se proporcionan meramente como un ejemplo aclaratorio y de ninguna manera deben interpretarse como limitativos del alcance de las reivindicaciones.

Claims

1. REIVINDICACIONES

1. Un aparato de audio para un sistema de distribución de audio para recibir audio entrante desde una pluralidad de clientes remotos (103) y para transmitir audio derivado del audio entrante a al menos algunos de la pluralidad de clientes remotos (103), comprendiendo dicho sistema de distribución de audio un servidor de audio (101) y la pluralidad de clientes remotos (103); estando el aparato comprendido en al menos uno del servidor de audio (101) y uno de la pluralidad de clientes remotos (103) y que secaracteriza porcomprender:

un receptor (401) para recibir datos comprendiendo:

datos de audio para una pluralidad de componentes de audio, representando cada componente de audio audio de un cliente remoto de la pluralidad de clientes remotos;

datos de proximidad para al menos uno de los componentes de audio, siendo los datos de proximidad indicativos de una proximidad física entre clientes remotos en un entorno acústico del mundo real; y un generador (403) para generar una mezcla de audio de la pluralidad de componentes de audio en respuesta a los datos de proximidad;

donde el generador (403) está dispuesto para generar una primera mezcla de audio para transmitir a un primer cliente remoto de la pluralidad de clientes remotos, incluyendo la generación de la primera mezcla de audio determinar una atenuación en la primera mezcla de audio de un segundo componente de audio para un segundo cliente remoto en respuesta a los datos de proximidad.

2. El aparato de audio según la reivindicación 1, donde el generador (403) está dispuesto para atenuar el segundo componente de audio en la primera mezcla de audio para que los datos de proximidad cumplan un criterio de proximidad para el primer cliente remoto y el segundo cliente remoto.

3. El aparato de audio según cualquiera de las reivindicaciones anteriores, donde los datos de proximidad comprenden una indicación de proximidad escalar para al menos un primer cliente remoto y un segundo cliente remoto, siendo la indicación de proximidad escalar indicativa de una atenuación acústica desde una fuente de audio del segundo cliente remoto a un elemento de captura del primer cliente remoto.

4. El aparato de audio según cualquiera de las reivindicaciones anteriores, donde los datos de proximidad comprenden una indicación de proximidad diferente de un primer cliente remoto a un segundo cliente remoto que del segundo cliente remoto al primer cliente remoto.

5. El aparato de audio según la reivindicación 1, donde el receptor (401) está dispuesto para recibir datos de proximidad que se adaptan dinámicamente a los cambios en las posiciones de al menos uno de la pluralidad de clientes remotos (103).

6. Un sistema de distribución de audio comprendiendo

una pluralidad de clientes remotos (103);

un servidor de audio (101) para recibir audio entrante de la pluralidad de clientes remotos (103) y para transmitir audio derivado del audio entrante a al menos uno de la pluralidad de clientes remotos (103);

caracterizadoel sistema de distribución de audioporal menos uno del servidor de audio y uno de la pluralidad de clientes remotos (103) comprendiendo:

un receptor (401) para recibir datos comprendiendo:

datos de proximidad para al menos uno de los componentes de audio, siendo los datos de proximidad indicativos de una proximidad física entre clientes remotos en un entorno acústico del mundo real; un generador (403) para generar una mezcla de audio de la pluralidad de componentes de audio en respuesta a los datos de proximidad;

7. El sistema de distribución de audio según la reivindicación 8, donde el sistema de distribución de audio comprende un detector de proximidad (503, 609) dispuesto para determinar una indicación de proximidad para un

primer cliente remoto y un segundo cliente remoto en respuesta a una comparación de un primer componente de audio para el primer cliente remoto y un segundo componente de audio para un segundo cliente remoto; y un transmisor (505) para transmitir datos de proximidad comprendiendo la indicación de proximidad al receptor (401).

8. El sistema de distribución de audio según la reivindicación 9, donde el detector de proximidad (503) forma parte del servidor de audio (101).

9. El sistema de distribución de audio según la reivindicación 8, donde un primer cliente remoto de la pluralidad de clientes remotos comprende:

una entrada (601) para generar una señal de micrófono correspondiente al audio capturado por un conjunto de micrófonos;

un detector de proximidad (609) dispuesto para determinar una indicación de proximidad para el primer cliente remoto en respuesta a una comparación de la señal de micrófono y el audio recibidos del servidor de audio (101); y

un transmisor (605) para transmitir datos de audio acústicos comprendiendo la indicación de proximidad al servidor de audio (101).

10. El sistema de distribución de audio según la reivindicación 11, donde el transmisor (605) está dispuesto para transmitir datos de proximidad que son indicativos de que se determina que un cliente remoto actualmente activo es proximal en respuesta a que el primer detector de proximidad detecta una alta correlación entre la señal de micrófono y el audio recibido desde el servidor de audio.

11. Un procedimiento de funcionamiento de un aparato de audio para un sistema de distribución de audio para recibir audio entrante desde una pluralidad de clientes remotos (103) y para transmitir audio derivado del audio entrante a al menos algunos de la pluralidad de clientes remotos (103); comprendiendo dicho sistema de distribución de audio un servidor de audio (101) y la pluralidad de clientes remotos (103); siendo realizado el procedimiento por al menos uno del servidor de audio (101) y uno de la pluralidad de clientes remotos (103) y comprendiendo:

recibir datos comprendiendo:

datos de proximidad para al menos uno de los componentes de audio, siendo los datos de proximidad indicativos de una proximidad física entre clientes remotos en un entorno acústico del mundo real; y

comprendiendo el procedimiento además:

generar una mezcla de audio de la pluralidad de componentes de audio en respuesta a los datos de proximidad; donde la generación comprende generar una primera mezcla de audio para transmitir a un primer cliente remoto de la pluralidad de clientes remotos, incluyendo la generación de la primera mezcla de audio determinar una atenuación en la primera mezcla de audio de un segundo componente de audio para un segundo cliente remoto en respuesta a los datos de proximidad.

12. Un producto de programa informático comprendiendo medios de código de programa informático adaptados para realizar todas las etapas de la reivindicación 13 cuando dicho programa se ejecuta en un ordenador.