ES2903553T3

ES2903553T3 - Método, aparato y medios legibles por ordenador para enfocar señales de sonido en un espacio 3D compartido

Info

Publication number: ES2903553T3
Application number: ES17805437T
Authority: ES
Inventors: Grant Howard Mcgibney
Original assignee: Nureva Inc
Current assignee: Nureva Inc
Priority date: 2016-05-31
Filing date: 2017-05-26
Publication date: 2022-04-04
Anticipated expiration: 2037-05-26
Also published as: US20200154228A1; US20210195359A1; US10397726B2; US11197116B2; EP3466110A1; EP3466110A4; US20180367938A1; US20170347217A1; US10848896B2; US10063987B2; WO2017205966A1; EP3466110B1; EP3968656A1

Abstract

Un método de enfoque de señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento calculada para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, que comprende: definir, por al menos un procesador, una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación que corresponden a un punto en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual; recibir, por el al menos un procesador, señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido; determinar, por el al menos un procesador, una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación de las señales de sonido recibidas que se alinean en tiempo y ponderan proporcionalmente por la amplitud del componente de señal basándose en la distancia desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido usando una combinación de relación máxima, en donde la ganancia de procesamiento calculada en cada ubicación de burbuja de micrófono virtual se determina simultáneamente a partir de las mismas señales de sonido recibidas: muestreando simultáneamente una señal de sonido desde cada uno de la pluralidad de micrófonos físicos; alineando y ponderando las muestras de señal de sonido para la ubicación de burbuja de micrófono virtual; sumando las muestras de señal de sonido alineadas y ponderadas y convirtiendo las muestras de señal de sonido sumadas en una señal de potencia para la ubicación de burbuja de micrófono virtual; sumando las señales de potencia para la ubicación de burbuja de micrófono virtual durante un periodo de tiempo dado para obtener una energía de señal derivada para esa ubicación de burbuja de micrófono virtual durante ese periodo de tiempo dado; y dividiendo la energía de señal derivada para la ubicación de burbuja de micrófono virtual por una energía de señal derivada de una señal desenfocada ideal, en donde la energía de señal de la señal desenfocada ideal se obtiene sumando las energías de las señales desde la pluralidad de micrófonos físicos durante la ventana de tiempo dada, ponderada por la ponderación al cuadrado de la combinación de relación máxima; identificar, por el al menos un procesador, una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido; y enfocar, por el al menos un procesador, señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y emitir, por el al menos un procesador, una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, que corresponden a un punto en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

Description

DESCRIPCIÓN

Método, aparato y medios legibles por ordenador para enfocar señales de sonido en un espacio 3D compartido

Campo técnico de la invención

La presente invención se refiere en general a potencia de sonido espacial 3D y determinación de la posición para enfocar a una agrupación de micrófonos configurada dinámicamente en casi tiempo real para situaciones de conferencia multiusuario.

Antecedentes

Ha habido diferentes enfoques para resolver los problemas en cuanto a la gestión de fuentes de ruido, y la orientación y conmutación de dispositivos de captación de micrófonos para mejorar la capacidad de una sala multiusuario para conferencias. Obtener una calidad de audio alta en ambos extremos de una llamada de conferencia es difícil de gestionar debido a, pero sin limitación a, dimensiones de sala variables, planes de asientos dinámicos y fuentes de ruido de estado estable conocido y de ruido dinámico desconocido. Debido a las necesidades y requisitos complejos, resolver los problemas ha resultado difícil e insuficiente.

Los métodos tradicionales habitualmente abordan el problema con micrófonos distribuidos para mejorar la captación de sonido ya que los micrófonos generalmente se ubican cerca de los participantes y las fuentes de ruido normalmente están más distantes, pero no siempre. Esto permite una buena captación de sonido; sin embargo, cada participante necesita un micrófono para unos resultados mejores, que aumenta la complejidad del hardware y de la instalación. Normalmente el sistema emplea conmutación y posprocesamiento de micrófonos, que puede degradar la señal de audio a través de la adición de artefactos no deseados, que resultan del proceso de conmutación entre micrófonos. La adaptación a participantes que están de pie en pizarras blancas, pantallas de proyección y otras ubicaciones no sentadas normalmente no se tratan de forma aceptable. Las ubicaciones dinámicas podrían tratarse a través de aparatos inalámbricos o micrófonos situacionales y, aunque el audio puede mejorarse, tales micrófonos no incorporan información posicional, únicamente información de audio.

Otro método para gestionar un aforo y posiciones de participantes dinámicos es con agrupaciones de haces de micrófonos. La agrupación se ubica habitualmente en un entorno de pared o techo. Las agrupaciones pueden estar orientadas para ayudar a dirigir los micrófonos sobre los sonidos deseados, de forma que las fuentes de sonido pueden seguirse y, teóricamente, optimizarse para ubicaciones de participantes dinámicas.

En la técnica actual, las agrupaciones de formación de haces de micrófonos se disponen en geometrías específicas para crear haces de micrófonos que pueden orientarse hacia el sonido deseado. La ventaja del método de haces es que existe una ganancia en la calidad de sonido con un mecanismo de control relativamente simple. Los haces pueden orientarse únicamente en una dimensión (en el caso de una agrupación en línea) o en dos dimensiones (en el caso de una agrupación 2D). La desventaja de los formadores de haces es que no pueden ubicar un sonido de forma precisa en una sala, únicamente su dirección y magnitud. Esto significa que la agrupación puede ubicar la dirección general de conformidad con una funcionalidad de tipo brújula, proporcionando un vector de dirección basándose en una posición conocida, que es una posición relativa en la sala. Este método es propenso a recibir señales directas y equitativas y en potencia multitrayectoria (reverberación), resultando en falsos positivos que pueden orientar potencialmente la agrupación en la dirección incorrecta.

Otro inconveniente es que la dirección es una medición general y la agrupación no puede distinguir entre fuentes de sonido deseables y no deseables en la misma dirección, resultando en que todas las señales captadas tienen iguales rechazo de ruido y ganancia aplicados. Si múltiples participantes están hablando, se vuelve difícil orientar la agrupación a una ubicación óptima, especialmente si los participantes están en lados opuestos de la sala. Los niveles de ruido en sala y de fuente de sonido deseada serán diferentes entre los haces de captación que requieren posprocesamiento, lo que puede añadir artefactos y distorsión de procesamiento a medida que el posprocesador normaliza los diferentes haces para intentar y tener en cuenta las varianzas y para minimizar las diferencias con el flujo de audio. Dado que el número de micrófonos que se usan tiende a estar limitado debido a costes y complejidad de instalación, esto crea problemas con menos micrófonos disponibles para realizar la captación de sonido y determinación de ubicaciones. Otra restricción con la técnica actual es que las agrupaciones de micrófonos no proporcionan una cobertura homogénea de la sala, ya que todos los micrófonos están ubicados en proximidad cercana entre sí debido a las consideraciones de diseño de las agrupaciones de micrófonos de formación de haces típicas. La instalación de miles de micrófonos físicos no es habitualmente viable en un entorno comercial debido a restricciones de construcción, espacio compartido, hardware y procesamiento donde se utilizan micrófonos tradicionales, a través de métodos normales establecidos en la técnica actual.

Un enfoque en la técnica anterior es usar técnicas de retardo de dominio de frecuencia para un direccionamiento de ubicación de fuente de sonido máximo. Sin embargo, los sistemas de dominio de frecuencia en este campo requieren sustanciales recursos de memoria y potencia de cálculo, conduciendo a soluciones más lentas y menos exactas.

La patente de Estados Unidos N.° 6.912.178 divulga un sistema y método para calcular una ubicación de una fuente acústica. El método incluye etapas de procesamiento de una pluralidad de señales de micrófono en espacio de frecuencia para buscar una pluralidad de ubicaciones de fuentes acústicas candidatas para una energía de señal normalizada máxima.

La patente de Estados Unidos N.° 4.536.887 describe un aparato de agrupación de micrófonos y un método para extraer señales deseadas del mismo en el que se recibe una señal acústica por una pluralidad de elementos de micrófono. Las salidas de elemento se retardan por medios de retardo y ponderan y suman por medios de suma ponderada para obtener una salida con sonido reducido. Se genera eléctricamente una señal deseada "ficticia" y los valores ponderados de los medios de suma ponderada se determinan basándose en la señal deseada ficticia y las salidas de los elementos de micrófono cuando se recibe únicamente ruido pero ninguna señal de entrada. De esta manera, los ajustes se hacen sin la intervención de un operador. El requisito de un entorno que tiene sustancialmente únicamente fuentes de ruido, sin embargo, no refleja de forma realista las situaciones de captación de sonido reales en las que ruido, reverberación y condiciones de sonido cambian en periodos de tiempo relativamente cortos y la ocurrencia de sonidos deseados es impredecible. Es un objetivo de la patente acabada en 887 proporcionar una captación de sonido direccional mejorada que es adaptable a condiciones de entornos variables sin la intervención de un operador o un requisito de condiciones sin señales para su adaptación.

El artículo "A High-Accuracy, Low-Latency Technique for Talker Localization in Reverberant Environments Using Microphone Arrays", Joseph Hector DiBiase, mayo 2000, divulga intentos de mostrar que las técnicas de localización por pares producen un rendimiento inadecuado en algunos entornos de sala pequeña realistas. Se recopilaron conjuntos de datos de agrupación únicos usando sistemas de agrupación de micrófonos especialmente diseñados. A través del uso de estos datos, se analizaron y compararon diversos métodos de localización. Estos métodos se basan tanto en la correlación cruzada generalizada (GCC) como en la potencia de respuesta orientada (SRP). Las técnicas de GCC estudiadas incluyen la transformación de fase, que se ha denominado "GCC-PHAT". Los métodos de orientación de haces se basan en la potencia de respuesta orientada (SRP) convencional y una nueva técnica de filtrado y suma denominada "SRP-PHAt ".

La patente de Estados Unidos N.° 6.593.956 B1 describe un sistema, tal como un sistema de conferencias de vídeo, que incluye un dispositivo de captación de imágenes, un dispositivo de captación de audio y un localizador de fuente de audio. El dispositivo de captación de imágenes genera señales de imagen representativas de una imagen, mientras que el dispositivo de captación de audio genera señales de audio representativas de sonido desde una fuente de audio, tal como una persona hablando. El localizador de fuente de audio procesa las señales de imagen y señales de audio para determinar una dirección de la fuente de audio en relación con un punto de referencia. El sistema puede determinar adicionalmente una ubicación de la fuente de audio en relación con el punto de referencia. El punto de referencia puede ser una cámara. El sistema puede usar la información de dirección o de ubicación para encuadrar un disparo de cámara apropiado que incluiría la fuente de audio.

La patente de la Unión Europea EP0903055 B1 describe un método y sistema de procesamiento de señal acústica usando un par de micrófonos (10, 11) separados espacialmente para obtener la dirección (80) o ubicación de la alocución u otras señales acústicas desde una fuente de sonido común (2). La descripción incluye un método y aparato para procesar las señales acústica determinando si las señales adquiridas durante un marco de tiempo particular representan el comienzo (45) o inicio de una secuencia de señales acústicas desde la fuente de sonido, identificando señales acústicas recibidas representativas de la secuencia de señales, y determinando la dirección (80) de la fuente, basándose en las señales acústicas recibidas. La patente que acaba en 055 tiene aplicaciones para conferencias de vídeo en las que puede ser deseable ajustar automáticamente una cámara de vídeo, tal como apuntando la cámara en la dirección de una persona que ha comenzado a hablar.

La patente de Estados Unidos N.° 7.254.241 describe un sistema y proceso para encontrar la ubicación de una fuente de sonido usando enfoques directos que tienen factores de ponderación que mitigan el efecto tanto de ruido correlacionado como de reverberación. Cuando se usan más de dos micrófonos, el enfoque de localización de fuente de sonido (SSL) basado en tiempo de retardo de llegada (TDOA) implica dos etapas. La primera etapa calcula TDOA para cada par de micrófonos, y la segunda etapa combina estas estimaciones. Este proceso de dos etapas descarta información relevante en la primera etapa, degradando por lo tanto la precisión y robustez de SSL. En la patente que acaba en 241 se emplean enfoques directos de una etapa. En concreto, se emplean un enfoque de SSL de TDOA de una etapa y un enfoque de SSL de haz orientado (SB). Cada uno de estos enfoques proporciona una precisión y robustez no disponible con los enfoques de dos etapas tradicionales.

La patente de Estados Unidos N.° 5.469.732 B1 describe un aparato y método en un sistema de conferencias de vídeo que proporciona una determinación precisa de la posición de un participante que habla midiendo la diferencia en tiempos de llegada de un sonido que se origina desde el participante que habla, usando tan solo cuatro micrófonos en una configuración tridimensional. En una realización, se resuelven fuera de línea un conjunto de ecuaciones simultáneas que relacionan la posición de la fuente de sonido y cada micrófono y relacionadas con la distancia de cada micrófono entre sí y se programan en un ordenador de anfitrión. En una realización, el conjunto de ecuaciones simultáneas proporciona múltiples soluciones y la media de tales soluciones se capta como la posición final. En otra realización, se proporciona un promedio de las múltiples soluciones como la posición final.

El documento US 2014/0098964 A1 divulga un sistema que usa una agrupación de micrófonos de escala ultra grande para crear un mapa acústico de un espacio. El espacio se divide en una pluralidad de máscaras, en donde cada máscara tiene una región de paso y una pluralidad de regiones de rechazo. Se usan técnicas de formación de haces con un subconjunto de micrófonos para que cada máscara maximice una ganancia para señales procedentes de una región de paso y minimice señales procedentes de las regiones de rechazo.

El documento JP 3154468 B2 divulga una técnica en la que señales recopiladas por múltiples micrófonos se retardan en tiempo para tener en cuenta su distancia desde una fuente, y se normalizan eliminando una suma de salidas desde todos los micrófonos.

La presente invención se concibe para superar uno o más de los problemas analizados anteriormente.

Sumario de la invención

De acuerdo con la presente invención, se proporciona un método de acuerdo con la reivindicación 1, un aparato de acuerdo con la reivindicación 7 y un programa informático de acuerdo con la reivindicación 14. En las reivindicaciones dependientes se exponen realizaciones adicionales.

La presente invención permite al instalador que disperse micrófonos uniformemente a través de una sala para proporcionar una cobertura de sonido uniforme por toda la sala. En esta configuración, la agrupación de micrófonos no forma haces, sino que en su lugar forma miles de burbujas de micrófono virtual dentro de la sala. Este sistema proporciona el mismo tipo de mejora de sonido que los formadores de haces, pero con la ventaja de que de los micrófonos se distribuyen uniformemente por toda la sala y la fuente de sonido deseada puede enfocarse de forma más efectiva en lugar de orientarse, mientras se desenfocan fuentes de sonido no deseadas en lugar de rechazar las señales de haces. Las implementaciones descritas a continuación también proporcionan la ubicación tridimensional completa y una presentación más natural de cada sonido dentro de la sala, que abre muchas oportunidades para la optimización de sonido, servicios y necesidades basados en ubicación.

De acuerdo con un aspecto de la presente invención, la ubicación de posición 3D de fuentes de sonido incluye usar retardo de propagación y ubicaciones de altavoces de sistema conocidas para formar una agrupación de micrófonos dinámica. A continuación, usar un procesador de burbujas para derivar una red de matriz 3D de una pluralidad (miles) de micrófonos virtuales en la sala para enfocar la agrupación de micrófonos (en tiempo real usando la ganancia de procesamiento calculada en cada micrófono de burbuja virtual) a la pluralidad de ubicaciones (x,y,z) de coordenadas de sonido de fuente exactas. Este aspecto de la presente invención puede centrarse en las ubicaciones de los múltiples participantes que hablan específicos, no solo vector o dirección generalizada, mientras se minimizan las fuentes de ruido incluso si se alinean en el mismo vector direccional que estaría a lo largo del mismo haz orientado en una agrupación de formación de haces típica. Esto permite que la agrupación capture todas las ubicaciones de participantes (tales como sentados, de pie y/o en movimiento) para generar la mejor captación y optimizaciones de sonido de fuente. Los participantes en el espacio activo no se limitan a ubicaciones de micrófonos y/o áreas de fuente de sonido posicional optimizadas y estimadas de haz orientado para captación de sonido de mejor calidad.

Debido a que la agrupación supervisa todos los puntos de micrófono virtual definidos en espacio cada vez que se determina la mejor decisión de fuente de sonido independientemente de la posición de agrupación actual que resulta en ningún sonido deseado perdido. Pueden captarse múltiples fuentes de sonido por la agrupación y los participantes externos pueden tener la opción de enfocar en múltiples o únicas fuentes de sonido que resulta en una reunión de conferencia más integrada y efectiva sin las típicas incertidumbres de estimación posicional de conmutación, distorsión y artefactos asociados a una agrupación de formador de haces orientada.

Enfocando en lugar de orientando la agrupación de micrófonos, el rendimiento de suelo de ruido se mantiene a un nivel constate, resultando en una experiencia de usuario que es más natural, resultando en menos artefactos, niveles de ruido ambiente consistentes y posprocesamiento al flujo de salida de audio.

De acuerdo con otro aspecto de la presente invención, un método de enfoque de señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento calculada para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, define, por al menos un procesador, una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual. El al menos un procesador recibe señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido, y determina una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación recibida de señales de sonido originadas desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido. El al menos un procesador identifica una ubicación de fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la ubicación de fuente de sonido coordenadas en el espacio 3D compartido. El al menos un procesador enfoca señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos. El al menos un procesador emite una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

De acuerdo con un aspecto adicional de la presente invención, un aparato configurado para enfocar señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento calculada para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, estando cada uno de la pluralidad de micrófonos físicos configurado para recibir señales de sonido en un espacio 3D compartido, incluye al menos un procesador. El al menos un procesador está configurado para: (i) definir una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual; (ii) recibir señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido; (iii) determinar una ganancia de procesamiento en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación recibida de señales de sonido obtenidas desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido; (iv) identificar una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido; (v) enfocar señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y (vi) emitir una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

De acuerdo con otro aspecto más de la presente invención, se proporciona un programa incorporado en un medio legible por ordenador no transitorio para enfocar señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido. El programa tiene instrucciones que provocan que al menos un procesador: (i) defina una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual; (ii) reciba señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido; (iii) determine una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación recibida de señales de sonido obtenidas desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido; (iv) identifique una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido; (v) enfoque señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y (vi) emita una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

Además del procesador o procesadores, las presentes realizaciones se componen preferentemente tanto de algoritmos como de aceleradores de hardware.

Breve descripción de los dibujos

Las Figuras 1a y 1b son ilustraciones diagramáticas de presión acústica correlacionada con distancia.

La Figura 2 es una ilustración diagramática de diferentes tipos de ondas de sonido en relación con un micrófono.

Las Figuras 3a y 3b son diagramas estructurales y funcionales del procesador de burbujas y el procesador de elementos de micrófono, de acuerdo con una realización de la presente invención. La Figura 3b incluye un diagrama de flujo para calcular una ganancia de procesamiento.

La Figura 4 es una ilustración diagramática de una matriz de micrófonos virtual 3D derivada por el procesador de burbujas.

La Figura 5a y 5B es una representación de la relación de tiempo de micrófono a burbuja de micrófono virtual y patrón.

Las Figuras 6a, 6b y 6c son gráficos de ganancia de procesamiento frente a posición del procesador de burbujas.

La Figura 7 es una ilustración de cómo se disponen las burbujas de micrófono virtual con una disposición de agrupación 1D.

La Figura 8 es una ilustración diagramática del proceso de enfoque de micrófono.

Descripción detallada de las realizaciones ilustrativas preferidas actualmente

La presente invención se refiere a sistemas y métodos que habilitan que grupos de personas, conocidas como participantes, se unan juntos a través de una red tal como la Internet, o canal electrónico similar, de una manera en tiempo real remotamente distribuida que emplea ordenadores personales, estaciones de trabajo en red u otros aparatos conectados de forma similar, sin contacto presencial, para participar en reuniones de conferencia de audio efectivas que utilizan grandes salas (espacios) multiusuario con participantes distribuidos.

Ventajosamente, realizaciones de la presente invención se refieren a utilizar el dominio de tiempo para proporcionar sistemas y métodos para proporcionar a los participantes remotos la capacidad de enfocar una agrupación de micrófonos en una sala multiusuario al participante que habla deseado y/o fuentes de sonido. Y la presente invención puede aplicarse a uno cualquiera o más espacios compartidos que tienen múltiples micrófonos tanto para enfocar captación de fuente de sonido y simular un receptor de sonido local para un participante que escucha remoto.

Enfocar la agrupación de micrófonos preferentemente comprende el proceso de optimizar la agrupación de micrófonos para maximizar la ganancia de proceso en la posición de micrófono virtual (X,Y,Z) direccionada, para aumentar la magnitud de la fuente de sonido deseada mientras se mantiene un nivel de ruido ambiente constante en el espacio compartido, resultando en una experiencia de audio natural; y no es específicamente el proceso de conmutación de micrófonos, y/u orientación de agrupación o agrupaciones de formadores de haces de micrófono para proporcionar una ganancia constante dentro del haz en eje y rechazar las señales fuera de eje que resultan en una experiencia de audio no natural y rendimiento de ruido ambiente inconsistente.

Un desafío notable a la captación de sonido de forma clara en una sala, cabina o espacio confinado es el entorno multitrayectoria en el que la onda de sonido llega a la oreja tanto directamente como a través de muchas trayectorias reflejadas. Si el micrófono está en proximidad cercana a la fuente, entonces la trayectoria directa es mucho más intensa que las trayectorias reflejadas y domina la señal. Esto proporciona un sonido muy claro. En la presente invención, es deseable situar los micrófonos discretamente y alejados de la fuente de sonido, en las paredes o techo para apartarlos de los participantes y ocupantes.

Las Figuras 1a y 1b ilustran que a medida que el micrófono 108 se separa físicamente a través de distancia de la fuente de sonido 107, el nivel de la presión acústica 110 de la trayectoria directa 101 cae de forma predecible siguiendo la regla de 1/r 110, sin embargo la acumulación de las trayectorias reflejadas 102, 103, 104, 105 tienden a rellenar la sala 109 de forma más uniforme. A medida que se mueve el micrófono 108 adicionalmente desde la fuente de sonido 107, las ondas de sonido reflejadas 102, 103, 104, 105 constituyen más de la señal medida del micrófono 108. La señal medida suena mucho más distante y más difícil de oír, incluso si tiene una amplitud suficiente, ya que las ondas de sonido reflejadas 102, 103, 104, 105 se dispersan en tiempo, lo que provoca que la señal se distorsione, y que no sea de forma efectiva tan clara para un oyente.

La Figura 2 ilustra señales de sonido que llegan a la agrupación de micrófonos 205, modeladas como que tienen tres componentes. La señal de sonido que llega directamente 101 a la agrupación de micrófonos 205, la señal de sonido que llega a la agrupación de micrófonos 205 a través de reflejos 202 desde las paredes 206 y objetos 207 dentro de la sala denominada como reverberación, y sonidos ambiente que no proceden desde la fuente de sonido 107 deseada, como ruido. Debido a la distancia adicional recorrida desde la fuente de sonido 107 deseada hasta la agrupación de micrófonos 205, el retardo de propagación o tiempo que la señal recorre en aire libre será mayor para señales reflejadas 202.

La Figura 3a (300) es un diagrama funcional del procesador de burbujas y también ilustra un diagrama de flujo que describe la lógica para derivar la ganancia de procesamiento para identificar la posición de la fuente de sonido 107. Un propósito del sistema es crear una señal de salida de sonido mejorada 315 combinando las entradas desde los elementos de micrófono individuales 108 en la agrupación 205 de una forma que aumenta la magnitud del sonido directo 101 recibido en la agrupación de micrófonos en relación con los componentes de reverberación 202 y ruido 203. Por ejemplo, si la magnitud de la señal directa 101 puede doblarse en relación con las otras señales 202, 203, tendrán aproximadamente el mismo efecto que dividir a la mitad la distancia entre los micrófonos 108 y la fuente de sonido 107. La intensidad de señal cuando la agrupación se enfoca en una fuente de sonido 107 dividida por la intensidad de señal cuando la agrupación no se enfoca en ninguna fuente de sonido 107 (tal como ruido de fondo ambiente, por ejemplo) se define como la ganancia de procesamiento del sistema. La presente realización funciona configurando miles de posiciones de escucha (como se muestra en la Figura 4 y se explica a continuación) dentro de la sala, y midiendo simultáneamente la ganancia de procesamiento en cada una de estas ubicaciones. La posición de escucha virtual con la mayor ganancia de procesamiento es preferentemente la ubicación de la fuente de sonido 107.

Para derivar las ganancias de procesamiento 308, el volumen de la sala en la que se desea la captación de sonido se divide preferentemente en un gran número de posiciones de micrófono virtual (Figura 4). Cuando la agrupación se enfoca en un micrófono virtual 402 dado, entonces cualquier fuente de sonido dentro de una proximidad cercana de esa ubicación producirá una ganancia de procesamiento aumentada originada desde ese micrófono virtual 402. El volumen alrededor de cada micrófono virtual 402, en el que una fuente de sonido producirá ganancia de procesamiento máxima en ese punto, se define como una burbuja. Basándose en la ubicación de cada micrófono y la ubicación 3D definida para cada micrófono virtual, y usando la velocidad del sonido que puede calcularse dada la temperatura ambiente medida actual, el sistema 300 puede determinar el retardo de propagación esperado desde cada micrófono virtual 402 a cada elemento de agrupación de micrófonos 108.

El diagrama de flujo en la Figura 3a ilustra el flujo de señal dentro de la unidad de procesamiento de burbuja 300. Este ejemplo supervisa 8192 burbujas simultáneamente. El sonido desde cada elemento de micrófono 108 se muestrea al mismo tiempo como los otros elementos dentro de la agrupación de micrófonos 205 y a una tasa fija de 12 kHz. Cada muestra se pasa a un procesador de elementos de micrófono 301 ilustrado en la Figura 3b. El procesador de elementos de micrófono 301 condiciona y alinea las señales en tiempo y pondera la amplitud de cada muestra de forma que pueden pasarse al nodo de suma 304.

Los componentes de señal 320 desde el procesador de elementos 301 del micrófono se suman en el nodo 304 para proporcionar la señal combinada de la agrupación de micrófonos 205 para cada una de las 8192 burbujas. Cada señal de burbuja se convierte en una señal de potencia en el nodo 305 elevando al cuadrado las muestras de señal. Las señales de potencia se suman, a continuación, durante una ventana de tiempo dada por los 8192 acumuladores en el nodo 307. Las sumas representan la energía de señal durante ese periodo de tiempo.

La ganancia de procesamiento para cada burbuja se calcula en el nodo 308 dividiendo la energía de cada burbuja por la energía de una señal desenfocada ideal 322. La energía de señal desenfocada se calcula sumando 319 las energías de las señales desde cada elemento de micrófono 318 durante la ventana de tiempo dada, ponderada por la ponderación al cuadrado de la combinación de relación máxima. Esto es la energía que esperaríamos si todas las señales no estuvieran correlacionadas. La ganancia de procesamiento 308 se calcula, a continuación, para cada burbuja dividiendo la energía de señal de agrupación de micrófonos por la energía de señal desenfocada 322.

La ganancia de procesamiento se consigue porque las señales desde una fuente de sonido común experimentan todas el mismo retardo antes de combinarse, lo que resulta en que esas señales se añaden coherentemente, significando que sus amplitudes se suman. Si se combinan 12 señales directas 101 iguales en amplitud y alineadas en tiempo, la señal resultante tendrá una amplitud de 12x mayor, o un nivel de potencia de 144x mayor. Las señales desde las diferentes fuentes y señales desde la misma fuente con retardos significativamente diferentes que las señales desde la reverberación 202 y el ruido 203 no suman coherentemente y no experimentan la misma ganancia. En los extremos, las señales no se correlacionan completamente y no se sumarán ortogonalmente. Si se suman 12 señales ortogonales de igual amplitud, la señal tendrá aproximadamente 12x la potencia de la señal original o un aumento de 3,4x en amplitud (medida como rms). La diferencia entre la ganancia de 12x de la señal directa 101 y la ganancia de 3,4x de las señales de reverberación (202) y ruido (203) es la ganancia de procesamiento neta (3,4 u 11 dB) de la agrupación de micrófonos 205 cuando se enfoca en la fuente de sonido 107. Esto hace el sonido de señal como si el micrófono 108 se ha movido 3,4x más cerca de la fuente de sonido. Este ejemplo usó una agrupación de 12 micrófonos 205, pero podría extenderse a un número arbitrario (N) que resulta en una ganancia de procesamiento máxima posible de sqrt(N) o 10 log (N) dB.

El sistema de procesador de burbujas 300 enfoca preferentemente simultáneamente la agrupación de micrófonos 205 en 8192 puntos 402 en espacio 3D usando el método descrito anteriormente. El nivel de energía de una ráfaga corta de señal de sonido (50-100 ms) se mide en cada uno de los 8192 puntos de la burbuja de micrófono virtual 402 y se compara con el nivel de energía que se esperaría si las señales combinaran ortogonalmente. Esto nos proporciona la ganancia de procesamiento 308 en cada punto. La burbuja de micrófono virtual 402 que está más cerca de la fuente de sonido 107 experimentaría la mayor ganancia de procesamiento y se representaría como un pico en la salida. Una vez que se determina, se conoce la ubicación 403.

El nodo 306 busca preferentemente a través de la salida de la unidad de ganancia de procesamiento 308 la burbuja con la mayor ganancia de procesamiento. La ubicación (x,y,z) 301120 (Figura 5a) del micrófono virtual 402 que corresponde a esa burbuja puede determinarse, a continuación, consultando el índice en la configuración original para determinar la ubicación exacta de la fuente de sonido 107. Los parámetros 314 pueden comunicarse a diversos dispositivos electrónicos para enfocar los mismos a la posición de fuente de sonido 403 identificada. Después de derivar la ubicación 403 de la fuente de sonido 107, enfocar la agrupación de micrófonos 205 en esa fuente de sonido 107 puede lograrse después de conseguir la ganancia. El procesador de burbujas 300 se diseña para encontrar la fuente de sonido 107 lo suficientemente rápido de modo que la agrupación de micrófonos 205 puede enfocarse mientras la fuente de sonido 107 está activa, que puede ser ventana de oportunidad muy corta. El sistema de procesador de burbujas 300 de acuerdo con esta realización es capaz de encontrar nuevas fuentes de sonido en menos de 100 ms. Una vez encontradas, la agrupación de micrófonos enfoca en esa ubicación para captar la señal de fuente de sonido 310 y el sistema 300 notifica la ubicación del sonido a través de la posición de señal de fuente de identificación 306 a otros procesos internos y al ordenador anfitrión de modo que puede implementar aplicaciones basadas en ubicación con fuente de sonido. Preferentemente, este es el propósito del procesador de burbujas 300.

La Figura 8 ilustra la lógica usada preferentemente para derivar el enfoque de micrófono. Una vez que se identifica el micrófono burbuja 402 que está más cerca de la fuente de sonido 107, se conocen el retardo 801 y la ponderación 802 de micrófono específicos que se correlacionan con el micrófono virtual específico. Cada señal de micrófono se canaliza a través de el retardo específico 801, que se multiplica por la ponderación de señal de micrófono específica 802 para cada micrófono. La salida desde todos los micrófonos se suma 803 y la señal resultante se canaliza al sistema de audio 804.

El procesador de elementos de micrófono 301 y mostrado en la Figura 3b, es preferentemente el primer proceso usado para enfocar la agrupación de micrófonos 205 en una burbuja 402 particular. Las señales individuales desde cada micrófono 108 se pasan a un proceso de precondición 3017 (Figura 3b). El proceso de precondición 3017 filtra componentes de alta frecuencia y de baja frecuencia de la señal que resulta en un ancho de banda de operación de 200 Hz a 1000 Hz.

Puede esperarse que las señales reflejadas 202 se decorrelacionarán de la señal directa 101 debido al hecho de que tienen que recorrer una distancia adicional y se desplazarán en tiempo en relación con la señal directa deseada 101. Esto no es cierto en la práctica, ya que las señales que se desplazan por una pequeña cantidad de tiempo tendrán alguna correlación entre sí. Una "pequeña cantidad de tiempo" depende de la frecuencia de la señal. Las señales de baja frecuencia tienden a decorrelacionarse con un retardo mucho menor que las señales de alta frecuencia. Las señales en baja frecuencia se dispersan a sí mismas a través de muchos puntos de muestra y hacen difícil encontrar la fuente del sonido. Por esta razón, es preferible filtrar tanto de la señal de baja frecuencia como sea posible sin perder la propia señal. Las señales de alta frecuencia también plantean un problema porque se decorrelacionan demasiado rápido. Dado que no puede haber un número infinito de burbujas de micrófono virtual (402) en el espacio, habría alguna distancia significativa entre los mismos, digamos 200 mm. El volumen de enfoque de la burbuja de micrófono virtual (402) se vuelve más pequeño a medida que aumenta la frecuencia porque el desplazamiento minúsculo en los retardos tiene más de un efecto. Si los volúmenes de burbujas se vuelven demasiado pequeños, entonces la fuente de sonido puede encontrarse entre dos puntos de muestra y perderse. Restringiendo los componentes de alta frecuencia, las burbujas de micrófono virtual (402) serán preferentemente lo suficientemente grandes que las fuentes de sonido (309) no se perderán por un punto de muestra en el algoritmo de proceso. La señal se filtra y pasa preferentemente a la función de línea de retardo de micrófono 3011.

Una línea de retardo 3011 (Figura 3a y Figuras 5a y 5b) almacena preferentemente la muestra precondicionada más un número finito de muestras anteriormente precondicionadas de ese elemento de micrófono 108. Durante la inicialización, se conocen las posiciones del micrófono virtual fijo 402 y las posiciones del elemento de micrófono calculado 108. Para cada elemento de micrófono 108, el sistema calcula preferentemente la distancia a cada micrófono virtual 402, a continuación calcula el retardo añadido necesario para cada micrófono virtual y preferentemente escribe el mismo a la tabla de consulta de retardo 3012. También calcula la ponderación de combinación de relación máxima para cada micrófono virtual 402 y almacena la misma en la tabla de consulta de ponderación 3014.

Un contador 3015, que se ejecuta preferentemente en una frecuencia de muestra de más de 8192 veces que de la tasa de muestra de micrófono, cuenta las posiciones de burbuja desde 0 a 8191 y envía estas al índice de las dos tablas de consulta 3012 y 3014. La salida de la tabla de consulta de retardo de burbuja 3012 se usa preferentemente para elegir ese toque de la línea de retardo 3011 con el correspondiente retardo para esa burbuja. Esa muestra, a continuación, se multiplica 3013 preferentemente por la ponderación leída de la tabla de consulta de ponderación 3014. Para cada entrada de muestra al procesador de elementos de micrófono 301, se emiten 3018 8192 muestras, correspondiendo cada una al componente de señal para una burbuja de micrófono virtual 402 particular en relación con ese elemento de micrófono 108.

El segundo método por el que la agrupación se usa para mejorar la intensidad de señal es aplicando una ponderación específica a la salida de cada elemento de micrófono 108. Porque los micrófonos 108 no están coubicados en la misma ubicación exacta, el sonido directo 101 no llegará a los micrófonos 108 con igual amplitud. La amplitud cae como 1/r 110 y la distancia (r) es diferente para cada combinación de micrófono 108 y burbuja de micrófono virtual 402. Esto crea un problema ya que mezclar señales más débiles 310 en la salida en el mismo nivel que señales más intensas 310 puede introducir realmente más ruido 203 y reverberación 202 en el sistema 300 que si no se mezcla. La combinación de relación máxima es la forma preferible de combinar señales 304. Sencillamente, cada señal en la combinación se pondera 3014 proporcionalmente por la amplitud del componente de señal para resultar en el mayor nivel de señal a ruido. Dado que se conoce la distancia que cada trayectoria directa 101 recorre desde cada posición de burbuja 402 a cada micrófono 108, y dado que también se conoce la ley de 1/r, esto puede usarse para calcular la ponderación óptima 3014 para cada micrófono 108 en cada uno de los 8192 puntos de micrófono virtual 402.

Las Figuras 5a y 5b 3011 muestran la relación de una cualquiera burbuja 402 con cada micrófono 108. Ya que cada burbuja 402 tendrá un retardo de propagación único 30115 a los micrófonos 108, se desarrolla un patrón 30111 de burbuja de micrófono dinámica 402 a agrupación. Este patrón es único a esa ubicación de burbuja de micrófono dinámica 403. Esto resulta en un patrón de retardo de propagación 30111 a la matriz de ganancia de procesamiento 315 que se determina en las Figuras 3a y 3b. Una vez que la ganancia de procesamiento máxima 300 se determina a partir de las 8192 burbujas de micrófono dinámicas 400, el patrón de retardo 30111 determinará la única ubicación de burbuja de micrófono dinámica 403. Las ubicaciones de burbujas predefinidas 301120 se calculan basándose en dimensiones de tamaño de sala 403 y el espacio requerido para resolver burbujas individuales, que depende de la frecuencia.

La presente realización se diseña con un retardo de tiempo objetivo, D, 30117 como se muestra en la Figura 5b, entre la fuente de sonido 107 y donde las entradas de elemento de micrófono se combinan 304 para tener un retardo D manipulando el retardo 30118 que se inserta después de cada retardo 30115 medido de elemento de micrófono. El valor de D puede mantenerse constante a un valor que es mayor que el retardo máximo esperado de la fuente de sonido más alejada en la sala. Como alternativa, D puede cambiarse dinámicamente de forma que el retardo insertado más pequeño 30118 para todas las trayectorias de micrófono es o está cercano a cero, para minimizar el retardo total a través del sistema. El retardo de propagación calculado desde un micrófono virtual 402 dado a un micrófono 108 más el retardo insertado 30118 siempre suma D 30117. Por ejemplo, si el retardo desde el micrófono virtual 1 hasta el elemento de micrófono 1 es 16 ms y D es 40 ms, entonces se insertarán 24 ms en esa trayectoria 3018. Si el retardo desde el micrófono virtual 1 hasta el elemento de micrófono 2 es 21 ms, entonces se insertan unos 19 ms adicionales a esa trayectoria. El gráfico 30119 (Figura 5b) demuestra esta relación de retardo medido 30115 con el retardo añadido 30118 para conseguir un tiempo de retardo constante 30117 a través de todos los micrófonos 108 en la agrupación 205. Si existe una fuente de sonido 107 dentro de la burbuja asociada a ese micrófono virtual 402, entonces las señales de trayectoria directas 101 desde ambos elementos de micrófono llegarán en el punto de suma 304 con la misma cantidad de retardo 30117 (40 ms), a continuación las dos señales directas sumarán en fase para crear una señal más intensa. El proceso 3011 se repite para los 12 micrófonos en la agrupación 205 en este ejemplo.

El desafío ahora es cómo calcular los 8192 puntos de muestra en tiempo real de modo que el sistema puede captar una fuente de sonido y enfocarse en la misma a medida que se produce. El desafío requiere mucho cálculo y mucho ancho de banda de memoria. Para cada micrófono en cada punto de la burbuja de micrófono virtual 402 en la sala, existen cinco operaciones simples: buscar el retardo requerido 3012 a añadir a esta trayectoria, buscar la ponderación requerida 3014, buscar la señal desde una línea de retardo 3011, multiplicar la señal por la ponderación 3013, y añadir el resultado a la señal total 304. La implementación de esta realización es para 12 micrófonos 205, en cada uno de los 8192 puntos de muestra del micrófono virtual 402, en la frecuencia de muestra base de 12 kHz. El recuento de operación total es 12 x 8192 x 12000 x 5 operaciones = 5,9 mil millones de operaciones por segundo. El resto del cálculo (filtros, cálculo de potencia, resultado de pico, etc.) aún es grande, pero insignificante en comparación con este número. Mientras que este recuento de operación es posible con un sistema informático de alga gama, no es económico. La implementación del proceso es preferentemente en una matriz de puertas programable en campo (FPGA) o, de forma equivalente, podría implementarse en un ASIC. En la FPGA, es un núcleo de procesador que puede hacer preferentemente las cinco operaciones básicas en paralelo en un único ciclo de reloj. Se proporcionan preferentemente doce copias del núcleo de procesador, una para cada micrófono para proporcionar una capacidad de procesamiento suficiente. Este sistema ahora puede calcular 60 operaciones en paralelo y operar en una tasa de reloj modesta de 100 MHz. Se usa preferentemente un procesador de DSP pequeño para filtrado y procesamiento de agrupación final.

Las Figuras 6a, 6b y 6c demuestran la función del procesador de burbujas en una onda de sonido real. En general, las posiciones de las burbujas son arbitrarias en un espacio 3D. En este ejemplo, el procesador de burbujas divide el espacio 3D en una pluralidad de planos 2D. El número de planos 2D 601, 602, 603, 604, 605 es configurable y se basa en el tamaño de burbuja de micrófono virtual, ya que los planos 2D se apilan unos sobre otros desde el suelo hasta el techo como se muestra en la Figura 6a. La Figura 6B muestra un gráfico de procesamiento del plano 2D 603 que es representativo de cualquiera de los otros planos 2D 601-605. Un diagrama de un subconjunto de las salidas de burbuja con respecto a sus correspondientes posiciones en los ejes x e y 607 con la ganancia de procesamiento 606 representada como la altitud de la superficie a lo largo del eje z. Las figuras muestran de forma efectiva un plano 2D horizontal capturado 603 a través de una sala 401 para micrófonos virtuales en ese plano 2D particular de entre una pluralidad de posibles planos 2D.

La Figura 6b muestra un gráfico de procesamiento de plano 2D 603 cuando existe únicamente ruido ambiente de sala, el resultado es ninguna indicación de significativa ganancia de procesamiento entre cualquiera de las ubicaciones de burbujas de micrófono virtual. Cuando se añade una fuente de sonido distinta, Figura 6c, entonces existe un pico distinto 608 en la ganancia de procesamiento de plano 2D 603 en la posición de la fuente de sonido. Los baches adicionales se miden porque las señales reales no están perfectamente decorrelacionadas cuando se retardan, resultando en una ganancia de procesamiento residual 308 derivada en otra burbuja de micrófono virtual 402301120.

La Figura 4 (400) ilustra una sala 401 de cualquier dimensión que se rellena volumétricamente con burbujas de micrófono virtual 402. El sistema de procesador de burbujas 300, según se prefiere actualmente, se configura (pero sin limitación) para medir 8192 burbujas de micrófono virtual 402 concurrentes. La ilustración muestra por claridad únicamente un subconjunto de las burbujas de micrófonos virtuales 402. La sala 401 se rellena de tal forma que desde una perspectiva volumétrica todo el volumen se cubre con las burbujas de micrófono virtual 402 que se disponen en una red 3D con vectores (X,Y,Z) 403. Derivando la ganancia de proceso 308 originada desde cada ubicación de burbuja de micrófono virtual 301120, las coordenadas exactas de la fuente de sonido 309 pueden medirse en una red de coordinadas (X,Y,Z) 403. Esto permite una determinación de ubicación precisa con un alto grado de precisión, que se limita por tamaño de la burbuja de micrófono virtual 402. El tamaño y la posición de la burbuja de micrófono virtual 402 de cada micrófono virtual 402 se precalcula basándose en tamaño de la sala y tamaño de la burbuja deseados, que es configurable. Los parámetros de burbuja de micrófono virtual incluyen, pero sin limitación, tamaño y posición de coordenadas. Los parámetros se utilizan por el sistema de procesador de burbujas 300 a lo largo de todo el proceso de cálculo para derivar información de magnitud y de posición para cada posición de la burbuja de micrófono virtual 402. El segmento de plano de procesamiento virtual 603 se ilustra adicionalmente para referencia.

La Figura 7 (700) ilustra otra realización del sistema que utiliza una agrupación de formación de haces ID. Una simplificación del sistema es limitar todos los micrófonos 702 es una línea 704 en espacio. Debido a la simetría rotacional 703 alrededor de la línea 704, es prácticamente imposible distinguir la diferencia entre fuentes de sonido que se originan desde diferentes puntos alrededor de un círculo 703 que tiene la línea como un eje. Esto convierte las burbujas de micrófono descritas anteriormente en dónuts 703 (que esencialmente rotan la burbuja 402 alrededor del eje de micrófono). Una diferencia es que los puntos de muestra se limitan a un plano 705 que se extiende desde un lado de la línea de micrófono (un punto de muestra para cada dónut). Las posiciones se emiten como coordenadas 2D con una coordenada de posición de largo y ancho 706 desde la agrupación de micrófonos, no como una coordenada 3D completa con un componente de altura como se ilustra en el diagrama.

Los componentes individuales mostrados en esquema o designados por bloques en los dibujos adjuntos se conocen todos bien en las técnicas de procesamiento electrónico, y su contribución y operación específicas no son críticas para la operación o mejor modo para efectuar la invención.

Mientras la presente invención se ha descrito con respecto a lo que se considera actualmente como las realizaciones preferidas, debe apreciarse que la invención no se limita a las realizaciones divulgadas.

Claims

REIVINDICACIONES

1. Un método de enfoque de señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento calculada para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, que comprende:

definir, por al menos un procesador, una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación que corresponden a un punto en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual;

recibir, por el al menos un procesador, señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido;

determinar, por el al menos un procesador, una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación de las señales de sonido recibidas que se alinean en tiempo y ponderan proporcionalmente por la amplitud del componente de señal basándose en la distancia desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido usando una combinación de relación máxima, en donde la ganancia de procesamiento calculada en cada ubicación de burbuja de micrófono virtual se determina simultáneamente a partir de las mismas señales de sonido recibidas:

muestreando simultáneamente una señal de sonido desde cada uno de la pluralidad de micrófonos físicos; alineando y ponderando las muestras de señal de sonido para la ubicación de burbuja de micrófono virtual; sumando las muestras de señal de sonido alineadas y ponderadas y convirtiendo las muestras de señal de sonido sumadas en una señal de potencia para la ubicación de burbuja de micrófono virtual;

sumando las señales de potencia para la ubicación de burbuja de micrófono virtual durante un periodo de tiempo dado para obtener una energía de señal derivada para esa ubicación de burbuja de micrófono virtual durante ese periodo de tiempo dado; y

dividiendo la energía de señal derivada para la ubicación de burbuja de micrófono virtual por una energía de señal derivada de una señal desenfocada ideal, en donde la energía de señal de la señal desenfocada ideal se obtiene sumando las energías de las señales desde la pluralidad de micrófonos físicos durante la ventana de tiempo dada, ponderada por la ponderación al cuadrado de la combinación de relación máxima;

identificar, por el al menos un procesador, una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido; y

enfocar, por el al menos un procesador, señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y

emitir, por el al menos un procesador, una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, que corresponden a un punto en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

2. El método de acuerdo con la reivindicación 1, en donde existen al menos cuatro ubicaciones de burbujas dispuestas en una agrupación en 3D en el espacio 3D compartido, y en donde las coordenadas en el espacio 3D compartido se definen en coordenadas (x, y, z).

3. El método de acuerdo con la reivindicación 1, en donde una mayor ganancia de procesamiento calculada entre las burbujas corresponde a una ubicación de la fuente de sonido.

4. El método de acuerdo con la reivindicación 1, en donde fuentes de sonido plurales están dentro del espacio 3D compartido, y en donde la pluralidad de señales difundidas emitidas incluyen (i) coordenadas de ubicación en tiempo real, en el espacio 3D compartido, de cada una de la pluralidad de fuentes de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a las burbujas de micrófono virtual, para cada una de las fuentes de sonido en el espacio 3D compartido.

5. El método de acuerdo con la reivindicación 1, en donde la pluralidad de burbujas de micrófono virtual incluye más de cien burbujas de micrófono.

6. El método de acuerdo con la reivindicación 1, en donde el al menos un procesador determina un retardo de propagación esperado desde cada micrófono virtual a cada micrófono físico.

7. Aparato configurado para enfocar señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento calculada para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, estando cada uno de la pluralidad de micrófonos físicos configurado para recibir señales de sonido en un espacio 3D compartido, comprendiendo el aparato:

al menos un procesador configurado para:

definir una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación que corresponden a un punto en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual;

recibir señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido; determinar una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación de las señales de sonido recibidas que se alinean en tiempo y ponderan proporcionalmente por la amplitud del componente de señal basándose en la distancia desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido usando una combinación de relación máxima, en donde el al menos un procesador está configurado para determinar la ganancia de procesamiento calculada en cada ubicación de burbuja de micrófono virtual simultáneamente a partir de las mismas señales de sonido recibidas configurándose para:

muestrear simultáneamente una señal de sonido desde cada uno de la pluralidad de micrófonos físicos; alinear y ponderar las muestras de señal de sonido para la ubicación de burbuja de micrófono virtual; sumar las muestras de señal de sonido alineadas y ponderadas y convertir las muestras de señal de sonido sumadas en una señal de potencia para la ubicación de burbuja de micrófono virtual;

sumar las señales de potencia para la ubicación de burbuja de micrófono virtual durante un periodo de tiempo dado para obtener una energía de señal derivada para esa ubicación de burbuja de micrófono virtual durante ese periodo de tiempo dado; y

dividir la energía de señal derivada para la ubicación de burbuja de micrófono virtual por una energía de señal derivada de una señal desenfocada ideal, en donde el al menos un procesador está configurado para obtener la energía de señal de la señal desenfocada ideal sumando las energías de las señales desde la pluralidad de micrófonos físicos durante la ventana de tiempo dada ponderada por la ponderación al cuadrado de la combinación de relación máxima;

identificar una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido;

enfocar señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y

emitir una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, que corresponden a un punto en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.

8. El aparato de acuerdo con la reivindicación 7, en donde el al menos un procesador define cuatro ubicaciones de burbujas en una agrupación en 3D en el espacio 3D compartido, y en donde las coordenadas en el espacio 3D compartido se definen en coordenadas (x, y, z).

9. El aparato de acuerdo con la reivindicación 7, en donde el al menos un procesador determina que una ubicación de la fuente de sonido corresponde a una mayor ganancia de procesamiento calculada entre las burbujas.

10. El aparato de acuerdo con la reivindicación 7, en donde fuentes de sonido plurales están dentro del espacio 3D compartido, y en donde el al menos un procesador proporciona la pluralidad de señales difundidas emitidas que incluyen (i) coordenadas de ubicación en tiempo real, en el espacio 3D compartido, de cada una de la pluralidad de fuentes de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a las burbujas de micrófono virtual, para cada una de las fuentes de sonido en el espacio 3D compartido.

11. El aparato de acuerdo con la reivindicación 7, en donde el al menos un procesador define más de cien burbujas de micrófono.

12. El aparato de acuerdo con la reivindicación 7, en donde el al menos un procesador determina un retardo de propagación esperado desde cada micrófono virtual a cada micrófono físico.

13. El aparato de acuerdo con la reivindicación 7, en donde el al menos un procesador comprende un procesador de micrófonos y un procesador de burbujas.

14. Un programa incorporado en un medio legible por ordenador no transitorio para enfocar señales de sonido combinadas desde una pluralidad de micrófonos físicos para determinar una ganancia de procesamiento para cada una de una pluralidad de ubicaciones de micrófono virtual en un espacio 3D compartido, comprendiendo dicho programa instrucciones que provocan que al menos un procesador:

defina una pluralidad de burbujas de micrófono virtual en el espacio 3D compartido, teniendo cada burbuja coordenadas de ubicación que corresponden a un punto en el espacio 3D compartido, correspondiendo cada burbuja a un micrófono virtual;

reciba señales de sonido desde la pluralidad de micrófonos físicos en el espacio 3D compartido;

determine una ganancia de procesamiento calculada en cada una de la pluralidad de ubicaciones de burbujas de micrófono virtual, basándose en una combinación de las señales de sonido recibidas que se alinean en tiempo y ponderan proporcionalmente por la amplitud del componente de señal basándose en la distancia desde cada ubicación de burbuja de micrófono virtual en el espacio 3D compartido usando una combinación de relación máxima, en donde la ganancia de procesamiento calculada en cada ubicación de burbuja de micrófono virtual se determina simultáneamente a partir de las mismas señales de sonido recibidas

dividiendo la energía de señal derivada para la ubicación de burbuja de micrófono virtual por una energía de señal derivada de una señal desenfocada ideal, en donde la energía de señal de la señal desenfocada ideal se obtiene sumando las energías de las señales desde la pluralidad de micrófonos físicos durante la ventana de tiempo dada ponderada por la ponderación al cuadrado de la combinación de relación máxima;

identifique una fuente de sonido en el espacio 3D compartido, basándose en las ganancias de procesamiento calculadas, teniendo la fuente de sonido coordenadas en el espacio 3D compartido;

enfoque señales combinadas desde la pluralidad de micrófonos físicos a las coordenadas de fuente de sonido ajustando una ponderación y un retardo para señales recibidas desde cada uno de la pluralidad de micrófonos físicos; y

emita una pluralidad de señales difundidas que comprenden (i) coordenadas de ubicación en tiempo real, que corresponden a un punto en el espacio 3D compartido, de la ubicación de fuente de sonido, y (ii) valores de ganancia de procesamiento de fuente de sonido asociados a cada burbuja de micrófono virtual en el espacio 3D compartido.