ES2849260T3 - Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido - Google Patents

Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido Download PDF

Info

Publication number
ES2849260T3
ES2849260T3 ES16795576T ES16795576T ES2849260T3 ES 2849260 T3 ES2849260 T3 ES 2849260T3 ES 16795576 T ES16795576 T ES 16795576T ES 16795576 T ES16795576 T ES 16795576T ES 2849260 T3 ES2849260 T3 ES 2849260T3
Authority
ES
Spain
Prior art keywords
signals
sound
microphones
audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16795576T
Other languages
English (en)
Inventor
Grant Howard Mcgibney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nureva Inc
Original Assignee
Nureva Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nureva Inc filed Critical Nureva Inc
Application granted granted Critical
Publication of ES2849260T3 publication Critical patent/ES2849260T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un sistema (100) para procesar y mejorar la utilidad de una señal de máscara de sonido, que comprende: un procesador (120) configurado: para generar una pluralidad de conjuntos de señales de ruido pseudoaleatorias, cada uno generado añadiendo una pluralidad de ondas sinusoidales con igual amplitud e igualmente espaciadas que tienen una tasa de muestreo fija y con fases aleatorias distribuidas uniformemente de acuerdo con un generador de número aleatorio determinístico con un valor inicial fijo, para aplicar un filtro de paso de banda, y para emitir una secuencia repetida con n elementos, en donde cada uno de los n elementos del conjunto se multiplica por el correspondiente elemento de una fila de una matriz de Walsh-Hadamard de n x n para generar n señales de máscara de sonido ortogonales; una pluralidad de altavoces de audio (112) configurados para emitir señales de sonido comprendiendo cada una una de las n señales de máscara de sonido ortogonales que comprenden las señales de ruido pseudoaleatorias; y uno o más micrófonos (131), cada uno configurado para recibir las señales de sonido que comprenden las señales de máscara de sonido ortogonales emitidas desde la pluralidad de altavoces de audio, en donde el procesador comprende un extractor de respuestas de impulso (1262) que está adaptado para derivar una respuesta de impulso entre cada altavoz de audio y cada combinación de micrófonos mientras mantiene las propiedades de una máscara de sonido mediante extracción a partir de las señales de máscara de sonido ortogonales.

Description

DESCRIPCIÓN
Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido Antecedentes de la invención
Campo de la invención
La presente invención se refiere en general a entregar una experiencia de audio bidireccional de alta calidad en una sala multiusuario y más específicamente a sistemas y métodos para la generación de respuesta de impulso escalable en tiempo real, enmascaramiento de sonido y medición para implementar una adaptación de formación de micrófonos dinámica y una determinación de posición mientras embebe un canal de comunicación de datos flexible.
Descripción de la técnica relacionada
Establecer un rendimiento bidireccional de audio y vídeo de alta calidad siempre ha sido un reto para las aplicaciones comerciales. Se ha probado que soportar una pluralidad de usuarios en diversas situaciones y posiciones de asiento es un problema difícil de resolver. Además de los requisitos de rendimiento, el sistema necesita ocuparse de problemas ambientales, arquitectónicos y construcción, tales como, pero sin limitación a, ruido de la calefacción, ventilación, aire acondicionado, ruido externo y forma irregular y diversos tamaños de salas multiusuario. La técnica anterior resuelve los problemas a través del uso de soluciones a medida y una integración de sistemas compleja, que requiere el uso de ingenieros de audio y vídeo profesionales, servicios arquitectónicos, de tecnología de la información y otros servicios de apoyo profesional, resultando en soluciones diseñadas inequívocamente costosas que habitualmente no se escalan o adaptan bien sin introducir una fase de rediseño. En la actualidad, las salas multiusuario utilizan muchas formas de sistemas de conferencia de audio/vídeo para ayudar a obtener el mejor rendimiento de audio usando un sistema de micrófonos para la captura de sonido y altavoces para la distribución de sonido para proporcionar la calidad de audio bidireccional requerida. Las implementaciones actuales integran soluciones individuales que normalmente no están estrechamente integradas para obtener el beneficio de máscaras de sonido, cancelación de eco y formaciones de micrófonos, que normalmente no implica ningún beneficio de una señal combinada para lograr un enfoque de sistema holístico que es adaptable en tiempo real para cambiar parámetros de sistema, tal como añadir un micrófono determinando su posición y ampliar la formación, y cancelación de eco dinámica, entre otros beneficios.
Por la propia naturaleza de los requisitos complejos, un sistema que cumple con todas las necesidades y expectativas de los usuarios se diseña normalmente para una sala y aplicación específicas. Esto puede ser una tarea compleja y costosa que resulta en soluciones instaladas que normalmente no son fácilmente adaptables para salas y/o entornos nuevos, requiriendo cambios de diseño y ajuste de calibración. Habitualmente, estos tipos de cambios requieren que la sala se ponga en un modo de mantenimiento para ajustar los cambios a la formación de micrófonos y configuración de altavoces y ubicaciones. Cuando se producen cambios que tienen impacto en las propiedades de la sala, tales como el tiempo de retardo de propagación del sonido entre micrófonos y altavoces, las calibraciones anteriores se invalidan de manera eficaz-por ejemplo, si una sala se vuelve más reflexiva o amortiguada.
En la técnica anterior, los sistemas despliegan micrófonos que se ubican en proximidad cercana a ubicaciones típicas de los participantes y/o emplean formaciones de micrófonos estáticas. Ambos de tales sistemas se diseñan para la captación de sonido de audio con el menor ruido en forma de relación señal a ruido y mejor calidad de vozproporcionando por lo tanto una experiencia de conferencia aceptable. Ambos de tales sistemas producen su propio conjunto único de problemas. Usar micrófonos ubicados cerca crea ecos parásitos y necesita instalaciones complejas, creando la necesidad de ejecutar un cableado y hardware adicionales ya que las personas pueden no sentarse o permanecer de pie en un lugar que es óptimo para la colocación y montaje de micrófonos. Una formación de micrófonos estática no puede ajustarse para micrófonos adicionales y se preconfiguran con suposiciones de diseño que pueden no ser válidas o pueden cambiar por el uso. Esto puede limitar la eficacia de la formación, requiriendo que se añadan micrófonos adicionales al sistema que están paralelos a la formación, pero no son una parte de la formación-de forma que se disminuyen enormemente las propiedades de gestión de enfoque de haces, sonido y ruido. Necesitan diseñarse y ajustarse formaciones de micrófonos estáticas complejas para una aplicación particular, por tanto no son adecuadas para escalar la formación. Para instalar una formación de micrófonos en un espacio, necesitan determinarse, diseñarse e instalarse las dimensiones y parámetros de la formación a especificaciones rigurosas.
Las implementaciones actuales de sistema de audio en sala normalmente despliegan una máscara de sonido específica para control de ruido elevando el suelo de ruido de una manera benigna de modo que se enmascaran ruidos no deseados. Las máscaras de sonido por su propia naturaleza son habitualmente señales de audio filtradas y conformadas de ruido rosa aleatorias que se diseñan y adaptan para una sala y necesidades ambientales específicas, tales como, pero sin limitación a, consideraciones de calefacción, ventilación, aire acondicionado, privacidad, hardware en sala y ruido ambiente. Necesitan no ser molestos y necesitan percibirse como señales de audio no correlacionadas por el oído, de forma que no restan atención a las propias máscaras de sonido. Pero esta misma propiedad hace las mismas inadecuadas para reubicar micrófonos y altavoces debido a las propiedades de señales no correlacionadas aleatorias. Las máscaras de sonido se idean e instalan normalmente para especificaciones específicas y criterios de diseño que tienen en cuenta las idiosincrasias de la sala, condiciones de ruido ambiental y las necesidades comerciales de la sala. La sala puede tener problemas de confidencialidad, múltiples usuarios y usos con capacidades de conferencia de vídeo y audio que requieren una solución de enmascaramiento de sonido de configuración apropiada. Las soluciones de técnica anterior típicas son señales de un solo propósito y como tal se limitan a un único propósito de aplicación.
En la técnica anterior, se usan respuestas de impulso en el establecimiento de propiedades de sala, relaciones de micrófono y altavoz, y colocaciones en posiciones relativas y absolutas. Con las relaciones conocidas, puede conseguirse cancelación de eco sustrayendo la señal no deseada de los altavoces cuando se capta por los micrófonos, para eliminar la realimentación en el sistema que podría provocar grandes oscilaciones y distorsiones que pueden estresar a un sistema. El problema con señales usadas para obtener respuestas de impulso, tales como, pero sin limitación a, aplausos y chirridos, es que no son fáciles de escuchar y pueden correlacionarse por el oído para formar patrones. Como consecuencia necesita realizarse la configuración y calibración de sala cuando la sala está fuera de línea y fuera de orden de trabajo. Si se cambia cualquier cosa de la configuración, tal como, pero sin limitación a, cambios en sistemas, cambios de dimensiones estructurales de sala, mobiliario y contenido, así como propiedades acústicas si son reflexivas y absorbentes en naturaleza, necesitan rehacerse las calibraciones y configuración. Esta característica hace que estas señales sean inadecuadas para situaciones en directo, reuniones presenciales, conferencias y presentaciones, en una sala con una funcionalidad con capacidad de autocalibración para adaptarse a cambios en condiciones de la sala y hardware adicional, tal como, pero sin limitación a, micrófonos. La Patente de Estados Unidos N.° 4.914.706A describe un generador de ruido aleatorio con múltiples salidas que pueden adaptarse a través de filtros de paso bajo a medida.
La Patente de Estados Unidos N.° 8.223.985B2 describe un método para enmascarar tonos puros dentro de una máscara de sonido. Los tonos puros no son adecuados como una señal de impulso porque cuando existen correlaciones, el resultado son ondas sinusoidales y no una señal de impulso.
La publicación de solicitud de Patente de Estados Unidos N.° 2003/0103632A1 describe un método para muestrear sonido no deseado y generar ruido blanco adaptado para enmascarar el sonido no deseado.
La Patente de Estados Unidos N.° 7.526.078B2 describe un método para combinar una subportadora modulada en una señal de audio de una conferencia.
La Patente de Estados Unidos N.° 8.804.984B2 describe una señal o señales de audio con conformación espectral para mezcla de audio.
La Patente de Estados Unidos N.° 8.666.086B2 describe una técnica para supervisar y/o controlar un sistema de enmascaramiento de sonido de una representación de diseño asistido por ordenador.
La publicación de solicitud de Patente de Estados Unidos N.° 2008/0147394A1 describe un sistema de procesamiento de voz para mejorar la experiencia de un usuario con un sistema con capacidad de voz usando ruido blanco generado artificialmente.
La publicación de solicitud de Patente de Estados Unidos N.° 2003/0107478A1 describe un sistema de mejora de sonido arquitectóni
enmascaramiento integrado, ruido de fondo y funciones de radiobúsqueda.
La Patente de Estados Unidos N.° 8.477.958B2 describe un sistema de enmascaramiento para la conformación de nivel de ruido ambiente en un entorno físico.
La Patente de Estados Unidos N.° 5.781.640A describe un sistema para suprimir los efectos de ruido no deseado de una fuente de ruido molesta que contiene una pluralidad de sonidos de transformación que, cuando se combinan con el ruido, forman un proceso de selección de sonido.
La Patente de Estados Unidos N.° 6.996.521B2 describe un método para embeber una señal de datos en una señal de audio y determinar la señal embebida de datos.
La publicación de solicitud de Patente de Estados Unidos N.° 2006/0109983A1 describe un método y correspondiente aparato de enmascaramiento adaptativo de señales de una manera efectiva y eficiente, incluyendo proporcionar una señal; generar una señal de enmascaramiento que corresponde adaptativamente a la señal; e insertar la señal de enmascaramiento en un canal que corresponde a la señal en una ubicación próxima a la fuente de la señal para facilitar el enmascaramiento la señal en el canal.
La publicación de solicitud de Patente de Estados Unidos N.° 2004/0068399A1 describe una técnica para comunicar un flujo de audio. Se estima una máscara perceptual para un flujo de audio, basándose en el umbral perceptual del sistema auditivo humano. Una señal oculta, o a servicios concurrentes que pueden accederse mientras el flujo de audio se está transmitiendo.
La Patente de Estados Unidos N.° 6.208.735B1 describe el marcado de agua digital de datos de audio, imagen, vídeo y multimedia insertando una marca de agua en componentes perceptualmente significativos de la imagen espectral de frecuencia.
La Patente de Estados Unidos N.° 6.650.762B2 describe un nuevo enfoque para embeber datos dentro de ITU G.722 y ITU G.711 basándose en el método de tipos y clasificación universal.
La Patente de Estados Unidos N.° 6.584.138B1 describe un método de codificación y un codificador para introducir datos no audibles en una señal de audio, que se transforma primero en un intervalo espectral y se determina la señal.
La Patente China N.° CN102237093B describe un método de ocultación de eco basándose en núcleos de ecos hacia delante y detrás.
La publicación de solicitud de Patente China N.° CN102148034A describe un método de embeber y extraer marca de agua basada en ocultación de ecos que pertenece al campo técnico de seguridad de información.
La publicación de solicitud de Patente de Estados Unidos N.° 2003/0002687A1 describe un aparato y método relacionado para mejorar acústicamente un entorno.
La Patente de Estados Unidos N.° 8.212.854B2 describe un método y sistema con medios para evitar una supervisión no autorizada de una sala de conferencias local en la que se ubica un sistema de conferencia local que comprende la generación de una señal de sonido determinística en un primer altavoz conectado a, o integrado en el sistema de conferencia, detectar la señal determinística captada por un micrófono conectada a, o integrada en el sistema de conferencia, y transferir el sistema de conferencia en un modo de seguridad, si la determinística.
La Patente China N.° CN101354885B describe un control activo de una señal de ruido no deseada que tiene una amplitud y/o frecuencia de tal forma que se enmascara por un oyente humano en un sitio de escucha por la señal de ruido no deseada presente en el sitio de escucha para adaptarse a la trayectoria secundaria variable en tiempo de una manera en tiempo real de tal forma que un usuario no se siente molesto por una fuente de ruido artificial adicional.
La solicitud de publicación de Patente Japonesa N.° JP2008233672A describe una técnica para generar un sonido de enmascaramiento que tiene características de sonido más adecuadas para enmascarar características de señal de una señal a enmascarar.
La Patente de Estados Unidos N.° 6.674.876B1 describe métodos y sistemas para el marcado en agua de dominio de tiempo-frecuencia de señales de medios, tales como señales de audio y vídeo.
La Patente de Estados Unidos N.° 6.061.793A describe una técnica para la ocultación de datos, incluyendo marcas de agua, en sonidos perceptibles por humanos, es decir, datos de alojamiento de audio.
La publicación de solicitud de Patente de Estados Unidos N.° 2008/0215333A1 describe un método de embeber datos en una señal de audio, proporcionando una secuencia de datos para embeber en la señal de audio y calcular umbrales de enmascaramiento para la señal de audio a partir de una transformación de dominio de frecuencia de la señal de audio.
La publicación de solicitud de Patente Europea n.° EP1722545A1 describe un método para reducir el tiempo de convergencia de cancelación de eco acústico para todas las direcciones de mirada en un sistema de dúplex completo basado en formación de micrófonos.
El Modelo de Utilidad China N.° CN201185081Y describe un eliminador de ecos que puede eliminar diferentes ecos, que comprende un sustractor ajustable por parámetro que puede ajustar el parámetro de tiempo de sustracción con la diferencia de tiempo de los ecos para eliminar los correspondientes ecos que corresponden al audio mezclado introducido, y un circuito de procesamiento no lineal que se conecta con el sustractor ajustable por parámetro y se usa para realizar procesamiento no lineal de la señal de audio con los ecos eliminados que se emite por el restador para reducir el factor de distorsión no lineal de la señal de audio, de modo que diferentes ecos que se producen en diferentes campos de conferencia de vídeo pueden eliminarse de manera efectiva, mejorando de este modo de modo efectiva la calidad de la señal de audio.
La Patente de Estados Unidos N.° 6.937.980B2 describe procesamiento de audio que proporciona reconocimiento de voz mejorado. Se recibe una entrada de audio en una pluralidad de micrófonos. La señal de audio multicanal desde los micrófonos puede procesarse mediante una red de formación de haces para generar una señal de audio mejorada de un solo canal, en la que se detecta la actividad de voz. Las señales de audio desde los micrófonos se procesan adicionalmente por un filtro de cancelación de ruido adaptable que tiene coeficientes de filtro variables para generar una señal de audio suprimida por ruido.
La Patente de Estados Unidos N.° 6.748.086B1 describe un sistema de comunicación de cabina para mejorar la claridad de una formación de micrófonos que incluye una primera voz esencialmente en una primera dirección y para convertir en micrófono hablado, colocado en una segunda ubicación dentro de la cabina, para recibir la voz hablada en una segunda señal de audio.
La Patente de Estados Unidos N.° 9.171.551B2 describe un sistema de preprocesamiento de micrófono unificado que incluye una pluralidad de micrófonos dispuestos dentro de un compartimento de pasajero de vehículo, un circuito o sistema de procesamiento para recibir señales desde uno o más de la pluralidad de micrófonos, y el circuito de procesamiento configurado para mejorar las señales recibidas para su uso por al menos dos de una aplicación de procesamiento de telefonía, una aplicación de procesamiento de reconocimiento automático de la voz y una aplicación de procesamiento de cancelación de ruido.
La Patente de Estados Unidos N.° 5.453.943A describe un "fasesincronizador adaptativo" para modificar la relación de ángulo de fase entre propulsores de aeronave para reducir el ruido y/o vibración de cabina.
La Patente de Estados Unidos N.° 6.760.449B1 describe un sistema de formación de micrófonos que incluye una pluralidad de micrófonos y una parte de procesamiento de señal de sonido. Los micrófonos se disponen de tal manera que al menos se disponen tres micrófonos en una primera dirección para formar un fila de micrófono, al menos se disponen tres filas de los micrófonos de modo que las filas de micrófono no se cruzan entre sí para formar un plano, y al menos tres capas del planos se disponen de forma tridimensional de modo que los planos no se cruzan entre sí, de modo que pueden obtenerse las condiciones de contorno para la estimación de sonido en cada plano de los planos que constituyen las tres dimensiones. Adicionalmente se conoce una técnica anterior a partir del documento EP1514450A2.
Un objetivo de la invención es superar las deficiencias en la técnica anterior. Este objetivo de la invención se resuelve por las reivindicaciones independientes. Realizaciones específicas se definen en las reivindicaciones dependientes. Como se indica, la invención se expone en las reivindicaciones independientes. Todas las apariciones siguientes de la palabra "realización o realizaciones", si hace referencia a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se solicitaron originalmente, pero que no representan realizaciones de la invención reivindicada en la actualidad; estos ejemplos aún se muestran únicamente para propósitos de ilustración.
Una limitación de sistemas existentes es la inhabilidad para integrar un canal de datos de ancho de banda bajo en las señales de máscara de sonido benignas existentes. En consecuencia, se requieren transmisores y dispositivos separados para soportar esta función, que podrían y no están limitados a parámetros de ID de sala de transmisión, parámetros de ID de altavoz y otras identificaciones y parámetros que son útiles para permitir que la sala y sistema móvil se adapten a la sala de una manera de tal forma que los dispositivos se convierten en una extensión del sistema proporcionando una experiencia interesante.
Los sistemas existentes tampoco permiten una señal de un solo propósito flexible y adaptable que puede suministrar cancelación de eco de parámetros dinámico en tiempo real, enmascaramiento de sonido, y generación de respuesta de impuso para altavoces en tiempo real en sala para corrección de respuesta de micrófono, detección de micrófono y determinación de posición. En consecuencia, los sistemas actuales a menudo requieren que se impliquen ingenieros, diseñadores y arquitectos caros para diseñar e idear el sistema que se construye a propósito para la sala y/o entorno específicos. Esto resulta en un sistema que requiere una configuración extensiva y que no puede adaptarse o escalarse en tiempo real.
En vista de lo anterior, un objetivo de la invención es proporcionar un sistema flexible y escalable para una formación de micrófonos flexible que puede usarse a continuación para enfocar los micrófonos en sonidos deseados y desenfocar los sonidos no deseados, mientras se comunica en un canal de datos de ancho de banda bajo multiusos. En este documento se describen diversos enfoques para obtener, entre otras cosas, una respuesta de impulso entre altavoces y micrófonos desde una señal de máscara de sonido, y extraer datos de ancho de banda bajo para gestionar sonido de nivel de ruido de sala y mejorar rendimiento de audio bidireccional con formaciones de micrófonos instanciados dinámicamente, que no necesitan colocarse en proximidad cercana a la persona que habla o preconfigurarse para una implementación de diseño estático.
De acuerdo con la invención, se crea y transmite una máscara de sonido por los altavoces desde una señal de impulso que tiene propiedades de fase pseudoaleatorias únicas, permitiendo cambios de hardware dinámicos y escalables, tales como, pero sin limitación a, ubicación de micrófono, número de micrófonos y cambios de configuración al sistema en tiempo real. Esto se logra creando una onda única con desplazamiento de fase pseudoaleatoria específica de altavoz, que tiene propiedades enmascaramiento de sonido y se genera a partir de una respuesta de impulso que se procesa basándose en principales de OFDM (Multiplexación por División Ortogonal de Frecuencia)-aplicados habitualmente al dominio de frecuencia de radio en, digamos, redes inalámbricas, tales como, pero sin limitación a, interfaces de radio LAN inalámbrica (WLAN) IEEE 802.11a, g, n, ac e HIPERLAN/2-y adaptada al dominio de señal de audio para transmitir una señal de tipo máscara de sonido que tiene las propiedades únicas para permitir que se convierta de vuelta en una respuesta de impulso para permitir medición y calibraciones en tiempo real.
La máscara de sonido puede deconstruirse, a continuación, a través de posprocesamiento a una respuesta de impulso matemáticamente perfecta. Ya que la respuesta de impulso está sucediendo en tiempo real y se repite a una tasa cíclica configurable basándose en parámetros de sala configurables, la respuesta de impulso puede utilizarse para implementar cancelación de eco de altavoz a micrófono individual dinámica a medida que los parámetros de sala cambian en propiedades absorbentes y reflexivas.
De acuerdo con una realización de la invención, la respuesta de impulso de tiempo real puede utilizarse para proyectar y mantener una formación de micrófonos dinámica. Con ubicaciones de altavoces conocidas, el retardo de propagación, que puede calcularse en tiempo real, puede usarse para establecer ubicaciones de micrófonos en un espacio tridimensional. Una vez que las ubicaciones se han mapeado en tiempo real, puede establecerse una formación de micrófonos dinámicamente adaptable, permitiendo que todos los beneficios de una formación de este tipo enfoquen los micrófonos en el sonido deseable y eliminen el enfoque de un sonido no deseado. Ya que la formación se construye de forma dinámica y repetida en una tasa cíclica consistente, el sistema no está restringido a una configuración predefinida y parámetros de diseño físicos, permitiendo que el sistema se adapte a micrófonos adicionales, eliminados y recolocados sin degradación en rendimiento o necesidad de rediseñar el sistema para tratar problemas de escalabilidad. Adicionalmente, los micrófonos pueden situarse de forma óptima en la sala para permitir la captación de sonido de mayor calidad y tener en cuenta restricciones de instalación.
De acuerdo con una realización de la invención, la señal de máscara de sonido también puede usarse para comunicar información de ancho de banda baja adicional que permite descubrimiento de ID de sala y otra configuración y parámetros de configuración, que pueden usarse por dispositivos móviles y otros dispositivos inteligentes para expandir la experiencia de usuario y sistema.
1. Un sistema para procesar audio para mejorar la utilidad de una señal de audio que comprende:
un procesador configurado para generar una señal de ruido de máscara de sonido y para modular una onda de ruido ambiente para embeber información adicional a la señal de ruido de máscara de sonido; y una pluralidad de altavoces de audio configurados para emitir la señal de ruido de máscara de sonido con la onda de ruido ambiente modulada.
2. El sistema del párrafo 1, que comprende adicionalmente:
uno o más micrófonos, cada uno configurado para recibir la señal de ruido de máscara de sonido emitida desde la pluralidad de altavoces de audio; y
un cancelador de eco configurado para recibir una copia de una onda de sonido original emitida a cada uno de la pluralidad de altavoces de audio, las señales recibidas desde el uno o más micrófonos, y una respuesta de impulso medida entre cada altavoz de audio y cada micrófono para suprimir sonidos no deseados en las señales recibidas.
3. El sistema del párrafo 2, que comprende adicionalmente:
un localizador de micrófono configurado para determinar posiciones relativas del uno o más micrófonos dentro de un espacio midiendo retardos de tiempo desde cada altavoz de audio a cada micrófono.
4. El sistema del párrafo 2, que comprende adicionalmente:
una interfaz de red configurada para comunicar las señales recibidas a una o más de una red local y una red externa a través de paquetes de datos; y
un filtro de paquetes que clasifica y prioriza paquetes de un flujo de paquetes entre la red local y la red externa,
en donde el filtro de paquetes está configurado adicionalmente para evitar y retardar la transmisión de paquetes de prioridad más baja en el flujo de paquetes para minimizar la latencia de los paquetes de datos de las señales recibidas.
5. Un sistema para procesar audio para mejorar la utilidad de una señal de audio que comprende:
una pluralidad de altavoces de audio;
uno o más micrófonos, cada uno configurado para recibir ondas de sonido plurales desde la pluralidad de altavoces de audio; y
un procesador configurado para alinear y mejorar las ondas de sonido recibidas desde el uno o más micrófonos determinando y calibrando posiciones relativas del uno o más micrófonos y la pluralidad de altavoces de audio,
en donde el procesador aumenta una amplitud de sonidos deseables desde fuentes dispares recibidas por el uno o más micrófonos.
6. El sistema del párrafo 5, que comprende adicionalmente: un cancelador de eco configurado para recibir una copia de una onda de sonido original emitida a cada uno de la pluralidad de altavoces de audio, señales recibidas desde la pluralidad de micrófonos, y una respuesta de impulso medida entre cada altavoz de audio y cada micrófono para suprimir sonidos no deseados en las señales recibidas.
7. El sistema del párrafo 5, que comprende adicionalmente:
una interfaz de red configurada para comunicar las señales recibidas a una o más de una red local y una red externa a través de paquetes de datos; y
un filtro de paquetes que clasifica y prioriza paquetes de un flujo de paquetes entre la red local y la red externa,
en donde el filtro de paquetes está configurado adicionalmente para evitar y retardar la transmisión de paquetes de prioridad más baja en el flujo de paquetes para minimizar la latencia de los paquetes de datos de las señales recibidas.
8. Un sistema para procesar audio para mejorar la utilidad de una señal de audio que comprende:
una pluralidad de altavoces de audio, cada uno configurado para emitir una señal de audio;
un procesador configurado para recibir la señal de audio desde una formación ad hoc de uno o más micrófonos;
un localizador de micrófono configurado para mejorar la señal de audio determinando posiciones relativas del uno o más micrófonos dentro de un espacio midiendo retardos de tiempo desde la pluralidad de altavoces de audio al uno o más micrófonos;
una interfaz de red configurada para comunicar la señal de audio mejorada a una o más de una red local y una red externa a través de paquetes de datos; y
un filtro de paquetes que clasifica y prioriza paquetes de un flujo de paquetes entre la red local y la red externa,
en donde el filtro de paquetes está configurado adicionalmente para evitar y retardar la transmisión de paquetes de prioridad más baja en el flujo de paquetes para minimizar la latencia de los paquetes de datos de la señal de audio mejorada.
Breve descripción de las figuras
La Figura 1 es una vista en perspectiva de un sistema de audio de acuerdo con una realización de la invención. La Figura 2 es una vista detallada del procesador de audio mostrado en la Figura 1 de acuerdo con una realización de la presente invención.
La Figura 3 es una vista detallada del cancelador de eco mostrado en la Figura 2.
La Figura 4 es una vista detallada del filtro de paquetes mostrado en la Figura 2.
La Figura 5 es una vista detallada del DSP de audio mostrado en la Figura 2.
La Figura 6 es una vista detallada de la formación en fase mostrada en la Figura 5.
La Figura 7 es una vista detallada del mezclador de audio mostrado en la Figura 5.
Descripción detallada de las realizaciones ilustrativas actualmente preferidas
Con referencia a los dibujos, se describirá ahora una realización ilustrativa no limitante.
La Figura 1 muestra un sistema 100 en donde el sistema puede incluir un sistema de altavoces de sala 110, un procesador de audio 120, una formación de micrófonos 130, una red local 140 y una red externa 150.
El sistema de altavoces de sala 110 incluye un amplificador de audio multicanal 111 y altavoces 112 conectados al amplificador de audio 111. Cuando se instala el sistema 100, se implementa un procedimiento de calibración para determinar las posiciones precisas de los altavoces 112 en un sistema de coordenadas de sala. Habitualmente, una esquina de la sala se designará como el origen con x e y extendiéndose a lo largo de dos paredes rectas y z hacia arriba desde el suelo. Y las ubicaciones de altavoces se programan en el procesador de audio 120. La presente invención usa el uno o más altavoces 112 para difundir una señal de sonido y una señal de enmascaramiento de sonido. La señal de enmascaramiento de sonido también transporta una señal de comunicación.
De acuerdo con la presente invención, el procesador de audio 120 se usa para procesamiento en tiempo real de señales de audio desde la formación de micrófonos 130, red local 140 y red externa 150. En la Figura 2 se muestran detalles del procesador de audio 120.
Uno o más micrófonos 131 pueden situarse en diversas ubicaciones en la sala para formar una formación de micrófonos 130. Cuando la ubicación de un micrófono 131 cambia, el procesador de audio 120 automáticamente recalcula la posición del micrófono 131 registrando el retardo desde cada altavoz 112 a cada micrófono 131.
Señales introducidas en el procesador de audio 120 se procesan y emiten al amplificador de audio 110, red local 140 y red externa 150. La red local 140 puede incluir un punto de acceso inalámbrico 141 (AP) que se comunica inalámbricamente con uno o más dispositivos 142, tal como un dispositivo móvil 142a y un ordenador 142b. El procesador de audio 120 puede incluir dos puertos de Ethernet que se sitúa entre el AP 141 que están sirviendo a la red local 140 y red externa 150.
La red externa 150 incluye todas las redes conectadas (es decir, redes de área local, intranets y la internet) fuera del área servida por el punto de acceso 141. Los participantes pueden conectarse al sistema de audio 100 a través de la red externa 150 y se consideran fuentes de audio de entrada y salida adicionales para el sistema de audio 100. Con referencia a la Figura 2, en lo sucesivo se describe en más detalle el procesador de audio 120. El procesador de audio 120 incluye al menos un cancelador de eco 121, filtro de paquetes 122, al menos un convertidor de analógico a digital 123 (ADC), al menos un convertidor de digital a analógico 124 (DAC), un oscilador controlado por tensión 125 (VCXO) y un procesador de audio de señales digitales 126 (DSP).
Cada cancelador de eco 121 se usa para suprimir sonidos no deseados tomando una copia de una onda de sonido original emitida a cada altavoz 112, una señal desde la formación de micrófonos 130 y la respuesta de impulso medida desde el extractor de respuestas de impulso 1262 (descrito en la Figura 5) entre cada altavoz 112 y cada micrófono 131. El cancelador de eco 121 se describe en más detalle con referencia a la Figura 3.
El filtro de paquetes 122 se usa para mejorar la transmisión de datos y se describe adicionalmente con referencia a la Figura 4. El VCXO 125 genera un reloj de muestra que se usa para sincronizar señales de temporización por todo el sistema. Las restantes funcionalidades de procesamiento requeridas por el procesador de audio se completan por el DSP 126 y se describen adicionalmente con referencia a la Figura 5.
El procesador de audio 120 recupera la respuesta de impulso desde cada altavoz 112 a cada micrófono 131 en la sala e implementa un cancelador de eco separado para cada uno. Con referencia a la Figura 3 se describen detalles del cancelador de eco 121 para cada micrófono 131 en la formación de micrófonos 130.
Con referencia al cancelador de eco 121, una copia de la señal que se emite desde cada de altavoz 112 se aplica a un filtro de respuestas de impulso finito 1211 con coeficientes iguales a la respuesta de impulso medida desde el correspondiente altavoz 112 al correspondiente micrófono 131 (como se describe a continuación con respecto al extractor de respuestas de impulso 1262). Esto produce una señal estimada de lo que el micrófono debería haber recibido desde el altavoz 112. Las señales estimadas de cada altavoz 112 se sustraen de la señal de micrófono 131 para evitar que la salida de altavoz resuene de vuelta a la fuente.
El filtro de paquetes 122 se muestra y describe con referencia a la Figura 4. El filtro de paquetes 122 incluye un clasificador 1221, una puerta 1222 y un multiplexor MUX 1223 y puede usarse para clasificar paquetes de la red local 140, red externa 150 y DSP 126. Los paquetes se clasifican en paquetes para el DSP 126 y se sitúan en la cola de audio 1224, los paquetes de alta prioridad se sitúan en una cola de alta prioridad 1226 y los paquetes de baja prioridad se sitúan en una cola de baja prioridad 1225 usando el clasificador 1221. Los paquetes de alta prioridad se identifican con la Ethernet 802.1Q apropiada o etiquetas de DSCP en donde otros paquetes se consideran generalmente paquetes de baja prioridad.
El MUX 1223 se usa para clasificar paquetes emitidos desde cada puerto de tal forma que paquetes del DSP 126 de la cola de salida de audio 1227 tienen la prioridad más alta. Los paquetes en la cola de prioridad alta 1226 son posteriores en clasificación y los paquetes en la cola de prioridad baja 1225 están los más bajos en la clasificación. El filtro de paquetes 122 puede optimizar el uso de la red externa apantallando paquetes no críticos. La puerta 1222 se cierra periódicamente para detener que los paquetes pasen a reducir el ancho de banda de paquetes de baja prioridad. Apantallar los paquetes de baja prioridad 1225 permite alejar el punto de estrangulamiento de la red local 140. La puerta 1222 se usa para mantener la utilización de red por debajo de un nivel máximo apantallando paquetes de baja prioridad que usan el sistema. Esto es importante porque la latencia aumenta a medida que las redes se acercan a una carga completa.
Para mantener la utilización de red por debajo de un máximo, los paquetes de baja prioridad se apantallan mediante la puerta 1222, permitiendo que el uso de red total esté por debajo del porcentaje establecido. Las conexiones de TCP que pasan la puerta 1222 se ralentizan automáticamente a una tasa más apropiada y el punto de estrangulamiento para la red se convierte en colas de baja prioridad que permiten mejoras en la calidad de audio local.
Con referencia a la Figura 5, el DSP 126 mostrado en la Figura 2 se describe en más detalle. El DSP 126 incluye un generador de ruido de máscara de sonido 1261, un extractor de respuestas de impulso 1262, un localizador de micrófono 1263, un generador de temporización 1264, una interfaz de red 1265, un controlador de sonido 1266, una formación en fase 1267 y un mezclador de audio 1268. Detalles de la formación en fase 1267 y el mezclador de audio 1268 se describen adicionalmente en las Figuras 6 y 7, respectivamente.
El enmascaramiento de sonido es una técnica que eleva artificialmente el suelo de ruido acústico en un espacio para enmascarar sonidos no deseados. El generador de ruido de máscara de sonido 1261 genera una señal de pseudorruido repetitiva similar al ruido de fondo natural (comúnmente denominado como un especto de "ruido rosa"), pero tiene propiedades que permiten que se recuperen las respuestas de impulso y datos de cada uno de los altavoces 112.
La máscara de sonido comienza como una señal de ruido blanco pseudoaleatoria generada añadiendo 8192 ondas sinusoidales con igual amplitud e igualmente espaciadas con fases aleatorias distribuidas uniformemente. La tasa de muestreo es de 48 kHz y el espaciamiento de frecuencias entre ondas sinusoidales es exactamente de (24000 / 8192) Hz, que resulta en una señal periódica de exactamente 16.384 muestras. El ruido blanco se convierte, a continuación, en espectro de ruido rosa de una señal de máscara de sonido típica aplicando un filtro de paso de banda.
Esta señal repetitiva no es adecuada como una máscara de sonido porque su corto periodo de repetición (341 ms) es detectable por el oído y no suena natural. Por lo tanto, la señal de máscara de sonido se cambia a una nueva señal de máscara de sonido con un conjunto diferente de fases aleatorias cada 500 ms y se repite durante 16 ciclos (8 segundos) antes de volver al patrón original. Esto permite un periodo de repetición que evita que el oído detecte patrones.
El oído puede captar señales de máscara de sonido de altavoces cercanos a medida que los patrones cambian a medida que el usuario se mueve si las señales se correlacionan. Por lo tanto, estos sonidos también pueden no ser naturales para el oído. Para reducir la correlación, las señales de máscara de sonido que proceden de altavoces adyacentes son del mismo tipo, pero tienen diferentes patrones de fase pseudoaleatorios. Dado el ejemplo, existirían 16 conjuntos diferentes de patrones. Si hay más de 16 altavoces en el sistema, los altavoces que usan el mismo patrón se sitúan tal alejados como sea posible. Los datos para las fases pseudoaleatorias usadas por los 256 símbolos (16 símbolos x 16 canales de altavoz) proceden de un generador de número aleatorio determinístico con un valor inicial fijo de forma que tanto el transmisor como el receptor tendrán el mismo conjunto de fases de aleatorización.
Para reducir la correlación cruzada entre señales de máscara de sonido de los altavoces 112, el conjunto de 16 símbolos se repite 16 veces en una trama (de 128 segundos) de 256 símbolos. Cada conjunto de 16 símbolos se multiplica por el correspondiente elemento de una fila de la matriz de Walsh-Hadamard de 16x16, y cada altavoz usa una fila diferente. En el receptor, cada conjunto de 16 símbolos se multiplica de nuevo por el correspondiente elemento en la matriz para deshacer la acción.
Cada conjunto de hasta 16 altavoces difundirá un número de identificación de sistema de 32 bits desde cada altavoz cada 8 segundos. Este número identifica el sistema que con el que está comunicando el dispositivo remoto 142 y, junto con el número de canal, identifica desde qué altavoz específico procede el sonido. Se codifican datos usando modulación de impulsos en posición (PPM) en los símbolos impares (1, 3, 5... 15) del conjunto de 16 símbolos. Los símbolos pares (0, 2, 4... 14) son sin modular y se usan para referencia. Cada uno de los símbolos impares rotan su señal repetitiva por un múltiplo de 1024 muestras. Los múltiplos pueden ser 0-15 lo que permite representar 4 bits en cada uno de los símbolos impares.
El dispositivo 142 ubicado dentro de la sala que comprende los altavoces 112 (y en comunicación con la red local 140) que recibe la señal de máscara de ruido a través de si micrófono primero debe recuperar el número de identificación de sistema antes de que pueda recuperar las respuestas de impulsos. El receptor promedia los símbolos de referencia para recuperar una señal de referencia no modulada. A continuación, correlaciona la señal de referencia con cada uno de los símbolos impares. Debería producirse un gran pico de correlación en el desplazamiento de tiempo que representa los datos que se enviaron. Una vez que el receptor ha recuperado los 8 símbolos impares de al menos uno de los altavoces, puede construir todo el ID de sistema de 32 bits. Una vez que se conoce el ID de sistema, el dispositivo 142 recupera la respuesta de impulso de cada altavoz para sí mismo usando el mismo método que el extractor de respuestas de impulso 1262 del DSP de audio (como se describe en lo sucesivo).
La respuesta de impulso de un canal es un diagrama de amplitud frente a retardo que describe todos los ecos en el canal acústico. El diagrama debería ser cero hasta el retardo de la primera respuesta (normalmente la trayectoria directa desde altavoz hacia micrófono) y, a continuación, mostrará otros impulsos para señales reflejadas desde las paredes y objetos en el entorno con retardos más largos.
La onda de sonido original de cada altavoz puede transmitirse a los dispositivos 142 a través de una red local (por ejemplo WiFi) y preferentemente antes de difundir la señal a través del altavoz. La onda de sonido puede usarse para implementar un cancelador de eco dentro del dispositivo móvil para eliminar señales de altavoz no deseadas desde la entrada de micrófono.
Para la mejora del sonido, la señal de onda de sonido original se usa con unos auriculares, un auricular Bluetooth o un audífono Bluetooth conectado al dispositivo móvil. Si se envía directamente al oído del usuario, el sonido puede no estar sincronizado con la señal que llega al oído del usuario a través del aire, y el usuario puede oír el mismo sonido dos veces (una vez a través del aire y una vez a través de la mejora). Mediante la convolución con las respuestas de impulso medidas entre los altavoces y el dispositivo, la temporización de la señal mejorada se alinearía mejor con la señal que llega al oído del usuario a través del aire.
En lo sucesivo se describirá en más detalle el método de extracción de la respuesta de impulso usando un extractor de respuestas de impulso 1262. Para recuperar la respuesta de impulso de la señal de máscara de ruido, el receptor extrae un ciclo (16.384 muestras) de uno de los símbolos de 500 ms y aplica una transformada rápida de Fourier (FFT) para extraer la amplitud y fase de cada uno de los componentes sinusoidales.
El receptor aplica, a continuación, el opuesto de la fase que se usó para generar el ruido blanco a cada frecuencia de onda sinusoidal. Una FFT inversa se aplica, a continuación, para recuperar la respuesta de impulso deseada. Si el símbolo extraído era de un símbolo (par) de referencia, a continuación aparecerá con un desplazamiento de tiempo cero. Si se extrae de un símbolo (impar) de datos, a continuación se desplazará por los bits de datos y no necesitará invertirse esa rotación. Si la extracción de la respuesta de impulso se realiza en la señal de transmisión, el resultado será la respuesta de frecuencia del filtro de ruido rosa. Si la extracción de la respuesta de impulso se realiza en la señal recibida por el micrófono, que incluye la respuesta de impulso del canal de audio, a continuación la respuesta de impulso resultante incluiría todos los ecos del canal de audio. Este método se repite para cada señal entre cada micrófono (m) y cada altavoz (s) para producir un conjunto de respuestas de impulso, hm,s(n), que representa todas las combinaciones.
Se añaden aleatoriamente sonidos no correlacionados desde la sala (voces, ventiladores, ruido de HVAC, etc.) y se promedian a una señal muy pequeña por tiempo. Las señales desde altavoces adyacentes crean ruido de correlación cruzada que se reducen promediando sobre los 16 diferentes patrones en el conjunto. Adicionalmente, ya que se repite el mismo conjunto de patrones cada 8 s, promediar adicionalmente puede no reducir la señal de interferencia. La aplicación de la Walsh-Hadamard en la trama de 256 símbolos elimina este problema a largo plazo. Ya que todas las filas en la matriz de Walsh-Hadamard están ortogonales a todas las filas, esta acción eliminará el ruido de correlación cruzada residual. A largo plazo, la interferencia desde altavoces adyacentes promediará a un nivel muy bajo.
Los micrófonos dentro del sistema 100 se encuentran usando el localizador de micrófono 1263. Los dispositivos 142 primero encuentran el número de identificación de sistema y decodifican el número de la señal de máscara de ruido. El dispositivo 142, a continuación, busca la red local 140 para un sistema de audio que coincide con el número decodificado. El controlador de sonido 1266 responde a los paquetes de búsqueda con información más detallada que incluye los canales de altavoz activos, la ubicación de esos altavoces en coordinadas de sala y la temperatura de la sala.
El localizador de micrófono 1263 determina la posición de cada micrófono dentro del sistema 100 usando trilateración. De cada altavoz 112 que el micrófono puede oír, el sistema extrae el retardo al primer eco en la respuesta de impulso, que supone que es la trayectoria directa. Basándose en las posiciones conocidas de los altavoces 112 y la velocidad del sistema, el sistema calcula los retardos esperados de cada altavoz 112 a una ubicación micrófono esperada (x,y,z). A continuación, compara los retardos esperados con los retardos medidos y genera un error cuadrático medio. Esto se aplica a una rutina de optimización numérica para encontrar la posición de micrófono (x,y,z) con el menor error cuadrático medio que se notifica como la ubicación de micrófono actual. La trilateración requiere señales de al menos tres altavoces, aunque mejora con más.
Cuando hay posibles errores de sincronización o retardos conocidos a través del sistema 100, se usa el generador de temporización 1264 para añadir un plazo adicional, At, para representar el desplazamiento de tiempo desconocido. En este caso, la rutina de optimización usa cuatro variables (x,y,z,At) con al menos cuatro altavoces 112.
Los dispositivos 142 en el sistema 100 se sincronizan con el tiempo universal coordinado (UTC) o bien mediante NTP (protocolo de tiempo de red) a través de la internet o bien a través de un receptor de GPS. Los receptores que no se sincronizan con UTC pueden detectar el sonido muestreando una secuencia de 128 s y buscando códigos que coinciden y puede llevar un tiempo significativamente mayor. El primer símbolo de la trama (de 256 símbolos) de 128 s comienza a transmitir a 00:00:00.0 UTC cada día y la trama se repite exactamente 675 veces cada día. Se hacen ajustes al VCXO 125 para mantener el procesador de audio 120 sincronizado. El receptor ignora los símbolos transmitidos durante segundos intercalares. El esquema de modulación permite un error de temporización de hasta 33 ms sin interferencia.
Para evitar interferencia inter símbolo, el símbolo de 500 ms se organiza en un preámbulo que consta de las últimas 6000 muestras del ciclo, un ciclo activo completo de 16384 muestras y una cola con consta de las primeras 1616 muestras del ciclo. La sección de preámbulo de 125 ms es una señal inerte cuyo propósito es dejar que los ecos del símbolo anterior desaparezcan antes de muestrear la sección activa.
El controlador de sonido 1266 se usa para ajustar los parámetros del DSP 126 para tener en cuenta peticiones de usuario, carga de red y diseño de sala. El controlador de sonido 1266 controla el volumen de la señal de máscara de sonido emitida por el generador de ruido de máscara de sonido 1261, controla la temporización de la red local 140 usando la señal de puerta emitida por el generador de temporización 1264, controla retardos (D m,n ) y pesos (W m,n ) de la formación en fase 1267, y controla pesos (M r,q ) del mezclador de audio 1268. Adicionalmente, el controlador de sonido 1266 recibe paquetes desde la interfaz de red 1265 que contiene mensajes de control para peticiones de usuario y estadísticas de red.
La formación en fase 1267 se describirá en más detalle con referencia a la Figura 6. La formación en fase 1267 ecualiza retardos a cada dispositivo 142 en la red local 140 insertando el retardo de tiempo desde cada micrófono 131 en la formación de micrófonos 130.
Supóngase que hay una sala con un gran número de micrófonos: micrófonos de techo, micrófonos de escritorio y dispositivos personales. Si alguien quiere oír algo de una ubicación específica, pueden coger su dispositivo 142 y mover su punto de escucha virtual hacia donde quieren que esté. Los participantes pueden enviar mensajes de control al controlador de sonido 1266 para identificar la ubicación específica de escucha y habla dentro del espacio. El controlador de sonido 1266 traduce estos mensajes en los parámetros necesarios para el DSP 126. En la presente invención, se preparan múltiples micrófonos como la formación 130 para mejorar el sonido explorando la información de posición ya conocida.
El sistema de posicionamiento (IPS) interior incluye calcular un retardo para insertar en cada micrófono de la formación de micrófonos determinando dónde está cada micrófono en relación con la sala de reuniones. Conociendo dónde está cada uno de los micrófonos en relación con la sala, puede ecualizarse el retardo deseado en la ubicación específica.
Cuando el participante (o bien en la sala o bien en conexión a través de la red externa 150) especifica desde qué punto en el espacio quiere escuchar, la presente invención puede buscar alrededor de ese punto a un radio máximo para la señal más intensa de la formación. El potenciador de señal aumenta la señal más intensa dentro del área definida de participante determinando la amplitud máxima emitida desde la formación de micrófonos 130.
Características opcionales incluyen usar una cámara estéreo para definir y vincular la ubicación de sonido para un micrófono virtual que usa diversos métodos de identificación tales como seguimiento de la cara. El participante puede clicar en la imagen de cámara, y el sistema puede lanzar el micrófono virtual a ese punto en el espacio 3d . El seguimiento de la cara es un elemento opcional y puede usarse para seguir a la persona. El sistema puede autocalibrarse colocando un LED en cada micrófono que parpadea para identificar la ubicación del micrófono en la imagen de cámara. Adicionalmente, el sistema puede ajustarse automáticamente a micrófonos y cámaras con un cambio en ubicación.
Con referencia a la Figura 7, el mezclador de audio 1268 crea hasta R señales mezcladas a partir de Q entradas, con un peso separado dado desde cada entrada a cada salida. Las entradas incluyen señales de micrófono con eco cancelado, señales de micrófono de formación en fase, fuentes de audio de red y entradas auxiliares. Las salidas incluyen altavoces de sala y dispositivos en las redes locales y externas.
Todos los ejemplos y lenguaje condicional recitados en este documento se conciben para propósitos pedagógicos para ayudar al lector en el entendimiento de la invención y los conceptos contribuidos por el inventor para promover la técnica, y deben interpretarse sin limitación a tales ejemplos y condiciones específicamente recitados, ni la organización de tales ejemplos en la memoria descriptiva se refieren a una muestra de superioridad e inferioridad de la invención. Aunque la realización o realizaciones de la presente invención se han descrito en detalle, debería entenderse que los diversos cambios, sustituciones y alteraciones podrían hacerse a las mismas sin alejarse del alcance de la invención.

Claims (20)

REIVINDICACIONES
1. Un sistema (100) para procesar y mejorar la utilidad de una señal de máscara de sonido, que comprende: un procesador (120) configurado:
para generar una pluralidad de conjuntos de señales de ruido pseudoaleatorias, cada uno generado añadiendo una pluralidad de ondas sinusoidales con igual amplitud e igualmente espaciadas que tienen una tasa de muestreo fija y con fases aleatorias distribuidas uniformemente de acuerdo con un generador de número aleatorio determinístico con un valor inicial fijo,
para aplicar un filtro de paso de banda, y para emitir una secuencia repetida con n elementos, en donde cada uno de los n elementos del conjunto se multiplica por el correspondiente elemento de una fila de una matriz de Walsh-Hadamard de n x n para generar n señales de máscara de sonido ortogonales;
una pluralidad de altavoces de audio (112) configurados para emitir señales de sonido comprendiendo cada una una de las n señales de máscara de sonido ortogonales que comprenden las señales de ruido pseudoaleatorias; y
uno o más micrófonos (131), cada uno configurado para recibir las señales de sonido que comprenden las señales de máscara de sonido ortogonales emitidas desde la pluralidad de altavoces de audio,
en donde el procesador comprende un extractor de respuestas de impulso (1262) que está adaptado para derivar una respuesta de impulso entre cada altavoz de audio y cada combinación de micrófonos mientras mantiene las propiedades de una máscara de sonido mediante extracción a partir de las señales de máscara de sonido ortogonales.
2. El sistema de la reivindicación 1, que comprende adicionalmente un cancelador de eco (121) configurado para recibir (i) las señales de sonido desde el uno o más micrófonos, (ii) una copia de una onda de sonido original emitida a cada uno de la pluralidad de altavoces de audio, y (iii) la respuesta de impulso derivada del procesador, para suprimir sonidos no deseados en las señales de sonido recibidas.
3. El sistema de la reivindicación 1, que comprende adicionalmente:
un localizador de micrófono (1263) configurado para determinar, en tiempo real, posiciones relativas de la pluralidad de micrófonos dentro de un espacio midiendo retardos de tiempo desde cada altavoz de audio a cada micrófono basándose en la respuesta de impulso derivada.
4. El sistema de la reivindicación 3, en donde el procesador está configurado adicionalmente para generar dinámicamente, en tiempo real, una formación ad hoc que comprende el uno o más micrófonos basándose en las posiciones relativas determinadas por el localizador de micrófono.
5. El sistema de la reivindicación 1, que comprende adicionalmente:
una interfaz de red (1265) configurada para comunicar las señales recibidas a (i) una red local (140) y (ii) una red externa (150), a través de paquetes de datos; y
un filtro de paquetes (122) que clasifica y prioriza paquetes de un flujo de paquetes entre la red local y la red externa,
en donde el filtro de paquetes está configurado adicionalmente para evitar y retardar la transmisión de paquetes de prioridad más baja en el flujo de paquetes para minimizar la latencia de los paquetes de datos de las señales recibidas.
6. El sistema de la reivindicación 1, en donde el procesador está configurado para embeber información adicional en las señales de máscara de sonido modulando una o más porciones predeterminadas de la pluralidad de señales de ruido pseudoaleatorias.
7. El sistema de la reivindicación 6, en donde la una o más porciones predeterminadas residen en símbolos impares de un conjunto de símbolos para patrones de fase de la pluralidad de señales de ruido pseudoaleatorias.
8. El sistema de la reivindicación 6, en donde la información adicional comprende una identificación de sistema.
9. El sistema de la reivindicación 1, que comprende adicionalmente uno o más dispositivos móviles (142a) configurados para recibir la señal de ruido de máscara de sonido y extraer una identificación de sistema.
10. El sistema de la reivindicación 9, que comprende adicionalmente una interfaz de red (1265) configurada para comunicar uno o más parámetros de sistema, seleccionados del grupo: canales de altavoz activos, ubicación de altavoces y temperatura ambiente, al uno o más dispositivos móviles en respuesta a una consulta basándose en la identificación de sistema.
11. Un método para procesar y mejorar la utilidad de una señal de máscara de sonido, que comprende:
generar, por medio de un procesador de señal (120), una pluralidad de conjuntos de señales de ruido pseudoaleatorias, cada uno generado añadiendo una pluralidad de ondas sinusoidales con igual amplitud e igualmente espaciadas que tienen una tasa de muestreo fija y con fases aleatorias, distribuidas uniformemente de acuerdo con un generador de número aleatorio determinístico con un valor inicial fijo,
aplicar un filtro de paso de banda, y
emitir una secuencia repetida con n elementos, en donde cada uno de los n elementos del conjunto se multiplica por el correspondiente elemento de una fila de una matriz de Walsh-Hadamard de n x n para generar n señales de máscara de sonido ortogonales;
emitir, por medio de una pluralidad de altavoces de audio (112), señales de sonido, comprendiendo cada una de ellas una de las n señales de máscara de sonido ortogonales que comprenden las señales de ruido pseudoaleatorias; y
recibir, por medio de uno o más micrófonos (131), las señales de sonido emitidas, que comprenden las señales de máscara de sonido ortogonales emitidas desde la pluralidad de altavoces de audio,
en donde se deriva una respuesta de impulso entre cada altavoz de audio y cada combinación de micrófonos mientras se mantienen las propiedades de una máscara de sonido extrayendo de las señales de máscara de sonido ortogonales.
12. El método de la reivindicación 11, que comprende adicionalmente, recibir, por medio de un cancelador de eco (121), (i) las señales de sonido desde el uno o más micrófonos, (ii) una copia de una onda de sonido original emitida a cada uno de la pluralidad de altavoces, y (iii) la respuesta de impulso derivada del procesador de señal, para suprimir sonidos no deseados en las señales de sonido recibidas.
13. El método de la reivindicación 11, que comprende adicionalmente:
determinar, en tiempo real, posiciones relativas de la pluralidad de micrófonos dentro de un espacio midiendo retardos de tiempo desde cada altavoz de audio a cada micrófono basándose en la respuesta de impulso medida.
14. El método de la reivindicación 13, que comprende adicionalmente:
generar dinámicamente, en tiempo real, una formación ad hoc que comprende el uno o más micrófonos basándose en las posiciones relativas determinadas.
15. El método de la reivindicación 11, que comprende adicionalmente:
comunicar las señales recibidas a (i) una red local (140) y (ii) una red externa (150), a través de paquetes de datos;
clasificar y priorizar paquetes de un flujo de paquetes entre la red local y la red externa; y
evitar o retardar la transmisión de paquetes de prioridad más baja en el flujo de paquetes para minimizar la latencia de los paquetes de datos de las señales recibidas.
16. El método de la reivindicación 11, en donde el procesador está configurado para embeber información adicional en las señales de máscara de sonido modulando una o más porciones predeterminadas de la pluralidad de señales de ruido pseudoaleatorias.
17. El método de la reivindicación 16, en donde la una o más porciones predeterminadas residen en símbolos impares de un conjunto de símbolos para patrones de fase de la pluralidad de señales de ruido pseudoaleatorias.
18. El método de la reivindicación 16, en donde la información adicional comprende una identificación de sistema.
19. El método de la reivindicación 11, que comprende adicionalmente:
recibir, por medio de uno o más dispositivos móviles, las señales de máscara de sonido; y
extraer una identificación de sistema.
20. El método de la reivindicación 19, que comprende adicionalmente: comunicar uno o más parámetros de sistema, seleccionados del grupo: canales de altavoz activos, ubicación de altavoces y temperatura ambiente, al uno o más dispositivos móviles en respuesta a una consulta basándose en la identificación de sistema.
ES16795576T 2015-05-15 2016-05-13 Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido Active ES2849260T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562162091P 2015-05-15 2015-05-15
PCT/CA2016/000146 WO2016183662A1 (en) 2015-05-15 2016-05-13 System and method for embedding additional information in a sound mask noise signal

Publications (1)

Publication Number Publication Date
ES2849260T3 true ES2849260T3 (es) 2021-08-17

Family

ID=57319019

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16795576T Active ES2849260T3 (es) 2015-05-15 2016-05-13 Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido

Country Status (5)

Country Link
US (3) US10499151B2 (es)
EP (2) EP3826324A1 (es)
ES (1) ES2849260T3 (es)
HK (1) HK1251755A1 (es)
WO (1) WO2016183662A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220113370A1 (en) * 2020-10-08 2022-04-14 Nokia Technologies Oy System and method for location determination utilizing direct path information

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015123658A1 (en) 2014-02-14 2015-08-20 Sonic Blocks, Inc. Modular quick-connect a/v system and methods thereof
WO2015130786A1 (en) 2014-02-28 2015-09-03 Delos Living Llc Systems, methods and articles for enhancing wellness associated with habitable environments
JP6999232B2 (ja) * 2018-03-18 2022-01-18 アルパイン株式会社 音響特性測定装置および方法
DE102019107173A1 (de) * 2018-03-22 2019-09-26 Sennheiser Electronic Gmbh & Co. Kg Verfahren und Vorrichtung zum Erzeugen und Ausgeben eines Audiosignals zum Erweitern des Höreindrucks bei Live-Veranstaltungen
JP7186375B2 (ja) * 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
US20220091244A1 (en) * 2019-01-18 2022-03-24 University Of Washington Systems, apparatuses, and methods for acoustic motion tracking
WO2020176503A1 (en) 2019-02-26 2020-09-03 Delos Living Llc Method and apparatus for lighting in an office environment
WO2020198183A1 (en) * 2019-03-25 2020-10-01 Delos Living Llc Systems and methods for acoustic monitoring
CN116192152B (zh) * 2023-04-27 2023-07-18 深圳前海深蕾半导体有限公司 音频数模转换器、电子设备、数模转换方法及存储介质

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914706A (en) 1988-12-29 1990-04-03 777388 Ontario Limited Masking sound device
JPH0739968B2 (ja) * 1991-03-25 1995-05-01 日本電信電話株式会社 音響伝達特性模擬方法
US5453943A (en) 1994-02-18 1995-09-26 United Technologies Corporation Adaptive synchrophaser for reducing aircraft cabin noise and vibration
US5781640A (en) 1995-06-07 1998-07-14 Nicolino, Jr.; Sam J. Adaptive noise transformation system
US6584138B1 (en) 1996-03-07 2003-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Coding process for inserting an inaudible data signal into an audio signal, decoding process, coder and decoder
US6061793A (en) 1996-08-30 2000-05-09 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible sounds
US8306811B2 (en) 1996-08-30 2012-11-06 Digimarc Corporation Embedding data in audio and detecting embedded data in audio
US6335927B1 (en) * 1996-11-18 2002-01-01 Mci Communications Corporation System and method for providing requested quality of service in a hybrid network
US6208735B1 (en) 1997-09-10 2001-03-27 Nec Research Institute, Inc. Secure spread spectrum watermarking for multimedia data
JP3863306B2 (ja) 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
GB9927131D0 (en) 1999-11-16 2000-01-12 Royal College Of Art Apparatus for acoustically improving an environment and related method
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US6674876B1 (en) 2000-09-14 2004-01-06 Digimarc Corporation Watermarking in the time-frequency domain
US6996521B2 (en) 2000-10-04 2006-02-07 The University Of Miami Auxiliary channel masking in an audio signal
US6748086B1 (en) 2000-10-19 2004-06-08 Lear Corporation Cabin communication system without acoustic echo cancellation
US7221663B2 (en) 2001-12-31 2007-05-22 Polycom, Inc. Method and apparatus for wideband conferencing
US8477958B2 (en) 2001-02-26 2013-07-02 777388 Ontario Limited Networked sound masking system
US6650762B2 (en) 2001-05-31 2003-11-18 Southern Methodist University Types-based, lossy data embedding
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US20030103632A1 (en) 2001-12-03 2003-06-05 Rafik Goubran Adaptive sound masking system and method
US20030107478A1 (en) 2001-12-06 2003-06-12 Hendricks Richard S. Architectural sound enhancement system
US7330812B2 (en) 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
US7881485B2 (en) 2002-11-21 2011-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus and method of determining an impulse response and apparatus and method of presenting an audio piece
DE10254470B4 (de) * 2002-11-21 2006-01-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks
US20060109983A1 (en) 2004-11-19 2006-05-25 Young Randall K Signal masking and method thereof
DE602005008914D1 (de) 2005-05-09 2008-09-25 Mitel Networks Corp Verfahren und System zum Reduzieren der Trainingszeit eines akustischen Echokompensators in einem Vollduplexaudiokonferenzsystem durch akustische Strahlbildung
DE602006016121D1 (de) * 2005-06-09 2010-09-23 Koninkl Philips Electronics Nv Verfahren und system zur ermittlung des abstands zwischen lautsprechern
NO324450B1 (no) 2006-03-31 2007-10-22 Tandberg Telecom As System and method for enhanced teleconferencing security
US20080147394A1 (en) 2006-12-18 2008-06-19 International Business Machines Corporation System and method for improving an interactive experience with a speech-enabled system through the use of artificially generated white noise
EP1947642B1 (en) 2007-01-16 2018-06-13 Apple Inc. Active noise control system
JP5103974B2 (ja) * 2007-03-22 2012-12-19 ヤマハ株式会社 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
ATE554481T1 (de) 2007-11-21 2012-05-15 Nuance Communications Inc Sprecherlokalisierung
CN201185081Y (zh) 2008-04-16 2009-01-21 上海华平信息技术股份有限公司 具有能消除多种回声的回音消除器
US8666086B2 (en) 2008-06-06 2014-03-04 777388 Ontario Limited System and method for monitoring/controlling a sound masking system from an electronic floorplan
US8223985B2 (en) 2009-04-22 2012-07-17 General Electric Company Masking of pure tones within sound from a noise generating source
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
US9171551B2 (en) 2011-01-14 2015-10-27 GM Global Technology Operations LLC Unified microphone pre-processing system and method
US8660581B2 (en) * 2011-02-23 2014-02-25 Digimarc Corporation Mobile device indoor navigation
CN102148034A (zh) 2011-04-07 2011-08-10 南京邮电大学 基于回声隐藏的水印嵌入和提取方法
US8804984B2 (en) 2011-04-18 2014-08-12 Microsoft Corporation Spectral shaping for audio mixing
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
CN102237093B (zh) 2011-05-23 2012-08-15 南京邮电大学 一种基于前后向回声核的回声隐藏方法
US9060052B2 (en) * 2013-03-13 2015-06-16 Accusonus S.A. Single channel, binaural and multi-channel dereverberation
WO2014151857A1 (en) 2013-03-14 2014-09-25 Tiskerling Dynamics Llc Acoustic beacon for broadcasting the orientation of a device
US10257728B2 (en) * 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
EP2989807A4 (en) * 2013-05-03 2016-11-09 Digimarc Corp WATERMARK MARKING AND SIGNAL RECOGNITION FOR ADMINISTERING AND DIVISION OF INTEGRATED CONTENT, METADATA RECORDING AND RELATED ARRANGEMENTS
US9660927B2 (en) * 2015-04-22 2017-05-23 Accedian Networks Inc. Preemptive packet transmission

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220113370A1 (en) * 2020-10-08 2022-04-14 Nokia Technologies Oy System and method for location determination utilizing direct path information
US11624804B2 (en) * 2020-10-08 2023-04-11 Nokia Technologies Oy System and method for location determination utilizing direct path information

Also Published As

Publication number Publication date
EP3292703B8 (en) 2021-03-10
EP3292703A1 (en) 2018-03-14
US10856079B2 (en) 2020-12-01
EP3292703B1 (en) 2020-12-30
US20180132037A1 (en) 2018-05-10
EP3826324A1 (en) 2021-05-26
US10499151B2 (en) 2019-12-03
US20210152932A1 (en) 2021-05-20
WO2016183662A1 (en) 2016-11-24
HK1251755A1 (zh) 2019-02-01
US20200107120A1 (en) 2020-04-02
EP3292703A4 (en) 2018-04-11
US11356775B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
ES2849260T3 (es) Sistema y método para embeber información adicional en una señal de ruido de máscara de sonido
KR102558031B1 (ko) 세그먼트된 주파수 의존 위상 제거를 사용하는 노이즈 제거
EP2652737B1 (en) Noise reduction system with remote noise detector
TWI687106B (zh) 穿戴式電子裝置、虛擬實境系統以及控制方法
Batteau The role of the pinna in human localization
CN105451151B (zh) 一种处理声音信号的方法及装置
TW202005415A (zh) 圖案形成麥克風陣列
US10728662B2 (en) Audio mixing for distributed audio sensors
CN103118321A (zh) 适于实时通信从而在音频流中提供空间信息的听音系统
US20110026745A1 (en) Distributed signal processing of immersive three-dimensional sound for audio conferences
WO2015059491A2 (en) A method for reducing loudspeaker phase distortion
US20080273683A1 (en) Device method and system for teleconferencing
JP2018520391A (ja) ノイズ除去機能が備わったイヤホン装置及びノイズ除去方法
US9826311B2 (en) Method, device and system for controlling a sound image in an audio zone
US20220141588A1 (en) Method and apparatus for time-domain crosstalk cancellation in spatial audio
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
Ahonen et al. Parametric spatial sound processing applied to bilateral hearing aids
JP2016133647A (ja) 通信システム、方法、装置およびプログラム
CN108696799A (zh) 使用声音传输管道在室内播放声音的装置及其方法
Martin The significance of interchannel correlation, phase and amplitude differences on multichannel microphone techniques
KR102680949B1 (ko) 세그먼트된 주파수 의존 위상 제거를 사용하는 노이즈 제거
Röhrbein et al. Reducing the temporal resolution of spatial impulse responses with an auditory model
Ward Acoustic Crosstalk Reduction in Loudspeaker-Based Virtual Audio Systems
KR20240033277A (ko) 통신을 위한 증강 오디오
CN117082406A (zh) 音频播放系统