ES2709248T3 - Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación - Google Patents

Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación Download PDF

Info

Publication number
ES2709248T3
ES2709248T3 ES14824318T ES14824318T ES2709248T3 ES 2709248 T3 ES2709248 T3 ES 2709248T3 ES 14824318 T ES14824318 T ES 14824318T ES 14824318 T ES14824318 T ES 14824318T ES 2709248 T3 ES2709248 T3 ES 2709248T3
Authority
ES
Spain
Prior art keywords
channel
reverberation
binaural
downmix
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14824318T
Other languages
English (en)
Inventor
Kuan-Chieh Yen
Dirk J Breebaart
Grant A Davidson
Rhonda Wilson
David M Cooper
Zhiwei Shuang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201410178258.0A external-priority patent/CN104768121A/zh
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2014/071100 external-priority patent/WO2015102920A1/en
Application granted granted Critical
Publication of ES2709248T3 publication Critical patent/ES2709248T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

Un método para generar una señal binaural en respuesta a un conjunto de canales de una señal de entrada de audio multi canal, que incluye los pasos de: (a) aplicar una respuesta al impulso binaural de una sala, BRIR, a cada canal del conjunto, generando de este modo las señales filtradas, que incluye el uso de al menos una red (203, 204, 205, 220) de retardo de retroalimentación para aplicar una reverberación tardía común a una mezcla descendente de los canales del conjunto; y (b) combinar las señales filtradas para generar la señal binaural, en donde en el paso (a), la parte de reverberación tardía común emula los macro atributos colectivos de las partes de reverberación tardías de al menos algunas BRIR de canal único. incluyendo el método también un paso de imposición de valores de control a la red (203, 204, 205) de retardo de retroalimentación para establecer al menos una ganancia de entrada, unas ganancias del tanque de reverberación, unos retardos del tanque de reverberación, o unos parámetros de la matriz de salida que establezcan la coherencia interaural para dicha red (203, 204, 205) de retardo de retroalimentación, en donde los valores de control se imponen de tal manera que la parte de reverberación tardía común emula los atributos macro colectivos de las partes de reverberación tardías de dichas al menos algunas BRIR de canal único.

Description

DESCRIPCION
Generacion de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentacion
Referencia cruzada a la solicitud relacionada
La presente invencion reivindica la prioridad de la Solicitud de Patente China N° 201410178258,0 archivada el 29 de Abril de 2014; las Solicitudes de Patente Provisional de los EE.UU. N° 61/923.579 archivadas el 3 de Enero de 2014; y la Solicitud de Patente Provisional de los EE.UU N° 61/988.617 archivada el 5 de Mayo de 2014.
Antecedentes de la invencion
1. Campo de la invencion
La invencion se relaciona con los metodos (a veces referidos como metodos de virtualizacion de los auriculares) y los sistemas para generar una senal binaural en respuesta a una senal de entrada de audio multi canal, mediante la aplicacion de una respuesta al impulso binaural de una sala (BRIR) a cada canal de un conjunto de canales (por ejemplo, a todos los canales) de la senal de entrada. En algunas realizaciones, al menos una red de retardo de la retroalimentacion (FDN) aplica una parte de reverberacion tardfa de una BRIR de mezcla descendente a una mezcla descendente de los canales.
2. Antecedentes de la invencion
La virtualizacion de los auriculares (o la reproduccion binaural) es una tecnologfa que pretende ofrecer una experiencia de sonido envolvente o un campo de sonido inmersivo usando auriculares estereo estandar.
Los primeros virtualizadores de auriculares aplicaron una funcion de transferencia relacionada con la cabeza (HRTF) para transportar la informacion espacial en una reproduccion binaural. Una HRTF es un conjunto de parejas de filtros dependientes de la direccion y la distancia que caracterizan como se transmite el sonido desde un punto espedfico en el espacio (ubicacion de la fuente de sonido) a tanto los ofdos de un oyente en un entorno anecoico. Senales espaciales esenciales tales como la diferencia de tiempo interaural (ITD), la diferencia de nivel interaural (ILD), el efecto de sombra de la cabeza, los picos y las muescas espectrales debido a las reflexiones del hombro y del pabellon auricular, se pueden percibir en el contenido binaural filtrado por la HRTF reproducido. Debido a las restricciones de tamano de la cabeza humana, las HTRF no proporcionan senales suficientes o robustas con respecto a la distancia a la fuente mas alla de aproximadamente un metro. Como resultado, los virtualizadores basados unicamente en una HRTF normalmente no consiguen una buena externalizacion o distancia percibida. La mayona de los eventos acusticos en nuestra vida diaria ocurren en entornos reverberantes en los que, ademas de la ruta directa (desde la fuente al ofdo) modelada por la HRTF, las senales de audio tambien llegan a los ofdos de los oyentes a traves de diversas rutas de reflexion. Las reflexiones introducen un impacto profundo a la percepcion de un auditorio, tal como la distancia, el tamano de la sala, y otros atributos del espacio. Para transportar esta informacion en la reproduccion binaural, se necesita aplicar un virtualizador a la reverberacion de la sala ademas de las senales en la HTRF de la ruta directa. Una respuesta al impulso binaural de una sala (BRIR) caracteriza la transformacion de las senales de audio desde un punto espedfico en el espacio a los ofdos del oyente en un entorno acustico espedfico. En teona, las BRIR incluyen todas las senales acusticas respecto a la percepcion espacial.
La Fig. 1 es un diagrama de bloques de un tipo de virtualizador de auriculares convencional que se configura para aplicar una respuesta al impulso binaural de una sala (BRIR) a cada canal de rango completo de frecuencias (X1,..., Xn) de una senal de entrada de audio multi canal. Cada uno de los canales X1,..., Xn es un canal de altavoz correspondiente a una direccion de fuente diferente en relacion a un supuesto oyente (esto es, la direccion de la ruta directa desde una supuesta posicion de un altavoz correspondiente a la supuesta posicion de un oyente), y cada uno de dichos canales es convolucionado por la BRIR para la correspondiente direccion de la fuente. La ruta acustica desde cada canal necesita ser simulada para cada ofdo. Por lo tanto, en el resto de este documento, el termino BRIR se referira a un par de respuestas al impulso asociadas con los ofdos izquierdo y derecho. Por tanto, el subsistema 2 se configura para convolucionar el canal X1 con la BRIR1 (la BRIR para la direccion de la fuente correspondiente), el subsistema 4 se configura para convolucionar el canal Xn con la BRIRn (la BRIR para la direccion de la fuente correspondiente), y asf sucesivamente. La salida de cada subsistema BRIR (cada uno de los subsistemas 2,..., 4) es una senal en el dominio del tiempo que incluye un canal izquierdo y un canal derecho. Las salidas del canal izquierdo de los subsistemas BRIR se mezclan en el elemento 6 de adicion, y las salidas del canal derecho de los subsistemas BRIR se mezclan en el elemento 8 de adicion. La salida del elemento 6 es el canal izquierdo, L, de la salida de la senal de audio binaural del virtualizador, y la salida del elemento 8 es el canal derecho, R, de la salida de la senal de audio binaural del virtualizador.
La senal de entrada del audio multi canal puede incluir tambien efectos de baja frecuencia (LFE) o un canal de graves, identificado en la Fig. 1 como el canal “LFE”, De manera convencional, el canal LFE no se convoluciona con una BRIR, pero en su lugar se atenua en la etapa 5 de ganancia de la Fig. 1 (por ejemplo, en -3dB o mas) y la salida de la etapa 5 se mezcla de manera igualitaria (mediante los elementos 6 y 8) en cada uno de los canales de la senal de salida binaural del virtualizador. Puede ser necesaria una etapa adicional de retardo en la ruta LFE para alinear en el tiempo la salida de la etapa 5 con las salidas de los subsistemas BRIR (2,..., 4). De manera alternativa, el canal LFE se puede simplemente ignorar (esto es, no ser impuesto o procesado por el virtualizador). Por ejemplo, la realizacion de la Fig. 2 de la invencion (que se describe mas adelante) simplemente ignora cualquier canal LFE de la senal de entrada de audio multicanal procesado de este modo. Muchos auriculares de consumo no son capaces de reproducir de manera precisa un canal LFE.
En algunos virtualizadores convencionales, la senal de entrada experimenta la transformacion del dominio del tiempo al dominio de la frecuencia dentro del dominio QMF (filtro espejo en cuadratura), para generar los canales de los componentes de frecuencia en el dominio QMF. Estos componentes de frecuencia se someten al filtrado (por ejemplo, en las implementaciones en el dominio QMF de los subsistemas 2,..., 4 de la Fig. 1) en el dominio QMF y los componentes de frecuencia resultantes normalmente se transforman despues de vuelta al dominio del tiempo (por ejemplo, en una etapa final de cada uno de los subsistemas 2,...,4 de la Fig. 1) para que la salida de audio del virtualizador sea una senal en el dominio del tiempo (por ejemplo, una senal binaural en el dominio del tiempo).
En general, cada canal de rango completo de frecuencias de una entrada de senal de audio multicanal a un virtualizador de auriculares se supone que es indicativa del contenido de audio emitido desde una fuente de sonido en una ubicacion conocida en relacion con los ofdos del oyente. El virtualizador de auriculares se configura para aplicar una respuesta al impulso binaural de una sala (BRIR) a cada uno de dichos canales de la senal de entrada. Cada BRIR se puede descomponer en dos partes: la respuesta directa y las reflexiones. La respuesta directa es la HRTF que corresponde a la direccion de llegada (DOA) de la fuente de sonido, ajustada con la ganancia y el retardo apropiados debido a la distancia (entre la fuente de sonido y el oyente), y de manera opcional aumentada con efectos de paralaje para las pequenas distancias.
La parte restante de la BRIR modela las reflexiones. Las reflexiones tempranas son normalmente las reflexiones primarias o secundarias y tienen una distribucion temporal relativamente dispersa. La micro estructura (por ejemplo, la ITD y la ILD) de cada reflexion primaria o secundaria es importante. Para las reflexiones posteriores (el sonido reflejado desde mas de dos superficies antes de incidir en el oyente), la densidad de eco aumenta con el aumento del numero de reflexiones, y los micro atributos de las reflexiones individuales resultan diffciles de observar. Para las reflexiones cada vez mas tardfas, la macro estructura (por ejemplo, la tasa de decaimiento de la reverberacion, la coherencia interaural, y la distribucion espectral de la reverberacion general) resulta mas importante. Debido a esto, las reflexiones de manera adicional se pueden segmentar en dos partes: las reflexiones tempranas y las reverberaciones tardfas.
El retardo de la respuesta directa es la distancia a la fuente desde el oyente dividida entre la velocidad del sonido, y su nivel es (en ausencia de paredes o grandes superficies cercanas a la ubicacion de la fuente) inversamente proporcional a la distancia a la fuente. Por otro lado, el retardo y el nivel de las reverberaciones tardfas es generalmente insensible a la ubicacion de la fuente. Debido a las consideraciones practicas, los virtualizadores pueden elegir alinear en el tiempo las respuestas directas de las fuentes con las diferentes distancias, y/o comprimir su rango dinamico. Sin embargo, se debena mantener la relacion temporal y de nivel entre la respuesta directa, las reflexiones tempranas, y la reverberacion tardfa dentro de una BRIR.
La longitud efectiva de una BRIR tfpica se extiende a centenares de milisegundos o mas en entornos mas acusticos. La aplicacion directa de las BRIR requiere la convolucion con un filtro de miles de pulsaciones, que es caro desde el punto de vista computacional. Ademas, sin la parametrizacion, requerina un gran espacio de memoria para almacenar las BRIR de las diferentes posiciones de la fuente para conseguir una resolucion espacial suficiente. Por ultimo pero no menos importante, las ubicaciones de la fuente de sonido pueden cambiar en el tiempo, y/o la posicion y orientacion del oyente puede variar en el tiempo. La simulacion aproximada de dichos movimientos requiere respuestas al impulso de la BRIR variantes en el tiempo. La interpolacion y aplicacion apropiada de dichos filtros variantes en el tiempo puede ser un reto si las respuestas al impulso de estos filtros tienen muchas pulsaciones.
Se puede usar un filtro que tiene la bien conocida estructura de filtro conocida como red de retardo de retroalimentacion (FDN) para implementar un reverberador espacial que se configura para aplicar una reverberacion simulada a uno o mas canales de una senal de entrada de audio multi canal. La estructura de una FDN es simple. Comprende varios tanques de reverberacion (por ejemplo el tanque de reverberacion que comprende el elemento gi de ganancia y la lmea z-n1de retardo, en la FDN de la Fig. 4), teniendo cada tanque de reverberacion un retardo y una ganancia. En una implementacion tfpica de una FDN, las salidas desde todos los tanques de reverberacion son mezcladas por una matriz de retroalimentacion unitaria y las salidas de la matriz son retroalimentadas y sumadas con las entradas a los tanques de reverberacion. Los ajustes de ganancia se pueden hacer a las salidas de los tanques de reverberacion, y las salidas de los tanques de reverberacion (o las versiones ajustadas en ganancia de estos) se pueden volver a mezclar de manera adecuada para una reproduccion multicanal o binaural. La reverberacion de sonido natural puede ser generada y aplicada por una FDN con huellas computacionales y de memoria compactas. Las FDN se han usado por tanto en virtualizadores para aumentar la respuesta directa producida por la HRTF.
Por ejemplo, el comercialmente disponible virtualizador de auriculares Movil Dolby incluye un reverberador que tienen una estructura basada en la FDN que es operable para aplicar reverberacion a cada canal de una senal de audio de cinco canales (teniendo los canales frontal izquierdo, frontal derecho, central, envolvente izquierdo, y envolvente derecho) y para filtrar cada canal reverberado usando un par de filtros diferente de un conjunto de cinco pares de filtros de la funcion de transferencia relacionada con la cabeza (“HRTF”). El virtualizador de auriculares Movil Dolby es operable tambien en respuesta a una senal de audio de dos canales, para generar una salida de audio binaural “reverberada” de dos canales (una salida de sonido envolvente virtual de dos canales a la que se ha aplicada reverberacion). Cuando la salida binaural reverberada es procesada y reproducida por un par de auriculares, es percibida en el timpano del oyente como un sonido filtrado por la HRTF, reverberado de los cinco altavoces en las posiciones frontal izquierda, frontal derecha, central, trasera izquierda (envolvente), y trasera derecha (envolvente). El virtualizador mezcla de manera ascendente una entrada de audio de dos canales mezclados de manera descendente (sin usar ningun parametro de senal espacial recibido con la entrada de audio) para generar cinco canales de audio mezclados de manera ascendente, aplica la reverberacion a los canales mezclados de manera ascendente, y mezcla de manera descendente las cinco senales de los canales reverberados para generar la salida reverberada de dos canales del virtualizador. La reverberacion para cada canal mezclado de manera ascendente se filtra en un par diferente de filtros HRTF.
En un virtualizador, una FDN se puede configurar para conseguir un cierto tiempo de decaimiento de la reverberacion y densidad de eco. Sin embargo, la FDN carece de la flexibilidad para simular la micro estructura de las reflexiones tempranas. Ademas, en los virtualizadores convencionales la sintonizacion y configuracion de las FDN ha sido principalmente heuristica.
Los virtualizadores de auriculares que no simulan todas las rutas de reflexion (tempranas y tarotias) no pueden conseguir una externalizacion efectiva. Los inventores han reconocido que los virtualizadores que emplean las FDN que intentan simular todas las rutas de reflexion (tempranas y tarotias) por lo general no tienen mas que un exito limitado en la simulacion de tanto las reflexiones tempranas como de la reverberacion tarotia y en la aplicacion de ambas a una senal de audio. Los inventores han reconocido tambien que los virtualizadores que emplean la FDN pero que no tienen la capacidad para controlar de manera apropiada los atributos acusticos espaciales tales como el tiempo de decaimiento de la reverberacion, la coherencia interaural, y la relacion directa a tardfa, pueden conseguir un grado de externalizacion con el precio de introducir exceso de distorsion de timbre y reverberacion.
Se hace tambien referencia al documento WO 2012/093352 A1, que describe un sistema de audio que comprende un receptor para recibir una senal de audio, tal como un objeto de audio o una senal de un canal de una senal multi canal espacial. Un circuito binaural genera una senal de salida binaural mediante el procesamiento de la senal de audio. El procesamiento es representativo de una funcion de transferencia binaural que proporciona una posicion virtual de la fuente de sonido para la senal de audio. Un circuito de medicion que genera los datos de medicion indicativos de una caractenstica del entorno acustico y un circuito de determinacion que determina un parametro del entorno acustico en respuesta a los datos de medicion. El parametro del entorno acustico puede ser normalmente un parametro de reverberacion, tal como un tiempo de reverberacion. Un circuito de adaptacion adapta la funcion de transferencia binaural en respuesta al parametro del entorno acustico. Por ejemplo, la adaptacion puede modificar un parametro de reverberacion para asemejarse mas a las caractensticas de reverberacion del entorno acustico. Breve descripcion de la invencion
En vista de lo anterior, la presente invencion proporciona un metodo para generar una senal binaural en respuesta a un conjunto de canales de una senal de entrada de audio multi canal, y un sistema configurado para generar una senal binaural en respuesta a un conjunto de canales de una senal de entrada de audio multi canal, que tienen las caractensticas de las respectivas reivindicaciones independientes.
En una primera clase de realizaciones, la invencion es un metodo para generar una senal binaural en respuesta a un conjunto de canales (por ejemplo, cada uno de los canales, o cada uno de los canales de rango completo de frecuencias) de una senal de entrada de audio multicanal, incluyendo los pasos de: (a) aplicar un respuesta al impulso binaural de una sala (BRIR) a cada canal de un conjunto (por ejemplo, convolucionando cada canal del conjunto con una BRIR correspondiente a dicho canal), generando de este modo unas senales filtradas, incluyendo el uso de al menos una red de retardo de retroalimentacion (FDN) para aplicar una reverberacion tarotia comun a una mezcla descendente (por ejemplo, una mezcla descendente monofonica) de los canales del conjunto; y (b) combinar las senales filtradas para generar la senal binaural. Se usa un banco de FDN para aplicar la reverberacion tarotia comun a la mezcla descendente (por ejemplo, con cada FDN aplicando una reverberacion tarotia comun a una banda de frecuencias diferente). La reverberacion tarotia comun se ha generado para emular los macro atributos colectivos de las partes de reverberacion tarotias de al menos algunas (por ejemplo, todas) las BRIR de canal unico. Normalmente, el paso (a) incluye un paso de aplicacion a cada canal del conjunto de una parte de “respuesta directa y reflexion temprana” de una BRIR de canal unico para el canal.
El metodo para generar una senal binaural en respuesta a una senal de entrada de audio multicanal (o en respuesta a un conjunto de canales de dicha senal) es referido a veces en la presente memoria como metodo de “virtualizacion de auriculares”, y el sistema configurado para realizar dicho metodo es referido a veces en la presente memoria como “virtualizador de auriculares” (o “sistema de virtualizacion de auriculares” o “virtualizador binaural”).
En las realizaciones tipicas en la primera clase, cada una de las FDN se implementa en el dominio del banco de filtros (por ejemplo, en el dominio del filtro espejo en cuadratura complejo tubrido (HCQMF) o en el dominio del filtro espejo en cuadratura (QMF), u otra transformada o dominio de sub banda que pueda incluir el diezmado), y en algunas de dichas realizaciones, los atributos acusticos espaciales dependientes de la frecuencia de la senal binaural son controlados mediante el control de la configuracion de cada FDN empleada para aplicar la reverberacion tardfa. Normalmente, una mezcla descendente monofonica de los canales se usa como entrada de las FDN para un procesamiento binaural eficiente del contenido de audio de la senal multi canal. Las realizaciones tfpicas en la primera clase incluyen un paso de coeficientes de ajuste de la FDN correspondientes a los atributos dependientes de la frecuencia (por ejemplo, el tiempo de decaimiento de la reverberacion, la coherencia interaural, la densidad modal, y la relacion directa a tardfa), por ejemplo, imponiendo los valores de control a la red de retardo de retroalimentacion a un conjunto de al menos uno de entre la ganancia de entrada, las ganancias del tanque de reverberacion, los retardos del tanque de reverberacion, o los parametros de la matriz de salida para cada FDN. Esto permite una mejor coincidencia de los entornos acusticos y unas salidas de sonido mas naturales.
En una segunda clase de ejemplos, que no esta cubierta por las reivindicaciones, la invencion es un metodo para generar una senal binaural en respuesta a una senal de entrada de audio multi canal que tiene canales, aplicando una respuesta al impulso binaural de una sala (BRIR) a cada canal de un conjunto de canales de la senal de entrada (por ejemplo, cada uno de los canales de la senal de entrada o cada canal de rango completo de frecuencias de la senal de entrada), incluyendo: el procesamiento de cada canal del conjunto en una primera ruta de procesamiento configurada para modelar, y aplicar a dicho canal, una respuesta directa y una parte de reflexion temprana de una BRIR de canal unico para el canal; y el procesamiento de una mezcla descendente (por ejemplo, una mezcla descendente monofonica (mono)) de los canales del conjunto en una segunda ruta de procesamiento (en paralelo con la primera ruta de procesamiento) configurada para modelar, y aplicar una reverberacion tardfa comun a la mezcla descendente. Normalmente, la reverberacion tardfa comun se ha generado para emular los macro atributos colectivos de las partes de reverberacion tardfas de al menos alguna (por ejemplo, todas) de las BRIR de canal unico. Normalmente, la segunda ruta de procesamiento incluye al menos una FDN (por ejemplo, una FDN para cada una de las multiples bandas de frecuencias). Normalmente, se usa una mezcla descendente mono como la entrada a todos los tanques de reverberacion de cada FDN implementada mediante la segunda ruta de procesamiento. Normalmente, se proporcionan los mecanismos para el control sistematico de los macro atributos de cada FDN para simular mejor los entornos acusticos y producir una virtualizacion binaural de sonido mas natural. Ya que la mayona de dichos macro atributos son dependientes de la frecuencia, cada FDN se implementa normalmente en el dominio del filtro espejo en cuadratura complejo tubrido (HCQMF), el dominio de la frecuencia, el dominio, u otro domino de banco de filtros, y se usa una FDN diferente o independiente para cada banda de frecuencias. El beneficio principal de implementar las FDN en el dominio del banco de filtros es permitir la aplicacion de reverberacion con las propiedades de reverberacion dependientes de la frecuencia. En diversas realizaciones, las FDN se implementan en cualquiera de una amplia variedad de dominios de banco de filtros, usando cualquiera de entre una variedad de bancos de filtros, incluyendo, pero no limitado a los filtros espejo en cuadratura de valor complejo (QMF), los filtros de respuesta al impulso finita (filtros FIR), los filtros de respuesta al impulso infinita (filtros IIR), las transformadas de Fourier discretas (DFT), y las transformadas de coseno o seno (modificadas), las transformadas Wavelet, o los filtros cruzados. En una realizacion preferida, el banco de filtros o la transformada empleadas incluye el diezmado (por ejemplo, un disminucion de la tasa de muestreo de la representacion de la senal en el dominio de la frecuencia) para reducir la complejidad computacional del proceso de la FDN.
Algunas realizaciones en la primera clase implementan una o mas de las siguientes caractensticas:
1. una implementacion FDN en el domino del banco de filtros (por ejemplo, en el dominio del filtro espejo en cuadratura complejo tubrido), o una implementacion FDN en el dominio del banco de filtros tubridos y una implementacion del filtro de reverberacion tardfa en el dominio del tiempo, que normalmente permite el ajuste independiente de los parametros y/o los ajustes de la FDN para cada banda de frecuencias (que permite un control simple y flexible de los atributos acusticos dependientes de la frecuencia), por ejemplo, proporcionando la capacidad de variar los retardos del tanque de reverberacion en diferentes bandas para cambiar la densidad modal como una funcion de la frecuencia:
2. El proceso de mezcla descendente espedfico, empleado para generar (desde la senal de audio de entrada multi canal) la senal mezclada de manera descendente (por ejemplo, mezcla descendente monofonica) procesada en la segunda ruta de procesamiento, depende de la distancia a la fuente de cada canal y el manejo de la respuesta directa para mantener un nivel apropiado y la relacion de temporizacion entre las respuestas directa y tardfa;
3. Se aplica un filtro paso todo (APF) en la segunda ruta de procesamiento (por ejemplo, en la entrada o la salida de un banco de FDN) para introducir la diversidad de fase y aumentar la densidad de eco sin cambiar el espectro y/o el timbre de la reverberacion resultante;
4. Se implementan retardos fraccionales en la ruta de retroalimentacion para cada FDN con una estructura multi tasa, de valor complejo, para superar los problemas relacionados con los retardos cuantificados para la cuadncula de factor de disminucion de muestras;
5. En las FDN, las salidas del tanque de reverberacion se mezclan de manera descendente de manera lineal directamente dentro de los canales binaurales, usando los coeficientes de mezcla descendente de salida que se ajustan en base a la coherencia interaural deseada en cada banda de frecuencias. De manera opcional, la correspondencia de los tanques de reverberacion a los canales de salida binaurales alterna entre bandas de frecuencias para conseguir un retardo balanceado entre los canales binaurales. Tambien de manera opcional, se aplican factores de normalizacion a las salidas del tanque de reverberacion para igualar sus niveles mientras conservan el retardo fraccional y la energfa general,
6. El tiempo de decaimiento de la reverberacion dependiente de la frecuencia y/o la densidad modal esta controlado por las combinaciones apropiadas de ajustes de los retardos del tanque de reverberacion y las ganancias en cada banda de frecuencias para simular salas reales;
7. Se aplica un factor de escala por banda de frecuencias (por ejemplo, en bien la entrada o la salida de la ruta de procesamiento relevante), para:
controlar la relacion directa a tardfa (DLR) dependiente de la frecuencia que coincide con la de una sala real (se puede usar un modelo simple para calcular el factor de escala requerido en base a la DLR objetivo y el tiempo de decaimiento, por ejemplo, T60);
proporcionar una atenuacion de baja frecuencia para mitigar el exceso de artefactos de peinado y/o ruido de baja frecuencia; y/o
aplicar un conformado espectral de campo difuso a las respuestas de la FDN;
8. Se implementan modelos parametricos simples para controlar los atributos dependientes de la frecuencia esenciales de la reverberacion tardfa, tales como el tiempo de decaimiento de la reverberacion, la coherencia interaural, y/o la relacion directa a tardfa.
Los aspectos de la invencion incluyen los metodos y sistemas que realizan (o se configuran para realizar, o soportan la realizacion de) la virtualizacion binaural de senales de audio (por ejemplo senales de audio cuyo contenido de audio consiste de canales de altavoces, y/o senales de audio basadas en objetos).
En otra clase de realizaciones, la invencion es un sistema para generar una senal binaural en respuesta a un conjunto de canales de una senal de entrada de audio multi canal, incluyendo la aplicacion de una respuesta al impulso binaural de una sala (BRIR) a cada canal del conjunto, generando de este modo unas senales filtradas, incluyendo mediante el uso de una red de retardo de retroalimentacion unica (FDN) para aplicar una reverberacion tardfa comun a una mezcla descendente de los canales del conjunto; y la combinacion de las senales filtradas para generar la senal binaural. La FDN se implementa en el dominio del tiempo. En algunas de dichas realizaciones, la FDN en el dominio del tiempo incluye:
un filtro de entrada que tiene una entrada acoplada para recibir la mezcla descendente, en donde el filtro de entrada se configura para generar una primera mezcla descendente filtrada en respuesta a la mezcla descendente;
un filtro paso todo, acoplado y configurado a una segunda mezcla descendente filtrada en respuesta a la primera mezcla descendente filtrada;
un subsistema de aplicacion de la reverberacion, que tiene una primera salida y una segunda salida, en donde el subsistema de aplicacion de la reverberacion comprende un conjunto de tanques de reverberacion, teniendo cada uno de los tanques de reverberacion un retardo diferente, y en donde el subsistema de aplicacion de la reverberacion se acopla y configura para genera un primer canal binaural no mezclado y un segundo canal binaural no mezclado en respuesta a la segunda mezcla descendente filtrada, para imponer el primer canal binaural no mezclado en la primera salida, y para imponer el segundo canal binaural no mezclado en la segunda salida; y una etapa de filtrado y mezclado de coeficiente de correlacion cruzada interaural (IACC) acoplada al subsistema de aplicacion de la reverberacion y configurada para generar un primer canal binaural mezclado y un segundo canal binaural mezclado en respuesta al primer canal binaural no mezclado y al segundo canal binaural no mezclado. El filtro de entrada se puede implementar para generar (preferiblemente como una cascada de dos filtros configurados para generar) la primera mezcla descendente filtrada tal que cada BRIR tenga una relacion directa a tardfa (DLR) que coincida, al menos sustancialmente, con una DLR objetivo.
Cada tanque de reverberacion se puede configurar para generar una senal retardada, y puede incluir un filtro de reverberacion (por ejemplo, implementado como un filtro atenuador o una cascada de filtros atenuadores) acoplado y configurado para aplicar una ganancia a una senal que se propaga en dicho cada uno de los tanques de reverberacion, para provocar que la senal retardada tenga una ganancia que coincida, al menos sustancialmente, con una ganancia de decaimiento objetivo para dicha senal retardada, en un esfuerzo para conseguir una caractenstica de tiempo de decaimiento de reverberacion objetivo (por ejemplo una caractenstica T60) de cada BRIR. En algunas realizaciones, el primer canal binaural no mezclado grna al segundo canal binaural no mezclado, los tanques de reverberacion incluyen un primer tanque de reverberacion configurado para generar una primera senal retardada que tenga el retardo mas corto y un segundo tanque de reverberacion configurado para generar una segunda senal retardada que tenga el segundo retardo mas corto, en donde el primer tanque de reverberacion se configura para aplicar una primera ganancia a la primera senal retardada, el segundo tanque de reverberacion se configura para aplicar una segunda ganancia a la segunda senal retardada, siendo la segunda ganancia diferente de la primera ganancia, y la aplicacion de la primera ganancia y de la segunda ganancia resulta en una atenuacion del primer canal binaural no mezclado en relacion con el segundo canal binaural no mezclado. Normalmente, el primer canal binaural no mezclado y el segundo canal binaural no mezclado son indicativos de una imagen estereo que se vuelve a centrar. En algunas realizaciones, la etapa de filtrado y de mezclado IACC se configura para generar el primer canal binaural mezclado y el segundo canal binaural mezclado de manera tal que dicho primer canal binaural mezclado y dicho segundo canal binaural mezclado tengan una caractenstica IACC que coincida al menos de manera sustancial con la caractenstica IACC objetivo.
Las realizaciones tfpicas de la invencion proporcionan una estructura simple y unificada para soportar tanto el audio de entrada consistente de canales de altavoces, y el audio de entrada basado en objetos. En las realizaciones en las que se aplica la BRIR a los canales de la senal de entrada que son canales de objetos, el procesamiento de la “respuesta directa y la reflexion temprana” realizado en cada canal de objeto supone una direccion de la fuente indicada mediante metadatos proporcionados con el contenido de audio del canal de objeto. En las realizaciones en la que se aplican las BRIR a los canales de la senal de entrada que son los canales de altavoz, el procesamiento de la “respuesta directa y la reflexion temprana” realizado en cada canal de altavoz supone una direccion a la fuente que corresponde con el canal de altavoz (esto es, la direccion de una ruta directa desde la posicion supuesta del altavoz correspondiente hasta la posicion supuesta del oyente). Independientemente de si los canales de entrada son canales de objeto o de altavoz, el procesamiento de la “reverberacion tardfa” es realizado en la mezcla descendente (por ejemplo, una mezcla descendente monofonica) de los canales de entrada y no supone ninguna direccion espedfica a la fuente para el contenido de audio de la mezcla descendente.
Breve descripcion de los dibujos
La FIG. 1 es un diagrama de bloques de un sistema de virtualizacion de auriculares convencional.
La FIG. 2 es un diagrama de bloques de un sistema que incluye una realizacion del sistema de virtualizacion de auriculares inventivo.
La FIG. 3 es un diagrama de bloques de otra realizacion del sistema de virtualizacion de auriculares inventivo.
La FIG. 4 es un diagrama de bloques de una FDN de un tipo incluido en una implementacion tfpica del sistema de la Fig. 3.
La FIG. 5 es un grafico del tiempo de decaimiento de la reverberacion (Tao) en milisegundos como una funcion de la frecuencia en Hz, que puede ser alcanzado mediante una realizacion del virtualizador inventivo para la que el valor de Tao en cada una de las dos frecuencias espedficas f y fs) se establece como sigue: Tao,A = 320 ms con fA = 10 Hz, y Tao,B = 150 ms con fs = 2,4 kHz.
La FIG. 6 es un grafico de la coherencia Interaural (Coh) como una funcion de la frecuencia en Hz, que se puede alcanzar mediante una realizacion del virtualizador inventivo para el cual los parametros de control Cohmax Cohmin, y fo se establecen para tener los siguientes valores: Cohmax = 0,95, Cohmin = 0,05, y fo = 700 Hz.
La FIG. 7 es un grafico de la relacion directa a tardfa (DLR) con una distancia a la fuente de un metro, en dB, como una funcion de la frecuencia en Hz, que se puede alcanzar mediante una realizacion del virtualizador inventivo para el cual los parametros de control DLR-ik, DLRpendiente, DLRmin, HPFpendiente, y frse establecen para tener los siguientes valores DLR-ik = 18 dB, DLRpendiente = a dB/10x frecuencia, DLRmin = 18 dB, HPFpendiente = a dB/10x frecuencia, y fr = 200 Hz.
La FIG. 8 es un diagrama de bloques de otra realizacion de un subsistema de procesamiento de la reverberacion tardfa del sistema de virtualizacion de auriculares inventivo.
La FIG. 9 es un diagrama de bloques de una implementacion en el dominio del tiempo de una FDN, de un tipo incluido en algunas realizaciones del sistema inventivo.
La FIG. 9A es un diagrama de bloques de un ejemplo de una implementacion del filtro 400 de la FIG. 9.
La FIG. 9B es un diagrama de bloques de un ejemplo de una implementacion del filtro 406 de la FIG. 9.
La FIG. 10 es un diagrama de bloques de una realizacion del sistema de virtualizacion de auriculares inventivo, en el que se implementa el subsistema 221 de procesamiento de la reverberacion ta ^ a en el dominio del tiempo.
La FIG. 11 es un diagrama de bloques de una realizacion de los elementos 422, 423, y 424 de la FDN de la FIG. 9. La FIG. 11A es un grafico de la respuesta (R1) en frecuencia de una implementacion tipica del filtro 500 de la Fig. 11, la respuesta (R2) en frecuencia de un filtro 501 de implementacion tipica de la Fig. 11, y la respuesta de los filtros 500 y 501 conectados en paralelo.
La FIG. 12 es un grafico de un ejemplo de una caractenstica IACC (curva “I”) que se puede alcanzar mediante la implementacion de la FDN de la Fig. 9, y una caractenstica IACC objetivo (curva “It”).
La FIG. 13 es un grafico de una caractenstica T60 que se puede alcanzar mediante la implementacion de la FDN de la Fig. 9, mediante la implementacion apropiada de cada uno de los filtros 406, 407, 408, y 409 como un filtro atenuador.
La FIG. 14 es un grafico de una caractenstica T60 que se puede alcanzar mediante la implementacion de la FDN de la Fig. 9, mediante la implementacion apropiada de cada uno de los filtros 406, 407, 408, y 409 como una cascada de dos filtros atenuadores IIR.
Notacion y nomenclatura
A lo largo de esta descripcion, incluyendo en las reivindicaciones, la expresion realizar una operacion “en” una senal o datos (por ejemplo, filtrar, escalar, transformar, o aplicar ganancia a, la senal o los datos) se usa en un sentido amplio para denotar la realizacion de la operacion directamente en la senal o los datos, o en una version procesada de la senal o los datos (por ejemplo, en una version de la senal que experimente un filtrado preliminar o un pre procesamiento antes de realizar la operacion en sf).
A lo largo de esta descripcion incluyendo en las reivindicaciones, la expresion “sistema” se usa en un sentido amplio para denotar un servicio, sistema, o subsistema. Por ejemplo, un subsistema que implementa un virtualizador puede ser referido como un sistema virtualizador, y un sistema que incluye dicho subsistema (por ejemplo, un sistema que genera X senales de salida en respuesta a las multiples entradas, en el que el subsistema genera M de las entradas y las otras X - M entradas son recibidas desde una fuente externa) puede ser tambien referido como un sistema virtualizador (o un virtualizador).
A lo largo de esta descripcion incluyendo en las reivindicaciones, el termino “procesador” se usa en un sentido amplio para denotar un sistema o un dispositivo programable o de otra manera configurable (por ejemplo, con software o firmware) para realizar operaciones sobre los datos (por ejemplo, audio, o video u otros datos de imagen). Ejemplos de procesadores incluyen una matriz de puertas programables en campo (u otros circuitos integrados configurables o chipset), un procesador de senal digital programado y/o de otra manera configurado para realizar un procesamiento en serie sobre audio u otros datos de sonido, un procesador de proposito general programable u ordenador, y un chip microprocesador programable o chipset.
A lo largo de esta descripcion incluyendo en las reivindicaciones, la expresion “banco de filtros de analisis” se usa en un sentido amplio para denotar un sistema (por ejemplo, un subsistema) configurado para aplicar una transformacion (por ejemplo una transformacion desde el dominio del tiempo al dominio de la frecuencia) a una senal en el dominio del tiempo para generar valores (por ejemplo, componentes de frecuencia) indicativos del contenido de la senal en el dominio del tiempo, en cada una de un conjunto de bandas de frecuencias. A lo largo de esta descripcion incluyendo en las reivindicaciones, la expresion “dominio del banco de filtros” se usa en un sentido amplio para denotar el dominio de los componentes de frecuencia generados mediante una transformacion o un banco de filtros de analisis (por ejemplo, el dominio en el que dichas componentes de frecuencia se procesan). Ejemplo de los dominios del banco de filtros incluyen (pero no se limitan a) el dominio de la frecuencia, el dominio del filtro espejo en cuadratura (QMF), y el dominio del filtro espejo en cuadratura complejo htarido (HCQMF). Ejemplos de la transformada que se puede aplicar mediante un analisis del banco de filtros incluyen (pero no se limitan a) la transformada de coseno discreta (DCT), la transformada de coseno discreta modificada (MDCT), la transformada de Fourier discreta (DFT), y la transformada wavelet. Ejemplos de bancos de filtros de analisis incluyen (pero no se limitan a) los filtros espejo en cuadratura (QMF), los filtros de respuesta al impulso finita (filtros FIR), los filtros de respuesta al impulso infinita (filtros IIR), los filtros cruzados, y los filtros que tienen otras estructuras multi tasa adecuadas.
A lo largo de esta descripcion incluyendo en las reivindicaciones, el termino “metadatas” se refiere a datos separados y diferentes de los datos de audio correspondientes (el contenido de audio de un flujo de bits que tambien incluye los metadatos). Los metadatos se asocian con los datos de audio, e indican al menos una caractenstica de los datos de audio (por ejemplo, que tipo o tipos de procesamiento se han realizado ya, o se debenan realizar, en los datos de audio, o la trayectoria de un objeto indicada por los datos de audio). La asociacion de los metadatos con los datos de audio es smcrona en el tiempo. Por tanto, los metadatos actuales (lo recibidos o actualizados mas recientemente) pueden indicar que los datos de audio correspondientes tienen a la vez una caractenstica indicada y/o comprenden los resultados de un tipo indicado de procesamiento de los datos de audio.
A lo largo de esta descripcion incluyendo en las reivindicaciones, el termino “acopla” o “acoplado” se usa para indicar bien una conexion directa o indirecta. Por tanto, si un primer dispositivo se acopla con un segundo dispositivo, esa conexion puede ser a traves de una conexion directa, o a traves de una conexion indirecta a traves de otros dispositivos y conexiones.
A lo largo de esta descripcion incluyendo en las reivindicaciones, las siguientes expresiones tienen las siguientes definiciones:
altavoz o megafoma se usan de manera sinonima para denotar cualquier transductor emisor de sonido. Esta definicion incluye los altavoces implementados como multiples transductores (por ejemplo, el woofer y el tweeter); alimentacion de altavoz: una senal de audio a ser aplicada directamente a un altavoz, o una senal de audio que se ha de aplicar a un amplificador y un altavoz en serie;
canal (“o canal de audio”): una senal de audio monofonica. Dicha senal se puede reproducir normalmente de tal manera que sea equivalente a la aplicacion de la senal directamente a un altavoz en una posicion deseada o nominal. La posicion deseada puede ser estatica, como normalmente es el caso con altavoces ffsicos, o dinamica; programa de audio: un conjunto de uno o mas canales de audio (al menos un canal de altavoz y/o al menos un canal de objeto) y opcionalmente tambien los metadatos asociados (por ejemplo, los metadatos que describen una presentacion de audio espacial deseada);
canal del altavoz (o “canal de alimentacion del altavoz”): un canal de audio que se asocia con un altavoz designado (en una posicion deseada o nominal), o con una zona de altavoz designada dentro de una configuracion de altavoz definida. Se reproduce un canal de altavoz de tal manera como para ser equivalente a la aplicacion de la senal de audio directamente al altavoz designado (en la posicion deseada o nominal) o a un altavoz en la zona de altavoz designado;
canal de objeto: un canal de audio indicativo del sonido emitido por una fuente de audio (a veces referida como un “objeto” de audio). Normalmente, un canal de objeto determina una descripcion de la fuente de audio parametrica (por ejemplo, los metadatos indicativos de la descripcion de la fuente de audio parametrica se incluyen en o se proporcionan con el canal de objeto). La descripcion de la fuente puede determinar el sonido emitido por la fuente (como una funcion del tiempo), la posicion evidente (por ejemplo, las coordenadas espaciales 3D) de la fuente como funcion del tiempo, y de manera opcional al menos un parametro adicional (por ejemplo, el tamano o la anchura de la fuente evidente) que caracterizan la fuente;
programa de audio: basado en objeto: un programa de audio que comprende un conjunto de uno o mas canales de objeto (y de manera opcional tambien comprende al menos un canal de altavoz) y de manera opcional tambien los metadatos asociados (por ejemplo, los metadatos indicativos de una trayectoria de un objeto de audio que emite el sonido indicado por un canal de objeto, o de otra forma los metadatos indicativos de una presentacion de audio espacial deseada del sonido indicado por un canal de objeto, o los metadatos indicativos de una identificacion de al menos un objeto de audio que es una fuente de sonido indicada mediante un canal de objeto); y
reproducir: el proceso de convertir un programa de audio en una o mas alimentaciones de altavoz, o el proceso de convertir un programa de audio en una o mas alimentaciones de altavoz y convertir la alimentacion o alimentaciones de altavoz en sonido usando uno o mas altavoces (en el ultimo caso, el procesamiento es referido a veces en la presente memoria como procesamiento “por” el altavoz u altavoces). Un canal de audio se puede procesar de manera trivial (“en” una posicion deseada) aplicando la senal directamente a un altavoz ffsico en la posicion deseada, o uno o mas canales de audio se puede procesar usando una de entre una variedad de tecnicas de virtualizacion disenadas para ser sustancialmente equivalente (para el oyente) a dicho procesamiento trivial. En el ultimo caso, cada canal de audio se puede convertir en una o mas alimentaciones de altavoz a ser aplicadas al altavoz o altavoces en las ubicaciones conocidas, que en general son posiciones diferentes de la posicion deseada, de manera tal que el sonido emitido por el altavoz o altavoces en respuesta a la alimentacion o alimentaciones sera percibida como que se emite desde la posicion deseada. Ejemplos de dichas tecnicas de virtualizacion incluyen el procesamiento binaural a traves de los auriculares (por ejemplo, usando el procesamiento de Auriculares Dolby que simula hasta 7.1 canales de sonido envolvente para la portadora de auriculares) y la smtesis de campo de onda. La notacion de que una senal de audio multi canal es una senal de canal “x.y” o “x.y.z” denota en la presente memoria que la senal tiene “x” canales de altavoces de frecuencias completas (correspondiente a los altavoces posicionados nominalmente en el plano horizontal de los supuestos ofdos del oyente), “y” canales LFE (o de subwoofer), y opcionalmente tambien “z” canales de altavoces superiores de frecuencias completas (correspondientes a los altavoces posicionados por encima de la supuesta cabeza del oyente, por ejemplo, en o cerca del techo de la sala).
La expresion “IACC” denota en la presente memoria el coeficiente de correlacion cruzada interaural en su sentido habitual, que es una medida de la diferencia entre los tiempos de llegada de la senal de audio a los ofdos de un oyente, normalmente indicado mediante un numero en un rango desde un primer valor que indica que las senales que llegan son iguales en magnitud y exactamente fuera de fase, a un valor intermedio que indica que las senales que llegan no tienen ninguna similitud, a un valor maximo que indica que las senales que llegan son identicas teniendo la misma amplitud y fase.
Descripcion detallada de las realizaciones preferidas
Muchas realizaciones de la presente invencion son tecnologicamente posibles. Sera evidente para aquellos expertos en la tecnica a partir de la presente descripcion como implementarlas. Las realizaciones del sistema y el metodo inventivo seran descritas con referencia a las Fig. 2-14.
La FIG. 2 es un diagrama de bloques de un sistema (20) que incluye una realizacion del sistema de virtualizacion de auriculares inventivo. El sistema de virtualizacion de auriculares (a veces referido como virtualizador) se configura para aplicar una respuesta al impulso binaural de una sala (BRIR) a N canales de rango completo de frecuencias (Xi,..., Xn) de una senal de entrada de audio multi canal. Cada uno de los canales Xi,..., Xn (que pueden ser canales de altavoz o canales de objeto) corresponden a una direccion y distancia a la fuente espedfica en relacion a un supuesto oyente, y el sistema de la Fig. 2 se configura para convolucionar cada uno de dichos canales con una BRlR para la direccion y distancia a la fuente correspondiente.
El sistema 20 puede ser un decodificador que se acopla para recibir un programa de audio codificado, y que incluye un subsistema (no mostrado en la Fig. 2) acoplado y configurado para decodificar el programa mediante la recuperacion de los N canales de rango completo de frecuencias (Xi, ..., Xn) de este y para proporcionarles los elementos 12, ..., 14 y 15 del sistema de virtualizacion (que comprende los elementos 12, ..., 14, 15, 16, y 18, acoplados como se muestra). El decodificador puede incluir subsistemas adicionales, algunos de los cuales realizan funciones no relacionadas con la funcion de virtualizacion realizada por el sistema de virtualizacion, y algunas de las cuales pueden realizar funciones relacionadas con la funcion de virtualizacion. Por ejemplo, las ultimas funciones pueden incluir la extraccion de los metadatos desde el programa codificado, y la provision de los metadatos a un subsistema de control de la virtualizacion que emplea los metadatos para controlar los elementos del sistema virtualizador.
El subsistema 12 (con el subsistema 15) se configura para convolucionar el canal X1 con la BRIR1 (la BRIR para la direccion y distancia a la fuente correspondiente), el subsistema 14 (con el subsistema 15) se configura para convolucionar el canal Xn con la BRIRn (la BRIR para la direccion a la fuente correspondiente), y asf sucesivamente para cada uno de los otros N-2 subsistemas BRIR. La salida de cada uno de los subsistemas 12,..., 14, y 15 es una senal en el dominio del tiempo que incluye un canal izquierdo y un canal derecho. Ademas los elementos 16 y 18 se acoplan a las salidas de los elementos 12,..., 14, y 15. Ademas el elemento 16 se configura para combinar (mezclar) las salidas del canal izquierdo de los subsistemas BRIR, y ademas el elemento 18 se configura para combinar (mezclar) las salidas del canal derecho de los subsistemas BRIR. La salida del elemento 16 es el canal izquierdo, L, de la senal de audio binaural emitida desde el virtualizador de la Fig. 2, y la salida del elemento 18 es el canal derecho, R, de la senal de audio binaural emitida desde el virtualizador de la Fig. 2.
Las caractensticas importantes de las realizaciones tfpicas de la invencion son evidentes a partir de la comparacion de la realizacion de la Fig. 2 del virtualizador de auriculares inventivo con el virtualizador de auriculares convencional de la Fig. 1. Por propositos de comparacion, suponemos que los sistemas de la Fig. 1 y de la Fig. 2 se configuran para que, cuando se imponga la misma entrada de audio multi canal a cada uno de ellos, los sistemas apliquen una BRIR, que tenga la misma parte de respuesta directa y de reflexion temprana (esto es, la EBRIRi relevante de la Fig. 2) para cada canal de rango completo de frecuencias, Xi, de la senal de entrada (aunque no necesariamente con el mismo grado de exito). Cada BRIRi aplicada por el sistema de la Fig. 1 o de la Fig. 2 se puede descomponer en dos partes: una parte de respuesta directa y de reflexion temprana (por ejemplo, una de la partes EBIR1,..., EBRIRn aplicadas por los subsistemas 12-14 de la Fig. 2), y una parte de reverberacion tardfa. La realizacion de la Fig. 2 (y otras realizaciones tfpicas de la invencion suponen que las partes de reverberacion tardfa de las BRIR de canal unico, BRIRi, se pueden compartir a traves de las direcciones de la fuente y por tanto todos los canales, y asf aplicar la misma reverberacion tardfa (esto es, una reverberacion tardfa comun) a una mezcla descendente de todos los canales de rango completo de frecuencias de la senal de entrada. Esta mezcla descendente puede ser una mezcla descendente monofonica (mono) de todos los canales, pero de manera alternativa puede ser una mezcla descendente estereo o multi canal obtenido a partir de los canales de entrada (por ejemplo, a partir de un subconjunto de los canales de entrada).
Mas espedficamente, el subsistema 12 de la Fig. 2 se configura para convolucionar el canal X1 de la senal de entrada con la EBRIR1 (la parte de la BRIR de respuesta directa y reflexion temprana para la direccion de fuente correspondiente), el subsistema 14 se configura para convolucionar el canal Xn con la EBRIRn (la parte BRIR de respuesta directa y reflexion temprana para la direccion de fuente correspondiente), y asf sucesivamente. El subsistema 15 de reverberacion tardfa de la Fig. 2 se configura para generar una mezcla descendente mono de todos los canales de rango completo de frecuencias de la senal de entrada, y para convolucionar la mezcla descendente con la LBRIR (una reverberacion tardfa comun para todos los canales que se mezclan de manera descendente). La salida de cada subsistema BRIR del virtualizador de la Fig. 2 (cada uno de los subsistemas 12,..., 14, y 15) incluye un canal izquierdo y un canal derecho (de una senal binaural generada a partir del correspondiente canal de altavoz o mezcla descendente). Las salidas del canal izquierdo de los subsistemas BRIR se combinan (se mezclan) en el elemento 16 de adicion, y las salidas del canal derecho de los subsistemas BRIR se combinan (se mezclan) en el elemento 18 de adicion
El elemento 16 de adicion se puede implementar para simplificar la suma correspondiente a las muestras del canal binaural Izquierdo (las salidas del canal Izquierdo de los subsistemas 12,..., 14, y 15) para generar el canal Izquierdo de la senal de salida binaural, suponiendo que se implementan los ajustes de nivel y los alineamientos de tiempo apropiados en los subsistemas 12,..., 14, y 15. De manera similar, el elemento 18 de adicion se puede implementar tambien para simplificar la suma correspondiente a las muestras del canal binaural Derecho (las salidas del canal Derecho de los subsistemas 12,..., 14, y 15) para generar el canal Derecho de la senal de salida binaural, suponiendo que se implementan los ajustes de nivel y los alineamientos de tiempo apropiados en los subsistemas 12,..., 14, y 15.
El subsistema 15 de la Fig. 2 se puede implementar de cualquiera de entre una variedad de maneras, pero normalmente incluye al menos una red de retardo de retroalimentacion configurada para aplicar la reverberacion tardfa comun a una mezcla descendente monofonica de los canales de la senal de entrada impuestos a este. Normalmente, donde cada uno de los subsistemas 12,..., 14 aplica una parte de respuesta directa y reflexion temprana (EBRIRi) de una BRIR de canal unico para el canal (Xi) que este procesa, la reverberacion tardfa comun se ha generado para emular los macro atributos colectivos de las partes de reverberacion tardfa de al menos alguno (por ejemplo, todos) de las BRIR de canal unico (cuya “partes de respuesta directa y reflexion temprana” son aplicadas por los subsistemas 12,...,14). Por ejemplo, una implementacion del subsistema 15 tiene la misma estructura que el subsistema 200 de la Fig. 3, que incluye un banco de redes (203, 204,..., 205) de retardo de la retroalimentacion configurado para aplicar una reverberacion tardfa comun a una mezcla descendente monofonica de los canales de la senal de entrada impuesta a esta.
Los subsistemas 12,..., 14 de la Fig. 2 se pueden implementar de cualquiera de entre una variedad de maneras (en ya sea el dominio del tiempo o el dominio del banco de filtros), con la implementacion preferida para cualquier aplicacion espedfica dependiendo de diversas consideraciones, tales como (por ejemplo) el rendimiento, la computacion, y la memoria. En una implementacion ejemplar, cada uno de los subsistemas 12,..., 14 se configura para convolucionar el canal impuesto a este con un filtro FIR correspondiente a las respuestas directa y temprana asociadas con el canal, con la ganancia y el retardo establecidos de manera apropiada para que las salidas de los subsistemas 12,..., 14 se puedan simplificar y combinar de manera eficiente con aquellas del subsistema 15.
La FIG. 3 es un diagrama de bloques de otra realizacion del sistema de virtualizacion de auriculares inventivo. La realizacion de la Fig. 3 es similar a la de la Fig. 2, con dos senales en el dominio del tiempo (canal izquierdo y derecho) que se emiten desde un subsistema 100 de procesamiento de la respuesta directa y la reflexion temprana, y dos senales en el dominio del tiempo (canal izquierdo y derecho) que se emiten desde el subsistema 200 de procesamiento de la reverberacion tardfa. El elemento 210 de adicion se acopla a las salidas de los subsistemas 100 y 200. El elemento 210 se configura para combinar (mezclar) las salidas del canal izquierdo de los subsistemas 100 y 200 para generar el canal izquierdo, L, de la salida de la senal de audio binaural del virtualizador de la Fig. 3, y para combinar (mezclar) las salidas del canal derecho de los subsistemas 100 y 200 para generar el canal derecho, R, de la salida de la senal de audio binaural del virtualizador de la Fig. 3. El elemento 210 se puede implementar para simplificar la suma correspondiente a las muestras del canal izquierdo emitidas desde los subsistemas 100 y 200 para generar el canal izquierdo de la senal de salida binaural, y para simplificar la suma correspondiente a las muestras del canal derecho emitidas desde los subsistemas 100 y 200 para generar el canal derecho de la senal de salida binaural, suponiendo que se implementan los ajustes de nivel y alineamientos de tiempo apropiados en los subsistemas 100 y 200.
En el sistema de la Fig. 3, los canales, Xi, de la senal de audio multi canal se dirigen a, y experimentan el procesamiento en, dos rutas de procesamiento paralelas: una a traves del subsistema 100 de procesamiento de la respuesta directa y de la reflexion temprana; el otro a traves del subsistema 200 de procesamiento de la reverberacion tardfa. El sistema de la Fig. 3 se configura para aplicar una BRIRi a cada canal, Xi. Cada BRIRi se puede descomponer en dos partes: una parte de respuesta directa y reflexion temprana (aplicada por el subsistema 100), y una parte de reverberacion tardfa (aplicada por el subsistema 200). En funcionamiento, el subsistema 100 de procesamiento de la respuesta directa y la reflexion temprana genera por tanto las partes de respuesta directa y reflexion temprana de la senal de audio binaural que se emite desde el virtualizador, y el subsistema 200 de procesamiento de la reverberacion tardfa (“generador de reverberacion tardfa”) genera por tanto la parte de reverberacion tardfa de la senal de audio binaural que se emite desde el virtualizador. Las salidas de los subsistemas 100 y 200 se mezclan (mediante el subsistema 210 de adicion) para generar la senal de audio binaural, que se impone normalmente desde el subsistema 210 a un sistema de procesamiento (no mostrado) en el que se experimenta el procesamiento binaural para la reproduccion mediante los auriculares.
Normalmente, cuando se procesa y reproduce mediante un par de auriculares, una senal de audio binaural normal emitida desde el elemento 210 se percibe en el timpano del oyente como un sonido desde los “N” altavoces (donde N > 2 y N normalmente es igual a 2, 5 o 7) en cualquiera de una amplia variedad de posiciones, incluyendo las posiciones en frente de, detras de, y por encima del oyente. La reproduccion de las senales de salida generadas en el funcionamiento del sistema de la Fig. 3 pueden dar al oyente la experiencia de que el sonido viene de mas de dos (por ejemplo, cinco o siete) fuentes “envolventes”. Al menos algunas de esas fuentes son virtuales.
El subsistema 100 de respuesta directa y reflexion temprana se puede implementar de cualquier variedad de maneras (en ya sea el dominio del tiempo o el dominio del banco de filtros), con la implementacion preferida para cualquier aplicacion espedfica dependiendo de diversas consideraciones, tales como (por ejemplo) el rendimiento, la computacion, y la memoria. En una implementacion ejemplar, el subsistema 100 se configura para convolucionar cada canal impuesto a este con un filtro FIR correspondiente a las respuestas directa y temprana asociadas con el canal, con la ganancia y el retardo establecidos de manera apropiada para que la salida de los subsistemas 100 se pueda combinar de manera simple y eficiente (en el elemento 2 l0) con estos subsistemas 200.
Como se muestra en la Fig. 3, el generador 200 de reverberacion tardfa incluye un subsistema 201 de mezcla descendente, un banco de filtros 202, un banco de FDN (FDN 203, 204,..., 205), y un banco de filtros 207 de smtesis, acoplado como se muestra. El subsistema 201 se configura para mezclar de manera descendente los canales de la senal de entrada multi canal en una mezcla descendente mono, y el banco de filtros 202 de analisis se configura para aplicar una transformacion a la mezcla descendente mono para dividir la mezcla descendente mono en “K” bandas de frecuencias, donde K en un numero entero. Los valores en el dominio del banco de filtros (salida del banco de filtros 202) en cada una de las diferentes bandas de frecuencias se imponen a una diferente de las FDN 203, 204,..., 205 (hay “K” de estas FDN, cada una acoplada y configurada para aplicar una parte de reverberacion tardfa de una BRIR a los valores en el dominio del banco de filtros impuestos a este). Los valores en el dominio del banco de filtros preferiblemente son diezmados en el tiempo para reducir la complejidad computacional de las FDN.
En principio, cada canal de entrada (al subsistema 100 y al subsistema 201 de la Fig. 3) se puede procesar en su propia FDN (o banco de FDN) para simular la parte de reverberacion tardfa de su BRIR. A pesar del hecho de que la parte de reverberacion tardfa de las BRIR asociadas con las diferentes ubicaciones de la fuente de sonido son normalmente muy diferentes en terminos de diferencias cuadraticas medias en las respuestas al impulso, sus atributos estadfsticos tales como su espectro energfa media, su estructura de decaimiento de energfa, la densidad modal, la densidad de picos y similares a menudo son muy similares. Por lo tanto, la parte de reverberacion tardfa de un conjunto de BRIR normalmente es perceptualmente bastante similar a lo largo de los canales y por consiguiente, es posible usar una FDN o un banco de FDN comun (por ejemplo, las FDN 203, 204,..., 205) para simular la parte de reverberacion tardfa de dos o mas BRIR. En las realizaciones tfpicas, se emplea una FDN (o un banco de FDN) comun tal, y la entrada a esta esta comprendida de una o mas mezclas descendentes construidas a partir de los canales de entrada. En la implementacion ejemplar de la Fig. 2, la mezcla descendente es una mezcla descendente monofonica (impuesta en la salida del subsistema 201) de todos los canales de entrada.
Con referencia a la realizacion de la Fig. 2, cada una de las FDN 203, 204,..., 205, se implementa en el dominio del banco de filtros, y se acopla y configura para procesar una banda de frecuencias diferente de los valores emitidos desde el banco de filtros 202 de analisis, para generar las senales reverberadas izquierda y derecha para cada banda. Para cada banda, la senal reverberada izquierda es una secuencia de valores en el dominio del banco de filtros, y la senal reverberada derecha es otra secuencia de valores en el dominio del banco de filtros. El banco de filtros 207 de smtesis se acopla y configura para aplicar una transformada desde el dominio de la frecuencia al dominio del tiempo a las 2K secuencias de los valores en el dominio del banco de filtros (por ejemplo, los componentes de frecuencia en el dominio QMF) emitidos desde las FDN, y para hacer valer los valores transformados en una senal en el dominio del tiempo del canal izquierdo (indicativa del contenido de audio de la mezcla descendente mono a la que se aplica la reverberacion tardfa) y una senal en el dominio del tiempo del canal derecho (tambien indicativa del contenido de audio de la mezcla descendente mono a la que se aplica la reverberacion tardfa). Estas senales del canal izquierdo y el canal derecho se emiten al elemento 210.
En una implementacion tfpica cada una de las FDN 203, 204,..., 205, se implementa en el dominio QMF, y el banco de filtros 202 transforma la mezcla descendente mono del subsistema 201 en el dominio QMF (por ejemplo, en el dominio del filtro espejo en cuadratura complejo tubrido (HCQMF)), para que la senal impuesta desde el banco de filtros 202 a una salida de cada FDN 203, 204,..., 205 sea una secuencia de componentes de frecuencia en el dominio QMF. En dicha implementacion, la senal impuesta desde el banco de filtros 202 a la FDN 203 es una secuencia de componentes de frecuencia en el dominio QMF en una primera banda de frecuencias, la senal impuesta desde el banco de filtros 202 a la FDN 204 es una secuencia de componentes de frecuencia en el dominio QMF en una segunda banda de frecuencias, y la senal impuesta desde el banco de filtros 202 a la FDN 205 es una secuencia de componentes de frecuencia en el dominio QMF en una “K-esima” banda de frecuencias. Cuando el banco de filtros 202 de analisis se implementa asf, el banco de filtros 207 de smtesis se configura para aplicar una transformada desde el dominio QMF al dominio del tiempo a las 2K secuencias de salida de los componentes de frecuencia en el dominio QMF de las FDN, para generar las senales en el dominio del tiempo con reverberacion tardfa del canal izquierdo y del canal derecho que se emiten al elemento 210.
Por ejemplo, si K=3 en el sistema de la Fig. 3, entonces hay seis entradas al banco de filtros 207 de smtesis (canales izquierdo y derecho, que comprenden muestras en el dominio de la frecuencia o en el dominio QMF, emitidas desde cada FDN 203, 204, y 205) y dos salidas desde 207 (canales izquierdo y derecho, cada uno consistente de muestras en el dominio del tiempo). En este ejemplo, el banco de filtros 207 normalmente se implementana como dos bancos de filtros de smtesis: uno (al que se impondnan los tres canales izquierdos de las FDN 203, 204, y 205) configurado para generar la salida de la senal del canal izquierdo en el dominio del tiempo desde el banco de filtros 207; y un segundo (al que se impondnan los tres canales derechos de las FDN 203, 204, y 205) configurado para generar la salida de la senal del canal derecho en el dominio del tiempo desde el banco de filtros 207.
De manera opcional, el subsistema 209 de control se acopla a cada una de las FDN 203, 204,..., 205, y se configura para imponer los parametros de control a cada una de las FDN para determinar la parte de reverberacion tardfa (LBRIR) que es aplicada por el subsistema 200. Mas adelante se describen ejemplos de dichos parametros de control. Se contempla que en algunas implementaciones el subsistema 209 de control sea operable en tiempo real (por ejemplo, en respuesta a los comandos de usuario impuestos a este por un dispositivo de entrada) para implementar la variacion en tiempo real de la parte de reverberacion tardfa (LBRlR) aplicada por el subsistema 200 a la mezcla descendente monofonica de los canales de entrada.
Por ejemplo, si la senal de entrada al sistema de la Fig. 2 es una senal de 5.1 canales (cuyos canales de rango completo de frecuencias estan en el siguiente orden de canales: L, R, C, Ls, Rs), todos los canales de rango completo de frecuencias tienen la misma distancia a la fuente, y el subsistema 201 de mezcla descendente se puede implementar como la siguiente matriz de mezcla descendente, que simplemente suma los canales de rango completo de frecuencias para formar una mezcla descendente mono:
Figure imgf000013_0001
Despues del filtrado paso todo (en el elemento 301 en cada una de las FDN 203, 204,..., y 205), la mezcla descendente mono mezcla de manera ascendente los cuatros tanques de reverberacion de manera que se conserve la energfa:
Figure imgf000013_0003
De manera alternativa (como un ejemplo), podemos elegir asignar los canales del lado izquierdo a los dos primeros tanques de reverberacion, los canales del lado derecho a los dos ultimos tanques de reverberacion, y el canal central a todos los tanques de reverberacion. En este caso, el subsistema 201 de mezcla descendente se implementana para formar dos senales de mezcla descendente:
Figure imgf000013_0002
En este ejemplo, la mezcla ascendente de los tanques de reverberacion (en cada una de las FDN 203, 204,..., y 205) es:
Figure imgf000013_0004
Ya que existen dos senales de mezcla descendente, el filtrado paso todo (en el elemento 301 en cada una de las FDN 203, 204,..., y 205) necesita ser aplicado dos veces. Se introducina diversidad para las respuestas tardfas de (L, Ls ), (R, Rs) y C a pesar de que todos ellos tienen los mismos macro atributos. Cuando los canales de la senal de entrada tienen diferentes distancias a la fuente, aun sena necesario que se aplicaran los retardos y las ganancias apropiadas en el proceso de mezcla descendente.
A continuacion describiremos consideraciones para implementaciones espedficas del subsistema 201 de mezcla descendente, y de los subsistemas 100 y 200 del virtualizador de la Fig. 3.
El proceso de mezcla descendente implementado por el subsistema 201 depende de la distancia a la fuente (entre la fuente de sonido y la supuesta posicion del oyente) para cada canal a ser mezclado, y el manejo de la respuesta directa. El retardo de la respuesta directa td es:
donde d es la distancia entre la fuente de sonido y el oyente y Vs es la velocidad del sonido. Ademas, la ganancia de la respuesta directa es proporcional a 1/d. Si estas reglas se conservan en el manejo de las respuestas directas de los canales con diferentes distancias a la fuente, el subsistema 201 puede implementar una mezcla descendente directa de todos los canales, ya que el retardo y el nivel de la reverberacion tardfa generalmente es insensible a la ubicacion de la fuente.
Debido a consideraciones practicas, los virtualizadores (por ejemplo, el subsistema 100 del virtualizador de la Fig. 3) se pueden implementar para alinear en el tiempo las respuestas directas para los canales de entrada que tienen diferentes distancias a la fuente. Para mantener el retardo relativo entre la respuesta directa y la reverberacion tardfa para cada canal, un canal con distancia a la fuente d se debena retrasar en (dmax - d)/vs antes de ser mezclado de manera descendente con otros canales. Aqu dmax denota la maxima distancia posible a la fuente.
Los virtualizadores (por ejemplo el subsistema 100 del virtualizador de la Fig. 3) se pueden implementar para comprimir el rango dinamico de las respuestas directas. Por ejemplo, la respuesta directa para un canal con una distancia d a la fuente se puede escalar por un factor de d-a, donde 0 < a < 1, en lugar de d-1. Para mantener el nivel de diferencia entre la respuesta directa y la reverberacion tardfa, se puede necesitar implementar el subsistema 201 de mezcla descendente para escalar un canal con una distancia a la fuente d por un factor de d1-a antes de mezclarlo de manera descendente con los otros canales escalados.
La red de retardo de retroalimentacion de la Fig. 4 es una implementacion ejemplar de la FDN 203 (o 204, o 205) de la Fig. 3. Aunque el sistema de la Fig. 4 tiene cuatro tanques de reverberacion (cada uno incluyendo una etapa de ganancia, gi, y una lmea de retardo, z-ni, acoplada a la salida de la etapa de ganancia) las variaciones respecto al sistema (y otras FDN empleadas en las realizaciones del virtualizador inventivo) implementan mas de o menos de cuatro tanques de reverberacion.
La FDN de la Fig. 4 incluye un elemento 300 de ganancia de entrada, un filtro 301 paso todo (APF) acoplado a la salida del elemento 300, los elementos 302, 303, 304, y 305 de adicion acoplados a la salida del APF 301, y cuatro tanques de reverberacion (que comprenden cada uno un elemento de ganancia, gk (uno de los elementos 306), una lmea de retardo, z-Mk (uno de los elementos 307) acoplado a este, y un elemento de ganancia, 1/gk (uno de los elementos 309) acoplado a este, donde 0 < k-1 < 3) cada uno acoplado a la salida de uno diferente de los elementos 302, 303, 304, y 305. La matriz 308 unitaria se acopla a las salidas de las lmeas 307 de retardo, y se configura para imponer una salida de retroalimentacion a una segunda entrada de cada uno de los elementos 302, 303, 304, y 305. Las salidas de los dos elementos 309 de ganancia (del primer y segundo tanques de reverberacion) se imponen a las entradas del elemento 310 de adicion, y la salida del elemento 310 se impone a una entrada de la matriz 312 de mezcla de salida. Las salidas de los otros dos elementos 309 de ganancia (del tercer y cuarto tanques de reverberacion) se imponen a las entradas del elemento 311 de adicion, y la salida del elemento 311 se impone a la otra entrada de la matriz 312 de mezcla de salida.
El elemento 302 se configura para anadir la salida de la matriz 308 que corresponde a la lmea de retardo z-n1 (esto es, para aplicar la retroalimentacion desde la salida de la lmea de retardo z-n1 a traves de la matriz 308) a la entrada del primer tanque de reverberacion. El elemento 303 se configura para anadir la salida de la matriz 308 que corresponde a lmea de retardo z-n2 (esto es, para aplicar la retroalimentacion desde la salida de la lmea de retardo zn2 a traves de la matriz 308) a la entrada del segundo tanque de reverberacion. El elemento 304 se configura para anadir la salida de la matriz 308 que corresponde a lmea de retardo z-n3 (esto es, para aplicar la retroalimentacion desde la salida de la lmea de retardo z-n3 a traves de la matriz 308) a la entrada del tercer tanque de reverberacion. El elemento 305 se configura para anadir la salida de la matriz 308 que corresponde a lmea de retardo z-n4 (esto es, para aplicar la retroalimentacion desde la salida de la lmea de retardo z-n4 a traves de la matriz 308) a la entrada del cuarto tanque de reverberacion.
El elemento 300 de ganancia de entrada de la FDN de la Fig. 4 se acopla para recibir una banda de frecuencias de la senal de mezcla descendente monofonica transformada (una senal en el dominio del banco de filtros) que es una salida del banco de filtros 202 de analisis de la Fig.3. El elemento 300 de ganancia de entrada aplica un factor de ganancia (escalado) Gentrada, a la senal en el dominio del banco de filtros impuesta a este. De manera colectiva, los factores Gentrada de escala (implementados por todas las FDN 203, 204,..., 205 de la Fig. 3) para todas las bandas de frecuencias controlan el conformado espectral y el nivel de la reverberacion tardfa. El establecimiento de las ganancias de entrada, Gentrada, en todas las FDN del virtualizador de la Fig. 3 a menudo tiene en cuenta los siguientes objetivos:
una relacion directa a tardfa (DLR), de la BRIR aplicada a cada canal, que coincida con salas reales;
una atenuacion de baja frecuencia necesaria para mitigar el exceso de artefactos de combinacion y/o ruido de baja frecuencia; y
hacer coincidir la envolvente de los espectros de campo difuso.
Si suponemos que la respuesta directa (aplicada por el subsistema 100 de la Fig.3) proporciona una ganancia unitaria en todas las bandas de frecuencias, se puede alcanzar una DLR (relacion de energfa) espedfica ajustando Gentrada para ser:
Gsntrada = raiz cuadrada (ln(106)/(T60 * DLR)),
donde T60 es el tiempo de decaimiento de la reverberacion definido como el tiempo que la reverberacion necesita para decaer 60 dB (esta determinado mediante los retardos de reverberacion y las ganancias de reverberacion discutidas anteriormente), y “ln” denota la funcion logantmica natural.
El factor de ganancia de entrada, Gentrada, puede ser dependiente del contenido que se este procesando. Una aplicacion de dicha dependencia del contenido es asegurar que la energfa de la mezcla descendente en cada segmento de tiempo/frecuencia es igual a la suma de las energfas de las senales de canal individual que se estan mezclando de manera descendente, independientemente de cualquier correlacion que pueda existir entre las senales del canal de entrada. En este caso, el factor de ganancia de entrada puede ser (o se puede multiplicar por) un termino similar o igual a:
Figure imgf000015_0001
en el que i es un mdice sobre todas las muestras de mezcla descendente de una franja o sub banda de tiempo/frecuencia, y(i) son las muestras de la mezcla descendente para la franja, y Xi(j) es la senal de entrada (para el canal Xi) impuesta a la entrada del subsistema 201 de mezcla descendente.
En una implementacion en el dominio QMF tfpica de la FDN de la Fig. 4, la senal impuesta desde la salida del filtro 301 paso todo (APF) a las entradas de los tanques de reverberacion es una secuencia de componentes de frecuencia en el dominio QMF. Para generar una salida de la FDN de sonido mas natural, se aplica el APF 301 a la salida del elemento 300 de ganancia para introducir una diversidad de fase y aumentar la densidad de eco. De manera alternativa, o adicional, se pueden aplicar uno o mas filtros de retardo paso todo a: las entradas individuales al subsistema 201 de mezcla descendente (de la Fig. 3) antes que se mezclen en el subsistema 201 y sean procesadas por la FDN; o en las rutas de alimentacion hacia adelante o retroalimentacion del tanque de reverberacion representadas en la Fig. 4 (por ejemplo, ademas o en lugar de las lmeas z-Mk de retardo en cada tanque de reverberacion; o las salidas de la FDN (esto es, a las salidas de la matriz 312 de salida).
En la implementacion de los retardos del tanque de reverberacion, z-ni, los retardos n de reverberacion debenan ser mutuamente numeros primos para evitar que los modos de reverberacion se alineen en la misma frecuencia. La suma de los retardos debena ser suficientemente grande para proporcionar una densidad modal suficiente para evitar una salida de sonido artificial. Pero los retardos mas cortos deben ser lo suficientemente cortos para evitar el exceso de salto de tiempo entre la reverberacion tardfa y los otros componentes de la BRIR.
Normalmente, las salidas del tanque de reverberacion se distribuyen a bien el canal binaural izquierdo o derecho. Normalmente, los conjuntos de salidas del tanque de reverberacion que se distribuyen a los dos canales binaurales son iguales en numero y mutuamente exclusivos. Se desea tambien equilibrar el tiempo de los dos canales binaurales. Por lo que si la salida del tanque de reverberacion con el menor retardo va a un canal binaural, la que tenga el segundo retardo mas corto iria al otro canal.
Los retardos del tanque de reverberacion pueden ser diferentes a lo largo de las bandas de frecuencias para cambiar la densidad modal como una funcion de la frecuencia. De manera general, las bandas de frecuencias inferiores requieren una mayor densidad modal, por tanto los retardos mas largos del tanque de reverberacion. Las amplitudes de las ganancias del tanque de reverberacion, gi, y los retardos del tanque de reverberacion determinan conjuntamente el tiempo de decaimiento de la reverberacion de la FDN de la Fig. 4:
T(io = -3 Hi I logio(lgil) / Ffrm
donde Ffrm es la tasa de tramas del banco de filtros 202 (de la Fig. 3). Las fases de las ganancias del tanque de reverberacion introducen retardos fraccionales para superar los problemas relacionados con los retardos del tanque de reverberacion que se cuantifican para la cuadncula de factor de disminucion de muestras del banco de filtros. La matriz 308 de retroalimentacion unitaria proporciona una mezcla descendente uniforme entre los tanques de reverberacion en la ruta de retroalimentacion.
Para igualar los niveles de las salidas del tanque de reverberacion, los elementos 309 de ganancia aplican una ganancia de normalizacion, 1/|g) a la salida de cada tanque de reverberacion, para eliminar el impacto del nivel de las ganancias del tanque de reverberacion a la vez que mantiene los retardos fraccionales introducidos por sus fases.
La matriz 312 de mezcla descendente de salida (tambien definida como Msalida) es una matriz 2 x 2 configurada para mezclar de manera descendente los canales binaurales no mezclados (las salidas de los elementos 310 y 311, respectivamente) desde la distribucion inicial para alcanzar los canales binaurales izquierdo y derecho de salida (las senales L y R impuestas en la salida de la matriz 312) que tienen la coherencia interaural deseada. Los canales binaurales no mezclados estan cerca de ser no correlados despues de la distribucion inicial ya que no consisten de ninguna salida comun del tanque de reverberacion. Si la coherencia interaural deseada es Coh, donde |Coh| < 1, la matriz 312 de mezcla de salida se puede definir como:
Figure imgf000016_0002
Ya que los retardos del tanque de reverberaciones son diferentes, uno de los canales binaurales no mezclados guiana al otro constantemente. Si la combinacion de los retardos del tanque de reverberacion y el patron de distribucion es identico a lo largo de las bandas de frecuencias, se producina un sesgo de la imagen de sonido. Este sesgo se puede mitigar si el patron de distribucion se alterna a lo largo de las bandas de frecuencias de manera tal que los canales binaurales mezclados se grnen y arrastren el uno al otro en bandas de frecuencias alternas. Esto se puede alcanzar mediante la implementacion de la matriz 312 de mezcla de salida para tener la forma que se expone en el parrafo anterior en las bandas de frecuencias impares (esto es, en la primera banda de frecuencias (procesada por la FDN 203 de la Fig. 3), la tercera banda de frecuencias, y asf sucesivamente), y para tener la siguiente forma en las bandas de frecuencias pares (esto es, en la segunda banda de frecuencias (procesada por la FDN 204 de la Fig. 3), la cuarta banda de frecuencias, y asf sucesivamente):
Figure imgf000016_0003
donde la definicion de p sigue siendo la misma. Se debena observar que la matriz 312 se puede implementar para ser identica en las FDN para todas las bandas de frecuencias, pero el orden de canal de sus entradas se puede conmutar para alternar una de las bandas de frecuencias (por ejemplo, la salida del elemento 310 se puede imponer a la primera entrada de la matriz 312 y la salida del elemento 311 se puede imponer a la segunda entrada de la matriz 312 en las bandas de frecuencias impares, y la salida del elemento 311 se puede imponer a la primera entrada de la matriz 312 y la salida del elemento 310 se puede imponer a la segunda entrada de la matriz 312 en las bandas de frecuencias pares).
En el caso de que las bandas de frecuencias se solapen (parcialmente), la anchura del rango de frecuencias sobre el cual se alterna la forma de la matriz 312 puede aumentar (por ejemplo, se podna alternar una vez por cada dos o tres bandas consecutivas), o el valor de p en las expresiones anteriores (para la forma de la matriz 312) se puede ajustar para asegurar que la coherencia media iguala el valor deseado para compensar el solapamiento espectral de bandas de frecuencias consecutivas.
Si los tributos acusticos objetivos anteriormente definidos T60, Coh, y DLR son conocidos para la FDN para cada banda de frecuencias espedfica en el virtualizador inventivo, cada una de las FDN (cada una de las cuales puede tener la estructura mostrada en la Fig. 4) se puede configurar para alcanzar los atributos objetivos. De manera espedfica, en algunas realizaciones la ganancia de entrada (Gentrada) y las ganancias del tanque de reverberacion y los retardos (gi y ni) y los parametros de la matriz Msalida de salida para cada FDN se pueden establecer (por ejemplo, mediante valores de control impuestos al respecto por el subsistema 209 de control de la Fig. 3) para alcanzar los atributos objetivo de acuerdo con las relaciones descritas en la presente memoria. En la practica, el establecimiento de los atributos dependientes de la frecuencia mediante modelos con parametros de control simples es a menudo suficiente para generar reverberacion tardfa de sonido natural que coincida con los entornos acusticos espedficos.
A continuacion describimos un ejemplo de como se puede determinar un tiempo (T60) de decaimiento de reverberacion objetivo para la FDN para cada banda de frecuencias espedfica de una realizacion del virtualizador inventivo, determinando el tiempo (T60) de decaimiento de reverberacion objetivo para cada una de entre un pequeno numero de bandas de frecuencias. El nivel de respuesta de la FDN decae de manera exponencial en el tiempo. T60 es inversamente proporcional al factor de decaimiento, df (definido como dB de decaimiento por unidad de tiempo):
Figure imgf000016_0001
El factor de decaimiento, df, depende de la frecuencia y generalmente aumenta linealmente en comparacion con la escala de frecuencia logantmica, por lo que el tiempo de decaimiento de la reverberacion es tambien una funcion de la frecuencia que generalmente disminuye segun aumenta la frecuencia. Por lo tanto, si se determinan (por ejemplo, se establecen) los valores de T60 para los dos puntos de frecuencia, se determina la curva T60 para todas las frecuencias. Por ejemplo, si los tiempos de decaimiento de reverberacion para los puntos de frecuencia fA y fB son T60,a y T60,b, respectivamente, la curva T60 se define como:
Figure imgf000017_0001
La Figura 5 muestra un ejemplo de la curva T6o que se puede alcanzar mediante una realizacion del virtualizador inventivo para el que el valor T6o en cada una de las dos frecuencias espedficas (fA y fB) se establece: T60,a = 320 ms con fA = 10 Hz, y T60,b = 150 ms con fB = 2,4 kHz.
A continuacion describimos un ejemplo de como se puede alcanzar la coherencia Interaural objetivo (Coh) para la FDN para cada banda espedfica de frecuencias de una realizacion del virtualizador inventivo mediante el establecimiento de un pequeno numero de parametros de control. La coherencia Interaural objetivo (Coh) de la reverberacion tardfa en gran parte sigue el patron de un campo de sonido difuso. Se puede modelar mediante una funcion seno hasta una frecuencia fc de corte, y una constante por encima de la frecuencia de corte. Un modelo simple para la curva Coh es:
Figure imgf000017_0003
donde los parametros Cohmin y Cohmax satisfacen -1 < Cohmin < Cohmax < 1, y controlan el rango de la Coh. La frecuencia fc de corte optima depende del tamano de la cabeza del oyente. Una fc demasiado grande lleva a una imagen de la fuente de sonido internalizada, mientras que un valor demasiado pequeno lleva a una imagen de la fuente de sonido dispersa o dividida. La Figura 6 es un ejemplo de una curva Coh que se puede alcanzar mediante una realizacion del virtualizador inventivo para el que los parametros de control Cohmax, Cohmin, y fc se establecen para tener los siguientes valores: Cohmax = 0,95, Cohmin = 0,05, y fc = 700 Hz.
A continuacion describiremos un ejemplo de como se puede alcanzar una relacion directa a tardfa (DLR) objetivo para la FDN para cada banda espedfica de frecuencias de una realizacion del virtualizador inventivo estableciendo un pequeno numero de parametros de control. La relacion Directa a tardfa (DLR), en dB, generalmente aumenta linealmente en comparacion con la escala de frecuencias logantmicas. Se puede controlar mediante el establecimiento de la DLR-ik (DLR en dB @ 1 kHz) y la DLRpend (en dB por 10x frecuencia). Sin embargo, una DLR baja en el rango de frecuencias inferior a menudo resulta en excesivos artefactos de peinado. Para mitigar los artefactos, se anaden dos mecanismos de modificacion al control de la DLR:
una DLR minima de suelo, DLRmin (en dB); y
un filtro paso alto definido mediante una frecuencia de transicion, fj, y la pendiente de la curva de atenuacion por debajo de esta, HPFpend (en dB por 10x frecuencia).
La curva DLR resultante se define como:
Figure imgf000017_0002
se debena observar que la DLR cambia con la distancia a la fuente incluso en el mismo entorno acustico. Por tanto, tanto la DLR-ik como la DLRmin de la presente memoria son los valores para una distancia a la fuente nominal, tal como 1 metro. La Figura 7 es un ejemplo de una curva DLR para una distancia a la fuente de 1 metro alcanzada mediante una realizacion del virtualizador inventivo con los parametros de control DLR-ik, DLRpend, DLRmin, HPFpend, y f j fijados para tener los siguientes valores: DLR-ik = 18 dB, DLRpend = 6 dB/10x frecuencia, DLRmin = 18 dB, HPFpend = 6dB/10x frecuencia, y f j = 200 Hz.
Las variaciones sobre las realizaciones descritas en la presente memoria tienen una o mas de las siguientes caractensticas:
las FDN del virtualizador inventivo se implementan en el dominio del tiempo, o tienen una implementacion hforida con la captura de la respuesta al impulso basada en la FDN y el filtrado de la senal basada en la FIR.
el virtualizador inventivo se implementa para permitir la aplicacion de la compensacion de energfa como una funcion de la frecuencia durante la ejecucion del paso de mezcla descendente que genera la senal de entrada mezclada de manera descendente para el subsistema de procesamiento de la reverberacion tardfa; y
el virtualizador inventivo se implementa para permitir el control manual o automatico de los atributos de la reverberacion ta ^ a aplicada en respuesta a factores externos (esto es, en respuesta al establecimiento de los parametros de control).
Para las aplicaciones en las que la latencia del sistema es cntica y el retardo provocado por los bancos de filtros de analisis y smtesis es prohibitivo, la estructura de la FDN en el dominio del banco de filtros de las realizaciones tfpicas del virtualizador inventivo se puede trasladar al dominio del tiempo, y cada estructura FDN se puede implementar en el dominio del tiempo en una clase de realizaciones del virtualizador. En las implementaciones en el dominio del tiempo, los subsistemas que aplican el factor (Gentrada) de ganancia de entrada, las ganancias (gi) del tanque de reverberacion, y las ganancias (1/|gi|) se reemplazan por filtros con respuestas de amplitud similares para permitir controles dependientes de la frecuencia. La matriz (Msalida) de mezcla de salida se reemplaza tambien por una matriz de filtros. Diferente a los otros filtros, la respuesta de fase de esta matriz de filtros es cntica ya que la conservacion de la energfa y la coherencia interaural se pueden ver afectados por la respuesta de fase. Los retardos del tanque de reverberacion en una implementacion en el dominio del tiempo pueden necesitar variarse ligeramente (de sus valores en una implementacion en el dominio del banco de filtros) para evitar compartir el paso del banco de filtros como un factor comun. Debido a las diversas limitaciones, el rendimiento de las implementaciones en el dominio de la frecuencia de las FDN del virtualizador inventivo no coincide exactamente con las implementaciones en el dominio del banco de filtros del mismo.
Con referencia a al Fig. 8, a continuacion describiremos una implementacion hnbrida (dominio del banco de filtros y dominio del tiempo) del subsistema de procesamiento de la reverberacion tardfa inventivo del virtualizador inventivo. Esta implementacion tnbrida del subsistema de procesamiento de la reverberacion tardfa inventiva es una variacion del subsistema 200 de procesamiento de la reverberacion tardfa de la Fig. 4, que implementa una captura de la respuesta al impulso basada en una FDN y un filtrado de senal basado en un FIR.
La realizacion de la Fig. 8 incluye los elementos 201, 202, 203, 204, 205, y 207 que son identicos a los elementos numerados de manera identica del subsistema 200 de la Fig. 3. La descripcion anterior de estos elementos no se repetira con referencia a la Fig. 8. En la realizacion de la Fig. 8, el generador 211 de impulso unitario se acopla para imponer una senal de entrada (un pulso) al banco de filtros 202 de analisis. Un filtro 208 LBRIR (entrada mono, salida estereo) implementado como un filtro FIR aplica la parte de reverberacion tardfa apropiada de la BRIR (la LBRIR) a la salida mezclada de manera descendente monofonica del subsistema 201. Por tanto, los elementos 211, 202, 203, 204, 205, y 207 son una cadena lateral de procesamiento al filtro 208 LBRIR.
Siempre que el ajuste de la LBRIR de la parte de la reverberacion tardfa se ha de modificar, el generador 211 de impulsos se opera para imponer un impulso unitario al elemento 202, y la salida resultante desde el banco de filtros 207 se captura y se impone al filtro 208 (para establecer el filtro 208 para aplicar la nueva LBRIR determinada por la salida del banco de filtros 207). Para acelerar el intervalo de tiempo desde el cambio del ajuste de la LBRIR al momento en el que la nueva LBRIR tiene efecto, las muestras de la nueva LBRIR pueden empezar a reemplazar la vieja LBRIR segun estan disponibles. Para acortar la latencia inherente de las FDN, se pueden descartar los ceros iniciales de la LBRIR. Estas opciones proporcionan flexibilidad y permiten que la implementacion hnbrida proporcione una mejora del rendimiento potencial (en relacion al proporcionado por la implementacion en el dominio del banco de filtros), con el coste de un computo anadido al filtrado de la FIR.
Para las aplicaciones en las que la latencia del sistema es cntica, pero la carga computacional es menos importante, el procesador de reverberacion tardfa en el dominio del banco de filtros de la cadena lateral (por ejemplo, el implementado por los elementos 211, 202, 203, 204,..., 205, y 207 de la Fig. 8) se puede usar para capturar la respuesta al impulso FIR efectiva a aplicar por el filtro 208. El filtro 208 FIR puede implementar esta respuesta FIR capturada y aplicarla directamente a la mezcla descendente mono de los canales de entrada (durante la virtualizacion de los canales de entrada).
Los diversos parametros de la FDN y por tanto los atributos resultantes de la reverberacion tardfa se pueden sintonizar de manera manual y posteriormente cablear en una realizacion del subsistema de procesamiento de la reverberacion tardfo inventivo, por ejemplo por medio de uno o mas pre ajustes que se pueden ajustar (por ejemplo, operando el subsistema 209 de control de la Fig. 3) por el usuario del sistema. Sin embargo, dada la descripcion de alto nivel de la reverberacion tardfa, su relacion con los parametros de la FDN, y la capacidad para modificar su comportamiento, se conciben una amplia variedad de metodos para controlar las diversas realizaciones del procesador de reverberacion tardfa basado en la FDN, incluyendo (pero no limitado a ) los siguientes:
1. El usuario final puede controlar de manera manual los parametros de la FDN, por ejemplo por medio de una interfaz de usuario en un elemento de presentacion (por ejemplo, implementado por una realizacion del subsistema 209 de control de la Fig. 3) o conmutar los pre ajustes usando controles ffsicos (por ejemplo, implementados por una realizacion del subsistema 209 de control de la Fig. 3). De esta manera, el usuario final puede adaptar la simulacion de la sala segun el gusto, el entorno, o el contenido;
2. el autor del contenido de audio a ser virtualizado puede proporcionar los ajustes o los parametros deseados que se transportan con el contenido en sf, por ejemplo mediante metadatos proporcionados con la senal de audio de entrada. Dichos metadatos se pueden analizar y emplear (por ejemplo, mediante una realizacion del subsistema 209 de control de la Fig. 3) para controlar los parametros relevantes de la FDN. Los metadatos pueden ser por tanto indicativos de propiedades tales como el tiempo de reverberacion, el nivel de reverberacion, la relacion directa a reverberacion, y asf sucesivamente, y estas propiedades pueden ser variantes en el tiempo, senalizadas por metadatos variantes en el tiempo;
3. Un dispositivo de reproduccion puede ser consciente de su ubicacion o entorno, por medio de uno o mas sensores. Por ejemplo, un dispositivo movil puede usar redes GSM, el sistema de posicionamiento global (GPS), puntos de acceso WiFi conocidos, o cualquier otro servicio de ubicacion para determinar donde esta el dispositivo. Posteriormente, los datos indicativos de la ubicacion y/o el entorno se pueden emplear (por ejemplo, mediante una realizacion del subsistema 209 de control de la Fig. 3) para controlar los parametros relevantes de la FDN. Por tanto los parametros de la FDN se pueden modificar en respuesta a la ubicacion del dispositivo, por ejemplo para imitar el entorno ffsico:
4. En relacion a la ubicacion del dispositivo de reproduccion, se puede usar un servicio en la nube o un medio social para derivar los ajustes mas comunes que estan usando los consumidores en un cierto entorno. De manera adicional, los usuarios pueden subir sus ajustes actuales a un servicio en la nube o medio social, en asociacion con la ubicacion (conocida) para hacerlos disponibles a otros usuarios, o a ellos mismos; 5. Un dispositivo de reproduccion puede contener otros sensores tales como una camara, un sensor de luz, un microfono, un acelerometro, un giroscopio, para determinar la actividad del usuario y el entorno en el que el usuario esta, para optimizar los parametros de la FDN para esa actividad y/o entorno concreto;
6. Los parametros de la FDN pueden ser controlados por el contenido de audio. Los algoritmos de clasificacion de audio, o el contenido anotado de manera manual pudiendo indicar si los segmentos de audio comprenden palabras, musica, efectos de sonido, silencio y similares. Los parametros de la FDN se pueden ajustar segun dichas etiquetas. Por ejemplo, la relacion directa a reverberacion se puede reducir para un dialogo para mejorar la inteligibilidad del dialogo. De manera adicional, se puede usar analisis de video para determinar la ubicacion de un segmento de video actual, y los parametros de la FDN se pueden ajustar por consiguiente para simular mas estrechamente el entorno representado en el video; y/o
7. un sistema de reproduccion de estado solido puede usar unos ajustes de la FDN diferentes a un dispositivo movil, por ejemplo los ajustes pueden ser dependientes del dispositivo. Un sistema de estado solido presente en una sala de estar puede simular un escenario tfpico de sala de estar (bastante reverberante) con fuentes alejadas, mientras que un dispositivo movil puede reproducir contenido mas cerca del oyente. Algunas implementaciones del virtualizador inventivo incluyen las FDN (por ejemplo, una implementacion de la FDN de la Fig. 4) que se configuran para aplicar un retardo fraccional asf como un retardo de muestra entera. Por ejemplo, en una implementacion tal se conecta un elemento de retardo fraccional en cada tanque de reverberacion en serie con una lmea de retardo que aplica un retardo entero igual a un numero entero de periodos de muestra (por ejemplo, cada elemento de retardo fraccional se posiciona despues o de otra manera en serie con una de las lmeas de retardo). El retardo fraccional se puede aproximar mediante un desplazamiento de fase (multiplicacion compleja de unidad) en cada banda de frecuencias que corresponda a una fraccion del periodo de muestra: f = t/T, donde f es la fraccion de retardo, t es el retardo deseado para la banda y T es el periodo de muestra para la banda. Es bien sabido como aplicar el retardo fraccional en el contexto de aplicar reverberacion en el dominio QMF.
En una primera clase de ejemplos, que no estan cubiertos por las reivindicaciones, la invencion es un metodo de virtualizacion de auriculares para generar una senal binaural en respuesta a un conjunto de canales (por ejemplo, cada uno de los canales, o cada uno de los canales de rango completo de frecuencias) de una senal de entrada de audio multi canal, que incluye los pasos de: (a) aplicar una respuesta al impulso binaural de una sala (BRIR) a cada canal del conjunto (por ejemplo, convolucionando cada canal del conjunto con una BRIR correspondiente a dicho canal, en los subsistemas 100 y 200 de la Fig. 3, o en los subsistemas 12,..., 14, y 15 de la Fig. 2), generando de este modo senales filtradas (por ejemplo, las salidas de los subsistemas 100 y 200 de la Fig. 3, o las salidas de los subsistemas 12,..., 14, y 15 de la Fig. 2), incluyendo mediante el uso al menos una red de retardo de retroalimentacion (por ejemplo, las FDN 203, 204,..., 205 de la Fig. 3) para aplicar una reverberacion tardfa comun a una mezcla descendente (por ejemplo, una mezcla descendente monofonica) de los canales del conjunto; y (b) combinar las senales filtradas (por ejemplo, en el subsistema 210 de la Fig. 3, o el subsistema que comprende los elementos 16 y 18 de la Fig. 2) para generar la senal binaural. Normalmente, se usa un banco de FDN para aplicar la reverberacion tardfa comun a la mezcla descendente (por ejemplo con cada FDN aplicando reverberacion tardfa a una banda de frecuencias diferente). Normalmente, el paso (a) incluye le paso de aplicacion a cada canal del conjunto una parte de “repuesta directa y reflexion temprana” de una BRIR de canal unico para el canal (por ejemplo, en el subsistema 100 de la Fig. 3 o los subsistemas 12,..., 14 de la Fig. 2), y la reverberacion tardfa comun se ha generado para emular los macro atributos colectivos de las partes de reverberacion tardfa de al menos algunas (por ejemplo, todas) de las BRIR de canal unico.
En ejemplos tfpicos en la primera clase, cada una de las FDN se implementa en el dominio del filtro espejo en cuadratura complejo tubrido (HCQMF) o en el dominio del filtro espejo en cuadratura (QMF), y en algunos de dichos ejemplos, los atributos acusticos espaciales dependientes de la frecuencia de la senal binaural se controlan (por ejemplo, usando el subsistema 209 de control de la Fig. 3) controlando la configuracion de cada FDN empleada para aplicar la reverberacion ta ^a . Normalmente, se usa una mezcla descendente monofonica de los canales (por ejemplo, la mezcla descendente generada por el subsistema 201 de la Fig. 3) como la entrada de las FDN para un procesamiento binaural eficiente del contenido de audio de la senal multi canal. Normalmente, el proceso de mezcla descendente esta controlado en base a la distancia a la fuente para cada canal (esto es, la distancia entre la supuesta fuente del contenido de audio y la supuesta posicion del usuario) y depende del manejo de las respuestas directas correspondientes a las distancias a la fuente para conservar la estructura temporal y de nivel de cada BRIR (esto es, cada BRIR determinada mediante las partes de respuesta directa y reflexion temprana de una BRIR de canal unico para un canal, junto con la reverberacion tardfa para una mezcla descendente que incluye el canal). Aunque los canales a mezcla de manera descendente se pueden alinear en el tiempo y escalar de diferentes maneras durante la mezcla descendente, la relacion temporal y de nivel entre las partes de respuesta directa, de reflexion temprana, y de reverberacion tardfa comun de la BRIR para cada canal se debenan mantener. En las realizaciones en las que se usa un unico banco de FDN para generar la parte de reverberacion tardfa comun para todos los canales que se mezclan de manera descendente (para generar una mezcla descendente), es necesario que se aplique una ganancia y un retardo apropiados (a cada canal que se mezcla de manera descendente) durante la generacion de la mezcla descendente.
Las realizaciones tfpicas en esta clase incluyen un paso de ajuste (por ejemplo, usando el subsistema 209 de control de la Fig. 3) de los coeficientes de la FDN correspondientes a los atributos dependientes de la frecuencia (por ejemplo, el tiempo de decaimiento de la reverberacion, la coherencia interaural, la densidad modal y la relacion directa a tardfa). Esto permite una mejor coincidencia de los entornos acusticos y unas salidas de sonido mas naturales.
En una clase adicional de ejemplos que no estan cubiertos por las reivindicaciones, la invencion es un metodo para generar una senal binaural en respuesta a una senal de entrada de audio multi canal, aplicando una respuesta al impulso binaural de una sala (BRIR) a cada canal (por ejemplo, convolucionando cada canal con la BRIR correspondiente) de un conjunto de canales de la senal de entrada (por ejemplo, cada uno de los canales de la senal de entrada o cada uno de los canales de rango completo de frecuencias de la senal de entrada), incluyendo: procesar cada canal del conjunto en una primera ruta de procesamiento (por ejemplo, implementada por el subsistema 100 de la Fig. 3 o los subsistemas 12,..., 14 de la Fig. 2) que se configura para modelar, y aplicar a dicho cada canal, una parte de respuesta directa y reflexion temprana (por ejemplo, la EBRIR aplicada por el subsistema 12, 14, o 15 de la Fig. 2) de un BRIR de canal unico para el canal; y procesar una mezcla descendente (por ejemplo, una mezcla descendente monofonica) de los canales del conjunto en una segunda ruta de procesamiento (por ejemplo, implementada por el subsistema 200 de la Fig. 3 o el subsistema 15 de la Fig. 2), en paralelo con la primera ruta de procesamiento. La segunda ruta de procesamiento se configura para modelar, y aplicar a la mezcla descendente, una reverberacion tardfa comun (por ejemplo, la LBRIR aplicada por el subsistema 15 de la Fig. 2). Normalmente, la reverberacion tardfa comun emula los macro atributos colectivos de las partes de reverberacion tardfa de al menos algunas (por ejemplo, todas) de las BRIR de canal unico. Normalmente la segunda ruta de procesamiento incluye al menos una FDN (por ejemplo, una FDN para cada una de las multiples bandas de frecuencias). Normalmente, se usa una mezcla descendente mono como entrada a todos los tanques de reverberacion para cada FDN implementada por la segunda ruta de procesamiento. Normalmente, se proporcionan los mecanismos (por ejemplo el subsistema 209 de control de la Fig. 3) para el control sistematico de los macro atributos de cada FDN para simular mejor los entornos acusticos y producir una virtualizacion binaural mas natural del sonido. Ya que la mayona de dichos atributos son dependientes de la frecuencia, cada FDN se implementa normalmente en el dominio del filtro espejo en cuadratura complejo tubrido (HCQMF), el dominio de la frecuencia, el dominio, u en otro dominio del banco de filtros, y se usa una FDN diferente para cada banda de frecuencias. Un beneficio principal de implementar las FDN en el dominio del banco de filtros es permitir la aplicacion de reverberacion con las propiedades de la reverberacion dependientes de la frecuencia. En diversas realizaciones, las FDN se implementan en cualquiera de entre una amplia variedad de dominios de banco de filtros, usando cualquiera de una variedad de bancos de filtros, que incluye, pero no se limita a los filtros espejo en cuadratura (QMF), los filtros de respuesta al impulso finita (filtros FIR), los filtros de respuesta al impulso infinita (filtros IIR), o los filtros de cruce.
Algunos ejemplos de la primera clase (y de la segunda clase) implementan una o mas de las siguientes caractensticas:
1. una implementacion de una FDN (por ejemplo, la implementacion de la FDN de la Fig. 4) en el dominio del banco de filtros (por ejemplo, en el dominio del filtro espejo en cuadratura complejo tubrido), o una implementacion de una FDN en el dominio del banco de filtros tubridos y una implementacion del filtro de reverberacion tardfa en el dominio del tiempo (por ejemplo, la estructura descrita con referencia a la Fig. 8), que normalmente permite un ajuste independiente de los parametros y/o los ajustes de la FDN para cada banda de frecuencias (que permite un control simple y flexible de los atributos acusticos dependientes de la frecuencia), por ejemplo, proporcionando la capacidad de variar los retardos del tanque de reverberacion en diferentes bandas para cambiar la densidad modal como funcion de la frecuencia;
2. El proceso de mezcla descendente espedfico, empleado para generar (desde la senal de audio de entrada multi canal) la senal mezclada de manera descendente (por ejemplo, mezcla descendente monofonica) procesada en la segunda ruta de procesamiento, depende de la distancia a la fuente de cada canal y el manejo de la respuesta directa para mantener el nivel apropiado y la relacion de temporizacion entre las respuestas directa y tardfa;
3. Un filtro paso todo (por ejemplo, el APF 301 de la Fig. 4) se aplica en la segunda ruta de procesamiento (por ejemplo, en la entrada o la salida de un banco de FDN) para introducir diversidad de fase y aumentar la densidad de eco sin cambiar el espectro y/o el timbre de la reverberacion resultante;
4. Se implementan retardos fraccionales en la ruta de retroalimentacion de cada FDN en una estructura multi tasa, con un valor complejo, para superar los problemas relacionados con los retardos cuantificados a la cuadncula de factor de disminucion de muestras;
5. En las FDN, las salidas del tanque de reverberacion se mezclan de manera descendente de manera lineal directamente en los canales binaurales (por ejemplo, mediante la matriz 312 de la Fig. 4) usando los coeficientes de mezcla de salida que se establecen en base a la coherencia interaural deseada en cada banda de frecuencias. De manera opcional, la correspondencia de los tanques de reverberacion con los canales de salida binaural esta alternando entre bandas de frecuencias para alcanzar un retardo equilibrado entre los canales binaurales. Tambien de manera opcional, se aplican factores de normalizacion a la salidas del tanque de reverberacion para igualar sus niveles mientras que se conserva el retardo fraccional y la energfa general;
6. El tiempo de decaimiento de la reverberacion dependiente de la frecuencia se controla (por ejemplo, usando el subsistema 209 de control de la Fig. 3) estableciendo una combinacion apropiada de ganancias y retardos del tanque de reverberacion en cada banda de frecuencias para simular salas reales;
7. se aplica un factor de escala (por ejemplo, mediante los elementos 306 y 309 de la Fig. 4) por banda de frecuencias (por ejemplo, en ya sea la entrada o la salida de la ruta de procesamiento relevante), para: controlar la relacion directa a tardfa dependiente de la frecuencia (DLR) que coincide con la de una sala real (se puede usar un modelo simple para calcular el factor de escala requerido en base a la DLR y el tiempo de decaimiento de la reverberacion objetivos, por ejemplo, T60);
proporcionar una atenuacion de la baja frecuencia para mitigar el exceso de artefactos de peinado; y/o aplicar un conformado espectral de campo difuso a las respuestas de la FDN;
8. Se implementan modelos parametricos simples (por ejemplo, mediante el subsistema 209 de control de la Fig. 3) para controlar los atributos dependientes de la frecuencia esenciales de la reverberacion tardfa, tales como el tiempo de decaimiento de la reverberacion, la coherencia interaural, y/o la relacion directa a tardfa. En algunas realizaciones (por ejemplo, para las aplicaciones en las que la latencia del sistema es cntica y el retardo provocado por los bancos de filtros de analisis y de smtesis es prohibitivo), las estructuras FDN en el dominio del banco de filtros de las realizaciones tfpicas del sistema inventivo (por ejemplo, la FDN de la Fig. 4 en cada banda de frecuencias) son reemplazadas por estructuras FDN implementadas en el dominio del tiempo (por ejemplo, la FDN 220 de la Fig. 10, que se puede implementar como se muestra en la Fig. 9). En las realizaciones en el dominio del tiempo del sistema inventivo, los subsistemas de las realizaciones en el dominio del banco de filtros que aplican un factor (Gentrada) de ganancia de entrada, las ganancias (gi) del tanque de reverberacion, y las ganancias (1/|gi|) de normalizacion son reemplazadas por filtros (y/o elementos de ganancia) en el dominio del tiempo para permitir controles dependientes de la frecuencia. La matriz de mezcla descendente de salida de una implementacion en el dominio del banco de filtros (por ejemplo, la matriz 312 de mezcla de salida de la Fig. 4) es reemplazada (en las realizaciones en el dominio del tiempo tfpicas) por un conjunto de salida de filtros en el dominio del tiempo (por ejemplo, los elementos 500-503 de la implementacion de la Fig. 11 del elemento 424 de la Fig. 9). A diferencia de los otros filtros de las realizaciones en el dominio del tiempo tfpicas, la respuesta de fase de este conjunto de salida de filtros normalmente es cntica (ya que la conservacion de la energfa y la coherencia interaural se podnan ver afectados por la respuesta de fase). En algunas realizaciones en el dominio del tiempo, los retardos del tanque de reverberacion vanan (por ejemplo, vanan ligeramente) desde sus valores en una implementacion correspondiente en el dominio del banco de filtros (por ejemplo, para evitar compartir el paso del banco de filtros como un factor comun).
La FIG. 10 es un diagrama de bloques de una realizacion del sistema de virtualizacion de auriculares inventivo similar al de la Fig. 3, excepto en que los elementos 202-207 del sistema de la Fig. 3 se han reemplazado en el sistema de la Fig. 10 por una FDN 220 unica que se implementa en el dominio del tiempo (por ejemplo, la FDN 220 de la Fig. 10 se puede implementar como la fDn de la Fig. 9). En la Fig. 10, se emiten dos senales (canal izquierdo y derecho) en el dominio del tiempo desde el subsistema 100 de respuesta directa y reflexion temprana, y se emiten dos senales (canal izquierdo y derecho) en el dominio del tiempo desde el subsistema 221 de procesamiento de la reverberacion tardfa. El elemento 210 de adicion se acopla a las salidas de los subsistemas 100 y 200. El elemento 210 se configura para combinar (mezclar) las salidas del canal izquierdo de los subsistemas 100 y 221 para generar el canal izquierdo, L, de la salida de la senal de audio binaural del virtualizador de la Fig. l0, y para combinar (mezclar) las salidas del canal derecho de los subsistemas 100 y 221 para generar el canal derecho, R, de la salida de la senal de audio binaural del virtualizador de la Fig. 10. Se puede implementar el elemento 210 para simplemente sumar las muestras correspondientes del canal izquierdo emitidas desde los subsistemas 100 y 221 para generar el canal izquierdo de la senal de salida binaural, y para simplemente las muestras correspondientes del canal derecho emitidas desde los subsistemas 100 y 221 para generar el canal derecho de la senal de salida binaural, suponiendo que se implementan los ajustes de nivel y los alineamientos de tiempo apropiados en los subsistemas 100 y 221.
En el sistema de la Fig. 10, la senal de entrada de audio multi canal (que tiene los canales, Xi) se dirige hacia, y experimenta el procesamiento en, dos rutas de procesamiento paralelas: una a traves del subsistema 100 de procesamiento de la respuesta directa y la reflexion temprana; la otra a traves del subsistema 221 de procesamiento de la reverberacion tardfa. El sistema de la Fig. 10 se configura para aplicar una BRIR, a cada canal Xi. Cada BRIRi se puede descomponer en dos partes: una parte de respuesta directa y reflexion temprana (aplicada por el subsistema 100), y una parte de reverberacion tardfa (aplicada por el subsistema 221). En funcionamiento, el subsistema 100 de respuesta directa y reflexion temprana genera por tanto la respuesta directa y las partes de las reflexiones tempranas de la senal de audio binaural que se emite desde el virtualizador, y el subsistema 221 de procesamiento de la reverberacion tardfa (“generador de la reverberacion tardfa”) genera por tanto la parte de reverberacion tardfa de la senal de audio binaural que se emite desde el virtualizador. Las salidas de los subsistemas 100 y 221 son mezcladas (mediante el subsistema 210) para generar la senal de audio binaural, que se impone normalmente desde el subsistema 210 a un sistema de procesamiento (no mostrado) en el que esta experimenta un procesamiento binaural para su reproduccion por los auriculares.
El subsistema 201 de mezcla descendente (del subsistema 221 de procesamiento de la reverberacion) se configura para mezclar de manera descendente los canales de la senal de entrada multi canal en una mezcla descendente mono (que es una senal en el dominio del tiempo), y la FDN 220 se configura para aplicar la parte de la reverberacion tardfa a la mezcla descendente mono.
Con referencia a la Fig. 9, describiremos a continuacion un ejemplo de una FDN en el dominio del tiempo que se puede emplear como la FDN 220 del virtualizador de la Fig. 10. La FDN de la Fig. 9 incluye el filtro 400 de entrada que se acopla para recibir una mezcla descendente mono (por ejemplo, generada por el subsistema 201 del sistema de la Fig. 10) de todos los canales de una senal de entrada de audio multi canal. La FDN de la Fig. 9 incluye tambien un filtro 401 paso todo (APF) (que corresponde al APF 301 de la Fig. 4) acoplado a la salida del filtro 400, el elemento 401A de ganancia de entrada acoplado a la salida del filtro 401, los elementos 402, 403, 404, y 405 de adicion (que corresponden a los elementos 302, 303, 304, y 305 de la Fig. 4) acoplados a la salida del elemento 401A, y cuatro tanques de reverberacion. Cada tanque de reverberacion se acopla a la salida de uno diferente de los elementos 402, 403, 404, y 405, y comprende uno de entre los filtros 406, y 406A, 407 y 407A, 408 y 408A, y 409 y 409A de reverberacion, una de las lmeas 410, 411, 412, y 413 de retardo (correspondientes a las lmeas 307 de retardo de la Fig. 4) acoplada a este, y uno de los elementos 417, 418, 419, y 420 de ganancia acoplado a la salida de una de las lmeas de retardo.
La matriz 415 unitaria (correspondiente a la matriz 308 unitaria de la Fig. 4, y normalmente implementada para ser identica a la matriz 308) se acopla a las salidas de las lmeas 410, 411, 412, y 413 de retardo. La matriz 415 se configura para imponer una salida de retroalimentacion a una segunda entrada de cada uno de los elementos 402, 403, 404, y 405.
Cuando el retardo (n1) aplicado por la lmea 410 es menor que el aplicado (n2) por la lmea 411, el retardo aplicado por la lmea 411 es menor que el aplicado (n3) por la lmea 412, y el retardo aplicado por la lmea 412 es menor que el aplicado (n4) por la lmea 413, las salidas 417 y 419 de los elementos de ganancia (del primer y tercer banco de reverberacion) se imponen a las entradas del elemento 422 de adicion, y las salidas 418 y 420 de los elementos de ganancia (del segundo y cuarto banco de reverberacion) se imponen a las entradas del elemento 423 de adicion. La salida del elemento 422 se impone en una entrada del filtro 424 de IACC y mezclado, y la salida del elemento 423 se impone en la otra entrada de la etapa 424 de filtrado y mezcla IACC.
Ejemplos de las implementaciones de los elementos 417 - 420 de ganancia y los elementos 422, 423, y 424 de la Fig. 9 se describiran con referencia a la implementacion tfpica de los elementos 310 y 311 y la matriz 312 de mezcla de salida de la Fig. 4. La matriz 312 de mezcla de salida de la Fig. 4 (tambien identificada como Msalida) es una matriz 2 x 2 configurada para mezclar los canales binaurales no mezclados (las salidas de los elementos 310 y 311, respectivamente) desde la distribucion inicial para generar los canales de salida binaural izquierdo y derecho (las senales del ofdo izquierdo, “L”, y del ofdo derecho, “R”, impuestas en la salida de la matriz 312) que tengan la coherencia interaural deseada. Esta distribucion inicial es implementada por los elementos 310 y 311, cada uno de los cuales combina dos salidas del tanque de reverberacion para generar uno de los canales binaurales no mezclados, con la salida del tanque de reverberacion teniendo el menor retardo que se impone a la entrada del elemento 310 y la salida del tanque de reverberacion teniendo el segundo menor retardo impuesto a la entrada del elemento 311. Los elementos 422 y 423 de la realizacion de la Fig. 9 realizan el mismo tipo de distribucion inicial (sobre las senales en el dominio del tiempo impuestas a sus entradas) que los elementos 310 y 311 (en cada banda de frecuencias) de la realizacion de la Fig. 4 realizan sobre los flujos de componentes en el dominio del banco de filtros (en la banda de frecuencias relevante) impuestos en sus entradas.
Los canales binaurales no mezclados (salida de los elementos 310 y 311 de la Fig. 4, o de los elementos 422 y 423 de la Fig. 9), que estan cerca de no estar correlados ya que no estan compuestos de ninguna salida del tanque de reverberacion comun, se pueden mezclar (por la matriz 312 de la Fig. 4 o la etapa 424 de la Fig. 9) para implementar un patron de distribucion que alcance una coherencia interaural deseada para los canales de salida binaurales izquierdo y derecho. Sin embargo, ya que los retardos del tanque de reverberacion son diferentes en cada FDN (esto es, la FDN de la Fig. 9, o la FDN implementada para cada banda de frecuencias diferente en la Fig. 4), un canal binaural no mezclado (la salida de uno de los elementos 310 y 311, o 422 y 423) grna constantemente al otro canal binaural no mezclado (la salida del otro de los elementos 310 y 311, o 422 y 423).
Por tanto, en la realizacion de la Fig. 4, si la combinacion de los retardos del tanque de reverberacion y el patron de distribucion es identico a lo largo de todas las bandas de frecuencias, resultana en un sesgo de la imagen de sonido. Este sesgo se puede mitigar si al patron de distribucion se alterna a lo largo de las bandas de frecuencias de manera tal que los canales de salida binaural mezclados se grnen y arrastren el uno al otro en las bandas de frecuencias alternas. Por ejemplo, si la coherencia interaural deseada es Coh, donde |Coh| < 1, se puede implementar la matriz 312 de mezcla descendente de salida en las bandas impares para multiplicar las dos entradas impuestas a esta por una matriz que tenga la siguiente forma:
cos/? sen/?
M = d o n d e /? =arcsen(C oh)/2 ,
salida sen /_? cos /?
y se puede implementar la matriz 312 de mezcla descendente de salida en las bandas de frecuencias pares para multiplicar las dos entradas impuestas a esta por una matriz que tenga la siguiente forma:
"sen/? cos f$
M sal, alt oos/? s£n/f
donde p = arcsen(Coh)/2.
De manera alternativa, el sesgo de la imagen de sonido anteriormente indicado en los canales de salida binaurales puede ser mitigado mediante la implementacion de la matriz 312 para que sea identica en las FDN para todas las bandas de frecuencias, si el orden de las entradas del canal se conmuta para alternar algunas de las bandas de frecuencias (por ejemplo el elemento 310 de salida se puede imponer a la primera entrada de la matriz 312 y la salida del elemento 311 se puede imponer a la segunda entrada de la matriz 312 en las bandas de frecuencias impares, y la salida del elemento 311 se puede imponer a la primera entrada de la matriz 312 y la salida del elemento 310 se puede imponer a la segunda entrada de la matriz 312 en las bandas de frecuencias pares).
En la realizacion de la Fig. 9 (y otras realizaciones en el dominio del tiempo de una FDN del sistema inventivo), no es trivial alternar la distribucion basada en frecuencia para abarcar el sesgo de la imagen de sonido que de otra manera resultana cuando la salida del canal binaural no mezclado del elemento 422 grne (o retrase) constantemente la salida del canal binaural no mezclado del elemento 423. Este sesgo de la imagen de sonido es abarcado en una realizacion en el dominio del tiempo tfpica de una FDN del sistema inventivo de una manera diferente que la abarcada normalmente en la realizacion en el dominio del banco de filtros de una FDN del sistema inventivo. Espedficamente, en la realizacion de la Fig. 9 (y algunas otras realizaciones en el dominio del tiempo de una FDN del sistema inventivo), las ganancias relativas de los canales binaurales no mezclados (por ejemplo, la salida de los elementos 422 y 423 de la Fig. 9) son determinadas por los elementos de ganancia (por ejemplo, los elementos 417, 418, 419, y 420 de la Fig.9) para compensar el sesgo de la imagen de sonido que de otra manera resultana debido a la temporizacion no equilibrada observada. Mediante la implementacion de un elemento de ganancia (por ejemplo, el elemento 417) para atenuar la senal de llegada mas temprana (que se ha distribuido a un lado, por ejemplo, mediante el elemento 422) y la implementacion del elemento de ganancia (por ejemplo, el elemento 418) para aumentar la siguiente senal mas temprana (que se ha distribuido al otro lado, por ejemplo, mediante el elemento 423), la imagen estereo se vuelve a centrar. Por tanto, el tanque de reverberacion que incluye el elemento 417 de ganancia aplica una primera ganancia a la salida del elemento 417, y el tanque de reverberacion que incluye el elemento 418 de ganancia aplica una segunda ganancia (diferente de la primera ganancia) a la salida del elemento 418. para que la primera ganancia y la segunda ganancia atenuen el primer canal binaural no mezclado (salida del elemento 422) en relacion al segundo canal binaural no mezclado (salida del elemento 423).
Mas espedficamente, en una implementacion tfpica de la FDN de la Fig. 9, las cuatro lmeas 410, 411,412, y 413 de retardo tienen una longitud aumentada, con valores n1, n2, n3, y n4, respectivamente aumentados. En esta implementacion, el filtro 417 aplica una ganancia de gi. Por tanto, la salida del filtro 417 es una version retardada de la entrada de la lmea 410 de retardo a la que se ha aplicado la ganancia g1. De manera similar, el filtro 418 aplica una ganancia de g2 , el filtro 419 aplica una ganancia de g3, y el filtro 420 aplica una ganancia de g4. Por tanto, la salida del filtro 418 es una version retardada de la entrada a la lmea 411 de retardo a la que se ha aplicado una ganancia de g2, y la salida del filtro 419 es una version retardada de la entrada a la lmea 412 de retardo a la que se le ha aplicado una ganancia g3 , y la salida del filtro 420 es una version retardada de la entrada a la lmea 413 de retardo a la que se ha aplicado una ganancia g4.
En esta implementacion, la eleccion de los siguientes valores de ganancia puede resultar en un sesgo indeseable de la imagen de sonido de salida (indicado por la salida de los canales binaurales del elemento 424) a un lado (esto es, al canal de la izquierda o de la derecha): g1 = 0,5, g2 = 0,5, g3 = 0,5 y g4 = 0,5. De acuerdo con una realizacion de la invencion, los valores g1, g2 , g3, y g4 de ganancia (aplicados por los elementos 417, 418, 419, y 420, respectivamente) se eligen como sigue para centrar la imagen de sonido: g1 = 0,38, g2 = 0,6, g3 = 0,5 y g4 = 0,5. Por tanto, la imagen estereo de salida se vuelve a centrar de acuerdo con una realizacion de la invencion mediante la atenuacion de la senal de llegada mas temprana (que se ha distribuido a una lado, mediante el elemento 422 en el ejemplo) en relacion a la segunda senal de llegada mas temprana (esto es, eligiendo g1 < g3), y aumentando la segunda senal mas temprana (que se ha distribuido al otro lado, mediante el elemento 423 en el ejemplo), en relacion a la senal de llegada mas tardfa (esto es, eligiendo g4 < g2).
Las implementaciones tfpicas de la FDN en el dominio del tiempo de la Fig. 9 tienen las siguientes diferencias y similitudes a la FDN en el dominio del banco de filtros (dominio CQMF) de la Fig. 4:
la misma matriz de retroalimentacion unitaria, A (matriz 308 de la Fig. 4 y matriz 415 de la Fig. 9);
retardos del tanque de reverberacion similares, ni (esto es, los retardos en la implementacion CQMF de la Fig. 4 pueden ser n1 = 17*64Ts = 1088*Ts, n2 = 21*64Ts = 1344*Ts, n3 = 26*64Ts = 1664*Ts, y n4 = 29*64Ts = 1856*Ts, donde 1/Ts es la tasa de muestreo (1/Ts normalmente es igual a 48 KHz), en donde los retardos en la implementacion en el dominio del tiempo pueden ser: n1 = 1089*Ts, n2 = 1345*Ts, n3 = 1663*Ts, y n4 = 185*Ts. Observe que en las implementaciones Cq Mf tfpicas existe la limitacion practica de que cada retardo es un multiplo entero de la duracion de un bloque de 64 muestras (la tasa de muestreo es normalmente de 48 KHz), pero en el dominio del tiempo no existe mas flexibilidad en cuanto a la eleccion de cada retardo y por tanto mas flexibilidad en cuanto a la eleccion del retardo para cada tanque de reverberacion);
implementaciones del filtro paso todo similares (esto es, implementaciones similares del filtro 301 de la Fig. 4 y del filtro 401 de la Fig. 9). Por ejemplo, el filtro paso todo puede ser implementado poniendo en cascada varios (por ejemplo, 3) filtros paso todo. Por ejemplo, cada filtro paso todo puesto en cascada puede ser de la forma
g - z ~ ni
w donde g = 0,6. El filtro 301 paso todo de la Fig. 4 puede ser implementado mediante tres filtros paso todo puestos en cascada con unos retardos adecuados de los bloques de muestreo (por ejemplo, n1 = 64*Ts, n2 = 128*Ts, y n3 = 196*Ts), donde todos los filtros 401 paso todo de la Fig. 9 (los filtros paso todo en el dominio del tiempo) pueden ser implementados por tres filtros paso todo en cascada con retardos similares (por ejemplo, n1 = 61*Ts, n2 = 127*Ts, y n3 = 191*Ts).
En algunas implementaciones de la FDN en el dominio del tiempo de la Fig. 9, el filtro 400 de entrada se implementa para que provoque que la relacion directa a tardfa (DLR) de la BRIR sea aplicada por el sistema de la Fig. 9 para hacer coincidir (al menos de manera sustancial) una DLR objetivo, y para que la DLR de la BRIR a ser aplicada por un virtualizador que incluya el sistema de la Fig. 9 (por ejemplo, el virtualizador de la Fig. 10) pueda ser cambiada por el filtro 400 de reemplazo (o controlar una configuracion del filtro 400). Por ejemplo, en algunas realizaciones, el filtro 400 se implementa como una cascada de filtros (por ejemplo, un primer filtro 400A y un segundo filtro 400B, acoplados como se muestra en la Fig. 9A) para implementar la DLR objetivo y de manera opcional tambien para implementar el control de la DLR deseada. Por ejemplo, los filtros de la cascada son filtros IIR (por ejemplo el filtro 400A es un filtro paso alto Butterworth de primer orden (un filtro IIR) configurado para hacer coincidir las caractensticas de baja frecuencia objetivo, y el filtro 400B es un filtro IIR paso bajo configurado para hacer coincidir las caractensticas de alta frecuencia objetivo). Como otro ejemplo, los filtros de la cascada son filtros IIR y FIR (por ejemplo, el filtro 400A es un filtro paso alto Butterwoth de segundo orden (un filtro IIR) configurado para hacer coincidir las caractensticas de baja frecuencia, y el filtro 400B es un filtro FIR de orden 14 configurado para hacer coincidir las caractensticas de alta frecuencia objetivo). Normalmente, la senal directa es fija, y el filtro 400 modifica la senal tardfa para alcanzar la DLR objetivo. El filtro 401 paso todo (APF) se implementa preferiblemente para realizar la misma funcion que hace el APF 301 de la Fig. 4, principalmente para introducir diversidad de fase y aumentar la densidad de eco para generar una salida de la FDN con un sonido mas natural. El APF 401 normalmente controla la respuesta de fase mientras que el filtro 400 de entrada controla la respuesta de amplitud.
En la Fig. 9, el filtro 406 y el elemento 406A de ganancia juntos implementan un filtro de reverberacion, el filtro 407 y el elemento 407A de ganancia juntos implementan otro filtro de reverberacion, el filtro 408 y el elemento 408A de ganancia juntos implementan otro filtro de reverberacion, y el filtro 409 y el elemento 409a de ganancia juntos implementan otro filtro de reverberacion. Cada uno de los filtros 406, 407, 408, y 409 de la Fig. 9 se implementan preferiblemente como un filtro con un valor de ganancia maximo cercano a uno (ganancia unidad), y cada uno de los elementos 406A, 407A, 408A, y 409A de ganancia se configuran para aplicar una ganancia de decaimiento a la salida del correspondiente de los filtros 406, 407, 408, y 409 que hace coincidir el decaimiento deseado (despues del retardo del tanque de reverberacion relevante, n ) Espedficamente, el elemento 406A de ganancia se configura para aplicar una ganancia de decaimiento (gananciadecaimientoi) a la salida del filtro 406 para provocar que la salida del elemento 406A tenga una ganancia tal que la salida de la lmea 410 de retardo (despues del retardo del tanque de reverberacion, ni) tenga una primera ganancia de decaimiento objetivo, el elemento 407A de ganancia se configura para aplicar una ganancia de decaimiento (gananciadecaimiento2) a la salida del filtro 407 para provocar que la salida del elemento 407A tenga una ganancia tal que la salida de la lmea 411 de retardo (despues del retardo del tanque de reverberacion, n2) tenga una segunda ganancia de decaimiento objetivo, el elemento 408A de ganancia se configura para aplicar una ganancia de decaimiento (gananciadecaimiento3) a la salida del filtro 408 para provocar que la salida del elemento 408A tenga una ganancia tal que la salida de la lmea 412 de retardo (despues del retardo del tanque de reverberacion, n3) tenga una tercera ganancia de decaimiento objetivo y se configura el elemento 409A de ganancia se configura para aplicar una ganancia de decaimiento (gananciadecaimienteM) a la salida del filtro 409 para provocar que la salida del elemento 409A tenga una ganancia tal que la salida de la lmea 413 de retardo (despues del retardo del tanque de reverberacion, n4) tenga una cuarta ganancia de decaimiento objetivo.
Cada uno de los filtros 406, 407, 408, y 409, y cada uno de los elemento 406A, 407A, 408A, y 409A del sistema de la Fig. 9 se implementan de manera preferible (con cada uno de los filtros 406, 407, 408, y 409 implementados preferiblemente como un filtro IIR, por ejemplo un filtro limitador o una cascada de filtros limitadores) para alcanzar una caractenstica T60 objetivo de la BRIR a ser aplicada mediante un virtualizador que incluye el sistema de la Fig. 9 (por ejemplo el virtualizador de la Fig. 10), donde “T60” denota el tiempo (T60) de decaimiento de reverberacion. Por ejemplo, en algunas realizaciones cada uno de los filtros 406, 407, 408, y 409 se implementan como un filtro limitador (por ejemplo, un filtro limitador que tenga Q = 0,3 y una frecuencia de corte de 500 Hz, , para alcanzar la caractenstica T60 mostrada en la Fig. 13, en la que T60 tiene unidades de segundos) o como una cascada de dos filtros atenuadores IIR (por ejemplo, que tengan frecuencias de corte de 100 Hz y 1000Hz, para alcanzar la caractenstica T60 mostrada en la Fig. 14, en la que T60 tiene unidades de segundos). La forma de cada uno de los filtros atenuadores se determina para hacer que coincida la curva de cambio deseada desde la baja frecuencia a la alta frecuencia. Cuando el filtro 406 se implementa como un filtro atenuador (o una cascada de filtros atenuadores), el filtro de reverberacion que comprende el filtro 406 y el elemento 406A de ganancia es tambien un filtro atenuador (o una cascada de filtros atenuadores). De la misma manera, cuando cada uno de los filtros 407, 408, y 409 se implementa como un filtro atenuador (o una cascada de filtros atenuadores), cada filtro de reverberacion que comprende el filtro 407 (o 408 o 409) y el correspondiente elemento de ganancia (407A, 408A, o 409A) es tambien un filtro atenuador (o una cascada de filtros atenuadores).
La Fig. 9B es un ejemplo de filtro 406 implementado como una cascada de un primer filtro 406B atenuador y un segundo filtro 406C atenuador, acoplados como se muestra en la Fig. 9B. Cada uno de los filtros 407, 408, y 409 se puede implementar como la implementacion de la Fig. 9B del filtro 406.
En algunas realizaciones, las ganancias de decaimiento (gananciadecaimientoi) aplicada por los elementos 406A, 407A, 408A, y 409A se determina como sigue:
ganandadecaimiento =
donde i es el mdice del tanque de reverberacion (esto es, el elemento 406A aplica la gananciadecaimiento1, el elemento 407A aplica la gananciadecaimiento2, y asf sucesivamente), ni es el retardo del i-esimo tanque de reverberacion (por ejemplo, n1 es el retardo aplicado por la lmea 410 de retardo). Fs es la tasa de muestreo, T es el tiempo (T60) de decaimiento de reverberacion deseado a una predeterminada baja frecuencia.
La Fig. 11 es un diagrama de bloques de una realizacion de los siguientes elementos de la Fig. 9: los elementos 422 y 423, y la etapa 424 de filtrado y de mezcla IACC (coeficiente de correlacion cruzada interaural). El elemento 422 se acopla y configura para sumar las salidas de los filtros 417 y 419 (de la Fig. 9) y para imponer la senal sumada a la entrada del filtro 500 atenuador de frecuencias bajas, y el elemento 422 se acopla y configura para sumar las salidas de los filtros 418 y 420 (de la Fig. 9) y para imponer la senal sumada a la entrada del filtro 501 paso alto. Las salidas de los filtros 500 y 501 se suman (se mezclan) en el elemento 502 para generar la senal de salida del ofdo izquierdo binaural, y las salidas de los filtros 500 y 501 se mezclan en el elemento 502 (la salida del filtro 500 se sustrae de la salida del filtro 501) en el elemento 502 para para generar la senal de salida del ofdo derecho binaural. Los elementos 502 y 503 mezclan (suman y restan) las salidas filtradas de los filtros 500 y 501 para generar las senales de salida binaurales que alcancen (dentro de una precision aceptable) la caractenstica IACC objetivo. En la realizacion de la Fig. 11, cada uno de entre el filtro 500 atenuador de frecuencias bajas y el filtro 501 paso alto se implementa normalmente como un filtro IIR de primer orden. En un ejemplo en el que los filtros 500 y 501 tienen dicha implementacion, la realizacion de la Fig. 11 puede alcanzar la caractenstica IACC ejemplar senalada como curva “I” en la Fig. 12, que es una buena coincidencia con la caractenstica IACC objetivo senalada como “It” en la Fig. 12.
La Fig. 11A es una grafica de la respuesta (R1) en frecuencia de una implementacion tipica del filtro 500 de la Fig. 11, la respuesta (R2) en frecuencia de una implementacion tipica del filtro 501 de la Fig. 11, y la respuesta de los filtros 500 y 501 conectados en paralelo. Es evidente a partir de la FIG. 11A, que la respuesta combinada es de manera deseable plana a lo largo del rango 100 Hz - 10.000 Hz.
Por tanto, en una clase de ejemplos que no estan cubiertos por las reivindicaciones, la invencion es un sistema (por ejemplo, el de la Fig. 10) y el metodo para generar una senal binaural (por ejemplo, la salida del elemento 210 de la Fig. 10) en respuesta a un conjunto de canales de una senal de entrada de audio multi canal, que incluye mediante la aplicacion de una respuesta al impulso binaural de una sala (BRIR) a cada canal del conjunto, generando de este modo senales filtradas, incluyendo el uso de una red de retardo de retroalimentacion unica (FDN) para aplicar una reverberacion tardfa comun a una mezcla descendente de los canales del conjunto; y combinando las senales filtradas para generar la senal binaural. La FDN se implementa en el dominio del tiempo. En algunos de dichos ejemplos, la FDN en el dominio del tiempo (por ejemplo, la FDN 220 de la Fig. 10, configurada como en la Fig. 9) incluye:
un filtro de entrada (por ejemplo, el filtro 400 de la Fig. 9) que tiene una entrada acoplada para recibir la mezcla descendente, en donde el filtro de entrada se configura para generar una primera mezcla descendente filtrada en respuesta a la mezcla descendente;
un filtro paso todo (por ejemplo, el filtro 401 de la Fig. 9) que tiene una entrada acoplada para recibir la mezcla descendente, en donde el filtro de entrada se configura para generar una primera mezcla descendente filtrada en respuesta a la mezcla descendente;
un subsistema de aplicacion de la reverberacion (por ejemplo, todos los elementos de la Fig. 9 distintos de los elementos 400, 401, y 424), que tienen una primera salida (por ejemplo, la salida del elemento 422) y una segunda salida (por ejemplo, la salida del elemento 423), en donde el subsistema de aplicacion de la reverberacion comprende un conjunto de tanques de reverberacion, teniendo cada uno de los tanques de reverberacion un retardo diferente, y en donde el subsistema de aplicacion de la reverberacion se acopla y configura para generar un primer canal binaural no mezclado y un segundo canal binaural no mezclado en respuesta a la segunda mezcla descendente filtrada, para imponer el primer canal binaural no mezclado en la primera salida, y para imponer el segundo canal binaural no mezclado en la segunda salida; y
una etapa de filtrado y de mezcla de coeficiente de correlacion cruzada interaural (IACC) (por ejemplo la etapa 424 de la Fig. 9, que se puede implementar como los elementos 500, 501, 502, y 503 de la Fig. 11) acoplada al subsistema de aplicacion de la reverberacion y configurada para generar un primer canal binaural no mezclado y un segundo canal binaural no mezclado en respuesta al primer canal binaural no mezclado y al segundo canal binaural no mezclado.
El filtro de entrada se puede implementar para generar (preferiblemente como una cascada de dos filtros configurados para generar) la primera mezcla descendente filtrada de manera tal que cada BRIR tiene una relacion directa a tardfa (DLR) que coincide, al menos de manera sustancial, con una DLR objetivo.
Cada tanque de reverberacion se puede configurar para generar la senal retardada, y puede incluir un filtro de reverberacion (por ejemplo, implementado como un filtro atenuador o una cascada de filtros atenuadores) acoplado y configurado para aplicar una ganancia a una senal que se propaga en dicho cada uno de los tanques de reverberacion, para provocar que la senal retardada tenga una ganancia que coincida, al menos de manera sustancial, con la ganancia de decaimiento objetivo para dicha senal retardada, en un esfuerzo para alcanzar una caractenstica de tiempo de decaimiento de reverberacion objetivo (por ejemplo la caractenstica T60) de cada BRIR. En algunas realizaciones, el primer canal binaural no mezclado grna al segundo canal binaural no mezclado, los tanques de reverberacion incluyen un primer tanque de reverberacion (por ejemplo, el tanque de reverberacion de la Fig. 9 que incluye la lmea 410 de retardo) configurado para generar una primera senal retardada que tiene el menor retardo y un segundo tanque de reverberacion (por ejemplo, el tanque de reverberacion de la Fig. 9 que incluye la lmea 411 de retardo) configurado para generar una segunda senal retardada que tiene el segundo menor retardo, en donde el primer tanque de reverberacion se configura para aplicar una primera ganancia a la primera senal retardada, el segundo tanque de reverberacion se configura para aplicar una segunda ganancia a la segunda senal retardada, la segunda ganancia es diferente de la primera ganancia, la segunda ganancia es diferente de la primera ganancia, y la aplicacion de la primera ganancia y de la segunda ganancia resulta en la atenuacion del primer canal binaural no mezclado en relacion al segundo canal binaural no mezclado. Normalmente, el primer canal binaural no mezclado y el segundo canal binaural no mezclado son indicativos de una imagen en estereo que se vuelve a centrar. En algunas realizaciones, la etapa de filtrado y de mezcla IACC se configura para generar el primer canal binaural no mezclado y el segundo canal binaural no mezclado de manera tal que dicho primer canal binaural no mezclado y dicho segundo canal binaural no mezclado tienen una caractenstica IACC que al menos de manera sustancial coincide con la caractenstica IACC objetivo.
Los aspectos de la invencion incluyen los metodos y sistemas (por ejemplo, el sistema 20 de la Fig. 2, o el sistema de la Fig. 3, o de la Fig.10) que realizan (o se configuran para realizar, o soportar la realizacion de) la virtualizacion binaural de las senales de audio (por ejemplo, las senales de audio cuyo contenido de audio consiste de canales de altavoces, y/o senales de audio basadas en objetos).
En algunas realizaciones, el virtualizador inventivo es o incluye un procesador de proposito general acoplado para recibir o generar los datos de entrada indicativos de la senal de audio multi canal, y programados con software (o firmware) y/o de otra manera configurados (por ejemplo, en respuesta a los datos de control) para realizar cualquiera de entre una variedad de operaciones en los datos de entrada, incluyendo una realizacion del metodo inventivo. Dicho procesador de proposito general se acoplana normalmente a un dispositivo de entrada (por ejemplo, un raton y/o un teclado), una memoria, y un dispositivo de presentacion. Por ejemplo, el sistema de la Fig. 3 (o el sistema 20 de la Fig. 2, o el sistema virtualizador que comprende los elementos 12,..., 14, 15, 16 y 18 del sistema 20) se podna implementar en un procesador de proposito general, siendo las entradas datos de audio indicativos de N canales de la senal de entrada de audio, y siendo las salidas los datos de audio indicativos de los dos canales de una senal de audio binaural. Un conversor digital a analogico convencional (DAC) podna operar sobre los datos de salida para generar las versiones analogas de los canales de la senal binaural para su reproduccion por los altavoces (por ejemplo, un par de auriculares).
Aunque las realizaciones espedficas de las presente invencion y aplicaciones de la invencion se han descrito en la presente memoria, sera evidente para aquellos de habilidad ordinaria en la tecnica que son posibles muchas variaciones sobre las realizaciones y aplicaciones descritas en la presente memoria sin salir del alcance de la invencion descrita y reivindicada en la presente memoria.

Claims (12)

REIVINDICACIONES
1. Un metodo para generar una senal binaural en respuesta a un conjunto de canales de una senal de entrada de audio multi canal, que incluye los pasos de:
(a) aplicar una respuesta al impulso binaural de una sala, BRIR, a cada canal del conjunto, generando de este modo las senales filtradas, que incluye el uso de al menos una red (203, 204, 205, 220) de retardo de retroalimentacion para aplicar una reverberacion tardfa comun a una mezcla descendente de los canales del conjunto; y
(b) combinar las senales filtradas para generar la senal binaural,
en donde en el paso (a), la parte de reverberacion tardfa comun emula los macro atributos colectivos de las partes de reverberacion tardfas de al menos algunas BRIR de canal unico.
incluyendo el metodo tambien un paso de imposicion de valores de control a la red (203, 204, 205) de retardo de retroalimentacion para establecer al menos una ganancia de entrada, unas ganancias del tanque de reverberacion, unos retardos del tanque de reverberacion, o unos parametros de la matriz de salida que establezcan la coherencia interaural para dicha red (203, 204, 205) de retardo de retroalimentacion, en donde los valores de control se imponen de tal manera que la parte de reverberacion tardfa comun emula los atributos macro colectivos de las partes de reverberacion tardfas de dichas al menos algunas BRIR de canal unico.
2. El metodo de la reivindicacion 1, en donde el paso (a) incluye un paso de generacion de la mezcla descendente de una manera que depende de la distancia a la fuente para cada uno de los canales que se mezcla de manera descendente para generar dicha mezcla descendente, y sobre el manejo de la parte de respuesta directa de la BRIR para dicho cada uno de los canales que se mezclan de manera descendente para generar dicha mezcla descendente, para mantener el nivel apropiado y la relacion de temporizacion entre la parte de respuesta directa de dicha BRIR y la reverberacion tardfa comun.
3. Un sistema configurado para generar una senal binaural en respuesta a un conjunto de canales de una senal de entrada de audio multicanal, incluyendo dicho sistema:
un subsistema de filtrado acoplado y configurado para aplicar una respuesta al impulso binaural de una sala, BRIR, a cada canal del conjunto, generando de este modo las senales filtradas, incluyendo generar una mezcla descendente de los canales del conjunto y procesar dicha mezcla descendente en al menos una red (203, 204, 205, 220) de retardo de retroalimentacion para aplicar una reverberacion tardfa comun a dicha mezcla descendente; y un subsistema (210) de combinacion de senal, acoplado al subsistema de filtrado, y configurado para generar la senal binaural mediante la combinacion de las senales filtradas,
en donde la reverberacion tardfa comun emula los atributos macro colectivos de las partes de reverberacion tardfas de al menos una BRIR de canal unico,
incluyendo el sistema tambien un subsistema (209) de control acoplado al subsistema de filtrado y configurado para imponer los valores de control a la red (203, 204, 205) de retardo de retroalimentacion para establecer al menos uno de entre la ganancia de entrada, las ganancias del tanque de reverberacion, los retardos del tanque de reverberacion, o los parametros de la matriz de salida que establezcan la coherencia interaural para dicha red (203, 204, 205) de retardo de retroalimentacion, en donde los valores de control se imponen de tal manera que la parte de reverberacion tardfa comun emula los atributos macro colectivos de las partes de reverberacion tardfas de dichas al menos algunas BRIR de canal unico.
4. El sistema de la reivindicacion 3, en donde el subsistema de filtrado se configura para aplicar a cada canal del conjunto una parte de respuesta directa y de reverberacion temprana de la BRIR de canal unico para el canal.
5. El sistema de la reivindicacion 3 o de la reivindicacion 4,
en donde el subsistema de filtrado incluye un banco de redes (203, 204, 205) de retardo de retroalimentacion configurado para aplicar la reverberacion tardfa comun a la mezcla descendente, con cada red (203, 204, 205) de retardo de retroalimentacion del banco aplicando la reverberacion tardfa a una banda de frecuencias distinta de la mezcla descendente.
6. El sistema de cualquiera de las reivindicaciones 3 - 5, en donde la mezcla descendente de los canales del conjunto es una mezcla descendente monofonica de dichos canales del conjunto.
7. El sistema de la reivindicacion 3 o de la reivindicacion 4,
en donde la red (220) de retardo de retroalimentacion se implementa en el dominio del tiempo, y el subsistema de filtrado se configura para procesar la mezcla descendente en el dominio del tiempo en dicha red (220) de retardo de retroalimentacion para aplicar la reverberacion tardfa comun a dicha mezcla descendente.
8. El sistema de la reivindicacion 7, en donde la red (220) de retardo de retroalimentacion incluye:
un filtro (400) de entrada que tiene una entrada acoplada para recibir la mezcla descendente, en donde el filtro (400) de entrada se configura para generar una primera mezcla descendente filtrada en respuesta a la mezcla descendente;
un filtro (401) paso todo, acoplado y configurado para generar una segunda mezcla descendente en respuesta a la primera mezcla descendente filtrada;
un subsistema de aplicacion de la reverberacion, que tiene una primera salida y una segunda salida, en donde el subsistema de aplicacion de la reverberacion comprende el conjunto de tanques de reverberacion, teniendo cada uno de los tanques de reverberacion un retardo diferente, y en donde el subsistema de aplicacion de la reverberacion se acopla y configura para generar un primer canal binaural no mezclado y un segundo canal binaural no mezclado en la primera salida, y para imponer el segundo canal binaural no mezclado en la segunda salida; y una etapa (424) de filtrado y mezcla de coeficiente de correlacion cruzada interaural, IACC, acoplada al subsistema de aplicacion de la reverberacion y configurado para genera un primer canal binaural mezclado y un segundo canal binaural mezclado en respuesta al primer canal binaural no mezclado y al segundo canal binaural no mezclado.
9. El sistema de la reivindicacion 8, en donde el filtro (400) de entrada se implementa como una cascada de dos filtros configurados para generar la primera mezcla descendente filtrada de manera tal que cada BRIR tenga una relacion directa a tardfa, DLR, que coincida, con la DLR objetivo.
10. El sistema de la reivindicacion 8 o la reivindicacion 9,
en donde cada uno de los tanques de reverberacion se configura para generar una senal retardada, e incluye un filtro (406, 406A, 407, 407A, 408, 408A, 409, 409A) de reverberacion acoplado y configurado para aplicar una ganancia a una senal que se propaga en dicho cada uno de los tanques de reverberacion, para provocar que la senal retardada tenga una ganancia que coincida con una ganancia de decaimiento objetivo para dicha senal retardada, para alcanzar un tiempo de decaimiento de reverberacion objetivo caractenstico de cada una de dichas BRIR.
11. El sistema de cualquiera de las reivindicaciones 8 - 10,
en donde el primer canal binaural no mezclado grna al segundo canal binaural no mezclado, los tanques de reverberacion incluyen un primer tanque de reverberacion configurado para generar una primera senal retardada que tiene el menor retardo y una segundo tanque de reverberacion configurado para generar una segunda senal retardada que tenga el segundo menor retardo, en donde el primer tanque de reverberacion se configura para aplicar una primera ganancia a la primera senal retardada, el segundo tanque de reverberacion se configura para aplicar una segunda ganancia a la segunda senal retardada, la segunda ganancia es diferente que la primera ganancia, y la aplicacion de la primera ganancia y de la segunda ganancia resulta en la atenuacion del primer canal binaural no mezclado en relacion al segundo canal binaural no mezclado.
12. El sistema de cualquiera de las reivindicaciones 8 -11,
en donde el primer canal binaural mezclado y el segundo canal binaural mezclado son indicativos de una imagen estereo que se vuelve a centrar; y/o
en donde la etapa (424) de filtrado y mezclado IACC se configura para generar el primer canal binaural mezclado y el segundo canal binaural mezclado de manera tal que dicho primer canal binaural mezclado y dicho canal binaural mezclado tengan una caractenstica IACC que coincida con la caractenstica IACC objetivo.
ES14824318T 2014-01-03 2014-12-18 Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación Active ES2709248T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201461923579P 2014-01-03 2014-01-03
CN201410178258.0A CN104768121A (zh) 2014-01-03 2014-04-29 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US201461988617P 2014-05-05 2014-05-05
PCT/US2014/071100 WO2015102920A1 (en) 2014-01-03 2014-12-18 Generating binaural audio in response to multi-channel audio using at least one feedback delay network

Publications (1)

Publication Number Publication Date
ES2709248T3 true ES2709248T3 (es) 2019-04-15

Family

ID=56623335

Family Applications (2)

Application Number Title Priority Date Filing Date
ES18174560T Active ES2837864T3 (es) 2014-01-03 2014-12-18 Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
ES14824318T Active ES2709248T3 (es) 2014-01-03 2014-12-18 Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES18174560T Active ES2837864T3 (es) 2014-01-03 2014-12-18 Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación

Country Status (8)

Country Link
US (3) US10425763B2 (es)
JP (3) JP6607895B2 (es)
KR (1) KR102235413B1 (es)
CN (5) CN107770718B (es)
ES (2) ES2837864T3 (es)
HK (2) HK1251757A1 (es)
MX (1) MX365162B (es)
RU (1) RU2747713C2 (es)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK179034B1 (en) * 2016-06-12 2017-09-04 Apple Inc Devices, methods, and graphical user interfaces for dynamically adjusting presentation of audio outputs
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10327090B2 (en) * 2016-09-13 2019-06-18 Lg Electronics Inc. Distance rendering method for audio signal and apparatus for outputting audio signal using same
WO2018095545A1 (en) * 2016-11-28 2018-05-31 Huawei Technologies Duesseldorf Gmbh Apparatus and method for unwrapping phase differences
WO2018106572A1 (en) * 2016-12-05 2018-06-14 Med-El Elektromedizinische Geraete Gmbh Interaural coherence based cochlear stimulation using adapted envelope processing
CN109286889A (zh) * 2017-07-21 2019-01-29 华为技术有限公司 一种音频处理方法及装置、终端设备
CN107566064B (zh) * 2017-08-07 2019-11-08 合肥工业大学 一种巴特沃兹复衰落瑞利信道仿真方法
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US10872602B2 (en) 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
WO2020076377A2 (en) * 2018-06-12 2020-04-16 Magic Leap, Inc. Low-frequency interchannel coherence control
US11272310B2 (en) 2018-08-29 2022-03-08 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation
GB2577905A (en) * 2018-10-10 2020-04-15 Nokia Technologies Oy Processing audio signals
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
WO2021086624A1 (en) 2019-10-29 2021-05-06 Qsinx Management Llc Audio encoding with compressed ambience
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
CN112770227B (zh) * 2020-12-30 2022-04-29 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
EP4317212A1 (en) 2021-03-31 2024-02-07 Cosmo Oil Lubricants Co., Ltd. Curable composition, and cured product

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP4627880B2 (ja) 1997-09-16 2011-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
AU9056298A (en) * 1997-09-16 1999-04-05 Lake Dsp Pty Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
KR100598003B1 (ko) * 1998-03-25 2006-07-06 레이크 테크놀로지 리미티드 오디오 신호 처리 방법 및 장치
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
FR2832337B1 (fr) * 2001-11-22 2004-01-23 Commissariat Energie Atomique Dispositif et procede de soudage hybride
US8054980B2 (en) * 2003-09-05 2011-11-08 Stmicroelectronics Asia Pacific Pte, Ltd. Apparatus and method for rendering audio information to virtualize speakers in an audio system
US20050063551A1 (en) * 2003-09-18 2005-03-24 Yiou-Wen Cheng Multi-channel surround sound expansion method
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
JP2008513845A (ja) * 2004-09-23 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム及び方法、プログラム要素並びにコンピュータ読み取り可能媒体
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
FR2899424A1 (fr) 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
JP2007336080A (ja) 2006-06-13 2007-12-27 Clarion Co Ltd 音響補正装置
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2009046909A1 (en) * 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8885834B2 (en) * 2008-03-07 2014-11-11 Sennheiser Electronic Gmbh & Co. Kg Methods and devices for reproducing surround audio signals
CA2820208C (en) * 2008-07-31 2015-10-27 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Signal generation for binaural signals
CN101661746B (zh) 2008-08-29 2013-08-21 三星电子株式会社 数字音频混响器和数字音频混响方法
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
AU2008362920B2 (en) 2008-10-14 2013-09-19 Widex A/S Method of rendering binaural stereo in a hearing aid system and a hearing aid system
US20100119075A1 (en) * 2008-11-10 2010-05-13 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
CN102257562B (zh) * 2008-12-19 2013-09-11 杜比国际公司 用空间线索参数对多通道音频信号应用混响的方法和装置
MX2012004643A (es) * 2009-10-21 2012-05-29 Fraunhofer Ges Forschung Reverberador y metodo para reverberar una señal de audio.
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
JP2014506416A (ja) 2010-12-22 2014-03-13 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
WO2012093352A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
WO2013111038A1 (en) 2012-01-24 2013-08-01 Koninklijke Philips N.V. Generation of a binaural signal
US8908875B2 (en) 2012-02-02 2014-12-09 King's College London Electronic device with digital reverberator and method
KR101174111B1 (ko) * 2012-02-16 2012-09-03 래드손(주) 오디오 신호의 디지털 노이즈를 저감시키는 장치 및 방법
JP5930900B2 (ja) * 2012-07-24 2016-06-08 日東電工株式会社 導電性フィルムロールの製造方法
JP6433918B2 (ja) 2013-01-17 2018-12-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
US9060052B2 (en) * 2013-03-13 2015-06-16 Accusonus S.A. Single channel, binaural and multi-channel dereverberation

Also Published As

Publication number Publication date
RU2017138558A3 (es) 2021-03-11
CN105874820B (zh) 2017-12-12
JP6607895B2 (ja) 2019-11-20
RU2747713C2 (ru) 2021-05-13
RU2017138558A (ru) 2019-02-11
US10771914B2 (en) 2020-09-08
JP2018014749A (ja) 2018-01-25
CN105874820A8 (zh) 2016-11-02
HK1251757A1 (zh) 2019-02-01
US20160345116A1 (en) 2016-11-24
ES2837864T3 (es) 2021-07-01
JP2020025309A (ja) 2020-02-13
CN107750042B (zh) 2019-12-13
CN107770717B (zh) 2019-12-13
CN107770718A (zh) 2018-03-06
KR102235413B1 (ko) 2021-04-05
US10425763B2 (en) 2019-09-24
CN107770717A (zh) 2018-03-06
JP2021061631A (ja) 2021-04-15
JP7139409B2 (ja) 2022-09-20
CN107770718B (zh) 2020-01-17
CN105874820A (zh) 2016-08-17
US20200245094A1 (en) 2020-07-30
US10555109B2 (en) 2020-02-04
CN107835483A (zh) 2018-03-23
HK1252865A1 (zh) 2019-06-06
US20190373397A1 (en) 2019-12-05
CN107750042A (zh) 2018-03-02
MX365162B (es) 2019-05-24
KR20200075888A (ko) 2020-06-26
CN107835483B (zh) 2020-07-28
JP6818841B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
ES2709248T3 (es) Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
ES2961396T3 (es) Generación de audio binaural en respuesta a audio multicanal que usa al menos una red de retardo de retroalimentación
EP3090573B1 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network