ES2271654T3 - Conversion espacial de canales de audio. - Google Patents

Conversion espacial de canales de audio. Download PDF

Info

Publication number
ES2271654T3
ES2271654T3 ES03770229T ES03770229T ES2271654T3 ES 2271654 T3 ES2271654 T3 ES 2271654T3 ES 03770229 T ES03770229 T ES 03770229T ES 03770229 T ES03770229 T ES 03770229T ES 2271654 T3 ES2271654 T3 ES 2271654T3
Authority
ES
Spain
Prior art keywords
variable
input
signals
process according
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03770229T
Other languages
English (en)
Inventor
Mark Franklin Davis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2271654T3 publication Critical patent/ES2271654T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Abstract

Un proceso para convertir M señales de entrada de audio, cada una asociada con una dirección, en N señales de salida de audio, cada una asociada con una dirección, donde N es mayor que M, y M es dos o más, que comprende: proporcionar una o más matrices variables (203; 24-34) para cada matriz variable (203; 24-34), aplicar a ellas m de dichas M señales de entrada de audio y obtener de ellas n de dichas N señales de salida de audio, donde, cuando hay una matriz variable, m es M y n es N y, cuando hay una pluralidad de matrices, m es un subconjunto de M y n es un subconjunto de N y los valores de m y n para una matriz pueden diferir de los de otras matrices, controlar cada matriz variable como respuesta a las m señales de entrada aplicadas a ella, de manera que un campo acústico generado por las n señales de salida obtenidas de ella, tiene una imagen sonora compacta en la dirección principal nominal progresiva de las m señales de entrada aplicadas a ella cuando tales señales de entrada tienenuna alta correlación, extendiéndose la imagen de compacta a amplia a medida que la correlación disminuye y repartiéndo- se progresivamente en múltiples imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada a ella, a medida que la correlación continúa disminuyendo hasta una correlación muy baja, y obtener dichas N señales de salida de audio a partir de las señales de salida de dichas una o más matrices varia- bles (203; 24-34).

Description

Conversión espacial de canales de audio.
Campo técnico
La invención está relacionada con el tratamiento de señales de audio. Más en particular, la invención está relacionada con la conversión de M canales de entrada de audio que representan un campo acústico en N canales de salida de audio que representan el mismo campo acústico, donde cada canal es una sola corriente de audio que representa el audio que llega desde una dirección, M y N son números enteros positivos, y M es al menos 2 y N es al menos 3, y N es mayor que M. Típicamente, un convertidor espacial en el cual N es mayor que M se denomina normalmente "descodificador".
Técnica anterior
Aunque los seres humanos solamente tenemos dos oídos, oímos el sonido como una entidad tridimensional, confiando en diversas indicaciones de situación, tales como las funciones relacionadas con la cabeza (HRTF) y el movimiento de la cabeza. La reproducción de sonido con fidelidad total requiere por tanto la retención y reproducción del campo acústico completo en 3D, o al menos las indicaciones de percepción del mismo. Desafortunadamente, la tecnología de grabación de sonido no está orientada hacia la captura del campo acústico en 3D, ni tampoco hacia la captura de un plano de sonido en 2D, ni siquiera hacia la captura de una línea de sonido en 1D. La tecnología actual de grabación está orientada estrictamente hacia la captura, conservación y presentación de canales de audio discretos de cero dimensiones.
La mayoría de los esfuerzos para mejorar la fidelidad desde la invención original de Edison de la grabación del sonido, han estado enfocados en la mejora de imperfecciones de su medio analógico original de cilindro/disco de surcos modulados. Estas imperfecciones incluían una respuesta en frecuencias desigual y limitada, ruido, distorsión, lloriqueo, fluctuación, precisión de la velocidad, desgaste, suciedad y pérdida de generación de copia. Aunque ha habido un cierto número de intentos graduales en mejoras aisladas, incluyendo la amplificación electrónica, la grabación en cinta, la reducción de ruido, y tocadiscos que cuestan más que algunos coches, no se resolvieron finalmente sin polémica los problemas tradicionales de calidad del canal individual hasta que se llegó al desarrollo singular de la grabación digital en general, y específicamente hasta la introducción del Disco Compacto de audio. Desde entonces, aparte de cierto esfuerzo para mejorar aún más la calidad de la grabación digital con un muestreo de 24 bits/96kHz, los principales esfuerzos de la investigación de la reproducción de audio han estado enfocados en reducir la cantidad de datos necesarios para mantener la calidad de canales individuales, utilizando principalmente codificadores de percepción, y en aumentar la fidelidad espacial. Este último problema es el objeto de este documento.
Los esfuerzos para mejorar la fidelidad espacial se han efectuado en dos frentes: intentar transmitir las indicaciones de percepción de un campo acústico completo, e intentar transmitir una aproximación al campo acústico real original. Los ejemplos de sistemas que emplean la primera de las soluciones incluyen sistemas biaurales y sistemas circundantes virtuales basados en dos altavoces. Tales sistemas presentan diversas desafortunadas imperfecciones, especialmente en la localización fiable de sonidos en algunas direcciones, y en requerir el uso de auriculares o una posición fija única del oyente.
Para la presentación de sonido espacial a múltiples oyentes, ya sea en un cuarto de estar o en una instalación comercial tal como un cine, la única alternativa viable ha sido intentar aproximarse al campo acústico real original. Dada la naturaleza discreta del canal de la grabación del sonido, no sorprende que la mayoría de los esfuerzos hasta la fecha hayan implicado lo que podría denominarse aumentos conservadores del número de canales de presentación. Los sistemas representativos incluyen bandas sonoras de películas de tres altavoces en monofónico panorámico de los primeros años 50, sonido estereofónico convencional, sistemas cuadrafónicos de los años 60, bandas sonoras magnéticas discretas de cinco canales en películas de 70 mm, sonido Dolby circundante que utiliza una matriz de los años 70, sonido de canales AC-3 5.1 de los 90 y, recientemente, sonido de canales Surround EX 6.1 (EX 6.1 circundante). Los términos "Dolby", "ProLogic" y "Surround EX" son marcas registradas de Dolby Laboratories Licensing Corporation. En un grado u otro, estos sistemas proporcionan una reproducción espacial mejorada en comparación con la presentación monofónica. Sin embargo, al mezclar un número mayor de canales se incurre en penalizaciones mayores de tiempo y coste en los fabricantes de contenidos, y la percepción resultante es típicamente uno entre unos pocos canales discretos dispersos, en lugar de un campo acústico continuo. En la patente de Estados Unidos núm. 4.799.260 se describen aspectos de la descodificación de Dolby Pro Logic. En el documento "Estándar de Compresión de Audio Digital (AC-3)", Comité de Sistemas de Televisión Avanzados (ATSC), Documento A/52, de 20 de Diciembre de 1995, (disponible en la dirección de Internet de www.atsc.org/Standards/A52/a_52.doc), se establecen detalles de AC-3. Véase también la Hoja de Erratas de 22 de Julio de 1999 (disponible en la dirección de Internet www.dolby.com/tech/ATSC_err.pdf.
Una vez caracterizado el campo acústico, es posible en principio que un descodificador obtenga la alimentación de señal óptima para cualquier altavoz de salida. Los canales suministrados a tal descodificador serán denominados en esta memoria de formas diversas como canales "cardinales", "transmitidos" y "de entrada", y cualquier canal de salida en un emplazamiento que no se corresponda con la posición de uno de los canales de entrada será denominado canal "intermedio". Un canal de salida puede tener también un emplazamiento coincidente con la posición de un canal de entrada.
En el documento EP 1 054 575 A2, se describen variantes de un descodificador de señales de audio de banda ancha en el cual, se obtienen ocho, seis (empleando dos canales fantasma) o 5 (combinando reducidamente de ocho a cinco) canales de salida en un espacio de 360 grados, a partir de una pareja de señales de entrada. La manera en la cual se distribuyen las señales de entrada entre la señal de salida está determinada por una pluralidad de coeficientes de "normalización" aplicados a elementos multiplicadores de una matriz. Los coeficientes son obtenidos como respuesta a cada una de las señales de entrada individualmente, su suma, su diferencia, su correlación y su fase relativa. Cuando las señales de entrada no tienen ninguna correlación, los coeficientes de normalización son iguales entre sí, lo cual tiende a producir una imagen sonora amplia y difusa.
Divulgación de la invención
De acuerdo con un primer aspecto de la invención, un proceso para convertir M señales de entrada de audio, cada una de ellas asociada con una dirección, en N señales de salida de audio, cada una de ellas asociada con una dirección, donde N es mayor que M, M es dos o más y N es un entero positivo igual a tres o más, comprende proporcionar una matriz variable de M:N, aplicar las M señales de entrada de audio a la matriz variable, obtener las N señales de salida de audio a partir de la matriz variable, y controlar la matriz variable como respuesta a las señales de entrada, de manera que un campo acústico generado por las señales de salida tenga una imagen sonora compacta en la dirección nominal principal progresiva de las señales de entrada, cuando las señales de entrada tienen una alta correlación, extendiéndose la imagen de compacta a amplia a medida que disminuye la correlación, y dividiéndose progresivamente en múltiples imágenes sonoras compactas, cada una de ellas en una dirección asociada con una señal de entrada, a medida que la correlación continúa disminuyendo hasta un grado muy bajo de correlación.
De acuerdo con este primer aspecto de la invención, la matriz variable puede estar controlada como respuesta a las medidas de: (1) los niveles relativos de las señales de entrada, y (2) la correlación cruzada de las señales de entrada. En ese caso, para una medida de la correlación cruzada de las señales de entrada con valores en una primera gama, limitados a un valor máximo y a un valor de referencia, el campo acústico puede tener una imagen sonora compacta cuando la medida de la correlación cruzada es el valor máximo, y puede tener una imagen ampliamente extendida cuando la medida de la correlación cruzada es el valor de referencia, y para una medida de la correlación cruzada de las señales de entrada que tenga valores en una segunda gama, limitados por el valor de referencia y un valor mínimo, el campo acústico puede tener la imagen ampliamente extendida cuando la medida de la correlación cruzada es el valor de referencia, y puede tener una pluralidad de imágenes sonoras, cada una en una dirección asociada con una señal de entrada, cuando la medida de la correlación cruzada es el valor mínimo.
De acuerdo con un aspecto adicional de la presente invención, un proceso para convertir M señales de entrada de audio, cada una de ellas asociada con una dirección, en N señales de salida de audio, cada una de ellas asociada con una dirección, donde N es mayor que M, y M es tres o más, comprende proporcionar una pluralidad de matrices variables de m:n, donde m es un subconjunto de M y n es un subconjunto de N, aplicar un respectivo subconjunto de M señales de salida de audio a cada una de las matrices variables, obtener un respectivo subconjunto de N señales de salida de audio a partir de las matrices variables, controlar cada una de las matrices variables como respuesta al subconjunto de señales de entrada aplicadas a él, de manera que un campo acústico generado por el respectivo subconjunto de señales de salida obtenidas de él, tenga una imagen sonora compacta en la dirección nominal principal progresiva del subconjunto de señales de entrada aplicadas a él cuando tales señales de entrada tienen una alta correlación, extendiéndose la imagen de compacta a amplia a medida que disminuye la correlación, y dividiéndola progresivamente en múltiples imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada a ella, a medida que la correlación continúa decreciendo hasta tener una correlación muy baja, y obtener las N señales de salida de audio a partir de los subconjuntos de N canales de salida de audio.
De acuerdo con este aspecto adicional de la presente invención, las matrices variables pueden ser controladas también como respuesta a la información que compensa el efecto de otra u otras matrices variables que reciben la misma señal de entrada. Además, la obtención de N señales de salida de audio a partir de los subconjuntos de N canales de salida de audio, puede incluir también la compensación de múltiples matrices variables que produzcan la misma señal de salida. De acuerdo con tales aspectos adicionales de la presente invención, cada una de las matrices variables puede ser controlada como respuesta a las medidas de: (a) los niveles relativos de las señales de entrada aplicadas a ella, y (b) la correlación cruzada de las señales de entrada.
De acuerdo con otro aspecto adicional de la presente invención, un proceso para convertir M señales de entrada de audio, cada una de ellas asociada con una dirección, en N señales de salida de audio, cada una de ellas asociada con una dirección, donde N es mayor que M, y M es tres o más, comprende proporcionar una matriz variable de M:N que responda a los factores de escala que controlen los coeficientes de la matriz o controlen las salidas de la matriz, aplicar las M señales de entrada de audio a la matriz variable, proporcionar una pluralidad de generadores de factores de escala de matrices variables de m:n, donde m es un subconjunto de M y n es un subconjunto de N, aplicar un respectivo subconjunto de M señales de entrada de audio a cada uno de los generadores de factores de escala de la matriz variable, obtener un conjunto de factores de escala de la matriz variable para respectivos conjuntos de N señales de salida de audio, desde cada uno de los generadores de factores de escala de la matriz variable, controlar cada uno de los generadores de factores de escala de la matriz variable como respuesta al subconjunto de señales de entrada aplicadas a ella, de manera que cuando los factores de escala generados por ellos son aplicados a la matriz variable de M:N, un campo acústico generado por el respectivo subconjunto de señales de salida producidas tiene una imagen sonora compacta en la dirección nominal principal progresiva del subconjunto de señales producidas que produjeron los factores de escala aplicados, cuando tales señales de entrada tienen una alta correlación, extendiéndose la imagen desde compacta a amplia a medida que decrece la correlación, y dividiéndose progresivamente en múltiples imágenes sonoras compactas, cada una de ellas en una dirección asociada con una señal de entrada que produjo los factores de escala aplicados, a medida que la correlación continúa decreciendo hasta tener una correlación muy baja, y obtener las N señales de salida de audio a partir de la matriz variable.
De acuerdo con este aspecto adicional más de la presente invención, los generadores de factores de escala de matriz variable pueden ser controlados también como respuesta a la información que compensa el efecto de uno o más generadores de factores de escala de la matriz variable que reciben la misma señal de entrada. Además, la obtención de N señales de salida de audio a partir de la matriz variable puede incluir la compensación de múltiples generadores de factores de escala de la matriz variable que producen factores de escala para la misma señal de salida. De acuerdo con tales aspectos adicionales más de la presente invención, cada uno de los generadores de factores de escala de la matriz variable puede ser controlado como respuesta a las medidas de: (a) los niveles relativos de las señales de entrada aplicadas a él, y (b) la correlación cruzada de las señales de entrada.
De acuerdo con la presente invención, M canales de entrada de audio que representan un campo acústico, son convertidos en N canales de salida de audio que representan el mismo campo acústico, donde cada canal es una sola corriente de audio que representa el audio que llega desde una dirección, M y N son enteros positivos, y M es al menos 2 y N es al menos 3, y N es mayor que M. Cada canal de entrada y de salida tiene una dirección asociada (por ejemplo, azimut, elevación y, opcionalmente, distancia, para admitir un canal virtual o proyectado más cercano o más distante). Se genera uno o más conjuntos de canales de salida, teniendo cada conjunto uno o más canales de salida. Cada conjunto está asociado normalmente con dos o más canales de estrada espacialmente contiguos, y cada canal de salida de un conjunto se genera determinando una medida de la correlación cruzada de los dos o más canales de entrada y una medida de las relaciones de nivel de los dos o más canales de entrada. La medida de la correlación cruzada es, preferiblemente, una medida de la correlación cruzada con compensación del tiempo cero, que es la relación del nivel de energía común con respecto a la media geométrica de los niveles de energía de la señal de entrada. El nivel de energía común es, preferiblemente, el nivel de energía común suavizado o promediado, y los niveles de energía de las señales de entrada son los niveles de energía de las señales de entrada suavizados o
promediados.
En un aspecto de la presente invención, pueden asociarse múltiples conjuntos de canales de salida con más de dos canales de entrada y un proceso puede determinar la correlación de los canales de entrada, con los cuales está asociado cada uno de los conjuntos de canales de salida, de acuerdo con un orden jerárquico tal que cada conjunto o conjuntos está clasificado de acuerdo con el número de canales de entrada con los cuales están asociados su canal o canales de salida, teniendo la mayor parte de los canales de entrada el rango más alto, y que el proceso procesa los conjuntos de acuerdo con su orden jerárquico. De acuerdo también con un aspecto de la presente invención, el proceso tiene en cuenta los resultados del proceso de conjuntos de rangos más altos.
Los aspectos de reproducción o descodificación de la presente invención suponen que cada uno de los M canales de entrada de audio, que representan el audio que llega desde una dirección, fue generado por una codificación en amplitud panorámica del vecino más cercano de la matriz pasiva para cada dirección de la fuente (es decir, se supone que una dirección de una fuente se corresponde principalmente con el canal o canales de entrada más cercanos), sin el requisito de información adicional de cadena lateral (el uso de cadena lateral o información auxiliar es opcional), haciéndolo compatible con técnicas de mezclado, consolas y formatos existentes. Aunque tales señales de la fuente pueden ser generadas empleando explícitamente una matriz de codificación pasiva, la mayoría de las técnicas de grabación convencionales generan inherentemente tales señales fuentes (constituyendo así una "matriz de codificación efectiva"). Los aspectos de reproducción o descodificación de la presente invención son también considerablemente compatibles con las señales fuente de grabación natural, tal como podría ser hecho con cinco micrófonos direccionales reales, ya que, al permitir algún posible retardo de tiempo, los sonidos que llegan desde direcciones intermedias tienden a corresponderse principalmente con los micrófonos más cercanos (en una serie horizontal, específicamente con la pareja más cercana de micrófonos).
Puede implementarse un descodificador o proceso de descodificación, de acuerdo con aspectos de la presente invención, como una retícula de módulos o funciones modulares de proceso acopladas (en adelante "módulos" o "módulos de descodificación"), cada uno de los cuales se utiliza para generar uno o más canales de salida (o, alternativamente, señales de control utilizables para generar uno o más canales de salida), típicamente desde dos o más de los canales de entrada más cercanos, espacialmente contiguos, asociados con el módulo de descodificación. Los canales de salida representan, típicamente, proporciones relativas de las señales de audio en los canales de entrada más cercanos, espacialmente contiguos, asociados con el módulo de descodificación particular. Como se explica con más detalle a continuación, los módulos de descodificación están débilmente acoplados entre sí, en el sentido de que los módulos comparten entradas y existe una jerarquía de módulos de descodificación. Los módulos están ordenados en la jerarquía de acuerdo con el número de canales de entrada con los que están asociados (al módulo o módulos con mayor número de canales de entrada asociados se le da el rango mayor). Un supervisor o función supervisora prevalece sobre los módulos, de manera que las señales de entrada comunes son igualmente compartidas entre módulos, y los módulos descodificadores de mayor rango pueden afectar a los módulos de salida de orden inferior.
Cada módulo descodificador puede, efectivamente, incluir una matriz tal que genere directamente señales de salida, o que cada módulo descodificador pueda generar señales de control que se utilizan, junto con las señales de control generadas por otros módulos descodificadores, para variar los coeficientes de una matriz variable o los factores de escala de las entradas o las salidas de una matriz fija, con el fin de generar todas las señales de salida.
Los módulos descodificadores emulan el funcionamiento del oído humano para intentar proporcionar una reproducción perceptiblemente transparente. La conversión de señales de acuerdo con la presente invención, de la cual los módulos descodificadores y las funciones de los módulos son un aspecto, puede ser aplicada a señales de banda ancha o a cada banda de frecuencias de un procesador multibanda y, dependiendo de la implementación, puede ser realizada una vez por muestra o una vez por bloque de muestras. Un modo de realización multibanda puede emplear un banco de filtros, tal como un banco de filtros discreto de banda crítica, o bien un banco de filtros que tenga una estructura de bandas compatible con un descodificador asociado, o una configuración de transformación, tal como una FFT (Transformada Rápida de Fourier), o un banco de filtros lineal MDCT (Transformada Discreta Modificada del Coseno).
Otro aspecto de esta invención es que la cantidad de altavoces que reciben los N canales de salida puede ser reducida a un número práctico mediante una prudente confianza en la formación de imágenes virtuales, que es la creación de imágenes sonoras percibidas en posiciones en espacio distintas a donde está situado el altavoz. Aunque la utilización más común de la formación de imágenes virtuales es la de la reproducción estereofónica de una imagen en alguna parte del camino entre dos altavoces, convirtiendo en panorámica una señal monofónica entre los canales, la formación de imágenes virtuales, según se contempla como un aspecto de la presente invención, puede incluir la obtención de imágenes fantasma proyectadas que proporcionan la impresión auditiva de estar más allá de las paredes de la habitación o dentro de las paredes de una habitación. La formación de imágenes virtuales no se considera una técnica viable para la presentación en grupo con un número escaso de canales, porque requiere que el oyente esté equidistante entre los dos altavoces, o casi eso. En los cines, por ejemplo, los altavoces frontales izquierdo y derecho están demasiado alejados para obtener una formación útil de imágenes fantasma de una imagen central a gran parte de la audiencia, de manera que, dada la importancia del canal central como fuente de gran parte del diálogo, se utiliza en su lugar un altavoz en el centro físico.
A medida que aumenta la densidad de los altavoces, se alcanzará un punto en el que la formación de imágenes virtuales es viable entre cualquier pareja de altavoces para gran parte de la audiencia, al menos en la medida en que se suavizan las percepciones panorámicas; con suficientes altavoces, los intervalos entre altavoces ya no se perciben como tales.
Distribución de señales
Como se ha mencionado anteriormente, una medida de la correlación cruzada determina la relación de la energía dominante (componentes comunes de la señal) a la energía no dominante (componentes no comunes de la señal) en un módulo, y el grado de dispersión de los componentes no dominantes de la señal entre los canales de salida del módulo. Esto puede comprenderse mejor considerando la distribución de señales de los canales de salida de un módulo bajo condiciones de señal diferentes para el caso de un módulo de dos entradas. A menos que se indique otra cosa, los principios establecidos se extienden directamente a módulos de orden superior.
El problema de la distribución de señales es que a menudo hay demasiado poca información para recuperar la distribución de amplitudes de señales originales, y mucho menos las propias señales. La información básica disponible son los niveles de la señal en la entrada de cada módulo y el producto cruzado medio de las señales de entrada, el nivel de energía común. La correlación cruzada con compensación para el tiempo cero es la relación del nivel de energía común con respecto a la media geométrica de los niveles de energía de las señales de entrada.
El significado de la correlación cruzada es que funciona como una medida de la amplitud neta de los componentes de señal comunes a todas las entradas. Si hay una sola señal en panorámica en cualquier lugar entre las entradas del módulo (una señal "interior" o "intermedia"), todas las entradas tendrán la misma forma de onda, aunque con amplitudes posiblemente diferentes y, en estas condiciones, la correlación será 1,0. En el otro extremo, si todas las señales de entrada son independientes, lo que significa que no hay componente común de la señal, la correlación será cero. Los valores intermedios de correlación entre 0 y 1,0 pueden ser considerados como correspondientes a niveles de equilibrio intermedios de algún componente común único de señal y a componentes de señal independientes en las entradas. Consecuentemente, cualquier condición de la señal de entrada puede ser dividida en una señal común, la señal "dominante", y los componentes de señal de entrada sobrantes después de restar las contribuciones comunes de la señal, que comprenden "todo el resto" de componentes de señal (la energía "no dominante" o de señal residual). Como se ha indicado anteriormente, la amplitud de la señal "dominante" no es necesariamente más sonora que el residuo de los nivele de señales no dominantes.
Por ejemplo, considérese el caso de un arco de cinco canales (L(izquierdo), MidL (Medio izquierdo), C (centro), MidR (Medio derecho), R(derecho)) en correspondencia con una sola pareja Lt/Rt (izquierda total y derecha total), en la cual se desea recuperar los cinco canales originales. Si los cinco canales tienen señales independientes de igual amplitud, Lt y Rt tendrán la misma amplitud, con un valor intermedio de energía común, correspondiente a un valor intermedio de correlación cruzada entre cero y uno (porque Lt y Rt no son señales independientes). Los mismos niveles pueden conseguirse con niveles apropiadamente elegidos de L, C y R, sin señales de MidL y MidR. Por tanto, un módulo de dos entradas y cinco salidas podría alimentar solamente el canal de salida correspondiente a la dirección dominante (C en este caso) y a los canales de salida correspondientes a los residuos (L, R) de señales de entrada, tras eliminar la energía de C de las entradas de Lt y Rt, no entregando ninguna señal a los canales de salida de MidL y MidR. Tal resultado no es deseable (apagar un canal innecesariamente es casi siempre una mala elección, porque pequeñas perturbaciones en las condiciones de la señal ocasionarán que el canal "apagado" conmute entre encendido y apagado, causando un molesto sonido de cotorreo (el "cotorreo" se produce cuando un canal se apaga y enciende rápidamente), especialmente cuando el canal "apagado" se escucha aisladamente.
Consecuentemente, cuando hay múltiples distribuciones posibles de señales de salida para un conjunto dado de valores de señales de entrada del módulo, la solución conservadora desde el punto de vista de la calidad del canal individual es dispersar los componentes no dominantes de la señal tan equitativamente como sea posible entre los canales de salida del módulo, consistentemente con las condiciones de la señal. Un aspecto de la presente invención es dispersar equitativamente la energía de la señal disponible, sujeta a las condiciones de la señal, de acuerdo con un reparto por tres caminos en lugar de un reparto de dos caminos de "dominantes" y "el resto". Preferiblemente, el reparto en tres caminos comprende componentes de señal "dominantes" (comunes), componentes de señal de relleno (dispersados equitativamente), y residuo de componentes de la señal de entrada. Desafortunadamente, solamente hay suficiente información para hacer un reparto de dos caminos (componentes de señal dominantes y resto de componentes de señal). Se describe aquí una solución adecuada para realizar un reparto de tres caminos en el cual, para valores de correlación por encima de un valor particular, el reparto en dos caminos emplea los componentes dominantes y no dominantes dispersos de la señal; para valores de correlación por debajo de ese valor, el reparto en dos caminos emplea los componentes no dominantes dispersos de la señal y el residuo. La energía común de la señal es repartida en "dominante" y "equitativamente dispersada". El componente "equitativamente dispersado" incluye tanto el componente de señal "común" como los componentes de señal "residual". Por tanto, "dispersión" implica una mezcla de componentes de señal comunes (con correlación) y residuos (sin correlación).
Antes del proceso, para una configuración dada de canales de entrada/salida de un módulo dado, se calcula un valor de correlación correspondiente a todos los canales de salida que reciben la misma amplitud de señal. Este valor de correlación puede ser denominado valor "random_xcor" ("correlación cruzada aleatoria"). Para un solo canal de salida intermedia, obtenido del centro y dos canales de entrada, el valor de random_xcor puede calcularse como 0,333. Para tres canales intermedios igualmente espaciados y dos canales de entrada, el valor de random_xcor puede calcularse como 0,483. Aunque se ha averiguado que tales valores de tiempo proporcionan resultados satisfactorios, no son críticos. Por ejemplo, son utilizables valores de alrededor de 0,3 y 0,5, respectivamente. En otras palabra, para un módulo con M entradas y N salidas, existe un particular grado de correlación de las M entradas que puede considerarse como representante de energías iguales en las N salidas. A esto puede llegarse considerando las M entradas como si hubieran sido obtenidas utilizando una matriz pasiva de N a M, que reciba N señales independientes de igual energía, aunque naturalmente las entradas reales pueden ser obtenidas por otros medios. El valor umbral de correlación es la correlación cruzada aleatoria, y puede representar una línea divisoria entre dos regímenes de
funcionamiento.
Por tanto, durante el proceso, si el valor de correlación cruzada de un módulo es mayor o igual al valor de la correlación cruzada aleatoria, se pondrá a escala en una gama de 1,0 a 0:
Scaled\_xcor=(correlación \ - \ random\text\_xcor)/(1-random\_xcor)
El valor "scaled_xcor" representa la cantidad de señal dominante por encima del nivel equitativamente dispersado. Lo que sobre puede ser distribuido igualmente en los demás canales de salida del módulo.
Sin embargo, hay un factor adicional que debe tenerse en cuenta, que es que a medida que la dirección principal nominal progresiva de las señales de entrada se hace progresivamente más descentrada, la cantidad de energía dispersa debe ser progresivamente reducida si se mantiene una distribución igual en todos los canales de salida o, alternativamente, debe mantenerse la cantidad de energía dispersada, pero la energía distribuida a los canales de salida debe ser reducida con relación al "descentramiento" de la energía dominante (en otras palabras, un apuntamiento gradual de la energía a lo largo de los canales de salida). En este último caso, puede requerirse una complejidad adicional de proceso para mantener la potencia de salida igual a la potencia de entrada.
Por otra parte, si el valor actual de la correlación es inferior al valor de la correlación cruzada aleatoria, la energía dominante se considera cero, se reduce progresivamente la energía distribuida equitativamente, y se permite que la señal residual, lo que quede de ella, se acumule en las entradas. Con una correlación = cero, no hay señal interior, sino simplemente señales de entrada independientes que tienen una correspondencia directa con canales de
salida.
El funcionamiento de este aspecto de la invención puede explicarse mejor como sigue:
a)
Cuando la correlación real es mayor que la correlación cruzada aleatoria, hay suficiente energía común para considerar que haya una señal dominante para ser dirigida (puesta en panorámica) entre dos salidas contiguas (o, naturalmente, alimentada a una salida si sucede que su dirección coincide con la de esa salida); la energía asignada a ella se resta de las entradas para ofrecer unos residuos que se distribuyen, (preferiblemente de manera uniforme) entre todas las salidas.
b)
Cuando la correlación real es precisamente la correlación cruzada aleatoria, la energía de entrada (que podría suponerse toda ella como residual) se distribuye uniformemente entre todas las salidas (esta es la definición de la correlación cruzada aleatoria).
c)
Cuando la correlación real es inferior a la correlación cruzada aleatoria, no hay energía común suficiente para una señal dominante, de manera que la energía de las entradas se distribuye entre las salidas con proporciones que dependen de cuánto es de inferior. Esto es como si se tratase a la parte con correlación como el residuo, para distribuirse uniformemente entre todas las salidas, y la parte sin correlación más bien como varias señales dominantes para ser enviadas a las salidas correspondientes a las direcciones de las entradas. En el caso extremo de que la correlación sea cero, cada entrada es alimentada solamente en una posición de salida (generalmente una de las salidas, pero podría ser puesta en panorámica entre dos de ellas).
Por tanto, hay una continuidad entre correlación total, con una sola señal puesta en panorámica entre dos salidas de acuerdo con las energías relativas de las entradas, a través de la correlación cruzada aleatoria con las entradas distribuidas uniformemente entre todas las salidas, hasta una correlación cero con M entradas alimentadas independientemente a M posiciones de salida.
Compensación de la interacción
Como se ha mencionado anteriormente, la conversión de canales de acuerdo con un aspecto de la presente invención, puede ser considerada como que implica una retícula de "módulos". Debido a que múltiples módulos pueden compartir un canal de entrada dado, son posibles interacciones entre módulos y pueden degradar el funcionamiento, a menos que se aplique alguna compensación. Aunque generalmente no es posible separar señales en una entrada según a qué módulo es "con el que van", una estimación de la cantidad de señal de entrada utilizada por cada módulo conectado puede mejorar la correlación resultante y las estimaciones de dirección, dando como resultado un funcionamiento global mejorado.
Como se ha mencionado anteriormente, hay dos tipos de interacciones de los módulos: las que implican a módulos de un nivel de jerarquía común o inferior (es decir, módulos con un número similar de entradas o con menos entradas), denominados "vecinos", y módulos a un nivel de jerarquía más alto (que tienen más entradas) que un módulo dado, pero que comparten una o más entradas comunes, denominados "vecinos de orden superior".
Considérese primero la compensación de vecinos con un nivel de jerarquía común. Para comprender los problemas originados por la interacción de vecinos, considérese un módulo aislado de dos entradas, con señales de entrada A idénticas de L/R (izquierda y derecha). Esto corresponde a una sola señal dominante (común) a mitad de camino entre las entradas. La energía común es A^{2} y la correlación es 1,0. Supóngase un segundo módulo de dos entradas con una señal común, B, en sus entradas L/R, una energía común B^{2}, y también una correlación de 1,0. Si los dos módulos están conectados a una entrada común, la señal en esa entrada será A+B. Suponiendo que las señales A y B son independientes, el producto promediado de AB será cero, de manera que la energía común del primer módulo será A(A+B) = A^{2} + AB = A^{2} y la energía común del segundo módulo será B(A+B) = B^{2} + AB = B^{2}. Así, la energía común no es afectada por los módulos vecinos, siempre que procesen señales independientes. Esta es generalmente una suposición válida. Si las señales no son independientes, son iguales o al menos comparten sustancialmente componentes de señal comunes, el sistema reaccionará de una manera consistente con la respuesta del oído humano, es decir, la entrada común será mayor, haciendo que la imagen de audio resultante sea influenciada por la entrada común. En ese caso, las relaciones de amplitud de entrada de L/R de cada módulo son compensadas porque la entrada común tiene mayor amplitud de la señal (A+B) que cualquiera de las entradas distantes, lo que hace que la estimación de la dirección tenga una propensión hacia la entrada común. En ese caso, el valor de correlación de ambos módulos es ahora algo inferior a 1,0, porque las formas de onda de ambas parejas de entradas son diferentes. Debido a que el valor de correlación determina el grado de dispersión de los componentes no comunes de la señal y la relación de la energía dominante (componente común de la señal) a la no dominante (componente no común de la señal), la señal no compensada de entrada común hace que se disperse la distribución de señal no común de cada módulo.
Para compensarlo, se estima una medida del "nivel de entrada común" atribuible a cada entrada de cada módulo, y después se informa a cada módulo sobre la cantidad total de tal energía del nivel de entrada común, de todos los niveles vecinos del mismo nivel de jerarquía en la entrada de cada módulo. Se describen aquí dos formas de calcular la medida del nivel de entrada común atribuible a cada entrada de un módulo: una que está basada en la energía común de las entradas al módulo (descrita en general en el párrafo siguiente), y otra que es más precisa pero requiere mayores recursos de cálculo, que está basada en la energía total de las salidas interiores del módulo (descrita más adelante con relación a la configuración de la figura 6A).
De acuerdo con la primera manera de calcular la medida del nivel de entrada común atribuible a cada entrada de un módulo, el análisis de las señales de entrada de un módulo no permite resolver directamente el nivel de entrada común en cada entrada, solamente una proporción de la energía global común, que es la media geométrica de los niveles de energía de entrada comunes. Debido a que el nivel de energía de entrada común en cada entrada no puede exceder del nivel de energía total en esa entrada, que está medida y es conocida, la energía global común es separada en niveles de entrada comunes estimados, proporcionales a los niveles de entrada observados, sujetos a los requisitos que siguen. Una vez que se ha calculado el conjunto de niveles de entrada comunes para todos los módulos de la retícula, (independientemente de que la medición de niveles de entrada común esté basada en la primera o en la segunda forma de cálculo), cada módulo es informado del total de niveles de entrada comunes de todos los módulos vecinos de cada entrada, una cantidad denominada "nivel vecino" de un módulo en cada una de sus entradas. El módulo resta entonces el nivel vecino del nivel de entrada en cada una de sus entradas para obtener niveles de entrada compensados, que son utilizados para calcular la correlación y la dirección (dirección nominal principal progresiva de las señales de entrada).
Para el ejemplo citado anteriormente, los niveles vecinos son inicialmente cero, porque la entrada común tiene más señal que cualquiera de las entradas de los extremos, el primer módulo demanda un nivel de potencia de entrada común en esa entrada que sea superior a A^{2} y el segundo módulo demanda un nivel de entrada común en la misma entrada que sea superior a B^{2}. Como las demandas totales son mayores que el nivel de energía disponible para eso, las demandas se limitan a alrededor de A^{2} y B^{2}, respectivamente. Como no hay ningún otro módulo conectado a la entrada común, cada nivel de entrada común se corresponde con el nivel vecino del otro módulo. Consecuentemente, el nivel de potencia de entrada compensada, visto por el primer módulo, es
(A^{2}+B^{2}) - B^{2} = A^{2}
y el nivel de potencia de entrada compensada visto por el segundo módulo es
(A^{2}+B^{2}) - A^{2} = B^{2}
Sin embargo, estos serían justamente los niveles que habrían sido observados con los módulos aislados. Consecuentemente, los valores de correlación resultantes serán 1,0, y las direcciones dominantes estarán centradas, con las amplitudes apropiadas, como se desea. No obstante, las propias señales recuperadas no estarán completamente aisladas, la salida del primer módulo tendrá algún componente de la señal B y viceversa, pero esta es una limitación de un sistema de matrices, y si se efectúa el proceso en base a multibanda, los componentes de la señal mezclada serán de una frecuencia similar, haciendo que la distinción entre ellos sea algo especulativo. En situaciones más complejas, la compensación no será normalmente tan precisa, pero la experiencia en el sistema indica que la compensación mitiga en la práctica la mayoría de los efectos de la interacción de módulos vecinos.
Una vez establecidos los principios y las señales utilizadas en la compensación de niveles vecinos, la extensión a la compensación de niveles de vecinos de orden superior es bastante directa. Esto es aplicable a situaciones en las cuales dos o más módulos con niveles de jerarquía diferentes comparten más de un canal de entrada en común. Por ejemplo, podría haber un módulo de tres entradas compartiendo dos entradas con un módulo de dos entradas. También será común un componente de señal común a las tres entradas, para ambas entradas del módulo de dos entradas, y será obtenido, sin compensación, en distintas posiciones para cada módulo. De manera más general, puede haber un componente de la señal común a las tres entradas y un segundo componente común a solamente las entradas del módulo de dos entradas, requiriendo que sus efectos sean separados tanto como sea posible para una obtención apropiada del campo acústico de salida. Consecuentemente, los efectos de la señal común de tres entradas, como los materializados en los niveles de entrada común descritos anteriormente, deben ser restados de las entradas antes de que se pueda realizar apropiadamente el cálculo de dos entradas. En realidad los elementos de la señal común de orden superior deben ser restados no solamente de los niveles de entrada del módulo de nivel inferior, sino también de la medida observada de su nivel de energía común, antes de seguir con el cálculo del nivel inferior. Esto es diferente de los efectos de los niveles de entrada común de los módulos del mismo nivel de jerarquía que no afectan la medida del nivel de energía común de un módulo vecino. Así, los niveles vecinos de orden superior deben ser tenidos en cuenta, y empleados, separadamente de los niveles vecinos del mismo orden. Al mismo tiempo que los niveles vecinos de orden superior son traspasados descendentemente hacia módulos inferiores de la jerarquía, los niveles comunes restantes de módulos de nivel inferior deben ser traspasados ascendentemente en la jerarquía porque, como se ha mencionado anteriormente, los módulos de nivel inferior actúan como vecinos normales para los módulos de nivel superior. Algunas cantidades son interdependientes y difíciles de resolver simultáneamente. Con el fin de evitar la realización de cálculos que requieren grandes recursos para soluciones simultáneas complejas, los valores previamente calculados pueden ser traspasados a los módulos relevantes. Una interdependencia potencial de niveles comunes de entrada del módulo a diferentes niveles de energía, puede resolverse utilizando el valor anterior, como antes, o realizando cálculos en una secuencia repetitiva (es decir, en bucle), desde el nivel de jerarquía más alta al de más baja. Alternativamente, también es posible una solución de ecuaciones simultáneas, aunque puede implicar una sobrecarga de cálculo nada
trivial.
Aunque las técnicas de compensación de la interacción descritas solamente entregan valores aproximadamente correctos para distribuciones de señales complejas, se cree que proporcionan una mejora sobre la configuración reticular que falla en tomar en consideración las interacciones de módulos.
Breve descripción de los dibujos
La figura 1 es una vista superior en planta que muestra esquemáticamente una configuración de descodificación idealizada a manera de configuración de prueba que emplea una serie ordenada horizontal de dieciséis canales, alrededor de las paredes de una habitación, una serie de seis canales dispuestos en círculo por encima de la serie horizontal y un solo canal suplementario.
La figura 2 es un diagrama de bloques funcionales que proporciona una visión general de un modo de realización de transformación multibanda, de una pluralidad de módulos que funcionan con un supervisor central que implementa el ejemplo de la figura 1.
La figura 3 es un diagrama de bloques funcionales, útil para comprender la manera en la que un supervisor, tal como el supervisor 201 de la figura 2, puede determinar un factor de escala del punto del extremo.
Las figuras 4A-4C muestran un diagrama de bloques funcionales de un módulo según un aspecto de la presente invención.
La figura 5 es una vista esquemática que muestra una configuración hipotética de un módulo de tres entradas alimentado por un triángulo de canales de entrada, tres canales de salida interiores y una dirección dominante. La vista es útil para comprender la distribución de componentes de la señal dominante.
Las figuras 6A y 6B son diagramas de bloques funcionales que muestran, respectivamente, una configuración adecuada para: (1) generar la energía total estimada para cada entrada de un módulo, como respuesta a la energía total en cada entrada, y (2) como respuesta a una medida de la correlación cruzada de las señales de entrada, generando un componente de factor de escala de energía del punto extremo en exceso, para cada uno de los puntos extremos del módulo.
La figura 7 es un diagrama de bloques funcionales que muestra una función preferida del bloque 367 de "suma y/o mayor que" de la figura 4C.
La figura 8 es una representación idealizada de la manera en la que un aspecto de la presente invención genera componentes de factor de escala, como respuesta a una medida de la correlación cruzada.
Las figuras 9A y 9B hasta las figuras 16A y 16B son una serie de representaciones idealizadas que ilustran los factores de escala de salida de un módulo, que resultan de diversos ejemplos de condiciones de entrada de la señal.
Modos de llevar a cabo la invención
Con el fin de comprobar aspectos de la presente invención, se desarrolló una configuración que tenía una serie horizontal de 5 altavoces en cada pared de una habitación de cuatro paredes (un altavoz en cada esquina con tres espaciados uniformemente entre cada esquina), 16 altavoces en total, admitiendo altavoces comunes en las esquinas, más un anillo de 6 altavoces por encima de un oyente situado en el centro, en un ángulo vertical de alrededor de 45 grados, mas un solo altavoz directamente por encima, en total 23 altavoces, mas un canal de un sub-altavoz de graves/LFE (efectos de bajas frecuencias), total 24 altavoces, todos ellos alimentados desde un ordenador personal organizado para la reproducción de 24 canales. Aunque para la forma coloquial actual de hablar, este sistema puede ser denominado como un sistema de 23.1 canales, será denominado aquí por simplicidad como un sistema de 24 canales.
La figura 1 es una vista superior en planta que muestra esquemáticamente una configuración de descodificación idealizada en la manera de la configuración de prueba que se acaba de describir. Se muestran cinco canales de entrada de amplio alcance, como se muestra con los cuadrados 1', 3', 5', 9' y 13' del círculo exterior. Se ilustra un canal vertical, que puede ser obtenido a partir de las cinco entradas de amplio alcance por medio de la correlación o reverberación generada, o proporcionado separadamente (como en la figura 2), como el cuadrado 23' en línea de puntos del centro. Los veintitrés canales de salida de amplio alcance están ilustrados como círculos sólidos numerados 1-23. El círculo exterior de dieciséis canales de salida está sobre un plano horizontal, el círculo interior de seis canales de salida está a cuarenta y cinco grados por encima del plano horizontal. El canal 23 de salida está directamente por encima de uno o más oyentes. Hay cinco módulos descodificadores de dos entradas delimitados por los corchetes 24-28, alrededor del círculo exterior, conectados entre cada pareja de canales horizontales de entrada. Hay cinco módulos descodificadores adicionales verticales de dos entradas, delimitados por los corchetes 29-33 que conectan el canal vertical con cada una de las entradas horizontales. El canal 21 de salida, el canal posterior central elevado, se obtiene a partir del módulo descodificador 34 de tres entradas, ilustrado como flechas entre el canal 21 de salida y los canales 9, 13 y 23 de entrada. Así, el módulo 34 de tres entradas está a un nivel más alto en la jerarquía que sus módulos vecinos 27, 32 y 33 de dos entradas de jerarquía inferior. En este ejemplo, cada módulo está asociado con una respectiva pareja o trío de canales de entrada espacialmente contiguos más cercanos. Cada módulo de este ejemplo tiene al menos tres vecinos del mismo nivel. Por ejemplo, los módulos 25, 28 y 29 son vecinos del módulo 24.
Aunque los módulos descodificadores representados en la figura 1 tienen, de forma diversa, tres, cuatro o cinco canales de salida, un módulo descodificador puede tener cualquier número razonable de canales de salida. Un canal de salida puede estar situado de forma intermedia entre dos o más canales de entrada, o en la misma posición que un canal de entrada. Así, en el ejemplo de la figura 1, cada emplazamiento de los canales de entrada es también un canal de salida. Dos o tres módulos descodificadores comparten cada uno de los canales de entrada.
Aunque la configuración de la figura 1 emplea cinco módulos (24-28) (cada uno de los cuales tiene dos entradas) y cinco entradas (1', 3', 5', 9' y 13') para obtener dieciséis salidas horizontales (1-16), que representan emplazamientos alrededor de las cuatro paredes de una habitación, se pueden obtener resultados similares con un mínimo de tres entradas y tres módulos (cada uno de ellos con dos entradas, compartiendo cada módulo una entrada con otro
módulo).
Empleando múltiples módulos, en los cuales cada módulo tiene canales de salida en un arco o línea (tal como en el ejemplo de las figuras 1 y 2), pueden evitarse las ambigüedades de descodificación encontradas en descodificadores de la técnica anterior, donde las correlaciones inferiores a cero son descodificadas indicando direcciones hacia atrás.
Aunque los canales de entrada y salida pueden ser caracterizados por su posición física, o al menos por su dirección, es útil caracterizarlos con una matriz, porque proporciona una relación de señales bien definida. Cada elemento de la matriz (fila i, columna j) es una función de transferencia que relaciona el canal de entrada i al canal de salida j. Los elementos de la matriz son normalmente coeficientes multiplicadores de signo, pero también pueden incluir términos de fase o retardo (en principio, cualquier filtro), y pueden ser funciones de frecuencia (en términos de frecuencia discreta, una matriz diferente en cada frecuencia). Esto es directo en el caso de factores de escala dinámicos aplicados a las salidas de una matriz fija, pero también se presta a una matrización variable, ya sea con un factor de escala diferente para cada matriz, o bien, para elementos de la matriz más elaborados que los simples factores escalares de escala, en los cuales los propios elementos de la matriz son variables, por ejemplo un retardo variable.
Hay cierta flexibilidad en hacer corresponder las posiciones físicas con elementos de la matriz; en principio, los modos de realización de aspectos de la presente invención pueden gestionar la correspondencia entre un canal de entrada y cualquier número de canales de salida, y viceversa, pero la situación más común es suponer señales en correspondencia solamente con los canales de salida más cercanos, a través de simples factores escalares que, para conservar la potencia, sus cuadrados suman 1,0. Tal correspondencia se hace a menudo a través de una función de panorámica de seno/coseno.
Por ejemplo, con dos canales de entrada y tres canales interiores de salida sobre una línea entre ellos, más los dos canales de salida de los puntos extremos, coincidentes con las posiciones de entrada, (es decir, un módulo M:N en el cual M es 2 y N es 5), se podría suponer que el alcance representa 90 grados de arco (el alcance en el que el seno y el coseno cambian de 0 a 1 o viceversa), de manera que cada canal es 90 grados/4 intervalos = 22,5 grados de separación, dando los canales unos coeficientes de la matriz de (cos(ángulo), sen(ángulo)):
Coeficientes de Lout = cos (0), sen (0) = (1, 0)
Coeficientes de MidLout = cos (22,5), sen (22,5) = (0,92, 0,38)
Coeficientes de Cout = cos (45), sen (45) = (0,71, 0,71)
Coeficientes de MidRout = cos (67,5), sen (67,5) = (0,38, 0,92)
Coeficientes de Rout = cos (90), sen (90) = (0,1)
Por tanto, para el caso de una matriz con coeficientes fijos y una ganancia variable controlada por un factor de escala en cada salida de la matriz, la salida de señal en cada uno de los cinco canales de salida es (donde "SF" es un factor de escala para una salida particular identificada por el subíndice):
Lout = Lt (SF_{L})
MidLout = ((0,92)Lt + (0,38)Rt))(SF_{MidL})
Cout = ((0,45)Lt + (0,45)Rt))(SF_{C})
MidRout = ((0,38)Lt + (0,92)Lt))(SF_{MidR})
Rout = Rt (SF_{R})
Generalmente, dada una serie de canales de entrada, uno puede unir conceptualmente las entradas más cercanas con líneas rectas, que representan módulos descodificadores potenciales. (Son "potenciales" porque si no hay ningún canal de salida que necesite ser obtenido a partir de un módulo, el módulo no es necesario). Para configuraciones típicas, cualquier canal de salida en una línea entre dos canales puede ser obtenido a partir de un módulo de dos entradas (si las fuentes y los canales de transmisión están en un plano común, cualquier fuente aparece en dos canales de entrada como mucho), en cuyo caso no hay ventaja en emplear más de dos entradas). Un canal de salida en la misma posición que un canal de entrada es un canal del punto extremo, quizás de más de un módulo. Un canal de salida que no esté sobre una línea o en la misma posición que una entrada (por ejemplo, dentro o fuera de un triángulo formado por tres canales de entrada) requiere un módulo con más de dos entradas.
Los módulos descodificadores con más de dos entradas son útiles cuando una señal común ocupa más de dos canales de entrada. Esto puede ocurrir, por ejemplo, cuando los canales fuente y los canales de entrada no están en un plano: un canal fuente puede corresponderse con más de dos canales de entrada. Esto ocurre en el ejemplo de la figura 1 cuando se hace corresponder a 24 canales (16 canales en anillo horizontal, 6 canales en anillo elevado, 1 canal vertical, mas LFE) a 6.1 canales (incluyendo un canal vertical compuesto). En ese caso, el canal posterior central del anillo elevado no está en una línea directa entre dos de los canales fuente, está en el centro de un triángulo formado por los canales Ls (13), Rs (9) y superiores (23), de manera que se requiere un módulo de tres entradas para extraerlo. Una manera de hacer corresponder los canales elevados con una serie horizontal es hacer corresponder cada uno de ellos con más de dos canales de entrada. Esto permite que los 24 canales del ejemplo de la figura 1 tengan una correspondencia con una serie convencional 5:1 de canales. En esa alternativa, una pluralidad de módulos de tres entradas puede extraer los canales elevados, y los componentes de la señal que sobran pueden ser procesados por módulos de dos entradas para extraer el anillo horizontal principal de canales.
En general, no es necesario comprobar todas las combinaciones posibles de señales comunes entre los canales de entrada. Con series planas de canales (por ejemplo, canales que representan direcciones en series horizontales), es normalmente adecuado para realizar una comparación de similitud por parejas de canales espacialmente contiguos. Para canales dispuestos en un dosel o en la superficie de una esfera, la cantidad de señal común puede extenderse a tres o más canales. El uso y la detección de la cantidad de señal común pueden ser utilizados también para transportar información adicional de la señal. Por ejemplo, un componente de señal vertical puede ser representado efectuando una correspondencia con los cinco canales de alcance total de una serie horizontal de cinco canales.
Las decisiones sobre qué combinaciones de canales de entrada han de analizarse en términos de señal común, junto con una matriz por defecto de correspondencia entrada/salida, solamente necesita hacerse una vez por cada conversor de canales de entrada/salida, o por cada configuración de funciones de conversor, al configurar el conversor o la función del conversor. La "correspondencia inicial" (antes del proceso) produce una matriz "maestra" pasiva que relaciona las configuraciones de canales de entrada/salida con la orientación espacial de los canales. Como alternativa, el procesador o parte del proceso de la invención puede generar factores de escala variables con el tiempo, uno por cada canal de salida, que modifican los niveles de señal de salida de lo que hubiera sido, en otro caso, una simple matriz pasiva o los propios coeficientes de la matriz. Los factores de escala a su vez se derivan de una combinación de componentes de señal: (a) dominante, (b) uniformemente disperso, y (c) residual (punto del extremo), como se describe a continuación.
Una matriz maestra es útil para configurar una disposición de módulos tales como los ilustrados en el ejemplo de la figura 1 y descritos con más detalle a continuación en relación con la figura 2. Examinando la matriz maestra, se puede deducir, por ejemplo, cuántos módulos descodificadores son necesarios, cómo están conectados, cuántos canales de entrada y salida tiene cada uno y los coeficientes de la matriz relativos a las entradas y salidas de cada módulo. Estos coeficientes pueden ser tomados de la matriz maestra; solamente son necesarios los valores distintos de cero, a menos que un canal de entrada sea también un canal de salida (es decir, un punto extremo).
Cada módulo tiene, preferiblemente, una matriz "local", que es aquella parte de la matriz maestra aplicable al módulo en particular. En el caso de una disposición de múltiples módulos, tal como el ejemplo de las figuras 1 y 2, el módulo puede utilizar la matriz local con el fin de generar factores de escala (o coeficientes de la matriz) para controlar la matriz maestra, como se describe a continuación en relación con las figuras 2 y 4A-4C, o con el fin de generar un subconjunto de señales de salida, siendo ensambladas dichas señales de salida por un proceso central, tal como un supervisor como se describe en relación con la figura 2. Tal supervisor, en este último caso, compensa las múltiples versiones de la misma señal de salida, producida por módulos que tienen una señal de salida común, de una manera análoga a la manera en la cual el supervisor 201 de la figura 2 determina un factor de escala final, para sustituir los factores de escala preliminares producidos por módulos que generan los factores de escala preliminares para el mismo canal de salida.
En el caso de múltiples módulos que producen factores de escala en lugar de señales de salida, tales módulos puede obtener continuamente la información de la matriz que es relevante para sí misma, desde una matriz maestra a través de un supervisor, en lugar de tener una matriz local. Sin embargo, se requiere menor sobrecarga de cálculo si el módulo tiene su matriz local. En el caso de un solo módulo autónomo, el módulo tiene una matriz local, que es la única matriz requerida (en efecto, la matriz local es la matriz maestra), y esa matriz local se utiliza para producir señales de salida.
A menos que se indique lo contrario, las descripciones de modos de realización de la invención que tienen múltiples módulos, son con referencia a la alternativa en la cual los módulos producen los factores de escala.
Cualquier canal de salida de módulo descodificador, con solo un coeficiente distinto de cero en la matriz local del módulo, (ese coeficiente es 1,0, ya que los coeficientes al cuadrado y sumados dan como resultado 1,0), es un punto extremo del canal. Los canales de salida con más de un coeficiente distinto de cero, son canales de salida interior. Considérese un ejemplo sencillo. Si los canales de salida O1 y O2 se obtienen ambos a partir de los canales de entrada I1 e I2 (pero con distintos valores de los coeficientes), se necesita entonces un módulo de 2 entradas conectado entre I1 e I2, generando las salidas O1 y O2, posiblemente entre otras. En un caso más complejo, si hay 5 entradas y 16 salidas, y uno de los módulos descodificadores tiene entradas I1 e I2, y alimenta las salidas O1 y O2 de manera que:
O1 = A I1 + B I2 + O I3 + O I4 + O I5
(obsérvese que no hay contribución de los canales de entrada I3, I4 o I5), y
O2 = C I1 + D I2 + O I3 + O I4 + O I5
(obsérvese que no hay contribución de los canales de entrada I3, I4 o I5),
entonces el descodificador puede tener dos entradas (I1 e I2), dos salidas, y los factores de escala relativos a ellos son:
O1 = A I1 + B I2, y
O2 = C I1 + D I2.
Tanto la matriz maestra como la matriz local, en el caso de un solo módulo autónomo, puede tener elementos de la matriz que funcionen proporcionando más que una multiplicación. Por ejemplo, como se ha indicado anteriormente, los elementos de la matriz pueden incluir una función de filtro, tal como un término de fase o retardo, y/o un filtro que es una función de la frecuencia. Un ejemplo de filtrado que puede ser aplicado, es una matriz de retardos puros que puede obtener imágenes fantasma proyectadas. En la práctica, tal matriz maestra o local puede ser dividida, por ejemplo, en dos funciones, una que emplea coeficientes para obtener canales de salida, y una segunda que aplica una función de filtrado.
La figura 2 es un diagrama de bloques funcionales que proporciona una visión global de un modo de realización de transformada multibanda que implementa el ejemplo de la figura 1. Una entrada de audio PCM, por ejemplo, que tenga múltiples canales entrelazados de señales de audio, es aplicada a un supervisor o función supervisora 201 (en adelante "supervisor 201"), que incluye un dispositivo para deshacer el entrelazado que recupera cadenas separadas de cada uno de los seis canales de señal de audio (1', 3', 5', 9', 13' y 23') que lleva la entrada entrelazada, y aplica cada uno de ellos a una transformación de dominio de tiempo a dominio de frecuencia, o función de transformación (en adelante "transformación directa"). Alternativamente, los canales de audio pueden ser recibidos en cadenas separadas, en cuyo caso no se requiere el dispositivo para deshacer el entrelazado.
Como se ha indicado anteriormente, la conversión de la señal de acuerdo con la presente invención puede ser aplicada a señales de banda ancha, o bien a cada banda de frecuencias de un procesador multibanda, que pude emplear un banco de filtros, tal como un banco de filtros discreto de banda crítica, o bien un banco de filtros que tenga una estructura de banda compatible con un descodificador asociado, o una configuración de transformación, tal como una FFT (Transformada Rápida de Fourier) o bien un banco de filtros lineal MDCT (Transformada Discreta Modificada del Coseno). Las figuras 2, 4A-4C y otras figuras están descritas en el contexto de una configuración de transformada multibanda.
No ilustrado en las figuras 1, 2 y otras figuras, por simplicidad, hay un canal opcional de entrada LFE (un canal potencial de séptima entrada en las figuras 1 y 2) y un canal de salida (un canal potencial de salida núm. 24 en las figuras 1 y 2). El canal LFE puede ser tratado generalmente de la misma manera que los demás canales de entrada y salida, pero con su propio factor de escala fijado en "1" y su propio coeficiente de matriz fijado también en "1". En casos en los que los canales fuente no tienen LFE pero los canales de salida sí lo tienen (por ejemplo, una mezcla hacia arriba de 2:5.1), un canal LFE puede ser obtenido utilizando un filtro paso bajo (por ejemplo, un filtro de Butterworth de quinto orden con una frecuencia de corte de 120 Hz) aplicado a la suma de canales, o bien, para evitar la cancelación al sumar los canales, puede emplearse una suma corregida en fase de los canales. En los casos en que la entrada tenga un canal LFE, pero no la salida, el canal LFE puede ser añadido a uno o más de los canales de salida.
Continuando con la descripción de la figura 2, los módulos 24-34 reciben las entradas apropiadas de las seis entradas 1', 3', 5', 9', 13' y 23' de la manera ilustrada en la figura 1. Cada módulo genera una salida de factor de escala preliminar ("PSF") para cada uno de los canales de audio asociados con él, como se ilustra en la figura 1. Así, por ejemplo, el módulo 24 recibe las entradas 1' y 3' y genera salidas de factor de escala preliminar, PSF1, PSF2 y PSF3. Alternativamente, como se ha mencionado anteriormente, cada módulo puede generar un conjunto preliminar de salidas de audio para cada uno de los canales de salida de audio asociados con él. Cada módulo puede comunicarse también con un supervisor 201, como se explica con más detalle a continuación. La información enviada desde el supervisor 201 a diversos módulos puede incluir información de nivel del vecino e información del nivel del vecino de orden superior, si lo hay. La información enviada al supervisor desde cada módulo puede incluir la energía total estimada de las salidas interiores atribuibles a cada una de las entradas del módulo. Los módulos pueden ser considerados parte de una porción generadora de señal de control del sistema global de la figura 2.
Un supervisor, tal como el supervisor 201 de la figura 2, puede realizar varias funciones diversas. Un supervisor puede determinar, por ejemplo, si hay más de un módulo en uso y, si no lo hay, el supervisor no necesita realizar ninguna función relativa a niveles vecinos. Durante la inicialización, el supervisor puede informar al módulo o a cada módulo el número de entradas y salidas que tiene, los coeficientes de la matriz relativa a ellos, y la tasa de muestreo de la señal. Como ya se ha mencionado, puede leer los bloques de muestras PCM entrelazadas y desenlazarlas en canales independientes. Puede aplicar una acción no limitadora en el dominio del tiempo, por ejemplo, como respuesta a información adicional que indique que la señal fuente estaba limitada en amplitud y el grado de esa limitación. Si el sistema está funcionando en modo multibanda, puede aplicar ventanas y un banco de filtros (por ejemplo, FFT, MDCT, etc.) a cada canal (de forma que múltiples módulos no realicen transformaciones redundantes que aumenten sustancialmente la sobrecarga de proceso) y pasar cadenas de valores transformados a cada módulo para su proceso. Cada módulo devuelve al supervisor una serie bidimensional de factores de escala: un factor de escala para todos los almacenamientos binarios transformados en cada sub-banda de cada canal de salida (cuando se trata de una configuración de transformación multibanda, en otro caso, un factor de escala por canal de salida) o, alternativamente, una serie bidimensional de señales de salida: un conjunto de almacenamientos binarios de transformaciones complejas para cada sub-banda de cada canal de salida (cuando se trata de una configuración de transformación multibanda, en otro caso, una señal de salida por cada canal de salida). El supervisor puede suavizar los factores de escala y aplicarlos a la matriz de caminos de señales (matriz 203 descrita más adelante), para obtener (en una configuración de transformación multibanda) espectros complejos de canales de salida. Alternativamente, cuando el módulo genera señales de salida, el supervisor puede obtener los canales de salida (espectros complejos de canales de salida, en una configuración de transformada multibanda), compensando las matrices locales que generan la misma señal de salida. Puede entonces realizar una transformada inversa mas formación de ventanas y suma solapada, en el caso de MDCT, para cada canal de salida, entrelazando las muestras de salida para formar una cadena de salida multicanal compuesta (o bien, opcionalmente, puede omitir el entrelazado para proporcionar múltiples cadenas de salida), y lo envía a un fichero de salida, tarjeta de sonido u otro destino final.
Aunque pueden ser realizadas diversas funciones por medio de un supervisor, como se ha descrito aquí, o por medio de múltiples supervisores, una persona con experiencia normal en la técnica apreciará que varias funciones o todas las funciones pueden ser realizadas en los propios módulos en lugar de hacerlo por un supervisor común a todos o a algunos de los módulos. Por ejemplo, si solamente hay un módulo autónomo, no es necesario que haya distinción entre funciones de módulo y funciones de supervisor. Aunque, en el caso de múltiples módulos, un supervisor común puede reducir la potencia global de proceso requerida, eliminando o reduciendo tareas de proceso redundantes, la eliminación de un supervisor común o de su simplificación puede permitir que los módulos se sumen fácilmente unos con otros, por ejemplo, para pasar a un grado superior de más canales de salida.
Volviendo a la descripción de la figura 2, las seis entradas 1', 3', 5', 9', 13' y 23' son aplicadas también a una matriz variable o función 203 de matrización variable (en adelante "matriz 203"). La matriz 203 puede ser considerada como parte del camino de la señal del sistema de la figura 2. La matriz 203 recibe también, como entradas del supervisor 201, un conjunto de factores finales de escala SF1 a SF23 para cada uno de los 23 canales de salida del ejemplo de la figura 1. Los factores de escala finales pueden ser considerados como salida de la parte de la señal de control del sistema de la figura 2. Como se explica con más detalle a continuación, el supervisor 201 pasa, como factores de escala finales a la matriz, los factores de escala preliminares para cada canal de salida "interior", pero el supervisor determina los factores de escala finales para cada canal de salida del punto extremo, como respuesta a la información que recibe de los módulos. Un canal de salida "interior" es intermedio entre los dos o más canales de salida del "punto extremo" de cada módulo. Alternativamente, si los módulos generan señales de salida en lugar de factores de escala, no se requiere la matriz 203; el propio supervisor genera las señales de salida.
En el ejemplo de la figura 1, se supone que los canales de salida del punto extremo coinciden con los emplazamientos de los canales de entrada, aunque no es necesario que coincidan, como se estudia con más detalle en otro lugar. Así, los canales de salida 2, 4, 6-8, 10-12, 14-16, 17, 18, 19, 20, 21 y 22 son canales de salida interiores. El canal de salida interior 21 es intermedio o está encerrado entre tres canales de entrada (canales de entrada 9', 13' y 23'), mientras que los demás canales interiores son intermedios (entre ellos o encerrados por los corchetes), cada uno de ellos, entre dos canales de entrada. Debido a que hay múltiples factores de escala preliminares para aquellos canales de salida de los puntos extremos que están compartidos entre dos o más módulos (es decir, los canales de salida 1, 3, 5, 9, 13 y 23), el supervisor 201 determina los factores de escala finales (SF1, SF3, etc.) de los puntos extremos entre los factores de escala SF1 a SF23. Los factores de escala finales de salidas interiores (SF2, SF4, SF6, etc.) son los mismos que los factores de escala preliminares.
La figura 3 es un diagrama de bloques funcionales, útil para comprender la manera en la que un supervisor, tal como el supervisor 201 de la figura 2, puede determinar un factor de escala de un punto extremo. El supervisor no suma todas las salidas de los módulos que comparten una entrada para obtener un factor de escala del punto extremo. En lugar de eso, combina aditivamente, por ejemplo en un combinador 301, la energía interior total estimada para una entrada, desde cada módulo que comparte la entrada, tal como la entrada 9', que es compartida por los módulos 26 y 27 de la figura 2. Esta suma representa el nivel de energía total en la entrada reivindicada por las salidas interiores de todos los módulos conectados. Después resta esa suma del nivel de energía de entrada suavizado en esa entrada (por ejemplo, la salida del dispositivo suavizador 325 o 327 de la figura 4B, como se describe a continuación) de cualquiera de los módulos que comparten la entrada (módulo 26 o módulo 27 en este ejemplo), por ejemplo en un combinador 303. Basta elegir cualquiera de las entradas suavizadas de los módulos en la entrada común, aunque los niveles puedan diferir ligeramente de módulo a módulo, porque los módulos ajustan, cada uno de ellos, sus constantes de tiempo independientemente uno del otro. La diferencia, en la salida del combinador 303, es el nivel de energía de la señal de salida deseado en esa entrada, no permitiendo que ese nivel de energía tenga un valor por debajo de cero. Al dividir el nivel deseado de la señal de salida por el nivel de entrada suavizado en esa entrada, por ejemplo en el divisor 305, y realizando una operación de raíz cuadrada, por ejemplo en el bloque 307, se obtiene el factor de escala final (SF9 en este ejemplo) para esa salida. Obsérvese que el supervisor obtiene un único factor de escala para cada una de tales entradas compartidas, independientemente de cuántos módulos comparten la entrada. Se describe a continuación una configuración para determinar la energía total estimada de las salidas interiores, atribuible a cada una de las entradas a los módulos, en relación con la figura 6A.
Debido a que los niveles son niveles de energía (una cantidad de segundo orden), en oposición a las amplitudes (una cantidad de primer orden), tras la operación de división, se aplica una operación de raíz cuadrada con el fin de obtener el factor de escala final (factores de escala asociados con las cantidades de primer orden). La suma de niveles interiores y la substracción del nivel total de la entrada se realizan todos ellos en una sentido de energía pura, porque se supone que las salidas interiores de diferentes interiores de módulos son independientes (no tienen correlación). Si esta suposición no es cierta en una situación anormal, el cálculo puede dar más señal sobrante en la entrada de la que debería, lo que puede originar una ligera distorsión espacial en el campo acústico reproducido (por ejemplo, un ligero corrimiento de otras imágenes interiores cercanas hacia la entrada), pero en la misma situación, el oído humano reacciona de forma similar. Los factores de escala de canales de salida interiores, tales como el PSF 6 al PSF 8 del módulo 26, son traspasados por el supervisor como factores de escala finales (no son modificados). Por simplicidad, la figura 3 muestra solamente la generación de uno de los factores de escala finales del punto extremo. Otros factores de escala finales de punto extremo pueden ser obtenidos de manera similar.
Volviendo a la descripción de la figura 2, como se ha mencionado anteriormente, en la matriz variable 203, la variabilidad puede ser complicada (todos los coeficientes variables) o sencilla (coeficientes que varían por grupos, tales como son aplicados a las entradas o las salidas de una matriz fija). Aunque puede emplearse cualquier solución para producir sustancialmente los mismos resultados, se ha averiguado que una de las soluciones más simples, es decir, una matriz fija seguida por una ganancia variable para cada salida (la ganancia de cada salida controlada por factores de escala), produce resultados satisfactorios y es empleada en los modos de realización aquí descritos. Aunque una matriz variable en la que cada coeficiente de la matriz es utilizable, tiene la desventaja de tener más variables y requerir más potencia de proceso.
El supervisor 201 realiza también una suavización opcional en el dominio de tiempos de los factores de escala, antes de ser aplicados a la matriz variable 203. En un sistema de matriz variable, los canales de salida nunca están "apagados", los coeficientes están configurados para reforzar algunas señales y cancelar otras. Sin embargo, un sistema de matriz fija y ganancia variable, como se ha descrito en los modos de realización de la presente invención, apaga y enciende los canales y es más susceptible de tener artefactos indeseables de "cotorreo". Esto puede ocurrir a pesar de la suavización de dos etapas descrita a continuación (por ejemplo, los suavizadores 319/325, etc.). Por ejemplo, cuando un factor de escala es próximo a cero, debido a que solamente se necesita un pequeño cambio para pasar de "pequeño" a "ninguno" y al revés, las transiciones hacia y desde cero pueden originar un cotorreo audible.
La suavización opcional realizada por el supervisor 201, suaviza preferiblemente los factores de escala de salida con constantes de tiempo variables que dependen del tamaño de la diferencia absoluta ("abs-diff") entre valores instantáneos de factores de escala obtenidos nuevamente y un valor en ejecución del factor de escala suavizado. Por ejemplo, si la abs-diff es mayor que 0,4, (y, naturalmente, <= 1,0), hay poca o ninguna suavización aplicada; se aplica una pequeña cantidad adicional de suavización a valores de abs-diff entre 0,2 y 0,4; y por debajo de valores de 0,2, la constante de tiempo es una función continua inversa de la abs-diff. Aunque estos valores no son críticos, se ha averiguado que reducen los artefactos audibles de cotorreo. Opcionalmente, en una versión multibanda de un módulo, las constantes de tiempo suavizadoras de factores de escala pueden ser escalares también con la frecuencia, así como con el tiempo, en la manera de los suavizadores de frecuencia 413, 415 y 417 de la figura 4A, descrita a continuación.
Como se ha afirmado anteriormente, la matriz variable 203 es, preferiblemente, una matriz descodificadora fija con factores de escala (ganancias) variables en las salidas de la matriz. Cada canal de salida de la matriz puede tener coeficientes (fijos) de la matriz, que hubieran sido los coeficientes de codificación con mezcla descendente para ese canal, si hubiera habido un codificador con entradas discretas (en lugar de mezclar canales fuente directamente para la serie mezclada descendentemente, lo cual evita la necesidad de un codificador discreto). Los coeficientes al cuadrado suman, preferiblemente, 1,0 para cada canal de salida. Los coeficientes de la matriz son fijos una vez que se conoce dónde están los canales de salida (como se ha estudiado con respecto a la matriz "maestra"); mientras que los factores de escala, que controlan la ganancia de salida de cada canal, son dinámicos.
Las entradas que comprenden almacenamientos binarios de transformadas en el dominio de frecuencias, aplicados a los módulos 24-34 de la figura 2, pueden ser agrupados en sub-bandas de frecuencia por cada módulo, después de calcular las cantidades iniciales de energía y energía común a nivel del almacenamiento binario, como se explica con más detalle a continuación. Por tanto, hay un factor de escala preliminar (PSF en la figura 2) y un factor de escala final (SF en la figura 2) para cada sub-banda de frecuencia. Los canales de salida 1-23 del dominio de frecuencias generados por la matriz 203, comprenden cada uno de ellos un conjunto de almacenamientos binarios de transformadas (grupos con tamaño de sub-banda de almacenamientos binarios son tratados por el mismo factor de escala). Los conjuntos de almacenamientos binarios de transformadas en el dominio de frecuencias son convertidos a un conjunto de canales de salida PCM 1-23, respectivamente, por una transformada de dominio de frecuencia a dominio de tiempo, o función de transformación 205 (en adelante "transformada inversa"), que puede ser una función del supervisor 201, pero se ilustra separadamente con fines de claridad. El supervisor 201 puede entrelazar los canales PCM 1-23 resultantes para proporcionar una sola cadena entrelazada de salida PCM o dejar los canales de salida PCM como cadenas separadas.
Las figuras 4A-4C muestran un diagrama de bloques funcionales de un módulo según un aspecto de la presente invención. El módulo recibe dos o más cadenas de señales de entrada desde un supervisor, tal como el supervisor 201 de la figura 2. Cada entrada comprende un conjunto de almacenamiento binarios de transformadas del dominio de frecuencias de valor complejo. Cada entrada, de 1 a m, es aplicada a una función o dispositivo (tal como la función o dispositivo 401 para la entrada 1 y una función o dispositivo 403 para la entrada m), que calcula la energía de cada almacenamiento binario, que es la suma de los cuadrados de los valores reales e imaginarios de cada almacenamiento binario de transformada (solamente se ilustran los caminos para dos entradas, 1 y m, para simplificar el dibujo). Cada una de las entradas es aplicada también a una función o dispositivo 405 que calcula la energía común de cada almacenamiento binario a través de los canales de entrada del módulo. En el caso de un modo de realización FFT, ésta puede calcularse tomando el producto cruzado de las muestras de entrada (en el caso de dos entradas, L y R, por ejemplo, la parte real del producto complejo del valor complejo del almacenamiento binario L y el conjugado complejo del valor complejo del almacenamiento binario R). Los modos de realización que utilizan valores reales solamente necesitan efectuar la multiplicación cruzada del valor real de cada entrada. Para más de dos entradas, puede emplearse la técnica especial de la multiplicación cruzada descrita a continuación, es decir, si todos los signos son iguales, al producto se le da un signo positivo, en otro caso se le da un signo negativo y es escalado por la relación del número de resultados positivos posibles (siempre dos: o son todos positivos o todos negativos) con el número de resultados negativos posibles.
Cálculo por parejas de la Energía Común
Por ejemplo, supóngase una pareja A/B de canales de entrada que contiene una señal común X junto con señales individuales, sin correlación, Y y Z.
A = 0,707X + Y
B = 0,707X + Z
donde los factores de escala de 0,707 = \sqrt{0,5} proporcionan una correspondencia de conservación de energía con los canales de entrada más cercanos.
Energ\text{í}a \ eficaz(A) = \int A^{2} \partial t = \overline{A^{2}} = \overline{(0.707 \ X+Y^{2})} = \overline{(0.5 \ X^{2} + 0.707 \ XY+Y^{2})} = 0.5\overline{X^{2}} + 0.707 \ \overline{XY} + \overline{Y^{2}}
Como X e Y no tienen correlación,
\overline{XY} = 0
Por tanto:
\overline{A^{2}} = 0.5 \ \overline{X^{2}} + \overline{Y^{2}}
es decir, como X e Y no tienen correlación, la energía total del canal de entrada A es la suma de las energías de las señales X e Y.
De forma similar:
\overline{B^{2}} = 0.5 \ \overline{X^{2}} + \overline{Z^{2}}
Como X, Y y Z no tienen correlación, el producto cruzado medio de A y B es:
\overline{AB} = 0.5 \ \overline{X^{2}}
Por tanto, en el caso de una señal de salida compartida igualmente por dos canales de entrada vecinos que pueden contener también señales independientes sin correlación, el producto cruzado medio de las señales es igual a la energía del componente de la señal común en cada canal. Si la señal común no es compartida por igual, es decir, si es puesta en panorámica hacia una de las entradas, el producto cruzado medio será la media geométrica entre la energía de los componentes comunes en A y B, de los que pueden obtenerse estimaciones de energía de canal común individual normalizados por la raíz cuadrada de la relación de amplitudes de los canales. Los promedios de tiempo reales son etapas de suavización calculadas posteriormente, como se describe a continuación.
Cálculo de orden superior de la Energía Común
Con el fin de obtener la energía común de módulos descodificadores con tres o más entradas, es necesario formar los productos cruzados medios de todas las señales de entrada. La simple realización del proceso por parejas de las entradas falla en diferenciar las señales de salida separadamente entre cada pareja de entradas y una señal común a todas.
Considérese, por ejemplo, tres canales de entrada, A, B y C, hechos de señales W, Y, Z sin correlación y una señal común X:
A = X + W
B = X + Y
C = X + Z
Si se calcula el producto cruzado medio, todos los términos que impliquen combinaciones de W, Y y Z se cancelan, como en el cálculo de segundo orden, llevando al promedio de X^{3}:
\overline{ABC} = \overline{X^{3}}
Desafortunadamente, si X es una señal de tiempo medio cero, como es de esperar, el promedio de su cubo es cero. A diferencia de X^{2}, que es positiva para cualquier valor distinto de cero de X, X^{3} tiene el mismo signo que X, de manera que las contribuciones positiva y negativa tienden a cancelarse. Obviamente, esto mismo es aplicable a cualquier potencia impar de X, correspondiente a un número impar de entradas del módulo, pero los exponentes pares mayores que dos pueden llevar también a resultados erróneos; por ejemplo, cuatro entradas con componentes (X, X, -X, -X) tendrán el mismo producto/promedio que (X, X, X, X).
Este problema puede resolverse empleando una variante de la técnica del producto medio. Antes de promediarlo, se descarta el signo de cada producto tomando el valor absoluto del producto. Se examinan los signos de cada término del producto. Si son iguales, se aplica el valor absoluto del producto al promediador. Si cualquiera de los signos es diferente de los demás, se promedia el negativo del valor absoluto del producto. Como el número de combinaciones posibles del mismo signo puede no ser igual al número de combinaciones posibles de signo diferente, se aplica un factor de ponderación comprendido por la relación del número de combinaciones del mismo signo a las de signo diferente al negativo del valor absoluto para compensarlo. Por ejemplo, un módulo de tres entradas tiene dos formas de que los signos sean iguales, entre ocho posibilidades, dejando seis posibles formas de que los signos sean diferentes, dando como resultado un factor de escala de 2/6 = 1/3. Esta compensación hace que el producto integrado o sumado crezca en dirección positiva cuando, y solo cuando, hay un componente de señal común a todas las entradas de un módulo descodificador.
Sin embargo, con el fin hacer comparables los promedios de módulos de orden diferente, todos ellos deben tener las mismas dimensiones. Un correlación convencional de segundo orden implica promedios de multiplicaciones de dos entradas y, por tanto, de cantidades con las dimensiones de energía o potencia. Por tanto, los términos a promediar en correlaciones de orden superior deben ser modificados también para que tengan las dimensiones de una potencia. Para una correlación de orden k, los valores absolutos de los productos individuales deben ser elevados por tanto a la potencia 2/k antes de ser promediados.
Naturalmente, independientemente del orden, las energías de entrada individuales de un módulo, si fuera necesario, pueden ser calculadas como el promedio del cuadrado de la correspondiente señal de entrada, y no necesita ser elevado primero a la potencia k y reducido después a una cantidad de segundo orden.
Volviendo a la descripción de la figura 4, las salidas de almacenamientos binarios de transformadas de cada uno de los bloques, pueden ser agrupadas en sub-bandas por medio de una respectiva función o dispositivo 407, 409 y 411. Las sub-bandas pueden aproximarse a las bandas críticas del oído humano, por ejemplo. El resto del modo de realización del módulo de las figuras 4A-4C funciona separada e independientemente en cada sub-banda. Con el fin de simplificar el dibujo, solamente se ilustra el funcionamiento de una sub-banda.
Cada sub-banda de los bloques 407, 409 y 411 es aplicada a un suavizador de frecuencias, o función 413, 415 y 417 de suavización de frecuencias (en adelante "suavizador de frecuencias"), respectivamente. El propósito de los suavizadores de frecuencias se explica a continuación. Cada sub-banda suavizada en frecuencia de un suavizador de frecuencia es aplicada a suavizadores "rápidos" opcionales o funciones 419, 421 y 423 de suavización (en adelante "suavizadores rápidos"), respectivamente, que proporcionan una suavización en el dominio de tiempos. Aunque son preferibles, los suavizadores rápidos pueden ser omitidos cuando la constante de tiempo de los suavizadores rápidos está próxima al tiempo de duración del bloque de la transformada directa que generó los almacenamientos binarios de entrada (por ejemplo, una transformada directa en el supervisor 201 de la figura 1). Los suavizadores rápidos son "rápidos" con respecto a los suavizadores "lentos" de constante de tiempo variable o funciones 425, 427 y 429 de suavización (en adelante "suavizadores lentos") que reciben las respectivas salidas de los suavizadores rápidos. A continuación se ofrecen ejemplos de valores de constantes de tiempo de suavizadores rápidos y
lentos.
\newpage
Por tanto, si se proporciona una suavización rápida por medio de una operación inherente de una transformada directa o bien por medio de un suavizador rápido, es preferible una acción de dos etapas en la cual la segunda etapa, más lenta, es variable. Sin embargo, una sola etapa de suavización puede proporcionar resultados aceptables.
Las constantes de tiempo de suavizadores lentos están, preferiblemente, sincronizadas entre sí dentro de un modulo. Esto puede conseguirse, por ejemplo, aplicando la misma información de control a cada suavizador lento y configurando cada suavizador lento para que responda de la misma manera a la información de control aplicada. La obtención de información para controlar los suavizadores lentos se describe a continuación.
Preferiblemente, cada pareja de suavizadores está en serie, de la misma manera que las parejas 419/425, 421/427 y 423/429, como se ilustra en las figuras 4A y 4B, en las cuales un suavizador rápido alimenta a un suavizador lento. Una disposición en serie tiene la ventaja de que la segunda etapa es resistente a puntas de señal cortas y rápidas en la entrada de la pareja. Sin embargo, se pueden obtener resultados similares configurando las parejas de suavizadores en paralelo. Por ejemplo, en una disposición paralela la resistencia de la segunda etapa en una disposición en serie a las puntas de señal cortas y rápidas puede ser abordada en la lógica de un controlador de constantes de tiempo.
Cada etapa de los suavizadores de dos etapas puede ser implementada por medio de un filtro de paso bajo de un solo polo (un "integrador con fugas"), tal como un filtro RC de paso bajo (en un modo de realización analógico) o, de manera equivalente, un filtro paso bajo de primer orden (en un modo de realización digital). Por ejemplo, en un modo de realización digital, los filtros de primer orden pueden ser realizados, cada uno de ellos, como un filtro "bicuadrático", un filtro general IIr de segundo orden, en el cual algunos de los coeficientes son puestos a cero para que el filtro funcione como filtro de primer orden. Alternativamente, los dos suavizadores pueden ser combinados en una sola etapa bicuadrática de segundo orden, aunque es más sencillo calcular valores de coeficientes para la segunda etapa (variable) si está separada de la primera etapa (fija).
Debe observarse que en el modo de realización de las figuras 4A, 4B y 4C, todos los niveles de la señal son expresados como niveles de energía (cuadrados), a menos que se requiera una amplitud tomando la raíz cuadrada. Se aplica la suavización a los niveles de energía de señales aplicadas, haciendo que los suavizadores detecten valores eficaces, en lugar de valores medios (los suavizadores de detección de valores medios son alimentados por amplitudes lineales): Debido a que las señales aplicadas a los suavizadores son niveles al cuadrado, los suavizadores reaccionan a aumentos repentinos del nivel de la señal más rápidamente que los suavizadores de valor medio, ya que los aumentos son magnificados por la función de elevar al cuadrado.
Los suavizadores de dos etapas proporcionan por tanto un promedio de tiempos para cada sub-banda de energía de cada canal de entrada (la del primer canal es proporcionada por el suavizador lento 425 y la del canal m-simo por el suavizador lento 427) y el promedio de cada sub-banda de la energía común de los canales de entrada (proporcionada por el suavizador lento 429).
Las salidas de energía media de los suavizadores lentos (425, 427, 429) son aplicadas a los combinadores 431, 433 y 435, respectivamente, en los que: (1) los niveles de energía vecinos (si los hay) (del supervisor 201 de la figura 2, por ejemplo), son restados del nivel de energía suavizado de cada uno de los canales de entrada, y (2), los niveles de energía vecinos de orden superior (si los hay) (del supervisor 201 de la figura 2, por ejemplo), son restados de cada uno de las salidas de energía media de los suavizadores lentos. Por ejemplo, cada módulo que recibe la entrada 3' (figuras 1 y 2) tiene dos módulos vecinos y recibe información de nivel de energía de los vecinos que compensa el efecto de esos dos módulos vecinos. Sin embargo, ninguno de esos módulos es un módulo de "orden superior" (es decir, todos los módulos que comparten el canal 3' de entrada son módulos de dos entradas). Como contraste, el módulo 28 (figuras 1 y 2) es un ejemplo de un módulo que tiene un módulo de orden superior que comparte una de sus entradas. Así, por ejemplo, en el módulo 28, la salida de energía media desde un suavizador lento para la entrada 13', recibe una compensación del nivel vecino de orden superior.
Los niveles de energía resultantes "compensados por el vecino" para cada sub-banda de cada una de las entradas del módulo son aplicadas a una función o dispositivo 437 que calcula una dirección nominal principal progresiva de esos niveles de energía. La indicación de la dirección puede ser calculada como el vector suma de las entradas ponderadas por la energía. Para un módulo de dos entradas, esto se simplifica siendo la relación L/R de los niveles de energía de la señal de entrada suavizada y compensada en vecinos.
Supóngase, por ejemplo, una serie circundante plana en la cual las posiciones de los canales vienen dadas como duales que representan las coordenadas x, y para el caso de dos entradas. Se supone que el oyente del centro está, por ejemplo, en (0, 0). El canal frontal izquierdo, en coordenadas espaciales normalizadas, se supone que está, por ejemplo, en (1, 1). El canal frontal derecho está en (-1, 1). Si la amplitud (Lt) de entrada de la izquierda es 4 y la amplitud (Rt) de entrada de la derecha es 3, utilizando esas amplitudes como factores de ponderación, la dirección principal nominal progresiva es:
(4*(1, 1) + 3*(-1, 1)) / (4 + 3) = (0,143, 1)
o ligeramente hacia la izquierda del centro, sobre una línea horizontal que conecta la Derecha y la Izquierda.
Alternativamente, una vez definida una matriz maestra, la dirección espacial puede ser expresada en coordenadas de matriz, en lugar de coordenadas físicas. En ese caso, las amplitudes de entrada, normalizadas para que sus cuadrados sumen uno, son las coordenadas efectivas de la matriz de la dirección. En el ejemplo anterior, los niveles izquierdo y derecho son 4 y 3, que normalizados son 0,8 y 0,6. Consecuentemente, la "dirección" es (0,8, 0,6). En otras palabras, la dirección nominal principal progresiva es la versión normalizada con suma de cuadrados igual a uno de la raíz cuadrada de los niveles de energía de entrada suavizados con compensación de vecinos. El bloque 337 genera el mismo número de salidas, indicando una dirección espacial, que el número de entradas que hay en el módulo (dos en este ejemplo).
Los niveles de energía suavizados con compensación de vecinos, para cada sub-banda de cada una de las entradas del módulo aplicadas a la función de determinación de la dirección o dispositivo 337, son aplicadas también a una función o dispositivo 339 que calcula la correlación cruzada con compensación de vecinos ("neighbor-compensated_xcor"). El bloque 339 recibe también como entrada la energía común media de las entradas del módulo para cada sub-banda desde el suavizador variable lento 329, que ha sido compensado en el combinador 335 por niveles de energía de vecinos de orden superior, si los hay. La correlación cruzada con compensación de vecinos se calcula en el bloque 339 como la energía común suavizada y compensada de orden superior, dividida por la raíz M-sima, donde M es el número de entradas, del producto de los niveles de energía suavizados y con compensación de vecinos para cada uno de los canales de entrada del módulo, para obtener una verdadera correlación matemática en la gama de 1,0 a -1,0. Preferiblemente, los valores de 0 a -1,0 se consideran cero. La correlación cruzada con compensación de vecinos proporciona una estimación de la correlación cruzada que existe en ausencia de otros módulos.
La "correlación cruzada con compensación de vecinos" del bloque 339 es aplicada después a un dispositivo de ponderación o función 341, que pondera la "correlación cruzada con compensación de vecinos" con la información de dirección con compensación de vecinos para generar una correlación cruzada con compensación de vecinos y ponderación de la dirección ("direction-weighted_xcor"). La ponderación aumenta a medida que la dirección nominal principal progresiva se aparta de una condición centrada. En otras palabras, unas amplitudes (y por tanto, energías) de entrada desiguales originan un aumento proporcional de la correlación cruzada ponderada con la dirección La correlación cruzada ponderada con la dirección proporciona una estimación de lo compactas que son las imágenes. Así, en el caso de un módulo de dos entradas que tenga, por ejemplo, entradas izquierda L y derecha R, la ponderación aumenta a medida que la dirección se aparta del centro hacia la derecha o hacia la izquierda (es decir, la ponderación es la misma en cualquier dirección para el mismo grado de separación del centro). Por ejemplo, en el caso de un módulo de dos entradas, el valor de la "correlación cruzada con compensación de vecinos" es ponderado por una relación L/R o R/L, tal que una contribución desigual de la señal hace que la correlación cruzada ponderada con la dirección tenga propensión hacia 1,0. Para tal módulo de dos entradas,
cuando R>=L
direction-weighted_xcor=(1-((1- neighbor-compensated_xcor) * (L/R)), y
cuando R<L,
direction-weighted_xcor=(1-((1- neighbor-compensated_xcor) * (R/L))
Para módulos con más de dos entradas, el cálculo de la correlación cruzada ponderada con la dirección a partir de la correlación cruzada con compensación de vecinos requiere, por ejemplo, sustituir la relación L/R o R/L en lo anterior por una medida de "equidad" que varía entre 1,0 y 0. Por ejemplo, para calcular la medida de equidad de cualquier número de entradas, se normalizan los niveles de la señal de entrada por la potencia total de entrada, dando como resultado los niveles de entrada normalizados que suman, en el sentido de la energía (cuadrado), 1,0. Dividir cada nivel de entrada normalizado por el nivel de entrada normalizado de forma similar de una señal centrada de la serie. La relación más pequeña se convierte en la medida de equidad. Por tanto, por ejemplo, para un módulo de tres entradas con una entrada que tenga nivel cero, la medida de equidad es cero, y la correlación cruzada ponderada con la dirección es igual a uno. (En ese caso, la señal está en el límite del módulo de tres entradas, en una línea entre dos de sus entradas, y un módulo de dos entradas (menor en la jerarquía) decide en qué lugar de la línea está la dirección principal nominal progresiva, y cómo de ancha la señal de salida debe extenderse a lo largo de la línea).
Volviendo a la descripción de la figura 4B, la correlación cruzada ponderada con la dirección es ponderada también por su aplicación a una función o dispositivo 443 que aplica una ponderación "random_xcor" para generar una "effective_xcor" (correlación cruzada efectiva). La effective_xcor proporciona una estimación de la forma de distribución de las señales de entrada.
La correlación cruzada aleatoria es el producto cruzado medio de las magnitudes de entrada dividido por la raíz cuadrada de las energías medias de entrada. El valor de la correlación cruzada aleatoria puede ser calculado suponiendo que los canales de entrada eran originalmente canales de entrada a módulos, y calculando el valor de correlación cruzada que resulte de todos esos canales que tengan señales independientes pero de igual nivel, siendo mezcladas descendentemente de forma pasiva. De acuerdo con esta solución, para el caso de un módulo de tres salidas con dos entradas, la correlación cruzada aleatoria se calcula en 0,333 y, para el caso de un módulo de cinco salidas (tres salidas interiores) con dos entradas, la correlación cruzada aleatoria se calcula en 0,483. El valor de la correlación cruzada aleatoria solamente necesita ser calculado una vez para cada módulo. Aunque se ha averiguado que tales valores de la correlación cruzada aleatoria proporcionan resultados satisfactorios, los valores no son críticos y pueden emplearse otros valores a discreción del diseñador del sistema. Un cambio en el valor de la correlación cruzada aleatoria afecta a la línea divisoria entre los dos regímenes de funcionamiento del sistema de distribución de señales, como se describe a continuación. El lugar preciso de esa línea divisoria no es crítico.
La ponderación de la correlación cruzada aleatoria realizada por la función o dispositivo 343 puede ser considerada como una re-normalización del valor de la correlación cruzada ponderada con la dirección, de forma tal que se obtiene una correlación cruzada efectiva:
effective_xcor = (direction-weigthed_xcor - random_xcor)/(1-random_xcor),
\hskip0,3cm
si direction-weigthed_xcor > = random_xcor)
effective_xcor t = 0
\hskip0,3cm
en cualquier otro caso.
La ponderación de random_xcor acelera la reducción de direction-weigthed_xcor a medida que direction-weigthed_xcor disminuye por debajo de 1,0, de forma tal que cuando direction-weighted_xcor es igual a random_xcor, el valor de effective_xcor es cero. Debido a que las salidas de un módulo representan direcciones a lo largo de un arco o línea, los valores de effective_xcor inferiores a cero son tratados como iguales a cero.
La información para controlar los suavizadores lentos 325, 327 y 329, es obtenida a partir de las energías de los canales de entrada suavizados lenta y rápidamente y sin compensación de vecinos, y a partir de la energía común de los canales de entrada suavizados lenta y rápidamente. En particular, una función o dispositivo 345 calcula una correlación cruzada rápida sin compensación de vecinos, como respuesta a las energías de canales de entrada suavizados rápidamente y a la energía común de los canales de entrada suavizados rápidamente. Una función o dispositivo 347 calcula una dirección sin compensación rápida de vecinos (relación o vector, como se ha estudiado anteriormente en relación con la descripción del bloque 337) como respuesta a las energías de canales de entrada con suavización rápida. Una función o dispositivo 349 calcula una correlación cruzada lenta sin compensación de vecinos, como respuesta a las energías de los canales de entrada suavizados lentamente y a la energía común de los canales de entrada suavizados lentamente. Una función o dispositivo 351 calcula una dirección sin compensación lenta de vecinos, (relación o vector) como se ha estudiado anteriormente), como respuesta a las energías de canales de entrada con suavización lenta. La correlación cruzada sin compensación rápida de vecinos la dirección sin compensación rápida de vecinos, la correlación cruzada sin compensación lenta de vecinos y la correlación cruzada sin compensación lenta de vecinos, junto con la correlación cruzada ponderada con la dirección del bloque 341, son aplicadas a un dispositivo o función 353 que proporciona la información para controlar los suavizadores lentos variables 325, 327 y 329, para ajustar sus constantes de tiempo (en adelante "ajustar constantes de tiempo"). Preferiblemente, la misma información de control es aplicada a cada suavizador lento variable. A diferencia de otras cantidades alimentadas a la caja de selección de constantes de tiempo, que compara una medida rápida con una lenta, la correlación cruzada ponderada con la dirección es utilizada preferiblemente sin referencia a ningún valor rápido, de forma tal que si el valor absoluto de la correlación cruzada ponderada con la dirección es mayor que un umbral, puede originar el ajuste de constantes de tiempo 353 para seleccionar una constante de tiempo más rápida. Las reglas para la operación de "ajuste de constantes de tiempo" 353 son establecidas a continuación.
Generalmente, en un sistema dinámico de audio, es deseable utilizar constantes de tiempo lentas tanto como sea posible, quedándose en un valor inactivo, para hacer mínima la interrupción audible del campo acústico reproducido, a menos que ocurra un "nuevo evento" en la señal de audio, en cuyo caso es deseable que una señal de control cambie rápidamente a un nuevo valor inactivo, y permanezca en ese valor hasta que ocurra un nuevo evento. Típicamente, los sistemas de tratamiento de audio han considerado iguales los cambios en amplitud con un "nuevo evento". Sin embargo, cuando se trata de productos cruzados o correlación cruzada, la novedad y la amplitud no siempre se corresponden por igual: un nuevo evento puede originar una disminución en la correlación cruzada. Al detectar cambios en los parámetros relevantes para el funcionamiento del módulo, es decir, medidas de correlación cruzada y de dirección, las constantes de tiempo de un módulo pueden acelerarse y asumir rápidamente un nuevo estado de control como se desee.
Las consecuencias de un comportamiento dinámico inadecuado incluyen el comportamiento errático, el cotorreo (un canal que se apaga y enciende rápidamente), el bombeo (cambios de nivel no naturales) y, en un modo de realización de multibanda, chirridos (cotorreos y bombeo sobre la base de banda a banda). Algunos de estos efectos son especialmente críticos para la calidad de canales aislados.
Un modo de realización tal como el de las figuras 1 y 2, emplea una retícula de módulos de descodificación. Tal configuración da como resultado dos clases de problemas dinámicos: dinámica entre módulos y dinámica interna a los módulos. Además, las diversas maneras de implantar el tratamiento de audio (por ejemplo banda ancha, multibanda utilizando FFT o un banco de filtros lineal MDCT, o un banco de filtros discreto, banda crítica o no), requieren cada una de ellas su propia optimización de comportamiento dinámico.
El proceso básico de descodificación dentro de cada módulo depende de una medida de las relaciones de energía de las señales de entrada y de una medida de la correlación cruzada de las señales de entrada (en particular, la correlación con compensación de dirección (direction-weighted_xcor) descrita anteriormente; el bloque 341 de salida de la figura 4B), las cuales, todas juntas, controlan la distribución de señales entre las salidas del un módulo. La obtención de tales cantidades básicas requiere la suavización, la cual, en el dominio de tiempos, requiere calcular un promedio ponderado en el tiempo de los valores instantáneos de esas cantidades. La gama de constantes de tiempo requeridas en bastante grande: muy cortas (1 ms, por ejemplo) para cambios transitorios rápidos en las condiciones de la señal, a muy largos (150 ms, por ejemplo) para valores de correlación bajos, donde la variación instantánea es probable que sea mucho mayor que el verdadero valor promediado.
Un método común de implementar un comportamiento de constantes de tiempo variables es, en términos analógicos, el uso de un diodo de "aceleración". Cuando el nivel instantáneo excede del nivel medio en una cantidad umbral, el diodo conduce, dando como resultado una constante de tiempo efectiva más corta. Un inconveniente de esta técnica es que un pico momentáneo en una entrada que es por otra parte de régimen permanente, puede causar un gran cambio en el nivel suavizado, el cual decae muy lentamente, proporcionando un énfasis no natural de picos aislados que en otro caso tendrían poca consecuencia audible.
El cálculo de la correlación descrito en conexión con el modo de realización de las figuras 4A-4C, hace problemático el uso de diodos de aceleración (o de su DSP equivalente). Por ejemplo, todos los suavizadores dentro de un módulo en particular tienen, preferiblemente, constantes de tiempo sincronizadas, de manera que sus niveles suavizados son compatibles. Por tanto, es preferible un mecanismo global (agrupado) de conmutación de constantes de tiempo. Además, no hay asociado necesariamente un cambio rápido de las condiciones de la señal con un aumento del nivel de energía común. Utilizando un diodo de aceleración para este nivel, es probable que se produzcan estimaciones sesgadas e imprecisas de la correlación. Por tanto, los modos de realización de aspectos de la presente invención utilizan, preferiblemente, una suavización de dos etapas sin una aceleración equivalente al diodo. Las estimaciones de correlación y dirección pueden ser obtenidas al menos a partir de la primera y segunda etapa de los suavizadores para fijar una constante de tiempo de la segunda etapa.
Para cada pareja de suavizadores, (por ejemplo, 319/325), la constante de tiempo de la primera etapa, la etapa rápida fijada, puede ser fijada en un valor fijo, tal como 1 ms. Las constantes de tiempo de la segunda etapa, la etapa lenta variable, pueden ser seleccionadas, por ejemplo, entre 10 ms (rápidas), 30 ms (medias) y 150 ms (lentas). Aunque se ha averiguado que tales constantes de tiempo proporcionan resultados satisfactorios, sus valores no son críticos y pueden emplearse otros valores a discreción del diseñador del sistema. Además, los valores de las constantes de tiempo de la segunda etapa, pueden ser continuamente variables en lugar de discretos. La selección de las constantes de tiempo puede estar basada no solamente en las condiciones de la señal descritas anteriormente, sino también en un mecanismo de histéresis utilizando un "señalizador rápido", que se utiliza para asegurar que una vez encontrada una transición rápida genuina, el sistema permanece en modo rápido, evitando el uso de la constante de tiempo media, hasta que las condiciones de la señal vuelven a habilitar a la constante de tiempo lenta. Esto puede ayudar a asegurar una rápida adaptación a unas nuevas condiciones de la señal.
La selección de cuál de las tres posibles constantes de tiempo de la segunda etapa puede conseguirse mediante el "ajuste de constantes de tiempo" 353, de acuerdo con las reglas siguientes para el caso de dos entradas:
Si el valor absoluto de la correlación cruzada ponderada con la dirección es inferior al primer valor de referencia (por ejemplo 0,5) y la diferencia absoluta entre la non-neighbor-compensated_xcor rápida (correlación cruzada rápida sin compensación de vecinos) y la non-neighbor-compensated_xcor lenta es inferior al mismo primer valor de referencia, y la diferencia absoluta entre las relaciones de dirección rápida y lenta (cada una de las cuales tiene una gama entre +1 y -1) es inferior al mismo primer valor de referencia, se utilizará entonces la constante de tiempo lenta de la segunda etapa, y el señalizador rápido se fija en Verdadero, habilitando una selección posterior de la constante de tiempo media.
Por otra parte, si el señalizador rápido es Verdadero, la diferencia absoluta entre la correlación cruzada sin compensación de vecinos rápida y lenta es mayor que el primer valor de referencia y menor que el segundo valor de referencia, (por ejemplo, 0,75), la diferencia absoluta entre las relaciones L/R temporales rápida y lenta es mayor que el primer valor de referencia y menos que el segundo valor de referencia, y el valor absoluto de la correlación cruzada ponderada con la dirección es mayor que el primer valor de referencia y menor que el segundo valor de referencia, entonces se selecciona la constante de tiempo media de la segunda etapa.
En otro caso, se utiliza la constante de tiempo rápida de la segunda etapa, y el señalizador rápido se fija en Falso, inhabilitando el uso posterior de la constante de tiempo media hasta que se selecciona de nuevo la constante de tiempo lenta.
En otras palabras, se elige la constante de tiempo lenta cuando las tres condiciones son inferiores al primer valor de referencia, se elige la constante de tiempo media cuando todas las condiciones están entre un primer valor de referencia y un segundo valor de referencia y la condición anterior era la constante de tiempo lenta, y se elige la constante de tiempo rápida cuando cualquiera de las condiciones es mayor que el segundo valor de referencia.
Aunque se ha averiguado que las reglas y los valores de referencia que se acaban de establecer han producido resultados satisfactorios, no son críticos y pueden emplearse a discreción del diseñador del sistema variaciones en las reglas u otras reglas que tengan en cuenta la correlación cruzada rápida y lenta y la dirección rápida y lenta. Además, pueden hacerse otros cambios. Por ejemplo, puede ser más simple, pero igualmente efectivo, utilizar un proceso del tipo de diodo de aceleración, pero con una operación de grupo, de manera que si cualquier suavizador de un módulo está en el modo rápido, los demás suavizadores estén también conmutados al modo rápido. También puede ser deseable tener suavizadores independientes para la determinación de la constante de tiempo y la distribución de la señal, manteniendo los suavizadores, para la determinación de constantes de tiempo, con constantes de tiempo fijas, y variando solamente las constantes de tiempo de la distribución de la señal.
Debido a que, incluso en el modo rápido, los niveles de señal suavizados requieren varios milisegundos para adaptarse, puede efectuarse un retardo de tiempo en el sistema para permitir que se adapten las señales de control antes de aplicarlas a un camino de la señal. En un modo de realización de banda ancha, este retardo puede ser realizado como un retardo discreto (por ejemplo, 5 ms), en el camino de la señal. En versiones multibanda (transformadas), el retardo es una consecuencia natural del proceso de bloques, y si se realiza el análisis de un bloque antes de la matrización del camino de la señal de ese bloque, puede no requerirse ningún retardo explícito.
Los modos de realización multibanda de aspectos de la invención pueden utilizar las mismas constantes de tiempo y reglas que las versiones de banda ancha, excepto que la tasa de muestreo de los suavizadores debe ser fijada en la tasa de muestreo de la señal dividida por el tamaño del bloque (por ejemplo, la tasa del bloque), de manera que los coeficientes utilizados en los suavizadores son ajustados apropiadamente.
Para frecuencias por debajo de 400 Hz, en modos de realización multibanda, las constantes de tiempo son, preferiblemente, escaladas inversamente a la frecuencia. En la versión de banda ancha, esto no es posible en cuanto que no hay suavizadores independientes a frecuencias diferentes, por tanto, como compensación parcial, puede aplicarse un filtro suave de paso de banda/pre-énfasis a la señal de entrada al camino de control, para enfatizar las frecuencias medias y medias superiores. Este filtro puede tener, por ejemplo, una característica bipolar de paso alto con una frecuencia de corte en 200 Hz, mas una característica bipolar de paso bajo, con una frecuencia de corte en 8000 Hz, mas una red de pre-énfasis que aplica una elevación de 6 dB desde 400 Hz hasta 800 Hz y otra elevación de 6 dB desde 1600 Hz hasta 3200 Hz. Aunque tal filtro se ha encontrado adecuado, las características del filtro no son críticas y pueden emplearse otros parámetros a discreción del diseñador del sistema.
Además de la suavización en el dominio del tiempo, las versiones multibanda de aspectos de la invención emplean también, preferiblemente, una suavización en el dominio de frecuencias, como se ha descrito en relación con la figura 4A (suavizadores de frecuencia 413, 415 y 417). Para cada bloque, los niveles de energía con compensación de vecinos pueden ser promediados con una ventana de frecuencia deslizante, ajustada aproximadamente a una anchura de banda de 1/3 de octava (banda crítica), antes de ser aplicados al subsiguiente proceso en el dominio de tiempos descrito anteriormente. Como los bancos de filtros basados en transformadas tienen una resolución de frecuencias intrínsecamente lineal, la anchura de esta ventana (en número de coeficientes de transformación) aumenta cuando aumenta la frecuencia, y tiene normalmente solamente un coeficiente de transformación de anchura a bajas frecuencias (por debajo de alrededor de 400 Hz). Por tanto, la suavización total aplicada al proceso multibanda se apoya más en la suavización en el dominio de tiempos a bajas frecuencias, y en la suavización en el dominio de frecuencias a frecuencias más altas, donde es probable que sea más necesaria a veces una rápida respuesta en el tiempo.
Volviendo a la descripción de la figura 4C, los factores de escala preliminares (ilustrados como "PSF" en la figura 2), que afectan finalmente a la distribución de señales dominantes/de relleno/del punto extremo, pueden ser generados mediante una combinación de dispositivos o funciones 455, 457 y 459 que calculan los componentes de factores de escala "dominantes", los componentes de factores de escala "de relleno" y los componentes de factores de escala de "energía en exceso del punto extremo", respectivamente, los respectivos normalizadores o funciones normalizadoras 361, 363 y 365, y un dispositivo o función 367 que toma el mayor de los componentes de factores de escala dominantes y de relleno y/o la combinación aditiva de los componentes de factores de escala de energía de relleno y de exceso del punto extremo. Los factores de escala preliminares pueden ser enviados a un supervisor, tal como el supervisor 201 de la figura 2, si el módulo es uno entre una pluralidad de módulos. Los factores de escala preliminares pueden tener, cada uno de ellos, una gama que va desde cero a uno.
Componentes de factores de escala dominantes
Además de recibir la correlación cruzada efectiva, el dispositivo o función 355 ("calcular componentes de factores de escala dominantes"), recibe la información de dirección con compensación de vecinos desde el bloque 337, e información relativa a los coeficientes de matriz local desde una matriz local 369, de manera que puede determinar los N canales de salida más cercanos (donde N = número de entradas) que pueden ser aplicados a una suma ponderada para obtener las coordenadas de la dirección principal nominal progresiva y aplicar los componentes de factores de escala "dominantes" a ellas para obtener las coordenadas dominantes. La salida del bloque 355 es un componente de factor de escala (por sub-banda), si sucede que la dirección principal nominal progresiva coincide con una dirección de salida o bien, en otro caso, componentes múltiples de factores de escala (uno por número de entradas por sub-banda) que abarcan la dirección principal nominal progresiva y aplicados en proporciones apropiadas para poner en panorámica o hacer corresponder la señal dominante con el lugar virtual correcto en un sentido de conservación de la potencia (es decir, para N = 2, los cuadrados de los componentes de factores de escala asignados para el canal dominante deben sumar la correlación cruzada efectiva).
Para un módulo de dos entradas, todos los canales de salida están en una línea o en un arco, de manera que hay una ordenación natural (de "izquierda" a "derecha"), y es fácil adivinar qué canales están próximos entre sí. Para el caso hipotético estudiado anteriormente con dos canales de entrada y cinco canales de salida, con coeficientes de sen/cos como está ilustrado, la dirección principal nominal progresiva puede suponerse que es (0,8, 0,6), entre el canal ML Medio Izquierdo (0,92, 0,38) y el canal central C (0,71, 0,71). Esto puede conseguirse encontrando dos canales consecutivos donde el coeficiente L sea mayor que la coordenada L de la dirección principal nominal progresiva, y el canal a su derecha tenga un coeficiente L menor que la coordenada dominante L.
Los componentes de factores de escala dominantes son repartidos entre los dos canales más próximos en el sentido de potencia constante. Para hacer esto, se resuelve un sistema de dos ecuaciones con dos incógnitas, siendo las incógnitas el componente de factor de escala de componente dominante del canal de la izquierda de la dirección dominante (SFL), y el correspondiente componente de factor de escala a la derecha de la dirección principal nominal progresiva (SFR) (estas ecuaciones resuelven los valores de SFL y SFR).
primera_coordenada_dominante = SFL * valor 1 de la matriz del canal-izquierdo + SFR * valor 1 de la matriz del canal-derecho
segunda_coordenada_dominante = SFL * valor 2 de la matriz del canal-izquierdo + SFR * valor 2 de la matriz del canal-derecho
Obsérvese que canal-izquierdo y -derecho significan los canales que abarcan la dirección principal nominal progresiva, no los canales L y R de entrada al módulo.
La solución son los cálculos de nivel anti-dominante de cada canal, normalizados a la suma de cuadrados en 1,0 y utilizados como componentes de factores de escala dominantes de distribución (SFL, SFR), cada uno para el otro canal. En otras palabras, el valor anti-dominante de un canal de salida con coeficientes A y B, para una señal con coordenadas C, D es el valor absoluto de AD-BC. Para el ejemplo numérico que se está considerando:
Anti-dom (canal ML) = abs (0,92*0,6 - 0,38*0,8) = 0,248
Anti-dom (canal C) = abs (0,71*0,6 - 0,71*0,8) = 0,142
(donde "abs" indica tomar el valor absoluto).
Normalizando los dos últimos números para que la suma de sus cuadrados sea 1,0 se obtienen los valores de 0,8678 y 0,4969 respectivamente. Así, conmutando estos valores a los canales opuestos, los componentes de factores de escala dominantes son (obsérvese que el valor del factor de escala dominante, antes de la ponderación de la dirección, es la raíz cuadrada de la correlación cruzada efectiva):
ML dom sf = 0,4969* raíz cuadrada de (correlación cruzada efectiva)
C dom sf = 0,8678* raíz cuadrada de (correlación cruzada efectiva)
(la señal dominante está más cerca de Cout que de MidLout).
El uso de un componente antidominante de un canal, normalizado, como el componente de factor de escala dominante del otro canal, puede comprenderse mejor considerando lo que sucede si ocurre que la dirección principal nominal progresiva apunta exactamente a uno de los dos canales elegidos. Supóngase que los coeficientes de un canal son [A, B] y los coeficientes del otro canal son [C, D] y las coordenadas de la dirección principal nominal progresiva son [A, B] (apuntando al primer canal), entonces:
Antidom (primer canal) = abs (AB-BA)
Antidom (segundo canal) = abs (CB-DA)
Obsérvese que el primer valor antidominante es cero. Cuando dos señales antidominantes son normalizadas para que sus cuadrados sumen 1,0, el segundo valor antidominante es 1,0. Cuando se conmutan, el primer canal recibe un componente de factor de escala dominante de 1,0 (por la raíz cuadrada de la correlación cruzada efectiva), y el segundo canal recibe 0,0 como se desea.
Cuando esta solución se extiende a módulos con más de dos entradas, ya no existe la ordenación natural que tiene lugar cuando los canales están en una línea o en un arco. De nuevo, el bloque 337 de la figura 4B, por ejemplo, calcula las coordenadas de la dirección principal nominal progresiva tomando las amplitudes de entrada, tras la compensación de vecinos, y normalizándolos para que la suma de sus cuadrados sea uno. El bloque 455 de la figura 4B, por ejemplo, identifica entonces los N canales más cercanos (donde N = número de entradas) que pueden ser aplicados a una suma ponderada para obtener las coordenadas dominantes. (Nota: la distancia o proximidad puede ser calculada como la suma de las diferencias de las coordenadas al cuadrado, como si fueran coordenadas espaciales (x, y, z). Así, no siempre se escogen los N canales más cercanos, porque tienen que ser sumados ponderadamente para obtener la dirección principal nominal progresiva.
Por ejemplo, supóngase que se tiene un módulo de tres entradas alimentado por un triángulo de canales: Ls, Rs y Superior como en la figura 5. Supóngase que hay tres canales interiores de salida juntos y muy cerca de la parte inferior del triángulo con coeficientes de matriz local del módulo de [0,71, 0,69, 0,01], [0,70, 0,70, 0,01] y [0,69, 0,71, 0,01], respectivamente. Supóngase que la dirección principal nominal progresiva está ligeramente por debajo del centro del triángulo, con coordenadas [0,6, 0,6 0,53]. (Nota: el centro del triángulo tiene coordenadas [0,5, 0,5, 0,707]. Los tres canales más cercanos a la dirección principal nominal progresiva son los tres canales interiores de la parte inferior, pero no se suman a las coordenadas dominantes utilizando factores de escala entre 0 y 1, de manera que en lugar de eso se eligen dos de la parte inferior y el canal superior del punto extremo para distribuir la señal dominante, y se resuelven las tres ecuaciones para los tres factores de ponderación, con el fin de completar el cálculo dominante y seguir con los cálculos del relleno y del punto extremo.
En los ejemplos de las figuras 1 y 2, hay solamente un módulo de tres entradas y se utiliza para obtener solamente un canal interior, lo cual simplifica los cálculos.
Componentes de los factores de escala de relleno
Además de la correlación cruzada efectiva, el dispositivo o función 357 ("calcular componentes de factores de escala de relleno") recibe la random_xcor, la direction-weighted_xcor del bloque 341, la "EQUIAMPL" ("EQUIAMPL" es definida y explicada más adelante), y la información relativa a los coeficientes de matriz local de la matriz local (en el caso de que no se aplique el mismo componente de factor de escala de relleno a todas las salidas, como se explica más adelante con relación a la figura 14B).
La salida del bloque 457 es un componente de factor de escala para cada salida del módulo (por sub-banda).
Como se ha explicado anteriormente, correlación cruzada efectiva es cero cuando la direction-weighted_xcor es menor o igual a random_xcor. Cuando direction-weighted_xcor >= random_xcor, el componente de factor de escala de relleno para todos los canales de salida es
Componente de factor de escala de relleno = raíz cuadrada de (1 - effective_xcor) * EQUIAMPL
Así, cuando direction-weighted_xcor = random_xcor, la effective_xcor es 0, de manera que (1-effective_xcor) es 1,0, por lo que el componente de factor de escala de amplitud de relleno es igual a EQUIAMPL (asegurándose de que potencia de salida = potencia de entrada en esa condición). Ese punto es el valor máximo que alcanzan los componentes del factor de escala de relleno.
Cuando weighted_xcor es inferior a random_xcor, el componente o componentes de factores de escala dominantes es (son) cero y los componentes del factor de escala de relleno son reducidos a cero a medida que la correlación cruzada ponderada con la dirección se acerca a cero:
Componente de factor de escala de relleno = raíz cuadrada (direction-weighted_xcor / random_xcor) * EQUIAMPL
Así, en el límite, cuando la direction-weighted_xcor = random_xcor, el componente de factor de escala preliminar de relleno es nuevamente igual a EQUIAMPL, asegurando la continuidad con los resultados de la ecuación anterior para el caso en que direction-weighted_xcor sea mayor que random_xcor.
Asociado con cada módulo descodificador, no solamente hay un valor de la correlación cruzada aleatoria sino también un valor de "EQUIAMPL", que es el valor del factor de escala que deberían tener todos los factores de escala si las señales están distribuidas por igual de forma tal que se conserve la potencia, es decir:
EQUIAMPL = raíz cuadrada de (Número de canales de entrada del módulo descodificador / Número de canales de salida del módulo descodificador)
Por ejemplo, para un módulo de dos entradas con tres salidas:
EQUIAMPL = sqrt (2/3) = 0,8165
donde "sqrt()" significa "raíz cuadrada de ()"
Para un módulo de dos entradas con 4 salidas:
EQUIAMPL = sqrt (2/4) = 0,7071
Para un módulo de dos entradas con 5 salidas:
EQUIAMPL = sqrt (2/5) = 0,6325
Aunque se ha encontrado que tales valores de EQUIAMPL proporcionan resultados satisfactorios, los valores no son críticos y pueden emplearse otros valores a discreción del diseñador del sistema. Los cambios en el valor de EQUIAMPL afectan a los niveles de los canales de salida para la condición de "relleno" (correlación intermedia de las señales de entrada) con respecto a los niveles de los canales de salida para la condición "dominante" (condición máxima de las señales de entrada) y para la condición de "todos los puntos extremos" (correlación mínima de las señales de entrada):
Componentes de los factores de escala del punto extremo
Además de recibir la correlación cruzada con compensación de vecinos (a partir del bloque 439, figura 4B), el dispositivo o función 359 ("calcular los componentes de factores de escala de la energía en exceso del punto extremo") recibe la respectiva energía suavizada sin compensación de vecinos 1ª a m-sima (de los bloques 325 y 327) y, opcionalmente, información relativa a los coeficientes de matriz local de la matriz local (en el caso de que una o ambas salidas del punto extremo del módulo no coincidan con una entrada y el módulo aplique la energía del punto de exceso a las dos salidas con direcciones más cercanas a la dirección de entrada, como se describe con más detalle más adelante). La salida del bloque 359 es un componente del factor de escala para cada salida del punto extremo si las direcciones coinciden con las direcciones de entrada, en otro caso dos componentes de factores de escala, una para cada una de las salidas más cercanas al extremo, como se explica a continuación.
Sin embargo, los componentes de factores de escala de energía en exceso del punto extremo generados por el bloque 359 no son los únicos componentes de factores de escala del "punto extremo". Hay otras tres fuentes de componentes de factores de escala del punto extremo (dos en el caso de un solo módulo autónomo):
Primero, dentro de los cálculos de factores de escala preliminares de un módulo particular, los puntos extremos son posibles candidatos como componentes de factores de escala preliminares del bloque 355 (y normalizador 361).
Segundo, en el cálculo del "relleno" del bloque 357, (y del normalizador 363) de la figura 4C, los puntos extremo son tratados como posibles candidatos de relleno, junto con todos los canales interiores. Cualquier componente de factor de escala de relleno distinto de cero puede ser aplicado a todas las salidas, incluso los puntos extremos y las salidas dominantes elegidas.
Tercero, si hay una retícula de múltiples módulos, un supervisor (tal como el supervisor 201 del ejemplo de la figura 2), realiza una cuarta asignación final de los canales del "punto extremo", como se ha descrito anteriormente con relación a las figuras 2 y 3.
Para que el bloque 459 calcule los componentes de factores de escala de la "energía en exceso del punto extremo", la energía total de todas las salidas interiores es reflejada hacia atrás a las entradas del módulo, basándose en la correlación cruzada con compensación de vecinos, para estimar cuánta energía de las salidas interiores es contribuida por cada entrada ("energía interior en la entrada ‘n'") y esa energía se utiliza para calcular el componente del factor de escala del exceso de energía del punto extremo en cada salida del módulo que es coincidente con una entrada (es decir, un punto extremo).
Se requiere también reflejar la energía interior para que vuelva a las entradas con el fin de proporcionar información que necesita un supervisor, tal como el supervisor 201 de la figura 2, para calcular los niveles vecinos y los niveles de vecinos de orden superior. En las figuras 6A y 6B se ilustra una manera de calcular la contribución de energía interior en cada una de las entradas del módulo y para determinar el componente del factor de escala de la energía en exceso del punto extremo para cada salida de punto extremo.
Las figuras 6A y 6B son diagramas de bloques funcionales que ilustran, respectivamente, en un módulo, tal como cualquiera de los módulos 24-34 de la figura 2, una configuración adecuada para: (1) generar la energía total estimada para cada entrada de un módulo, de 1 a m, como respuesta a la energía total en cada entrada, de 1 a m, y (2) como respuesta a la correlación cruzada con compensación de vecinos (véase la figura 4B, la salida del bloque 439), generar un componente de factor de escala de energía en exceso del punto extremo para cada uno de los puntos extremos del módulo. La energía interior total estimada para cada entrada de un módulo, (figura 6A), es requerida por el supervisor, en el caso de una configuración con múltiples módulos y, en cualquier caso, por el propio módulo con el fin de generar los componentes de factor de escala de la energía en exceso del punto extremo.
Utilizando los componentes de factor de escala obtenidos en los bloques 455 y 457 de la figura 4C, junto con otra información, la configuración de la figura 6A calcula la energía total estimada en cada salida interior (pero no en sus salidas de punto extremo). Utilizando los niveles de energía de salida interior calculados, multiplica cada nivel de salida por el coeficiente de la matriz que relaciona esa salida con cada entrada ["m" entradas, "m" multiplicadores], que proporciona la contribución de energía de esa entrada para esa salida. Para cada entrada, suma todas las contribuciones de energía de todos los canales interiores de salida para obtener la contribución de energía interior total de esa entrada. La contribución de energía total interior de cada entrada es remitida al supervisor y utilizada por el módulo para calcular el componente de factor de escala de energía en exceso del punto extremo para cada salida de punto extremo.
Haciendo referencia la figura 6A con detalle, el nivel suavizado de energía total para cada entrada del módulo (preferiblemente sin compensación de vecinos), es aplicada a un conjunto de multiplicadores, un multiplicador por cada una de las salidas interiores del módulo. Por simplicidad en la presentación, la figura 6A muestra dos entradas, "1" y "m" y dos salidas interiores "X" y "Z". El nivel suavizado de energía total para cada entrada del módulo es multiplicado por un coeficiente de la matriz, (de la matriz local del módulo), que relaciona la entrada particular con una de las salidas interiores del módulo (obsérvese que los coeficientes de la matriz son sus propios inversos, porque los coeficientes al cuadrado de la matriz suman uno). Esto se hace para cada combinación de entrada y salida interior. Así, como se ilustra en la figura 6A, el nivel suavizado de la energía total en la entrada 1 (que puede ser obtenido, por ejemplo, en la salida del suavizador lento 425 de la figura 4B) es aplicado a un multiplicador 601 que multiplica ese nivel de energía por un coeficiente de la matriz que relaciona la salida interior X con la entrada 1, proporcionando un componente escalado X_{1} de nivel de energía de salida en la salida X. De forma similar, los multiplicadores 603, 605 y 607 proporcionan componentes escalados X_{m}, Z_{1} y Z_{m} de nivel de energía.
Los componentes de nivel de energía para salida interior (por ejemplo, X_{1} y X_{m}; Z_{1} y Z_{m}) son sumados en los combinadores 611 y 613 en forma de amplitud/potencia, de acuerdo con la correlación cruzada con compensación de vecinos. Si las entradas a un combinador están en fase, indicado con una correlación cruzada con compensación de vecinos de 1,0, sus amplitudes lineales se suman. Si no tienen ninguna correlación, indicada por una correlación cruzada con compensación de vecinos de cero, sus niveles de energía se suman. Si la correlación cruzada está entre uno y cero, la suma es en parte una suma de amplitudes y en parte una suma de potencias. Con el fin de sumar apropiadamente las entradas a cada combinador, la suma de amplitudes y la suma de potencias son calculadas y ponderadas por la correlación cruzada con compensación de vecinos y por (1-correlación cruzada con compensación de vecinos), respectivamente. Con el fin de obtener la suma ponderada, se toma la raíz cuadrada de la suma de potencias, para obtener una amplitud equivalente, o bien se eleva al cuadrado la suma de las amplitudes lineales para obtener su nivel de potencia antes de efectuar la suma ponderada. Por ejemplo, tomando esta última solución, (suma ponderada de potencias), si los niveles de amplitud son 3 y 4, la correlación cruzada con compensación de vecinos es, la suma de amplitudes es 3+4=7, o un nivel de potencia de 49 y la suma de energía de potencias es 9 + 16 = 25. De manera que la suma ponderada es 0,7*49+(1-0,7)*25 = 41,8 (nivel de energía de potencias) o, tomando la raíz cuadrada, 6,47.
Los productos de la suma (X_{1} + X_{m}; Z_{1} +Z_{m}) son multiplicados por los componentes de factores de escala para cada una de las salidas, X y Z, en los multiplicadores 613 y 615, para generar el nivel de energía total en cada salida interior, que pueden ser identificados como X' y Z'. El componente de factor de escala para cada una de las salidas interiores se obtiene del bloque 467 (figura 4C). Obsérvese que los "componentes de factores de escala de energía en exceso del punto extremo" del bloque 459 (figura 4C) no afectan a las salidas interiores y no están involucradas en los cálculos realizados por la configuración de la figura 6A.
El nivel de energía total en cada salida interior, X' y Z', es reflejado hacia atrás en las respectivas entradas del módulo, multiplicando cada una de ellas por un coeficiente de la matriz (de la matriz local del módulo) que relaciona la salida particular con cada una de las entradas del módulo. Esto se hace para cada combinación de salida interior y de entrada. Así, como se ilustra en la figura 6A, el nivel X' de energía total en la salida interior X es aplicado a un multiplicador 617 que multiplica el nivel de energía por un coeficiente de la matriz que relaciona la salida interior X con la entrada 1 (que es la misma que su inversa, como se ha indicado anteriormente), proporcionando un componente X_{1}' de nivel de energía escalado en la entrada 1.
Debe indicarse que cuando un valor de segundo orden, tal como el nivel X' de energía total, es ponderado por un valor de primer orden, tal como el coeficiente de una matriz, se requiere una ponderación de segundo orden. Esto es equivalente a tomar la raíz cuadrada de la energía para obtener una amplitud, multiplicando esa amplitud por el coeficiente de la matriz y elevando al cuadrado el resultado para volver a obtener un valor de energía.
De forma similar, los multiplicadores 619, 621 y 623 proporcionan unos niveles de energía escalada X_{m}', Z_{1}' y Z_{m}'. Los componentes de energía relativos a cada salida (por ejemplo, X_{1}' y Z_{1}', X_{m}'y Z_{m}') son sumados en los combinadores 625 y 627 en forma de amplitud/potencia, como se ha descrito anteriormente en relación con los combinadores 611 y 613, de acuerdo con la correlación cruzada con compensación de vecinos. Las salidas de los combinadores 625 y 627, representan la energía interior total estimada para las entradas 1 y m, respectivamente. En el caso de una retícula de múltiples módulos, esta información es enviada al supervisor, tal como el supervisor 201 de la figura 2, de manera que el supervisor puede calcular los niveles vecinos. El supervisor solicita todas las contribuciones de energía total interior para cada entrada de todos los módulos conectados a esa entrada, después informa a cada módulo, para cada una de sus entradas, el resultado de la suma de todas las demás contribuciones de energía interior total de todos los demás módulos conectados a esa entrada. El resultado es el nivel vecino para esa entrada de ese módulo. La generación de información de nivel vecino se describe con más detalle a continuación.
La energía interior total estimada contribuida por cada una de las entras 1 y m es también requerida por el módulo con el fin de calcular el componente de factor de escala de energía en exceso del punto extremo para cada salida de punto extremo. La figura 6B muestra cómo puede calcularse tal información del componente de factor de escala. Por simplicidad en la presentación, solamente se ilustra el cálculo de la información del componente de factor de escala para un punto extremo, comprendiéndose que se efectúa un cálculo similar para cada salida de punto extremo. La energía interior total estimada contribuida por una entrada, tal como la entrada 1, es restada en un combinador o función 629 de combinación de la energía total suavizada de entrada para la misma entrada, la entrada 1 en este ejemplo (el mismo nivel de energía total de entrada suavizada en la entrada 1, obtenida, por ejemplo, en la salida del suavizador lento 425 de la figura 4B, que es aplicada a un multiplicador 601). El resultado de la sustracción se divide en un divisor o función divisora 631, por el nivel de energía total suavizada para la misma entrada 1. La raíz cuadrada del resultado de la división se extrae en un extractor de raíz cuadrada, o función 633 de raíz cuadrada. Debe observarse que la operación del divisor o función divisora 631 (y otros divisores descritos aquí) deben incluir una prueba de denominador cero. En ese caso, el cociente puede ser fijado en cero.
Si solamente hay un único módulo autónomo, los componentes de factores de escala preliminares de punto extremo son determinados por tanto, en virtud de que se han determinado los factores de escala dominantes, de relleno y de energía en exceso del punto extremo.
Así, todos los canales de salida incluyendo puntos extremos tienen factores de escala asignados, y se puede continuar utilizándolos para realizar la matrización del camino de la señal. Sin embargo, si hay una retícula de múltiples módulos, cada uno de ellos tiene asignado un factor de escala de punto extremo para cada entrada que los alimenta, de manera que cada entrada tiene más de un módulo conectado a sus múltiples asignaciones de factores de escala, uno desde cada módulo conectado. En este caso, el supervisor (tal como el supervisor 201 del ejemplo de la figura 2) realiza una cuarta y última asignación de los canales del "punto extremo", como se ha descrito anteriormente con relación a las figuras 2 y 3, donde el supervisor determina los factores de escala finales del punto extremo que reemplazan a todas las asignaciones de factores de escala hechos por módulos individuales como factores de escala de punto extremo.
En configuraciones prácticas, no hay certeza de que haya realmente una dirección de canal de salida que corresponda a una posición de punto extremo, aunque este es el caso frecuentemente. Si no hay un canal físico de punto extremo, sino que hay al menos un canal físico más allá del punto extremo, la energía del punto extremo es puesta en panorámica para los canales físicos más cercanos al extremo, como si fueran un componente de señal dominante. En una serie horizontal, estos son los dos canales más cercanos a la posición del punto extremo, utilizando preferiblemente una distribución de energía constante (los cuadrados de los dos factores de escala suman 1,0). En otras palabras, cuando la dirección de un sonido no se corresponde con la posición de un canal de sonido real, aún cuando esa dirección es una señal de punto extremo, es preferible ponerlo en panorámica con la pareja de canales reales más próxima disponible, porque si el sonido se desplaza lentamente, salta espontáneamente de un canal de salida a otro. Así, cuando no hay un canal físico de sonido del punto extremo, no es apropiado poner en panorámica una señal de punto extremo con un canal de sonido más cercano al emplazamiento del punto extremo, a menos que no haya canal físico más allá del punto extremo, en cuyo caso no hay otra elección que ponerlo con el canal de sonido más cercano a la situación del punto extremo.
Otra manera de implementar tal puesta en panorámica es que el supervisor, tal como el supervisor 201 de la figura 2, genere factores de escala "finales" basándose en la suposición de que cada entrada tenga un correspondiente canal de salida (es decir, cada entrada y salida correspondientes sean coincidentes, representando al mismo lugar). Entonces, una matriz de salida, tal como la matriz variable 203 de la figura 2, pueden hacer corresponder un canal de salida con uno o más canales de salida apropiados, si no hay un canal de salida real que se corresponda directamente con un canal de entrada.
Como se ha mencionado anteriormente, las salidas de cada uno de los dispositivos o funciones 455, 457 y 459 de "cálculo de componentes de factores de escala", son aplicadas a los respectivos dispositivos normalizadores o funciones 461, 463 y 465. Son deseables tales normalizadores porque los factores de escala calculados por los bloques 455, 457 y 459 están basados en niveles compensados por vecinos, mientras que la matrización final del camino de la señal (en la matriz maestra, en el caso de múltiples módulos, o en la matriz local, en el caso de un módulo autónomo), implica niveles sin compensación de vecinos (las señales de entrada aplicadas a la matriz no tienen compensación de vecinos). Típicamente, los componentes de factores de escala son reducidos en valor por medio de un normalizador.
Una manera adecuada de implementar normalizadores es la siguiente. Cada normalizador recibe la energía de entrada suavizada con compensación de vecinos para cada una de las entradas del módulo (como desde los combinadores 331 y 333), la energía de entrada suavizada sin compensación de vecinos para cada una de las entradas del módulo (como desde los bloques 325 y 327), información de coeficientes de la matriz local desde la matriz local, y las respectivas salidas de los bloques 355, 357 y 359. Cada normalizador calcula una salida deseada para cada canal de salida y un nivel de salida real para cada canal de salida, suponiendo un factor de escala de 1. Después divide la salida deseada calculada para cada canal de salida por el nivel de salida real calculado para cada canal de salida, y extrae la raíz cuadrada del cociente para proporcionar un potencial factor de escala preliminar para su aplicación a la "suma y/o mayor que" 367. Considérese el ejemplo siguiente.
Supóngase que los niveles de energía suavizados con compensación de vecinos de un módulo de dos entradas son 6 y 8, y que los correspondientes niveles de energía con compensación de vecinos son 3 y 4. Supóngase también un canal de salida interior central con coeficientes de matriz = (0,71, 0,71), o al cuadrado: (0,5, 0,5). Si el módulo selecciona un factor de escala inicial para este canal (basándose en los niveles con compensación de vecinos) de 0,5, o al cuadrado = 0,25, entonces el nivel de salida deseado de este canal (suponiendo una suma de energía pura por simplicidad y utilizando niveles con compensación de vecinos) es:
0,25 * (3 * 0,5 + 4 * 0,5) = 0,875.
\newpage
Debido a que los niveles de entrada reales son 6 y 8, si se utiliza el factor de escala anterior (al cuadrado) de 0,25 para la matrización final del camino de la señal, el nivel de salida es
0,25 * (6 * 0,5 + 8 * 0,5) = 1,75
en lugar del nivel deseado de salida de 0,875. El normalizador ajusta el factor de escala para obtener el nivel de salida deseado cuando se utilizan los niveles sin compensación de vecinos.
La salida real, suponiendo SF = 1 (6 * 0,5 + 8 * 0,5) = 7.
(Nivel de salida deseado) / (Salida real suponiendo SF = 1) = 0,875 / 7,0 = 0,125 = factor de escala final al cuadrado.
El factor de escala final para ese canal de salida = raíz cuadrada (0,125) = 0,354, en lugar del valor inicialmente calculado de 0,5.
La "suma y/o mayor que" 367 suma preferiblemente los correspondientes componentes de factores de escala de relleno y del punto extremo para cada canal de salida por sub-banda, y selecciona el mayor de los componentes dominantes y de relleno de los factores de escala para cada canal de salida por sub-banda. La función del bloque 367 de "suma y/o mayor que" en esta forma preferida puede estar caracterizado como se ilustra en la figura 7. Es decir, los componentes del factor de escala dominante y los componentes del factor de escala de relleno son aplicados a un dispositivo o función 701 que selecciona el mayor de los componentes de factores de escala para cada salida ("mayor que" 701) y los aplica a un combinador aditivo o función combinadora 703, que suma los componentes de factor de escala del "mayor que" 701, con los factores de escala de energía en exceso del punto extremo para cada salida. Alternativamente, pueden obtenerse resultados aceptables cuando el bloque 467 de "suma y/o mayor que": (1) suma en ambas regiones, Región 1 y Región 2, (2) toma la mayor de ambas regiones, la región 1 y la región 2, o (3) selecciona el mayor de la Región 1 y suma en la Región 2.
La figura 8 es una representación idealizada de la manera en la que un aspecto de la presente invención genera componentes de factores de escala como respuesta a una medición de la correlación cruzada. La figura es particularmente útil haciendo referencia a los ejemplos de las figuras 9A y 9B hasta las figuras 16A y 16B. Como se ha mencionado anteriormente, la generación de componentes de factores de escala puede ser considerada como con dos regiones o regímenes de funcionamiento: una primera región, la Región 1, limitada por "todos dominantes" y "relleno uniformemente", en la cual los componentes de factor de escala disponibles son una mezcla de componentes de factores de escala dominantes y de relleno, y una segunda región, la Región 2, limitada por "uniformemente rellenos" y "todo puntos extremos", en la cual los componentes de factores de escala son una mezcla de componentes de factor de escala de relleno y de energía en exceso del punto extremo. La condición limitadora "todos dominantes" tiene lugar cuando la correlación cruzada ponderada en dirección es uno. La región 1 (dominantes más relleno) se extiende para ese límite hasta el punto en el que la correlación cruzada ponderada en dirección es igual a la correlación cruzada aleatoria, la condición de "uniformemente relleno". La condición limitadora de "todo puntos extremos" tiene lugar cuando la correlación cruzada ponderada en dirección es cero. La Región 2 (relleno más punto extremo), se extiende desde la condición limitadora "uniformemente relleno" hasta la condición limitadora de "todo puntos extremos". El punto limitador "uniformemente relleno" puede considerarse que está en la Región 1 o en la Región 2. Como se menciona más adelante, el punto limitador preciso no es crítico.
Como se ilustra en la figura 8, a medida que el componente o componentes de factores de escala dominantes reducen su valor, los componentes de factores de escala de relleno aumentan en valor, alcanzando un máximo cuando el componente o componentes de factores de escala dominantes alcanzan el valor cero, en cuyo punto, a medida que los componentes de factores de escala de relleno reducen su valor, los componentes de factores de escala de energía en exceso del punto extremo aumentan su valor. El resultado, cuando se aplica a una matriz apropiada que recibe las señales de entrada del módulo, es una distribución de la señal de salida que proporciona una imagen de sonido compacta cuando las señales de entrada tienen una alta correlación, extendiéndose (ensanchándose) de compacta a amplia a medida que decrece la correlación, y repartiéndose progresivamente o inclinándose hacia abajo y hacia fuera formando múltiples imágenes de sonido, cada una de ellas en un punto extremo, a partir de amplias, a medida que la correlación continúa disminuyendo hasta llegar a tener una correlación muy baja.
Aunque es deseable que haya una sola imagen de sonido espacialmente compacta (en la dirección principal nominal progresiva de las señales de entrada) para el caso de una correlación total y una pluralidad de imágenes de sonido espacialmente compactas (cada una en un punto extremo) para el caso de una ausencia total de correlación, la imagen de sonido espacialmente dispersa entre esos extremos puede conseguirse de unas maneras distintas a las ilustradas en la ilustración de la figura 8. No es crítico, por ejemplo, que los valores de los componentes de factores de escala de relleno alcancen un máximo para el caso en que la correlación cruzada aleatoria = correlación cruzada ponderada en dirección, ni que los valores de los tres componentes de factores de escala cambien linealmente como está ilustrado. La presente invención contempla también las modificaciones de las relaciones de la figura 8 (y de las ecuaciones expresadas aquí que subyacen en la figura) y otras relaciones entre una medida adecuada de correlación cruzada y valores de factores de escala que son capaces de producir la distribución de señal de puntos extremos de dominante compacta a ampliamente dispersa a compacta, para una medida de la correlación cruzada desde una correlación muy alta a una correlación muy baja. Por ejemplo, en lugar de obtener una distribución de señal de puntos extremos de dominante compacta a ampliamente dispersa a compacta, empleando un enfoque de región dual, tal como se ha descrito anteriormente, pueden obtenerse tales resultados por medio de un enfoque matemático, tal como uno que emplee una resolución de ecuaciones basada en pseudo-inversas.
Ejemplos de factores de escala de salida
Una serie de representaciones idealizadas, figuras 9A y 9B hasta las figuras 16A y 16B, ilustran los factores de escala de salida de un módulo para diversos ejemplos de condiciones de señales de entrada. Por simplicidad, se supone un módulo autónomo, de manera que los factores de escala que produce para una matriz variable son los factores de escala finales. El módulo y una matriz variable asociada tienen dos canales de entrada (tal como izquierdo L y derecho R) que coinciden con dos canales de salida del punto extremo (que pueden ser designados también como L y R). En esta serie de ejemplos, hay tres canales interiores de salida (tal como medio izquierdo Lm, centro C y medio derecho Rm).
Los significados de "todo dominantes", "mezcla de dominantes y relleno", "uniformemente rellenos", "mezcla de rellenos" y puntos extremos, y "todo puntos extremos" son ilustrados con más detalle en relación con los ejemplos de las figuras 9A y 9B hasta las figuras 16A y 16B. En cada pareja de figuras (9A y 9B, por ejemplo), la figura "A" muestra los niveles de energía de las dos entradas, izquierda L y derecha R, y la figura "B" muestra los componentes de factores de escala para las cinco salidas, izquierda L, medio izquierda LM, centro C, medio derecha RM y derecha R. Las figuras no están a escala.
En la figura 9A, los niveles de energía de entrada, ilustrados como dos flechas verticales, son iguales. Además, tanto la correlación cruzada ponderada en dirección (como la correlación cruzada efectiva) son 1,0 (correlación total). En este ejemplo, solamente hay un factor de escala distinto de cero, ilustrado en la figura 9B como una sola flecha vertical en C, que es aplicado a la salida del canal interior central C, dando como resultado una señal dominante espacialmente compacta. En este ejemplo, la salida está centrada (L/R = 1) y, por tanto, ocurre que coincide con el canal C interior central de salida. Si no hay un canal de salida coincidente, la señal dominante es aplicada en proporciones apropiadas a los canales de salida más cercanos, de manera que ponen la señal dominante en panorámica en el lugar virtual correcto entre ellos. Si por ejemplo no hubiera un canal central C de salida, los canales de salida medio izquierdo LM y medio derecho RM tendrían factores de escala distintos de cero, originando que la señal dominante sea aplicada por igual a las salidas LM y RM. En este caso, de correlación total (todo señal dominante), no hay componentes de señal de relleno ni de punto extremo. Así, los factores de escala preliminares producidos por el bloque 467 (figura 4C) son los mismos que los componentes de factores de escala dominantes normalizados producidos por el bloque 361.
En la figura 10A, los niveles de energía de entrada son iguales, pero la correlación cruzada ponderada en dirección es inferior a 1,0 y mayor que la correlación cruzada aleatoria. Consecuentemente, los componentes de factores de escala son los de la Región 1, componentes de factores de escala mezclados dominantes y de relleno. El mayor de los componentes de los factores de escala dominante normalizado (del bloque 361) y del factor de escala de relleno normalizado (del bloque 363) es aplicado a cada canal de salida (por el bloque 367) de manera que el factor de escala dominante está situado en el mismo canal C central de salida que en la figura 10B, pero es menor, y los factores de escala de relleno aparecen en cada uno de los demás canales de salida, L, LM, RM y R (incluyendo los puntos extremos L y R).
En la figura 11A, los niveles de energía de entrada permanecen iguales, pero la correlación cruzada ponderada en dirección = correlación cruzada aleatoria. Consecuentemente, los factores de escala de la figura 11B son los de la condición limitadora entre las Regiones 1 y 2, la condición de rellenado uniforme en la cual no hay factores de escala dominantes o del punto extremo, solamente factores de escala de relleno que tienen el mismo valor en cada salida (por tanto, "uniformemente rellenos"), como se ha indicado con las flechas idénticas en cada salida. Los niveles de factores de escala de relleno alcanzan su valor más alto en este ejemplo. Como se estudia más adelante, los factores de escala de relleno pueden ser aplicados desigualmente, de forma tal como una disminución gradual dependiendo de las condiciones de la señal de entrada.
En la figura 12A, los niveles de energía de entrada permanecen iguales, pero la correlación cruzada ponderada en dirección es inferior a la correlación cruzada aleatoria, y mayor que cero (Región 2). Consecuentemente, como se ilustra en la figura 12B, hay factores de escala de relleno y del punto extremo, pero no factores de escala dominantes.
En la figura 13A, los niveles de energía de entrada permanecen iguales, pero la correlación cruzada ponderada en dirección es cero. Consecuentemente, los factores de escala, ilustrados en la figura 13B, son los de la condición limitadora de todos los puntos extremos. No hay factores de escala de salida interior, solamente factores de escala de punto extremo.
En los ejemplos de las figuras 9A/9B hasta las figuras 13A/13B, debido a que los niveles de energía de las dos entradas son iguales, la correlación cruzada ponderada en dirección (tal como la producida por el bloque 441 de la figura 4B) es la misma que la correlación cruzada con compensación de vecinos (tal como la producida por el bloque 439 de la figura 4B). Sin embargo, en la figura 14A, los niveles de energía de entrada no son iguales (L es mayor que R). Aunque la correlación cruzada ponderada en vecinos es igual a correlación cruzada aleatoria en este ejemplo, los factores de escala resultantes, ilustrados en la figura 14B, no son factores de escala de relleno aplicados uniformemente a todos los canales, como en el ejemplo de las figuras 11A y 11B. En lugar de eso, los niveles de energía de entrada desiguales originan un aumento proporcional en la correlación cruzada ponderada en dirección (proporcional al grado en el cual la dirección principal nominal progresiva se aparta de su posición central) de forma tal que se hace mayor que la correlación cruzada con compensación de vecinos, haciendo así que los factores de escala estén ponderados más hacia todos dominantes (como se ilustra en la figura 8). Éste es un resultado deseado porque las señales L- y R- fuertemente ponderadas no deberían tener una anchura muy amplia; deberían tener una anchura compacta cerca del punto extremo del canal L o R. La salida resultante, ilustrada en la figura 14B, es un factor de escala dominante distinto de cero situado más cerca de la salida L que de la salida R (la información de dirección compensada en vecinos, en este caso, ocurre que sitúa precisamente el componente dominante en la posición media izquierda LM), con amplitudes reducidas de factores de escala de relleno, y sin factores de escala de punto extremo (la ponderación de dirección impulsa la operación hacia la Región 1 de la figura 8 (mezcla de dominante y
relleno)).
Para las cinco salidas correspondientes a los factores de escala de la figura 14B, las salidas pueden ser expresadas como sigue:
Lout = Lt (SF_{L})
MidLout = ((0,92) Lt + (0,38) Rt)) (SF_{MidL})
Cout = ((0,45) Lt + (0,45Rt)) (SF_{C})
MidRout = ((0,38)Lt) + (0,92))(SF_{MidR})
Rout = Rt(SF_{R}).
Así, en el ejemplo de la figura 14B, aunque los factores de escala (SF) para cada una de las cuatro salidas distintas a MidLout son iguales (de relleno), las correspondientes señales de salida no son iguales, porque Lt es mayor que Rt (dando como resultado una mayor salida de señal hacia la izquierda) y la salida dominante en Mid Left es mayor que lo que indica el factor de escala. Debido a que la dirección principal nominal progresiva es coincidente con el canal de salida MidLeft, la relación de Lt a Rt es la misma que los coeficientes de la matriz para el canal de salida MidLeft, es decir, 0,92 a 0,38. Supóngase que esas son las amplitudes reales para Lt y Rt. Para calcular los niveles de salida, se multiplican estos niveles por los correspondientes coeficientes de la matriz, se suman y se escalan por los respectivos factores de escala:
amplitud de salida (output_channel_sub_i) = sf(i)*(Lt_Coef(i)*Lt + Rt_Coef(i)*Rt)
Aunque preferiblemente se tiene en cuenta la mezcla entre suma de amplitudes y energías (como en los cálculos relativos a la figura 6A), en este ejemplo la correlación cruzada es bastante grande (factor de escala dominante grande) y puede realizarse la suma normal:
Lout = 0,1 * (1*0,92 + 0*0,38) = 0,092
MidLout = 0,9*(0,92*0,92+ 0,38*0,38) = 0,900
Cout = 0,1*(0,71*0,92 + 0,71*0,38) = 0,092
MidRout = 0,1*(0,38*0,92 + 0,92*0,38) = 0,070
Rout = 0,1*(0*0,92 + 1*0,38) = 0,038
Por tanto, este ejemplo demuestra que las salidas de señal en Lout, Cout, MidRout y Rout no son iguales porque Lt es mayor que Rt, aún cuando los factores de escala para esas salidas son iguales.
Los factores de escala de relleno pueden estar igualmente distribuidos en los canales de salida como se ilustra en los ejemplos de las figuras 10B, 11B, 12B y 14B. Alternativamente, los componentes de los factores de escala de relleno, en lugar de ser uniformes, pueden variar en posición de alguna manera, en función de los componentes de señal de entrada dominantes (con correlación) y/o del punto extremo (sin correlación) (o, equivalentemente, en función del valor de la correlación cruzada ponderada en dirección). Por ejemplo, para valores moderadamente altos de la correlación cruzada ponderada en dirección, las amplitudes de los componentes de factores de escala de relleno pueden curvarse de forma convexa, de manera que los canales de salida cercanos a la dirección principal nominal progresiva reciben más nivel de señal que los canales más alejados. Cuando la correlación cruzada ponderada en dirección es igual a la correlación cruzada aleatoria, las amplitudes de los componentes de factores de escala de relleno pueden aplanarse en una distribución uniforme, y cuando la correlación cruzada ponderada en dirección es menor que la correlación cruzada aleatoria, las amplitudes pueden curvarse de manera cóncava, favoreciendo los canales cercanos a las direcciones de los puntos extremos.
\newpage
En las figuras 15B y 16B se establecen ejemplos de tales amplitudes de factores de escala de relleno curvados. La salida de la figura 15B es resultado de una entrada (15A) que es la misma que en la figura 10A, descrita anteriormente. La salida de la figura 16B es el resultado de una entrada (figura 16A) que es la misma que en la figura 12B, descrita anteriormente.
Comunicación entre módulo y supervisor con relación a los niveles vecinos y niveles vecinos de orden superior
Cada módulo de una configuración de múltiples módulos, tal como el ejemplo de las figuras 1 y 2, requiere dos mecanismos para dar soporte a la comunicación entre él y un supervisor, tal como el supervisor 201 de la figura 2:
(a)
uno para seleccionar e informar sobre la información requerida por el supervisor para calcular niveles vecinos y niveles vecinos de orden superior (si los hay). La información requerida por el supervisor es la energía interior total estimada atribuible a cada una de las entradas del módulo según se generan, por ejemplo, por la configuración de la figura 6A.
(b)
otro para recibir y aplicar los niveles vecinos (si los hay) y los niveles vecinos de orden superior (si los hay) desde el supervisor. En el ejemplo de la figura 4B, los niveles vecinos son restados en los respectivos combinadores 431 y 433 de los niveles de energía suavizados de cada entrada, y los niveles de vecinos de orden superior (si los hay) son restados en los respectivos combinadores 431, 433 y 435 de los niveles de energía suavizados de cada entrada y de la energía común a través de los canales.
Una vez que el supervisor conoce todas las contribuciones de energía interior estimada de cada entrada de cada módulo:
(1)
determina si las contribuciones de energía interior total estimada de cada entrada (sumada desde todos los módulos conectados a esa entrada) excede del nivel de señal disponible en esa entrada. Si la suma excede del total disponible, el supervisor vuelve a poner en escala cada energía interior informada por cada módulo conectado a esa entrada, de manera que sumen el nivel total de entrada.
(2)
informa a cada módulo de sus niveles vecinos en cada entrada, como la suma de las demás contribuciones de energía interior de esa entrada (si las hay).
Los niveles vecinos de orden superior (HO) son niveles vecinos de uno o más módulos de orden superior que comparten las entradas de un módulo de nivel inferior. El cálculo anterior de niveles vecinos está relacionado solamente con módulos en una entrada en particular que tienen la misma jerarquía: todos los módulos de tres entradas (si los hay), después todos los módulos de dos entradas, etc. Un nivel vecino HO de un módulo es la suma de todos los niveles vecinos de todos los módulos de orden superior en esa entrada (es decir, el nivel vecino HO en una entrada de un módulo de dos entradas es la suma de todos los módulos de tercer, cuarto órdenes y superiores, si los hay, que comparten el nodo de un módulo de dos entradas). Una vez que el módulo sabe que sus niveles vecinos HO están un una entrada particular de sus entradas, los resta, junto con los niveles vecinos del mismo nivel de jerarquía, del nivel de energía total de entrada para obtener el nivel compensado en vecinos en ese nodo de entrada. Esto está ilustrado en la figura 4B, donde los niveles vecinos para la entrada 1 y la entrada m son restados en los combinadores 431 y 433, respectivamente, de las salidas de los suavizadores variables lentos 425 y 427, y los niveles vecinos de orden superior para la entrada 1, la entrada m y la energía común son restados en los combinadores 431, 433 y 435, respectivamente, de las salidas de los suavizadores variables lentos 425, 427 y 429.
Una diferencia entre el uso de niveles vecinos y niveles vecinos HO para la compensación, es que los niveles vecinos HO son utilizados también para compensar la energía común a través de los canales de entrada (por ejemplo, consiguiéndolo mediante la sustracción de un nivel vecino HO en el combinador 435). La explicación de esta diferencia es que el nivel común de un módulo no está afectado por módulos contiguos de la misma jerarquía, sino que puede estar afectado por un módulo de orden superior que comparta todas las entradas de un módulo.
Por ejemplo, supóngase que los canales de entrada Ls (izquierdo circundante), Rs (derecho circundante, y Superior, con un canal de salida interior en el centro del triángulo entre ellos (anillo posterior elevado), más un canal de salida interior en una línea entre Ls y Rs (anillo posterior horizontal principal), el primero de los canales de salida necesita un módulo de tres entradas para recuperar la señal común a las tres entradas. Por tanto, el último de los canales de salida, que está sobre una línea entre dos entradas (Ls y Rs), necesita un módulo de dos entradas. Sin embargo, el nivel total de señal común observado por el módulo de dos entradas incluye elementos comunes del módulo de tres entradas que no pertenecen al último de los canales de salida, de manera que se resta la raíz cuadrada de los productos en parejas de los niveles vecinos de HO de la energía común del módulo de dos entradas, para determinar cuánta energía común es debida únicamente a su canal interior (el último mencionado). Así, en la figura 4B, el nivel de energía común suavizado (del bloque 429) ha restado de él el nivel común HO obtenido para obtener un nivel de energía común con compensación de vecinos (del combinador 435) que es utilizado por el módulo para calcular (en el bloque 439), la correlación cruzada con compensación de vecinos.
La presente invención y sus diversos aspectos pueden ser implementados en circuitos analógicos, o más probablemente como funciones de software realizado en procesadores de señales digitales, ordenadores digitales programados de propósito general, y/u ordenadores digitales de propósito general. Los interfaces entre cadenas de señales analógicas y digitales pueden ser realizados en un hardware apropiado y/o como funciones de software y/o microcódigo. Aunque la presente invención y sus diversos aspectos pueden implicar señales analógicas o digitales, es probable que en las aplicaciones prácticas la mayoría o todas las funciones de proceso sean efectuadas en el dominio digital sobre cadenas de señales digitales, en las cuales las señales de audio están representadas por muestras.

Claims (52)

1. Un proceso para convertir M señales de entrada de audio, cada una asociada con una dirección, en N señales de salida de audio, cada una asociada con una dirección, donde N es mayor que M, y M es dos o más, que comprende:
proporcionar una o más matrices variables (203; 24-34)
para cada matriz variable (203; 24-34), aplicar a ellas m de dichas M señales de entrada de audio y obtener de ellas n de dichas N señales de salida de audio, donde, cuando hay una matriz variable, m es M y n es N y, cuando hay una pluralidad de matrices, m es un subconjunto de M y n es un subconjunto de N y los valores de m y n para una matriz pueden diferir de los de otras matrices,
controlar cada matriz variable como respuesta a las m señales de entrada aplicadas a ella, de manera que un campo acústico generado por las n señales de salida obtenidas de ella, tiene una imagen sonora compacta en la dirección principal nominal progresiva de las m señales de entrada aplicadas a ella cuando tales señales de entrada tienen una alta correlación, extendiéndose la imagen de compacta a amplia a medida que la correlación disminuye y repartiéndose progresivamente en múltiples imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada a ella, a medida que la correlación continúa disminuyendo hasta una correlación muy baja, y
obtener dichas N señales de salida de audio a partir de las señales de salida de dichas una o más matrices variables (203; 24-34).
2. Un proceso según la reivindicación 1, en el que cada una de dichas matrices variables (203; 24-34) es una matriz variable que tiene unos coeficientes variables, o es una matriz variable que tiene coeficientes fijos y salidas variables, y cada matriz variable (203; 24-34) es controlada variando los coeficientes variables o variando las salidas variables.
3. Un proceso según la reivindicación 1, en el que cada una de dichas matrices variables (203; 24-34) es controlada como respuesta a las medidas de:
(1)
los niveles relativos de sus señales de entrada, y
(2)
la correlación cruzada de sus señales de entrada.
4. Un proceso según la reivindicación 3, en el que para una medida de correlación cruzada de las señales de entrada aplicadas a una matriz variable (203; 24-34) con valores en una primera gama, limitados por un valor máximo y un valor de referencia, el campo acústico tiene una imagen sonora compacta cuando la medida de la correlación cruzada es dicho valor máximo y tiene una imagen sonora amplia cuando la medida de la correlación cruzada es dicho valor de referencia, y para una medida de la correlación cruzada de las señales de entrada aplicadas a una matriz variable (203; 24-34) con valores en una segunda gama, limitados por dicho valor de referencia y un valor mínimo, el campo acústico tiene dicha imagen sonora ampliamente extendida cuando la medida de la correlación cruzada es dicho valor de referencia y tiene una pluralidad de imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada a la matriz variable (203; 24-34), cuando la medida de la correlación cruzada es dicho valor mínimo.
5. Un proceso según la reivindicación 4, en el que dicho valor de referencia está alrededor del valor de una medida de correlación cruzada de las señales de entrada a cada matriz variable (203; 24-34) para el caso de igual energía en cada una de las señales de salida de tal matriz variable.
6. Un proceso según la reivindicación 3, en el que una medida de los niveles relativos de las señales de entrada a la matriz variable (203; 24-34) es como respuesta a un nivel de energía suavizado de cada señal de entrada.
7. Un proceso según la reivindicación 3 o la reivindicación 6, en el que una medida de los niveles relativos de las señales de entrada a la matriz variable (203; 24-34) es una dirección principal nominal progresiva de tales señales de entrada.
8. Un proceso según la reivindicación 3, en el que una medida de la correlación cruzada de las señales de entrada a una matriz variable (203; 24-34) es como respuesta a una energía común suavizada de tales señales de entrada dividida por la raíz M-sima del producto del nivel de energía suavizado de cada señal de entrada, donde M es el número de señales de entrada a la matriz variable (203; 24-34).
9. Un proceso según cualquiera de las reivindicaciones 6, 7 u 8, en el que el nivel de energía suavizado de cada señal de entrada a la matriz variable (203; 24-34) se obtiene por suavización en el dominio de tiempos con constante de tiempo variables.
10. Un proceso según cualquiera de las reivindicaciones 6, 7 u 8, en el que el nivel de energía suavizado de cada señal de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables.
11. Un proceso según la reivindicación 8, en el que la energía común de las señales de entrada a una matriz variable (203; 24-34) se obtiene mediante el producto cruzado de los niveles de amplitud de tales señales de entrada.
12. Un proceso según la reivindicación 11, en el que la energía común suavizada de las señales de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de tiempos con constante de tiempo variables de la energía común de las señales de entrada.
13. Un proceso según la reivindicación 12, en el que el nivel de energía suavizado de cada señal de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de tiempos con constante de tiempo variables.
14. Un proceso según la reivindicación 11, en el que la energía común suavizada de las señales de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables de la energía común de tales señales de entrada.
15. Un proceso según la reivindicación 14, en el que el nivel de energía suavizado de cada señal de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables.
16. Un proceso según cualquiera de las reivindicaciones 9, 10, 12, 13, 14 y 15, en el que dicha suavización en el dominio de tiempos con constante de tiempo variables se efectúa por una suavización que tiene una constante de tiempo fija y una constante de tiempo variable.
17. Un proceso según cualquiera de las reivindicaciones 9, 10, 12, 13, 14 y 15, en el que dicha suavización en el dominio de tiempos con constante de tiempo variables se efectúa por una suavización que tiene solamente una constante de tiempo variable.
18. Un proceso según la reivindicación 16 o la reivindicación 17, en el que dicha constante de tiempo variable es variable por pasos.
19. Un proceso según la reivindicación 16 o la reivindicación 17, en el que dicha constante de tiempo variable es continuamente variable.
20. Un proceso según la reivindicación 16 o la reivindicación 17, en el que dicha constante de tiempo variable está controlada como respuesta a las medidas de los niveles relativos de las señales de entrada a una matriz variable (203; 24-34) y a su correlación cruzada.
21. Un proceso según la reivindicación 6, en el que el nivel de energía suavizado de cada señal de entrada a una matriz variable (203; 24-34) se obtiene por suavización en el dominio de tiempos con constante de tiempo variables de los niveles de energía de cada señal de entrada, sustancialmente con la misma constante de tiempo.
22. Un proceso según la reivindicación 3, en el que las medidas de los niveles relativos de las señales de entrada a una matriz variable (203; 24-34) y su correlación cruzada se obtienen, cada una de ellas, por suavización en el dominio de tiempos con constante de tiempo variables en la que se aplica la misma constante de tiempo a cada suavización.
23. Un proceso según la reivindicación 8, en el que dicha medida de la correlación cruzada es una primera medida de correlación cruzada de las señales de entrada a una matriz variable (203; 24-34), y se obtiene una medida adicional de la correlación cruzada aplicando una medida de los niveles relativos de tales señales de entrada a dicha primera medida de correlación cruzada, para generar una medida ponderada en dirección de la correlación cruzada.
24. Un proceso según la reivindicación 23, en el que una medida adicional más de correlación cruzada de las señales de entrada a una matriz variable (203; 24-34) se obtiene por la aplicación de un factor de escalación aproximadamente igual a un valor de una medida de correlación cruzada de tales señales de entrada, para el caso de igual energía en cada una de las salidas de la matriz variable (203; 24-34).
25. Un proceso según la reivindicación 1, en el que cuando hay más de una matriz variable (203; 24-34), dichas matrices variables (203; 24-34) están controladas también como respuesta a la información que compensa el efecto de otra u otras más matrices variables (203; 24-34) que reciben la misma señal de entrada.
26. Un proceso según la reivindicación 1 o la reivindicación 25, en el que la obtención de dichas N señales de salida de audio de las señales de entrada de más de una matriz variable (203; 24-34) incluye la compensación de múltiples matrices variables (203; 24-34) que generan la misma señal de salida.
27. Un proceso para convertir M señales de entrada de audio, cada una asociada con una dirección, en N señales de salida de audio, cada una asociada con una dirección, donde N es mayor que M, y M es dos o más, que comprende:
proporcionar una matriz variable (203) de M:N que responde a las señales de control,
aplicar dichas M señales de entrada de audio a dicha matriz variable (203),
proporcionar uno o más generadores (24-34, 201) de señales de control de la matriz variable,
para cada generador, aplicar a ellas m de dichas M señales de entrada de audio, y
obtener de ellas un conjunto de señales de control de matriz variable para n de dichas N señales de salida de audio, donde m es un subconjunto de M y n es un subconjunto de N, y los valores de m y n para un generador pueden diferir de los de otros generadores,
controlar cada generador (24-34, 201) de señal de control de matriz variable como respuesta a las m señales de entrada aplicadas a ella, de manera que cuando las señales de control generadas por él son aplicadas a dicha matriz variable (203) de M:N, un campo acústico generado por las n señales de salida generadas, tiene una imagen sonora compacta en la dirección principal nominal progresiva de las m señales de entrada que produjeron las señales de control aplicadas cuando tales señales de entrada tienen una alta correlación, extendiéndose la imagen de compacta a amplia a medida que la correlación disminuye y repartiéndose progresivamente en múltiples imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada que produjeron las señales de salida aplicadas, a medida que la correlación continúa disminuyendo hasta una correlación muy baja, y
obtener dichas N señales de salida de audio a partir de dicha matriz variable (203).
28. Un proceso según la reivindicación 27, en el que dicha matriz variable (203) de M:N es una matriz variable que tiene coeficientes variables, o es una matriz variable que tiene coeficientes fijos y salidas variables, y dicha matriz variable (203) se controla variando los coeficientes variables o variando las salidas variables.
29. Un proceso según la reivindicación 27, en el que cada uno de dichos generadores (24-34, 201) de señales de control de la matriz variable está controlado como respuesta a las medidas de:
(1) los niveles relativos de las m señales de entrada aplicadas al generador, y
(2) la correlación cruzada de las m señales de entrada aplicadas al generador.
30. Un proceso según la reivindicación 29, en el que para una medida de correlación cruzada de las m señales de entrada aplicadas a un generador con valores en una primera gama, limitados por un valor máximo y un valor de referencia, el campo acústico tiene una imagen sonora compacta cuando la medida de la correlación cruzada es dicho valor máximo, y tiene una imagen sonora ampliamente extendida cuando la medida de la correlación cruzada es dicho valor de referencia, y para una medida de la correlación cruzada de las m señales de entrada aplicadas a un generador con valores en la segunda gama, limitados por dicho valor de referencia y un valor mínimo, el campo acústico tiene dicha imagen sonora ampliamente extendida cuando la medida de la correlación cruzada es dicho valor de referencia y tiene una pluralidad de imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada al generador, cuando la medida de la correlación cruzada es dicho valor mínimo.
31. Un proceso según la reivindicación 30, en el que dicho valor de referencia está alrededor del valor de una medida de correlación cruzada de las m señales de entrada aplicadas a cada generador para el caso de igual energía en cada una de las señales de salida de la matriz variable.
32. Un proceso según la reivindicación 29, en el que una medida de los niveles relativos de las m señales de entrada a un generador es como respuesta a un nivel de energía suavizado de cada señal de entrada.
33. Un proceso según la reivindicación 29 o la reivindicación 32, en el que una medida de los niveles relativos de las m señales de entrada al generador es una dirección principal nominal progresiva de tales señales de entrada.
34. Un proceso según la reivindicación 29, en el que una medida de la correlación cruzada de las m señales de entrada a un generador es como respuesta a una energía común suavizada de tales señales de entrada dividida por la raíz m-sima del producto del nivel de energía suavizado de cada señal de entrada, donde m es el número de señales de entrada al generador.
35. Un proceso según cualquiera de las reivindicaciones 32, 33 o 34, en el que el nivel de energía suavizado de cada señal de entrada al generador se obtiene por suavización en el dominio de tiempos con constante de tiempo variables.
36. Un proceso según cualquiera de las reivindicaciones 32, 33 o 34, en el que el nivel de energía suavizado de cada señal de entrada a un generador se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables.
37. Un proceso según la reivindicación 34, en el que la energía común de las señales de entrada a un generador se obtiene mediante el producto cruzado de los niveles de amplitud de tales señales de entrada.
38. Un proceso según la reivindicación 37, en el que la energía común suavizada de las m señales de entrada a un generador se obtiene por suavización en el dominio de tiempos con constante de tiempo variables de la energía común de las señales de entrada.
39. Un proceso según la reivindicación 38, en el que el nivel de energía suavizado de cada señal de entrada a un generador se obtiene por suavización en el dominio de tiempos con constante de tiempo variables.
40. Un proceso según la reivindicación 37, en el que la energía común suavizada de las señales de entrada a un generador se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables de la energía común de tales señales de entrada.
41. Un proceso según la reivindicación 40, en el que el nivel de energía suavizado de cada señal de entrada a un generador se obtiene por suavización en el dominio de frecuencias y por suavización en el dominio de tiempos con constante de tiempo variables.
42. Un proceso según cualquiera de las reivindicaciones 35, 36, 38, 39, 40 y 41, en el que dicha suavización en el dominio de tiempos con constante de tiempo variables se efectúa por una suavización que tiene una constante de tiempo fija y una constante de tiempo variable.
43. Un proceso según cualquiera de las reivindicaciones 35, 36, 38, 39, 40 y 41, en el que dicha suavización en el dominio de tiempos con constante de tiempo variables se efectúa por una suavización que tiene solamente una constante de tiempo variable.
44. Un proceso según la reivindicación 42 o la reivindicación 43, en el que dicha constante de tiempo variable es variable por pasos.
45. Un proceso según la reivindicación 42 o la reivindicación 43, en el que dicha constante de tiempo variable es continuamente variable.
46. Un proceso según la reivindicación 42 o la reivindicación 43, en el que dicha constante de tiempo variable está controlada como respuesta a las medidas de los niveles relativos de las m señales de entrada a un generador y a su correlación cruzada.
47. Un proceso según la reivindicación 32, en el que el nivel de energía suavizado de cada señal de entrada a un generador se obtiene por suavización en el dominio de tiempos con constante de tiempo variables de los niveles de energía de cada señal de entrada, sustancialmente con la misma constante de tiempo.
48. Un proceso según la reivindicación 29, en el que las medidas de los niveles relativos de las señales de entrada a un generador y su correlación cruzada se obtienen, cada una de ellas, por suavización en el dominio de tiempos con constante de tiempo variables en la que se aplica la misma constante de tiempo a cada suavización.
49. Un proceso según la reivindicación 34, en el que dicha medida de la correlación cruzada es una primera medida de correlación cruzada de las señales de entrada a un generador, y se obtiene una medida adicional de la correlación cruzada aplicando una medida de los niveles relativos de tales señales de entrada a dicha primera medida de correlación cruzada, para generar una medida ponderada en dirección de la correlación cruzada.
50. Un proceso según la reivindicación 49, en el que una medida adicional más de correlación cruzada de las señales de entrada a un generador se obtiene por la aplicación de un factor de escalación aproximadamente igual al valor de una medida de correlación cruzada de tales señales de entrada, para el caso de igual energía en cada una de las salidas de la matriz variable (203).
51. Un proceso según la reivindicación 27, en el que cuando hay más de un generador de factores de escala de matriz variable, dichos generadores de factores de escala de matriz variable están controlados también como respuesta a la información que compensa el efecto de otro u otros más generadores de factores de escala de matriz variable que reciben la misma señal de entrada.
52. Un proceso según la reivindicación 51, en el que la obtención de dichas N señales de salida de audio de dicha matriz variable (203) incluye la compensación de múltiples generadores de factores de escala de matriz variable que generan factores de escala para la misma señal de salida.
ES03770229T 2002-08-07 2003-08-06 Conversion espacial de canales de audio. Expired - Lifetime ES2271654T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40198302P 2002-08-07 2002-08-07
US401983P 2002-08-07

Publications (1)

Publication Number Publication Date
ES2271654T3 true ES2271654T3 (es) 2007-04-16

Family

ID=33489220

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03770229T Expired - Lifetime ES2271654T3 (es) 2002-08-07 2003-08-06 Conversion espacial de canales de audio.

Country Status (17)

Country Link
EP (1) EP1527655B1 (es)
JP (1) JP4434951B2 (es)
KR (1) KR100988293B1 (es)
CN (1) CN1672464B (es)
AT (1) ATE341923T1 (es)
AU (1) AU2003278704B2 (es)
BR (2) BRPI0305746B1 (es)
CA (1) CA2494454C (es)
DE (1) DE60308876T2 (es)
DK (1) DK1527655T3 (es)
ES (1) ES2271654T3 (es)
HK (1) HK1073963A1 (es)
IL (1) IL165941A (es)
MX (1) MXPA05001413A (es)
MY (1) MY139849A (es)
PL (1) PL373120A1 (es)
TW (1) TWI315828B (es)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR101261212B1 (ko) 2004-10-26 2013-05-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 처리 방법 및 장치
WO2006056910A1 (en) * 2004-11-23 2006-06-01 Koninklijke Philips Electronics N.V. A device and a method to process audio data, a computer program element and computer-readable medium
TWI397901B (zh) * 2004-12-21 2013-06-01 Dolby Lab Licensing Corp 控制音訊信號比響度特性之方法及其相關裝置與電腦程式
EP1899959A2 (en) 2005-05-26 2008-03-19 LG Electronics Inc. Method of encoding and decoding an audio signal
CA2613731C (en) 2005-06-30 2012-09-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8082157B2 (en) 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8214221B2 (en) 2005-06-30 2012-07-03 Lg Electronics Inc. Method and apparatus for decoding an audio signal and identifying information included in the audio signal
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
EP1938663A4 (en) 2005-08-30 2010-11-17 Lg Electronics Inc DEVICE FOR ENCODING AND DECODING AUDIO SIGNAL AND CORRESPONDING METHOD
JP5173811B2 (ja) 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US8068569B2 (en) 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
US7643561B2 (en) 2005-10-05 2010-01-05 Lg Electronics Inc. Signal processing using pilot based coding
KR100857121B1 (ko) 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7751485B2 (en) 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US7965848B2 (en) 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
EP2304721B1 (fr) * 2008-06-26 2012-05-09 France Telecom Synthese spatiale de signaux audio multicanaux
EP2398257B1 (en) 2008-12-18 2017-05-10 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US9197978B2 (en) * 2009-03-31 2015-11-24 Panasonic Intellectual Property Management Co., Ltd. Sound reproduction apparatus and sound reproduction method
CN101527874B (zh) * 2009-04-28 2011-03-23 张勤 一种动声声场系统
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP5323210B2 (ja) * 2010-09-30 2013-10-23 パナソニック株式会社 音響再生装置および音響再生方法
KR101895656B1 (ko) * 2012-03-22 2018-10-18 디락 리서치 에이비 지원 스피커의 변수 세트를 사용하는 오디오 사전 보상 제어기 설계
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
RU2019138260A (ru) * 2015-06-24 2019-12-05 Сони Корпорейшн Устройство, способ и программа аудиообработки
CN106604199B (zh) * 2016-12-23 2018-09-18 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
CN113454715B (zh) * 2018-12-07 2024-03-08 弗劳恩霍夫应用研究促进协会 使用一个或多个分量生成器产生声场描述的装置、方法
TWI740206B (zh) * 2019-09-16 2021-09-21 宏碁股份有限公司 訊號量測的校正系統及其校正方法
CN114327040A (zh) * 2021-11-25 2022-04-12 歌尔股份有限公司 振动信号生成方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659619A (en) * 1994-05-11 1997-08-19 Aureal Semiconductor, Inc. Three-dimensional virtual audio display employing reduced complexity imaging filters
US6009179A (en) * 1997-01-24 1999-12-28 Sony Corporation Method and apparatus for electronically embedding directional cues in two channels of sound
US6072878A (en) * 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
AUPP271598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Headtracked processing for headtracked playback of audio signals
EP1054575A3 (en) * 1999-05-17 2002-09-18 Bose Corporation Directional decoding

Also Published As

Publication number Publication date
BR0305746A (pt) 2004-12-07
AU2003278704B2 (en) 2009-04-23
HK1073963A1 (en) 2005-10-21
CA2494454A1 (en) 2004-03-04
TWI315828B (en) 2009-10-11
TW200404222A (en) 2004-03-16
JP2005535266A (ja) 2005-11-17
DE60308876D1 (de) 2006-11-16
KR100988293B1 (ko) 2010-10-18
CA2494454C (en) 2013-10-01
DE60308876T2 (de) 2007-03-01
DK1527655T3 (da) 2007-01-29
ATE341923T1 (de) 2006-10-15
JP4434951B2 (ja) 2010-03-17
CN1672464B (zh) 2010-07-28
IL165941A0 (en) 2006-01-15
MY139849A (en) 2009-11-30
PL373120A1 (en) 2005-08-08
CN1672464A (zh) 2005-09-21
EP1527655A2 (en) 2005-05-04
BRPI0305746B1 (pt) 2018-03-20
AU2003278704A1 (en) 2004-03-11
EP1527655B1 (en) 2006-10-04
KR20050035878A (ko) 2005-04-19
MXPA05001413A (es) 2005-06-06
IL165941A (en) 2010-06-30

Similar Documents

Publication Publication Date Title
ES2271654T3 (es) Conversion espacial de canales de audio.
US11805379B2 (en) Audio channel spatial translation
US7660424B2 (en) Audio channel spatial translation
KR102629324B1 (ko) 2d 셋업들을 이용하는 오디오 재생을 위해 앰비소닉스 오디오 음장 표현을 디코딩하기 위한 방법 및 장치
US20080298610A1 (en) Parameter Space Re-Panning for Spatial Audio
WO2004019656A2 (en) Audio channel spatial translation
US11838738B2 (en) Method and device for applying Dynamic Range Compression to a Higher Order Ambisonics signal
US20140219458A1 (en) Audio signal reproduction device and audio signal reproduction method
US20240163626A1 (en) Adaptive sound image width enhancement