ES2271654T3 - Conversion espacial de canales de audio. - Google Patents
Conversion espacial de canales de audio. Download PDFInfo
- Publication number
- ES2271654T3 ES2271654T3 ES03770229T ES03770229T ES2271654T3 ES 2271654 T3 ES2271654 T3 ES 2271654T3 ES 03770229 T ES03770229 T ES 03770229T ES 03770229 T ES03770229 T ES 03770229T ES 2271654 T3 ES2271654 T3 ES 2271654T3
- Authority
- ES
- Spain
- Prior art keywords
- variable
- input
- signals
- process according
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
Abstract
Un proceso para convertir M señales de entrada de audio, cada una asociada con una dirección, en N señales de salida de audio, cada una asociada con una dirección, donde N es mayor que M, y M es dos o más, que comprende: proporcionar una o más matrices variables (203; 24-34) para cada matriz variable (203; 24-34), aplicar a ellas m de dichas M señales de entrada de audio y obtener de ellas n de dichas N señales de salida de audio, donde, cuando hay una matriz variable, m es M y n es N y, cuando hay una pluralidad de matrices, m es un subconjunto de M y n es un subconjunto de N y los valores de m y n para una matriz pueden diferir de los de otras matrices, controlar cada matriz variable como respuesta a las m señales de entrada aplicadas a ella, de manera que un campo acústico generado por las n señales de salida obtenidas de ella, tiene una imagen sonora compacta en la dirección principal nominal progresiva de las m señales de entrada aplicadas a ella cuando tales señales de entrada tienenuna alta correlación, extendiéndose la imagen de compacta a amplia a medida que la correlación disminuye y repartiéndo- se progresivamente en múltiples imágenes sonoras compactas, cada una en una dirección asociada con una señal de entrada aplicada a ella, a medida que la correlación continúa disminuyendo hasta una correlación muy baja, y obtener dichas N señales de salida de audio a partir de las señales de salida de dichas una o más matrices varia- bles (203; 24-34).
Description
Conversión espacial de canales de audio.
La invención está relacionada con el tratamiento
de señales de audio. Más en particular, la invención está
relacionada con la conversión de M canales de entrada de audio que
representan un campo acústico en N canales de salida de audio que
representan el mismo campo acústico, donde cada canal es una sola
corriente de audio que representa el audio que llega desde una
dirección, M y N son números enteros positivos, y M es al menos 2 y
N es al menos 3, y N es mayor que M. Típicamente, un convertidor
espacial en el cual N es mayor que M se denomina normalmente
"descodificador".
Aunque los seres humanos solamente tenemos dos
oídos, oímos el sonido como una entidad tridimensional, confiando
en diversas indicaciones de situación, tales como las funciones
relacionadas con la cabeza (HRTF) y el movimiento de la cabeza. La
reproducción de sonido con fidelidad total requiere por tanto la
retención y reproducción del campo acústico completo en 3D, o al
menos las indicaciones de percepción del mismo. Desafortunadamente,
la tecnología de grabación de sonido no está orientada hacia la
captura del campo acústico en 3D, ni tampoco hacia la captura de un
plano de sonido en 2D, ni siquiera hacia la captura de una línea de
sonido en 1D. La tecnología actual de grabación está orientada
estrictamente hacia la captura, conservación y presentación de
canales de audio discretos de cero dimensiones.
La mayoría de los esfuerzos para mejorar la
fidelidad desde la invención original de Edison de la grabación del
sonido, han estado enfocados en la mejora de imperfecciones de su
medio analógico original de cilindro/disco de surcos modulados.
Estas imperfecciones incluían una respuesta en frecuencias desigual
y limitada, ruido, distorsión, lloriqueo, fluctuación, precisión de
la velocidad, desgaste, suciedad y pérdida de generación de copia.
Aunque ha habido un cierto número de intentos graduales en mejoras
aisladas, incluyendo la amplificación electrónica, la grabación en
cinta, la reducción de ruido, y tocadiscos que cuestan más que
algunos coches, no se resolvieron finalmente sin polémica los
problemas tradicionales de calidad del canal individual hasta que
se llegó al desarrollo singular de la grabación digital en general,
y específicamente hasta la introducción del Disco Compacto de
audio. Desde entonces, aparte de cierto esfuerzo para mejorar aún
más la calidad de la grabación digital con un muestreo de 24
bits/96kHz, los principales esfuerzos de la investigación de la
reproducción de audio han estado enfocados en reducir la cantidad de
datos necesarios para mantener la calidad de canales individuales,
utilizando principalmente codificadores de percepción, y en aumentar
la fidelidad espacial. Este último problema es el objeto de este
documento.
Los esfuerzos para mejorar la fidelidad espacial
se han efectuado en dos frentes: intentar transmitir las
indicaciones de percepción de un campo acústico completo, e intentar
transmitir una aproximación al campo acústico real original. Los
ejemplos de sistemas que emplean la primera de las soluciones
incluyen sistemas biaurales y sistemas circundantes virtuales
basados en dos altavoces. Tales sistemas presentan diversas
desafortunadas imperfecciones, especialmente en la localización
fiable de sonidos en algunas direcciones, y en requerir el uso de
auriculares o una posición fija única del oyente.
Para la presentación de sonido espacial a
múltiples oyentes, ya sea en un cuarto de estar o en una instalación
comercial tal como un cine, la única alternativa viable ha sido
intentar aproximarse al campo acústico real original. Dada la
naturaleza discreta del canal de la grabación del sonido, no
sorprende que la mayoría de los esfuerzos hasta la fecha hayan
implicado lo que podría denominarse aumentos conservadores del
número de canales de presentación. Los sistemas representativos
incluyen bandas sonoras de películas de tres altavoces en
monofónico panorámico de los primeros años 50, sonido estereofónico
convencional, sistemas cuadrafónicos de los años 60, bandas sonoras
magnéticas discretas de cinco canales en películas de 70 mm, sonido
Dolby circundante que utiliza una matriz de los años 70, sonido de
canales AC-3 5.1 de los 90 y, recientemente, sonido
de canales Surround EX 6.1 (EX 6.1 circundante). Los términos
"Dolby", "ProLogic" y "Surround EX" son marcas
registradas de Dolby Laboratories Licensing Corporation. En un
grado u otro, estos sistemas proporcionan una reproducción espacial
mejorada en comparación con la presentación monofónica. Sin embargo,
al mezclar un número mayor de canales se incurre en penalizaciones
mayores de tiempo y coste en los fabricantes de contenidos, y la
percepción resultante es típicamente uno entre unos pocos canales
discretos dispersos, en lugar de un campo acústico continuo. En la
patente de Estados Unidos núm. 4.799.260 se describen aspectos de la
descodificación de Dolby Pro Logic. En el documento "Estándar de
Compresión de Audio Digital (AC-3)", Comité de
Sistemas de Televisión Avanzados (ATSC), Documento A/52, de 20 de
Diciembre de 1995, (disponible en la dirección de Internet de
www.atsc.org/Standards/A52/a_52.doc), se establecen detalles de
AC-3. Véase también la Hoja de Erratas de 22 de
Julio de 1999 (disponible en la dirección de Internet
www.dolby.com/tech/ATSC_err.pdf.
Una vez caracterizado el campo acústico, es
posible en principio que un descodificador obtenga la alimentación
de señal óptima para cualquier altavoz de salida. Los canales
suministrados a tal descodificador serán denominados en esta
memoria de formas diversas como canales "cardinales",
"transmitidos" y "de entrada", y cualquier canal de
salida en un emplazamiento que no se corresponda con la posición de
uno de los canales de entrada será denominado canal
"intermedio". Un canal de salida puede tener también un
emplazamiento coincidente con la posición de un canal de
entrada.
En el documento EP 1 054 575 A2, se describen
variantes de un descodificador de señales de audio de banda ancha
en el cual, se obtienen ocho, seis (empleando dos canales fantasma)
o 5 (combinando reducidamente de ocho a cinco) canales de salida en
un espacio de 360 grados, a partir de una pareja de señales de
entrada. La manera en la cual se distribuyen las señales de entrada
entre la señal de salida está determinada por una pluralidad de
coeficientes de "normalización" aplicados a elementos
multiplicadores de una matriz. Los coeficientes son obtenidos como
respuesta a cada una de las señales de entrada individualmente, su
suma, su diferencia, su correlación y su fase relativa. Cuando las
señales de entrada no tienen ninguna correlación, los coeficientes
de normalización son iguales entre sí, lo cual tiende a producir una
imagen sonora amplia y difusa.
De acuerdo con un primer aspecto de la
invención, un proceso para convertir M señales de entrada de audio,
cada una de ellas asociada con una dirección, en N señales de salida
de audio, cada una de ellas asociada con una dirección, donde N es
mayor que M, M es dos o más y N es un entero positivo igual a tres o
más, comprende proporcionar una matriz variable de M:N, aplicar las
M señales de entrada de audio a la matriz variable, obtener las N
señales de salida de audio a partir de la matriz variable, y
controlar la matriz variable como respuesta a las señales de
entrada, de manera que un campo acústico generado por las señales de
salida tenga una imagen sonora compacta en la dirección nominal
principal progresiva de las señales de entrada, cuando las señales
de entrada tienen una alta correlación, extendiéndose la imagen de
compacta a amplia a medida que disminuye la correlación, y
dividiéndose progresivamente en múltiples imágenes sonoras
compactas, cada una de ellas en una dirección asociada con una
señal de entrada, a medida que la correlación continúa disminuyendo
hasta un grado muy bajo de correlación.
De acuerdo con este primer aspecto de la
invención, la matriz variable puede estar controlada como respuesta
a las medidas de: (1) los niveles relativos de las señales de
entrada, y (2) la correlación cruzada de las señales de entrada. En
ese caso, para una medida de la correlación cruzada de las señales
de entrada con valores en una primera gama, limitados a un valor
máximo y a un valor de referencia, el campo acústico puede tener
una imagen sonora compacta cuando la medida de la correlación
cruzada es el valor máximo, y puede tener una imagen ampliamente
extendida cuando la medida de la correlación cruzada es el valor de
referencia, y para una medida de la correlación cruzada de las
señales de entrada que tenga valores en una segunda gama, limitados
por el valor de referencia y un valor mínimo, el campo acústico
puede tener la imagen ampliamente extendida cuando la medida de la
correlación cruzada es el valor de referencia, y puede tener una
pluralidad de imágenes sonoras, cada una en una dirección asociada
con una señal de entrada, cuando la medida de la correlación cruzada
es el valor mínimo.
De acuerdo con un aspecto adicional de la
presente invención, un proceso para convertir M señales de entrada
de audio, cada una de ellas asociada con una dirección, en N señales
de salida de audio, cada una de ellas asociada con una dirección,
donde N es mayor que M, y M es tres o más, comprende proporcionar
una pluralidad de matrices variables de m:n, donde m es un
subconjunto de M y n es un subconjunto de N, aplicar un respectivo
subconjunto de M señales de salida de audio a cada una de las
matrices variables, obtener un respectivo subconjunto de N señales
de salida de audio a partir de las matrices variables, controlar
cada una de las matrices variables como respuesta al subconjunto de
señales de entrada aplicadas a él, de manera que un campo acústico
generado por el respectivo subconjunto de señales de salida
obtenidas de él, tenga una imagen sonora compacta en la dirección
nominal principal progresiva del subconjunto de señales de entrada
aplicadas a él cuando tales señales de entrada tienen una alta
correlación, extendiéndose la imagen de compacta a amplia a medida
que disminuye la correlación, y dividiéndola progresivamente en
múltiples imágenes sonoras compactas, cada una en una dirección
asociada con una señal de entrada aplicada a ella, a medida que la
correlación continúa decreciendo hasta tener una correlación muy
baja, y obtener las N señales de salida de audio a partir de los
subconjuntos de N canales de salida de audio.
De acuerdo con este aspecto adicional de la
presente invención, las matrices variables pueden ser controladas
también como respuesta a la información que compensa el efecto de
otra u otras matrices variables que reciben la misma señal de
entrada. Además, la obtención de N señales de salida de audio a
partir de los subconjuntos de N canales de salida de audio, puede
incluir también la compensación de múltiples matrices variables que
produzcan la misma señal de salida. De acuerdo con tales aspectos
adicionales de la presente invención, cada una de las matrices
variables puede ser controlada como respuesta a las medidas de: (a)
los niveles relativos de las señales de entrada aplicadas a ella, y
(b) la correlación cruzada de las señales de entrada.
De acuerdo con otro aspecto adicional de la
presente invención, un proceso para convertir M señales de entrada
de audio, cada una de ellas asociada con una dirección, en N señales
de salida de audio, cada una de ellas asociada con una dirección,
donde N es mayor que M, y M es tres o más, comprende proporcionar
una matriz variable de M:N que responda a los factores de escala
que controlen los coeficientes de la matriz o controlen las salidas
de la matriz, aplicar las M señales de entrada de audio a la matriz
variable, proporcionar una pluralidad de generadores de factores de
escala de matrices variables de m:n, donde m es un subconjunto de M
y n es un subconjunto de N, aplicar un respectivo subconjunto de M
señales de entrada de audio a cada uno de los generadores de
factores de escala de la matriz variable, obtener un conjunto de
factores de escala de la matriz variable para respectivos conjuntos
de N señales de salida de audio, desde cada uno de los generadores
de factores de escala de la matriz variable, controlar cada uno de
los generadores de factores de escala de la matriz variable como
respuesta al subconjunto de señales de entrada aplicadas a ella, de
manera que cuando los factores de escala generados por ellos son
aplicados a la matriz variable de M:N, un campo acústico generado
por el respectivo subconjunto de señales de salida producidas tiene
una imagen sonora compacta en la dirección nominal principal
progresiva del subconjunto de señales producidas que produjeron los
factores de escala aplicados, cuando tales señales de entrada
tienen una alta correlación, extendiéndose la imagen desde compacta
a amplia a medida que decrece la correlación, y dividiéndose
progresivamente en múltiples imágenes sonoras compactas, cada una
de ellas en una dirección asociada con una señal de entrada que
produjo los factores de escala aplicados, a medida que la
correlación continúa decreciendo hasta tener una correlación muy
baja, y obtener las N señales de salida de audio a partir de la
matriz variable.
De acuerdo con este aspecto adicional más de la
presente invención, los generadores de factores de escala de matriz
variable pueden ser controlados también como respuesta a la
información que compensa el efecto de uno o más generadores de
factores de escala de la matriz variable que reciben la misma señal
de entrada. Además, la obtención de N señales de salida de audio a
partir de la matriz variable puede incluir la compensación de
múltiples generadores de factores de escala de la matriz variable
que producen factores de escala para la misma señal de salida. De
acuerdo con tales aspectos adicionales más de la presente invención,
cada uno de los generadores de factores de escala de la matriz
variable puede ser controlado como respuesta a las medidas de: (a)
los niveles relativos de las señales de entrada aplicadas a él, y
(b) la correlación cruzada de las señales de entrada.
De acuerdo con la presente invención, M canales
de entrada de audio que representan un campo acústico, son
convertidos en N canales de salida de audio que representan el mismo
campo acústico, donde cada canal es una sola corriente de audio que
representa el audio que llega desde una dirección, M y N son enteros
positivos, y M es al menos 2 y N es al menos 3, y N es mayor que M.
Cada canal de entrada y de salida tiene una dirección asociada (por
ejemplo, azimut, elevación y, opcionalmente, distancia, para admitir
un canal virtual o proyectado más cercano o más distante). Se
genera uno o más conjuntos de canales de salida, teniendo cada
conjunto uno o más canales de salida. Cada conjunto está asociado
normalmente con dos o más canales de estrada espacialmente
contiguos, y cada canal de salida de un conjunto se genera
determinando una medida de la correlación cruzada de los dos o más
canales de entrada y una medida de las relaciones de nivel de los
dos o más canales de entrada. La medida de la correlación cruzada
es, preferiblemente, una medida de la correlación cruzada con
compensación del tiempo cero, que es la relación del nivel de
energía común con respecto a la media geométrica de los niveles de
energía de la señal de entrada. El nivel de energía común es,
preferiblemente, el nivel de energía común suavizado o promediado,
y los niveles de energía de las señales de entrada son los niveles
de energía de las señales de entrada suavizados o
promediados.
promediados.
En un aspecto de la presente invención, pueden
asociarse múltiples conjuntos de canales de salida con más de dos
canales de entrada y un proceso puede determinar la correlación de
los canales de entrada, con los cuales está asociado cada uno de
los conjuntos de canales de salida, de acuerdo con un orden
jerárquico tal que cada conjunto o conjuntos está clasificado de
acuerdo con el número de canales de entrada con los cuales están
asociados su canal o canales de salida, teniendo la mayor parte de
los canales de entrada el rango más alto, y que el proceso procesa
los conjuntos de acuerdo con su orden jerárquico. De acuerdo también
con un aspecto de la presente invención, el proceso tiene en cuenta
los resultados del proceso de conjuntos de rangos más altos.
Los aspectos de reproducción o descodificación
de la presente invención suponen que cada uno de los M canales de
entrada de audio, que representan el audio que llega desde una
dirección, fue generado por una codificación en amplitud panorámica
del vecino más cercano de la matriz pasiva para cada dirección de la
fuente (es decir, se supone que una dirección de una fuente se
corresponde principalmente con el canal o canales de entrada más
cercanos), sin el requisito de información adicional de cadena
lateral (el uso de cadena lateral o información auxiliar es
opcional), haciéndolo compatible con técnicas de mezclado, consolas
y formatos existentes. Aunque tales señales de la fuente pueden ser
generadas empleando explícitamente una matriz de codificación
pasiva, la mayoría de las técnicas de grabación convencionales
generan inherentemente tales señales fuentes (constituyendo así una
"matriz de codificación efectiva"). Los aspectos de
reproducción o descodificación de la presente invención son también
considerablemente compatibles con las señales fuente de grabación
natural, tal como podría ser hecho con cinco micrófonos
direccionales reales, ya que, al permitir algún posible retardo de
tiempo, los sonidos que llegan desde direcciones intermedias
tienden a corresponderse principalmente con los micrófonos más
cercanos (en una serie horizontal, específicamente con la pareja más
cercana de micrófonos).
Puede implementarse un descodificador o proceso
de descodificación, de acuerdo con aspectos de la presente
invención, como una retícula de módulos o funciones modulares de
proceso acopladas (en adelante "módulos" o "módulos de
descodificación"), cada uno de los cuales se utiliza para generar
uno o más canales de salida (o, alternativamente, señales de
control utilizables para generar uno o más canales de salida),
típicamente desde dos o más de los canales de entrada más cercanos,
espacialmente contiguos, asociados con el módulo de
descodificación. Los canales de salida representan, típicamente,
proporciones relativas de las señales de audio en los canales de
entrada más cercanos, espacialmente contiguos, asociados con el
módulo de descodificación particular. Como se explica con más
detalle a continuación, los módulos de descodificación están
débilmente acoplados entre sí, en el sentido de que los módulos
comparten entradas y existe una jerarquía de módulos de
descodificación. Los módulos están ordenados en la jerarquía de
acuerdo con el número de canales de entrada con los que están
asociados (al módulo o módulos con mayor número de canales de
entrada asociados se le da el rango mayor). Un supervisor o función
supervisora prevalece sobre los módulos, de manera que las señales
de entrada comunes son igualmente compartidas entre módulos, y los
módulos descodificadores de mayor rango pueden afectar a los
módulos de salida de orden inferior.
Cada módulo descodificador puede, efectivamente,
incluir una matriz tal que genere directamente señales de salida, o
que cada módulo descodificador pueda generar señales de control que
se utilizan, junto con las señales de control generadas por otros
módulos descodificadores, para variar los coeficientes de una matriz
variable o los factores de escala de las entradas o las salidas de
una matriz fija, con el fin de generar todas las señales de
salida.
Los módulos descodificadores emulan el
funcionamiento del oído humano para intentar proporcionar una
reproducción perceptiblemente transparente. La conversión de
señales de acuerdo con la presente invención, de la cual los
módulos descodificadores y las funciones de los módulos son un
aspecto, puede ser aplicada a señales de banda ancha o a cada banda
de frecuencias de un procesador multibanda y, dependiendo de la
implementación, puede ser realizada una vez por muestra o una vez
por bloque de muestras. Un modo de realización multibanda puede
emplear un banco de filtros, tal como un banco de filtros discreto
de banda crítica, o bien un banco de filtros que tenga una
estructura de bandas compatible con un descodificador asociado, o
una configuración de transformación, tal como una FFT (Transformada
Rápida de Fourier), o un banco de filtros lineal MDCT (Transformada
Discreta Modificada del Coseno).
Otro aspecto de esta invención es que la
cantidad de altavoces que reciben los N canales de salida puede ser
reducida a un número práctico mediante una prudente confianza en la
formación de imágenes virtuales, que es la creación de imágenes
sonoras percibidas en posiciones en espacio distintas a donde está
situado el altavoz. Aunque la utilización más común de la formación
de imágenes virtuales es la de la reproducción estereofónica de una
imagen en alguna parte del camino entre dos altavoces, convirtiendo
en panorámica una señal monofónica entre los canales, la formación
de imágenes virtuales, según se contempla como un aspecto de la
presente invención, puede incluir la obtención de imágenes fantasma
proyectadas que proporcionan la impresión auditiva de estar más
allá de las paredes de la habitación o dentro de las paredes de una
habitación. La formación de imágenes virtuales no se considera una
técnica viable para la presentación en grupo con un número escaso de
canales, porque requiere que el oyente esté equidistante entre los
dos altavoces, o casi eso. En los cines, por ejemplo, los altavoces
frontales izquierdo y derecho están demasiado alejados para obtener
una formación útil de imágenes fantasma de una imagen central a
gran parte de la audiencia, de manera que, dada la importancia del
canal central como fuente de gran parte del diálogo, se utiliza en
su lugar un altavoz en el centro físico.
A medida que aumenta la densidad de los
altavoces, se alcanzará un punto en el que la formación de imágenes
virtuales es viable entre cualquier pareja de altavoces para gran
parte de la audiencia, al menos en la medida en que se suavizan las
percepciones panorámicas; con suficientes altavoces, los intervalos
entre altavoces ya no se perciben como tales.
Como se ha mencionado anteriormente, una medida
de la correlación cruzada determina la relación de la energía
dominante (componentes comunes de la señal) a la energía no
dominante (componentes no comunes de la señal) en un módulo, y el
grado de dispersión de los componentes no dominantes de la señal
entre los canales de salida del módulo. Esto puede comprenderse
mejor considerando la distribución de señales de los canales de
salida de un módulo bajo condiciones de señal diferentes para el
caso de un módulo de dos entradas. A menos que se indique otra
cosa, los principios establecidos se extienden directamente a
módulos de orden superior.
El problema de la distribución de señales es que
a menudo hay demasiado poca información para recuperar la
distribución de amplitudes de señales originales, y mucho menos las
propias señales. La información básica disponible son los niveles
de la señal en la entrada de cada módulo y el producto cruzado medio
de las señales de entrada, el nivel de energía común. La
correlación cruzada con compensación para el tiempo cero es la
relación del nivel de energía común con respecto a la media
geométrica de los niveles de energía de las señales de entrada.
El significado de la correlación cruzada es que
funciona como una medida de la amplitud neta de los componentes de
señal comunes a todas las entradas. Si hay una sola señal en
panorámica en cualquier lugar entre las entradas del módulo (una
señal "interior" o "intermedia"), todas las entradas
tendrán la misma forma de onda, aunque con amplitudes posiblemente
diferentes y, en estas condiciones, la correlación será 1,0. En el
otro extremo, si todas las señales de entrada son independientes,
lo que significa que no hay componente común de la señal, la
correlación será cero. Los valores intermedios de correlación entre
0 y 1,0 pueden ser considerados como correspondientes a niveles de
equilibrio intermedios de algún componente común único de señal y a
componentes de señal independientes en las entradas.
Consecuentemente, cualquier condición de la señal de entrada puede
ser dividida en una señal común, la señal "dominante", y los
componentes de señal de entrada sobrantes después de restar las
contribuciones comunes de la señal, que comprenden "todo el
resto" de componentes de señal (la energía "no dominante" o
de señal residual). Como se ha indicado anteriormente, la amplitud
de la señal "dominante" no es necesariamente más sonora que el
residuo de los nivele de señales no dominantes.
Por ejemplo, considérese el caso de un arco de
cinco canales (L(izquierdo), MidL (Medio izquierdo), C
(centro), MidR (Medio derecho), R(derecho)) en
correspondencia con una sola pareja Lt/Rt (izquierda total y derecha
total), en la cual se desea recuperar los cinco canales originales.
Si los cinco canales tienen señales independientes de igual
amplitud, Lt y Rt tendrán la misma amplitud, con un valor intermedio
de energía común, correspondiente a un valor intermedio de
correlación cruzada entre cero y uno (porque Lt y Rt no son señales
independientes). Los mismos niveles pueden conseguirse con niveles
apropiadamente elegidos de L, C y R, sin señales de MidL y MidR.
Por tanto, un módulo de dos entradas y cinco salidas podría
alimentar solamente el canal de salida correspondiente a la
dirección dominante (C en este caso) y a los canales de salida
correspondientes a los residuos (L, R) de señales de entrada, tras
eliminar la energía de C de las entradas de Lt y Rt, no entregando
ninguna señal a los canales de salida de MidL y MidR. Tal resultado
no es deseable (apagar un canal innecesariamente es casi siempre
una mala elección, porque pequeñas perturbaciones en las condiciones
de la señal ocasionarán que el canal "apagado" conmute entre
encendido y apagado, causando un molesto sonido de cotorreo (el
"cotorreo" se produce cuando un canal se apaga y enciende
rápidamente), especialmente cuando el canal "apagado" se
escucha aisladamente.
Consecuentemente, cuando hay múltiples
distribuciones posibles de señales de salida para un conjunto dado
de valores de señales de entrada del módulo, la solución
conservadora desde el punto de vista de la calidad del canal
individual es dispersar los componentes no dominantes de la señal
tan equitativamente como sea posible entre los canales de salida
del módulo, consistentemente con las condiciones de la señal. Un
aspecto de la presente invención es dispersar equitativamente la
energía de la señal disponible, sujeta a las condiciones de la
señal, de acuerdo con un reparto por tres caminos en lugar de un
reparto de dos caminos de "dominantes" y "el resto".
Preferiblemente, el reparto en tres caminos comprende componentes de
señal "dominantes" (comunes), componentes de señal de relleno
(dispersados equitativamente), y residuo de componentes de la señal
de entrada. Desafortunadamente, solamente hay suficiente
información para hacer un reparto de dos caminos (componentes de
señal dominantes y resto de componentes de señal). Se describe aquí
una solución adecuada para realizar un reparto de tres caminos en
el cual, para valores de correlación por encima de un valor
particular, el reparto en dos caminos emplea los componentes
dominantes y no dominantes dispersos de la señal; para valores de
correlación por debajo de ese valor, el reparto en dos caminos
emplea los componentes no dominantes dispersos de la señal y el
residuo. La energía común de la señal es repartida en
"dominante" y "equitativamente dispersada". El componente
"equitativamente dispersado" incluye tanto el componente de
señal "común" como los componentes de señal "residual".
Por tanto, "dispersión" implica una mezcla de componentes de
señal comunes (con correlación) y residuos (sin correlación).
Antes del proceso, para una configuración dada
de canales de entrada/salida de un módulo dado, se calcula un valor
de correlación correspondiente a todos los canales de salida que
reciben la misma amplitud de señal. Este valor de correlación puede
ser denominado valor "random_xcor" ("correlación cruzada
aleatoria"). Para un solo canal de salida intermedia, obtenido
del centro y dos canales de entrada, el valor de random_xcor puede
calcularse como 0,333. Para tres canales intermedios igualmente
espaciados y dos canales de entrada, el valor de random_xcor puede
calcularse como 0,483. Aunque se ha averiguado que tales valores de
tiempo proporcionan resultados satisfactorios, no son críticos. Por
ejemplo, son utilizables valores de alrededor de 0,3 y 0,5,
respectivamente. En otras palabra, para un módulo con M entradas y N
salidas, existe un particular grado de correlación de las M
entradas que puede considerarse como representante de energías
iguales en las N salidas. A esto puede llegarse considerando las M
entradas como si hubieran sido obtenidas utilizando una matriz
pasiva de N a M, que reciba N señales independientes de igual
energía, aunque naturalmente las entradas reales pueden ser
obtenidas por otros medios. El valor umbral de correlación es la
correlación cruzada aleatoria, y puede representar una línea
divisoria entre dos regímenes de
funcionamiento.
funcionamiento.
Por tanto, durante el proceso, si el valor de
correlación cruzada de un módulo es mayor o igual al valor de la
correlación cruzada aleatoria, se pondrá a escala en una gama de 1,0
a 0:
Scaled\_xcor=(correlación \ - \
random\text\_xcor)/(1-random\_xcor)
El valor "scaled_xcor" representa la
cantidad de señal dominante por encima del nivel equitativamente
dispersado. Lo que sobre puede ser distribuido igualmente en los
demás canales de salida del módulo.
Sin embargo, hay un factor adicional que debe
tenerse en cuenta, que es que a medida que la dirección principal
nominal progresiva de las señales de entrada se hace progresivamente
más descentrada, la cantidad de energía dispersa debe ser
progresivamente reducida si se mantiene una distribución igual en
todos los canales de salida o, alternativamente, debe mantenerse la
cantidad de energía dispersada, pero la energía distribuida a los
canales de salida debe ser reducida con relación al
"descentramiento" de la energía dominante (en otras palabras,
un apuntamiento gradual de la energía a lo largo de los canales de
salida). En este último caso, puede requerirse una complejidad
adicional de proceso para mantener la potencia de salida igual a la
potencia de entrada.
Por otra parte, si el valor actual de la
correlación es inferior al valor de la correlación cruzada
aleatoria, la energía dominante se considera cero, se reduce
progresivamente la energía distribuida equitativamente, y se
permite que la señal residual, lo que quede de ella, se acumule en
las entradas. Con una correlación = cero, no hay señal interior,
sino simplemente señales de entrada independientes que tienen una
correspondencia directa con canales de
salida.
salida.
El funcionamiento de este aspecto de la
invención puede explicarse mejor como sigue:
- a)
- Cuando la correlación real es mayor que la correlación cruzada aleatoria, hay suficiente energía común para considerar que haya una señal dominante para ser dirigida (puesta en panorámica) entre dos salidas contiguas (o, naturalmente, alimentada a una salida si sucede que su dirección coincide con la de esa salida); la energía asignada a ella se resta de las entradas para ofrecer unos residuos que se distribuyen, (preferiblemente de manera uniforme) entre todas las salidas.
- b)
- Cuando la correlación real es precisamente la correlación cruzada aleatoria, la energía de entrada (que podría suponerse toda ella como residual) se distribuye uniformemente entre todas las salidas (esta es la definición de la correlación cruzada aleatoria).
- c)
- Cuando la correlación real es inferior a la correlación cruzada aleatoria, no hay energía común suficiente para una señal dominante, de manera que la energía de las entradas se distribuye entre las salidas con proporciones que dependen de cuánto es de inferior. Esto es como si se tratase a la parte con correlación como el residuo, para distribuirse uniformemente entre todas las salidas, y la parte sin correlación más bien como varias señales dominantes para ser enviadas a las salidas correspondientes a las direcciones de las entradas. En el caso extremo de que la correlación sea cero, cada entrada es alimentada solamente en una posición de salida (generalmente una de las salidas, pero podría ser puesta en panorámica entre dos de ellas).
Por tanto, hay una continuidad entre correlación
total, con una sola señal puesta en panorámica entre dos salidas de
acuerdo con las energías relativas de las entradas, a través de la
correlación cruzada aleatoria con las entradas distribuidas
uniformemente entre todas las salidas, hasta una correlación cero
con M entradas alimentadas independientemente a M posiciones de
salida.
Como se ha mencionado anteriormente, la
conversión de canales de acuerdo con un aspecto de la presente
invención, puede ser considerada como que implica una retícula de
"módulos". Debido a que múltiples módulos pueden compartir un
canal de entrada dado, son posibles interacciones entre módulos y
pueden degradar el funcionamiento, a menos que se aplique alguna
compensación. Aunque generalmente no es posible separar señales en
una entrada según a qué módulo es "con el que van", una
estimación de la cantidad de señal de entrada utilizada por cada
módulo conectado puede mejorar la correlación resultante y las
estimaciones de dirección, dando como resultado un funcionamiento
global mejorado.
Como se ha mencionado anteriormente, hay dos
tipos de interacciones de los módulos: las que implican a módulos
de un nivel de jerarquía común o inferior (es decir, módulos con un
número similar de entradas o con menos entradas), denominados
"vecinos", y módulos a un nivel de jerarquía más alto (que
tienen más entradas) que un módulo dado, pero que comparten una o
más entradas comunes, denominados "vecinos de orden
superior".
Considérese primero la compensación de vecinos
con un nivel de jerarquía común. Para comprender los problemas
originados por la interacción de vecinos, considérese un módulo
aislado de dos entradas, con señales de entrada A idénticas de L/R
(izquierda y derecha). Esto corresponde a una sola señal dominante
(común) a mitad de camino entre las entradas. La energía común es
A^{2} y la correlación es 1,0. Supóngase un segundo módulo de dos
entradas con una señal común, B, en sus entradas L/R, una energía
común B^{2}, y también una correlación de 1,0. Si los dos módulos
están conectados a una entrada común, la señal en esa entrada será
A+B. Suponiendo que las señales A y B son independientes, el
producto promediado de AB será cero, de manera que la energía común
del primer módulo será A(A+B) = A^{2} + AB = A^{2} y la
energía común del segundo módulo será B(A+B) = B^{2} + AB
= B^{2}. Así, la energía común no es afectada por los módulos
vecinos, siempre que procesen señales independientes. Esta es
generalmente una suposición válida. Si las señales no son
independientes, son iguales o al menos comparten sustancialmente
componentes de señal comunes, el sistema reaccionará de una manera
consistente con la respuesta del oído humano, es decir, la entrada
común será mayor, haciendo que la imagen de audio resultante sea
influenciada por la entrada común. En ese caso, las relaciones de
amplitud de entrada de L/R de cada módulo son compensadas porque la
entrada común tiene mayor amplitud de la señal (A+B) que cualquiera
de las entradas distantes, lo que hace que la estimación de la
dirección tenga una propensión hacia la entrada común. En ese caso,
el valor de correlación de ambos módulos es ahora algo inferior a
1,0, porque las formas de onda de ambas parejas de entradas son
diferentes. Debido a que el valor de correlación determina el grado
de dispersión de los componentes no comunes de la señal y la
relación de la energía dominante (componente común de la señal) a
la no dominante (componente no común de la señal), la señal no
compensada de entrada común hace que se disperse la distribución de
señal no común de cada módulo.
Para compensarlo, se estima una medida del
"nivel de entrada común" atribuible a cada entrada de cada
módulo, y después se informa a cada módulo sobre la cantidad total
de tal energía del nivel de entrada común, de todos los niveles
vecinos del mismo nivel de jerarquía en la entrada de cada módulo.
Se describen aquí dos formas de calcular la medida del nivel de
entrada común atribuible a cada entrada de un módulo: una que está
basada en la energía común de las entradas al módulo (descrita en
general en el párrafo siguiente), y otra que es más precisa pero
requiere mayores recursos de cálculo, que está basada en la energía
total de las salidas interiores del módulo (descrita más adelante
con relación a la configuración de la figura 6A).
De acuerdo con la primera manera de calcular la
medida del nivel de entrada común atribuible a cada entrada de un
módulo, el análisis de las señales de entrada de un módulo no
permite resolver directamente el nivel de entrada común en cada
entrada, solamente una proporción de la energía global común, que es
la media geométrica de los niveles de energía de entrada comunes.
Debido a que el nivel de energía de entrada común en cada entrada
no puede exceder del nivel de energía total en esa entrada, que está
medida y es conocida, la energía global común es separada en
niveles de entrada comunes estimados, proporcionales a los niveles
de entrada observados, sujetos a los requisitos que siguen. Una vez
que se ha calculado el conjunto de niveles de entrada comunes para
todos los módulos de la retícula, (independientemente de que la
medición de niveles de entrada común esté basada en la primera o en
la segunda forma de cálculo), cada módulo es informado del total de
niveles de entrada comunes de todos los módulos vecinos de cada
entrada, una cantidad denominada "nivel vecino" de un módulo
en cada una de sus entradas. El módulo resta entonces el nivel
vecino del nivel de entrada en cada una de sus entradas para
obtener niveles de entrada compensados, que son utilizados para
calcular la correlación y la dirección (dirección nominal principal
progresiva de las señales de entrada).
Para el ejemplo citado anteriormente, los
niveles vecinos son inicialmente cero, porque la entrada común tiene
más señal que cualquiera de las entradas de los extremos, el primer
módulo demanda un nivel de potencia de entrada común en esa entrada
que sea superior a A^{2} y el segundo módulo demanda un nivel de
entrada común en la misma entrada que sea superior a B^{2}. Como
las demandas totales son mayores que el nivel de energía disponible
para eso, las demandas se limitan a alrededor de A^{2} y B^{2},
respectivamente. Como no hay ningún otro módulo conectado a la
entrada común, cada nivel de entrada común se corresponde con el
nivel vecino del otro módulo. Consecuentemente, el nivel de
potencia de entrada compensada, visto por el primer módulo, es
(A^{2}+B^{2}) - B^{2} =
A^{2}
y el nivel de potencia de entrada
compensada visto por el segundo módulo
es
(A^{2}+B^{2}) - A^{2} =
B^{2}
Sin embargo, estos serían justamente los niveles
que habrían sido observados con los módulos aislados.
Consecuentemente, los valores de correlación resultantes serán 1,0,
y las direcciones dominantes estarán centradas, con las amplitudes
apropiadas, como se desea. No obstante, las propias señales
recuperadas no estarán completamente aisladas, la salida del primer
módulo tendrá algún componente de la señal B y viceversa, pero esta
es una limitación de un sistema de matrices, y si se efectúa el
proceso en base a multibanda, los componentes de la señal mezclada
serán de una frecuencia similar, haciendo que la distinción entre
ellos sea algo especulativo. En situaciones más complejas, la
compensación no será normalmente tan precisa, pero la experiencia en
el sistema indica que la compensación mitiga en la práctica la
mayoría de los efectos de la interacción de módulos vecinos.
Una vez establecidos los principios y las
señales utilizadas en la compensación de niveles vecinos, la
extensión a la compensación de niveles de vecinos de orden superior
es bastante directa. Esto es aplicable a situaciones en las cuales
dos o más módulos con niveles de jerarquía diferentes comparten más
de un canal de entrada en común. Por ejemplo, podría haber un
módulo de tres entradas compartiendo dos entradas con un módulo de
dos entradas. También será común un componente de señal común a las
tres entradas, para ambas entradas del módulo de dos entradas, y
será obtenido, sin compensación, en distintas posiciones para cada
módulo. De manera más general, puede haber un componente de la
señal común a las tres entradas y un segundo componente común a
solamente las entradas del módulo de dos entradas, requiriendo que
sus efectos sean separados tanto como sea posible para una
obtención apropiada del campo acústico de salida. Consecuentemente,
los efectos de la señal común de tres entradas, como los
materializados en los niveles de entrada común descritos
anteriormente, deben ser restados de las entradas antes de que se
pueda realizar apropiadamente el cálculo de dos entradas. En
realidad los elementos de la señal común de orden superior deben
ser restados no solamente de los niveles de entrada del módulo de
nivel inferior, sino también de la medida observada de su nivel de
energía común, antes de seguir con el cálculo del nivel inferior.
Esto es diferente de los efectos de los niveles de entrada común de
los módulos del mismo nivel de jerarquía que no afectan la medida
del nivel de energía común de un módulo vecino. Así, los niveles
vecinos de orden superior deben ser tenidos en cuenta, y empleados,
separadamente de los niveles vecinos del mismo orden. Al mismo
tiempo que los niveles vecinos de orden superior son traspasados
descendentemente hacia módulos inferiores de la jerarquía, los
niveles comunes restantes de módulos de nivel inferior deben ser
traspasados ascendentemente en la jerarquía porque, como se ha
mencionado anteriormente, los módulos de nivel inferior actúan como
vecinos normales para los módulos de nivel superior. Algunas
cantidades son interdependientes y difíciles de resolver
simultáneamente. Con el fin de evitar la realización de cálculos
que requieren grandes recursos para soluciones simultáneas
complejas, los valores previamente calculados pueden ser
traspasados a los módulos relevantes. Una interdependencia potencial
de niveles comunes de entrada del módulo a diferentes niveles de
energía, puede resolverse utilizando el valor anterior, como antes,
o realizando cálculos en una secuencia repetitiva (es decir, en
bucle), desde el nivel de jerarquía más alta al de más baja.
Alternativamente, también es posible una solución de ecuaciones
simultáneas, aunque puede implicar una sobrecarga de cálculo
nada
trivial.
trivial.
Aunque las técnicas de compensación de la
interacción descritas solamente entregan valores aproximadamente
correctos para distribuciones de señales complejas, se cree que
proporcionan una mejora sobre la configuración reticular que falla
en tomar en consideración las interacciones de módulos.
La figura 1 es una vista superior en planta que
muestra esquemáticamente una configuración de descodificación
idealizada a manera de configuración de prueba que emplea una serie
ordenada horizontal de dieciséis canales, alrededor de las paredes
de una habitación, una serie de seis canales dispuestos en círculo
por encima de la serie horizontal y un solo canal
suplementario.
La figura 2 es un diagrama de bloques
funcionales que proporciona una visión general de un modo de
realización de transformación multibanda, de una pluralidad de
módulos que funcionan con un supervisor central que implementa el
ejemplo de la figura 1.
La figura 3 es un diagrama de bloques
funcionales, útil para comprender la manera en la que un supervisor,
tal como el supervisor 201 de la figura 2, puede determinar un
factor de escala del punto del extremo.
Las figuras 4A-4C muestran un
diagrama de bloques funcionales de un módulo según un aspecto de la
presente invención.
La figura 5 es una vista esquemática que muestra
una configuración hipotética de un módulo de tres entradas
alimentado por un triángulo de canales de entrada, tres canales de
salida interiores y una dirección dominante. La vista es útil para
comprender la distribución de componentes de la señal dominante.
Las figuras 6A y 6B son diagramas de bloques
funcionales que muestran, respectivamente, una configuración
adecuada para: (1) generar la energía total estimada para cada
entrada de un módulo, como respuesta a la energía total en cada
entrada, y (2) como respuesta a una medida de la correlación cruzada
de las señales de entrada, generando un componente de factor de
escala de energía del punto extremo en exceso, para cada uno de los
puntos extremos del módulo.
La figura 7 es un diagrama de bloques
funcionales que muestra una función preferida del bloque 367 de
"suma y/o mayor que" de la figura 4C.
La figura 8 es una representación idealizada de
la manera en la que un aspecto de la presente invención genera
componentes de factor de escala, como respuesta a una medida de la
correlación cruzada.
Las figuras 9A y 9B hasta las figuras 16A y 16B
son una serie de representaciones idealizadas que ilustran los
factores de escala de salida de un módulo, que resultan de diversos
ejemplos de condiciones de entrada de la señal.
Con el fin de comprobar aspectos de la presente
invención, se desarrolló una configuración que tenía una serie
horizontal de 5 altavoces en cada pared de una habitación de cuatro
paredes (un altavoz en cada esquina con tres espaciados
uniformemente entre cada esquina), 16 altavoces en total, admitiendo
altavoces comunes en las esquinas, más un anillo de 6 altavoces por
encima de un oyente situado en el centro, en un ángulo vertical de
alrededor de 45 grados, mas un solo altavoz directamente por encima,
en total 23 altavoces, mas un canal de un
sub-altavoz de graves/LFE (efectos de bajas
frecuencias), total 24 altavoces, todos ellos alimentados desde un
ordenador personal organizado para la reproducción de 24 canales.
Aunque para la forma coloquial actual de hablar, este sistema puede
ser denominado como un sistema de 23.1 canales, será denominado aquí
por simplicidad como un sistema de 24 canales.
La figura 1 es una vista superior en planta que
muestra esquemáticamente una configuración de descodificación
idealizada en la manera de la configuración de prueba que se acaba
de describir. Se muestran cinco canales de entrada de amplio
alcance, como se muestra con los cuadrados 1', 3', 5', 9' y 13' del
círculo exterior. Se ilustra un canal vertical, que puede ser
obtenido a partir de las cinco entradas de amplio alcance por medio
de la correlación o reverberación generada, o proporcionado
separadamente (como en la figura 2), como el cuadrado 23' en línea
de puntos del centro. Los veintitrés canales de salida de amplio
alcance están ilustrados como círculos sólidos numerados
1-23. El círculo exterior de dieciséis canales de
salida está sobre un plano horizontal, el círculo interior de seis
canales de salida está a cuarenta y cinco grados por encima del
plano horizontal. El canal 23 de salida está directamente por
encima de uno o más oyentes. Hay cinco módulos descodificadores de
dos entradas delimitados por los corchetes 24-28,
alrededor del círculo exterior, conectados entre cada pareja de
canales horizontales de entrada. Hay cinco módulos descodificadores
adicionales verticales de dos entradas, delimitados por los
corchetes 29-33 que conectan el canal vertical con
cada una de las entradas horizontales. El canal 21 de salida, el
canal posterior central elevado, se obtiene a partir del módulo
descodificador 34 de tres entradas, ilustrado como flechas entre el
canal 21 de salida y los canales 9, 13 y 23 de entrada. Así, el
módulo 34 de tres entradas está a un nivel más alto en la jerarquía
que sus módulos vecinos 27, 32 y 33 de dos entradas de jerarquía
inferior. En este ejemplo, cada módulo está asociado con una
respectiva pareja o trío de canales de entrada espacialmente
contiguos más cercanos. Cada módulo de este ejemplo tiene al menos
tres vecinos del mismo nivel. Por ejemplo, los módulos 25, 28 y 29
son vecinos del módulo 24.
Aunque los módulos descodificadores
representados en la figura 1 tienen, de forma diversa, tres, cuatro
o cinco canales de salida, un módulo descodificador puede tener
cualquier número razonable de canales de salida. Un canal de salida
puede estar situado de forma intermedia entre dos o más canales de
entrada, o en la misma posición que un canal de entrada. Así, en el
ejemplo de la figura 1, cada emplazamiento de los canales de
entrada es también un canal de salida. Dos o tres módulos
descodificadores comparten cada uno de los canales de entrada.
Aunque la configuración de la figura 1 emplea
cinco módulos (24-28) (cada uno de los cuales tiene
dos entradas) y cinco entradas (1', 3', 5', 9' y 13') para obtener
dieciséis salidas horizontales (1-16), que
representan emplazamientos alrededor de las cuatro paredes de una
habitación, se pueden obtener resultados similares con un mínimo de
tres entradas y tres módulos (cada uno de ellos con dos entradas,
compartiendo cada módulo una entrada con otro
módulo).
módulo).
Empleando múltiples módulos, en los cuales cada
módulo tiene canales de salida en un arco o línea (tal como en el
ejemplo de las figuras 1 y 2), pueden evitarse las ambigüedades de
descodificación encontradas en descodificadores de la técnica
anterior, donde las correlaciones inferiores a cero son
descodificadas indicando direcciones hacia atrás.
Aunque los canales de entrada y salida pueden
ser caracterizados por su posición física, o al menos por su
dirección, es útil caracterizarlos con una matriz, porque
proporciona una relación de señales bien definida. Cada elemento de
la matriz (fila i, columna j) es una función de transferencia que
relaciona el canal de entrada i al canal de salida j. Los elementos
de la matriz son normalmente coeficientes multiplicadores de signo,
pero también pueden incluir términos de fase o retardo (en
principio, cualquier filtro), y pueden ser funciones de frecuencia
(en términos de frecuencia discreta, una matriz diferente en cada
frecuencia). Esto es directo en el caso de factores de escala
dinámicos aplicados a las salidas de una matriz fija, pero también
se presta a una matrización variable, ya sea con un factor de
escala diferente para cada matriz, o bien, para elementos de la
matriz más elaborados que los simples factores escalares de escala,
en los cuales los propios elementos de la matriz son variables, por
ejemplo un retardo variable.
Hay cierta flexibilidad en hacer corresponder
las posiciones físicas con elementos de la matriz; en principio,
los modos de realización de aspectos de la presente invención pueden
gestionar la correspondencia entre un canal de entrada y cualquier
número de canales de salida, y viceversa, pero la situación más
común es suponer señales en correspondencia solamente con los
canales de salida más cercanos, a través de simples factores
escalares que, para conservar la potencia, sus cuadrados suman 1,0.
Tal correspondencia se hace a menudo a través de una función de
panorámica de seno/coseno.
Por ejemplo, con dos canales de entrada y tres
canales interiores de salida sobre una línea entre ellos, más los
dos canales de salida de los puntos extremos, coincidentes con las
posiciones de entrada, (es decir, un módulo M:N en el cual M es 2 y
N es 5), se podría suponer que el alcance representa 90 grados de
arco (el alcance en el que el seno y el coseno cambian de 0 a 1 o
viceversa), de manera que cada canal es 90 grados/4 intervalos =
22,5 grados de separación, dando los canales unos coeficientes de la
matriz de (cos(ángulo), sen(ángulo)):
- Coeficientes de Lout = cos (0), sen (0) = (1, 0)
- Coeficientes de MidLout = cos (22,5), sen (22,5) = (0,92, 0,38)
- Coeficientes de Cout = cos (45), sen (45) = (0,71, 0,71)
- Coeficientes de MidRout = cos (67,5), sen (67,5) = (0,38, 0,92)
- Coeficientes de Rout = cos (90), sen (90) = (0,1)
Por tanto, para el caso de una matriz con
coeficientes fijos y una ganancia variable controlada por un factor
de escala en cada salida de la matriz, la salida de señal en cada
uno de los cinco canales de salida es (donde "SF" es un factor
de escala para una salida particular identificada por el
subíndice):
- Lout = Lt (SF_{L})
- MidLout = ((0,92)Lt + (0,38)Rt))(SF_{MidL})
- Cout = ((0,45)Lt + (0,45)Rt))(SF_{C})
- MidRout = ((0,38)Lt + (0,92)Lt))(SF_{MidR})
- Rout = Rt (SF_{R})
Generalmente, dada una serie de canales de
entrada, uno puede unir conceptualmente las entradas más cercanas
con líneas rectas, que representan módulos descodificadores
potenciales. (Son "potenciales" porque si no hay ningún canal
de salida que necesite ser obtenido a partir de un módulo, el módulo
no es necesario). Para configuraciones típicas, cualquier canal de
salida en una línea entre dos canales puede ser obtenido a partir de
un módulo de dos entradas (si las fuentes y los canales de
transmisión están en un plano común, cualquier fuente aparece en
dos canales de entrada como mucho), en cuyo caso no hay ventaja en
emplear más de dos entradas). Un canal de salida en la misma
posición que un canal de entrada es un canal del punto extremo,
quizás de más de un módulo. Un canal de salida que no esté sobre
una línea o en la misma posición que una entrada (por ejemplo,
dentro o fuera de un triángulo formado por tres canales de entrada)
requiere un módulo con más de dos entradas.
Los módulos descodificadores con más de dos
entradas son útiles cuando una señal común ocupa más de dos canales
de entrada. Esto puede ocurrir, por ejemplo, cuando los canales
fuente y los canales de entrada no están en un plano: un canal
fuente puede corresponderse con más de dos canales de entrada. Esto
ocurre en el ejemplo de la figura 1 cuando se hace corresponder a
24 canales (16 canales en anillo horizontal, 6 canales en anillo
elevado, 1 canal vertical, mas LFE) a 6.1 canales (incluyendo un
canal vertical compuesto). En ese caso, el canal posterior central
del anillo elevado no está en una línea directa entre dos de los
canales fuente, está en el centro de un triángulo formado por los
canales Ls (13), Rs (9) y superiores (23), de manera que se requiere
un módulo de tres entradas para extraerlo. Una manera de hacer
corresponder los canales elevados con una serie horizontal es hacer
corresponder cada uno de ellos con más de dos canales de entrada.
Esto permite que los 24 canales del ejemplo de la figura 1 tengan
una correspondencia con una serie convencional 5:1 de canales. En
esa alternativa, una pluralidad de módulos de tres entradas puede
extraer los canales elevados, y los componentes de la señal que
sobran pueden ser procesados por módulos de dos entradas para
extraer el anillo horizontal principal de canales.
En general, no es necesario comprobar todas las
combinaciones posibles de señales comunes entre los canales de
entrada. Con series planas de canales (por ejemplo, canales que
representan direcciones en series horizontales), es normalmente
adecuado para realizar una comparación de similitud por parejas de
canales espacialmente contiguos. Para canales dispuestos en un
dosel o en la superficie de una esfera, la cantidad de señal común
puede extenderse a tres o más canales. El uso y la detección de la
cantidad de señal común pueden ser utilizados también para
transportar información adicional de la señal. Por ejemplo, un
componente de señal vertical puede ser representado efectuando una
correspondencia con los cinco canales de alcance total de una serie
horizontal de cinco canales.
Las decisiones sobre qué combinaciones de
canales de entrada han de analizarse en términos de señal común,
junto con una matriz por defecto de correspondencia entrada/salida,
solamente necesita hacerse una vez por cada conversor de canales de
entrada/salida, o por cada configuración de funciones de conversor,
al configurar el conversor o la función del conversor. La
"correspondencia inicial" (antes del proceso) produce una
matriz "maestra" pasiva que relaciona las configuraciones de
canales de entrada/salida con la orientación espacial de los
canales. Como alternativa, el procesador o parte del proceso de la
invención puede generar factores de escala variables con el tiempo,
uno por cada canal de salida, que modifican los niveles de señal de
salida de lo que hubiera sido, en otro caso, una simple matriz
pasiva o los propios coeficientes de la matriz. Los factores de
escala a su vez se derivan de una combinación de componentes de
señal: (a) dominante, (b) uniformemente disperso, y (c) residual
(punto del extremo), como se describe a continuación.
Una matriz maestra es útil para configurar una
disposición de módulos tales como los ilustrados en el ejemplo de
la figura 1 y descritos con más detalle a continuación en relación
con la figura 2. Examinando la matriz maestra, se puede deducir,
por ejemplo, cuántos módulos descodificadores son necesarios, cómo
están conectados, cuántos canales de entrada y salida tiene cada
uno y los coeficientes de la matriz relativos a las entradas y
salidas de cada módulo. Estos coeficientes pueden ser tomados de la
matriz maestra; solamente son necesarios los valores distintos de
cero, a menos que un canal de entrada sea también un canal de salida
(es decir, un punto extremo).
Cada módulo tiene, preferiblemente, una matriz
"local", que es aquella parte de la matriz maestra aplicable
al módulo en particular. En el caso de una disposición de múltiples
módulos, tal como el ejemplo de las figuras 1 y 2, el módulo puede
utilizar la matriz local con el fin de generar factores de escala (o
coeficientes de la matriz) para controlar la matriz maestra, como
se describe a continuación en relación con las figuras 2 y
4A-4C, o con el fin de generar un subconjunto de
señales de salida, siendo ensambladas dichas señales de salida por
un proceso central, tal como un supervisor como se describe en
relación con la figura 2. Tal supervisor, en este último caso,
compensa las múltiples versiones de la misma señal de salida,
producida por módulos que tienen una señal de salida común, de una
manera análoga a la manera en la cual el supervisor 201 de la figura
2 determina un factor de escala final, para sustituir los factores
de escala preliminares producidos por módulos que generan los
factores de escala preliminares para el mismo canal de salida.
En el caso de múltiples módulos que producen
factores de escala en lugar de señales de salida, tales módulos
puede obtener continuamente la información de la matriz que es
relevante para sí misma, desde una matriz maestra a través de un
supervisor, en lugar de tener una matriz local. Sin embargo, se
requiere menor sobrecarga de cálculo si el módulo tiene su matriz
local. En el caso de un solo módulo autónomo, el módulo tiene una
matriz local, que es la única matriz requerida (en efecto, la
matriz local es la matriz maestra), y esa matriz local se utiliza
para producir señales de salida.
A menos que se indique lo contrario, las
descripciones de modos de realización de la invención que tienen
múltiples módulos, son con referencia a la alternativa en la cual
los módulos producen los factores de escala.
Cualquier canal de salida de módulo
descodificador, con solo un coeficiente distinto de cero en la
matriz local del módulo, (ese coeficiente es 1,0, ya que los
coeficientes al cuadrado y sumados dan como resultado 1,0), es un
punto extremo del canal. Los canales de salida con más de un
coeficiente distinto de cero, son canales de salida interior.
Considérese un ejemplo sencillo. Si los canales de salida O1 y O2 se
obtienen ambos a partir de los canales de entrada I1 e I2 (pero con
distintos valores de los coeficientes), se necesita entonces un
módulo de 2 entradas conectado entre I1 e I2, generando las salidas
O1 y O2, posiblemente entre otras. En un caso más complejo, si hay
5 entradas y 16 salidas, y uno de los módulos descodificadores tiene
entradas I1 e I2, y alimenta las salidas O1 y O2 de manera que:
O1 = A I1 + B
I2 + O I3 + O I4 + O
I5
(obsérvese que no hay contribución de los
canales de entrada I3, I4 o I5), y
O2 = C I1 + D
I2 + O I3 + O I4 + O
I5
(obsérvese que no hay contribución de los
canales de entrada I3, I4 o I5),
entonces el descodificador puede tener dos
entradas (I1 e I2), dos salidas, y los factores de escala relativos
a ellos son:
O1 = A I1 + B
I2,
y
O2 = C I1 + D
I2.
Tanto la matriz maestra como la matriz local, en
el caso de un solo módulo autónomo, puede tener elementos de la
matriz que funcionen proporcionando más que una multiplicación. Por
ejemplo, como se ha indicado anteriormente, los elementos de la
matriz pueden incluir una función de filtro, tal como un término de
fase o retardo, y/o un filtro que es una función de la frecuencia.
Un ejemplo de filtrado que puede ser aplicado, es una matriz de
retardos puros que puede obtener imágenes fantasma proyectadas. En
la práctica, tal matriz maestra o local puede ser dividida, por
ejemplo, en dos funciones, una que emplea coeficientes para obtener
canales de salida, y una segunda que aplica una función de
filtrado.
La figura 2 es un diagrama de bloques
funcionales que proporciona una visión global de un modo de
realización de transformada multibanda que implementa el ejemplo de
la figura 1. Una entrada de audio PCM, por ejemplo, que tenga
múltiples canales entrelazados de señales de audio, es aplicada a un
supervisor o función supervisora 201 (en adelante "supervisor
201"), que incluye un dispositivo para deshacer el entrelazado
que recupera cadenas separadas de cada uno de los seis canales de
señal de audio (1', 3', 5', 9', 13' y 23') que lleva la entrada
entrelazada, y aplica cada uno de ellos a una transformación de
dominio de tiempo a dominio de frecuencia, o función de
transformación (en adelante "transformación directa").
Alternativamente, los canales de audio pueden ser recibidos en
cadenas separadas, en cuyo caso no se requiere el dispositivo para
deshacer el entrelazado.
Como se ha indicado anteriormente, la conversión
de la señal de acuerdo con la presente invención puede ser aplicada
a señales de banda ancha, o bien a cada banda de frecuencias de un
procesador multibanda, que pude emplear un banco de filtros, tal
como un banco de filtros discreto de banda crítica, o bien un banco
de filtros que tenga una estructura de banda compatible con un
descodificador asociado, o una configuración de transformación, tal
como una FFT (Transformada Rápida de Fourier) o bien un banco de
filtros lineal MDCT (Transformada Discreta Modificada del Coseno).
Las figuras 2, 4A-4C y otras figuras están descritas
en el contexto de una configuración de transformada multibanda.
No ilustrado en las figuras 1, 2 y otras
figuras, por simplicidad, hay un canal opcional de entrada LFE (un
canal potencial de séptima entrada en las figuras 1 y 2) y un canal
de salida (un canal potencial de salida núm. 24 en las figuras 1 y
2). El canal LFE puede ser tratado generalmente de la misma manera
que los demás canales de entrada y salida, pero con su propio
factor de escala fijado en "1" y su propio coeficiente de
matriz fijado también en "1". En casos en los que los canales
fuente no tienen LFE pero los canales de salida sí lo tienen (por
ejemplo, una mezcla hacia arriba de 2:5.1), un canal LFE puede ser
obtenido utilizando un filtro paso bajo (por ejemplo, un filtro de
Butterworth de quinto orden con una frecuencia de corte de 120 Hz)
aplicado a la suma de canales, o bien, para evitar la cancelación al
sumar los canales, puede emplearse una suma corregida en fase de
los canales. En los casos en que la entrada tenga un canal LFE, pero
no la salida, el canal LFE puede ser añadido a uno o más de los
canales de salida.
Continuando con la descripción de la figura 2,
los módulos 24-34 reciben las entradas apropiadas de
las seis entradas 1', 3', 5', 9', 13' y 23' de la manera ilustrada
en la figura 1. Cada módulo genera una salida de factor de escala
preliminar ("PSF") para cada uno de los canales de audio
asociados con él, como se ilustra en la figura 1. Así, por ejemplo,
el módulo 24 recibe las entradas 1' y 3' y genera salidas de factor
de escala preliminar, PSF1, PSF2 y PSF3. Alternativamente, como se
ha mencionado anteriormente, cada módulo puede generar un conjunto
preliminar de salidas de audio para cada uno de los canales de
salida de audio asociados con él. Cada módulo puede comunicarse
también con un supervisor 201, como se explica con más detalle a
continuación. La información enviada desde el supervisor 201 a
diversos módulos puede incluir información de nivel del vecino e
información del nivel del vecino de orden superior, si lo hay. La
información enviada al supervisor desde cada módulo puede incluir
la energía total estimada de las salidas interiores atribuibles a
cada una de las entradas del módulo. Los módulos pueden ser
considerados parte de una porción generadora de señal de control
del sistema global de la figura 2.
Un supervisor, tal como el supervisor 201 de la
figura 2, puede realizar varias funciones diversas. Un supervisor
puede determinar, por ejemplo, si hay más de un módulo en uso y, si
no lo hay, el supervisor no necesita realizar ninguna función
relativa a niveles vecinos. Durante la inicialización, el supervisor
puede informar al módulo o a cada módulo el número de entradas y
salidas que tiene, los coeficientes de la matriz relativa a ellos,
y la tasa de muestreo de la señal. Como ya se ha mencionado, puede
leer los bloques de muestras PCM entrelazadas y desenlazarlas en
canales independientes. Puede aplicar una acción no limitadora en el
dominio del tiempo, por ejemplo, como respuesta a información
adicional que indique que la señal fuente estaba limitada en
amplitud y el grado de esa limitación. Si el sistema está
funcionando en modo multibanda, puede aplicar ventanas y un banco
de filtros (por ejemplo, FFT, MDCT, etc.) a cada canal (de forma que
múltiples módulos no realicen transformaciones redundantes que
aumenten sustancialmente la sobrecarga de proceso) y pasar cadenas
de valores transformados a cada módulo para su proceso. Cada módulo
devuelve al supervisor una serie bidimensional de factores de
escala: un factor de escala para todos los almacenamientos binarios
transformados en cada sub-banda de cada canal de
salida (cuando se trata de una configuración de transformación
multibanda, en otro caso, un factor de escala por canal de salida)
o, alternativamente, una serie bidimensional de señales de salida:
un conjunto de almacenamientos binarios de transformaciones
complejas para cada sub-banda de cada canal de
salida (cuando se trata de una configuración de transformación
multibanda, en otro caso, una señal de salida por cada canal de
salida). El supervisor puede suavizar los factores de escala y
aplicarlos a la matriz de caminos de señales (matriz 203 descrita
más adelante), para obtener (en una configuración de transformación
multibanda) espectros complejos de canales de salida.
Alternativamente, cuando el módulo genera señales de salida, el
supervisor puede obtener los canales de salida (espectros complejos
de canales de salida, en una configuración de transformada
multibanda), compensando las matrices locales que generan la misma
señal de salida. Puede entonces realizar una transformada inversa
mas formación de ventanas y suma solapada, en el caso de MDCT, para
cada canal de salida, entrelazando las muestras de salida para
formar una cadena de salida multicanal compuesta (o bien,
opcionalmente, puede omitir el entrelazado para proporcionar
múltiples cadenas de salida), y lo envía a un fichero de salida,
tarjeta de sonido u otro destino final.
Aunque pueden ser realizadas diversas funciones
por medio de un supervisor, como se ha descrito aquí, o por medio
de múltiples supervisores, una persona con experiencia normal en la
técnica apreciará que varias funciones o todas las funciones pueden
ser realizadas en los propios módulos en lugar de hacerlo por un
supervisor común a todos o a algunos de los módulos. Por ejemplo,
si solamente hay un módulo autónomo, no es necesario que haya
distinción entre funciones de módulo y funciones de supervisor.
Aunque, en el caso de múltiples módulos, un supervisor común puede
reducir la potencia global de proceso requerida, eliminando o
reduciendo tareas de proceso redundantes, la eliminación de un
supervisor común o de su simplificación puede permitir que los
módulos se sumen fácilmente unos con otros, por ejemplo, para pasar
a un grado superior de más canales de salida.
Volviendo a la descripción de la figura 2, las
seis entradas 1', 3', 5', 9', 13' y 23' son aplicadas también a una
matriz variable o función 203 de matrización variable (en adelante
"matriz 203"). La matriz 203 puede ser considerada como parte
del camino de la señal del sistema de la figura 2. La matriz 203
recibe también, como entradas del supervisor 201, un conjunto de
factores finales de escala SF1 a SF23 para cada uno de los 23
canales de salida del ejemplo de la figura 1. Los factores de escala
finales pueden ser considerados como salida de la parte de la señal
de control del sistema de la figura 2. Como se explica con más
detalle a continuación, el supervisor 201 pasa, como factores de
escala finales a la matriz, los factores de escala preliminares para
cada canal de salida "interior", pero el supervisor determina
los factores de escala finales para cada canal de salida del punto
extremo, como respuesta a la información que recibe de los módulos.
Un canal de salida "interior" es intermedio entre los dos o
más canales de salida del "punto extremo" de cada módulo.
Alternativamente, si los módulos generan señales de salida en lugar
de factores de escala, no se requiere la matriz 203; el propio
supervisor genera las señales de salida.
En el ejemplo de la figura 1, se supone que los
canales de salida del punto extremo coinciden con los emplazamientos
de los canales de entrada, aunque no es necesario que coincidan,
como se estudia con más detalle en otro lugar. Así, los canales de
salida 2, 4, 6-8, 10-12,
14-16, 17, 18, 19, 20, 21 y 22 son canales de salida
interiores. El canal de salida interior 21 es intermedio o está
encerrado entre tres canales de entrada (canales de entrada 9', 13'
y 23'), mientras que los demás canales interiores son intermedios
(entre ellos o encerrados por los corchetes), cada uno de ellos,
entre dos canales de entrada. Debido a que hay múltiples factores de
escala preliminares para aquellos canales de salida de los puntos
extremos que están compartidos entre dos o más módulos (es decir,
los canales de salida 1, 3, 5, 9, 13 y 23), el supervisor 201
determina los factores de escala finales (SF1, SF3, etc.) de los
puntos extremos entre los factores de escala SF1 a SF23. Los
factores de escala finales de salidas interiores (SF2, SF4, SF6,
etc.) son los mismos que los factores de escala preliminares.
La figura 3 es un diagrama de bloques
funcionales, útil para comprender la manera en la que un supervisor,
tal como el supervisor 201 de la figura 2, puede determinar un
factor de escala de un punto extremo. El supervisor no suma todas
las salidas de los módulos que comparten una entrada para obtener un
factor de escala del punto extremo. En lugar de eso, combina
aditivamente, por ejemplo en un combinador 301, la energía interior
total estimada para una entrada, desde cada módulo que comparte la
entrada, tal como la entrada 9', que es compartida por los módulos
26 y 27 de la figura 2. Esta suma representa el nivel de energía
total en la entrada reivindicada por las salidas interiores de
todos los módulos conectados. Después resta esa suma del nivel de
energía de entrada suavizado en esa entrada (por ejemplo, la salida
del dispositivo suavizador 325 o 327 de la figura 4B, como se
describe a continuación) de cualquiera de los módulos que comparten
la entrada (módulo 26 o módulo 27 en este ejemplo), por ejemplo en
un combinador 303. Basta elegir cualquiera de las entradas
suavizadas de los módulos en la entrada común, aunque los niveles
puedan diferir ligeramente de módulo a módulo, porque los módulos
ajustan, cada uno de ellos, sus constantes de tiempo
independientemente uno del otro. La diferencia, en la salida del
combinador 303, es el nivel de energía de la señal de salida deseado
en esa entrada, no permitiendo que ese nivel de energía tenga un
valor por debajo de cero. Al dividir el nivel deseado de la señal de
salida por el nivel de entrada suavizado en esa entrada, por
ejemplo en el divisor 305, y realizando una operación de raíz
cuadrada, por ejemplo en el bloque 307, se obtiene el factor de
escala final (SF9 en este ejemplo) para esa salida. Obsérvese que
el supervisor obtiene un único factor de escala para cada una de
tales entradas compartidas, independientemente de cuántos módulos
comparten la entrada. Se describe a continuación una configuración
para determinar la energía total estimada de las salidas interiores,
atribuible a cada una de las entradas a los módulos, en relación
con la figura 6A.
Debido a que los niveles son niveles de energía
(una cantidad de segundo orden), en oposición a las amplitudes (una
cantidad de primer orden), tras la operación de división, se aplica
una operación de raíz cuadrada con el fin de obtener el factor de
escala final (factores de escala asociados con las cantidades de
primer orden). La suma de niveles interiores y la substracción del
nivel total de la entrada se realizan todos ellos en una sentido de
energía pura, porque se supone que las salidas interiores de
diferentes interiores de módulos son independientes (no tienen
correlación). Si esta suposición no es cierta en una situación
anormal, el cálculo puede dar más señal sobrante en la entrada de
la que debería, lo que puede originar una ligera distorsión
espacial en el campo acústico reproducido (por ejemplo, un ligero
corrimiento de otras imágenes interiores cercanas hacia la
entrada), pero en la misma situación, el oído humano reacciona de
forma similar. Los factores de escala de canales de salida
interiores, tales como el PSF 6 al PSF 8 del módulo 26, son
traspasados por el supervisor como factores de escala finales (no
son modificados). Por simplicidad, la figura 3 muestra solamente la
generación de uno de los factores de escala finales del punto
extremo. Otros factores de escala finales de punto extremo pueden
ser obtenidos de manera similar.
Volviendo a la descripción de la figura 2, como
se ha mencionado anteriormente, en la matriz variable 203, la
variabilidad puede ser complicada (todos los coeficientes variables)
o sencilla (coeficientes que varían por grupos, tales como son
aplicados a las entradas o las salidas de una matriz fija). Aunque
puede emplearse cualquier solución para producir sustancialmente
los mismos resultados, se ha averiguado que una de las soluciones
más simples, es decir, una matriz fija seguida por una ganancia
variable para cada salida (la ganancia de cada salida controlada
por factores de escala), produce resultados satisfactorios y es
empleada en los modos de realización aquí descritos. Aunque una
matriz variable en la que cada coeficiente de la matriz es
utilizable, tiene la desventaja de tener más variables y requerir
más potencia de proceso.
El supervisor 201 realiza también una
suavización opcional en el dominio de tiempos de los factores de
escala, antes de ser aplicados a la matriz variable 203. En un
sistema de matriz variable, los canales de salida nunca están
"apagados", los coeficientes están configurados para reforzar
algunas señales y cancelar otras. Sin embargo, un sistema de matriz
fija y ganancia variable, como se ha descrito en los modos de
realización de la presente invención, apaga y enciende los canales
y es más susceptible de tener artefactos indeseables de
"cotorreo". Esto puede ocurrir a pesar de la suavización de dos
etapas descrita a continuación (por ejemplo, los suavizadores
319/325, etc.). Por ejemplo, cuando un factor de escala es próximo a
cero, debido a que solamente se necesita un pequeño cambio para
pasar de "pequeño" a "ninguno" y al revés, las
transiciones hacia y desde cero pueden originar un cotorreo
audible.
La suavización opcional realizada por el
supervisor 201, suaviza preferiblemente los factores de escala de
salida con constantes de tiempo variables que dependen del tamaño de
la diferencia absoluta ("abs-diff") entre
valores instantáneos de factores de escala obtenidos nuevamente y un
valor en ejecución del factor de escala suavizado. Por ejemplo, si
la abs-diff es mayor que 0,4, (y, naturalmente,
<= 1,0), hay poca o ninguna suavización aplicada; se aplica una
pequeña cantidad adicional de suavización a valores de
abs-diff entre 0,2 y 0,4; y por debajo de valores
de 0,2, la constante de tiempo es una función continua inversa de la
abs-diff. Aunque estos valores no son críticos, se
ha averiguado que reducen los artefactos audibles de cotorreo.
Opcionalmente, en una versión multibanda de un módulo, las
constantes de tiempo suavizadoras de factores de escala pueden ser
escalares también con la frecuencia, así como con el tiempo, en la
manera de los suavizadores de frecuencia 413, 415 y 417 de la
figura 4A, descrita a continuación.
Como se ha afirmado anteriormente, la matriz
variable 203 es, preferiblemente, una matriz descodificadora fija
con factores de escala (ganancias) variables en las salidas de la
matriz. Cada canal de salida de la matriz puede tener coeficientes
(fijos) de la matriz, que hubieran sido los coeficientes de
codificación con mezcla descendente para ese canal, si hubiera
habido un codificador con entradas discretas (en lugar de mezclar
canales fuente directamente para la serie mezclada descendentemente,
lo cual evita la necesidad de un codificador discreto). Los
coeficientes al cuadrado suman, preferiblemente, 1,0 para cada canal
de salida. Los coeficientes de la matriz son fijos una vez que se
conoce dónde están los canales de salida (como se ha estudiado con
respecto a la matriz "maestra"); mientras que los factores de
escala, que controlan la ganancia de salida de cada canal, son
dinámicos.
Las entradas que comprenden almacenamientos
binarios de transformadas en el dominio de frecuencias, aplicados a
los módulos 24-34 de la figura 2, pueden ser
agrupados en sub-bandas de frecuencia por cada
módulo, después de calcular las cantidades iniciales de energía y
energía común a nivel del almacenamiento binario, como se explica
con más detalle a continuación. Por tanto, hay un factor de escala
preliminar (PSF en la figura 2) y un factor de escala final (SF en
la figura 2) para cada sub-banda de frecuencia. Los
canales de salida 1-23 del dominio de frecuencias
generados por la matriz 203, comprenden cada uno de ellos un
conjunto de almacenamientos binarios de transformadas (grupos con
tamaño de sub-banda de almacenamientos binarios son
tratados por el mismo factor de escala). Los conjuntos de
almacenamientos binarios de transformadas en el dominio de
frecuencias son convertidos a un conjunto de canales de salida PCM
1-23, respectivamente, por una transformada de
dominio de frecuencia a dominio de tiempo, o función de
transformación 205 (en adelante "transformada inversa"), que
puede ser una función del supervisor 201, pero se ilustra
separadamente con fines de claridad. El supervisor 201 puede
entrelazar los canales PCM 1-23 resultantes para
proporcionar una sola cadena entrelazada de salida PCM o dejar los
canales de salida PCM como cadenas separadas.
Las figuras 4A-4C muestran un
diagrama de bloques funcionales de un módulo según un aspecto de la
presente invención. El módulo recibe dos o más cadenas de señales
de entrada desde un supervisor, tal como el supervisor 201 de la
figura 2. Cada entrada comprende un conjunto de almacenamiento
binarios de transformadas del dominio de frecuencias de valor
complejo. Cada entrada, de 1 a m, es aplicada a una función o
dispositivo (tal como la función o dispositivo 401 para la entrada
1 y una función o dispositivo 403 para la entrada m), que calcula
la energía de cada almacenamiento binario, que es la suma de los
cuadrados de los valores reales e imaginarios de cada
almacenamiento binario de transformada (solamente se ilustran los
caminos para dos entradas, 1 y m, para simplificar el dibujo). Cada
una de las entradas es aplicada también a una función o dispositivo
405 que calcula la energía común de cada almacenamiento binario a
través de los canales de entrada del módulo. En el caso de un modo
de realización FFT, ésta puede calcularse tomando el producto
cruzado de las muestras de entrada (en el caso de dos entradas, L y
R, por ejemplo, la parte real del producto complejo del valor
complejo del almacenamiento binario L y el conjugado complejo del
valor complejo del almacenamiento binario R). Los modos de
realización que utilizan valores reales solamente necesitan efectuar
la multiplicación cruzada del valor real de cada entrada. Para más
de dos entradas, puede emplearse la técnica especial de la
multiplicación cruzada descrita a continuación, es decir, si todos
los signos son iguales, al producto se le da un signo positivo, en
otro caso se le da un signo negativo y es escalado por la relación
del número de resultados positivos posibles (siempre dos: o son
todos positivos o todos negativos) con el número de resultados
negativos posibles.
Por ejemplo, supóngase una pareja A/B de canales
de entrada que contiene una señal común X junto con señales
individuales, sin correlación, Y y Z.
A = 0,707X +
Y
B = 0,707X +
Z
donde los factores de escala de
0,707 = \sqrt{0,5} proporcionan una correspondencia de
conservación de energía con los canales de entrada más
cercanos.
Energ\text{í}a
\ eficaz(A) = \int A^{2} \partial t = \overline{A^{2}} =
\overline{(0.707 \ X+Y^{2})} = \overline{(0.5 \ X^{2} + 0.707 \
XY+Y^{2})} = 0.5\overline{X^{2}} + 0.707 \ \overline{XY} +
\overline{Y^{2}}
Como X e Y no tienen correlación,
\overline{XY}
=
0
Por tanto:
\overline{A^{2}} = 0.5 \
\overline{X^{2}} +
\overline{Y^{2}}
es decir, como X e Y no tienen
correlación, la energía total del canal de entrada A es la suma de
las energías de las señales X e
Y.
De forma similar:
\overline{B^{2}} = 0.5 \
\overline{X^{2}} +
\overline{Z^{2}}
Como X, Y y Z no tienen correlación, el producto
cruzado medio de A y B es:
\overline{AB}
= 0.5 \
\overline{X^{2}}
Por tanto, en el caso de una señal de salida
compartida igualmente por dos canales de entrada vecinos que pueden
contener también señales independientes sin correlación, el producto
cruzado medio de las señales es igual a la energía del componente
de la señal común en cada canal. Si la señal común no es compartida
por igual, es decir, si es puesta en panorámica hacia una de las
entradas, el producto cruzado medio será la media geométrica entre
la energía de los componentes comunes en A y B, de los que pueden
obtenerse estimaciones de energía de canal común individual
normalizados por la raíz cuadrada de la relación de amplitudes de
los canales. Los promedios de tiempo reales son etapas de
suavización calculadas posteriormente, como se describe a
continuación.
Con el fin de obtener la energía común de
módulos descodificadores con tres o más entradas, es necesario
formar los productos cruzados medios de todas las señales de
entrada. La simple realización del proceso por parejas de las
entradas falla en diferenciar las señales de salida separadamente
entre cada pareja de entradas y una señal común a todas.
Considérese, por ejemplo, tres canales de
entrada, A, B y C, hechos de señales W, Y, Z sin correlación y una
señal común X:
A = X +
W
B = X +
Y
C = X +
Z
Si se calcula el producto cruzado medio, todos
los términos que impliquen combinaciones de W, Y y Z se cancelan,
como en el cálculo de segundo orden, llevando al promedio de
X^{3}:
\overline{ABC}
=
\overline{X^{3}}
Desafortunadamente, si X es una señal de tiempo
medio cero, como es de esperar, el promedio de su cubo es cero. A
diferencia de X^{2}, que es positiva para cualquier valor distinto
de cero de X, X^{3} tiene el mismo signo que X, de manera que las
contribuciones positiva y negativa tienden a cancelarse. Obviamente,
esto mismo es aplicable a cualquier potencia impar de X,
correspondiente a un número impar de entradas del módulo, pero los
exponentes pares mayores que dos pueden llevar también a resultados
erróneos; por ejemplo, cuatro entradas con componentes (X, X, -X,
-X) tendrán el mismo producto/promedio que (X, X, X, X).
Este problema puede resolverse empleando una
variante de la técnica del producto medio. Antes de promediarlo, se
descarta el signo de cada producto tomando el valor absoluto del
producto. Se examinan los signos de cada término del producto. Si
son iguales, se aplica el valor absoluto del producto al
promediador. Si cualquiera de los signos es diferente de los demás,
se promedia el negativo del valor absoluto del producto. Como el
número de combinaciones posibles del mismo signo puede no ser igual
al número de combinaciones posibles de signo diferente, se aplica
un factor de ponderación comprendido por la relación del número de
combinaciones del mismo signo a las de signo diferente al negativo
del valor absoluto para compensarlo. Por ejemplo, un módulo de tres
entradas tiene dos formas de que los signos sean iguales, entre ocho
posibilidades, dejando seis posibles formas de que los signos sean
diferentes, dando como resultado un factor de escala de 2/6 = 1/3.
Esta compensación hace que el producto integrado o sumado crezca en
dirección positiva cuando, y solo cuando, hay un componente de
señal común a todas las entradas de un módulo descodificador.
Sin embargo, con el fin hacer comparables los
promedios de módulos de orden diferente, todos ellos deben tener
las mismas dimensiones. Un correlación convencional de segundo orden
implica promedios de multiplicaciones de dos entradas y, por tanto,
de cantidades con las dimensiones de energía o potencia. Por tanto,
los términos a promediar en correlaciones de orden superior deben
ser modificados también para que tengan las dimensiones de una
potencia. Para una correlación de orden k, los valores absolutos de
los productos individuales deben ser elevados por tanto a la
potencia 2/k antes de ser promediados.
Naturalmente, independientemente del orden, las
energías de entrada individuales de un módulo, si fuera necesario,
pueden ser calculadas como el promedio del cuadrado de la
correspondiente señal de entrada, y no necesita ser elevado primero
a la potencia k y reducido después a una cantidad de segundo
orden.
Volviendo a la descripción de la figura 4, las
salidas de almacenamientos binarios de transformadas de cada uno de
los bloques, pueden ser agrupadas en sub-bandas por
medio de una respectiva función o dispositivo 407, 409 y 411. Las
sub-bandas pueden aproximarse a las bandas críticas
del oído humano, por ejemplo. El resto del modo de realización del
módulo de las figuras 4A-4C funciona separada e
independientemente en cada sub-banda. Con el fin de
simplificar el dibujo, solamente se ilustra el funcionamiento de una
sub-banda.
Cada sub-banda de los bloques
407, 409 y 411 es aplicada a un suavizador de frecuencias, o función
413, 415 y 417 de suavización de frecuencias (en adelante
"suavizador de frecuencias"), respectivamente. El propósito de
los suavizadores de frecuencias se explica a continuación. Cada
sub-banda suavizada en frecuencia de un suavizador
de frecuencia es aplicada a suavizadores "rápidos" opcionales o
funciones 419, 421 y 423 de suavización (en adelante
"suavizadores rápidos"), respectivamente, que proporcionan una
suavización en el dominio de tiempos. Aunque son preferibles, los
suavizadores rápidos pueden ser omitidos cuando la constante de
tiempo de los suavizadores rápidos está próxima al tiempo de
duración del bloque de la transformada directa que generó los
almacenamientos binarios de entrada (por ejemplo, una transformada
directa en el supervisor 201 de la figura 1). Los suavizadores
rápidos son "rápidos" con respecto a los suavizadores
"lentos" de constante de tiempo variable o funciones 425, 427
y 429 de suavización (en adelante "suavizadores lentos") que
reciben las respectivas salidas de los suavizadores rápidos. A
continuación se ofrecen ejemplos de valores de constantes de tiempo
de suavizadores rápidos y
lentos.
lentos.
\newpage
Por tanto, si se proporciona una suavización
rápida por medio de una operación inherente de una transformada
directa o bien por medio de un suavizador rápido, es preferible una
acción de dos etapas en la cual la segunda etapa, más lenta, es
variable. Sin embargo, una sola etapa de suavización puede
proporcionar resultados aceptables.
Las constantes de tiempo de suavizadores lentos
están, preferiblemente, sincronizadas entre sí dentro de un modulo.
Esto puede conseguirse, por ejemplo, aplicando la misma información
de control a cada suavizador lento y configurando cada suavizador
lento para que responda de la misma manera a la información de
control aplicada. La obtención de información para controlar los
suavizadores lentos se describe a continuación.
Preferiblemente, cada pareja de suavizadores
está en serie, de la misma manera que las parejas 419/425, 421/427
y 423/429, como se ilustra en las figuras 4A y 4B, en las cuales un
suavizador rápido alimenta a un suavizador lento. Una disposición
en serie tiene la ventaja de que la segunda etapa es resistente a
puntas de señal cortas y rápidas en la entrada de la pareja. Sin
embargo, se pueden obtener resultados similares configurando las
parejas de suavizadores en paralelo. Por ejemplo, en una disposición
paralela la resistencia de la segunda etapa en una disposición en
serie a las puntas de señal cortas y rápidas puede ser abordada en
la lógica de un controlador de constantes de tiempo.
Cada etapa de los suavizadores de dos etapas
puede ser implementada por medio de un filtro de paso bajo de un
solo polo (un "integrador con fugas"), tal como un filtro RC de
paso bajo (en un modo de realización analógico) o, de manera
equivalente, un filtro paso bajo de primer orden (en un modo de
realización digital). Por ejemplo, en un modo de realización
digital, los filtros de primer orden pueden ser realizados, cada uno
de ellos, como un filtro "bicuadrático", un filtro general IIr
de segundo orden, en el cual algunos de los coeficientes son
puestos a cero para que el filtro funcione como filtro de primer
orden. Alternativamente, los dos suavizadores pueden ser combinados
en una sola etapa bicuadrática de segundo orden, aunque es más
sencillo calcular valores de coeficientes para la segunda etapa
(variable) si está separada de la primera etapa (fija).
Debe observarse que en el modo de realización de
las figuras 4A, 4B y 4C, todos los niveles de la señal son
expresados como niveles de energía (cuadrados), a menos que se
requiera una amplitud tomando la raíz cuadrada. Se aplica la
suavización a los niveles de energía de señales aplicadas, haciendo
que los suavizadores detecten valores eficaces, en lugar de valores
medios (los suavizadores de detección de valores medios son
alimentados por amplitudes lineales): Debido a que las señales
aplicadas a los suavizadores son niveles al cuadrado, los
suavizadores reaccionan a aumentos repentinos del nivel de la señal
más rápidamente que los suavizadores de valor medio, ya que los
aumentos son magnificados por la función de elevar al cuadrado.
Los suavizadores de dos etapas proporcionan por
tanto un promedio de tiempos para cada sub-banda de
energía de cada canal de entrada (la del primer canal es
proporcionada por el suavizador lento 425 y la del canal
m-simo por el suavizador lento 427) y el promedio de
cada sub-banda de la energía común de los canales de
entrada (proporcionada por el suavizador lento 429).
Las salidas de energía media de los suavizadores
lentos (425, 427, 429) son aplicadas a los combinadores 431, 433 y
435, respectivamente, en los que: (1) los niveles de energía vecinos
(si los hay) (del supervisor 201 de la figura 2, por ejemplo), son
restados del nivel de energía suavizado de cada uno de los canales
de entrada, y (2), los niveles de energía vecinos de orden superior
(si los hay) (del supervisor 201 de la figura 2, por ejemplo), son
restados de cada uno de las salidas de energía media de los
suavizadores lentos. Por ejemplo, cada módulo que recibe la entrada
3' (figuras 1 y 2) tiene dos módulos vecinos y recibe información de
nivel de energía de los vecinos que compensa el efecto de esos dos
módulos vecinos. Sin embargo, ninguno de esos módulos es un módulo
de "orden superior" (es decir, todos los módulos que comparten
el canal 3' de entrada son módulos de dos entradas). Como
contraste, el módulo 28 (figuras 1 y 2) es un ejemplo de un módulo
que tiene un módulo de orden superior que comparte una de sus
entradas. Así, por ejemplo, en el módulo 28, la salida de energía
media desde un suavizador lento para la entrada 13', recibe una
compensación del nivel vecino de orden superior.
Los niveles de energía resultantes
"compensados por el vecino" para cada sub-banda
de cada una de las entradas del módulo son aplicadas a una función
o dispositivo 437 que calcula una dirección nominal principal
progresiva de esos niveles de energía. La indicación de la
dirección puede ser calculada como el vector suma de las entradas
ponderadas por la energía. Para un módulo de dos entradas, esto se
simplifica siendo la relación L/R de los niveles de energía de la
señal de entrada suavizada y compensada en vecinos.
Supóngase, por ejemplo, una serie circundante
plana en la cual las posiciones de los canales vienen dadas como
duales que representan las coordenadas x, y para el caso de dos
entradas. Se supone que el oyente del centro está, por ejemplo, en
(0, 0). El canal frontal izquierdo, en coordenadas espaciales
normalizadas, se supone que está, por ejemplo, en (1, 1). El canal
frontal derecho está en (-1, 1). Si la amplitud (Lt) de entrada de
la izquierda es 4 y la amplitud (Rt) de entrada de la derecha es 3,
utilizando esas amplitudes como factores de ponderación, la
dirección principal nominal progresiva es:
(4*(1, 1) +
3*(-1, 1)) / (4 + 3) = (0,143,
1)
o ligeramente hacia la izquierda
del centro, sobre una línea horizontal que conecta la Derecha y la
Izquierda.
Alternativamente, una vez definida una matriz
maestra, la dirección espacial puede ser expresada en coordenadas
de matriz, en lugar de coordenadas físicas. En ese caso, las
amplitudes de entrada, normalizadas para que sus cuadrados sumen
uno, son las coordenadas efectivas de la matriz de la dirección. En
el ejemplo anterior, los niveles izquierdo y derecho son 4 y 3, que
normalizados son 0,8 y 0,6. Consecuentemente, la "dirección"
es (0,8, 0,6). En otras palabras, la dirección nominal principal
progresiva es la versión normalizada con suma de cuadrados igual a
uno de la raíz cuadrada de los niveles de energía de entrada
suavizados con compensación de vecinos. El bloque 337 genera el
mismo número de salidas, indicando una dirección espacial, que el
número de entradas que hay en el módulo (dos en este ejemplo).
Los niveles de energía suavizados con
compensación de vecinos, para cada sub-banda de cada
una de las entradas del módulo aplicadas a la función de
determinación de la dirección o dispositivo 337, son aplicadas
también a una función o dispositivo 339 que calcula la correlación
cruzada con compensación de vecinos
("neighbor-compensated_xcor"). El bloque 339
recibe también como entrada la energía común media de las entradas
del módulo para cada sub-banda desde el suavizador
variable lento 329, que ha sido compensado en el combinador 335 por
niveles de energía de vecinos de orden superior, si los hay. La
correlación cruzada con compensación de vecinos se calcula en el
bloque 339 como la energía común suavizada y compensada de orden
superior, dividida por la raíz M-sima, donde M es
el número de entradas, del producto de los niveles de energía
suavizados y con compensación de vecinos para cada uno de los
canales de entrada del módulo, para obtener una verdadera
correlación matemática en la gama de 1,0 a -1,0. Preferiblemente,
los valores de 0 a -1,0 se consideran cero. La correlación cruzada
con compensación de vecinos proporciona una estimación de la
correlación cruzada que existe en ausencia de otros módulos.
La "correlación cruzada con compensación de
vecinos" del bloque 339 es aplicada después a un dispositivo de
ponderación o función 341, que pondera la "correlación cruzada con
compensación de vecinos" con la información de dirección con
compensación de vecinos para generar una correlación cruzada con
compensación de vecinos y ponderación de la dirección
("direction-weighted_xcor"). La ponderación
aumenta a medida que la dirección nominal principal progresiva se
aparta de una condición centrada. En otras palabras, unas amplitudes
(y por tanto, energías) de entrada desiguales originan un aumento
proporcional de la correlación cruzada ponderada con la dirección
La correlación cruzada ponderada con la dirección proporciona una
estimación de lo compactas que son las imágenes. Así, en el caso de
un módulo de dos entradas que tenga, por ejemplo, entradas izquierda
L y derecha R, la ponderación aumenta a medida que la dirección se
aparta del centro hacia la derecha o hacia la izquierda (es decir,
la ponderación es la misma en cualquier dirección para el mismo
grado de separación del centro). Por ejemplo, en el caso de un
módulo de dos entradas, el valor de la "correlación cruzada con
compensación de vecinos" es ponderado por una relación L/R o R/L,
tal que una contribución desigual de la señal hace que la
correlación cruzada ponderada con la dirección tenga propensión
hacia 1,0. Para tal módulo de dos entradas,
cuando R>=L
direction-weighted_xcor=(1-((1-
neighbor-compensated_xcor) * (L/R)),
y
cuando R<L,
direction-weighted_xcor=(1-((1-
neighbor-compensated_xcor) *
(R/L))
Para módulos con más de dos entradas, el cálculo
de la correlación cruzada ponderada con la dirección a partir de la
correlación cruzada con compensación de vecinos requiere, por
ejemplo, sustituir la relación L/R o R/L en lo anterior por una
medida de "equidad" que varía entre 1,0 y 0. Por ejemplo, para
calcular la medida de equidad de cualquier número de entradas, se
normalizan los niveles de la señal de entrada por la potencia total
de entrada, dando como resultado los niveles de entrada normalizados
que suman, en el sentido de la energía (cuadrado), 1,0. Dividir
cada nivel de entrada normalizado por el nivel de entrada
normalizado de forma similar de una señal centrada de la serie. La
relación más pequeña se convierte en la medida de equidad. Por
tanto, por ejemplo, para un módulo de tres entradas con una entrada
que tenga nivel cero, la medida de equidad es cero, y la
correlación cruzada ponderada con la dirección es igual a uno. (En
ese caso, la señal está en el límite del módulo de tres entradas,
en una línea entre dos de sus entradas, y un módulo de dos entradas
(menor en la jerarquía) decide en qué lugar de la línea está la
dirección principal nominal progresiva, y cómo de ancha la señal de
salida debe extenderse a lo largo de la línea).
Volviendo a la descripción de la figura 4B, la
correlación cruzada ponderada con la dirección es ponderada también
por su aplicación a una función o dispositivo 443 que aplica una
ponderación "random_xcor" para generar una
"effective_xcor" (correlación cruzada efectiva). La
effective_xcor proporciona una estimación de la forma de
distribución de las señales de entrada.
La correlación cruzada aleatoria es el producto
cruzado medio de las magnitudes de entrada dividido por la raíz
cuadrada de las energías medias de entrada. El valor de la
correlación cruzada aleatoria puede ser calculado suponiendo que
los canales de entrada eran originalmente canales de entrada a
módulos, y calculando el valor de correlación cruzada que resulte
de todos esos canales que tengan señales independientes pero de
igual nivel, siendo mezcladas descendentemente de forma pasiva. De
acuerdo con esta solución, para el caso de un módulo de tres
salidas con dos entradas, la correlación cruzada aleatoria se
calcula en 0,333 y, para el caso de un módulo de cinco salidas
(tres salidas interiores) con dos entradas, la correlación cruzada
aleatoria se calcula en 0,483. El valor de la correlación cruzada
aleatoria solamente necesita ser calculado una vez para cada
módulo. Aunque se ha averiguado que tales valores de la correlación
cruzada aleatoria proporcionan resultados satisfactorios, los
valores no son críticos y pueden emplearse otros valores a
discreción del diseñador del sistema. Un cambio en el valor de la
correlación cruzada aleatoria afecta a la línea divisoria entre los
dos regímenes de funcionamiento del sistema de distribución de
señales, como se describe a continuación. El lugar preciso de esa
línea divisoria no es crítico.
La ponderación de la correlación cruzada
aleatoria realizada por la función o dispositivo 343 puede ser
considerada como una re-normalización del valor de
la correlación cruzada ponderada con la dirección, de forma tal que
se obtiene una correlación cruzada efectiva:
- effective_xcor =
(direction-weigthed_xcor -
random_xcor)/(1-random_xcor),
\hskip0,3cm
si direction-weigthed_xcor > = random_xcor)
- effective_xcor t
= 0
\hskip0,3cm
en cualquier otro caso.
La ponderación de random_xcor acelera la
reducción de direction-weigthed_xcor a medida que
direction-weigthed_xcor disminuye por debajo de
1,0, de forma tal que cuando direction-weighted_xcor
es igual a random_xcor, el valor de effective_xcor es cero. Debido
a que las salidas de un módulo representan direcciones a lo largo de
un arco o línea, los valores de effective_xcor inferiores a cero
son tratados como iguales a cero.
La información para controlar los suavizadores
lentos 325, 327 y 329, es obtenida a partir de las energías de los
canales de entrada suavizados lenta y rápidamente y sin compensación
de vecinos, y a partir de la energía común de los canales de
entrada suavizados lenta y rápidamente. En particular, una función o
dispositivo 345 calcula una correlación cruzada rápida sin
compensación de vecinos, como respuesta a las energías de canales
de entrada suavizados rápidamente y a la energía común de los
canales de entrada suavizados rápidamente. Una función o
dispositivo 347 calcula una dirección sin compensación rápida de
vecinos (relación o vector, como se ha estudiado anteriormente en
relación con la descripción del bloque 337) como respuesta a las
energías de canales de entrada con suavización rápida. Una función
o dispositivo 349 calcula una correlación cruzada lenta sin
compensación de vecinos, como respuesta a las energías de los
canales de entrada suavizados lentamente y a la energía común de
los canales de entrada suavizados lentamente. Una función o
dispositivo 351 calcula una dirección sin compensación lenta de
vecinos, (relación o vector) como se ha estudiado anteriormente),
como respuesta a las energías de canales de entrada con suavización
lenta. La correlación cruzada sin compensación rápida de vecinos la
dirección sin compensación rápida de vecinos, la correlación cruzada
sin compensación lenta de vecinos y la correlación cruzada sin
compensación lenta de vecinos, junto con la correlación cruzada
ponderada con la dirección del bloque 341, son aplicadas a un
dispositivo o función 353 que proporciona la información para
controlar los suavizadores lentos variables 325, 327 y 329, para
ajustar sus constantes de tiempo (en adelante "ajustar constantes
de tiempo"). Preferiblemente, la misma información de control es
aplicada a cada suavizador lento variable. A diferencia de otras
cantidades alimentadas a la caja de selección de constantes de
tiempo, que compara una medida rápida con una lenta, la correlación
cruzada ponderada con la dirección es utilizada preferiblemente sin
referencia a ningún valor rápido, de forma tal que si el valor
absoluto de la correlación cruzada ponderada con la dirección es
mayor que un umbral, puede originar el ajuste de constantes de
tiempo 353 para seleccionar una constante de tiempo más rápida. Las
reglas para la operación de "ajuste de constantes de tiempo"
353 son establecidas a continuación.
Generalmente, en un sistema dinámico de audio,
es deseable utilizar constantes de tiempo lentas tanto como sea
posible, quedándose en un valor inactivo, para hacer mínima la
interrupción audible del campo acústico reproducido, a menos que
ocurra un "nuevo evento" en la señal de audio, en cuyo caso es
deseable que una señal de control cambie rápidamente a un nuevo
valor inactivo, y permanezca en ese valor hasta que ocurra un nuevo
evento. Típicamente, los sistemas de tratamiento de audio han
considerado iguales los cambios en amplitud con un "nuevo
evento". Sin embargo, cuando se trata de productos cruzados o
correlación cruzada, la novedad y la amplitud no siempre se
corresponden por igual: un nuevo evento puede originar una
disminución en la correlación cruzada. Al detectar cambios en los
parámetros relevantes para el funcionamiento del módulo, es decir,
medidas de correlación cruzada y de dirección, las constantes de
tiempo de un módulo pueden acelerarse y asumir rápidamente un nuevo
estado de control como se desee.
Las consecuencias de un comportamiento dinámico
inadecuado incluyen el comportamiento errático, el cotorreo (un
canal que se apaga y enciende rápidamente), el bombeo (cambios de
nivel no naturales) y, en un modo de realización de multibanda,
chirridos (cotorreos y bombeo sobre la base de banda a banda).
Algunos de estos efectos son especialmente críticos para la calidad
de canales aislados.
Un modo de realización tal como el de las
figuras 1 y 2, emplea una retícula de módulos de descodificación.
Tal configuración da como resultado dos clases de problemas
dinámicos: dinámica entre módulos y dinámica interna a los módulos.
Además, las diversas maneras de implantar el tratamiento de audio
(por ejemplo banda ancha, multibanda utilizando FFT o un banco de
filtros lineal MDCT, o un banco de filtros discreto, banda crítica
o no), requieren cada una de ellas su propia optimización de
comportamiento dinámico.
El proceso básico de descodificación dentro de
cada módulo depende de una medida de las relaciones de energía de
las señales de entrada y de una medida de la correlación cruzada de
las señales de entrada (en particular, la correlación con
compensación de dirección (direction-weighted_xcor)
descrita anteriormente; el bloque 341 de salida de la figura 4B),
las cuales, todas juntas, controlan la distribución de señales entre
las salidas del un módulo. La obtención de tales cantidades básicas
requiere la suavización, la cual, en el dominio de tiempos,
requiere calcular un promedio ponderado en el tiempo de los valores
instantáneos de esas cantidades. La gama de constantes de tiempo
requeridas en bastante grande: muy cortas (1 ms, por ejemplo) para
cambios transitorios rápidos en las condiciones de la señal, a muy
largos (150 ms, por ejemplo) para valores de correlación bajos,
donde la variación instantánea es probable que sea mucho mayor que
el verdadero valor promediado.
Un método común de implementar un comportamiento
de constantes de tiempo variables es, en términos analógicos, el
uso de un diodo de "aceleración". Cuando el nivel instantáneo
excede del nivel medio en una cantidad umbral, el diodo conduce,
dando como resultado una constante de tiempo efectiva más corta. Un
inconveniente de esta técnica es que un pico momentáneo en una
entrada que es por otra parte de régimen permanente, puede causar
un gran cambio en el nivel suavizado, el cual decae muy lentamente,
proporcionando un énfasis no natural de picos aislados que en otro
caso tendrían poca consecuencia audible.
El cálculo de la correlación descrito en
conexión con el modo de realización de las figuras
4A-4C, hace problemático el uso de diodos de
aceleración (o de su DSP equivalente). Por ejemplo, todos los
suavizadores dentro de un módulo en particular tienen,
preferiblemente, constantes de tiempo sincronizadas, de manera que
sus niveles suavizados son compatibles. Por tanto, es preferible un
mecanismo global (agrupado) de conmutación de constantes de tiempo.
Además, no hay asociado necesariamente un cambio rápido de las
condiciones de la señal con un aumento del nivel de energía común.
Utilizando un diodo de aceleración para este nivel, es probable que
se produzcan estimaciones sesgadas e imprecisas de la correlación.
Por tanto, los modos de realización de aspectos de la presente
invención utilizan, preferiblemente, una suavización de dos etapas
sin una aceleración equivalente al diodo. Las estimaciones de
correlación y dirección pueden ser obtenidas al menos a partir de la
primera y segunda etapa de los suavizadores para fijar una
constante de tiempo de la segunda etapa.
Para cada pareja de suavizadores, (por ejemplo,
319/325), la constante de tiempo de la primera etapa, la etapa
rápida fijada, puede ser fijada en un valor fijo, tal como 1 ms. Las
constantes de tiempo de la segunda etapa, la etapa lenta variable,
pueden ser seleccionadas, por ejemplo, entre 10 ms (rápidas), 30 ms
(medias) y 150 ms (lentas). Aunque se ha averiguado que tales
constantes de tiempo proporcionan resultados satisfactorios, sus
valores no son críticos y pueden emplearse otros valores a
discreción del diseñador del sistema. Además, los valores de las
constantes de tiempo de la segunda etapa, pueden ser continuamente
variables en lugar de discretos. La selección de las constantes de
tiempo puede estar basada no solamente en las condiciones de la
señal descritas anteriormente, sino también en un mecanismo de
histéresis utilizando un "señalizador rápido", que se utiliza
para asegurar que una vez encontrada una transición rápida genuina,
el sistema permanece en modo rápido, evitando el uso de la
constante de tiempo media, hasta que las condiciones de la señal
vuelven a habilitar a la constante de tiempo lenta. Esto puede
ayudar a asegurar una rápida adaptación a unas nuevas condiciones
de la señal.
La selección de cuál de las tres posibles
constantes de tiempo de la segunda etapa puede conseguirse mediante
el "ajuste de constantes de tiempo" 353, de acuerdo con las
reglas siguientes para el caso de dos entradas:
- Si el valor absoluto de la correlación cruzada ponderada con la dirección es inferior al primer valor de referencia (por ejemplo 0,5) y la diferencia absoluta entre la non-neighbor-compensated_xcor rápida (correlación cruzada rápida sin compensación de vecinos) y la non-neighbor-compensated_xcor lenta es inferior al mismo primer valor de referencia, y la diferencia absoluta entre las relaciones de dirección rápida y lenta (cada una de las cuales tiene una gama entre +1 y -1) es inferior al mismo primer valor de referencia, se utilizará entonces la constante de tiempo lenta de la segunda etapa, y el señalizador rápido se fija en Verdadero, habilitando una selección posterior de la constante de tiempo media.
- Por otra parte, si el señalizador rápido es Verdadero, la diferencia absoluta entre la correlación cruzada sin compensación de vecinos rápida y lenta es mayor que el primer valor de referencia y menor que el segundo valor de referencia, (por ejemplo, 0,75), la diferencia absoluta entre las relaciones L/R temporales rápida y lenta es mayor que el primer valor de referencia y menos que el segundo valor de referencia, y el valor absoluto de la correlación cruzada ponderada con la dirección es mayor que el primer valor de referencia y menor que el segundo valor de referencia, entonces se selecciona la constante de tiempo media de la segunda etapa.
- En otro caso, se utiliza la constante de tiempo rápida de la segunda etapa, y el señalizador rápido se fija en Falso, inhabilitando el uso posterior de la constante de tiempo media hasta que se selecciona de nuevo la constante de tiempo lenta.
En otras palabras, se elige la constante de
tiempo lenta cuando las tres condiciones son inferiores al primer
valor de referencia, se elige la constante de tiempo media cuando
todas las condiciones están entre un primer valor de referencia y
un segundo valor de referencia y la condición anterior era la
constante de tiempo lenta, y se elige la constante de tiempo rápida
cuando cualquiera de las condiciones es mayor que el segundo valor
de referencia.
Aunque se ha averiguado que las reglas y los
valores de referencia que se acaban de establecer han producido
resultados satisfactorios, no son críticos y pueden emplearse a
discreción del diseñador del sistema variaciones en las reglas u
otras reglas que tengan en cuenta la correlación cruzada rápida y
lenta y la dirección rápida y lenta. Además, pueden hacerse otros
cambios. Por ejemplo, puede ser más simple, pero igualmente
efectivo, utilizar un proceso del tipo de diodo de aceleración,
pero con una operación de grupo, de manera que si cualquier
suavizador de un módulo está en el modo rápido, los demás
suavizadores estén también conmutados al modo rápido. También puede
ser deseable tener suavizadores independientes para la determinación
de la constante de tiempo y la distribución de la señal,
manteniendo los suavizadores, para la determinación de constantes de
tiempo, con constantes de tiempo fijas, y variando solamente las
constantes de tiempo de la distribución de la señal.
Debido a que, incluso en el modo rápido, los
niveles de señal suavizados requieren varios milisegundos para
adaptarse, puede efectuarse un retardo de tiempo en el sistema para
permitir que se adapten las señales de control antes de aplicarlas
a un camino de la señal. En un modo de realización de banda ancha,
este retardo puede ser realizado como un retardo discreto (por
ejemplo, 5 ms), en el camino de la señal. En versiones multibanda
(transformadas), el retardo es una consecuencia natural del proceso
de bloques, y si se realiza el análisis de un bloque antes de la
matrización del camino de la señal de ese bloque, puede no
requerirse ningún retardo explícito.
Los modos de realización multibanda de aspectos
de la invención pueden utilizar las mismas constantes de tiempo y
reglas que las versiones de banda ancha, excepto que la tasa de
muestreo de los suavizadores debe ser fijada en la tasa de muestreo
de la señal dividida por el tamaño del bloque (por ejemplo, la tasa
del bloque), de manera que los coeficientes utilizados en los
suavizadores son ajustados apropiadamente.
Para frecuencias por debajo de 400 Hz, en modos
de realización multibanda, las constantes de tiempo son,
preferiblemente, escaladas inversamente a la frecuencia. En la
versión de banda ancha, esto no es posible en cuanto que no hay
suavizadores independientes a frecuencias diferentes, por tanto,
como compensación parcial, puede aplicarse un filtro suave de paso
de banda/pre-énfasis a la señal de entrada al camino de control,
para enfatizar las frecuencias medias y medias superiores. Este
filtro puede tener, por ejemplo, una característica bipolar de paso
alto con una frecuencia de corte en 200 Hz, mas una característica
bipolar de paso bajo, con una frecuencia de corte en 8000 Hz, mas
una red de pre-énfasis que aplica una elevación de 6 dB desde 400 Hz
hasta 800 Hz y otra elevación de 6 dB desde 1600 Hz hasta 3200 Hz.
Aunque tal filtro se ha encontrado adecuado, las características
del filtro no son críticas y pueden emplearse otros parámetros a
discreción del diseñador del sistema.
Además de la suavización en el dominio del
tiempo, las versiones multibanda de aspectos de la invención emplean
también, preferiblemente, una suavización en el dominio de
frecuencias, como se ha descrito en relación con la figura 4A
(suavizadores de frecuencia 413, 415 y 417). Para cada bloque, los
niveles de energía con compensación de vecinos pueden ser
promediados con una ventana de frecuencia deslizante, ajustada
aproximadamente a una anchura de banda de 1/3 de octava (banda
crítica), antes de ser aplicados al subsiguiente proceso en el
dominio de tiempos descrito anteriormente. Como los bancos de
filtros basados en transformadas tienen una resolución de
frecuencias intrínsecamente lineal, la anchura de esta ventana (en
número de coeficientes de transformación) aumenta cuando aumenta la
frecuencia, y tiene normalmente solamente un coeficiente de
transformación de anchura a bajas frecuencias (por debajo de
alrededor de 400 Hz). Por tanto, la suavización total aplicada al
proceso multibanda se apoya más en la suavización en el dominio de
tiempos a bajas frecuencias, y en la suavización en el dominio de
frecuencias a frecuencias más altas, donde es probable que sea más
necesaria a veces una rápida respuesta en el tiempo.
Volviendo a la descripción de la figura 4C, los
factores de escala preliminares (ilustrados como "PSF" en la
figura 2), que afectan finalmente a la distribución de señales
dominantes/de relleno/del punto extremo, pueden ser generados
mediante una combinación de dispositivos o funciones 455, 457 y 459
que calculan los componentes de factores de escala
"dominantes", los componentes de factores de escala "de
relleno" y los componentes de factores de escala de "energía
en exceso del punto extremo", respectivamente, los respectivos
normalizadores o funciones normalizadoras 361, 363 y 365, y un
dispositivo o función 367 que toma el mayor de los componentes de
factores de escala dominantes y de relleno y/o la combinación
aditiva de los componentes de factores de escala de energía de
relleno y de exceso del punto extremo. Los factores de escala
preliminares pueden ser enviados a un supervisor, tal como el
supervisor 201 de la figura 2, si el módulo es uno entre una
pluralidad de módulos. Los factores de escala preliminares pueden
tener, cada uno de ellos, una gama que va desde cero a uno.
Además de recibir la correlación cruzada
efectiva, el dispositivo o función 355 ("calcular componentes de
factores de escala dominantes"), recibe la información de
dirección con compensación de vecinos desde el bloque 337, e
información relativa a los coeficientes de matriz local desde una
matriz local 369, de manera que puede determinar los N canales de
salida más cercanos (donde N = número de entradas) que pueden ser
aplicados a una suma ponderada para obtener las coordenadas de la
dirección principal nominal progresiva y aplicar los componentes de
factores de escala "dominantes" a ellas para obtener las
coordenadas dominantes. La salida del bloque 355 es un componente
de factor de escala (por sub-banda), si sucede que
la dirección principal nominal progresiva coincide con una
dirección de salida o bien, en otro caso, componentes múltiples de
factores de escala (uno por número de entradas por
sub-banda) que abarcan la dirección principal
nominal progresiva y aplicados en proporciones apropiadas para
poner en panorámica o hacer corresponder la señal dominante con el
lugar virtual correcto en un sentido de conservación de la potencia
(es decir, para N = 2, los cuadrados de los componentes de factores
de escala asignados para el canal dominante deben sumar la
correlación cruzada efectiva).
Para un módulo de dos entradas, todos los
canales de salida están en una línea o en un arco, de manera que
hay una ordenación natural (de "izquierda" a "derecha"), y
es fácil adivinar qué canales están próximos entre sí. Para el caso
hipotético estudiado anteriormente con dos canales de entrada y
cinco canales de salida, con coeficientes de sen/cos como está
ilustrado, la dirección principal nominal progresiva puede suponerse
que es (0,8, 0,6), entre el canal ML Medio Izquierdo (0,92, 0,38) y
el canal central C (0,71, 0,71). Esto puede conseguirse encontrando
dos canales consecutivos donde el coeficiente L sea mayor que la
coordenada L de la dirección principal nominal progresiva, y el
canal a su derecha tenga un coeficiente L menor que la coordenada
dominante L.
Los componentes de factores de escala dominantes
son repartidos entre los dos canales más próximos en el sentido de
potencia constante. Para hacer esto, se resuelve un sistema de dos
ecuaciones con dos incógnitas, siendo las incógnitas el componente
de factor de escala de componente dominante del canal de la
izquierda de la dirección dominante (SFL), y el correspondiente
componente de factor de escala a la derecha de la dirección
principal nominal progresiva (SFR) (estas ecuaciones resuelven los
valores de SFL y SFR).
- primera_coordenada_dominante = SFL * valor 1 de la matriz del canal-izquierdo + SFR * valor 1 de la matriz del canal-derecho
- segunda_coordenada_dominante = SFL * valor 2 de la matriz del canal-izquierdo + SFR * valor 2 de la matriz del canal-derecho
Obsérvese que canal-izquierdo y
-derecho significan los canales que abarcan la dirección principal
nominal progresiva, no los canales L y R de entrada al módulo.
La solución son los cálculos de nivel
anti-dominante de cada canal, normalizados a la suma
de cuadrados en 1,0 y utilizados como componentes de factores de
escala dominantes de distribución (SFL, SFR), cada uno para el otro
canal. En otras palabras, el valor anti-dominante de
un canal de salida con coeficientes A y B, para una señal con
coordenadas C, D es el valor absoluto de AD-BC. Para
el ejemplo numérico que se está considerando:
- Anti-dom (canal ML) = abs (0,92*0,6 - 0,38*0,8) = 0,248
- Anti-dom (canal C) = abs (0,71*0,6 - 0,71*0,8) = 0,142
(donde "abs" indica tomar el
valor
absoluto).
Normalizando los dos últimos números para que la
suma de sus cuadrados sea 1,0 se obtienen los valores de 0,8678 y
0,4969 respectivamente. Así, conmutando estos valores a los canales
opuestos, los componentes de factores de escala dominantes son
(obsérvese que el valor del factor de escala dominante, antes de la
ponderación de la dirección, es la raíz cuadrada de la correlación
cruzada efectiva):
- ML dom sf = 0,4969* raíz cuadrada de (correlación cruzada efectiva)
- C dom sf = 0,8678* raíz cuadrada de (correlación cruzada efectiva)
(la señal dominante está más cerca
de Cout que de
MidLout).
El uso de un componente antidominante de un
canal, normalizado, como el componente de factor de escala dominante
del otro canal, puede comprenderse mejor considerando lo que sucede
si ocurre que la dirección principal nominal progresiva apunta
exactamente a uno de los dos canales elegidos. Supóngase que los
coeficientes de un canal son [A, B] y los coeficientes del otro
canal son [C, D] y las coordenadas de la dirección principal nominal
progresiva son [A, B] (apuntando al primer canal), entonces:
- Antidom (primer canal) = abs (AB-BA)
- Antidom (segundo canal) = abs (CB-DA)
Obsérvese que el primer valor antidominante es
cero. Cuando dos señales antidominantes son normalizadas para que
sus cuadrados sumen 1,0, el segundo valor antidominante es 1,0.
Cuando se conmutan, el primer canal recibe un componente de factor
de escala dominante de 1,0 (por la raíz cuadrada de la correlación
cruzada efectiva), y el segundo canal recibe 0,0 como se desea.
Cuando esta solución se extiende a módulos con
más de dos entradas, ya no existe la ordenación natural que tiene
lugar cuando los canales están en una línea o en un arco. De nuevo,
el bloque 337 de la figura 4B, por ejemplo, calcula las coordenadas
de la dirección principal nominal progresiva tomando las amplitudes
de entrada, tras la compensación de vecinos, y normalizándolos para
que la suma de sus cuadrados sea uno. El bloque 455 de la figura
4B, por ejemplo, identifica entonces los N canales más cercanos
(donde N = número de entradas) que pueden ser aplicados a una suma
ponderada para obtener las coordenadas dominantes. (Nota: la
distancia o proximidad puede ser calculada como la suma de las
diferencias de las coordenadas al cuadrado, como si fueran
coordenadas espaciales (x, y, z). Así, no siempre se escogen los N
canales más cercanos, porque tienen que ser sumados ponderadamente
para obtener la dirección principal nominal progresiva.
Por ejemplo, supóngase que se tiene un módulo de
tres entradas alimentado por un triángulo de canales: Ls, Rs y
Superior como en la figura 5. Supóngase que hay tres canales
interiores de salida juntos y muy cerca de la parte inferior del
triángulo con coeficientes de matriz local del módulo de [0,71,
0,69, 0,01], [0,70, 0,70, 0,01] y [0,69, 0,71, 0,01],
respectivamente. Supóngase que la dirección principal nominal
progresiva está ligeramente por debajo del centro del triángulo,
con coordenadas [0,6, 0,6 0,53]. (Nota: el centro del triángulo
tiene coordenadas [0,5, 0,5, 0,707]. Los tres canales más cercanos a
la dirección principal nominal progresiva son los tres canales
interiores de la parte inferior, pero no se suman a las coordenadas
dominantes utilizando factores de escala entre 0 y 1, de manera que
en lugar de eso se eligen dos de la parte inferior y el canal
superior del punto extremo para distribuir la señal dominante, y se
resuelven las tres ecuaciones para los tres factores de
ponderación, con el fin de completar el cálculo dominante y seguir
con los cálculos del relleno y del punto extremo.
En los ejemplos de las figuras 1 y 2, hay
solamente un módulo de tres entradas y se utiliza para obtener
solamente un canal interior, lo cual simplifica los cálculos.
Además de la correlación cruzada efectiva, el
dispositivo o función 357 ("calcular componentes de factores de
escala de relleno") recibe la random_xcor, la
direction-weighted_xcor del bloque 341, la
"EQUIAMPL" ("EQUIAMPL" es definida y explicada más
adelante), y la información relativa a los coeficientes de matriz
local de la matriz local (en el caso de que no se aplique el mismo
componente de factor de escala de relleno a todas las salidas, como
se explica más adelante con relación a la figura 14B).
La salida del bloque 457 es un componente de
factor de escala para cada salida del módulo (por
sub-banda).
Como se ha explicado anteriormente, correlación
cruzada efectiva es cero cuando la
direction-weighted_xcor es menor o igual a
random_xcor. Cuando direction-weighted_xcor >=
random_xcor, el componente de factor de escala de relleno para
todos los canales de salida es
Componente de
factor de escala de relleno = raíz cuadrada de (1 - effective_xcor)
*
EQUIAMPL
Así, cuando
direction-weighted_xcor = random_xcor, la
effective_xcor es 0, de manera que
(1-effective_xcor) es 1,0, por lo que el componente
de factor de escala de amplitud de relleno es igual a EQUIAMPL
(asegurándose de que potencia de salida = potencia de entrada en
esa condición). Ese punto es el valor máximo que alcanzan los
componentes del factor de escala de relleno.
Cuando weighted_xcor es inferior a random_xcor,
el componente o componentes de factores de escala dominantes es
(son) cero y los componentes del factor de escala de relleno son
reducidos a cero a medida que la correlación cruzada ponderada con
la dirección se acerca a cero:
Componente de
factor de escala de relleno = raíz cuadrada
(direction-weighted_xcor / random_xcor) *
EQUIAMPL
Así, en el límite, cuando la
direction-weighted_xcor = random_xcor, el componente
de factor de escala preliminar de relleno es nuevamente igual a
EQUIAMPL, asegurando la continuidad con los resultados de la
ecuación anterior para el caso en que
direction-weighted_xcor sea mayor que
random_xcor.
Asociado con cada módulo descodificador, no
solamente hay un valor de la correlación cruzada aleatoria sino
también un valor de "EQUIAMPL", que es el valor del factor de
escala que deberían tener todos los factores de escala si las
señales están distribuidas por igual de forma tal que se conserve la
potencia, es decir:
EQUIAMPL = raíz
cuadrada de (Número de canales de entrada del módulo descodificador
/ Número de canales de salida del módulo
descodificador)
Por ejemplo, para un módulo de dos entradas con
tres salidas:
- EQUIAMPL = sqrt (2/3) = 0,8165
- donde "sqrt()" significa "raíz cuadrada de ()"
Para un módulo de dos entradas con 4
salidas:
- EQUIAMPL = sqrt (2/4) = 0,7071
Para un módulo de dos entradas con 5
salidas:
- EQUIAMPL = sqrt (2/5) = 0,6325
Aunque se ha encontrado que tales valores de
EQUIAMPL proporcionan resultados satisfactorios, los valores no son
críticos y pueden emplearse otros valores a discreción del diseñador
del sistema. Los cambios en el valor de EQUIAMPL afectan a los
niveles de los canales de salida para la condición de "relleno"
(correlación intermedia de las señales de entrada) con respecto a
los niveles de los canales de salida para la condición
"dominante" (condición máxima de las señales de entrada) y para
la condición de "todos los puntos extremos" (correlación
mínima de las señales de entrada):
Además de recibir la correlación cruzada con
compensación de vecinos (a partir del bloque 439, figura 4B), el
dispositivo o función 359 ("calcular los componentes de factores
de escala de la energía en exceso del punto extremo") recibe la
respectiva energía suavizada sin compensación de vecinos 1ª a
m-sima (de los bloques 325 y 327) y, opcionalmente,
información relativa a los coeficientes de matriz local de la matriz
local (en el caso de que una o ambas salidas del punto extremo del
módulo no coincidan con una entrada y el módulo aplique la energía
del punto de exceso a las dos salidas con direcciones más cercanas a
la dirección de entrada, como se describe con más detalle más
adelante). La salida del bloque 359 es un componente del factor de
escala para cada salida del punto extremo si las direcciones
coinciden con las direcciones de entrada, en otro caso dos
componentes de factores de escala, una para cada una de las salidas
más cercanas al extremo, como se explica a continuación.
Sin embargo, los componentes de factores de
escala de energía en exceso del punto extremo generados por el
bloque 359 no son los únicos componentes de factores de escala del
"punto extremo". Hay otras tres fuentes de componentes de
factores de escala del punto extremo (dos en el caso de un solo
módulo autónomo):
Primero, dentro de los cálculos de factores de
escala preliminares de un módulo particular, los puntos extremos
son posibles candidatos como componentes de factores de escala
preliminares del bloque 355 (y normalizador 361).
Segundo, en el cálculo del "relleno" del
bloque 357, (y del normalizador 363) de la figura 4C, los puntos
extremo son tratados como posibles candidatos de relleno, junto con
todos los canales interiores. Cualquier componente de factor de
escala de relleno distinto de cero puede ser aplicado a todas las
salidas, incluso los puntos extremos y las salidas dominantes
elegidas.
Tercero, si hay una retícula de múltiples
módulos, un supervisor (tal como el supervisor 201 del ejemplo de
la figura 2), realiza una cuarta asignación final de los canales del
"punto extremo", como se ha descrito anteriormente con
relación a las figuras 2 y 3.
Para que el bloque 459 calcule los componentes
de factores de escala de la "energía en exceso del punto
extremo", la energía total de todas las salidas interiores es
reflejada hacia atrás a las entradas del módulo, basándose en la
correlación cruzada con compensación de vecinos, para estimar cuánta
energía de las salidas interiores es contribuida por cada entrada
("energía interior en la entrada ‘n'") y esa energía se utiliza
para calcular el componente del factor de escala del exceso de
energía del punto extremo en cada salida del módulo que es
coincidente con una entrada (es decir, un punto extremo).
Se requiere también reflejar la energía interior
para que vuelva a las entradas con el fin de proporcionar
información que necesita un supervisor, tal como el supervisor 201
de la figura 2, para calcular los niveles vecinos y los niveles de
vecinos de orden superior. En las figuras 6A y 6B se ilustra una
manera de calcular la contribución de energía interior en cada una
de las entradas del módulo y para determinar el componente del
factor de escala de la energía en exceso del punto extremo para cada
salida de punto extremo.
Las figuras 6A y 6B son diagramas de bloques
funcionales que ilustran, respectivamente, en un módulo, tal como
cualquiera de los módulos 24-34 de la figura 2, una
configuración adecuada para: (1) generar la energía total estimada
para cada entrada de un módulo, de 1 a m, como respuesta a la
energía total en cada entrada, de 1 a m, y (2) como respuesta a la
correlación cruzada con compensación de vecinos (véase la figura 4B,
la salida del bloque 439), generar un componente de factor de
escala de energía en exceso del punto extremo para cada uno de los
puntos extremos del módulo. La energía interior total estimada para
cada entrada de un módulo, (figura 6A), es requerida por el
supervisor, en el caso de una configuración con múltiples módulos y,
en cualquier caso, por el propio módulo con el fin de generar los
componentes de factor de escala de la energía en exceso del punto
extremo.
Utilizando los componentes de factor de escala
obtenidos en los bloques 455 y 457 de la figura 4C, junto con otra
información, la configuración de la figura 6A calcula la energía
total estimada en cada salida interior (pero no en sus salidas de
punto extremo). Utilizando los niveles de energía de salida interior
calculados, multiplica cada nivel de salida por el coeficiente de
la matriz que relaciona esa salida con cada entrada ["m"
entradas, "m" multiplicadores], que proporciona la contribución
de energía de esa entrada para esa salida. Para cada entrada, suma
todas las contribuciones de energía de todos los canales interiores
de salida para obtener la contribución de energía interior total de
esa entrada. La contribución de energía total interior de cada
entrada es remitida al supervisor y utilizada por el módulo para
calcular el componente de factor de escala de energía en exceso del
punto extremo para cada salida de punto extremo.
Haciendo referencia la figura 6A con detalle, el
nivel suavizado de energía total para cada entrada del módulo
(preferiblemente sin compensación de vecinos), es aplicada a un
conjunto de multiplicadores, un multiplicador por cada una de las
salidas interiores del módulo. Por simplicidad en la presentación,
la figura 6A muestra dos entradas, "1" y "m" y dos
salidas interiores "X" y "Z". El nivel suavizado de
energía total para cada entrada del módulo es multiplicado por un
coeficiente de la matriz, (de la matriz local del módulo), que
relaciona la entrada particular con una de las salidas interiores
del módulo (obsérvese que los coeficientes de la matriz son sus
propios inversos, porque los coeficientes al cuadrado de la matriz
suman uno). Esto se hace para cada combinación de entrada y salida
interior. Así, como se ilustra en la figura 6A, el nivel suavizado
de la energía total en la entrada 1 (que puede ser obtenido, por
ejemplo, en la salida del suavizador lento 425 de la figura 4B) es
aplicado a un multiplicador 601 que multiplica ese nivel de energía
por un coeficiente de la matriz que relaciona la salida interior X
con la entrada 1, proporcionando un componente escalado X_{1} de
nivel de energía de salida en la salida X. De forma similar, los
multiplicadores 603, 605 y 607 proporcionan componentes escalados
X_{m}, Z_{1} y Z_{m} de nivel de energía.
Los componentes de nivel de energía para salida
interior (por ejemplo, X_{1} y X_{m}; Z_{1} y Z_{m}) son
sumados en los combinadores 611 y 613 en forma de amplitud/potencia,
de acuerdo con la correlación cruzada con compensación de vecinos.
Si las entradas a un combinador están en fase, indicado con una
correlación cruzada con compensación de vecinos de 1,0, sus
amplitudes lineales se suman. Si no tienen ninguna correlación,
indicada por una correlación cruzada con compensación de vecinos de
cero, sus niveles de energía se suman. Si la correlación cruzada
está entre uno y cero, la suma es en parte una suma de amplitudes y
en parte una suma de potencias. Con el fin de sumar apropiadamente
las entradas a cada combinador, la suma de amplitudes y la suma de
potencias son calculadas y ponderadas por la correlación cruzada
con compensación de vecinos y por (1-correlación
cruzada con compensación de vecinos), respectivamente. Con el fin
de obtener la suma ponderada, se toma la raíz cuadrada de la suma
de potencias, para obtener una amplitud equivalente, o bien se eleva
al cuadrado la suma de las amplitudes lineales para obtener su
nivel de potencia antes de efectuar la suma ponderada. Por ejemplo,
tomando esta última solución, (suma ponderada de potencias), si los
niveles de amplitud son 3 y 4, la correlación cruzada con
compensación de vecinos es, la suma de amplitudes es 3+4=7, o un
nivel de potencia de 49 y la suma de energía de potencias es 9 + 16
= 25. De manera que la suma ponderada es
0,7*49+(1-0,7)*25 = 41,8 (nivel de energía de
potencias) o, tomando la raíz cuadrada, 6,47.
Los productos de la suma (X_{1} + X_{m};
Z_{1} +Z_{m}) son multiplicados por los componentes de factores
de escala para cada una de las salidas, X y Z, en los
multiplicadores 613 y 615, para generar el nivel de energía total
en cada salida interior, que pueden ser identificados como X' y Z'.
El componente de factor de escala para cada una de las salidas
interiores se obtiene del bloque 467 (figura 4C). Obsérvese que los
"componentes de factores de escala de energía en exceso del punto
extremo" del bloque 459 (figura 4C) no afectan a las salidas
interiores y no están involucradas en los cálculos realizados por la
configuración de la figura 6A.
El nivel de energía total en cada salida
interior, X' y Z', es reflejado hacia atrás en las respectivas
entradas del módulo, multiplicando cada una de ellas por un
coeficiente de la matriz (de la matriz local del módulo) que
relaciona la salida particular con cada una de las entradas del
módulo. Esto se hace para cada combinación de salida interior y de
entrada. Así, como se ilustra en la figura 6A, el nivel X' de
energía total en la salida interior X es aplicado a un
multiplicador 617 que multiplica el nivel de energía por un
coeficiente de la matriz que relaciona la salida interior X con la
entrada 1 (que es la misma que su inversa, como se ha indicado
anteriormente), proporcionando un componente X_{1}' de nivel de
energía escalado en la entrada 1.
Debe indicarse que cuando un valor de segundo
orden, tal como el nivel X' de energía total, es ponderado por un
valor de primer orden, tal como el coeficiente de una matriz, se
requiere una ponderación de segundo orden. Esto es equivalente a
tomar la raíz cuadrada de la energía para obtener una amplitud,
multiplicando esa amplitud por el coeficiente de la matriz y
elevando al cuadrado el resultado para volver a obtener un valor de
energía.
De forma similar, los multiplicadores 619, 621 y
623 proporcionan unos niveles de energía escalada X_{m}',
Z_{1}' y Z_{m}'. Los componentes de energía relativos a cada
salida (por ejemplo, X_{1}' y Z_{1}', X_{m}'y Z_{m}') son
sumados en los combinadores 625 y 627 en forma de amplitud/potencia,
como se ha descrito anteriormente en relación con los combinadores
611 y 613, de acuerdo con la correlación cruzada con compensación
de vecinos. Las salidas de los combinadores 625 y 627, representan
la energía interior total estimada para las entradas 1 y m,
respectivamente. En el caso de una retícula de múltiples módulos,
esta información es enviada al supervisor, tal como el supervisor
201 de la figura 2, de manera que el supervisor puede calcular los
niveles vecinos. El supervisor solicita todas las contribuciones de
energía total interior para cada entrada de todos los módulos
conectados a esa entrada, después informa a cada módulo, para cada
una de sus entradas, el resultado de la suma de todas las demás
contribuciones de energía interior total de todos los demás módulos
conectados a esa entrada. El resultado es el nivel vecino para esa
entrada de ese módulo. La generación de información de nivel vecino
se describe con más detalle a continuación.
La energía interior total estimada contribuida
por cada una de las entras 1 y m es también requerida por el módulo
con el fin de calcular el componente de factor de escala de energía
en exceso del punto extremo para cada salida de punto extremo. La
figura 6B muestra cómo puede calcularse tal información del
componente de factor de escala. Por simplicidad en la presentación,
solamente se ilustra el cálculo de la información del componente de
factor de escala para un punto extremo, comprendiéndose que se
efectúa un cálculo similar para cada salida de punto extremo. La
energía interior total estimada contribuida por una entrada, tal
como la entrada 1, es restada en un combinador o función 629 de
combinación de la energía total suavizada de entrada para la misma
entrada, la entrada 1 en este ejemplo (el mismo nivel de energía
total de entrada suavizada en la entrada 1, obtenida, por ejemplo,
en la salida del suavizador lento 425 de la figura 4B, que es
aplicada a un multiplicador 601). El resultado de la sustracción se
divide en un divisor o función divisora 631, por el nivel de
energía total suavizada para la misma entrada 1. La raíz cuadrada
del resultado de la división se extrae en un extractor de raíz
cuadrada, o función 633 de raíz cuadrada. Debe observarse que la
operación del divisor o función divisora 631 (y otros divisores
descritos aquí) deben incluir una prueba de denominador cero. En
ese caso, el cociente puede ser fijado en cero.
Si solamente hay un único módulo autónomo, los
componentes de factores de escala preliminares de punto extremo son
determinados por tanto, en virtud de que se han determinado los
factores de escala dominantes, de relleno y de energía en exceso
del punto extremo.
Así, todos los canales de salida incluyendo
puntos extremos tienen factores de escala asignados, y se puede
continuar utilizándolos para realizar la matrización del camino de
la señal. Sin embargo, si hay una retícula de múltiples módulos,
cada uno de ellos tiene asignado un factor de escala de punto
extremo para cada entrada que los alimenta, de manera que cada
entrada tiene más de un módulo conectado a sus múltiples
asignaciones de factores de escala, uno desde cada módulo
conectado. En este caso, el supervisor (tal como el supervisor 201
del ejemplo de la figura 2) realiza una cuarta y última asignación
de los canales del "punto extremo", como se ha descrito
anteriormente con relación a las figuras 2 y 3, donde el supervisor
determina los factores de escala finales del punto extremo que
reemplazan a todas las asignaciones de factores de escala hechos por
módulos individuales como factores de escala de punto extremo.
En configuraciones prácticas, no hay certeza de
que haya realmente una dirección de canal de salida que corresponda
a una posición de punto extremo, aunque este es el caso
frecuentemente. Si no hay un canal físico de punto extremo, sino
que hay al menos un canal físico más allá del punto extremo, la
energía del punto extremo es puesta en panorámica para los canales
físicos más cercanos al extremo, como si fueran un componente de
señal dominante. En una serie horizontal, estos son los dos canales
más cercanos a la posición del punto extremo, utilizando
preferiblemente una distribución de energía constante (los cuadrados
de los dos factores de escala suman 1,0). En otras palabras, cuando
la dirección de un sonido no se corresponde con la posición de un
canal de sonido real, aún cuando esa dirección es una señal de
punto extremo, es preferible ponerlo en panorámica con la pareja de
canales reales más próxima disponible, porque si el sonido se
desplaza lentamente, salta espontáneamente de un canal de salida a
otro. Así, cuando no hay un canal físico de sonido del punto
extremo, no es apropiado poner en panorámica una señal de punto
extremo con un canal de sonido más cercano al emplazamiento del
punto extremo, a menos que no haya canal físico más allá del punto
extremo, en cuyo caso no hay otra elección que ponerlo con el canal
de sonido más cercano a la situación del punto extremo.
Otra manera de implementar tal puesta en
panorámica es que el supervisor, tal como el supervisor 201 de la
figura 2, genere factores de escala "finales" basándose en la
suposición de que cada entrada tenga un correspondiente canal de
salida (es decir, cada entrada y salida correspondientes sean
coincidentes, representando al mismo lugar). Entonces, una matriz
de salida, tal como la matriz variable 203 de la figura 2, pueden
hacer corresponder un canal de salida con uno o más canales de
salida apropiados, si no hay un canal de salida real que se
corresponda directamente con un canal de entrada.
Como se ha mencionado anteriormente, las salidas
de cada uno de los dispositivos o funciones 455, 457 y 459 de
"cálculo de componentes de factores de escala", son aplicadas a
los respectivos dispositivos normalizadores o funciones 461, 463 y
465. Son deseables tales normalizadores porque los factores de
escala calculados por los bloques 455, 457 y 459 están basados en
niveles compensados por vecinos, mientras que la matrización final
del camino de la señal (en la matriz maestra, en el caso de
múltiples módulos, o en la matriz local, en el caso de un módulo
autónomo), implica niveles sin compensación de vecinos (las señales
de entrada aplicadas a la matriz no tienen compensación de
vecinos). Típicamente, los componentes de factores de escala son
reducidos en valor por medio de un normalizador.
Una manera adecuada de implementar
normalizadores es la siguiente. Cada normalizador recibe la energía
de entrada suavizada con compensación de vecinos para cada una de
las entradas del módulo (como desde los combinadores 331 y 333), la
energía de entrada suavizada sin compensación de vecinos para cada
una de las entradas del módulo (como desde los bloques 325 y 327),
información de coeficientes de la matriz local desde la matriz
local, y las respectivas salidas de los bloques 355, 357 y 359. Cada
normalizador calcula una salida deseada para cada canal de salida y
un nivel de salida real para cada canal de salida, suponiendo un
factor de escala de 1. Después divide la salida deseada calculada
para cada canal de salida por el nivel de salida real calculado
para cada canal de salida, y extrae la raíz cuadrada del cociente
para proporcionar un potencial factor de escala preliminar para su
aplicación a la "suma y/o mayor que" 367. Considérese el
ejemplo siguiente.
Supóngase que los niveles de energía suavizados
con compensación de vecinos de un módulo de dos entradas son 6 y 8,
y que los correspondientes niveles de energía con compensación de
vecinos son 3 y 4. Supóngase también un canal de salida interior
central con coeficientes de matriz = (0,71, 0,71), o al cuadrado:
(0,5, 0,5). Si el módulo selecciona un factor de escala inicial
para este canal (basándose en los niveles con compensación de
vecinos) de 0,5, o al cuadrado = 0,25, entonces el nivel de salida
deseado de este canal (suponiendo una suma de energía pura por
simplicidad y utilizando niveles con compensación de vecinos)
es:
0,25 * (3 * 0,5
+ 4 * 0,5) =
0,875.
\newpage
Debido a que los niveles de entrada reales son 6
y 8, si se utiliza el factor de escala anterior (al cuadrado) de
0,25 para la matrización final del camino de la señal, el nivel de
salida es
0,25 * (6 * 0,5
+ 8 * 0,5) =
1,75
en lugar del nivel deseado de
salida de 0,875. El normalizador ajusta el factor de escala para
obtener el nivel de salida deseado cuando se utilizan los niveles
sin compensación de
vecinos.
La salida real, suponiendo SF = 1 (6 * 0,5 + 8 *
0,5) = 7.
(Nivel de salida deseado) / (Salida real
suponiendo SF = 1) = 0,875 / 7,0 = 0,125 = factor de escala final
al cuadrado.
El factor de escala final para ese canal de
salida = raíz cuadrada (0,125) = 0,354, en lugar del valor
inicialmente calculado de 0,5.
La "suma y/o mayor que" 367 suma
preferiblemente los correspondientes componentes de factores de
escala de relleno y del punto extremo para cada canal de salida por
sub-banda, y selecciona el mayor de los componentes
dominantes y de relleno de los factores de escala para cada canal de
salida por sub-banda. La función del bloque 367 de
"suma y/o mayor que" en esta forma preferida puede estar
caracterizado como se ilustra en la figura 7. Es decir, los
componentes del factor de escala dominante y los componentes del
factor de escala de relleno son aplicados a un dispositivo o
función 701 que selecciona el mayor de los componentes de factores
de escala para cada salida ("mayor que" 701) y los aplica a un
combinador aditivo o función combinadora 703, que suma los
componentes de factor de escala del "mayor que" 701, con los
factores de escala de energía en exceso del punto extremo para cada
salida. Alternativamente, pueden obtenerse resultados aceptables
cuando el bloque 467 de "suma y/o mayor que": (1) suma en
ambas regiones, Región 1 y Región 2, (2) toma la mayor de ambas
regiones, la región 1 y la región 2, o (3) selecciona el mayor de la
Región 1 y suma en la Región 2.
La figura 8 es una representación idealizada de
la manera en la que un aspecto de la presente invención genera
componentes de factores de escala como respuesta a una medición de
la correlación cruzada. La figura es particularmente útil haciendo
referencia a los ejemplos de las figuras 9A y 9B hasta las figuras
16A y 16B. Como se ha mencionado anteriormente, la generación de
componentes de factores de escala puede ser considerada como con dos
regiones o regímenes de funcionamiento: una primera región, la
Región 1, limitada por "todos dominantes" y "relleno
uniformemente", en la cual los componentes de factor de escala
disponibles son una mezcla de componentes de factores de escala
dominantes y de relleno, y una segunda región, la Región 2, limitada
por "uniformemente rellenos" y "todo puntos extremos", en
la cual los componentes de factores de escala son una mezcla de
componentes de factor de escala de relleno y de energía en exceso
del punto extremo. La condición limitadora "todos dominantes"
tiene lugar cuando la correlación cruzada ponderada en dirección es
uno. La región 1 (dominantes más relleno) se extiende para ese
límite hasta el punto en el que la correlación cruzada ponderada en
dirección es igual a la correlación cruzada aleatoria, la condición
de "uniformemente relleno". La condición limitadora de "todo
puntos extremos" tiene lugar cuando la correlación cruzada
ponderada en dirección es cero. La Región 2 (relleno más punto
extremo), se extiende desde la condición limitadora "uniformemente
relleno" hasta la condición limitadora de "todo puntos
extremos". El punto limitador "uniformemente relleno" puede
considerarse que está en la Región 1 o en la Región 2. Como se
menciona más adelante, el punto limitador preciso no es crítico.
Como se ilustra en la figura 8, a medida que el
componente o componentes de factores de escala dominantes reducen
su valor, los componentes de factores de escala de relleno aumentan
en valor, alcanzando un máximo cuando el componente o componentes
de factores de escala dominantes alcanzan el valor cero, en cuyo
punto, a medida que los componentes de factores de escala de
relleno reducen su valor, los componentes de factores de escala de
energía en exceso del punto extremo aumentan su valor. El resultado,
cuando se aplica a una matriz apropiada que recibe las señales de
entrada del módulo, es una distribución de la señal de salida que
proporciona una imagen de sonido compacta cuando las señales de
entrada tienen una alta correlación, extendiéndose (ensanchándose)
de compacta a amplia a medida que decrece la correlación, y
repartiéndose progresivamente o inclinándose hacia abajo y hacia
fuera formando múltiples imágenes de sonido, cada una de ellas en un
punto extremo, a partir de amplias, a medida que la correlación
continúa disminuyendo hasta llegar a tener una correlación muy
baja.
Aunque es deseable que haya una sola imagen de
sonido espacialmente compacta (en la dirección principal nominal
progresiva de las señales de entrada) para el caso de una
correlación total y una pluralidad de imágenes de sonido
espacialmente compactas (cada una en un punto extremo) para el caso
de una ausencia total de correlación, la imagen de sonido
espacialmente dispersa entre esos extremos puede conseguirse de unas
maneras distintas a las ilustradas en la ilustración de la figura
8. No es crítico, por ejemplo, que los valores de los componentes
de factores de escala de relleno alcancen un máximo para el caso en
que la correlación cruzada aleatoria = correlación cruzada
ponderada en dirección, ni que los valores de los tres componentes
de factores de escala cambien linealmente como está ilustrado. La
presente invención contempla también las modificaciones de las
relaciones de la figura 8 (y de las ecuaciones expresadas aquí que
subyacen en la figura) y otras relaciones entre una medida adecuada
de correlación cruzada y valores de factores de escala que son
capaces de producir la distribución de señal de puntos extremos de
dominante compacta a ampliamente dispersa a compacta, para una
medida de la correlación cruzada desde una correlación muy alta a
una correlación muy baja. Por ejemplo, en lugar de obtener una
distribución de señal de puntos extremos de dominante compacta a
ampliamente dispersa a compacta, empleando un enfoque de región
dual, tal como se ha descrito anteriormente, pueden obtenerse tales
resultados por medio de un enfoque matemático, tal como uno que
emplee una resolución de ecuaciones basada en
pseudo-inversas.
Una serie de representaciones idealizadas,
figuras 9A y 9B hasta las figuras 16A y 16B, ilustran los factores
de escala de salida de un módulo para diversos ejemplos de
condiciones de señales de entrada. Por simplicidad, se supone un
módulo autónomo, de manera que los factores de escala que produce
para una matriz variable son los factores de escala finales. El
módulo y una matriz variable asociada tienen dos canales de entrada
(tal como izquierdo L y derecho R) que coinciden con dos canales de
salida del punto extremo (que pueden ser designados también como L
y R). En esta serie de ejemplos, hay tres canales interiores de
salida (tal como medio izquierdo Lm, centro C y medio derecho
Rm).
Los significados de "todo dominantes",
"mezcla de dominantes y relleno", "uniformemente
rellenos", "mezcla de rellenos" y puntos extremos, y
"todo puntos extremos" son ilustrados con más detalle en
relación con los ejemplos de las figuras 9A y 9B hasta las figuras
16A y 16B. En cada pareja de figuras (9A y 9B, por ejemplo), la
figura "A" muestra los niveles de energía de las dos entradas,
izquierda L y derecha R, y la figura "B" muestra los
componentes de factores de escala para las cinco salidas, izquierda
L, medio izquierda LM, centro C, medio derecha RM y derecha R. Las
figuras no están a escala.
En la figura 9A, los niveles de energía de
entrada, ilustrados como dos flechas verticales, son iguales.
Además, tanto la correlación cruzada ponderada en dirección (como
la correlación cruzada efectiva) son 1,0 (correlación total). En
este ejemplo, solamente hay un factor de escala distinto de cero,
ilustrado en la figura 9B como una sola flecha vertical en C, que
es aplicado a la salida del canal interior central C, dando como
resultado una señal dominante espacialmente compacta. En este
ejemplo, la salida está centrada (L/R = 1) y, por tanto, ocurre que
coincide con el canal C interior central de salida. Si no hay un
canal de salida coincidente, la señal dominante es aplicada en
proporciones apropiadas a los canales de salida más cercanos, de
manera que ponen la señal dominante en panorámica en el lugar
virtual correcto entre ellos. Si por ejemplo no hubiera un canal
central C de salida, los canales de salida medio izquierdo LM y
medio derecho RM tendrían factores de escala distintos de cero,
originando que la señal dominante sea aplicada por igual a las
salidas LM y RM. En este caso, de correlación total (todo señal
dominante), no hay componentes de señal de relleno ni de punto
extremo. Así, los factores de escala preliminares producidos por el
bloque 467 (figura 4C) son los mismos que los componentes de
factores de escala dominantes normalizados producidos por el bloque
361.
En la figura 10A, los niveles de energía de
entrada son iguales, pero la correlación cruzada ponderada en
dirección es inferior a 1,0 y mayor que la correlación cruzada
aleatoria. Consecuentemente, los componentes de factores de escala
son los de la Región 1, componentes de factores de escala mezclados
dominantes y de relleno. El mayor de los componentes de los
factores de escala dominante normalizado (del bloque 361) y del
factor de escala de relleno normalizado (del bloque 363) es aplicado
a cada canal de salida (por el bloque 367) de manera que el factor
de escala dominante está situado en el mismo canal C central de
salida que en la figura 10B, pero es menor, y los factores de
escala de relleno aparecen en cada uno de los demás canales de
salida, L, LM, RM y R (incluyendo los puntos extremos L y R).
En la figura 11A, los niveles de energía de
entrada permanecen iguales, pero la correlación cruzada ponderada
en dirección = correlación cruzada aleatoria. Consecuentemente, los
factores de escala de la figura 11B son los de la condición
limitadora entre las Regiones 1 y 2, la condición de rellenado
uniforme en la cual no hay factores de escala dominantes o del
punto extremo, solamente factores de escala de relleno que tienen
el mismo valor en cada salida (por tanto, "uniformemente
rellenos"), como se ha indicado con las flechas idénticas en
cada salida. Los niveles de factores de escala de relleno alcanzan
su valor más alto en este ejemplo. Como se estudia más adelante,
los factores de escala de relleno pueden ser aplicados
desigualmente, de forma tal como una disminución gradual
dependiendo de las condiciones de la señal de entrada.
En la figura 12A, los niveles de energía de
entrada permanecen iguales, pero la correlación cruzada ponderada
en dirección es inferior a la correlación cruzada aleatoria, y mayor
que cero (Región 2). Consecuentemente, como se ilustra en la figura
12B, hay factores de escala de relleno y del punto extremo, pero no
factores de escala dominantes.
En la figura 13A, los niveles de energía de
entrada permanecen iguales, pero la correlación cruzada ponderada
en dirección es cero. Consecuentemente, los factores de escala,
ilustrados en la figura 13B, son los de la condición limitadora de
todos los puntos extremos. No hay factores de escala de salida
interior, solamente factores de escala de punto extremo.
En los ejemplos de las figuras 9A/9B hasta las
figuras 13A/13B, debido a que los niveles de energía de las dos
entradas son iguales, la correlación cruzada ponderada en dirección
(tal como la producida por el bloque 441 de la figura 4B) es la
misma que la correlación cruzada con compensación de vecinos (tal
como la producida por el bloque 439 de la figura 4B). Sin embargo,
en la figura 14A, los niveles de energía de entrada no son iguales
(L es mayor que R). Aunque la correlación cruzada ponderada en
vecinos es igual a correlación cruzada aleatoria en este ejemplo,
los factores de escala resultantes, ilustrados en la figura 14B, no
son factores de escala de relleno aplicados uniformemente a todos
los canales, como en el ejemplo de las figuras 11A y 11B. En lugar
de eso, los niveles de energía de entrada desiguales originan un
aumento proporcional en la correlación cruzada ponderada en
dirección (proporcional al grado en el cual la dirección principal
nominal progresiva se aparta de su posición central) de forma tal
que se hace mayor que la correlación cruzada con compensación de
vecinos, haciendo así que los factores de escala estén ponderados
más hacia todos dominantes (como se ilustra en la figura 8). Éste
es un resultado deseado porque las señales L- y R- fuertemente
ponderadas no deberían tener una anchura muy amplia; deberían tener
una anchura compacta cerca del punto extremo del canal L o R. La
salida resultante, ilustrada en la figura 14B, es un factor de
escala dominante distinto de cero situado más cerca de la salida L
que de la salida R (la información de dirección compensada en
vecinos, en este caso, ocurre que sitúa precisamente el componente
dominante en la posición media izquierda LM), con amplitudes
reducidas de factores de escala de relleno, y sin factores de escala
de punto extremo (la ponderación de dirección impulsa la operación
hacia la Región 1 de la figura 8 (mezcla de dominante y
relleno)).
relleno)).
Para las cinco salidas correspondientes a los
factores de escala de la figura 14B, las salidas pueden ser
expresadas como sigue:
- Lout = Lt (SF_{L})
- MidLout = ((0,92) Lt + (0,38) Rt)) (SF_{MidL})
- Cout = ((0,45) Lt + (0,45Rt)) (SF_{C})
- MidRout = ((0,38)Lt) + (0,92))(SF_{MidR})
- Rout = Rt(SF_{R}).
Así, en el ejemplo de la figura 14B, aunque los
factores de escala (SF) para cada una de las cuatro salidas
distintas a MidLout son iguales (de relleno), las correspondientes
señales de salida no son iguales, porque Lt es mayor que Rt (dando
como resultado una mayor salida de señal hacia la izquierda) y la
salida dominante en Mid Left es mayor que lo que indica el factor
de escala. Debido a que la dirección principal nominal progresiva
es coincidente con el canal de salida MidLeft, la relación de Lt a
Rt es la misma que los coeficientes de la matriz para el canal de
salida MidLeft, es decir, 0,92 a 0,38. Supóngase que esas son las
amplitudes reales para Lt y Rt. Para calcular los niveles de
salida, se multiplican estos niveles por los correspondientes
coeficientes de la matriz, se suman y se escalan por los
respectivos factores de escala:
- amplitud de salida (output_channel_sub_i) = sf(i)*(Lt_Coef(i)*Lt + Rt_Coef(i)*Rt)
Aunque preferiblemente se tiene en cuenta la
mezcla entre suma de amplitudes y energías (como en los cálculos
relativos a la figura 6A), en este ejemplo la correlación cruzada es
bastante grande (factor de escala dominante grande) y puede
realizarse la suma normal:
- Lout = 0,1 * (1*0,92 + 0*0,38) = 0,092
- MidLout = 0,9*(0,92*0,92+ 0,38*0,38) = 0,900
- Cout = 0,1*(0,71*0,92 + 0,71*0,38) = 0,092
- MidRout = 0,1*(0,38*0,92 + 0,92*0,38) = 0,070
- Rout = 0,1*(0*0,92 + 1*0,38) = 0,038
Por tanto, este ejemplo demuestra que las
salidas de señal en Lout, Cout, MidRout y Rout no son iguales porque
Lt es mayor que Rt, aún cuando los factores de escala para esas
salidas son iguales.
Los factores de escala de relleno pueden estar
igualmente distribuidos en los canales de salida como se ilustra en
los ejemplos de las figuras 10B, 11B, 12B y 14B. Alternativamente,
los componentes de los factores de escala de relleno, en lugar de
ser uniformes, pueden variar en posición de alguna manera, en
función de los componentes de señal de entrada dominantes (con
correlación) y/o del punto extremo (sin correlación) (o,
equivalentemente, en función del valor de la correlación cruzada
ponderada en dirección). Por ejemplo, para valores moderadamente
altos de la correlación cruzada ponderada en dirección, las
amplitudes de los componentes de factores de escala de relleno
pueden curvarse de forma convexa, de manera que los canales de
salida cercanos a la dirección principal nominal progresiva reciben
más nivel de señal que los canales más alejados. Cuando la
correlación cruzada ponderada en dirección es igual a la
correlación cruzada aleatoria, las amplitudes de los componentes de
factores de escala de relleno pueden aplanarse en una distribución
uniforme, y cuando la correlación cruzada ponderada en dirección es
menor que la correlación cruzada aleatoria, las amplitudes pueden
curvarse de manera cóncava, favoreciendo los canales cercanos a las
direcciones de los puntos extremos.
\newpage
En las figuras 15B y 16B se establecen ejemplos
de tales amplitudes de factores de escala de relleno curvados. La
salida de la figura 15B es resultado de una entrada (15A) que es la
misma que en la figura 10A, descrita anteriormente. La salida de la
figura 16B es el resultado de una entrada (figura 16A) que es la
misma que en la figura 12B, descrita anteriormente.
Cada módulo de una configuración de múltiples
módulos, tal como el ejemplo de las figuras 1 y 2, requiere dos
mecanismos para dar soporte a la comunicación entre él y un
supervisor, tal como el supervisor 201 de la figura 2:
- (a)
- uno para seleccionar e informar sobre la información requerida por el supervisor para calcular niveles vecinos y niveles vecinos de orden superior (si los hay). La información requerida por el supervisor es la energía interior total estimada atribuible a cada una de las entradas del módulo según se generan, por ejemplo, por la configuración de la figura 6A.
- (b)
- otro para recibir y aplicar los niveles vecinos (si los hay) y los niveles vecinos de orden superior (si los hay) desde el supervisor. En el ejemplo de la figura 4B, los niveles vecinos son restados en los respectivos combinadores 431 y 433 de los niveles de energía suavizados de cada entrada, y los niveles de vecinos de orden superior (si los hay) son restados en los respectivos combinadores 431, 433 y 435 de los niveles de energía suavizados de cada entrada y de la energía común a través de los canales.
Una vez que el supervisor conoce todas las
contribuciones de energía interior estimada de cada entrada de cada
módulo:
- (1)
- determina si las contribuciones de energía interior total estimada de cada entrada (sumada desde todos los módulos conectados a esa entrada) excede del nivel de señal disponible en esa entrada. Si la suma excede del total disponible, el supervisor vuelve a poner en escala cada energía interior informada por cada módulo conectado a esa entrada, de manera que sumen el nivel total de entrada.
- (2)
- informa a cada módulo de sus niveles vecinos en cada entrada, como la suma de las demás contribuciones de energía interior de esa entrada (si las hay).
Los niveles vecinos de orden superior (HO) son
niveles vecinos de uno o más módulos de orden superior que
comparten las entradas de un módulo de nivel inferior. El cálculo
anterior de niveles vecinos está relacionado solamente con módulos
en una entrada en particular que tienen la misma jerarquía: todos
los módulos de tres entradas (si los hay), después todos los
módulos de dos entradas, etc. Un nivel vecino HO de un módulo es la
suma de todos los niveles vecinos de todos los módulos de orden
superior en esa entrada (es decir, el nivel vecino HO en una
entrada de un módulo de dos entradas es la suma de todos los módulos
de tercer, cuarto órdenes y superiores, si los hay, que comparten
el nodo de un módulo de dos entradas). Una vez que el módulo sabe
que sus niveles vecinos HO están un una entrada particular de sus
entradas, los resta, junto con los niveles vecinos del mismo nivel
de jerarquía, del nivel de energía total de entrada para obtener el
nivel compensado en vecinos en ese nodo de entrada. Esto está
ilustrado en la figura 4B, donde los niveles vecinos para la
entrada 1 y la entrada m son restados en los combinadores 431 y 433,
respectivamente, de las salidas de los suavizadores variables
lentos 425 y 427, y los niveles vecinos de orden superior para la
entrada 1, la entrada m y la energía común son restados en los
combinadores 431, 433 y 435, respectivamente, de las salidas de los
suavizadores variables lentos 425, 427 y 429.
Una diferencia entre el uso de niveles vecinos y
niveles vecinos HO para la compensación, es que los niveles vecinos
HO son utilizados también para compensar la energía común a través
de los canales de entrada (por ejemplo, consiguiéndolo mediante la
sustracción de un nivel vecino HO en el combinador 435). La
explicación de esta diferencia es que el nivel común de un módulo
no está afectado por módulos contiguos de la misma jerarquía, sino
que puede estar afectado por un módulo de orden superior que
comparta todas las entradas de un módulo.
Por ejemplo, supóngase que los canales de
entrada Ls (izquierdo circundante), Rs (derecho circundante, y
Superior, con un canal de salida interior en el centro del
triángulo entre ellos (anillo posterior elevado), más un canal de
salida interior en una línea entre Ls y Rs (anillo posterior
horizontal principal), el primero de los canales de salida necesita
un módulo de tres entradas para recuperar la señal común a las tres
entradas. Por tanto, el último de los canales de salida, que está
sobre una línea entre dos entradas (Ls y Rs), necesita un módulo de
dos entradas. Sin embargo, el nivel total de señal común observado
por el módulo de dos entradas incluye elementos comunes del módulo
de tres entradas que no pertenecen al último de los canales de
salida, de manera que se resta la raíz cuadrada de los productos en
parejas de los niveles vecinos de HO de la energía común del módulo
de dos entradas, para determinar cuánta energía común es debida
únicamente a su canal interior (el último mencionado). Así, en la
figura 4B, el nivel de energía común suavizado (del bloque 429) ha
restado de él el nivel común HO obtenido para obtener un nivel de
energía común con compensación de vecinos (del combinador 435) que
es utilizado por el módulo para calcular (en el bloque 439), la
correlación cruzada con compensación de vecinos.
La presente invención y sus diversos aspectos
pueden ser implementados en circuitos analógicos, o más
probablemente como funciones de software realizado en procesadores
de señales digitales, ordenadores digitales programados de
propósito general, y/u ordenadores digitales de propósito general.
Los interfaces entre cadenas de señales analógicas y digitales
pueden ser realizados en un hardware apropiado y/o como funciones de
software y/o microcódigo. Aunque la presente invención y sus
diversos aspectos pueden implicar señales analógicas o digitales, es
probable que en las aplicaciones prácticas la mayoría o todas las
funciones de proceso sean efectuadas en el dominio digital sobre
cadenas de señales digitales, en las cuales las señales de audio
están representadas por muestras.
Claims (52)
1. Un proceso para convertir M señales de
entrada de audio, cada una asociada con una dirección, en N señales
de salida de audio, cada una asociada con una dirección, donde N es
mayor que M, y M es dos o más, que comprende:
proporcionar una o más matrices variables (203;
24-34)
para cada matriz variable (203;
24-34), aplicar a ellas m de dichas M señales de
entrada de audio y obtener de ellas n de dichas N señales de salida
de audio, donde, cuando hay una matriz variable, m es M y n es N y,
cuando hay una pluralidad de matrices, m es un subconjunto de M y n
es un subconjunto de N y los valores de m y n para una matriz
pueden diferir de los de otras matrices,
controlar cada matriz variable como respuesta a
las m señales de entrada aplicadas a ella, de manera que un campo
acústico generado por las n señales de salida obtenidas de ella,
tiene una imagen sonora compacta en la dirección principal nominal
progresiva de las m señales de entrada aplicadas a ella cuando tales
señales de entrada tienen una alta correlación, extendiéndose la
imagen de compacta a amplia a medida que la correlación disminuye y
repartiéndose progresivamente en múltiples imágenes sonoras
compactas, cada una en una dirección asociada con una señal de
entrada aplicada a ella, a medida que la correlación continúa
disminuyendo hasta una correlación muy baja, y
obtener dichas N señales de salida de audio a
partir de las señales de salida de dichas una o más matrices
variables (203; 24-34).
2. Un proceso según la reivindicación 1, en el
que cada una de dichas matrices variables (203;
24-34) es una matriz variable que tiene unos
coeficientes variables, o es una matriz variable que tiene
coeficientes fijos y salidas variables, y cada matriz variable
(203; 24-34) es controlada variando los coeficientes
variables o variando las salidas variables.
3. Un proceso según la reivindicación 1, en el
que cada una de dichas matrices variables (203;
24-34) es controlada como respuesta a las medidas
de:
- (1)
- los niveles relativos de sus señales de entrada, y
- (2)
- la correlación cruzada de sus señales de entrada.
4. Un proceso según la reivindicación 3, en el
que para una medida de correlación cruzada de las señales de
entrada aplicadas a una matriz variable (203; 24-34)
con valores en una primera gama, limitados por un valor máximo y un
valor de referencia, el campo acústico tiene una imagen sonora
compacta cuando la medida de la correlación cruzada es dicho valor
máximo y tiene una imagen sonora amplia cuando la medida de la
correlación cruzada es dicho valor de referencia, y para una medida
de la correlación cruzada de las señales de entrada aplicadas a una
matriz variable (203; 24-34) con valores en una
segunda gama, limitados por dicho valor de referencia y un valor
mínimo, el campo acústico tiene dicha imagen sonora ampliamente
extendida cuando la medida de la correlación cruzada es dicho valor
de referencia y tiene una pluralidad de imágenes sonoras compactas,
cada una en una dirección asociada con una señal de entrada aplicada
a la matriz variable (203; 24-34), cuando la medida
de la correlación cruzada es dicho valor mínimo.
5. Un proceso según la reivindicación 4, en el
que dicho valor de referencia está alrededor del valor de una
medida de correlación cruzada de las señales de entrada a cada
matriz variable (203; 24-34) para el caso de igual
energía en cada una de las señales de salida de tal matriz
variable.
6. Un proceso según la reivindicación 3, en el
que una medida de los niveles relativos de las señales de entrada a
la matriz variable (203; 24-34) es como respuesta a
un nivel de energía suavizado de cada señal de entrada.
7. Un proceso según la reivindicación 3 o la
reivindicación 6, en el que una medida de los niveles relativos de
las señales de entrada a la matriz variable (203;
24-34) es una dirección principal nominal progresiva
de tales señales de entrada.
8. Un proceso según la reivindicación 3, en el
que una medida de la correlación cruzada de las señales de entrada
a una matriz variable (203; 24-34) es como respuesta
a una energía común suavizada de tales señales de entrada dividida
por la raíz M-sima del producto del nivel de energía
suavizado de cada señal de entrada, donde M es el número de señales
de entrada a la matriz variable (203; 24-34).
9. Un proceso según cualquiera de las
reivindicaciones 6, 7 u 8, en el que el nivel de energía suavizado
de cada señal de entrada a la matriz variable (203;
24-34) se obtiene por suavización en el dominio de
tiempos con constante de tiempo variables.
10. Un proceso según cualquiera de las
reivindicaciones 6, 7 u 8, en el que el nivel de energía suavizado
de cada señal de entrada a una matriz variable (203;
24-34) se obtiene por suavización en el dominio de
frecuencias y por suavización en el dominio de tiempos con
constante de tiempo variables.
11. Un proceso según la reivindicación 8, en el
que la energía común de las señales de entrada a una matriz
variable (203; 24-34) se obtiene mediante el
producto cruzado de los niveles de amplitud de tales señales de
entrada.
12. Un proceso según la reivindicación 11, en el
que la energía común suavizada de las señales de entrada a una
matriz variable (203; 24-34) se obtiene por
suavización en el dominio de tiempos con constante de tiempo
variables de la energía común de las señales de entrada.
13. Un proceso según la reivindicación 12, en el
que el nivel de energía suavizado de cada señal de entrada a una
matriz variable (203; 24-34) se obtiene por
suavización en el dominio de tiempos con constante de tiempo
variables.
14. Un proceso según la reivindicación 11, en el
que la energía común suavizada de las señales de entrada a una
matriz variable (203; 24-34) se obtiene por
suavización en el dominio de frecuencias y por suavización en el
dominio de tiempos con constante de tiempo variables de la energía
común de tales señales de entrada.
15. Un proceso según la reivindicación 14, en el
que el nivel de energía suavizado de cada señal de entrada a una
matriz variable (203; 24-34) se obtiene por
suavización en el dominio de frecuencias y por suavización en el
dominio de tiempos con constante de tiempo variables.
16. Un proceso según cualquiera de las
reivindicaciones 9, 10, 12, 13, 14 y 15, en el que dicha suavización
en el dominio de tiempos con constante de tiempo variables se
efectúa por una suavización que tiene una constante de tiempo fija
y una constante de tiempo variable.
17. Un proceso según cualquiera de las
reivindicaciones 9, 10, 12, 13, 14 y 15, en el que dicha suavización
en el dominio de tiempos con constante de tiempo variables se
efectúa por una suavización que tiene solamente una constante de
tiempo variable.
18. Un proceso según la reivindicación 16 o la
reivindicación 17, en el que dicha constante de tiempo variable es
variable por pasos.
19. Un proceso según la reivindicación 16 o la
reivindicación 17, en el que dicha constante de tiempo variable es
continuamente variable.
20. Un proceso según la reivindicación 16 o la
reivindicación 17, en el que dicha constante de tiempo variable
está controlada como respuesta a las medidas de los niveles
relativos de las señales de entrada a una matriz variable (203;
24-34) y a su correlación cruzada.
21. Un proceso según la reivindicación 6, en el
que el nivel de energía suavizado de cada señal de entrada a una
matriz variable (203; 24-34) se obtiene por
suavización en el dominio de tiempos con constante de tiempo
variables de los niveles de energía de cada señal de entrada,
sustancialmente con la misma constante de tiempo.
22. Un proceso según la reivindicación 3, en el
que las medidas de los niveles relativos de las señales de entrada
a una matriz variable (203; 24-34) y su correlación
cruzada se obtienen, cada una de ellas, por suavización en el
dominio de tiempos con constante de tiempo variables en la que se
aplica la misma constante de tiempo a cada suavización.
23. Un proceso según la reivindicación 8, en el
que dicha medida de la correlación cruzada es una primera medida de
correlación cruzada de las señales de entrada a una matriz variable
(203; 24-34), y se obtiene una medida adicional de
la correlación cruzada aplicando una medida de los niveles relativos
de tales señales de entrada a dicha primera medida de correlación
cruzada, para generar una medida ponderada en dirección de la
correlación cruzada.
24. Un proceso según la reivindicación 23, en el
que una medida adicional más de correlación cruzada de las señales
de entrada a una matriz variable (203; 24-34) se
obtiene por la aplicación de un factor de escalación
aproximadamente igual a un valor de una medida de correlación
cruzada de tales señales de entrada, para el caso de igual energía
en cada una de las salidas de la matriz variable (203;
24-34).
25. Un proceso según la reivindicación 1, en el
que cuando hay más de una matriz variable (203;
24-34), dichas matrices variables (203;
24-34) están controladas también como respuesta a la
información que compensa el efecto de otra u otras más matrices
variables (203; 24-34) que reciben la misma señal de
entrada.
26. Un proceso según la reivindicación 1 o la
reivindicación 25, en el que la obtención de dichas N señales de
salida de audio de las señales de entrada de más de una matriz
variable (203; 24-34) incluye la compensación de
múltiples matrices variables (203; 24-34) que
generan la misma señal de salida.
27. Un proceso para convertir M señales de
entrada de audio, cada una asociada con una dirección, en N señales
de salida de audio, cada una asociada con una dirección, donde N es
mayor que M, y M es dos o más, que comprende:
proporcionar una matriz variable (203) de M:N
que responde a las señales de control,
aplicar dichas M señales de entrada de audio a
dicha matriz variable (203),
proporcionar uno o más generadores
(24-34, 201) de señales de control de la matriz
variable,
para cada generador, aplicar a ellas m de dichas
M señales de entrada de audio, y
obtener de ellas un conjunto de señales de
control de matriz variable para n de dichas N señales de salida de
audio, donde m es un subconjunto de M y n es un subconjunto de N, y
los valores de m y n para un generador pueden diferir de los de
otros generadores,
controlar cada generador (24-34,
201) de señal de control de matriz variable como respuesta a las m
señales de entrada aplicadas a ella, de manera que cuando las
señales de control generadas por él son aplicadas a dicha matriz
variable (203) de M:N, un campo acústico generado por las n señales
de salida generadas, tiene una imagen sonora compacta en la
dirección principal nominal progresiva de las m señales de entrada
que produjeron las señales de control aplicadas cuando tales
señales de entrada tienen una alta correlación, extendiéndose la
imagen de compacta a amplia a medida que la correlación disminuye y
repartiéndose progresivamente en múltiples imágenes sonoras
compactas, cada una en una dirección asociada con una señal de
entrada que produjeron las señales de salida aplicadas, a medida
que la correlación continúa disminuyendo hasta una correlación muy
baja, y
obtener dichas N señales de salida de audio a
partir de dicha matriz variable (203).
28. Un proceso según la reivindicación 27, en el
que dicha matriz variable (203) de M:N es una matriz variable que
tiene coeficientes variables, o es una matriz variable que tiene
coeficientes fijos y salidas variables, y dicha matriz variable
(203) se controla variando los coeficientes variables o variando las
salidas variables.
29. Un proceso según la reivindicación 27, en el
que cada uno de dichos generadores (24-34, 201) de
señales de control de la matriz variable está controlado como
respuesta a las medidas de:
(1) los niveles relativos de las m señales de
entrada aplicadas al generador, y
(2) la correlación cruzada de las m señales de
entrada aplicadas al generador.
30. Un proceso según la reivindicación 29, en el
que para una medida de correlación cruzada de las m señales de
entrada aplicadas a un generador con valores en una primera gama,
limitados por un valor máximo y un valor de referencia, el campo
acústico tiene una imagen sonora compacta cuando la medida de la
correlación cruzada es dicho valor máximo, y tiene una imagen
sonora ampliamente extendida cuando la medida de la correlación
cruzada es dicho valor de referencia, y para una medida de la
correlación cruzada de las m señales de entrada aplicadas a un
generador con valores en la segunda gama, limitados por dicho valor
de referencia y un valor mínimo, el campo acústico tiene dicha
imagen sonora ampliamente extendida cuando la medida de la
correlación cruzada es dicho valor de referencia y tiene una
pluralidad de imágenes sonoras compactas, cada una en una dirección
asociada con una señal de entrada aplicada al generador, cuando la
medida de la correlación cruzada es dicho valor mínimo.
31. Un proceso según la reivindicación 30, en el
que dicho valor de referencia está alrededor del valor de una
medida de correlación cruzada de las m señales de entrada aplicadas
a cada generador para el caso de igual energía en cada una de las
señales de salida de la matriz variable.
32. Un proceso según la reivindicación 29, en el
que una medida de los niveles relativos de las m señales de entrada
a un generador es como respuesta a un nivel de energía suavizado de
cada señal de entrada.
33. Un proceso según la reivindicación 29 o la
reivindicación 32, en el que una medida de los niveles relativos de
las m señales de entrada al generador es una dirección principal
nominal progresiva de tales señales de entrada.
34. Un proceso según la reivindicación 29, en el
que una medida de la correlación cruzada de las m señales de
entrada a un generador es como respuesta a una energía común
suavizada de tales señales de entrada dividida por la raíz
m-sima del producto del nivel de energía suavizado
de cada señal de entrada, donde m es el número de señales de
entrada al generador.
35. Un proceso según cualquiera de las
reivindicaciones 32, 33 o 34, en el que el nivel de energía
suavizado de cada señal de entrada al generador se obtiene por
suavización en el dominio de tiempos con constante de tiempo
variables.
36. Un proceso según cualquiera de las
reivindicaciones 32, 33 o 34, en el que el nivel de energía
suavizado de cada señal de entrada a un generador se obtiene por
suavización en el dominio de frecuencias y por suavización en el
dominio de tiempos con constante de tiempo variables.
37. Un proceso según la reivindicación 34, en el
que la energía común de las señales de entrada a un generador se
obtiene mediante el producto cruzado de los niveles de amplitud de
tales señales de entrada.
38. Un proceso según la reivindicación 37, en el
que la energía común suavizada de las m señales de entrada a un
generador se obtiene por suavización en el dominio de tiempos con
constante de tiempo variables de la energía común de las señales de
entrada.
39. Un proceso según la reivindicación 38, en el
que el nivel de energía suavizado de cada señal de entrada a un
generador se obtiene por suavización en el dominio de tiempos con
constante de tiempo variables.
40. Un proceso según la reivindicación 37, en el
que la energía común suavizada de las señales de entrada a un
generador se obtiene por suavización en el dominio de frecuencias y
por suavización en el dominio de tiempos con constante de tiempo
variables de la energía común de tales señales de entrada.
41. Un proceso según la reivindicación 40, en el
que el nivel de energía suavizado de cada señal de entrada a un
generador se obtiene por suavización en el dominio de frecuencias y
por suavización en el dominio de tiempos con constante de tiempo
variables.
42. Un proceso según cualquiera de las
reivindicaciones 35, 36, 38, 39, 40 y 41, en el que dicha
suavización en el dominio de tiempos con constante de tiempo
variables se efectúa por una suavización que tiene una constante de
tiempo fija y una constante de tiempo variable.
43. Un proceso según cualquiera de las
reivindicaciones 35, 36, 38, 39, 40 y 41, en el que dicha
suavización en el dominio de tiempos con constante de tiempo
variables se efectúa por una suavización que tiene solamente una
constante de tiempo variable.
44. Un proceso según la reivindicación 42 o la
reivindicación 43, en el que dicha constante de tiempo variable es
variable por pasos.
45. Un proceso según la reivindicación 42 o la
reivindicación 43, en el que dicha constante de tiempo variable es
continuamente variable.
46. Un proceso según la reivindicación 42 o la
reivindicación 43, en el que dicha constante de tiempo variable
está controlada como respuesta a las medidas de los niveles
relativos de las m señales de entrada a un generador y a su
correlación cruzada.
47. Un proceso según la reivindicación 32, en el
que el nivel de energía suavizado de cada señal de entrada a un
generador se obtiene por suavización en el dominio de tiempos con
constante de tiempo variables de los niveles de energía de cada
señal de entrada, sustancialmente con la misma constante de
tiempo.
48. Un proceso según la reivindicación 29, en el
que las medidas de los niveles relativos de las señales de entrada
a un generador y su correlación cruzada se obtienen, cada una de
ellas, por suavización en el dominio de tiempos con constante de
tiempo variables en la que se aplica la misma constante de tiempo a
cada suavización.
49. Un proceso según la reivindicación 34, en el
que dicha medida de la correlación cruzada es una primera medida de
correlación cruzada de las señales de entrada a un generador, y se
obtiene una medida adicional de la correlación cruzada aplicando
una medida de los niveles relativos de tales señales de entrada a
dicha primera medida de correlación cruzada, para generar una
medida ponderada en dirección de la correlación cruzada.
50. Un proceso según la reivindicación 49, en el
que una medida adicional más de correlación cruzada de las señales
de entrada a un generador se obtiene por la aplicación de un factor
de escalación aproximadamente igual al valor de una medida de
correlación cruzada de tales señales de entrada, para el caso de
igual energía en cada una de las salidas de la matriz variable
(203).
51. Un proceso según la reivindicación 27, en el
que cuando hay más de un generador de factores de escala de matriz
variable, dichos generadores de factores de escala de matriz
variable están controlados también como respuesta a la información
que compensa el efecto de otro u otros más generadores de factores
de escala de matriz variable que reciben la misma señal de
entrada.
52. Un proceso según la reivindicación 51, en el
que la obtención de dichas N señales de salida de audio de dicha
matriz variable (203) incluye la compensación de múltiples
generadores de factores de escala de matriz variable que generan
factores de escala para la misma señal de salida.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US40198302P | 2002-08-07 | 2002-08-07 | |
US401983P | 2002-08-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2271654T3 true ES2271654T3 (es) | 2007-04-16 |
Family
ID=33489220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03770229T Expired - Lifetime ES2271654T3 (es) | 2002-08-07 | 2003-08-06 | Conversion espacial de canales de audio. |
Country Status (17)
Country | Link |
---|---|
EP (1) | EP1527655B1 (es) |
JP (1) | JP4434951B2 (es) |
KR (1) | KR100988293B1 (es) |
CN (1) | CN1672464B (es) |
AT (1) | ATE341923T1 (es) |
AU (1) | AU2003278704B2 (es) |
BR (2) | BRPI0305746B1 (es) |
CA (1) | CA2494454C (es) |
DE (1) | DE60308876T2 (es) |
DK (1) | DK1527655T3 (es) |
ES (1) | ES2271654T3 (es) |
HK (1) | HK1073963A1 (es) |
IL (1) | IL165941A (es) |
MX (1) | MXPA05001413A (es) |
MY (1) | MY139849A (es) |
PL (1) | PL373120A1 (es) |
TW (1) | TWI315828B (es) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
KR101261212B1 (ko) | 2004-10-26 | 2013-05-07 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호 처리 방법 및 장치 |
WO2006056910A1 (en) * | 2004-11-23 | 2006-06-01 | Koninklijke Philips Electronics N.V. | A device and a method to process audio data, a computer program element and computer-readable medium |
TWI397901B (zh) * | 2004-12-21 | 2013-06-01 | Dolby Lab Licensing Corp | 控制音訊信號比響度特性之方法及其相關裝置與電腦程式 |
EP1899959A2 (en) | 2005-05-26 | 2008-03-19 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
CA2613731C (en) | 2005-06-30 | 2012-09-18 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8082157B2 (en) | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8214221B2 (en) | 2005-06-30 | 2012-07-03 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal and identifying information included in the audio signal |
JP4859925B2 (ja) | 2005-08-30 | 2012-01-25 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
EP1938663A4 (en) | 2005-08-30 | 2010-11-17 | Lg Electronics Inc | DEVICE FOR ENCODING AND DECODING AUDIO SIGNAL AND CORRESPONDING METHOD |
JP5173811B2 (ja) | 2005-08-30 | 2013-04-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
US7672379B2 (en) | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US8068569B2 (en) | 2005-10-05 | 2011-11-29 | Lg Electronics, Inc. | Method and apparatus for signal processing and encoding and decoding |
US7643561B2 (en) | 2005-10-05 | 2010-01-05 | Lg Electronics Inc. | Signal processing using pilot based coding |
KR100857121B1 (ko) | 2005-10-05 | 2008-09-05 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7751485B2 (en) | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US7965848B2 (en) | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
EP2304721B1 (fr) * | 2008-06-26 | 2012-05-09 | France Telecom | Synthese spatiale de signaux audio multicanaux |
EP2398257B1 (en) | 2008-12-18 | 2017-05-10 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
US9197978B2 (en) * | 2009-03-31 | 2015-11-24 | Panasonic Intellectual Property Management Co., Ltd. | Sound reproduction apparatus and sound reproduction method |
CN101527874B (zh) * | 2009-04-28 | 2011-03-23 | 张勤 | 一种动声声场系统 |
TWI444989B (zh) * | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | 針對改良多通道上混使用多通道解相關之技術 |
JP5323210B2 (ja) * | 2010-09-30 | 2013-10-23 | パナソニック株式会社 | 音響再生装置および音響再生方法 |
KR101895656B1 (ko) * | 2012-03-22 | 2018-10-18 | 디락 리서치 에이비 | 지원 스피커의 변수 세트를 사용하는 오디오 사전 보상 제어기 설계 |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2830332A3 (en) | 2013-07-22 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration |
RU2019138260A (ru) * | 2015-06-24 | 2019-12-05 | Сони Корпорейшн | Устройство, способ и программа аудиообработки |
CN106604199B (zh) * | 2016-12-23 | 2018-09-18 | 湖南国科微电子股份有限公司 | 一种数字音频信号的矩阵处理方法及装置 |
US11019449B2 (en) * | 2018-10-06 | 2021-05-25 | Qualcomm Incorporated | Six degrees of freedom and three degrees of freedom backward compatibility |
CN113454715B (zh) * | 2018-12-07 | 2024-03-08 | 弗劳恩霍夫应用研究促进协会 | 使用一个或多个分量生成器产生声场描述的装置、方法 |
TWI740206B (zh) * | 2019-09-16 | 2021-09-21 | 宏碁股份有限公司 | 訊號量測的校正系統及其校正方法 |
CN114327040A (zh) * | 2021-11-25 | 2022-04-12 | 歌尔股份有限公司 | 振动信号生成方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5659619A (en) * | 1994-05-11 | 1997-08-19 | Aureal Semiconductor, Inc. | Three-dimensional virtual audio display employing reduced complexity imaging filters |
US6009179A (en) * | 1997-01-24 | 1999-12-28 | Sony Corporation | Method and apparatus for electronically embedding directional cues in two channels of sound |
US6072878A (en) * | 1997-09-24 | 2000-06-06 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics |
AUPP271598A0 (en) * | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Headtracked processing for headtracked playback of audio signals |
EP1054575A3 (en) * | 1999-05-17 | 2002-09-18 | Bose Corporation | Directional decoding |
-
2003
- 2003-08-06 MX MXPA05001413A patent/MXPA05001413A/es active IP Right Grant
- 2003-08-06 BR BRPI0305746-1A patent/BRPI0305746B1/pt unknown
- 2003-08-06 DK DK03770229T patent/DK1527655T3/da active
- 2003-08-06 BR BR0305746-1A patent/BR0305746A/pt active IP Right Grant
- 2003-08-06 CA CA2494454A patent/CA2494454C/en not_active Expired - Lifetime
- 2003-08-06 DE DE60308876T patent/DE60308876T2/de not_active Expired - Lifetime
- 2003-08-06 KR KR1020057002087A patent/KR100988293B1/ko active IP Right Grant
- 2003-08-06 MY MYPI20032976A patent/MY139849A/en unknown
- 2003-08-06 CN CN03817877XA patent/CN1672464B/zh not_active Expired - Lifetime
- 2003-08-06 AT AT03770229T patent/ATE341923T1/de active
- 2003-08-06 AU AU2003278704A patent/AU2003278704B2/en not_active Expired
- 2003-08-06 EP EP03770229A patent/EP1527655B1/en not_active Expired - Lifetime
- 2003-08-06 JP JP2004530877A patent/JP4434951B2/ja not_active Expired - Lifetime
- 2003-08-06 ES ES03770229T patent/ES2271654T3/es not_active Expired - Lifetime
- 2003-08-06 TW TW092121482A patent/TWI315828B/zh not_active IP Right Cessation
- 2003-08-06 PL PL03373120A patent/PL373120A1/xx unknown
-
2004
- 2004-12-22 IL IL165941A patent/IL165941A/en active IP Right Grant
-
2005
- 2005-08-01 HK HK05106538A patent/HK1073963A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
BR0305746A (pt) | 2004-12-07 |
AU2003278704B2 (en) | 2009-04-23 |
HK1073963A1 (en) | 2005-10-21 |
CA2494454A1 (en) | 2004-03-04 |
TWI315828B (en) | 2009-10-11 |
TW200404222A (en) | 2004-03-16 |
JP2005535266A (ja) | 2005-11-17 |
DE60308876D1 (de) | 2006-11-16 |
KR100988293B1 (ko) | 2010-10-18 |
CA2494454C (en) | 2013-10-01 |
DE60308876T2 (de) | 2007-03-01 |
DK1527655T3 (da) | 2007-01-29 |
ATE341923T1 (de) | 2006-10-15 |
JP4434951B2 (ja) | 2010-03-17 |
CN1672464B (zh) | 2010-07-28 |
IL165941A0 (en) | 2006-01-15 |
MY139849A (en) | 2009-11-30 |
PL373120A1 (en) | 2005-08-08 |
CN1672464A (zh) | 2005-09-21 |
EP1527655A2 (en) | 2005-05-04 |
BRPI0305746B1 (pt) | 2018-03-20 |
AU2003278704A1 (en) | 2004-03-11 |
EP1527655B1 (en) | 2006-10-04 |
KR20050035878A (ko) | 2005-04-19 |
MXPA05001413A (es) | 2005-06-06 |
IL165941A (en) | 2010-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2271654T3 (es) | Conversion espacial de canales de audio. | |
US11805379B2 (en) | Audio channel spatial translation | |
US7660424B2 (en) | Audio channel spatial translation | |
KR102629324B1 (ko) | 2d 셋업들을 이용하는 오디오 재생을 위해 앰비소닉스 오디오 음장 표현을 디코딩하기 위한 방법 및 장치 | |
US20080298610A1 (en) | Parameter Space Re-Panning for Spatial Audio | |
WO2004019656A2 (en) | Audio channel spatial translation | |
US11838738B2 (en) | Method and device for applying Dynamic Range Compression to a Higher Order Ambisonics signal | |
US20140219458A1 (en) | Audio signal reproduction device and audio signal reproduction method | |
US20240163626A1 (en) | Adaptive sound image width enhancement |