ES2687952T3 - Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa - Google Patents

Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa Download PDF

Info

Publication number
ES2687952T3
ES2687952T3 ES14748143.6T ES14748143T ES2687952T3 ES 2687952 T3 ES2687952 T3 ES 2687952T3 ES 14748143 T ES14748143 T ES 14748143T ES 2687952 T3 ES2687952 T3 ES 2687952T3
Authority
ES
Spain
Prior art keywords
audio signal
channels
matrix
input
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14748143.6T
Other languages
English (en)
Inventor
Simone Füg
Achim Kuntz
Michael Kratschmer
Juha Vilkamo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2687952T3 publication Critical patent/ES2687952T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

Un decodificador de procesamiento de señal de audio que tiene al menos una banda de frecuencia (36) y que está configurado para el procesamiento de una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36), caracterizado porque el decodificador (1) está configurado para alinear las fases de los canales de entrada (38) dependientes de las dependencias entre canales (39) entre los canales de entrada (38), en el que las fases de los canales de entrada (38) están más alineadas entre sí cuando más alta es la dependencia entre su canales (39); y someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida (40) que tiene un menor número de canales de salida (41) que el número de canales de entrada (38).

Description

5
10
15
20
25
30
35
40
45
50
55
60
Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa
DESCRIPCIÓN
La presente invención se refiere al procesamiento de señales de audio, y, en particular, a una reducción de fallas de filtro peine en una mezcla descendente de canales múltiples con alineación de fase adaptativo.
Varios formatos de sonido de canales múltiples se han empleado, desde el sonido envolvente 5.1 que es típico de las bandas sonoras de películas, a los más amplios formatos de sonido envolvente 3D. En algunos escenarios, es necesario para transmitir el contenido del sonido sobre un menor número de altavoces.
Además, en métodos de codificación de audio de bajo bitrate recientes, como se describe en J. Breebaart, S. van de Par, A. Kohlrausch, y E. Schuijers "Parametric coding of stereoaudio", EURASIP Journal on Applied Signal Processing, vol. 2005, pp 1305-1322, 2005 y J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier y KS Chong, " MPEG Surround-The ISO/MPEG standard for efficient and compatible multichannel audio coding", J. Audio Eng.. Soc., vol. 56, no. 11, pp. 932-955, 2008, el mayor número de canales se transmite como un conjunto de señales de mezcla descendente e información lateral espacial con la que se recupera una señal de canales múltiples con la configuración del canal original. Estos casos de uso motivan el desarrollo de métodos de mezcla descendente que preserven bien la calidad del sonido.
El método más simple de mezcla descendente es la suma de canales usando una matriz de mezcla descendente estática. Sin embargo, si los canales de entrada contienen sonidos que son coherentes, pero no alineados en el
tiempo, es probable que la señal de mezcla descendente alcance un sesgo espectral perceptible, tal como las
características de un filtro peine.
En J. Breebaart y C. Faller, "Spatial audio processing: MPEG Surround and other applications ", Wiley-Interscience, 2008, se describe un método de alineación de fase de dos señales de entrada, que ajusta las fases de los canales de entrada con base en los parámetros de diferencia de fase entre canales estimados (CIPD) en las bandas de frecuencia. La solución proporciona una funcionalidad básica similar como el método propuesto en este trabajo, pero no es aplicable para someter a mezcla descendente más de dos canales inter-dependientes.
En el documento WO 2012/006770, PCT/CN2010/075107 (Huawei, Faller, Lang, Xu) se describe un procesamiento de alineación de fase para un caso de canal dos a uno (estéreo a mono). El tratamiento no es directamente aplicable para audio de canales múltiples.
En Wu et al, "Parametric Stereo Coding Scheme with a new Downmix Method and whole Band Inter Channel Time/Phase Differences", Proceedings of the ICASSP, 2013, se describe un método que utiliza la diferencia de fase
toda la banda entre canales para una mezcla descendente estéreo. La fase de la señal mono se establece en la
diferencia de fase entre el canal izquierdo y la diferencia de fase global. Una vez más, el método sólo es aplicable para una mezcla descendente estéreo a mono. No pueden remezclarse a dos pistas más de dos canales interdependientes con este método.
También se conoce de acuerdo con el documento US2011/0255588A1 una técnica de codificación para señales de múltiples canales, que puede desplazar una fase de las señales de múltiples canales en base a una característica de las señales de múltiples canales. El objetivo de la presente invención es proporcionar conceptos mejorados para el procesamiento de señales de audio. El objetivo de la presente invención se resuelve por un codificador de acuerdo con la reivindicación 1, por un decodificador de procesamiento de señales de audio de acuerdo con la reivindicación 17, por sistemas de acuerdo con las reivindicaciones 18 a 26, por un método para procesar una señal de audio de entrada de acuerdo con la reivindicación 27 y por un programa de ordenador para implementar dicho método de acuerdo con la reivindicación 28. Se proporciona un decodificador de procesamiento de señal de audio que tiene al menos una banda de frecuencia y que está configurado para el procesamiento de una señal de audio de entrada que tiene una pluralidad de canales de entrada en la al menos una banda de frecuencia. El decodificador está configurado para alinear las fases de los canales de entrada dependientes de las dependencias entre canales entre los canales de entrada, donde las fases de los canales de entrada están más alineadas entre sí cuanto mayor es su dependencia entre canales. Además, el decodificador está configurado para someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida que tiene un menor número de canales de salida que el número de canales de entrada.
El principio de funcionamiento básico del decodificador es que los canales de entrada (coherentes) mutuamente dependientes de la señal de audio de entrada se atraen entre sí en términos de la fase en la banda de frecuencia específica, mientras que los canales de entrada de la señal de audio de entrada que son mutuamente independientes (incoherentes) no se ven afectados. El objetivo del decodificador propuesto es mejorar la calidad de mezcla descendente en relación con el enfoque de post-ecualización en condiciones críticas de cancelación de señal, al tiempo que proporciona el mismo rendimiento en condiciones no críticas.
5
10
15
20
25
30
35
40
45
50
55
60
Además, al menos algunas funciones del decodificador pueden ser transferidas al dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada. Esto puede proporcionar la posibilidad de reaccionar a las señales, donde un decodificador del estado de la técnica podría producir las fallas. Además, es posible actualizar las reglas de procesamiento de mezcla descendente sin cambiar el decodificador y asegurar una alta calidad de mezcla descendente. La transferencia de las funciones del decodificador se describe a continuación en más detalles.
En algunas realizaciones, el decodificador puede estar configurado para analizar la señal de audio de entrada en la banda de frecuencia, con el fin de identificar las dependencias entre canales entre los canales de audio de entrada. En este caso, el codificador que proporciona la señal de audio de entrada puede ser un codificador estándar dado que el análisis de la señal de audio de entrada se lleva a cabo por el propio decodificador.
En realizaciones, el decodificador puede estar configurado para recibir las dependencias entre canales entre los canales de entrada desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada. Esta versión permite configuraciones de renderizado flexibles en el decodificador, pero necesita más tráfico de datos adicional entre el codificador y el decodificador, por lo general en la corriente de bits que contiene la señal de entrada del decodificador.
En algunas realizaciones, el decodificador puede estar configurado para normalizar la energía de la señal de audio de salida con base en una energía determinada de la señal de audio de entrada, donde el decodificador está configurado para determinar la energía de señal de la señal de audio de entrada.
En algunas realizaciones, el decodificador puede estar configurado para normalizar la energía de la señal de audio de salida con base en una energía determinada de la señal de audio de entrada, donde el decodificador está configurado para recibir la energía determinada de la señal de audio de entrada desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada.
Mediante la determinación de la energía de señal de la señal de audio de entrada y por la normalización de la energía de la señal de audio de salida se puede asegurar que la energía de la señal de audio de salida tiene un nivel adecuado en comparación con otras bandas de frecuencia. Por ejemplo, la normalización puede hacerse de tal manera que la energía de cada señal de salida de audio de banda de frecuencia sea igual a la suma de las energías de señal de audio de entrada de banda de frecuencia multiplicada con los cuadrados de las ganancias de mezcla descendente correspondientes.
En varias realizaciones, el decodificador puede comprender un elemento de mezcla descendente para la mezcla
descendente de la señal de audio de entrada con base en una matriz de mezcla descendente, donde el
decodificador está configurado para calcular la matriz de mezcla descendente de tal manera que las fases de los canales de entrada estén alineadas sobre la base de las dependencias entre canales identificados. Las operaciones de matriz son una herramienta matemática para la resolución efectiva de problemas multidimensionales. Por lo tanto, el uso de una matriz de mezcla descendente proporciona un método flexible y fácil de mezcla descendente de la señal de audio de entrada a una señal de audio de salida que tiene un menor número de canales de salida que el número de canales de entrada de la señal de audio de entrada.
En algunas realizaciones, el decodificador comprende un elemento de mezcla descendente para la mezcla
descendente de la señal de audio de entrada con base en una matriz de mezcla descendente, donde el
decodificador está configurado para recibir una matriz de mezcla descendente calculada de tal manera que las fases de los canales de entrada estén alineadas sobre la base de la dependencias entre canales identificados de un dispositivo externo, como por ejemplo a partir de un codificador, que proporciona la señal de audio de entrada. En la presente, se reduce fuertemente la complejidad de procesamiento de la señal de audio de salida en el decodificador.
En realizaciones particulares el decodificador puede estar configurado para calcular la matriz de mezcla descendente de tal manera que la energía de la señal de audio de salida se normalice con base en la energía determinada de la señal de audio de entrada. En este caso la normalización de la energía de la señal de audio de salida se integra en el proceso de mezcla descendente, de manera que el procesamiento de la señal se simplifica.
En realizaciones, el decodificador puede estar configurado para recibir la matriz de mezcla descendente M calculada de tal manera que la energía de la señal de audio de salida se normalice con base en la energía determinada de la señal de audio de entrada desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada.
El paso del ecualizador de energía puede incluirse en el proceso de codificación o llevarse a cabo en el decodificador, porque es un paso de procesamiento claramente definido sin complicaciones.
En algunas realizaciones, el decodificador puede estar configurado para analizar los intervalos de tiempo de la señal de audio de entrada con una función de ventana, donde las dependencias entre canales se determinan para cada
5
10
15
20
25
30
35
40
45
50
55
60
marco de tiempo.
En realizaciones, el decodificador puede estar configurado para recibir un análisis de intervalos de tiempo de la señal de audio de entrada con una función de ventana, donde las dependencias entre canales se determinan para cada marco de tiempo, desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada.
El procesamiento puede, en ambos casos, realizarse con superposición de marcos, aunque otras opciones también están disponibles, como el uso de una ventana recursiva para estimar los parámetros relevantes. En principio, cualquier función de ventana puede ser elegida.
En algunas realizaciones, el decodificador está configurado para calcular una matriz de covarianza de valor, donde los valores de covarianza expresan la dependencia entre canales de un par de canales de audio de entrada. El cálculo de una matriz de valores de covarianza es una manera fácil de capturar las propiedades estocásticas de tiempo corto de la banda de frecuencia que pueden ser utilizados con el fin de determinar la coherencia de los canales de entrada de la señal de audio de entrada.
En realizaciones, el decodificador está configurado para recibir una matriz de covarianza de valor, donde los valores de covarianza expresan la dependencia entre canales de un par de entrada del canal de audio, desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada. En este caso, el cálculo de la matriz de covarianza puede ser transferido al codificador. Entonces, los valores de covarianza de la matriz de covarianza tienen que ser transmitidos en la corriente de bits entre el codificador y el decodificador. Esta versión permite configuraciones flexibles de renderización en el receptor, pero necesita datos adicionales en la señal de audio de salida.
En realizaciones preferidas, puede establecerse una matriz de valor de covarianza normalizada, donde la matriz de valor de covarianza normalizada se basa en la matriz de valor de covarianza. Por esta función, se puede simplificar el procesamiento posterior.
En algunas realizaciones, el decodificador puede estar configurado para establecer una matriz de valores de atracción mediante la aplicación de una función de mapeo a la matriz de valor de covarianza o a una matriz derivada de la matriz de valor de covarianza.
En algunas realizaciones, el gradiente de la función de mapeo puede ser mayor o igual a cero para todos los valores de covarianza o valores derivados de los valores de covarianza.
En realizaciones preferidas, la función de mapeo puede alcanzar valores entre cero y uno para los valores de entrada entre cero y uno.
En realizaciones, el decodificador puede estar configurado para recibir una matriz de valores de atracción A establecida mediante la aplicación de una función de mapeo a la matriz de valor de covarianza o a una matriz derivada de la matriz de valor de covarianza. Mediante la aplicación de una función no lineal a la matriz de valor de covarianza o a una matriz derivada de la matriz de valor de covarianza, tal como una matriz de covarianza normalizada, la alineación de fase se puede ajustar en ambos casos.
La matriz de valor de atracción de fase proporciona datos de control en la forma de coeficientes de atracción de fase que determina la atracción de fase entre los pares de canales. Los ajustes de fase derivados para cada figura de frecuencia de tiempo con base en la medición de la matriz de valor de covarianza de manera tal que los canales con valores bajos de covarianza no se afectan entre sí y que los canales con altos valores de covarianza son de fase se observaban con respecto a los otros.
En algunas realizaciones, la función de mapeo es una función no lineal.
En realizaciones, la función de mapeo es igual a cero para los valores de covarianza o valores derivados de los valores de covarianza siendo menor que un primer umbral de mapeo y/o donde la función de mapeo es igual a uno de los valores de covarianza o valores derivados de los valores de covarianza siendo mayor que un segundo umbral de mapeo. Por esta característica, la función de mapeo consiste en tres intervalos. Para todos los valores de covarianza o valores derivados de los valores de covarianza siendo menores que el primer umbral de mapeo, los coeficientes de atracción de fase se calculan a cero y, por lo tanto, no se ejecuta el ajuste de fase. Para todos los valores de covarianza o valores derivados de los valores de covarianza siendo mayores que el primer umbral de mapeo pero menores que el segundo umbral de mapeo, los coeficientes de atracción de fase se calculan a un valor entre cero y uno y, por lo tanto, se ejecuta un ajuste de fase parcial. Para todos los valores de covarianza o valores derivados de los valores de covarianza siendo mayores que el segundo umbral de mapeo los coeficientes de atracción de fase se calculan a uno y, por lo tanto, se realiza un ajuste de fase completa.
5
10
15
20
25
30
35
40
45
50
55
Un ejemplo está dado por la siguiente función de mapeo:
imagen1
Otro ejemplo preferido se da como:
imagen2
En algunas realizaciones, la función de mapeo puede ser representada por una función que forma una curva en forma de S.
En ciertas realizaciones, el decodificador está configurado para calcular una matriz de coeficiente de alineación de fase, donde la matriz de coeficiente de alineación de fase se basa en la matriz de valor de covarianza y en una matriz prototipo de mezcla descendente.
En realizaciones, el decodificador está configurado para recibir una matriz de coeficiente de alineación de fase, donde la matriz de coeficiente de alineación de fase se basa en la matriz de valor de covarianza y en una matriz prototipo de mezcla descendente, desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada.
La matriz de coeficiente de alineación de fase describe la cantidad de alineación de fase que se necesita para alinear los canales de atracción de “no cero” de la señal de audio de entrada.
La matriz de mezcla descendente prototipo define cuál de los canales de entrada se mezclan en cuál de los canales de salida. Los coeficientes de la matriz de mezcla descendente pueden ser factores de escalada para someter a mezcla descendente un canal de entrada a un canal de salida.
Es posible transferir el cálculo completo de la matriz de coeficientes de alineación de fase al codificador. La matriz de coeficiente de alineación de fase luego necesita ser transmitida en la señal de audio de entrada, pero sus elementos son a menudo cero y puede cuantificarse de una manera motivada. Dado que la matriz de coeficiente de alineación de fase es fuertemente dependiente de la matriz prototipo de mezcla descendente, esta matriz tiene que ser conocida en el lado del codificador. Esto restringe la configuración posible del canal de salida.
En algunas realizaciones las fases y/o las amplitudes de los coeficientes de mezcla descendente de la matriz de mezcla descendente están formuladas para ser regulares en el tiempo, de modo que se eviten las fallas temporales debido a la cancelación de señal entre los marcos de tiempo adyacentes. En la presente, "regulares en el tiempo" significa que no se producen cambios bruscos en el tiempo en los coeficientes de mezcla descendente. En particular, los coeficientes de mezcla descendente pueden cambiar con el tiempo de acuerdo con una función continua o casi continua.
En realizaciones, las fases y/o las amplitudes de los coeficientes de mezcla descendente de la matriz de mezcla descendente se formulan para ser regulares en la frecuencia, de modo que se eviten las fallas espectrales debido a la cancelación de señal entre las bandas de frecuencia adyacentes. En la presente, "regulares en la frecuencia" significa que no se producen cambios bruscos en la frecuencia para los coeficientes de mezcla descendente. En particular, los coeficientes de mezcla descendente pueden cambiar en la frecuencia de acuerdo con una función continua o casi continua.
En algunas realizaciones, el decodificador está configurado para calcular o para recibir una fase de matriz de coeficientes de alineación normalizada, donde la matriz de coeficiente de alineación de fase normalizada se basa en la matriz de coeficiente de alineación de fase. Por esta función, se puede simplificar el procesamiento posterior.
En realizaciones preferidas, el decodificador está configurado para establecer una matriz de coeficiente de alineación de fase regularizada con base en la matriz de coeficiente de alineación de fase.
En realizaciones, el decodificador está configurado para recibir una matriz de coeficiente de alineación de fase regularizada con base en la fase de matriz de coeficientes de alineación desde un dispositivo externo, tal como un codificador, que proporciona la señal de audio de entrada.
5
10
15
20
25
30
35
40
45
50
55
60
El enfoque de someter a mezcla descendente propuesto proporciona una regularización efectiva en la condición crítica de las señales de fase opuesta, donde el procesamiento de alineación de fase puede cambiar abruptamente su polaridad.
El paso de regularización adicional se define para reducir las cancelaciones en las regiones transitorias entre marcos adyacentes debido a los cambios de fase abruptos de los coeficientes de ajuste. Esta regularización y la omisión de cambios bruscos de fase entre las figuras de frecuencia de tiempo adyacentes es una ventaja de este proceso de mezcla descendente propuesto. Esta reduce las fallas no deseadas que pueden ocurrir cuando la fase salta entre figuras de frecuencia de tiempo adyacentes o cuando aparecen muescas entre las bandas de frecuencias adyacentes.
Una matriz de mezcla descendente de alineación de fase regularizada se obtiene mediante la aplicación de coeficientes de regularización de fase Qi,j a la matriz de alineación de fase normalizada.
Los coeficientes de regularización pueden calcularse en un bucle de procesamiento sobre cada figura de tiempo- frecuencia. La regularización se puede aplicar de forma recursiva en dirección de tiempo y frecuencia. La diferencia de fase entre segmentos de tiempo adyacentes y bandas de frecuencia se toma en cuenta y se pesan por los valores de atracción resultantes en una matriz pesada. A partir de esta matriz, los coeficientes de regularización se pueden derivar como se discute a continuación en más detalle.
En realizaciones preferidas, la matriz de mezcla descendente se basa en la matriz de coeficiente de alineación de fase regularizada. De esta manera se asegura que los coeficientes de mezcla descendente de la matriz de mezcla descendente sean regulares en tiempo y frecuencia.
Además, un codificador de procesamiento de señal de audio que tiene al menos una banda de frecuencia y que está configurado para el procesamiento de una señal de audio de entrada que tiene una pluralidad de canales de entrada en la al menos una banda de frecuencia, donde el codificador está configurado
para alinear las fases de los canales de entrada dependientes de las dependencias entre canales entre los canales de entrada, donde las fases de los canales de entrada están más alineadas con respecto a las otras cuanto mayor es su dependencia entre canales; y
someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida que tiene un menor número de canales de salida que el número de canales de entrada.
El codificador de procesamiento de señales de audio puede estar configurado de manera similar al decodificador de procesamiento de señales de audio discutido en esta solicitud. También se divulga, aunque no está de acuerdo con la invención como se reivindica, un codificador de procesamiento de señales de audio que tiene al menos una banda de frecuencia y que está configurado para dar salida a una corriente de bits, donde la corriente de bits contiene una señal de audio codificada en la banda de frecuencia, donde la señal de audio codificada tiene una pluralidad de canales codificados en el al menos una banda de frecuencia, donde el codificador está configurado para determinar las dependencias entre canales entre los canales codificados de la señal de audio de entrada y dar salida a las dependencias entre canales dentro de la corriente de bits; y/o
para determinar la energía de la señal de audio codificada y dar salida a la energía determinada de la señal de audio codificada dentro de la corriente de bits; y/o
para calcular una matriz de mezcla descendente M para un elemento de mezcla descendente para someter a mezcla descendente la señal de audio de entrada con base en la matriz de mezcla descendente de tal manera que las fases de los canales codificados están alineadas sobre la base de las dependencias entre canales identificados, preferiblemente de tal manera que la energía de una señal de audio de salida del elemento de mezcla descendente se normalice con base en la energía determinada de la señal de audio codificada y transmitir la matriz de mezcla descendente M dentro de la corriente de bits, donde, en particular, los coeficientes de mezcla descendente de la matriz de mezcla descendente están formulados para ser regulares en el tiempo, de modo que se evitan los las fallas temporales debido a la cancelación de la señal entre los marcos de tiempo adyacentes y/o donde, en particular, se formulan coeficientes de mezcla descendente de la matriz de mezcla descendente que sean suaves en la frecuencia, de modo que se eviten los las fallas espectrales debido a la cancelación de señal entre las bandas de frecuencia adyacentes; y/o
para analizar intervalos de tiempo de la señal de audio codificada usando una función de ventana, donde las dependencias entre canales se determinan para cada marco de tiempo y para dar salida a las dependencias entre canales para cada marco de tiempo dentro de la corriente de bits; y/o
para calcular una matriz de valor de covarianza, donde los valores de covarianza expresan la dependencia entre canales de un par de canales de audio codificados y para dar salida a la matriz de valor de covarianza dentro de la corriente de bits; y/o
para establecer una matriz de valor de atracción mediante la aplicación de una función de mapeo, donde el gradiente de la función de mapeo es preferiblemente mayor o igual a cero para todos los valores de covarianza o valores derivados de los valores de covarianza y donde la función de mapeo alcanza preferiblemente valores entre cero y uno para valores de entrada entre cero y uno, en particular, una función no lineal, en particular, una función
5
10
15
20
25
30
35
40
45
50
55
60
de mapeo, que es igual a cero para los valores de covarianza siendo menor que un primer umbral de mapeo y/o que es igual a uno para los valores de covarianza siendo mayor que un segundo umbral de mapeo y/o que está representado por una función que forma una curva en forma de S, a la matriz de valor de covarianza o a una matriz derivada de la matriz de covarianza y el valor de salida de la matriz de valor de atracción en la corriente de bits; y/o para calcular una matriz de coeficiente de alineación de fase, donde la matriz de coeficiente de alineación de fase se basa en la matriz del valor de covarianza y en una matriz prototipo de mezcla descendente, y/o para establecer una matriz de coeficiente de alineación de fase regularizada con base en la matriz de coeficiente de alineación de fase V y dar salida a la matriz de coeficiente de alineación fase regularizada dentro de la corriente de bits.
La corriente de bits de tales codificadores puede ser transmitida a y decodificada por un decodificador tal como se describe en el presente documento. Para más detalles véanse las explicaciones referentes al decodificador.
También se proporciona un sistema que comprende un decodificador de procesamiento de señales de audio de acuerdo con la invención y un codificador de procesamiento de señales de audio de acuerdo con la invención.
Además, se proporciona un método para procesar una señal de audio de entrada que tiene una pluralidad de canales de entrada en una banda de frecuencia, comprendiendo el método los pasos de: analizar la señal de audio de entrada en la banda de frecuencia, donde las dependencias entre canales entre los canales de audio de entrada se identifican; alinear las fases de los canales de entrada sobre la base de las dependencias entre canales identificados, donde las fases de los canales de entrada están más alineadas entre sí cuanto mayor es su dependencia entre canales; y someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida que tiene un menor número de canales de salida que el número de canales de entrada en la banda de frecuencia.
Además, se proporciona un programa de ordenador para implementar el método mencionado anteriormente cuando se ejecuta en un renderizador de ordenador o señal.
A continuación, las realizaciones de la presente invención se describen con más detalle con referencia a las figuras, donde:
La Fig. 1 muestra un diagrama de bloques de una mezcla descendente de alineación de fase adaptativa propuesta,
La Fig. 2 muestra el principio de funcionamiento del método propuesto,
La Fig. 3 describe los pasos de procesamiento para el cálculo de una matriz de mezcla descendente M,
La Fig. 4 muestra una fórmula, que se puede aplicar a una matriz de covarianza normalizada C' para el cálculo
de una matriz de valores de atracción A,
La Fig. 5 muestra un diagrama de bloques esquemático de una visión general conceptual de un codificador de audio 3D,
La Fig. 6 muestra un diagrama de bloques esquemático de una visión general conceptual de un decodificador de audio-3D,
La Fig. 7 muestra un diagrama de bloques esquemático de una visión conceptual de un conversor de formatos,
La Fig. 8 muestra un ejemplo del procesamiento de una señal original que tiene dos canales en el tiempo,
La Fig. 9 muestra un ejemplo del transformamiento de una señal original que tiene dos canales de frecuencia y
La Fig. 10 ilustra un banco de filtros híbrido de banda 77.
Antes de describir las realizaciones de la presente invención, se proporcionan más antecedentes sobre los sistemas
de codificador-decodificador del estado de la técnica.
La Fig. 5 muestra un diagrama de bloques esquemático de una visión general conceptual de un codificador de audio 3D 1, mientras que la Fig. 6 muestra un diagrama de bloques esquemático de una visión general conceptual de un decodificador de audio 3D 2.
Los Sistemas 3D Audio Códec 1, 2 pueden basarse en un discurso unificado MPEG-D y el codificador de codificación de audio (USAC) 3 para la codificación de señales de los canales 4 y las señales de los objetos 5 así
5
10
15
20
25
30
35
40
45
50
55
60
como sobre la base de un discurso unificado MPEG-D y la codificación de audio (USAC) del decodificador 6 para la decodificación de la señal de audio de salida 7 del codificador 3.
La corriente de bits 7 puede contener una señal de audio codificada 37 que se refiere a una banda de frecuencia del codificador 1, donde la señal de audio codificada 37 tiene una pluralidad de canales codificados 38. La señal codificada 37 puede ser alimentada a una banda de frecuencia 36 (véase la fig. 1) del decodificador 2 como una señal de audio de entrada 37.
Para aumentar la eficiencia de codificación de una gran cantidad de objetos 5, se ha adaptado la tecnología de codificación espacial de objetos de audio (SAOC). Tres tipos de renderizadores 8, 9, 10 realizan las tareas de
renderización de objetos 11, 12 a los canales 13, canales de renderización 13 a los auriculares o canales de
renderización a una configuración de altavoces diferente.
Cuando las señales de objetos se transmiten de manera explícita o se codifican paramétricamente utilizando SAOC, la información de Metadatos del Objeto (OAM) 14 correspondiente se comprime y multiplexa en la corriente de bits de audio 3D 7.
El prerenderizador/mezclador 15 puede utilizarse opcionalmente para convertir una escena de entrada de canal-y- objeto, 4, 5 en una escena de canal 4, 16 antes de la codificación. Funcionalmente es idéntico al
renderizador/mezclador de objetos 15 descripto a continuación.
La prerenderización de objetos 5 asegura la entropía de la señal determinística en la entrada del codificador 3 que es básicamente independiente del número de señales de objetos simultáneamente activos 5. Con la
prerenderización de objetos 5, no se requiere la transmisión de metadatos del objeto 14.
Señales de objetos discretos 5 se renderizan en el diseño del canal que el codificador 3 está configurado para utilizar. Los pesos de los objetos 5 para cada canal 16 se obtienen a partir de los metadatos de objeto asociados 14.
El codificador de núcleo para las señales de altavoz de canal 4, señales de objetos discretos 5, señales de mezcla descendente de objetos 14 y señales prerenderizadas 16 puede estar basado en la tecnología MPEG-D USAC. Esta se ocupa de la codificación de la multitud de señales 4, 5, 14 mediante la creación de información de mapeo de canales y objetos con base en la información geométrica y semántica de la asignación de canales y objetos de entrada. Esta información de mapeo describe cómo los canales 4 y objetos 5 se mapean a elementos USAC-canal, es decir, a los elementos de par de canales (CPE), elementos de un solo canal (CPE), efectos de baja frecuencia (LFE), y la información correspondiente se transmite al decodificador 6.
Todas las cargas adicionales como datos SAOC 17 o metadatos de objetos 14 pueden pasar a través de elementos de extensión y pueden ser considerados en el control de frecuencia del codificador 3.
La codificación de objetos 5 es posible de diferentes maneras, dependiendo de los requisitos de tasa/distorsión y los requisitos de interactividad para el renderizador. Las siguientes variantes de codificación de objetos son posibles:
- Objetos prerenderizados 16: Señales de objetos 5 son prerenderizados y mezclados a las señales de canal 4, por ejemplo, a 22.2 señales de canales 4, antes de la codificación. La cadena de codificación posterior ve 22.2 señales de canal 4.
- Formas de onda de objetos discretos: Objetos 5 se suministran en forma de ondas monofónicas al codificador 3. El codificador 3 utiliza elementos de un solo canal (SCE) para transmitir los objetos 5, además de las señales de canal 4. Los objetos decodificados 18 se renderizan y se mezclan en el lado del receptor. La información de metadatos de objetos comprimidos 19, 20 se transmite junto al receptor/renderizador 21.
- Formas de onda de objetos paramétricos 17: Se describen las propiedades de los objetos y su relación entre sí, mediante parámetros SAOC 22, 23 La mezcla descendente de las señales de objetos 17 se codifica con USAC. La información paramétrica 22 se transmite a lo largo. Se elige el número de canales de mezcla descendente 17 dependiendo del número de objetos 5 y la velocidad de datos global. La información de metadatos de objetos comprimidos 23 se transmite al renderizador SAOC 24.
El codificador SAOC y 25 el decodificador 24 para las señales de objeto 5 se basan en la tecnología MPEG SAOC. El sistema es capaz de recrear, modificar y renderizar una serie de objetos de audio 5 con base en un número menor de canales transmitidos 7 y datos paramétricos adicionales 22, 23, tales como las diferencias de nivel de objeto (OLD), las correlaciones entre objetos (IOC) y los valores de ganancia de mezcla descendente (DMG). Los datos paramétricos adicionales 22, 23 presentan una velocidad de datos significativamente más baja que la requerida para la transmisión de todos los objetos 5 de forma individual, tornando la codificación muy eficiente.
El codificador SAOC 25 toma como entrada las señales de objeto/canal 5 como formas de onda monofónicas y da
5
10
15
20
25
30
35
40
45
50
55
60
salida a la información paramétrica 22 (que se empaqueta en la corriente de bits de audio 3D 7) y los canales de transporte SAOC 17 (que son codificados utilizando elementos individuales de canal y transmitidos). El decodificador SAOC 24 reconstruye las señales objeto/canal 5 de los canales de transporte SAOC decodificados 26 y la información paramétrica 23, y genera el escenario de salida de audio 27 con base en el diseño de la reproducción, la información de metadatos de objeto descomprimido 20 y, opcionalmente, en la información de interacción del usuario.
Para cada objeto 5, los metadatos de objeto asociado 14 que especifican la posición geométrica y el volumen del objeto en el espacio 3D se codifican de manera eficiente por un codificador de metadatos de objeto 28 mediante la cuantificación de las propiedades de los objetos en tiempo y espacio. Los metadatos de objeto comprimido (cOAM) 19 se transmiten al receptor como información lateral 20 que puede decodificadarse por un Decodificador OAM 29.
El renderizador de objetos 21 utiliza los metadatos de objeto comprimido 20 para generar formas de onda de objeto 12 de acuerdo con el formato de reproducción dado. Cada objeto 5 se renderiza en ciertos canales de salida 12 de acuerdo con sus metadatos 19, 20. La salida de este bloque de 21 resulta de la suma de los resultados parciales. Si tanto el contenido basado en el canal 11, 30, así como también los objetos discretos/paramétricos 12, 27 se decodifican, las formas de onda basadas en el canal 11, 30 y las formas de onda de objeto renderizado 12, 27 se mezclan antes de dar salida a las formas de onda resultantes 13 (o antes de ser alimentadas a un módulo postprocesador 9, 10 como el renderizador binaural 9 o el módulo de renderizador de altavoz 10) mediante un mezclador 8.
El módulo de renderizador binaural 9 produce una mezcla descendente binaural del material de audio de múltiples canales 13, de tal manera que cada canal de entrada 13 esté representado por una fuente de sonido virtual. El procesamiento se realiza en base a marcos en un dominio de filtro de espejo en cuadratura (QMF). La binauralización se basa en las respuestas de impulso a ambiente binaural medidas.
El renderizador de altavoz 10 mostrado en la Fig. 7 en más detalle convierte entre la configuración del canal transmitido 13 y el formato de reproducción deseado 31. Por lo tanto, se denomina “convertidor de formato” 10 a continuación. El convertidor de formato de 10 realiza conversiones para reducir el número de canales de salida 31, es decir, que crea la mezcla descendente por un elemento de mezcla descendente 32. El configurador DMX 33 genera automáticamente matrices de mezcla descendente optimizadas para la combinación dada de formatos de entrada 13 y formatos de salida 31 y aplica estas matrices en un proceso de mezcla descendente 32, donde se utiliza un diseño de salida de mezclador 34 y un diseño de reproducción 35. El convertidor de formato 10 permite configuraciones de altavoces estándar, así como configuraciones aleatorias con posiciones de altavoces no estándar.
La Fig. 1 muestra un dispositivo de procesamiento de señal de audio que tiene al menos una banda de frecuencia 36 y que está configurado para el procesamiento de una señal de audio de entrada 37 que tiene una pluralidad de canales de entrada 38 en la al menos una banda de frecuencias 36, donde el dispositivo está configurado para analizar la señal de audio de entrada 37, donde se identifican las dependencias entre canales 39 entre los canales de entrada 38; y
para alinear las fases de los canales de entrada 38 sobre la base de las dependencias entre canales identificados 39, donde las fases de entrada de los canales 38 están más alineadas entre sí cuanto mayor es su dependencia entre canales 39; y
someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida 40 que tiene un menor número de canales de salida 41 que el número de canales de entrada 38.
El dispositivo de procesamiento de señal de audio puede ser un codificador 1 o un decodificador, ya que la invención es aplicable tanto para codificadores 1 como para decodificadores.
El método de mezcla descendente propuesto, presentado como un diagrama de bloques en la Fig. 1, está diseñado con los siguientes principios:
1. Los ajustes de fase se derivan para cada figura de frecuencia de tiempo sobre la base de la matriz de covarianza de la señal medida C de manera que los canales con bajo Cu no se afecten entre sí, y los canales con alto Cj sean de fase cerrada con respecto al otro.
2. Los ajustes de fase están regularizados en tiempo y frecuencia para evitar las fallas de cancelación de señal debido a las diferencias de ajuste de fase en las áreas de superposición de las figuras de tiempo-frecuencia adyacentes.
3. Las ganancias de la matriz de mezcla descendente se ajustan para que la mezcla descendente preserve la energía.
5
10
15
20
25
30
35
40
45
50
55
60
El principio de funcionamiento básico del codificador 1 es que los canales de entrada (coherentes) mutuamente dependientes 38 de la señal de audio de entrada se atraen entre sí en términos de la fase en la banda de frecuencia específica 36, mientras que aquellos canales de entrada 38 de la señal de audio de entrada 37 que son mutuamente independientes (incoherentes) no se ven afectados. El objetivo del codificador 1 propuesto es mejorar la calidad de mezcla descendente con relación al enfoque de post-ecualización en condiciones críticas de cancelación de señal, al tiempo que proporciona el mismo rendimiento en condiciones no críticas.
Se propone un enfoque adaptativo de mezcla descendente dado que las dependencias entre canales 39 típicamente no se conocen a priori.
El enfoque directo para revivir el espectro de la señal es aplicar un ecualizador adaptativo 42 que atenúa o amplifica la señal en bandas de frecuencia 36. Sin embargo, si hay una muesca de frecuencia que es mucho más agudo que la resolución transformada de frecuencia aplicada, es razonable esperar que tal enfoque no pueda recuperar la señal 41 sólidamente. Este problema se resuelve por el preprocesamiento de las fases de la señal de entrada 37 antes de la mezcla descendente, con el fin de evitar tales muescas de frecuencia en el primer lugar.
Se discute a continuación una realización de acuerdo con la invención de un método para someter a mezcla descendente dos o más canales 38 a un menor número de canales 41 de forma adaptativa en las bandas de frecuencia 36, por ejemplo, en las denominadas figuras de tiempo-frecuencia. El método comprende las siguientes características:
- Análisis de energías de señal y dependencias entre canales 39 (contenidos por la matriz de covarianza C) en las bandas de frecuencia 36.
- Ajuste de las fases de las señales de canales de entrada de banda de frecuencia 38 antes de la mezcla descendente de modo que se reduzcan los efectos de cancelación de la señal en la mezcla descendente y/o se incremente la suma de la señal coherente.
- Ajustes de las fases de tal manera que un par o grupo de canales que tiene alta interdependencia (pero desplazamiento de fase potencial) estén más alineadas una con respecto a la otra, mientras que los canales que son menos interdependientes (también con un desplazamiento de fase potencial) estén menos o no estén alineados en fase entre sí.
A
- Los coeficientes de ajuste de fase A-:' están (opcionalmente) formulados para ser regulares en tiempo, para evitar las fallas temporales debido a la cancelación de la señal entre los marcos de tiempo adyacentes.
A
- Los coeficientes de ajuste de fase M están (opcionalmente) formulados para ser regulares en frecuencia, para evitar las fallas espectrales debido a la cancelación de la señal entre las bandas de frecuencia adyacentes.
- Las energías de las señales de canales de mezcla descendente de banda de frecuencias 41 están normalizadas, por ejemplo, de manera tal que la energía de cada banda de frecuencia de señal de mezcla descendente 41 sea igual a la suma de las energías de señal de entrada de banda de frecuencia 38 multiplicada con los cuadrados de las ganancias de mezcla descendente correspondientes.
Además, el enfoque de mezcla descendente propuesto proporciona regularización efectiva en la condición crítica de las señales de fase opuesta, donde el procesamiento de alineación de fase puede cambiar abruptamente su polaridad.
La descripción matemática posteriormente proporcionada del elemento de mezcla descendente es una realización práctica de lo anterior. Para un ingeniero experto en la materia, es muy posible formular otra realización específica que tenga las características de acuerdo con la descripción anterior.
El principio de funcionamiento básico del método, ilustrado en la Fig. 2, es que las señales mutuamente coherentes SC1, SC2, SC3 se atraen entre sí en términos de la fase en las bandas de frecuencia 36, mientras que aquellas señales SI1 que son incoherentes no se ven afectadas. El objetivo del método propuesto es simplemente mejorar la calidad de mezcla descendente con relación al enfoque de post-ecualización en las condiciones críticas de cancelación de la señal, proporcionando a la vez el mismo rendimiento en la condición no crítica.
El método propuesto se diseñó para formular en bandas de frecuencia 36 de forma adaptativa una matriz de mezcla descendente de alineación de fase y ecualización de energía M, con base en las propiedades estocásticas de tiempo corto de la señal de banda de frecuencia 37 y una matriz prototipo de mezcla descendente estática Q. En particular, el método está configurado para aplicar la alineación de fase mutuamente sólo a aquellos canales SC1, SC2, SC3 que sean interdependientes.
5
10
15
20
25
30
35
40
45
50
55
60
El curso general de acción se ilustra en la Fig. 1. El procesamiento se realiza en marcos superpuestos, aunque otras opciones también están fácilmente disponibles, tales como el uso de una ventana recursiva para la estimación de los parámetros relevantes.
Para cada marco de la señal de entrada de audio 43, una matriz de mezcla descendente de alineación de fase M, que contiene los coeficientes de mezcla descendente de alineación de fase, se define dependiendo de los datos estocásticos del marco de la señal de entrada 43 y una matriz prototipo de mezcla descendente que define qué canal de entrada 38 se mezcla descendente en qué canal de salida 41. Los marcos de señal 43 son creados en una etapa de ventanas 44. Los datos estocásticos están contenidos en la matriz de covarianza valuada por el complejo C de la señal de entrada 37 estimada a partir del marco de señal 43 (o por ejemplo, utilizando una ventana recursiva) en una etapa de estimación 45. A partir de la matriz de covarianza valuada por el complejo C se deriva una matriz de
A
ajuste de fase M en una etapa 46 denominada formulación de coeficientes de mezcla descendente de alineación de fase.
Dejar que el número de canales de entrada sea Nx y el número de canales de mezcla descendente sea Ny < Nx. La matriz prototipo de mezcla descendente Q y la mat riz prototipo de mezcla descendente M son típicamente escasas y de dimensión Ny X Nx. La matriz de mezcla descendente de alineación de fase M varía típicamente como una función de tiempo y frecuencia.
La solución de mezcla descendente de alineación de fase reduce la cancelación de la señal entre los canales, pero puede introducir cancelación en la región de transición entre las figuras de tiempo-frecuencia adyacentes, si el coeficiente de ajuste de fase cambia bruscamente. El cambio de fase abrupto con el tiempo se puede producir cuando se remezclan a dos pistas señales de entrada de fase casi opuesta, pero varía al menos ligeramente en amplitud o fase. En este caso, la polaridad de la alineación de fase puede cambiar rápidamente, incluso si las propias señales sean razonablemente estables. Este efecto puede ocurrir por ejemplo cuando la frecuencia de un componente de señal tonal coincide con la diferencia de tiempo entre canales, que a su vez puede originarse por ejemplo a partir de la utilización de las técnicas de grabación de micrófono espaciado o de los efectos de audio basados en retardo.
En el eje de la frecuencia, el cambio de fase abrupto entre las figuras puede ocurrir, por ejemplo, cuando se remezclan a dos pistas dos señales de banda ancha coherentes, pero con retrasos diferentes. Las diferencias de fase se hacen más grandes hacia las bandas más altas, y el envolvimiento en ciertos bordes de banda de frecuencia puede causar una muesca en la región de transición.
Preferiblemente, los coeficientes de ajuste de fase en M se regularizarán en una etapa posterior para evitar las fallas de procesamiento debido a cambios de fase repentinos, ya sea en tiempo, o frecuencia, o ambos. De esa
manera se puede obtener una matriz regularizada ^ Si la regularización 47 se omite, puede haber las fallas de cancelación de señal debido a las diferencias de ajuste de fase en las áreas de superposición de los marcos de tiempo adyacentes, y/o bandas de frecuencia adyacentes.
La normalización de la energía 48 asegura entonces de forma adaptativa un nivel motivado de energía en la señal de mezcla descendente 40. Los marcos de señal procesada 43 se añaden por superposición en una etapa de superposición 49 a la corriente de datos de salida 40. Téngase en cuenta que hay muchas variaciones disponibles en el diseño de este tipo de estructuras de procesamiento de tiempo y frecuencia. Es posible obtener un procesamiento similar con un orden diferente de los bloques de procesamiento de señales. También, algunos de los bloques se pueden combinar en una etapa de procesamiento único. Además, el enfoque para procesamiento de ventanas 44 o bloques puede reformularse en varias maneras, logrando características de procesamiento similares.
Las diferentes etapas de la mezcla descendente de alineación de fase se representan en la Fig. 3. Después de tres etapas de procesamiento general se obtiene una matriz de mezcla descendente M, que se utiliza para someter a mezcla descendente la señal de entrada de audio de canales múltiples original 37 a un número de canal diferente.
La descripción detallada de las diversas subetapas que se necesitan para calcular la matriz M se describen a continuación.
El método de mezcla descendente de acuerdo con una realización de la invención puede implementarse en un dominio QMF de 64 bandas. Puede aplicarse un banco de filtro QMF uniforme modulado por compleja de 64 bandas.
A partir de la señal de audio de entrada x (que es equivalente a la señal de audio de entrada 38) en el dominio de tiempo-frecuencia, se calcula una matriz de covarianza valuada por complejo C como matriz C=E{x xH} donde E{} es el operador esperado y xH es la transposición conjugada de x. En la aplicación práctica, el operador esperado se
5
10
15
20
25
30
35
40
45
50
55
sustituye por un operador medio sobre varias muestras de tiempo y/o frecuencia.
El valor absoluto de esta matriz C luego se normaliza en una etapa de normalización de covarianza 50 de tal manera que contenga los valores entre 0 y 1 (los elementos se denominan c' ij y la matriz se denomina C'. Estos valores expresan la porción de la energía de sonido que es coherente entre los diferentes pares de canales, pero puede tener un desplazamiento de fase. En otras palabras, las señales en fase, fuera de fase, y de fase invertida producen el valor normalizado 1, mientras que las señales incoherentes producen el valor 0.
Estas se transforman en una etapa de cálculo del valor de atracción 51 en datos de control (matriz de valores de atracción A) que representan la atracción de fase entre los pares de canales por una función de mapeo f (c' ¡,j) que se aplica a todas las entradas de la matriz de covarianza absoluta normalizada M'. Aquí, puede utilizarse la fórmula
a¡j = max (o,m¿n(l, 3c'¿;- - l))
(véase la función de mapeo en la Fig. 4).
En esta realización, la función de mapeo f(c' ¡j es igual a cero para los valores de covarianza normalizados c' í,¡ siendo menor que un primer umbral de mapeo 54 y/o donde la función de mapeo f(c' ¡,j) es igual a uno para los valores de covarianza normalizados c' ¡,j siendo mayor que un segundo umbral de mapeo 55. Por esta característica, la función de mapeo consiste en tres intervalos. Para todos los valores de covarianza normalizados c' ¡,j siendo menores que el primer umbral de mapeo 54 los coeficientes de atracción de fase a¡,j se calculan a cero y, por lo tanto, no se ejecuta el ajuste de fase. Para todos los valores de covarianza normalizados siendo mayor que el primer umbral de mapeo 54 pero menor que el segundo umbral de mapeo 55 los coeficientes de atracción de fase se calculan a un valor entre cero y uno y, por lo tanto, se ejecuta un ajuste de fase parcial. Para todos los valores de covarianza normalizados c' í,¡ siendo mayor que el segundo umbral de mapeo 55 los coeficientes de atracción de fase se calculan a uno y, por lo tanto, se realiza un ajuste de fase completa.
A partir de estos valores de atracción, se calculan los coeficientes de alineación de fase v¡,j. Estos describen la cantidad de alineación de fase que se necesita para alinear los canales de atracción de “no cero” de la señal x.
imagen3
imagen4
con siendo una matriz diagonal con los elementos de
coeficiente de alineación de fase V.
en su diagonal. El resultado es una matriz de
Los coeficientes v¡,¡ luego se normalizan en una etapa de normalización de matriz de coeficiente de alineación de fase 52 a la magnitud de la matriz de mezcla descendente Q resultante en una matriz de mezcla descendente de
A
alineación de fase normalizada ^ con los elementos
imagen5
La ventaja de este proceso de mezcla descendente es que los canales 38 con baja atracción no se afectan entre sí, debido a que los ajustes de fase se derivan de la matriz de covarianza de señal medida C. Los canales 38 con alta atracción son de fase cerrada con uno respecto al otro. La fuerza de la modificación de fase depende de las propiedades de correlación.
La solución de la mezcla descendente de alineación de fase reduce la cancelación de la señal entre los canales, pero puede introducir cancelación en la región de transición entre las figuras de tiempo-frecuencia adyacentes, si el coeficiente de ajuste de fase cambia bruscamente. El cambio de fase abrupto en el tiempo puede ocurrir cuando se remezclan a dos pistas las señales de entrada de fase opuesta, pero varia al menos ligeramente en amplitud o fase. En este caso, la polaridad de la alineación de fase puede cambiar rápidamente.
Se define una etapa de regularización adicional 47 que reduce las cancelaciones en las regiones transitorias entre marcos adyacentes debido a los cambios abruptos de los coeficientes de ajuste de fase v¡,j. Esta regularización y la omisión de los cambios de fase bruscos entre marcos de audio es una ventaja de este proceso de mezcla
5
10
15
20
25
30
35
40
45
descendente propuesto. Este reduce las fallas no deseadas que pueden ocurrir cuando la fase salta entre marcos de audio adyacentes o muescas entre las bandas de frecuencias adyacentes.
Hay varias opciones para llevar a cabo la regularización para evitar grandes cambios de fase entre las figuras de tiempo-frecuencia adyacentes. En una realización, se utiliza un método de regularización simple, descrito en detalle a continuación. En el método, un bucle de procesamiento puede estar configurado para ejecutarse en cada figura en tiempo en forma secuencial a partir de la figura de frecuencia más baja a la más alta, y la regularización de fase puede aplicarse de forma recursiva con respecto a las figuras anteriores en tiempo y frecuencia.
El efecto práctico del proceso diseñado, descripto a continuación, se ilustra en las Figuras 8 y 9. La Figura 8 muestra un ejemplo de una señal original 37 que tiene dos canales 38 en tiempo. Entre los dos canales 38 existe una diferencia de fase entre canales que aumenta lentamente (IPD) 56. El cambio de fase repentino de +n a -n da lugar a un cambio abrupto del ajuste de fase no regularizado 57 del primer canal 38 y del ajuste de fase no regularizado 58 del segundo canal 38.
Sin embargo, el ajuste de fase regularizada 59 del primer canal 38 y el ajuste de fase regularizada 60 del segundo canal 38 no muestran cambios abruptos.
La Figura 9 muestra un ejemplo de una señal original 37 que tiene dos canales 38. Además, se muestra el espectro original 61 de un canal 38 de la señal 37. El espectro de mezcla descendente no alineado (espectro de mezcla descendente pasivo) 62 muestra los efectos de filtro peine. Estos efectos de filtro peine se reducen en el espectro de mezcla descendente no regularizado 63. Sin embargo, tales efectos de filtro peine no son perceptibles en el espectro de mezcla descendente regularizado 64.
Una matriz de mezcla descendente de alineación de fase regularizada Mpuede obtenerse mediante la aplicación de
A
coeficientes de regularización de fase 8¡ja la matriz M
Los coeficientes de regularización se calculan en un bucle de procesamiento sobre cada marco de tiempo- frecuencia. La regularización 47 se aplica de forma recursiva en la dirección de tiempo y frecuencia. La diferencia de fase entre segmentos de tiempo adyacentes y bandas de frecuencia se toma en cuenta y son pesados por los valores de atracción resultantes en una matriz pesada MdA. A partir de esta matriz, se derivan los coeficientes de regularización:
imagen6
Los desplazamientos de fase constante se evitan mediante la aplicación de la regularización a desaparecer a cero n
2 *
por una etapa entre 0 y que es dependiente de la energía de señal relativa:
8U = sign(@¡j) • max(o, ||0W|| - 6)d¡ff¡.)
con
imagen7
Las entradas de la matriz de mezcla descendente de alineación de fase regularizada ^ son
m
it) rni,j c •
5
10
15
20
25
30
35
40
45
50
Por último, un vector de mezcla descendente de alineación de fase normalizado por energía se define en una etapa de normalización de energía 53 para cada canal j, formando las hileras de la matriz de mezcla descendente de alineación de fase final:
imagen8
Después del cálculo de la matriz M, se calcula el material de audio de salida. Los canales de salida del dominio QMF son sumas pesadas de los canales de entrada QMF. Los pesos valuados por complejo que incorporan el procesamiento de alineación de fase adaptativa son los elementos de la matriz M:
y = M ■ x
Es posible transferir algunas etapas de procesamiento al codificador 1. Esto reduciría fuertemente la complejidad de procesamiento de la mezcla descendente 7 en el decodificador 2. También proporcionaría la posibilidad de reaccionar a las señales de audio de entrada 37, donde la versión estándar del elemento de mezcla descendente produciría las fallas. Entonces, sería posible actualizar las reglas de procesamiento de mezcla descendente sin cambiar el decodificador 2 y podría mejorarse la calidad de mezcla descendente.
Existen múltiples posibilidades de que parte de la mezcla descendente de alineación de fase pueda transferirse al codificador 1. Es posible transferir el cálculo completo de los coeficientes de alineación de fase v^ al codificador 1. Los coeficientes de alineación de fase v^ entonces necesitan ser transmitidos en la corriente de bits 7, pero a menudo son cero y podrían ser cuantificados en una manera motivada. Dado que los coeficientes de alineación de fase vi,j son fuertemente dependientes de la matriz prototipo de mezcla descendente Q esta matriz Q tiene que ser conocida en el lado del codificador. Esto restringe la configuración posible del canal de salida. La etapa de ecualizador o de normalización de energía podría entonces incluirse en el proceso de codificación o llevarse a cabo en el decodificador 2, ya que es una etapa de procesamiento sin complicaciones y claramente definida.
Otra posibilidad es transferir el cálculo de la matriz de covarianza C al codificador 1. Entonces, los elementos de la matriz de covarianza C tienen que ser transmitidos en la corriente de bits 7. Esta versión permite configuraciones de renderización flexibles en el receptor 2, pero necesita más datos adicionales en la corriente de bits 7.
A continuación, se describe una realización preferida de la invención.
Las señales de audio 37 que se introducen en el convertidor de formato 42 se denominan, a continuación, señales de entrada. Las señales de audio 40 que son el resultado del proceso de conversión de formato se denominan señales de salida. Téngase en cuenta que las señales de entrada de audio 37 del convertidor de formato son señales de salida de audio del decodificador de núcleo 6.
Los vectores y matrices se indican mediante símbolos en negrita. Los elementos del vector o los elementos de la matriz se indican con variables cursivas suplementadas con índices que indican la hilera/columna del elemento de
vector/matriz en el vector/matriz, por ejemplo,
[ y ■■■ yA ■■■ yN ]=y
indica un
Similarmente, Ma,b indica el elemento en la a ésima hilera y en la b ésima columna de
vector y sus elementos. una matriz m .
Se utilizan las siguientes variables:
N
M
DMX
g
EQ
EQ
Número de canales en la configuración del canal de entrada Número de canales en la configuración del de salida
Matriz de mezcla descendente que contiene los coeficientes de mezcla descendente no negativos con valores reales (ganancias de mezcla descendente), Mdmx es de dimensión (Nout x Nin )
Matriz que consiste en valores de ganancia por banda de procesamiento de determinación de las respuestas de frecuencia de filtros de ecualización
Vector que señala qué filtros de ecualizador aplican a los canales de entrada (si existe)
5
10
15
20
25
30
35
40
45
50
L
v
n
Ln
F
K
k
A, B eps
Longitud de marco medido en muestras de audio de dominio de tiempo Índice de muestra de dominio de tiempo
Índice de segmentos de tiempo QMF (= índice de muestra de sub-banda)
Longitud de marco medido en segmentos QMF Índice de marco (número de marco)
Número de bandas de frecuencia QMF híbridas, K = 77
Índice de banda QMF (1 .. 64) o índice de banda QMF híbrida (1 .. K)
Índices de canal (números de canal de configuraciones de canal)
„ . . .. eps = 10-35
Constante numérica, ^
Una inicialización del convertidor de formato 42 se lleva a cabo antes de que comience el procesamiento de las muestras de audio suministradas por el decodificador de núcleo 6.
La inicialización tiene en cuenta como parámetros de entrada
• La velocidad de muestreo de los datos de audio para procesar.
• Un parámetro formatjn que señala la configuración de canal de los datos de audio para procesar con el conversor de formatos.
• Un parámetro format_out que señala la configuración del canal del formato de salida deseado.
• Opcional: Parámetros que señalan la desviación de las posiciones de los altavoces de una configuración de altavoces estándar (funcionalidad de configuración al azar).
Devuelve
• El número de canales de la configuración de altavoces de entrada, Nin ,
• el número de canales de la configuración de salida de altavoz, Nout,
una matriz de mezcla descendente Mdmx y la ecualización de parámetros de filtro (1 Eq ,GEq ) que se aplican en el tratamiento de la señal de audio del convertidor de formato 42.
Valores de ganancia y retraso de recorte (Tg,A y Td,A ) para compensar las distancias variables de los altavoces.
El bloque de procesamiento de audio del convertidor de formato de 42 obtiene muestras de audio de dominio de tiempo 37 para canales Nin 38 a partir del decodificador de núcleo 6 y genera una señal de salida de audio de dominio de tiempo remezclada a dos pistas 40 que consiste en canales Nout 41.
El procesamiento toma como entrada
• Los datos de audio decodificados por el decodificador de núcleo 6,
• la matriz de mezcla descendente MDMX devuelta por la inicialización del convertidor de formato 42,
• los parámetros de filtro de ecualización (1 Eq ,GEq ) devueltos por la inicialización del convertidor de formato 42.
Se devuelve una señal de salida de dominio de tiempo de canal Nout 40 para la configuración de canal format_out señalada durante la inicialización del convertidor de formato 42.
El convertidor de formato 42 puede operar en marcos contiguos, no superpuestos, de muestras de dominio de tiempo de longitud L = 2048 de las señales de audio de entrada y da salida a un marco de muestras L por marco de entrada procesado de longitud L .
Además, un puede ejecutarse una transformada T/F (análisis de QMF híbrido). Como la primera etapa de procesamiento el convertidor transforma muestras L=2048 de la señal de entrada de dominio de tiempo de canal
5
10
15
20
25
30
35
Nm |_^ch,iyd\N,n J — Ych a una representación de señal de canal QMF Nm híbrido que consiste en segmentos
de tiempo QMF Ln = 32 (índice de segmentosn) y bandas de frecuencia K = 77 (índice de banda k). Un análisis de QMF de acuerdo con ISO/IEC 23003-2:2010, subsección 7.14.2.2, se realiza primero
Con 0<v<L y 0<n<Ln,
imagen9
seguido por un análisis híbrido
= Análisis Híbrido (y^).
El filtrado híbrido se llevará a cabo como se describe en 8.6.4.3 de la norma ISO/IEC 14496-3:2009. Sin embargo, la definición de división de frecuencia baja (Tabla 8.36 de la norma ISO/IEC 14496-3:2009) puede reemplazarse por la siguiente tabla:
Revisión de división de baja frecuencia para el banco de filtro híbrido de banda 77
QMF sub-banda p
Número de bandas Qp Filtro
0
8 Tipo A
1
4
2
4
Además, las definiciones del filtro prototipo tienen que ser reemplazadas por los coeficientes en la siguiente tabla:
Coeficientes del filtro prototipo para los filtros que dividen las sub-bandas de QMF menores para el banco de filtros híbrido de banda 77
n
g°[n], Q°=8 g1,2[nl Q1,2=4
0
0,00746082949812 -0,00305151927305
1
0,02270420949825 -0,00794862316203
2
0,04546865930473 0,0
3
0,07266113929591 0,04318924038756
4
0,09885108575264 0,12542448210445
5
0,11793710567217 0,21227807049160
6
0,125 0,25
7
0,11793710567217 0,21227807049160
8
0,09885108575264 0,12542448210445
9
0,07266113929591 0,04318924038756
10
0,04546865930473 0,0
11
0,02270420949825 -0,00794862316203
12
0,00746082949812 -0,00305151927305
Además, contrariamente a 8.6.4.3 de la norma ISO/IEC 14496-3:2009, no hay combinación de sub-sub-bandas, es decir, mediante la división de las 3 sub-bandas QMF en (8, 4, 4) sub-sub-bandas se forma un banco de filtro híbrido de banda 77. Las bandas QMF híbridas 77 no se reordenan, sino que se transmiten en el orden que sigue del banco de filtros híbrido, véase la Fig. 10.
Ahora, pueden aplicarse las ganancias del ecualizador estático. El convertidor 42 aplica ganancias de fase cero a los canales de entrada 38 según lo señalado por las variables IEq y GEq .
IEq es un vector de longitud Nm que señala para cada canal a de los canales de entrada Nin • que ningún filtro de ecualización tiene que ser aplicado al canal de entrada particular: 1Eqa = 0 ,
5
10
15
20
25
o que tienen que ser aplicadas las ganancias de GEq correspondientes al filtro ecualizador con índice
^eqa > 0 ■
En el caso de 1Eqa > 0 para el canal de entrada a , la señal de entrada del canal a se filtra por la multiplicación con ganancias de fase cero obtenidas a partir de la columna de la GEq matriz señalada por 1 Eqa :
imagen10
Téngase en cuenta que todas las siguientes etapas de procesamiento hasta la transformación en dominio de tiempo se llevan a cabo de forma individual para cada banda de frecuencia QMF independientemente de k. El parámetro de banda de frecuencia k por lo tanto se omite en las siguientes
n __ n,k
por ejemplo, yeq, ch _ yeq, ch para cada banda de frecuencia k.
Además, se puede realizar una actualización de los datos de entrada y una ventana de datos de entrada de señal adaptativa. Dejar que F sea un índice de marco de incremento monótono que indique el marco actual de los datos
F ,n n
de entrada, por ejemplo, yeq, ch _ yeq, ch para el marco F , a partir de F = 0 para el primer marco de datos de
entrada después de la inicialización del convertidor de formato 42. Un marco de análisis de longitud 2 * Ln está formulado a partir de los espectros de QMF híbrido de entrada como
señales de híbrida k e ecuaciones,
0
para 0 < n < Ltí
J m, ch
para 0 <n<Ln
y eq, ch
para Ln<n<2Lt
F = 0 ^>0 F> 0
El marco de análisis se multiplica por una ventana de análisis wF ,n de acuerdo con
yFjl, = yF\ • ” p» o < n < 2L ,
J til J in, ch pí *
donde wF,n es una ventana adaptativa de señal que se calcula para cada marco F como sigue:
imagen11
5
10
15
20
25
imagen12
Ahora, se puede realizar un análisis de covarianza. Un análisis de covarianza se realiza en los datos de entrada de ventana, donde el operador esperado E() se implementa como una suma de los auto-/cross-terms sobre los
segmentos de tiempo QMF 2Ln del marco de datos de entrada de ventana F. Los próximos pasos de procesamiento se realizan de forma independiente para cada marco de procesamiento F . El índice F , por lo tanto,
n __ F ,n
se omite hasta que se necesite por propósitos de claridad, por ejemplo, yw, ch — yw, ch para el marco F .
Téngase en cuenta que yw, ch indica un vector de fila con elementos Nm en caso de canales de entrada N Entonces, la matriz del valor de covarianza se forma así
C = E ((yW, ch )T (yw, ch )*) = 2Z( yW, ch )T (yW, ch )*
-0
donde 0 denota la transpuesta y 0 denota el conjugado complejo de una variable y Cy es una matriz N x Nm que se calcula una vez por marco F .
Desde la matriz de covarianza Cy los coeficientes de correlación entre canales entre los canales A y B se derivan como
ICC =
C
y, A,B
ePS+^/Cy,A,A ' Cy,B,B
donde los dos índices en una notación Cy,a,b denotan el elemento de matriz en la a ésima hilera y b ésima columna de Cy.
Además, puede formularse una matriz de alineación de fase. Los valores de 1CCa,b se mapean a una matriz de medición de atracción T con elementos
imagen13
5
10
15
20
25
30
35
40
y se formula una matriz de mezcla de alineación de fase intermedia M mt (equivalente a la matriz de coeficiente de alineación fase normalizada en las realizaciones anteriores). Con una matriz de valor de atracción ^
P = T • C
1 A,B tA,B Cy, A, B
y
v = m p
v m dmx p
los elementos de matriz se derivan como
Mmt,A,B = MDMXA,B ■ eXP (j arg (VA,B ))
donde exp (') denota la función exponencial, j = V-l es la unidad imaginaria, y arg O retorna el argumento de las variables valoradas por complejo.
La matriz de mezcla de alineación de fase intermedia Mmt se modifica para evitar cambios de fase abruptos, resultantes en Mmod: En primer lugar, una matriz de pesado DF se define para cada marco F como una matriz
Df = CF
diagonal con elementos a,a y,a,a . El cambio de fase de la matriz de mezcla en el tiempo (es decir, sobre
los marcos) se mide mediante la comparación de la matriz de mezcla intermedia pesada corriente y la matriz de
mezcla resultante pesada Mmod del marco anterior:
M
F
cmp_curr
ML D
F
M
F
cmp_piev
f Mdmx para F- 0 IM-D- para F >0’
M
F
cmp_cross,A,B
M
F
cmp_curr^,B
•( M
F
cmp_prev,A,B
)
*
M
F
cmp
M
F
cmp_cross
^F
61b = arg (McFmp,A,B )
El cambio de fase medido de la matriz de mezcla intermedia se procesa para obtener un parámetro de modificación de fase que se aplica a la matriz de mezcla intermedia Mint, resultante en Mmod (equivalente a la matriz de coeficientes de alineación de fase regularizada):M
6mod, A,B = - Sgn (6Ib ) • maX ^ 0, \6AFb\ - n)
Mmod,A,B = Mmt,A,B ' eXp ( j • 6mod,A,B )
Una escalada de energía se aplica a la matriz de mezcla para obtener la matriz de mezcla de alineación de fase final MPA. Con
5
10
15
20
25
30
35
m
Cy
m
mod
C yM
H
mod
donde
imagen14
denota el operador de transposición conjugado, y
B=
Nin IM, A=1
S Slim,B
= min
IA ' MDMX,B,A ' Cy,A,A
eps+MC
Cy ,B,B
,max (
min B ,
donde los límites se definen como Smax = 1° y Smin = 1° , los elementos de matriz de mezclas de alineación
de fase final siguen como
MPA, B,A = Slim,B ■Mmod,B,A
En una etapa adicional, se pueden calcular los datos de salida. Las señales de salida para el marco corriente F se calculan aplicando la misma matriz de mezcla descendente valuada por complejo M pa a todos segmentos de tiempo n 2Ln del vector de datos de entrada de ventana y
w, ch :
íh” =(MPA(yC;d,)T)1
para 0 í H < 2L,,
-F,"
Ach
Una etapa de adición por superposición se aplica al marco de señal de salida recién calculado ch para llegar a las señales de salida de dominio de frecuencia final que comprenden muestras Ln por canal para el marco F,
imagen15
Ahora, se puede realizar una transformación F/T (síntesis QMF híbrida). Téngase en cuenta que las etapas de procesamiento descriptas anteriormente tienen que llevarse a cabo para cada banda de QMF híbrido k de forma
independiente. En las siguientes formulaciones, el índice de banda k se reintroduce, es decir, Z
_F ,n,k ch
= Z
ch
La
F ,n,k
señal de salida en el dominio de frecuencia QMF híbrido Z ch se transforma en un marco de señal de dominio de tiempo del canal Nout de longitud de muestras de dominio de tiempo L por canal de salida B, produciendo la señal
de salida en el dominio de tiempo final La síntesis híbrida
F,n
/-Fn.k \
— Síntesis Híbrida \^ch /
puede llevarse a cabo tal como se define en la Figura 8.21 de la norma ISO/IEC 14496-3:2009, es decir, mediante la suma de las sub-sub-bandas de las tres sub-bandas de QMF más bajas para obtener las tres sub-bandas de QMF más bajas de la representación de QMF de la banda 64. Sin embargo, el procesamiento mostrado en la Figura 8.21 de la norma ISO/lEc 14496-3:2009 tiene que adaptarse a la división de banda de baja frecuencia (8, 4, 4) en lugar de la división de baja frecuencia (6, 2, 2) mostrada.
5
10
15
20
25
30
35
40
45
50
55
La síntesis QMF posterior
~ F v f * F n k \
zch = SíntesisQMF (Zch’ ' J
puede llevarse a cabo tal como se define en la norma ISO/IEC 23003-2:2010, 7.14.2.2 subcláusula.
Si las posiciones de altavoces de salida difieren en el radio (es decir, si tnmA no es igual para todos los canales de salida A ), los parámetros de compensación derivados en la inicialización pueden aplicarse a las señales de salida.
La señal del canal de salida A se retrasa por muestras de dominio de tiempo Td,a y la señal también se multiplica
por la ganancia lineal Tg,a .
Con respecto al decodificador y codificador y a los métodos de las realizaciones descritas se menciona lo siguiente: Aunque algunos aspectos se han descrito en el contexto de un aparato, es claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o a una función de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa de un método también representan una descripción de un bloque o elemento o función correspondiente de un aparato correspondiente.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una rOm, una PROM, una EPROM, una EEPROM o una memoria FLaSh, que tenga señales de control legibles electrónicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema de ordenador programable de manera tal que se lleve a cabo el método respectivo.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema de ordenador programable, de manera tal que se lleve a cabo uno de los métodos descritos en el presente documento.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa de ordenador con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos cuando el producto del programa de ordenador se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un soporte legible en una máquina.
Otras realizaciones comprenden el programa de ordenador para realizar uno de los métodos descritos en la presente, almacenado en un soporte legible en una máquina o un medio de almacenamiento no transitorio.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa de ordenador que tiene un código de programa para realizar uno de los métodos descritos en la presente, cuando el programa de ordenador se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa de ordenador para realizar uno de los métodos descritos en la presente.
Una realización adicional del método de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representa el programa de ordenador para realizar uno de los métodos descritos en la presente. La corriente de datos o la secuencia de señales pueden por ejemplo estar configuradas para ser transferidas a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado para o adaptado para llevar a cabo uno de los métodos descritos en la presente.
Una realización adicional comprende un ordenador que tiene instalado el programa de ordenador para realizar uno de los métodos descritos en la presente.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en campo) puede utilizarse para llevar a cabo todas o algunas de las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, una matriz de puertas programables en campo puede cooperar con un microprocesador para llevar a cabo uno de los métodos descritos en la presente. En general, los métodos se llevan a cabo ventajosamente por cualquier aparato de hardware.
Aunque esta invención ha sido descrita en términos de varias formas realizaciones, hay alteraciones, permutaciones y equivalentes que están dentro del alcance de esta invención. Asimismo, hay que señalar que hay muchas formas alternativas de implementar los métodos y composiciones de la presente invención. Por tanto, se pretende que las 5 siguientes reivindicaciones adjuntas definan el alcance de protección de la presente invención.

Claims (28)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Un decodificador de procesamiento de señal de audio que tiene al menos una banda de frecuencia (36) y que está configurado para el procesamiento de una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36), caracterizado porque el decodificador (1) está configurado para alinear las fases de los canales de entrada (38) dependientes de las dependencias entre canales (39) entre los canales de entrada (38), en el que las fases de los canales de entrada (38) están más alineadas entre sí cuando más alta es la dependencia entre su canales (39); y
    someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida (40) que tiene un menor número de canales de salida (41) que el número de canales de entrada (38).
  2. 2. Un decodificador de acuerdo con la reivindicación 1, en el que el decodificador (2) está configurado para analizar la señal de audio de entrada (37) en la banda de frecuencia (36), con el fin de identificar las dependencias entre canales (39) entre los canales de audio de entrada (38) o para recibir las dependencias entre canales (39) entre los canales de entrada (38) desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  3. 3. Un decodificador de acuerdo con la reivindicación 1 o 2, en el que el decodificador (2) está configurado para normalizar la energía de la señal de audio de salida (40) con base en una determinada energía de la señal de audio de entrada (37), en el que el decodificador (2) es configurado para determinar la energía de señal de la señal de audio de entrada (37) o para recibir la energía determinada de la señal de audio de entrada (37) desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  4. 4. Un decodificador de acuerdo con una de las reivindicaciones 1 a 3, en el que el decodificador (2) comprende un elemento de mezcla descendente (42) para someter a mezcla descendente la señal de entrada de audio (37) con base en una matriz de mezcla descendente (M, Mpa), en el que el decodificador (1) está configurado para calcular la matriz de mezcla descendente (M, Mpa), de tal manera que las fases de los canales de entrada (38) estén alineados sobre la base de las dependencias entre canales identificados (39) o para recibir una matriz de mezcla descendente (M, Mpa) calculada de tal manera que las fases de los canales de entrada (38) estén alineados sobre la base de las dependencias entre canales identificados (39) desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  5. 5. Un decodificador de acuerdo con la reivindicación 4, en el que el decodificador (2) está configurado para calcular la matriz de mezcla descendente (M, Mpa) de tal manera que la energía de la señal de audio de salida (41) esté normalizada con base en la energía determinada de la señal de audio de entrada (37) o para recibir la matriz de mezcla descendente (M, Mpa), calculada de tal manera que la energía de la señal de audio de salida (41) esté normalizada con base en la energía determinada de la señal de audio de entrada (37) desde un dispositivo externo, tal como de un codificador (1), que proporciona la señal de audio de entrada (37).
  6. 6. Un decodificador de acuerdo con una de las reivindicaciones 1 a 5, en el que el decodificador (2) está configurado para analizar intervalos de tiempo (43) de la señal de entrada de audio (37) utilizando una función de ventana, donde las dependencias entre canales (39) están determinadas para cada marco de tiempo (43) o en el que el decodificador (2) está configurado para recibir un análisis de intervalos de tiempo (43) de la señal de audio de entrada (37) utilizando una función de ventana, donde las dependencias entre canales (39) están determinadas para cada marco de tiempo (43), desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  7. 7. Un decodificador de acuerdo con una de las reivindicaciones 1 a 6, en el que el decodificador (2) está configurado
    para calcular una matriz de valores de covarianza (C, Cy), en el que los valores de covarianza (C'¡j' y,A,B) expresan la
    dependencia entre canales (39) de un par de canales de audio de entrada (38) o donde el decodificador (2) está
    C C
    configurado para recibir una matriz de valores de covarianza (C, Cy), en el que los valores de covarianza ( j y,a,b) expresan la dependencia entre canales (39) de un par de canales de audio de entrada (38), a partir de un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  8. 8. Un decodificador de acuerdo con la reivindicación 7, en el que el decodificador (2) está configurado para
    establecer una matriz de valores de atracción (A,P) mediante la aplicación de una función de mapeo í-f(cy3'^,s)a la matriz de valor de covarianza (C,CV) o a una matriz (C’) derivado de la matriz de valor de covarianza (C,CV) o para
    recibir una matriz de valor de atracción (A,P) establecida por la aplicación de una función de mapeo ¡,^’Ta,bI a la matriz de valor de covarianza (C, Cv) o a una matriz (C’) derivados de la matriz de valor de covarianza (C, Cv), en
    el que el gradiente de la función de mapeo u)’^A,fl)es preferiblemente mayor o igual a cero para todos los
    valores de covarianza ^¡j’^y.A^)0 valores (cíí/,^Pafb) derivados de los valores de covarianza ^VAb) y en
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    el que la función de mapeo ^■^'preferiblemente alcanza valores entre cero y uno para los valores de entrada
    entre cero y uno.
  9. 9. Un decodificador de acuerdo con la reivindicación 8, en el que la función de mapeo n1 es una función
    lineal.
    no
  10. 10. Un decodificador de acuerdo con la reivindicación 8 o 9, en el que la función de mapeo ¡gUa| g
    cero para los valores de covarianza o valores " ^derivados de los valores de covarianza l'V'-‘W'.éJ
    que es menor que un primer umbral de mapeo y/o en el que la función de mapeo U*-0es igual a uno para los
    valores de covarianza valores ^-^derivados de los valores de covarianza siendo más
    grande que un segundo umbral de mapeo.
  11. 11. Un decodificador de acuerdo con una de las reivindicaciones 8 a 10, en el que la función de mapeo (Ac^.eJestá representada por una función que forma una curva en forma de S.
  12. 12. Un decodificador de acuerdo con una de las reivindicaciones 7 a 11, en el que el decodificador (2) está configurado para calcular una matriz de coeficiente de alineación de fase (V, M¡nt), donde la matriz de coeficiente de alineación de fase (V, M¡nt) se basa en la matriz de valor de covarianza (C, CJ) y en una matriz prototipo de mezcla descendente (Q, Mdmx) o para recibir una matriz de coeficiente de alineación de fase (V, M¡nt), donde la matriz de coeficiente de alineación de fase (V, M¡nt) se basa en la matriz de valor de covarianza (C, CJ y en una matriz prototipo de mezcla descendente (Q, Mdmx), desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  13. 13. Un decodificador de acuerdo con la reivindicación 12, en el que las fases y/o las amplitudes de los coeficientes
    de mezcla descendente (m/(^^PA,As)de la matriz de mezcla descendente (MMpa) están formuladas para ser regular en el tiempo, de modo que se eviten las fallas temporales debido a la cancelación de señal entre los marcos de tiempo adyacentes (43).
  14. 14. Un decodificador de acuerdo con la reivindicación 12 o 13, en el que las fases y/o las amplitudes de los
    coeficientes de mezcla descendente (m/j’^PAAs)de la matriz de mezcla descendente (M, Mpa) están formuladas para ser regulares sobre la frecuencia, de modo que se eviten los las fallas espectrales debido a la cancelación de la señal entre las bandas de frecuencia adyacentes (36).
  15. 15. Un decodificador de acuerdo con una de las reivindicaciones 12 a 14, en el que el decodificador (2) está
    configurado para establecer una matriz de coeficiente de alineación de fase regularizada sobre la base de
    la matriz de coeficientes de alineación de fase (V, M¡nt) o para recibir una matriz de coeficiente de alineación de fase
    regularizada (^’*mod)con base en la matriz de coeficiente de alineación de fase (V, M¡„t) desde un dispositivo externo, tal como desde un codificador (1), que proporciona la señal de audio de entrada (37).
  16. 16. Un decodificador de acuerdo con la reivindicación 15, en el que la matriz de mezcla descendente (M, Mpa) se basa en la matriz de coeficiente de alineación de fase regularizada
  17. 17. Un codificador de procesamiento de señal de audio que tiene al menos una banda de frecuencia (36) y que está configurado para el procesamiento de una señal de entrada de audio (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36), caracterizado porque el codificador (1) está configurado para alinear las fases de los canales de entrada (38) dependientes de las dependencias entre canales (39) entre los canales de entrada (38), donde las fases de los canales de entrada (38) están más alineadas entre sí cuando más alta es la dependencia entre sus canales (39); y
    someter a mezcla descendente la señal de audio de entrada alineada con una señal de audio de salida (40) que tiene un menor número de canales de salida (41) que el número de canales de entrada (38).
  18. 18. Un sistema, que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y que está configurado para la salida de una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36), en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    24
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    un codificador de procesamiento de señal de audio (1) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para determinar las dependencias entre canales (39) entre los canales de entrada (38) de la señal de audio de entrada (37) y para dar salida a las dependencias entre canales (39) dentro de la corriente de bits (7);
    en el que el decodificador (2) está configurado para recibir las dependencias entre canales (39) entre los canales de entrada (38) desde el decodificador (1).
  19. 19. Un sistema, que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y que está configurado para la salida de una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36), en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un codificador de procesamiento de señal de audio (1) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para determinar una energía de la señal de audio codificada (37) y dar salida a la energía determinada de la señal de audio codificada (37) dentro de la corriente de bits (7); en el que el decodificador (2) está configurado para normalizar la energía de una señal de audio de salida (40) basada en una energía determinada de la señal de audio de entrada (37), en el que el decodificador (2) está configurado para recibir la energía determinada de la señal de audio codificada (37) como la energía determinada de la señal de audio de entrada (37) desde el codificador (1).
  20. 20. Un sistema, que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y que está configurado para la salida de una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36), en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un codificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en la al menos una banda de frecuencia (36), en el que el codificador comprende un mezclador descendente para mezclar de manera descendente la señal de audio de entrada en base a la matriz de mezcla descendente (M, Mpa);
    en el que el codificador (1) está configurado para calcular una matriz de mezcla descendente (M, Mpa) para un elemento de mezcla descendente (3) para someter a mezcla descendente la señal de audio codificada (37) sobre la base de la matriz de mezcla descendente (M, Mpa) de tal manera que las fases de los canales codificados (38) estén alineadas sobre la base de las dependencias entre canales identificados (39), y para dar salida a la matriz de mezcla descendente (M, Mpa) dentro de la corriente de bits (7), y en el que el decodificador (2) está configurado para recibir una matriz de mezcla descendente (M, Mpa) calculada de tal manera que las fases de los canales de entrada (38) están alineados en base a las dependencias entre canales identificadas (39) desde el codificador (1).
  21. 21. Un sistema de acuerdo con la reivindicación 20: en el que el codificador (1) está configurado
    para calcular la matriz de mezcla descendente (M, Mpa) para el mezclador descendente (3) para mezclar la señal de audio codificada (37) basándose en la matriz de mezcla descendente (M, Mpa) de tal manera que las fases de los canales codificados (38) estén alineadas en base a dependencias entre canales identificadas (39), de tal manera que la energía de una señal de audio de salida del mezclador descendente (41) se normaliza en base a la energía determinada de la señal de audio codificada (37); y
    en el que el decodificador (2) está configurado para recibir la matriz de mezcla descendente (M, Mpa), calculada de tal manera que la energía de la señal de audio de salida se normaliza basándose en la energía determinada de la señal de audio de entrada (37), desde el codificador.
  22. 22. Un sistema que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y configurado para emitir una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36) en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un decodificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    canales de entrada (38) en al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para analizar los intervalos de tiempo (43) de la señal de audio codificada (37) utilizando una función de ventana, en la que se determinan las dependencias entre canales (39) para cada marco de tiempo (43) y para generar las dependencias entre canales (39) para cada marco de tiempo (43) dentro de la corriente de bits (7), y
    en el que el decodificador (2) está configurado para recibir un análisis de intervalos de tiempo (43) de la señal de audio de entrada (37) usando una función de ventana, en la que las dependencias entre canales (39) se determinan para cada marco de tiempo (43), desde el codificador (1).
  23. 23. Un sistema que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y configurado para emitir una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36) en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un decodificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para calcular una matriz de valores de covarianza (C, Cy), en el que los valores de covarianza (c,) expresan la dependencia entre canales (39) de un par de canales de audio codificados (38) y para dar salida a la matriz de valores de covarianza (C, Cy) dentro de la corriente de bits (7), y en el que el decodificador (2) está configurado para recibir la matriz de valor de covarianza (C, Cy), donde los valores de covarianza (c,, Cy^.B) expresan la dependencia entre canales (39) de un par de canales de audio de entrada (38), desde el codificador (1).
  24. 24. Un sistema que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y configurado para emitir una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36) en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un decodificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para establecer una matriz de valor de atracción (A, P) aplicando una función de mapeo (fiC'ú), Ta.b) a una matriz de valor de covarianza (C, Cy) o a una matriz (C) derivada de la matriz de valor de covarianza (C, Cy) y para generar la matriz de valor de atracción (A, P) dentro de la corriente de bits (7) en el que el decodificador (2) está configurado para recibir una matriz de valor de atracción (A, P) establecida al aplicar una función de mapeo (f(c'¡j), Ta,b) a la matriz de valores de covarianza (C, Cy) o a una matriz (C) derivada de la matriz de valores de covarianza (C, Cy), del codificador (1).
  25. 25. Un sistema que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y configurado para emitir una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36) en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    un decodificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para calcular una matriz de coeficientes de alineación de fase (V, Mint), en el que la matriz de coeficientes de alineación de fase (V, Mint) se basa en una matriz de valores de covarianza (C, Cy) y en una matriz prototipo de mezcla descendente (Q, Mdmx) y dar salida a la matriz del coeficiente de alineación de fase (V, Mint); y
    en el que el decodificador (2) está configurado para recibir la matriz del coeficiente de alineación de fase (V, Mint), en el que la matriz del coeficiente de alineación de fase (V, Mint) se basa en la matriz de valores de covarianza (C, Cy) y en la matriz prototipo de mezcla descendente (Q, Mdmx), desde el codificador (1).
  26. 26. Un sistema que comprende:
    un codificador de procesamiento de señal de audio (1) que tiene al menos una banda de frecuencia (36) y configurado para emitir una corriente de bits (7), en el que la corriente de bits (7) contiene una señal de audio codificada (37) en la banda de frecuencia (36) en el que la señal de audio codificada (37) tiene una pluralidad de canales codificados (38) en la al menos una banda de frecuencia (36), y
    5
    10
    15
    20
    25
    un decodificador de procesamiento de señal de audio (2) según la reivindicación 1, que está configurado para procesar la señal de audio codificada (37) como una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en al menos una banda de frecuencia (36);
    en el que el codificador (1) está configurado para establecer una matriz de coeficiente de alineación de fase
    regularizada M^mod) con base en la matriz de coeficiente de alineación de fase Vy para dar salida a la matriz
    de coeficientes de alineación de fase regularizada (M^mod)dentro de la corriente de bits (7), y en el que el decodificador (2) está configurado para recibir la matriz de coeficiente de alineación de fase regularizada
    |ÍlÍ ^n-^1 basada en la matriz de coeficientes de alineación de fase (V, M¡„t) desde el codificador (1).
  27. 27. Un método para procesar una señal de audio de entrada (37) que tiene una pluralidad de canales de entrada (38) en una banda de frecuencia (36), comprendiendo el método los pasos:
    analizar la señal de audio de entrada (37) en la banda de frecuencia (36), en la que se identifican las dependencias entre canales (39) entre los canales de audio de entrada (38); estando el método caracterizado por los pasos de:
    alinear las fases de los canales de entrada (38) basándose en las dependencias intercanales identificadas (39), en el que las fases de los canales de entrada (38) están más alineadas entre sí cuanto mayor es su dependencia entre canales (39);
    someter a mezcla descendente la señal de audio de entrada alineada a una señal de audio de salida (40) que tiene un número menor de canales de salida (41) que el número de canales de entrada (38) en la banda de frecuencia (36).
  28. 28. Un programa de ordenador para implementar el método de la reivindicación 27 cuando se ejecuta en un ordenador o procesador de señal.
ES14748143.6T 2013-07-22 2014-07-18 Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa Active ES2687952T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177358 2013-07-22
EP13177358 2013-07-22
EP13189287 2013-10-18
EP13189287.9A EP2838086A1 (en) 2013-07-22 2013-10-18 In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
PCT/EP2014/065537 WO2015011057A1 (en) 2013-07-22 2014-07-18 In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment

Publications (1)

Publication Number Publication Date
ES2687952T3 true ES2687952T3 (es) 2018-10-30

Family

ID=48874132

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14748143.6T Active ES2687952T3 (es) 2013-07-22 2014-07-18 Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa

Country Status (18)

Country Link
US (2) US10360918B2 (es)
EP (2) EP2838086A1 (es)
JP (1) JP6279077B2 (es)
KR (2) KR101835239B1 (es)
CN (2) CN111862997A (es)
AR (1) AR097001A1 (es)
AU (1) AU2014295167B2 (es)
BR (1) BR112016001003B1 (es)
CA (1) CA2918874C (es)
ES (1) ES2687952T3 (es)
MX (1) MX359163B (es)
PL (1) PL3025336T3 (es)
PT (1) PT3025336T (es)
RU (1) RU2678161C2 (es)
SG (1) SG11201600393VA (es)
TW (1) TWI560702B (es)
WO (1) WO2015011057A1 (es)
ZA (1) ZA201601112B (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
CN112492502B (zh) * 2016-07-15 2022-07-19 搜诺思公司 联网麦克风设备及其方法以及媒体回放系统
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
ES2830954T3 (es) 2016-11-08 2021-06-07 Fraunhofer Ges Forschung Mezclador descendente y método para la mezcla descendente de al menos dos canales y codificador multicanal y decodificador multicanal
FI3539125T3 (fi) * 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
MX2022001150A (es) 2019-08-01 2022-02-22 Dolby Laboratories Licensing Corp Sistemas y metodos para suavizacion de covarianza.
CN113518227B (zh) * 2020-04-09 2023-02-10 于江鸿 数据处理的方法和系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040042504A1 (en) * 2002-09-03 2004-03-04 Khoury John Michael Aligning data bits in frequency synchronous data channels
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
CN1942929A (zh) * 2004-04-05 2007-04-04 皇家飞利浦电子股份有限公司 多信道编码器
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
US7411528B2 (en) 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
CN102789782B (zh) * 2008-03-04 2015-10-14 弗劳恩霍夫应用研究促进协会 对输入数据流进行混合以及从中产生输出数据流
RU2565008C2 (ru) 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
EP2287836B1 (en) * 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
CN101604983B (zh) * 2008-06-12 2013-04-24 华为技术有限公司 编解码装置、系统及其方法
CN102177542B (zh) * 2008-10-10 2013-01-09 艾利森电话股份有限公司 能量保留多通道音频编码
US8698612B2 (en) * 2009-01-05 2014-04-15 Gordon Toll Apparatus and method for defining a safety zone using a radiation source for a vehicle
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
WO2010097748A1 (en) * 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
KR101641685B1 (ko) 2010-03-29 2016-07-22 삼성전자주식회사 멀티채널 오디오의 다운믹스 방법 및 장치
KR20110116079A (ko) * 2010-04-17 2011-10-25 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2012006770A1 (en) 2010-07-12 2012-01-19 Huawei Technologies Co., Ltd. Audio signal generator
NO2595460T3 (es) 2010-07-14 2018-03-10
EP2609590B1 (en) * 2010-08-25 2015-05-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for decoding a signal comprising transients using a combining unit and a mixer
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment

Also Published As

Publication number Publication date
EP2838086A1 (en) 2015-02-18
AR097001A1 (es) 2016-02-10
MX359163B (es) 2018-09-18
WO2015011057A1 (en) 2015-01-29
KR20160033776A (ko) 2016-03-28
KR101943601B1 (ko) 2019-04-17
PL3025336T3 (pl) 2019-02-28
PT3025336T (pt) 2018-11-19
JP2016525716A (ja) 2016-08-25
EP3025336B1 (en) 2018-08-08
RU2016105741A (ru) 2017-08-28
BR112016001003B1 (pt) 2022-09-27
US10360918B2 (en) 2019-07-23
US20190287542A1 (en) 2019-09-19
JP6279077B2 (ja) 2018-02-14
SG11201600393VA (en) 2016-02-26
BR112016001003A8 (pt) 2020-01-07
US20160133262A1 (en) 2016-05-12
CA2918874A1 (en) 2015-01-29
CA2918874C (en) 2019-05-28
US10937435B2 (en) 2021-03-02
TW201523586A (zh) 2015-06-16
CN105518775B (zh) 2020-07-17
AU2014295167A1 (en) 2016-02-11
MX2016000909A (es) 2016-05-05
BR112016001003A2 (pt) 2017-07-25
TWI560702B (en) 2016-12-01
RU2678161C2 (ru) 2019-01-23
KR101835239B1 (ko) 2018-04-19
EP3025336A1 (en) 2016-06-01
CN111862997A (zh) 2020-10-30
KR20180027607A (ko) 2018-03-14
ZA201601112B (en) 2017-08-30
AU2014295167B2 (en) 2017-04-13
CN105518775A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
ES2687952T3 (es) Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
ES2511390T3 (es) Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
ES2312025T3 (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
ES2899286T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
ES2750304T3 (es) Filtración eficiente con un banco de filtros modulado complejo
ES2401554T3 (es) Aparato, procedimiento y programa de computadora para mezclar hacia arriba una señal de audio mezclada hacia abajo
ES2555136T3 (es) Codificador paramétrico para codificar una señal de audio multicanal
EP3165005B1 (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
RU2749349C1 (ru) Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
US20190156841A1 (en) Adaptive channel-reduction processing for encoding a multi-channel audio signal
KR102657547B1 (ko) 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
TW201539431A (zh) 應用動態範圍壓縮到高階保真立體音響信號之方法及裝置
TW202105365A (zh) 參數編碼與解碼
TWI843389B (zh) 音訊編碼器、降混訊號產生方法及非暫時性儲存單元
Jansson Stereo coding for the ITU-T G. 719 codec
Vilkamo Perceptually motivated time-frequency processing of spatial audio