ES2281795T3

ES2281795T3 - Sintesis de señal de audio.

Info

Publication number: ES2281795T3
Application number: ES04727357T
Authority: ES
Inventors: Erik G. P. Schuijers; Marc W. T. Klein Middelink; Arnoldus W. J. Oomen; Leon M. Van De Kerkhof
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-17
Filing date: 2004-04-14
Publication date: 2007-10-01
Anticipated expiration: 2024-04-14
Also published as: DE602004005020T2; CN1774956A; KR20050122267A; US8311809B2; BRPI0409337A; KR101169596B1; KR20110044281A; KR101200776B1; ATE355590T1; DE602004005020D1; CN1774957A; CN1774956B; JP2006523859A; EP1618763A1; RU2005135650A; EP1618763B1; US20070112559A1; WO2004093495A1; PL1618763T3; JP4834539B2

Abstract

Método para sintetizar una señal de audio de salida sobre la base de una señal de audio de entrada en el dominio de tiempo, comprendiendo el método las etapas de: - transformar la señal de audio de entrada en el dominio de tiempo a una señal de entrada en el dominio de subbanda que comprende una pluralidad de señales de subbanda de entrada; - transformar (T) al menos una señal de subbanda de entrada desde el dominio de subbanda a un dominio de frecuencia de resolución superior para obtener al menos una señal transformada respectiva, - retardar (D0...n) y transformar la al menos una señal de subbanda de entrada al dominio de frecuencia de resolución superior para obtener al menos una señal retardada transformada respectiva; - derivar (P) al menos dos señales procesadas a partir de una mezcla de la al menos una señal transformada y la al menos una señal retardada transformada, - transformar (T-1) a la inversa las señales procesadas desde el dominio de frecuencia de resolución superior al dominio de subbanda para obtener las señales de subbanda procesadas respectivas, y - sintetizar la señal de audio de salida a partir de las señales de subbanda procesadas, incluyendo la sintetización una transformada desde el dominio de subbanda al dominio de tiempo.

Description

Síntesis de señal de audio.

La invención se refiere a sintetizar una señal de audio y en particular a un aparato que suministra una señal de audio de salida.

El artículo "Advances in Parametric Coding for High-Quality Audio", por Eric Schuijers, Werner Oomen, Bert den Brinker y Jeroen Breebaart, edición preliminar 5852, 114ª convención AES, Ámsterdam, Países Bajos, del 22 al 25 de marzo de 2003 da a conocer un esquema de codificación paramétrico que utiliza una representación paramétrica eficaz para la imagen estéreo. Dos señales de entrada se fusionan en una señal de audio mono. De manera perceptiva se modelan explícitamente indicaciones especiales relevantes. La señal fusionada se codifica utilizando un codificador monoparamétrico. Los parámetros estéreo de la Diferencia de Intensidad Intercanal (IID, Interchannel Intensity Difference), la Diferencia de Tiempo Intercanal (ITD, Interchannel Time Difference) y la Correlación Cruzada Intercanal (ICC, Interchannel Cross-Correlation) se cuantifican, codifican y multiplexan en un flujo de bits junto con la señal de audio mono cuantificada y codificada. En el lado del descodificador, el flujo de bits se desmultiplexa a una señal mono codificada y los parámetros estéreo. La señal de audio mono codificada se descodifica con el fin de obtener una señal m' de audio mono descodificada (véase la figura 1). A partir de la señal en el dominio de tiempo mono, se calcula una señal descorrelacionada utilizando un filtro 10 D que produce la descorrelación perceptiva óptima. Tanto la señal m' en el dominio de tiempo mono como la señal d descorrelacionada se transforman al dominio de frecuencia. A continuación la señal estéreo en el dominio de frecuencia se procesa con los parámetros de IID, ITD e ICC mediante ajuste a escala, modificaciones de fase y mezclado, respectivamente, en una unidad 11 de procesamiento de parámetros con el fin de obtener el par l' y r' estéreo descodificado. Las representaciones en el dominio de frecuencia resultantes se transforman de vuelta al dominio de tiempo.

La solicitud de patente alemana DE 199 00 819 A1 da a conocer un sistema en el que la información espacial se extrae a partir de una señal de datos y se combina con una señal mono para proporcionar un sonido de música distribuido espacialmente artificial mediante la separación de bandas de frecuencia diferentes y la aplicación de diferentes retardos de tiempo en el domino de tiempo y niveles de atenuación a diferentes canales.

Es un objeto de la invención sintetizar ventajosamente una señal de audio de salida basándose en una señal de audio de entrada. Para este fin, la invención proporciona un método, un dispositivo, un aparato y un producto de programa informático tal como se define en las reivindicaciones independientes. Las realizaciones ventajosas se definen en las reivindicaciones dependientes.

Según un primer aspecto de la invención, se proporciona un método para sintetizar una señal de audio de salida según la reivindicación 1. Proporcionando una transformada de subbanda a frecuencia en una subbanda, se aumenta la resolución de frecuencia. Una resolución de frecuencia aumentada de este tipo tiene la ventaja de que se hace posible conseguir alta calidad de audio (el ancho de banda de una señal de subbanda única es normalmente muy superior al de bandas críticas en el sistema auditivo humano) en una implementación eficaz (porque sólo tienen que transformarse unas pocas bandas). El sintetizar la señal estéreo en una subbanda tiene la ventaja adicional de que puede combinarse fácilmente con los codificadores de audio basados en subbanda existentes. Los bancos de filtros se utilizan comúnmente en el contexto de codificación de audio. Todas las capas I, II y III de MPEG-1/2 hacen uso de un filtro de subbanda muestreado fundamentalmente de 32 bandas.

Las realizaciones de la invención son de uso particular para aumentar la resolución de frecuencia de las subbandas inferiores, utilizando técnicas de replicación de banda espectral ("SBR", "Spectral Band Replication").

En una realización eficaz, se utiliza un banco de filtros espejo en cuadratura ("QMF", "Quadrature Mirrow Filter"). Un banco de filtros de este tipo se conoce en sí del artículo "Bandwidth extension of audio signals by spectral band replication", por Per Ekstrand, proc. 1^{er} IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), páginas 53 a 58, Lovaina, Bélgica, 15 de noviembre de 2002. El banco de filtros de QMF de síntesis toma las N señales de subbanda complejas como entrada y genera una señal de salida PCM de valor real. La idea detrás de SBR es que las frecuencias superiores pueden reconstruirse a partir de las frecuencias inferiores utilizando sólo muy poca información de ayuda. En la práctica, esta reconstrucción se hace por medio de un banco de filtros espejo en cuadratura (QMF) complejo. Con el fin de llegar eficazmente a una señal descorrelacionada en el dominio de subbanda, las realizaciones de la invención utilizan un retardo dependiente de frecuencia (o índice de subbanda) en el dominio de subbanda, tal como se da a conocer con más detalle en la solicitud de patente europea a nombre del solicitante, presentada el 17 de abril de 2003, titulada "Audio signal generation" (agente nº PH07NL030447). Puesto que el banco de filtros QMF complejo no se muestrea fundamentalmente, no necesitan tomarse previsiones adicionales con el fin de explicar el solapamiento (aliasing). Obsérvese que en el descodificador SBR tal como se da a conocer por Ekstrand, el banco de QMF de análisis consiste en sólo 32 bandas, mientras que el banco de QMF de síntesis consiste en 64 bandas, puesto que el descodificador central se ejecuta a la mitad de la frecuencia de muestreo comparado con el descodificador de audio entero. En el codificador correspondiente, sin embargo, se utiliza un banco de QMF de análisis de 64 bandas para cubrir todo el intervalo de frecuencia.

\newpage

La figura 2 es un diagrama de bloques de un descodificador mejorado en ancho de banda (BWE, Bandwitdth Enhanced) que utiliza la técnica de replicación de banda espectral (SBR) tal como se da a conocer en la norma ISO/IEC de MPEG-4 14496-3:2001/FDAM1, JTC1/SC29/WG11, Coding of Moving Pictures and Audio, Bandwidth Extension (Codificación de imágenes en movimiento y audio, extensión de ancho de banda). La parte central del flujo de bits se descodifica utilizando el descodificador central, que puede ser por ejemplo un descodificador de capa III de MPEG-1 (mp3) o AAC. Normalmente, un descodificador de este tipo se ejecuta a la mitad de la frecuencia de muestreo de salida (fs/2). Con el fin de sincronizar los datos SBR con los datos centrales, se introduce un retardo "D" (288 muestras PCM en la norma MPEG-4). La señal resultante se alimenta a un filtro espejo en cuadratura (QMF) complejo de 32 bandas. Este filtro emite 32 muestras complejas por 32 muestras de entrada reales y por tanto se sobremuestrea por un factor de 2. En el generador de alta frecuencia (HF, High Frequency) (véase la figura 1), las frecuencias superiores, que no están cubiertas por el codificador central, se generan replicando (ciertas partes de) las frecuencias inferiores. La salida del generador de alta frecuencia se combina con las 23 subbandas inferiores en señales de 64 subbandas complejas. Posteriormente, el ajustador de envolvente ajusta las señales de subbanda de alta frecuencia replicadas a la envolvente deseada y añade componentes de ruido y sinusoidales adicionales tal como se denota mediante la parte SBR del flujo de bits. El número total de señales de 64 subbandas se alimenta a través del filtro de síntesis QMF complejo de 64 bandas para formar la señal de salida PCM (real).

La aplicación de transformadas adicionales, en un canal de subbanda, introduce un cierto retardo. En subbandas en las que no se incluyen transformadas y transformadas inversas, deberían introducirse los retardos para mantener la alineación de las señales de subbanda. Sin medidas especiales, el retardo adicional en las señales de subbanda así introducido, da como resultado una desalineación (es decir, fuera de sincronización) de los datos auxiliares o laterales y centrales tales como los datos SBR o datos estéreo paramétricos. En el caso de las subbandas con transformada inversa/transformada adicional y subbandas sin transformada adicional, el retardo adicional debería añadirse a las subbandas sin transformada. Dentro de SBR, el retardo adicional provocado mediante la operación de transformación y transformación inversa podría descontarse del retardo D.

Estos y otros aspectos de la invención son evidentes y se aclararán con referencia a las realizaciones descritas posteriormente en el presente documento.

En los dibujos:

la figura 1 es un diagrama de bloques de un descodificador estéreo paramétrico;

la figura 2 es un diagrama de bloques de un descodificador de audio que utiliza tecnología SBR;

la figura 3 muestra el procesamiento estéreo paramétrico en el dominio de subbanda según una realización de la invención;

la figura 4 es un diagrama de bloques que ilustra el retardo provocado por la transformada-transformada inversa TT^{-1} de la figura 3;

la figura 5 muestra un descodificador de audio ventajoso según una realización de la invención, que proporciona estéreo paramétrico, y

la figura 6 muestra un descodificador de audio ventajoso según una realización de la invención, que combina estéreo paramétrico con SBR.

Los dibujos sólo muestran aquellos elementos que son necesarios para entender la invención.

La figura 3 muestra el procesamiento estéreo paramétrico en el dominio de subbanda según una realización de la invención. La señal de entrada consiste en N señales de subbanda de entrada. En realizaciones prácticas, N es 32 ó 64. Las frecuencias inferiores se transforman, utilizando la transformada T para obtener una resolución de frecuencia superior, las frecuencias superiores se retardan, utilizando el retardo D_{T} para compensar el retardo introducido por la transformada. A partir de cada señal de subbanda, se crea también una señal de subbanda descorrelacionada por medio de la secuencia D_{x} de retardo en la que x es el índice de subbanda. Los bloques P denotan el procesamiento en dos subbandas a partir de una señal de subbanda de entrada, realizándose el procesamiento en una versión transformada de la señal de subbanda de entrada y una versión retardada y transformada de la señal de subbanda de entrada. El procesamiento puede comprender el mezclado, por ejemplo mediante matrizado y/o rotación, de la versión transformada y la versión transformada y retardada. La transformada T^{-1} denota la transformada inversa. D_{T} puede dividirse antes y después del bloque P. Las transformadas T pueden ser de diferente longitud, normalmente la baja frecuencia tiene una transformada más larga, lo que significa que de manera adicional debería introducirse también un retardo en los trayectos en los que la transformada es más corta que la transformada más larga. El retardo D frente al banco de filtros puede desplazarse después del banco de filtros. Cuando se coloca después del banco de filtros, puede eliminarse parcialmente porque las transformadas ya incorporan un retardo. La transformada es preferiblemente del tipo de transformada de coseno discreta modificada ("MDCT", Modified Discrete Cosine Transform), aunque pueden utilizarse también otras transformadas tales como la transformada rápida de Fourier. El procesamiento P no ocasiona habitualmente un retardo adicional.

La figura 4 es un diagrama de bloques que ilustra el retardo provocado por la transformada-transformada inversa TT^{-1} de la figura 3. En la figura 4, se visualizan 18 muestras de subbanda complejas mediante una ventana h[n]. Las señales complejas se dividen entonces en la parte real e imaginaria, que se transforman ambas, utilizando la MDCT en dos veces 9 valores reales. La transformada inversa de ambos conjuntos de 9 valores lleva de nuevo a 18 muestras de subbanda complejas que se visualizan y añaden y superponen con las 18 muestras de subbanda complejas previas. Tal como se ilustra en esta figura, las últimas 9 muestras de subbanda complejas no están completamente procesadas (es decir, superpuestas y añadidas), llevando a un retardo eficaz de la mitad de la longitud de la transformada, es decir 9 muestras (de subbanda). Por consiguiente, el retardo en un filtro de subbanda único debería compensarse en todas las demás subbandas en las que no se aplica transformación. Sin embargo, el introducir un retardo adicional a las señales de subbanda antes del procesamiento SBR (es decir la generación de HF y ajuste de envolvente) da como resultado una desalineación de los datos centrales y SBR. Con el fin de conservar esta alineación, el retardo D PCM tal como se muestra en la figura 2 puede colocarse justo después del QMF de análisis complejo de M bandas, que da como resultado de manera eficaz un retardo de D/M en cada subbanda. Por tanto, el requisito para la alineación de los datos centrales y SBR es que el retardo en todas las subbandas ascienda a D/M. Por lo tanto, mientras el retardo DT de la transformación añadida sea igual a o menor a D/M, puede conservarse la sincronización. Obsérvese que los elementos de retardo en el dominio de subbanda se vuelven del tipo complejo. En las realizaciones SBR prácticas, M=32. M puede también ser igual a N.

Obsérvese que en realizaciones prácticas, cada transformada T comprende dos MDCT y cada transformada T^{-1} inversa comprende dos IMDCT, tal como se describió anteriormente.

Las subbandas inferiores, en las que se introduce la transformación T, están cubiertas por el descodificador central. Sin embargo, aunque no se procesan mediante el ajustador de envolvente de la herramienta SBR, el generador de alta frecuencia de la herramienta SBR puede requerir sus muestras en el proceso de replicación. Por lo tanto, las muestras de estas subbandas inferiores también necesitan estar disponibles como "no transformadas". Esto requiere un retardo adicional (de nuevo complejo) de muestras de subbanda DT en estas subbandas. La operación de mezclado realizada sobre los valores reales y sobre los valores complejos de las muestras complejas puede ser igual.

La figura 5 muestra un descodificador de audio ventajoso según una realización de la invención, que proporciona estéreo paramétrico. Este flujo de bits se divide en coeficientes/parámetros mono y parámetros estéreo. En primer lugar, se utiliza un descodificador mono convencional para obtener la señal mono (compatible de forma retroactiva). Esta señal se analiza por medio de un banco de filtros de subbanda que divide la señal en un número de señales de subbanda. Los parámetros estéreo se utilizan para procesar las señales de subbanda a dos conjuntos de señales de subbanda, uno para el canal izquierdo y uno para el derecho. Utilizando dos filtros de síntesis de subbanda, estas señales se transforman al dominio de tiempo dando como resultado una señal estéreo (izquierda y derecha). El bloque de procesamiento estéreo se muestra en la figura 3.

La figura 6 muestra un descodificador de audio ventajoso según una realización de la invención, que combina estéreo paramétrico con SBR. El flujo de bits se divide en coeficientes/parámetros mono, parámetros SBR y parámetros estéreo. En primer lugar, se utiliza un descodificador mono convencional para obtener la señal mono (compatible de forma retroactiva). Esta señal se analiza por medio de un banco de filtros de subbanda que divide la señal en un número de señales de subbanda. Utilizando los parámetros SBR, se genera más contenido de HF, que utiliza posiblemente más subbandas que el bando de filtros de análisis. Los parámetros estéreo se utilizan para procesar las señales de subbanda a dos conjuntos de señales de subbanda, uno para el canal izquierdo y uno para el derecho. Utilizando dos filtros de síntesis de subbanda, estas señales se transforman al dominio de tiempo dando como resultado una señal estéreo (izquierda y derecha). El bloque de procesamiento estéreo se muestra en el diagrama de bloques de la figura 3.

Debería observarse que las realizaciones anteriormente mencionadas ilustran más que limitan la invención, y aquellos expertos en la técnica podrán diseñar muchas realizaciones alternativas sin salirse del alcance de las reivindicaciones adjuntas. En las reivindicaciones, ningún signo de referencia entre paréntesis debe interpretarse como limitativo de la reivindicación. El uso del artículo indefinido "un" o "una" que precede a un elemento o etapa no excluye la presencia de una pluralidad de tales elementos o etapas. El uso del verbo "comprender" y sus conjugaciones no excluye la presencia de elementos o etapas distintas a las expuestas en una reivindicación. La invención puede implementarse por medio de hardware que comprende varios elementos distintos, y por medio de un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumera varios medios, varios de estos medios pueden realizarse por uno y el mismo elemento de hardware. El mero hecho de que se enumeren ciertas medidas en reivindicaciones dependientes diferentes entre sí no indica que una combinación de estas medidas no pueda utilizarse con ventaja.

Claims

1. Método para sintetizar una señal de audio de salida sobre la base de una señal de audio de entrada en el dominio de tiempo, comprendiendo el método las etapas de:

- transformar la señal de audio de entrada en el dominio de tiempo a una señal de entrada en el dominio de subbanda que comprende una pluralidad de señales de subbanda de entrada;

- transformar (T) al menos una señal de subbanda de entrada desde el dominio de subbanda a un dominio de frecuencia de resolución superior para obtener al menos una señal transformada respectiva,

- retardar (D_{0...n}) y transformar la al menos una señal de subbanda de entrada al dominio de frecuencia de resolución superior para obtener al menos una señal retardada transformada respectiva;

- derivar (P) al menos dos señales procesadas a partir de una mezcla de la al menos una señal transformada y la al menos una señal retardada transformada,

- transformar (T^{-1}) a la inversa las señales procesadas desde el dominio de frecuencia de resolución superior al dominio de subbanda para obtener las señales de subbanda procesadas respectivas, y

- sintetizar la señal de audio de salida a partir de las señales de subbanda procesadas, incluyendo la sintetización una transformada desde el dominio de subbanda al dominio de tiempo.

2. Método según la reivindicación 1, en el que la transformación es una transformación de coseno y la transformación inversa es una transformación de coseno inversa.

3. Método según la reivindicación 1, en el que las señales de subbanda de entrada comprenden muestras complejas y en el que un valor real de una muestra compleja dada se transforma en una primera transformada y un valor complejo de la muestra compleja dada se transforma en una segunda transformada.

4. Método según la reivindicación 3, en el que la primera transformada y la segunda transformada son transformadas separadas pero iguales.

5. Método según la reivindicación 1, en el que el procesamiento comprende una operación matricial.

6. Método según la reivindicación 1, en el que el procesamiento comprende una operación de rotación.

7. Método según la reivindicación 1, en el que la al menos una señal de subbanda incluye la señal de subbanda que tiene la frecuencia más baja.

8. Método según la reivindicación 7, en el que la al menos una señal de subbanda consiste en de 2 a 8 señales de subbanda.

9. Método según la reivindicación 1, en el que la etapa de sintetización se realiza en un banco de filtros de subbanda para sintetizar una versión en el dominio de tiempo de la señal de audio de salida a partir de las señales de subbanda procesadas.

10. Método según la reivindicación 9, en el que el banco de filtros de subbanda es un banco de filtros de subbanda complejo.

11. Método según la reivindicación 9, en el que el banco de filtros de subbanda es un banco de filtros espejo en cuadratura.

12. Método según la reivindicación 1, en el que la señal de audio de entrada es una señal de audio mono y la señal de audio de salida es una señal de audio estéreo.

13. Método según la reivindicación 1, comprendiendo adicionalmente el método la etapa de:

- obtener un parámetro de correlación que es indicativo de una correlación deseada entre un primer canal y un segundo canal de la señal de audio de salida, en la que el procesamiento se dispone para obtener las señales procesadas combinar la señal transformada y la señal retardada transformada dependiendo del parámetro de correlación, y en la que el primer canal se deriva a partir de un primer conjunto de señales procesadas y el segundo canal a partir de un segundo conjunto de señales procesadas.

14. Método según la reivindicación 13, en el que cada señal procesada comprende una pluralidad de señales de subbanda de salida, y en el que un primer canal de dominio de tiempo y un segundo canal de dominio del tiempo se sintetizan sobre la base de las señales de subbanda de salida, respectivamente, preferiblemente en bancos de filtros de subbanda de síntesis respectivos.

15. Método según la reivindicación 1, en el que el método comprende adicionalmente las etapas de:

- derivar M subbandas para generar M señales de subbanda filtradas sobre la base de una señal de audio de núcleo de dominio de tiempo,

- generar una componente de señal de alta frecuencia derivada a partir de M señales de subbanda filtradas, teniendo la componente de señal de alta frecuencia N-M señales de subbanda, en la que N>M, incluyendo las N-M señales de subbanda señales de subbanda con una frecuencia superior a cualquiera de las subbandas en las M subbandas, formando juntas las M subbandas filtradas y las N-M subbandas la pluralidad de señales de subbanda de entrada.

16. Dispositivo para sintetizar una señal de audio de salida sobre la base de una señal de audio de entrada de dominio de tiempo, comprendiendo el dispositivo:

- medios para transformar la señal de audio de entrada de dominio de tiempo a una señal de entrada de dominio de subbanda que comprende una pluralidad de señales de subbanda de entrada;

- medios para transformar (T) al menos una señal de subbanda de entrada desde el dominio de subbanda a un dominio de frecuencia de resolución superior para obtener al menos una señal transformada respectiva,

- medios para retardar (D_{0...n}) y transformar la al menos una señal de subbanda de entrada al dominio de frecuencia de resolución superior para obtener al menos una señal retardada transformada respectiva;

- medios para derivar (P) al menos dos señales procesadas a partir de una mezcla de la al menos una señal transformada y la al menos una señal retardada transformada,

- medios para transformar (T^{-1}) a la inversa las señales procesadas desde el dominio de frecuencia de resolución superior al dominio de subbanda para obtener las señales de subbanda procesadas respectivas, y

- medios para sintetizar la señal de audio de salida a partir de las señales de subbanda procesadas, incluyendo la sintetización una transformada desde el dominio de subbanda al dominio del tiempo.

17. Aparato para suministrar una señal de audio de salida, comprendiendo el aparato:

- una unidad de entrada para obtener una señal de audio codificada,

- un descodificador para descodificar la señal de audio codificada para obtener una señal descodificada que incluye una pluralidad de señales de subbanda,

- un dispositivo según la reivindicación 16 para obtener la señal de audio de salida sobre la base de la señal descodificada, y

- una unidad de salida para suministrar la señal de audio de salida.

18. Producto de programa informático que incluye un código para ordenar a un ordenador realizar las siguientes etapas:

- transformar una señal de audio de entrada en el dominio del tiempo a una señal de entrada de dominio de subbanda que comprende una pluralidad de señales de subbanda de entrada;

- transformar (T) al menos una señal de subbanda de entrada desde el dominio de subbanda a un dominio de frecuencia de resolución superior para obtener al menos una señal transformada respectiva;

- transformar (T^{-1}) a la inversa las señales procesadas desde el dominio de frecuencia de resolución superior al dominio de subbanda para obtener señales de subbanda procesadas respectivas, y

- sintetizar la señal de audio de salida a partir de las señales de subbanda procesadas, incluyendo la sintetización una transformada desde el dominio de subbanda al dominio del tiempo.