ES2323275T3

ES2323275T3 - Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares.

Info

Publication number: ES2323275T3
Application number: ES05792350T
Authority: ES
Inventors: Eric Allamanche; Sascha Disch; Christof Faller; Juergen Herre
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Priority date: 2004-10-20
Filing date: 2005-09-07
Publication date: 2009-07-10
Anticipated expiration: 2025-09-07
Also published as: EP1803117B1; CA2582485C; JP4664371B2; TW200628001A; NO338919B1; TWI318079B; PL1803117T3; BRPI0516405A8; WO2006045371A1; AU2005299068B2; BRPI0516405A; CN101044551A; US7720230B2; JP2008517333A; KR20070061872A; KR100924576B1; PT1803117E; MX2007004726A; HK1106861A1; CN101044551B

Abstract

Método para codificar canales de audio, comprendiendo el método: generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado por la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que el uno o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y transmitir los dos o más códigos de indicación.

Description

Conformación de envolvente temporal de canal individual para esquemas de codificación de indicación binaural y similares.

Antecedentes de la invención

El contenido de esta solicitud está relacionado con el contenido las siguientes publicaciones de solicitudes estadounidenses:

\circ U.S. 2003/0026441;

\circ U.S. 2003/0035553;

\circ U.S. 2003/0219130;

\circ U.S. 2003/0236583;

\circ U.S. 2009/0180579;

\circ U.S. 2005/0058304;

\circ U.S. 2005/0157883; y

\circ U.S. 2006/0085200.

\vskip1.000000\baselineskip

El contenido de esta solicitud también está relacionado con el contenido descrito en los siguientes documentos:

\circ: F. Baumgarte y C. Faller, "Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003;

\circ: C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003; y

\circ: C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 17th Conv. Aud. Eng. Soc., octubre de 2004.

\vskip1.000000\baselineskip

Campo de la invención

La presente invención se refiere a la codificación de señales de audio y la síntesis posterior de escenas auditivas a partir de los datos de audio codificados.

Descripción de la técnica relacionada

Cuando una persona oye una señal de audio (esto es, sonidos) generados por una fuente de audio particular, la señal de audio llegará comúnmente en los oídos izquierdo y derecho de la persona en dos tiempos diferentes y con dos niveles de audio diferentes (por ejemplo, decibelios), en el que estos diferentes tiempos y niveles son en función de las diferencias en las trayectorias a través de las que viaja la señal de audio para llegar a los oídos izquierdo y derecho, respectivamente. El cerebro de la persona interpreta estas diferencias en tiempo y nivel para dar la persona la percepción de que la señal de audio recibida se está generando por una fuente de audio situada en una posición particular (por ejemplo, dirección y distancia) con respecto a la persona. Una escena auditiva es el efecto neto de una persona que escucha simultáneamente señales de audio generadas por una o más fuentes de audio diferentes situadas en una o más posiciones diferentes con respecto a la persona.

La existencia de este procesamiento por el cerebro puede usarse para sintetizar escenas auditivas, en el que señales de audio de una o más fuentes de audio diferentes se modifican intencionadamente para generar señales de audio izquierda y derecha que dan la percepción de que las diferentes fuentes de audio están ubicadas en diferentes posiciones con respecto al oyente.

La figura 1 muestra un diagrama de bloques de alto nivel del sintetizador 100 de señales binaural convencional, que convierte una única señal de fuente de audio (por ejemplo, una señal mono) en las señales de audio izquierda y derecha de una señal binaural, definiéndose una señal binaural como las dos señales recibidas en los tímpanos de un oyente. Además de la señal de fuente de audio, el sintetizador 100 recibe un conjunto de indicaciones espaciales correspondientes a la posición deseada de la fuente de audio con respecto al oyente. En implementaciones típicas, el conjunto de indicaciones espaciales comprende un valor de diferencia de nivel intercanal (ICLD) (que identifica la diferencia de nivel de audio entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente) y un valor de diferencia de tiempo intercanal (ICTD) (que identifica la diferencia de tiempo de llegada entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente). Además o como alternativa, algunas técnicas de síntesis implican el modelado de una función de transferencia dependiente de la dirección para el sonido desde la fuente de señal hacia los tímpanos, también denominada como la función de transferencia relacionada con la cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

Utilizando el sintetizador 100 de señales binaural de la figura 1, la señal de audio mono generada por una única fuente de sonido puede procesarse de tal manera que, cuando se escucha mediante auriculares, la fuente de sonido está colocada espacialmente aplicando un conjunto apropiado de indicaciones espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal de audio para cada oído. Véase, por ejemplo, D. R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.

El sintetizador 100 de señales binaural de la figura 1 genera el tipo más simple de escenas auditivas: aquellas que tienen una única fuente de audio colocada con respecto al oyente. Pueden generarse escenas auditivas más complejas que comprenden dos o más fuentes de audio ubicadas en diferentes posiciones con respecto al oyente utilizando un sintetizador de escena auditiva que se implementa esencialmente utilizando múltiples instancias del sintetizador de señales binaural, generando cada instancia de sintetizador de señales binaural la señal binaural correspondiente a una fuente de audio diferente. Puesto que cada fuente de audio diferente tiene una ubicación diferente con respecto al oyente, se usa un conjunto diferente de indicaciones espaciales para generar la señal de audio binaural para cada fuente de audio diferente.

Un objeto de la presente invención es proporcionar un concepto mejorado para la codificación de audio.

Este objeto se consigue mediante un método para codificar según la reivindicación 1, un aparato para codificar según la reivindicación 14, un producto de programa informático según la reivindicación 17, un flujo de bits de audio codificado según la reivindicación 18, un método para descodificar según la reivindicación 20, un aparato para descodificar según la reivindicación 39 y un producto de programa informático según la reivindicación 41. El documento US 5.812.971 (HERRE) da a conocer un método de codificación estéreo de intensidad de señales de audio multicanal usando conformación de envolvente temporal.

El artículo 6447 de la Convención AES, J. Herre et. al, "The Reference Model Architecture for MPEG Spatial Audio Coding", da a conocer una forma en la que no se tiene una representación totalmente discreta de sonido multicanal, sino que se tiene una tasa de transmisión compatible estéreo sólo ligeramente superior a las tasas habitualmente usadas para sonido mono/estéreo. Específicamente, se usan elementos OTT y TTT que se basan en parámetros de diferencias de nivel y parámetros de correlación cruzada/coherentes intercanal que representan la coherencia variable en tiempo/frecuencia o correlación cruzada entre dos canales de entrada.

La publicación técnica "Parametric Coding of Spatial Audio", C. Faller, Proceedings of the 7th International Conference on Digital Audio Effect, Nápoles, Italia, 5 de octubre de 2004, páginas 151 a 156, da a conocer la tecnología BCC. BCC representa señales de audio estéreo o multicanal como un único o más canales de audio mezclados descendentemente más información lateral. La información lateral contiene las indicaciones intercanal inherentes en la señal de audio original que son relevantes para la percepción de propiedades de la imagen espacial auditiva. Se comenta la relación entre las indicaciones intercanal y atributos de la imagen espacial auditiva de audio.

Breve descripción de las figuras

Otros aspectos, elementos y ventajas de la presente invención resultarán más plenamente evidentes a partir de la siguiente descripción detallada, las reivindicaciones adjuntas y los dibujos adjuntos en los que los mismos números de referencia identifican elementos similares o idénticos.

La figura 1 muestra un diagrama de bloques de alto nivel del sintetizador de señales binaural convencional;

la figura 2 es un diagrama de bloques de un sistema de procesamiento de audio de codificación de indicación binaural (BCC) genérico;

la figura 3 muestra un diagrama de bloques de un mezclador descendente que puede usarse para el mezclador descendente de la figura 2;

la figura 4 muestra un diagrama de bloques de un sintetizador BCC que puede usarse para el descodificador de la figura 2;

la figura 5 muestra un diagrama de bloques del estimador BCC de la figura 2 según una realización de la presente invención;

la figura 6 ilustra la generación de datos de ICTD e ICLD para audio de cinco canales;

la figura 7 ilustra la generación de datos de ICC para audio de cinco canales;

la figura 8 muestra un diagrama de bloques de una implementación del sintetizador BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estereofónica o multicanal dada una señal s(n) de suma transmitida individual más las indicaciones espaciales;

la figura 9 ilustra cómo ICTD e ICLD se modifican dentro de una subbanda en función de la frecuencia;

la figura 10 muestra un diagrama de bloques del procesamiento en el dominio de tiempo que se añade a un codificador BCC, tal como el codificador de la figura 2, según una realización de la presente invención;

la figura 11 ilustra una aplicación en el dominio de tiempo a modo de ejemplo de procesamiento TP en el contexto del sintetizador BCC de la figura 4;

la figura 13 muestra un diagrama de bloques del procesamiento en el dominio de frecuencia que se añade a un codificador BCC, tal como el codificador de la figura 2, según una realización alternativa de la presente invención;

la figura 14 ilustra una aplicación en el dominio de frecuencia a modo de ejemplo de procesamiento TP en el contexto del sintetizador BCC de la figura 4;

la figura 15 muestra un diagrama de bloques del procesamiento en el dominio de frecuencia que se añade a un codificador BCC, tal como el codificador de la figura 2, según otra realización alternativa de la presente invención;

la figura 16 ilustra otra aplicación en el dominio de frecuencia a modo de ejemplo de procesamiento TP en el contexto del sintetizador BCC de la figura 4;

las figuras 17(a)-(c) muestran diagramas de bloques de implementaciones posibles de los TPA de las figuras 15 y 16 e ITP y TP de la figura 16; y

las figuras 18(a) y (b) ilustran dos modos ejemplares de operación del bloque de control de la figura 16.

\vskip1.000000\baselineskip

Descripción detallada

En la codificación de indicación binaural (BCC), un codificador codifica C canales de audio de entrada para generar E canales de audio transmitidos, siendo C>E\geq1. En particular, dos o más de los C canales de entrada se proporcionan en un dominio de frecuencia y se generan uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada en el dominio de frecuencia. Además, los C canales de entrada se mezclan descendentemente (downmix) para generar los E canales transmitidos. En algunas implementaciones de mezcla descendente, al menos uno de los E canales transmitidos está basado en dos o más de los C canales de entrada y al menos uno de los E canales transmitidos está basado en solamente uno solo de los C canales de entrada.

En una realización, un codificador BCC tiene dos o más bancos de filtros, un estimador de código y un mezclador descendente. Los dos o más bancos de filtros convierten dos o más de los C canales de entrada de un dominio de tiempo a un dominio de frecuencia. El estimador de código genera uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada convertidos. El mezclador descendente mezcla descendentemente los C canales de entrada para generar los E canales transmitidos, siendo C>E\geq1.

En la descodificación BCC, se descodifican E canales de audio transmitidos para generar C canales de audio de reproducción. En particular, para cada una de una o más bandas de frecuencia diferentes, uno o más de los E canales transmitidos se mezclan ascendentemente (upmix) en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. Uno o más códigos de indicación se aplican a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados, y los dos o más canales modificados se convierten del dominio de frecuencia a un dominio de tiempo. En algunas implementaciones de mezcla ascendente, al menos uno de los C canales de reproducción está basado en al menos uno de los E canales transmitidos y al menos un código de indicación, y al menos uno de los C canales de reproducción está basado en solamente uno solo de los E canales transmitidos e independiente de cualquier código de indicación.

En una realización, un descodificador BCC tiene un mezclador ascendente, un sintetizador y uno o más bancos de filtros inversos. Para cada una de una o más bandas de frecuencia diferentes, el mezclador ascendente mezcla ascendentemente uno o más de los E canales transmitidos en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. El sintetizador aplica uno o más códigos de indicación a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados. El uno o más bancos de filtros inversos convierten los dos o más canales modificados del dominio de frecuencia a un dominio de tiempo.

Dependiendo de la implementación particular, un canal de reproducción dado puede basarse en un único canal transmitido, en lugar de una combinación de dos o más canales transmitidos. Por ejemplo, cuando hay solamente un canal transmitido, cada uno de los C canales de reproducción está basado en ese canal transmitido. En estas situaciones, la mezcla ascendente corresponde a copiar el canal transmitido correspondiente. Como tal, para aplicaciones en las que hay solamente un canal transmitido, el mezclador ascendente puede implementarse utilizando un replicador que copia el canal transmitido para cada canal de reproducción.

Pueden incorporarse codificadores y/o descodificadores BCC a diversos sistemas o aplicaciones entre los que se incluyen, por ejemplo, grabadores/reproductores de vídeo digital, grabadores/reproductores de audio digital, ordenadores, transmisores/receptores de satélite, transmisores/receptores de cable, transmisores/receptores de difusión terrestre, sistemas de entretenimiento en casa y sistemas de cine.

\vskip1.000000\baselineskip

Procesamiento BCC genérico

La figura 2 es un diagrama de bloques de un sistema 200 de procesamiento de audio de codificación de indicación binaural (BCC) genérico que comprende un codificador 202 y un descodificador 204. El codificador 202 incluye el mezclador 206 descendente y el estimador 208 BCC.

El mezclador 206 descendente convierte C canales de audio de entrada x_{i}(n) en E canales de audio transmitidos y_{i}(n), siendo C>E\geq1. En esta memoria descriptiva, las señales expresadas utilizando la variable n son señales en el dominio de tiempo, mientras que las señales expresadas utilizando la variable k son señales en el dominio de frecuencia. Dependiendo de la implementación particular, se puede implementar la mezcla descendente o bien en el dominio de tiempo o bien en el dominio de frecuencia. El estimador 208 BCC genera códigos BCC a partir de los C canales de audio de entrada y transmite estos códigos BCC como información lateral o bien en banda o bien fuera de banda con respecto a los E canales de audio transmitidos. Códigos BCC típicos incluyen uno o más de datos de diferencia de tiempo intercanal (ICTD), de diferencia de nivel intercanal (ICLD) y de correlación intercanal (ICC) estimados entre ciertos pares de canales de entrada en función de la frecuencia y el tiempo. La implementación particular determinará entre qué pares particulares de canales de entrada se estiman los códigos BCC.

Los datos ICC corresponden a la coherencia de una señal binaural, que está relacionada con el ancho percibido de la fuente de audio. Cuanto más ancha es la fuente de audio, más baja es la coherencia entre los canales izquierdo y derecho de la señal binaural resultante. Por ejemplo, la coherencia de la señal binaural correspondiente a una orquesta dispersada por el escenario de un auditorio es normalmente más baja que la coherencia de la señal binaural correspondiente a un único violín que toca un solo. En general, una señal de audio con coherencia más baja se percibe habitualmente como más esparcida por el espacio auditivo. Como tal, los datos ICC se refieren normalmente al ancho de fuente aparente y en qué grado queda envuelto el oyente. Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

Dependiendo de la aplicación particular, los E canales de audio transmitidos y los correspondientes códigos BCC pueden transmitirse directamente al descodificador 204 o almacenarse en algún tipo apropiado de dispositivo de almacenamiento para su posterior acceso por el descodificador 204. Dependiendo de la situación, el término "transmisión" se puede referir o bien a la transmisión directa a un descodificador o al almacenamiento para su posterior facilitación a un descodificador. Ya sea en un caso u otro, el descodificador 204 recibe los canales de audio transmitidos y la información lateral y efectúa una mezcla ascendente y una síntesis BCC utilizando los códigos BCC para convertir los E canales de audio transmitidos en más de E (normalmente, aunque no necesariamente C) canales de audio de reproducción \hat{x}_{i}(n) para la reproducción de audio. Dependiendo de la implementación particular, la mezcla ascendente puede efectuarse o bien en el dominio de tiempo o bien en el dominio de frecuencia.

Además del procesamiento BCC mostrado en la figura 2, un sistema de procesamiento de audio BCC genérico puede incluir fases de codificación y descodificación adicionales, para comprimir adicionalmente las señales de audio en el codificador y luego descomprimir las señales de audio en el descodificador, respectivamente. Estos códecs de audio pueden basarse en técnicas de compresión/descompresión de audio convencionales, tales como las basadas en modulación por código de impulso (PCM), PCM diferencial (DPCM) o DPCM adaptativa (ADPCM).

Cuando el mezclador 206 descendente genera una única señal de suma (es decir, E = 1), la codificación BCC puede representar señales de audio multicanal a una tasa de transmisión de bits sólo ligeramente superior a la que se requiere para representar una señal de audio mono. Esto es así debido a que los datos ICTD, ICLD e ICC estimados entre un par de canales contienen aproximadamente dos órdenes de magnitud menos de información que una forma de onda de audio.

No sólo es interesante la baja tasa de transmisión de bits de la codificad BCC, sino también su aspecto de compatibilidad hacia atrás. Una única señal de suma transmitida corresponde a una mezcla descendente mono de la señal estéreo o multicanal original. Para receptores que no soportan reproducción de sonido estéreo o multicanal, escuchar la señal de suma transmitida es un método válido para presentar el material de audio en equipos de reproducción mono de bajo perfil. Por consiguiente, la codificación BCC puede usarse también para mejorar los servicios existentes que implican la entrega de material de audio mono hacia audio multicanal. Por ejemplo, los sistemas de emisión de radio de audio mono pueden mejorarse para la reproducción estéreo o multicanal si la información lateral BCC puede incrustarse en el canal de transmisión existente. Existen capacidades análogas cuando se mezcla descendentemente audio multicanal en dos señales de suma que corresponden a audio estéreo.

BCC procesa señales de audio con una cierta resolución de tiempo y de frecuencia. La resolución de frecuencia usada está motivada en gran medida por la resolución de frecuencia del sistema auditivo humano. La psicoacústica sugiere que la percepción espacial está más probablemente basada en una representación de banda crítica de la señal de entrada acústica. Esta resolución de frecuencia se considera utilizando un banco de filtros invertible (por ejemplo, basado en una transformada de Fourier rápida (FFT) o un filtro de espejo en cuadratura (QMF)) con subbandas con anchos de banda iguales o proporcionales al ancho de banda crítico del sistema auditivo humano.

\vskip1.000000\baselineskip

Mezcla descendente genérica

En implementaciones preferidas, la(s) señal(es) de suma transmitida(s) contiene(n) todas las componentes de señal de la señal de audio de entrada. El objetivo es que cada componente de señal se mantenga plenamente. La simple suma de los canales de audio de entrada da como resultado frecuentemente amplificación o atenuación de las componentes de señal. En otras palabras, la potencia de las componentes de señal en una "simple" suma es frecuentemente más grande o más pequeña que la suma de la potencia de la componente de señal correspondiente de cada canal. Se puede usar una técnica de mezcla descendente que ecualiza la señal de suma, de tal manera que la potencia de las componentes de señal en la señal de suma es aproximadamente la misma que la potencia correspondiente en todos los canales de entrada.

La figura 3 muestra un diagrama de bloques de un mezclador 300 descendente que puede usarse para el mezclador 206 descendente de la figura 2 según ciertas implementaciones del sistema 200 BCC. El mezclador 300 descendente tiene un banco 302 de filtros (FB) para cada canal de entrada x_{i}(n), un bloque 304 de mezcla descendente, un bloque 306 de ajuste a escala/retardo opcional y un FB 308 inverso (IFB) para cada canal codificado y_{i}(n).

Cada banco 302 de filtros convierte cada trama (por ejemplo 20 ms) de un canal de entrada digital x_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{x}_{i}(k) en el dominio de frecuencia. El bloque 304 de mezcla descendente mezcla descendentemente cada subbanda de C coeficientes de entrada correspondientes en una subbanda correspondiente de E coeficientes en el dominio de frecuencia mezclados descendentemente. La ecuación (1) representa la mezcla descendente de la k-ésima subbanda de coeficientes de entrada (\tilde{x}_{1}(k),\tilde{x}_{2}(k),...,\tilde{x}_{C}(k)) para generar la k-ésima subbanda de coeficientes mezclados descendentemente (\hat{y}_{1}(k),\hat{y}_{2}(k),...,\hat{y}_{E}(k)) como sigue:

\vskip1.000000\baselineskip

1

\vskip1.000000\baselineskip

donde D_{CE} es un matriz de mezcla descendente de C por E de valor real.

El bloque 306 de ajuste a escala/retardo opcional comprende un conjunto de multiplicadores 310, cada uno de los cuales multiplica un coeficiente mezclado descendentemente \hat{y}_{i}(k) correspondiente por un factor de ajuste a escala e_{i}(k) para generar un coeficiente ajustado a escala \hat{y}_{i}(k) correspondiente. La motivación para la operación de ajuste a escala es equivalente a la ecualización generalizada para la mezcla descendente con factores de ponderación arbitrarios para cada canal. Si los canales de entrada son independientes, entonces la potencia P_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente en cada subbanda viene dada por la ecuación (2) como sigue:

\vskip1.000000\baselineskip

2

\vskip1.000000\baselineskip

donde \overline{D}_{CE} se obtiene elevando al cuadrado cada elemento de matriz en la matriz D_{CE} de mezcla descendente de C por E y P_{\tilde{x}_{i}(k)} es la potencia de la subbanda k del canal de entrada i.

\newpage

Si las subbandas no son independientes, entonces los valores de potencia P_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente serán más grandes o más pequeños que el calculado utilizando la ecuación (2), debido a amplificaciones o cancelaciones de señal cuando las componentes de señal están en fase o fuera de fase, respectivamente. Para impedir esto, la operación de mezcla descendente de la ecuación (1) se aplica en subbandas seguida por la operación de ajuste a escala de los multiplicadores 310. Los factores de ajuste a escala e_{i}(k) (1\leqi\leqE) pueden obtenerse utilizando la ecuación (3) como sigue:

\vskip1.000000\baselineskip

3

\vskip1.000000\baselineskip

donde P_{\tilde{y}_{i}(k)} es la potencia de subbanda calculada por la ecuación (2) y P_{\tilde{y}_{i}(k)} es la potencia de la señal de subbanda mezclada descendentemente \hat{y}_{i}(k) correspondiente.

Además de o en lugar de proporcionar el ajuste a escala opcional, el bloque 306 de ajuste a escala/retardo puede aplicar opcionalmente retardos a las señales.

Cada banco 308 de filtros inversos convierte un conjunto de coeficientes ajustados a escala \tilde{y}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal transmitido digital y_{i}(n) correspondiente.

Aunque la figura 3 muestra todos los C canales de entrada convertidos al dominio de frecuencia para la posterior mezcla descendente, en implementaciones alternativas, uno o más (pero menos que C-1) de los C canales de entrada podrían saltarse parte de o todo el procesamiento mostrado en la figura 3 y transmitirse como un número equivalente de canales de audio sin modificar. Dependiendo de la implementación particular, estos canales de audio sin modificar podrían o no usarse por el estimador 208 BCC de la figura 2 en la generación de los códigos BCC transmitidos.

En una implementación del mezclador 300 descendente que genera una única señal de suma y(n), E=1 y las señales \tilde{x}_{c}(k) de cada subbanda de cada canal de entrada C se suman y luego se multiplican por un factor e(k), según la ecuación (4) como sigue:

\vskip1.000000\baselineskip

4

\vskip1.000000\baselineskip

el factor e(k) viene dado por la ecuación (5) como sigue:

\vskip1.000000\baselineskip

5

\vskip1.000000\baselineskip

donde P_{\tilde{x}_{c}}(k) es un valor estimativo temporal de la potencia de \tilde{x}_{c}(k) en el índice de tiempo k, y P_{\tilde{x}}(k) es un valor estimativo temporal de la potencia de \sum^{C}_{c=1}\tilde{x}_{c}(k). Las subbandas ecualizadas se transforman de regreso al dominio de tiempo dando como resultado la señal de suma y(n) que se transmite al descodificador BCC.

\vskip1.000000\baselineskip

Síntesis BCC genérica

La figura 4 muestra un diagrama de bloques de un sintetizador 400 BCC que puede usarse por el descodificador 204 de la figura 2 según ciertas implementaciones del sistema 200 BCC. El sintetizador 400 BCC tiene un banco 402 de filtros para cada canal transmitido y_{i}(n), un bloque 404 de mezcla ascendente, retardos 406, multiplicadores 408, bloque 410 de correlación y un banco 412 de filtros inversos para cada canal de reproducción \hat{x}_{i}(n).

Cada banco 402 de filtros convierte cada trama de un canal transmitido digital y_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{y}_{i}(k) en el dominio de frecuencia. El bloque 404 de mezcla ascendente mezcla ascendentemente cada subbanda de E coeficientes de canal transmitido correspondientes en una subbanda correspondiente de C coeficientes en el dominio de frecuencia mezclados ascendentemente. La ecuación (4) representa la mezcla ascendente de la k-ésima subbanda de coeficientes de canal transmitidos (\tilde{y}_{1}(k),\tilde{y}_{2}(k),...,\tilde{y}_{E}(k)) para generar la k-ésima subbanda de coeficientes mezclados ascendentemente (\tilde{s}_{1}(k),\tilde{s}_{2}(k),...,\tilde{s}_{C}(k)) como sigue:

6

donde U_{EC} es una matriz de mezcla ascendente de E por C de valor real. Efectuar la mezcla ascendente en el dominio de frecuencia permite que aplicar la mezcla ascendente individualmente en cada subbanda diferente.

Cada retardo 406 aplica un valor de retardo d_{i}(k) basándose en un código BCC correspondiente para datos ICTD para garantizar que los valores ICTD deseados aparecen entre ciertos pares de canales de reproducción. Cada multiplicador 408 aplica un factor de ajuste a escala a_{i}(k) basándose en un código BCC correspondiente para datos ICLD para garantizar que los valores ICLD deseados aparecen entre ciertos pares de canales de reproducción. El bloque 410 de correlación efectúa una operación de decorrelación A basándose en códigos BCC correspondientes para datos ICC para garantizar que los valores ICC deseados aparecen entre ciertos pares de canales de reproducción. Una descripción adicional de las operaciones del bloque 410 de correlación puede encontrarse en el documento US 2003/0219130.

La síntesis de valores ICLD puede ser menos problemática que la síntesis de valores ICTD e ICC, puesto que la síntesis ICLD implica meramente el ajuste a escala de señales de subbanda. Puesto que las indicaciones ICL son las indicaciones direccionales usadas más habitualmente, usualmente es más importante que los valores ICLD se aproximen a los de la señal de audio original. Como tal, los datos ICLD podrían estimarse entre todos los pares de canales. Los factores de ajuste a escala a_{i}(k) (1\leqi\leqC) para cada subbanda se escogen preferiblemente de tal manera que la potencia de subbanda de cada canal de reproducción se aproxime a la potencia correspondiente del canal de audio de entrada original.

Un objetivo puede ser aplicar relativamente pocas modificaciones de señal para sintetizar valores ICTD e ICC. Como tal, los datos BCC podrían no incluir valores ICTD e ICC para todos los pares de canales. En ese caso, el sintetizador 400 BCC sintetizaría valores ICTD e ICC solamente entre ciertos pares de canales.

Cada banco 412 de filtros inversos convierte un conjunto de coeficientes sintetizados \tilde{\hat{x}}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal de reproducción digital \hat{x}_{i}(n) correspondiente.

Aunque la figura 4 muestra todos los E canales transmitidos convertidos al dominio de frecuencia para la posterior mezcla ascendente y procesamiento BCC, en implementaciones alternativas, uno o más (pero no todos) los E canales transmitidos podrían saltarse parte de o todo el procesamiento mostrado en la figura 4. Por ejemplo, uno o más de los canales transmitidos pueden ser canales sin modificar que no se someten a mezcla ascendente. Además de ser uno o más de los C canales de reproducción, estos canales sin modificar podrían, a su vez, aunque no tienen que, usarse como canales de referencia a los que se aplica procesamiento BCC para sintetizar uno o más de los otros canales de reproducción. Ya sea en un caso u otro, tales canales sin modificar pueden someterse a retardos para compensar el tiempo de procesamiento que conlleva la mezcla ascendente y/o procesamiento BCC usado para generar el resto de los canales de reproducción.

Obsérvese que, aunque la figura 4 muestra C canales de reproducción sintetizados a partir de E canales transmitidos, en el que C era también el número de canales de entrada originales, la síntesis BCC no está limitada a ese número de canales de reproducción. En general, el número de canales de reproducción puede ser cualquier número de canales, incluyendo números mayores o menores que C y posiblemente incluso situaciones en las que el número de canales de reproducción es igual o menor que el número de canales transmitidos.

\vskip1.000000\baselineskip

"Diferencias perceptivamente relevantes" entre canales de audio

Suponiendo una única señal de suma, BCC sintetiza una señal de audio estéreo o multicanal de tal manera que ICTD, ICLD, e ICC se aproximan a las indicaciones correspondientes de la señal de audio original. A continuación se comenta el papel de ICTD, ICLD, e ICC con respecto a los atributos de imagen espacial auditivos.

El conocimiento acerca de la audición espacial implica que para un evento auditivo, ICTD e ICC están relacionados con la dirección percibida. Cuando se consideran respuestas impulsivas binaurales en salas (BRIR) de una fuente, hay una relación entre el ancho del evento auditivo y cómo queda envuelto el oyente y los datos ICC estimados para partes tempranas y tardías de las BRIR. Sin embargo, la relación entre ICC y estas propiedades para señales generales (y no solo las BRIR) no es directa.

Las señales de audio estéreo y multicanal contienen usualmente una mezcla compleja de señales de fuente simultáneamente activas superpuestas por las componentes de señal reflejada resultantes de la grabación en espacios cerrados o agregadas por el técnico de grabación para crear artificialmente una impresión espacial. Señales de diferentes fuentes y sus reflejos ocupan diferentes regiones en el plano de tiempo-frecuencia. Esto se refleja por ICTD, ICLD e ICC, que varían en función del tiempo y la frecuencia. En este caso, la relación entre ICTD, ICLD e ICC instantáneos y direcciones de eventos auditivos e impresión espacial no es obvia. La estrategia de ciertas realizaciones BCC es sintetizar ciegamente estas indicaciones, de tal manera que se aproximen a las indicaciones correspondientes de la señal de audio original.

Se utilizan bancos de filtros con subbandas de anchos de banda iguales a dos veces el ancho de banda rectangular equivalente (ERB). La escucha informal revela que la calidad de audio BCC no mejora notablemente cuando se escoge una resolución de frecuencia más alta. Una resolución de frecuencia más baja puede ser deseable, puesto que da como resultado menos valores ICTD, ICLD e ICC que necesitan transmitirse al descodificador y así una tasa de transmisión de bits más baja.

Con respecto a la resolución de tiempo, ICTD, ICLD e ICC se consideran normalmente a intervalos de tiempo regulares. Se obtiene un rendimiento alto cuando ICTD, ICLD e ICC se consideran aproximadamente cada 4 a 16 ms. Obsérvese que, a menos que las indicaciones se consideren a intervalos de tiempo muy cortos, el efecto de precedencia no se considera directamente. Suponiendo un par clásico adelanto-retraso de estímulos de sonido, si el adelanto y el retraso caen en un intervalo de tiempo en el que solamente está sintetizado un conjunto de indicaciones, entonces la dominancia de localización del adelanto no se considera. A pesar de esto, BCC obtiene calidad de audio reflejada en una puntuación MUSHRA promedio de aproximadamente 87 es decir, calidad de audio "excelente") en promedio y hasta casi 100 para ciertas señales de audio.

La diferencia perceptivamente pequeña frecuentemente obtenida entre la señal de referencia y la señal sintetizada implica que las indicaciones relacionadas con un amplio intervalo de atributos de imagen espacial auditivos se consideran implícitamente al sintetizar ICTD, ICLD e ICC a intervalos de tiempo regulares. A continuación se dan algunos argumentos de cómo ICTD, ICLD e ICC pueden relacionarse con un intervalo de atributos de imagen espacial auditivos.

\vskip1.000000\baselineskip

Estimación de indicaciones espaciales

A continuación se describe cómo se estiman ICTD, ICLD e ICC. La tasa de transmisión de bits para la transmisión de estas indicaciones espaciales (cuantificadas y codificadas) puede ser de sólo unos pocos kb/s y, por tanto, con BCC, es posible transmitir señales de audio estéreo y multicanal a tasas de transmisión de bits próximas a la que se requiere para un único canal de audio.

La figura 5 muestra un diagrama de bloques del estimador 208 BCC de la figura 2, según una realización de la presente invención. El estimador 208 BCC comprende bancos 502 de filtros (FB), que pueden ser los mismos que los bancos 302 de filtros de la figura 3 y el bloque 504 de estimación, que genera indicaciones espaciales ICTD, ICLD e ICC para cada subbanda de frecuencia diferente generada por los bancos 502 de filtros.

\vskip1.000000\baselineskip

Estimación de ICTD, ICLD e ICC para señales estéreo

Se usan las siguientes medidas para ICTD, ICLD e ICC para señales de subbanda \tilde{x}_{1}(k) y \tilde{x}_{2}(k) correspondientes de dos canales de audio (por ejemplo estéreo):

\circ ICTD [muestras]:

7

\vskip1.000000\baselineskip

con un valor estimativo temporal de la función de correlación cruzada normalizada dada por la ecuación (8) como sigue:

8

\newpage

donde

9

\vskip1.000000\baselineskip

y P_{\tilde{x}_{1}\tilde{x}_{2}}(d,k) es un valor estimativo temporal de la media de \tilde{x}_{1}(k-d_{1})\tilde{x}_{2}(k-d_{2}).

\circ ICLD [dB]:

\vskip1.000000\baselineskip

10

\vskip1.000000\baselineskip

\circ ICC:

\vskip1.000000\baselineskip

11

\vskip1.000000\baselineskip

Obsérvese que se considera el valor absoluto de la correlación cruzada normalizada y c_{12}(k) tiene un intervalo de [0,1].

\vskip1.000000\baselineskip

Estimación de ICTD, ICLD e ICC para señales de audio de multicanal

Cuando hay más de dos canales de entrada, es normalmente suficiente definir ICTD e ICLD entre un canal de referencia (por ejemplo, canal número 1) y los otros canales, tal como se ilustra en la figura 6 para el caso de
C = 5 canales, en el que \tau_{1c}(k) y \DeltaL_{12}(k) denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1 y el
canal c.

En contraposición con ICTD e ICLD, ICC tiene normalmente más grados de libertad. La ICC tal como se define puede tener diferentes valores entre todos los pares de canales de entrada posibles. Para C canales, hay C(C-1)/2 pares de canales posibles; por ejemplo para 5 canales hay 10 pares de canales como se ilustra en la figura 7(a). Sin embargo, tal esquema requiere que, para cada subbanda en cada índice de tiempo, se estimen y transmitan los valores ICC de C(C-1)/2, dando como resultado una gran complejidad computacional y alta tasa de transmisión de bits.

Alternativamente, para cada subbanda, ICTD e ICLD determinan la dirección en la que se proporciona el evento auditivo de la componente de señal correspondiente en la subbanda. Un único parámetro ICC por subbanda puede por tanto usarse para describir la coherencia global entre todos los canales de audio. Pueden obtenerse buenos resultados estimando y transmitiendo indicaciones ICC solamente entre los dos canales con la mayor energía en cada subbanda en cada índice de tiempo. Esto está ilustrado en la figura 7(b), en la que para los instantes de tiempo k-1 y k, los pares de canales (3,4) y (1,2) son los más fuertes, respectivamente. Una regla heurística puede usarse para determinar ICC entre los otros pares de canales.

\vskip1.000000\baselineskip

Síntesis de indicaciones espaciales

La figura 8 muestra un diagrama de bloques de una implementación del sintetizador 400 BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estéreo o multicanal dada una señal de suma s(n) transmitida individual más las indicaciones espaciales. La señal de suma s(n) se descompone en subbandas, donde \tilde{s}(k) denota una de tales subbandas. Para generar las subbandas correspondientes de cada uno de los canales de salida, se aplican retardos d_{c}, factores de ajuste a escala a_{c}, y filtros h_{c} a la subbanda correspondiente de la señal de suma. (Por simplicidad de notación, el índice de tiempo k se ignora en los retardos, factores de ajuste a escala y filtros). Las ICTD se sintetizan imponiendo retardos, ICLD mediante ajuste a escala e ICC aplicando filtros de decorrelación. El procesamiento mostrado en la figura 8 se aplica independientemente a cada subbanda.

\newpage

Síntesis de ICTD

Los retardos d_{c} se determinan a partir de las ICTD \tau_{1c}(k) según la ecuación (12) como sigue:

12

El retardo para el canal de referencia d_{1} se calcula de tal manera que la magnitud máxima de los retardos d_{c} se minimiza. Cuanto menos se modifiquen las señales de subbanda, menos peligro hay de que se presenten artefactos. Si la tasa de toma de muestras de subbanda no proporciona resolución de tiempo suficientemente alta para la síntesis de ICTD, pueden imponerse retardos con mayor precisión utilizando filtros de todo paso apropiados.

\vskip1.000000\baselineskip

Síntesis de ICLD

Con el fin de que las señales de subbanda de salida tengan ICLD deseados \DeltaL_{12}(k) entre el canal c y el canal de referencia 1, los factores de ganancia a_{c} deben satisfacer la ecuación (13) como sigue:

13

Adicionalmente, las subbandas de salida preferiblemente se normalizan, de tal manera que la suma de la potencia de todos los canales de salida es igual a la potencia de la señal de suma de entrada. Puesto que la potencia de señal original total en cada subbanda se conserva en la señal de suma, esta normalización da como resultado que la potencia de subbanda absoluta para cada canal de salida se aproxima a la potencia correspondiente de la señal de audio de entrada del codificador original. Dadas estas restricciones, los factores de ajuste a escala a_{c} vienen dados por la ecuación (14) como sigue:

14

Síntesis de ICC

En ciertas realizaciones, el objetivo de la síntesis ICC es reducir la correlación entre las subbandas después que se hayan aplicado retardos y ajustes a escala, sin afectar a ICTD e ICLD. Esto puede lograrse diseñando los filtros h_{c} en la figura 8 de tal manera que ICTD e ICLD se modifican eficazmente en función de la frecuencia de tal manera que la variación promedio es cero en cada subbanda (banda crítica auditiva).

La figura 9 ilustra cómo se modifican ICTD e ICLD dentro de una subbanda en función de la frecuencia. La amplitud de la modificación de ICTD e ICLD determina el grado de decorrelación y se controla en función de ICC. Obsérvese que ICTD se modifican suavemente (tal como en la figura 9(a)), mientras que ICLD se modifican aleatoriamente (tal como en la figura 9(b)). Se podrían modificar ICLD tan suavemente como ICTD, pero esto daría como resultado más coloración de las señales de audio resultantes.

Otro método para sintetizar ICC, particularmente apropiado para síntesis ICC multicanal, se describe en más detalle en C. Faller, "Parametric multi-channel audio coding: Synthesis of coherence cues", IEEE Trans. on Speech and Audio Proc., 2003.

En función del tiempo y la frecuencia, se añaden cantidades específicas de reverberación tardía artificial a cada uno de los canales de salida para obtener una ICC deseada. Adicionalmente, se puede aplicar modificación espectral de tal manera que la envolvente espectral de la señal resultante se aproxima a la envolvente espectral de la señalada de audio original.

Otras técnicas de síntesis ICC relacionadas y no relacionadas para señales estéreo (o pares de canales de audio) se han presentado en E. Schuijers, W. Oomen, B. den Brinker, y J. Breebaart, "Advances in parametric coding for high-quality audio", en Preprint 114^{th} Conv. Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J. Roden, y L. Liljeryd, "Synthetic ambience in parametric stereo coding", en Preprint 117^{th} Conv. Aud. Eng. Soc., mayo de 2004.

\global\parskip0.930000\baselineskip

BCC de C a E

Como se ha descrito anteriormente, puede implementarse BCC con más de un canal de transmisión. Se ha descrito una variación de BCC que representa C canales de audio no como un único canal (transmitido), sino como E canales, denotado BCC de C a E. Hay (al menos) dos motivaciones para BCC de C a E:

\circ: BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas mono existentes para reproducción de audio estéreo o multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente BCC a través de la infraestructura mono existente, mientras que adicionalmente transmite la información lateral BCC. BCC de C a E es aplicable a codificación compatible hacia atrás de canal E de audio de canal C.

\circ: BCC de C a E introduce escalabilidad en cuanto a diferentes grados de reducción del número de canales trasmitidos. Se espera que cuantos más canales de audio se transmitan, mejor será la calidad de audio.

Detalles de procesamiento de señales para BCC de C a E, tal como cómo definir las indicaciones de ICTD, ICLD e ICC, se describen en el documento US 2005/0157883.

\vskip1.000000\baselineskip

Conformación de canal individual

En ciertas realizaciones, tanto BCC con un canal de transmisión como BCC de C a E implican algoritmos para la síntesis de ICTD, ICLD, y/o ICC. Usualmente, es suficiente sintetizar las indicaciones de ICTD, ICLD, y/o ICC aproximadamente cada 4 a 30 ms. Sin embargo, el fenómeno perceptivo de efecto de precedencia implica que hay instantes de tiempo específicos cuando en los que sistema auditivo humano evalúa indicaciones a una resolución de tiempo más alta (por ejemplo, cada 1 a 10 ms).

Un solo banco de filtros estático no puede proporcionar comúnmente resolución de frecuencia suficientemente alta, apropiada para la mayoría de los instantes de tiempo, al tiempo que proporciona resolución de tiempo suficientemente alta en instantes de tiempo en los que el efecto de precedencia se vuelve eficaz.

Ciertas realizaciones de la presente invención están dirigidas a un sistema que usa síntesis de ICTD, ICLD, y/o ICC de resolución de tiempo relativamente baja, al tiempo que agrega procesamiento adicional para tratar los instantes de tiempo en los que se requiere resolución de tiempo más alta. Adicionalmente, en ciertas realizaciones, el sistema elimina la necesidad de tecnología de conmutación de ventanas adaptativa de señal que es usualmente difícil de integrar en la estructura de un sistema. En ciertas realizaciones, se estiman las envolventes temporales de uno o más de los canales de audio de entrada del codificador original. Esto puede hacerse, por ejemplo, directamente mediante análisis de la estructura de tiempo de la señal o examinando la autocorrelación del espectro de la señal con respecto a la frecuencia. Ambos planteamientos se desarrollarán adicionalmente en los ejemplos de implementación posteriores. La información contenida en estas envolventes se transmite al descodificador (como códigos de indicación de envolvente) si se requiere perceptivamente y es ventajoso.

En ciertas realizaciones, el descodificador aplica cierto procesamiento para imponer estas envolventes temporales deseadas a sus canales de audio de salida:

\medcirc Esto puede conseguirse mediante procesamiento TP, por ejemplo, manipulación de la envolvente de la señal mediante multiplicación de las muestras en el dominio de tiempo de la señal con una función de modificación de amplitud que varía en el tiempo. Un procesamiento similar puede aplicarse a muestras espectrales/de subbanda si la resolución de tiempo de las subbandas es suficientemente alta (a costa de una resolución de frecuencia basta).

\medcirc Alternativamente, puede usarse una convolución/filtración de la representación espectral de la señal con respecto a la frecuencia de manera análoga a la usada en la técnica anterior con el fin de conformar el ruido de cuantificación de un codificador de audio de baja tasa de transmisión de bits o para mejorar señales codificadas estéreo de intensidad. Esto se prefiere si el banco de filtros tiene una resolución de frecuencia alta y por consiguiente una resolución de tiempo más bien baja. Para el planteamiento de convolución/filtración:

\medcirc El método de conformación de envolvente se extiende desde estéreo de intensidad a codificación multicanal de C a E.

\medcirc La técnica comprende un ajuste en el que la formación de envolvente se controla mediante información paramétrica (por ejemplo, banderas binarias) generadas por el codificador, pero se lleva a cabo realmente utilizando conjuntos de coeficientes de filtro derivados del descodificador.

\medcirc En otro ajuste, se transmiten conjuntos de coeficientes de filtro desde el codificador, por ejemplo solamente cuando es necesario perceptivamente y/o beneficioso.

Lo mismo es también cierto para el planteamiento dominio de tiempo/dominio de subbanda. Por consiguiente, pueden introducirse criterios (por ejemplo, detección de transitorios y un valor estimativo de tonalidad) para controlar adicionalmente la transmisión de información de envolvente.

\global\parskip1.000000\baselineskip

Puede haber situaciones en las que es favorable deshabilitar el procesamiento TP con el fin de evitar artefactos potenciales. Por si acaso, es una buena estrategia dejar el procesamiento temporal deshabilitado por defecto (esto es, BCC operaría según un esquema BCC convencional). El procesamiento adicional se habilita solamente cuando se espera que una resolución de tiempo más alta de los canales produzca mejora, por ejemplo, cuando se espera que el efecto de precedencia se vuelva activo.

Como se ha indicado anteriormente, este control de habilitación/deshabilitación puede lograrse mediante detección de transitorios. Esto es, si se detecta un transitorio, entonces el procesamiento TP se habilita. El efecto de precedencia es el más eficaz para los transitorios. La detección de transitorios puede usarse de manera anticipada para conformar, de manera eficaz, no solo transitorios individuales sino también las componentes de señal poco antes y después del transitorio. Maneras posibles para detectar transitorios incluyen:

\medcirc Observar la envolvente temporal de las señales de entrada del codificador BCC o señal(es) de suma BCC transmitida(s). Si hay un incremento repentino de energía, entonces es que se ha producido un transitorio.

\medcirc Examinar la ganancia de codificación predictiva lineal (LPC) tal como se estima en el codificador o descodificador. Si la ganancia de predicción de LPC excede un cierto umbral, entonces se puede suponer que la señal es transitoria o muy fluctuante. El análisis de LPC se calcula en la autocorrelación del espectro.

Adicionalmente, para impedir posibles artefactos en las señales tonales, el procesamiento TP preferiblemente no se aplica cuando la tonalidad de la(s) señal(es) de suma transmitida(s) es alta.

Según ciertas realizaciones de la presente invención, las envolventes temporales de los canales de audio originales individuales se estiman en un codificador BCC con el fin de habilitar un descodificador BCC para que genere canales de salida con envolventes temporales similares (o perceptivamente similares) a aquellas de los canales de audio originales. Ciertas realizaciones de la presente invención tratan el fenómeno del efecto de precedencia. Ciertas realizaciones de la presente invención implican la transmisión de códigos de indicación de envolvente además de los otros códigos BCC tales como ICLD, ICTD y/o ICC, como parte de la información lateral BCC.

En ciertas realizaciones de la presente invención, la resolución de tiempo para las indicaciones de envolvente temporal es más fina que la resolución de tiempo de otros códigos BCC (por ejemplo, ICLD, ICTD, ICC). Esto permite que la conformación de envolvente se realice dentro del periodo de tiempo proporcionado por una ventana de síntesis que corresponde a la longitud de un bloque de un canal de entrada para el cual se derivan los otros códigos BCC.

\vskip1.000000\baselineskip

Ejemplos de implementación

La figura 10 muestra un diagrama de bloques del procesamiento en el dominio de tiempo que se añade a un codificador BCC, tal como el codificador 202 de la figura 2, según una realización de la presente invención. Como se muestra en la figura 10(a), cada analizador 1002 de proceso temporal (TPA) estima la envolvente temporal de un canal de entrada original x_{c}(n) diferente, aunque en general puede analizarse cualquiera de uno o más de los canales de entrada.

La figura 10(b) muestra un diagrama de bloques de una posible implementación basada en el dominio de tiempo de TPA 1002 en la que las muestras de señales de entrada se elevan al cuadrado (1006) y luego se filtran paso bajo (1008) para caracterizar la envolvente temporal de la señal de entrada. En realizaciones alternativas, la envolvente temporal puede estimarse utilizando un método de autocorrelación/LPC o con otros métodos, por ejemplo, utilizando una transformada de Hilbert.

El bloque 1004 de la figura 10(a) parametriza, cuantifica y codifica las envolventes temporales estimadas antes de su transmisión como información de procesamiento temporal (TP) (esto es, códigos de indicación de envolvente) que se incluye en la información lateral de la figura 2.

En una realización, un detector (no mostrado) dentro del bloque 1004 determina si el procesamiento TP en el descodificador mejorará la calidad de audio, de tal manera que el bloque 1004 transmite información lateral de TP solamente durante aquellos instantes de tiempo en los que la calidad de audio mejorará mediante el procesamiento
TP.

La figura 11 ilustra una aplicación en el dominio de tiempo a modo de ejemplo del procesamiento TP en el contexto del sintetizador (400) BCC de la figura 4. En esta realización, hay una única señal de suma transmitida s(n), C señales base se generan mediante replicación de esa señal de suma y la conformación de envolvente se aplica individualmente a canales sintetizados diferentes. En realizaciones alternativas, el orden de retardos, ajuste a escala y otro procesamiento puede ser diferente. Además, en realizaciones alternativas, la conformación de envolvente no está restringida al procesamiento de cada canal independientemente. Esto es especialmente cierto para implementaciones basadas en convolución/filtración que aprovechan la coherencia sobre bandas de frecuencia para derivar información en cuanto la estructura fina temporal de la señal.

En la figura 11(a), el bloque 1102 de descodificación recupera señales de envolvente temporal a para cada canal de salida a partir de la información lateral de TP transmitida recibida desde el codificador BCC; y cada bloque 1104 de TP aplica la información de envolvente correspondiente para conformar la envolvente del canal de salida.

La figura 11(b) muestra un diagrama de bloques de una posible implementación basada en el dominio de tiempo de TP 1104 en la que las muestras de señal sintetizadas se elevan al cuadrado (1106) y luego se filtran paso bajo (1108) para caracterizar la envolvente temporal b del canales sintetizado. Se genera un factor de ajuste a escala (por ejemplo, sqrt (a/b)) (1110) y luego se aplica (1112) al canal sintetizado para generar un canal de salida que tiene una envolvente temporal sustancialmente igual a la del canal de entrada original correspondiente.

En implementaciones 1002 alternativas de TPA de la figura 10 y TP 1104 de la figura 11, las envolventes temporales se caracterizan utilizando operaciones de magnitud en lugar de elevar al cuadrado las muestras de señal. En tales implementaciones, puede usarse la proporción a/b como el factor de ajuste a escala sin tener que aplicar la operación de raíz cuadrada.

Aunque la operación de ajuste a escala de la figura 11(c) corresponde a una implementación basada en el dominio de tiempo del procesamiento TP, el procesamiento de TP (así como el procesamiento TP inverso (ITP) y TPA) también puede implementarse utilizando señales en el dominio de frecuencia, como en la realización de las figuras 16-17 (descrita posteriormente en el presente documento). Como tal, para los fines de esta memoria descriptiva, el término "función de ajuste a escala" debe interpretarse como que abarca ya sea operaciones en el dominio de tiempo ya sea operaciones en el dominio de frecuencia, tales como las operaciones de filtrado de las figuras 17(b) y
(c).

En general, cada TP 1104 está diseñado preferiblemente de tal manera que no modifica la potencia de la señal (esto es, la energía). Dependiendo de la implementación particular, esta potencia de señal puede ser una potencia de señal promedio de tiempo corto en cada canal, por ejemplo basada en la potencia de señal total por canal en el periodo de tiempo definido por la ventana de síntesis o alguna otra medida de potencia apropiada. Como tal, el ajuste a escala para la síntesis de ICLD (por ejemplo, utilizando multiplicadores 408) puede aplicarse antes o después de la conformación de envolvente.

Puesto que el ajuste a escala de banda completa de las señales de salida BCC puede dar como resultado artefactos, la conformación de envolvente podría aplicarse solamente a frecuencias especificadas, por ejemplo frecuencias más grandes que una cierta frecuencia de corte f_{TP} (por ejemplo, 500 Hz). Obsérvese que el intervalo de frecuencia para el análisis (TPA) puede diferir del intervalo de frecuencia para la síntesis (TP).

Las figuras 12(a) y (b) muestran posibles implementaciones de TPA 1002 de la figura 10 y TP 1104 de la figura 11 en las que se aplica conformación de envolvente solamente a frecuencias más altas que la frecuencia de corte f_{TP}. En particular, la figura 12(a) muestra la adición del filtro 1202 paso alto, que filtra frecuencias más bajas que f_{TP} antes de la caracterización de envolvente temporal. La figura 12(b) muestra la adición del banco 1204 de filtros de dos bandas que tiene una frecuencia de corte f_{TP} entre las dos subbandas, en el que solamente la parte de alta frecuencia se conformada temporalmente. Luego el banco 1206 de filtros inverso de dos bandas recombina la parte de baja frecuencia con la parte de alta frecuencia conformada temporalmente para generar el canal de salida.

La figura 13 muestra un diagrama de bloques del procesamiento en el dominio de frecuencia que se añade a un codificador BCC, tal como el codificador 202 de la figura 2, según una realización alternativa de la presente invención. Como se muestra en la figura 13(a), el procesamiento de cada TPA 1302 se aplica individualmente en una subbanda diferente, en el que cada banco de filtros (FB) es el mismo que el FB 302 correspondiente de la figura 3 y el bloque 1304 es una implementación de subbanda análoga al bloque 1004 de la figura 10. En implementaciones alternativas, las subbandas para el procesamiento de TPA pueden diferir de las subbandas BCC. Como se muestra en la figura 13(b), el TPA 1302 puede implementarse de manera análoga al TPA 1002 de la figura 10.

La figura 14 ilustra una aplicación en el dominio de frecuencia a modo de ejemplo del procesamiento TP en el contexto del sintetizador 400 BCC de la figura 4. El bloque 1402 de descodificación es análogo al bloque 1102 de descodificación de la figura 11, y cada TP 1404 es una implementación de subbanda análoga a cada TP 1104 de la figura 11, como se muestra en la figura 14(b).

La figura 15 muestra un diagrama de bloques del procesamiento en el dominio de frecuencia que se añade a un codificador BCC, tal como el codificador 202 de la figura 2, según otra realización alternativa de la presente invención. Este esquema tiene el siguiente ajuste: La información de envolvente para cada canal de entrada se deriva mediante cálculo de LPC a través de la frecuencia (1502), se parametriza (1504), se cuantifica (1506) y se codifica en el flujo de bits (1508) por el codificador. La figura 17(a) ilustra un ejemplo de implementación del TPA 1502 de la figura 15. La información lateral que ha de transmitirse al sintetizador multicanal (descodificador) podrían ser los coeficientes de filtro de LPC calculados mediante un método de autocorrelación, los coeficientes de reflexión resultantes o pares de espectros de líneas, etc., con el fin de mantener la tasa de transmisión de datos de información lateral pequeña, parámetros derivados de, por ejemplo, la ganancia de predicción LPC como banderas binarias de "transitorios presentes/no presentes".

\newpage

La figura 16 ilustra otra aplicación en el dominio de frecuencia a modo de ejemplo del procesamiento TP en el contexto del sintetizador 400 BCC de la figura 4. El procesamiento de codificación de la figura 15 y el procesamiento de descodificador de la figura 16 pueden implementarse para formar un par correspondiente de una configuración de codificador/descodificador. El bloque 1602 de descodificación es análogo al bloque 1402 de descodificación de la figura 14, y cada TP 1604 es análogo a cada TP 1404 de la figura 14. En este sintetizador multicanal, la información lateral de TP transmitida se descodifica y se usa para controlar la conformación de envolvente de canales individuales. Sin embargo, además, el sintetizador incluye una fase de caracterizador de envolvente (TPA) 1606 para el análisis de señales de suma transmitidas, un TP inverso (ITP) 1608 para "aplanar" la envolvente temporal de cada señal base, en el que los ajustadores de envolvente (TP) 1604 imponen una envolvente modificada sobre cada canal de salida. Dependiendo de la implementación particular, ITP puede aplicarse ya sea antes o después de la mezcla ascendente. En detalle, esto se hace utilizando el planteamiento de convolución/filtración en el que se obtiene la conformación de envolvente mediante la aplicación de filtros basados en LPC sobre el espectro a través de frecuencia como se ilustra en las figuras 17(a), (b) y (c) para el procesamiento de TPA, ITP y TP, respectivamente. En la figura 16, el bloque 1610 de control determina si se va a implementar o no la conformación de envolvente y, si es así, si estará basada en (1) la información lateral de TP transmitida o (2) los datos de envolvente caracterizados localmente del TPA 1606.

Las figuras 18(a) y (b) ilustran dos modos ejemplares de operación del bloque 1610 de control de la figura 16. En la implementación de la figura 18(a), un conjunto de coeficientes de filtro se transmite al descodificador y la conformación de envolvente mediante convolución/filtración se hace basándose en los coeficientes transmitidos. Si el codificador detecta que la conformación de transitorios no es beneficiosa, entonces no se envían datos de filtro y los filtros se deshabilitan (mostrado en la figura 18(a) mediante conmutación a un conjunto de coeficientes de filtro unitario "[1,0...]").

En la implementación de la figura 18(b), solamente se transmite una "bandera de transitorio/no transitorio" para cada canal y esta bandera se usa para activar o desactivar la conformación basándose en los conjuntos de coeficientes de filtro calculados a partir de las señales de mezcla descendente transmitidas en el descodificador.

\vskip1.000000\baselineskip

Realizaciones alternativas adicionales

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC en los que hay una única señal de suma, la presente invención también puede implementarse en el contexto de esquemas de codificación BCC que tienen dos o más señales de suma. En este caso, la envolvente temporal para cada señal de suma "base" diferente puede estimarse antes de la aplicación de la síntesis BCC, y pueden generarse diferentes canales de salida BCC basándose en diferentes envolventes temporales, dependiendo de qué señales de suma se usaron para sintetizar los diferentes canales de salida. Un canal de salida que se sintetiza a partir de dos o más canales de suma diferentes podría generarse basándose en una envolvente temporal eficaz que tiene en cuenta (por ejemplo, mediante promediación ponderada) los efectos relativos de los canales de suma constituyentes.

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC que implican códigos de ICTD, ICLD e ICC, la presente invención también puede implementarse en el contexto de otros esquemas de codificación BCC que implican solamente uno o dos de estos tres tipos de códigos (por ejemplo, ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos adicionales. Además, la secuencia de procesamiento de síntesis BCC y conformación de envolvente puede variar en diferentes implementaciones. Por ejemplo, cuando la conformación de envolvente se aplica a señales en el dominio de frecuencia, como en las figuras 14 y 16, la conformación de envolvente podría implementarse alternativamente después de la síntesis ICTD (en aquellas realizaciones que emplean síntesis ICTD), pero antes de la síntesis ICLD. En otras realizaciones, la conformación de envolvente podría aplicarse a señales mezcladas ascendentemente antes de que se aplique cualquier otra síntesis BCC.

Aunque la presente invención se ha descrito en el contexto de codificadores BCC que generan códigos de indicación de envolvente a partir de los canales de entrada originales, en realizaciones alternativas, los códigos de indicación de envolvente podrían generarse a partir de canales mezclados descendentemente correspondientes a los canales de entrada originales. Esto permitiría la implementación de un procesador (por ejemplo, un codificador de indicación de envolvente separado) que podría (1) aceptar la salida de un codificador BCC que genera los canales mezclados descendentemente y ciertos códigos BCC (por ejemplo, ICLD, ICTD y/o ICC) y (2) caracterizan la(s) envolvente(s) temporal(es) de uno o más de los canales mezclados descendentemente para añadir códigos de indicación de envolvente a la información lateral BCC.

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC en los cuales los códigos de indicación de envolvente se transmiten con uno o más canales de audio (esto es, los E canales transmitidos) junto con otros códigos BCC, en realizaciones alternativas, los códigos de indicación de envolvente podrían transmitirse, ya sea solos o con otros códigos BCC, a un lugar (por ejemplo, un descodificador o un dispositivo de almacenamiento) que ya tiene los canales transmitidos y posiblemente otros códigos BCC.

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC, la presente invención puede también implementarse en el contexto de otros sistemas de procesamiento de audio en los cuales las señales de audio se decorrelacionan u otro procesamiento de audio que necesita decorrelacionar señales.

Aunque la presente invención se ha descrito en el contexto de implementaciones en las cuales el codificador recibe la señal de audio de entrada en el dominio de tiempo y genera señales de audio transmitidas en el dominio de tiempo y el descodificador recibe las señales de audio transmitidas en el dominio de tiempo y genera señales de audio de reproducción en el dominio de tiempo, la presente invención no está limitada de esta manera. Por ejemplo, en otras implementaciones, cualquiera de una o más de la señales de audio de entrada, transmitidas y de reproducción podrían representarse en un dominio de frecuencia.

Pueden usarse codificadores y/o descodificadores BCC junto con o incorporarse a una variedad de diferentes aplicaciones o sistemas, entre los que se incluyen sistemas para televisión o distribución de música electrónica, cines, emisión, flujo continuo (streaming) y/o recepción. Estos incluyen sistemas para codificar/descodificar transmisiones a través de, por ejemplo, medios terrestres, por satélite, por cable, internet, intranet o medios físicos (por ejemplo, discos compactos, discos versátiles digitales, chips semiconductores, discos duros, tarjetas de memoria y similares). También pueden usarse codificadores y/o descodificadores BCC en juegos y sistemas de juego, entre los que se incluyen, por ejemplo productos de software interactivos diseñados para interactuar con un usuario para entretenimiento (acción, juegos de rol, estrategia, aventura, simulaciones, carreras, deportes, juegos recreativos, de cartas y juegos de mesa) y/o educativos que pueden publicarse para múltiples máquinas, plataformas o medios. Además, pueden incorporarse codificadores y/o descodificadores BCC a grabadores/reproductores de audio o sistemas de CD-ROM/DVD. También pueden incorporarse codificadores y/o descodificadores BCC en aplicaciones de software para PC que incorporan descodificación digital (por ejemplo, reproductor, descodificador) y aplicaciones de software que incorporan capacidades de codificación digital (por ejemplo, codificador, ripper ("ripeador"), recodificador y gestores de música).

La presente invención puede implementarse como procesos basados en circuitos, entre los que se incluyen implementaciones posibles como un único circuito integrado (tal como un ASIC o un FPGA), un módulo de múltiples chips, una única tarjeta o un paquete de circuitos de múltiples tarjetas. Como resultará evidente para el experto en la técnica, varias funciones de los elementos de circuito también pueden implementarse como etapas de procesamiento en un programa de software. Tal software puede emplearse por ejemplo en un procesador de señales digital, microcontrolador u ordenador de propósito general.

La presente invención puede realizarse en forma de métodos y aparatos para poner en práctica estos métodos. La presente invención también puede realizarse en forma de código de programa implementado en medios tangibles, tales como discos flexibles, CD-ROM, discos duros o cualquier otro medio de almacenamiento legible por la máquina, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. La presente invención también puede realizarse en forma de un código de programa, por ejemplo, o bien almacenado en un medio de almacenamiento, cargado en y/o ejecutado por una máquina, o bien transmitido por algún medio o portadora de transmisión, tal como líneas o cableado eléctrico, por medio de fibras ópticas o a través de radiación electromagnética, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. Cuando se implementa en un procesador de propósito general o multiuso, los segmentos de código de programa se combinan con el procesador para proporcionar un dispositivo único que opera de manera análoga a circuitos lógicos específicos.

Se comprenderá además que los expertos en la técnica pueden realizar diversos cambios en los detalles, materiales y disposiciones de las partes que se han descrito e ilustrado con el fin de explicar la naturaleza de esta invención, sin desviarse del alcance de la invención tal como se expresa en las siguientes reivindicaciones.

Aunque las etapas en las siguientes reivindicaciones de método, si las hay, se citan en una secuencia particular con un etiquetado correspondiente, a menos que las menciones en las reivindicaciones impliquen de otra manera una secuencia particular para implementar algunas o todas estas etapas, no está previsto necesariamente que esas etapas se limiten a implementarse en esa secuencia particular.

Claims

1. Método para codificar canales de audio, comprendiendo el método:

\quad: generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado por la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que el uno o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD),

\quad: en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y

\quad: transmitir los dos o más códigos de indicación.

2. Método según la reivindicación 1, que comprende además transmitir E canal(es) de audio transmitido(s) correspondiente(s) al uno o más canales de audio, siendo E\geq1.

3. Método según la reivindicación 2, en el que:

el uno o más canales de audio comprenden C canales de audio de entrada, siendo C>E; y

los C canales de entrada se mezclan descendentemente para generar el (los) E canal(es) transmitido(s).

4. Método según la reivindicación 1, en el que los dos o más códigos de indicación se transmiten para permitir que un descodificador efectúe la conformación de envolvente durante la descodificación del (de los) E canal(es) transmi-
tido(s) basándose en los dos o más códigos de indicación, en el que el (los) E canal(es) de audio transmitido(s) corresponde(n) al uno o más canales de audio, siendo E\geq1.

5. Método según la reivindicación 4, en el que la conformación de envolvente ajusta una envolvente temporal de una señal sintetizada generada por el descodificador para coincidir con la envolvente temporal caracterizada.

6. Método según la reivindicación 1, en el que la envolvente temporal se caracteriza solamente para frecuencias especificadas del canal de audio correspondiente.

7. Método según la reivindicación 1, en el que la envolvente temporal se caracteriza solamente para frecuencias del canal de audio correspondiente por encima de una frecuencia de corte especificada.

8. Método según la reivindicación 1, en el que el dominio de subbanda corresponde a un filtro de espejo en cuadratura (QMF).

9. Método según la reivindicación 1, que comprende además determinar si se habilita o deshabilita la caracterización.

10. Método según la reivindicación 9, que comprende además generar y transmitir una bandera de habilitación/deshabilitación basándose en la determinación de instruir a un descodificador si implementar o no la conformación de envolvente durante la descodificación del (los) E canal(es) transmitido(s) correspondiente(s) al uno o más canales de audio, siendo E\geq1.

11. Método según la reivindicación 9, caracterizado porque la determinación está basada en analizar un canal de audio para detectar transitorios en el canal de audio de tal manera que la caracterización se habilita si se detecta la presencia de un transitorio.

12. Método según la reivindicación 1, en el que la etapa de generar el código de indicación de envolvente incluye elevar al cuadrado (1006) o formar una magnitud y filtrar paso bajo (1008) muestras de señal del canal de audio o señales de subbanda del canal de audio con el fin de caracterizar la envolvente temporal.

13. Método según la reivindicación 1 ó 12, en el que la etapa de generación comprende además la etapa de parametrizar, cuantificar y codificar una envolvente temporal estimada.

14. Aparato para codificar canales de audio, comprendiendo el aparato:

\quad: medios para generar dos o más códigos de indicación para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación, y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda; y

\quad: medios para transmitir información acerca de los dos o más códigos de indicación.

15. Aparato según la reivindicación 14,

en el que el aparato es operativo para codificar C canales de audio de entrada para generar E canal(es) de audio transmitido(s),

en el que los medios de generación comprenden un analizador de envolvente adaptado para caracterizar la envolvente temporal de entrada de al menos uno de los C canales de entrada,

en el que los medios de generación comprenden además un estimador de código adaptado para generar códigos de indicación para dos o más de los C canales de entrada y

en el que el aparato comprende además un mezclador descendente adaptado para mezclar descendentemente los C canales de entrada para generar el (los) E canal(es) transmitido(s), siendo C>E\geq1,

en el que los medios de transmisión están adaptados para transmitir información acerca de los dos o más códigos de indicación para permitir que un descodificador efectúe la síntesis y conformación de envolvente durante la descodificación del (los) E canal(es) transmitido(s).

16. Aparato según la reivindicación 15, en el que:

\quad: el aparato es un sistema seleccionado del grupo que consiste en un grabador de vídeo digital, un grabador de audio digital, un ordenador, un transmisor de satélite, un transmisor de cable, un transmisor de difusión terrestre, un sistema de entretenimiento en casa y un sistema de cine, y

\quad: el sistema comprende el analizador de envolvente, el estimador de código y el mezclador descendente.

17. Producto de programa informático que tiene código de programa, en el que, cuando el código de programa se ejecuta por una máquina, la máquina implementa un método según la reivindicación 1.

18. Flujo de bits de audio codificado, que tiene:

\quad: dos o más códigos de indicación generados para uno o más canales de audio, en el que al menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), código de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación, y en el que la envolvente temporal se caracteriza para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes subbandas de señal del canal de audio correspondiente en un dominio de subbanda, y

\quad: los dos o más códigos de indicación y E canal(es) de audio transmitido(s) que corresponden al uno o más canales de audio, siendo E\geq1, se codifican en el flujo de bits de audio codificado.

19. Flujo de bits de audio codificado según la reivindicación 18, que comprende además E canal(es) de audio transmitido(s), en el que:

el (los) E canal(es) de audio transmitido(s) corresponde(n) al uno o más canales de audio.

20. Método para descodificar E canal(es) de audio transmitido(s), para generar C canales de audio de reproducción, siendo C>E\geq1, comprendiendo el método:

\quad: recibir códigos de indicación correspondientes al (a los) E canal(es) transmitido(s), en el que los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (a los) E canal(es) transmitido(s), en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación;

\quad: mezclar ascendentemente uno o más del (de los) E canal(es) transmitido(s) para generar uno o más canales mezclados ascendentemente; y

\quad: sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación a uno o más canales mezclados ascendentemente, en el que el código de indicación de envolvente se aplica a un canal mezcla ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada basándose en la envolvente temporal caracterizada mediante ajuste a escala de muestras de señal en el dominio de tiempo o en el dominio de subbanda utilizando un factor de ajuste a escala tal que la envolvente temporal ajustada coincida con la envolvente temporal caracterizada.

21. Método según la reivindicación 20, en el que el código de indicación de envolvente corresponde a una envolvente temporal caracterizada en un canal de entrada original usado para generar el (los) E canal(es) transmi-
tido(s).

22. Método según la reivindicación 20, en el que la síntesis comprende síntesis de ICC de reverberación tardía.

23. Método según la reivindicación 21, en el que la envolvente temporal de la señal sintetizada se ajusta antes de la síntesis de ICLD.

24. Método según la reivindicación 20, en el que:

\quad: la envolvente temporal de la señal sintetizada está caracterizada; y

\quad: la envolvente temporal de la señal sintetizada se ajusta basándose tanto en la envolvente temporal caracterizada correspondiente al código de indicación de envolvente como en la envolvente temporal caracterizada de la señal sintetizada.

\vskip1.000000\baselineskip

25. Método según la reivindicación 24, en el que:

\quad: se genera una función de ajuste a escala basándose en la envolvente temporal caracterizada correspondiente al código de indicación de envolvente y la envolvente temporal caracterizada de la señal sintetizada; y

\quad: la función de ajuste a escala se aplica a la señal sintetizada.

26. Método según la reivindicación 20, que comprende además ajustar un canal transmitido basándose en la envolvente temporal caracterizada para generar un canal aplanado, en el que la mezcla ascendente y la síntesis se aplican al canal aplanado para generar un canal de reproducción correspondiente.

27. Método según la reivindicación 20, que comprende además ajustar un canal mezcla ascendentemente basándose en la envolvente temporal caracterizada para generar un canal aplanado, en el que la síntesis se aplica al canal aplanado para generar un canal de reproducción correspondiente.

28. Método según la reivindicación 20, en el que la envolvente temporal de la señal sintetizada se ajusta solamente para frecuencias especificadas.

29. Método según la reivindicación 28, en el que la envolvente temporal de la señal sintetizada se ajusta solamente para frecuencias por encima de una frecuencia de corte especificada.

30. Método según la reivindicación 20, en el que las envolventes temporales se ajustan individualmente para diferentes subbandas de señal en la señal sintetizada.

31. Método según la reivindicación 20, en el que un dominio de subbanda corresponde a un QMF.

32. Método según la reivindicación 20, en el que la envolvente temporal de la señal sintetizada se ajusta en un dominio de tiempo.

33. Método según la reivindicación 20, que comprende además determinar si se habilita o deshabilita el ajuste de la envolvente temporal de la señal sintetizada.

34. Método según la reivindicación 33, caracterizado porque la determinación está basada en una bandera de habilitación/deshabilitación generada por un codificador de audio que generó el (los) E canal(es) transmitido(s).

35. Método según la reivindicación 33, en el que la determinación está basada en el análisis del (los) E
canal(es) transmitido(s) para detectar transitorios de tal manera que el ajuste se habilita si se detecta la presencia de un transitorio.

\newpage

36. Método según la reivindicación 20, que comprende además:

\quad: caracterizar una envolvente temporal de un canal transmitido; y

\quad: determinar si se usa (1) la envolvente temporal caracterizada correspondiente al código de indicación de envolvente o (2) la envolvente temporal caracterizada del canal transmitido para ajustar la envolvente temporal de la señal sintetizada.

37. Método según la reivindicación 20, en el que la potencia dentro de una ventana especificada de la señal sintetizada después del ajuste de la envolvente temporal es igual a la potencia dentro de una ventana correspondiente de la señal sintetizada antes del ajuste.

38. Método según la reivindicación 37, en el que la ventana especificada corresponde a una ventana de síntesis asociada con uno o más códigos de indicación sin envolvente.

39. Aparato para descodificar E canal(es) de audio transmitido(s) para generar C canales de audio de reproducción, siendo C>E\geq1, comprendiendo el aparato:

\quad: medios para recibir códigos de indicación correspondientes al (a los) E canal(es) transmitido(s), en el que los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (a los) E canales transmitido(s), en el que los dos o más códigos de indicación comprenden además uno o más de códigos de correlación intercanal (ICC), códigos de diferencia de nivel intercanal (ICLD) y códigos de diferencia de tiempo intercanal (ICTD), en el que una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) código(s) de indicación;

\quad: medios para mezclar ascendentemente uno o más de los E canales transmitidos para generar uno o más canales mezclados ascendentemente; y

\quad: medios para sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación al uno o más canales mezclados ascendentemente, en el que el código de indicación de envolvente se aplica a un canal mezcla ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada basándose en la envolvente temporal caracterizada mediante el ajuste a escala de muestras de señal en el dominio de tiempo o en el dominio de subbanda utilizando un factor de ajuste a escala tal que la envolvente temporal ajustada coincida sustancialmente con la envolvente temporal caracterizada.

\vskip1.000000\baselineskip

40. Aparato según la reivindicación 39, en el que:

\quad: el aparato es un sistema seleccionado a partir del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de difusión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y

\quad: el sistema comprende el receptor, el mezclador ascendente, el sintetizador y el ajustador de envolvente.

41. Producto de programa informático que tiene código de programa, en el que, cuando el código de programa se ejecuta por una máquina, la máquina implementa el método de descodificación según la reivindicación 20.