ES2739531T3

ES2739531T3 - Agrupamiento adaptable de parámetros para eficiencia de codificación mejorada

Info

Publication number: ES2739531T3
Application number: ES06723036T
Authority: ES
Inventors: Ralph Sperschneider; Jürgen Herre; Karsten Linzmeier; Johannes Hilpert
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2005-04-13
Filing date: 2006-02-13
Publication date: 2020-01-31
Anticipated expiration: 2026-02-13
Also published as: JP2008536182A; WO2006108464A1; BRPI0612356A2; TWI321316B; KR20070112834A; BRPI0612356B1; BR122019014628B1; MX2007012663A; AU2006233512A1; AU2006233512B8; NO20075796L; KR100954181B1; AU2006233512B2; IL186315A; CA2607460A1; US9043200B2; EP1869774B1; RU2368074C2; CN101160726B; EP1869774A1

Abstract

Unidad de compresión para compresión de parámetros, incluyendo los parámetros un primer conjunto de parámetros que incluye una representación de una primera porción de una señal de audio o de video original, incluyendo además los parámetros un segundo conjunto de parámetros que incluye una representación de una segunda porción de la señal de audio o de video original, siendo vecina la segunda porción de la primera porción, que comprende: un suministrador (100) configurado para suministrar una primera tupla y una segunda tupla teniendo cada tupla cuatro parámetros, en el que el primer conjunto de parámetros incluye una representación de un primer cuadro (130a) de la señal de audio o de video original y en el que el segundo conjunto de parámetros incluye una representación de un segundo cuadro (130b) de la señal de audio o de video original; un estimador (102) de bits configurado para estimar un número de bits necesarios para codificar los conjuntos de parámetros que utilizan una primera secuencia (138) de tuplas que incluyen la primera tupla basada en una regla de codificación y para codificar los conjuntos de parámetros que utilizan una segunda secuencia (140) de tuplas que incluyen la segunda tupla basada en la regla de codificación, en el que la regla de codificación es tal que cada tupla tiene asociada a ella una palabra código única de un grupo de palabras código diferentes; y un proveedor (104) configurado para proporcionar bloques (118) codificados, siendo operativo el proveedor para proporcionar los bloques (118) codificados, utilizando la secuencia de tuplas que da como resultado un menor número de bits, y para proporcionar una indicación (120b) de secuencia que indica la secuencia de tuplas de la cual se derivan los bloques (118b) codificados, en el que las tuplas tienen cuatro parámetros y en el que se utiliza un código cuatridimensional de Huffman para codificar las tuplas, siendo el número 4 de la dimensión del código igual al número de parámetros de las tuplas, y en el que el suministrador (100) es operativo para suministrar la primera tupla (152a) que consiste en cuatro parámetros del primer conjunto de parámetros, siendo vecinos los parámetros de los parámetros dentro de la representación de la señal de audio o de vídeo original; y consistiendo la segunda tupla (152b) en: dos parámetros del primer conjunto de parámetros, siendo vecinos los dos parámetros dentro de la representación de la señal de vídeo o de audio original, y el mismo número de parámetros del segundo conjunto de parámetros, siendo vecinos el mismo número de parámetros dentro de la representación de la señal de audio o de vídeo original, en el que los dos parámetros del primer conjunto de parámetros y el mismo número de parámetros del segundo conjunto de parámetros describen la misma banda de frecuencia en el primer cuadro (130a) y en el segundo cuadro (130b).

Description

DESCRIPCIÓN

Agrupamiento adaptable de parámetros para eficiencia de codificación mejorada

Campo de la invención

La presente invención se refiere a la codificación sin pérdidas de parámetros, y en particular, a la generación y uso de una regla de codificación para la compresión eficiente de parámetros.

Antecedentes de la invención y técnica previa

En tiempos recientes, la técnica de reproducción de audio de multicanal se está volviendo cada vez más importante. Esto puede ser debido al hecho de que las técnicas de compresión/codificación de audio tales como la técnica de mp3 bien conocida han hecho posible distribuir grabaciones de audio mediante Internet u otros canales de transmisión que tienen un ancho de banda limitado. La técnica de codificación de mp3 se ha vuelto tan famosa debido al hecho de que permite la distribución de todas las grabaciones en un formato estereofónico, esto es, una representación digital de la grabación de audio que incluye un primer canal o canal estereofónico izquierdo y un segundo canal o canal estereofónico derecho.

No obstante, hay deficiencias básicas de los sistemas de sonido de dos canales convencionales. Por consiguiente, se ha desarrollado la técnica surround. Una representación surround de multi-canal recomendada incluye, además de los dos canales estereofónicos L y R, un canal central adicional C y dos canales surround Ls, Rs. Este formato de sonido de referencia es también denominado como tres/dos-estéreo, que significa tres canales frontales y dos canales surround. En general, se requieren cinco canales de transmisión. En un ambiente de reproducción, son necesarios por lo menos cinco altavoces en cinco lugares decentes para obtener un punto de barrido óptimo en una cierta distancia de los cinco altavoces bien colocados.

Se conocen varias técnicas en la técnica para reducir la cantidad de datos requeridos para la transmisión de una señal de audio de multicanal. Tales técnicas son llamadas técnicas de estéreo adjuntas. Para este fin, se hace referencia a la figura 9, que muestra un dispositivo 60 de estéreo adjunto. Este dispositivo puede ser un dispositivo que implementa, por ejemplo, codificación de estéreo de intensidad (IS) o codificación de indicación binaural (BCC). Tal dispositivo recibe en general - como entrada - por lo menos dos canales (CH1, CH2, ... CHn) y emite por lo menos un solo canal portador y datos paramétricos. Los datos paramétricos son definidos de tal manera que, en un descodificador, se puede calcular una aproximación de un canal original (CH1, CH2 ... CHn).

Normalmente, el canal portador incluirá muestras de sub-banda, coeficientes espectrales, muestras de dominio de tiempo etc., que proporcionan una representación comparativamente fina de la señal fundamental, en tanto que los datos paramétricos no incluyen tales muestras de coeficientes espectrales sino que incluyen parámetros de control para controlar un cierto algoritmo de reconstrucción tal como ponderación mediante multiplicación, desplazamiento de tiempo, desplazamiento de frecuencia, desplazamiento de fase, etc. Por consiguiente, los datos paramétricos, incluyen solo una representación comparativamente burda de la señal o el canal asociado. Dicho en números, la cantidad de datos requeridos por un canal portador estará en el intervalo de 60 - 70 kbit/s, en tanto que la cantidad de datos requeridos por la información lateral paramétrica para un canal estará normalmente en el intervalo 1.5 - 2.5 kbit/s. Un ejemplo para datos paramétricos son los factores de escala bien conocidos, información estereofónica de intensidad o parámetros de indicación binaurales como se describirá posteriormente.

La técnica de BCC se describe por ejemplo en el documento 5574 de la convención de AES, “Binaural Cue Coding applied to Stereo and Multi-Channel Audio Compression”, C. Faller, F. Baumgarte, mayo de 2002, Múnich, en el documento de la IEEE WASPAA “Efficient representation of spatial audio using perceptual parametrization”, octubre de 2001, Mohonk, NY, en “Binaural cue coding applied to audio compression with flexible rendering”, C. Faller y F. Baumgarte, AES 113° Convención, Los Angeles, Preprint 5686, octubre de 2002 y en “Binaural cue coding - Part II: Schemes and applications”, C. Faller y F. Baumgarte, IEEE Trans. on Speech and Audio Proc., volumen. 11, n.° 6, noviembre de 2003.

En la codificación BCC, un número de canales de entrada de audio son convertidos a una representación espectral utilizando una DFT (Transformación discreta de Fourier) con ventanas solapantes. El espectro uniforme resultante se divide en particiones no solapantes. Cada partición tiene aproximadamente un ancho de banda proporcional al ancho de banda rectangular equivalente (ERB). Luego los parámetros BCC son estimados entre dos canales para cada partición. Estos parámetros BCC son normalmente dados para cada canal con respecto a un canal de referencia y son además cuantificados. Los parámetros transmitidos se calculan finalmente de acuerdo con fórmulas prescritas (codificadas), que pueden depender también de las particiones específicas de la señal que va a procesarse.

Existe un número de parámetros BCC. El parámetro ICLD, por ejemplo, describe la diferencia (proporción) de las energías contenidas en 2 canales comparados. El parámetro ICC (coherencia/correlación de inter-canal) describe la correlación entre los dos canales, que puede entenderse como la similaridad de las formas de onda de los dos canales. El parámetro de ICTD (diferencia de tiempo de inter-canal) describe un desplazamiento de tiempo global entre los 2 canales mientras que el parámetro de IPD (diferencia de fase de inter-canal) describe lo mismo con respecto a las fases de las señales.

Se debe ser consiente de que, en un procesamiento por cuadros de una señal de audio, el análisis de BCC también se efectúa de cuadro en cuadro, esto es variable en el tiempo, y también variable en frecuencia. Esto significa que, para cada banda espectral, los parámetros BCC se obtienen individualmente. Este significa además que, en el caso de que un banco de filtro de audio descompone la señal de entrada en por ejemplo 32 señales del paso de banda, un bloque de análisis de BCC obtiene un conjunto de parámetros BCC para cada una de las 32 bandas.

Una técnica relacionada, también conocida como estereofónica paramétrica o estereoparámetrica, se describe en J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “High-Quality Parametric Spatial Audio Coding at Low Bitrates”, AES 116° Convención, Berlín, Preprint 6072, 10 de mayo de 2004, y E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, “Low Complexity Parametric Stereo Coding”, AES 116° Convención, Berlín, Preprint 6073, mayo de 2004.

En resumen, los procedimientos recientes para la codificación paramétrica de señales de audio de multi-canal (“codificación de audio espacial”, “codificación de indicación binaural” (BCC) etc.) representan una señal de audio de multi-canal por medio de una señal de mezcla descendente (podría ser monofonónica o comprender varios canales) e información lateral paramétrica (“ indicaciones espaciales”) que caracterizan su etapa sonora espacial percibida. Es deseable mantener la proporción de información lateral tan baja como sea posible con el fin de minimizar la información de carga general y dejar tanto como sea posible la capacidad de transmisión disponible para la codificación de las señales de mezcla descendente.

Una manera de mantener la proporción de bits de la información lateral baja es codificar sin pérdidas la información lateral de un esquema de audio espacial mediante la aplicación de, por ejemplo, algoritmos de codificación de entropía a la información lateral.

La codificación sin pérdidas se ha aplicado extensamente en la codificación de audio general con el fin de asegurar una representación óptimamente compacta para coeficientes espectrales cuantificados y otra información lateral. Ejemplos de esquemas y métodos de codificación apropiados se ofrecen en los estándares de ISO/IEC, MPEG1 parte 3, MPEG2 parte 7 y MPEG4 parte 3.

Estos estándares y, por ejemplo, también el documento de IEEE “Noiseless Coding of Quantized Spectral Coefficients in MPEG-2 Advanced Audio Coding”, S. R. Quackenbush, J. D. Johnston, IEEE WASPAA, Mohonk, NY, octubre de 1997 describen técnicas del estado de la técnica que incluyen las siguientes medidas para codificar sin pérdidas parámetros cuantificados:

• Codificación de Huffman multidimensional de coeficientes espectrales cuantificados.

• Uso de un libro de códigos de Huffman común (multidimensional) para conjuntos de coeficientes.

• Codificación del valor ya sea como un agujero o información de signos de codificación e información de magnitud separadamente (esto es, que tiene solo entradas del libro de códigos de Huffman para un valor absoluto dado que reduce el tamaño del libro de código necesario, libros de códigos “firmados” frente a “sin firmar”).

• Uso de libros de código alternativos de diferentes valores absolutos más grandes (LAVs), esto es, diferentes valores absolutos máximos dentro de los parámetros que van a codificarse.

• Uso de libros de códigos alternativos de diferente distribución estadística para cada LAV.

• Transmisión de la elección del libro de código de Huffman como información lateral al descodificador.

• Utilizar “secciones” para definir el intervalo de aplicación de cada libro de código de Huffman seleccionado.

• Codificación diferencial de factores de escala con respecto a la frecuencia y codificación de Huffman subsecuente del resultado.

Otra técnica para la codificación sin pérdidas de valores burdamente cuantificados a un solo código de PCM se propone en el estándar de audio MPEG1 (llamado agrupamiento dentro del estándar y usado para capa 2). Esto se explica en más detalle en el estándar ISO/IEC 11172-3:93.

La Publicación “Binaural cue coding - Part II: Schemes and applications”, C. Faller y F. Baumgarte, IEEE Trans. on Speech and Audio Proc., volumen. 11, n.° 6, noviembre de 2003 ofrece alguna información con respecto a la codificación de parámetros BCC. Se propone que los parámetros de ICLD cuantificados se codifiquen diferencialmente:

• con respecto a la frecuencia y el resultado es subsecuentemente codificado por Huffman (con un código de Huffman unidimensional)

• con respecto al tiempo y el resultado es subsecuentemente codificado por Huffman (con un código de Huffman unidimensional),

y que finalmente, la variante más eficiente se selecciona como la representación de una señal de audio original. En Bosi M. et al.: "ISO/IEC MPEG-2 Advanced audio coding" Revista de la Audio Engineering Society (Sociedad de Ingeniería del Sonido), vol. 45, n.° 10, páginas 789-812 se propone la agrupación e intercalado de parámetros, antes de su codificación de Huffman.

La solicitud de patente estadounidense US 5,528,628 se refiere a codificación de longitud variable de símbolos de entrada utilizando una pluralidad de tablas de longitud de código variable. Se codifica la misma secuencia de símbolos utilizando diferentes codificadores de longitud variable de codificadores Huffman que tienen diferentes tablas de código. La decision de qué representación codificada va a transmitirse se realiza finalmente dependiendo de la longitud de código resultante.

La solicitud de patente europea 1047 198 A3 propone un enfoque similar, utilizando adicionalmente solo libros de código de valor absoluto.

Shen-Chuan Tai et al.: "An adaptive 3-D discrete cosine transform coder for medical image compression" IEEE Transactions on Information Technology in Biomedicine, vol. 4, n.° 3, págs. 259-263) propone un método para codificar datos de imagen bidimensional utilizando un algoritmo de codificación, desarrollado originalmente para codificar información tridimensional. En el método propuesto, se utiliza una técnica de segmentación basada en la magnitud de energía local para segmentar subbloques de la imagen en diferentes niveles de energía. Aquellos subbloques con el mismo nivel de energía entonces se juntan para formar un cuboide tridimensional. Entonces, se utiliza un tri-DCT para comprimir el cuboide tridimensional individualmente.

El documento WO01/26095A1 proporciona un método y un aparato para codificación de envolvente espectral. La divulgación enseña cómo realizar enviar una señal de forma compacta de un mapeo tiempo/frecuencia de la representación envolvente, y además, codificar los datos de la envolvente espectral de manera eficiente utilizando codificación direccional tiempo/frecuencia adaptativa. El método puede aplicarse tanto a sistemas de codificación de voz como a sistemas de audio natural y es especialmente adecuado para codificadores que utilizan SBR u otros métodos de reconstrucción de alta frecuencia.

El documento MPEG WD 2 para MPEG Surround, 73. La conferencia MPEG, del 25 de julio de 2005 al 25 de julio de 2005, n.° N7387 describe un proyecto de trabajo para MPEG Surround.

Como se menciona anteriormente, se ha propuesto optimizar el funcionamiento de compresión mediante la aplicación de codificación diferencial con respecto a la frecuencia y, alternativamente, con respecto al tiempo y seleccionar la variante más eficiente. Después, la variante seleccionada se envía por una señal a un descodificador mediante alguna información lateral.

Se han hecho muchos esfuerzos por reducir el tamaño de un canal de audio de mezcla descendente y la información lateral correspondiente. No obstante, las proporciones de bits que pueden obtenerse son todavía demasiado altas para permitir cada aplicación posible. Por ejemplo, el streaming decontenido de audio y video a teléfonos móviles requiere las mínimas velocidades de bits posibles y por consiguiente una codificación más eficiente del contenido.

Sumario de la invención

El objetivo de la presente invención es proporcionar un concepto de codificación mejorado que obtenga una compresión sin pérdidas de valores de parámetros con una mayor eficiencia.

De acuerdo con el primer aspecto de la presente invención, este objetivo se alcanza mediante una unidad de compresión para la compresión de parámetros según la reivindicación 1.

De acuerdo con el segundo aspecto de la presente invención, este objetivo se alcanza mediante un descodificador para descodificar bloques de parámetros codificados según la reivindicación 4.

De acuerdo con el tercer aspecto de la presente invención, este objetivo se alcanza mediante un método para la compresión de parámetros según la reivindicación 8.

De acuerdo con el cuarto aspecto de la presente invención, este objetivo se alcanza mediante un programa informático según la reivindicación 10.

De acuerdo con el quinto aspecto de la presente invención, este objetivo se alcanza mediante un método para descodificar bloques de parámetros codificados según la reivindicación 9.

De acuerdo con el sexto aspecto de la presente invención, este objetivo se alcanza mediante un programa informático según la reivindicación 11.

La presente invención se basa en el descubrimiento de que pueden codificarse eficientemente parámetros que incluyen un primer conjunto de parámetros de una representación de una primera porción de una señal original, y que incluyen un segundo conjunto de parámetros de una representación de una segunda porción de la señal original, cuando los parámetros se disponen en una primera secuencia de tuplas y en una segunda secuencia de tuplas, en el que la primera secuencia de tuplas comprende tuplas de parámetros que tienen dos parámetros de una única porción de la señal original y en el que la segunda secuencia de tuplasm comprende tuplas de parámetros que tienen un parámetro de la primera porción y un parámetro de la segunda porción de la señal original. Una codificación eficiente puede alcanzarse utilizando un estimador de bits para estimar el número de bits necesarios para codificar la primera y la segunda secuencia de tuplas, en las que solamente se codifica la secuencia de tuplas que resulta en el número menor número de bits.menor número de bits

menor número de bits

Por consiguiente, el principio básico es que, se redisponen los parámetros que van a codificarse, por ejemplo en tiempo y en frecuencia, y finalmente se utiliza la disposición (secuencia de tuplas) de los parámetros para la compresión que da como resultado el menor número de bits para los parámetros comprimidos.

En un ejemplo, dos conjuntos de parámetros espectrales que describen la representación espectral de dos porciones de tiempo consecutivas de una señal original se agrupan adaptablemente en pares de dos parámetros para mejorar la eficiencia de codificación. Por consiguiente, por una parte se genera una secuencia de tuplas utilizando tuplas de parámetros que consisten en dos parámetros de frecuencia vecinos de la misma porción de tiempo. Por otra parte, se genera una segunda secuencia de tuplas utilizando tuplas que se integran utilizando un primer parámetro de la primera porción de tiempo y el parámetro correspondiente de la segunda porción de tiempo de la señal original. Luego, ambas secuencias de tuplas se codifican utilizando un código de Huffman bidimensional. Las dos secuencias codificadas de tuplas se comparan en sus tamaños y la tupla que da como resultado el menor número de bits se selecciona finalmente para ser transmitida. La información, sobre qué clase de tuplas se han utillizado para construir los datos codificados se transmite a un descodificador como información lateral adicional. Una ventaja del codificador de la invención descrito previamente es que, debido al agrupamiento de parámetros en tuplas que consisten en dos parámetros, puede aplicarse un código de Huffman bidimensional para la compresión, que da como resultado en general una proporción de bits más baja.

Una segunda ventaja es que, el agrupamiento adaptable, esto es, el concepto para decidir dinámicamente entre dos estrategias de agrupamiento posibles durante el proceso de codificación, produce una disminución adicional en la proporción de bits de la información lateral.

La decisión entre las dos estrategias de agrupamiento solo una vez para un conjunto de dos cuadros consecutivos reduce adicionalmente la cantidad de información lateral requerida, puesto que la indicación sobre qué estrategias de agrupamiento se han utilizado durante la codificación, tiene que transmitirse solo una vez para un conjunto de dos cuadros de tiempo consecutivos completos.

En una realización adicional de la presente invención, una unidad de compresión de la invención comprende adicionalmente un codificador diferencial que codifica diferencialmente los parámetros ya sea en tiempo o en frecuencia antes del agrupamiento adaptable. Aquella codificación diferencial junto con el agrupamiento adaptable y un libro de código de Huffman apropiado reduce adicionalmente el tamaño de la información lateral que va a transmitirse. Las dos posibilidades de codificación diferenciales junto con las dos estrategias de agrupamiento da como resultado un número total de cuatro combinaciones posibles, incrementado adicionalmente la probabilidad de encontrar una regla de codificación que de como resultado una baja velocidad de bits de información lateral.

En una realización adicional de la presente invención, el concepto inventivo se utiliza para una unidad de descompresión, que permite descodificar bloques codificados de parámetros y reconstruir o reintegrar los cuadros originales en base a una información lateral que señala el esquema de agolpamiento subyacente de los bloques codificados de parámetros. En una modificación ventajosa, el descodificador de la invención también permite la descodificación de datos que no han sido agrupados adaptablemente, por consiguiente, se puede obtener una compatibilidad del descodificador de la invención con equipo existente.

Breve descripción de las figuras

Se describen posteriormente modalidades preferidas de la presente invención con referencia a las figuras adjuntas, en donde:

la figura 1 muestra una unidad de compresión inventiva;

la figura 2 muestra dos posibilidades de agrupamiento adaptable de parámetros;

la figura 3 muestra algunas posibilidades adicionales de agrupamiento adaptable de parámetros;

la figura 4 muestra esquemas de codificación diferencial;

la figura 5 muestra un descodificador inventivo;

la figura 6 muestra un codificador de multi-canal de la técnica anterior.

Descripción detallada de modalidades preferidas

La figura 1 muestra una unidad 90 de compresión inventiva, que comprende un suministrador 100, un estimador 102 de bits y un proveedor 104.

El suministrador 100 suministra una primera secuencia 106a de tuplas y una segunda secuencia 106b de tuplas en dos salidas de datos. El proveedor 104 recibe los tuplas 106a y 106b en dos de sus entradas 108a y 108b de datos. El estimador de bits recibe las dos tuplas en sus entradas 110a y 110b de datos.

El estimador 102 de bits estima el número de bits que resultan de la aplicación de una regla de codificación a las dos tuplas 106a y 106b. El estimador 102 de bits escoge la tupla que da como resultado el menor número de bits y envía por una señal mediante una salida 112a de señalización, si la tupla 106a o 106b dará como resultado el menor número de bits.

En base a la decisión del estimador 102 de bits, la tupla que da como resultado el menor número de bits se codifica finalmente en bloques 118 codificados, que son proporcionados mediante la salida 120a del proveedor 104, en donde el proveedor envía además por una señal una indicación de secuencia a su línea 120b de señalización, indicando que la secuencia original de tuplas (106a o 106b) se codificó para derivar los bloques 118 codificados. En una realización alternativa, puede obtenerse la misma funcionalidad cuando se omiten las conexiones 122a y 122b de líneas discontinuas entre el suministrador 100 y el proveedor 104. En este escenario alternativo, el estimador 102 de bits codificaría la secuencia de tuplas 106a y 106b, y transferiría dos bloques 124a y 124b codificados diferentes al proveedor 104, en donde el proveedor señala adicionalmente de cuál de las secuencias originales de tuplas 106a y 106b los bloques 124a y 124b codificados se derivan. Para este fin, puede utilizarse la salida 112a de señalización del estimador 102 de bits o la señalización puede derivarse implícitamente por el proveedor 104.

En esta realización alternativa, el proveedor 104 simplemente enviaría el bloque codificado con el menor número de bits a su salida 120a, proporcionando adicionalmente la indicación de secuencia.

La figura 2 muestra un ejemplo de dos esquemas de agrupamiento adaptables que se utilizan para derivar una secuencia de tuplas que van a codificarse. Para explicar el principio del agrupamiento adaptable, se muestran cuatro cuadros 130a a 130d de tiempo subsecuentes de una señal de original, en donde cada uno de los cuadros tiene un conjunto de cinco parámetros 132a a 132e espectrales.

De acuerdo con el ejemplo, los parámetros espectrales de dos cuadros consecutivos se agrupan ya sea en frecuencia, como se ilustra por las tuplas 134a y 134b o en el tiempo, como se ilustra por las tuplas 136a y 136b para construir la secuencias de tuplas. El agrupamiento en el tiempo da como resultado una primera secuencia 138 de tuplas, mientras que el agrupamiento en frecuencia da como resultado la segunda secuencia 140 de tuplas. Las secuencias 138 y 140 de tuplas se codifican utilizado por ejemplo un libro de códigos de Huffman, que da como resultado dos secuencias diferentes de palabras códigopalabras 142 y 144 código. De acuerdo con la presente invención, la secuencia de palabras código que requiere el menor número de bits, se transmite finalmente a un descodificador, que tiene que recibir adicionalmente una indicación de secuencia, que señala ya sea el agrupamiento en el tiempo o agrupamiento de frecuencia que es fundamental o subyacente a la secuencia de palabras código. Como se puede ver en La figura 2. para el ejemplo mostrado de agolpamiento adaptable de pares de parámetros (bidimensional), la indicación de secuencia puede consistir en solo un bit.

La figura 3 muestra algunas estrategias de agrupamiento alternativas, que pueden utilizarse para implementar el agrupamiento adaptable de la invención, que permite códigos de Huffman con dimensiones mayores de 2. La figura 3 muestra una estrategia de agrupamiento para un código 146a de Huffman bidimensional para un código 146b de Huffman tridimensional y para un código 146c de Huffman tetradimensional como se utilizan de acuerdo con la invención. Para cada una de las estrategias, se ilustran dos cuadros de tiempo consecutivos, en donde los parámetros pertenecientes a la misma tupla son representados por las mismas letras mayúsculas.

En el caso del código de Huffman bidimensional, el agrupamiento se hace como ya se ha ilustrado en la figura 2, construyendo tuplas bidimensionales en frecuencia 148a y en tiempo 148b. En caso de construcción de tuplas que consisten en tres parámetros, las tuplas de frecuencia 158a son de tal manera que, tres parámetros vecinos dentro de un cuadro se agrupan conjuntamente para formar una tupla. Las tuplas de tiempo 150b pueden construirse de tal manera que los dos parámetros vecinos de un cuadro se combinan con un parámetro del otro cuadro, como se muestra en la figura 3.

Según la invención, se construyen tuplas 152a tetradimensionales agrupadas en tiempo de forma correspondiente a las otras tuplas de tiempo mediante agrupamiento de cuatro parámetros vecinos de un cuadro a una tupla. Las tuplas de agrupamiento de tiempo 152b se construyen de tal manera que, los dos parámetros vecinos de un cuadro se combinan con dos parámetros vecinos del otro cuadro, en donde los pares de parámetros de los cuadros individuales describen la misma propiedad espectral de los dos cuadros de tiempo consecutivos.

El permitir diferentes esquemas de agrupamiento, como se ilustra en la figura 3, puede reducir significativamente la proporción de bits de la información lateral, por ejemplo si se usa una variedad de libros de código de Huffman predefinidos de diferentes dimensiones, la dimensión del agrupamiento puede variarse dentro del el proceso de codificación, de tal manera que la representación que da como resultado la proporción de bits más baja puede utilizarse en cualquier tiempo o dentro del proceso de codificación.

La figura 4 muestra, cómo una unidad de compresión inventiva, que comprende adicionalmente un codificador diferencial, puede utilizarse para disminuir adicionalmente la información lateral mediante alguna codificación diferencial antes del proceso de codificación de Huffman.

Para ilustrar la codificación diferencial en tiempo y frecuencia o en tiempo y frecuencia, la misma representación 160 absoluta de parámetros, que ya se mostró en la figura 2, se utiliza como base para las varias etapas de codificación diferenciales. La primera posibilidad es codificar diferencialmente los parámetros de la representación 160 absoluta en frecuencia, dando como resultado los parámetros 162 codificados diferencialmente. Como se puede ver en la figura 4, para codificar diferencialmente la representación 160 absoluta, el primer parámetro de cada cuadro se deja sin cambios, mientras que el segundo parámetro se reemplaza por la diferencia del segundo parámetro y el primer parámetro de la representación 160 absoluta. Los otros parámetros dentro de la representación codificada diferencialmente se construyen siguiendo la misma regla.

Otra posibilidad es la codificación diferencial en tiempo, que produce la representación 164. Esta representación se construye al dejar el primer cuadro completo sin cambio, mientras que los parámetros de los siguientes cuadros se reemplazan por la diferencia del parámetro de la representación absoluta y del mismo parámetro del cuadro previo, como se puede ver en la figura 4.

Una tercera posibilidad es codificar primero diferencialmente en frecuencia, seguido por una codificación diferencial en tiempo o viceversa, dando como resultado la misma representación 166 codificada, que se codifica diferencialmente en tiempo y frecuencia.

Se notará que se tiene la posibilidad de usar estas cuatro representaciones diferentes de la señal original como entrada al agrupamiento adaptable. Con referencia a las diferentes representaciones 160 a 166 del ejemplo dado de parámetros, se puede ver claramente cómo la codificación diferencial tiene impacto sobre la velocidad permitida de información lateral. Al observar la representación 160 absoluta, se reconoce que ni un agrupamiento en el tiempo ni en frecuencia daría como resultado tuplas que tuvieran el mismo contenido. Por consiguiente, no se puede construir ningún libro de códigos de Huffman apropiado que asignaría las palabras código más cortas a los tuplas que se presentan más.

El caso es diferente al observar la diferencialidad en representación 162 codificada por frecuencia, en donde se podría construir un libro de códigos de Huffman que solamente necesitara tener cuatro entradas para cubrir toda la representación, y en donde ya sea la tupla (1, 1) o la tupla (2, 2) se asignaría a la palabra código con mínima longitud, para obtener una información lateral compacta.

La ventaja es menos obvia en la representación que se codifica diferencialmente en tiempo 164. No obstante, se puede ganar también aquí el agrupamiento en frecuencia y haciendo uso de las numerosas tuplas (5, 5) y (10, 10). Para la representación que se codifica diferencialmente en tiempo y en frecuencia 166, todavía se obtendría una reducción adicional de la proporción de bits de información lateral que en la representación 162, puesto que un agrupamiento en el tiempo daría como resultado una alta multiplicidad de la tupla (1, 0), como se indica en la figura, permitiendo construir un libro de códigos de Huffman, que asignaría la palabra código más corta a la tupla previa. Como se puede ver claramente en la figura 4, la alta flexibilidad del concepto inventivo que hace uso del agrupamiento adaptable y de codificación diferencial permite escoger la estrategia que se ajusta más a la señal de audio original, permitiendo así mantener la velocidad de bits de información lateral baja.

En resumen, en una realización preferida, los valores de parámetro cuantificados se codifican en primer lugar diferencialmente con respecto al tiempo (variante 1) y diferencialmente con respecto a la frecuencia (variante 2). Luego los parámetros resultantes pueden agruparse de manera adaptable con respecto al tiempo (variante a) y frecuencia (variante b). Como resultado están disponibles cuatro combinaciones (1a, 1b, 2a, 2b) de las cuales se selecciona la mejor y se envía por una señal al descodificador. Esto se podía hacer por una información de 2 bits solamente, que representa las variantes 1a, 1b, 2a, 2b mediante, por ejemplo, la combinación de bits 00, 01, 10, 11. La figura 5 muestra un descodificador de acuerdo con la presente invención, para descodificar bloques codificados de parámetros, en donde el bloque de parámetros incluye un primer cuadro que tiene un conjunto de primeros parámetros espectrales y un segundo cuadro que tiene un conjunto de segundos parámetros espectrales.

El descodificador 200 comprende un descompresor 202 y un constructor 204 de cuadros. El descompresor recibe en una entrada un bloque 206 codificado de parámetros. El descompresor deriva, utilizando una regla de descodificación, una secuencia 208 de tuplas de parámetros del bloque 206 codificado de parámetros. Esta secuencia 208 de tuplas de parámetros se introduce al constructor 204 de cuadros.

El constructor de cuadros recibe adicionalmente una indicación 210 de secuencia, que indica qué secuencia de tuplas se ha utilizado por el codificador para construir el bloque codificado de parámetros.

Luego el constructor 204 de cuadros reordena la secuencia 208 de tuplas dirigidos por la indicación 210 de secuencia para reconstruir el primer cuadro 112a y el segundo cuadro 112b de la secuencia 208 de tuplas de parámetros.

Los ejemplos descritos anteriormente obtienen una mejora adicional de la eficiencia de codificación al introducir un agrupamiento adaptable de valores que van a codificarse utilizando un código de Huffman multidimensional. Como ejemplo, ambos, el agrupamiento bidimensional de valores con respecto a la frecuencia se puede hacer también como el agrupamiento bidimensional de valores con respecto al tiempo. Luego el esquema de codificación se efectuaría en ambos tipos de codificación y se escogería el más ventajoso (esto es, la variante que requiere menos bits). Esta decisión se envía por una señal al descodificador mediante información lateral.

En ejemplos adicionales, como se ilustra en la figura 3, también es posible integrar códigos de Huffman de más dimensiones aplicando diferentes estrategias de agrupamiento para construir las tuplas. Los ejemplos dados muestran estrategias de agrupamiento que construyen las tuplas mediante agrupación conjunta de parámetros de dos cuadros consecutivos solamente. También es posible realizar el agrupamiento utilizando parámetros de tres o más cuadros consecutivos, realizando el agrupamiento de manera directa.

En una modificación del codificador de la invención, también es posible combinar el agrupamiento diferencial y las estrategias de codificación diferencial con el uso de diferentes libros de códigos de Huffman para derivar la representación más corta posible de la información lateral. Esto podría reducir adicionalmente la proporción de bits de información lateral de una señal de audio codificada a costa de tener parámetros de información lateral adicionales, que señalan el libro de códigos de Huffman usado para la codificación.

Las realizaciones preferidas descritas de la presente invención muestran el concepto inventivo para ejemplos, en donde la estrategia agrupamiento no cambia dentro de dos cuadros de tiempo consecutivos. En una modificación de la presente invención también es por supuesto posible tener múltiples cambios entre el agrupamiento en el tiempo y en frecuencia dentro de un conjunto de dos cuadros, que implicaría que la indicación de secuencia también se suministra dentro de los cuadros para señalar el cambio de estrategia de agrupamiento.

En los ejemplos dados, los parámetros se codifican diferencialmente antes de codificarse por Huffman. Por supuesto, también es posible cualquier regla de codificación sin pérdidas antes de la codificación de Huffman de los parámetros, siendo el objetivo de la codificación derivar tantas tuplas con el mismo contenido como sea posible.

Hay cuatro representaciones de parámetros posibles diferentes dados de la figura 4, es decir, la representación absoluta, la representación diferencial en frecuencia, la representación diferencial en tiempo y la representación diferencial en tiempo y frecuencia. Para escoger entre cuatro representaciones, la información lateral que señala qué representación se ha utilizado, tiene que ser de por lo menos dos bits de tamaño, como se indica en la figura 4. Para equilibrar la victoria de una ganancia de eficiencia posible de la codificación frente a la indicación de representación espectral adicional, por supuesto también se podría decidir principalmente permitir solo dos representaciones posibles, reduciendo la indicación de representación espectral a la longitud de un solo bit.

Como un ejemplo de un descodificador la invención, la figura 5 muestra un descodificador 200 que recibe además del bloque 206 codificado de parámetros alguna información lateral. La información lateral que dirige el constructor 204 de cuadros comprende solamente una indicación 210 de secuencia en el ejemplo dado. Un descodificador de acuerdo con la presente invención puede por supuesto procesar cualquier otra información lateral requerida, especialmente una indicación de representación espectral, que indica la representación espectral que se ha utilizado para codificar cuadros originales.

Dependiendo de ciertos requerimientos de implementación de los métodos de la invención, los métodos de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, en particular un disco flexible, DVD o un CD que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que cooperan con un sistema informático programable, de tal manera que se efectúan los métodos de la invención. En general, por consiguiente, la presente invención es un producto de programa informático con un código de programa almacenado en un portador legible por la máquina, siendo operativo el código de programa para efectuar los métodos de la invención cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, por consiguiente, los métodos inventivos son un programa informático que tiene un código de programa para efectuar por lo menos uno de los métodos inventivos cuando el programa informático se ejecuta en un ordenador.

En tanto que lo anterior se ha mostrado y descrito en particular con referencia a realizaciones particulares del mismo, se comprenderá por aquellos expertos en la técnica que pueden realizarse varios otros cambios en forma y detalles sin desviarse del alcance definido por las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

Unidad de compresión para compresión de parámetros, incluyendo los parámetros un primer conjunto de parámetros que incluye una representación de una primera porción de una señal de audio o de video original, incluyendo además los parámetros un segundo conjunto de parámetros que incluye una representación de una segunda porción de la señal de audio o de video original, siendo vecina la segunda porción de la primera porción, que comprende:

un suministrador (100) configurado para suministrar una primera tupla y una segunda tupla teniendo cada tupla cuatro parámetros, en el que el primer conjunto de parámetros incluye una representación de un primer cuadro (130a) de la señal de audio o de video original y en el que el segundo conjunto de parámetros incluye una representación de un segundo cuadro (130b) de la señal de audio o de video original;

un estimador (102) de bits configurado para estimar un número de bits necesarios para codificar los conjuntos de parámetros que utilizan una primera secuencia (138) de tuplas que incluyen la primera tupla basada en una regla de codificación y para codificar los conjuntos de parámetros que utilizan una segunda secuencia (140) de tuplas que incluyen la segunda tupla basada en la regla de codificación, en el que la regla de codificación es tal que cada tupla tiene asociada a ella una palabra código única de un grupo de palabras código diferentes; y

un proveedor (104) configurado para proporcionar bloques (118) codificados, siendo operativo el proveedor para proporcionar los bloques (118) codificados, utilizando la secuencia de tuplas que da como resultado un menor número de bits, y para proporcionar una indicación (120b) de secuencia que indica la secuencia de tuplas de la cual se derivan los bloques (118b) codificados,

en el que las tuplas tienen cuatro parámetros y en el que se utiliza un código cuatridimensional de Huffman para codificar las tuplas, siendo el número 4 de la dimensión del código igual al número de parámetros de las tuplas, y

en el que el suministrador (100) es operativo para suministrar la primera tupla (152a) que consiste en cuatro parámetros del primer conjunto de parámetros, siendo vecinos los parámetros de los parámetros dentro de la representación de la señal de audio o de vídeo original; y

consistiendo la segunda tupla (152b) en:

dos parámetros del primer conjunto de parámetros, siendo vecinos los dos parámetros dentro de la representación de la señal de vídeo o de audio original, y

el mismo número de parámetros del segundo conjunto de parámetros, siendo vecinos el mismo número de parámetros dentro de la representación de la señal de audio o de vídeo original,

en el que los dos parámetros del primer conjunto de parámetros y el mismo número de parámetros del segundo conjunto de parámetros describen la misma banda de frecuencia en el primer cuadro (130a) y en el segundo cuadro (130b).

Unidad de compresión según la reivindicación 1, en la que los parámetros incluyen parámetros de codificación de indicación binaural BCC que describen una interrelación espacial entre un primer canal de audio original y un segundo canal de audio original, y en el que los parámetros BCC se eligen de la siguiente lista de parámetros BCC:

coherencia/correlación de intercanal (ICC)

diferencia de nivel de intercanal (ICLD)

diferencia de tiempo de intercanal (ICTD), y

diferencia de fase de intercanal (IPD).

Unidad de compresión según la reivindicación 1, que comprende además un codificador diferencial para el procesamiento de una señal de audio o de vídeo original, de forma que el primer conjunto de parámetros y el segundo conjunto de parámetros incluye una representación de diferencia, siendo la diferencia una diferencia en el tiempo, la frecuencia o en el tiempo y en la frecuencia.

4. Descodificador para descodificar bloques (206) de parámetros codificados, incluyendo los parámetros un primer conjunto de parámetros que incluye una representación de una primera porción de una señal de audio o de vídeo original, incluyendo además los parámetros un segundo conjunto de parámetros que incluye una representación de una segunda porción de la señal de audio o de vídeo original, siendo vecina la segunda porción de la primera porción, y para el procesamiento de una indicación (210) de secuencia, que comprende:

un descompresor, siendo operativo el descompresor para descomprimir, utilizando una regla de descodificación que depende de una regla de descodificación utilizada para codificar secuencias de tuplas, un bloque (206) de parámetros codificados para derivar una secuencia de tuplas de parámetros, teniendo cada tupla cuatro parámetros, en el que el primer conjunto de parámetros incluye una representación de un primer cuadro (130a) de la señal de audio o de vídeo original y en el que el segundo conjunto de parámetros incluye una representación de un segundo cuadro (130b) de la señal de audio o de vídeo original, y en el que la regla de codificación es tal que cada tupla tiene asociada a ella una palabra código única de un grupo de palabras código diferentes; y

un constructor de cuadros configurado para recibir la indicación (210) de secuencia, indicando la indicación (210) de secuencia una secuencia de tuplas utilizada por un número de secuencias diferentes que subyace al bloque (206) codificado, en el que el número de secuencias de tuplas diferentes incluye una primera secuencia de tuplas que consiste en primeras tuplas (152a) y una segunda secuencia de tuplas que consiste en segundas tuplas (152b), y para construir los conjuntos de parámetros que utilizan la información de la secuencia de tuplas utilizada, en el que las tuplas primera y segunda tienen 4 parámetros, y en el que un código de Huffman cuatridimensional se utiliza para descodificar las tuplas codificadas, siendo el número 4 de la dimensión del código igual al número de parámetros de las tuplas, y

en el que una primera tupla (152a) consiste en cuatro parámetros del primer conjunto de parámetros, siendo vecinos los parámetros de los parámetros dentro de la representación de la señal de audio o de vídeo original, y

en el que una segunda tupla (152b) consiste en dos parámetros del primer conjunto de parámetros, siendo vecinos los dos parámetros dentro de la representación de la señal de audio o de vídeo original, y el mismo número de parámetros del segundo conjunto de parámetros, siendo vecinos el mismo número de parámetros dentro de la representación de la señal de audio o de vídeo original, y en el que los dos parámetros del primer conjunto de parámetros y el mismo número de parámetros del segundo conjunto de parámetros describen la misma banda de frecuencia en el primer cuadro (130a) y en el segundo cuadro (130b).

5. Descodificador según la reivindicación 4, en el que el constructor de cuadros es operativo para construir conjuntos de parámetros que comprenden parámetros BCC que describen una interrelación espacial entre un primer y un segundo canal de audio y en el que los parámetros BCC se eligen de la siguiente lista de parámetros BCC:

coherencia/correlación de intercanal (ICC)

diferencia de nivel de intercanal (ICLD)

diferencia de tiempo de intercanal (ICTD), y

diferencia de fase de intercanal (IPD).

6. Descodificador según la reivindicación 4, que comprende además un descodificador diferencial para recibir una indicación de representación y para procesar los conjuntos de parámetros de forma que los parámetros se derivan de una representación espectral de diferencia, siendo la diferencia una diferencia en tiempo, en frecuencia o en tiempo y en frecuencia, en el que el descodificador diferencial está operativo para procesar el primer y el segundo conjunto de parámetros dependiendo de la indicación de representación.

7. Descodificador según la reivindicación 6, en el que el constructor de cuadros y el descodificador diferencial están operativos para recibir la indicación (210) de secuencia y una indicación de representación como una palabra de datos binarios que tiene al menos tres bits.

8. Método para la compresión de parámetros, incluyendo los parámetros un primer conjunto de parámetros que incluye una representación de una primera porción de una señal de audio o de vídeo original, incluyendo además los parámetros un segundo conjunto de parámetros que incluye una representación de una segunda porción de la señal de audio o de vídeo original, siendo vecina la segunda porción de la primera porción, comprendiendo el método:

suministrar una primera y una segunda tupia, teniendo cada tupia cuatro parámetros, en el que el primer conjunto de parámetros incluye una representación de un primer cuadro (130a) de la señal de audio o de vídeo original y en el que el segundo conjunto de parámetros incluye una representación de un segundo cuadro (130b) de la señal de audio o de vídeo original;

estimar un número de bits necesario para codificar los conjuntos de parámetros utilizando una primera secuencia de tuplas que incluye la primera tupla basada en una regla de codificación, y para codificar los cuadros que utilizan una segunda secuencia de tuplas que incluye la segunda tupla, basada en la regla de codificación, en el que la regla de codificación es tal que cada tupla tiene asociada a ella una palabra código única de un grupo de palabras código diferentes;

proporcionar bloques (118) codificados utilizando la secuencia de tuplas que da como resultado un número menor de bits; y

proporcionar una indicación (120b) de secuencia que indica la secuencia de tuplas de la que se derivan los bloques (118) codificados,

en el que las tuplas tienen un número de 4 parámetros, y en el que se utiliza un código de Huffman cuatridimensional para codificar las tuplas, siendo el número 4 de la dimensión del código igual al número de parámetros de las tuplas, y en el que la etapa de suministro suministra la primera tupla (152a) que consiste en cuatro parámetros del primer conjunto de parámetros, siendo vecinos los parámetros de los parámetros dentro de la representación de la señal de audio o de vídeo original; y

consistiendo la segunda tupla (152b) en

dos parámetros del primer conjunto de parámetros, siendo vecinos los dos parámetros dentro de la representación de la señal de audio o de vídeo original, y

el mismo número de parámetros del segundo conjunto de parámetros, siendo vecino el mismo número de parámetros dentro la representación de la señal de audio o de vídeo original,

en el que los dos parámetros del primer conjunto de parámetros y el mismo número de parámetros del segundo conjunto de parámetros describen la misma banda de frecuencia en el primer cuadro (130a) y en el segundo cuadro (130b).

9. Método para descodificar bloques (206) de parámetros codificados, incluyendo los parámetros un primer conjunto de parámetros que incluye una representación de una primera porción de una señal de audio o de vídeo original, incluyendo además los parámetros un segundo conjunto de parámetros que incluye una representación de una segunda porción de la señal de audio o de vídeo original, siendo vecina la segunda porción de la primera porción, y para el procesamiento de una indicación (210) de secuencia, comprendiendo el método:

descomprimir, utilizando una regla de descodificación que depende de una regla de codificación utilizada para codificar secuencias de tuplas, el bloque (206) de parámetros codificado para derivar una secuencia de tuplas de parámetros, teniendo cada tupla cuatro parámetros, en el que el primer conjunto de parámetros incluye una representación de un primer cuadro (130a) de la señal de audio o de vídeo original y en el que el segundo conjunto de parámetros incluye una representación de un segundo cuadro (130b) de la señal de audio o de vídeo original, y en el que la regla de codificación es tal que cada tupla tiene asociada a ella una palabra código única de un grupo de palabras código diferentes;

recibir la indicación (210) de secuencia que indica una secuencia de tuplas utilizada de un número de secuencias diferentes subyacentes al bloque (206) codificado, en el que el número de secuencias de tuplas diferentes incluye una primera secuencia de tuplas que consiste en primeras tuplas (152a) y una segunda secuencia de tuplas que consiste en segundas tuplas (152b); y

construir los conjuntos de parámetros utilizando la información de la secuencia de tuplas utilizada, en el que las tuplas primera y segunda tienen 4 parámetros, y en el que un código de Huffman cuatridimensional se utiliza para descodificar las tuplas codificadas, siendo el número 4 de la dimensión del código igual al número de parámetros de las tuplas, y

en el que una primera tupla (152a) consiste en cuatro parámetros del primer conjunto de parámetros, siendo vecinos los parámetros de los parámetros dentro de la representación de la señal de audio o de vídeo original, y

en el que una segunda tupia (152b) consiste en dos parámetros del primer conjunto de parámetros, siendo vecinos los dos parámetros dentro de la representación de la señal de audio o de vídeo original, y el mismo número de parámetros del segundo conjunto de parámetros, siendo vecino el mismo número de parámetros dentro de la representación de la señal de audio o de vídeo original, y en el que los dos parámetros del primer conjunto de parámetros y el mismo número de parámetros del segundo conjunto de parámetros describen la misma banda de frecuencia en el primer cuadro (130a) y en el segundo cuadro (130b).

10. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un método para la compresión de parámetros según la reivindicación 8.

11. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un método para descodificar bloques (206) de parámetros codificados según la reivindicación 9.