ES2866125T3

ES2866125T3 - Método y dispositivo para decodificación aritmética

Info

Publication number: ES2866125T3
Application number: ES19187816T
Authority: ES
Inventors: Oliver Wuebbolt
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2009-10-09
Filing date: 2010-10-01
Publication date: 2021-10-19
Anticipated expiration: 2030-10-01
Also published as: WO2011042366A1; AU2020203538A1; MY191414A; AU2020203538B2; AU2021277715B2; KR102361280B1; US20210126649A1; CN104993833B; TWI714203B; US20180234109A1; MY160033A; TW201117567A; TW202025640A; AU2010305548A1; CN105099463B; CN104967454B; KR20180063385A; EP2315358A1; CA3151229A1; TW201813321A

Abstract

Método para la decodificación aritmética de un coeficiente espectral actual de un marco actual usando coeficientes espectrales precedentes del marco actual y/o un marco previo, dichos coeficientes espectrales precedentes ya están decodificados, y ambos, dichos coeficientes espectrales precedentes y actuales están comprendidos en uno o más espectros cuantificados que resultan de la cuantificación de valores de muestra de señal de voz, audio o vídeo transformados por tiempo-frecuencia, dicho método comprende: - procesar los coeficientes espectrales precedentes; - utilizar los coeficientes espectrales precedentes procesados para determinar una clase de contexto siendo uno de al menos dos clases de contexto diferentes; - utilizar la clase de contexto determinada y un mapeo de las al menos dos clases de contexto diferentes a al menos dos funciones de densidad de probabilidad diferentes para determinar la función de densidad de probabilidad, y decodificar aritméticamente el coeficiente espectral actual basado en la función de densidad de probabilidad determinada, donde dicho procesamiento de los coeficientes espectrales precedentes comprende las etapas de: - una primera cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes se cuantifican según un esquema de primera cuantificación; - determinar una varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación; - utilizar la varianza determinada para seleccionar uno de al menos dos esquemas diferentes de segunda cuantificación no lineal; y - una segunda cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación se cuantifican adicionalmente según el esquema seleccionado de segunda cuantificación no lineal, en donde la etapa de determinar la varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación comprende - determinar una suma de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación y comparar la suma determinada con al menos un umbral, comprendiendo el método además las etapas de - recibir una señal de reconfiguración y - en respuesta a la señal de reconfiguración, utilizar solo coeficientes espectrales precedentes del marco actual para determinar la clase de contexto.

Description

DESCRIPCIÓN

Método y dispositivo para decodificación aritmética

Esta solicitud es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 10762909.9 presentada el 01 de octubre de 2010.

Campo técnico

La invención se refiere a la decodificación aritmética de datos multimedia.

Antecedentes de la invención

La codificación aritmética es un método para la compresión sin pérdida de datos. La codificación aritmética se basa en una función de densidad de probabilidad (PDF, por sus siglas en inglés). Para lograr un efecto de compresión, la función de densidad de probabilidad sobre la cual se basa la codificación tiene que ser idéntica, o al menos ser similar (cuanto más, mejor), a la función de densidad de probabilidad real que los datos siguen realmente.

Si la codificación aritmética se basa en una función de densidad de probabilidad adecuada, esta puede lograr una compresión significativa que produzca un código al menos casi óptimo. Por lo tanto, la codificación aritmética es una técnica utilizada a menudo en la codificación de audio, voz o vídeo para codificar o decodificar las secuencias de coeficientes, en donde los coeficientes son transformados tiempo-frecuencia cuantificadas de valores de muestra de señales de voz o audio o píxeles de vídeo en una representación binaria.

Para mejorar de manera uniforme la compresión, la codificación aritmética puede basarse en un conjunto de funciones de densidad de probabilidad, en donde la función de densidad de probabilidad utilizada para codificar un coeficiente actual depende de un contexto de dicho coeficiente actual. Es decir, las diferentes funciones de densidad de probabilidad pueden utilizarse para codificar un mismo valor de cuantificación dependiendo de un contexto en el cual aparece el coeficiente que tiene el mismo valor de cuantificación. El contexto de un coeficiente se define mediante los valores de cuantificación de los coeficientes comprendidos en un vecindario de uno o más coeficientes vecinos que rodean el coeficiente respectivo, p. ej., una subsecuencia de uno o más coeficientes ya codificados o decodificados adyacentes precedentes, en una secuencia, el coeficiente respectivo a codificarse o decodificarse. Cada una de las posibles apariencias diferentes que el vecindario puede adoptar define un diferente contexto posible, cada uno identificado a una función de densidad de probabilidad asociada.

En la práctica, dicha mejora de la compresión se vuelve manifiesta únicamente si el vecindario es lo suficiente grande. Esto va de la mano con una explosión combinatoria de la cantidad de diferentes contextos posibles, así como una gran cantidad correspondiente de funciones de densidad de probabilidad posibles o un mapeo complejo correspondiente.

Un ejemplo de un esquema de codificación aritmética basada en el contexto puede encontrarse en ISO/IEC JTC1/SC29/WG11 N10215, octubre de 2008, Busan, Corea, que propone un modelo de referencia para la codificación unificada de la voz y el sonido (USAC, por sus siglas en inglés). Según la propuesta, se consideran 4 tuplas ya decodificadas para el contexto.

Otro ejemplo de una codificación aritmética basada en el contexto relacionada con USAC puede encontrarse en ISO/IEC JTC1/SC29/WG11 N10847, julio de 2009, Londres, Reino Unido.

Respecto a la reducción de la complejidad en la codificación de entropía condicional de alto nivel, la patente estadounidense 5,298,896 propone una cuantificación no uniforme de los símbolos de condicionamiento.

MAX NEUENDORF ET AL: “A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RMO”, “AUDIO ENGINEERING SOCIETY CONVENTION PAPER, NUEVA YORK, NY, US, 1 de enero de 2009, proporciona una revisión del códec USAC.

MEINE NIKOLAUS ET AL: “IMPROVED QUANTIZATION AND LOSSLESS CODING FOR SUBBAND AUDIO CODING”, PREIMPRESIONES DE LOS ARTÍCULOS PRESENTADOS EN LA CONVENCIÓN AES, vol. 1-4, 31 de mayo de 2005, describe un algoritmo de codificación fuente basado en el modelo clásico de Markov, que usa cuantificación vectorial y codificación aritmética junto con un contexto adaptado dinámicamente de índices vectoriales codificados previamente.

Compendio de la invención

Correspondiente a la gran cantidad de contextos que deben manipularse, existe una gran cantidad de funciones de densidad de probabilidad que deben almacenarse, recuperarse y manipularse o, al menos, un mapeo complejo correspondiente de los contextos de las funciones de densidad de probabilidad. Esto aumenta al menos uno de los requisitos de capacidad de memoria y latencia de codificación/decodificación. En la técnica es necesaria una solución alternativa que permita lograr una correcta compresión similar mientras disminuye al menos uno de los requisitos de capacidad de memoria y latencia de codificación/decodificación.

Para abordar esta necesidad, la invención propone un método de decodificación que comprende las características de la reivindicación 1 y un dispositivo para la decodificación aritmética que comprende las características de la reivindicación 3.

Las características de otras realizaciones propuestas se especifican en las reivindicaciones dependientes.

Un método ejemplar de codificación, o decodificación, aritmética, respectivamente, utiliza los coeficientes espectrales precedentes para la codificación o decodificación aritmética, respectivamente, de un coeficiente espectral actual, en donde dichos coeficientes espectrales precedentes ya están codificados, o decodificados, respectivamente. Tanto los coeficientes espectrales precedentes como dicho coeficiente espectral actual están comprendidos en uno o más espectros cuantificados producto de la cuantificación de la transformada tiempo-frecuencia de los valores de muestra de señales de voz, audio o vídeo. Dicho método comprende además procesar los coeficientes espectrales precedentes, utilizar los coeficientes espectrales precedentes procesados para determinar una clase de contexto que sea una de al menos dos clases de contexto diferentes, utilizar la clase de contexto determinada y un mapeo a partir de las dos o más clases de contexto diferentes a al menos dos funciones de densidad de probabilidad diferentes para determinar la función de densidad de probabilidad y la codificación, o decodificación, aritmética, respectivamente, del coeficiente espectral actual basado en la función de densidad de probabilidad determinada. Una característica del método es que procesar los coeficientes espectrales precedentes comprende cuantificar de manera no uniforme los valores absolutos de los coeficientes espectrales precedentes.

El uso de las clases de contexto como alternativa a los contextos para determinar la función de densidad de probabilidad permite agrupar dos o más contextos diferentes, lo que produce funciones de densidad de probabilidad diferentes, pero muy similares, en una única clase de contexto que se mapea en una única función de densidad de probabilidad. El agrupamiento se logra mediante el uso de valores absolutos cuantificados no uniformes de los coeficientes espectrales precedentes para determinar la clase de contexto.

El procesamiento de los coeficientes espectrales precedentes comprende determinar una suma de los valores absolutos cuantificados de los coeficientes espectrales precedentes para utilizar en la determinación de la clase de contexto. De manera similar, hay una realización correspondiente del dispositivo para codificación aritmética, así como una realización correspondiente del dispositivo para la decodificación aritmética en la que los medios de procesamiento se adaptan para determinar una suma de los valores absolutos cuantificados de los coeficientes espectrales precedentes para utilizar en la determinación de la clase de contexto.

Los medios de procesamiento se adaptan de forma tal que el procesamiento de los coeficientes espectrales precedentes comprenda además una primera cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes se cuantifiquen según un esquema de primera cuantificación, una determinación de varianza en la cual se determina la varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación, el uso de la varianza determinada para la selección de uno de al menos dos esquemas diferentes de segunda cuantificación no lineal y una segunda cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación se cuantifican adicionalmente según el esquema seleccionado de segunda cuantificación no lineal. Otras realizaciones de los métodos comprenden etapas correspondientes.

La determinación de la varianza comprende la determinación de una suma de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación y la comparación de la suma determinada con al menos un umbral.

En otras realizaciones, los medios de procesamiento de cada uno de los dispositivos pueden adaptarse de forma tal que el procesamiento produzca un primer resultado o al menos un segundo resultado diferente. A continuación, la determinación de la clase de contexto comprende además la determinación de una cantidad de estos coeficientes espectrales precedentes para los cuales el procesamiento produjo el primer resultado y el uso de la cantidad determinada para la determinación de la clase de contexto.

Cada uno de los dispositivos puede comprender medios para recibir al menos una de una señal de conmutación de modo y una señal de reconfiguración, en donde los dispositivos se adaptan para utilizar la o las señales recibidas para controlar la determinación de la clase de contexto.

Las dos o más funciones de densidad de probabilidad diferentes pueden determinarse con antelación con el uso de un conjunto representativo de datos para determinar las dos o más funciones de densidad de probabilidad diferentes y el mapeo puede llevarse a cabo con el uso de una tabla de búsqueda o una tabla hash.

Breve descripción de los dibujos

Las realizaciones de ejemplo de la invención se ilustran en los dibujos y se explican en mayor detalle en la descripción a continuación. Las realizaciones de ejemplo se explican únicamente para aclarar la invención, pero no limitan el alcance de la invención como se define en las reivindicaciones.

En las figuras:

La Figura 1 representa de manera ilustrativa una realización del codificador.

La Figura 2 representa de manera ilustrativa una realización del decodificador de la invención.

La Figura 3 representa de manera ilustrativa una primera realización de un clasificador de contexto para determinar una clase de contexto.

La Figura 4 representa de manera ilustrativa una segunda realización de un clasificador de contexto para determinar una clase de contexto.

La Figura 5a representa de manera ilustrativa un primer vecindario de intervalos espectrales precedentes que preceden un intervalo espectral actual a codificarse o decodificarse en el modo de dominio de frecuencia.

La Figura 5b representa de manera ilustrativa un segundo vecindario de intervalos espectrales precedentes que preceden un intervalo espectral actual a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada.

La Figura 6a representa de manera ilustrativa un tercer vecindario de intervalos espectrales precedentes que preceden un intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de dominio de frecuencia.

La Figura 6b representa de manera ilustrativa un cuarto vecindario de intervalos espectrales precedentes que preceden un segundo intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de dominio de frecuencia.

La Figura 7a representa de manera ilustrativa un quinto vecindario de intervalos espectrales precedentes que preceden un intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada.

La Figura 7b representa de manera ilustrativa un sexto vecindario de intervalos espectrales precedentes que preceden un segundo intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada.

La Figura 7c representa de manera ilustrativa un séptimo vecindario de intervalos espectrales precedentes que preceden un tercer intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada.

La Figura 7d representa de manera ilustrativa un octavo vecindario de intervalos espectrales precedentes que preceden un tercer intervalo espectral actual de frecuencia más baja a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada.

La Figura 8 representa de manera ilustrativa vecindarios de diferentes intervalos espectrales a codificarse o decodificarse, dichos intervalos espectrales diferentes comprendidos en un primer espectro a codificarse o decodificarse después de iniciar la codificación/decodificación o de la aparición de una señal de reconfiguración en el modo de dominio de frecuencia.

La Figura 9 representa de manera ilustrativa otros vecindarios de diferentes intervalos espectrales a codificarse o decodificarse en el modo de transformada de predicción lineal ponderada, dichos intervalos espectrales diferentes comprendidos en un segundo espectro a codificarse o decodificarse después de iniciar la codificación/decodificación o de la aparición de una señal de reconfiguración en el modo de transformada de predicción lineal ponderada.

Realizaciones de ejemplo

Las realizaciones que se refieren a la decodificación son realizaciones de la invención, mientras que las realizaciones que se refieren a la codificación son útiles simplemente para entender la invención.

La invención puede llevarse a cabo en cualquier dispositivo electrónico que comprenda un dispositivo de procesamiento adaptado de manera correspondiente. Por ejemplo, el dispositivo para la decodificación aritmética puede ser una televisión, un teléfono móvil o un ordenador personal, un reproductor de mp3, un sistema de navegación o un sistema de audio de un automóvil. El dispositivo para la codificación aritmética puede ser un teléfono móvil, un ordenador personal, un sistema de navegación de automóvil activo, una cámara fotográfica digital, una videocámara digital o un dictáfono, entre otros.

Las realizaciones ilustrativas descritas a continuación se refieren a la codificación y decodificación de intervalos espectrales cuantificados producto de la cuantificación de la transformada tiempo-frecuencia de muestras multimedia.

La invención se basa en la manera en que se utilizan los intervalos espectrales cuantificados ya transmitidos, p. ej., intervalos espectrales precedentes cuantificados que preceden un intervalo espectral BIN cuantificado actual en una secuencia, para determinar la función de densidad de probabilidad PDF a utilizarse en la codificación y decodificación aritmética, respectivamente, del intervalo espectral BIN cuantificado actual.

Las realizaciones ilustrativas descritas de los métodos y dispositivos para la codificación aritmética o la decodificación aritmética comprenden diversas etapas o medios, respectivamente, para la cuantificación no uniforme. En conjunto, todas las etapas o medios, respectivamente, ofrecen la mayor eficiencia de codificación, pero cada etapa o medio, respectivamente, individualmente ya cumple el concepto inventivo y proporciona ventajas con respecto a los requisitos de memoria y/o latencia de codificación/decodificación. Por lo tanto, la descripción detallada se interpretará como la descripción de las realizaciones ilustrativas que cumplen únicamente una de las etapas o medios, respectivamente, descritos, así como la descripción de las realizaciones ilustrativas que cumplen con combinaciones de dos o más de las etapas o medios descritos.

Una primera etapa que puede comprenderse, pero no necesariamente, en una realización ilustrativa del método es una etapa de conmutación en la cual se decide cuál modo de transformada general se utilizará. Por ejemplo, en el esquema de codificación sin ruido de USAC, el modo de transformada general puede ser un modo de dominio de frecuencia (FD, por sus siglas en inglés) o un modo de transformada de predicción lineal ponderada (wLPT, por sus siglas en inglés). Cada modo general puede utilizar un vecindario diferente, es decir, una selección diferente de intervalos espectrales ya codificados o decodificados, respectivamente, para la determinación de la PDF.

Luego, el contexto de un intervalo espectral BIN actual puede determinarse en una generación de contexto de módulo COCL. A partir del contexto determinado, se determina una clase de contexto mediante la clasificación del contexto, en donde, antes de la clasificación, el contexto se procesa, preferiblemente, pero no necesariamente, mediante la cuantificación no uniforme NUQ1 de los intervalos espectrales del contexto. La clasificación puede comprender estimar una varianza VES del contexto y comparar la varianza con al menos un umbral. O la estimación de la varianza se determina directamente a partir del contexto. A continuación, la estimación de la varianza se utiliza para controlar una cuantificación adicional NUQ2 que es, preferiblemente, pero no necesariamente, no lineal.

En el proceso de codificación que se representa de manera ilustrativa en la Figura 1, se determina una función de densidad de probabilidad (PDF) ideal para codificar el intervalo espectral BIN cuantificado actual. A estos efectos, se puede utilizar únicamente información que ya sea conocida también en el lado del decodificador. Es decir, se pueden utilizar únicamente intervalos espectrales precedentes cuantificados codificados o decodificados. Esto se lleva a cabo en un bloque clasificador de contexto COCL. Allí, los intervalos espectrales precedentes seleccionados definen un vecindario NBH que se utiliza para determinar la clase de contexto real. La clase de contexto puede representarse mediante un número de clase de contexto. El número de clase de contexto se utiliza para recuperar la PDF correspondiente de una memoria de PDF MEM1 mediante un mapeo MAP, p. ej., mediante una tabla de búsqueda o una tabla hash. La determinación de la clase de contexto puede depender de un conmutador de modo general GMS que permita utilizar diferentes vecindarios en función del modo seleccionado. Tal como se mencionó anteriormente, para USAC, puede haber dos modos generales (modo FD y modo wLPT). Si se lleva a cabo una conmutación de modo general GMS en el lado del codificador, una señal de cambio de modo o una señal general actual deben estar comprendidas en el tren de bits, de modo que también sea conocida en el decodificador. Por ejemplo, en el modelo de referencia para la codificación unificada de la voz y el sonido (USAC) propuesta por ISO/IEC JTC1/SC29/WG11 N10847, julio 2009, Londres, Reino Unido, se propone core_mode en la tabla WD 4.4 y core_mode0/1 en la tabla 4.5 para la transmisión del modo general.

Después de la determinación de una PDF adecuada para codificar el intervalo espectral BIN cuantificado actual mediante el codificador aritmético AEC, el intervalo espectral BIN cuantificado actual se suministra a la memoria de vecindario MEM2, es decir, el intervalo actual BIN se convierte en un intervalo precedente. Los intervalos espectrales precedentes comprendidos en la memoria del vecindario MEM2 pueden ser utilizados por el bloque COCL para codificar el siguiente intervalo espectral BIN. Durante, antes o después de memorizar el intervalo espectral BIN actual, dicho intervalo actual BIN es codificado aritméticamente por el codificador aritmético AEC. El resultado de la codificación aritmética AEC se almacena en el búfer de intervalo BUF o se escribe en el tren de bits directamente.

El tren de bits o el contenido del búfer BUF pueden transmitirse o emitirse, por ejemplo, mediante cable o satélite. O los intervalos espectrales codificados aritméticamente pueden escribirse en un medio de almacenamiento como un DVD, disco duro, disco de Blu-ray o similares. La memoria de PDF MEM1 y la memoria del vecindario MEM2 pueden ser una única memoria física.

La conmutación de reconfiguración RS puede permitir reiniciar, ocasionalmente, la codificación o decodificación en marcos especializados en los cuales la codificación o decodificación puede iniciarse sin el conocimiento de los espectros precedentes, estos marcos especializados se conocen como puntos de entrada de decodificación. Si se lleva a cabo una conmutación de reconfiguración RS en el lado del codificador, una señal de reconfiguración debe estar comprendida en el tren de bits, de modo que también sea conocida en el decodificador. Por ejemplo, en el modelo de referencia para la codificación unificada de la voz y el sonido (USAC) propuesta por ISO/IEC JTC1/SC29/WG11 N10847, julio 2009, Londres, Reino Unido, se propone un arith_reset_flag en la tabla WD 4.10 y la tabla 4.14.

El correspondiente esquema de decodificación basado en el vecindario se representa de manera ilustrativa en la Figura 2. Comprende bloques similares al esquema de codificación. La determinación de la PDF a utilizarse en la decodificación aritmética es idéntica al esquema de codificación para asegurar que la PDF determinada sea la misma tanto en el codificador como en el decodificador. La decodificación aritmética toma los bits del búfer de bits BUF o el tren de bits directamente y utiliza la PDF determinada para decodificar el intervalo espectral BIN cuantificado actual.

Luego, el intervalo espectral cuantificado decodificado se suministra a la memoria del vecindario MEM2 de la determinación del bloque de número de clase de contexto COCL y puede utilizarse para decodificar el siguiente intervalo espectral.

La Figura 3 representa de manera ilustrativa un primer ejemplo, útil para comprender la invención, del clasificador de contexto COCL para determinar una clase de contexto en detalle. Antes de almacenar el intervalo espectral BIN cuantificado actual en la memoria de espectros MEM2, este se puede cuantificar de manera no uniforme en el bloque NUQ1. Esto presenta dos ventajas: en primer lugar, permite un almacenamiento más eficiente de los intervalos cuantificados, que generalmente son valores enteros con signo de 16 Bits. En segundo lugar, se reduce la cantidad de valores que cada intervalo cuantificado puede tener. Esto permite una gran reducción de las posibles clases de contexto en el proceso de determinación de clase de contexto en el bloque CLASE. Asimismo, dado que en la determinación de la clase de contexto se puede descartar el signo de los intervalos cuantificados, el cálculo de los valores absolutos se puede incluir en el bloque de cuantificación no uniforme NUQ1. En la Tabla 1 se muestra la cuantificación no uniforme ilustrativa tal como se puede llevar a cabo en el bloque NUQ1. En el ejemplo, después de la cuantificación no uniforme, son posibles tres valores diferentes para cada intervalo. Sin embargo, en general, la única restricción de cuantificación no uniforme es que reduce la cantidad de valores que puede adoptar un intervalo.

Tabla 1 Etapa de cuantificación no uniforme ilustrativa que incluye el cálculo de valores absolutos

Los intervalos espectrales mapeados/cuantificados de manera no uniforme se almacenan en la memoria espectral MEM2. Según la selección GMS de modo general seleccionado, para la determinación de clase de contexto CLASE de cada intervalo a codificarse, se selecciona un vecindario NBH seleccionado de intervalos espectrales.

La Figura 5a representa de manera ilustrativa un primer vecindario NBH ilustrativo de un intervalo espectral BIN a codificarse o decodificarse.

En este ejemplo, únicamente los intervalos espectrales del espectro (marco) real o actual y los intervalos espectrales de un espectro (marco) precedente definen el vecindario NBH. Por supuesto, es posible utilizar intervalos espectrales de más de un espectro precedente como parte del vecindario, lo que produce una mayor complejidad, pero también puede ofrecer una mayor eficiencia de codificación en última instancia. Debe observarse que, a partir del espectro real, se pueden utilizar únicamente intervalos ya transmitidos para definir el vecindario NBH, dado que tienen que estar accesibles también en el decodificador. Aquí, así como en los siguientes ejemplos, se presume el orden de transmisión de frecuencias bajas a altas de los intervalos espectrales.

Luego, el vecindario seleccionado NBH se utiliza como entrada en el bloque COCL de determinación de clase de contexto. A continuación, se explica en primer lugar la idea general detrás de la determinación de la clase de contexto y una versión simplificada, antes de describir una realización especial.

La idea general detrás de la determinación de la clase de contexto es permitir una estimación fiable de la varianza del intervalo a codificarse. Esta varianza prevista, nuevamente, se puede utilizar para obtener una estimación de la PDF del intervalo a codificarse. Para la estimación de la varianza no es necesario evaluar el signo de los intervalos en el vecindario. Por lo tanto, el signo ya se puede haber descartado en la etapa de cuantificación antes de su almacenamiento en la memoria espectral MEM2. Una determinación de la clase de contexto muy simple puede ser la siguiente: el vecindario NBH del intervalo espectral BIN puede asemejarse a la Figura 5a y consiste en 7 intervalos espectrales. Si se utiliza la cuantificación no uniforme de manera ilustrativa que se muestra en la Tabla, cada intervalo puede tener 3 valores. Esto produce 37 = 2187 clases de contexto posibles.

Para reducir adicionalmente esta cantidad de posibles clases de contexto, se puede descartar la posición relativa de cada intervalo en el vecindario NBH. Por lo tanto, se cuenta únicamente la cantidad de intervalos que tienen el valor 0, 1 o 2, respectivamente, en donde la suma de la cantidad de intervalos 0, la cantidad de intervalos 1 y la cantidad de intervalos 2 es, por supuesto, igual a la cantidad general de intervalos en el vecindario. En el vecindario NBH que comprende n intervalos, de los cuales cada uno puede adoptar uno de entre tres valores diferentes, existen 0.5* (n2+3*n+2) clases de contexto. Por ejemplo, en un vecindario de 7 intervalos, hay 36 clases de contexto posibles y en un vecindario de 6 intervalos, hay 28 clases de contexto posibles.

Una determinación de clase de contexto más compleja pero aún lo suficientemente simple toma en consideración que las investigaciones han demostrado que el intervalo espectral del espectro precedente a la misma frecuencia es de particular importancia (el intervalo espectral representado por un círculo punteado en la Figura 5a, 5b, 6a, 6b, 7a, 7b, 7c, 8 y 9). Para los otros intervalos en el vecindario, los representados por círculos a rayas horizontales en las figuras respectivas, la posición relativa es menos importante. Por lo tanto, el intervalo a la misma frecuencia en el espectro precedente se utiliza de manera explícita para la determinación de la clase de contexto, mientras que para los otros 6 intervalos se cuenta únicamente la cantidad de intervalos 0, la cantidad de intervalos 1 y la cantidad de intervalos 2. Esto produce 3 x 28 = 84 clases de contexto posibles.

Los experimentos han demostrados que dicha clasificación de contexto es muy eficiente para el modo FD.

La determinación de clase de contexto se expande mediante una estimación de la varianza VES, lo que controla una segunda cuantificación no uniforme NUQ2. Esto permite una mejor adaptación de la generación de clase de contexto COCL a un mayor rango dinámico de la varianza prevista del intervalo a codificarse. El diagrama de bloques correspondiente de la determinación de clase de contexto expandida se muestra de manera ilustrativa en 4.

En el ejemplo que se muestra en la Figura 4, la cuantificación no uniforme se separa en dos etapas de las cuales una etapa precedente proporciona una cuantificación más fina (bloque NUQ1) y una etapa posterior proporciona una cuantificación más gruesa (bloque NUQ2). Esto permite la adaptación de la cuantificación de, p. ej., la varianza del vecindario. La varianza del vecindario se estima en el bloque de estimación de varianza VES, en donde la estimación de la varianza se basa en dicha cuantificación más fina precedente de los intervalos en el vecindario NBH en el bloque NUQ1. No es necesario que la estimación de la varianza sea precisa, pero puede ser muy aproximada. Por ejemplo, es suficiente que la aplicación USAC decida si la suma de los valores absolutos de los intervalos en el vecindario NBH después de dicha cuantificación más fina cumple o supera un umbral de varianza o no, es decir, una conmutación entre una varianza alta y baja es suficiente.

La cuantificación no uniforme de la etapa 2 puede verse como se muestra en la Tabla 2. En este ejemplo, el modo de varianza baja corresponde a la cuantificación de la etapa 1 que se muestra en la Tabla 2.

La Tabla 2 representa una cuantificación no uniforme de 2 etapas ilustrativa; la segunda o etapa posterior cuantifica de manera diferente en función de si la varianza se ha estimado como alta o baja.

La última determinación de clase de contexto en el bloque CLASE es la misma que en la versión simplificada de la Figura 3. Es posible utilizar diferentes determinaciones de clase de contexto según el modo de varianza. También es posible utilizar más de dos modos de varianza, que, por supuesto, produce un aumento de la cantidad de clases de contexto y un aumento de la complejidad.

Para los primeros intervalos en un espectro, un vecindario como el que se muestra en la Figura 5a o 5b no es aplicable, porque ninguno de los primeros intervalos ni ninguno de los intervalos de frecuencia más baja existen. Para cada uno de estos casos especiales, se puede definir un vecindario propio. En una realización adicional, los intervalos no existentes se completan con un valor predefinido. Para el vecindario ilustrativo presentado en la Figura 5a, los vecindarios definidos para los primeros intervalos a transmitirse en el espectro se muestran en la Figura 6a y la Figura 6b. La idea es expandir el vecindario a intervalos de frecuencia más alta para permitir el uso de la misma función de determinación de clase de contexto que para el resto del espectro. Esto significa también que se pueden utilizar las mismas clases de contexto y al menos las mismas PDF. Esto no sería posible si el tamaño del vecindario se acaba de reducir (por supuesto, esto también es una opción).

Las reconfiguraciones suceden habitualmente antes de codificar un nuevo espectro. Tal como ya se mencionó, esto es necesario para permitir puntos de inicio especializados para la decodificación. Por ejemplo, si el proceso de decodificación inicia a partir de un determinado marco/espectro, de hecho, el proceso de decodificación debe iniciar desde el punto de la última reconfiguración para posteriormente decodificar el marco precedente hasta el espectro de inicio deseado. Esto significa que, cuantas más reconfiguraciones sucedan, más puntos de entrada existen para la decodificación. Sin embargo, la eficiencia de codificación es menor en un espectro después de una reconfiguración.

Después de llevar a cabo una reconfiguración, no hay ningún espectro precedente disponible para la definición del vecindario. Esto significa que únicamente los intervalos espectrales precedentes del espectro real pueden utilizarse en el vecindario. Sin embargo, el procedimiento general puede no cambiarse y se pueden utilizar las mismas “herramientas”. Nuevamente, los primeros intervalos deben tratarse de manera diferente como se explicó en la sección anterior.

En la Figura 8 se muestra una definición de vecindario reconfigurado ilustrativo. Esta definición puede utilizarse en el caso de una reconfiguración en el modo FD de USAC.

La cantidad de clases de contexto adicionales como se muestra en el ejemplo de la Figura 8 (con el uso de la cuantificación de la Tabla con, en última instancia, 3 valores cuantificados posibles o 6 valores si se utilizan los valores después de la etapa 1 de cuantificación) es la siguiente: la manipulación para el primer intervalo agrega 1 clase de contexto, el 2.° intervalo agrega 6 (se utiliza el valor después de la etapa 1 de cuantificación), el 3.er intervalo agrega 6 y el 4.° intervalo agrega 10 clases de contexto. Si se consideran adicionalmente dos modos de varianza (alta y baja), esta cantidad de clases de contexto se ve casi duplicada (únicamente para el primer intervalo, cuando no hay información disponible y para el segundo intervalo cuando el valor utilizado para el intervalo después de la etapa 1 de cuantificación no está duplicado).

Esto da como resultado, en este ejemplo, 1 6 2x6 2x10 = 39 clases de contexto adicionales para la manipulación de las reconfiguraciones.

El bloque MAP de mapeo toma la clasificación de contexto determinada mediante el bloque COCL, p. ej., un número de clase de contexto determinado, y selecciona la PDF correspondiente de la memoria de PDF MEM1. En esta etapa, es posible reducir adicionalmente la cantidad de tamaño de memoria al utilizar una única PDF para más de una clase de contexto. Es decir, las clases de contexto que tengan una PDF similar pueden utilizar una PDF conjunta. Estas PDF pueden predefinirse en una etapa de entrenamiento con el uso de un conjunto de datos representativos lo suficientemente grande. Este entrenamiento puede incluir una fase de optimización, donde se identifican las clases de contexto correspondientes a PDF similares y las PDF correspondientes se fusionan. En función de las estadísticas de los datos, esto puede producir una cantidad relativamente pequeña de PDF que debe almacenarse en la memoria. En la versión experimental ilustrativa para USAC, se aplicó exitosamente un mapeo de 822 clases de contexto a 64 PDF.

La práctica de esta función de mapeo MAP puede ser una simple tabla de búsqueda si la cantidad de clases de contexto no es demasiado grande. Si la cantidad aumenta, se puede aplicar una tabla hash a efectos de eficiencia.

Tal como se mencionó anteriormente, una conmutación de modo general GMS permite conmutar entre el modo de dominio de frecuencia (FD) y el modo de transformada de predicción lineal ponderada (wLPT). En función del modo, se pueden utilizar diferentes vecindarios. Se ha demostrado en experimentos que los vecindarios ilustrativos representados en la Figura 5a, Figura 6a y 6b y Figura 8 son lo suficientemente grandes para el modo FD. Sin embargo, para el modo wLPT, se ha descubierto que los vecindarios más grandes, como los representados ilustrativamente en la Figura 5b, Figura 7a, 7b y 7c y la Figura 9, son ventajosos.

Es decir, la manipulación de reconfiguración ilustrativa en el modo wLPT está representada en la Figura 9. Los vecindarios ilustrativos en el modo wLPT para el intervalo menor, el segundo intervalo menor, el tercer intervalo menor y el cuarto intervalo menor en un espectro se representan en la Figura 7a, 7b, 7c y 7d, respectivamente. Y en la Figura 5b se representa un vecindario ilustrativo en el modo wLPT para todos los otros intervalos en un espectro.

La cantidad de clases de contexto producidas por el vecindario ilustrativo representado en la Figura 5b es 3 x 91 = 273 clases de contexto. El factor 3 resulta de la manipulación especial de un intervalo a la misma frecuencia que el intervalo a codificarse o a decodificarse actualmente. Según la fórmula presentada anteriormente, existen 0.5*((12*12)+3*12 2) = 91 combinaciones de cantidad de intervalos con valor 2, 1 o 0 para los restantes 12 intervalos en el vecindario. En una realización que diferencia las clases de contexto en función de si la varianza del vecindario cumple o supera un umbral, las 273 clases de contexto se duplican.

Una manipulación de reconfiguración ilustrativa como se muestra en la Figura 9 también puede agregar una cantidad de clases de contexto.

En una realización ilustrativa analizada que produjo buenos resultados en los experimentos, existen 822 posibles clases de contexto, que se desglosan en la siguiente Tabla 1.

Tabla 1 Desglose de posibles clases de contexto de la propuesta CE USAC MPEG

En una realización ilustrativa analizada, estas 822 posibles clases de contexto se mapean en 64 PDF. El mapeo se determina en una fase de entrenamiento, tal como se describió anteriormente.

Las 64 PDF resultantes deben almacenarse en tablas ROM, p. ej., en exactitud de 16 bits para un codificador aritmético de punto fijo. Aquí se descubre otra ventaja del esquema propuesto: en la versión borrador de trabajo actual de la normalización USAC mencionada en la sección de antecedentes, los cuádruples (vectores que contienen 4 intervalos espectrales) se codifican juntos con una única palabra de código. Esto produce libros de códigos muy grandes, incluso si el rango dinámico de cada componente en el vector es muy pequeño (p. ej., cada componente puede tener los valores [-4, ..., 3] ^ 84 = 4096 vectores diferentes posibles).

Sin embargo, la codificación de valores escalares permite un rango dinámico alto para cada intervalo con un libro de código muy pequeño. El libro de código utilizado en la realización ilustrativa analizada tiene 32 entradas que ofrecen un rango dinámico para el intervalo de -15 a 15 y una palabra de código Esc- (para el caso en que el valor de un intervalo se encuentre fuera de este rango). Esto significa que únicamente 64 x 32 valores de 16 bits deben almacenarse en tablas ROM.

Anteriormente, se describió un método para la codificación aritmética de un coeficiente espectral actual con el uso de coeficientes espectrales precedentes, en donde dichos coeficientes espectrales precedentes ya están codificados y, tanto los coeficientes espectrales precedentes como los actuales, están comprendidos en uno o más espectros cuantificados que resultan de la cuantificación de la transformada tiempo-frecuencia de valores de muestra de señal de voz, audio o vídeo. En una realización, dicho método comprende además procesar los coeficientes espectrales precedentes, utilizar los coeficientes espectrales precedentes procesados para determinar una clase de contexto que sea una de al menos dos clases de contexto diferentes, utilizar la clase de contexto determinada y un mapeo a partir de las dos o más clases de contexto diferentes a al menos dos funciones de densidad de probabilidad diferentes para determinar la función de densidad de probabilidad y la codificación aritmética del coeficiente espectral actual basado en la función de densidad de probabilidad determinada, en donde procesar los coeficientes espectrales precedentes comprende la cuantificación no uniforme de los coeficientes espectrales precedentes.

En otra realización ilustrativa, el dispositivo para la codificación aritmética de un coeficiente espectral actual que utiliza coeficientes espectrales precedentes ya codificados comprende medios de procesamiento, un primer medio para determinar una clase de contexto, una memoria que almacene al menos dos funciones de densidad de probabilidad diferentes, un segundo medio para recuperar la densidad de probabilidad y un codificador aritmético.

Luego, el medio de procesamiento se adapta para procesar los coeficientes espectrales precedentes ya codificados mediante su cuantificación no uniforme y dicho primer medio se adapta para utilizar el resultado de procesamiento para determinar la clase de contexto como una de al menos dos clases de contexto diferentes. La memoria almacena al menos dos funciones de densidad de probabilidad diferentes y un mapeo de las dos o más clases de contexto a las dos o más funciones de densidad de probabilidad diferentes, lo que permite recuperar la función de densidad de probabilidad que corresponde a la clase de contexto determinada. El segundo medio se adapta para recuperar, de la memoria, la densidad de probabilidad que corresponde a la clase de contexto determinada, y el codificador aritmético se adapta para la codificación aritmética del coeficiente espectral actual basado en la función de densidad de probabilidad recuperada.

Existe otra realización ilustrativa correspondiente del dispositivo para la decodificación aritmética de un coeficiente espectral actual que utiliza coeficientes espectrales precedentes ya decodificados que comprende medios de procesamiento, un primer medio para determinar una clase de contexto, una memoria que almacene al menos dos funciones de densidad de probabilidad diferentes, un segundo medio para recuperar la densidad de probabilidad y un decodificador aritmético.

Luego, el medio de procesamiento se adapta para procesar los coeficientes espectrales precedentes ya decodificados mediante su cuantificación no uniforme y dicho primer medio se adapta para utilizar el resultado de procesamiento para determinar la clase de contexto como una de al menos dos clases de contexto diferentes. La memoria almacena al menos dos funciones de densidad de probabilidad diferentes y un mapeo de las dos o más clases de contexto a las dos o más funciones de densidad de probabilidad diferentes, lo que permite recuperar la función de densidad de probabilidad que corresponde a la clase de contexto determinada. El segundo medio se adapta para recuperar, de la memoria, la densidad de probabilidad que corresponde a la clase de contexto determinada, y el decodificador aritmético se adapta para la decodificación aritmética del coeficiente espectral actual basado en la función de densidad de probabilidad recuperada.

Claims

REIVINDICACIONES

1. Método para la decodificación aritmética de un coeficiente espectral actual de un marco actual usando coeficientes espectrales precedentes del marco actual y/o un marco previo, dichos coeficientes espectrales precedentes ya están decodificados, y ambos, dichos coeficientes espectrales precedentes y actuales están comprendidos en uno o más espectros cuantificados que resultan de la cuantificación de valores de muestra de señal de voz, audio o vídeo transformados por tiempo-frecuencia, dicho método comprende:

- procesar los coeficientes espectrales precedentes;

- utilizar los coeficientes espectrales precedentes procesados para determinar una clase de contexto siendo uno de al menos dos clases de contexto diferentes;

- utilizar la clase de contexto determinada y un mapeo de las al menos dos clases de contexto diferentes a al menos dos funciones de densidad de probabilidad diferentes para determinar la función de densidad de probabilidad, y

decodificar aritméticamente el coeficiente espectral actual basado en la función de densidad de probabilidad determinada, donde dicho procesamiento de los coeficientes espectrales precedentes comprende las etapas de:

- una primera cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes se cuantifican según un esquema de primera cuantificación;

- determinar una varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación;

- utilizar la varianza determinada para seleccionar uno de al menos dos esquemas diferentes de segunda cuantificación no lineal; y

- una segunda cuantificación en la cual los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación se cuantifican adicionalmente según el esquema seleccionado de segunda cuantificación no lineal,

en donde la etapa de determinar la varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación comprende

- determinar una suma de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación y comparar la suma determinada con al menos un umbral,

comprendiendo el método además las etapas de

- recibir una señal de reconfiguración y

- en respuesta a la señal de reconfiguración, utilizar solo coeficientes espectrales precedentes del marco actual para determinar la clase de contexto.

2. Método según la reivindicación 1, comprendiendo dicho método además

- utilizar un conjunto de datos representativo para determinar las al menos dos funciones de densidad de probabilidad diferentes.

3. Dispositivo para la decodificación aritmética de un coeficiente espectral actual de un marco actual usando coeficientes espectrales precedentes del marco actual y/o un marco previo, dichos coeficientes espectrales precedentes ya están decodificados y ambos, dichos coeficientes espectrales precedentes y actuales están comprendidos en uno o más espectros cuantificados que resultan de la cuantificación de valores de muestra de señal de voz, audio o vídeo transformados por tiempo-frecuencia, comprendiendo dicho dispositivo

- medios de procesamiento para procesar los coeficientes espectrales precedentes;

- un primer medio para determinar una clase de contexto que es uno de los al menos dos clases de contexto diferentes, estando adaptado dicho primer medio para utilizar los coeficientes espectrales precedentes procesados para determinar la clase de contexto,

- un segundo medio para determinar una función de densidad de probabilidad, estando adaptado dicho segundo medio para utilizar la clase de contexto determinada y un mapeo de las al menos dos clases de contexto diferentes a al menos dos funciones de densidad de probabilidad diferentes para determinar la función de densidad de probabilidad, y

un decodificador aritmético para la decodificación aritmética del coeficiente espectral actual basado en la función de densidad de probabilidad determinada, donde dicho procesamiento de los coeficientes espectrales precedentes comprende:

- utilizar la varianza determinada para seleccionar uno de entre al menos dos esquemas diferentes de segunda cuantificación no lineal, y

en donde la etapa de determinación de la varianza de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación comprende

- determinar una suma de los valores absolutos de los coeficientes espectrales precedentes cuantificados según el esquema de primera cuantificación y comparar la suma determinada con al menos un umbral, donde dicho primer medio está configurado para:

- recibir una señal de reconfiguración y