ES2442851T3

ES2442851T3 - Método y sistema para codificación aritmética binaria adaptativa basada en contexto

Info

Publication number: ES2442851T3
Application number: ES02799444.1T
Authority: ES
Inventors: Marta Karczewicz; Ragip Kurceren
Original assignee: Nokia Inc
Current assignee: Nokia Inc
Priority date: 2001-09-14
Filing date: 2002-09-12
Publication date: 2014-02-13
Anticipated expiration: 2022-09-12
Also published as: CN1327395C; JP5230890B2; US6856701B2; EP2007147A2; US20030081850A1; JP2012080551A; AU2002334271B2; WO2003027940A1; AU2002334271B9; EP1435063A1; EP1435063A4; EP2007147B1; JP2005504471A; JP5635479B2; JP2014209807A; EP1435063B1; EP2007147A3; CN1585958A

Abstract

Un método de codificación aritmética basada en contexto en el que una imagen se divide en una pluralidad de bloques que tienen una pluralidad de píxeles, teniendo cada píxel un valor de píxel, y la operación de codificación por transformada se realiza en un bloque de píxeles para producir un bloque correspondiente de valores de coeficiente de transformada, y el bloque de valores de coeficiente de transformada es barrido en un orden de barrido dado para producir una matriz barrida de valores de coeficiente que representan diferentes frecuencias espaciales en el bloque, en donde los valores de coeficiente en la matriz barrida se representan mediante una pluralidad de pares de números de run-level, teniendo cada par un valor de LEVEL y un segundo número, siendo el valor de LEVEL y el segundo número asignados a un contexto seleccionado entre una pluralidad de contextos representativos de los pares de números, caracterizado por que el valor de LEVEL de un par de números es asignado a un contexto dependiendo al menos parcialmente de un valor de LEVEL de un par de números en el bloque asignado previamente a un contexto.

Description

Método y sistema para codificación aritmética binaria adaptativa basada en contexto.

Campo de la invención

La presente invención se refiere, en general, a la compresión de imágenes fijas y secuencias de video y, más particularmente, a codificación aritmética binaria adaptativa basada en contexto; y decodificación.

Antecedentes de la invención

Una imagen digital en forma no comprimida comprende una matriz de píxeles de imagen o elementos de imagen. Por ejemplo, en un formato de imagen digital usado habitualmente, conocido como el Formato de Intercambio Común de un Cuarto (QCIF), una imagen, o fotograma, comprende 25.344 píxeles dispuestos en una matriz de 176 x 144 píxeles. Cada píxel, a su vez, está representado por cierto número de bits, que portan información sobre el brillo (luminancia) y/o el color (crominancia) del píxel. Existen diferentes esquemas para representar la luminancia y/o crominancia de píxeles en una imagen digital. Habitualmente, se usa un llamado modelo de color YUV. El componente de luminancia, o Y, representa la luminancia del píxel, mientras que el color del píxel está representado por dos componentes de crominancia o color diferentes, marcados como U y V. Otros modelos de color, tales como los modelos de color RGB (del inglés Red, Green, Blue, es decir, Rojo, Verde, Azul), que se basan en componentes que representan los tres colores primarios de la luz, también se usan habitualmente. Sin embargo, los modelos de color basados en una representación de luminancia/crominancia proporcionan ventajas en comparación con modelos de color basados en los colores primarios. Estos surgen de la naturaleza del sistema visual humano, que es más sensible a las variaciones de intensidad de lo que lo es a las variaciones de color. Los modelos de color YUV normalmente explotan esta propiedad usando una resolución espacial inferior para los componentes de crominancia (U, V) que para el componente de luminancia (Y). De esta manera, la cantidad de información necesaria para representar la información de color en una imagen puede reducirse son una reducción perceptible de la calidad de la imagen percibida.

La resolución espacial inferior de los componentes de crominancia se consigue habitualmente mediante submuestreo. Normalmente, un bloque de 16 x 16 píxeles de la imagen se representa mediante cuatro bloques de 8 x 8 píxeles que comprenden información de luminancia y los componentes de crominancia correspondientes están, cada uno, representados mediante un bloque de 8 x 8 que representa un área de la imagen equivalente a la de los 16 x 16 píxeles en el componente de luminancia. Los componentes de crominancia son, por lo tanto, submuestreados espacialmente por un factor de 2 en las direcciones x e y. El conjunto resultante de cuatro bloques de luminancia de 8 x 8 píxeles y dos bloques de crominancia de 8 x 8 píxeles correspondientes se denomina habitualmente como un macrobloque YUV, o macrobloque, para abreviar. Una imagen de QCIF comprende 11 x 9 de dichos macrobloques. Si los bloques de luminancia y los bloques de crominancia se representan con resolución de 8 bits (es decir mediante números en el intervalo de 0 a 255), el número total de bits requeridos para representar la información de luminancia y crominancia asociada con cada macrobloque es de 6 x (8 x 8 x 8) = 3072 bits. Por lo tanto, el número de bits necesarios para representar una imagen en formato QCIF es 99 x 3072 = 304.128 bits.

Debe apreciarse que, incluso en la situación descrita anteriormente, donde ambos componentes de crominancia de una imagen digital en color son submuestreados mediante un factor de dos, una imagen no comprimida de solamente tamaño moderado (por ejemplo 176 x 144 píxeles) requiere un gran número de bits para su representación. Esto significa que la cantidad de memoria requerida para almacenar imágenes digitales en forma no comprimida es excesiva. Además, si hay que transferir imágenes fijas, por ejemplo a través de una red de comunicación de datos que tiene un ancho de banda disponible moderado o bajo, los tiempos de transmisión pueden volverse prolongados, o la red puede volverse congestionada. Los requisitos de ancho de banda son aún más severos si se desea transmitir una serie de imágenes como una secuencia de video digital en tiempo real. Por ejemplo, transmisión de una secuencia de video digital que comprende una serie de imágenes en formato QCIF no comprimido, representada usando un modelo de color YUV, a una velocidad de 30 fotogramas por segundo, requieres más de 9 Mbits/s (millones de bits por segundo). Dicha elevada velocidad de transferencia de datos es generalmente impráctica para su uso en aplicaciones de grabación, transmisión y visualización en video debido a las muy grandes capacidad de almacenamiento, capacidad del canal de transmisión y rendimiento de hardware requeridas. Si una secuencia de video va a ser transmitida en tiempo real por una red de línea fija tal como una ISDN (Red Digital de Servicios Integrados) o una PSTN (Red Telefónica de Servicio Público), el ancho de banda de transmisión de datos disponible es normalmente del orden de 64 kbits/s. En videotelefonía móvil, donde la transmisión tiene lugar al menos en parte a través de un enlace de radiocomunicaciones, el ancho de banda disponible puede ser de hasta 20 kbits/s. Esto significa que debe conseguirse una reducción significativa de la cantidad de información usada para representar datos de video, para permitir la transmisión de imágenes digitales o secuencias de video a través de redes de comunicación de ancho de banda bajo. Es deseable, sin embargo, que esta reducción deba conseguirse sin degradar de forma significativa la calidad de las imágenes/la secuencia de video.

En los últimos años, una cantidad considerable de trabajo de investigación ha estado orientado a reducir la cantidad de datos requeridos para representar imágenes digitales y secuencias de video, dando como resultado el desarrollo de numerosos esquemas diferentes y estándares internacionales para comprimir imágenes fijas digitales y video digital. El enfoque básico para la compresión de imágenes usado en casi todos los codificadores de imagen fija y de video que existen actualmente implica codificación por transformada a base de bloques. Normalmente, la codificación por transformada traduce los datos de imagen de una representación que comprende valores de píxel en una forma que comprende un conjunto de valores de coeficiente, cada uno de los cuales es un factor de ponderación (multiplicador) para una función base de la transformada en cuestión. Puede mostrarse que existe un grado considerable de redundancia espacial dentro de una imagen digital típica. En términos prácticos, esto significa que, en general, el valor de cualquier píxel dentro de una imagen es sustancialmente el mismo que el valor de otros píxeles en sus proximidades inmediatas; es decir, existe un grado de correlación significativo entre valores de píxel. Se sabe además que, cuando se realizan ciertas transformaciones matemáticas, tales como la Transformada Discreta del Coseno bidimensional (DCT), en datos de imagen, esta redundancia espacial se reduce de forma significativa, produciendo de este modo una representación más compacta de los datos de la imagen.

Codificación por transformada a base de bloques tal como se usa en codificación de imagen fija en JPEG

En la compresión de una imagen fija, tal como la realizada de acuerdo con el modo de referencia del ampliamente usado estándar JPEG, una imagen a codificar se divide en primer lugar en una matriz de bloques cuadrados no solapantes, comprendiendo cada bloque, por ejemplo, una matriz de 8 x 8 píxeles de la imagen. En el caso de la referencia de JPEG, una Transformada Discreta del Coseno bidimensional (DCT) se aplica a continuación independientemente a cada uno de los bloques de la imagen. Esto tiene el efecto de convertir los datos de la imagen del dominio del valor de píxel al dominio de la frecuencia espacial y de producir un conjunto correspondiente de valores de coeficiente, cada uno de los cuales es un factor de ponderación para una función base de la DCT bidimensional. Los valores de coeficiente producidos de este modo se cuantizan y a continuación se codifican de manera sin pérdidas usando codificación por entropía para reducir adicionalmente la cantidad de datos (es decir el número de bits) requerida para su representación. De acuerdo con la referencia de JPEG, el codificador por entropía emplea solamente codificación de Huffman para producir un flujo de bits comprimido, aunque en otros modos, como alternativa, puede usarse codificación aritmética. Finalmente, datos que describen imagen y parámetros de codificación (por ejemplo tipo de compresión, cuantización y tablas de codificación, tamaño de la imagen, etc.) están embebidos en el flujo de bits producido por el codificador por entropía. Dado que el estándar JPEG comprende cuatro modos de codificación alternativos y plantea pocas restricciones a las tablas de cuantización y codificación que pueden usarse, esto es necesario para permitir que flujos de bits comprimidos en JPEG sean intercambiados entre diferentes plataformas y que las imágenes sean reconstruidas sin ninguna ambigüedad.

Una secuencia de video digital, como una imagen en movimiento ordinaria grabada en una película, comprende una secuencia de imágenes fijas (a menudo denominadas como 'fotogramas'), siendo la ilusión de movimiento creada por la visualización de los fotogramas uno detrás de otro a una velocidad relativamente rápida, normalmente de 15 a 30 fotogramas por segundo. Como en cualquier imagen fija, los valores de píxel de un fotograma individual dentro de una secuencia de video digital muestran considerable redundancia espacial. Por lo tanto, los fotogramas de una secuencia de video digital son aptos para codificación por transformada a base de bloques, al igual que las imágenes fijas individuales.

Las imágenes en los fotogramas consecutivos de una secuencia de video también tienden a ser bastante similares y, por lo tanto, el cambio global entre un fotograma de video y el siguiente es bastante pequeño. Esto significa que existe una considerable redundancia temporal dentro de una secuencia de video digital típica. Por ejemplo, una escena puede comprender algunos elementos estacionaros, tales como el paisaje de fondo, y algunas áreas en movimiento, por ejemplo la cara de un presentador de informativos. En fotogramas consecutivos de la secuencia, es probable que el fondo permanezca inalterado y el único movimiento en la escena se deberá a cambios de la expresión facial del presentador. Por lo tanto, cuando se forma una representación comprimida de una secuencia de video existe también una posibilidad de usar técnicas que reducen la redundancia temporal de los datos de la imagen de la secuencia además de métodos que reducen la redundancia espacial, permitiendo de este modo que se consiga más compresión de datos.

Codificador/decodificador híbrido de video

Los sistemas de codificación de video del estado de la técnica usan una técnica conocida como 'predicción por compensación de movimiento', para reducir la redundancia temporal en secuencias de video. Usando predicción por compensación de movimiento, el contenido de imagen de algunos (a menudo muchos) fotogramas en una secuencia de video digital se 'predice' a partir de uno o más fotogramas diferentes en la secuencia, conocidos como 'fotogramas de referencia'. La predicción del contenido de imagen se consigue trazando el movimiento de objetos o regiones de una imagen entre un fotograma a codificar (comprimido) y el fotograma o fotogramas de referencia usando 'vectores de movimiento'. En general, el fotograma o fotogramas de referencia pueden preceder al fotograma a codificar o puede seguirle en la secuencia de video. Sin embargo, tal como se volverá evidente a partir de descripciones más adelante en el texto, no es apropiado (o posible) aplicar predicción por compensación de movimiento a todos los fotogramas de una secuencia de video y, por lo tanto, se usan al menos dos tipos de codificación en los sistemas de codificación de video del estado de la técnica.

Los fotogramas de una secuencia de video que se comprimen usando predicción por compensación de movimiento se denominan generalmente como INTER-codificados o fotogramas P. La predicción por compensación de movimiento en solitario raramente proporciona una representación suficientemente precisa del contenido de imagen de un fotograma de video y, por lo tanto, normalmente es necesario proporcionar un llamado fotograma de 'error de predicción' (PE) con cada fotograma INTER-codificado. Tal como se describirá con más detalle más adelante en el texto, el fotograma de error de predicción representa la diferencia entre una versión decodificada del fotograma INTER-codificado y el contenido de imagen del fotograma a codificar. Más específicamente, el fotograma de error de predicción comprende valores que representan la diferencia entre valores de píxel en el fotograma a codificar y valores de píxel reconstruidos correspondientes formados basándose en una versión predicha (INTER-codificada) del fotograma en cuestión. Por consiguiente, el fotograma de error de predicción tiene características similares a una imagen fija y puede aplicarse codificación por transformada a base de bloques para reducir la cantidad de datos (números de bits) requerida para representarlo.

Los fotogramas de una secuencia de video que no están comprimidos usando predicción por compensación de movimiento se denominan como INTRA-codificados o fotogramas I. Generalmente, los fotogramas INTRAcodificados se producen aplicando codificación por transformada a base de bloques directamente a los valores de píxel del fotograma a codificar. Adicionalmente, donde sea posible, bloques de fotogramas INTRA-codificados se predicen a partir de bloques codificados previamente dentro del mismo fotograma. Esta técnica, conocida como predicción INTRA, tiene el efecto de reducir adicionalmente la cantidad de datos requerida para representar un fotograma INTRA-codificado.

Para ilustrar los principios de la codificación por transformada a base de bloques y la predicción por compensación de movimiento en más detalle, a continuación se hará referencia a la figura 1, que es un esquema de un codificador híbrido de video genérico que emplea una combinación de codificación INTRA e INTER para producir un flujo de bits de video comprimido (codificado). Un decodificador correspondiente se ilustra en la figura 2 y se describirá más adelante en el texto.

El codificador de video 300 comprende una entrada 301 para recibir una señal de video digital de una cámara u otra fuente de video (no se muestra). También comprende una unidad de transformación 304 que está dispuesta para realizar una transformada discreta del coseno (DCT) a base de bloques, un cuantizador 306, un cuantizador inverso 308, una unidad de transformación inversa 310, dispuesta para realizar una transformada discreta del coseno a base de bloques inversa (IDCT), combinadores 312 y 316, y un almacén de fotogramas 320. El codificador comprende además un estimador de movimiento 330, un codificador del campo de movimiento 340 y un predictor por compensación de movimiento 350. Los conmutadores 302 y 314 son accionados de forma cooperativa por el gestor de control 360 para conmutar al codificador entre un modo INTRA de codificación de video y un modo INTER de codificación de video. El codificador 300 también un codificador multiplexor de video 370 que forma un único flujo de bits 335 a partir de los diversos tipos de información producidos por el codificador 300 para transmisión adicional a un terminal receptor remoto o, por ejemplo, para almacenamiento en un medio de almacenamiento masivo, tal como el disco duro de un ordenador (no se muestra).

El codificador 300 funciona de la siguiente manera. Cada fotograma de video no comprimido proporcionado a partir de la fuente de video a la entrada 301 es recibido y procesado macrobloque por macrobloque, preferentemente en orden de exploración de trama. Cuando comienza la codificación de una nueva secuencia de video, el primer fotograma de la secuencia es codificado como un fotograma INTRA-codificado. Posteriormente, el codificador está programado para codificar cada fotograma en formato INTER-codificado, a menos que se cumpla una de las siguientes condiciones: 1) se considera que el actual fotograma que está siendo codificado es tan diferente del fotograma de referencia usado en esta predicción que se produce información de error de predicción excesiva; 2) un intervalo de repetición de fotograma INTRA predefinido ha expirado; o 3) se recibe retroalimentación de un terminal receptor que indica una petición de que se proporcione un fotograma en formato INTRA-codificado.

La aparición de la condición 1) se detecta monitorizando la salida del combinador 316. El combinador 316 forma una diferencia entre el actual macrobloque del fotograma que está siendo codificado y su predicción, producida en el bloque de predicción por compensación de movimiento 350. Si una medida de esta diferencia (por ejemplo una suma de diferencias absolutas de valores de píxel) supera un umbral predeterminado, el combinador 316 informa al gestor de control 360 mediante una línea de control 319 y el gestor de control 360 acciona los conmutadores 302 y 314 mediante la línea de control 313 para conmutar al codificador 300 al modo de codificación INTRA. La aparición de la condición 2) se monitoriza por medio de un temporizador o contador de fotogramas implementado en el gestor de control 360, de tal manera que, si el tiempo expira, y el contador de fotogramas alcanza un número predeterminado de fotogramas, el gestor de control 360 acciona los conmutadores 302 y 314 mediante línea de control 313 para conmutar al codificador a modo de codificación INTRA. La condición 3) se desencadena si el gestor de control 360 recibe una señal de retroalimentación procedente, por ejemplo, de un terminal receptor, mediante la línea de control 321 que indica que la actualización de un fotograma INTRA es requerida por el terminal receptor. Dicha condición puede surgir, por ejemplo, si un fotograma transmitido previamente está muy corrompido por interferencias durante su transmisión, haciéndole imposible de decodificar en el receptor. En esta situación, el decodificador receptor envía una petición para que el siguiente fotograma esté codificado en formato INTRAcodificado, reinicializando de este modo la secuencia de codificación. A continuación se describirá el funcionamiento del codificador 300 en modo de codificación INTRA. En modo de codificación INTRA, el gestor de control 360 acciona el conmutador 302 para aceptar la entrada de video procedente de la línea de entrada 318. La señal de entrada de video es recibida macrobloque por macrobloque desde la entrada 301 mediante la línea de entrada 318. A medida que son recibidos, los bloques de valores de luminancia y crominancia que componen el macrobloque pasan al bloque de transformación DCT 304, que realiza una transformada discreta del coseno bidimensional en cada bloque de valores, produciendo una matriz bidimensional de coeficientes de DCT para cada bloque. En una situación tal como la descrita anteriormente, donde cada macrobloque comprende cuatro bloques de 8 x 8 píxeles de valores de luminancia y dos bloques de 8 x 8 píxeles espacialmente correspondientes de valores de crominancia, el bloque de transformación DCT 304 produce una matriz de 8 x 8 de valores de coeficiente para cada bloque.

Los coeficientes de DCT para cada bloque se hacen pasar al cuantizador 306, donde se cuantizan usando un parámetro de cuantización QP. La selección del parámetro de cuantización QP está controlada por el gestor de control 360 mediante la línea de control 315. La cuantización introduce una pérdida de información, dado que los coeficientes cuantizados tienen una precisión numérica inferior a los coeficientes generados originalmente por el bloque de transformación DCT 304. Esto proporciona un mecanismo adicional mediante el cual la cantidad de datos requerida para representar cada imagen de la secuencia de video puede reducirse. Sin embargo, a diferencia de la transformación DCT, que es esencialmente sin pérdida, la pérdida de información introducida por la cuantización causa una degradación irreversible de la calidad de la imagen. Cuanto mayor sea el grado de cuantización aplicado a los coeficientes de DCT, mayor será la pérdida de calidad de la imagen.

Los coeficientes de DCT cuantizados para cada bloque se hacen pasar desde el cuantizador 306 al codificador multiplexor de video 370, tal como se indica mediante la línea 325 en la figura 1. El codificador multiplexor de video 370 ordena los coeficientes de transformada para cada bloque usando un procedimiento de barrido en zig-zag. Esta operación convierte la matriz bidimensional de coeficientes de transformada cuantizados en una matriz unidimensional. Los órdenes de barrido en zig-zag típicos, tales como el mostrado en la figura 3, ordenan los coeficientes aproximadamente en orden ascendente de frecuencia espacial. Esto también tiende a ordenar los coeficientes de acuerdo con sus valores, de modo que es más probable que los coeficientes posicionados antes en la matriz unidimensional tengan valores absolutos más grandes que coeficientes posicionados más tarde en la matriz. Esto es porque frecuencias espaciales más bajas tienden a tener mayores amplitudes dentro de los bloques de la imagen. Por consiguiente, los últimos valores en la matriz unidimensional de coeficientes de transformada cuantizados son habitualmente ceros.

Codificación Run-Level de coeficientes de transformada DCT

Normalmente, el codificador multiplexor de video 370 representa cada coeficiente cuantizado distinto de cero en la matriz unidimensional mediante dos valores, denominados como level y run. Level es el valor del coeficiente cuantizado y run es el número de coeficientes con valor cero consecutivos que preceden al coeficiente en cuestión. Los valores de run y de level para un coeficiente dado se ordenan de modo que el valor de level precede al valor de run asociado. Un valor de level igual a cero se usa para indicar que no hay más valores de coeficiente distintos de cero en el bloque. Este valor de level de 0 se denomina como un símbolo EOB (fin de bloque).

Codificación por entropía

Los valores de run y de level se comprimen adicionalmente en el codificador multiplexor de video 370 usando codificación por entropía. La codificación por entropía es una operación sin pérdidas, que explota el hecho de que símbolos dentro de un conjunto de datos a codificar generalmente tienen diferentes probabilidades de aparición. Por lo tanto, en lugar de usar un número fijo de bits para representar cada símbolo, un número variable de bits se asigna de este modo los símbolos que es más probable que se produzcan que están representados por palabras clave que tienen menos bits. Por esta razón, la codificación por entropía se denomina a menudo como Codificación de Longitud Variable (VLC). Dado que es más probable que se produzcan ciertos valores de level y de run que otros valores, pueden usarse eficazmente técnicas de codificación por entropía para reducir el número de bits requeridos para representar los valores de run y de level. Pueden usarse una serie de métodos diferentes para implementar codificación por entropía. Por ejemplo, la codificación por entropía de los parámetros de run y de level puede implementarse por medio de tablas de consulta que definen la asociación entre cada posible símbolo en el conjunto de datos a codificar y su código de longitud variable correspondiente. Dichas tablas de consulta se definen a menudo mediante análisis estadístico de material de formación que comprende símbolos idénticos a aquellos a codificar y que tienen propiedades estadísticas similares. Una técnica alternativa, conocida como codificación aritmética, tal como puede usarse para convertir los valores de run y de level en palabras clave de longitud variable. En codificación aritmética, un grupo de símbolos, por ejemplo los valores de run y de level para un bloque de coeficientes de transformada cuantizados, se codifican como un número decimal de coma flotante.

Una vez que los valores de run y de level han sido codificados por entropía usando un método apropiado, el codificador multiplexor de video los combina adicionalmente con información de control, también codificada por entropía usando un método de codificación de longitud variable apropiado para el tipo de información en cuestión, para formar un único flujo de bits comprimido de información de imagen codificada 335.

Una versión decodificada localmente del macrobloque se forma también en el codificador 300. Esto se realiza haciendo pasar a los coeficientes de transformada cuantizados para cada bloque, emitidos por el cuantizador 306, a través del cuantizador inverso 308 y aplicando una transformada DCT inversa en el bloque de transformación inversa 310. De esta manera, se construye una matriz reconstruida de valores de píxel para cada bloque del macrobloque. Los datos de imagen decodificados resultantes se introducen en el combinador 312. En modo de codificación INTRA, el conmutador 314 se ajusta de modo que la entrada al combinador 312 mediante el conmutador 314 sea cero. De esta manera, la operación realizada por el combinador 312 es equivalente a hacer pasar los datos de imagen decodificados inalterados.

A medida que los posteriores macrobloques del actual fotograma son recibidos y experimentan las etapas de codificación y decodificación descrita anteriormente en los bloques 304, 306, 308, 310 y 312, una versión decodificada del fotograma INTRA-codificado se acumula en el almacén de fotogramas 320. Cuando el último macrobloque del actual fotograma ha sido INTRA-codificado y posteriormente decodificado, el almacén de fotogramas 320 contiene un fotograma completamente decodificado, disponible para su uso como un fotograma de referencia de predicción en la codificación de un fotograma de video recibido posteriormente en formato INTERcodificado.

A continuación se describirá el funcionamiento del codificador 300 en modo de codificación INTER. En modo de codificación INTER, el gestor de control 360 acciona el conmutador 302 para recibir su entrada desde la línea 317, que comprende la salida del combinador 316. El combinador 316 recibe la señal de entrada de video macrobloque por macrobloque desde la entrada 301. A medida que el combinador 316 recibe los bloques de valores de luminancia y crominancia que componen el macrobloque, forma bloques correspondientes de información de error de predicción. La información de error de predicción representa la diferencia entre el bloque en cuestión y su predicción, producida en el bloque de predicción por compensación de movimiento 350. Más específicamente, la información de error de predicción para cada bloque del macrobloque comprende una matriz bidimensional de valores, cada uno de los cuales representa la diferencia entre un valor de píxel en el bloque de información de luminancia o crominancia que está siendo codificada y un valor de píxel decodificado obtenido formando una predicción por compensación de movimiento para el bloque, de acuerdo con el procedimiento descrito a continuación. Por lo tanto, en una situación en la que cada macrobloque comprende cuatro bloques de 8 x 8 píxeles de valores de luminancia y dos bloques de 8 x 8 píxeles espacialmente correspondientes de valores de crominancia, la información de error de predicción para el macrobloque comprende análogamente cuatro bloques de 8 x 8 de valores de error de predicción de luminancia y dos bloques de 8 x 8 espacialmente correspondientes de valores de error de predicción de crominancia.

La información de error de predicción para cada bloque del macrobloque se hace pasar al bloque de transformación DCT 304, que realiza una transformada discreta del coseno bidimensional de cada bloque de valores de error de predicción para producir una matriz bidimensional de coeficientes de transformada DCT para cada bloque. Por lo tanto, en una situación en la que la información de error de predicción para cada macrobloque comprende cuatro bloques de 8 x 8 de valores de error de predicción de luminancia y dos bloques de 8 x 8 espacialmente correspondientes de valores de error de predicción de crominancia, el bloque de transformación DCT 304 produce una matriz de 8 x 8 de valores de coeficiente de transformada para cada bloque de error de predicción. Los coeficientes de transformada para cada bloque de error de predicción se hacen pasar al cuantizador 306 donde son cuantizados usando un parámetro de cuantización QP, de una manera análoga a la descrita anteriormente en relación con el funcionamiento del codificador en modo de codificación INTRA. De nuevo, la selección del parámetro de cuantización QP está controlada por el gestor de control 360 mediante la línea de control 315.

Los coeficientes de DCT cuantizados que representan la información de error de predicción para cada bloque del macrobloque se hacen pasar del cuantizador 306 al codificador multiplexor de video 370, tal como se indica mediante la línea 325 en la figura 1. Como en el modo de codificación INTRA, el codificador multiplexor de video 370 ordena los coeficientes de transformada para cada bloque de error de predicción usando el procesamiento de barrido en zig-zag descrito anteriormente (véase la figura 3) y a continuación representa cada coeficiente cuantizado distinto de cero como un valor de level y de run. Además comprime los valores de run y de level usando codificación por entropía, de una manera análoga a la descrita anteriormente en relación con el modo de codificación INTRA. El codificador multiplexor de video 370 también recibe información del vector de movimiento (descrita a continuación) del bloque de codificación del campo de movimiento 340 mediante la línea 326 e información de control del gestor de control 360. Éste codifica por entropía la información del vector de movimiento y forma un único flujo de bits de información de imagen codificada 335 que comprende información del vector de movimiento codificado por entropía, de error de predicción y de control.

Los coeficientes de DCT cuantizados que representan la información de error de predicción para cada bloque del macrobloque también se hacen pasar desde el cuantizador 306 al cuantizador inverso 308. Aquí son cuantizados inversamente y los bloques resultantes de coeficientes de DCT cuantizados inversos se aplican al bloque de transformada DCT inverso 310, donde experimentan transformación DCT inversa para producir bloques decodificados localmente de valores de error de predicción. Los bloques decodificados localmente de valores de error de predicción se introducen a continuación en el combinador 312. En el modo de codificación INTER, el conmutador 314 se ajusta de modo que el combinador 312 también reciba valores de píxel predichos para cada bloque del macrobloque, generados por el bloque de predicción por compensación de movimiento 350. El combinador 312 combina cada uno de los bloques decodificados localmente de valores de error de predicción con un bloque correspondiente de valores de píxel predichos para producir bloques de imagen reconstruida y los almacena en el almacén de fotogramas 320.

A medida que posteriores macrobloques de la señal de video son recibidos desde la fuente de video y experimentan las etapas de codificación y decodificación descritas anteriormente en los bloques 304, 306, 308, 310, 312, una versión decodificada del fotograma INTER-codificado se acumula en el almacén de fotogramas 320. Cuando el último macrobloque del fotograma ha sido INTER-codificado y posteriormente decodificado, el almacén de fotogramas 320 contiene un fotograma completamente decodificado, disponible para su uso como un fotograma de referencia de predicción para codificar un fotograma de video recibido posteriormente en formato INTER-codificado.

A continuación se describirá la formación de una predicción para un macrobloque del fotograma actual. Cualquier fotograma codificado en formato INTER-codificado requiere un fotograma de referencia para predicción por compensación de movimiento. Esto significa, necesariamente, que cuando se codifica una secuencia de video, el primer fotograma a codificar, ya sea el primer fotograma en la secuencia, o algún otro fotograma, debe estar codificado en formato INTRA-codificado. Esto, a su vez, significa que cuando el codificador de video 300 se conmuta a modo de codificación INTER por el gestor de control 360, un fotograma de referencia completo, formado decodificando localmente un fotograma codificado previamente, ya está disponible en el almacén de fotogramas 320 del codificador. En general, el fotograma de referencia se forma decodificando localmente un fotograma INTRAcodificado o un fotograma INTER-codificado.

La primera etapa en la formación de una predicción para un macrobloque del actual fotograma es realizada por el bloque de estimación de movimiento 330. El bloque de estimación de movimiento 330 recibe los bloques de valores de luminancia y crominancia que componen el actual macrobloque del fotograma a codificar mediante la línea 328. A continuación realiza una operación de emparejamiento de bloques para identificar una región en el fotograma de referencia, que corresponde sustancialmente con el actual macrobloque. Para realizar la operación de emparejamiento de bloques, el bloque de estimación del campo de movimiento accede a datos del fotograma de referencia almacenados en el almacén de fotogramas 320 mediante la línea 327. Más específicamente, el bloque de estimación de movimiento 330 realiza emparejamiento de bloques calculando valores de diferencia (por ejemplo suma de diferencias absolutas) que representan la diferencia en valores de píxel entre el macrobloque bajo examen y regiones de máxima coincidencia candidatas de píxeles de un fotograma de referencia almacenado en el almacén de fotogramas 320. Un valor de diferencia se produce para regiones candidatas en todos los posibles desfases dentro de una región de búsqueda predefinida del fotograma de referencia y el bloque de estimación de movimiento 330 determina el valor de diferencia calculado más pequeño. El desfase entre el macrobloque en el actual fotograma y el bloque candidato de valores de píxel en el fotograma de referencia que produce el valor de diferencia más pequeño define el vector de movimiento para el macrobloque en cuestión.

Una vez que el bloque de estimación de movimiento 330 ha producido un vector de movimiento para el macrobloque, emite el vector de movimiento al bloque de codificación del campo de movimiento 340. El bloque de codificación del campo de movimiento 340 aproxima el vector de movimiento recibido del bloque de estimación de movimiento 330 usando un modelo de movimiento que comprende un conjunto de funciones base y coeficientes de movimiento. Más específicamente, el bloque de codificación del campo de movimiento 340 representa el vector de movimiento como un conjunto de valores de coeficiente de movimiento que, cuando se multiplican por las funciones base, forman una aproximación del vector de movimiento. Normalmente, se usa un modelo de movimiento de traslación que tiene solamente dos coeficientes de movimiento y funciones base.

Los coeficientes de movimiento se hacen pasar desde el bloque de codificación del campo de movimiento 340 al bloque de predicción por compensación de movimiento 350. El bloque de predicción por compensación de movimiento 350 también recibe la región candidata con máxima correspondencia de valores de píxel identificado por el bloque de estimación de movimiento 330 desde el almacén de fotogramas 320. Usando la representación aproximada del vector de movimiento generada por el bloque de codificación del campo de movimiento 340 y los valores de píxel de la región candidata con máxima correspondencia de píxeles del fotograma de referencia, el bloque de predicción por compensación de movimiento 350 genera una matriz de valores de píxel predichos para cada bloque del macrobloque. Cada bloque de valores de píxel predichos se hace pasar al combinador 316 donde los valores de píxel predichos se sustraen de los valores de píxel reales (entrada) en el bloque correspondiente del actual macrobloque. De esta manera, se obtiene un conjunto de bloques de error de predicción para el macrobloque.

A continuación se describirá el funcionamiento del decodificador de video 400, mostrado en la figura 2. El decodificador 400 comprende un decodificador multiplexor de video 470, que recibe un flujo de bits de video codificado 335 del codificador 300 y lo desmultiplexa en sus partes constituyentes, un cuantizador inverso 410, una transformadora DCT inversa 420, un bloque de predicción por compensación de movimiento 440, un almacén de fotogramas 450, un combinador 430, un gestor de control 460 y una salida 480.

El gestor de control 460 controla el funcionamiento del decodificador 400 en respuesta a si un fotograma INTRA- o INTER-codificado está siendo decodificado. Una señal de control de activación INTRA / INTER, que hace que el decodificador conmute entre modos de codificación se deriva, por ejemplo, de la información del tipo de imagen provista en una parte de cabecera de cada fotograma de video comprimido recibido del codificador. La señal de control de activación INTRA / INTER se extrae del flujo de bits de video codificado por el decodificador multiplexor de video 470 y se hace pasar al gestor de control 460 mediante la línea de control 422.

La decodificación de un fotograma INTRA-codificado se realiza en forma de macrobloque por macrobloque, siendo cada macrobloque decodificado sustancialmente en cuanto información codificada relacionada con él es identificada en el flujo de datos de video recibido 335. El decodificador multiplexor de video 470 separa en primer lugar la información codificada para los bloques del macrobloque de posible información de control relacionada con el macrobloque en cuestión. La información codificada para cada bloque de un macrobloque INTRA-codificado comprende palabras clave de longitud variable. Estas palabras clave representan los valores de level y de run codificados por entropía para los coeficientes de DCT cuantizados distintos de cero del bloque. El decodificador multiplexor de video 410 decodifica las palabras clave de longitud variable usando un método de codificación de longitud variable correspondiente al método de codificación usado en el codificador 300 y, de este modo, recupera los valores de level y de run. A continuación reconstruye la matriz de valores de coeficiente de transformada cuantizados para cada bloque del macrobloque y los hace pasar al cuantizador inverso 410. Cualquier información de control relacionada con el macrobloque también se decodifica en el decodificador multiplexor de video usando un método de codificación de longitud variable apropiado y se hace pasar al gestor de control 460. En particular, información relacionada con el nivel de cuantización aplicado a los coeficientes de transformada se extrae del flujo de bits codificado por el decodificador multiplexor de video 470 y se proporciona al gestor de control 460 mediante la línea de control 424. El gestor de control, a su vez, transporta esta información al cuantizador inverso 420 mediante la línea de control 415. El cuantizador inverso 410 cuantiza inversamente los coeficientes de DCT cuantizados para cada bloque del macrobloque de acuerdo con la información de control y proporciona los coeficientes de DCT ahora cuantizados inversos al transformador DCT inverso 420.

El transformador DCT inverso 420 realiza una transformada DCT inversa sobre los coeficientes de DCT cuantizados inversos para cada bloque del macrobloque para formar un bloque decodificado de información de la imagen que comprende valores de píxel reconstruidos. Dado que no se usa predicción por compensación de movimiento en la codificación/decodificación de macrobloques INTRA-codificados, el gestor de control 460 controla el combinador 430 de tal manera que se prevenga que cualquier información de referencia sea usada en la decodificación del macrobloque INTRA-codificado. Los valores de píxel reconstruidos para cada bloque del macrobloque se hacen pasar a la salida de video 480 del decodificador donde, por ejemplo, pueden proporcionarse a un dispositivo de visualización (no se muestra). Los valores de píxel reconstruidos para cada bloque del macrobloque también se almacenan en el almacén de fotogramas 450. A medida que los macrobloques posteriores del fotograma INTRAcodificado se decodifican y almacenan, un fotograma decodificado se reúne progresivamente en el almacén de fotogramas 450 y, por lo tanto, se vuelve disponible para su uso como un fotograma de referencia para predicción por compensación de movimiento en relación con la decodificación del fotogramas INTER-codificados recibidos posteriormente.

Los fotogramas INTER-codificados también se decodifican macrobloque por macrobloque, siendo cada macrobloque INTER-codificado decodificado sustancialmente en cuanto la información codificada relacionada con éste es identificada en el flujo de bits recibido. El decodificador multiplexor de video 470 separa la información de error de predicción codificada para cada bloque del macrobloque INTER-codificado de la información del vector de movimiento codificada y posible información de control relacionada con el macrobloque en cuestión. Tal como se ha explicado anteriormente, la información de error de predicción codificada para cada bloque del macrobloque comprende palabras clave de longitud variable que representen los valores de level y de run codificados por entropía para los coeficientes de transformada cuantizados distintos de cero para el bloque de error de predicción en cuestión. El decodificador multiplexor de video 470 decodifica las palabras clave de longitud variable usando un método de codificación de longitud variable correspondiente al método de codificación usado en el codificador 300 y, de este modo, recupera los valores de level y de run. A continuación reconstruye una matriz de valores de coeficiente de transformada cuantizados para cada bloque de error de predicción y los hace pasar al cuantizador inverso 410. La información de control relacionada con el macrobloque INTER-codificado también se decodifica en el decodificador multiplexor de video usando un método de codificación de longitud variable apropiado y se hace pasar al gestor de control 460. La información relacionada con el nivel de cuantización aplicada a los coeficientes de transformada de los bloques de error de predicción se extrae del flujo de bits codificado y se proporciona al gestor de control 460 mediante la línea de control 424. El gestor de control, a su vez, transporta esta información al cuantizador inverso 420 mediante la línea de control 415. El cuantizador inverso 410 cuantiza de forma inversa los coeficientes de DCT cuantizados que representan la información de error de predicción para cada bloque del macrobloque de acuerdo con la información de control y proporciona los coeficientes de DCT cuantizados ahora inversos al transformador DCT inverso 420. Los coeficientes de DCT cuantizados inversos que representan la información de error de predicción para cada bloque son transformados de forma inversa a continuación en el transformador DCT inverso 420 para dar una matriz de valores de error de predicción reconstruidos para cada bloque del macrobloque.

La información del vector de movimiento codificada asociada con el macrobloque se extrae del flujo de bits de video codificado 335 por el decodificador multiplexor de video 470 y se decodifica usando un método de codificación de longitud variable apropiado. La información del vector de movimiento decodificada obtenida de este modo se hace pasar mediante la línea de datos 426 al bloque de predicción por compensación de movimiento 440, que reconstruye un vector de movimiento para el macrobloque usando el mismo modelo de movimiento que el usado para codificar el macrobloque INTER-codificado en el codificador 300. El vector de movimiento reconstruido aproxima el vector de movimiento originalmente determinado por el bloque de estimación de movimiento 330 del codificador. El bloque de predicción por compensación de movimiento 440 del decodificador usa el vector de movimiento reconstruido para identificar la ubicación de una región de píxeles reconstruidos en un fotograma de referencia de predicción almacenado en el almacén de fotogramas 450. El fotograma de referencia puede ser, por ejemplo, un fotograma INTRA-codificado previamente decodificada, o un fotograma INTER-codificado previamente decodificado. En cualquier caso, la región de píxeles indicada por el vector de movimiento reconstruido se usa para formar una predicción para el macrobloque en cuestión. Más específicamente, el bloque de predicción por compensación de movimiento 440 forma una matriz de valores de píxel para cada bloque del macrobloque copiando los valores de píxel correspondientes de la región de píxeles identificada en el fotograma de referencia. La predicción, es decir los bloques de valores de píxel derivados del fotograma de referencia, se hacen pasar desde el bloque de predicción por compensación de movimiento 440 al combinador 430 donde se combinan con la información de error de predicción decodificada. En la práctica, los valores de píxel de cada bloque predicho se añaden a valores de error de predicción reconstruidos correspondientes emitidos por el transformador DCT inverso 420. De esta manera se obtiene una matriz de valores de píxel reconstruidos para cada bloque del macrobloque. Los valores de píxel reconstruidos se hacen pasar a la salida de video 480 del decodificador y también se almacenan en el almacén de fotogramas 450. A medida que macrobloques posteriores del fotograma INTER-codificado son decodificados y almacenados, un fotograma decodificado se reúne progresivamente en el almacén de fotogramas 450 y, por lo tanto, se vuelve disponible para su uso como un fotograma de referencia para la predicción por compensación de movimiento de otros fotogramas INTER-codificados.

Estándar de codificación de video H.26L

La recomendación H.26L de la ITU-T es el último de una familia de estándares de codificación de video desarrollados por la International Telecommunications Union (Unión Internacional de Telecomunicaciones). Está diseñado en particular para codificación de video a velocidades de transferencia de bits muy bajas, normalmente por debajo de 64 kbits/s, lo que le hace espacialmente adecuado para la codificación de video digital para transmisión mediante redes de comunicación por radio o cualquier red de comunicación de línea fija en la que el uso óptimo del ancho de banda disponible es una prioridad. El sistema de codificación de video definido por H.26L de la ITU-T es un sistema de codificación de video híbrido, que funciona de acuerdo con los principios generales descritos anteriormente en relación con el codificador de video genérico 300 y el decodificador 400 ilustrados en las figuras 1 y

2. En particular, un sistema de codificación de video implementado de acuerdo con H.26L emplea una combinación de codificación por transformada a base de bloques y predicción por compensación de movimiento para reducir la redundancia espacial y temporal dentro de secuencias de video.

La última versión de la recomendación H.26L, conocida como Modelo de Prueba 8 (TML8) y se describe en el documento “H.26L Test Model Long Term Number 8 (TML-8) draft0” (ITU-T Telecommunications Standardization Section, Study Group 16, Video Coding Experts Group), especifica dos modos alternativos de codificación por entropía. En el primer modo (por defecto) un llamado método de Codificación de Longitud Variable Universal (UVLC) se usa para codificar todos los elementos de sintaxis. El modo de codificación UVLC es un método de tabla de consulta en el que se usa el mismo conjunto de palabras clave de longitud variable para representar todos los diferentes tipos de información producidos por el codificador de video, independientemente del tipo de información en cuestión. El método alternativo de codificación por entropía, especificado para uso en el llamado 'perfil de alta complejidad' de H.26L, es una técnica conocida como Codificación Aritmética Binaria Adaptativa basada en Contexto(CABAC). Ésta es una forma de codificación aritmética binaria que se adapta de forma continua a las propiedades estadísticas de la información que está siendo codificada y se conoce en la técnica por ser una de las formas más eficaces de codificación por entropía (véase el documento H. Witten, R. M. Neal y J. G. Cleary, “Arithmetic coding for data compression”, Commun. ACM, vol. 30, págs. 520-540, junio de 1987).

Dado que la codificación por entropía UVLC usa el mismo conjunto de palabras clave de longitud variable para representar todos los tipos de información producidos por el codificador de video, en general las propiedades estadísticas de las palabras clave no coinciden de forma óptima con las características de la información a codificar. Por ejemplo, es probable que la frecuencia de aparición de valores de run y de level particulares usados para representar los coeficientes de DCT cuantizados para un bloque de imagen INTRA-codificado sea diferente de la aparición de valores en información de control relacionada con los valores del parámetro de cuantización. El método de codificación por entropía CABAC se introdujo en la recomendación H.26L para superar la naturaleza inherentemente subóptima del método de codificación por entropía UVLC. Tal como se ha explicado anteriormente en el texto, la codificación aritmética representa un grupo de símbolos a codificar con un único código de longitud variable (un número de coma flotante). Esto proporciona ventajas particulares en comparación con métodos de codificación por entropía, que codifican cada símbolo independientemente. Específicamente, métodos de codificación por entropía que codifican cada símbolo independientemente requieren al menos un bit para representar cada símbolo. Dado que la codificación aritmética representa grupos de símbolos con una única palabra clave, es posible conseguir tasas de compresión de datos de menos de un bit por símbolo. Por lo tanto, el método CABAC provisto en H.26L también proporciona la posibilidad de compresión de datos mejorada. Además, dado que es un método adaptativo, también es capaz de tener en cuenta cambios de las características estadísticas de la

5 información que está siendo codificada, garantizando que el rendimiento de compresión de datos se mantiene incluso si la naturaleza de los datos que están siendo codificados cambia en cierta medida.

Codificación aritmética basada en contexto

10 Tal como se ha explicado anteriormente, la codificación aritmética CABAC es un método de codificación por entropía, que es capaz de adaptarse a estadísticas cambiantes de la información a codificar. De esta manera, es capaz de proporcionar eficacia de compresión mejorada en comparación con técnicas de codificación por entropía que asumen propiedades estadísticas fijas. La figura 4 ilustra un codificador aritmético binario basado en contexto ejemplar 700. CABAC es un método de codificación aritmética binaria y, por lo tanto, los símbolos de datos a

15 codificar que tienen valores no binarios se convierten en primer lugar en valores binarios ('se binarizan') en el bloque de asociación binaria 710. El proceso de binarización implica asociar un símbolo a codificar a una secuencia de bins, cada uno de los cuales tiene un número de bin correspondiente y se le puede asignar un valor de 0 o 1. Un ejemplo de dicha asociación se da a continuación en la tabla 1. En principio pueden preverse otros esquemas de binarización.

Tabla 1

valor: Secuencia Bin

0: 1

1: 0
1

2: 0 0 1

3: 0 0 0 1

4: 0 0 0 0 1

5: 0 0 0 0 0 1

6: 0 0 0 0 0 0 1

...: . . . . . . . .

bin_nr.: 1 2 3 4 5 6 7 :

En el método CABAC cada uno de los bins se asigna a un llamado 'contexto' (de ahí el nombre codificación

aritmética basada en contexto). Un contexto puede considerarse como agrupar juntos bins, que tienen 25 características estadísticas similares. En otras palabras, se supone que cada bin asignado a un contexto particular

tiene una probabilidad similar de contener el valor 1 o 0 que los otros bins que pertenecen a ese contexto. De esta

manera, las estimaciones de probabilidad usadas para generar palabras clave en el codificador aritmético se definen

para cada contexto en lugar de para cada posible bin a codificar. Cada contexto se define de acuerdo con un

'modelo de contexto', establecido de antemano y basado en información sobre las características estadísticas de los 30 símbolos de datos (y, por lo tanto, los bins) a codificar. Generalmente, la relación de compresión de datos

conseguida por un codificador aritmético binario mejora si la diferencia entre la probabilidad de aparición de un 0 y la

probabilidad de aparición de un 1 se maximiza. De manera similar, el rendimiento de una codificación aritmética

basada en contexto también depende de la elección del modelo de contexto. Esto significa que, en general, los

modelos de contexto deben seleccionarse para maximizar la diferencia entre la probabilidad de aparición de 0 y de 1 35 para los bins asignados a cada contexto.

En el codificador aritmético basado en contexto ejemplar ilustrado en la figura 4, una vez que un símbolo a codificar

ha sido binarizado en el bloque de asociación binaria 710 es asignado a un contexto correspondiente en el bloque

de asignación de contexto 720. El valor asignado al bin correspondiente (es decir, 1 o 0) se hace pasar a 40 continuación al codificador aritmético 730. El motor de codificación 750 del codificador aritmético 730 a continuación

codifica el valor del bin usando una estimación de probabilidad para el contexto al que se le asigna el bin. El

rendimiento, es decir la relación de compresión de datos conseguida por el codificador aritmético, depende de la

precisión de las estimaciones de probabilidad. En principio, las estimaciones pueden ser fijas o adaptativas. Si se

usan estimaciones de probabilidad fijas, las estimaciones de probabilidad para cada contexto son asignadas a 45 valores predefinidos y permanecen sin cambios durante el proceso de codificación. Las estimaciones de

probabilidad fijas se obtienen normalmente por adelantado analizando material de formación que tiene propiedades

estadísticas similares a aquellas de los datos reales a codificar. Si se usan estimaciones de probabilidad

adaptativas, se usan valores fijos para inicializar las estimaciones de probabilidad para cada contexto y las

probabilidades se actualizan entonces durante todo el proceso de codificación basándose en las propiedades 50 estadísticas reales de los datos (bins) codificados hasta el momento. Las estimaciones de probabilidad adaptativas

generalmente rinden mejor, dado que pueden ajustarse al material que está siendo codificado.

El codificador aritmético basado en contexto ejemplar ilustrado en la figura 4 emplea estimaciones de probabilidad adaptativas y comprende un bloque de estimación de probabilidad 740 donde se calculan estimaciones de probabilidad actualizadas. Las estimaciones de probabilidad para cada contexto se actualizan manteniendo un registro del número de apariciones de 1 y 0 para cada uno de los bins asignados a cada contexto. Por ejemplo, si a

5 los bins asignados a un contexto arbitrario k se les ha asignado el valor 0 m veces y el valor 1 n veces, entonces la estimación de probabilidad para 1 en el contexto k es n/(n(m+1)) y la estimación de probabilidad para 0 es (m+1)/(n(m+1)).

La figura 5 ilustra un decodificador aritmético basado en contexto 800 correspondiente al codificador descrito en

10 relación con la figura 4. Un flujo de bits que representa símbolos de datos codificados aritméticos es recibido por el decodificador aritmético basado en contexto en la entrada 810. Inicialmente, basándose en los símbolos decodificados anteriormente, se calcula un contexto en un bloque de asignación de contexto 850 y las estimaciones de probabilidad de los valores de bin se actualizan. La asignación de contexto, tal como se realiza en el bloque de asignación de contexto 850, y el cálculo de las estimaciones de probabilidad, tal como se lleva a cabo en el bloque

15 de estimación de probabilidad 830, se realizan de la misma manera que el codificador. Los bits recibidos son introducidos a continuación en un motor de decodificación aritmética 840 del decodificador aritmético 820, donde se convierten en valores bin decodificados, usando el contexto calculado y las estimaciones de probabilidad actuales de los valores bin. Los bins decodificados son asociados a los valores de run y de level en un bloque de asociación de un bin a un valor 860.

20 Método CABAC tal como se usa en H.26L

Los detalles del método de codificación aritmética CABAC adoptado para su uso en el perfil de alta complejidad de la recomendación H.26L de la ITU-T se describirán a continuación en detalle. De acuerdo con H.26L TML8, los 25 contextos para valores de run y de level dependen del tipo de bloque que está siendo codificado y el número de bin del valor de level o de run binarizado. Diferentes tipos de bloque son definidos de acuerdo con el modo de barrido (individual/doble) usado para ordenar los valores de coeficiente, el tipo de componente (luminancia/crominancia, AC/DC), o el modo de codificación (INTER/INTRA). Sin embargo, para un tipo de bloque dado, el contexto depende solamente del número de bin. Más específicamente, de acuerdo con H.26L TML8 se definen cuatro contextos para 30 la codificación del valor de level. El primero es para el primer bin, el segundo es para el segundo bin, mientras que el tercer contexto es para el resto de los bins que representan la magnitud de level. Este contexto restante se usa para el signo del valor de level. Un enfoque similar se usa para asignar valores de run a los contextos. Para valores de run existen tres contextos, el primero para el primer bin, el segundo para el segundo bin y el tercero para todos los bins restantes. Dado que los valores de run son siempre iguales o mayores que cero, no hay necesidad de un 35 contexto adicional para representar información del signo. Por lo tanto, para un bloque de un tipo dado, la asignación de bins a contextos para bins de coeficiente de transformada (para codificación tanto de level como de run) puede

Donde bin_nr es el número de bin y context es el número de contexto. De acuerdo con H.26L TML8, el valor de 40 MAX_BIN_VAL se establece igual a 3, pero en principio otro MAX_BIN_VAL podría usarse en su lugar.

Un par run-level se codifica de la siguiente manera: Los valores de run y de level se clasifican en primer lugar de acuerdo con el tipo de bloque/coeficiente: modo de barrido, tipo de coeficiente (DC/AC), y modo de codificación (INTER/INTRA o INTRA 16 x 16). Los valores de level y de run se binarizan a continuación asociándolos en una

45 secuencia de bins y cada bin se asigna a un contexto basándose en su número de bin.

Las figuras 6a-6d ilustran este proceso en detalle en referencia a una matriz 4 x 4 ejemplar de coeficientes DCT cuantizados. También demuestra la naturaleza adaptativa del método CABAC, ilustrando la manera en la que se rastrean las propiedades estadísticas de los valores de run y de level para coeficientes DCT cuantizados. La matriz 50 bidimensional de valores de coeficiente DCT cuantizados se barre en primer lugar en zig-zag para producir una matriz unidimensional de valores, tal como se indica en la figura 6a. Los valores de coeficiente distintos de cero en la matriz unidimensional se representan a continuación como pares de valores de run y de level. Tal como se ha explicado anteriormente, cada valor de level representa el valor de un coeficiente DCT cuantizado distinto de cero, mientras que el valor de run asociado corresponde al número de coeficientes con valor cero que preceden al 55 coeficiente en cuestión. Los pares de run-level derivados de la matriz ejemplar de coeficientes DCT cuantizados se presentan en la figura 6b. En cada par, el valor de level precede al valor de run asociado y un valor de level igual a cero se usa como un símbolo de fin de bloque para indicar que no hay más valores de coeficiente distintos de cero

en el bloque.

A continuación, cada valor de run y de level se convierte en un valor binario. De acuerdo con H.26L TML8, el esquema de binarización usado para convertir los valores de run y de level para valores de coeficiente DCT cuantizados de transformada es idéntico al mostrado anteriormente en la tabla 1. La figura 6c muestra el resultado de aplicar el esquema de binarización presentado en la tabla 1 a los valores de run y de level en la matriz ejemplar. La figura 6c también muestra la asignación de bins a contextos de acuerdo con H.26L. Tal como se ha descrito anteriormente, solamente se usan tres contextos para describir las magnitudes de los valores de run y de level. El primer contexto correspondes al bin 1, el segundo al bin 2, mientras que el tercer contexto comprende todos los bins restantes. En la figura 6c, los contextos se delinean mediante líneas horizontales en negrita. Examinando la figura 6c puede verse que la mayoría de los valores de level se asocian a bins que están asignados al contexto 3, mientras que la mayoría de los valores de run se asocian a bins que están asignados al contexto 1.

Las estimaciones de probabilidad para cada contexto asignado se actualizan después de la codificación de los bins. Las estimaciones de probabilidad para cada uno de los contextos de run y de level se actualizan de forma independiente. Tal como se ha descrito anteriormente, la estimación de probabilidad para un contexto dado representa las características estadísticas de los bins asignados al contexto en cuestión. Más específicamente, la estimación de probabilidad describe la probabilidad de que un bin asignado al contexto contenga un 1 o un 0. La figura 6d describe, de manera ejemplar, la manera en la que las estimaciones de probabilidad se actualizan para valores de run y de level. La figura ilustra la probabilidad de que un bin asignado a un contexto de run o de level dado contenga un 1 o un 0 antes y después de que los valores de run y de level que representan el bloque 4 x 4 de coeficientes DCT cuantizados mostrados en la figura 6a se binaricen y asignen a contextos y se codifiquen en el codificador aritmético. La figura 6d asume la forma de una tabla, que registra la aparición de 1 y 0 en los bins asignados a cada contexto. Por lo tanto, la estimación de probabilidad para un contexto dado viene dada por:

probabilidad de 0 = nº de 0 / (nº de 0 + nº de 1)

probabilidad de 1 = nº de 1 / (nº de 0 + nº de 1)

En la figura se supone que el bloque de 4 x 4 de coeficientes DCT cuantizados mostrado en la figura 6a es el primero de dichos bloques en ser procesado. Esto significa que no hay apariciones previas de 1 y 0 a registrar en la tabla. Para superar este problema, se supone que, antes de que el bloque sea procesado, cada contexto tiene una probabilidad igual de contener un 1 o un 0. Esto se indica introduciendo valores idénticos en las columnas que registran la aparición de 0 y 1. En la figura 6d, se usan 1 para inicializar la estimación de probabilidad.

Como alternativa, una estimación de probabilidad derivada del análisis de datos de formación podría usarse para inicializar las estimaciones de probabilidad para cada contexto. Las estimaciones de probabilidad se actualizan a continuación contando el número de 1 y 0 que aparecen en los bins de cada contexto a medida que los valores de run y de level para el bloque de Coeficientes de transformada DCT cuantizados se binarizan y se asignan a contextos. La columna de la derecha de la figura 6d muestra la situación después de procesar el bloque de 4 x 4 de DCT cuantizada mostrado en la figura 6a.

Aunque el método de codificación aritmética CABAC adoptado en el perfil de alta complejidad de la recomendación

H. 26L TML8 de la ITU-T proporciona una mejora de la compresión de datos en comparación con el método de codificación por entropía UVLC, aún no es óptimo con respecto a la eficacia de codificación. Es, por lo tanto, un objeto de la invención proporcionar un método y sistema para codificación aritmética basada en contexto, en el que la eficacia de codificación se mejora aún más.

Los ejemplos de compresión de imágenes que son útiles para entender esta invención incluyen:

1.: MARPE D ET AL: "Improving coding efficiency of H.26L using CABAC", INTERNET CITATION, 15 de junio de 2001 (), páginas 1-4, es un documento de contribución a ITU-T SG16 que propone CABAC para H.26L.

2.: El documento US 5400075 desvela Codificación de longitud variable para pares de run-level usando conmutación adaptativa entre diferentes tablas de VLC.

3.: MARPE D ET AL: “A TWO-LAYERED WAVELET-BASED ALGORITHM FOR EFFICIENT LOSSLESS AND LOSSY IMAGE COMPRESSION”, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, Estados Unidos, vol. 10, no. 7, 1 de octubre de 2000 (), páginas 1094-1102, desvela codificación basada en ondículas usando CABAC.

Sumario de la invención

La presente invención se basa en la constatación de que cuando se codifica un símbolo de datos dado usando codificación aritmética basada en contexto, puede conseguirse una mejora de la eficacia de codificación usando modelos de contexto que tienen en cuenta los contextos a los que se asignan otros símbolos de datos. En referencia específica al método CABAC usado en el perfil de alta complejidad de H.26L TML8, los inventores de la presente invención han determinado que existen ciertas relaciones entre los valores de run y de level asociados con coeficientes de transformada DCT. Han determinado, además, que estas relaciones pueden usarse para construir modelos de contexto mejorados que permiten al método CABAC funcionar con eficacia de codificación mejorada cuando se aplica a los valores de run y de level. En particular, los inventores han determinado que valores de level consecutivos muestran una similitud significativa. Más específicamente, dentro de un bloque dado de coeficientes de transformada, el valor de level de un coeficiente a codificar tiene, en general, una magnitud sustancialmente similar al valor de level del coeficiente codificado previamente. Los inventores han determinado también una relación inversa entre los valores de level y de run. En particular, es más probable que valores de level más grandes estén precedidos por valores de run más pequeños. Los inverso también es cierto, concretamente es probable que valores de level más pequeños estén precedidos por valores de run más grandes. Por consiguiente, la presente invención propone la creación de nuevos modelos de contexto para la codificación de coeficientes de transformada DCT, que tienen en cuenta estas relaciones entre valores de level consecutivos.

En un primer dicho modelo de contexto, diseñado para la implementación en un codificador aritmético basado en contexto, el contexto asignado a los bins de un valor de level de coeficiente binarizado depende del valor de level del coeficiente codificado previamente. En un segundo dicho modelo de contexto, diseñado para implementación en un decodificador aritmético basado en contexto, el contexto asignado a los bins de un valor de level de coeficiente binarizado depende del valor de level de coeficiente decodificado previamente. En un tercer modelo de contexto que no forma parte de la presente invención, implementado en un codificador aritmético basado en contexto o un decodificador aritmético basado en contexto, el contexto asignado a los bins de un valor de run de coeficiente binarizado depende del valor de level del coeficiente.

Los inventores también han determinado que existen ciertas similitudes entre los valores de coeficiente de transformada asociados con diferentes bloques de imagen. Estas similitudes son mayores entre bloques de imagen que residen cercanos entre sí y tienden a ser los más fuertes entre bloques de imagen inmediatamente adyacentes. Más específicamente, el número Nc de valores de coeficiente de transformada que no son iguales a cero que representan un bloque de imagen particular tiende a ser similar al número de valores de coeficiente de transformada distintos de cero en un bloque de imagen cerca de, o adyacente a, el bloque de imagen en cuestión. Por lo tanto, la presente divulgación introduce además el concepto de proporcionar una indicación del número de coeficientes de transformada no iguales para un bloque de imagen codificado por transformada y codificar este valor usando codificación por entropía.

Además, si se usa codificación aritmética basada en contexto para codificar el valor de Nc, los inventores han determinado que es ventajoso asignar el valor de Nc de un bloque a un contexto teniendo en cuenta el contexto asignado al valor de Ne para al menos otro bloque de imagen codificado por transformada. De esta manera, la similitud entre valores de Nc entre bloques de imagen que residen cerca entre sí puede aprovecharse en el procedimiento de codificación aritmética basada en contexto. De acuerdo con la recomendación H.26L TML8 de la ITU-T, el número de coeficientes de transformada distintos de cero en un bloque de imagen no está codificado.

En su lugar, y tal como se ha explicado anteriormente, se proporciona una indicación de fin de bloque (EOB). La indicación de EOB señala que el último par run-level correspondiente a un coeficiente distinto de cero ha sido codificado. Los inventores han determinado que el método propuesto, en el que una indicación explícita del número de coeficientes distintos de cero en un bloque se proporciona y se codifica usando codificación aritmética basada en contexto conduce a un incremento de la eficacia de codificación en comparación con el método de proporcionar una indicación de EOB tal como se emplea actualmente en H. 26L TML8.

Aunque la motivación detrás de la presente invención y sus conceptos básicos se han presentado en el contexto de codificación/decodificación de video y, más específicamente, con respecto a H. 26L TML8, debe apreciarse que la invención puede aplicarse en otros sistemas de codificación de video y también a codificación de imagen fija. En principio, la invención puede aplicarse en cualquier sistema de codificación de imágenes en el que se usan codificación por transformada a base de bloques y codificación aritmética basada en contexto.

La invención se define mediante las reivindicaciones.

La presente invención se volverá evidente con la lectura de la descripción tomada junto con las figuras 7a a 12.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques que ilustra la estructura de un codificador de video ejemplar, que emplea codificación por transformada a base de bloques y predicción por compensación de movimiento. La figura 2 es un diagrama de bloques de un decodificador de video ejemplar correspondiente al codificador de la figura 1. La figura 3 es una representación esquemática que muestra un barrido en zig-zag ejemplar. La figura 4 es un diagrama de bloques que muestra un codificador en un esquema de codificación aritmética basada en contexto de la técnica anterior. La figura 5 es un diagrama de bloques que muestra un decodificador en un esquema de codificación aritmética basada en contexto de la técnica anterior.

La figura 6a es una representación esquemática que muestra una matriz bidimensional ejemplar de valores de coeficiente DCT cuantizados barridos en zig-zag. La figura 6b es una tabla que muestra los valores de level y de run derivados de la matriz de la figura 6a. La figura 6c es una tabla que muestra los valores de level y de run binarizados que resultan de la aplicación del esquema de binarización de la tabla 1 a los valores de level y de run de la figura 6b. La figura 6d es una tabla que muestra una manera en la que se actualizan las estimaciones de probabilidad a partir de valores de run y de level. La figura 7a es una tabla que muestra una manera en la que se asignan contextos a bins basándose en sus valores de level. La figura 7b es una tabla que muestra la manera en la que se asignan contextos a valores de level de acuerdo con una primera realización de la presente invención. La figura 8a es una tabla que muestra una manera en la que se asignan contextos a bins basándose en valores de run. La figura 8b es una tabla que muestra la manera en la que se asignan contextos a valores de run de acuerdo con una segunda realización. La figura 9 es un diagrama de bloques que ilustra un codificador en un esquema de codificación aritmética basada en contexto, de acuerdo con la presente invención. La figura 10 es un diagrama de bloques que ilustra un decodificador, de acuerdo con la presente invención. La figura 11 es un diagrama de flujo que muestra un método de codificación de imágenes, de acuerdo con una realización preferida de la presente invención. La figura 12 es un diagrama de flujo que muestra un método de codificación de imágenes, de acuerdo con otra realización de la presente invención.

Mejor modo de llevar a cabo la invención

Las realizaciones de la invención se describirán a continuación en detalle. Tal como se ha descrito anteriormente, la presente invención proporciona una serie de mecanismos relacionados mediante los cuales puede conseguirse una mejora en la eficacia de codificación (compresión de datos) de un codificador aritmético basado en contexto. Esta mejora se consigue usando modelos de contexto, que tienen en cuenta los contextos a los que se asignan otros símbolos de datos.

Una primera realización de la invención, descrita en detalle en la sección 1.1 a continuación, se refiere a un codificador aritmético binario basado en contexto adecuado para su uso en un sistema de codificación de imágenes tal como el definido por la recomendación H.26L de la ITU-T. En esta realización, valores de level generados codificando por run-level los coeficientes de transformada cuantizados de un bloque codificado por transformada de píxeles de la imagen se asignan a contextos que tienen en cuenta el valor de level de otro coeficiente de transformada que pertenece al mismo bloque.

Una segunda realización, descrita en detalle en la sección 1.2, también se refiere a un codificador aritmético binario basado en contexto para un sistema de codificación de imágenes tal como el definido por la recomendación H.26L de la ITU-T. En la segunda realización, valores de run producidos codificando por run-level los coeficientes de transformada DCT cuantizados de un bloque codificado por transformada de píxeles de la imagen se asignan a contextos que tienen en cuenta el valor de level del par run-level al que pertenece el valor de run.

Una tercera realización se describe en la sección 1.3 y también se refiere a un codificador aritmético basado en contexto para un sistema de codificación de imágenes tal como el definido por la recomendación H.26L de la ITU-T. De acuerdo con la tercera realización, el número de coeficientes de transformada distintos de cero Nc para un bloque de imagen codificado por transformada se determina y se asigna a un contexto que tiene en cuenta el contexto asignado al valor Nc para al menos otro bloque de imagen codificado por transformada.

Una realización preferida de la invención combina la funcionalidad de las tres realizaciones mencionadas anteriormente.

Tal como se ha explicado anteriormente en el texto, el perfil de alta complejidad de la recomendación H.26L TML8 de la ITU-T emplea una forma de codificación aritmética basada en contexto conocida como CABAC. En un codificador de video implementado de acuerdo con H.26L, el método CABAC se usa para codificar diversos tipos diferentes de información producidos por el codificador, incluyendo los coeficientes de transformada generados mediante bloques de codificación por transformada de píxeles de la imagen (en modo de codificación INTRA) o valores de error de predicción (en modo de codificación INTER). La matriz bidimensional de coeficientes de transformada producida codificando por transformada un bloque de píxeles de la imagen es barrida de acuerdo con un modo de barrido particular para producir una matriz unidimensional. Dos de dichos modos de barrido se definen en H.26L. El primero es conocido como 'modo de barrido individual' mientras que el otro se denomina como 'modo de barrido doble'. Sea cual sea el modo de barrido que se usa, el barrido de los coeficientes de transformada convierte la matriz bidimensional de valores de coeficiente en una matriz unidimensional en la que los coeficientes se ordenan de una manera predeterminada. Los valores de coeficiente de transformada ordenados en la matriz unidimensional se convierten en valores de run y de level. La última entrada en la matriz unidimensional ordenada es un símbolo de fin de bloque, que de acuerdo con H.26L TML8, asume la forma de un valor de level igual a cero. Esto indica que el último valor de coeficiente distinto de cero en la matriz ordenada se ha convertido en un par run-level. Los valores de run y de level se convierten en números binarios (se binarizan), asociándolos a una serie de bins, a cada uno de los cuales se le puede asignar el valor de 0 o 1 (véase la tabla 1). Los valores de run y de level

5 binarizados se asignan a continuación a contextos, estando un conjunto diferente de contextos definido para los valores de run y los de level. De acuerdo con H.26L TML8, para un tipo de bloque dado, el conjunto de contextos definido para los valores de level depende solamente del número de bin al que se le asignan los valores de level. Más específicamente, de acuerdo con H.26L TML8 se definen cuatro contextos para la codificación del valor de level. El primero es para el primer bin, el segundo es para el segundo bin, mientras que el tercer contexto es para el

10 resto de los bins que representan la magnitud del valor de level. El contexto restante se usa para el signo del valor de level. Para los valores de run existen tres contextos, el primero para el primer bin, el segundo para el segundo bin y el tercero para todos los restantes bins. Dado que los valores de run son siempre iguales o mayores que cero, no existe necesidad de un contexto adicional para representar información del signo.

15 1.1. Modelo de contexto para valores de level

De acuerdo con una primera realización de la presente invención, cuando se asigna un valor de level binarizado a un contexto, además de considerar el bin al que se asocia el propio valor de level, también se tiene en cuenta el valor de level del par run-level precedente. En este contexto, la expresión 'par run-level precedente' significa el par run

20 level correspondiente al coeficiente precedente en la matriz unidimensional ordenada de valores de coeficiente. El siguiente pseudocódigo presenta un procedimiento ejemplar para asignar un contexto a un valor de level de un par run-level, teniendo en cuenta tanto el bin al que el propio valor de level está asignado como el valor de level del par

25 En la expresión (2) prev_level es la magnitud del valor de level del par run-level previo. prev_level se inicializa a cero al comienzo de cada bloque. En modo de barrido doble, prev_level se inicializa al comienzo de cada barrido, dos veces por bloque. El parámetro MAX_BIN_LEVEL proporciona un medio para controlar la manera en la que el número bin al que se asocia el valor de level afecta a la asignación de un contexto. Más específicamente, y de manera similar a la presente asignación de contextos de acuerdo con H.26L TML8, MAX_BIN_LEVEL define

30 eficazmente un contexto al que se le asignan todos los números de bin mayores o iguales a MAX_BIN_LEVEL. De manera similar, el parámetro MAX_LEVEL proporciona un medio para controlar la manera en la que el valor de level del par run-level previo afecta a la asignación de un contexto. Las figuras 7a y 7b ilustran la manera en la que son asignados los contextos a valores de level de acuerdo con la primera realización de la invención aplicando el pseudocódigo la de expresión (2) con MAX_BIN_LEVEL = 3 y MAX_LEVEL = 5. En principio, puede usarse

35 cualquier combinación de MAX_BIN_LEVEL y MAX_LEVEL para definir un conjunto de contextos apropiados para las características estadísticas de los valores de level a codificar.

1.2. Modelo de contexto para valores de run

40 De acuerdo con una segunda realización, un enfoque que es similar al descrito en la sección 1.1 se usa para asignar valores de run a contextos. Más específicamente, cuando se asigna un valor de run binarizado a un contexto, además de considerar el bin al que se asocia el propio valor de run, el level del par run-level al que pertenece el valor de run también es tenido en cuenta. El siguiente pseudocódigo presenta un procedimiento ejemplar para asignar un contexto a un valor de run de un par run-level, teniendo en cuenta tanto el bin al que se asocia el propio

45 valor run como el valor de level del par run-level al que pertenece el valor de run: En la expresión (3) level es la magnitud del valor de level del par run-level. El parámetro MAX_BIN_RUN proporciona un medio para controlar la manera en la que el número de bin al que se asocia el valor de run afecta a la asignación de un contexto. Más específicamente, y de manera similar a la presente asignación de contextos de acuerdo con H.26L TML8, MAX_BIN_RUN define eficazmente un contexto al que se asignan todos los números de bin mayores de o iguales a MAX_BIN_RUN. De manera similar, el parámetro MAX_RUNL proporciona un medio para controlar la manera en la que el valor de level del par run-level afecta a la asignación de un contexto. Las figuras 8a y 8b ilustran la manera en que se asignan contextos a valores de level de acuerdo con la segunda realización aplicando el pseudocódigo de la expresión (3) con MAX_BIN_RUN = 3 y MAX_RUNL = 4. En principio, puede usarse cualquier combinación de MAX_BIN_RUN y MAX_RUNL para definir un conjunto de contextos apropiados para las características estadísticas de los valores de run a codificar.

1.3 Contextos para el número de coeficientes distintos de cero

Una tercera realización se refiere en particular a la manera en que una matriz ordenada de valores de coeficiente de transformada se convierte en valores de run y de level y la manera en que se señala el número de pares run-level correspondiente a una matriz de valores de coeficiente de transformada cuantizados. Más específicamente, después de que un bloque de píxeles de la imagen o valores de error de predicción ha sido codificado por transforma para formar una matriz bidimensional de valores de coeficiente de transformada y cada uno de los valores de coeficiente se ha cuantizado, el número de valores de coeficiente cuantizados distintos de cero en la matriz se determina. Un valor, denominado como Nc, se asigna a ese número y se usa para señal explícitamente el número de valores de coeficiente distintos de cero en la matriz. Por lo tanto, de acuerdo con esta realización de la invención, ya no se requiere un símbolo de EOB, por ejemplo un valor de level igual acero.

Los coeficientes de transformada cuantizados son barridos adicionalmente de acuerdo con un orden de barrido predeterminado para producir una matriz unidimensional ordenada. Como alternativa, Nc puede determinarse después de ordenar los valores de coeficiente cuantizados. Cada uno de los coeficientes cuantizados distintos de cero en la matriz ordenada se convierte a continuación en un par run-level. De acuerdo con esta realización, el valor de level del par run-level indica la magnitud del valor del coeficiente cuantizado menos 1 y el valor de run corresponde al número de coeficientes cuantizados iguales a cero consecutivos que preceden al coeficiente en cuestión. Los valores de level son asignados a la magnitud del valor del coeficiente cuantizado menos 1, dado que un valor de level igual a cero ya no se usa como indicador de fin de bloque. Esto da origen a un ahorro de la cantidad de datos (por ejemplo número de bits) requeridos para representar la información de level.

Los valores de level y de run son codificados a continuación usando codificación por entropía, como en el valor Nc. En una situación en la que se usa un método de codificación aritmética basada en contexto tal como la técnica CABAC implementada en H.26L TML8, los valores de run y de level pueden codificarse de acuerdo con la primera y/o segunda realizaciones, tal como se ha descrito anteriormente. Como alternativa, puede usarse cualesquiera otros modelos de contexto apropiados para los valores de run y de level. Adicionalmente, se define un modelo de contexto diferente para Nc. De acuerdo con esta realización, el valor Nc que representa en número de coeficientes de transformada cuantizados distintos de cero en un bloque dado se binariza en primer lugar asociándolo a una serie de bins, cada uno de los cuales tiene un número de bin correspondiente. El contexto para Nc se determina a continuación basándose en el número de bin al que se asocia Nc y el Nc de al menos otro bloque o macrobloque de imágenes al que ya se le ha asignado un valor Nc. El siguiente pseudocódigo presenta un procedimiento ejemplar para asignar un contexto a un valor Nc, teniendo en cuenta tanto el bin al que se le asocia el propio Nc y el valor Nc precedente:

En la expresión (4) prev_nc es el valor Nc previo.

Cuando valores de level y de run codificados para un bloque dado de coeficientes de transformada cuantizados se

5 transmiten desde un codificador a un decodificador, el valor Nc codificado por entropía se transmite antes que los valores de run y de level codificados. En el decodificador, el valor Nc se decodifica, seguido por los pares run-level correspondientes a los valores de coeficiente de transformada cuantizados para el bloque en cuestión. El valor de +1 se añade a cada una de la magnitud de los valores de level, a medida que son decodificados para compensar la sustracción correspondiente realizada en el codificador.

10 Para demostrar la mejora en el eficacia de codificación usando el método de codificación de imágenes, de acuerdo con la presente invención, la diferencia de velocidad de transferencia de bits promedio se calcula usando resultados para QP = 28, 24, 20, 16. La tabla 2 muestra la reducción en porcentaje de la velocidad de transferencia de bits, en comparación con TML8, donde MAX_LEVEL = 5 y MAX_RUN = 4. Todos los fotogramas son codificados como

15 fotogramas I en modo CABAC. Tal como se muestra en la tabla 2, la reducción de la velocidad de transferencia de bits varía entre el 0,95 y el 4,74%. La mejora es más pronunciada cuando los valores de QP son pequeños.

Tabla 2

QP: Container Foreman News Silent Tempete Mobile Paris

5: 3,19 3,92 3,11 4,74 4,01 3,63 3,34

10: 3,10 3,39 2,85 4,32 3,88 3,73 3,04

16: 2,64 2,67 2,26 3,17 3,37 3,37 2,55

20: 2,20 2,14 1,76 2,38 2,79 2,90 2,20

24: 1,30 1,51 1,35 2,28 1,89 2,01 1,54

28: 1,16 0,95 0,99 1,76 1,55 1,57 1,18

Dif. Bitrato Prom.* (%): 1,79 1,83 1,58 2,37 2,49 2,40 1,87

20 En la tabla 2, los nombres que aparecen en la primera fila de la tabla son fotos usadas en el documento Gisle Bjontegaard “Recommended Simulation Conditions for H.26L” (VCG-M75, ITU-T Video Coding Experts Group, Austin, Texas, Estados Unidos, 2-4 de abril de 2001).

En referencia ahora a la figura 9, un codificador 10 en el lado de transmisión, de acuerdo con la presente invención,

25 incluye una unidad 16 para almacenar valores de level y de run previos. Tal como se muestra en la figura 9, los pares run-level 102 para un bloque dado se proporcionan a una unidad de asociación 12, que asocia los pares a una secuencia de bins, teniendo cada bin un valor de 0 o 1. La ubicación del bin en la secuencia que representa un par run-level se denomina un número de bin. Los números de bin se representan mediante señales 104. Basándose en las señales 104 y un valor de level 108 codificado previamente proporcionado por la unidad 16, una unidad de

30 asignación 14 asigna un contexto a un número de bin. Los contextos, indicados mediante señales 106, se proporcionan a un codificador aritmético adaptativo 20. La probabilidad de aparición de 1 y la probabilidad de aparición de 0 son estimadas por un módulo de estimación de probabilidad 22. Basándose en las estimaciones de probabilidad 120, una unidad de codificación aritmética 24 codifica los bins. Una señal de retroalimentación 124 es proporcionada desde el codificador 24 al módulo de estimación de probabilidad 22 para actualizar la estimación de

35 probabilidad. La información codificada se transforma en un flujo de bits 122 para transportarla a un decodificador o almacenarla en un dispositivo de almacenamiento para uso posterior.

Preferentemente, el codificador 10 también incluye una unidad 18, que es capaz de proporcionar el número, Nc, de coeficientes distintos de cero en el bloque al codificador aritmético 20 antes de que los pares run-level sean 40 proporcionados al codificador aritmético 20, de modo que Nc es también codificado e incluido en el flujo de bits 122. Nc se representa mediante señales 110. Usando Nc, no existe necesidad de enviar un símbolo de fin de bloque

(EOB) al decodificador. En la técnica anterior, el valor de level de 0 se usa para el símbolo de EOB. Más específicamente, Nc se descubre después de la transformada y cuantización y se codifica usando codificación por entropía. Debe observarse que con el número de coeficientes distintos de cero conocido, ya no es necesario usar el valor de level igual a cero para señal el final del bloque. Por lo tanto, es posible modificar el valor de level sustrayendo 1 del valor del coeficiente cuantizado.

En el lado de recepción, tal como se muestra en la figura 10, un decodificador 50 se usa para recibir el flujo de bits 122 proporcionado por el codificador 10. El flujo de bits recibido, que representa símbolos de datos codificados aritméticos, se indica mediante el número de referencia 202. Inicialmente, basándose en los símbolos decodificados previamente, se calcula un contexto en un bloque de asignación de contexto 66 y las estimaciones de probabilidad de los valores de bin se actualizan en un bloque de estimación de probabilidad 62. Los símbolos decodificados previamente basándose en los cuales se actualizan las estimaciones de probabilidad se indican mediante el número de referencia 205. La asignación de contextos, tal como se lleva a cabo en el bloque de asignación de contexto 66, y el cálculo de las estimaciones de probabilidad, tal como se lleva a cabo en el bloque de estimación de probabilidad 62, son similares a aquellos en el codificador 10. Los bits recibidos 202 son introducidos a continuación en un motor de decodificación aritmética 64 en un codificador aritmético 60, donde se convierten en valores de bin decodificados 206, usando el contexto calculado y las estimaciones de probabilidad actuales de los valores de bin 204. Los bins 208 se asocian a los valores de run y de level en el bloque 68. Si el número, Nc, de coeficientes distintos de cero en el bloque es codificado en el codificador 10 y provisto en el flujo de bits recibido 202, a continuación se proporciona una señal 214 al módulo de asociación de un bin a un valor 68 con lo que el coeficiente cuantizado se restaura añadiendo 1 al valor de level.

La figura 11 es un diagrama de flujo que muestra un método de codificación de imagen, de acuerdo con la realización preferida de la presente invención. Tal como se muestra, el método 500 comienza en la etapa 510 donde una imagen es recibida por un codificador. La imagen recibida se divide en una pluralidad de bloques en la etapa

520. Cada bloque es barrido en la etapa 530 y los valores de level y run de los coeficientes cuantizados en el bloque se obtienen en la etapa 540. En contraste a los esquemas de codificación de la técnica anterior, la presente invención también usa los valores de level previos en la asignación de contextos en la etapa 550. En particular, la asignación de contextos a los bins que representan los valores de level de los coeficientes cuantizados tiene en cuenta el valor del level codificado previamente, tal como se describe en la sección 1.1. Del mismo modo, la asignación de contextos a los bins que representan los valores de run de los coeficientes cuantizados tiene en cuenta el valor de level, tal como se describe en la sección 1.2. Los contextos asignados son transportados a un codificador aritmético para codificación en la etapa 560. Adicionalmente, Nc, o el número de coeficientes cuantizados distintos de cero, se determina durante o después de que el bloque sea barrido en la etapa 530 y Nc es codificado en la etapa 560 antes de que Nc y los contextos sean proporcionados a un decodificador, tal como se describe en la sección 1.3.

Como alternativa, el método de codificación de imágenes puede mejorarse exclusivamente transportando señales indicativas de Nc al lado de recepción, sin considerar el valor del level o run codificados previamente cuando los contextos son asignados, tal como se muestra en la figura 11. Tal como se muestra en la figura 12, en lugar de obtener los valores de level y de run previamente codificados en la etapa 540 para asignar los contextos en la etapa 550, Nc se obtiene y se proporciona en la etapa 542. Nc es transportado, antes de que los contextos asignados en la etapa 550 sean enviados, a un codificador aritmético para codificación en la etapa 560. Enviando Nc, no hay necesidad de enviar el símbolo de EOB al decodificador.

Aunque la invención se ha descrito con respecto a una realización preferida de la misma, los expertos en la materia entenderán que los anteriores y muchos otros cambios, omisiones y desviaciones en la forma y detalle de la misma pueden realizarse sin alejarse del alcance de esta invención, tal como se define en las reivindicaciones.

Claims

REIVINDICACIONES

1.

Un método de codificación aritmética basada en contexto en el que una imagen se divide en una pluralidad de bloques que tienen una pluralidad de píxeles, teniendo cada píxel un valor de píxel, y la operación de codificación por transformada se realiza en un bloque de píxeles para producir un bloque correspondiente de valores de coeficiente de transformada, y el bloque de valores de coeficiente de transformada es barrido en un orden de barrido dado para producir una matriz barrida de valores de coeficiente que representan diferentes frecuencias espaciales en el bloque, en donde los valores de coeficiente en la matriz barrida se representan mediante una pluralidad de pares de números de run-level, teniendo cada par un valor de LEVEL y un segundo número, siendo el valor de LEVEL y el segundo número asignados a un contexto seleccionado entre una pluralidad de contextos representativos de los pares de números, caracterizado por que el valor de LEVEL de un par de números es asignado a un contexto dependiendo al menos parcialmente de un valor de LEVEL de un par de números en el bloque asignado previamente a un contexto.
2.

Un método de decodificación aritmética basada en contexto, comprendiendo el método decodificar una imagen que ha sido dividida en una pluralidad de bloques que tienen una pluralidad de píxeles, teniendo cada píxel un valor de píxel, en donde una operación de codificación por transformada ha sido realizada en un bloque de píxeles para producir un bloque correspondiente de valores de coeficiente de transformada, y el bloque de valores de coeficiente de transformada ha sido barrido en un orden de barrido dado para producir una matriz barrida de valores de coeficiente que representan diferentes frecuencias espaciales en el bloque, en donde los valores de coeficiente en la matriz barrida se representan mediante una pluralidad de pares de números de run-level, teniendo cada par un valor de LEVEL y un segundo número, comprendiendo el método asignar el valor de LEVEL y el segundo número de un par de números a un contexto seleccionado entre una pluralidad de contextos representativos de los pares de números, caracterizado por asignar el valor de LEVEL de un par de números a un contexto dependiendo al menos parcialmente de un valor de LEVEL de un par de números en el bloque asignado previamente a un contexto.
3.

Un método de acuerdo con la reivindicación 1 o 2, en el que los valores de LEVEL de dichos pares de números se asocian a un conjunto de bins, teniendo cada uno de dicho conjunto de bins un número de bin asociado y siendo capaces de tomar uno de un primer valor o un segundo valor.
4.

Un método de acuerdo con la reivindicación 1 o 2, en el que los segundos números de dichos pares de números se asocian a un conjunto de bins, teniendo cada uno de dicho conjunto de bins un número de bin asociado y siendo capaces de tomar uno de un primer valor o un segundo valor.
5.

Un método de acuerdo con la reivindicación 3 o 4, en el que la asociación de un número a uno dado de dicho conjunto de bins se indica asignando el bin al primer valor.
6.

Un método de acuerdo con la reivindicación 3, 4 o 5, en el que el primer valor es 1 y el segundo valor es 0.
7.

Un método de acuerdo con cualquiera de las reivindicaciones 3 a 6, en el que el valor de LEVEL de un par de números es asignado a un contexto dependiendo al menos parcialmente del bin al que se asocia el valor de LEVEL del par de números.
8.

Un método de acuerdo con cualquiera de las reivindicaciones 3 a 7, en el que el segundo número de un par de números es asignado a un contexto dependiendo al menos parcialmente del bin al que se asocia el segundo número del par de números.
9.

Un método de acuerdo con cualquiera de las reivindicaciones 1 a 8, en el que dicho valor de LEVEL es indicativo de un valor de coeficiente distinto de cero y dicho segundo número es indicativo de un número de valores de coeficiente iguales a cero consecutivos que preceden a dicho valor de coeficiente distinto de cero.
10.

Un método de acuerdo con la reivindicación 1 o 2, en el que los valores de LEVEL de dichos pares de números se asocian a un conjunto de bins, teniendo cada uno de dichos bins un número de bin asociado, en donde el valor de LEVEL de un par de números particular es asignado a un contexto de acuerdo con la siguiente lógica:

if (bin_nr > MAX_BIN_LEVEL) bin_nr = MAX_BIN_LEVEL; end if (prev_level > MAX_LEVEL) prev_level = MAX_LEVEL; end context = (bin_nr-1)*MAX_LEVEL + prev_level

donde bin_nr es el número de bin del bin al que se le asocia el valor de LEVEL de dicho par de números particular, MAX_BIN_LEVEL determina el bin al que se asocian valores LEVEL con valores mayores de MAX_BIN_LEVEL, prev_level es el valor del valor de LEVEL de un par de números inmediatamente precedente en dicho orden de barrido, MAX_LEVEL define un valor máximo para prev_level, al que se asocian todos los valores de prev_level mayores de MAX_LEVEL, y context es el contexto asignado al valor de LEVEL de dicho par de números particular.
11.

Un método de acuerdo con cualquier reivindicación anterior, en el que el segundo número del par de números es asignado a un contexto dependiendo al menos parcialmente del valor de LEVEL del par de números.
12.

Uso de un método de acuerdo con la reivindicación 1 o una cualquiera de las reivindicaciones 3 a 11 cuando depende de la reivindicación 1, en una aplicación de codificación de imágenes o codificación de video.
13.

Uso de un método de acuerdo con la reivindicación 2 o una cualquiera de las reivindicaciones 3 a 11 cuando depende de la reivindicación 2, en aplicación de decodificación de imágenes o decodificación de video.
14.

Aparato codificador aritmético basado en contexto configurado para dividir una imagen en una pluralidad de bloques que tienen una pluralidad de píxeles, teniendo cada píxel un valor de píxel, y la operación de codificación por transformada se realiza en un bloque de píxeles para producir un bloque correspondiente de valores de coeficiente de transformada, y el bloque de valores de coeficiente de transformada es barrido en un orden de barrido dado para producir una matriz barrida de valores de coeficiente que representan diferentes frecuencias espaciales en el bloque, en donde los valores de coeficiente en la matriz barrida se representan mediante una pluralidad de pares de números de run-level, teniendo cada par un valor de LEVEL y un segundo número, estando el aparato codificador aritmético basado en contexto dispuesto para asignar el valor de LEVEL de un par de números a un contexto seleccionado entre una pluralidad de contextos representativos de los pares de valores de LEVEL, caracterizado por que el aparato codificador está configurado además para asignar el valor de LEVEL de un par de números a un contexto dependiendo al menos parcialmente de un valor de LEVEL de un par de números en el bloque asignado previamente a un contexto.
15.

Aparato decodificador aritmético basado en contexto configurado para decodificar una imagen que ha sido dividida en una pluralidad de bloques que tienen una pluralidad de píxeles, teniendo cada píxel un valor de píxel, y ha sido sometida a una operación de codificación por transformada realizada en un bloque de píxeles para producir un bloque correspondiente de valores de coeficiente de transformada, y el bloque de valores de coeficiente de transformada ha sido barrido en un orden de barrido dado para producir una matriz barrida de valores de coeficiente que representan diferentes frecuencias espaciales en el bloque, en donde los valores de coeficiente en la matriz barrida se representan mediante una pluralidad de pares de números de run-level, teniendo cada par un valor de LEVEL y un segundo número, estando el aparato decodificador aritmético basado en contexto dispuesto para asignar el valor de LEVEL de un par de números a un contexto seleccionado entre una pluralidad de contextos representativos de los pares de números, caracterizado por que el aparato decodificador está configurado además para asignar el valor de LEVEL de un par de números a un contexto dependiendo al menos parcialmente de un valor de LEVEL de un par de números en el bloque asignado previamente a un contexto.
16.

Aparato de acuerdo con la reivindicación 14 o 15, en donde éste está dispuesto para asociar los valores de LEVEL de dichos pares de números a un conjunto de bins, teniendo cada uno de dicho conjunto de bins un número de bin asociado y siendo capaces de tomar uno de un primer valor o un segundo valor.
17.

Aparato de acuerdo con la reivindicación 14 o 15, en donde éste está dispuesto para asociar los segundos números de dichos pares de números a un conjunto de bins, teniendo cada uno de dicho conjunto de bins un número de bin asociado y siendo capaces de tomar uno de un primer valor o un segundo valor.
18.

Aparato de acuerdo con la reivindicación 16 o 17, en donde éste está dispuesto para asociar un número a uno dado de dicho conjunto de bins asignando el bin al primer valor.
19.

Aparato de acuerdo con la reivindicación 16, 17 o 18, en el que el primer valor es 1 y el segundo valor es 0.
20.

Aparato de acuerdo con cualquiera de las reivindicaciones 16 a 19, en donde éste está dispuesto para asignar el valor de LEVEL de un par de números a un contexto dependiendo al menos parcialmente del bin al que se asociar el valor de LEVEL del par de números.
21.

Aparato de acuerdo con cualquiera de las reivindicaciones 16 a 20, en donde éste está dispuesto para asignar el segundo número de un par de números a un contexto dependiendo al menos parcialmente del bin al que se asocia el segundo número del par de números.
22.

Aparato de acuerdo con cualquiera de las reivindicaciones 14 a 21, en el que dicho valor de LEVEL es indicativo de un valor de coeficiente distinto de cero y dicho segundo número es indicativo de un número de valores de coeficiente iguales a cero consecutivos que preceden a dicho valor de coeficiente distinto de cero.
23.

Aparato de acuerdo con la reivindicación 14 o 15, en donde el aparato está dispuesto para asociar los valores de LEVEL de dichos pares de números a un conjunto de bins, teniendo cada uno de dichos bins un número de bin asociado, en donde el aparato está dispuesto además para asignar el valor de LEVEL de un par de números

particular a un contexto de acuerdo con la siguiente lógica:

if (bin_nr > MAX_BIN_LEVEL) bin_nr = MAX_BIN_LEVEL;

5 end if (prev_level > MAX_LEVEL) prev_level = MAX_LEVEL; end context = (bin_nr-1)*MAX_LEVEL + prev_level

10 donde bin_nr es el número bin del bin al que se le asocia el valor de LEVEL de dicho par de números particular, MAX_BIN_LEVEL determina el bin al que se asocian valores de LEVEL con valores mayores de MAX_BIN_LEVEL, prev_level es el valor del valor de LEVEL de un par de números inmediatamente precedente en dicho orden de barrido, MAX_LEVEL define un valor máximo para prev_level, al que se asocian todos los valores de prev_level

15 mayores de MAX_LEVEL, y context es el contexto asignado al valor de LEVEL de dicho par de números particular.
24. Aparato de acuerdo con cualquiera de las reivindicaciones 14-23, en el que el segundo número del par de números es asignado a un contexto dependiendo al menos parcialmente del valor de LEVEL del par de números.

20 25. Un programa informático que comprende un código legible por una máquina para implementar el método de codificación aritmética basada en contexto de acuerdo con la reivindicación 1.

��

Actualizar la estimación de probabilidad

Codificador aritmético adaptativo Actualizar la estimación de probabilidad

Codificador aritmético adaptativo