ES2711671T3

ES2711671T3 - Procedimiento de decodificación de vídeo usando decodificación

Info

Publication number: ES2711671T3
Application number: ES12804190T
Authority: ES
Inventors: Il-Koo Kim; Vadim Seregin
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-06-28
Filing date: 2012-06-27
Publication date: 2019-05-06
Anticipated expiration: 2032-06-27
Also published as: EP3402206A1; ZA201502760B; MX337232B; AU2018200070A1; KR20180023939A; PL3402206T3; ES2655917T3; DK2884749T3; HRP20190301T1; HUE051665T2; EP3013054A1; JP5873201B2; KR20130002285A; TWI661716B; EP2849445A1; MX2014000172A; CN107820098A; US20150139332A1; US20150181225A1; BR122015021373A2

Abstract

Un procedimiento de decodificación de un vídeo, comprendiendo el procedimiento: dividir una imagen en una pluralidad de bloques de codificación máxima basándose en la información de tamaño de los bloques de codificación máxima analizados desde un flujo de bits; dividir jerárquicamente uno de los bloques de codificación máxima en al menos un bloque de codificación usando información de división de bloque de codificación analizado desde un flujo de bits, determinar al menos un bloque de transformación jerárquicamente dividido de un bloque de codificación actual usando información de división de bloque de transformación analizada desde el flujo de bits, analizar símbolos de un bloque de codificación actual desde el flujo de bits; si un símbolo de prefijo y un símbolo de sufijo se clasifican desde un símbolo acerca de al menos una ubicación de coeficiente significativo de un bloque de transformación actual basándose en un valor de umbral predeterminado, realizar la decodificación aritmética basada en el contexto para el símbolo de prefijo para obtener una cadena de bits de prefijo y realizar decodificación aritmética en modo desviación para el símbolo de sufijo para obtener una cadena de bits de sufijo; obtener un prefijo binarizado inverso realizando una binarización inversa en la cadena de bits del prefijo de acuerdo con un procedimiento de binarización truncado; obtener un sufijo binarizado inverso realizando una binarización inversa en la cadena de bits de sufijo de acuerdo con un procedimiento de longitud fija; reconstruir la última ubicación del coeficiente significativo del bloque de transformación actual mediante el uso del prefijo binarizado inverso y el sufijo binarizado inverso; y restaurar la imagen realizando una transformación inversa en el bloque de transformación actual basándose en la última ubicación de coeficiente significativo reconstruida, en el que la decodificación aritmética basada en el contexto en el símbolo de prefijo se realiza mediante el uso de un índice de contexto determinado en función del tamaño del bloque de transformación actual y la ubicación de un bit de la cadena de bits de prefijo, en el que el prefijo binarizado inverso se obtiene al decodificar el símbolo del prefijo, el sufijo inverso binarizado se obtiene al decodificar el símbolo del sufijo, la última ubicación del coeficiente significativo del bloque de transformación actual se reconstruye mediante la combinación del prefijo binarizado inverso y el sufijo binarizado inverso, y la ubicación del último coeficiente significativo reconstruido del bloque de transformación actual indica una coordenada x de la última ubicación del coeficiente significativo en una dirección de anchos del bloque de transformación actual o una coordenada y de la última ubicación del coeficiente significativo en una dirección de alturas del bloque de transformación actual.

Description

DESCRIPCION

Procedimiento de decodificacion de video usando decodificacion

rCampo tecnicol

La presente invencion se refiere a codificacion de v^deo y decodificacion de video que implican codificacion aritmetica y decodificacion aritmetica, respectivamente.

rAntecedentes de la tecnical

A medida que se esta desarrollando y suministrando hardware para reproducir y almacenar contenido de video de alta resolucion o de alta calidad, aumenta una necesidad de un codec de video para codificar o decodificar eficazmente el contenido de video de alta resolucion o de alta calidad. En un codec de video convencional, se codifica un video de acuerdo con un procedimiento de codificacion limitado basado en un macrobloque que tiene un tamano predeterminado.

Los datos de imagen de un dominio espacial se convierten a coeficientes de una region de frecuencia usando un procedimiento de conversion de frecuencia. Un codec de video codifica coeficientes de frecuencia en unidades de bloques dividiendo una imagen en una pluralidad de bloques que tienen un tamano predeterminado y realizando conversion de Transformacion de Coseno Discreta (DCT) para rapida operacion de conversion de frecuencia. Los coeficientes de la region de frecuencia se comprimen facilmente en comparacion con los datos de imagen del dominio espacial. En particular, un valor de pixel de una imagen en el dominio espacial se representa como un error de prediccion y por lo tanto si se realiza conversion de frecuencia en el error de prediccion, una gran cantidad de datos puede convertirse a 0. Un codec de video convierte datos que se generan de manera continua y repetitiva en pequenos datos para reducir una cantidad de datos.

[Divulgacionl

[Problema tecnicol

La presente invencion proporciona un procedimiento y aparato para realizar codificacion aritmetica y decodificacion aritmetica de un video clasificando un sfmbolo en cadenas de bits de prefijo y sufijo.

rSolucion tecnical

De acuerdo con un ejemplo se proporciona un procedimiento de decodificacion de un video a traves de decodificacion de sfmbolo, incluyendo el procedimiento: analizar sfmbolos de bloques de imagen desde una secuencia de bits recibida; clasificar un sfmbolo actual en una cadena de bits de prefijo y una cadena de bits de sufijo basandose en un valor umbral determinado de acuerdo con un tamano de un bloque actual; realizar decodificacion aritmetica usando un procedimiento de decodificacion aritmetica determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo; realizar conversion a binario inversa usando un procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo; y restaurar los bloques de imagen realizando transformacion inversa y prediccion en el bloque actual usando el sfmbolo actual restaurado a traves de la decodificacion aritmetica y la conversion a binario inversa.

[Efectos ventajososl

La eficacia de un procedimiento de codificacion/decodificacion de sfmbolo se mejora realizando un procedimiento de conversion a binario que tiene una cantidad relativamente pequena de carga de operacion en la region de sufijo o la cadena de bits de sufijo u omitiendo el modelado de contexto durante la codificacion/decodificacion aritmetica basada en contexto para codificacion/decodificacion de sfmbolo.

[Descripcion de los dibujosl

La Figura 1 es un diagrama de bloques de un aparato de codificacion de video, de acuerdo con una realizacion de la presente invencion;

La Figura 2 es un diagrama de bloques de un aparato de decodificacion de video, de acuerdo con una realizacion de la presente invencion;

Las Figuras 3 y 4 son diagramas para describir codificacion aritmetica clasificando un sfmbolo en una cadena de bits de prefijo y una cadena de bits de sufijo de acuerdo con un valor umbral predeterminado, de acuerdo con una realizacion de la presente invencion;

La Figura 5 es un diagrama de flujo para describir un procedimiento de codificacion de video, de acuerdo con una realizacion de la presente invencion;

La Figura 6 es un diagrama de flujo para describir un procedimiento de decodificacion de video, de acuerdo con una realizacion de la presente invencion;

La Figura 7 es un diagrama de bloques de un aparato de codificacion de video basado en unidades de codificacion que tienen una estructura de arbol, de acuerdo con una realizacion de la presente invencion;

La Figura 8 es un diagrama de bloques de un aparato de decodificacion de video basado en una unidad de codificacion que tiene una estructura de arbol, de acuerdo con una realizacion de la presente invencion;

La Figura 9 es un diagrama conceptual de unidades de codificacion, de acuerdo con una realizacion de la presente invencion;

La Figura 10 es un diagrama de bloques de un codificador de imagen basado en unidades de codificacion, de acuerdo con una realizacion de la presente invencion;

La Figura 11 es un diagrama de bloques de un decodificador de imagen basado en unidades de codificacion, de acuerdo con una realizacion de la presente invencion;

La Figura 12 es un diagrama que muestra unidades de codificacion de acuerdo con las profundidades y particiones, de acuerdo con una realizacion de la presente invencion;

La Figura 13 es un diagrama para describir una relacion entre una unidad de codificacion y unidades de transformacion, de acuerdo con una realizacion de la presente invencion;

La Figura 14 es un diagrama para describir informacion de codificacion de unidades de codificacion de acuerdo con las profundidades, de acuerdo con una realizacion de la presente invencion;

La Figura 15 es un diagrama que muestra unidades de codificacion de acuerdo con las profundidades, de acuerdo con una realizacion de la presente invencion;

Las Figuras 16 a 18 son diagramas para describir una relacion entre unidades de codificacion, unidades de prediccion, y unidades de transformacion, de acuerdo con una realizacion de la presente invencion; y

La Figura 19 es un diagrama para describir una relacion entre una unidad de codificacion, una unidad de prediccion, y una unidad de transformacion de acuerdo con la informacion de modo de codificacion de la Tabla 1.

rMeior modol

De acuerdo con un aspecto de la presente invencion, se proporciona un procedimiento de decodificacion de un video como se define mediante la reivindicacion 1.

rModo para la invencionl

En lo sucesivo, la presente invencion se describira mas completamente con referencia a los dibujos adjuntos, en los que se muestran realizaciones ejemplares de la invencion. Expresiones tales como “al menos uno de”, cuando preceden una lista de elementos, modifican la lista completa de elementos y no modifican los elementos individuales de la lista.

Un procedimiento de codificacion de video que implica codificacion aritmetica y un procedimiento de decodificacion de video que implica decodificacion aritmetica de acuerdo con una realizacion de la presente invencion se describiran con referencia a las Figuras 1 a 6. Tambien, un procedimiento de codificacion de video que implica codificacion aritmetica y un procedimiento de decodificacion de video que implica decodificacion aritmetica basandose en unidades de codificacion que tienen una estructura de arbol de acuerdo con una realizacion de la presente invencion, se describiran con referencia a las Figuras 7 a 19. En lo sucesivo, una 'imagen' puede hacer referencia a una imagen fija de un video o una pelfcula, es decir, un propio video.

En lo sucesivo, un procedimiento de codificacion de video y un procedimiento de decodificacion de video, de acuerdo con una realizacion de la presente invencion, basandose en un procedimiento de prediccion en un modo de intra prediccion se describiran con referencia a las Figuras 1 a 6.

La Figura 1 es un diagrama de bloques de un aparato 10 de codificacion de video, de acuerdo con una realizacion de la presente invencion.

El aparato 10 de codificacion de video puede codificar datos de video de un dominio espacial a traves de intra prediccion/inter prediccion, transformacion, cuantificacion y codificacion de sfmbolo. En lo sucesivo, se describiran en detalle las operaciones que tienen lugar cuando el aparato 10 de codificacion de video codifica sfmbolos generados por la intra prediccion/inter prediccion, la transformacion, y la cuantificacion a traves de codificacion aritmetica.

El aparato 10 de codificacion de video incluye un codificador 12 de imagen, un codificador 14 de sfmbolo, y una unidad 16 de salida de secuencia de bits.

El aparato 10 de codificacion de video puede dividir datos de imagen de un v^deo en una pluralidad de unidades de datos y codificar los datos de imagen de acuerdo con las unidades de datos. La unidad de datos puede tener una forma cuadrada o una forma rectangular, o puede ser una forma geometrica arbitraria, pero la unidad de datos no esta limitada a una unidad de datos que tiene un tamano predeterminado. De acuerdo con el procedimiento de codificacion de video basado en las unidades de codificacion que tienen una estructura de arbol, una unidad de datos puede ser una unidad de codificacion maxima, una unidad de codificacion, una unidad de prediccion, una unidad de transformacion o similares. Un ejemplo donde un procedimiento de codificacion/decodificacion aritmetica de acuerdo con una realizacion de la presente invencion se usa en el procedimiento de codificacion/decodificacion de video basado en las unidades de codificacion que tienen una estructura de arbol se describira con referencia a las Figuras 7 a 19.

Por conveniencia de descripcion, se describira en detalle un procedimiento de codificacion de video para un 'bloque' que es una clase de unidad de datos. Sin embargo, el procedimiento de codificacion de video de acuerdo con diversas realizaciones de la presente invencion no esta limitado al procedimiento de codificacion de video para el 'bloque', y puede usarse para diversas unidades de datos.

El codificador 12 de imagen realiza operaciones, tales como intra prediccion/inter prediccion, transformacion, o cuantificacion, en bloques de imagen para generar sfmbolos.

El codificador 14 de sfmbolo clasifica un sfmbolo actual en una region de prefijo y una region de sufijo basandose en un valor umbral determinado de acuerdo con un tamano de un bloque actual para codificar el sfmbolo actual de entre los sfmbolos generados de acuerdo con los bloques. El codificador 14 de sfmbolo puede determinar el valor umbral para clasificar el sfmbolo actual en la region de prefijo y la region de sufijo basandose en al menos una de una anchura y una altura del bloque actual.

El codificador 14 de sfmbolo puede determinar un procedimiento de codificacion de sfmbolo para cada una de la region de prefijo y la region de sufijo y codificar cada una de la region de prefijo y la region de sufijo de acuerdo con el procedimiento de codificacion de sfmbolo.

La codificacion de sfmbolo puede dividirse en un procedimiento de conversion a binario para transformar un sfmbolo en cadenas de bits y un procedimiento de codificacion aritmetica para realizar codificacion aritmetica basada en contexto en las cadenas de bits. El codificador 14 de sfmbolo puede determinar un procedimiento de conversion a binario para cada una de la region de prefijo y la region de sufijo del sfmbolo y realizar conversion a binario en cada una de la region de prefijo y la region de sufijo de acuerdo con el procedimiento de conversion a binario. Una cadena de bits de prefijo y una cadena de bits de sufijo pueden generarse desde la region de prefijo y la region de sufijo, respectivamente.

Como alternativa, el codificador 14 de sfmbolo puede determinar un procedimiento de codificacion aritmetica para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo y realizar codificacion aritmetica en cada una de la cadena de bits de prefijo y la cadena de bits de sufijo de acuerdo con el procedimiento de codificacion aritmetica.

Tambien, el codificador 14 de sfmbolo puede determinar un procedimiento de conversion a binario para cada una de la region de prefijo y la region de sufijo del sfmbolo y realizar conversion a binario en cada una de la region de prefijo y la region de sufijo de acuerdo con el procedimiento de conversion a binario, y puede determinar un procedimiento de codificacion aritmetica para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo y realizar codificacion aritmetica en la cadena de bits de prefijo y la cadena de bits de sufijo de acuerdo con el procedimiento de codificacion aritmetica.

El codificador 14 de sfmbolo de acuerdo con una realizacion de la presente invencion puede determinar un procedimiento de conversion a binario para cada una de la region de prefijo y la region de sufijo. Los procedimientos de conversion a binario determinados para la region de prefijo y la region de sufijo pueden ser diferentes unos de los otros.

El codificador 14 de sfmbolo puede determinar un procedimiento de codificacion aritmetica para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. Los procedimientos de codificacion aritmetica determinados para la cadena de bits de prefijo y la cadena de bits de sufijo pueden ser diferentes unos de los otros.

Por consiguiente, el codificador 14 de sfmbolo puede convertir a binario la region de prefijo y la region de sufijo usando diferentes procedimientos unicamente en un procedimiento de conversion a binario de un procedimiento de decodificacion de sfmbolo, o puede codificar la cadena de bits de prefijo y la cadena de bits de sufijo usando diferentes procedimientos unicamente en un procedimiento de codificacion aritmetica. Tambien, el codificador 14 de sfmbolo puede codificar la region de prefijo (cadena de bits de prefijo) y la region de sufijo (cadena de bits de sufijo) usando diferentes procedimientos en ambos de los procedimientos de conversion a binario y codificacion aritmetica. El procedimiento de conversion a binario seleccionado puede ser al menos uno de los procedimientos de conversion a binario general, conversion a binario unaria, conversion a binario unaria truncada, conversion a binario de Golomb exponencial, y conversion a binario de longitud fija.

El codificador 14 de sfmbolo puede realizar codificacion de s^bolo realizando codificacion aritmetica para realizar modelado de contexto en la cadena de bits de prefijo de acuerdo con localizaciones de bits y realizando codificacion aritmetica para omitir modelado de contexto en la cadena de bits de sufijo en un modo de desvm.

El codificador 14 de sfmbolo puede realizar individualmente la codificacion de sfmbolo en la region de prefijo y la region de sufijo con respecto a sfmbolos que incluyen al menos uno de un modo de intra prediccion e informacion de posicion de coeficiente final de un coeficiente de transformacion.

El codificador 14 de sfmbolo puede realizar tambien la codificacion aritmetica usando un contexto de un mdice predeterminado que se asigno previamente a la cadena de bits de prefijo. Por ejemplo, el codificador 14 de sfmbolo puede realizar codificacion aritmetica usando un contexto de un mdice predeterminado que se asigno previamente a cada localizacion de los bits de la cadena de bits de prefijo cuando el sfmbolo es informacion de posicion de coeficiente final del coeficiente de transformacion.

La unidad 16 de salida de secuencia de bits emite cadenas de bits generadas a traves de la codificacion de sfmbolo en forma de secuencias de bits.

El aparato 10 de codificacion de video puede realizar codificacion aritmetica en sfmbolos de bloques de un video y emitir los sfmbolos.

El aparato 10 de codificacion de video puede incluir un procesador central (no mostrado) para controlar todo el codificador 12 de imagen, el codificador 14 de sfmbolo y la unidad 16 de salida de secuencia de bits. Como alternativa, el codificador 12 de imagen, el codificador 14 de sfmbolo y la unidad 16 de salida de secuencia de bits pueden operarse por procesadores (no mostrados) respectivamente instalados en el mismo, y todo el aparato 10 de codificacion de video puede operarse operando sistematicamente el procesador (no mostrado). Como alternativa, el codificador 12 de imagen, el codificador 14 de sfmbolo, y la unidad 16 de salida de secuencia de bits pueden controlarse por un procesador externo (no mostrado) del aparato 10 de codificacion de video.

El aparato 10 de codificacion de video puede incluir al menos una unidad de almacenamiento de datos (no mostrada) para almacenar datos que se introducen/emiten a/desde el codificador 12 de imagen, el codificador 14 de sfmbolo y la unidad 16 de salida de secuencia de bits. El aparato 10 de codificacion de video puede incluir un controlador de memoria (no mostrado) para controlar entrada/salida de datos almacenados en la unidad de almacenamiento de datos (no mostrada).

El aparato 10 de codificacion de video se opera estando enlazado con un procesador de codificacion de video interno o un procesador de codificacion de video externo para realizar la codificacion de video incluyendo prediccion y transformacion, emitiendo de esta manera un resultado de la codificacion de video. El procesador de codificacion de video interno del aparato 10 de codificacion de video puede realizar una operacion de codificacion de video basica no unicamente usando un procesador separado, sino tambien incluyendo un modulo de procesamiento de codificacion de video en el aparato 10 de codificacion de video, un aparato de operacion central, o un aparato de operacion de graficos.

La Figura 2 es un diagrama de bloques de un aparato 20 de decodificacion de video, de acuerdo con una realizacion de la presente invencion.

El aparato 20 de decodificacion de video puede decodificar los datos de video codificados por el aparato 10 de codificacion de video a traves de analisis, decodificacion de sfmbolo, cuantificacion inversa, transformacion inversa, intra prediccion/compensacion de movimiento, etc., y restaurar los datos de video cerca de los datos de video originales del dominio espacial. En lo sucesivo, se describira un procedimiento en el que el aparato 20 de decodificacion de video realiza decodificacion aritmetica en los sfmbolos analizados de una secuencia de bits para restaurar los sfmbolos.

El aparato 20 de decodificacion de video incluye un analizador 22, un decodificador 24 de sfmbolo y una unidad 26 de restauracion de imagen.

El aparato 20 de decodificacion de video puede recibir una secuencia de bits que incluye datos codificados de un video. El analizador 22 puede analizar sfmbolos de bloques de imagen desde la secuencia de bits.

El analizador 22 puede analizar los sfmbolos codificados a traves de codificacion aritmetica con respecto a los bloques del video desde la secuencia de bits.

El analizador 22 puede analizar sfmbolos que incluyen un modo de intra prediccion del bloque del video, informacion de posicion de coeficiente final de un coeficiente de transformacion, etc., desde la secuencia de bits recibida.

El decodificador 24 de sfmbolo determina un valor umbral para clasificar un sfmbolo actual en una cadena de bits de prefijo y una cadena de bits de sufijo. El decodificador 24 de sfmbolo puede determinar el valor umbral para clasificar el sfmbolo actual en la cadena de bits de prefijo y la cadena de bits de sufijo basandose en un tamano de un bloque actual, es decir, al menos una de una anchura y una altura del bloque actual. El decodificador 24 de sfmbolo determina un procedimiento de decodificacion aritmetica para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. El decodificador 24 de sfmbolo realiza decodificacion de sfmbolo usando el procedimiento de decodificacion aritmetica determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. Los procedimientos de decodificacion aritmetica determinados para la cadena de bits de prefijo y la cadena de bits de sufijo pueden ser diferentes unos de los otros.

El decodificador 24 de sfmbolo puede determinar un procedimiento de conversion a binario para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo. Por consiguiente, el decodificador 24 de sfmbolo puede realizar conversion a binario inversa en la cadena de bits de prefijo del sfmbolo usando el procedimiento de conversion a binario. Los procedimientos de conversion a binario determinados para la cadena de bits de prefijo y la cadena de bits de sufijo pueden ser diferentes unos de los otros.

Tambien, el decodificador 24 de sfmbolo puede realizar decodificacion aritmetica usando el procedimiento de decodificacion aritmetica determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo, y puede realizar conversion a binario inversa usando el procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo generada a traves de la decodificacion aritmetica.

Por consiguiente, el decodificador 24 de sfmbolo puede decodificar la cadena de bits de prefijo y la cadena de bits de sufijo usando diferentes procedimientos unicamente en un procedimiento de decodificacion aritmetica de un procedimiento de decodificacion de sfmbolo, o puede realizar conversion a binario inversa usando diferentes procedimientos unicamente en un procedimiento de conversion a binario inversa. Tambien, el decodificador 24 de sfmbolo puede decodificar la cadena de bits de prefijo y la cadena de bits de sufijo usando diferentes procedimientos en ambos procedimientos de decodificacion aritmetica y conversion a binario inversa.

El procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo puede no unicamente ser un procedimiento de conversion a binario general, sino que puede ser tambien al menos un procedimiento de conversion a binario unaria, conversion a binario unaria truncada, conversion a binario de Golomb exponencial, y procedimientos de conversion a binario de longitud fija.

El decodificador 24 de sfmbolo puede realizar decodificacion aritmetica para realizar modelado de contexto en la cadena de bits de prefijo de acuerdo con localizaciones de bits. El decodificador 24 de sfmbolo puede usar un procedimiento de decodificacion aritmetica para omitir modelado de contexto en la cadena de bits de sufijo en un modo de desvfo. Por consiguiente, el decodificador 24 de sfmbolo puede realizar decodificacion de sfmbolo a traves de la decodificacion aritmetica realizada en cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo.

El decodificador 24 de sfmbolo puede realizar la decodificacion aritmetica en la cadena de bits de prefijo y la cadena de bits de sufijo de sfmbolos que incluyen al menos uno de un modo de intra prediccion e informacion de posicion de coeficiente final de un coeficiente de transformacion.

El decodificador 24 de sfmbolo puede realizar decodificacion aritmetica usando un contexto de un mdice predeterminado que se asigno previamente de acuerdo con localizaciones de los bits de la cadena de bits de prefijo cuando el sfmbolo es informacion acerca de la posicion de coeficiente final del coeficiente de transformacion.

La unidad 26 de restauracion de imagen puede restaurar una region de prefijo y una region de sufijo de un sfmbolo realizando la decodificacion aritmetica y la conversion a binario inversa en cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. La unidad 26 de restauracion de imagen puede restaurar el sfmbolo sintetizando la region de prefijo y la region de sufijo del sfmbolo.

La unidad 26 de restauracion de imagen realiza transformacion inversa y prediccion en el bloque actual usando el sfmbolo actual restaurado a traves de la decodificacion aritmetica y la conversion a binario inversa. La unidad 26 de restauracion de imagen puede restaurar bloques de imagen realizando operaciones, tales como cuantificacion inversa, transformacion inversa, o intra prediccion/compensacion de movimiento, usando los correspondientes sfmbolos para cada uno de los bloques de imagen.

El aparato 20 de decodificacion de video de acuerdo con una realizacion de la presente invencion puede incluir un procesador central (no mostrado) para controlar todos del analizador 22, el decodificador 24 de sfmbolo, y la unidad 26 de restauracion de imagen. Como alternativa, el analizador 22, el decodificador 24 de sfmbolo, y la unidad 26 de restauracion de imagen puede operarse por procesadores (no mostrados) respectivamente instalados en el mismo, y todo el aparato 20 de decodificacion de video puede operarse operando sistematicamente el procesador (no mostrado). Como alternativa, el analizador 22, el decodificador 24 de sfmbolo, y la unidad 26 de restauracion de imagen pueden controlarse por un procesador externo (no mostrado) del aparato 20 de decodificacion de video. El aparato 20 de decodificacion de video puede incluir al menos una unidad de almacenamiento de datos (no mostrada) para almacenar datos que se introducen/emiten a/desde el analizador 22, el decodificador 24 de sfmbolo, y la unidad 26 de restauracion de imagen. El aparato 20 de decodificacion de video puede incluir un controlador de memoria (no mostrado) para controlar entrada/salida de datos almacenados en la unidad de almacenamiento de datos (no mostrada).

El aparato 20 de decodificacion de v^deo se opera enlazandose con un procesador de decodificacion de v^deo interno o un procesador de decodificacion de video externo para realizar decodificacion de video incluyendo transformacion inversa. El procesador de decodificacion de video interno del aparato 20 de decodificacion de video puede realizar una operacion de decodificacion de video basica no unicamente usando un procesador separado, sino tambien incluyendo un modulo de procesamiento de decodificacion de video en el aparato 20 de decodificacion de video, un aparato de operacion central o un aparato de operacion de graficos.

La codificacion aritmetica binaria adaptativa basada en contexto (CABAC) se usa ampliamente como un procedimiento de codificacion/decodificacion aritmetica basandose en un contexto para codificacion/decodificacion de sfmbolo. De acuerdo con la codificacion/decodificacion aritmetica basada en contexto, cada bit de una cadena de bits de sfmbolo puede ser un binario de un contexto, y una localizacion de cada bit puede mapearse en un mdice binario. Una longitud de la cadena de bits, es decir, una longitud del binario, puede variar de acuerdo con un tamano de un valor de sfmbolo. El modelado de contexto para determinar un contexto de un sfmbolo se requiere para realizar la codificacion/decodificacion aritmetica basada en contexto. El contexto se renueva de acuerdo con localizaciones de bits de la cadena de bits de sfmbolo, es decir, en cada mdice binario, para realizar el modelado de contexto, y por lo tanto se requiere un procedimiento de operacion complicado.

De acuerdo con el aparato 10 de codificacion de video y el aparato 20 de decodificacion de video descritos con referencia a las Figuras 1 y 2, el sfmbolo se clasifica en la region de prefijo y la region de sufijo, y un procedimiento de conversion a binario relativamente sencillo puede usarse para la region de sufijo en comparacion con la region de prefijo. Tambien, la codificacion/decodificacion aritmetica a traves del modelado de contexto se realiza en la cadena de bits de prefijo, y el modelado de contexto no se realiza en la cadena de bits de sufijo, y por lo tanto puede reducirse una carga de una cantidad de operacion para la codificacion/decodificacion aritmetica basada en contexto.

Por consiguiente, el aparato 10 de codificacion de video y el aparato 20 de decodificacion de video pueden mejorar la eficacia de un procedimiento de codificacion/decodificacion de sfmbolo realizando un procedimiento de conversion a binario que tiene una cantidad relativamente pequena de carga de operacion en la region de sufijo o la cadena de bits de sufijo u omitiendo el modelado de contexto durante la codificacion/decodificacion aritmetica basada en contexto para codificacion/decodificacion de sfmbolo.

En lo sucesivo, se describiran diversas realizaciones para codificacion aritmetica que pueden realizarse por el aparato 10 de codificacion de video y el aparato 20 de decodificacion de video.

Las Figuras 3 y 4 son diagramas para describir codificacion aritmetica clasificando un sfmbolo en una cadena de bits de prefijo y una cadena de bits de sufijo de acuerdo con un valor umbral predeterminado, de acuerdo con una realizacion de la presente invencion.

Haciendo referencia a la Figura 3, se describira en detalle un procedimiento de realizacion de codificacion de sfmbolo, de acuerdo con una realizacion de la presente invencion, en informacion de posicion de coeficiente final de un sfmbolo. La informacion de posicion de coeficiente final es un sfmbolo que representa una localizacion de un coeficiente final, no 0, de entre coeficientes de transformacion de un bloque. Puesto que un tamano del bloque se define como una anchura y una altura, la informacion de posicion de coeficiente final puede representarse por coordenadas bidimensionales, es decir, una coordenada x en una direccion de anchura y una coordenada y en una direccion de altura. Por conveniencia de descripcion, la Figura 3 muestra un caso donde la codificacion de sfmbolo se realiza en la coordenada x en la direccion de anchura de entre la informacion de posicion de coeficiente final cuando una anchura de un bloque es w.

Un rango de la coordenada x de la informacion de posicion de coeficiente final esta dentro de la anchura del bloq y por lo tanto la coordenada x de la informacion de posicion de coeficiente final es igual o mayor que 0 e igual o menor que w-1. Para la codificacion aritmetica del sfmbolo, el sfmbolo puede clasificarse en una region de prefijo y una region de sufijo basandose en un valor umbral predeterminado th. Por lo tanto, la codificacion aritmetica puede realizarse en la cadena de bits de prefijo en la que se convierte a binario la region de prefijo, basandose en el contexto determinado a traves del modelado de contexto. Tambien, la codificacion aritmetica puede realizarse en la cadena de bits de sufijo en la que se convierte a binario la region de sufijo, en un modo de desvm en el que se omite el modelado de contexto.

En este punto, el valor umbral th para clasificar el sfmbolo en la region de prefijo y la region de sufijo puede determinarse basandose en la anchura w del bloque. Por ejemplo, el valor umbral th puede determinarse para que sea (w/2)-1 para dividir la cadena de bits por dos (formula de determinacion de valor umbral 1). Como alternativa, la anchura w del bloque generalmente tiene un cuadrado de 2, y por lo tanto el valor umbral th puede determinarse basandose en un valor logantmico de la anchura w (formula de determinacion de valor umbral 2).

< formula de determinacion de valor umbral 1 > th = (w/2) -1;

< formula de determinacion de valor umbral 2 > th = (log2w << 1) -1;

En la Figura 3, de acuerdo con la formula de determinacion de valor umbral 1, cuando la anchura w del bloque es 8, la formula proporciona el valor umbral th = (8/2) -1 = 3. Por lo tanto, en la coordenada x de la informacion de posicion de coeficiente final, 3 puede clasificarse como la region de prefijo, y el resto de valores distintos de 3 pueden clasificarse como la region de sufijo. La region de prefijo y la region de sufijo pueden convertirse a binario de acuerdo con el procedimiento de conversion a binario determinado para cada una de la region de prefijo y la region de sufijo.

Cuando una coordenada x N de informacion de posicion de coeficiente final actual es 5, la coordenada x de la informacion de posicion de coeficiente final puede clasificarse como N = th 2 = 3 2. En otras palabras, en la coordenada x de la informacion de posicion de coeficiente final, 3 puede clasificarse como la region de prefijo, y 2 puede clasificarse como la region de sufijo.

De acuerdo con una realizacion de la presente invencion, la region de prefijo y la region de sufijo pueden convertirse a binario de acuerdo con diferentes procedimientos de conversion a binario determinados para la region de prefijo y la region de sufijo, respectivamente. Por ejemplo, la region de prefijo puede convertirse a binario de acuerdo con un procedimiento de conversion a binario unaria, y la region de sufijo puede convertirse a binario de acuerdo con un procedimiento de conversion a binario general.

Por consiguiente, despues de que 3 se convierte a binario de acuerdo con el procedimiento de conversion a binario unaria, una cadena 32 de bits de prefijo '0001' puede generarse a partir de la region de prefijo, y despues de que 2 se convierte a binario de acuerdo con el procedimiento de conversion a binario general, una cadena 34 de bits de sufijo '010' puede generarse a partir de la region de sufijo.

Tambien, la codificacion aritmetica basada en contexto puede realizarse en la cadena 32 de bits de prefijo '0001' a traves de modelado de contexto. Por lo tanto, un mdice de contexto puede determinarse para cada binario de la cadena 32 de bits de prefijo '0001'.

La codificacion aritmetica puede realizarse en la cadena 34 de bits de sufijo '010' en un modo de desvfo sin realizar modelado de contexto. La codificacion aritmetica puede realizarse sin realizar el modelado de contexto suponiendo que en el modo de desvfo cada binario tiene un contexto de un estado de probabilidad igual, es decir, el contexto del 50 %.

Por consiguiente, la codificacion aritmetica basada en contexto puede realizarse en cada una de la cadena 32 de bits de prefijo '0001' y la cadena 34 de bits de sufijo '010' para completar la codificacion de sfmbolo con respecto a la coordenada x N de la informacion de posicion de coeficiente final actual.

Aunque se ha descrito la realizacion en la que se realiza la codificacion de sfmbolo mediante la conversion a binario y la codificacion aritmetica, la decodificacion de sfmbolo puede realizarse de la misma manera. En otras palabras, una cadena de bits de sfmbolos analizados puede clasificarse en una cadena de bits de prefijo y una cadena de bits de sufijo basandose en la anchura w del bloque, la decodificacion aritmetica puede realizarse en la cadena 32 de bits de prefijo a traves del modelado de contexto, y la decodificacion aritmetica puede realizarse en la cadena 34 de bits de sufijo sin realizar el modelado de contexto. La conversion a binario inversa puede realizarse en la cadena 32 de bits de prefijo despues de la decodificacion aritmetica usando el procedimiento de conversion a binario unaria, y la region de prefijo puede restaurarse. Tambien, la conversion a binario inversa puede realizarse en la cadena 34 de bits de sufijo despues de la codificacion aritmetica usando el procedimiento de conversion a binario general, y por lo tanto la region de sufijo puede restaurarse. El sfmbolo puede restaurarse sintetizando la region de prefijo y la region de sufijo restauradas.

Aunque se ha descrito la realizacion en la que se usa el procedimiento de conversion a binario unaria para la region de prefijo (cadena de bits de prefijo) y se usa el procedimiento de conversion a binario general para la region de sufijo (cadena de bits de sufijo), el procedimiento de conversion a binario no esta limitado a lo mismo. Como alternativa, puede usarse procedimiento de conversion a binario unaria truncada para la region de prefijo (cadena de bits de prefijo), y puede usarse un procedimiento de conversion a binario de longitud fija para la region de sufijo (cadena de bits de sufijo).

Aunque unicamente se ha descrito la realizacion con respecto a la informacion de posicion de coeficiente final en una direccion de anchura del bloque, puede usarse tambien una realizacion con respecto a una informacion de posicion de coeficiente final en una direccion de altura del bloque.

Tambien, no hay necesidad de realizar modelado de contexto en la cadena de bits de sufijo para realizar la codificacion aritmetica usando un contexto que tiene una probabilidad fija, pero es necesario realizar modelado de contexto variable en la cadena de bits de prefijo. El modelado de contexto a realizarse en la cadena de bits de prefijo puede determinarse de acuerdo con un tamano del bloque.

En la tabla de mapeo de contexto, una localizacion de cada numero corresponde al mdice binario de la cadena de bits de prefijo, y el numero indica un mdice de contexto a usarse en una localizacion del bit correspondiente. Por conveniencia de descripcion, por ejemplo, en un bloque de 4x4, la cadena de bits de prefijo esta comprendida de un total de cuatro bits, y cuando k es 0, 1,2 y 3 de acuerdo con la tabla de mapeo de contexto, los indices de contexto 0, 1, 2 y 2 se determinan para un mdice binario de orden k, y por lo tanto puede realizarse la codificacion aritmetica basandose en el modelado de contexto.

La Figura 4 muestra una realizacion en la que un modo de intra prediccion incluye un intra modo de luminancia y un intra modo de crominancia que indica una direccion de intra prediccion de un bloque de luminancia y un bloque de crominancia, respectivamente. Cuando el modo de intra prediccion es 6, una cadena 40 de bits de sfmbolo '0000001' se genera de acuerdo con un procedimiento de conversion a binario unaria. En este caso, la codificacion aritmetica puede realizarse en un primer bit 41 '0' de la cadena 40 de bits de sfmbolo del modo de intra prediccion, a traves de modelado de contexto, y la codificacion aritmetica puede realizarse en el resto de bits 45 '000001' de la cadena 40 de bits de sfmbolo, en un modo de desvm. En otras palabras, el primer bit 41 de la cadena 40 de bits de sfmbolo corresponde a una cadena de bits de prefijo, y el resto de bits 45 de la cadena 40 de bits de sfmbolo corresponde a una cadena de bits de sufijo.

Cuantos bits de la cadena 40 de bits de sfmbolo se codifican en codificacion aritmetica como la cadena de bits de prefijo a traves del modelado de contexto y cuantos bits de la cadena 40 de bits de sfmbolo se codifican en codificacion aritmetica como la cadena de bits de sufijo en el modo de desvm puede determinarse de acuerdo con un tamano de un bloque o un tamano de un conjunto de bloques. Por ejemplo, con respecto a un bloque de 64x64, la codificacion aritmetica puede realizarse unicamente en un primer bit de entre las cadenas de bits de un modo de intra prediccion, y la codificacion aritmetica puede realizarse en el resto de bits en un modo de desvm. Con respecto a los bloques que tienen otros tamanos, la codificacion aritmetica puede realizarse en todos los bits de las cadenas de bits del modo de intra prediccion en el modo de desvm.

En general, la informacion acerca de los bits cercanos a un bit menos significativo (LSB) es relativamente menos importante que la informacion acerca de los bits cercanos a un bit mas significativo (MSB) de una cadena de bits de sfmbolo. Por consiguiente, el aparato 10 de codificacion de video y el aparato 20 de decodificacion de video pueden seleccionar un procedimiento de codificacion aritmetica de acuerdo con un procedimiento de conversion a binario que tiene una precision relativamente alta con respecto a la cadena de bits de prefijo cercana al MSB incluso aunque haya una carga de una cantidad de operacion, y puede seleccionar un procedimiento de codificacion aritmetica de acuerdo con un procedimiento de conversion a binario que puede realizar una operacion sencilla con respecto a la cadena de bits de sufijo cercana al LSB. Tambien, el aparato 10 de codificacion de video y el aparato 20 de decodificacion de video pueden seleccionar un procedimiento de codificacion aritmetica basandose en modelado de contexto con respecto al modelado de contexto y puede seleccionar un procedimiento de codificacion aritmetica, no realizando modelado de contexto, con respecto a la cadena de bits de sufijo cercana al LSB.

En la descripcion anterior, se ha descrito la realizacion en la que se realiza conversion a binario en la cadena de bits de prefijo y la cadena de bits de sufijo de la informacion de posicion de coeficiente final del coeficiente de transformacion usando diferentes procedimientos con referencia a la Figura 3. Tambien, se ha descrito la realizacion en la que se realiza codificacion aritmetica en la cadena de bits de prefijo y la cadena de bits de sufijo de entre las cadenas de bits del modo de intra prediccion usando diferentes procedimientos con referencia a la Figura 4.

Sin embargo, de acuerdo con diversas realizaciones de la presente invencion, un procedimiento de codificacion de sfmbolo en el que se usan procedimientos de codificacion aritmetica/conversion a binario individualmente determinados para la cadena de bits de prefijo y la cadena de bits de sufijo o se usan diferentes procedimientos de codificacion aritmetica/conversion a binario no estan limitados a las realizaciones descritas con referencia a las Figuras 3 y 4, y pueden usarse diversos procedimientos de codificacion aritmetica/conversion a binario para diversos sfmbolos.

La Figura 5 es un diagrama de flujo para describir un procedimiento de codificacion de video, de acuerdo con una realizacion de la presente invencion.

En la operacion 51, se generan sfmbolos realizando prediccion y transformacion en bloques de imagen.

En las operaciones 53, un sfmbolo actual se clasifica en una region de prefijo y una region de sufijo basandose en un valor umbral determinado de acuerdo con un tamano de un bloque actual.

En la operacion 55, una cadena de bits de prefijo y una cadena de bits de sufijo se generan usando procedimientos de conversion a binario determinados individualmente para la region de prefijo y la region de sufijo del sfmbolo. En la operacion 57, se realiza codificacion de sfmbolo usando procedimientos de codificacion aritmetica determinados individualmente para la cadena de bits de prefijo y la cadena de bits de sufijo.

En la operacion 59, las cadenas de bits generadas a traves de la codificacion de sfmbolo se emiten en forma de secuencias de bits.

En la operacion 57, la codificacion de sfmbolo puede realizarse en la cadena de bits de prefijo usando un procedimiento de codificacion aritmetica para realizar modelado de contexto de acuerdo con localizaciones de bits, y la codificacion de sfmbolo puede realizarse tambien en la cadena de bits de sufijo usando un procedimiento de codificacion aritmetica para omitir el modelado de contexto en un modo de desvm.

En la operacion 57, cuando el sfmbolo es informacion de posicion de coeficiente final de un coeficiente de transformacion, la codificacion aritmetica puede realizarse usando un contexto de un mdice predeterminado que se asigno previamente a las localizaciones de los bits de la cadena de bits de prefijo.

La Figura 6 es un diagrama de flujo para describir un procedimiento de decodificacion de video, de acuerdo con una realizacion de la presente invencion.

En la operacion 61, se analizan sfmbolos de bloques de imagen desde una secuencia de bits recibida.

En la operacion 63, un sfmbolo actual se clasifica en una cadena de bits de prefijo y una cadena de bits de sufijo basandose en un valor umbral determinado de acuerdo con un tamano de un bloque actual.

En la operacion 65, la decodificacion aritmetica se realiza usando un procedimiento de decodificacion aritmetica determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo actual.

En la operacion 67, despues de la decodificacion aritmetica, se realiza conversion a binario inversa usando un procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo.

La region de prefijo y la region de sufijo del sfmbolo pueden restaurarse realizando la conversion a binario inversa usando el procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo.

En la operacion 69, los bloques de imagen pueden restaurarse realizando transformacion inversa y prediccion en el bloque actual usando el sfmbolo actual restaurado a traves de la decodificacion aritmetica y la conversion a binario inversa.

En la operacion 65, la decodificacion aritmetica para determinar el modelado de contexto de acuerdo con las localizaciones de los bits puede realizarse en la cadena de bits de prefijo, y la decodificacion aritmetica para omitir el modelado de contexto puede realizarse en la cadena de bits de sufijo en un modo de desvm.

En la operacion 65, cuando el sfmbolo es la informacion de posicion de coeficiente final del coeficiente de transformacion, la decodificacion aritmetica puede realizarse usando el contexto del mdice predeterminado que se asigno previamente a las localizaciones de los bits de la cadena de bits de prefijo.

En el aparato 10 de codificacion de video de acuerdo con una realizacion de la presente invencion y el aparato 20 de decodificacion de video de acuerdo con otra realizacion de la presente invencion, los bloques en los que se dividen los datos de video se dividen en unidades de codificacion que tienen una estructura de arbol, se usan unidades de prediccion para realizar intra prediccion en las unidades de codificacion, y se usa una unidad de transformacion para transformar las unidades de codificacion.

En lo sucesivo, se describira un procedimiento y aparato para codificar un video y un procedimiento y aparato para decodificar un video basandose en una unidad de codificacion que tiene una estructura de arbol, una unidad de prediccion, y una unidad de transformacion.

La Figura 7 es un diagrama de bloques de un aparato 100 de codificacion de video basado en unidades de codificacion que tienen una estructura de arbol, de acuerdo con una realizacion de la presente invencion.

El aparato 100 de codificacion de video que implica prediccion de video basandose en la unidad de codificacion que tiene una estructura de arbol incluye un divisor 110 de unidad de codificacion maxima, un determinador 120 de unidad de codificacion, y una unidad 130 de salida. Por conveniencia de descripcion, el aparato 100 de codificacion de video que implica prediccion de video basandose en la unidad de codificacion que tiene una estructura de arbol se denominara como un aparato 100 de codificacion de video.

El divisor 110 de unidad de codificacion maxima puede dividir una instantanea actual basandose en una unidad de codificacion maxima para la instantanea actual de una imagen. Si la instantanea actual es mayor que la unidad de codificacion maxima, los datos de imagen de la instantanea actual pueden dividirse en la al menos una unidad de codificacion maxima. La unidad de codificacion maxima de acuerdo con una realizacion de la presente invencion puede ser una unidad de datos que tiene un tamano de 32x32, 64x64, 128x128, 256x256, etc., en la que una forma de la unidad de datos es un cuadrado que tiene una anchura y longitud en cuadrados de 2. Los datos de imagen pueden emitirse al determinador 120 de unidad de codificacion de acuerdo con la al menos una unidad de codificacion maxima.

Una unidad de codificacion de acuerdo con una realizacion de la presente invencion puede estar caracterizada por un tamano maximo y una profundidad. La profundidad indica un numero de veces que la unidad de codificacion se divide espacialmente de la unidad de codificacion maxima, y a medida que la profundidad se hace mas profunda, las unidades de codificacion mas profundas de acuerdo con las profundidades pueden dividirse desde la unidad de codificacion maxima a una unidad de codificacion minima. Una profundidad de la unidad de codificacion maxima es una profundidad mas superior y una profundidad de la unidad de codificacion minima es una profundidad mas inferior. Puesto que un tamano de una unidad de codificacion que corresponde a cada profundidad se reduce a medida que la profundidad de la unidad de codificacion maxima se hace profunda, una unidad de codificacion que corresponde a una profundidad superior puede incluir una pluralidad de unidades de codificacion que corresponden a profundidades inferiores.

Como se ha descrito anteriormente, los datos de imagen de la instantanea actual se dividen en las unidades de codificacion maxima de acuerdo con un tamano maximo de la unidad de codificacion, y cada una de las unidades de codificacion maxima puede incluir unidades de codificacion mas profundas que se dividen de acuerdo con las profundidades. Puesto que la unidad de codificacion maxima de acuerdo con una realizacion de la presente invencion se divide de acuerdo con las profundidades, los datos de imagen de un dominio espacial incluidos en la unidad de codificacion maxima pueden clasificarse jerarquicamente de acuerdo con las profundidades.

Puede predeterminarse una profundidad maxima y un tamano maximo de una unidad de codificacion, que limita el numero total de veces que se dividen jerarquicamente una altura y una anchura de la unidad de codificacion maxima.

El determinador 120 de unidad de codificacion codifica al menos una region de division obtenida dividiendo una region de la unidad de codificacion maxima de acuerdo con las profundidades, y determina una profundidad para emitir finalmente datos de imagen codificados de acuerdo con la al menos una region de division. En otras palabras, el determinador 120 de unidad de codificacion determina una profundidad codificada codificando los datos de imagen en las unidades de codificacion mas profundas de acuerdo con las profundidades, de acuerdo con la unidad de codificacion maxima de la instantanea actual, y seleccionando una profundidad que tiene el mmimo error de codificacion. La profundidad codificada determinada y los datos de imagen codificados de acuerdo con la profundidad codificada determinada se emiten a la unidad 130 de salida.

Los datos de imagen en la unidad de codificacion maxima se codifican basandose en las unidades de codificacion mas profundas que corresponden a al menos una profundidad igual a o por debajo de la profundidad maxima, y los resultados de codificar los datos de imagen se comparan basandose en cada una de las unidades de codificacion mas profundas. Una profundidad que tiene el mmimo error de codificacion puede seleccionarse despues de comparar errores de codificacion de las unidades de codificacion mas profundas. Al menos una profundidad codificada puede seleccionarse para cada unidad de codificacion maxima.

El tamano de la unidad de codificacion maxima se divide a medida que una unidad de codificacion se divide jerarquicamente de acuerdo con las profundidades, y a medida que aumenta el numero de unidades de codificacion. Tambien, incluso si las unidades de codificacion corresponden a una misma profundidad en una unidad de codificacion maxima, se determina si dividir cada una de las unidades de codificacion que corresponden a la misma profundidad a una profundidad inferior midiendo un error de codificacion de los datos de imagen de cada unidad de codificacion, de manera separada. Por consiguiente, incluso cuando los datos de imagen se incluyen en una unidad de codificacion maxima, los datos de imagen se dividen en regiones de acuerdo con las profundidades y los errores de codificacion pueden diferenciarse de acuerdo con las regiones en la unidad de codificacion maxima, y por lo tanto las profundidades codificadas pueden diferenciarse de acuerdo con las regiones en los datos de imagen. Por lo tanto, una o mas profundidades codificadas pueden determinarse en una unidad de codificacion maxima, y los datos de imagen de la unidad de codificacion maxima pueden dividirse de acuerdo con unidades de codificacion de al menos una profundidad codificada.

Por consiguiente, el determinador 120 de unidad de codificacion puede determinar unidades de codificacion que tienen una estructura de arbol incluidas en la unidad de codificacion maxima. Las 'unidades de codificacion que tienen una estructura de arbol' de acuerdo con una realizacion de la presente invencion incluyen unidades de codificacion que corresponden a una profundidad determinada para que sea la profundidad codificada, de entre todas las unidades de codificacion mas profundas incluidas en la unidad de codificacion maxima. Una unidad de codificacion de una profundidad codificada puede determinarse jerarquicamente de acuerdo con las profundidades en la misma region de la unidad de codificacion maxima, y puede determinarse independientemente en diferentes regiones. De manera similar, una profundidad codificada en una region actual puede determinarse independientemente de una profundidad codificada en otra region.

Una profundidad maxima de acuerdo con una realizacion de la presente invencion es un mdice relacionado con el numero de veces que se realiza division desde una unidad de codificacion maxima a una unidad de codificacion minima. Una primera profundidad maxima de acuerdo con una realizacion de la presente invencion puede indicar el numero total de veces que se realiza division desde la unidad de codificacion maxima a la unidad de codificacion mmima. Una segunda profundidad maxima de acuerdo con una realizacion de la presente invencion puede indicar el numero total de niveles de profundidad desde la unidad de codificacion maxima a la unidad de codificacion minima. Por ejemplo, cuando una profundidad de la unidad de codificacion maxima es 0, una profundidad de una unidad de codificacion, en la que la unidad de codificacion maxima se divide una vez, puede establecerse a 1, y una profundidad de una unidad de codificacion, en la que la unidad de codificacion maxima se divide dos veces, puede establecerse a 2. En este punto, si la unidad de codificacion minima es una unidad de codificacion en la que la unidad de codificacion maxima se divide cuatro veces, existen 5 niveles de profundidad de profundidades 0, 1, 2, 3 y 4, y por lo tanto la primera profundidad maxima puede establecerse a 4, y la segunda profundidad maxima puede establecerse a 5.

La codificacion y transformacion de prediccion puede realizarse de acuerdo con la unidad de codificacion maxima. La codificacion por prediccion y la transformacion se realizan tambien basandose en las unidades de codificacion mas profundas de acuerdo con una profundidad igual a o profundidades menores que la profundidad maxima, de acuerdo con la unidad de codificacion maxima.

Puesto que el numero de unidades de codificacion mas profundas aumenta cada vez que se divide la unidad de codificacion maxima de acuerdo con las profundidades, incluyendo la codificacion la codificacion por prediccion y la transformacion se realizan en todas las unidades de codificacion mas profundas generadas a medida que la profundidad se hace mas profunda. Por conveniencia de descripcion, la codificacion por prediccion y la transformacion se describiran ahora basandose en una unidad de codificacion de una profundidad actual, en una unidad de codificacion maxima.

El aparato 100 de codificacion de video puede seleccionar de manera variable un tamano o forma de una unidad de datos para codificar los datos de imagen. Para codificar los datos de imagen, se realizan operaciones, tal como codificacion por prediccion, transformacion, y codificacion por entropfa, y en este momento, la misma unidad de datos puede usarse para todas las operaciones o pueden usarse diferentes unidades de datos para cada operacion. Por ejemplo, el aparato 100 de codificacion de video puede seleccionar no unicamente una unidad de codificacion para codificar los datos de imagen, sino tambien una unidad de datos diferente de la unidad de codificacion para realizar la codificacion por prediccion en los datos de imagen en la unidad de codificacion.

Para realizar codificacion de prediccion en la unidad de codificacion maxima, la codificacion por prediccion puede realizarse basandose en una unidad de codificacion que corresponde a una profundidad codificada, es decir, basandose en una unidad de codificacion que ya no se divide mas en unidades de codificacion que corresponden a una profundidad inferior. En lo sucesivo, la unidad de codificacion que ya no se divide mas y se convierte en una unidad de base para codificacion de prediccion se denominara ahora como una 'unidad de prediccion'. Una particion obtenida dividiendo la unidad de prediccion puede incluir una unidad de prediccion o una unidad de datos obtenida dividiendo al menos una de una altura y una anchura de la unidad de prediccion. Una particion es una unidad de datos que tiene una forma en la que se divide la unidad de prediccion de la unidad de codificacion, y la unidad de prediccion puede ser una particion que tiene el mismo tamano que la unidad de codificacion.

Por ejemplo, cuando una unidad de codificacion de 2Nx2N (donde N es un entero positivo) ya no se divide y se vuelve una unidad de prediccion de 2Nx2N, y un tamano de una particion puede ser 2Nx2N, 2NxN, Nx2N, o NxN. Ejemplos de un tipo de particion incluyen particiones simetricas que se obtienen dividiendo simetricamente una altura o anchura de la unidad de prediccion, particiones obtenidas dividiendo asimetricamente la altura o anchura de la unidad de prediccion, tal como 1:n o n: 1, particiones que se obtienen dividiendo geometricamente la unidad de prediccion, y particiones que tienen formas arbitrarias.

Un modo de prediccion de la unidad de prediccion puede ser al menos uno de un intra modo, un inter modo, y un modo de salto. Por ejemplo, el intra modo o el inter modo puede realizarse en la particion de 2Nx2N, 2NxN, Nx2N, o NxN. Tambien, el modo de salto puede realizarse unicamente en la particion de 2Nx2N. La codificacion se realiza de manera independiente en una unidad de prediccion en una unidad de codificacion, seleccionando de esta manera un modo de prediccion que tiene un mmimo error de codificacion.

El aparato 100 de codificacion de video puede realizar tambien la transformacion en los datos de imagen en una unidad de codificacion basandose no unicamente en la unidad de codificacion para codificar los datos de imagen, sino tambien basandose en una unidad de datos que es diferente de la unidad de codificacion. Para realizar la transformacion en la unidad de codificacion, la transformacion puede realizarse basandose en una unidad de transformacion que tiene un tamano menor que o igual a la unidad de codificacion. Por ejemplo, la unidad de transformacion puede incluir una unidad de transformacion para un intra modo y una unidad de transformacion para un inter modo.

De manera similar a la unidad de codificacion, la unidad de transformacion en la unidad de codificacion puede dividirse de manera recursiva en regiones con tamano mas pequeno. Por lo tanto, los datos residuales en la unidad de codificacion pueden dividirse de acuerdo con la transformacion que tiene una estructura de arbol de acuerdo con profundidades de transformacion.

Una profundidad de transformacion que indica el numero de veces que se realiza division para alcanzar la unidad de transformacion dividiendo la altura y anchura de la unidad de codificacion puede establecerse tambien en la unidad de transformacion. Por ejemplo, en una unidad de codificacion actual de 2Nx2N, una profundidad de transformacion puede ser 0 cuando el tamano de una unidad de transformacion es tambien 2Nx2N, puede ser 1 cuando el tamano de unidad de transformacion es NxN, y puede ser 2 cuando el tamano de unidad de transformacion es N/2xN/2. En otras palabras, la unidad de transformacion que tiene una estructura de arbol puede establecerse de acuerdo con profundidades de transformacion.

La informacion de codificacion de acuerdo con unidades de codificacion que corresponden a una profundidad codificada requiere no unicamente informacion acerca de la profundidad codificada, sino tambien informacion relacionada con codificacion de prediccion y transformacion. Por consiguiente, el determinador 120 de unidad de codificacion no unicamente determina una profundidad codificada que tiene un mmimo error de codificacion, sino tambien determina un tipo de particion en una unidad de prediccion, un modo de prediccion de acuerdo con unidades de prediccion, y un tamano de una unidad de transformacion para transformacion.

Se describira en detalle mas adelante las unidades de codificacion de acuerdo con una estructura de arbol en una unidad de codificacion maxima y un procedimiento de determinacion de una unidad de prediccion/particion y una unidad de transformacion, de acuerdo con las realizaciones de la presente invencion con referencia a las Figuras 7 a 19.

El determinador 120 de unidad de codificacion puede medir un error de codificacion de unidades de codificacion mas profundas de acuerdo con las profundidades usando optimizacion de tasa-distorsion basada en multiplicadores de Lagrange.

La unidad 130 de salida emite los datos de imagen de la unidad de codificacion maxima, que se codifican basandose en la al menos una profundidad codificada determinada por el determinador 120 de unidad de codificacion, y la informacion acerca del modo de codificacion de acuerdo con la profundidad codificada, en secuencias de bits.

Los datos de imagen codificados pueden obtenerse codificando datos residuales de una imagen.

La informacion acerca del modo de codificacion de acuerdo con profundidad codificada puede incluir informacion acerca de la profundidad codificada, el tipo de particion en la unidad de prediccion, el modo de prediccion, y el tamano de la unidad de transformacion.

La informacion acerca de la profundidad codificada puede definirse usando informacion de division de acuerdo con las profundidades, que indica si la codificacion se realiza en unidades de codificacion de una profundidad inferior en lugar de una profundidad actual. Si la profundidad actual de la unidad de codificacion actual es la profundidad codificada, los datos de imagen en la unidad de codificacion actual se codifican y emiten, y por lo tanto la informacion de division puede definirse para no dividir la unidad de codificacion actual a una profundidad inferior. Como alternativa, si la profundidad actual de la unidad de codificacion actual no es la profundidad codificada, la codificacion se realiza en la unidad de codificacion de la profundidad inferior, y por lo tanto la informacion de division puede definirse para dividir la unidad de codificacion actual para obtener las unidades de codificacion de la profundidad inferior.

Si la profundidad actual no es la profundidad codificada, la codificacion se realiza en la unidad de codificacion que se divide en la unidad de codificacion de la profundidad inferior. Puesto que al menos existe una unidad de codificacion de la profundidad inferior en una unidad de codificacion de la profundidad actual, la codificacion se realiza de manera repetitiva en cada unidad de codificacion de la profundidad inferior, y por lo tanto puede realizarse de manera recursiva la codificacion para las unidades de codificacion que tienen la misma profundidad.

Puesto que las unidades de codificacion que tienen una estructura de arbol se determinan para una unidad de codificacion maxima, y se determina la informacion acerca de al menos un modo de codificacion para una unidad de codificacion de una profundidad codificada, la informacion acerca de al menos un modo de codificacion puede determinarse para una unidad de codificacion maxima. Tambien, una profundidad codificada de los datos de imagen de la unidad de codificacion maxima puede ser diferente de acuerdo con las localizaciones puesto que los datos de imagen se dividen jerarquicamente de acuerdo con las profundidades, y por lo tanto la informacion acerca de la profundidad codificada y el modo de codificacion puede establecerse para los datos de imagen.

Por consiguiente, la unidad 130 de salida puede asignar informacion de codificacion acerca de una profundidad codificada correspondiente y un modo de codificacion para al menos una de la unidad de codificacion, la unidad de prediccion, y una unidad minima incluida en la unidad de codificacion maxima.

La unidad minima de acuerdo con una realizacion de la presente invencion es una unidad de datos rectangular obtenida dividiendo la unidad de codificacion minima que constituye la profundidad mas inferior por 4. Como alternativa, la unidad minima puede ser una unidad de datos rectangular maxima que puede incluirse en todas las unidades de codificacion, unidades de prediccion, unidades de particion y unidades de transformacion incluidas en la unidad de codificacion maxima.

Por ejemplo, la informacion de codificacion emitida a traves de la unidad 130 de salida puede clasificarse en informacion de codificacion de acuerdo con unidades de codificacion, e informacion de codificacion de acuerdo con unidades de prediccion. La informacion de codificacion de acuerdo con las unidades de codificacion puede incluir la informacion acerca del modo de prediccion y acerca del tamano de las particiones. La informacion de codificacion de acuerdo con las unidades de prediccion puede incluir informacion acerca de una direccion estimada de un inter modo, acerca de un mdice de imagen de referencia del inter modo, acerca de un vector de movimiento, acerca de un componente de crominancia de un intra modo, y acerca de un procedimiento de interpolacion del intra modo. Tambien, la informacion acerca de un tamano maximo de la unidad de codificacion definida de acuerdo con instantaneas, cortes o grupos de instantaneas (GOP), y la informacion acerca de una profundidad maxima puede insertarse en un conjunto de parametros de secuencia (SPS) o un conjunto de parametros de instantanea (PPS). Tambien, la informacion acerca del tamano maximo de la unidad de transformacion permitida para el video actual y la informacion acerca del tamano mmimo de la unidad de transformacion pueden emitirse mediante un encabezamiento de una secuencia de bits, un SPS o un PPS. La unidad 130 de salida puede codificar y emitir informacion de referencia, informacion de prediccion de unica direccion, informacion de tipo de corte que incluye un cuarto tipo de corte, etc., relacionada con la prediccion anteriormente descrita con referencia a las Figuras 1 a 6. En el aparato 100 de codificacion de video, la unidad de codificacion mas profunda puede ser una unidad de codificacion obtenida dividiendo por dos una altura o anchura de una unidad de codificacion de una profundidad superior, que se encuentra una capa por encima. En otras palabras, cuando el tamano de la unidad de codificacion de la profundidad actual es 2Nx2N, el tamano de la unidad de codificacion de la profundidad inferior es NxN. Tambien, la unidad de codificacion de la profundidad actual que tiene el tamano de 2Nx2N puede incluir como maximo 4 unidades de codificacion de la profundidad inferior.

Por consiguiente, el aparato 100 de codificacion de video puede formar las unidades de codificacion que tienen la estructura de arbol determinando unidades de codificacion que tienen una forma optima y un tamano optimo para cada unidad de codificacion maxima, basandose en el tamano de la unidad de codificacion maxima y la profundidad maxima determinadas considerando caractensticas de la instantanea actual. Tambien, puesto que la codificacion puede realizarse en cada unidad de codificacion maxima usando uno cualquiera de diversos modos de prediccion y transformaciones, puede determinarse un modo de codificacion optimo considerando caractensticas de la unidad de codificacion de diversos tamanos de imagen.

Por lo tanto, si una imagen que tiene alta resolucion o una gran cantidad de datos se codifica en un macrobloque convencional, un numero de macrobloques por instantanea aumenta excesivamente. Por consiguiente, un numero de piezas de informacion comprimida generadas para cada macrobloque aumenta, y por lo tanto es diffcil transmitir la informacion comprimida y disminuye la eficacia de compresion de datos. Sin embargo, usando el aparato 100 de codificacion de video, la eficacia de compresion de imagen puede aumentarse puesto que se ajusta una unidad de codificacion mientras se consideran caractensticas de una imagen mientras se aumenta un tamano maximo de una unidad de codificacion mientras se considera un tamano de la imagen.

El aparato 100 de codificacion de video de la Figura 7 puede realizar operaciones del aparato 10 de codificacion de video descritas con referencia a la Figura 1.

El determinador 120 de unidad de codificacion puede realizar operaciones del codificador 12 de imagen del aparato 10 de codificacion de video. El determinador 120 de unidad de codificacion puede determinar una unidad de prediccion para intra prediccion de acuerdo con unidades de codificacion que tienen una estructura de arbol para cada unidad de codificacion maxima, realizar la intra prediccion en cada unidad de prediccion, determinar una unidad de transformacion para transformacion, y realizar transformacion en cada unidad de transformacion.

La unidad 130 de salida puede realizar operaciones de una unidad 14 de codificacion de sfmbolo y una unidad 16 de salida de secuencia de bits del aparato 10 de codificacion de video. Se generan los sfmbolos para diversas unidades de datos, tales como una instantanea, un corte, una unidad de codificacion maxima, una unidad de codificacion, una unidad de prediccion, y una unidad de transformacion, y cada uno de los sfmbolos se clasifica en una region de prefijo y una region de sufijo de acuerdo con un valor umbral determinado basandose en un tamano de la correspondiente unidad de datos. La unidad 130 de salida puede generar una cadena de bits de prefijo y una cadena de bits de sufijo usando un procedimiento de conversion a binario determinado para cada una de la region de prefijo y la region de sufijo del sfmbolo. Una cualquiera de una conversion a binario general, una conversion a binario unaria, una conversion a binario unaria truncada, una conversion a binario de Golomb exponencial, y una conversion a binario de longitud fija se selecciona para convertir a binario la region de prefijo y la region de sufijo, generando de esta manera la cadena de bits de prefijo y la cadena de bits de sufijo.

La unidad 130 de salida puede realizar codificacion de sfmbolo realizando codificacion aritmetica determinada para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. La unidad 130 de salida puede realizar codificacion de sfmbolo realizando codificacion aritmetica para realizar modelado de contexto de acuerdo con localizaciones de bits en la cadena de bits de prefijo y realizando codificacion aritmetica para omitir modelado de contexto en la cadena de bits de sufijo en un modo de desvfo.

Por ejemplo, cuando se codifica informacion de posicion de coeficiente final de un coeficiente de transformacion de la unidad de transformacion, el valor umbral para clasificar la cadena de bits de prefijo y la cadena de bits de sufijo puede determinarse de acuerdo con un tamano (anchura o altura) de la unidad de transformacion. Como alternativa, el valor umbral puede determinarse de acuerdo con tamanos de un corte que incluye la unidad de transformacion actual, una unidad de codificacion maxima, una unidad de codificacion, una unidad de prediccion, etc.

Como alternativa, puede determinarse por un mdice maximo de un modo de intra prediccion cuantos bits de una cadena de bits de sfmbolo se codifican en codificacion aritmetica como la cadena de bits de prefijo a traves de modelado de contexto en el modo de intra prediccion y cuantos bits de la cadena de bits de sfmbolo se codifican en codificacion aritmetica como la cadena de bits de sufijo en un modo de desvfo. Por ejemplo, un total de 34 modos de intra prediccion pueden usarse para unidades de prediccion que tienen tamanos de 8x8, 16x16, y 32x32, un total de 17 modos de intra prediccion pueden usarse para una unidad de prediccion que tiene un tamano de 4x4, y un numero total de modos de intra prediccion pueden usarse para una unidad de prediccion que tiene un tamano de 64x64. En este caso, puesto que las unidades de prediccion que pueden usar el mismo numero de los modos de intra prediccion se consideran que tienen caractensticas estadfsticas similares, un primer bit de entre las cadenas de bits en el modo de intra prediccion puede codificarse a traves del modelado de contexto para codificacion aritmetica con respecto a las unidades de prediccion que tienen tamanos de 8x8, 16x16, y 32x32. Tambien, todos los bits de entre las cadenas de bits en el modo de intra prediccion pueden codificarse en el modo de desvfo para codificacion aritmetica con respecto al resto de unidades de prediccion, es decir, las unidades de prediccion que tienen tamanos de 4x4 y 64x64.

La unidad 130 de salida puede emitir las cadenas de bits generadas a traves de la codificacion de sfmbolo en forma de secuencias de bits.

La Figura 8 es un diagrama de bloques de un aparato 200 de decodificacion de video basado en una unidad de codificacion que tiene una estructura de arbol, de acuerdo con una realizacion de la presente invencion.

El aparato 200 de decodificacion de video que realiza prediccion de video basandose en la unidad de codificacion que tiene una estructura de arbol incluye un receptor 210, un extractor 220 de datos de imagen e informacion de codificacion, y un decodificador 230 de datos de imagen.

Las definiciones de diversos terminos, tales como una unidad de codificacion, una profundidad, una unidad de prediccion, una unidad de transformacion, e informacion acerca de diversos modos de codificacion, para diversas operaciones del aparato 200 de decodificacion de video son identicas a aquellas descritas con referencia a la Figura 7 y el aparato 100 de codificacion de video.

El receptor 210 recibe y analiza una secuencia de bits de un video codificado. El extractor 220 de datos de imagen e informacion de codificacion extrae datos de imagen codificados para cada unidad de codificacion desde la secuencia de bits analizada, en el que las unidades de codificacion tienen una estructura de arbol de acuerdo con cada unidad de codificacion maxima, y emite los datos de imagen extrafdos al decodificador 230 de datos de imagen. El extractor 220 de datos de imagen e informacion de codificacion puede extraer informacion acerca de un tamano maximo de una unidad de codificacion de una instantanea actual, desde un encabezamiento acerca de la instantanea actual, o un SPS, o un PPS.

Tambien, el extractor 220 de datos de imagen e informacion de codificacion extrae informacion acerca de una profundidad codificada y un modo de codificacion para las unidades de codificacion que tienen una estructura de arbol de acuerdo con cada unidad de codificacion maxima, desde la secuencia de bits analizada. La informacion extrafda acerca de la profundidad codificada y el modo de codificacion se emite al decodificador 230 de datos de imagen. En otras palabras, los datos de imagen en una cadena de bits se dividen en la unidad de codificacion maxima de modo que el decodificador 230 de datos de imagen decodifica los datos de imagen para cada unidad de codificacion maxima.

La informacion acerca de la profundidad codificada y el modo de codificacion de acuerdo con la unidad de codificacion maxima puede establecerse para informacion acerca de al menos una unidad de codificacion que corresponde a la profundidad codificada, y la informacion acerca de un modo de codificacion puede incluir informacion acerca de un tipo de particion de una unidad de codificacion correspondiente que corresponde a la profundidad codificada, un modo de prediccion, y un tamano de una unidad de transformacion. Tambien, la informacion de division de acuerdo con las profundidades puede extraerse como la informacion acerca de la profundidad codificada.

La informacion acerca de la profundidad codificada y el modo de codificacion de acuerdo con cada unidad de codificacion maxima extrafda por el extractor 220 de datos de imagen e informacion de codificacion es informacion acerca de una profundidad codificada y un modo de codificacion determinado para generar un error de codificacion mmimo cuando un codificador, tal como el aparato 100 de codificacion de video, realiza de manera repetitiva la codificacion para cada unidad de codificacion mas profunda de acuerdo con las profundidades de acuerdo con cada unidad de codificacion maxima. Por consiguiente, el aparato 200 de decodificacion de video puede restaurar una imagen decodificando los datos de imagen de acuerdo con una profundidad codificada y un modo de codificacion que genera el error de codificacion mmimo.

Puesto que la informacion de codificacion acerca de la profundidad codificada y el modo de codificacion pueden asignarse a una unidad de datos predeterminada de entre una unidad de codificacion correspondiente, una unidad de prediccion, y una unidad minima, el extractor 220 de datos de imagen e informacion de codificacion puede extraer la informacion acerca de la profundidad codificada y el modo de codificacion de acuerdo con las unidades de datos predeterminadas. Las unidades de datos predeterminadas a las que se asigna la misma informacion acerca de la profundidad codificada y el modo de codificacion pueden inferirse para que sean las unidades de datos incluidas en la misma unidad de codificacion maxima.

El decodificador 230 de datos de imagen restaura la instantanea actual decodificando los datos de imagen en cada unidad de codificacion maxima basandose en la informacion acerca de la profundidad codificada y el modo de codificacion de acuerdo con las unidades de codificacion maxima. En otras palabras, el decodificador 230 de datos de imagen puede decodificar los datos de imagen codificados basandose en la informacion extrafda acerca del tipo de particion, el modo de prediccion, y la unidad de transformacion para cada unidad de codificacion de entre las unidades de codificacion que tienen la estructura de arbol incluidas en cada unidad de codificacion maxima. Un procedimiento de decodificacion puede incluir prediccion que incluye intra prediccion y compensacion de movimiento, y transformacion inversa.

El decodificador 230 de datos de imagen puede realizar intra prediccion o compensacion de movimiento de acuerdo con una particion y un modo de prediccion de cada unidad de codificacion, basandose en la informacion acerca del tipo de particion y el modo de prediccion de la unidad de prediccion de la unidad de codificacion de acuerdo con profundidades codificadas.

Tambien, el decodificador 230 de datos de imagen puede realizar transformacion inversa de acuerdo con cada unidad de transformacion en la unidad de codificacion, basandose en la informacion acerca de la unidad de transformacion de acuerdo con las unidades de codificacion que tienen una estructura de arbol, para realizar la transformacion inversa de acuerdo con unidades de codificacion maxima. Un valor de pixel de un dominio espacial en la unidad de codificacion puede restaurarse a traves de la transformacion inversa.

El decodificador 230 de datos de imagen puede determinar al menos una profundidad codificada de una unidad de codificacion maxima actual usando informacion de division de acuerdo con las profundidades. Si la informacion de division indica que los datos de imagen ya no se dividen en la profundidad actual, la profundidad actual es una profundidad codificada. Por consiguiente, el decodificador 230 de datos de imagen puede decodificar datos codificados de al menos una unidad de codificacion que corresponde a cada profundidad codificada en la unidad de codificacion maxima actual usando la informacion acerca del tipo de particion de la unidad de prediccion, el modo de prediccion, y el tamano de unidad de transformacion para cada unidad de codificacion que corresponde a la profundidad codificada, y emite los datos de imagen de la unidad de codificacion maxima actual.

En otras palabras, las unidades de datos que contienen la informacion de codificacion que incluye la misma informacion de division pueden recogerse observando la informacion de codificacion establecida asignada para la unidad de datos predeterminada de entre la unidad de codificacion, la unidad de prediccion, y la unidad minima, y las unidades de datos recogidas pueden considerarse que son una unidad de datos a decodificarse por el decodificador 230 de datos de imagen en el mismo modo de codificacion. La decodificacion de la unidad de codificacion actual puede realizarse obteniendo informacion acerca del modo de codificacion para cada unidad de codificacion determinada de tal manera.

Tambien, el aparato 200 de decodificacion de video de la Figura 8 puede realizar operaciones del aparato 20 de decodificacion de video anteriormente descrito con referencia a la Figura 2.

El receptor 210 y el extractor 220 de datos de imagen e informacion de codificacion pueden realizar operaciones del analizador 22 y el decodificador 24 de sfmbolo del aparato 20 de decodificacion de video. El decodificador 230 de datos de imagen puede realizar operaciones del decodificador 24 de sfmbolo del aparato 20 de decodificacion de video.

El receptor 210 recibe una secuencia de bits de una imagen, y el extractor 220 de datos de imagen e informacion de codificacion analiza sfmbolos de bloques de imagen desde la secuencia de bits recibida.

El extractor 220 de datos de imagen e informacion de codificacion puede clasificar un sfmbolo actual en una cadena de bits de prefijo y una cadena de bits de sufijo basandose en un valor umbral determinado de acuerdo con un tamano de un bloque actual. Por ejemplo, cuando se decodifica la informacion de posicion de coeficiente final del coeficiente de transformacion de la unidad de transformacion, el valor umbral para clasificar la cadena de bits de prefijo y la cadena de bits de sufijo puede determinarse de acuerdo con un tamano (anchura o altura) de la unidad de transformacion. Como alternativa, el valor umbral puede determinarse de acuerdo con tamanos del recorte que incluye la unidad de transformacion actual, la unidad de codificacion maxima, la unidad de codificacion, la unidad de prediccion, etc. Como alternativa, puede determinarse por el mdice maximo del modo de intra prediccion cuantos bits de la cadena de bits de sfmbolo se codifican en codificacion aritmetica como la cadena de bits de prefijo a traves de modelado de contexto en el modo de intra prediccion y cuantos bits de la cadena de bits de s^bolo se codifican en codificacion aritmetica como la cadena de bits de sufijo en el modo de desvfo.

La decodificacion aritmetica se realiza usando un procedimiento de decodificacion aritmetica determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo del sfmbolo actual. La decodificacion aritmetica para determinar el modelado de contexto de acuerdo con las posiciones de bits puede realizarse en la cadena de bits de prefijo, y la decodificacion aritmetica para omitir el modelado de contexto puede realizarse en la cadena de bits de sufijo usando el modo de desvfo.

Despues de la decodificacion aritmetica, se realiza conversion a binario inversa de acuerdo con un procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo. La region de prefijo y la region de sufijo del sfmbolo pueden restaurarse realizando la conversion a binario inversa de acuerdo con el procedimiento de conversion a binario determinado para cada una de la cadena de bits de prefijo y la cadena de bits de sufijo.

El decodificador 230 de datos de imagen puede restaurar bloques de imagen realizando transformacion inversa y prediccion en el bloque actual usando el sfmbolo actual restaurado a traves de la decodificacion aritmetica y la conversion a binario inversa.

En consecuencia, el aparato 200 de decodificacion de video puede obtener informacion acerca de al menos una unidad de codificacion que genera el error de codificacion mmimo cuando se realiza la codificacion de manera recursiva para cada unidad de codificacion maxima, y puede usar la informacion para decodificar la instantanea actual. En otras palabras, pueden codificarse las unidades de codificacion que tienen la estructura de arbol determinadas para que sean las unidades de codificacion optimas en cada unidad de codificacion maxima.

Por consiguiente, incluso si los datos de imagen tienen alta resolucion y una gran cantidad de datos, los datos de imagen pueden decodificarse y restaurarse eficazmente usando un tamano de una unidad de codificacion y un modo de codificacion, que se determinan de manera adaptativa de acuerdo con caractensticas de los datos de imagen, usando informacion acerca de un modo de codificacion optimo recibido desde un codificador.

La Figura 9 es un diagrama conceptual de unidades de codificacion, de acuerdo con una realizacion de la presente invencion.

Un tamano de una unidad de codificacion puede expresarse en anchura x altura, y puede ser 64x64, 32x32, 16x16, y 8x8. Una unidad de codificacion de 64x64 puede dividirse en particiones de 64x64, 64x32, 32x64, o 32x32, una unidad de codificacion de 32x32 puede dividirse en particiones de 32x32, 32x16, 16x32, o 16x16, una unidad de codificacion de 16x16 puede dividirse en particiones de 16x16, 16x8, 8x16, o 8x8, y una unidad de codificacion de 8x8 puede dividirse en particiones de 8x8, 8x4, 4x8, o 4x4.

En los datos 310 de video, una resolucion es 1920x1080, un tamano maximo de una unidad de codificacion es 64, y una profundidad maxima es 2. En los datos 320 de video, una resolucion es 1920x1080, un tamano maximo de una unidad de codificacion es 64, y una profundidad maxima es 3. En los datos 330 de video, una resolucion es 352x288, un tamano maximo de una unidad de codificacion es 16, y una profundidad maxima es 1. La profundidad maxima mostrada en la Figura 9 indica un numero total de divisiones desde una unidad de codificacion maxima a una unidad de decodificacion minima.

Si una resolucion es alta o una cantidad de datos es grande, un tamano maximo de una unidad de codificacion puede ser grande para no unicamente aumentar la eficacia de codificacion sino tambien para reflejar de manera precisa caractensticas de una imagen. Por consiguiente, el tamano maximo de la unidad de codificacion de los datos 310 y 320 de video que tienen una resolucion superior a los datos 330 de video puede ser 64.

Puesto que la profundidad maxima de los datos 310 de video es 2, las unidades de codificacion 315 de los datos 310 de video pueden incluir una unidad de codificacion maxima que tienen un tamano de eje largo de 64, y las unidades de codificacion que tienen tamanos de eje largo de 32 y 16 puesto que las profundidades se hacen profundas a dos capas dividiendo la unidad de codificacion maxima dos veces. Mientras tanto, puesto que la profundidad maxima de los datos 330 de video es 1, las unidades 335 de codificacion de los datos 330 de video pueden incluir una unidad de codificacion maxima que tiene un tamano de eje largo de 16, y unidades de codificacion que tienen un tamano de eje largo de 8 puesto que las profundidades se hacen profundas a una capa dividiendo la unidad de codificacion maxima una vez.

Puesto que la profundidad maxima de los datos 320 de video es 3, las unidades 325 de codificacion de los datos 320 de video pueden incluir una unidad de codificacion maxima que tiene un tamano de eje largo de 64, y unidades de codificacion que tienen tamanos de eje largo de 32, 16, y 8 puesto que las profundidades se hacen profundas a 3 capas dividiendo la unidad de codificacion maxima tres veces. A medida que una profundidad se hace profunda, puede expresarse de manera precisa la informacion detallada.

La Figura 10 es un diagrama de bloques de un codificador 400 de imagen basado en unidades de codificacion, de acuerdo con una realizacion de la presente invencion.

El codificador 400 de imagen realiza operaciones del determinador 120 de unidad de codificacion del aparato 100 de codificacion de video para codificar datos de imagen. En otras palabras, un intra predictor 410 realiza intra prediccion en unidades de codificacion en un intra modo, de entre un fotograma 405 actual, y un estimador 420 de movimiento y un compensador 425 de movimiento realiza inter estimacion y compensacion de movimiento en unidades de codificacion en un inter modo de entre el fotograma 405 actual usando el fotograma 405 actual, y un fotograma 495 de referencia.

Los datos emitidos desde el intra predictor 410, el estimador 420 de movimiento, y el compensador 425 de movimiento se emiten como un coeficiente de transformacion cuantificado a traves de un transformador 430 y un cuantificador 440. El coeficiente de transformacion cuantificado se restaura como datos en un dominio espacial a traves de un cuantificador 460 inverso y un transformador 470 inverso, y los datos restaurados en el dominio espacial se emiten como el fotograma 495 de referencia despues de post-procesarse a traves de una unidad 480 de desbloqueo y una unidad 490 de filtracion de bucle. El coeficiente de transformacion cuantificado puede emitirse como una secuencia de bits 455 a traves de un codificador 450 por entropfa.

Para que el codificador 400 de imagen se aplique en el aparato 100 de codificacion de video, todos los elementos del codificador 400 de imagen, es decir, el intra predictor 410, el estimador 420 de movimiento, el compensador 425 de movimiento, el transformador 430, el cuantificador 440, el codificador 450 por entropfa, el cuantificador 460 inverso, el transformador 470 inverso, la unidad 480 de desbloqueo, y la unidad 490 de filtracion en bucle realizan operaciones basandose en cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol mientras se considera la profundidad maxima de cada unidad de codificacion maxima.

Espedficamente, el intra predictor 410, el estimador 420 de movimiento, y el compensador 425 de movimiento determinan particiones y un modo de prediccion de cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol mientras se considera el tamano maximo y la profundidad maxima de una unidad de codificacion maxima actual, y el transformador 430 determina el tamano de unidad de transformacion en cada unidad de codificacion de entre las unidades de codificacion que tienen una estructura de arbol.

En particular, el codificador 450 por entropfa puede realizar codificacion de sfmbolo en la region de prefijo y la region de sufijo clasificando un sfmbolo en la region de prefijo y la region de sufijo de acuerdo con un valor umbral predeterminado y usando diferentes procedimientos de codificacion aritmetica y conversion a binario con respecto a la region de prefijo y la region de sufijo.

El valor umbral para clasificar el sfmbolo en la region de prefijo y la region de sufijo puede determinarse basandose en tamanos de unidades de datos del sfmbolo, es decir, un corte, una unidad de codificacion maxima, una unidad de codificacion, una unidad de prediccion, una unidad de transformacion, etc.

La Figura 11 es un diagrama de bloques de un decodificador 500 de imagen basado en unidades de codificacion, de acuerdo con una realizacion de la presente invencion.

Un analizador 510 analiza datos de imagen codificados a decodificarse e informacion acerca de la codificacion requerida para decodificar desde una secuencia de bits 505. Los datos de imagen codificados se emiten como datos cuantificados inversos a traves de un decodificador 520 por entropfa y un cuantificador 530 inverso, y los datos cuantificados inversos se restauran en datos de imagen en un dominio espacial a traves de un transformador 540 inverso.

Un intra predictor 550 realiza intra prediccion en unidades de codificacion en un intra modo con respecto a los datos de imagen en el dominio espacial, y un compensador 560 de movimiento realiza compensacion de movimiento en unidades de codificacion en un inter modo usando un fotograma 585 de referencia.

Los datos de imagen en el dominio espacial, que se pasan a traves del intra predictor 550 y el compensador 560 de movimiento, pueden emitirse como un fotograma 595 restaurado despues de post-procesarse a traves de una unidad 570 de desbloqueo y una unidad 580 de filtracion de bucle. Tambien, los datos de imagen que se postprocesan a traves de la unidad 570 de desbloqueo y la unidad 580 de filtracion en bucle pueden emitirse como el fotograma 585 de referencia.

Para decodificar los datos de imagen en el decodificador 230 de datos de imagen del aparato 200 de decodificacion de video, el decodificador 500 de imagen puede realizar las operaciones que se realizan despues del analizador 510.

Para que el decodificador 500 de imagen se aplique en el aparato 200 de decodificacion de video, todos los elementos del decodificador 500 de imagen, es decir, el analizador 510, el decodificador 520 por entropfa, el cuantificador 530 inverso, el transformador 540 inverso, el intra predictor 550, el compensador 560 de movimiento, la unidad 570 de desbloqueo, y la unidad 580 de filtracion en bucle realizan operaciones basandose en unidades de codificacion que tienen una estructura de arbol para cada unidad de codificacion maxima.

Espedficamente, el intra predictor 550 y el compensador 560 de movimiento realizan operaciones basandose en particiones y un modo de prediccion para cada una de las unidades de codificacion que tienen una estructura de arbol, y el transformador 540 inverso realiza operaciones basandose en un tamano de una unidad de transformacion para cada unidad de codificacion.

En particular, el decodificador 520 por entropfa puede realizar decodificacion de s^bolo para cada una de una cadena de bits de prefijo y una cadena de bits de sufijo clasificando la cadena de bits de sfmbolo analizada en la cadena de bits de prefijo y la cadena de bits de sufijo de acuerdo con un valor umbral predeterminado y usando diferentes procedimientos de decodificacion aritmetica y conversion a binario con respecto a la cadena de bits de prefijo y la cadena de bits de sufijo.

El valor umbral para clasificar la cadena de bits de sfmbolo en la cadena de bits de prefijo y la cadena de bits de sufijo puede determinarse basandose en tamanos de unidades de datos del sfmbolo, es decir, un corte, una unidad de codificacion maxima, una unidad de codificacion, una unidad de prediccion, una unidad de transformacion, etc. La Figura 12 es un diagrama que muestra unidades de codificacion mas profundas de acuerdo con las profundidades y particiones, de acuerdo con una realizacion de la presente invencion.

El aparato 100 de codificacion de video y el aparato 200 de decodificacion de video usan unidades de codificacion jerarquica para considerar caractensticas de una imagen. Una altura maxima, una anchura maxima y una profundidad maxima de unidades de codificacion pueden determinarse de manera adaptativa de acuerdo con las caractensticas de la imagen, o pueden establecerse de manera diferente por un usuario. Los tamanos de unidades de codificacion mas profundas de acuerdo con las profundidades pueden determinarse de acuerdo con el tamano maximo predeterminado de la unidad de codificacion.

En una estructura 600 jerarquica de unidades de codificacion, de acuerdo con una realizacion de la presente invencion, la altura maxima y la anchura maxima de las unidades de codificacion son cada una 64, y la profundidad maxima es 4. En este punto, la profundidad maxima indica un numero total de veces que se realiza la division desde la unidad de codificacion maxima a la unidad de codificacion minima. Puesto que una profundidad se hace profunda a lo largo de un eje vertical de la estructura 600 jerarquica, se divide cada una de una altura y una anchura de la unidad de codificacion mas profunda. Tambien, una unidad de prediccion y particiones, que son las bases para codificacion de prediccion de cada unidad de codificacion mas profunda, se muestran a lo largo de un eje horizontal de la estructura 600 jerarquica.

En otras palabras, una unidad 610 de codificacion es una unidad de codificacion maxima en la estructura 600 jerarquica, en el que una profundidad es 0 y un tamano, es decir, una altura por anchura, es 64x64. La profundidad se hace profunda a lo largo del eje vertical, y existe una unidad 620 de codificacion que tiene un tamano de 32x32 y una profundidad de 1, una unidad 630 de codificacion que tiene un tamano de 16x16 y una profundidad de 2, una unidad 640 de codificacion que tiene un tamano de 8x8 y una profundidad de 3, y una unidad 650 de codificacion que tiene un tamano de 4x4 y una profundidad de 4. La unidad 650 de codificacion que tiene el tamano de 4x4 y la profundidad de 4 es una unidad de codificacion minima.

La unidad de prediccion y las particiones de una unidad de codificacion estan dispuestas a lo largo del eje horizontal de acuerdo con cada profundidad. En otras palabras, si la unidad 610 de codificacion que tiene el tamano de 64x64 y la profundidad de 0 es una unidad de prediccion, la unidad de prediccion puede dividirse en particiones incluidas en la unidad 610 de codificacion, es decir una particion 610 que tiene un tamano de 64x64, particiones 612 que tienen el tamano de 64x32, particiones 614 que tienen el tamano de 32x64, o particiones 616 que tienen el tamano de 32x32.

De manera similar, una unidad de prediccion de la unidad 620 de codificacion que tiene el tamano de 32x32 y la ^{profundidad de 1 puede dividirse en particiones incluidas en la unidad 620 de codificacion, es decir una particion}620 que tiene un tamano de 32x32, particiones 622 que tienen un tamano de 32x16, particiones 624 que tienen un tamano de 16x32, y particiones 626 que tienen un tamano de 16x16.

De manera similar, una unidad de prediccion de la unidad 630 de codificacion que tiene el tamano de 16x16 y la profundidad de 2 puede dividirse en particiones incluidas en la unidad 630 de codificacion, es decir una particion que tiene un tamano de 16x16 incluida en la unidad 630 de codificacion, particiones 632 que tienen un tamano de 16x8, particiones 634 que tienen un tamano de 8x16, y particiones 636 que tienen un tamano de 8x8.

De manera similar, una unidad de prediccion de la unidad 640 de codificacion que tiene el tamano de 8x8 y la profundidad de 3 puede dividirse en particiones incluidas en la unidad 640 de codificacion, es decir una particion que tiene un tamano de 8x8 incluida en la unidad 640 de codificacion, particiones 642 que tienen un tamano de 8x4, particiones 644 que tienen un tamano de 4x8, y particiones 646 que tienen un tamano de 4x4.

La unidad 650 de codificacion que tiene el tamano de 4x4 y la profundidad de 4 es la unidad de codificacion minima y una unidad de codificacion de la profundidad mas inferior. Una unidad de prediccion de la unidad 650 de codificacion se asigna unicamente a una particion que tiene un tamano de 4x4.

Para determinar la al menos una profundidad codificada de las unidades de codificacion que constituyen la unidad 610 de codificacion maxima, el determinador 120 de unidad de codificacion del aparato 100 de codificacion de video realiza codificacion para unidades de codificacion que corresponden a cada profundidad incluida en la unidad 610 de codificacion maxima.

Un numero de unidades de codificacion mas profundas de acuerdo con las profundidades que incluyen datos en el mismo intervalo y el mismo tamano aumentan a medida que la profundidad se hace mas profunda. Por ejemplo, se requieren cuatro unidades de codificacion que corresponden a una profundidad de 2 para cubrir datos que estan incluidos en una unidad de codificacion que corresponde a una profundidad de 1. Por consiguiente, para comparar resultados de codificacion de los mismos datos de acuerdo con las profundidades, se codifica cada una de la unidad de codificacion que corresponde a la profundidad de 1 y cuatro unidades de codificacion que corresponden a la profundidad de 2.

Para realizar codificacion para una profundidad actual de entre las profundidades, puede seleccionarse un mmimo error de codificacion para la profundidad actual realizando codificacion para cada unidad de prediccion en las unidades de codificacion que corresponden a la profundidad actual, a lo largo del eje horizontal de la estructura 600 jerarquica. Como alternativa, puede buscarse el error de codificacion mmimo comparando los mmimos errores de codificacion de acuerdo con las profundidades, realizando codificacion para cada profundidad a medida que la profundidad se hace mas profunda a lo largo del eje vertical de la estructura 600 jerarquica. Una profundidad y una particion que tienen el error de codificacion mmimo en la unidad 610 de codificacion pueden seleccionarse como la profundidad codificada y un tipo de particion de la unidad 610 de codificacion.

La Figura 13 es un diagrama para describir una relacion entre una unidad de codificacion y unidades de transformacion, de acuerdo con una realizacion de la presente invencion.

El aparato 100 o 200 de codificacion de video codifica o decodifica una imagen de acuerdo con unidades de codificacion que tienen tamanos menores o iguales a una unidad de codificacion maxima para cada unidad de codificacion maxima. Pueden seleccionarse tamanos de unidades de transformacion para transformacion durante la codificacion basandose en unidades de datos que ya no son mayores que una unidad de codificacion correspondiente.

Por ejemplo, en el aparato 100 o 200 de codificacion de video, si un tamano de la unidad 710 de codificacion es 64x64, la transformacion puede realizarse usando las unidades 720 de transformacion que tienen un tamano de 32x32.

Tambien, los datos de la unidad 710 de codificacion que tiene el tamano de 64x64 pueden codificarse realizando la transformacion en cada una de las unidades de transformacion que tiene el tamano de 32x32, 16x16, 8x8, y 4x4, que son menores que 64x64, y a continuacion puede seleccionarse una unidad de transformacion que tiene el mmimo error de codificacion.

La Figura 14 es un diagrama para describir informacion de codificacion de unidades de codificacion de acuerdo con las profundidades, de acuerdo con una realizacion de la presente invencion.

La unidad 130 de salida del aparato 100 de codificacion de video puede codificar y transmitir informacion 800 acerca de un tipo de particion, informacion 810 acerca de un modo de prediccion, e informacion 820 acerca de un tamano de una unidad de transformacion para cada unidad de codificacion que corresponde a una profundidad codificada, como informacion acerca de un modo de codificacion.

La informacion 800 indica informacion acerca de una forma de una particion obtenida dividiendo una unidad de prediccion de una unidad de codificacion actual, en el que la particion es una unidad de datos para codificar por prediccion la unidad de codificacion actual. Por ejemplo, una unidad de codificacion actual CU_0 que tiene un tamano de 2Nx2N puede dividirse en una cualquiera de una particion 802 que tiene un tamano de 2Nx2N, una particion 804 que tiene un tamano de 2NxN, una particion 806 que tiene un tamano de Nx2N, y una particion 808 que tiene un tamano de NxN. En este punto, la informacion 800 acerca de un tipo de particion se establece para indicar una de la particion 804 que tiene un tamano de 2NxN, la particion 806 que tiene un tamano de Nx2N, y la particion 808 que tiene un tamano de NxN.

La informacion 810 indica un modo de prediccion de cada particion. Por ejemplo, la informacion 810 puede indicar un modo de codificacion por prediccion realizada en una particion indicada por la informacion 800, es decir, un intra modo 812, un inter modo 814, o un modo 816 de salto.

La informacion 820 indica una unidad de transformacion a basarse cuando la transformacion se realiza en una unidad de codificacion actual. Por ejemplo, la unidad de transformacion puede ser una primera unidad 822 de intra transformacion, una segunda unidad 824 de intra transformacion, una primera unidad 826 de inter transformacion, o una segunda unidad 828 de inter transformacion.

El extractor 220 de datos de imagen e informacion de codificacion del aparato 200 de decodificacion de video pueden extraer y usar la informacion 800, 810, y 820 para decodificacion, de acuerdo con cada unidad de codificacion mas profunda.

La Figura 15 es un diagrama que muestra unidades de codificacion mas profundas de acuerdo con las profundidades, de acuerdo con una realizacion de la presente invencion.

La informacion de division puede usarse para indicar un cambio de una profundidad. La informacion de division indica si una unidad de codificacion de una profundidad actual se divide en unidades de codificacion de una profundidad inferior.

Una unidad 910 de prediccion para codificar por prediccion una unidad 900 de codificacion que tiene una profundidad de 0 y un tamano de 2N_0x2N_0 puede incluir particiones de un tipo 912 de particion que tiene un tamano de 2N_0x2N_0, un tipo 914 de particion que tiene un tamano de 2N_0xN_0, un tipo 916 de particion que tiene un tamano de N_0x2N_0, y un tipo 918 de particion que tiene un tamano de N_0xN_0. La Figura 15 unicamente ilustra los tipos 912 a 918 de particion que se obtienen dividiendo simetricamente la unidad 910 de prediccion, aunque un tipo de particion no esta limitado a lo mismo, y las particiones de la unidad 910 de prediccion pueden incluir particiones asimetricas, particiones que tienen una forma predeterminada, y particiones que tienen una forma geometrica.

La codificacion por prediccion se realiza de manera repetitiva en una particion que tiene un tamano de 2N_0x2N_0, dos particiones que tienen un tamano de 2N_0xN_0, dos particiones que tienen un tamano de N_0x2N_0, y cuatro particiones que tienen un tamano de N_0xN_0, de acuerdo con cada tipo de particion. La codificacion por prediccion en un intra modo y un inter modo pueden realizarse en las particiones que tienen los tamanos de 2N_0x2N_0, N_0x2N_0, 2N_0xN_0, y N_0xN_0. La codificacion por prediccion en un modo de salto se realiza unicamente en la particion que tiene el tamano de 2N_0x2N_0.

Los errores de la codificacion que incluyen la codificacion por prediccion en los tipos 912 a 918 de particiones se comparan, y se determina el mmimo error de codificacion entre los tipos de particion. Si un error de codificacion es el mas pequeno en uno de los tipos 912 a 916 de particion, la unidad 910 de prediccion puede no dividirse en una profundidad inferior.

Si el error de codificacion es el mas pequeno en el tipo 918 de particion, una profundidad se cambia de 0 a 1 para dividir el tipo 918 de particion en la operacion 920, y la codificacion se realiza de manera repetitiva en unidades 930 de codificacion que tienen una profundidad de 2 y un tamano de N_0xN_0 para buscar un error de codificacion mmimo.

Una unidad 940 de prediccion para codificar por prediccion la unidad 930 de codificacion que tiene una profundidad de 1 y un tamano de 2N_1x2N_1 (=N_0xN_0) puede incluir particiones de un tipo 942 de particion que tiene un tamano de 2N_1x2N_1, un tipo 944 de particion que tiene un tamano de 2N_1xN_1, un tipo 946 de particion que tiene un tamano de N_1x2N_1, y un tipo 948 de particion que tiene un tamano de N_1xN_1.

Si un error de codificacion es el mas pequeno en el tipo 948 de particion, una profundidad se cambia de 1 a 2 para dividir el tipo 948 de particion en la operacion 950, y se realiza de manera repetitiva la codificacion en unidades 960 de codificacion, que tienen una profundidad de 2 y un tamano de N_2xN_2 para buscar un error de codificacion mmimo.

Cuando una profundidad maxima es d, la unidad de codificacion de acuerdo con cada profundidad puede realizarse hasta cuando una profundidad se hace d-1, y la informacion de division puede codificarse hasta cuando una profundidad es una de 0 a d-2. En otras palabras, cuando se realiza la codificacion hasta cuando la profundidad es d-1 despues de que una unidad de codificacion que corresponde a una profundidad de d-2 se divide en la operacion 970, una unidad 990 de prediccion para codificar por prediccion una unidad 980 de codificacion que tiene una profundidad de d-1 y un tamano de 2N_(d-1)x2N_(d-1) puede incluir particiones de un tipo 992 de particion que tiene un tamano de 2N_(d-1)x2N_(d-1), un tipo 994 de particion que tiene un tamano de 2N_(d-1)xN_(d-1), un tipo 996 de particion que tiene un tamano de N_(d-1)x2N_(d-1), y un tipo 998 de particion que tiene un tamano de N_(d-1)xN_(d-1).

La codificacion por prediccion puede realizarse de manera repetitiva en una particion que tiene un tamano de 2N_(d-1)x2N_(d-1), dos particiones que tienen un tamano de 2N_(d-1)xN_(d-1), dos particiones que tienen un tamano de N_(d-1)x2N_(d-1), cuatro particiones que tienen un tamano de N_(d-1)xN_(d-1) de entre los tipos 992 a 998 de particion para buscar un tipo de particion que tiene un error de codificacion mmimo.

Incluso cuando el tipo 998 de particion tiene el error de codificacion mmimo, puesto que una profundidad maxima es d, una unidad de codificacion CU_(d-1) que tiene una profundidad de d-1 ya no se divide a una profundidad inferior, y una profundidad codificada para las unidades de codificacion que constituyen una unidad 900 de codificacion maxima actual se determina para que sea d-1 y un tipo de particion de la unidad 900 de codificacion maxima actual puede determinarse que es N_(d-1)xN_(d-1). Tambien, puesto que la profundidad maxima es d y una unidad 980 de codificacion minima que tiene una profundidad mas inferior de d-1 ya no se divide a una profundidad inferior, la informacion de division para la unidad 980 de codificacion minima no se establece.

Una unidad 999 de datos puede ser una 'unidad minima’ para la unidad de codificacion maxima actual. Una unidad minima de acuerdo con una realizacion de la presente invencion puede ser una unidad de datos rectangular obtenida dividiendo una unidad 980 de codificacion mmima por 4. Realizando la codificacion de manera repetitiva, el aparato 100 de codificacion de video puede seleccionar una profundidad que tiene el mmimo error de codificacion comparando errores de codificacion de acuerdo con las profundidades de la unidad 900 de codificacion para determinar una profundidad codificada, y establecer un tipo de particion correspondiente y un modo de prediccion como un modo de codificacion de la profundidad codificada.

Como tal, los errores de codificacion mmimos de acuerdo con las profundidades se comparan en todas las profundidades de 1 a d, y una profundidad que tiene el mmimo error de codificacion puede determinarse como una profundidad codificada. La profundidad codificada, el tipo de particion de la unidad de prediccion, y el modo de prediccion pueden codificarse y transmitirse como informacion acerca de un modo de codificacion. Tambien, puesto que una unidad de codificacion se divide desde una profundidad de 0 a una profundidad codificada, unicamente la informacion de division de la profundidad codificada se establece a 0, y la informacion de division de profundidades excluyendo la profundidad codificada se establece a 1.

El extractor 220 de datos de imagen e informacion de codificacion del aparato 200 de decodificacion de video pueden extraer y usar la informacion acerca de la profundidad codificada y la unidad de prediccion de la unidad 900 de codificacion para decodificar la particion 912. El aparato 200 de decodificacion de video puede determinar una profundidad, en la que informacion de division es 0, como una profundidad codificada usando informacion de division de acuerdo con las profundidades, y usar informacion acerca de un modo de codificacion de la profundidad correspondiente para decodificacion.

Las Figuras 16 a 18 son diagramas para describir una relacion entre unidades de codificacion, unidades de prediccion, y unidades de transformacion, de acuerdo con una realizacion de la presente invencion.

Las unidades 1010 de codificacion son unidades de codificacion que tienen una estructura de arbol, que corresponden a profundidades codificadas determinadas por el aparato 100 de codificacion de video, en una unidad de codificacion maxima. Las unidades 1060 de prediccion son particiones de unidades de prediccion de cada una de las unidades 1010 de codificacion, y las unidades 1070 de transformacion son unidades de transformacion de cada una de las unidades 1010 de codificacion.

Cuando una profundidad de una unidad de codificacion maxima es 0 en las unidades 1010 de codificacion, las profundidades de las unidades 1012 y 1054 de codificacion son 1, las profundidades de las unidades 1014, 1016, 1018, 1028, 1050, y 1052 de codificacion son 2, las profundidades de las unidades 1020, 1022, 1024, 1026, 1030, 1032, y 1048 de codificacion son 3, y las profundidades de las unidades 1040, 1042, 1044, y 1046 de codificacion son 4.

En las unidades 1060 de prediccion, algunas unidades 1014, 1016, 1022, 1032, 1048, 1050, 1052, y 1054 de codificacion se obtienen dividiendo las unidades de codificacion en las unidades 1010 de codificacion. En otras palabras, los tipos de particion en las unidades 1014, 1022, 1050, y 1054 de codificacion tienen un tamano de 2NxN, los tipos de particion en las unidades 1016, 1048, y 1052 de codificacion tienen un tamano de Nx2N, y un tipo de particion de la unidad 1032 de codificacion tiene un tamano de NxN. Las unidades de prediccion y particiones de las unidades 1010 de codificacion son menores que o iguales a cada unidad de codificacion.

La transformacion o transformacion inversa se realiza en datos de imagen de la unidad 1052 de codificacion en las unidades 1070 de transformacion en una unidad de datos que es menor que la unidad 1052 de codificacion. Tambien, las unidades 1014, 1016, 1022, 1032, 1048, 1050, y 1052 de codificacion en las unidades 1070 de transformacion son diferentes de aquellas en las unidades 1060 de prediccion en terminos de tamanos y formas. En otras palabras, los aparatos 100 y 200 de codificacion y decodificacion de video pueden realizar intra prediccion, estimacion de movimiento, compensacion de movimiento, transformacion, y transformacion inversa individualmente en una unidad de datos en la misma unidad de codificacion.

Por consiguiente, la codificacion se realiza de manera recursiva en cada una de las unidades de codificacion que tienen una estructura jerarquica en cada region de una unidad de codificacion maxima para determinar una unidad de codificacion optima, y por lo tanto pueden obtenerse las unidades de codificacion que tienen una estructura de arbol recursiva. La informacion de codificacion puede incluir informacion de division acerca de una unidad de codificacion, informacion acerca de un tipo de particion, informacion acerca de un modo de prediccion, e informacion acerca de un tamano de una unidad de transformacion. La Tabla 1 muestra la informacion de codificacion que puede establecerse por los aparatos 100 y 200 de codificacion y decodificacion de video.

Tabla 1

La unidad 130 de salida del aparato 100 de codificacion de video puede emitir la informacion de codificacion acerca de las unidades de codificacion que tienen una estructura de arbol, y el extractor 220 de datos de imagen e informacion de codificacion del aparato 200 de decodificacion de video puede extraer la informacion de codificacion acerca de las unidades de codificacion que tienen una estructura de arbol desde una secuencia de bits recibida. La informacion de division indica si una unidad de codificacion actual se divide en unidades de codificacion de una profundidad inferior. Si la informacion de division de una profundidad actual d es 0, una profundidad, en la que una unidad de codificacion actual ya no se divide en una profundidad inferior, es una profundidad codificada, y por lo tanto la informacion acerca de un tipo de particion, modo de prediccion, y un tamano de una unidad de transformacion puede definirse para la profundidad codificada. Si la unidad de codificacion actual se divide adicionalmente de acuerdo con la informacion de division, la codificacion se realiza de manera independiente en cuatro unidades de codificacion de division de una profundidad inferior.

Un modo de prediccion puede ser uno de un intra modo, un inter modo, y un modo de salto. El intra modo y el inter modo pueden definirse en todos los tipos de particion, y el modo de salto se define unicamente en un tipo de particion que tiene un tamano de 2Nx2N.

La informacion acerca del tipo de particion puede indicar tipos de particion simetrica que tienen tamanos de 2Nx2N, 2NxN, Nx2N, y NxN, que se obtienen dividiendose simetricamente una altura o una anchura de una unidad de prediccion, y tipos de particion asimetrica que tienen tamanos de 2NxnU, 2NxnD, nLx2N, y nRx2N, que se obtienen dividiendo asimetricamente la altura o anchura de la unidad de prediccion. Los tipos de particion asimetrica que tienen los tamanos de 2NxnU y 2NxnD pueden obtenerse respectivamente dividiendo la altura de la unidad de prediccion en 1:3 y 3:1, y los tipos de particion asimetrica que tienen los tamanos de nLx2N y nRx2N pueden obtenerse respectivamente dividiendo la anchura de la unidad de prediccion en 1:3 y 3:1.

El tamano de unidad de transformacion puede establecerse para que sea dos tipos en el intra modo y dos tipos en el inter modo. En otras palabras, si la informacion de division de la unidad de transformacion es 0, el tamano de unidad de transformacion puede ser 2Nx2N, que es el tamano de la unidad de codificacion actual. Si la informacion de division de la unidad de transformacion es 1, las unidades de transformacion pueden obtenerse dividiendo la unidad de codificacion actual. Tambien, si un tipo de particion de la unidad de codificacion actual que tiene el tamano de 2Nx2N es un tipo de particion simetrica, un tamano de una unidad de transformacion puede ser NxN, y si el tipo de particion de la unidad de codificacion actual es un tipo de particion asimetrica, el tamano de unidad de transformacion puede ser N/2xN/2.

La informacion de codificacion acerca de las unidades de codificacion que tienen una estructura de arbol puede incluir al menos una de una unidad de codificacion que corresponde a una profundidad codificada, una unidad de prediccion, y una unidad minima. La unidad de codificacion que corresponde a la profundidad codificada puede incluir al menos una de una unidad de prediccion y una unidad minima que contiene la misma informacion de codificacion.

Por consiguiente, se determina si las unidades de datos adyacentes estan incluidas en la misma unidad de codificacion que corresponde a la profundidad codificada comparando informacion de codificacion de las unidades de datos adyacentes. Tambien, una unidad de codificacion correspondiente que corresponde a una profundidad codificada se determina usando informacion de codificacion de una unidad de datos, y por lo tanto puede determinate una distribucion de profundidades codificadas en una unidad de codificacion maxima.

Por consiguiente, si una unidad de codificacion actual se predice basandose en informacion de codificacion de unidades de datos adyacentes, puede hacerse referencia directamente a la informacion de codificacion de unidades de datos en unidades de codificacion mas profundas adyacentes a la unidad de codificacion actual y usarse.

Como alternativa, si una unidad de codificacion actual se predice basandose en informacion de codificacion de unidades de datos adyacentes, se buscan unidades de datos adyacentes a la unidad de codificacion actual usando informacion codificada de las unidades de datos, y puede hacerse referencia a las unidades de codificacion adyacentes buscadas para predecir la unidad de codificacion actual.

Una unidad 1300 de codificacion maxima incluye las unidades 1302, 1304, 1306, 1312, 1314, 1316, y 1318 de codificacion de profundidades codificadas. En este punto, puesto que la unidad 1318 de codificacion es una unidad de codificacion de una profundidad codificada, la informacion de division puede establecerse a 0. La informacion acerca de un tipo de particion de la unidad 1318 de codificacion que tiene un tamano de 2Nx2N puede establecerse para que sea uno de un tipo 1322 de particion que tiene un tamano de 2Nx2N, un tipo 1324 de particion que tiene un tamano de 2NxN, un tipo 1326 de particion que tiene un tamano de Nx2N, un tipo 1328 de particion que tiene un tamano de NxN, un tipo 1332 de particion que tiene un tamano de 2NxnU, un tipo 1334 de particion que tiene un tamano de 2NxnD, un tipo 1336 de particion que tiene un tamano de nLx2N, y un tipo 1338 de particion que tiene un tamano de nRx2N.

La informacion de division (bandera de tamano TU) de una unidad de transformacion es una clase de un mdice de transformacion, y un tamano de unidad de transformacion que corresponde al mdice de transformacion puede variar de acuerdo con un tipo de la unidad de prediccion o la particion de la unidad de codificacion.

Por ejemplo, cuando el tipo de particion se establece para que sea simetrica, es decir el tipo 1322, 1324, 1326, o 1328 de particion, se establece una unidad 1342 de transformacion que tiene un tamano de 2Nx2N si la informacion de division de la unidad de transformacion es 0, y se establece una unidad 1344 de transformacion que tiene un tamano de NxN si una bandera de tamano de TU es 1.

Cuando el tipo de particion se establece para que sea asimetrica, es decir, el tipo 1332, 1334, 1336, o 1338 de particion, se establece una unidad 1352 de transformacion que tiene un tamano de 2Nx2N si una bandera de tamano de TU es 0, y se establece una unidad 1354 de transformacion que tiene un tamano de N/2xN/2 si una bandera de tamano de TU es 1.

Haciendo referencia a la Figura 19, la bandera de tamano de TU es una bandera que tiene un valor de 0 o 1, pero la bandera de tamano de TU no esta limitada a 1 bit, y una unidad de transformacion puede dividirse jerarquicamente teniendo una estructura de arbol mientras la bandera de tamano de TU aumenta desde 0. La bandera de tamano de TU puede usarse como una realizacion del mdice de transformacion.

En este caso, si la informacion de division de la unidad de transformacion se usa junto con el tamano de unidad de transformacion maxima y el tamano de la unidad de transformacion minima, puede expresarse el tamano de unidad de transformacion que se usa realmente. El aparato 100 de codificacion de video puede codificar informacion de tamano de unidad de transformacion maxima, informacion de tamano de unidad de transformacion minima, y la informacion de division de unidad de transformacion maxima. La informacion de tamano de unidad de transformacion maxima codificada, informacion de tamano de unidad de transformacion minima, y la informacion de division de unidad de transformacion maxima pueden insertarse en un SPS. El aparato 200 de decodificacion de video puede realizar decodificacion de video usando la informacion de tamano de unidad de transformacion maxima, la informacion de tamano de unidad de transformacion minima, y la informacion de division de unidad de transformacion maxima.

Por ejemplo, si una unidad de codificacion actual tiene un tamano de 64x64 y el tamano de unidad de transformacion maxima es 32x32, cuando la informacion de division de unidad de transformacion es 0, un tamano de unidad de transformacion puede establecerse a 32x32, cuando la informacion de division de unidad de transformacion es 1, el tamano de unidad de transformacion puede establecerse a 16x16, y cuando la informacion de division de unidad de transformacion es 2, el tamano de unidad de transformacion puede establecerse a 8x8.

Como alternativa, si la unidad de codificacion actual tiene un tamano de 32x32 y el tamano de la unidad de transformacion minima es 32x32, cuando la informacion de division de unidad de transformacion es 1, el tamano de unidad de transformacion puede establecerse a 32x32, y puesto que el tamano de unidad de transformacion es igual o mayor que 32x32, no puede establecerse mas informacion de division de unidad de transformacion.

Como alternativa, si la unidad de codificacion actual tiene un tamano de 64x64 y la informacion de division de unidad de transformacion maxima es 1, la informacion de division de unidad de transformacion puede establecerse a 0 o 1, y puede no establecerse otra informacion de division de unidad de transformacion.

Por consiguiente, si la informacion de division de unidad de transformacion maxima se define como 'MaxTransformSizelndex', si un tamano de unidad de transformacion minima se define como 'MinTransformSize', y si un tamano de unidad de transformacion se define como 'RootTuSize' cuando la informacion de division de unidad de transformacion es 0, 'CurrMinTuSize' que es un tamano de unidad de transformacion minima disponible en la unidad de codificacion actual puede definirse por la formula (1) a continuacion

CurrMinTuSize

= max (MinTransformSize, RootTuSize/(2AMaxTransformSizelndex))... (1)

En comparacion con 'CurrMinTuSize' que es el tamano de la unidad de transformacion minima disponible en la unidad de codificacion actual, 'RootTuSize' que es un tamano de unidad de transformacion cuando la informacion de division de unidad de transformacion es 0 puede representar un tamano de unidad de transformacion maxima que puede adoptarse en un sistema. En otras palabras, de acuerdo con la formula (1), 'RootTuSize/(2AMaxTransformSizelndex)' es un tamano de unidad de transformacion en el que 'RootTuSize' se divide un numero de veces que corresponde a la informacion de division de unidad de transformacion maxima y 'MinTransformSize' es un tamano de unidad de transformacion minima, y por lo tanto un valor menor de entre 'RootTuSize/(2AMaxTransformSizelndex)' y 'MinTransformSize' puede ser 'CurrMinTuSize' que es el tamano de la unidad de transformacion minima disponible en la unidad de codificacion actual.

'RootTuSize' que es el tamano de unidad de transformacion maxima puede variar de acuerdo con un modo de prediccion.

Por ejemplo, si un modo de prediccion actual es un inter modo, 'RootTuSize' puede determinarse de acuerdo con la formula (2) a continuacion. En la formula (1), 'MaxTransformSize' indica un tamano de unidad de transformacion maxima, y 'PUSize' indica un tamano de unidad de prediccion actual.

RootTuSize = min(MaxTransformSize, PUSize)....... (2)

En otras palabras, si el modo de prediccion actual es un inter modo, 'RootTuSize' que es un tamano de unidad de transformacion cuando la informacion de division de unidad de transformacion es 0 puede establecerse a un valor menor de entre el tamano de unidad de transformacion maxima y el tamano de unidad de prediccion actual.

Si un modo de prediccion de una unidad de particion actual es un intra modo, 'RootTuSize' puede determinarse de acuerdo con la formula (3) a continuacion. 'PartitionSize' indica un tamano de unidad de particion actual.

RootTuSize = min(MaxTransformSize, PartitionSize).......(3)

En otras palabras, si el modo de prediccion actual es un intra modo, 'RootTuSize' puede establecerse a un valor menor de entre el tamano de unidad de transformacion maxima y el tamano de unidad de particion actual.

Sin embargo, el tamano de unidad de transformacion maxima actual 'RootTuSize' que vana de acuerdo con una unidad de modo de prediccion de la particion es solamente un ejemplo, y un factor para determinar el tamano de unidad de transformacion maxima actual no esta limitado a lo mismo.

Los datos de imagen de un dominio espacial se codifican para cada unidad de codificacion que tiene una estructura de arbol usando un procedimiento de codificacion de video basandose en las unidades de codificacion que tienen una estructura de arbol anteriormente descritas con referencia a las Figuras 7 a 19, y la decodificacion se realiza en cada unidad de codificacion maxima usando un procedimiento de decodificacion de video basandose en las unidades de codificacion que tienen una estructura de arbol, y por lo tanto los datos de imagen del dominio espacial se restauran, restaurando de esta manera un video que es una instantanea y una secuencia de instantaneas. El video restaurado puede reproducirse por un aparato de reproduccion, puede almacenarse en un medio de almacenamiento, o puede transmitirse mediante una red.

Las realizaciones de la presente invencion pueden escribirse como programas informaticos y pueden implementarse en ordenadores digitales de uso general que ejecutan los programas usando un medio de grabacion legible por ordenador. Ejemplos del medio de grabacion legible por ordenador incluyen medio de almacenamiento magnetico (por ejemplo, ROM, discos flexibles, discos duros, etc.) y medio de grabacion optico (por ejemplo, CD-ROM o DVD).

Claims

REIVINDICACIONES

1. Un procedimiento de decodificacion de un v^deo, comprendiendo el procedimiento:

dividir una imagen en una pluralidad de bloques de codificacion maxima basandose en la informacion de tamano de los bloques de codificacion maxima analizados desde un flujo de bits;

dividir jerarquicamente uno de los bloques de codificacion maxima en al menos un bloque de codificacion usando informacion de division de bloque de codificacion analizado desde un flujo de bits,

determinar al menos un bloque de transformacion jerarquicamente dividido de un bloque de codificacion actual usando informacion de division de bloque de transformacion analizada desde el flujo de bits, analizar sfmbolos de un bloque de codificacion actual desde el flujo de bits;

si un sfmbolo de prefijo y un sfmbolo de sufijo se clasifican desde un sfmbolo acerca de al menos una ubicacion de coeficiente significativo de un bloque de transformacion actual basandose en un valor de umbral predeterminado, realizar la decodificacion aritmetica basada en el contexto para el sfmbolo de prefijo para obtener una cadena de bits de prefijo y realizar decodificacion aritmetica en modo desviacion para el sfmbolo de sufijo para obtener una cadena de bits de sufijo;

obtener un prefijo binarizado inverso realizando una binarizacion inversa en la cadena de bits del prefijo de acuerdo con un procedimiento de binarizacion truncado;

obtener un sufijo binarizado inverso realizando una binarizacion inversa en la cadena de bits de sufijo de acuerdo con un procedimiento de longitud fija;

reconstruir la ultima ubicacion del coeficiente significativo del bloque de transformacion actual mediante el uso del prefijo binarizado inverso y el sufijo binarizado inverso; y

restaurar la imagen realizando una transformacion inversa en el bloque de transformacion actual basandose en la ultima ubicacion de coeficiente significativo reconstruida,

en el que la decodificacion aritmetica basada en el contexto en el sfmbolo de prefijo se realiza mediante el uso de un mdice de contexto determinado en funcion del tamano del bloque de transformacion actual y la ubicacion de un bit de la cadena de bits de prefijo,

en el que el prefijo binarizado inverso se obtiene al decodificar el sfmbolo del prefijo,

el sufijo inverso binarizado se obtiene al decodificar el sfmbolo del sufijo,

la ultima ubicacion del coeficiente significativo del bloque de transformacion actual se reconstruye mediante la combinacion del prefijo binarizado inverso y el sufijo binarizado inverso, y

la ubicacion del ultimo coeficiente significativo reconstruido del bloque de transformacion actual indica una coordenada x de la ultima ubicacion del coeficiente significativo en una direccion de anchos del bloque de transformacion actual o una coordenada y de la ultima ubicacion del coeficiente significativo en una direccion de alturas del bloque de transformacion actual.