ES2793963T3

ES2793963T3 - Procedimiento de codificación y dispositivo de vídeo usando unidad de datos de estructura jerárquica, y procedimiento de decodificación y dispositivo del mismo

Info

Publication number: ES2793963T3
Application number: ES12732436T
Authority: ES
Inventors: Sun-Il Lee; Hae-Kyung Jung; Min-Su Cheon
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-01-06
Filing date: 2012-01-06
Publication date: 2020-11-17
Anticipated expiration: 2032-01-06
Also published as: WO2012093891A2; AU2017203542B2; AU2018204232A1; AU2016204370B2; CN104811705B; US9313506B2; JP6753916B2; CN104811711B; JP6231651B2; KR20150040820A; JP6445651B2; EP2663075B1; KR20150040821A; KR101457397B1; US9479784B2; KR102013243B1; KR20180042828A; JP2019062554A; JP2014506064A; WO2012093891A3

Abstract

Un procedimiento de decodificación de vídeo que comprende: recibir un flujo de bits que incluye una información de división de unidad de transformación actual que indica si una unidad de transformación actual de un nivel actual k se divide en unidades de transformación de un nivel inferior (k+1), incluyéndose la unidad de transformación actual del nivel actual k en una unidad de codificación actual, en el que k es un número entero; determinar un índice de contexto que indica un modelo de contexto entre una pluralidad de modelos de contexto preestablecidos a base de un tamaño de la unidad de transformación actual del nivel actual k al que pertenece la información de división de unidad de transformación actual; obtener la información de división de unidad de transformación actual decodificando por entropía el flujo de bits a base del modelo de contexto indicado por el índice de contexto determinado; cuando la información de división de unidad de transformación actual indica una división de la unidad de transformación actual del nivel actual k, dividir la unidad de transformación actual del nivel actual k en unidades de transformación del nivel inferior (k+1), en el que: una imagen se divide en una pluralidad de unidades de codificación máxima de acuerdo con información acerca del tamaño máximo de la unidad de codificación, una unidad de codificación máxima actual entre las unidades de codificación máxima se divide jerárquicamente en una o más unidades de codificación de una profundidad actual, cuando una unidad de codificación de la profundidad actual entre la una o más unidades de codificación de la profundidad actual ya no se divide en unidades de codificación de una profundidad inferior, la unidad de codificación de la profundidad actual se divide en una o más unidades de transformación de acuerdo con una información de división de unidad de transformación, en el que, cuando la información de división de unidad de transformación indica una división para la unidad de transformación del nivel actual k, se obtienen cuatro unidades de transformación del nivel inferior (k+1) dividiendo una altura y anchura de la unidad de transformación del nivel actual k por dos, y cuando la información de división de unidad de transformación indica una no división para la unidad de transformación del nivel actual k, la unidad de transformación del nivel actual k ya no se divide.

Description

DESCRIPCIÓN

Procedimiento de codificación y dispositivo de vídeo usando unidad de datos de estructura jerárquica, y procedimiento de decodificación y dispositivo del mismo

Campo técnico

La presente invención, según se define en la reivindicación adjunta, se refiere a un procedimiento de decodificación de vídeo.

Antecedentes de la técnica

De acuerdo con procedimientos de compresión de imágenes, tal como MPEG-1, MPEG-2 o codificación de vídeo avanzada (AVC) de MPEG-4 H.264/MPEG-4, una imagen se divide en bloques que tienen un tamaño predeterminado y, a continuación, se obtienen datos residuales de los bloques mediante inter predicción o intra predicción. Los datos residuales se comprimen mediante transformación, cuantificación, exploración, codificación por longitud de serie y codificación por entropía. En codificación por entropía, un elemento de sintaxis, tal como un coeficiente de transformada de coseno discreta (DCT) o un vector de movimiento, se codifica por entropía para emitir un flujo de bits. En el extremo de un decodificador, se extraen elementos de sintaxis a partir del flujo de bits, y se realiza la decodificación a base de los elementos de sintaxis extraídos. El documento US 2010/046626 describe codificación por entropía/decodificación de datos organizados jerárquicamente.

Descripción detallada de la invención

Problema técnico

La presente invención proporciona un procedimiento de decodificación por entropía eficiente de símbolos que son información de imagen seleccionando un modelo de contexto a partir de un códec de imagen a base de unidades de datos con estructura jerárquica usando información de estructura jerárquica.

Solución técnica

De acuerdo con un aspecto de la presente invención, la decodificación por entropía se realiza seleccionando un modelo de contexto a base de una combinación de información de estructura jerárquica e información adicional relacionada con codificación distinta de la información de estructura jerárquica.

Efectos ventajosos

De acuerdo con la presente invención, puede mejorarse una eficiencia de decodificación de vídeo a base de una unidad de datos con estructura jerárquica.

Descripción de los dibujos

La Figura 1 es un diagrama de bloques de un dispositivo de codificación de un vídeo, de acuerdo con una realización de la presente invención;

La Figura 2 es un diagrama de bloques de un dispositivo de decodificación un vídeo, de acuerdo con una realización de la presente invención;

La Figura 3 es un diagrama para describir un concepto de unidades de codificación de acuerdo con una realización de la presente invención;

La Figura 4 es un diagrama de bloques de un codificador de vídeo a base de unidades de codificación que tienen una estructura jerárquica, de acuerdo con una realización de la presente invención;

La Figura 5 es un diagrama de bloques de un decodificador de vídeo a base de unidades de codificación que tienen una estructura jerárquica, de acuerdo con una realización de la presente invención;

La Figura 6 es un diagrama que ilustra unidades de codificación de acuerdo con las profundidades, y particiones, de acuerdo con una realización de la presente invención;

La Figura 7 es un diagrama de descripción de una relación entre unidades de codificación y unidades de transformación, de acuerdo con una realización de la presente invención;

La Figura 8 es un diagrama de descripción de información de codificación de acuerdo con las profundidades, de acuerdo con una realización de la presente invención;

La Figura 9 es un diagrama de descripción de unidades de codificación de acuerdo con las profundidades, de acuerdo con una realización de la presente invención;

Las Figuras 10, 11 y 12 son diagramas para la descripción de una relación entre una unidad de codificación, una unidad de predicción y una unidad de transformación de frecuencia, de acuerdo con una realización de la presente invención;

La Figura 13 es un diagrama de descripción de una relación entre una unidad de codificación, una unidad de predicción y una unidad de transformación, de acuerdo con información de modo de codificación de la Tabla 1; La Figura 14 es un diagrama de bloques que ilustra una estructura de un dispositivo de codificación por entropía de acuerdo con una realización de la presente invención;

La Figura 15 ilustra una unidad de datos con estructura jerárquica e información de división de unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención;

Las Figuras 16 y 17 son vistas de referencia que ilustran símbolos que indican una unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención;

La Figura 18 es una vista de referencia para describir un procedimiento de codificación por entropía de un coeficiente de transformación, de acuerdo con una realización de la presente invención;

La Figura 19 ilustra índices de contexto para determinar un modelo de contexto a base del tamaño de una unidad de datos, de acuerdo con una realización de la presente invención;

La Figura 20 es una vista de referencia que ilustra un modelo de contexto de acuerdo con una realización de la presente invención;

La Figura 21 es un gráfico de un valor de probabilidad de ocurrencia de MPS de acuerdo con una realización de la presente invención;

La Figura 22 ilustra índices de contexto para determinar un modelo de contexto a base del tamaño de una unidad de datos, de acuerdo con otra realización de la presente invención;

Las Figuras 23 y 24 son vistas de referencia que ilustran una tabla de correspondencia de índices de contexto establecida a base de información acerca de la posición de una unidad de datos, de acuerdo con una realización de la presente invención;

La Figura 25 es una vista de referencia que ilustra la determinación de un índice de contexto a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica, de acuerdo con una realización de la presente invención;

La Figura 26 es un diagrama de descripción de un procedimiento de codificación aritmética binario realizado por un codificador regular de la Figura 14;

La Figura 27 es un diagrama de flujo de un procedimiento de codificación de vídeo que usa una unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención;

La Figura 28 es un diagrama de bloques que ilustra una estructura de un dispositivo de decodificación por entropía, de acuerdo con una realización de la presente invención; y

La Figura 29 es un diagrama de flujo de un procedimiento de decodificación de vídeo que usa una unidad de datos con estructura jerárquica, de acuerdo con otra realización de la presente invención.

Mejor modo

De acuerdo con un aspecto de la presente invención, se proporciona un procedimiento de decodificación de vídeo como se expone en la reivindicación adjunta 1.

Modo de la invención

En lo sucesivo, una "imagen" descrita en diversas realizaciones de la presente solicitud puede ser un concepto inclusivo haciendo referencia a no únicamente una imagen fija sino a una imagen de vídeo.

Cuando se realizan diversas operaciones en datos relacionados con una imagen, los datos relacionados con la imagen se dividen en grupos de datos, y la misma operación puede realizarse en datos incluidos en el mismo grupo de datos. En esta memoria descriptiva, un grupo de datos formado de acuerdo con normas predeterminadas se denomina como una "unidad de datos". En lo sucesivo, una operación realizada en cada "unidad de datos" se entiende como realizada usando datos incluidos en una unidad de datos.

En lo sucesivo, una operación realizada en cada "unidad de datos" se entiende como realizada usando datos incluidos en una unidad de datos.

En lo sucesivo, se describirá un procedimiento y dispositivo de codificación y decodificación de vídeo en los que un símbolo que tiene una estructura de árbol se codifica o decodifica a base de una unidad de transformación y una unidad de codificación que tienen una estructura de árbol, de acuerdo con una realización de la presente invención, con referencia a las Figuras 1 a 13. Además, el procedimiento de codificación y decodificación por entropía usado en la codificación y decodificación de vídeo descrito con referencia a las Figuras 1 a 13 se describirá en detalle con referencia a las Figuras 14 a 29.

La Figura 1 es un diagrama de bloques de un dispositivo 100 de codificación de vídeo de acuerdo con una realización de la presente invención.

El dispositivo 100 de codificación de vídeo incluye un codificador 110 jerárquico y un codificador 120 por entropía.

El codificador 110 jerárquico puede dividir una instantánea actual a codificarse, en unidades de unidades de datos predeterminadas para realizar codificación en cada una de las unidades de datos. En detalle, el codificador 110 jerárquico puede dividir una instantánea actual a base de una unidad de codificación máxima, que es una unidad de codificación de un tamaño máximo. La unidad de codificación máxima de acuerdo con una realización de la presente invención puede ser una unidad de datos que tiene un tamaño de 32x32, 64x64, 128x128, 256x256, etc., en la que una forma de la unidad de datos es un cuadrado que tiene una anchura y longitud en cuadrados de 2 y es mayor de 8.

Una unidad de codificación de acuerdo con una realización de la presente invención puede caracterizarse por un tamaño máximo y una profundidad. La profundidad indica el número de veces que la unidad de codificación se divide espacialmente desde la unidad de codificación máxima, y a medida que la profundidad se hace más profunda, unidades de codificación de acuerdo con las profundidades pueden dividirse desde la unidad de codificación máxima a una unidad de codificación mínima. Una profundidad de la unidad de codificación máxima es una profundidad más superior y una profundidad de la unidad de codificación mínima es una profundidad más inferior. Ya que un tamaño de una unidad de codificación que corresponde a cada profundidad se reduce a medida que la profundidad de la unidad de codificación máxima se hace más profunda, una unidad de codificación que corresponde a una profundidad superior puede incluir una pluralidad de unidades de codificación que corresponden a profundidades inferiores.

Como se describe anteriormente, datos de imagen de la instantánea actual se dividen en las unidades de codificación máxima de acuerdo con un tamaño máximo de la unidad de codificación, y cada una de las unidades de codificación máxima puede incluir unidades de codificación que se dividen de acuerdo con las profundidades. Ya que la unidad de codificación máxima de acuerdo con una realización de la presente invención se divide de acuerdo con las profundidades, los datos de imagen de un dominio espacial incluidos en la unidad de codificación máxima pueden clasificarse jerárquicamente de acuerdo con las profundidades.

Puede predeterminarse una profundidad máxima y un tamaño máximo de una unidad de codificación, que limitan el número total de veces que se dividen jerárquicamente una altura y una anchura de la unidad de codificación máxima.

El codificador 110 jerárquico codifica al menos una región dividida obtenida dividiendo una región de la unidad de codificación máxima de acuerdo con las profundidades, y determina una profundidad para emitir finalmente datos de imagen codificados de acuerdo con la al menos una región dividida. En otras palabras, el codificador 110 jerárquico determina una profundidad codificada codificando los datos de imagen en las unidades de codificación de acuerdo con las profundidades, de acuerdo con la unidad de codificación máxima de la instantánea actual, y determinando una profundidad que tiene el último error de codificación. La profundidad codificada determinada y los datos de imagen codificados de acuerdo con unidades de codificación máximas se emiten al codificador 120 por entropía.

Los datos de imagen en la unidad de codificación máxima se codifican a base de las unidades de codificación que corresponden a al menos una profundidad igual a o menor que la profundidad máxima, y resultados de codificación de los datos de imagen se comparan a base de cada una de las unidades de codificación de acuerdo con las profundidades. Puede seleccionarse una profundidad que tiene el último error de codificación después de comparar errores de codificación de las unidades de codificación de acuerdo con las profundidades. Puede seleccionarse al menos una profundidad codificada para cada unidad de codificación máxima.

El tamaño de la unidad de codificación máxima se divide a medida que una unidad de codificación se divide jerárquicamente de acuerdo con las profundidades y a medida que el número de unidades de codificación aumenta. También, incluso si unidades de codificación corresponden a una misma profundidad en una unidad de codificación máxima, se determina si dividir cada una de las unidades de codificación que corresponden a la misma profundidad a una profundidad inferior midiendo un error de codificación de los datos de imagen de cada unidad de codificación, de forma separada. Por consiguiente, incluso cuando datos de imagen se incluyen en una unidad de codificación máxima, los datos de imagen se dividen en regiones de acuerdo con las profundidades, y los errores de codificación pueden diferir de acuerdo con regiones en la unidad de codificación máxima y, por lo tanto, las profundidades codificadas pueden diferir de acuerdo con regiones en los datos de imagen. Por lo tanto, pueden determinarse una o más profundidades codificadas en una unidad de codificación máxima, y los datos de imagen de la unidad de codificación máxima pueden dividirse de acuerdo con unidades de codificación de al menos una profundidad codificada.

Por consiguiente, el codificador 110 jerárquico puede determinar unidades de codificación que tienen una estructura de árbol incluida en la unidad de codificación máxima. Las 'unidades de codificación que tienen una estructura de árbol' de acuerdo con una realización de la presente invención incluyen unidades de codificación que corresponden a una profundidad determinada para ser la profundidad codificada, de entre todas las unidades de codificación de acuerdo con las profundidades incluidas en la unidad de codificación máxima. Una unidad de codificación que tiene una profundidad codificada puede determinarse jerárquicamente de acuerdo con las profundidades en la misma región de la unidad de codificación máxima, y puede determinarse de forma independiente en regiones diferentes. De manera similar, una profundidad codificada en una región actual puede determinarse de forma independiente a partir de una profundidad codificada en otra región.

Una profundidad máxima de acuerdo con una realización de la presente invención es un índice relacionado con el número de veces que se realiza una división desde una unidad de codificación máxima a una unidad de codificación mínima. Una primera profundidad máxima de acuerdo con una realización de la presente invención puede indicar el número total de veces que se realiza una división desde la unidad de codificación máxima a la unidad de codificación mínima. Una segunda profundidad máxima de acuerdo con una realización de la presente invención puede indicar el número total de niveles de profundidad desde la unidad de codificación máxima a la unidad de codificación mínima. Por ejemplo, cuando una profundidad de la unidad de codificación máxima es 0, una profundidad de una unidad de codificación, en la que la unidad de codificación máxima se divide una vez, puede establecerse a 1, y una profundidad de una unidad de codificación, en la que la unidad de codificación máxima se divide dos veces, puede establecerse a 2. En este punto, si la unidad de codificación mínima es una unidad de codificación en la que la unidad de codificación máxima se divide cuatro veces, existen cinco niveles de profundidad de profundidades 0, 1,2, 3 y 4 y, por lo tanto, la primera profundidad máxima puede establecerse a 4, y la segunda profundidad máxima puede establecerse a 5.

Puede realizarse codificación por predicción y transformación de acuerdo con la unidad de codificación máxima. La codificación por predicción y la transformación se realizan también a base de las unidades de codificación de acuerdo con una profundidad igual a o profundidades menores que la profundidad máxima, de acuerdo con la unidad de codificación máxima.

Ya que el número de unidades de codificación de acuerdo con las profundidades aumenta siempre que la unidad de codificación máxima se divide de acuerdo con las profundidades, se realiza codificación que incluye la codificación por predicción y la transformación en todas las unidades de codificación de acuerdo con las profundidades generadas a medida que la profundidad se hace más profunda. Por conveniencia de descripción, la codificación por predicción y la transformación se describirán ahora a base de una unidad de codificación de una profundidad actual, en una unidad de codificación máxima.

El dispositivo 100 de codificación de vídeo puede seleccionar de forma variada un tamaño o forma de una unidad de datos para la codificación de los datos de imagen. Para codificar los datos de imagen, se realizan operaciones, tales como codificación por predicción, transformación y codificación por entropía, y, en ese momento, puede usarse la misma unidad de datos para todas las operaciones o pueden usarse diferentes unidades de datos para cada operación.

Por ejemplo, el dispositivo 100 de codificación de vídeo puede seleccionar no únicamente una unidad de codificación de codificación de los datos de imagen, sino también una unidad de datos diferente de la unidad de codificación para realizar la codificación por predicción en los datos de imagen en la unidad de codificación.

Para realizar codificación por predicción en la unidad de codificación máxima, la codificación por predicción puede realizarse a base de una unidad de codificación que corresponde a una profundidad codificada, es decir, a base de una unidad de codificación que ya no se divide en unidades de codificación que corresponden a una profundidad inferior. En lo sucesivo, la unidad de codificación que ya no se divide y se convierte en una unidad base para codificación de predicción se denominará ahora como una 'unidad de predicción'. Una partición obtenida dividiendo la unidad de predicción puede incluir una unidad de predicción o una unidad de datos obtenida dividiendo al menos una de una altura y una anchura de la unidad de predicción.

Por ejemplo, cuando una unidad de codificación de 2Nx2N (en la que N es un entero positivo) ya no se divide más y se vuelve una unidad de predicción de 2Nx2N, un tamaño de una partición puede ser 2Nx2N, 2NxN, Nx2N o NxN. Ejemplos de un tipo de partición incluyen particiones simétricas que se obtienen dividiendo simétricamente una altura o anchura de la unidad de predicción, particiones obtenidas dividiendo asimétricamente la altura o anchura de la unidad de predicción, tal como 1:n o n:1, particiones que se obtienen dividiendo geométricamente la unidad de predicción, y particiones que tienen formas arbitrarias.

Un modo de predicción de la unidad de predicción puede ser al menos uno de un intra modo, un inter modo y un modo de salto. Por ejemplo, el intra modo o el inter modo pueden realizarse en la partición de 2Nx2N, 2NxN, Nx2N o NxN. También, el modo de salto puede realizarse únicamente en la partición de 2Nx2N. La codificación se realiza de forma independiente en una unidad de predicción en una unidad de codificación, seleccionando de esta manera un modo de predicción que tiene el error mínimo de codificación.

El dispositivo 100 de codificación de vídeo también puede realizar la transformación en los datos de imagen en una unidad de codificación a base no únicamente de la unidad de codificación de codificación de los datos de imagen, sino también a base de una unidad de datos que es diferente de la unidad de codificación.

Para realizar la transformación en la unidad de codificación, la transformación puede realizarse a base de una unidad de datos que tiene un tamaño menor o igual que la unidad de codificación. Por ejemplo, la unidad de datos para la transformación puede incluir una unidad de datos para un intra modo y una unidad de datos para un inter modo.

Una unidad de datos usada como una base de la transformación se denominará ahora como una 'unidad de transformación'. De manera similar a la unidad de codificación, la unidad de transformación en la unidad de codificación puede dividirse de forma recursiva en regiones con tamaño menor, de modo que la unidad de transformación puede determinarse de forma independiente en unidades de regiones. Por lo tanto, pueden dividirse datos residuales en la unidad de codificación de acuerdo con la unidad de transformación que tiene la estructura de árbol de acuerdo con las profundidades de transformación.

En la unidad de transformación también puede establecerse una profundidad de transformación que indica el número de veces que se realiza una división para alcanzar la unidad de transformación dividiendo la altura y anchura de la unidad de codificación. Por ejemplo, en una unidad de codificación actual de 2Nx2N, una profundidad de transformación puede ser 0 cuando el tamaño de una unidad de transformación es 2Nx2N, puede ser 1 cuando el tamaño de una unidad de transformación es NxN, y puede ser 2 cuando el tamaño de una unidad de transformación es N/2xN/2. Es decir, la unidad de transformación que tiene la estructura de árbol puede establecerse también de acuerdo con las profundidades de transformación.

La información de codificación de acuerdo con unidades de codificación que corresponden a una profundidad codificada requiere no únicamente información acerca de la profundidad codificada, sino también acerca de información relacionada con codificación por predicción y transformación. Por consiguiente, el codificador 110 jerárquico no determina únicamente una profundidad codificada que tiene el error mínimo de codificación, sino también determina un tipo de partición en una unidad de predicción, un modo de predicción de acuerdo con unidades de predicción y un tamaño de una unidad de transformación para transformación.

Las unidades de codificación de acuerdo con una estructura de árbol en una unidad de codificación máxima y un procedimiento de determinación de una partición, de acuerdo con las realizaciones de la presente invención, se describirán en detalle más adelante con referencia a las Figuras 3 a 12.

El codificador 110 jerárquico puede medir un error de codificación de unidades de codificación de acuerdo con las profundidades usando Optimización de Distorsión de Tasa a base de multiplicadores de Lagrange.

El codificador 120 por entropía emite los datos de imagen de la unidad de codificación máxima, que se codifica a base de la al menos una profundidad codificada determinada por el codificador 110 jerárquico, e información acerca del modo de codificación de acuerdo con la profundidad codificada, en un flujo de bits. Los datos de imagen codificados pueden ser un resultado de codificación de datos residuales de una imagen. La información acerca del modo de codificación de acuerdo con la profundidad codificada puede incluir información acerca de la profundidad codificada, información acerca del tipo de partición en la unidad de predicción, información de modo de predicción e información acerca del tamaño de la unidad de transformación. En particular, como se describirá más adelante, cuando se codifican los datos de imagen de la unidad de codificación máxima y símbolos relacionados con un modo de codificación de acuerdo con las profundidades, el codificador 120 por entropía puede realizar codificación por entropía seleccionando un modelo de contexto a base de información de estructura jerárquica de la información y unidad de datos con estructura jerárquica descritas anteriormente acerca de un componente de color usado en un procedimiento de codificación de vídeo distinto de la estructura jerárquica.

La información acerca de la profundidad codificada puede definirse usando información de división de acuerdo con las profundidades, que indica si se realiza codificación en unidades de codificación de una profundidad inferior en lugar de una profundidad actual. Si la profundidad actual de la unidad de codificación actual es la profundidad codificada, se codifican y emiten datos de imagen en la unidad de codificación actual y, por lo tanto, la información de división puede definirse para no dividir la unidad de codificación actual a una profundidad inferior. Como alternativa, si la profundidad actual de la unidad de codificación actual no es la profundidad codificada, se realiza la codificación en la unidad de codificación de la profundidad inferior y, por lo tanto, la información de división puede definirse para dividir la unidad de codificación actual para obtener las unidades de codificación de la profundidad inferior.

Si la profundidad actual no es la profundidad codificada, se realiza codificación en la unidad de codificación que se divide en la unidad de codificación de la profundidad inferior. Ya que al menos existe una unidad de codificación de la profundidad inferior en una unidad de codificación de la profundidad actual, la codificación se realiza de forma repetitiva en cada unidad de codificación de la profundidad inferior y, por lo tanto, la codificación puede realizarse de forma recursiva para las unidades de codificación que tienen la misma profundidad.

Ya que se determinan las unidades de codificación que tienen una estructura de árbol para una unidad de codificación máxima, y se determina información acerca de al menos un modo de codificación para una unidad de codificación de una profundidad codificada, puede determinarse información acerca de al menos un modo de codificación para una unidad de codificación máxima. También, una profundidad codificada de los datos de imagen de la unidad de codificación máxima puede ser diferente de acuerdo con las localizaciones ya que los datos de imagen se dividen jerárquicamente de acuerdo con las profundidades y, por lo tanto, puede establecerse información acerca de la profundidad codificada y el modo de codificación para los datos de imagen.

Por consiguiente, el codificador 120 por entropía puede asignar información de codificación acerca de una correspondiente profundidad codificada y un modo de codificación a al menos una de la unidad de codificación, la unidad de predicción y una unidad mínima incluida en la unidad de codificación máxima.

La unidad mínima de acuerdo con una realización de la presente invención es una unidad de datos con forma cuadrada obtenida dividiendo la unidad de codificación mínima que constituye la profundidad más inferior por 4. Como alternativa, la unidad mínima puede ser una unidad de datos máxima con forma cuadrada que puede incluirse en todas las unidades de codificación, unidades de predicción, unidades de partición y unidades de transformación incluidas en la unidad de codificación máxima.

Por ejemplo, la información de codificación emitida a través del codificador 120 por entropía puede clasificarse en información de codificación de acuerdo con unidades de codificación e información de codificación de acuerdo con unidades de predicción. La información de codificación de acuerdo con las unidades de codificación puede incluir la información acerca del modo de predicción y acerca del tamaño de las particiones. La información de codificación de acuerdo con las unidades de predicción puede incluir información acerca de una dirección estimada de un inter modo, acerca de un índice de imagen de referencia del inter modo, acerca de un vector de movimiento, acerca de un componente de crominancia de un intra modo, y acerca de un procedimiento de interpolación del intra modo. También, en un encabezamiento de un flujo de bits puede insertarse información acerca de un tamaño máximo de la unidad de codificación definida de acuerdo con instantáneas, cortes o un grupo de instantáneas (GOP) e información acerca de una profundidad máxima.

En el dispositivo 100 de codificación de vídeo, la unidad de codificación de acuerdo con las profundidades puede ser una unidad de codificación obtenida dividiendo una altura o anchura de una unidad de codificación de una profundidad superior, que es una capa superior, por dos. En otras palabras, cuando el tamaño de la unidad de codificación de la profundidad actual es 2Nx2N, el tamaño de la unidad de codificación de la profundidad inferior es NxN. También, la unidad de codificación de la profundidad actual que tiene el tamaño de 2Nx2N puede incluir un número máximo de cuatro unidades de codificación de la profundidad inferior.

Por consiguiente, el dispositivo 100 de codificación de vídeo puede formar las unidades de codificación que tienen la estructura de árbol determinando unidades de codificación que tienen una forma óptima y un tamaño óptimo para cada unidad de codificación máxima, a base del tamaño de la unidad de codificación máxima y la profundidad máxima determinadas considerando características de la instantánea actual. También, ya que puede realizarse codificación en cada unidad de codificación máxima usando uno cualquiera de diversos modos de predicción y transformaciones, puede determinarse un modo de codificación óptimo considerando características de la unidad de codificación de diversos tamaños de imagen.

Por lo tanto, si una imagen que tiene una alta resolución o una gran cantidad de datos se codifica en un macrobloque convencional, aumenta excesivamente un número de macrobloques por instantánea. Por consiguiente, aumenta un número de piezas de información comprimida generadas para cada macrobloque y, por lo tanto, es difícil transmitir la información comprimida y se reduce la eficacia de compresión de datos. Sin embargo, usando el dispositivo 100 de codificación de vídeo, puede aumentarse la eficiencia de compresión de imagen ya que una unidad de codificación se ajusta mientras considera características de una imagen mientras aumenta un tamaño máximo de una unidad de codificación mientras considera un tamaño de la imagen.

La Figura 2 es un diagrama de bloques de un dispositivo 200 de decodificación de vídeo de acuerdo con una realización de la presente invención.

El dispositivo 200 de decodificación de vídeo incluye una unidad 210 de extracción de símbolo, un decodificador 220 por entropía y un decodificador 230 jerárquico. Definiciones de diversas expresiones, tales como una unidad de codificación, una profundidad, una unidad de predicción, una unidad de transformación, e información acerca de diversos modos de codificación, para diversas operaciones del dispositivo 200 de decodificación de vídeo son idénticas a las descritas con referencia a la Figura 1 y el dispositivo 100 de codificación de vídeo.

La unidad 210 de extracción de símbolo recibe y analiza un flujo de bits de un vídeo codificado. El decodificador 220 por entropía extrae datos de imagen codificados para cada unidad de codificación a partir del flujo de bits analizado, en el que las unidades de codificación tienen una estructura de árbol de acuerdo con cada unidad de codificación máxima, y emite los datos de imagen extraídos al decodificador 230 jerárquico. El decodificador 220 por entropía puede extraer información acerca del tamaño máximo de una unidad de codificación de una instantánea actual a partir de un encabezamiento de la instantánea actual.

También, el decodificador 220 por entropía extrae información acerca de una profundidad codificada y un modo de codificación para las unidades de codificación que tienen una estructura de árbol de acuerdo con cada unidad de codificación máxima, a partir del flujo de bits analizado. La información extraída acerca de la profundidad codificada y el modo de codificación se emite al decodificador 230 jerárquico. En otras palabras, los datos de imagen en un flujo de bits se dividen en la unidad de codificación máxima de modo que el decodificador 230 jerárquico puede decodificar los datos de imagen para cada unidad de codificación máxima.

La información acerca de la profundidad codificada y el modo de codificación de acuerdo con la unidad de codificación máxima puede establecerse para información acerca de al menos una unidad de codificación que corresponde a la profundidad codificada, y la información acerca de un modo de codificación puede incluir información acerca de un tipo de partición de una unidad de codificación correspondiente que corresponde a la profundidad codificada, acerca de un modo de predicción, y un tamaño de una unidad de transformación. También, la información de división de acuerdo con las profundidades puede extraerse como la información acerca de la profundidad codificada.

La información acerca de la profundidad codificada y el modo de codificación de acuerdo con cada unidad de codificación máxima extraída por el decodificador 220 por entropía es información acerca de una profundidad codificada y un modo de codificación determinado para generar un error de codificación mínimo cuando un codificador, tal como el dispositivo 100 de codificación de vídeo, realiza de forma repetitiva codificación para cada unidad de codificación de acuerdo con las profundidades de acuerdo con las profundidades de acuerdo con cada unidad de codificación máxima. Por consiguiente, el dispositivo 200 de decodificación de vídeo puede restaurar una imagen decodificando los datos de imagen de acuerdo con una profundidad codificada y un modo de codificación que genera el error de codificación mínimo.

Ya que la información de codificación acerca de la profundidad codificada y el modo de codificación puede asignarse a una unidad de datos predeterminada de entre una unidad de codificación correspondiente, una unidad de predicción y una unidad mínima, el decodificador 220 por entropía puede extraer la información acerca de la profundidad codificada y el modo de codificación de acuerdo con las unidades de datos predeterminadas. Las unidades de datos predeterminadas a las que se asignan la misma información acerca de la profundidad codificada y el modo de codificación pueden inferirse para ser las unidades de datos incluidas en la misma unidad de codificación máxima.

También, como se describirá más adelante, cuando se decodifican los datos de imagen de la unidad de codificación máxima y símbolos relacionados con un modo de codificación de acuerdo con las profundidades, el decodificador 220 por entropía puede realizar decodificación por entropía seleccionando un modelo de contexto a base de información de estructura jerárquica de la información y unidad de datos con estructura jerárquica descritas anteriormente acerca de diversa información, tal como un componente de color, distinta de la estructura jerárquica.

El decodificador 230 jerárquico restaura la instantánea actual decodificando los datos de imagen en cada unidad de codificación máxima a base de la información acerca de la profundidad codificada y el modo de codificación de acuerdo con las unidades de codificación máxima. En otras palabras, el decodificador 230 jerárquico puede decodificar los datos de imagen codificados a base de la información extraída acerca del tipo de partición, el modo de predicción y la unidad de transformación para cada unidad de codificación de entre las unidades de codificación que tienen la estructura de árbol incluida en cada unidad de codificación máxima. Un procedimiento de decodificación puede incluir predicción que incluye intra predicción y compensación de movimiento, y transformación inversa.

El decodificador 230 jerárquico puede realizar intra predicción o compensación de movimiento de acuerdo con una partición y un modo de predicción de cada unidad de codificación, a base de la información acerca del tipo de partición y el modo de predicción de la unidad de predicción de la unidad de codificación de acuerdo con las profundidades codificadas.

También, el decodificador 230 jerárquico puede realizar transformación inversa de acuerdo con cada unidad de transformación en la unidad de codificación, a base de la información acerca del tamaño de la unidad de transformación de la unidad de codificación de acuerdo con profundidades codificadas, para realizar la transformación inversa de acuerdo con unidades de codificación máxima.

El decodificador 230 jerárquico puede determinar al menos una profundidad codificada de una unidad de codificación máxima actual usando información de división de acuerdo con las profundidades. Si la información de división indica que los datos de imagen ya no se dividen en la profundidad actual, la profundidad actual es una profundidad codificada. Por consiguiente, el decodificador 230 jerárquico puede decodificar la unidad de codificación de la profundidad actual con respecto a los datos de imagen de la unidad de codificación máxima actual usando la información acerca del tipo de partición de la unidad de predicción, el modo de predicción y el tamaño de la unidad de transformación.

En otras palabras, pueden recopilarse unidades de datos que contienen la información de codificación que incluye la misma información de división observando la información de codificación establecida asignada a la unidad de datos predeterminada de entre la unidad de codificación, la unidad de predicción, y la unidad mínima, y las unidades de datos recopiladas pueden considerarse que son una unidad de datos a decodificar por el decodificador 230 jerárquico en el mismo modo de codificación.

El dispositivo 200 de decodificación de vídeo puede obtener información acerca de al menos una unidad de codificación que genera el error de codificación mínimo cuando se realiza codificación de forma recurrente para cada unidad de codificación máxima, y puede usar la información para decodificar la instantánea actual. En otras palabras, pueden decodificarse datos de imagen codificados de las unidades de codificación que tienen la estructura de árbol determinadas para ser las unidades de codificación óptimas en cada unidad de codificación máxima.

Por consiguiente, incluso si datos de imagen tienen una alta resolución y una gran cantidad de datos, los datos de imagen pueden decodificarse y restaurarse de forma eficiente usando un tamaño de una unidad de codificación y un modo de codificación, que se determinan adaptativamente de acuerdo con características de los datos de imagen, usando información acerca de un modo de codificación óptimo recibido desde un codificador.

Se describirá ahora un procedimiento de determinación de unidades de codificación que tienen una estructura de árbol, una unidad de predicción y una unidad de transformación, de acuerdo con una realización de la presente invención, con referencia a las Figuras 3 a 13.

La Figura 3 es un diagrama para describir un concepto de unidades de codificación de acuerdo con una realización de la presente invención.

Un tamaño de una unidad de codificación puede expresarse en anchura x altura, y puede ser 64x64, 32x32, 16x16 y 8x8. Una unidad de codificación de 64x64 puede dividirse en particiones de 64x64, 64x32, 32x64 o 32x32; y una unidad de codificación de 32x32 puede dividirse en particiones de 32x32, 32x16, 16x32 o 16x16; una unidad de codificación de 16x16 puede dividirse en particiones de 16x16, 16x8, 8x16 u 8x8; y una unidad de codificación de 8x8 puede dividirse en particiones de 8x8, 8x4, 4x8 o 4x4.

En los datos 310 de vídeo, una resolución es 1920x1080, un tamaño máximo de una unidad de codificación es 64, y una profundidad máxima es 2. En los datos 320 de vídeo, una resolución es 1920x1080, un tamaño máximo de una unidad de codificación es 64, y una profundidad máxima es 3. En los datos 330 de vídeo, una resolución es 352x288, un tamaño máximo de una unidad de codificación es 16, y una profundidad máxima es 1. La profundidad máxima mostrada en la Figura 3 indica un número total de divisiones desde una unidad de codificación máxima a una unidad de codificación mínima.

Si una resolución es alta o una cantidad de datos es grande, un tamaño máximo de una unidad de codificación puede ser grande para no aumentar únicamente la eficacia de codificación sino también para reflejar con precisión características de una imagen. Por consiguiente, el tamaño máximo de la unidad de codificación de los datos 310 y 320 de vídeo que tienen una resolución mayor que los datos 330 de vídeo puede ser 64.

Ya que la profundidad máxima de los datos 310 de vídeo es 2, las unidades de codificación 315 de los datos 310 de vídeo pueden incluir una unidad de codificación máxima que tiene un tamaño de eje largo de 64, y unidades de codificación que tienen tamaños de eje largo de 32 y 16 ya que las profundidades se hacen más profundas a dos capas dividiendo dos veces la unidad de codificación máxima. Mientras tanto, ya que la profundidad máxima de los datos 330 de vídeo es 1, las unidades 335 de codificación de los datos 330 de vídeo pueden incluir una unidad de codificación máxima que tiene un tamaño de eje largo de 16, y unidades de codificación que tienen un tamaño de eje largo de 8 ya que las profundidades se hacen más profundas a una capa dividiendo una vez la unidad de codificación máxima.

Ya que la profundidad máxima de los datos 320 de vídeo es 3, las unidades 325 de codificación de los datos 320 de vídeo pueden incluir una unidad de codificación máxima que tiene un tamaño de eje largo de 64, y unidades de codificación que tienen tamaños de eje largo de 32, 16, y 8 ya que las profundidades se hacen más profundas a 3 capas dividiendo tres veces la unidad de codificación máxima. A medida que una profundidad se hace más profunda, puede expresarse de forma precisa información detallada.

La Figura 4 es un diagrama de bloques de un codificador 400 de vídeo a base de unidades de codificación que tienen una estructura jerárquica, de acuerdo con una realización de la presente invención.

Un intra predictor 410 realiza intra predicción en unidades de codificación en un intra modo, con respecto a un fotograma actual 405, y un estimador 420 de movimiento y un compensador 425 de movimiento respectivamente realizan inter estimación y compensación de movimiento en unidades de codificación en un inter modo usando el fotograma 405 actual y un fotograma 495 de referencia.

Los datos emitidos desde el intra predictor 410, el estimador 420 de movimiento y el compensador 425 de movimiento se emiten como un coeficiente de transformación cuantificado a través de un transformador 430 y un cuantificador 440. El coeficiente de transformación cuantificado se restaura como datos en un dominio espacial a través de un cuantificador 460 inverso y un transformador 470 inverso, y los datos restaurados en el dominio espacial se emiten como el fotograma 495 de referencia después de posprocesarse a través de una unidad 480 de desbloqueo y una unidad 490 de filtrado de bucle. El coeficiente de transformación cuantificado puede emitirse como un flujo 455 de bits a través de un codificador 450 por entropía.

Cuando se codifican los datos de imagen de la unidad de codificación máxima y símbolos relacionados con un modo de codificación de acuerdo con las profundidades, el codificador 450 por entropía puede realizar decodificación por entropía seleccionando un modelo de contexto a base de información de estructura jerárquica de la unidad de datos con estructura jerárquica y diversa información, tal como un componente de color, distinta la estructura jerárquica.

Para que el codificador 400 de vídeo se aplique en el dispositivo 100 de codificación de vídeo, todos los elementos del codificador 400 de vídeo, es decir, el intra predictor 410, el estimador 420 de movimiento, el compensador 425 de movimiento, el transformador 430, el cuantificador 440, el codificador 450 por entropía, el cuantificador 460 inverso, el transformador 470 inverso, la unidad 480 de desbloqueo y la unidad 490 de filtrado de bucle, realizan operaciones a base de cada unidad de codificación de entre unidades de codificación que tienen una estructura de árbol mientras considera la profundidad máxima de cada unidad de codificación máxima.

Específicamente, el intra predictor 410, el estimador 420 de movimiento y el compensador 425 de movimiento determinan particiones y un modo de predicción de cada unidad de codificación de entre las unidades de codificación que tienen una estructura de árbol mientras considera el tamaño máximo y la profundidad máxima de una unidad de codificación máxima actual, y el transformador 430 determina el tamaño de la unidad de transformación en cada unidad de codificación de entre las unidades de codificación que tienen una estructura de árbol. También, el codificador 450 por entropía de acuerdo con la presente realización puede realizar codificación por entropía seleccionando un modelo de contexto usado para la codificación por entropía a base de información de estructura jerárquica de la unidad de datos con estructura jerárquica y diversa información, tal como un componente de color, distinta la estructura jerárquica de acuerdo con el tipo de un correspondiente símbolo.

La Figura 5 es un diagrama de bloques de un decodificador 500 de vídeo basando en unidades de codificación, de acuerdo con una realización de la presente invención.

Un analizador 510 analiza datos de imagen codificados a decodificar e información acerca de codificación requerida para decodificar, de una secuencia de bits 505. Los datos de imagen codificados se emiten como datos cuantificados inversos a través de un decodificador 520 por entropía y un cuantificador 530 inverso, y los datos cuantificados inversos se restauran a datos de imagen en un dominio espacial a través de un transformador 540 inverso.

Un intra predictor 550 realiza intra predicción en unidades de codificación en un intra modo con respecto a los datos de imagen en el dominio espacial, y un compensador 560 de movimiento realiza compensación de movimiento en unidades de codificación en un inter modo usando un fotograma 585 de referencia.

Los datos de imagen en el dominio espacial, que pasan a través del intra predictor 550 y el compensador 560 de movimiento, pueden emitirse como un fotograma 595 restaurado después de posprocesarse a través de una unidad 570 de desbloqueo y una unidad 580 de filtrado de bucle. También, los datos de imagen, que se posprocesan a través de la unidad 570 de desbloqueo y la unidad 580 de filtrado de bucle, pueden emitirse como el fotograma 585 de referencia.

Para que el decodificador 500 de vídeo se aplique en el dispositivo 200 de decodificación de vídeo, todos los elementos del decodificador 500 de vídeo, es decir, el analizador 510, el decodificador 520 por entropía, el cuantificador 530 inverso, el transformador 540 inverso, el intra predictor 550, el compensador 560 de movimiento, la unidad 570 de desbloqueo y la unidad 580 de filtrado de bucle, realizan operaciones a base de unidades de codificación que tienen una estructura de árbol para cada unidad de codificación máxima.

En particular, el intra predictor 550 y el compensador 560 de movimiento determinan una partición y un modo de predicción para cada unidad de codificación que tiene una estructura de árbol, y el transformador 540 inverso tiene que determinar un tamaño de una unidad de transformación para cada unidad de codificación. También, el decodificador 520 por entropía de acuerdo con la presente realización puede realizar decodificación por entropía seleccionando un modelo de contexto usado para la decodificación por entropía de los datos de imagen codificados que tienen que decodificarse y símbolos que indican información acerca de codificación necesaria para decodificación, a base de información de estructura jerárquica de la unidad de datos con estructura jerárquica y diversa información, tal como un componente de color, distinta la estructura jerárquica de acuerdo con el tipo de un símbolo correspondiente.

La Figura 6 es un diagrama que ilustra unidades de codificación de acuerdo con las profundidades, y particiones, de acuerdo con una realización de la presente invención.

El dispositivo 100 de codificación de vídeo y el dispositivo 200 de decodificación de vídeo usan unidades de codificación jerárquica para considerar características de una imagen. Puede determinarse de forma adaptativa una altura máxima, una anchura máxima y una profundidad máxima de unidades de codificación de acuerdo con las características de la imagen, o pueden establecerse de forma diferente por un usuario. Pueden determinarse tamaños de unidades de codificación de acuerdo con las profundidades de acuerdo con el tamaño máximo predeterminado de la unidad de codificación.

En una estructura 600 jerárquica de unidades de codificación de acuerdo con una realización de la presente invención, la altura máxima y la anchura máxima de las unidades de codificación son cada una 64, y la profundidad máxima es 4. Ya que una profundidad se hace más profunda a lo largo de un eje vertical de la estructura jerárquica 600, se dividen cada una de una altura y una anchura de la unidad de codificación de acuerdo con las profundidades. También, una unidad de predicción y particiones, que son bases para codificación de predicción de cada unidad de codificación de acuerdo con las profundidades, se muestran a lo largo de un eje horizontal de la estructura jerárquica 600.

En otras palabras, una unidad 610 de codificación es una unidad de codificación máxima en la estructura 600 jerárquica, en la que una profundidad es 0 y un tamaño, es decir, una altura por anchura, es 64x64. La profundidad se hace más profunda a lo largo del eje vertical, y existe una unidad 620 de codificación que tiene un tamaño de 32x32 y una profundidad de 1, una unidad 630 de codificación que tiene un tamaño de 16x16 y una profundidad de 2, una unidad 640 de codificación que tiene un tamaño de 8x8 y una profundidad de 3, y una unidad 650 de codificación que tiene un tamaño de 4x4 y una profundidad de 4. La unidad 650 de codificación que tiene el tamaño de 4x4 y la profundidad de 4 es una unidad de codificación mínima.

La unidad de predicción y las particiones de una unidad de codificación están dispuestas a lo largo del eje horizontal de acuerdo con cada profundidad. En otras palabras, si la unidad 610 de codificación que tiene el tamaño de 64x64 y la profundidad de 0 es una unidad de predicción, la unidad de predicción puede dividirse en particiones incluidas en la unidad 610 de codificación, es decir, una partición 610 que tiene un tamaño de 64x64, particiones 612 que tienen el tamaño de 64x32, particiones 614 que tienen el tamaño de 32x64 o particiones 616 que tienen el tamaño de 32x32.

De manera similar, una unidad de predicción de la unidad 620 de codificación que tiene el tamaño de 32x32 y la profundidad de 1 puede dividirse en particiones incluidas en la unidad 620 de codificación, es decir, una partición 620 que tiene un tamaño de 32x32, particiones 622 que tienen un tamaño de 32x16, particiones 624 que tienen un tamaño de 16x32 y particiones 626 que tienen un tamaño de 16x16.

De manera similar, una unidad de predicción de la unidad 630 de codificación que tiene el tamaño de 16x16 y la profundidad de 2 puede dividirse en particiones incluidas en la unidad 630 de codificación, es decir, una partición que tiene un tamaño de 16x16 incluida en la unidad 630 de codificación, particiones 632 que tienen un tamaño de 16x8, particiones 634 que tienen un tamaño de 8x16 y particiones 636 que tienen un tamaño de 8x8.

De manera similar, una unidad de predicción de la unidad 640 de codificación que tiene el tamaño de 8x8 y la profundidad de 3 puede dividirse en particiones incluidas en la unidad 640 de codificación, es decir, una partición que tiene un tamaño de 8x8 incluida en la unidad 640 de codificación, particiones 642 que tienen un tamaño de 8x4, particiones 644 que tienen un tamaño de 4x8 y particiones 646 que tienen un tamaño de 4x4.

La unidad 650 de codificación que tiene el tamaño de 4x4 y la profundidad de 4 es la unidad de codificación mínima y una unidad de codificación de la profundidad más inferior. Una unidad de predicción de la unidad 650 de codificación se asigna únicamente a una partición que tiene un tamaño de 4x4.

Para determinar la al menos una profundidad codificada de las unidades de codificación que constituyen la unidad 610 de codificación máxima, el codificador 110 jerárquico del dispositivo 100 de codificación de vídeo realiza codificación para unidades de codificación que corresponden a cada profundidad incluida en la unidad 610 de codificación máxima.

El número de unidades de codificación de acuerdo con las profundidades que incluyen datos en el mismo intervalo y el mismo tamaño aumenta a medida que la profundidad se hace más profunda. Por ejemplo, se requieren cuatro unidades de codificación que corresponden a una profundidad de 2 para cubrir datos que están incluidos en una unidad de codificación que corresponde a una profundidad de 1. Por consiguiente, para comparar resultados de codificación de los mismos datos de acuerdo con las profundidades, se codifica cada una de la unidad de codificación que corresponde a la profundidad de 1 y cuatro unidades de codificación que corresponden a la profundidad de 2.

Para realizar codificación para una profundidad actual de entre las profundidades, puede seleccionarse un error de codificación mínimo para la profundidad actual realizando codificación para cada unidad de predicción en las unidades de codificación que corresponden a la profundidad actual, a lo largo del eje horizontal de la estructura 600 jerárquica. Como alternativa, puede buscarse el error de codificación mínimo comparando los errores de codificación mínimos de acuerdo con las profundidades y realizando codificación para cada profundidad a medida que la profundidad se hace más profunda a lo largo del eje vertical de la estructura 600 jerárquica. Una profundidad y una partición que tiene el error de codificación mínimo en la unidad 610 de codificación pueden seleccionarse como la profundidad codificada y un tipo de partición de la unidad 610 de codificación.

La Figura 7 es un diagrama para describir una relación entre una unidad 710 de codificación y unidades 720 de transformación, de acuerdo con una realización de la presente invención.

El dispositivo 100 de codificación de vídeo o el dispositivo 200 de decodificación de vídeo codifica o decodifica una imagen de acuerdo con unidades de codificación que tienen tamaños más pequeños que o iguales a una unidad de codificación máxima para cada unidad de codificación máxima. Pueden seleccionarse tamaños de unidades de transformación para transformación durante la codificación a base de unidades de datos que ya no son más grandes que una unidad de codificación correspondiente.

Por ejemplo, en el dispositivo 100 de codificación de vídeo o el dispositivo 200 de decodificación de vídeo, si un tamaño de la unidad 710 de codificación es 64x64, puede realizarse una transformación usando las unidades 720 de transformación que tienen un tamaño de 32x32.

También, los datos de la unidad 710 de codificación que tiene el tamaño de 64x64 pueden codificarse realizando la transformación en cada una de las unidades de transformación que tienen el tamaño de 32x32, 16x16, 8x8 y 4x4, que son menores que 64x64, y a continuación puede seleccionarse una unidad de transformación que tiene el error de codificación mínimo.

La Figura 8 es un diagrama para describir información de codificación de unidades de codificación que corresponden a una profundidad codificada, de acuerdo con una realización de la presente invención.

Una unidad 130 de salida del dispositivo 100 de codificación de vídeo puede codificar y transmitir información 800 acerca de un tipo de partición, información 810 acerca de un modo de predicción, e información 820 acerca de un tamaño de una unidad de transformación para cada unidad de codificación que corresponde a una profundidad codificada, como información acerca de un modo de codificación.

La información 800 indica información acerca de una forma de una partición obtenida dividiendo una unidad de predicción de una unidad de codificación actual, en el que la partición es una unidad de datos para codificar por predicción la unidad de codificación actual. Por ejemplo, una unidad de codificación actual CU_0 que tiene un tamaño de 2Nx2N puede dividirse en una cualquiera de una partición 802 que tiene un tamaño de 2Nx2N, una partición 804 que tiene un tamaño de 2NxN, una partición 806 que tiene un tamaño de Nx2N y una partición 808 que tiene un tamaño de NxN. En este punto, la información 800 acerca de un tipo de partición se establece para indicar una de la partición 804 que tiene un tamaño de 2NxN, la partición 806 que tiene un tamaño de Nx2N y la partición 808 que tiene un tamaño de NxN

La información 810 indica un modo de predicción de cada partición. Por ejemplo, la información 810 puede indicar un modo de codificación por predicción realizado en una partición indicada por la información 800, es decir, un intra modo 812, un inter modo 814 o un modo 816 de salto.

La información 820 indica una unidad de transformación en la que basarse cuando se realiza transformación en una unidad de codificación actual. Por ejemplo, la unidad de transformación puede ser una primera unidad 822 de intra transformación, una segunda unidad 824 de intra transformación, una primera unidad 826 de inter transformación o una segunda unidad 828 de inter transformación.

El decodificador 220 por entropía del dispositivo 200 de decodificación de vídeo puede extraer y usar la información 800, 810 y 820 para decodificación, de acuerdo con cada unidad de codificación de acuerdo con las profundidades.

La Figura 9 es un diagrama de unidades de codificación de acuerdo con las profundidades, de acuerdo con una realización de la presente invención.

La información de división puede usarse para indicar un cambio de una profundidad. La información de división indica si una unidad de codificación de una profundidad actual se divide en unidades de codificación de una profundidad inferior.

Una unidad 910 de predicción para codificación por predicción de una unidad 900 de codificación que tiene una profundidad de 0 y un tamaño de 2N_0x2N_0 puede incluir particiones de un tipo de partición 912 que tiene un tamaño de 2N_0x2N_0, un tipo de partición 914 que tiene un tamaño de 2N_0xN_0, un tipo de partición 916 que tiene un tamaño de N_0x2N_0 y un tipo 918 de partición que tiene un tamaño de N_0xN_0. La Figura 9 únicamente ilustra los tipos 912 a 918 de partición que se obtienen dividiendo simétricamente la unidad 910 de predicción, aunque un tipo de partición no está limitado a los mismos, y las particiones de la unidad 910 de predicción pueden incluir particiones asimétricas, particiones que tienen una forma predeterminada y particiones que tienen una forma geométrica.

La codificación por predicción se realiza de forma repetitiva en una partición que tiene un tamaño de 2N_0x2N_0, dos particiones que tienen un tamaño de 2N_0xN_0, dos particiones que tienen un tamaño de N_0x2N_0, y cuatro particiones que tienen un tamaño de N_0xN_0, de acuerdo con cada tipo de partición. La codificación por predicción en un intra modo y un inter modo puede realizarse en las particiones que tienen los tamaños de 2N_0x2N_0, N_0x2N_0, 2N_0xN_0, y N_0xN_0. La codificación por predicción en un modo de salto se realiza únicamente en la partición que tiene el tamaño de 2N_0x2N_0.

Si un error de codificación es el menor en uno de los tipos 912 a 916 de división que tienen los tamaños de 2N_0x2N_0, 2N_0xN_0, y N_0x2N_0, la unidad 910 de predicción puede no dividirse en una profundidad inferior.

Si el error de codificación es el menor en el tipo de partición 918 que tiene el tamaño de N_0xN_0, se cambia una profundidad desde 0 a 1 para dividir el tipo de partición 918 en la operación 920, y se realiza codificación de forma repetitiva en tipo de partición unidades de codificación que tienen una profundidad de 2 y un tamaño de N_0xN_0 para buscar un error de codificación mínimo.

Una unidad 940 de predicción para codificación de predicción de la unidad 930 de codificación (de tipo de partición) que tiene una profundidad de 1 y un tamaño de 2N_1x2N_1 (=N_0xN_0) puede incluir particiones de un tipo de partición 942 que tiene un tamaño de 2N_1 x2N_1, un tipo de partición 944 que tiene un tamaño de 2N_1 xN_1, un tipo de partición 946 que tiene un tamaño de N_1x2N_1 y un tipo de partición 948 que tiene un tamaño de N_1xN_1.

Si un error de codificación es el menor en el tipo de partición 948 que tiene el tamaño de N_1xN_1, se cambia una profundidad de 1 a 2 para dividir el tipo de partición 948 en la operación 950, y se realiza codificación de forma repetitiva en unidades de codificación 960, que tienen una profundidad de 2 y un tamaño de N_2xN_2 para buscar un error de codificación mínimo.

Cuando una profundidad máxima es d, puede realizarse una operación de división de acuerdo con cada profundidad hasta que una profundidad se vuelve d-1, e información de división puede codificarse hasta que una profundidad es una de 0 a d-2. En otras palabras, cuando se realiza codificación hasta que la profundidad es d-1 después de que una unidad de codificación que corresponde a una profundidad de d-2 se divide en la operación 970, una unidad 990 de predicción para codificación de predicción de una unidad 980 de codificación que tiene una profundidad de d-1 y un tamaño de 2N_(d-1)x2N_(d-1) puede incluir particiones de un tipo 992 de partición que tiene un tamaño de 2N_(d-1)x2N_(d-1), un tipo 994 de partición que tiene un tamaño de 2N_(d-1)xN_(d-1), un tipo 996 de partición que tiene un tamaño de N_(d-1)x2N_(d-1) y un tipo 998 de partición que tiene un tamaño de N_(d-1)xN_(d-1).

La codificación por predicción puede realizarse de forma repetitiva en una partición que tiene un tamaño de 2N_(d-1)x2N_(d-1), dos particiones que tienen un tamaño de 2N_(d-1)xN_(d-1), dos particiones que tienen un tamaño de N_(d-1)x2N_(d-1), cuatro particiones que tienen un tamaño de N_(d-1)xN_(d-1) de entre los tipos 992 a 998 de partición para buscar un tipo de partición que tiene un error de codificación mínimo.

Incluso cuando el tipo 998 de partición que tiene el tamaño de N_(d-1)xN_(d-1) tiene el error de codificación mínimo, ya que una profundidad máxima es d, una unidad de codificación CU_(d-1) que tiene una profundidad de d-1 ya no se divide a una profundidad inferior, y una profundidad codificada para las unidades de codificación que constituyen la unidad 900 de codificación máxima actual se determina que es d-1 y un tipo de partición de la unidad 900 de codificación máxima actual puede determinarse que es N_(d-1)xN_(d-1). También, ya que la profundidad máxima es d, no se establece información de división para la unidad 980 de codificación mínima.

Una unidad 999 de datos puede ser una "unidad mínima" para la unidad de codificación máxima actual. Una unidad mínima de acuerdo con una realización de la presente invención puede ser una unidad de datos rectangular obtenida dividiendo la unidad 980 de codificación mínima por 4. Realizando la codificación de forma repetitiva, el dispositivo 100 de codificación de vídeo puede seleccionar una profundidad que tiene el último error de codificación comparando errores de codificación de acuerdo con las profundidades de la unidad 900 de codificación para determinar una profundidad codificada, y establecer un correspondiente tipo de partición y un modo de predicción como un modo de codificación de la profundidad codificada.

Como tal, los errores de codificación mínimos de acuerdo con las profundidades se comparan en todas las profundidades de 1 a d, y una profundidad que tiene el error de codificación mínimo puede determinarse como una profundidad codificada. La profundidad codificada, el tipo de partición de la unidad de predicción, y el modo de predicción pueden codificarse y transmitirse como información acerca de un modo de codificación. También, ya que una unidad de codificación se divide de una profundidad de 0 a una profundidad codificada, únicamente la información de división de la profundidad codificada se establece a 0, y la información de división de profundidades excluyendo la profundidad codificada se establece a 1.

El decodificador 220 por entropía del dispositivo 200 de decodificación de vídeo puede extraer y usar la información acerca de la profundidad codificada y la unidad de predicción de la unidad 900 de codificación para decodificar la unidad 912 de codificación. El dispositivo 200 de decodificación de vídeo puede determinar una profundidad, en la que la información de división es 0, como una profundidad codificada usando información de división de acuerdo con las profundidades, y usar información acerca de un modo de codificación de la correspondiente profundidad para decodificación.

Las Figuras 10 a 12 son diagramas para la descripción de una relación entre unidades 1010 de codificación, unidades 1060 de predicción y unidades 1070 de transformación de acuerdo con una realización de la presente invención.

Las unidades 1010 de codificación son unidades de codificación que tienen una estructura de árbol, correspondiendo a profundidades codificadas determinadas por el dispositivo 100 de codificación de vídeo, en una unidad de codificación máxima. Las unidades 1060 de predicción son particiones de unidades de predicción de cada una de las unidades 1010 de codificación, y las unidades 1070 de transformación son unidades de transformación de cada una de las unidades 1010 de codificación.

Cuando una profundidad de una unidad de codificación máxima es 0 en las unidades 1010 de codificación, las profundidades de las unidades 1012 y 1054 de codificación son 1, las profundidades de las unidades 1014, 1016, 1018, 1028, 1050 y 1052 de codificación son 2, las profundidades de las unidades 1020, 1022, 1024, 1026, 1030, 1032 y 1048 de codificación son 3 y las profundidades de las unidades 1040, 1042, 1044 y 1046 de codificación son 4.

En las unidades 1060 de predicción, algunas unidades de codificación 1014, 1016, 1022, 1032, 1048, 1050, 1052 y 1054 se obtienen dividiendo las unidades de codificación. En otras palabras, los tipos de partición en las unidades 1014, 1022, 1050 y 1054 de codificación tienen un tamaño de 2NxN, los tipos de partición en las unidades 1016, 1048 y 1052 de codificación tienen un tamaño de Nx2N, y un tipo de partición de la unidad 1032 de codificación tiene un tamaño de NxN. Las unidades de predicción y particiones de las unidades 1010 de codificación son menores o iguales que cada unidad de codificación.

La transformación o transformación inversa se realiza en datos de imagen de la unidad 1052 de codificación en las unidades 1070 de transformación en una unidad de datos que es menor que la unidad 1052 de codificación. También, las unidades 1014, 1016, 1022, 1032, 1048, 1050, 1052 y 1054 de codificación en las unidades 1070 de transformación son diferentes de aquellas en las unidades 1060 de predicción en términos de tamaños y formas. En otras palabras, el dispositivo 100 de codificación de vídeo y el dispositivo 200 de decodificación de vídeo puede realizar intra predicción, estimación de movimiento, compensación de movimiento, transformación y transformación inversa individualmente en una unidad de datos en la misma unidad de codificación.

Por consiguiente, se realiza codificación de forma recursiva en cada una de las unidades de codificación que tienen una estructura jerárquica en cada región de una unidad de codificación máxima para determinar una unidad de codificación óptima y, por lo tanto, pueden obtenerse las unidades de codificación que tienen una estructura de árbol recursiva. La información de codificación puede incluir información de división acerca de una unidad de codificación, información acerca de un tipo de partición, información acerca de un modo de predicción, e información acerca de un tamaño de una unidad de transformación. La Tabla 1 muestra la información de codificación que puede establecerse por el dispositivo 100 de codificación de vídeo y el dispositivo 200 de decodificación de vídeo.

[T l 11

Información de división 0

(Codificación en unidad de codificación que tiene tam

de d)

El codificador 120 por entropía del dispositivo 100 de codificación de vídeo puede emitir la información de codificación acerca de las unidades de codificación que tienen una estructura de árbol, y el decodificador 220 por entropía del dispositivo 200 de decodificación de vídeo puede extraer la información de codificación acerca de las unidades de codificación que tienen una estructura de árbol a partir de un flujo de bits recibido.

La información de división indica si una unidad de codificación actual se divide en unidades de codificación de una profundidad inferior. Si la información de división de una profundidad actual d es 0, una profundidad, en la que una unidad de codificación actual ya no se divide en una profundidad inferior, es una profundidad codificada y, por lo tanto, información acerca de un tipo de partición, un modo de predicción y un tamaño de una unidad de transformación pueden definirse para la profundidad codificada. Si la unidad de codificación actual se divide adicionalmente de acuerdo con la información de división, se realiza codificación de forma independiente en cuatro unidades de codificación de división de una profundidad inferior.

Un modo de predicción puede ser uno de un intra modo, un inter modo, y un modo de salto. El intra modo y el inter modo pueden definirse en todos los tipos de partición, y el modo de salto se define únicamente en un tipo de partición que tiene un tamaño de 2Nx2N.

La información acerca del tipo de partición puede indicar tipos de partición simétricos que tienen tamaños de 2Nx2N, 2NxN, Nx2N y NxN, que se obtienen dividiendo simétricamente una altura o una anchura de una unidad de predicción, y tipos de partición asimétrica que tienen tamaños de 2NxnU, 2NxnD, nLx2N y nRx2N, que se obtienen dividiendo asimétricamente la altura o anchura de la unidad de predicción. Los tipos de división asimétricos que tienen los tamaños de 2NxnU y 2NxnD pueden obtenerse respectivamente dividiendo la altura de la unidad de predicción en 1:n y n:1 (en la que n es un número entero mayor de 1), y los tipos de división asimétricos que tienen los tamaños de nLx2N y nRx2N pueden obtenerse respectivamente dividiendo la anchura de la unidad de predicción en 1:n y n:1.

El tamaño de la unidad de transformación puede establecerse para que sea dos tipos en el intra modo y dos tipos en el inter modo. En otras palabras, si la información de división de la unidad de transformación es 0, el tamaño de la unidad de transformación puede ser 2Nx2N, que es el tamaño de la unidad de codificación actual. Si la información de división de la unidad de transformación es 1, las unidades de transformación pueden obtenerse dividiendo la unidad de codificación actual. También, si un tipo de partición de la unidad de codificación actual que tiene el tamaño de 2Nx2N es un tipo de partición simétrico, un tamaño de una unidad de transformación puede ser NxN, y si el tipo de partición de la unidad de codificación actual es un tipo de partición asimétrico, el tamaño de la unidad de transformación puede ser N/2xN/2.

La información de codificación acerca de unidades de codificación que tienen una estructura de árbol puede incluir al menos una de una unidad de codificación que corresponde a una profundidad codificada, una unidad de predicción y una unidad mínima. La unidad de codificación que corresponde a la profundidad codificada puede incluir al menos una de una unidad de predicción y una unidad mínima que contiene la misma información de codificación.

Por consiguiente, se determina si las unidades de datos adyacentes se incluyen en la misma unidad de codificación que corresponde a la profundidad codificada comparando información de codificación de las unidades de datos adyacentes. También, una unidad de codificación correspondiente que corresponde a una profundidad codificada se determina usando información de codificación de una unidad de datos y, por lo tanto, puede determinarse una distribución de profundidades codificadas en una unidad de codificación máxima.

Por consiguiente, si una unidad de codificación actual se predice a base de información de codificación de unidades de datos adyacentes, puede hacerse referencia directamente y usarse información de codificación de unidades de datos en unidades de codificación de acuerdo con las profundidades adyacentes a la unidad de codificación actual.

Como alternativa, si una unidad de codificación actual se predice a base de información de codificación de unidades de datos adyacentes, se buscan unidades de datos adyacentes a la unidad de codificación actual usando información codificada de las unidades de datos, y puede hacerse referencia a las unidades de codificación adyacentes buscadas para predecir la unidad de codificación actual.

La Figura 13 es un diagrama de descripción de una relación entre una unidad de codificación, una unidad de predicción, y una unidad de transformación de acuerdo con la información de modo de codificación de la Tabla 1.

Una unidad 1300 de codificación máxima incluye unidades 1302, 1304, 1306, 1312, 1314, 1316, y 1318 de codificación de profundidades codificadas. En este punto, ya que la unidad 1318 de codificación es una unidad de codificación de una profundidad codificada, la información de división puede establecerse a 0. La información acerca de un tipo de partición de la unidad 1318 de codificación que tiene un tamaño de 2Nx2N puede establecerse para que sea uno de un tipo 1322 de partición que tiene un tamaño de 2Nx2N, un tipo 1324 de partición que tiene un tamaño de 2NxN, un tipo 1326 de partición que tiene un tamaño de Nx2N, un tipo 1328 de partición que tiene un tamaño de NxN, un tipo 1332 de partición que tiene un tamaño de 2NxnU, un tipo 1334 de partición que tiene un tamaño de 2NxnD, un tipo 1336 de partición que tiene un tamaño de nLx2N y un tipo 1338 de partición que tiene un tamaño de nRx2N.

Cuando el tipo de partición se establece para que sea simétrico, es decir, el tipo 1322, 1324, 1326 o 1328 de partición, se establece una unidad 1342 de transformación que tiene un tamaño de 2Nx2N si la información de división (bandera de tamaño de TU) de una unidad de transformación es 0, y se establece una unidad 1344 de transformación que tiene un tamaño de NxN si una bandera de tamaño de TU es 1.

Cuando el tipo de partición se establece para ser asimétrica, es decir, el tipo de partición 1332, 1334, 1336 o 1338, se establece una unidad de transformación 1352 que tiene un tamaño de 2Nx2N si una bandera de tamaño de TU es 0, y se establece una unidad de transformación 1354 que tiene un tamaño de N/2x N/2 si una bandera de tamaño de TU es 1.

La bandera de tamaño de TU es un tipo de índice de transformación; un tamaño de una unidad de transformación que corresponde a un índice de transformación puede modificarse de acuerdo con un tipo de unidad de predicción o un tipo de partición de una unidad de codificación.

Cuando el tipo de partición se establece para ser simétrico, es decir, el tipo de partición 1322, 1324, 1326 o 1328, se establece la unidad de transformación 1342 que tiene un tamaño de 2Nx2N si una bandera de tamaño de TU de una unidad de transformación es 0, y se establece la unidad de transformación 1344 que tiene un tamaño de NxN si una bandera de tamaño de TU es 1.

Cuando el tipo de partición se establece para ser asimétrica, es decir, el tipo de partición 1332 (2NxnU), 1334 (2NxnD), 1336 (nLx2N), o 1338 (nRx2N), se establece la unidad de transformación 1352 que tiene un tamaño de 2Nx2N si una bandera de tamaño de TU es 0, y se establece la unidad de transformación 1354 que tiene un tamaño de N/2xN/2 si una bandera de tamaño de TU es 1.

Haciendo referencia a la Figura 13, la bandera de tamaño de TU descrita anteriormente es una bandera que tiene un valor de 0 o 1, pero la bandera de tamaño de TU no se limita a 1 bit, y una unidad de transformación puede dividirse jerárquicamente mientras la bandera de tamaño de TU aumenta desde 0. La información de división de unidad de transformación (bandera de tamaño de TU) puede usarse como un ejemplo de un índice de transformación.

En este caso, cuando una bandera de tamaño de TU de acuerdo con una realización se usa con un tamaño máximo y un tamaño mínimo de una unidad de transformación, puede expresarse el tamaño de la unidad de transformación usada en la actualidad. El dispositivo 100 de codificación de vídeo puede codificar información de tamaño de unidad de transformación máxima, información de tamaño de unidad de transformación mínima e información de división de unidad de transformación máxima. La información de tamaño de unidad de transformación máxima codificada, información de tamaño de unidad de transformación mínima e información de división de unidad de transformación máxima pueden insertarse en un conjunto de parámetros de secuencia (SPS). El dispositivo 200 de decodificación de vídeo puede usar la información de tamaño de unidad de transformación máxima, la información de tamaño de unidad de transformación mínima y la información de división de unidad de transformación máxima para decodificación de vídeo.

Por ejemplo, (a) si un tamaño de una unidad de codificación actual es 64x64 y una unidad de transformación máxima es 32x32, (a-1) un tamaño de una unidad de transformación es 32x32 si una bandera de tamaño de TU es 0; (a-2) un tamaño de una unidad de transformación es 16x16 si una bandera de tamaño de TU es 1; y (a-3) un tamaño de una unidad de transformación es 8x8 si una bandera de tamaño de TU es 2.

Como alternativa, (b) si un tamaño de una unidad de codificación actual es 32x32 y una unidad de transformación mínima es 32x32, (b-1) un tamaño de una unidad de transformación es 32x32 si una bandera de tamaño de TU es 0, y ya que el tamaño de una unidad de transformación no puede ser menor de 32x32, no pueden establecerse más banderas de tamaño de TU.

Como alternativa, (c) si un tamaño de una unidad de codificación actual es 64x64 y una bandera de tamaño de TU máxima es 1, una bandera de tamaño de TU puede ser 0 o 1 y no pueden establecerse otras banderas de tamaño de TU.

Por consiguiente, cuando se define una bandera de tamaño de TU máxima como "MaxTransformSizelndex", una bandera de tamaño de TU mínima como "MinTransformSize" y una unidad de transformación en el caso en el que una bandera de tamaño de TU es 0, es decir, una unidad de transformación básica RootTu como "RootTuSize", un tamaño de una unidad de transformación mínima "CurrMinTuSize", que está disponible en una unidad de codificación actual, pueden definirse mediante la Ecuación (1) a continuación.

CurrMinTuSize

= max (MinTransformSize, RootTuSize/(2AMaxTransformSizelndex))... (1)

En comparación con el tamaño de la unidad de transformación mínima "CurrMinTuSize" que está disponible en la unidad de codificación actual, el tamaño de unidad de transformación básica "RootTuSize", que es un tamaño de una unidad de transformación cuando si una bandera de tamaño de TU es 0, puede indicar una unidad de transformación máxima que puede seleccionarse con respecto a un sistema. Es decir, de acuerdo con la ecuación (1), "RootTuSize/(2AMaxTransformSizelndex)" es un tamaño de una unidad de transformación que se obtiene dividiendo "RootTuSize", que es un tamaño de una unidad de transformación cuando información de división de unidad de transformación es 0, por el número de veces de división que corresponden a la información de división de unidad de transformación máxima, y "MinTransformSize" es un tamaño de una unidad de transformación mínima y, por lo tanto, un valor más pequeño de estas puede ser "CurrMinTuSize" que es el tamaño de la unidad de transformación mínima que está disponible en la unidad de codificación actual.

El tamaño de la unidad de transformación básica "RootTuSize" de acuerdo con una realización de la presente invención puede variar de acuerdo con un modo de predicción.

Por ejemplo, si un modo de predicción actual es un inter modo, puede determinarse RootTuSize de acuerdo con la Ecuación (2) a continuación. En la Ecuación (2), "MaxTransformSize" se refiere a un tamaño de unidad de transformación máxima, y "PUSize" se refiere a un tamaño de unidad de predicción actual.

RootTuSize = min(MaxTransformSize, PUSize)....... (2)

En otras palabras, si un modo de predicción actual es un inter modo, el tamaño del tamaño de unidad de transformación básica "RootTuSize", que es una unidad de transformación si una bandera de tamaño de TU es 0, puede establecerse a un valor más pequeño de entre el tamaño de unidad de transformación máxima y el tamaño de unidad de predicción actual.

Si un modo de predicción de una unidad de partición actual es un intra modo, "RootTuSize" puede determinarse de acuerdo con la ecuación (3) a continuación. "PartitionSize" se refiere a un tamaño de la unidad de partición actual.

RootTuSize = min(MaxTransformSize, PartitionSize)...... (3)

En otras palabras, si un modo de predicción actual es un intra modo, el tamaño de unidad de transformación básica "RootTuSize" puede establecerse a un valor más pequeño de entre el tamaño de unidad de transformación máxima y el tamaño de unidad de partición actual.

Sin embargo, se ha de observar que el tamaño del tamaño de unidad de transformación básica "RootTuSize", que es el tamaño de unidad de transformación máxima actual de acuerdo con una realización de la presente invención y varía de acuerdo con un modo de predicción de una unidad de partición, es un ejemplo, y factores de determinación del tamaño de unidad de transformación máxima actual no se limitan a los mismos.

En lo sucesivo, se describirán en detalle una operación de codificación por entropía de un símbolo, que se realiza en el codificador 120 por entropía del dispositivo 100 de codificación de vídeo de la Figura 1, y una operación de decodificación por entropía de un símbolo, que se realiza en el decodificador 220 por entropía del dispositivo 200 de decodificación de vídeo de la Figura 2.

Como se describe anteriormente, el dispositivo 100 de codificación de vídeo y el dispositivo 200 de decodificación de vídeo realizan codificación y decodificación dividiendo una unidad de codificación máxima en unidades de codificación que son menores que o iguales a una unidad de codificación máxima. Una unidad de predicción y una unidad de transformación usada en predicción y transformación puede determinarse a base de costes de forma independiente de otras unidades de datos. Ya que una unidad de codificación óptima puede determinarse codificando de forma recursiva cada unidad de codificación que tiene una estructura jerárquica incluida en la unidad de codificación máxima, pueden configurarse unidades de datos que tienen una estructura de árbol. En otras palabras, para cada unidad de codificación máxima, pueden configurarse una unidad de codificación que tiene una estructura de árbol y una unidad de predicción y una unidad de transformación teniendo, cada una, una estructura de árbol. Para decodificación, necesita transmitirse información jerárquica, que es información que indica información de estructura de unidades de datos que tienen una estructura jerárquica e información no jerárquica para la decodificación de otra distinta de información jerárquica.

La información relacionada con una estructura jerárquica es información necesaria para determinar una unidad de codificación que tiene una estructura de árbol, una unidad de predicción que tiene una estructura de árbol y una unidad de transformación que tiene una estructura de árbol, como se ha descrito con referencia a las Figuras 10 a 12, e incluye un tamaño de una unidad de codificación máxima, profundidad codificada, información de división de una unidad de predicción, una bandera de división que indica si una unidad de codificación se divide o no, información acerca del tamaño de una unidad de transformación y una bandera de división de unidad de transformación "bandera de tamaño de TU" que indica si se divide una unidad de transformación o no. Ejemplos de información de codificación distinta de información de estructura jerárquica incluyen información de modo de predicción de intra/inter predicción aplicada a cada unidad de predicción, información de vector de movimiento, información de dirección de predicción, información de componente de color aplicada a cada unidad de datos en el caso en el que se usan una pluralidad de componentes de color e información de textura, tal como un coeficiente de transformación.

La Figura 14 es un diagrama de bloques que ilustra una estructura de un dispositivo 1400 de codificación por entropía de acuerdo con una realización de la presente invención. El dispositivo 1400 de codificación por entropía de la Figura 14 corresponde al codificador 120 por entropía del dispositivo 100 de codificación de vídeo de la Figura 1. El dispositivo 1400 de codificación por entropía realiza codificación por entropía de símbolos que indican información relacionada con una estructura jerárquica que es un objetivo de codificación e información de codificación distinta de la información de estructura jerárquica.

Haciendo referencia a la Figura 14, el dispositivo 1400 de codificación por entropía de acuerdo con la presente realización incluye una unidad 1410 de modelado de contexto, un estimador 1420 de probabilidad y un codificador 1430 regular. La unidad 1410 de modelado de contexto determina un modelo de contexto usado para la codificación por entropía de un símbolo a base de información jerárquica de una unidad de datos a la que pertenece un símbolo de una instantánea codificada. En detalle, suponiendo que información jerárquica relacionada con la unidad de datos con estructura jerárquica a la que pertenece un símbolo objetivo codificado en la actualidad tiene un número I de valores de estado, en el que I es un entero positivo, la unidad 1410 de modelado de contexto puede establecer l o un número menor de modelos de contexto de acuerdo con un valor de estado de información jerárquica y puede determinar un modelo de contexto a usarse para la codificación de un símbolo actual asignando un índice de contexto que indica uno del l o un número menor de modelos de contexto de acuerdo con el valor de estado de la información jerárquica. Por ejemplo, el tamaño de una unidad de datos a la que pertenece el símbolo objetivo codificado en la actualidad tiene un total de cinco valores de estado de 2x2, 4x4, 8x8, 16x16, 32x32 y 64x64. Suponiendo que los tamaños de unidad de datos anteriores se usan como la información jerárquica, la unidad 1410 de modelado de contexto puede establecer cinco o un número menor de modelos de contexto de acuerdo con el tamaño de unidad de datos y puede determinar y emitir un índice de contexto que indica un modelo de contexto a usarse para la codificación por entropía de un símbolo actual a base del tamaño de una unidad de datos a la que pertenece el símbolo actual.

Además de la información de tamaño de unidad de datos absoluta como se describe anteriormente, puede usarse información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece un símbolo en relación con una unidad de datos mayor. Por ejemplo, cuando una unidad de datos actual es una unidad de datos que tiene un tamaño de NxN que se divide a partir de una unidad de datos mayor que tiene un tamaño de 2Nx2N, el tamaño de una unidad de datos a la que pertenece el símbolo actual puede determinarse a través de una bandera de división que indica si se divide o no una unidad de datos mayor que tiene un tamaño de 2Nx2N. Por lo tanto, la unidad 1410 de modelado de contexto puede determinar el tamaño de una unidad de datos a la que pertenece un símbolo actual a través de la bandera de división que indica información acerca del tamaño de una unidad de datos mayor y si se divide o no la unidad de datos mayor y a continuación determinar un modelo de contexto que es aplicable al símbolo actual a base de la información acerca del tamaño de unidad de datos determinado. También, información que indica una relación del tamaño de una unidad de datos a la que pertenece el símbolo actual al tamaño de una unidad de datos mayor puede usarse como la información jerárquica. Por ejemplo, cuando una unidad de datos actual tiene un tamaño en una relación de 1/2 de la unidad de datos mayor que tiene un tamaño de 2Nx2N, puede determinarse un tamaño de NxN que es el tamaño de una unidad de datos a la que pertenece el símbolo actual a partir de la información de relación anterior. Por lo tanto, la unidad 1410 de modelado de contexto puede determinar el tamaño de una unidad de datos a la que pertenece un símbolo actual usando información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece el símbolo actual en relación con la unidad de datos mayor, como la información jerárquica, y a continuación determinar un modelo de contexto a base del tamaño de unidad de datos determinado.

También, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para la codificación por entropía de un símbolo objetivo a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica de acuerdo con el tipo de un símbolo objetivo sujeto a la codificación por entropía. En detalle, suponiendo que información jerárquica relacionada con la unidad de datos con estructura jerárquica a la que pertenece un símbolo objetivo codificado en la actualidad tiene un número I de valores de estado y otra información no jerárquica distinta de la información jerárquica tiene un número J de valores de estado, en el que J es un entero positivo, el número de casos disponibles de la información jerárquica y la información no jerárquica es un total de IxJ. La unidad 1410 de modelado de contexto puede establecer IxJ o un número menor de modelos de contexto de acuerdo con una combinación del número IxJ de valores de estado y determinar un modelo de contexto a usarse para la codificación de un símbolo actual asignando un índice de contexto que indica uno del IxJ o un número menor de modelos de contexto de acuerdo con la información jerárquica de una unidad de datos a la que pertenece un símbolo actual y un valor de estado de la información no jerárquica. Por ejemplo, se supone un caso en el que se usa información acerca del tamaño de una unidad de datos a la que pertenece un símbolo que tiene un total de cinco valores de estado de 2x2, 4x4, 8x8, 16x16, 32x32 y 64x64 como la información jerárquica y se usa información de componente de color de una unidad de datos a la que pertenece un símbolo que tiene dos valores de estado de un componente de luminancia y un componente de crominancia como la información no jerárquica. En este caso, son posibles un total de 5x2, es decir, 10, combinaciones como los valores de estado de la información jerárquica y la información no jerárquica. La unidad 1410 de modelado de contexto establece diez o un número menor de modelos de contexto que corresponden a las diez combinaciones de valores de estado y determina y emite un índice de contexto determinado de acuerdo con un valor de estado relacionado con un símbolo actual.

La unidad 1410 de modelado de contexto, no limitada al ejemplo anterior, puede seleccionar uno de una pluralidad de modelos de contexto combinando de diversas formas la información jerárquica y la información no jerárquica de acuerdo con el tipo de un símbolo codificado. En otras palabras, n piezas de información jerárquica e información no jerárquica, en la que n es un número entero, se usan para la determinación de un modelo de contexto. Suponiendo que las n piezas de información jerárquica e información no jerárquica tienen cada una un número Si de valores de estado, en el que Si es un número entero e i es un número entero de 1 a n, la unidad 1410 de modelado de contexto puede determinar y emitir un índice de contexto que indica uno de una pluralidad de modelos de contexto que corresponden a un número S-ixS²x...xSn de combinaciones de valores de estado a base de un valor de estado relacionado con el símbolo codificado en la actualidad. El número S-ixS²x...xSn de combinaciones de valores de estado se agrupan y, por lo tanto, S-ixS²x...xSn o un número menor de modelos de contexto pueden usarse.

Haciendo referencia de nuevo a la Figura 14, el estimador 1420 de probabilidad determina y emite información acerca de una señal binaria que corresponde a un símbolo más probable (MPS) y un símbolo menos probable (LPS) entre señales binarias de 0 y 1 y valor de probabilidad información acerca de MPS o LPS, usando información de índice de contexto emitida desde la unidad 1410 de modelado de contexto. Puede determinarse un valor de probabilidad de MPS o LPS leyendo un valor de probabilidad indicado por un índice de contexto de una tabla de consulta preestablecida. También, los valores de probabilidad de MPS y LPS pueden actualizarse a base de un valor de acumulación de estadística de ocurrencia de una señal binaria.

El codificador 1430 regular realiza codificación por entropía y emite un símbolo actual a base de valor de probabilidad información e información de señal binaria que corresponde MPS o LPS.

El dispositivo 1400 de codificación por entropía puede codificar cada símbolo mediante un procedimiento de codificación de longitud variable de asignación de una palabra de código preestablecida de acuerdo con una combinación de información jerárquica e información no jerárquica, además de un procedimiento de codificación aritmética binaria adaptativa según contexto (CABAC) por el que se codifica un símbolo a base de los valores de probabilidad de MPS y LPS.

A continuación se describe un procedimiento de realización de codificación por entropía de símbolos usando modelado de contexto a base de información jerárquica. En detalle, se describe un procedimiento de realización de codificación por entropía de un símbolo relacionado con un coeficiente de transformación, un símbolo con una estructura jerárquica de una unidad de transformación y un símbolo de unidades de codificación con una estructura jerárquica.

La Figura 15 ilustra una unidad de datos con estructura jerárquica e información de división de unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención. En la siguiente descripción, se supone que una unidad de datos es una unidad de transformación.

Como se describe anteriormente, de acuerdo con la presente realización, se realiza codificación usando la unidad de codificación, la unidad de predicción y la unidad de transformación con una estructura jerárquica. En la Figura 15, una unidad de transformación 1500 que tiene un tamaño de NxN de nivel 0, que es el nivel más superior, se divide en unidades de transformación 31a, 31b, 31c, y 31d de nivel 1, que es un nivel inferior, que es un nivel inferior que el nivel más superior. Algunas unidades de transformación 31a y 31d de nivel 1 se dividen cada una en unidades de transformación 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h de nivel 2, que es un nivel inferior, por un nivel. Una bandera de división de unidad de transformación "Bandera de tamaño de TU" que indica si cada unidad de transformación se divide en unidades de transformación de un nivel inferior por un nivel puede usarse como un símbolo para indicar una estructura jerárquica de una unidad de transformación. Por ejemplo, cuando la bandera de tamaño de TU de una unidad de transformación actual es 1, puede mostrar que la unidad de transformación actual se divide en unidades de transformación de un nivel inferior. Cuando la bandera de tamaño de TU de una unidad de transformación actual es 0, puede mostrar que la unidad de transformación actual ya no se divide.

Cuando las unidades de transformación 31a, 31b, 31c, 31d, 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h, que se dividen a partir de la unidad de transformación de nivel 0, forman una estructura jerárquica, información de división de unidad de transformación de cada unidad de transformación puede formar una estructura jerárquica. En otras palabras, información de división de unidad de transformación 33 con una estructura jerárquica incluye información de división de unidad de transformación 34 del nivel más superior 0, información de división de unidad de transformación 35a, 35b, 35c y 35d de nivel 1 e información de división de unidad de transformación 36a, 36b, 36c, 36d, 36e, 36f, 36g, 36h de nivel 2.

De la información de división de unidad de transformación 33 con una estructura jerárquica, la información de división de unidad de transformación 34 de nivel 0 puede indicar que se divide la unidad de transformación del nivel más superior 0. De manera similar, cada una de la información de división de unidad de transformación 35a y 35d de nivel 1 puede indicar que las unidades de transformación 31a y 31d de nivel 1 se dividen en las unidades de transformación 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h de nivel 2.

Algunas unidades de transformación 31b y 31c de nivel 1 ya no se dividen y corresponden a un nodo hoja que no tiene ningún nodo hijo en una estructura de árbol. De manera similar, las unidades de transformación 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h de nivel 2 corresponden a nodos hoja que ya no se dividen en unidades de transformación de un nivel inferior.

Como tal, la bandera de tamaño de TU que indica si una unidad de transformación de un nivel superior se divide en una transformación de un nivel inferior puede usarse como un símbolo que indica una estructura jerárquica de una unidad de transformación.

Cuando la bandera de tamaño de TU que indica la estructura jerárquica de una unidad de transformación se codifica por entropía, el dispositivo 100 de codificación de vídeo de acuerdo con la presente realización puede codificar por entropía las banderas de tamaño de TU de todos los nodos o únicamente la bandera de tamaño de TU de un nodo hoja que no tiene ningún nodo hijo.

Las Figuras 16 y 17 son vistas de referencia que ilustran símbolos que indican una unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención. En las Figuras 16 y 17, se supone que una bandera es una bandera de tamaño de TU que indica si una unidad de transformación de cada nodo se divide en una unidad de transformación de un nivel inferior en una estructura de árbol de la información de división de unidad de transformación 33 de la Figura 15. Haciendo referencia a la Figura 16, el dispositivo 100 de codificación de vídeo de acuerdo con la presente realización que es un símbolo que indica una estructura jerárquica de una unidad de transformación puede realizar codificación por entropía de toda información de bandera de división de unidad de transformación flag0, flag1a, flag1b, flag1c, flag1d, flag2a, flag2b, flag2c, flag2d, flag2e, flag2f, flag2g y flag2h con respecto a las unidades de transformación 30, 31a, 31b, 31c, 31d, 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h de todos los niveles, como un símbolo que indica una estructura jerárquica de una unidad de transformación. También, como se ilustra en la Figura 17, el dispositivo 100 de codificación de vídeo puede codificar por entropía únicamente información de bandera de división de unidad de transformación flag1b, flag1c, flag2a, flag2b, flag2c, flag2d, flag2e, flag2f, flag2g y flag2h de unidades de transformación que corresponden al nodo hoja que no tiene ningún nodo hijo. Esto es porque si dividir una unidad de transformación de un nivel superior puede determinarse de acuerdo con la existencia de información de bandera de división de unidad de transformación de un nivel inferior. Por ejemplo, en la Figura 17, cuando existen las banderas de división de unidad de transformación flag2a, flag2b, flag2c, y flag2d de las unidades de transformación 36a, 36b, 36c y 36d de nivel 2, la unidad de transformación 35a de nivel 1 que es un nivel superior de las unidades de transformación 36a, 36b, 36c y 36d de nivel 2 se divide necesariamente en unidades de transformación de nivel 2 que son niveles inferiores de modo que la información de bandera de división de unidad de transformación flag1a de la unidad de transformación 35a de nivel 1 no necesita codificarse de forma separada.

El dispositivo 200 de decodificación de vídeo de acuerdo con la presente realización puede extraer y leer todas las banderas de división de unidad de transformación flag0, flag1a, flag1b, flag1c, flag1d, flag2a, flag2b, flag2c, flag2d, flag2e, flag2f, flag2g y flag2h con respecto a las unidades de transformación 30, 31a, 31b, 31c, 31d, 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h de todos los niveles de acuerdo con un modo de codificación jerárquica de símbolo, determinando de este modo una estructura jerárquica de una unidad de transformación. También, cuando se codifican únicamente las banderas de división de unidad de transformación flag1b, flag1c, flag2a, flag2b, flag2c, flag2d, flag2e, flag2f, flag2g y flag2h con respecto a las unidades de transformación 31b, 31c, 32a, 32b, 32c, 32d, 32e, 32f, 32g y 32h que corresponden al nodo hoja, el dispositivo 200 de decodificación de vídeo de acuerdo con la presente realización determina las otras banderas de división de unidad de transformación flag0, flag1a, flag1b, flag1c, y flag1d a base de las banderas de división de unidad de transformación extraídas flag1b, flag1c, flag2a, flag2b, flag2c, flag2d, flag2e, flag2f, flag2g y flag2h, determinando de este modo la estructura jerárquica de una unidad de transformación.

Como se describe anteriormente, la unidad 1410 de modelado de contexto puede determinar uno de una pluralidad de modelos de contexto para codificar por entropía una bandera de división de unidad de transformación que indica la estructura jerárquica de una unidad de transformación a base de un valor de estado de acuerdo con información jerárquica o una combinación de información jerárquica e información no jerárquica.

Específicamente, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para la codificación por entropía de una bandera de división de unidad de transformación actual a base de la información jerárquica de una unidad de transformación a la que pertenece la bandera de división de unidad de transformación actual a codificar.

La Figura 19 ilustra un ejemplo de índices de contexto para determinar un modelo de contexto a base del tamaño de una unidad de datos, de acuerdo con una realización de la presente invención. Haciendo referencia a la Figura 19, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto para la codificación por entropía de una bandera de unidad de transformación actual asignando uno de índices de contexto que indican una pluralidad de modelos de contexto preestablecidos a base de la información de un tamaño de una unidad de transformación a la que pertenece la bandera de unidad de transformación actual. Por ejemplo, cuando el tamaño de una unidad de transformación a la que pertenece la bandera de unidad de transformación actual es 16x16, se selecciona un modelo de contexto que tiene un valor de índice de contexto de 6.

La Figura 20 es una vista de referencia que ilustra un modelo de contexto de acuerdo con una realización de la presente invención. Como se describe anteriormente, el estimador 1420 de probabilidad determina y emite información acerca de una señal binaria que corresponde a MPS y LPS de señales binarias de "0" y "1" e información acerca de un valor de probabilidad de m Ps o LPS, usando información de índice de contexto emitida desde la unidad 1410 de modelado de contexto. Haciendo referencia a la Figura 20, el estimador 1420 de probabilidad incluye una pluralidad de probabilidades de ocurrencia de señales binarias en forma de una tabla de consulta, y cambios de una probabilidad de ocurrencia de una señal binaria de acuerdo con un símbolo codificado en la actualidad y una situación circundante y emite información de valor de probabilidad determinada al codificador 1430 regular. Específicamente, cuando se recibe un índice de contexto N.° de índice que indica un modelo de contexto a aplicar a un símbolo actual desde la unidad 1410 de modelado de contexto, el estimador 1420 de probabilidad puede determinar un índice pStateldx de una tabla de probabilidad de ocurrencia que corresponde a un correspondiente índice de contexto N.° de índice y una señal binaria que corresponde a MPS.

La Figura 21 es un gráfico de un valor de probabilidad de ocurrencia de MPS de acuerdo con una realización de la presente invención. Una tabla de probabilidad de ocurrencia indica un valor de probabilidad de MPS. Cuando se asigna un índice pStateldx de una tabla de probabilidad de ocurrencia, se determina un valor de probabilidad de un correspondiente MPS. Por ejemplo, cuando la unidad 1410 de modelado de contexto determina que un valor de un índice de un modelo de contexto usado para la codificación de un símbolo actual es 1 y emite el valor determinado, el estimador 1420 de probabilidad determina un valor de pStateldx de 7 y un valor de MPS de 0 que corresponde a índice de contexto 1 de los modelos de contexto en la Figura 20. También, el estimador 1420 de probabilidad determina un valor de probabilidad de MPS que corresponde a pStateldx=7 entre los valores de probabilidad de MPS preestablecidos de acuerdo con el valor de pStateldx. Ya que la suma de valores de probabilidad de MPS y LPS es 1, si se conoce un valor de probabilidad de uno de MPS y LPS, puede determinarse un valor de probabilidad de la señal binaria restante.

El estimador 1420 de probabilidad puede actualizar los valores de probabilidad de MPS y LPS considerando estadísticas de la ocurrencia de una señal binaria actualizando el valor de pStateldx de acuerdo con si se codifica MPS o LPS siempre que se codifica un único bin por el codificador 1430 regular. Por ejemplo, el estimador 1420 de probabilidad que considera un resultado de la codificación por el codificador 1430 regular puede establecer transIdxMPS que es un valor de pStateldx después de actualización cuando se codifica MPS y tranldxLPS que es un valor de pStateldx después de actualización cuando se codifica LPS, en forma de una tabla de consulta predeterminada. A continuación, el estimador 1420 de probabilidad puede cambiar el valor de probabilidad de MPS actualizando el valor de pStateldx para cada codificación.

El codificador 1430 regular realiza codificación por entropía y emite una señal binaria que corresponde a un símbolo actual a base de la información acerca de un valor de probabilidad y la información acerca de una señal binaria que corresponde a MPS o LPS.

La Figura 26 es un diagrama de descripción de un procedimiento de codificación aritmética binario realizado por el codificador 1430 regular de la Figura 14. En la Figura 26, se supone que la bandera de tamaño de TU que indica la estructura jerárquica de una unidad de transformación es un valor binario "010" y probabilidades de ocurrencia de 1 y 0 son 0,2 y 0,8, respectivamente. En este punto, la probabilidad de ocurrencia de 1 y 0 se determinan a base de la información jerárquica de una unidad de transformación, por ejemplo, información acerca del tamaño de una unidad de transformación, a la que pertenece una bandera de tamaño de TU.

Haciendo referencia a la Figura 26, cuando se codifica un valor de bin inicial "0" de un valor binario "010", se actualiza una sección [0,0-0,8] que es una porción 80 % inferior de una sección inicial [0,0-1,0] a una nueva sección. A continuación, se codifica cuando un siguiente valor de bin "1", se actualiza una sección [0,64-0,8] que es una porción 20 %superior de la sección [0,0-0,8] a una nueva sección. Cuando se codifica un siguiente "0", se actualiza una sección [0,64-0,768] que es una porción 80 % inferior de la sección [0,64-0,8] a una nueva sección. En un número binario "0,11" que corresponde a un número real "0,75" que pertenece a una sección final [0,64-0,768], "11" que es la parte decimal de 0,11, se emite como un flujo de bits que corresponde al valor binario "010" de la bandera de tamaño de TU.

Cuando se determina un modelo de contexto para codificación por entropía de una bandera de tamaño de TU a base de la información acerca del tamaño de una unidad de transformación, la unidad 1410 de modelado de contexto puede agrupar los tamaños de una unidad de transformación y establecer un índice de contexto para determinar un modelo de contexto, como se ilustra en la Figura 22.

La unidad 1410 de modelado de contexto puede usar información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece un símbolo en relación con una unidad de transformación mayor distinta de información de tamaño de unidad de transformación absoluta. Por ejemplo, una unidad de transformación actual es una unidad de transformación que tiene un tamaño de una relación de 1/2 con respecto a una unidad de transformación mayor que tiene un tamaño de 2Nx2N, la unidad 1410 de modelado de contexto puede determinar, a partir de la información de relación, una unidad de transformación a la que pertenece una bandera de tamaño de TU actual para tener un tamaño de NxN, y determina un modelo de contexto a base del tamaño determinado de una unidad de transformación.

La unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para codificación por entropía de una bandera de tamaño de TU a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica de acuerdo con el tipo de un símbolo objetivo a codificarse por entropía.

La Figura 25 es una vista de referencia que ilustra la determinación de un índice de contexto a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica, de acuerdo con una realización de la presente invención. Haciendo referencia a la Figura 25, la unidad 1410 de modelado de contexto establece un índice de contexto que indica uno de una pluralidad de modelos de contexto de acuerdo con una combinación de piezas de primera información p1 a pi que tiene un número I de valores de estado, en el que I es un número entero, y piezas de segunda información q1 a qJ que tienen un número J de valores de estado, en el que J es un número entero, y determina y emite un índice de contexto de acuerdo con la primera información y la segunda información relacionada con un símbolo codificado en la actualidad. Por ejemplo, cuando se usa información acerca del tamaño de una unidad de datos a la que un símbolo que tiene un total de cinco valores de estado 2x2, 4x4, 8x8, 16x16, 32x32 y 64x64 como la primera información y se usa información de componente de color que tiene dos valores de estado de un componente de luminancia y un componente de crominancia como la información no jerárquica, diez combinaciones están disponibles y la unidad 1410 de modelado de contexto establece diez o un número menor de modelos de contexto que corresponden a las diez combinaciones de valores de estado y determina y emite un índice de contexto determinado de acuerdo con un valor de estado relacionado con un símbolo actual. También, la unidad 1410 de modelado de contexto puede agrupar los valores de estado como en la Figura 22 para establecer un índice de contexto de acuerdo con valores de estado agrupados.

Como tal, la unidad 1410 de modelado de contexto de acuerdo con la presente realización puede seleccionar uno de una pluralidad de modelos de contexto combinando de forma variada información jerárquica e información no jerárquica de acuerdo con el tipo de un símbolo a codificar.

El procedimiento anteriormente descrito de codificación de un símbolo para indicar una estructura jerárquica de una unidad de transformación puede aplicarse de forma idéntica a un procedimiento de codificación de un símbolo que indica una estructura jerárquica de una unidad de codificación o una unidad de predicción. Una bandera de división que indica si cada unidad de codificación se divide en unidades de codificación de un nivel inferior por un nivel puede usarse como un símbolo para indicar una estructura jerárquica de una unidad de codificación. De forma similar a la codificación por entropía descrita anteriormente de una bandera de tamaño de TU, la bandera de división se codifica por entropía a base de un modelo de contexto seleccionado de acuerdo con un valor de estado obtenido combinando de forma variada información jerárquica e información no jerárquica.

A continuación se describe un procedimiento de codificación por entropía de un símbolo relacionado con un coeficiente de transformación. La Figura 18 es una vista de referencia para describir un procedimiento de codificación por entropía de un coeficiente de transformación, de acuerdo con una realización de la presente invención.

Un símbolo relacionado con coeficientes de transformación transformados a base de la estructura jerárquicas de unidades de transformación incluye una bandera "coded_block_flag" que indica si existe un valor de coeficiente de transformación que no es 0 en los coeficientes de transformación incluidos en la unidad de transformación, una bandera "significant_coeff_flag" que indica la posición de un coeficiente de transformación que no es 0, una bandera "last_significant_coeff_flag" que indica la posición de a final coeficiente de transformación que no es 0 y un valor absoluto del coeficiente de transformación que no es 0.

Cuando la bandera coded_block_flag es 0, que es un caso en el que no existe un coeficiente de transformación que no es 0 en una unidad de transformación actual, significa que no queda más información a transmitirse. Una bandera coded_block_flag que tiene un valor binario de 0 o 1 se determina para cada unidad de transformación. La bandera coded_block_flag puede codificarse por entropía de forma similar a la bandera de tamaño de TU que indica la estructura jerárquica de una unidad de transformación de la Figura 15. Cuando la bandera coded_block_flag de una unidad de transformación que corresponde a un nodo superior es 0, las banderas coded_block_flag de una unidad de transformación que corresponde a u nodo hijo tienen todas un valor de 0 y, por lo tanto, únicamente la bandera coded_block_flag de un nodo superior se codifica por entropía.

Haciendo referencia a la Figura 18, coeficientes de transformación en una unidad 2000 de transformación se exploran de acuerdo con un orden de exploración en zigzag. El orden de exploración puede cambiarse. En la Figura 18, se supone que todos los coeficientes de transformación que corresponden a un espacio vacío tienen 0. En la Figura 18, un coeficiente de transformación efectivo final es un coeficiente 2010 de transformación que tiene un valor de "-1". Mientras se explora cada coeficiente de transformación en la unidad 2000 de transformación, el dispositivo 1400 de codificación por entropía codifica la bandera "significant_coeff_flag" que indica si cada coeficiente de transformación es un coeficiente de transformación que no es 0 y la bandera "last_significant_coeff_flag" que indica si el coeficiente de transformación que no es 0 es un coeficiente de transformación que no es 0 en una posición final en el orden de exploración. En otras palabras, cuando la bandera significant_coeff_flag es 1, el coeficiente de transformación en la posición correspondiente es un coeficiente de transformación efectivo que tiene un valor que no es 0. Cuando la bandera significant_coeff_flag es 0, el coeficiente de transformación en la posición correspondiente es un coeficiente de transformación efectivo que tiene un valor que es 0. Cuando la bandera last_significant_coeff_flag es 0, un coeficiente de transformación efectivo posterior permanece en el orden de exploración. Cuando la bandera last_significant_coeff_flag es 1, el coeficiente de transformación en la posición correspondiente es un coeficiente de transformación efectivo final. Para indicar la posición de un coeficiente de transformación efectivo final, información de coordenadas que indica una posición relativa de un coeficiente de transformación efectivo final puede usarse en lugar de la bandera last_significant_coeff_flag. Por ejemplo, como se ilustra en la Figura 18, ya que el coeficiente 2010 de transformación "-1" como un coeficiente de transformación efectivo final se ubica en la quinta posición en la dirección de eje horizontal y en la quinta posición en la dirección de eje vertical con respecto al coeficiente de transformación en la posición más superior izquierda en la Figura 18, el dispositivo 1400 de codificación por entropía puede codificar un valor de x=5 y y=5 como información de posición de un coeficiente de transformación efectivo final.

La unidad 1410 de modelado de contexto puede determinar un modelo de contexto para la codificación por entropía de símbolos relacionados con un coeficiente de transformación a base de un valor de estado de acuerdo con información jerárquica o una combinación de la información jerárquica e información no jerárquica. En otras palabras, de forma similar al procedimiento de determinación de un modelo de contexto usado para la codificación por entropía de una bandera de tamaño de TU que indica la estructura jerárquica anteriormente descrita de una unidad de transformación, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para la codificación por entropía de símbolos relacionados con un coeficiente de transformación a base de la información jerárquica de una unidad de transformación a la que pertenecen un coeficiente de transformación actual a codificar. Por ejemplo, como se ilustra en la Figura 19 o 22, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para la codificación por entropía de símbolos relacionados con un coeficiente de transformación usando información acerca del tamaño de una unidad de transformación a la que pertenecen un coeficiente de transformación actual.

También, la unidad 1410 de modelado de contexto puede usar información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece un símbolo en relación con una unidad de transformación mayor distinta de la información de tamaño de unidad de transformación absoluta. La unidad 1410 de modelado de contexto puede determinar un modelo de contexto usado para la codificación por entropía de símbolos relacionados con un coeficiente de transformación a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica. Por ejemplo, la unidad 1410 de modelado de contexto puede establecer un índice de contexto a base de la información acerca del tamaño de una unidad de transformación e información de componente de color como información no jerárquica. También, la unidad 1410 de modelado de contexto puede usar información acerca de la posición de cada píxel como información no jerárquica para la codificación por entropía de un símbolo establecido en unidades de píxeles tal como la bandera "significant_coeff_flag" que indica si un coeficiente de transformación es un coeficiente de transformación que no es 0 y la bandera "last_significant_coeff_flag" que indica si el coeficiente de transformación que no es 0 es el coeficiente de transformación que no es 0 en la posición final en el orden de exploración.

Las Figuras 23 y 24 son vistas de referencia que ilustran una tabla de correspondencia de índices de contexto establecida a base de información acerca de la posición de una unidad de datos, de acuerdo con una realización de la presente invención. Haciendo referencia a las Figuras 23 y 24, la unidad 1410 de modelado de contexto puede asignar un índice de contexto como se indica por números de referencia 2500 y 2600 de acuerdo con la posición de cada píxel durante la codificación por entropía de un símbolo establecido en unidades de píxeles y puede determinar un modelo de contexto usando el índice de contexto determinado de acuerdo con la posición de un símbolo actual. También, la unidad 1410 de modelado de contexto puede determinar un modelo de contexto a través de una combinación de información jerárquica durante la codificación por entropía de un símbolo establecido en unidades de píxeles. Por ejemplo, la bandera "significant_coeff_flag" que indica si un coeficiente de transformación es un coeficiente de transformación que no es 0 y la bandera "last_significant_coeff_flag" que indica si el coeficiente de transformación que no es 0 es un coeficiente de transformación que no es 0 en una posición final en el orden de exploración pueden determinarse combinando la primera información de acuerdo con el tamaño de una unidad de transformación y la segunda información de acuerdo con la posición de un coeficiente de transformación. Como se ilustra en la Figura 25, la unidad 1410 de modelado de contexto puede establecer un índice de contexto que indica uno de una pluralidad de modelos de contexto de acuerdo con una combinación de piezas de primera información p1 a pi que tiene un número I de valores de estado, en el que I es un número entero, y piezas de segunda información q1 a qJ que tiene un número J de valores de estado, en el que J es un número entero y puede determinar y emitir un índice de contexto de acuerdo con información acerca del tamaño de una unidad de transformación a la que pertenecen un coeficiente de transformación actual y la posición del coeficiente de transformación actual.

Aunque símbolos se codifican y decodifican usando CABAC en la descripción anterior, el dispositivo 1400 de codificación por entropía puede codificar cada símbolo mediante un procedimiento de codificación de longitud variable en el que se asignan palabras de código preestablecidas de acuerdo con una combinación de información jerárquica e información no jerárquica.

El dispositivo 1400 de codificación por entropía de acuerdo con la presente realización no se limita a la anterior descripción, puede determinar uno de una pluralidad de modelos de contexto a través de una combinación de al menos una información seleccionada a partir de información jerárquica de una unidad de codificación, información jerárquica de una unidad de predicción, información jerárquica de una unidad de transformación, información de componente de color, información de modo de predicción, el tamaño máximo de una unidad de codificación, profundidad codificada, información acerca de partición de una unidad de predicción, una bandera de división que indica si una unidad de codificación se divide, información acerca del tamaño de una unidad de transformación, una bandera de tamaño de TU que indica si se divide una unidad de transformación, información de modo de predicción de intra/inter predicción aplicada a cada unidad de predicción, información de vector de movimiento, información de dirección de predicción e información relacionada con la posición de un símbolo, y realizar codificación por entropía en un símbolo usando el modelo de contexto determinado.

La Figura 27 es un diagrama de flujo de un procedimiento de codificación de vídeo usando una unidad de datos con estructura jerárquica, de acuerdo con una realización de la presente invención. Haciendo referencia a la Figura 27, en la operación 2910, el codificador 110 jerárquico codifica una instantánea que forma un vídeo a base de una unidad de datos con estructura jerárquica. En el procedimiento de codificación de una instantánea a base de la unidad de datos con estructura jerárquica, pueden determinarse, para cada unidad de codificación máxima, una unidad de codificación estructurada jerárquicamente que corresponde a cada profundidad, unidades de codificación de acuerdo con una estructura de árbol que incluye unidades de codificación de profundidad de código, una partición para codificación de predicción para cada unidad de codificación de la profundidad codificada y estructura jerárquica de una unidad de transformación.

En la operación 2920, el codificador 120 por entropía que determina un modelo de contexto usado para la codificación por entropía de un símbolo se determina a base de información jerárquica de una unidad de datos a la que pertenece un símbolo de una instantánea codificada. También, el codificador 120 por entropía puede determinar un modelo de contexto para ser aplicable para un símbolo actual de una pluralidad de modelos de contexto a través de una combinación de información relacionada con una estructura jerárquica e información adicional distinta de la información de estructura jerárquica.

La información jerárquica puede ser una de información acerca del tamaño de una unidad de datos a la que pertenece un símbolo e información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece un símbolo en relación con una unidad de datos de un nivel superior que tiene un tamaño mayor que la unidad de datos a la que pertenece el símbolo. La información jerárquica relativa puede incluir información acerca del tamaño de una unidad de datos mayor, una bandera de división que indica si la unidad de datos mayor se divide, o información acerca de una relación relativa del tamaño de datos a los que pertenece un símbolo con respecto a la unidad de datos mayor.

En la operación 2930, el codificador 120 por entropía realiza codificación por entropía de un símbolo usando el modelo de contexto determinado. El símbolo puede incluir información acerca de un coeficiente de transformación, información acerca de la estructura jerárquica de una unidad de transformación usada para la codificación que usa la unidad de datos con estructura jerárquica e información acerca de una estructura jerárquica de una instantánea.

La Figura 28 es un diagrama de bloques que ilustra una estructura de un dispositivo 3000 de decodificación por entropía de acuerdo con una realización de la presente invención. El dispositivo 3000 de decodificación por entropía de la Figura 28 corresponde al decodificador 220 por entropía del dispositivo 200 de decodificación de vídeo de la Figura 2.

El dispositivo 3000 de decodificación por entropía decodifica por entropía símbolos que indican información relacionada con la estructura jerárquica que es un objetivo de codificación extraído por la unidad 210 de extracción de símbolo de la Figura 2 e información acerca de codificación distinta de información de estructura jerárquica. Haciendo referencia a la Figura 28, el dispositivo 3000 de decodificación por entropía de acuerdo con la presente realización incluye una unidad 3010 de modelado de contexto, un estimador 3020 de probabilidad y un decodificador 3030 regular.

La unidad 3010 de modelado de contexto determina un modelo de contexto usado para la codificación por entropía de un símbolo a base de información jerárquica de una unidad de datos a la que pertenece un símbolo. Específicamente, suponiendo que información jerárquica relacionada con la unidad de datos con estructura jerárquica a la que pertenece un símbolo objetivo decodificado en la actualidad tiene un número I de valores de estado, en el que l es un entero positivo, la unidad 3010 de modelado de contexto puede establecer l o un número menor de modelos de contexto de acuerdo con un valor de estado de información jerárquica y puede determinar un modelo de contexto a usarse para la decodificación de un símbolo actual asignando un índice de contexto que indica uno del l o un número menor de modelos de contexto de acuerdo con el valor de estado de la información jerárquica. También, además de la información de tamaño de unidad de datos absoluta como se describe anteriormente, puede usarse información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece un símbolo en relación con una unidad de datos mayor.

Información que indica una relación del tamaño de una unidad de datos a la que pertenece un símbolo actual en comparación con el tamaño de una unidad de datos mayor puede usarse como la información jerárquica. La unidad 3010 de modelado de contexto puede determinar el tamaño de una unidad de datos a la que pertenece un símbolo actual usando información jerárquica relativa que indica un tamaño relativo de una unidad de datos a la que pertenece el símbolo actual en relación con la unidad de datos mayor como la información jerárquica, y puede determinar un modelo de contexto a base del tamaño determinado de una unidad de datos. También, la unidad 3010 de modelado de contexto puede determinar un modelo de contexto usado para la decodificación por entropía de un símbolo objetivo a base de una combinación de información jerárquica e información adicional distinta de la información jerárquica de acuerdo con el tipo de un símbolo.

Específicamente, suponiendo que información jerárquica relacionada con la unidad de datos con estructura jerárquica a la que pertenece un símbolo objetivo decodificado en la actualidad tiene número I de valores de estado y otra información no jerárquica distinta de la información jerárquica tiene número J de valores de estado, en el que J es un entero positivo, la unidad 3010 de modelado de contexto puede establecer IxJ o un número menor de modelos de contexto de acuerdo con una combinación de un número IxJ de valores de estado, y puede establecer un modelo de contexto usado para la decodificación del símbolo actual asignando un índice de contexto que indica uno del IxJ o un número menor de modelos de contexto de acuerdo con los valores de estado de la información jerárquica de una unidad de datos a la que pertenece el símbolo actual e información no jerárquica. También, el modelo de contexto determinado por la unidad 3010 de modelado de contexto a base de la combinación de la información jerárquica e información no jerárquica se establece como en la unidad 1410 de modelado de contexto del dispositivo 1400 de codificación por entropía.

La unidad 3010 de modelado de contexto no se limita a la realización anteriormente descrita y puede seleccionarse uno de una pluralidad de modelos de contexto combinando de forma variada la información jerárquica e información no jerárquica de acuerdo con el tipo de un símbolo a decodificar.

El estimador 3020 de probabilidad determina y emite información acerca de un valor de probabilidad de MPS y LPS e información acerca de una señal binaria que corresponde al MPS y LPS entre las señales binarias de 0 y 1 usando la información de índice de contexto emitida desde la unidad 3010 de modelado de contexto. El valor de probabilidad de MPS o LPS puede determinarse leyendo un valor de probabilidad indicado por un índice de contexto de una tabla de consulta preestablecida. También, el valor de probabilidad de MPS o LPS puede actualizarse a base del valor de acumulación de estadística de ocurrencia de una señal binaria.

El decodificador 3030 regular realiza decodificación por entropía de un símbolo actual incluido en un flujo de bits a base de la información de señal binaria e información de probabilidad que corresponde a MPS o LPS y emite información de símbolo decodificado.

La Figura 29 es un diagrama de flujo de un procedimiento de decodificación de vídeo que usa una unidad de datos con estructura jerárquica, de acuerdo con otra realización de la presente invención. Haciendo referencia a la Figura 29, en la operación 3110, la unidad 210 de extracción de símbolo extrae un símbolo de una instantánea codificada a base de la unidad de datos con estructura jerárquica analizando un flujo de bits codificado.

En la operación 3120, el decodificador 220 por entropía determina un modelo de contexto usado para la decodificación por entropía de un símbolo a base de la información jerárquica de una unidad de datos a la que pertenece un símbolo. También, el decodificador 220 por entropía puede determinar un modelo de contexto a aplicar a un símbolo actual entre una pluralidad de modelos de contexto a través de una combinación de información relacionada con una estructura jerárquica e información adicional distinta de la información de estructura jerárquica.

En la operación 3130, el decodificador 220 por entropía decodifica por entropía un símbolo usando el modelo de contexto determinado. El símbolo puede incluir información acerca de un coeficiente de transformación, información acerca de la estructura jerárquica de una unidad de transformación usada para la codificación que usa la unidad de datos con estructura jerárquica e información acerca de una estructura jerárquica de una instantánea.

La invención también puede incorporarse como códigos legibles por ordenador en un medio de grabación legible por ordenador. El medio de grabación legible por ordenador es cualquier dispositivo de almacenamiento de datos que puede almacenar datos que pueden leerse posteriormente por un sistema informático. Ejemplos del medio de grabación legible por ordenador incluyen memoria de sólo lectura (ROM), memoria de acceso aleatorio (RAM), CD-ROM, cintas magnéticas, discos flexibles, dispositivos de almacenamiento de datos ópticos, etc. El medio de grabación legible por ordenador también puede distribuirse en sistemas informáticos acoplados a red de modo que el código legible por ordenador se almacena y ejecuta de una manera distribuida.

Mientras la presente invención se ha mostrado y descrito particularmente con referencia a realizaciones preferidas de la misma, se entenderá por los expertos en la materia que pueden hacerse diversos cambios en forma y detalles en la misma sin alejarse del ámbito de la invención según se define mediante las reivindicaciones adjuntas. Las realizaciones preferidas deberían considerarse en un sentido descriptivo únicamente y no para fines de limitación. Por lo tanto, el ámbito de la invención se define no por la descripción detallada de la invención sino por las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un procedimiento de decodificación de vídeo que comprende:

recibir un flujo de bits que incluye una información de división de unidad de transformación actual que indica si una unidad de transformación actual de un nivel actual k se divide en unidades de transformación de un nivel inferior (k+1), incluyéndose la unidad de transformación actual del nivel actual k en una unidad de codificación actual, en el que k es un número entero;

determinar un índice de contexto que indica un modelo de contexto entre una pluralidad de modelos de contexto preestablecidos a base de un tamaño de la unidad de transformación actual del nivel actual k al que pertenece la información de división de unidad de transformación actual;

obtener la información de división de unidad de transformación actual decodificando por entropía el flujo de bits a base del modelo de contexto indicado por el índice de contexto determinado;

cuando la información de división de unidad de transformación actual indica una división de la unidad de transformación actual del nivel actual k, dividir la unidad de transformación actual del nivel actual k en unidades de transformación del nivel inferior (k+1),

en el que:

una imagen se divide en una pluralidad de unidades de codificación máxima de acuerdo con información acerca del tamaño máximo de la unidad de codificación,

una unidad de codificación máxima actual entre las unidades de codificación máxima se divide jerárquicamente en una o más unidades de codificación de una profundidad actual,

cuando una unidad de codificación de la profundidad actual entre la una o más unidades de codificación de la profundidad actual ya no se divide en unidades de codificación de una profundidad inferior, la unidad de codificación de la profundidad actual se divide en una o más unidades de transformación de acuerdo con una información de división de unidad de transformación,

en el que, cuando la información de división de unidad de transformación indica una división para la unidad de transformación del nivel actual k, se obtienen cuatro unidades de transformación del nivel inferior (k+1) dividiendo una altura y anchura de la unidad de transformación del nivel actual k por dos, y

cuando la información de división de unidad de transformación indica una no división para la unidad de transformación del nivel actual k, la unidad de transformación del nivel actual k ya no se divide.