ES2533305T3

ES2533305T3 - Aparato de decodificación de imagen

Info

Publication number: ES2533305T3
Application number: ES13196509.7T
Authority: ES
Inventors: Elena Alshina; Alexander Alshin; Vadim Seregin; Nikolay Shlyakhov; Maxim Koroteev
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2008-07-02
Filing date: 2009-07-02
Publication date: 2015-04-09
Anticipated expiration: 2029-07-02
Also published as: CN102144393A; PT2713618E; EP2309756A4; CN103220527A; EP2712200B1; SMT201500060B; US20130077686A1; US20140105287A1; PL2713617T3; KR101517768B1; ES2532828T3; JP2011526770A; US20130083849A1; HRP20150321T1; EP2712199A3; ES2524555T3; US20150326879A1; CN104113755A; HUE025473T2; SI2640076T1

Abstract

Aparato de decodificación de una imagen de vídeo, comprendiendo el aparato: un extractor de información de codificación que determina unidades de codificación de una estructura jerárquica usando información sobre si dividir una unidad de codificación analizada sintácticamente a partir de un flujo continuo de bits recibido; y un decodificador de datos de imagen que: determina una unidad de predicción de una unidad de codificación actual dividiendo la unidad de codificación actual en por lo menos una unidad de predicción; obtiene un primer valor predicho de píxeles de una unidad de predicción actual usando un promedio de píxeles vecinos de la unidad de predicción actual, y obtiene un segundo valor predicho de píxeles situados en una frontera superior y una frontera izquierda de la unidad de predicción actual usando un promedio ponderado del primer valor predicho obtenido y por lo menos un píxel vecino, en el que: la imagen de vídeo se divide en una pluralidad de unidades de codificación máximas de entre una pluralidad de unidades de codificación máximas de acuerdo con la información sobre un tamaño máximo de una unidad de codificación, la unidad de codificación máxima se divide jerárquicamente en una o más unidades de codificación de profundidades de acuerdo con la información de división, una unidad de codificación de una profundidad actual k es una unidad de datos rectangular dividida a partir de una unidad de codificación de una profundidad superior k-1; y la unidad de codificación de la profundidad actual k se divide en unas unidades de codificación de una profundidad inferior k+1, de manera independiente con respecto a las unidades de codificación vecinas.

Description

Aparato de decodificación de imagen.

5 Campo técnico

Uno o más aspectos de la presente invención se refieren a un método y a un aparato de codificación de vídeo y a un método y un aparato de decodificación de vídeo con capacidad de mejorar la eficiencia de la compresión de vídeo mediante el post-procesado de datos de vídeo predichos.

Antecedentes de la técnica

En un método de compresión de imágenes, tal como el Grupo de Expertos en Imágenes en Movimiento (MPEG)-1, MPEG-2, MPEG-4, o H.264/MPEG-4 Codificación de Vídeo Avanzada (AVC), una imagen se divide en

15 macrobloques con el fin de ser codificada. Cada uno de los macrobloques se codifica en todos los modos de codificación que se pueden usar en la predicción inter o la predicción intra, y a continuación se codifica en un modo de codificación que se selecciona de acuerdo con una velocidad de bits usada para codificar el macrobloque y un grado de distorsión de un macrobloque decodificado sobre la base del macrobloque original.

20 A medida que se desarrolla y suministra hardware para reproducir y almacenar contenido de vídeo de alta resolución

o alta calidad, aumenta la necesidad de un códec de vídeo para codificar o decodificar de manera eficaz el contenido de vídeo de alta resolución o alta calidad. En un códec de vídeo convencional, un vídeo se codifica en unidades de macrobloques, presentando cada una de ellas un tamaño predeterminado.

25 Breve descripción de los dibujos

La FIG. 1 es un diagrama de bloques de un aparato de codificación de vídeo según una forma de realización de la presente invención.

30 La FIG. 2 es un diagrama de bloques de un aparato de decodificación de vídeo según una forma de realización de la presente invención.

La FIG. 3 es un diagrama para describir un concepto de unidades de codificación jerárquicas según una forma de realización de la presente invención.

35 La FIG. 4 es un diagrama de bloques de un codificador de imágenes basado en unidades de codificación según una forma de realización de la presente invención.

La FIG. 5 es un diagrama de bloques de un decodificador de imágenes basado en unidades de codificación según 40 una forma de realización de la presente invención.

La FIG. 6 es un diagrama que ilustra unidades de codificación más profundas de acuerdo con profundidades de codificación, y una unidad de predicción de acuerdo con una forma de realización de la presente invención.

45 La FIG. 7 es un diagrama para describir una relación entre una unidad de codificación y una unidad de transformación, según una forma de realización de la presente invención.

La FIG. 8 es un diagrama para describir información de codificación de unidades de codificación correspondiente a una profundidad de codificación, según una forma de realización de la presente invención.

50 La FIG. 9 es un diagrama de unidades de codificación más profundas de acuerdo con profundidades de codificación, según una forma de realización de la presente invención.

Las FIGS. 10A y 10B son diagramas que ilustran una relación entre una unidad de codificación, una unidad de 55 predicción, y una unidad de transformación, según una forma de realización de la presente invención.

La FIG. 11 es una tabla que muestra información de codificación referente a cada unidad de codificación según una forma de realización de la presente invención.

60 La FIG. 12 es un diagrama de bloques de un aparato de predicción intra según una forma de realización de la presente invención.

La FIG. 13 es una tabla que muestra una serie de modos de predicción intra de acuerdo con el tamaño de una unidad de codificación, según una forma de realización de la presente invención. 65

Las FIGS. 14A a 14C son diagramas para explicar modos de predicción intra que se pueden práctica cabo sobre una unidad de codificación que tiene un tamaño predeterminado, según formas de realización de la presente invención.

La FIG. 15 es un conjunto de dibujos para explicar modos de predicción intra que se pueden llevar a cabo sobre una unidad de codificación que tiene un tamaño predeterminado, según otras formas de realización de la presente invención.

La FIG. 16 es un diagrama de referencia para explicar modos de predicción inter que tienen varias direccionalidades según una forma de realización de la presente invención.

La FIG. 17 es un diagrama de referencia para explicar un modo bilineal según una forma de realización de la presente invención.

La FIG. 18 es un diagrama de referencia para explicar el post-procesado de una primera unidad de codificación predicha, según una forma de realización de la presente invención.

La FIG. 19 es un diagrama de referencia para explicar un funcionamiento de un post-procesador según una forma de realización de la presente invención.

La FIG. 20 es un diagrama de referencia para explicar el uso de píxeles vecinos por parte de un post-procesador según una forma de realización de la presente invención.

La FIG. 21 es un diagrama de flujo que ilustra un método de codificación de vídeo según una forma de realización de la presente invención.

La FIG. 22 es un diagrama de flujo que ilustra un método de decodificación de vídeo según una forma de realización de la presente invención.

Descripción detallada de la invención

Problema técnico

Uno o más aspectos de la presente invención proporcionan un método y un aparato de codificación de vídeo y un método y un aparato de decodificación de vídeo para mejorar la eficiencia de la compresión de vídeo.

Solución técnica

Según un aspecto de la presente invención, un bloque predicho nuevo se produce cambiando un valor de cada píxel incluido en un bloque predicho mediante el post-procesado del bloque predicho.

Efecto ventajoso

Según un aspecto de la presente invención, un bloque predicho nuevo se produce cambiando un valor de cada píxel incluido en un bloque predicho mediante el post-procesado del bloque predicho, mejorando así la eficiencia de la compresión de vídeo.

Modo óptimo

Según un aspecto de la presente invención, se proporciona un método de codificación de vídeo, comprendiendo el método: producir una primera unidad de codificación predicha de una unidad de codificación actual que va a ser codificada; producir una segunda unidad de codificación predicha cambiando un valor de cada píxel de la primera unidad de codificación predicha mediante el uso de cada píxel de la primera unidad de codificación predicha y por lo menos un píxel vecino de cada píxel; y codificar la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha.

Según otro aspecto de la presente invención, se proporciona un aparato para codificar vídeo, comprendiendo el aparato: un predictor para producir una primera unidad de codificación predicha de una unidad de codificación actual que va a ser codificada; un post-procesador para producir una segunda unidad de codificación predicha cambiando un valor de cada píxel de la primera unidad de codificación predicha mediante el uso de cada píxel de la primera unidad de codificación predicha y por lo menos un píxel vecino de cada píxel; y un codificador para codificar la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha.

Según otro aspecto de la presente invención, se proporciona un método de decodificación de vídeo, comprendiendo el método: extraer información referente a un modo de predicción de una unidad de decodificación actual, que va a ser decodificada, a partir de un flujo continuo de bits recibido; reproducir una primera unidad de decodificación predicha de la unidad de decodificación actual, sobre la base de la información extraída referente al modo de

predicción; extraer información referente a un modo de funcionamiento, en el cual se usan cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel, a partir del flujo continuo de bits; reproducir una segunda unidad de decodificación predicha cambiando un valor de cada píxel de la primera unidad de decodificación predicha mediante el uso de cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel, sobre la base de la información extraída referente al modo de funcionamiento; extraer un bloque residual, que es la diferencia entre la unidad de decodificación actual y la segunda unidad de decodificación predicha, a partir del flujo continuo de bits y restablecer el bloque residual; y decodificar la unidad de decodificación actual sumando el bloque residual a la segunda unidad de decodificación predicha.

Según otro aspecto de la presente invención, se proporciona un aparato para decodificar vídeo, comprendiendo el aparato: un decodificador entrópico para extraer información referente a un modo de predicción de una unidad de decodificación actual, que va a ser decodificada, e información referente a un modo de funcionamiento, en el cual se usan cada píxel de una primera unidad de decodificación predicha de la unidad de decodificación actual y píxeles vecinos de cada píxel de la primera unidad de decodificación predicha, a partir de un flujo continuo de bits recibido; un predictor para reproducir la primera unidad de decodificación predicha, sobre la base de la información extraída referente al modo de predicción; un post-procesador para reproducir una segunda unidad de decodificación predicha cambiando un valor de cada píxel de la primera unidad de decodificación predicha mediante el uso de cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel de la primera unidad de decodificación predicha, sobre la base de la información extraída referente al modo de funcionamiento; una unidad de transformación inversa y cuantificación inversa para reproducir un bloque residual que es la diferencia entre la unidad de decodificación actual y la segunda unidad de decodificación predicha, a partir del flujo continuo de bits; y un sumador para decodificar la unidad de decodificación actual sumando el bloque residual a la segunda unidad de decodificación predicha.

Modo de poner en práctica la invención

En lo sucesivo en la presente, se describirán en referencia a los dibujos adjuntos un método y un aparato de codificación de vídeo y un método y un aparato de decodificación de vídeo según formas de realización ejemplificativas de la presente invención.

La FIG. 1 es un diagrama de bloques de un aparato de codificación de vídeo 100 según una forma de realización de la presente invención. El aparato de codificación de vídeo 100 incluye un divisor de unidades de codificación máximas 110, un módulo de determinación de profundidades de codificación 120, un codificador de datos de imágenes 130, y un codificador de información de codificación 140.

El divisor de unidades de codificación máximas 110 puede dividir una imagen o franja (slice) actual de una imagen, sobre la base de una unidad de codificación máxima. La imagen o franja actual se puede dividir en por lo menos una unidad de codificación máxima. Al resultado de la división se le puede dar salida hacia el módulo de determinación de profundidades de codificación 120 de acuerdo con la por lo menos una unidad de codificación máxima.

Según una forma de realización de la presente invención, la unidad de codificación puede estar caracterizada por una unidad de codificación máxima y una profundidad. Unidad de codificación máxima significa la unidad de codificación más grande de entre unidades de codificación de una imagen actual. Profundidad significa el número de veces que se divide jerárquicamente una unidad de codificación a partir de la unidad de codificación máxima. A medida que aumenta la profundidad, se pueden dividir unidades de codificación más profundas de acuerdo con profundidades de codificación desde la unidad de codificación máxima a una unidad de codificación mínima. La profundidad de la unidad de codificación máxima puede ser la profundidad superior y la profundidad de la unidad de codificación mínima puede ser la profundidad inferior. Puesto que el tamaño de una unidad de codificación correspondiente a cada profundidad disminuye a medida que aumenta la profundidad de la unidad de codificación máxima, una unidad de codificación que tenga un valor de profundidad “k” puede incluir una pluralidad de unidades de codificación que presenten, cada una de ellas, un valor de profundidad mayor que “k+1”.

Tal como se ha descrito anteriormente, los datos de imagen correspondientes a la imagen actual se dividen en las unidades de codificación máximas de acuerdo con un tamaño máximo de la unidad de codificación, y cada una de las unidades de codificación máximas puede incluir unidades de codificación más profundas que se dividen de acuerdo con profundidades de codificación. Puesto que la unidad de codificación máxima según una forma de realización de la presente invención se divide de acuerdo con profundidades de codificación, los datos de imagen de un dominio espacial incluidos en la unidad de codificación máxima se pueden clasificar jerárquicamente de acuerdo con profundidades.

Se pueden predeterminar una profundidad máxima y un tamaño máximo de una unidad de codificación, los cuales limitan el número total de veces que se dividen jerárquicamente la altura y la anchura de la unidad de codificación máxima. La unidad de codificación máxima y la profundidad máxima se pueden establecer en unidades de imagen o franja. Es decir, cada una de las unidades de imagen o franja puede tener una unidad de codificación máxima diferente y una profundidad máxima diferente, y el tamaño de una unidad de codificación mínima incluida en la unidad de codificación máxima se puede establecer de manera variable de acuerdo con la profundidad máxima.

Puesto que se pueden establecer de manera variable la unidad de codificación máxima y la profundidad máxima para cada una de las unidades de imagen o franja, la eficiencia de la compresión de vídeo se puede mejorar codificando una imagen que tiene una región plana mediante el uso de la unidad de codificación máxima que tiene un tamaño relativamente grande, y codificando una imagen que tiene una complejidad alta mediante el uso de una unidad de codificación que presente un tamaño relativamente pequeño.

El módulo de determinación de profundidades de codificación 120 determina una profundidad máxima de tal manera que se asignan profundidades máximas diferentes a unidades de codificación máximas, respectivamente. La profundidad máxima se puede determinar basándose en el cálculo del coste de la distorsión-velocidad (R-D). La profundidad máxima determinada se proporciona al codificador de información de codificación 140, y los datos de imagen de la unidad de codificación máxima se transmiten al codificador de datos de imágenes 130.

Los datos de imagen en la unidad de codificación máxima se codifican sobre la base de las unidades de codificación más profundas correspondientes a por lo menos una profundidad igual o inferior a la profundidad máxima, y, basándose en cada una de las unidades de codificación más profundas, se comparan resultados de la codificación de los datos de imagen. Después de comparar errores de codificación se puede seleccionar una profundidad que presente el error de codificación mínimo. Se puede seleccionar por lo menos una profundidad de codificación para cada unidad de codificación máxima.

El tamaño de la unidad de codificación máxima se divide a medida que se divide jerárquicamente una unidad de codificación de acuerdo con profundidades de codificación, y a medida que aumenta el número de unidades de codificación. Además, incluso si las unidades de codificación se corresponden con la misma profundidad en una unidad de codificación máxima, se determina si dividir a una profundidad superior cada una de las unidades de codificación correspondientes a la misma profundidad midiendo un error de codificación de los datos de imagen de cada unidad de codificación mencionada, por separado. Por consiguiente, incluso cuando se incluyen datos de imagen en una unidad de codificación máxima, los datos de imagen se dividen en regiones de acuerdo con las profundidades de codificación y los errores de codificación pueden diferir según las regiones en la unidad de codificación máxima mencionada, y por lo tanto las profundidades de codificación pueden diferir según regiones en los datos de imagen. Así, en una unidad de codificación máxima se pueden determinar una o más profundidades de codificación, y los datos de imagen de la unidad de codificación máxima se pueden dividir según unidades de codificación de por lo menos una profundidad de codificación.

Además, se pueden predecir o transformar subunidades de codificación que tienen tamaños diferentes, las cuales están incluidas en la unidad de codificación máxima, basándose en unidades de procesado que tienen tamaños diferentes, respectivamente. En otras palabras, el aparato de codificación de vídeo 100 puede llevar a cabo una pluralidad de operaciones para la codificación de vídeo, basándose en unidades de procesado que tienen tamaños y formas diferentes. La codificación de datos de vídeo incluye varias operaciones, por ejemplo, predicción, transformación y codificación entrópica. Se pueden usar unidades de procesado que tienen el mismo tamaño en la totalidad de las diversas operaciones, o se pueden usar unidades de procesado que tienen tamaños diferentes en las diversas operaciones, respectivamente.

Por ejemplo, el aparato de codificación de vídeo 100 puede seleccionar una unidad de procesado que es diferente con respecto a una unidad de codificación, para predecir la unidad de codificación. Si el tamaño de la unidad de codificación es 2Nx2N, entonces el tamaño de la unidad de procesado puede ser, por ejemplo, 2Nx2N, 2NxN, Nx2N,

o NxN. En este caso, N indica un entero positivo. En otras palabras, se puede llevar a cabo una predicción de movimiento en unidades de procesado obtenidas al dividir por lo menos una de entre la altura y la anchura de la unidad de codificación en dos partes iguales. En la presente en lo sucesivo, a una unidad de datos en la cual se basa la predicción se le hará referencia como “unidad de predicción”.

Un modo de predicción puede incluir por lo menos uno de entre un modo intra, un modo inter, y un modo de omisión (skip). Se puede llevar a cabo un modo de predicción particular únicamente sobre unidades de predicción que tienen, cada una de ellas, un tamaño o forma predeterminados. Por ejemplo, el modo intra se puede llevar a cabo solamente sobre una unidad de predicción de 2Nx2N o NxN. Además, el modo de omisión se puede llevar a cabo únicamente sobre una unidad de predicción de 2Nx2N. Si en una unidad de codificación está incluida una pluralidad de unidades de predicción, la predicción se puede llevar a cabo independientemente sobre la pluralidad de unidades de predicción, y se puede seleccionar un modo de predicción que tenga el error de codificación mínimo.

El aparato de codificación de vídeo 100 también puede llevar a cabo la transformación sobre los datos de imagen en una unidad de codificación basándose no solamente en la unidad de codificación para codificar los datos de imagen, sino también basándose en una unidad de datos que sea diferente con respecto a la unidad de codificación. Para llevar a cabo la transformación en la unidad de codificación, la transformación se puede llevar a cabo basándose en una unidad de datos que tenga un tamaño inferior o igual a la unidad de codificación. En lo sucesivo, a una unidad de datos usada como base de la transformación se le hará referencia como “unidad de transformación”.

El módulo de determinación de profundidades de codificación 120 puede determinar la forma en la que se va a dividir la unidad de codificación máxima de tal manera que la unidad de codificación máxima pueda tener un error de

codificación óptimo, midiendo errores de codificación de unidades de codificación correspondientes a profundidades mediante el uso de una optimización de distorsión-velocidad basada en multiplicadores Lagrangianos. En otras palabras, el módulo de determinación de profundidades de codificación 120 puede determinar el tipo de subunidades de codificación en las cuales se divide la unidad de codificación máxima. En este caso, el tamaño de cada una de las subunidades de codificación varía de acuerdo con una profundidad correspondiente.

El codificador de datos de imagen 130 codifica los datos de imagen de la unidad de codificación máxima, basándose en la por lo menos una profundidad de codificación determinada por el módulo de determinación de profundidades de codificación 120, y da salida al resultado de la codificación en un flujo continuo de bits. Puesto que la codificación ya ha sido llevada a cabo por el módulo de determinación de profundidades de codificación 120 para medir el error de codificación mínimo, se puede dar salida a un flujo continuo de datos codificado usando el resultado de la codificación.

El codificador de información de codificación 140 codifica información sobre un modo de codificación correspondiente a cada profundidad para cada unidad de codificación máxima, basándose en por lo menos una profundidad de codificación determinada por el módulo de determinación de profundidades de codificación 120, y a continuación da salida al resultado de la codificación en un flujo continuo de bits. La información sobre el modo de codificación de acuerdo con cada profundidad puede incluir información referente a la por lo menos una profundidad de codificación, el tipo de partición de una unidad de predicción de una unidad de codificación que tiene la por lo menos una profundidad de codificación, un modo de predicción de cada unidad de predicción, y el tamaño de una unidad de transformación.

La información sobre la profundidad de codificación se puede definir usando información de división de acuerdo con las profundidades, la cual indica si la codificación se lleva a cabo sobre unidades de codificación de una profundidad superior en lugar de una profundidad actual. Si la profundidad actual de la unidad de codificación actual es la profundidad de codificación, se codifican y se da salida a datos de imagen en la unidad de codificación actual, y por lo tanto la información de división se puede definir de manera que no se divida la unidad de codificación actual con una profundidad superior. Alternativamente, si la profundidad actual de la unidad de codificación actual no es la profundidad de codificación, la codificación se lleva a cabo sobre la unidad de codificación de la profundidad superior, y por lo tanto la información de división se puede definir para dividir la unidad de codificación actual con el fin de obtener las unidades de codificación de la profundidad superior.

Si la profundidad actual no es la profundidad de codificación, la codificación se lleva a cabo sobre la unidad de codificación que se divide en la unidad de codificación de la profundidad superior. Puesto que, en una unidad de codificación de la profundidad actual, existe por lo menos una unidad de codificación de la profundidad superior, la codificación se lleva a cabo de manera repetida sobre cada unidad de codificación de la profundidad superior, y por lo tanto la codificación se puede efectuar de manera recursiva para las unidades de codificación que tienen la misma profundidad.

Puesto que se debería determinar por lo menos una profundidad de codificación para una unidad de codificación máxima y se debería determinar información sobre por lo menos un modo de codificación para cada profundidad de codificación, se puede determinar información sobre por lo menos un modo de codificación para una unidad de codificación máxima. Además, la profundidad de codificación de los datos de imagen de la unidad de codificación máxima puede ser diferente según las posiciones puesto que los datos de imagen se dividen jerárquicamente según profundidades, y por lo tanto se puede establecer información sobre la profundidad de codificación y el modo de codificación para los datos de imagen.

Por consiguiente, según una forma de realización de la presente invención, el codificador de información de codificación 140 puede establecer información de codificación sobre una profundidad de codificación de cada unidad mínima incluida en la unidad de codificación máxima. Es decir, una unidad de codificación que tiene una profundidad de codificación incluye por lo menos una unidad de codificación mínima que contiene la misma información de codificación. Así, si unidades de codificación mínimas adyacentes tienen la misma información de codificación según las profundidades de codificación, las unidades de codificación mínimas adyacentes pueden ser unidades de codificación mínimas incluidas en la misma unidad de codificación máxima.

En el aparato de codificación de vídeo 100, la unidad de codificación más profunda puede ser una unidad de codificación obtenida mediante la división, por dos, de la altura o anchura de una unidad de codificación de una profundidad inferior, que está una capa por encima. En otras palabras, cuando el tamaño de la unidad de codificación de la profundidad actual k es 2Nx2N, el tamaño de la unidad de codificación de la profundidad superior (k+1) es NxN. Además, la unidad de codificación de la profundidad actual que tiene el tamaño de 2Nx2N puede incluir como máximo 4 de las unidades de codificación de la profundidad superior que tienen el tamaño de NxN.

Por consiguiente, el aparato de codificación de vídeo 100 puede determinar una forma de división óptima para cada unidad de codificación máxima, sobre la base del tamaño de la unidad de codificación máxima y la profundidad máxima determinadas considerando características de la imagen actual. Además, puesto que la codificación se puede llevar a cabo sobre cada unidad de codificación máxima usando uno cualquiera de varios modos de

predicción y transformaciones, se puede determinar un modo de codificación óptimo considerando características de la unidad de codificación de varios tamaños de imagen.

Si una imagen que presenta una alta resolución o una gran cantidad de datos se codifica en un macrobloque convencional, el número de macrobloques por imagen aumenta de manera excesiva. Por consiguiente, aumenta el número de informaciones comprimidas generadas para cada macrobloque, y por lo tanto resulta difícil transmitir la información comprimida y disminuye la eficiencia de la compresión de datos. No obstante, usando el aparato de codificación de vídeo 100, se puede incrementar la eficiencia de compresión de las imágenes ya que una unidad de codificación se ajusta al mismo tiempo que se tienen en cuenta características de la imagen al mismo tiempo que se aumenta el tamaño máximo de una unidad de codificación y al mismo tiempo que se tiene en cuenta el tamaño de la imagen.

La FIG. 2 es un diagrama de bloques de un aparato de decodificación de vídeo 200 según una forma de realización de la presente invención.

El aparato de decodificación de vídeo 200 incluye una unidad de obtención de datos de imagen 210, un extractor de información de codificación 220, y un decodificador de datos de imagen 230.

La unidad de obtención de datos de imagen 210 analiza sintácticamente un flujo continuo de bits recibido por el aparato de decodificación de vídeo 200 para obtener datos de imagen en unidades de codificación máximas, y transmite los datos de imagen al decodificador de datos de imagen 230. La unidad de obtención de datos de imagen 210 puede extraer información referente a unidades de codificación máximas de una imagen o franja actual a partir de un encabezamiento de la imagen o franja actual. Según una forma de realización de la presente invención, el aparato de decodificación de vídeo 200 decodifica los datos de imagen de las unidades de codificación máximas.

El extractor de información de codificación 220 analiza sintácticamente el flujo continuo de bits para extraer información sobre una profundidad de codificación y un modo de codificación para cada una de las unidades de codificación máximas a partir del encabezamiento de la imagen o franja actual. A la información extraída sobre la profundidad de codificación y el modo de codificación se le da salida hacia el decodificador de datos de imagen 230.

La información sobre la profundidad de codificación y el modo de codificación según la unidad de codificación máxima se puede establecer para información sobre por lo menos una unidad de codificación correspondiente a la profundidad de codificación, y la información sobre un modo de codificación puede incluir información sobre un tipo de partición de una unidad de codificación correspondiente que se corresponde con la profundidad de codificación, sobre un modo de predicción, y un tamaño de una unidad de transformación. Además, la información de división de acuerdo con las profundidades de codificación se puede extraer como información sobre la profundidad de codificación.

La información referente a una forma en la cual se divide cada una de las unidades de codificación máximas puede contener información referente a subunidades de codificación que tienen tamaños diferentes de acuerdo con una profundidad de cada una de las unidades de codificación máximas. La información referente al modo de codificación puede contener información referente a una unidad de predicción para cada una de las subunidades de codificación, información referente al modo de predicción, información de la unidad de transformación, etcétera.

El decodificador de datos de imagen 230 reconstruye la imagen o franja actual decodificando los datos de imagen de cada una de las unidades de codificación máximas, sobre la base de la información extraída por el extractor de información de codificación 220. El decodificador de datos de imagen 230 puede decodificar las subunidades de codificación incluidas en cada una de las unidades de codificación máximas, sobre la base de la información referente a una forma en la cual se divide cada una de las unidades de codificación máximas. La decodificación puede incluir predicción intra, estimación de movimiento que incluye compensación de movimiento, y transformación inversa.

El decodificador de datos de imagen 230 restablece la imagen actual decodificando los datos de imagen de cada unidad de codificación máxima basándose en la información sobre la profundidad de codificación y el modo de codificación de acuerdo con las unidades de codificación máximas. En otras palabras, el decodificador de datos de imagen 230 puede decodificar los datos de imagen codificados sobre la base de la información extraída sobre el tipo de partición, el modo de predicción, y la unidad de transformación para cada unidad de codificación incluida en cada unidad de codificación máxima. Un proceso de decodificación puede incluir una predicción que incluye predicción intra y compensación de movimiento, y una transformación inversa.

El decodificador de datos de imagen 230 puede llevar a cabo una predicción intra o una compensación de movimiento de acuerdo con una partición y un modo de predicción de cada unidad de codificación, basándose en la información sobre el tipo de partición y el modo de predicción de la unidad de predicción de la unidad de codificación de acuerdo con profundidades de codificación. Además, el decodificador de datos de imagen 230 puede llevar a cabo una transformación inversa de acuerdo con cada unidad de transformación en la unidad de codificación, basándose en la información sobre el tamaño de la unidad de transformación de la unidad de codificación de

acuerdo con profundidades de codificación, para llevar a cabo la transformación inversa de acuerdo con unidades de codificación máximas.

El decodificador de datos de imagen 230 puede determinar por lo menos una profundidad de codificación de una unidad de codificación máxima actual usando información de división de acuerdo con las profundidades. Si la información de división indica que ya no se dividen datos de imagen con la profundidad actual, la profundidad actual es una profundidad de codificación. Por consiguiente, el decodificador de datos de imagen 230 puede decodificar datos codificados de por lo menos una unidad de codificación correspondiente a cada profundidad de codificación mencionada de la unidad de codificación máxima actual usando la información sobre el tipo de partición de la unidad de predicción, el modo de predicción, y el tamaño de la unidad de transformación para cada unidad de codificación correspondiente a la profundidad de codificación, y puede dar salida a los datos de imagen de la unidad de codificación máxima actual.

El aparato de decodificación de vídeo 200 puede obtener información sobre por lo menos una unidad de codificación que genera el error de codificación mínimo cuando la codificación se lleva a cabo de manera recursiva para cada unidad de codificación máxima, y puede usar la información para decodificar la imagen actual. En otras palabras, se pueden decodificar las unidades de codificación óptimas de cada unidad de codificación máxima. Por consiguiente, incluso si los datos de imagen tienen una alta resolución y una gran cantidad de datos, los datos de imagen se pueden decodificar y restablecer de manera eficiente usando un tamaño de una unidad de codificación y un modo de codificación, que se determinan de manera adaptativa de acuerdo con características de los datos de imagen, usando información sobre un modo de codificación óptimo recibido desde un codificador.

La FIG. 3 es un diagrama para describir un concepto de unidades de codificación jerárquicas de acuerdo con una forma de realización de la presente invención.

En referencia a la FIG. 3, las unidades de codificación jerárquicas según la presente forma de realización pueden incluir una unidad de codificación de 64x64, una unidad de codificación de 32x32, una unidad de codificación de 16x16, una unidad de codificación de 8x8, y una unidad de codificación 4x4. No obstante, la presente invención no se limita a las mismas, y el tamaño de una unidad de codificación puede ser, por ejemplo, 64x32, 32x64, 32x16, 16x32, 16x8, 8x16, 8x4, ó 4x8.

En los datos de vídeo 310, la resolución es 1.920x1.080, el tamaño máximo de una unidad de codificación es 64, y la profundidad máxima es 2. En los datos de vídeo 320, la resolución es 1.920x1.080, el tamaño máximo de una unidad de codificación es 64, y la profundidad máxima es 4. En los datos de vídeo 330, la resolución es 352x288, el tamaño máximo de una unidad de codificación es 16, y la profundidad máxima es 2.

Si la resolución es alta o la cantidad de datos es grande, el tamaño máximo de una unidad de codificación puede ser grande de manera que no solamente aumente la eficiencia de codificación sino también que refleje de manera precisa características de una imagen. Por consiguiente, el tamaño máximo de la unidad de codificación de los datos de vídeo 310 y 320 que tienen la resolución mayor que los datos de vídeo 330 puede ser 64.

Puesto que la profundidad máxima de los datos de vídeo 310 es 2, las unidades de codificación 315 de los datos de vídeo 310 pueden incluir una unidad de codificación máxima con un tamaño del eje largo de 64, y unidades de codificación con tamaños del eje largo de 32 y 16 puesto que las profundidades se internan hasta dos capas dividiendo la unidad de codificación máxima dos veces. Al mismo tiempo, puesto que la profundidad máxima de los datos de vídeo 330 es 2, las unidades de codificación 335 de los datos de vídeo 330 pueden incluir una unidad de codificación máxima con un tamaño del eje largo de 16, y unidades de codificación con un tamaño del eje largo de 8

o 4 puesto que las profundidades se internan hasta dos capas dividiendo la unidad de codificación máxima dos veces.

Puesto que la profundidad máxima de los datos de vídeo 320 es 4, las unidades de codificación 325 de los datos de vídeo 320 pueden incluir una unidad de codificación máxima con un tamaño del eje largo de 64, y unidades de codificación con tamaños del eje largo de 32, 16, 8 y 4 ya que las profundidades se internan hasta 4 capas dividiendo la unidad de codificación máxima cuatro veces. A medida que la profundidad aumenta, se puede expresar de manera precisa información detallada.

La FIG. 4 es un diagrama de bloques de un codificador de imágenes 400 basado en unidades de codificación, de acuerdo con una forma de realización de la presente invención.

En referencia a la FIG. 4, un predictor intra 410 lleva a cabo una predicción intra sobre unidades de codificación en un modo intra, de entre un cuadro actual 405, y un estimador de movimiento 420 y un compensador de movimiento 425 llevan a cabo una estimación inter y una compensación de movimiento sobre unidades de codificación en un modo inter de entre el cuadro actual 405 usando el cuadro actual 405 y un cuadro de referencia 495.

A los datos obtenidos a la salida del predictor intra 410, el estimador de movimiento 420, y el compensador de movimiento 425 se les da salida en forma de un coeficiente de transformación cuantificado a través de un módulo de

transformación 430 y un cuantificador 440. En particular, tal como se describirá posteriormente en referencia a la FIG. 12, el predictor intra 410 puede llevar a cabo un post-procesado, en el cual se cambia un valor de cada píxel de una unidad de codificación con predicción intra, usando píxeles vecinos. A los valores residuales que son las diferencias entre los valores de la unidad de codificación post-procesada y la unidad de codificación original, se les puede dar salida secuencialmente hacia el módulo de transformación 430 y el cuantificador 440, y a continuación se les puede dar salida finalmente en forma de un coeficiente de transformación cuantificado.

El coeficiente de transformación cuantificado se restablece como datos en un dominio espacial a través de un cuantificador inverso 460 y un módulo de transformación inversa 470, y a los datos restablecidos en el dominio espacial se les da salida como cuadro de referencia 495 después de haberse sometido a un post-procesado a través de una unidad de deblocking 480 y una unidad de filtrado de bucle 490. Al coeficiente de transformación cuantificado se le puede dar salida en forma de un flujo continuo de bits 455 a través de un codificador entrópico 450.

Para que el codificador de imágenes 400 se aplique en el aparato de codificación de vídeo 100, todos los elementos del codificador de imágenes 400, es decir, el predictor intra 410, el estimador de movimiento 420, el compensador de movimiento 425, el módulo de transformación 430, el cuantificador 440, el codificador entrópico 450, el cuantificador inverso 460, el módulo de transformación inversa 470, la unidad de deblocking 480, y la unidad de filtrado de bucle 490, realizan operaciones basadas en cada unidad de codificación de entre unidades de codificación que presentan una estructura de árbol al mismo tiempo que teniendo en cuenta la profundidad máxima de cada unidad de codificación máxima. Específicamente, el predictor intra 410, el estimador de movimiento 420, y el compensador de movimiento 425 determinan particiones y un modo de predicción de cada unidad de codificación de entre las unidades de codificación que presentan una estructura de árbol al mismo tiempo que teniendo en cuenta el tamaño máximo y la profundidad máxima de una unidad de codificación máxima actual, y el módulo de transformación 430 determina el tamaño de la unidad de transformación en cada unidad de codificación de entre las unidades de codificación que presentan una estructura en árbol.

La FIG. 5 es un diagrama de bloques de un decodificador de imágenes 500 basado en unidades de codificación, según una forma de realización de la presente invención.

Un analizador sintáctico 510 analiza sintácticamente datos de imagen codificados que se van a decodificar e información sobre codificación requerida para la decodificación a partir de un flujo continuo de bits 505. A los datos de imagen codificados se les da salida en forma de datos cuantificados inversos a través de un decodificador entrópico 520 y un cuantificador inverso 530, y los datos cuantificados inversos se restablecen en datos de imagen en un dominio espacial a través de un módulo de transformación inversa 540. A los datos de imagen en el dominio espacial, que pasaron a través del predictor intra 550 y el compensador de movimiento 560, se les puede dar salida en forma de un cuadro restablecido 595 después de haberse sometido a un post-procesado a través de una unidad de deblocking 570 y una unidad de filtrado de bucle 580. Además, a los datos de imagen a los que se somete a postprocesado a través de la unidad de deblocking 570 y la unidad de filtrado de bucle 580 se les puede dar salida en forma del cuadro de referencia 585.

Para que el decodificador de imágenes 500 se aplique en el método de decodificación de vídeo de acuerdo con una forma de realización de la presente invención, todos los elementos del decodificador de imágenes 500, es decir, el analizador sintáctico 510, el decodificador entrópico 520, el cuantificador inverso 530, el módulo de transformación inversa 540, el predictor intra 550, el compensador de movimiento 560, la unidad de deblocking 570, y la unidad de filtrado de bucle 580, llevan a cabo operaciones basadas en unidades de codificación que presentan una estructura en árbol para cada unidad de codificación máxima. Específicamente, la predicción intra 550 y el compensador de movimiento 560 llevan a cabo operaciones basadas en particiones y un modo de predicción para cada una de las unidades de codificación que presenta una estructura en árbol, y el módulo de transformación inversa 540 lleva a cabo operaciones basadas en el tamaño de una unidad de transformación para cada unidad de codificación.

La FIG. 6 es un diagrama que ilustra unidades de codificación más profundas de acuerdo con las profundidades de codificación, y particiones, según una forma de realización de la presente invención. El aparato de codificación de vídeo 100 y el aparato de decodificación de vídeo 200 usan unidades de codificación jerárquicas para tener en cuenta características de una imagen. La altura máxima, la anchura máxima, y la profundidad máxima de unidades de codificación se pueden determinar de manera adaptativa de acuerdo con las características de la imagen, o pueden ser establecidas de manera diferente por un usuario. Los tamaños de unidades de codificación de acuerdo con las profundidades de codificación se pueden determinar según el tamaño máximo predeterminado de la unidad de codificación.

En una estructura jerárquica 600 de unidades de codificación, según una forma de realización de la presente invención, la altura máxima y la anchura máxima de las unidades de codificación son, cada una de ellas, 64, y la profundidad máxima es 4. Puesto que la profundidad aumenta a lo largo de un eje vertical de la estructura jerárquica 600, la altura y la anchura de la unidad de codificación más profunda se dividen todas ellas. Además, a lo largo de un eje horizontal de la estructura jerárquica 600 se muestran una unidad de predicción y particiones, que son las bases para la codificación por predicción de cada unidad de codificación más profunda.

En otras palabras, una unidad de codificación máxima 610 es una unidad de codificación máxima en la estructura jerárquica 600, siendo la profundidad 0 y el tamaño, es decir, altura por anchura, es 64x64. La profundidad aumenta a lo largo del eje vertical, y existen una unidad de codificación 620 que tiene un tamaño de 32x32 y una profundidad de 1, una unidad de codificación 630 que tiene un tamaño de 16x16 y una profundidad de 2, una unidad de codificación 640 que tiene un tamaño de 8x8 y una profundidad de 3, y una unidad de codificación 650 que tiene un tamaño de 4x4 y una profundidad de 4. La unidad de codificación 650 que presenta el tamaño de 4x4 y la profundidad de 4 es una unidad de codificación mínima.

Además, en referencia a la FIG. 6, las particiones de cada unidad de codificación están dispuestas como unidades de predicción de la unidad de codificación de acuerdo con la profundidad y a lo largo del eje horizontal. En otras palabras, las unidades de predicción de la unidad de codificación máxima 610 con un tamaño de 64x64 y una profundidad de 0 pueden incluir la unidad de codificación máxima 610 que tiene un tamaño de 64x64, y particiones incluidas en la unidad de codificación máxima 610, es decir, particiones 612 que tienen el tamaño de 64x32, particiones 614 que tienen el tamaño de 32x64, y particiones 616 que tienen el tamaño de 32x32.

De manera similar, una unidad de predicción de la unidad de codificación 620 que tiene el tamaño de 32x32 y la profundidad de 1 se puede dividir en particiones incluidas en la unidad de codificación 620, es decir, una partición 620 con un tamaño de 32x32, particiones 622 con un tamaño de 32x16, particiones 624 con un tamaño de 16x32, y particiones 626 con un tamaño de 16x16.

De manera similar, una unidad de predicción de la unidad de codificación 630 con el tamaño de 16x16 y la profundidad de 2 se puede dividir en particiones incluidas en la unidad de codificación 630, es decir, una partición con un tamaño de 16x16 incluida en la unidad de codificación 630, particiones 632 con un tamaño de 16x8, particiones 634 con un tamaño de 8x16, y particiones 636 con un tamaño de 8x8.

De manera similar, una unidad de predicción de la unidad de codificación 640 que tiene el tamaño de 8x8 y la profundidad de 3 se puede dividir en particiones incluidas en la unidad de codificación 640, es decir, una partición con un tamaño de 8x8 incluida en la unidad de codificación 640, particiones 642 con un tamaño de 8x4, particiones 644 con un tamaño de 4x8, y particiones 646 con un tamaño de 4x4.

La unidad de codificación 650 que presenta el tamaño de 4x4 y la profundidad de 4 es la unidad de codificación mínima y una unidad de codificación de la profundidad inferior. Una unidad de predicción de la unidad de codificación 650 se asigna únicamente a una partición que tiene un tamaño de 4x4.

Para determinar la por lo menos una profundidad de codificación de las unidades de codificación que constituyen la unidad de codificación máxima 610, el módulo de determinación de profundidades de codificación 120 del aparato de codificación de vídeo 100 lleva a cabo la codificación para unidades de codificación en correspondencia con cada profundidad incluidas en la unidad de codificación máxima 610.

El número de unidades de codificación más profundas de acuerdo con las profundidades de codificación que incluyen datos del mismo orden y el mismo tamaño aumenta a medida que se incrementa la profundidad. Por ejemplo, se requieren cuatro unidades de codificación correspondientes a una profundidad de 2 para cubrir datos que están incluidos en una unidad de codificación correspondiente a una profundidad de 1. Por consiguiente, para comparar resultados de codificación de los mismos datos según las profundidades de codificación, se codifica cada una de entre la unidad de codificación correspondiente a la profundidad de 1 y las cuatro unidades de codificación correspondientes a la profundidad de 2.

Para llevar a cabo la codificación para una profundidad actual de entre las profundidades de codificación, se puede seleccionar un error de codificación mínimo para la profundidad actual llevando a cabo una codificación para cada unidad de predicción en las unidades de codificación correspondientes a la profundidad actual, a lo largo del eje horizontal de la estructura jerárquica 600. Alternativamente, el error de codificación mínimo se puede buscar comparando los errores de codificación mínimos de acuerdo con las profundidades de codificación, llevando a cabo una codificación para cada profundidad a medida que la profundidad aumenta a lo largo del eje vertical de la estructura jerárquica 600. Como profundidad de codificación y tipo de partición de la unidad de codificación máxima 610 se puede seleccionar una profundidad y una partición que presenten el error de codificación mínimo en la unidad de codificación máxima 610.

La FIG. 7 es un diagrama para describir una relación entre una unidad de codificación 710 y unidades de transformación 720, según una forma de realización de la presente invención.

El aparato de codificación de vídeo 100 o el aparato de codificación de vídeo 200 codifica o decodifica una imagen de acuerdo con unidades de codificación que presentan tamaños inferiores o iguales a una unidad de codificación máxima para cada unidad de codificación máxima. Los tamaños de unidades de transformación para la transformación durante la codificación se pueden seleccionar basándose en unidades de datos que no son mayores que una unidad de codificación correspondiente. Por ejemplo, en el aparato de codificación de vídeo 100 o 200, si el tamaño de la unidad de codificación 710 es 64x64, la transformación se puede llevar a cabo usando las unidades de

transformación 720 que presentan un tamaño de 32x32. Además, los datos de la unidad de codificación 710 que presentan el tamaño de 64x64 se pueden codificar llevando a cabo la transformación sobre cada una de las unidades de transformación que presentan el tamaño de 32x32, 16x16, 8x8, y 4x4, las cuales son menores que 64x64, y a continuación se puede seleccionar una unidad de transformación que presente el error de codificación mínimo.

La FIG. 8 es un diagrama para describir información de codificación de unidades de codificación correspondientes a una profundidad de codificación, según una forma de realización de la presente invención. El codificador de información de codificación 140 del aparato de codificación de vídeo 100 puede codificar y transmitir información 800 sobre un tipo de partición, información 810 sobre un modo de predicción, e información 820 sobre un tamaño de una unidad de transformación para cada unidad de codificación correspondiente a una profundidad de codificación, como información sobre un modo de codificación.

La información 800 indica información sobre la forma de una partición obtenida al dividir una unidad de predicción de una unidad de codificación actual, siendo la partición una unidad de datos para codificar por predicción la unidad de codificación actual. Por ejemplo, una unidad de codificación actual CU_0 que tiene un tamaño de 2Nx2N se puede dividir en una cualquiera de entre una partición 802 con un tamaño de 2Nx2N, una partición 804 con un tamaño de 2NxN, una partición 806 con un tamaño de Nx2N, y una partición 808 con un tamaño de NxN. En este caso, la información 800 sobre un tipo de partición se establece para indicar una de entre la partición 804 con un tamaño de 2NxN, la partición 806 con un tamaño de Nx2N, y la partición 808 con un tamaño de NxN.

La información 810 indica un modo de predicción de cada partición. Por ejemplo, la información 810 puede indicar un modo de codificación por predicción llevado a cabo sobre una partición indicada por la información 800, es decir, un modo intra 812, un modo inter 814, o un modo de omisión 816.

La información 820 indica una unidad de transformación que se tomará como base cuando se lleve a cabo la transformación sobre una unidad de codificación actual. Por ejemplo, la unidad de transformación puede ser una primera unidad de transformación intra 822, una segunda unidad de transformación intra 824, una primera unidad de transformación inter 826, o una segunda unidad de transformación intra 828.

El extractor de información de codificación 220 del aparato de decodificación de vídeo 200 puede extraer y usar la información 800, 810, y 820 para la decodificación, de acuerdo con cada unidad de codificación más profunda.

La FIG. 9 es un diagrama de unidades de codificación más profundas de acuerdo con profundidades de codificación, según una forma de realización de la presente invención. Se puede usar información de división para indicar un cambio de una profundidad. La información de división indica si una unidad de codificación de una profundidad actual se divide en unidades de codificación de una profundidad superior.

Una unidad de predicción 910 para codificar por predicción de movimiento una unidad de codificación 900 que tiene una profundidad de 0 y un tamaño de 2N_0x2N_0, puede incluir particiones de un tipo de partición 912 con un tamaño de 2N_0x2N_0, un tipo de partición 914 con un tamaño de 2N_0xN_0, un tipo de partición 916 con un tamaño de N_0x2N_0, y un tipo de partición 918 con un tamaño de N_0xN_0.

La codificación por predicción de movimiento se lleva a cabo de manera repetida sobre una partición con un tamaño de 2N_0x2N_0, dos particiones con un tamaño de 2N_0xN_0, dos particiones con un tamaño de N_0x2N_0, y cuatro particiones con un tamaño de N_0xN_0, de acuerdo con cada tipo de partición. Se pueden llevar a cabo un modo intra y la codificación por predicción de movimiento en un modo inter sobre las particiones con los tamaños de 2N_0x2N_0, N_0x2N_0, 2N_0xN_0, y N_0xN_0. La codificación por predicción en un modo de omisión se lleva a cabo solamente sobre la partición con el tamaño de 2N_0x2N_0.

Si el error de codificación es el más pequeño en el tipo de partición 918 que tiene un tamaño de N_0xN_0, la profundidad se cambia de “0” a “1” para dividir el tipo de partición 918 en la operación 920, y se lleva a cabo de manera repetida la codificación sobre unidades de codificación 922, 924, 926 y 928 que tienen una profundidad de 2 y un tamaño de N_0xN_0 para buscar un error de codificación mínimo.

Puesto que la codificación se lleva a cabo de manera repetida sobre las unidades de codificación 922, 924, 926, y 928 que tienen la misma profundidad, la codificación de una unidad de codificación que tiene una profundidad de 1 se describirá usando una unidad de codificación de entre las unidades de codificación 922, 924, 926, y 928. Una unidad de predicción 930 para predecir por movimiento una unidad de codificación que tiene una profundidad de 1 y un tamaño de 2N_1x2N_1 (=N_0xN_0), puede incluir particiones de un tipo de partición 932 con un tamaño de 2N_1x2N_1, un tipo de partición 934 con un tamaño de 2N_1xN_1, un tipo de partición 936 con un tamaño de N_1x2N_1, y un tipo de partición 938 con un tamaño de N_1xN_1. La codificación se lleva a cabo de manera repetida sobre una partición que tiene un tamaño de 2N_1x2N_1, dos particiones que tienen un tamaño de 2N_1xN_1, dos particiones que tienen un tamaño de N_1x2N_1, y cuatro particiones que tienen un tamaño de N_1xN_1, según cada tipo de partición y usando la estimación de movimiento.

Si el error de codificación es el más pequeño en el tipo de partición 938 que presenta el tamaño de N_1xN_1, la profundidad actual se incrementa de “1” a “2” en la operación 940, y la codificación se lleva a cabo de manera repetida sobre unidades de codificación 942, 944, 946, y 948 que tienen una profundidad de 2 y un tamaño de N_2xN_2 para buscar el error de codificación mínimo.

Si la profundidad máxima es “d”, entonces la información de división correspondiente a profundidades de codificación se puede establecer en una profundidad de (d-1). Es decir, una unidad de predicción 950 para predecir por movimiento una unidad de codificación que tiene una profundidad de d-1 y un tamaño de 2N_(d-1)x2N_(d_1), puede incluir particiones de un tipo de partición 952 con un tamaño de 2N_(d-1)x2N_(d_1), un tipo de partición 954 con un tamaño de 2N_(d-1)xN_(d_1), un tipo de partición 956 con un tamaño de N_(d-1)x2N_(d_1), y un tipo de partición 958 con un tamaño de N_(d-1)xN_(d_1).

La codificación se lleva a cabo de manera repetida sobre una partición que tiene un tamaño de 2N_(d-1)x2N_(d_1), dos particiones que tienen un tamaño de 2N_(d-1)xN_(d_1), dos particiones que tienen un tamaño de N_(d1)x2N_(d_1), y cuatro particiones que tienen un tamaño de N_(d-1)xN_(d_1), según cada tipo de partición y usando una estimación de movimiento. Puesto que la profundidad máxima es “d”, la unidad de codificación 952 que tiene la profundidad de (d-1) ya no se divide.

El aparato de codificación de vídeo 100 según una forma de realización de la presente invención compara entre sí errores de codificación de acuerdo con profundidades de codificación y selecciona una profundidad correspondiente al error de codificación mínimo, con el fin de determinar una profundidad de codificación para el tipo de partición 912. Por ejemplo, en el caso de una unidad de codificación que tenga una profundidad de 0, los tipos de partición 912, 914, 916, y 918 se codifican individualmente llevando a cabo una estimación de movimiento sobre los mismos, y se selecciona una unidad de predicción que presente el error de codificación mínimo de entre los tipos de partición 912, 914, 916 y 918. De manera similar, se puede determinar una unidad de predicción que presente el error de codificación mínimo para cada una de las profundidades de 0, 1, ..., d-1. En el caso de la profundidad de d, se puede determinar un error de codificación llevando a cabo una estimación de movimiento basada en una unidad de predicción 960 que es una unidad de codificación que tiene un tamaño de 2N_dx2N_d. Tal como se ha descrito anteriormente, los errores de codificación mínimos correspondientes a las profundidades de 0, 1, ..., d-1 se comparan entre sí, y se selecciona una profundidad que tiene un error de codificación mínimo como profundidad de codificación de entre los errores de codificación mínimos. La profundidad de codificación y una unidad de predicción correspondiente a la profundidad de codificación se pueden codificar y transmitir como información referente a un modo de codificación. Además, puesto que una unidad de codificación se debería dividir desde la profundidad de 0 hasta la profundidad de codificación, únicamente la información de división referente a la profundidad de codificación se fija a “0”, y la información de división referente a las otras profundidades se fija a “1”.

El extractor de información de codificación 220 del aparato de decodificación de vídeo 200 puede extraer y usar la información sobre la profundidad de codificación y la unidad de predicción de la unidad de codificación 900 para decodificar la partición 912. El aparato de decodificación de vídeo 200 puede determinar una profundidad, en la cual la información de división es 0, como profundidad de codificación usando información de división según las profundidades de codificación, y puede usar información sobre un modo de codificación de la profundidad correspondiente para la decodificación.

Las FIGS. 10A y 10B son diagramas para describir una relación entre unidades de codificación 1010, unidades de predicción 1060, y unidades de transformación 1070, según una forma de realización de la presente invención.

Las unidades de codificación 1010 son unidades de codificación correspondientes a profundidades de codificación determinadas por el aparato de codificación de vídeo 100, para una unidad de codificación máxima. Las unidades de predicción 1060 son particiones de unidades de predicción de cada una de las unidades de codificación 1010, y las unidades de transformación 1070 son unidades de transformación de cada una de las unidades de codificación 1010.

Cuando una profundidad de una unidad de codificación máxima es 0 en las unidades de codificación 1010, las profundidades de las unidades de codificación 1012 y 1054 son 1, las profundidades de las unidades de codificación 1014, 1016, 1018, 1028, 1050 y 1052 son 2, las profundidades de las unidades de codificación 1020, 1022, 1024, 1026, 1030, 1032 y 1048 son 3, y las profundidades de las unidades de codificación 1040, 1042, 1044 y 1046 son 4.

En las unidades de predicción 1060, algunas unidades de predicción 1014, 1016, 1022, 1032, 1048, 1050, 1052 y 1054 se obtienen dividiendo las unidades de codificación en las unidades de codificación 1010. En otras palabras, las unidades de predicción 1014, 1022, 1050 y 1054 son un tipo de partición que tiene un tamaño de 2NxN, la unidad de predicción 1016, 1048 y 1052 son un tipo de partición que tiene un tamaño de Nx2N, y la unidad de predicción 1032 es un tipo de partición que tiene un tamaño de NxN. Las unidades de predicción y las particiones de las unidades de codificación 1010 son menores que o iguales a cada unidad de codificación.

La transformación o transformación inversa se lleva a cabo sobre datos de imagen de las unidades de codificación 1052 y 1054 en las unidades de transformación 1070 en una unidad de datos que es menor que las unidades de

codificación 1052 y 1054. Además, las unidades de transformación 1014, 1016, 1022, 1032, 1048, 1050 y 1052 en las unidades de transformación 1070 son diferentes con respecto a las correspondientes de las unidades de predicción 1060 en términos de tamaños y formas. En otras palabras, los aparatos de codificación y decodificación de vídeo 100 y 200 pueden llevar a cabo una predicción intra, una estimación de movimiento, una compensación de movimiento, una transformación, y una transformación inversa individualmente sobre una unidad de datos en la misma unidad de codificación.

El codificador de información de codificación 140 del aparato de codificación de vídeo 100 ilustrado en la FIG. 1 puede codificar la información de codificación referente a cada unidad de codificación, y el extractor de información de codificación 220 del aparato de decodificación de vídeo 200 ilustrado en la FIG. 2 puede extraer la información de codificación referente a cada unidad de codificación.

La información de codificación puede contener información de división referente a cada unidad de codificación, información referente a un tipo de partición de cada unidad de codificación (a la que en lo sucesivo en la presente se hará referencia como “información de tipo de partición”), un modo de predicción, y el tamaño de una unidad de transformación. La información de codificación ilustrada en la FIG. 11 es simplemente un ejemplo de información de codificación que pueden establecer el aparato de codificación de vídeo 100 y el aparato de decodificación de vídeo 200, y por lo tanto, el concepto de la invención no se limita a la misma.

La información de división puede indicar una profundidad de codificación de una unidad de codificación correspondiente. Es decir, puesto que la profundidad de codificación es una profundidad que no se puede dividir de acuerdo con la información de división, se pueden definir, con respecto a la profundidad de codificación, una información de tipo de partición, un modo de predicción, y un tamaño de una unidad de transmisión. Cuando una profundidad actual se divide una vez más de acuerdo con la información de división, se puede llevar a cabo individualmente una codificación sobre cuatro unidades de codificación correspondientes a profundidades superiores.

En la información de tipo de división, el tipo de división de una unidad de transformación de la unidad de codificación que presenta la profundidad de codificación, se puede representar como una de 2Nx2N, 2NxN, Nx2N, y NxN. En el modo de predicción, el modo de estimación de movimiento se puede representar como uno de un modo intra, un modo inter, y un modo de omisión. El modo intra se puede definir únicamente cuando el tipo de partición incluye 2Nx2N y NxN. El modo de omisión se puede definir únicamente cuando el tipo de partición incluye 2Nx2N. El tamaño de la unidad de transformación se puede establecer de tal manera que se establezcan dos tamaños en el modo intra, y se establezcan dos tamaños en el modo inter.

Cada unidad de codificación mínima incluida en una unidad de codificación puede contener información de codificación referente a cada unidad de codificación correspondiente a una profundidad de codificación de la misma. Así, es posible determinar si una unidad de codificación actual es una de las unidades de codificación pertenecientes a la misma profundidad de codificación mediante la comprobación de información de codificación de unidades de codificación mínimas adyacentes. Además, las unidades de codificación correspondientes a una profundidad de codificación actual se pueden comprobar usando información de codificación de una unidad de codificación mínima. Por consiguiente, se puede obtener una distribución de profundidades de codificación en una unidad de codificación máxima.

A continuación se describirá detalladamente la predicción intra que llevan a cabo el predictor intra 410 del aparato de codificación de vídeo 100 de la FIG. 1 y el predictor intra 550 del aparato de decodificación de vídeo de la FIG. 2 según formas de realización de la presente invención. En las siguientes descripciones, debería entenderse que la expresión “unidad de codificación” está relacionada con un proceso de codificación de una imagen y se le hace referencia como “unidad de decodificación” en relación con un proceso de decodificación de una imagen. Es decir, en las siguientes descripciones, las expresiones “unidad de codificación” y “unidad de decodificación” indican la misma cosa y únicamente son diferentes por cuanto se está llevando a cabo el proceso de codificación o el proceso de decodificación. Para uniformizar las expresiones, excepto para algún caso particular, a la unidad de codificación y a la unidad de decodificación se les puede hacer referencia como unidad de codificación en los procesos tanto de codificación como de decodificación.

La FIG. 12 es un diagrama de bloques de un aparato de predicción intra 1200 según una forma de realización de la presente invención. En referencia al a FIG. 12, el aparato de predicción intra 1200 incluye un predictor 1210 y un post-procesador 1220. El predictor 1210 aplica una predicción intra a una unidad de codificación actual usando modos de predicción intra determinados de acuerdo con el tamaño de la unidad de codificación actual, y da salida a una primera unidad de codificación predicha. El post-procesador 1220 lleva a cabo un post-procesado usando píxeles vecinos de píxeles que constituyen la primera unidad de codificación predicha para cambiar los valores de los píxeles de la primera unidad de codificación predicha, y a continuación da salida a una segunda unidad de codificación predicha a la que se ha aplicado un post-procesado.

La FIG. 13 es una tabla que muestra una serie de modos de predicción intra de acuerdo con el tamaño de una unidad de codificación, según una forma de realización de la presente invención. Según una forma de realización de la presente invención, el número de modos de predicción intra se puede determinar de acuerdo con el tamaño de una unidad de codificación (una unidad de decodificación en el caso de un proceso de decodificación). En referencia a la FIG. 13, si el tamaño de una unidad de codificación a la cual se va a aplicar una predicción intra es, por ejemplo, NxN, entonces el número de modos de predicción intra que se van a realizar realmente sobre unidades de codificación con un tamaño de 2x2, 4x4, 8x8, 16x16, 32x32, 64x64 y 128x128 puede ser, respectivamente, 5, 9, 9, 17, 33, 5, y 5, (Ejemplo 2). La razón por la que el número de modos de predicción intra que se van a llevar a cabo realmente se determina de acuerdo con el tamaño de la unidad de codificación, es debido a que la tara correspondiente a la codificación de la información del modo de predicción varía según el tamaño de la unidad de codificación. En otras palabras, aunque una unidad de codificación de tamaño pequeño ocupa un área pequeña en una imagen completa, la tara para transmitir información adicional, por ejemplo, un modo de predicción, referente a la unidad de codificación de tamaño pequeño puede ser grande. Por lo tanto, cuando una unidad de codificación de tamaño pequeño se codifica usando demasiados modos de predicción, el número de bits puede aumentar, deteriorando así la eficiencia de la compresión. Es altamente probable que, como unidad de codificación para una región plana de una imagen, se seleccione una unidad de codificación de gran tamaño, por ejemplo, una unidad de codificación con un tamaño de 64x64 o mayor. La eficiencia de la compresión también se puede deteriorar cuando una unidad de codificación de tamaño grande seleccionada para codificar dicha región plana se codifica usando demasiados modos de predicción.

Así, según una forma de realización de la presente invención, el tamaño de la unidad de codificación se puede clasificar en términos generales en por lo menos tres tamaños: N1xN1 (2≤N1≤8, N1 indica un entero), N2xN2 (16≤N2≤32, N2 indica un entero), y N3xN3 (64≤N3, N3 indica un entero). Si el número de modos de predicción intra que se van a llevar a cabo sobre cada unidad de codificación con un tamaño de N1xN1 es A1 (A1 indica un entero positivo), el número de modos de predicción intra que se van a llevar a cabo sobre cada unidad de codificación con un tamaño de N2xN2 es A2 (A2 indica un entero positivo), y el número de modos de predicción intra que se van a llevar a cabo sobre cada unidad de codificación con un tamaño de N3xN3 es A3 (A3 indica un entero positivo), entonces el número de modos de predicción intra que se van a llevar a cabo de acuerdo con el tamaño de una unidad de codificación, se puede determinar de manera que cumpla “A3≤A1≤A2”. Es decir, si una imagen actual se divide en una unidad de codificación de tamaño pequeño, una unidad de codificación de tamaño medio, y una unidad de codificación de tamaño grande, entonces el número de modos de predicción que se van a realizar sobre la unidad de codificación de tamaño medio puede ser mayor que el correspondiente de los modos de predicción que se van a llevar a cabo sobre la unidad de codificación de tamaño pequeño y la unidad de codificación de tamaño grande. No obstante, la presente invención no queda limitada a esto y también se puede establecer la ejecución de un número elevado de modos de predicción sobre las unidades de codificación de tamaño pequeño y de tamaño medio. El número de modos de predicción de acuerdo con el tamaño de cada unidad de codificación que se ilustra en la FIG. 13 es simplemente un ejemplo y, por lo tanto, puede ser variable.

Las FIGS. 14A a 14C son dibujos para explicar modos de predicción intra que se pueden llevar a cabo sobre una unidad de codificación que tiene un tamaño predeterminado, según formas de realización de la presente invención. Específicamente, la FIG. 14A es una tabla que muestra modos de predicción intra que se pueden llevar a cabo sobre una unidad de codificación con un tamaño predeterminado, de acuerdo con una forma de realización de la presente invención. En referencia las FIGS. 13 y 14A, por ejemplo, si se aplica una predicción intra a una unidad de codificación que tiene un tamaño de 4x4, se pueden ejecutar un modo vertical (modo 0), un modo horizontal (modo 1), un modo de corriente continua (DC) (modo 2), un modo diagonal descendente-izquierda (modo 3), un modo diagonal descendente-derecha (modo4), un modo vertical-derecha (modo 5), un modo horizontal-descendente (modo 6), un modo vertical-izquierda (modo 7), o un modo horizontal-ascendente (modo 8).

La FIG. 14B ilustra direcciones de los modos de predicción intra ilustrados en la FIG. 14A, según una forma de realización de la presente invención. En la FIG. 14B, los valores asignados a flechas indican valores del modo cuando la predicción se lleva a cabo en direcciones indicadas con las flechas, respectivamente. En este caso, el modo 2 es un modo de predicción DC que no presenta ninguna dirección y por lo tanto no se ilustra en la FIG. 14B.

La FIG. 14C ilustra métodos de predicción intra que se pueden llevar a cabo sobre la unidad de codificación ilustrada en la FIG. 14A, según una forma de realización de la presente invención. En referencia a la FIG. 14C, una unidad de codificación predicha se produce usando píxeles vecinos A a M de una unidad de codificación actual de acuerdo con un modo de predicción intra disponible determinado según el tamaño del a unidad de codificación actual. Por ejemplo, se describirá un método de codificación por predicción de una unidad de codificación actual que tiene un tamaño de 4x4 según el modo vertical (modo 0) de la FIG. 14A. En primer lugar, se predicen como valores de la unidad de codificación de 4x4, valores de los píxeles A a D adyacentes a la parte superior de la unidad de codificación de 4x4. Específicamente, los valores del píxel A se predicen como cuatro valores de píxeles en una primera columna de la unidad de codificación de 4x4, los valores del píxel B se predicen como cuatro valores de píxeles en una segunda columna de la unidad de codificación de 4x4, los valores del píxel C se predicen como cuatro valores de píxeles en una tercera columna de la unidad de codificación de 4x4, y los valores del píxel D se predicen como cuatro valores de píxeles en una cuarta columna de la unidad de codificación actual de 4x4. A

continuación, se calculan y codifican valores de error entre valores reales de píxeles incluidos en una unidad de codificación de 4x4 que se ha predicho usando los píxeles A a D y la unidad de codificación de 4x4 original.

La FIG. 15 es un conjunto de dibujos para explicar modos de predicción intra que se pueden llevar a cabo sobre una unidad de codificación que tiene un tamaño predeterminado, según otras formas de realización de la presente invención. En referencia las FIGS. 13 y 15, por ejemplo, si se aplica una predicción intra a una unidad de codificación que tiene un tamaño de 2x2, se puede llevar a cabo un total de cinco modos, por ejemplo, un modo vertical, un modo horizontal, un modo de DC, un modo plano y un modo diagonal descendente-derecha.

Tal como se ilustra en la FIG. 13, si una unidad de codificación con un tamaño de 32x32 tiene 33 modos de predicción intra, entonces se deberían establecer direcciones de los 33 modos de predicción intra. Según una forma de realización de la presente invención, la dirección de predicción para seleccionar píxeles vecinos que se usarán como píxeles de referencia sobre la base de píxeles incluidos en una unidad de codificación se establece usando un parámetro “dx” y un parámetro “dy” con el fin de establecer modos de predicción intra que presentan diversas direccionalidades además de los modos de predicción intra descritos anteriormente en referencia a las FIGS. 14 y

15. Por ejemplo, cuando cada uno de los 33 modos de predicción se define como modo N (N es un entero de 0 a 32), el modo 0, el modo 1, el modo 2, y el modo 3 se fijan, respectivamente, como modo vertical, modo horizontal, modo de DC, y modo plano, y cada uno del modo 4 al modo 31 se puede fijar como modo de predicción que tiene una direccionalidad de tan-1(dy/dx) usando un parámetro (dx, dy) expresado con uno de entre (1,-1), (1,1), (1,2), (2,1), (1,-2), (2,1), (1,-2), (2,-1), (2,-11), (5,-7), (10,-7), (11,3), (4,3), (1,11), (1,-1), (12,-3), (1,-11), (1,-7), (3,-10), (5,6), (7,-6), (7,-4), (11,1), (6,1), (8,3), (5,3), (5,7), (2,7), (5,-7), y (4,-3) mostrados en la Tabla 1.

[Tabla 1]

modo n.º: dx dy modo n.º dx dy

modo 4: 1 -1 modo 18 1 -11

modo 5: 1 1 modo 19 1 -7

modo 6: 1 2 modo 20 3 -10

modo 7: 2 1 modo 21 5 -6

modo 8: 1 -2 modo 22 7 -6

modo 9: 2 -1 modo 23 7 -4

modo 10: 2 -11 modo 24 11 1

modo 11: 5 -7 modo 25 6 1

modo 12: 10 -7 modo 26 8 3

modo 13: 11 3 modo 27 5 3

modo 14: 4 3 modo 28 5 7

modo 15: 1 11 modo 29 2 7

modo 16: 1 -1 modo 30 5 -7

modo 17: 12 -3 modo 31 4 -3

El modo 0, el modo 1, el modo 2, el modo 3, y el modo 32 indican respectivamente un modo vertical, un modo horizontal, un modo de DC, un modo plano, y un modo Bilineal.

El modo 32 se puede establecer como modo bilineal que usa una interpolación bilineal tal como se describirá posteriormente en referencia a la FIG. 17.

La FIG. 16 es un diagrama de referencia para explicar modos de predicción inter que tienen diversas direccionalidades según formas de realización de la presente invención. Tal como se ha descrito anteriormente en referencia a la Tabla 1, cada uno de los modos de predicción intra según formas de realización de la presente invención puede tener una direccionalidad de tan-1(dy/dx) usando una pluralidad de parámetros (dx, dy).

En referencia a la FIG. 16, como predictores del píxel actual P se pueden usar los píxeles vecinos A y B sobre una línea 160 que discurre desde un píxel actual P en una unidad de codificación actual, la cual se va a predecir, con un ángulo de tan-1(dy/dx) determinado por un valor de un parámetro (dx, dy) de acuerdo con un modo, mostrado en la Tabla 1. En este caso, los píxeles vecinos A y B pueden ser píxeles que han sido codificados y restablecidos previamente, y pertenecen a unidades de codificación previas ubicadas por encima y en el lado izquierdo de la unidad de codificación actual. Además, cuando la línea 160 no pasa por píxeles vecinos sobre posiciones que tienen, cada una de ellas, un valor entero, sino que pasa entre estos píxeles vecinos, como predictores del píxel actual P se pueden usar píxeles vecinos más próximos a la línea 160. Si hay presentes dos píxeles que se encuentran con la línea 160, por ejemplo, el píxel vecino A situado por encima del píxel actual P y el píxel vecino B situado en el lado izquierdo del píxel actual P, como predictor del píxel actual P se puede usar un promedio de valores de los píxeles vecinos A y B. Alternativamente, si el producto de los valores de los parámetros “dx” y “dy” es un valor positivo, se puede usar el píxel vecino A, y si el producto de los valores de los parámetros “dx” y “dy” es un valor negativo, se puede usar el píxel vecino B.

Los modos de predicción intra que presentan varias direccionalidades mostradas en la Tabla 1 se pueden predeterminar por medio de un lado de codificación y un lado de decodificación, y se puede transmitir solamente un índice de un modo de predicción intra de cada unidad de codificación.

5 La FIG. 17 es un diagrama de referencia para explicar un modo bilineal según una forma de realización de la presente invención. En referencia a la FIG. 17, en el modo bilineal, se calcula un promedio geométrico considerando un valor de un píxel actual P 170 en una unidad de codificación actual, de la cual se va a realizar una predicción, los valores de píxeles en los límites superior, inferior, izquierdo y derecho de la unidad de codificación actual, y las distancias entre el píxel actual P 170 y los límites superior, inferior, izquierdo y derecho de la unidad de codificación

10 actual, y el mismo se usa a continuación como predictor del píxel actual P 170. Por ejemplo, en el modo bilineal, como predictor del píxel actual P 170 se usa un promedio geométrico que se calcula usando un píxel virtual A 171, un píxel virtual B 172, un píxel D 176, y un píxel E 177 situados en los lados superior, inferior, izquierdo y derecho del píxel actual P 170, y las distancias entre el píxel actual P 170 y los límites superior, inferior, izquierdo y derecho de la unidad de codificación actual. Puesto que el modo bilineal es uno de entre los modos de predicción intra, los

15 píxeles vecinos que se han codificado y restablecido previamente y pertenecen a unidades de codificación previas se usan como píxeles de referencia para la predicción. Así, como píxel A 171 y píxel B 172 no se usan valores de la unidad de codificación actual, sino que, como píxel A 171 y píxel B 172 se usan valores virtuales que se calculan usando píxeles vecinos situados en los lados superior e izquierdo de la unidad de codificación actual.

20 Específicamente, en primer lugar, se calcula un valor de un píxel virtual C 173 en un punto inferior situado más a la derecha de la unidad de codificación actual calculando un promedio de valores de un píxel vecino (píxel superior de la derecha) 174 en un punto superior situado más a la derecha de la unidad de codificación actual y un píxel vecino (píxel inferior de la izquierda) 175 en un punto inferior situado más a la izquierda de la unidad de codificación actual, según se expresa en la siguiente ecuación:

25 C=0,5(PíxelInferiorIzquierda+PíxelSuperiorDerecha) ... (1)

A continuación, se calcula un valor del píxel virtual A 171 situado en el límite inferior de la unidad de codificación actual cuando el píxel actual P 170 se prolonga hacia abajo teniendo en cuenta la distancia W1 entre el píxel actual

30 P 170 y el límite izquierdo de la unidad de codificación actual y la distancia W2 entre el píxel actual P 170 y el límite derecho de la unidad de codificación actual, usando la siguiente ecuación:

A=(C*W1+PíxelInferiorIzquierda*W2)/(W1+W2) ... (2)

35 De manera similar, se calcula un valor del píxel virtual B 172 situado en el límite de más a la derecha de la unidad de codificación actual cuando el píxel actual P 170 se prolonga en la dirección a la derecha teniendo en cuenta la distancia h1 entre el píxel actual P 170 y el límite superior de la unidad de codificación actual y la distancia h2 entre el píxel actual P 170 y el límite inferior de la unidad de codificación actual, usando la siguiente ecuación:

40 B=(C*h1+PíxelSuperiorDerecha*h2)/(h1+h2) ... (3)

Cuando los valores de los píxeles virtuales A y B se determinan usando las Ecuaciones (1) a (3), como predictor del píxel actual P 170 se puede usar un promedio de los valores de los píxeles A 171, el píxel B 172, el píxel D 176, y el píxel E 177. Tal como se ha descrito anteriormente, en el modo bilineal, se puede obtener una unidad de

45 codificación predicha de la unidad de codificación actual llevando a cabo una predicción bilineal sobre todos los píxeles incluidos en la unidad de codificación actual.

Según una forma de realización de la presente invención, la codificación por predicción se lleva a cabo de acuerdo con uno de varios modos de predicción intra determinados según el tamaño de una unidad de codificación,

50 permitiendo así una compresión eficiente de vídeo basada en características de una imagen.

Tal como se ha descrito anteriormente, una unidad de codificación predicha que se produce usando un modo de predicción intra determinado de acuerdo con el tamaño de una unidad de codificación actual por el predictor 1210 del aparato de predicción intra 1200 de la FIG. 12, presenta una direccionalidad en concordancia con el modo de 55 predicción intra. La dirección en la unidad de codificación predicha puede conducir a una mejora de la eficiencia de predicción cuando píxeles de la unidad de codificación actual que se va a predecir tienen una direccionalidad predeterminada, aunque puede conducir a un deterioro de la eficiencia de la predicción cuando estos píxeles no tienen una direccionalidad predeterminada. Por lo tanto, el post-procesador 1220 puede mejorar la eficiencia de la predicción al producir una unidad de codificación predicha nueva cambiando valores de píxeles de la unidad de

60 codificación predicha mediante el uso de los píxeles de la unidad de codificación predicha y por lo menos un píxel vecino, como post-procesado para la unidad de codificación predicha que se produce a través de una predicción intra.

A continuación se describirá un método de post-procesado de una unidad de codificación predicha por medio del 65 post-procesador 1220 de la FIG. 12.

El post-procesador 1220 produce una segunda unidad de codificación predicha cambiando valores de píxeles que constituyen una primera unidad de codificación predicha producida por el predictor 1210 mediante la ejecución de una operación usando los píxeles de la primera unidad de codificación predicha y por lo menos un píxel vecino. En este caso, el predictor 1220 produce la primera unidad de codificación predicha mediante el uso de un modo de predicción intra determinado de acuerdo con el tamaño de una unidad de codificación actual, tal como se ha descrito anteriormente.

La FIG. 18 es un diagrama de referencia para explicar el post-procesado de una primera unidad de codificación predicha, según una forma de realización de la presente invención. En la FIG. 18, los numerales de referencia 1810 a 1860 ilustran un proceso de cambio de valores de píxeles en la primera unidad de codificación predicha por parte del post-procesador 1220 en orden cronológico.

En referencia a la FIG. 18, el post-procesador 1220 cambia valores de píxeles en la primera unidad de codificación predicha 1810 mediante el cálculo de un promedio ponderado de valores de un píxel en la primera unidad de codificación predicha 1810, que se va a cambiar, y píxeles vecinos del píxel. Por ejemplo, en referencia a la FIG. 18, si un valor de un píxel 1821 de la primera unidad de codificación predicha 1810, que se va a cambiar, es f[1][1], un valor de un píxel 2022 situado por encima del píxel 1821 es f[0][1], un píxel 1823 situado en el lado izquierdo del píxel 1821 es f[1][0], y un resultado del cambio del valor f[1][1] del píxel 1821 es f’[1][1], entonces f’[1][1] se puede calcular usando la siguiente ecuación:

Tal como se ilustra en la FIG. 18, el post-procesador 1220 cambia valores de píxeles incluidos en la primera unidad de codificación predicha 1810 calculando un promedio ponderado de los valores de cada uno del píxel de la primera unidad de codificación predicha y píxeles situados por encima y en el lado izquierdo del píxel en una dirección que va desde un punto superior situado más a la izquierda de la primera unidad de codificación predicha a un punto inferior situado más a la derecha de la primera unidad de codificación predicha. No obstante, dicha operación de post-procesado según la presente invención no se limita a esto, y se puede llevar a cabo secuencialmente sobre los píxeles de la primera unidad de codificación predicha en una dirección que va desde un punto superior situado más a la derecha de la primera unidad de codificación predicha hasta un punto inferior situado más a la izquierda de la primera unidad de codificación predicha, o una dirección que va desde el punto inferior situado más a la derecha de la primera unidad de codificación predicha hasta el punto superior situado más a la izquierda de la primera unidad de codificación predicha. Por ejemplo, si el post-procesador 1220 cambia los valores de los píxeles de la primera unidad de codificación predicha en la dirección que va desde el punto superior de más a la derecha hasta el punto inferior de más a la izquierda a diferencia de lo que se ilustra en la FIG. 18, entonces los valores de los píxeles de la primera unidad de codificación predicha se cambian calculando un promedio ponderado de los valores de cada uno de los píxeles de la primera unidad de codificación predicha y píxeles situados por debajo y en el lado derecho de la primera unidad de codificación predicha.

Las FIGS. 19 y 20 son diagramas de referencia para explicar un funcionamiento del post-procesador 1220 de la FIG. 12 según formas de realización de la presente invención. En la FIG. 19, el numeral de referencia 1910 indica un primer píxel de una primera unidad de codificación predicha 1900, que se va a cambiar, y los numerales de referencia 1911 a 1918 indican píxeles vecinos del primer píxel 1910.

En la presente forma de realización (primera forma de realización) de la FIG. 19, los píxeles vecinos del primer píxel 1910 no se limitan a los correspondientes situados por encima y en el lado izquierdo de la primera unidad de codificación predicha, a diferencia de lo que se ilustra en la FIG. 18. En referencia a la FIG. 19, el post-procesador 1220 puede llevar a cabo un post-procesado del primer píxel 1910 usando un número predeterminado de píxeles vecinos seleccionados de entre los píxeles vecinos 1911 a 1918. Es decir, en referencia a la FIG. 20, se selecciona un número predeterminado de píxeles de entre los píxeles vecinos P1 a P8 de un primer píxel c de una unidad de codificación actual, y se cambia el valor del primer píxel c llevando a cabo una operación predeterminada sobre los píxeles vecinos seleccionados y el primer píxel c. Por ejemplo, si el tamaño de la primera unidad de codificación predicha 1900 es mxn, el valor del primer píxel 1910, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha 1900, es f[i][j], los valores de n píxeles seleccionados de entre los píxeles vecinos 1911 a 1918 del primer píxel 1910 para llevar a cabo el post-procesado del primer píxel 1910 son respectivamente f1 a fn, entonces el post-procesador 1220 cambia el valor del primer píxel 1910 de f[i][j] a f’[i][j] usando la siguiente ecuación. En este caso, m indica un entero positivo, n es “2” o “3”, i indica un entero de 0 a m-1, y j indica un entero de 0 a n-1.

El post-procesador 1220 produce una segunda unidad de codificación predicha cambiando los valores de todos los píxeles incluidos en la primera unidad de codificación predicha 1900 mediante el uso de la Ecuación (2). En la 5 Ecuación (2), se usan tres píxeles vecinos, aunque la presente invención no se limita a ello, y el post-procesador 1220 puede llevar a cabo un post-procesado usando cuatro o más píxeles vecinos.

De acuerdo con una segunda forma de realización de la presente invención, el post-procesador 1220 produce una segunda unidad de codificación predicha cambiando el valor de cada píxel de la primera unidad de codificación 10 predicha 1900 mediante el uso de un promedio armónico ponderado de los valores de un píxel de la primera unidad de codificación predicha 1900, que se va a cambiar, y píxeles vecinos del píxel.

Por ejemplo, el post-procesador 1220 cambia el valor de un píxel en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 de f[i][j] a f’[i][j] usando píxeles vecinos situados por encima y en el lado 15 izquierdo del píxel, tal como se muestra en la siguiente ecuación:

en la que α, β,y γ indican enteros positivos, y por ejemplo, α=2, β=2, y γ=1.

20 Según una tercera forma de realización de la presente invención, el post-procesador 1220 produce una segunda unidad de codificación predicha cambiando el valor de cada píxel de la primera unidad de codificación predicha 1900 mediante el uso de un promedio geométrico ponderado de valores de un píxel de la primera unidad de codificación predicha 1900, que se va a cambiar, y píxeles vecinos del píxel.

25 Por ejemplo, el post-procesador 1220 cambia el valor de un píxel en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 de f[i][j] a f’[i][j] usando píxeles vecinos situados por encima y en el lado

30 en la que α, β,y γ indican enteros positivos, y por ejemplo, α=1, β=1, y γ=2. En la Ecuación (2) a (4), al valor f[i][j] del píxel que se va a cambiar se le asigna un peso relativamente grande.

Tal como se ha descrito anteriormente, en las formas de realización primera a tercera de la presente invención, el

35 post-procesador 1220 puede llevar a cabo un post-procesado usando no solamente píxeles vecinos situados por encima y en el lado izquierdo de un píxel que se va a cambiar, sino también un número predeterminado de píxeles vecinos seleccionados de entre los píxeles vecinos 1911 a 1918 tal como se ilustra en la FIG. 19.

Según una cuarta forma de realización de la presente invención, el post-procesador 1220 produce una segunda

40 unidad de codificación predicha cambiando el valor de cada píxel de la primera unidad de codificación predicha con el uso de un promedio de los valores de un píxel en la primera unidad de codificación predicha, que se va a cambiar, y uno seleccionado de entre píxeles vecinos del píxel.

Por ejemplo, el post-procesador 1220 cambia el valor de un píxel en la columna iésima y la fila jésima de la primera 45 unidad de codificación predicha 1900 de f[i][j] a f’[i][j] usando píxeles vecinos situados por encima del píxel, tal como se muestra en la siguiente ecuación:

De manera similar, según una quinta forma de realización de la presente invención, el post-procesador 1220 produce una segunda unidad de codificación predicha mediante el cambio del valor de cada píxel de la primera unidad de codificación predicha usando un promedio de los valores de un píxel de la primera unidad de codificación predicha, que se va a cambiar, y píxeles vecinos situados en el lado izquierdo del píxel.

En otras palabras, el post-procesador 1220 cambia el valor de un píxel en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 de f[i][j] a f’[i][j], tal como se muestra en la siguiente ecuación:

10 De acuerdo con una sexta forma de realización de la presente invención, el post-procesador 1220 produce una segunda unidad de codificación predicha mediante el cambio del valor de cada píxel de la primera unidad de codificación predicha usando una mediana entre los valores de un píxel de la primera unidad de codificación predicha, que se va a cambiar, y píxeles vecinos del píxel. En referencia de nuevo a la FIG. 19, por ejemplo, se

15 supone que el valor f[i][j] del primer píxel 1910 en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900, el valor f[i][j-1] del segundo píxel 1912, y el valor f[i-1][j] del tercer píxel 1911 tienen una relación de f[i][j-1]>f[i-1][j]>f[i][j]. En este caso, el post-procesador 1220 cambia el valor f[i][j] del primer píxel 1910 a la mediana f[i-1][j] entre el primer al tercer píxeles 1910 a 1912.

20 En las formas de realización séptima a novena de la presente invención, el post-procesador 1220 produce una segunda unidad de codificación predicha mediante el uso de unidades de codificación previas adyacentes a una unidad de codificación actual, que se han codificado y restablecido previamente, en lugar de usando píxeles vecinos de un píxel que va a ser cambiado.

25 En referencia de nuevo a la FIG. 19, en la séptima forma de realización de la presente invención, el post-procesador 1220 cambia el valor del primer píxel 1910 a f’[i][j] calculando un promedio del valor del primer píxel 1910 en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 y el valor del píxel 1921 que está situado en la misma columna que el primer píxel 1910 e incluido en una unidad de codificación adyacente a la parte superior de la unidad de codificación actual, tal como se muestra en la siguiente ecuación:

en la que f[-1][j] indica el valor del píxel 1921.

De manera similar, en la octava forma de realización de la presente invención, el post-procesador 1220 cambia el

35 valor del primer píxel 1910 a f’[i][j] calculando un promedio del valor del primer píxel 1910 en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 y el valor del píxel 1922 que está situado en la misma fila que el primer píxel 1910 e incluido en una unidad de codificación adyacente al lado izquierdo de la unidad de

40 en la que f[i][-1] indica el valor del píxel 1922.

En la novena forma de realización de la presente invención, el post-procesador 1220 cambia el valor del primer píxel 1910 a f’[i][j] calculando un promedio ponderado de los valores del primer píxel 1910 en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900, el píxel 1921 situado en la misma columna que el primer píxel

45 1910 e incluido en una unidad de codificación adyacente a la parte superior de la unidad de codificación actual, y el píxel 1922 situado en la misma fila que el primer píxel 1910 e incluido en una unidad de codificación adyacente al lado izquierdo de la unidad de codificación actual, tal como se muestra en la siguiente ecuación:

En una décima forma de realización de la presente invención, el post-procesador 1220 cambia el valor del primer píxel 1910 de la primera unidad de codificación predicha 1900, que se va a cambiar, de f[i][j] a f’[i][j] usando una de las siguientes ecuaciones.

En la Ecuación (10), los valores de la primera unidad de codificación predicha 1900 se cambian de manera que aumentan gradualmente desde la parte superior a la inferior, en unidades de columna de la primera unidad de codificación predicha 1900. En la Ecuación (11), los valores de la primera unidad de codificación predicha 1900 se cambian de manera que aumentan gradualmente en una dirección hacia la derecha, en unidades de fila de la primera unidad de codificación predicha 1900. En la Ecuación (12), los valores de la primera unidad de codificación predicha 1900 se cambian de manera que disminuyen gradualmente desde la parte superior a la inferior, en unidades de columna de la primera unidad de codificación predicha 1900. En la Ecuación (13), los valores de la primera unidad de codificación predicha 1900 se cambia de manera que disminuyen gradualmente en la dirección hacia la derecha, en unidades de fila de la primera unidad de codificación predicha 1900.

En una undécima forma de realización de la presente invención, si el valor del primer píxel 1910, que está situado en la columna iésima y la fila jésima de la primera unidad de codificación predicha 1900 y que va a ser cambiado, es f[i][j], el valor de un píxel situado en un punto superior situado más a la izquierda de la primera unidad de codificación predicha 1900 es f[0][0], el valor de un píxel situado en la fila jésima como primer píxel 1910 y en el punto más a la izquierda de la primera unidad de codificación predicha 1900 es f[0][j], el valor de un píxel situado en la columna iésima como primer píxel 1910 y en el punto situado más arriba de la primera unidad de codificación predicha es f[i][0], y � � 0� � 0� � 00� , entonces el post-procesador 1220 cambia el valor del primer píxel 1910 a f’[i][j], tal como se muestra en la siguiente ecuación:

La Ecuación (14) se basa en una ecuación de onda, en la cual el valor de cada píxel en la primera unidad de codificación predicha 1900 se cambia calculando el valor G[i][j] mediante el ajuste de los valores de un píxel en la fila superior de la primera unidad de codificación predicha 1900 y de un píxel en la columna de más a la izquierda de la misma, de manera que presenten condiciones de contorno para suavizar el valor de cada píxel en la primera unidad de codificación predicha 1900, y a continuación mediante el cálculo de un promedio de los valores G[i][j] y f[i][j].

Se comparan entre sí los costes de flujos continuos de bits que contienen resultados de la codificación de segundas unidades de codificación predichas que se producen usando varios modos de funcionamiento de acuerdo con las anteriores formas de realización primera a undécima, respectivamente. A continuación, al encabezamiento del flujo continuo de bits se le añade el modo de funcionamiento que presenta el coste mínimo, de entre los diversos modos de funcionamiento. Cuando se añade el modo de funcionamiento al flujo continuo de bits, es posible representar diferentes modos de funcionamiento de manera que se diferencien entre sí mediante el uso de una codificación de longitud variable, en la cual un número pequeño de bits se asigna a un modo de funcionamiento que se usa con la mayor frecuencia, sobre la base de una distribución del modo de funcionamiento determinada después de que se haya completado la codificación de un número predeterminado de unidades de codificación. Por ejemplo, si un modo de funcionamiento según la primera forma de realización de la presente invención es un funcionamiento óptimo que conduce al coste mínimo de la mayoría de unidades de codificación, se asigna un número mínimo de bits a un índice que indica este modo de funcionamiento de manera que este modo de funcionamiento se pueda diferenciar con respecto a los otros modos de funcionamiento.

Cuando una unidad de codificación se fracciona en subunidades de codificación y se lleva a cabo una predicción en las subunidades de codificación, se puede producir una segunda unidad de codificación predicha aplicando modos de funcionamiento diferentes a las subunidades de codificación, respectivamente, o aplicando el mismo modo de funcionamiento a subunidades de codificación pertenecientes a la misma unidad de codificación para simplificar el cálculo y reducir la velocidad de tara.

Como coste para determinar un modo de funcionamiento óptimo se puede usar un método de optimización de distorsión-velocidad. Puesto que un método de codificación de vídeo según una forma de realización de la presente invención se lleva a cabo sobre una unidad de codificación a la que se ha aplicado una predicción intra, usada como datos de referencia para otra unidad de codificación, se puede calcular un coste asignando un peso elevado a la distorsión, en comparación con el método de optimización de distorsión-velocidad. Es decir, en el método de optimización de distorsión-velocidad, se calcula un coste, sobre la base de una distorsión que es la diferencia entre una imagen codificada y la imagen original y una velocidad de bits generada, tal como se muestra en la siguiente ecuación:

Coste =distorsión + velocidad de bits ... (15)

Por contraposición, en un método de codificación de vídeo según una forma de realización de la presente invención, un modo de post-procesado óptimo se determina asignando un peso elevado a una distorsión, en comparación con el método de optimización de distorsión-velocidad, tal como se muestra en la siguiente ecuación:

Coste=α* distorsión + velocidad de bits (α indica un número real igual o superior a “2”) ... (16)

La FIG. 21 es un diagrama de flujo que ilustra un método de codificación de vídeo según una forma de realización de la presente invención. En referencia a la FIG. 21, en la operación 2110, se produce una primera unidad de codificación predicha de una unidad de codificación actual que va a ser codificada. La primera unidad de codificación predicha es un bloque al que se ha aplicado predicción intra, producido mediante la ejecución de un método general de predicción intra, y uno de varios modos de predicción intra que presentan varias direccionalidades, que se determina por el tamaño de la unidad de codificación.

En la operación 2120, se produce una segunda unidad de codificación predicha cambiando el valor de cada píxel de la primera unidad de codificación predicha mediante el uso de cada píxel de la primera unidad de codificación predicha y por lo menos un píxel vecino. Tal como se ha descrito anteriormente en las formas de realización primera a undécima en relación con el funcionamiento del post-procesador 1220, la segunda unidad de codificación predicha se puede producir cambiando el valor de cada píxel en la primera unidad de codificación predicha mediante la ejecución de uno de entre varios modos de funcionamiento sobre un píxel de la primera unidad de codificación predicha, que se va a cambiar, y píxeles vecinos del mismo.

En la operación 2130, un bloque residual que es la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha, se transforma, se cuantifica, y se codifica entrópicamente para generar un flujo continuo de bits. A una región predeterminada del flujo continuo de bits generado se le puede añadir información referente al modo de funcionamiento usado para producir la segunda unidad de codificación predicha, de manera que un aparato de decodificación pueda reproducir la segunda unidad de codificación predicha de la unidad de codificación actual.

La FIG. 22 es un diagrama de flujo que ilustra un método de decodificación de vídeo según una forma de realización de la presente invención. En referencia a la FIG. 22, en la operación 2210, se extrae de un flujo continuo de bits recibido información referente a un modo de predicción en relación con una unidad de decodificación actual que va a ser decodificada.

En la operación 2220, se reproduce una primera unidad de decodificación predicha de la unidad de decodificación actual de acuerdo con la información extraída.

En la operación 2230, del flujo continuo de bits se extrae información referente a un modo de funcionamiento en el cual se usan cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel.

En la operación 2240, una segunda unidad de decodificación predicha se reproduce cambiando el valor de cada píxel de la primera unidad de decodificación predicha mediante el uso de cada píxel de la primera unidad de decodificación predicha y píxeles vecinos del primero, basándose en la información referente al modo de funcionamiento.

En la operación 2250, se extrae del flujo continuo de bits un bloque residual que es la diferencia entre la unidad de decodificación actual y la segunda unidad de decodificación predicha, y el mismo es reconstruido.

En la operación 2260, el bloque residual y la segunda unidad de decodificación predicha se combinan para decodificar la unidad de decodificación actual.

La presente invención también se puede materializar como código legible por ordenador en un soporte de grabación legible por ordenador. El soporte de grabación legible por ordenador es cualquier dispositivo de almacenamiento de datos que pueda almacenar datos que posteriormente puedan ser leídos por un sistema de ordenador. Los ejemplos del soporte de grabación legible por ordenador incluyen memoria de solo lectura (ROM), memoria de acceso aleatorio (RAM), CD-ROM, cintas magnéticas, discos flexibles, y dispositivos de almacenamiento óptico de datos. El

soporte de grabación legible por ordenador también se puede distribuir a través de sistemas de ordenador acoplados en red, de manera que el código legible por ordenador se almacena y ejecuta de forma distribuida.

Aunque la presente invención se ha mostrado y descrito particularmente en referencia a sus formas de realización ejemplificativas, aquellos con conocimientos habituales en la materia entenderán que, en la misma, se pueden aplicar varios cambios en cuanto a forma y detalles sin desviarse con respecto al alcance de la invención que definen las siguientes reivindicaciones. Las formas de realización ejemplificativas deben considerarse únicamente en un sentido descriptivo y no con fines limitativos. Por lo tanto, el alcance de la invención se define no por la descripción detallada de la misma sino por las siguientes reivindicaciones, y se considerará que todas las diferencias dentro de dicho alcance están incluidas en la presente invención.

Se requiere prestar atención a todos los textos y documentos que se presentan simultáneamente con esta memoria

o previamente a ella en relación con esta solicitud y que están abiertos a inspección pública con esta memoria.

Todas las características dadas a conocer en esta memoria (incluyendo todas las reivindicaciones, resumen y dibujos adjuntos), y/o la totalidad de las etapas de cualquier método o proceso así dado a conocer, se pueden combinar en cualquier combinación, excepto combinaciones en las que por lo menos algunas de dichas características y/o etapas sean mutuamente exclusivas.

Cada una de las características dadas a conocer en esta memoria (incluyendo todas las reivindicaciones, resumen y dibujos adjuntos) se puede sustituir por características alternativas que sirvan para una finalidad idéntica, equivalente o similar, a no ser que se establezca expresamente lo contrario. Así, a no ser que se establezca expresamente lo contrario, cada característica dada a conocer es solamente un ejemplo de una serie genérica de características equivalentes o similares.

La invención no se limita a los detalles de la(s) forma(s) de realización anterior(es). La invención se extiende a cualquier característica novedosa, o cualquier combinación novedosa, de las características dadas a conocer en esta memoria (incluyendo todas las reivindicaciones, resumen y dibujos adjuntos), o a cualquier etapa novedosa, o cualquier combinación novedosa, de las etapas de cualquier método o proceso así dado a conocer.

Se proporcionan también los siguientes aspectos/formas de realización ejemplificativas:

Ejemplo 1. Método de codificación de vídeo, comprendiendo el método: producir una primera unidad de codificación predicha de una unidad de codificación actual que va a ser codificada; producir una segunda unidad de codificación predicha cambiando un valor de cada píxel de la primera unidad de codificación predicha mediante el uso de cada píxel de la primera unidad de codificación predicha y por lo menos un píxel vecino de cada píxel; y codificar la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha.

Ejemplo 2. Método del Ejemplo 1, en el que la producción de la primera unidad de codificación predicha comprende:

dividir una imagen actual en por lo menos una unidad de codificación, basándose en una unidad de codificación máxima y una profundidad que es información de división jerárquica referente a la unidad de codificación máxima; y

producir la primera unidad de codificación predicha llevando a cabo una predicción intra sobre la por lo menos una unidad de codificación.

Ejemplo 3. Método del Ejemplo 1, en el que la producción de la segunda unidad de codificación predicha comprende cambiar el valor de cada píxel de la primera unidad de codificación predicha calculando un promedio ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de codificación predicha y cada píxel de la primera unidad de codificación predicha.

Ejemplo 4. Método del Ejemplo 3, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], y valores de dos píxeles vecinos seleccionados de entre píxeles vecinos f[i][j-1], f[i-1][j], f[i+1][j], f[i][j+1], f[i-1][j+1], f[i+1][j-1], f[i-1][j-1], y f[i+1][j+1] del primer píxel son f1 y f2, respectivamente, entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 5. Método del Ejemplo 3, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], y valores de tres píxeles vecinos seleccionados de entre píxeles vecinos f[i][j-1], f[i-1][j], f[i+1][j], f[i][j+1], f[i-1][j+1], f[i+1][j-1], f[i-1][j-1], y f[i+1][j+1] del primer píxel son f1, f2 y f3, respectivamente, entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

10 Ejemplo 6. Método del Ejemplo 1, en el que la producción de la segunda unidad de codificación predicha comprende cambiar el valor de cada píxel de la primera unidad de codificación predicha a un promedio armónico ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de codificación predicha y cada píxel de la primera unidad de codificación predicha.

15 Ejemplo 7. Método del Ejemplo 6, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], un valor de un segundo píxel situado a la izquierda del primer píxel es f[i][j1], y un valor de un tercer píxel situado encima del primer píxel es f[i-1][j], entonces la producción de la segunda

20 unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos, y α, β,y γ indican enteros positivos.

25 Ejemplo 8. Método del Ejemplo 1, en el que la producción de la segunda unidad de codificación predicha comprende cambiar el valor de cada píxel de la primera unidad de codificación predicha a un promedio geométrico ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de codificación predicha y cada píxel de la primera unidad de codificación predicha.

30 Ejemplo 9. Método del Ejemplo 8, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], un valor de un segundo píxel situado a la izquierda del primer píxel es f[i][j1], y un valor de un tercer píxel situado encima del primer píxel es f[i-1][j], entonces la producción de la segunda

35 unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

40 Ejemplo 10. Método del Ejemplo 1, en el que la producción de la segunda unidad de codificación predicha comprende cambiar el valor de cada píxel de la primera unidad de codificación predicha a un promedio de valores de por lo menos uno de píxeles situados encima y a la izquierda de cada píxel de la primera unidad de codificación predicha y cada píxel de la primera unidad de codificación predicha.

45 Ejemplo 11. Método del Ejemplo 1, en el que la producción de la segunda unidad de codificación predicha comprende cambiar el valor de cada píxel de la primera unidad de codificación predicha a una mediana entre el valor de cada píxel de la primera unidad de codificación predicha y valores de píxeles vecinos de cada píxel de la primera unidad de codificación predicha.

50 Ejemplo 12. Método del Ejemplo 1, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], y un valor de un píxel, que está situado en la misma fila jésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de codificación adyacente a la parte superior

55 de la unidad de codificación actual, es f[-1][j], entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

5 Ejemplo 13. Método del Ejemplo 1, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], y un valor de un píxel, que está situado en la misma columna iésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de codificación adyacente a la izquierda de la unidad de codificación actual, es f[i][-j], entonces la producción de la segunda unidad de codificación

10 predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

15 Ejemplo 14. Método del Ejemplo 1, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], un valor de un píxel, que está situado en la misma fila jésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de codificación adyacente a la parte superior de la unidad de codificación actual, es f[-i][j], y un valor de un píxel, que está situado en la misma columna iésima que

20 el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de codificación adyacente a la izquierda de la unidad de codificación actual, es f[i][-j], entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

Ejemplo 15. Método del Ejemplo 1, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, y un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera 30 unidad de codificación predicha, es f[i][j], entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando una de las siguientes ecuaciones:

en las que m y n indican enteros positivos.

40 Ejemplo 16. Método del Ejemplo 1, en el que, si el tamaño de la primera unidad de codificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de codificación predicha, es f[i][j], un valor de un píxel situado en un punto de más a la izquierda de la primera unidad de codificación predicha es f[0][0], un píxel situado en la misma fila jésima que el primer píxel y situado en una columna de más a la izquierda de la primera unidad de codificación predicha es f[0][j], un valor de un píxel

45 situado en la misma columna iésima que el primer píxel y situado en una fila superior de la primera unidad de

codificación predicha es f[i][0], y

entonces la producción de la segunda unidad de codificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 17. Método del Ejemplo 1, en el que la codificación de la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha comprende comparar entre sí costes de flujos continuos de bits que contienen resultados de la codificación de segundas unidades de codificación predichas que se han producido usando modos de funcionamiento diferentes, y añadir información referente a un modo de funcionamiento usado para producir una segunda unidad de codificación predicha que tiene un coste mínimo a una región predeterminada de un flujo continuo de bits.

Ejemplo 18. Método del Ejemplo 16, en el que la codificación de la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha comprende representar modos de funcionamiento diferentes de manera que se diferencien entre sí asignando un número pequeño de bits a un modo de funcionamiento que se usa con la mayor frecuencia de entre los diferentes modos de funcionamiento, sobre la base de una distribución de un modo de funcionamiento determinada cuando se codifica un número predeterminado de unidades de codificación.

Ejemplo 19. Aparato para codificar vídeo, comprendiendo el aparato: un predictor para producir una primera unidad de codificación predicha de una unidad de codificación actual que va a ser codificada; un post-procesador para producir una segunda unidad de codificación predicha cambiando un valor de cada píxel de la primera unidad de codificación predicha mediante el uso de cada píxel de la primera unidad de codificación predicha y por lo menos un píxel vecino de cada píxel; y un codificador para codificar la diferencia entre la unidad de codificación actual y la segunda unidad de codificación predicha.

Ejemplo 20. Método de decodificación de vídeo, comprendiendo el método: extraer información referente a un modo de predicción de una unidad de decodificación actual, que va a ser decodificada, a partir de un flujo continuo de bits recibido; reproducir una primera unidad de decodificación predicha de la unidad de decodificación actual, sobre la base de la información extraída referente al modo de predicción; extraer información referente a un modo de funcionamiento, en el cual se usan cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel, a partir del flujo continuo de bits; reproducir una segunda unidad de decodificación predicha cambiando un valor de cada píxel de la primera unidad de decodificación predicha mediante el uso de cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel, sobre la base de la información extraída referente al modo de funcionamiento; extraer un bloque residual, que es la diferencia entre la unidad de decodificación actual y la segunda unidad de decodificación predicha, a partir del flujo continuo de bits y restablecer el bloque residual; y decodificar la unidad de decodificación actual sumando el bloque residual a la segunda unidad de decodificación predicha.

Ejemplo 21. Método del Ejemplo 20, en el que la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor de cada píxel de la primera unidad de decodificación predicha a un promedio ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de decodificación predicha y cada píxel de la primera unidad de decodificación predicha.

Ejemplo 22. Método del Ejemplo 21, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], y valores de dos píxeles vecinos seleccionados de entre píxeles vecinos f[i][j-1], f[i-1][j], f[i+1][j], f[i][j+1], f[i-1][j+1], f[i+1][j-1], f[i-1][j-1], y f[i+1][j+1] del primer píxel son f1 y f2, respectivamente, entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 23. Método del Ejemplo 21, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], y tres píxeles vecinos seleccionados de entre píxeles vecinos

f[i][j-1], f[i-1][j], f[i+1][j], f[i][j+1], f[i-1][j+1], f[i+1][j-1], f[i-1][j-1], y f[i+1][j+1] del primer píxel son f1, f2 y f3, respectivamente, entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 24. Método del Ejemplo 20, en el que la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor de cada píxel de la primera unidad de decodificación predicha a un promedio armónico

10 ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de decodificación predicha y cada píxel de la primera unidad de decodificación predicha.

Ejemplo 25. Método del Ejemplo 24, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la

15 primera unidad de decodificación predicha, es f[i][j], un valor de un segundo píxel situado a la izquierda del primer píxel es f[i][j-1], y un valor de un tercer píxel situado encima del primer píxel es f[i-1][j], entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

Ejemplo 26. Método del Ejemplo 20, en el que la reproducción de la segunda unidad de decodificación predicha

25 comprende cambiar el valor de cada píxel de la primera unidad de decodificación predicha a un promedio geométrico ponderado de valores de por lo menos un píxel vecino de cada píxel de la primera unidad de decodificación predicha y cada píxel de la primera unidad de decodificación predicha.

Ejemplo 27. Método del Ejemplo 26, en el que, si el tamaño de la primera unidad de decodificación predicha es

30 mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], un valor de un segundo píxel situado a la izquierda del primer píxel es f[i][j-1], y un valor de un tercer píxel situado encima del primer píxel es f[i-1][j], entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

40 Ejemplo 28. Método del Ejemplo 20, en el que la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor de cada píxel de la primera unidad de decodificación predicha a un promedio de valores de por lo menos uno de píxeles situados encima y a la izquierda de cada píxel de la primera unidad de decodificación predicha y cada píxel de la primera unidad de decodificación predicha.

45 Ejemplo 29. Método del Ejemplo 20, en el que la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor de cada píxel de la primera unidad de decodificación predicha a una mediana entre el valor de cada píxel de la primera unidad de decodificación predicha y valores de píxeles vecinos de cada píxel de la primera unidad de decodificación predicha.

50 Ejemplo 30. Método del Ejemplo 20, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], y un valor de un píxel, que está situado en la misma fila jésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de decodificación adyacente a la parte superior de la unidad de decodificación actual, es f[-1][j], entonces la reproducción de la segunda unidad de

55 decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 31. Método del Ejemplo 20, en el que, si el tamaño de la primera unidad de decodificación predicha es 5 mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], y un valor de un píxel, que está situado en la misma columna

iésima

que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de decodificación adyacente a la izquierda de la unidad de decodificación actual, es f[i][-j], entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 32. Método del Ejemplo 20, en el que, si el tamaño de la primera unidad de decodificación predicha es

15 mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], un valor de un píxel, que está situado en la misma fila jésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de decodificación adyacente a la parte superior de la unidad de decodificación actual, es f[-i][j], y un valor de un píxel, que está situado en la misma columna iésima que el primer píxel de entre píxeles incluidos en una región de frontera de una unidad de

20 decodificación adyacente a la izquierda de la unidad de decodificación actual, es f[i][-j], entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 33. Método del Ejemplo 20, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, y un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la

30 primera unidad de decodificación predicha, es f[i][j], entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando una de las siguientes ecuaciones:

en las que m y n indican enteros positivos.

40 Ejemplo 34. Método del Ejemplo 20, en el que, si el tamaño de la primera unidad de decodificación predicha es mxn, un valor de un primer píxel, que se va a cambiar y está situado en una columna iésima y una fila jésima de la primera unidad de decodificación predicha, es f[i][j], un valor de un píxel situado en un punto de más a la izquierda de la primera unidad de decodificación predicha es f[0][0], un píxel situado en la misma fila jésima que el primer píxel y

45 situado en una columna de más a la izquierda de la primera unidad de decodificación predicha es f[0][j], un valor de un píxel situado en la misma columna iésima que el primer píxel y situado en una fila superior de la primera unidad de

decodificación predicha es f[i][0], y

entonces la reproducción de la segunda unidad de decodificación predicha comprende cambiar el valor del primer píxel a f’[i][j] usando la siguiente ecuación:

en la que m y n indican enteros positivos.

Ejemplo 35. Aparato para decodificar vídeo, comprendiendo el aparato: un decodificador entrópico para extraer información referente a un modo de predicción de una unidad de

10 decodificación actual, que va a ser decodificada, e información referente a un modo de funcionamiento, en el cual se usan cada píxel de una primera unidad de decodificación predicha de la unidad de decodificación actual y píxeles vecinos de cada píxel de la primera unidad de decodificación predicha, a partir de un flujo continuo de bits recibido; un predictor para reproducir la primera unidad de decodificación predicha, basándose en la información extraída referente al modo de predicción;

15 un post-procesador para reproducir una segunda unidad de decodificación predicha cambiando un valor de cada píxel de la primera unidad de decodificación predicha mediante el uso de cada píxel de la primera unidad de decodificación predicha y píxeles vecinos de cada píxel de la primera unidad de decodificación predicha, basándose en la información extraída referente al modo de funcionamiento; una unidad de transformación inversa y cuantificación inversa para reproducir un bloque residual que es la diferencia

20 entre la unidad de decodificación actual y la segunda unidad de decodificación predicha, a partir del flujo continuo de bits; y un sumador para decodificar la unidad de decodificación actual sumando el bloque residual a la segunda unidad de decodificación predicha.

25 Ejemplo 36. Soporte de grabación legible por ordenador que tiene grabado en el mismo código de programa para ejecutar el método de cualquiera de los Ejemplos 1 a 18.

Ejemplo 37. Soporte de grabación legible por ordenador que tiene grabado en el mismo código de programa para ejecutar el método de cualquiera de los Ejemplos 20 a 34. 30

Claims

REIVINDICACIONES

1. Aparato de decodificación de una imagen de vídeo, comprendiendo el aparato:

5 un extractor de información de codificación que determina unidades de codificación de una estructura jerárquica usando información sobre si dividir una unidad de codificación analizada sintácticamente a partir de un flujo continuo de bits recibido; y

un decodificador de datos de imagen que:

10 determina una unidad de predicción de una unidad de codificación actual dividiendo la unidad de codificación actual en por lo menos una unidad de predicción;

obtiene un primer valor predicho de píxeles de una unidad de predicción actual usando un promedio de 15 píxeles vecinos de la unidad de predicción actual, y

obtiene un segundo valor predicho de píxeles situados en una frontera superior y una frontera izquierda de la unidad de predicción actual usando un promedio ponderado del primer valor predicho obtenido y por lo menos un píxel vecino, en el que:

20 la imagen de vídeo se divide en una pluralidad de unidades de codificación máximas de entre una pluralidad de unidades de codificación máximas de acuerdo con la información sobre un tamaño máximo de una unidad de codificación,

25 la unidad de codificación máxima se divide jerárquicamente en una o más unidades de codificación de profundidades de acuerdo con la información de división,

una unidad de codificación de una profundidad actual k es una unidad de datos rectangular dividida a partir de una unidad de codificación de una profundidad superior k-1; y

30 la unidad de codificación de la profundidad actual k se divide en unas unidades de codificación de una profundidad inferior k+1, de manera independiente con respecto a las unidades de codificación vecinas.

35 2. Aparato según la reivindicación 1, en el que el segundo valor predicho de un píxel situado en una posición de esquina superior izquierda de la unidad de predicción actual se obtiene usando tanto un primer píxel, que está situado en una misma columna que el píxel situado en la posición de esquina superior izquierda de la unidad de predicción actual e incluido en una frontera de una unidad de predicción adyacente a la frontera superior de la unidad de predicción actual, como un segundo píxel, que está situado en la misma fila que el píxel situado en la

40 posición de esquina superior izquierda de la unidad de predicción actual e incluido en una frontera de una unidad de predicción adyacente a la frontera izquierda de la unidad de predicción actual.
3. Aparato según la reivindicación 1, en el que el segundo valor predicho de un píxel situado en la frontera superior de la unidad de predicción actual se obtiene usando un tercer píxel, el cual está situado en la misma columna que el

45 píxel situado en la frontera superior de la unidad de predicción actual e incluido en una frontera de una unidad de predicción adyacente a la frontera superior de la unidad de predicción actual.
4. Aparato según la reivindicación 1, en el que el segundo valor predicho de un píxel situado en la frontera izquierda de la unidad de predicción actual se obtiene usando un cuarto píxel, el cual está situado en la misma fila que el píxel

50 situado en la frontera izquierda de la unidad de predicción actual e incluido en una frontera de una unidad de predicción adyacente a la frontera izquierda de la unidad de predicción actual.
5. Aparato según la reivindicación 1, en el que el segundo valor predicho de la unidad de predicción actual se

obtiene usando el promedio ponderado del primer valor predicho obtenido y dicho por lo menos un píxel vecino en 55 función del tamaño de la unidad de predicción actual que se va a predecir.
6. Aparato según la reivindicación 1, en el que la obtención del segundo valor predicho de cada uno de los píxeles de la unidad de predicción actual se lleva a cabo en una dirección que va desde un punto superior situado más a la izquierda hasta un punto inferior situado más a la derecha de la unidad de predicción actual.