ES2489816B2

ES2489816B2 - Método para gestionar una lista de imágenes de referencia, y aparato que lo usa

Info

Publication number: ES2489816B2
Application number: ES201390089A
Authority: ES
Inventors: Jaehyun Lim; Seungwook Park; Jungsun KIM; Joonyoung Park; Younghee CHOI; Byeongmoon Jeon; Yongjoon Jeon
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2011-04-26
Filing date: 2012-04-20
Publication date: 2015-10-08
Anticipated expiration: 2032-04-20
Also published as: WO2012148139A3; JP6568242B2; JP2014519223A; KR20150140849A; ES2489816R1; DE112012001635T5; GB2548739A; US20140050270A1; JP6276319B2; ES2489816A2; KR20180049130A; KR20170085612A; GB2505344A; JP6867450B2; JP2016146667A; GB2548739B; JP2018057049A; KR20170125122A; KR101911012B1; KR20140029459A

Abstract

Se facilita un método para gestionar una lista de imágenes de referencia, y un aparato que lo usa. Un método de descodificación de imagen incluye los pasos de: descodificar una imagen de imágenes de capa temporal segunda más alta en una configuración jerárquica de imágenes; y descodificar imágenes de capa temporal superior que preceden y siguen a las imágenes de capa temporal segunda más alta con respecto a un recuento de orden de imágenes (POC) en una secuencia de POC, respectivamente. Por lo tanto, las imágenes de referencia disponibles permanecen en una memoria intermedia de imagen descodificada (DPB), mejorando por ello la eficiencia de codificación de imagen.

Description

DESCRIPCIÓN

Método para gestionar una lista de imágenes de referencia, y aparato que lo usa

Campo técnico 5

La presente invención se refiere a un método de descodificación vídeo y un descodificador vídeo, y más en concreto, a un método de gestionar una lista de imágenes de referencia y un dispositivo que usa el método.

10

Antecedentes de la invención

En los últimos años ha incrementado la demanda de vídeo de alta resolución y alta calidad tal como vídeo de alta definición (HD) y vídeo de definición ultra alta (UHD) en varios campos de aplicaciones. Sin embargo, cuando un vídeo tiene una resolución más alta y 15 calidad más alta, la cantidad de datos del vídeo incrementa más que los datos vídeo actuales. Consiguientemente, cuando se transfieren datos vídeo usando medios tales como las actuales líneas de cable o inalámbricas de banda ancha o se guardan en medios de almacenamiento actuales, su costo de transferencia y su costo de almacenamiento aumentan. Se puede usar técnicas de compresión vídeo de alta eficiencia para resolver 20 tales problemas debido a una mejora en la resolución y la calidad de los datos vídeo.

Varias técnicas tales como una técnica de predicción inter consistente en predecir valores de píxel incluidos en una imagen corriente a partir de una imagen previa o posterior de la imagen corriente, una técnica de predicción intra consistente en predecir valores de píxel 25 incluidos en una imagen corriente usando información de píxel en la imagen corriente, y una técnica de codificación por entropía consistente en asignar un código corto a un valor de una frecuencia de aparición baja y asignar un código largo de un valor de una frecuencia de aparición alta son conocidas como las técnicas de compresión vídeo. Es posible comprimir, transferir o almacenar efectivamente datos vídeo usando tales técnicas de compresión 30 vídeo.

Resumen de la invención

Problema técnico 35

Un objeto de la invención es proporcionar un método de gestionar una lista de imágenes de referencia con el fin de mejorar la eficiencia de codificación/descodificación vídeo.

Otro objeto de la invención es proporcionar un dispositivo que realiza el método de gestionar 40 una lista de imágenes de referencia con el fin de mejorar la eficiencia de codificación/descodificación vídeo.

Solución al problema

45

Según un aspecto de la invención, se facilita un método de descodificación vídeo incluyendo los pasos de descodificar una imagen de las imágenes de capa temporal segunda más alta en una estructura jerárquica de imágenes, y descodificar una imagen de capa temporal más alta presente previa o posteriormente en el orden de recuentos de orden de imágenes (POC) en base al POC de las imágenes de capa temporal segunda más alta. El método de 50 descodificación vídeo puede incluir además el paso de determinar si el número de imágenes calculado en base a imágenes de referencia de corto plazo e imágenes de referencia de largo plazo guardadas en un DPB incluyendo las imágenes de capa temporal segunda más alta descodificadas es igual a Max(max_num_ref_frame, 1) y si el número de imágenes de

referencia de corto plazo es mayor que 0. El método de descodificación vídeo puede incluir además el paso de calcular el número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo. El método de descodificación vídeo puede incluir además el paso de sacar del DPB la imagen de referencia de corto plazo que tiene el POC más pequeño de las imágenes de referencia de corto plazo presentes en el DPB cuando el 5 número de imágenes almacenadas en el DPB es igual a Max(max_num_ref_frame, 1) y el número de imágenes de referencia de corto plazo es mayor que 0. La estructura jerárquica de imágenes puede ser una estructura jerárquica de imágenes GOP incluyendo cinco imágenes de capa temporal y ocho imágenes. La imagen de segunda capa temporal más alta puede ser una imagen presente en una tercera capa temporal y la imagen de capa 10 temporal más alta puede ser una imagen presente en una cuarta capa temporal.

Según otro aspecto de la invención, se facilita un método de descodificación vídeo incluyendo los pasos de determinar si el número de imágenes calculado en base a imágenes de referencia de corto plazo e imágenes de referencia de largo plazo guardadas 15 en un DPB incluyendo imágenes de capa temporal segunda más alta descodificadas es igual a Max(max_num_ref_frame, 1), y determinar si el número de imágenes de referencia de corto plazo es mayor que 0. El método de descodificación vídeo puede incluir además el paso de calcular el número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo. El método de descodificación vídeo puede incluir 20 además el paso de sacar del DPB la imagen de referencia de corto plazo que tiene el POC más pequeño de las imágenes de referencia de corto plazo presentes en el DPB cuando el número de imágenes almacenadas en el DPB es igual a Max(max_num_ref_frame, 1) y el número de imágenes de referencia de corto plazo es mayor que 0.

25

Según otro aspecto de la invención, se facilita un descodificador vídeo incluyendo un módulo de determinación de información de imagen que descodifica una imagen de imágenes de capa temporal segunda más alta en una estructura jerárquica de imágenes y determina información de imagen con el fin de descodificar una imagen de capa temporal más alta presente previa o posteriormente en el orden de recuentos de orden de imágenes (POC) en 30 base al POC de las imágenes de capa temporal segunda más alta, y un módulo de almacenamiento de imagen de referencia que guarda la imagen de segunda capa temporal más alta descodificada en base a la información de imagen determinada por el módulo de determinación de información de imagen. El descodificador vídeo puede incluir además un módulo de actualización de información de imagen de referencia que determina si el número 35 de imágenes calculado en base a imágenes de referencia de corto plazo e imágenes de referencia de largo plazo almacenadas en el módulo de almacenamiento de imagen de referencia incluyendo las imágenes de capa temporal segunda más alta descodificadas es igual a Max(max_num_ref_frame, 1) y si el número de imágenes de referencia de corto plazo es mayor que 0. El módulo de actualización de información de imagen de referencia 40 puede calcular el número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo. El módulo de actualización de información de imagen de referencia puede quitar del DPB la imagen de referencia de corto plazo que tiene el POC más pequeño de las imágenes de referencia de corto plazo presentes en el módulo de almacenamiento de imagen de referencia cuando el número de imágenes almacenadas 45 en el módulo de almacenamiento de imagen de referencia es igual a Max(max_num_ref_frame, 1) y el número de imágenes de referencia de corto plazo es mayor que 0. La estructura jerárquica de imágenes puede ser una estructura jerárquica de imágenes GOP incluyendo cinco imágenes de capa temporal y ocho imágenes. La imagen de segunda capa temporal más alta puede ser una imagen presente en una tercera capa 50 temporal y la imagen de capa temporal más alta puede ser una imagen presente en una cuarta capa temporal.

Según otro aspecto de la invención, se facilita un descodificador vídeo incluyendo un módulo de actualización de información de imagen de referencia que determina si el número de imágenes calculado en base a imágenes de referencia de corto plazo e imágenes de referencia de largo plazo almacenadas en un módulo de almacenamiento de imagen de referencia incluyendo imágenes de capa temporal segunda más alta descodificadas es igual 5 a Max(max_num_ref_frame, 1) y determina si el número de imágenes de referencia de corto plazo es mayor que 0, y un módulo de almacenamiento de imagen de referencia que actualiza las imágenes de referencia en base a información creada por la unidad de actualización de información de imagen de referencia. El módulo de actualización de información de imagen de referencia puede calcular el número de imágenes de referencia 10 de corto plazo y el número de imágenes de referencia de largo plazo. El módulo de actualización de información de imagen de referencia puede actualizar la imagen de referencia con el fin de quitar del DPB la imagen de referencia de corto plazo que tiene el POC más pequeño de las imágenes de referencia de corto plazo presentes en el DPB cuando el número de imágenes almacenadas en el DPB es igual a 15 Max(max_num_ref_frame, 1) y el número de imágenes de referencia de corto plazo es mayor que 0.

Efectos ventajosos

20

En dicho método de gestionar una lista de imágenes de referencia y dicho dispositivo que usa el método según los aspectos de la invención, es posible reducir el número de casos donde una imagen de referencia óptima no está disponible y mejorar la eficiencia de codificación/descodificación vídeo cambiando el orden de descodificar imágenes de referencia y cambiando el método de extracción de imagen de referencia aplicado al DPB. 25

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques que ilustra esquemáticamente un codificador vídeo según una realización de la invención. 30

La figura 2 es un diagrama de bloques que ilustra esquemáticamente un descodificador vídeo según una realización de la invención.

La figura 3 es un diagrama conceptual que ilustra una estructura de codificación jerárquica 35 según una realización de la invención.

La figura 4 es un diagrama de flujo que ilustra un método de determinación de orden de descodificación en una estructura jerárquica de imágenes según una realización de la invención. 40

La figura 5 es un diagrama de flujo que ilustra un método de ventana móvil según una realización de la invención.

La figura 6 es un diagrama de flujo que ilustra un método de gestión de imágenes de 45 referencia según una realización de la invención.

La figura 7 es un diagrama conceptual que ilustra un descodificador vídeo según una realización de la invención.

50

Descripción de realizaciones ejemplares

La invención puede ser modificada de varias formas y tener varias realizaciones, y sus realizaciones específicas se describirán en detalle con referencia a los dibujos

acompañantes. Sin embargo, se deberá entender que la invención no se limita a las realizaciones específicas e incluye todas las modificaciones, equivalentes y sustituciones incluidos en el espíritu y alcance técnicos de la invención. En los dibujos, los elementos análogos se indican con números de referencia análogos..

5

Términos como “primero” y “segundo” pueden ser usados para describir varios elementos, pero los elementos no se limitan a los términos. Los términos se usan solamente para distinguir un elemento de otro elemento. Por ejemplo, sin apartarse del alcance de la invención, un primer elemento se puede designar un segundo elemento e igualmente el segundo elemento se puede designar el primer elemento. El término “y/o” incluye una 10 combinación de múltiples elementos relevantes o alguno de los múltiples elementos relevantes.

Si se indica que un elemento está “conectado a” o “acoplado a” otro elemento, se deberá entender que otro elemento puede estar interpuesto entremedio, así como que el elemento 15 puede estar conectado o acoplado directamente a otro elemento. Por el contrario, si se indica que un elemento está “conectado directamente a” o “acoplado directamente a” otro elemento, se deberá entender que otro elemento no está interpuesto entremedio.

Los términos usados en la descripción siguiente se usan para describir simplemente 20 realizaciones específicas, pero no tienen la finalidad de limitar la invención. Una expresión en número singular incluye una expresión en número plural, a condición de que se indique claramente de forma diferente. Se ha previsto que términos como “incluir” y “tener” indiquen que hay características, números, pasos, operaciones, elementos, componentes o sus combinaciones usados en la descripción siguiente y así se deberá entender que no se 25 excluye la posibilidad de existencia o adición de una o más características, números, pasos, operaciones, elementos, componentes diferentes o sus combinaciones.

A continuación, se describirá en detalle realizaciones ejemplares de la invención con referencia a los dibujos acompañantes. Los elementos análogos de los dibujos se indicarán 30 con números de referencia análogos y no se repetirá la descripción.

La figura 1 es un diagrama de bloques que ilustra un codificador vídeo según una realización de la invención.

35

Con referencia a la figura 1, un codificador vídeo 100 incluye un módulo de división de imagen 105, un módulo de predicción 110, un módulo de transformación 115, un módulo de cuantificación 120, un módulo de redisposición 125, un módulo de codificación por entropía 130, un módulo de descuantificación 135, un módulo de transformación inversa 140, un módulo filtro 145, y una memoria 150. 40

Los elementos en la figura 1 se ilustran de forma independiente al objeto de representar diferentes funciones distintivas y no indican que cada elemento no esté construido por un elemento de hardware o software independiente. Es decir, los elementos están dispuestos independientemente por razones de conveniencia de la explicación, y se puede combinar al 45 menos dos elementos en un solo elemento o un solo elemento se puede dividir en múltiples elementos para realizar las funciones. Las realizaciones en las que los elementos se combinan o dividen se incluyen dentro del alcance de la invención sin apartarse del concepto de la invención.

50

Algunos elementos pueden no ser elementos esenciales usados para realizar funciones esenciales de la invención, pero pueden ser elementos selectivos usados simplemente para mejorar el rendimiento. La invención se puede realizar solamente con los elementos esenciales para realizar la invención, distintos de los elementos usados simplemente para

mejorar el rendimiento, y una estructura incluyendo solamente los elementos esenciales distintos de los elementos selectivos usados simplemente para mejorar el rendimiento está incluida dentro del alcance de la invención.

El módulo de división de imagen 105 puede dividir una imagen de entrada en una o más 5 unidades de proceso. Aquí, la unidad de proceso puede ser una unidad de predicción (“PU”), una unidad de transformación (“TU”), o una unidad de codificación (“CU”). El módulo de división de imagen 105 puede dividir una imagen en combinaciones de múltiples unidades de codificación, unidades de predicción, o unidades de transformación, y puede codificar una imagen seleccionando una combinación de unidades de codificación, unidades de 10 predicción, o unidades de transformación con una referencia predeterminada (por ejemplo, función de costo).

Por ejemplo, una imagen se puede dividir en múltiples unidades de codificación. Se puede usar una estructura de árbol recursiva, tal como una estructura de árbol cuádruple, para 15 dividir una imagen en unidades de codificación. Aquí, una unidad de codificación que se divide en otras unidades de codificación con una imagen o una unidad de codificación más grande como raíz se puede dividir con nodos hijo correspondientes al número de unidades de codificación divididas. Una unidad de codificación que ya no se divida más por una limitación predeterminada sirve como un nodo hoja. Es decir, cuando se supone que una 20 unidad de codificación no puede evitar que sea dividida en forma cuadrada, una unidad de codificación se puede dividir en otras cuatro unidades de codificación a lo sumo.

En las realizaciones de la invención, una unidad de codificación puede ser usada como una unidad de descodificación así como una unidad de codificación. 25

Una unidad de predicción se puede dividir en al menos una forma rectangular o cuadrada que tenga el mismo tamaño en una sola unidad de codificación o se puede dividir de modo que una unidad de predicción dividida en una sola unidad de codificación tenga una forma diferente de las otras unidades de predicción divididas. 30

Cuando una unidad de predicción cuya predicción inter se realiza en base a que no es una unidad de codificación mínima, la predicción inter puede ser realizada sin dividir la unidad de predicción en múltiples unidades de predicción (NxN).

35

El módulo de predicción 110 puede incluir un módulo de predicción inter que realiza un proceso de predicción inter y un módulo de predicción intra que realiza un proceso de predicción intra. El módulo de predicción puede determinar si la predicción inter o la predicción intra se realizarán en la unidad de predicción y puede determinar información específica (por ejemplo, un modo de predicción intra, un vector de movimiento, y una 40 imagen de referencia) dependiendo del método de predicción. Aquí, la unidad de proceso sometida al proceso de predicción puede ser diferente de la unidad de proceso de la que se determina el método de predicción y la información específica. Por ejemplo, el método de predicción, el modo de predicción, y análogos pueden ser determinados en las unidades de PU y el proceso de predicción se puede realizar en las unidades de TU. La información de 45 modo de predicción, la información de vector de movimiento, y análogos usada para la predicción junto con valores residuales puede ser codificada por el módulo de codificación por entropía 130 y puede ser transmitida a un descodificador. Cuando se usa un modo de codificación específico, un bloque predicho no puede ser construido por el módulo de predicción 110, pero un bloque original puede ser codificado y transmitido al descodificador. 50

El módulo de predicción inter puede predecir una unidad de predicción en base a información de al menos una imagen de una imagen previa o una imagen posterior de una imagen corriente. El módulo de predicción inter puede incluir un módulo de interpolación de

imagen de referencia, un módulo de estimación de movimiento, y un módulo de compensación de movimiento.

El módulo de interpolación de imagen de referencia puede recibir información de imagen de referencia de la memoria 150 y puede crear información de píxel de un píxel entero o menos 5 de la imagen de referencia. En caso de píxeles luma, se puede usar un filtro de interpolación basado en DCT de 8 tomas que tiene diferentes coeficientes de filtro para crear información de píxel de un píxel entero o menos en las unidades de 1/4 píxeles. En caso de píxeles croma, se puede usar un filtro de interpolación basado en DCT de 4 tomas que tenga diferentes coeficientes de filtro para crear información de píxel de un píxel entero o menos 10 en las unidades de 1/8 píxeles.

El módulo de estimación de movimiento puede realizar estimación de movimiento en base a una imagen de referencia interpolada por el módulo de interpolación de imagen de referencia. Se puede usar varios métodos, tales como un FBMA (algoritmo de comparación 15 de bloques basado en búsqueda exhaustiva), un algoritmo TSS (Búsqueda en tres pasos), un NTS (algoritmo nuevo de búsqueda en tres pasos) para calcular un vector de movimiento. Un vector de movimiento puede tener un valor de vector de movimiento en las unidades de 1/2 píxeles o 1/4 píxeles en base a los píxeles interpolados. El módulo de estimación de movimiento puede predecir una unidad de predicción corriente cambiando el 20 método de estimación de movimiento. Se puede usar varios métodos, tales como un método de salto, un método de fusión, y un método AMVP (predicción de vector de movimiento avanzada) como el método de predicción de movimiento.

En las realizaciones de la invención descrita más adelante se describirá un método de 25 construir una lista de vectores de movimiento dicho candidato al tiempo de realizar predicción inter usando el método AMVP.

El módulo de predicción intra puede construir una unidad de predicción en base a información de píxel de referencia contigua a un bloque corriente que es información de 30 píxel en una imagen corriente. Cuando un bloque contiguo de la unidad de predicción corriente es un bloque sometido a la predicción inter y así los píxeles de referencia son píxeles sometidos a la predicción inter, los píxeles de referencia incluidos en el bloque sometido a la predicción inter pueden ser usados en lugar de la información de píxel de referencia del bloque contiguo sometido a la predicción intra. Es decir, cuando un píxel de 35 referencia no está disponible, la información de píxel de referencia no disponible puede ser sustituida por al menos un píxel de referencia de los píxeles de referencia disponibles.

Los modos de predicción de la predicción intra pueden tener modos de predicción direccional en los que la información de píxel de referencia se usa dependiendo de la 40 dirección de predicción y modos de predicción unidireccional en los que no se usa información de direccionalidad para realizar la predicción. Un modo para predecir información luma puede ser diferente de un modo para predecir información croma, y se puede usar información de modo de predicción intra obtenida prediciendo información luma o información de señal luma predicha para predecir la información croma. 45

Cuando el tamaño de la unidad de predicción y el tamaño de la unidad de transformación son iguales entre sí al tiempo de realizar la predicción intra, la predicción intra se realiza en la unidad de predicción en base a píxeles presentes en el lado izquierdo de la unidad de predicción, un píxel presente en la esquina superior-izquierda, y píxeles presentes en el lado 50 superior. Sin embargo, cuando el tamaño de la unidad de predicción y el tamaño de la unidad de transformación son diferentes uno de otro al tiempo de realizar la predicción intra, la predicción intra puede ser realizada usando píxeles de referencia en base a la unidad de

transformación. La predicción intra usando división NxN puede ser realizada solamente en la unidad de codificación mínima.

En el método de predicción intra, se puede construir un bloque predicho después de aplicar un filtro MDIS (alisado intra dependiente de modo) a píxeles de referencia dependiendo de 5 los modos de predicción. El tipo del filtro MDIS aplicado a los píxeles de referencia puede variar. Con el fin de realizar el método de predicción intra, un modo de predicción intra de una unidad de predicción corriente se puede predecir a partir del modo de predicción intra de una unidad de predicción contigua a la unidad de predicción corriente. Al predecir el modo de predicción de la unidad de predicción corriente usando información de modo 10 predicha a partir de la unidad de predicción contigua, la información que indica que los modos de predicción de la unidad de predicción corriente y la unidad de predicción contigua son iguales entre sí puede ser transmitida usando información de señalizador predeterminada cuando los modos de predicción intra de la unidad de predicción corriente y la unidad de predicción contigua son iguales entre sí, y se puede realizar codificación por 15 entropía para codificar información de modo de predicción del bloque de predicción corriente cuando los modos de predicción de la unidad de predicción corriente y la unidad de predicción contigua son diferentes uno de otro.

Un bloque residual incluyendo información residual que es una diferencia entre la unidad de 20 predicción sometida a la predicción y el bloque original de la unidad de predicción se puede construir en base a la unidad de predicción creada por el módulo de predicción 110. El bloque residual construido puede ser introducido en el módulo de transformación 115. El módulo de transformación 115 puede transformar el bloque residual incluyendo la información residual entre el bloque original y la unidad de predicción creada por el módulo 25 de predicción 110 usando un método de transformación tal como una DCT (transformada de coseno discreta) o una DST (transformada de seno discreta). En base a la información de modo de predicción intra de la unidad de predicción usada para construir el bloque residual, se puede determinar si se aplicará la DCT o la DST para transformar el bloque residual.

30

El módulo de cuantificación 120 puede cuantificar los valores transformados al dominio de frecuencia por el módulo de transformación 115. Los coeficientes de cuantificación pueden variar dependiendo del bloque o el grado de importancia de un vídeo. Los valores calculados por el módulo de cuantificación 120 pueden ser suministrados al módulo de descuantificación 135 y el módulo de redisposición 125. 35

El módulo de redisposición 125 puede redisponer los coeficientes de los valores residuales cuantificados.

El módulo de redisposición 125 puede cambiar los coeficientes de cuantificación en forma 40 de un bloque bidimensional a la forma de un vector unidimensional mediante la utilización de un método de exploración de coeficientes. Por ejemplo, el módulo de redisposición 125 puede explorar desde los coeficientes DC a los coeficientes en un dominio de alta frecuencia usando un método de exploración en zigzag y puede cambiar los coeficientes a la forma de un vector unidimensional. Se puede usar un método de exploración vertical consistente en 45 explorar los coeficientes en forma de un bloque bidimensional en la dirección de columna y un método de exploración horizontal consistente en explorar los coeficientes en forma de un bloque bidimensional en la dirección de fila en lugar del método de exploración en zigzag dependiendo del tamaño de la unidad de transformación y el modo de predicción intra. Es decir, se puede determinar cuál del método de exploración en zigzag, el método de 50 exploración vertical, y el método de exploración horizontal usar dependiendo del tamaño de la unidad de transformación y el modo de predicción intra.

El módulo de codificación por entropía 130 puede realizar codificación por entropía en base a los valores calculados por el módulo de redisposición 125. La codificación por entropía puede ser realizada usando varios métodos de codificación tales como Golomb exponencial, VLC (codificación de longitud variable), y CABAC (codificación binaria aritmética adaptable al contexto). 5

El módulo de codificación por entropía 130 puede codificar diversa información tal como información de coeficiente residual e información de tipo de bloque de la unidad de codificación, información de modo de predicción, información de unidad de división, información de unidad de predicción, información de unidad de transferencia, información de 10 vector de movimiento, información de cuadro de referencia, información de interpolación de bloque, e información de filtración transmitida desde el módulo de predicción 110.

El módulo de codificación por entropía 130 puede codificar por entropía los valores de coeficiente de la unidad de codificación introducidos desde el módulo de redisposición 125. 15

El módulo de descuantificación 135 puede descuantificar los valores cuantificados por el módulo de cuantificación 120 y el módulo de transformación inversa 140 puede transformar inversamente los valores transformados por el módulo de transformación 115. El bloque residual construido por el módulo de descuantificación 135 y el módulo de transformación 20 inversa 140 se combinan con la unidad de predicción predicha por el módulo de estimación de movimiento, el módulo de compensación de movimiento, y el módulo de predicción intra del módulo de predicción 110 para construir un bloque reconstruido.

El módulo filtro 145 puede incluir al menos uno de un filtro de desbloqueo, un módulo de 25 corrección de desviación, y un ALF (filtro de bucle adaptativo).

El filtro de desbloqueo 145 puede quitar la distorsión de bloque generada en el límite entre bloques en la imagen reconstruida. Para determinar si realizar desbloqueo, se puede determinar en base a píxeles incluidos en varias columnas o filas incluidas en el bloque si 30 aplicar el filtro de desbloqueo al bloque corriente. Cuando se aplica el filtro de desbloqueo al bloque, se puede aplicar un filtro fuerte o un filtro débil dependiendo de la necesaria intensidad de filtración de desbloqueo. Cuando se realizan filtración vertical y filtración horizontal al aplicar el filtro de desbloqueo, la filtración horizontal y la filtración vertical se pueden llevar a cabo en paralelo. 35

El módulo de corrección de desviación puede corregir una desviación de la imagen sometida al desbloqueo de la imagen original por los píxeles. Se puede usar un método de dividir píxeles incluidos en una imagen en un número predeterminado de zonas, determinar una zona a someter a la desviación, y aplicar la desviación a la zona determinada o un método 40 de aplicar la desviación en consideración de la información de borde de los píxeles para realizar la corrección de desviación en una imagen específica.

El ALF (filtro de bucle adaptativo) puede realizar una operación de filtración en base a valores como el resultado de comparación de la imagen reconstruida filtrada y la imagen 45 original. Los píxeles incluidos en la imagen se pueden dividir en grupos predeterminados, se puede determinar los filtros a aplicar a los grupos, y la operación de filtración se puede realizar individualmente para cada grupo. Con respecto a la información sobre si aplicar el ALF, una señal luma puede ser transmitida por las unidades de codificación (CU), y el tamaño y los coeficientes del ALF a aplicar pueden variar dependiendo de los bloques. El 50 ALF puede tener varias formas, y el número de coeficientes incluidos en el filtro puede variar consiguientemente. La información (tal como información de coeficiente de filtro, información de encendido/apagado de ALF, e información de tipo de filtro) relevante para la filtración del

ALF se puede incluir en un conjunto de parámetros predeterminado de un flujo de bits y luego se puede transmitir.

La memoria 150 puede almacenar el bloque o la imagen reconstruido calculado a través del módulo filtro 145. El bloque o la imagen reconstruido almacenado en la memoria puede ser 5 suministrado al módulo de predicción 110 al tiempo de realizar la predicción inter.

La figura 2 es un diagrama de bloques que ilustra un descodificador vídeo según una realización de la invención.

10

Con referencia a la figura 2, un descodificador vídeo 200 puede incluir un módulo de descodificación por entropía 210, un módulo de redisposición 215, un módulo de descuantificación 220, un módulo de transformación inversa 225, un módulo de predicción 230, un módulo filtro 235, y una memoria 240.

15

Cuando se introduce un flujo de bits vídeo desde el codificador vídeo, el flujo de bits de entrada puede ser descodificado en el orden inverso al orden en el que la información vídeo es procesada por el codificador vídeo.

El módulo de codificación por entropía 210 puede realizar descodificación por entropía en el 20 orden inverso al orden en que el módulo de codificación por entropía del codificador vídeo realiza la codificación por entropía, y el residual sometido a la descodificación por entropía por el módulo de descodificación por entropía puede ser introducido en el módulo de redisposición 215.

25

El módulo de descodificación por entropía 210 puede descodificar información relevante para la predicción intra y la predicción inter realizadas por el codificador vídeo. Como se ha descrito anteriormente, cuando se aplica una limitación predeterminada a la predicción intra y la predicción inter realizadas por el codificador vídeo, la descodificación por entropía en base a la limitación puede ser realizada para adquirir la información relevante para la 30 predicción intra y la predicción inter en el bloque corriente.

El módulo de redisposición 215 puede redisponer el flujo de bits descodificado por entropía por el módulo de descodificación por entropía 210 en base al método de redisposición usado en el codificador vídeo. El módulo de redisposición puede reconstruir y redisponer los 35 coeficientes expresados en forma de un vector unidimensional a los coeficientes en forma de un bloque bidimensional. El módulo de redisposición puede realizar redisposición usando un método de adquirir información relevante para la exploración de coeficiente realizada en el codificador vídeo y explorar inversamente los coeficientes en base al orden de exploración realizado por el codificador vídeo. 40

El módulo de descuantificación 220 puede realizar descuantificación en base a los parámetros de cuantificación suministrados desde el codificador vídeo y los valores de coeficiente redispuestos del bloque.

45

El módulo de transformación inversa 225 puede realizar DCT inversa y DST inversa de la DCT y la DST realizadas por el módulo de transformación en el resultado de cuantificación realizado por el codificador vídeo. La transformación inversa puede ser realizada en base a la unidad de transferencia determinada por el codificador vídeo. El módulo de transformación del codificador vídeo puede realizar selectivamente la DCT y la DST 50 dependiendo de múltiples elementos de información tales como el método de predicción, el tamaño del bloque corriente, y la dirección de predicción, y el módulo de transformación inversa 225 del descodificador vídeo puede realizar la transformación inversa en base a

información sobre la transformación realizada por el módulo de transformación del codificador vídeo.

La transformación puede ser realizada en base a la unidad de codificación en lugar de la unidad de transformación. 5

El módulo de predicción 230 puede construir un bloque predicho en base a información relevante para la construcción de bloque predicho suministrada desde el módulo de descodificación por entropía 210 y el bloque previamente descodificado o la información de imagen suministrada desde la memoria 240. 10

Cuando el tamaño de la unidad de predicción y el tamaño de la unidad de transformación son iguales entre sí al tiempo de realizar la predicción intra al igual que la operación del codificador vídeo como se ha descrito anteriormente, la predicción intra se realiza en la unidad de predicción en base a píxeles situados en el lado izquierdo de la unidad de 15 predicción, un píxel situado en la esquina superior-izquierda, y píxeles situados en el lado superior. Sin embargo, cuando el tamaño de la unidad de predicción y el tamaño de la unidad de transformación son diferentes uno de otro al tiempo de realizar la predicción intra, la predicción intra puede ser realizada usando los píxeles de referencia en base a la unidad de transformación. La predicción intra usando división NxN puede ser usada para la unidad 20 de codificación más pequeña.

El módulo de predicción 230 puede incluir un módulo de determinación de unidad de predicción, un módulo de predicción inter, y un módulo de predicción intra. El módulo de determinación de unidad de predicción recibe diversa información, tal como información de 25 unidad de predicción, información de modo de predicción del método de predicción intra, e información relevante para la estimación del movimiento del método de predicción inter del módulo de descodificación por entropía, divide la unidad de predicción en la unidad de codificación predicción inter método, y determina si la predicción inter o la predicción intra serán realizadas en la unidad de predicción. El módulo de predicción inter puede realizar la 30 predicción inter en la unidad de predicción corriente en base a información incluida en al menos una imagen de una imagen previa y una imagen posterior de la imagen corriente incluyendo la unidad de predicción corriente usando la información necesaria para la predicción inter de la unidad de predicción corriente suministrada desde el codificador vídeo.

35

Se puede determinar cuál del modo de salto, el modo de fusión, y el modo AMVP se usa como el método de predicción de la unidad de predicción incluida en la unidad de codificación en base a la unidad de codificación con el fin de realizar la predicción inter.

En realizaciones de la invención, a continuación se describirá un método de construir una 40 lista de vectores de movimiento dicho candidato al tiempo de realizar la predicción inter usando el método AMVP.

El módulo de predicción intra puede construir un bloque predicho en base a información de píxel de una imagen corriente. Cuando la unidad de predicción es una unidad de predicción 45 sometida a la predicción intra, la predicción intra puede ser realizada en base a la información de modo de predicción intra de la unidad de predicción suministrada desde el codificador vídeo. El módulo de predicción intra puede incluir un filtro MDIS, un módulo de interpolación de píxel de referencia, y un filtro DC. El filtro MDIS sirve para realizar una operación de filtración en los píxeles de referencia del bloque corriente y puede determinar 50 si aplicar un filtro dependiendo del modo de predicción de la unidad de predicción corriente. La filtración MDIS puede ser realizada en los píxeles de referencia del bloque corriente usando el modo de predicción de la unidad de predicción suministrada desde el codificador

vídeo y la información de filtro MDIS. Cuando el modo de predicción del bloque corriente es un modo a no someter a la filtración MDIS, el filtro MDIS puede no ser aplicado.

Cuando el modo de predicción de la unidad de predicción es un modo de predicción en el que la predicción intra se realiza en base a los valores de píxel obtenidos interpolando los 5 píxeles de referencia, el módulo de interpolación de píxel de referencia puede interpolar los píxeles de referencia para crear píxeles de referencia de un píxel entero o menos. Cuando el modo de predicción de la unidad de predicción corriente es un modo de predicción en el que se construye un bloque predicho sin interpolar los píxeles de referencia, los píxeles de referencia pueden no ser interpolados. El filtro DC puede construir un bloque predicho a 10 través de la filtración cuando el modo de predicción del bloque corriente es un modo DC.

El bloque o la imagen reconstruido puede ser suministrado al módulo filtro 235. El módulo filtro 235 puede incluir un filtro de desbloqueo, un módulo de corrección de desviación, y un ALF. 15

El módulo filtro puede recibir información acerca de si aplicar el filtro de desbloqueo en el bloque o imagen correspondiente e información sobre cuál de un filtro fuerte y un filtro débil se ha de aplicar cuando el filtro de desbloqueo es aplicado desde el codificador vídeo. El filtro de desbloqueo del descodificador vídeo puede recibir información de filtro de 20 desbloqueo relevante suministrada desde el codificador vídeo y puede realizar la filtración de desbloqueo en el bloque correspondiente. De forma similar al codificador vídeo, la filtración de desbloqueo vertical y la filtración de desbloqueo horizontal se pueden realizar primero y al menos uno del desbloqueo vertical y el desbloqueo horizontal se puede realizar en la parte de solapamiento. La filtración de desbloqueo vertical o la filtración de desbloqueo 25 horizontal previa no realizada se puede realizar en la porción de solapamiento en la que la filtración de desbloqueo vertical y la filtración de desbloqueo horizontal se solapan. La filtración de desbloqueo paralelo se puede realizar a través de este proceso de filtración de desbloqueo.

30

El módulo de corrección de desviación puede realizar corrección de desviación en la imagen reconstruida en base al tipo de la corrección de desviación aplicado a la imagen al tiempo de codificar la imagen y la información de valor de desviación.

El ALF puede realizar una operación de filtración en base al resultado de comparación de la 35 imagen reconstruida sometida a la filtración y la imagen original. El ALF puede ser aplicado a la unidad de codificación en base a información sobre si el ALF ha sido aplicado y la información de coeficiente ALF suministrada desde el codificador vídeo. La información ALF relevante puede ser suministrada junto con un conjunto de parámetros específico.

40

La memoria 240 puede almacenar la imagen o el bloque reconstruido para uso como una imagen o bloque de referencia, y puede suministrar la imagen reconstruida a un módulo de salida.

Como se ha descrito anteriormente, en las realizaciones de la invención, la unidad de 45 codificación se usa como un término que representa una unidad de codificación por razones de conveniencia de la explicación, pero la unidad de codificación puede servir como una unidad de descodificación así como una unidad de codificación.

Un método de codificación vídeo y un método de descodificación vídeo a describir más tarde 50 en las realizaciones de la invención puede ser realizado por las partes constituyentes del codificador vídeo y el descodificador vídeo descritos con referencia a las figuras 1 y 2. Las partes constituyentes se pueden construir como hardware o pueden incluir módulos de procesado por software que pueden ser realizados en un algoritmo.

El módulo de predicción inter puede realizar la predicción inter consistente en predecir valores de píxel de un bloque de predicción deseado usando información de los cuadros reconstruidos distintos de un cuadro corriente. Una imagen usada para la predicción se denomina una imagen de referencia (o un cuadro de referencia). La información de 5 predicción inter usada para predecir un bloque de predicción deseado puede incluir información de índice de imagen de referencia que indica qué imagen de referencia usar y la información de vector de movimiento que indica un vector entre un bloque de la imagen de referencia y el bloque de predicción deseado.

10

Una lista de imágenes de referencia puede estar construida por imágenes usadas para la predicción inter de un bloque de predicción deseado. En el caso de un corte B, se necesitan dos listas de imágenes de referencia para realizar la predicción. En las realizaciones siguientes de la invención, las dos listas de imágenes de referencia se pueden denominar una primera lista de imágenes de referencia (lista 0) y una segunda lista de imágenes de 15 referencia (lista 1). Un corte B cuya primera lista de imágenes de referencia (lista de referencia 0) y la segunda lista de imágenes de referencia (lista de referencia 1) son iguales se puede denominar un corte GPB.

La tabla 1 representa un elemento de sintaxis relevante para información de imagen de 20 referencia incluida en una sintaxis de nivel superior. Un elemento de sintaxis usado en las realizaciones de la invención y una sintaxis de nivel superior (SPS) incluyendo el elemento de sintaxis son arbitrarios y los elementos de sintaxis pueden ser definidos de manera que sean diferentes con el mismo significado. La sintaxis de nivel superior incluyendo el elemento de sintaxis puede estar incluida en otra sintaxis de nivel superior (por ejemplo, 25 sintaxis o PPS en la que solamente se incluye por separado información de imagen de referencia). A continuación se describirá un caso específico en las realizaciones de la invención, pero la forma de expresión de los elementos de sintaxis y la estructura de sintaxis incluyendo los elementos de sintaxis se pueden diversificar y tales realizaciones se incluyen dentro del alcance de la invención. 30

35

Con referencia a la tabla 1, una sintaxis de nivel superior tal como un SPS (conjunto de parámetros de secuencia) puede incluir información asociada con una imagen de referencia usada para la predicción inter.

Aquí, max_num_ref_frames representa el número máximo de imágenes de referencia que 40 pueden ser almacenadas en un DPB (memoria intermedia de imagen descodificada). Cuando el número de píxeles de referencia actualmente almacenado en el DPB es igual al número de imágenes de referencia establecido en max_num_ref_frames, el DPB no tiene espacio para almacenar una imagen de referencia adicional. Consiguientemente, cuando haya que almacenar una imagen de referencia adicional, habrá que quitar del DPB una 45 imagen de referencia de las imágenes de referencia almacenadas en el DPB.

Se puede consultar un elemento de sintaxis tal como adaptive_ref_pic_marking_mode_flag incluido en una cabecera de corte con el fin de determinar qué imagen de referencia deberá ser quitada del DPB.

Aquí, adaptive_ref_pic_marking_mode_flag es información para determinar una imagen de 5 referencia a quitar del DPB. Cuando adaptive_ref_pic_marking_mode_flag es 1, la información adicional sobre qué imagen de referencia quitar puede ser transmitida para quitar del DPB la imagen de referencia especificada. Cuando adaptive_ref_pic_marking_mode_flag es 0, se puede quitar del DPB una imagen de referencia de las imágenes de referencia almacenadas en el DPB, por ejemplo, en el orden 10 en el que las imágenes son descodificadas y almacenadas en el DPB usando una método de ventana móvil. Se puede usar el método siguiente como el método de quitar una imagen de referencia usando la ventana móvil.

(1) Primero, numShortTerm se define como el número total de cuadros de referencia 15 marcados por “imagen de referencia de corto plazo” y numLongTerm se define como el número total de cuadros de referencia marcados por “imágenes de referencia de largo plazo”.

Cuando la suma del número de imágenes de referencia de corto plazo (numShortTerm) y el 20 número de imágenes de referencia de largo plazo (numLongTerm) es igual a Max(max_num_ref_frames, 1) y se cumple la condición de que el número de imágenes de referencia de corto plazo es mayor que 0, una imagen de referencia de corto plazo que tiene el valor más pequeño de FrameNumWrap es marcada con “no disponible como imagen de referencia”. 25

Es decir, en dicho método de ventana móvil se puede quitar la imagen de referencia primero descodificada de la imagen de referencia de corto plazo almacenada en el DPB.

Según una realización de la invención, cuando las imágenes son codificadas y 30 descodificadas con una estructura jerárquica de imágenes, se puede usar imágenes distintas de una imagen que tenga el nivel temporal más alto como imágenes de referencia. Cuando las imágenes incluyen un corte B, los valores predichos de un bloque incluido en el corte B se pueden crear usando al menos una lista de imágenes de referencia de la lista L0 y la lista L1. El número de imágenes de referencia que se incluyen en la lista L0 y la lista L1 35 y que pueden ser usadas como las imágenes de referencia puede estar restringido debido a un problema en la anchura de banda de la memoria.

Cuando el número máximo de cuadros de referencia establecido en max_num_ref_frames que es un elemento de sintaxis que indica el número máximo de cuadros de referencia 40 capaz de ser almacenado en el DPB es suficientemente mayor, el número de imágenes de referencia almacenado en el DPB aumenta y por ello están disponibles la mayor parte de las imágenes de referencia para construir un bloque de predicción deseado. Sin embargo, cuando la resolución de un vídeo aumenta y la cantidad de memoria necesaria se incrementa, se limita max_num_ref_frames, se pueden quitar del DPB imágenes de 45 referencia necesarias, las imágenes a usar como las imágenes de referencia no se pueden almacenar, y así las imágenes de referencia pueden no ser usadas para la predicción inter. Cuando las imágenes de referencia no están almacenadas en el DPB, la exactitud de la predicción de un bloque predicho puede disminuir y la eficiencia de codificación se puede reducir debido a este problema. En el método de gestión de imagen de referencia según la 50 realización de la invención se describirá un método de establecimiento consistente en hacer que se haga referencia a una imagen de referencia por un bloque de predicción deseado disponible al tiempo de realizar la predicción inter reduciendo el número de casos donde las imágenes de referencia no están almacenadas en el DPB y no están disponibles.

Cuando una imagen de referencia óptima a usar como una imagen de referencia en la estructura jerárquica de imágenes no está almacenada en el DPB, otra imagen puede ser usada como una imagen de referencia, lo que puede disminuir la eficiencia de codificación. En las realizaciones siguientes de la invención, un caso donde una imagen de referencia 5 óptima no está almacenada en el DPB se define como un caso donde una imagen de referencia no está disponible por razones de conveniencia de la explicación, e incluye un caso donde la imagen de referencia óptima no está disponible y por ello se usa una imagen de referencia segunda-óptima para la predicción inter.

10

En las realizaciones siguientes de la invención, por razones de conveniencia de la explicación, se supone que max_num_ref_frames que indica el número máximo de imágenes de referencia permisible en el DPB es 4, el número máximo de imágenes de referencia (num_ref_idx_l0_active_minus1) que se puede incluir en la lista L0 es 1, el número máximo de imágenes de referencia (num_ref_idx_l1_active_minus1) que se puede 15 incluir en la lista L1 es 1, y num_ref_idx_lc_active_minus1 es 3. Es decir, el número máximo de imágenes de referencia permisible en el DPB es 4, el número máximo de imágenes de referencia que se puede incluir en la lista L0 es 2, el número máximo de imágenes de referencia que se puede incluir en la lista L1 es 2, y el número máximo de imágenes de referencia que se puede incluir en la lista LC es 4. 20

La lista LC es una lista de combinación e indica una lista de imágenes de referencia construida por combinación de la lista L1 y la lista L0. La lista LC es una lista que puede ser usada para realizar la predicción inter en un bloque de predicción deseado usando un método de predicción unidireccional. Ref_pic_list_combination_flag puede representar el uso 25 de la lista LC cuando ref_pic_list_combination_flag es 1, y puede representar el uso de GPB (B generalizado) cuando ref_pic_list_combination_flag es 0. El GPB representa una lista de imágenes en la que la lista L0 y la lista L1, que son listas de imágenes de referencia usadas para realizar la predicción, tienen la misma imagen, como se ha descrito anteriormente.

30

En las realizaciones de la invención se supone que la estructura de GOP (grupo de imágenes) es 8, pero el número de imágenes que constituyen el GOP puede variar, y tales realizaciones se incluyen dentro del alcance de la invención.

La figura 3 es un diagrama conceptual que ilustra una estructura jerárquica de imágenes 35 según una realización de la invención.

Con referencia a la figura 3, el POC (recuento de orden de imágenes) de imágenes incluidas en el GOP representa el orden de visualización de imágenes, y FrameNum representa el orden de codificación/descodificación de imágenes. En la estructura de codificación 40 jerárquica, las imágenes presentes en capas temporales distintas de la capa temporal en la que el POC que tiene el nivel temporal más alto es 1, 3, 5, 7, 9, 11, 13, y 15, pueden ser usadas como imágenes de referencia.

Según una realización de la invención, el orden de codificación/descodificación de imágenes 45 en la estructura jerárquica de imágenes se puede cambiar para reducir el número de imágenes de referencia no disponibles y para aumentar todo lo posible el número de imágenes de referencia disponibles.

La estructura jerárquica de imágenes puede ser definida en base a capas temporales de 50 imágenes.

Cuando una imagen arbitraria se refiere a una imagen específica, la imagen arbitraria puede estar incluida en una capa temporal más alta que la imagen específica referida.

En la figura 3, una capa temporal cero corresponde a POC(0), una primera capa temporal corresponde a POC(8) y POC(16), una segunda capa temporal corresponde a POC(4) y POC(12), una tercera capa temporal corresponde a POC(2), POC(6), POC(10), y POC(14), y una cuarta capa temporal corresponde a POC(1), POC(3), POC(5), POC(7), POC(9), 5 POC(11), POC(13), y POC(15).

Según la realización de la invención, estableciendo nuevamente el orden de descodificación (FrameNum) de imágenes presentes en la cuarta capa temporal (POC(1), POC(3), POC(5), POC(7), POC(9), POC(11), POC(13), POC(15)) que es el nivel temporal más alto e 10 imágenes de referencia que tienen los niveles temporales (POC(2), POC(6), POC(10), POC(14)) presentes en la tercera capa temporal que es la segunda capa más alta, el número de imágenes de referencia disponibles se puede incrementar de manera que sea mayor que en la estructura jerárquica de imágenes existente.

15

Al cambiar el orden de descodificación (FrameNum), una imagen de la segunda capa temporal más alta en la estructura jerárquica de imágenes puede ser descodificada primero y luego las imágenes presentes en la capa temporal más alta que es previa o posterior a la segunda capa temporal más alta en la secuencia de POC puede ser descodificada secuencialmente. Es decir, descodificando las imágenes de la capa temporal más alta 20 presentes alrededor de la imagen de segunda capa temporal más alta descodificada antes que las imágenes presentes en la otra segunda capa temporal más alta y que tiene un POC mayor que el de la imagen de segunda capa temporal más alta descodificada, es posible cambiar el orden de descodificación de la estructura jerárquica de imágenes.

25

Con referencia a la figura 3, en la estructura jerárquica de imágenes incluyendo la capa temporal cero hasta la cuarta capa temporal, una imagen de las imágenes de la tercera capa temporal se descodifica primero y luego la imagen presente en la cuarta capa temporal previa o posterior a la imagen de la tercera capa temporal en la secuencia de POC puede ser descodificada antes que las otras imágenes de la tercera capa temporal. Por ejemplo, 30 cambiando el orden del paso de descodificar las imágenes de referencia presentes en la capa temporal más alta y el paso de descodificar las imágenes de referencia presentes en la segunda capa temporal más alta usando el método de descodificar la imagen de la tercera capa temporal de POC(2) y luego descodificar secuencialmente la imagen de POC(1) y la imagen de POC(3) de las imágenes de la cuarta capa temporal presentes alrededor de la 35 imagen de POC(2), es posible aumentar el número de casos donde las imágenes almacenadas en el DPB son imágenes de referencia disponibles.

La tabla 2 representa los POCs de las imágenes de referencia a usar en las listas L0, L1, y LC con respecto al POC de las imágenes ilustradas en la figura 3 y las imágenes 40 almacenadas en el DPB en base a la estructura jerárquica de imágenes. En el DPB, se puede quitar al menos una imagen de las imágenes de referencia almacenada en el DPB usando dicho método de ventana móvil.

45

Con referencia a la tabla 2, cuando el número POC es de 0 a 16 y el número POC es de 11 a 15, las imágenes de referencia necesarias para la lista L0, las imágenes de referencia necesarias para la lista L1, y las imágenes de referencia necesarias para la lista LC están 5 almacenadas en el DPB, y así todas las imágenes de referencia están disponibles al tiempo de realizar la predicción inter en las imágenes de los POCs.

Por ejemplo, en el caso de POC(1), la lista L0 puede incluir preferentemente POC(0) presente en el lado izquierdo de POC(1) y que tiene una capa temporal inferior a POC(1) y 10 puede incluir POC(2) presente en el lado derecho de POC(1) y que tiene una capa temporal inferior a POC(1). La lista L1 puede incluir preferentemente POC(2) presente en el primer lado izquierdo de POC(1) y que tiene una capa temporal inferior a POC(1) y puede incluir POC(4) presente en el segundo lado derecho de POC(1) y que tiene una capa temporal inferior a POC(1). 15

Dado que POC(0), POC(8), POC(2), y POC(4) se almacenan en el DPB, se incluyen todas las imágenes de referencia de POC(0), POC(2), y POC(4) para predecir POC(1) y así todas las imágenes de referencia para predecir POC(1) están disponibles.

20

En la figura 3, POC(12), POC(10), POC(9), y POC(11), las imágenes de referencia no están disponibles cuatro veces para predicción L0, las imágenes de referencia no están disponibles una vez para predicción L1, y las imágenes de referencia no están disponibles cuatro veces para predicción LC, pero el número de casos donde las imágenes de referencia no están disponibles se reduce mejorando la eficiencia de 5 codificación/descodificación en comparación con el método de asignar FrameNum usado en la estructura jerárquica de imágenes.

La figura 4 es un diagrama de flujo que ilustra un método de determinación de orden de descodificación en una estructura jerárquica de imágenes según una realización de la 10 invención.

Con referencia a la figura 4, se descodifica una imagen de las imágenes de la segunda capa más alta (paso S400).

15

A continuación, se descodifican una imagen de capa más alta que tiene un POC justo más pequeño que el POC de la imagen de segunda capa más alta y una imagen de capa más alta que tiene un POC justo mayor que el POC de la imagen de segunda capa más alta (paso S410).

20

Según una realización de la invención, una imagen de segunda capa más alta es descodificada y almacenada en el DPB y luego se descodifica una imagen de capa más alta con referencia a la segunda capa más alta de las imágenes de referencia presentes en la capa más alta. Es decir, se descodifica una imagen de segunda capa más alta arbitraria, luego se descodifica una imagen de capa más alta con referencia a la imagen de segunda 25 capa más alta arbitraria, y luego se descodifica una imagen de capa más alta que tiene un POC mayor que el de la imagen de segunda capa más alta arbitraria.

Cuando la imagen de segunda capa más alta es POC(n), la imagen de capa más alta a descodificar a continuación puede ser POC(n-1) y POC(n+1). 30

Según otra realización de la invención, es posible mejorar la disponibilidad de imágenes de referencia aplicando el método de ventana móvil de forma diferente para las imágenes de referencia presentes en el DPB en la estructura jerárquica.

35

El nuevo método de ventana móvil se puede aplicar de la forma siguiente.

(1) En primer lugar, numShortTerm se define como el número total de cuadros de referencia marcados por “imagen de referencia de corto plazo”, y numLongTerm se define como el número total de cuadros de referencia marcados por “imagen de referencia de largo plazo”. 40

(2) Cuando la suma de numShortTerm y numLongTerm es Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0, una imagen de referencia de corto plazo que tiene el valor más pequeño de PicOrderCnt(entryShortTerm) se marca con “no disponible como imagen de referencia”. 45

Es decir, según la realización de la invención, es posible gestionar las imágenes de referencia almacenadas en el DPB usando el método de ventana móvil consistente en sacar del DPB una imagen que tiene el valor de POC más pequeño de las imágenes que pueden ser almacenadas en el DPB. 50

La figura 5 es un diagrama de flujo que ilustra el método de ventana móvil según la realización de la invención.

Con referencia a la figura 5, se calcula el número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo (paso S500).

Para calcular el número total de imágenes de referencia almacenadas en el DPB, se calcula el número de cuadros de referencia marcados con la imagen de referencia de corto plazo, y 5 se calcula el número de cuadros de referencia marcados con la imagen de referencia de largo plazo.

En base a las imágenes almacenadas en el DPB, se determina si el número calculado es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0 (paso S510). 10

En el paso S510, dos detalles de determinación sobre (1) si el número total de imágenes del número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo almacenado en el DPB incluyendo las imágenes descodificadas es igual a Max(max_num_ref_frame, 1) y (2) si numShortTerm es mayor que 0 se pueden realizar en 15 procesos de determinación individuales o en un solo proceso de determinación.

Es posible determinar si quitar una imagen del DPB determinando si el número total de imágenes de referencia es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0 en base a las imágenes almacenadas en el DPB. Cuando el número total de 20 imágenes de referencia es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0, significa que el número de imágenes actualmente almacenadas en el DPB es igual o mayor que el número máximo permisible de imágenes de referencia. Cuando numShortTerm es mayor que 0, significa que al menos una imagen de referencia de corto plazo está presente. 25

Cuando el número total de imágenes de referencia es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0, se quita del DPB una imagen de referencia de corto plazo que tiene el valor más pequeño de PicOrderCnt(entryShortTerm), es decir, que tiene el valor más pequeño de POC, de las imágenes de referencia de corto plazo almacenadas en el 30 DPB (paso S520).

Cuando el número total de imágenes de referencia no es igual a Max(max_num_ref_frame, 1) y numShortTerm no es mayor que 0 en base a las imágenes almacenadas en el DPB, no se quita ninguna imagen del DPB. 35

La tabla 3 muestra la disponibilidad de imágenes de referencia dependiendo del POC cuando se usa el nuevo método de ventana móvil según la realización de la invención.

Con referencia a la tabla 3, en el caso de POC(6), el número de imágenes almacenadas en el DPB es cuatro (POC(0), POC(8), POC(4), y POC(2)). Cuando POC(6) es descodificado 5 adicionalmente, se quita POC(0) correspondiente al POC más pequeño del DPB, por lo que el DPB incluye POC(8), POC(4), POC(2), y POC(6).

Es decir, en la realización de la invención, cuando las imágenes de referencia almacenadas en el DPB incluyen cuadros del número correspondiente a max(max_num_ref_frame, 1), se 10 quita del DPB una imagen de referencia que tiene el valor más pequeño de POC de los POCs.

Con referencia a la tabla 3, en POC(1), POC(3), POC(9), y POC(11), dado que la lista L0 no está disponible cuatro veces y la lista L1 no está disponible cuatro veces, el número de 15 casos donde las imágenes de referencia no están disponibles se reduce en comparación con un caso donde se usa la estructura jerárquica de imágenes existente, usando dicho método de gestión de DPB.

Según otra realización de la invención, se puede usar conjuntamente el método descrito con 20 referencia a las figuras 4 y 5.

Es decir, según la realización de la invención, el método de redisponer FrameNum en la estructura jerárquica de imágenes ilustrada en la figura 4 y el nuevo método de ventana móvil ilustrado en la figura 5 se pueden aplicar simultáneamente. 25

La figura 6 es un diagrama de flujo que ilustra un método de gestión de imagen de referencia según una realización de la invención.

El uso simultáneo del método ilustrado en la figura 4 y el método ilustrado en la figura 5 se 5 describirá con referencia a la figura 6.

Se descodifica una imagen de las imágenes de la segunda capa más alta (paso S600).

Se determina si el número total de imágenes de referencia de las imágenes de referencia de 10 corto plazo y las imágenes de referencia de largo plazo almacenadas en el DPB incluyendo las imágenes descodificadas es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0 (paso S610).

En el paso de determinación del paso S610, dos detalles de determinación sobre (1) si el 15 número total de imágenes del número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo almacenadas en el DPB incluyendo las imágenes descodificadas es igual a Max(max_num_ref_frame, 1) y (2) si numShortTerm es mayor que 0, se pueden realizar en procesos de determinación individuales o en un solo proceso de determinación. 20

Cuando el número total de imágenes de referencia almacenadas en el DPB es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0, se quita del DPB una imagen de referencia de corto plazo que tiene el valor más pequeño de PicOrderCnt(entryShortTerm), es decir, que tiene el valor más pequeño de POC, de las 25 imágenes de referencia de corto plazo almacenadas en el DPB (paso S620).

Cuando el número de imágenes de referencia almacenadas en el DPB no es igual a Max(max_num_ref_frame, 1) o numShortTerm no es mayor que 0, no se quita ninguna imagen del DPB. 30

Se descodifica una imagen de capa superior que tiene un POC menor que la secuencia de POC de la imagen de segunda capa más alta y un POC mayor que la secuencia de POC de la imagen de segunda capa más alta (paso S630).

35

Dado que una imagen de capa más alta no está almacenada como una imagen de referencia, el proceso de gestionar imágenes de referencia almacenadas en el DPB no se puede llevar a cabo.

La tabla 4 muestra la disponibilidad de imágenes de referencia almacenadas en el DPB y la 40 disponibilidad de imágenes incluidas en la lista L0 y la lista L1 cuando el método ilustrado en la figura 3 y el método expuesto en la tabla 3 se aplican conjuntamente.

Con referencia a la tabla 4, en POC(9), dado que las imágenes de referencia no están 5 disponibles una vez para la predicción usando la lista L0 y las imágenes de referencia no están disponibles una vez para la predicción usando la lista LC, se reduce la no disponibilidad de imágenes de referencia en comparación con la estructura jerárquica de imágenes existente.

10

Con referencia a la figura 7, un DPB del descodificador vídeo incluye un módulo de almacenamiento de imagen de referencia 700, un módulo de determinación de información 15 de imagen de referencia 720, y un módulo de gestión de imagen de referencia 740.

Los elementos se pueden disponer independientemente por razones de conveniencia de la explicación, y se puede combinar al menos dos elementos en un solo elemento o se puede dividir un solo elemento en múltiples elementos para realizar las funciones. Las 20 realizaciones en las que los elementos se combinan o dividen se incluyen dentro del alcance de la invención sin apartarse del concepto de la invención.

Algunos elementos pueden no ser elementos esenciales usados para realizar funciones esenciales de la invención, pero pueden ser elementos selectivos usados simplemente para 25 mejorar el rendimiento. La invención se puede llevar a cabo solamente con elementos

esenciales para realizar la invención, distintos de los elementos usados simplemente para mejorar el rendimiento, y una estructura incluyendo solamente los elementos esenciales distintos de los elementos selectivos usados simplemente para mejorar el rendimiento también se incluye dentro del alcance de la invención.

5

Por ejemplo, en la realización siguiente de la invención, el módulo de almacenamiento de imagen de referencia 700, el módulo de determinación de información de imagen 720, y el módulo de actualización de información de imagen de referencia 740 se describen como independientes, pero un módulo incluyendo al menos un elemento del módulo de almacenamiento de imagen de referencia 700, el módulo de determinación de información 10 de imagen 720, y el módulo de actualización de información de imagen de referencia 740 puede ser expresado por un término de DPB o memoria.

El módulo de almacenamiento de imagen de referencia 700 puede almacenar imágenes de referencia de corto plazo e imágenes de referencia de largo plazo. Las imágenes de 15 referencia de corto plazo y las imágenes de referencia de largo plazo se pueden almacenar y quitar de forma diferente del módulo de almacenamiento de imagen de referencia. Por ejemplo, las imágenes de referencia de corto plazo y las imágenes de referencia de largo plazo se pueden almacenar y gestionar de forma diferente en la memoria. Por ejemplo, las imágenes de referencia de corto plazo se pueden gestionar en forma FIFO (primero en 20 entrar primero en salir) en la memoria. Considerando las imágenes de referencia de largo plazo, una imagen de referencia no adecuada para abrirse en forma FIFO puede ser marcada y usada como una imagen de referencia de largo plazo.

El módulo de determinación de información de imagen 720 puede determinar información de 25 imagen tal como POC y FrameNum en la estructura jerárquica de imágenes y puede incluir información de imagen a consultar e información de imagen secuencial a descodificar.

El módulo de determinación de información de imagen 720 puede determinar la información de imagen y puede almacenar la información de imagen en el módulo de almacenamiento 30 de imagen de referencia 700 con el fin de descodificar una imagen de imágenes de capa temporal segunda más alta en base a la estructura jerárquica de imágenes y luego descodificar imágenes de capa temporal más alta previas y posteriores a la imagen de segunda capa temporal más alta en la secuencia de POC (recuento de orden de imágenes).

35

El módulo de actualización de información de imagen de referencia 740 también puede descodificar la información de estructura jerárquica de imágenes, la información de estructura de GOP, y análogos y puede determinar la información de imagen a almacenar en el módulo de almacenamiento de imagen de referencia 700.

40

El módulo de actualización de información de imagen de referencia 740 puede determinar si el número de imágenes calculado en base a las imágenes de referencia de corto plazo y las imágenes de referencia de largo plazo almacenadas en el DPB incluyendo las imágenes de capa temporal segunda más alta descodificadas es igual a Max(max_num_ref_frame, 1) y si numShortTerm es mayor que 0. Cuando se determina como el resultado de la determinación 45 que el número de imágenes almacenadas en el módulo de almacenamiento de imagen de referencia 700 es igual a Max(max_num_ref_frame, 1) y numShortTerm es mayor que 0, la imagen de referencia de corto plazo que tiene el POC más pequeño de las imágenes de referencia de corto plazo presentes en el DPB se puede quitar del módulo de almacenamiento de imagen de referencia. 50

El método de codificación y descodificación vídeo descrito anteriormente puede ser realizado por los elementos del codificador vídeo y el descodificador vídeo descritos con referencia a las figuras 1 y 2.

Aunque la invención se ha descrito con referencia a las realizaciones, los expertos en la técnica pueden entender que la invención se puede modificar de varias formas sin apartarse del espíritu y alcance técnicos de la invención descrita en las reivindicaciones anexas.

5

Claims

REIVINDICACIONES

1. Un método de descodificación vídeo que usa información de imágenes previamente descodificadas, el método de descodificación video comprende los pasos de:

descodificar una imagen previa o una imagen posterior de la imagen actual en el 5 orden de un contador ordenado de imágenes (POC);

realizar predicción inter en un bloque actual en una imagen actual usando la imagen previa o la imagen posterior, donde la imagen previa y la imagen posterior están almacenadas en un buffer de imágenes descodificadas (DBP); y,

eliminar imágenes del buffer de imágenes descodificadas (DBP) en base al contador 10 ordenado de imágenes (POC).
2. El método de descodificación vídeo según la reivindicación 1, comprendiendo además el paso de:

15

determinar si el número de imágenes calculado en base a imágenes de referencia de corto plazo e imágenes de referencia de largo plazo almacenadas en el buffer de imágenes descodificadas (DPB) incluyendo las imágenes descodificadas es menor o igual al número máximo de imágenes para las que el buffer de imágenes decodificadas (DPB) puede incluir información y si el número de imágenes de referencia de corto plazo es mayor que 0, 20

donde la información indicado el número máximo de imágenes es transmitido desde un aparato codificador.
3. El método de descodificación vídeo según la reivindicación 2, comprendiendo además el paso de: 25

calcular el número de imágenes de referencia de corto plazo y el número de imágenes de referencia de largo plazo.
4. El método de descodificación vídeo según la reivindicación 1, donde el paso de 30 eliminación de imágenes comprende:

quitar la imagen de referencia de corto plazo que tiene el contador ordenado de imagen (POC) más pequeño siendo la primera imagen en salir del buffer de imágenes descodificadas (DPB) de las imágenes de referencia de corto plazo presentes en el buffer de 35 imágenes descodificadas (DPB)
5. El método de descodificación vídeo según la reivindicación 4, donde la imagen de referencia de corto plazo es eliminada cuando el número de imágenes almacenadas en el buffer de imágenes descodificadas (DPB) es igual al máximo número de imágenes y el 40 número de imágenes de referencia de corto plazo es mayor que 0.
6. El método de descodificación vídeo según la reivindicación 1, donde el paso de eliminación de imágenes comprende:

eliminar imágenes de una imagen que tiene el contador ordenado de imagen (POC) más 45 pequeño del buffer de imágenes descodificadas (DPB) en el orden del contador ordenado de imagen (POC).
7. El método de descodificación vídeo según la reivindicación 6, donde una imagen es eliminada cuando el número de imágenes en el buffer de imágenes descodificadas (DPB) es 50 igual al número máximo de imágenes y el número de imágenes de referencia de corto plazo es mayor que cero.
8. El método de descodificación vídeo según la reivindicación 1, donde las imágenes en el buffer de imágenes descodificadas (DPB) que no son empleadas para la predicción inter, son marcadas en el orden del contador ordenado de imágenes (POC) como no empleadas para una referencia.

5
9. El método de descodificación vídeo según la reivindicación 1, donde la imagen actual es descodificada usando información de imágenes de una lista de imágenes de referencia, y

donde la lista de imágenes de referencia comprende imágenes que pueden ser empleadas para predicción del bloque actual en la imagen actual, entre la imagen previa descodificada o la imagen posterior descodificada en el orden del contador ordenado de imágenes (POC). 10
10. El método de descodificación vídeo según la reivindicación 9, donde una imagen de nivel temporal inferior es descodificada antes que una imagen de nivel temporal superior y donde la lista de imágenes de referencia comprende imágenes con niveles temporales inferiores o iguales al nivel temporal de la imagen actual. 15
11. El método de descodificación vídeo según la reivindicación 1, donde el paso de realizar la predicción comprende usar una imagen de un nivel temporal inferior que el nivel temporal de la imagen actual, para la predicción inter de la imagen actual.