ES2781561T3

ES2781561T3 - Método que predice síntesis de vistas en la codificación de vídeo multi-vista y método para constituir una lista de candidatos a la fusión mediante el uso del mismo

Info

Publication number: ES2781561T3
Application number: ES14854867T
Authority: ES
Inventors: Taesup Kim; Sehoon Yea; Jin Heo; Jungdong Seo; Sunmi Yoo; Junghak Nam
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2013-10-18
Filing date: 2014-10-20
Publication date: 2020-09-03
Anticipated expiration: 2034-10-20
Also published as: JP2016537869A; US10070147B2; EP3059970B1; US20160295240A1; JP6545672B2; CN105659604B; EP3059970A4; KR20160072102A; KR102254599B1; EP3059970A1; WO2015057039A1; CN105659604A

Abstract

Método de construcción de una lista de candidatos a la fusión en la codificación de un vídeo multi-vista, por parte de un aparato de descodificación de vídeo, comprendiendo el método: (S1610) determinar un modo de predicción para un bloque en curso; (S1620) obtener, en calidad de candidato a la fusión, información de movimiento de bloques vecinos del bloque en curso cuando el modo de predicción para el bloque en curso es un modo de fusión o un modo de omisión; y (S1630) construir una lista de candidatos a la fusión usando la información de movimiento de los bloques vecinos e información de disparidad obtenida a partir de un bloque vecino del bloque en curso, caracterizado por que la lista de candidatos a la fusión incluye un candidato a la fusión inter-vista y candidatos a la fusión espaciales, el candidato a la fusión inter-vista se obtiene a partir de información de movimiento de un bloque de referencia en una vista de referencia especificada por la información de disparidad obtenida a partir del bloque vecino del bloque en curso, los candidatos a la fusión espaciales incluyen un primer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque izquierdo del bloque en curso, un segundo candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior del bloque en curso, un tercer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior derecho del bloque en curso, un cuarto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque inferior izquierdo del bloque en curso, y un quinto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior izquierdo del bloque en curso, la construcción de la lista de candidatos a la fusión (S1630) comprende determinar si se aplica compensación de iluminación al bloque en curso, y cuando se aplica la compensación de iluminación al bloque en curso la lista de candidatos a la fusión no incluye un candidato a la fusión de predicción por síntesis de vistas, y cuando no se aplica la compensación de iluminación al bloque en curso la lista de candidatos a la fusión incluye, además, el candidato a la fusión de predicción por síntesis de vistas, y el candidato a la fusión de predicción por síntesis de vistas se deduce a partir de la información de disparidad.

Description

DESCRIPCIÓN

Método que predice síntesis de vistas en la codificación de vídeo multi-vista y método para constituir una lista de candidatos a la fusión mediante el uso del mismo

Campo técnico

La presente invención se refiere a una técnica de codificación de vídeo, y, más particularmente, a una técnica de codificación de imágenes de vídeo 3D.

Antecedentes técnicos

En los últimos años, se ha incrementado la demanda de un vídeo de alta resolución y alta calidad en diversos campos de aplicación. No obstante, cuanto más se incrementen la resolución y la calidad de los datos de vídeo, mayor será la cantidad de datos de vídeo.

Por consiguiente, cuando se transfieren datos de vídeo usando medios, tales como las líneas existentes de banda ancha por cable o inalámbricas, o se almacenan datos de vídeo en medios de almacenamiento existentes, el coste de transferencia y el coste de almacenamiento de los mismos aumentan. Pueden usarse técnicas de compresión de vídeo de alta eficiencia para transferir, almacenar y reproducir de manera eficaz datos de vídeo de alta resolución y alta calidad.

Por otro lado, al alcanzar la capacidad de procesar vídeos de alta resolución/alta capacidad, los servicios de radiodifusión digital que usan vídeos 3D han sido objeto de atención como servicio de radiodifusión de la siguiente generación. Un vídeo 3D puede proporcionar sentido de realismo y sentido de inmersión usando canales multi-vista. Un vídeo 3D se puede usar en diversos campos, tales como el vídeo con punto de vista libre (FVV), la TV con punto de vista libre (FTV), la 3DTV, vigilancia y sistemas de entretenimiento domésticos.

A diferencia de los vídeos de una sola vista, el vídeo 3D que usa multi-vistas tiene una alta correlación entre vistas que tienen el mismo contaje de orden de imágenes POC. Puesto que la misma escena se filma con múltiples cámaras próximas, es decir, múltiples vistas, los vídeos multi-vista tienen prácticamente la misma información excepto por el paralaje y una ligera diferencia de iluminación y, por lo tanto, vistas diferentes presentan una alta correlación entre ellas. Por consiguiente, para codificar/descodificar un vídeo multi-vista puede tenerse en cuenta la correlación entre vistas diferentes, y puede obtenerse información necesaria para la codificación y/o descodificación de una vista en curso. Por ejemplo, un bloque a descodificar en una vista en curso se puede predecir o descodificar en referencia a un bloque de una vista diferente.

El documento JCT3V-E1005 con título “3D-HEVC Test Model 5" del Equipo de Colaboración Conjunto sobre el Desarrollo de Extensiones de Codificación de Vídeo 3D de la ITU-T SG 16 WP 3 y la ISO/IEC JTC 1/SC 29/WG 11 da a conocer el “Usage of Inter-View Motion Parameter Prediction" como sigue: se aplica la predicción por vectores de movimiento inter-vista para el modo de fusión (y el modo de omisión). En el modo de fusión de1HEVC (así como en el modo de omisión, que representa el modo de fusión sin codificación de una señal residual), se usan básicamente los mismos parámetros de movimiento (número de hipótesis, imágenes de referencia y vectores de movimiento) que para un bloque vecino. Si un bloque se codifica en el modo de fusión, se obtiene una lista de candidatos de parámetros de movimiento, la cual incluye los parámetros de movimiento de bloques espacialmente vecinos así como parámetros de movimiento que se calculan sobre la base de los parámetros de movimiento del bloque co-ubicado en una imagen de referencia temporal. Los parámetros de movimiento escogidos se señalizan transmitiendo un índice en la lista de candidatos. Resumiendo, el documento da a conocer características de los preámbulos de la reivindicación independiente 1.

Sumario de la invención

Problemas técnicos

Es un objetivo de la presente invención proporcionar un método de obtención de un candidato a fusión para llevar a cabo de manera eficaz una predicción inter-vista, y un método y un aparato para construir una lista de candidatos a fusión.

Es otro objetivo de la presente invención proporcionar un método y un aparato que tengan en cuenta condiciones efectivas para obtener cada candidato a la fusión y la disponibilidad de cada candidato a la fusión en la construcción de una lista de candidatos a la fusión.

Es todavía otro objetivo de la presente invención proporcionar un método y un aparato para materializar la obtención de un vector de disparidad y una predicción por sub-bloques de un bloque en curso con el fin de descodificar de manera eficaz el bloque en curso usando información de profundidad.

Solución técnica

Los objetivos anteriores se logran mediante la combinación de características de las reivindicaciones independientes. En las reivindicaciones dependientes se definen realizaciones preferidas. Los ejemplos adicionales denominados realizaciones en la descripción son ejemplos ilustrativos, no realizaciones reivindicadas en la presente solicitud.

Según una realización de la presente invención, se proporciona un método de construcción de una lista de candidatos a la fusión en un vídeo multi-vista, incluyendo el método determinar un modo de predicción para un bloque en curso; obtener, en calidad de candidato a la fusión, información de movimiento de bloques vecinos del bloque en curso cuando el modo de predicción para el bloque en curso es un modo de fusión o un modo de omisión; y construir una lista de candidatos a la fusión usando la información de movimiento sobre los bloques vecinos e información de disparidad obtenida a partir de un bloque vecino del bloque en curso, en donde la construcción de la lista de candidatos a la fusión dispone candidatos a la fusión en un orden de primera información de disparidad obtenida a partir del bloque vecino del bloque en curso, información de movimiento obtenida a partir de un bloque izquierdo del bloque en curso, información de movimiento obtenida a partir de un bloque superior del bloque en curso, información de movimiento obtenida a partir de un bloque superior derecho del bloque en curso, segunda información de disparidad obtenida usando información de profundidad sobre la base de la primera información de disparidad, tercera información de disparidad obtenida sobre la base de síntesis de vistas, información de movimiento obtenida a partir de un bloque inferior izquierdo del bloque en curso, e información de movimiento obtenida a partir de un bloque superior izquierdo del bloque en curso.

Según otra realización de la presente invención, se proporciona un método de descodificación de un vídeo multi-vista por sub-bloque de un bloque en curso usando una predicción de síntesis de vistas, incluyendo el método especificar un bloque de profundidad correspondiente a un bloque de predicción en curso; segmentar el bloque de predicción en curso en sub-bloques usando valores de profundidad de cuatro muestras esquineras del bloque de profundidad; obtener un vector de disparidad por cada sub-bloque usando bloques de profundidad correspondientes a los sub-bloques; y obtener una muestra de predicción por el sub-bloque usando el vector de disparidad.

Efectos ventajosos

Según la presente invención, se obtiene de manera eficaz un candidato a la fusión para llevar a cabo una predicción inter-vista y se construye una lista de candidatos a la fusión usando el candidato a la fusión, con lo cual se mejora la eficiencia de codificación.

Según la presente invención, se construye una lista de candidatos a la fusión teniendo en cuenta condiciones efectivas para obtener cada candidato a la fusión y la disponibilidad de cada candidato a la fusión, con lo cual se mejoran los efectos del modo de fusión o el modo de omisión.

Según la presente invención, la obtención de un vector de disparidad y la predicción se llevan a cabo por sub-bloques de un bloque en curso, con lo cual se mejoran los efectos de la predicción de síntesis de vistas.

Breve descripción de los dibujos

La FIG. 1 es un diagrama que describe esquemáticamente procesos de codificación y descodificación de un vídeo 3D. La FIG. 2 es un diagrama que describe esquemáticamente una configuración de un aparato de codificación de vídeo. La FIG. 3 es un diagrama que describe esquemáticamente una configuración de un aparato de descodificación de vídeo.

La FIG. 4 ilustra esquemáticamente un método de codificación inter-vista.

La FIG. 5 ilustra esquemáticamente un método de codificación multi-vista que usa un mapa de profundidad.

La FIG. 6 ilustra esquemáticamente un bloque de predicción compensada en movimiento con vector de disparidad (DV-MCP).

La FIG. 7 ilustra esquemáticamente un ejemplo de bloques vecinos de un bloque en curso.

La FIG. 8 ilustra esquemáticamente un ejemplo de construcción de una lista de candidatos a la fusión.

La FIG. 9 ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión cuando no se aplica compensación (compensation) de iluminación (IC).

La FIG. 10 ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión cuando se aplica IC.

La FIG. 11 ilustra esquemáticamente otro método de construcción de una lista de candidatos a la fusión cuando se aplica IC.

La FIG. 12 ilustra esquemáticamente un método de especificación de un bloque de profundidad correspondiente para aplicar la predicción de síntesis de vistas (VSP) a un bloque en curso.

La FIG. 13 ilustra esquemáticamente un método de ejecución de predicción compensada en disparidad (DCP) por sub bloque aplicando VSP.

La FIG. 14 ilustra esquemáticamente otro método de realización de DCP por sub-bloque aplicando la VSP.

La FIG. 15 ilustra esquemáticamente todavía otro método de realización de DCP por sub-bloque aplicando la VSP. La FIG. 16 es un diagrama de flujo que ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión según la presente invención.

La FIG. 17 es un diagrama de flujo que ilustra esquemáticamente un método de realización de la VSP según la presente invención.

Descripción de realizaciones

Según se usa en la presente, el término “Píxel” o “pel” significa una unidad mínima que constituye una imagen única. El término “Muestra” se puede usar como término que representa un valor de un píxel específico. En relación con esto, la muestra puede indicar un valor de píxel de una componente de luma y/o un valor de píxel de una componente de croma. Tal como se usa en la presente, el término “Unidad” significa una unidad básica para procesado de la imagen y/o una posición específica en una imagen. La unidad se puede usar de manera intercambiable con términos tales como “bloque”, “área” o similares. En general, bloque de MxN se refiere a un conjunto de muestras o coeficientes de transformada dispuestos en M columnas y N filas.

En lo sucesivo en la presente, se describirán de forma detallada realizaciones de la presente invención en referencia a los dibujos adjuntos.

La FIG. 1 es un diagrama que describe esquemáticamente procesos de codificación y descodificación de un vídeo 3D. En referencia a la FIG. 1, un codificador de vídeo 3 codifica una imagen de vídeo y un mapa de profundidad y un parámetro de cámara para dar salida a los mismos en forma de un flujo continuo de bits.

El mapa de profundidad puede estar constituido por información de distancia (información de profundidad) entre una cámara y un sujeto con respecto a un píxel de la imagen de vídeo correspondiente (imagen de textura). Por ejemplo, el mapa de profundidad puede ser una imagen adquirida mediante la normalización de la información de profundidad de acuerdo con la profundidad de los bits. En este caso, el mapa de profundidad puede estar constituido por la información de profundidad grabada sin expresión de la crominancia.

En general, puesto que la distancia desde el sujeto y la disparidad son inversamente proporcionales entre sí, puede deducirse la información de disparidad que indica una correlación entre vistas a partir de la información de profundidad del mapa de profundidad usando el parámetro de cámara.

A través de una red o un soporte de almacenamiento puede transmitirse a un descodificador un flujo continuo de bits que incluye el mapa de profundidad e información de cámara junto con una imagen en color general, es decir, la imagen de vídeo (imagen de textura).

El descodificador recibe el flujo continuo de bits para reconstruir el vídeo. Cuando, como descodificador, se usa un descodificador de vídeo 3D, el descodificador de vídeo 3D puede descodificar la imagen de vídeo, y el mapa de profundidad de parámetro de cámara a partir del flujo continuo de bits. Basándose en la imagen de vídeo descodificada, en el mapa de profundidad y en el parámetro de cámara se pueden sintetizar vistas requeridas para un módulo de visualización multi-vista. En este caso, cuando el módulo de visualización usado es un módulo de visualización estereoscópico, la imagen 3D se puede visualizar usando dos imágenes entre las multi-vistas reconstruidas.

Cuando se usa el descodificador de vídeo estereoscópico, el descodificador de vídeo estereoscópico puede reconstruir dos imágenes de manera que incidan en ambos ojos a partir del flujo continuo de bits. El módulo de visualización estereoscópico puede visualizar una imagen 3D usando una diferencia de vista o disparidad entre una imagen izquierda que incide en el ojo izquierdo y una imagen derecha que incide en el ojo derecho. Cuando el módulo de visualización multi-vista se usa junto con el descodificador de vídeo estereoscópico, las multi-vistas se pueden visualizar generando otras vistas sobre la base de las dos imágenes reconstruidas.

Cuando se usa un descodificador 2D, se reconstruye una imagen 2D para dar salida a la imagen a través un módulo de visualización 2D. Se usa el módulo de visualización 2D, pero cuando, como descodificador, se usa el descodificador de vídeo 3D o el descodificador de vídeo estereoscópico, a través del módulo de visualización 2D se puede dar salida a una de las imágenes reconstruidas.

En la configuración de la FIG. 1, la síntesis de vistas puede ser llevada a cabo por el descodificador o el módulo de visualización. Además, el descodificador y el módulo de visualización pueden ser un aparato o aparatos independientes. En la FIG. 1, para facilitar la descripción, se describe que el descodificador de vídeo 3D, el descodificador de vídeo estereoscópico y el descodificador de vídeo 2D son descodificadores independientes, pero un aparato de descodificación puede realizar en su totalidad la descodificación de vídeo 3D, la descodificación de vídeo estereoscópica y la descodificación de vídeo 2D. Además, un aparato de descodificación de vídeo 3D puede llevar a cabo la descodificación de vídeo 3D, un aparato de descodificación de vídeo estereoscópico puede llevar a cabo la descodificación de vídeo estereoscópica, y un aparato de descodificación de vídeo 2D puede llevar a cabo la descodificación de vídeo 2D. Además, el módulo de visualización multi-vista puede dar salida a un vídeo 2D ó a un vídeo estereoscópico.

La FIG. 2 es un diagrama que describe esquemáticamente una configuración de un aparato de codificación de vídeo. En referencia a la FIG. 2, el aparato 200 de codificación de vídeo incluye una unidad 205 de división de imágenes, una unidad 210 de predicción, una unidad 215 de resta, una unidad 220 de transformada, una unidad 225 de cuantificación, una unidad 230 de reordenación, una unidad 235 de codificación entrópica, una unidad 240 de descuantificación, una unidad 245 de transformada inversa, una unidad 250 de suma, una unidad 255 de filtro, y una memoria 260.

La unidad 05 de división de imágenes puede dividir una imagen de entrada en al menos un bloque de unidad de procesado. En este caso, el bloque de unidad de procesado puede ser un bloque de unidad de codificación, un bloque de unidad de predicción, o un bloque de unidad de transformada. El bloque de unidad de codificación como bloque unitario correspondiente a la codificación se puede dividir a partir de un bloque de unidad de codificación máximo de acuerdo con una estructura de árbol cuaternario. El bloque de unidad de predicción como bloque segmentado del bloque de unidad de unidad de codificación puede ser un bloque de unidad de predicción de muestras. En este caso, el bloque de unidad de predicción se puede dividir en subbloques. El bloque de unidad de transformada como bloque de unidad de codificación se puede dividir de acuerdo con la estructura de árbol cuaternario y puede ser un bloque de unidad para deducir un coeficiente de transformada o un bloque de unidad para deducir una señal residual a partir del coeficiente de transformada.

Según se usa en la presente, por comodidad en cuanto a su ilustración, a un bloque de unidad de codificación se le hace referencia como bloque de codificación o unidad de codificación (CU). A un bloque de unidad de predicción se le hace referencia como bloque de predicción o unidad de predicción (PU). A un bloque de unidad de transformada se le hace referencia como bloque de transformada o unidad de transformada (TU).

Bloque de predicción o unidad de predicción puede significar un área específica en forma de bloque o una matriz de la muestra de predicción. Además, bloque de transformación o unidad de transformada puede significar el área específica en forma de bloque o una matriz del coeficiente de transformada o una muestra residual.

La unidad 210 de predicción puede llevar a cabo una predicción para un bloque objetivo de procesado (al que, en lo sucesivo, en la presente, se hace referencia como bloque en curso) y generar el bloque de predicción que incluye muestras de predicción para el bloque en curso. Una unidad de la predicción llevada a cabo por la unidad 210 de predicción puede ser el bloque de codificación, el bloque de transformación o el bloque de predicción.

La unidad 210 de predicción puede decidir si se aplica una predicción intra al bloque en curso o si se aplica una predicción inter al bloque en curso.

En el caso de la predicción intra, la unidad 210 de predicción puede deducir la muestra de predicción para el bloque en curso sobre la base de un píxel de un bloque vecino en una imagen (en lo sucesivo en la presente, imagen en curso) a la cual pertenece el bloque en curso. En este caso, la unidad 210 de predicción puede (i) deducir la muestra de predicción basándose en un valor medio o una interpolación de muestras de referencia vecinas del bloque en curso o (ii) deducir la muestra de predicción basándose en una muestra de referencia que está presente en una dirección específica con respecto a un píxel objetivo de predicción entre bloques vecinos del bloque en curso. Para facilitar la descripción, al caso correspondiente a (i) se le hace referencia como modo no direccional y al caso correspondiente a (ii) se le hace referencia como modo direccional. La unidad 210 de predicción puede decidir el modo de predicción aplicado al bloque en curso usando el modo de predicción aplicado al bloque vecino.

En el caso de la predicción inter, la unidad 210 de predicción puede deducir la muestra de predicción para el bloque en curso sobre la base de muestras especificadas por un vector de movimiento en una imagen coubicada. La unidad 10 de predicción aplica uno cualquiera de entre un modo de omisión, un modo de fusión y un modo de MVP para deducir la muestra la predicción para el bloque en curso. En los casos del modo de omisión y el modo de fusión, la unidad 210 de predicción puede usar información de movimiento del bloque vecino como información de movimiento del bloque en curso. En el caso del modo de omisión, a diferencia del modo de fusión no se transmite una diferencia (residuo) entre la muestra de predicción y una muestra original. En el caso del modo MVP, el vector de movimiento del bloque vecino se usa como predictor de vector de movimiento (MVP) para deducir el vector de movimiento del bloque en curso.

En el caso de la predicción inter, el bloque vecino incluye un bloque vecino espacial que está presente en la imagen en curso y un bloque vecino espacial que está presente en la imagen coubicada. La información de movimiento incluye el vector de movimiento y la imagen coubicada. En el modo de omisión y el modo de fusión, cuando se usa la información de movimiento del bloque vecino espacial, como imagen coubicada puede usarse la imagen que está más alta en una lista de imágenes coubicadas.

En el caso de la codificación de una vista dependiente, la unidad 210 de predicción puede llevar a cabo una predicción inter-vista.

La unidad 210 de predicción puede configurar la lista de imágenes coubicadas incluyendo una imagen de otra vista. Para la predicción inter-vista, la unidad 210 de predicción puede deducir un vector de disparidad. A diferencia del vector de movimiento que especifica un bloque correspondiente al bloque en curso en otra imagen en una vista en curso, el vector de disparidad puede especificar un bloque correspondiente al bloque en curso en otra vista de la misma unidad de acceso que la imagen en curso.

La unidad 210 de predicción puede especificar un bloque de profundidad en una vista de profundidad basándose en el vector de disparidad y puede llevar a cabo una configuración de una lista de fusión, una predicción de movimiento inter vista, una compensación de iluminación (IC), una síntesis de vistas, y similares.

El vector de disparidad para el bloque en curso se puede deducir a partir de un valor de profundidad usando el parámetro de cámara o se puede deducir a partir del vector de movimiento o el vector de disparidad del bloque vecino en la vista en curso u otra vista.

Por ejemplo, la unidad 210 de predicción puede añadir a una lista de candidatos a la fusión un candidato a la fusión inter-vista (IvMC) correspondiente a información de movimiento espacial de una vista de referencia, un candidato a vector de disparidad inter-vista (IvDC) correspondiente al vector de disparidad, un IvMC desplazado que se deduce mediante un desplazamiento de la disparidad, un candidato a la fusión de textura (T) que se deduce a partir de una textura correspondiente a un caso en el que el bloque en curso es un bloque en el mapa de profundidad, un candidato a la fusión obtenido por disparidad (D) que se obtiene a partir del candidato a la fusión de textura usando la disparidad, un candidato a la fusión de predicción de síntesis de vistas (VSP) que se obtiene basándose en la síntesis de vistas, y similares.

En este caso, el número de candidatos incluidos en una lista de candidatos a la fusión aplicada a la vista dependiente se puede limitar a un valor predeterminado.

Además, la unidad 210 de predicción puede predecir el vector de movimiento del bloque en curso basándose en el vector de disparidad mediante la aplicación de la predicción por vectores de movimiento inter-vista. En este caso, la unidad 210 de predicción puede obtener el vector de disparidad sobre la base de una conversión de un valor de profundidad máximo en el bloque de profundidad correspondiente. Cuando una posición de la muestra de referencia en la vista de referencia se especifica sumando el vector de disparidad a una posición de muestra del bloque en curso en la vista de referencia, como bloque de referencia puede usarse un bloque que incluye la muestra de referencia. La unidad 210 de predicción puede usar el vector de movimiento del bloque de referencia como parámetro de movimiento candidato o candidato a predictor de vector de movimiento del bloque en curso y puede usar el vector de disparidad como vector de disparidad candidato para una predicción compensada en disparidad (DCP).

La unidad 215 de resta genera la muestra residual la cual es la diferencia entre la muestra original y la muestra de predicción. Cuando se aplica el modo de omisión, la unidad 215 de resta no puede generar la muestra residual según se ha descrito anteriormente.

La unidad 210 de transformada genera el coeficiente de transformada usando la transformación de la muestra residual por la unidad del bloque de transformada. La unidad 225 de cuantificación cuantifica los coeficientes de transformada para generar coeficientes de transformada cuantificados.

La unidad 230 de reordenación reordena los coeficientes de transformada cuantificados. La unidad 230 de reordenación puede reordenar los coeficientes de transformada cuantificados con forma de bloque en forma de un vector 1D a través de un método de exploración.

La unidad 235 de codificación entrópica puede llevar a cabo una codificación entrópica de los coeficientes de transformada cuantificados. Como codificación entrópica, pueden usarse métodos de codificación que incluyen, por ejemplo, Golomb exponencial, codificación de longitud variable adaptativa según el contexto (CAVLC), codificación aritmética binaria adaptativa según el contexto (CABAC), y similares. La unidad 235 de codificación entrópica puede codificar información (por ejemplo, un valor de un elemento de sintaxis, y similares) requerida para la reconstrucción del vídeo conjuntamente o por separado además de los coeficientes de transformada cuantificados.

La información codificada entrópicamente se puede transmitir o almacenar por parte de la unidad de una capa de abstracción de red en forma de flujo continuo de bits.

La unidad 240 de descuantificación descuantifica el coeficiente de transformada cuantificado para generar el coeficiente de transformada. La unidad 245 de transformada inversa transforma inversamente el coeficiente de transformada para generar la muestra residual.

La unidad 250 de suma suma la muestra residual y la muestra de predicción para reconstruir la imagen. La muestra residual y la muestra de predicción se suman entre sí por la unidad del bloque para generar un bloque de reconstrucción. En este caso, la unidad 250 de suma se describe como un componente independiente, pero la unidad 250 de suma puede formar parte de la unidad 210 de predicción.

La unidad 255 de filtro puede aplicar un filtro antibloques y/o una compensación (offset) a la imagen reconstruida. La distorsión durante un artefacto o un proceso de cuantificación de un límite de bloque en la imagen reconstruida se puede corregir a través del filtrado antibloques y/o la compensación. La compensación puede ser aplicada por la unidad de la muestra y se puede aplicar después de que se complete el proceso del filtrado antibloques.

La memoria 260 puede almacenar la imagen reconstruida o información requerida para la codificación/descodificación. Por ejemplo, la memoria 60 puede almacenar imágenes usadas para la predicción inter/predicción inter-vista. En este caso, las imágenes usadas para la predicción inter/predicción inter-vista se pueden designar por medio de un conjunto de imágenes coubicadas o una lista de imágenes coubicadas.

En la presente, se describe que un aparato de codificación codifica una vista independiente o la vista dependiente, pero esto es así para facilitar la descripción y, para cada vista, se configura un aparato de codificación independiente o, para cada vista, se puede configurar un módulo interno independiente (por ejemplo, una unidad de predicción para cada vista).

La FIG. 3 es un diagrama que describe esquemáticamente una configuración de un aparato de descodificación de vídeo. En referencia a la FIG. 3, el aparato 300 de descodificación de vídeo incluye una unidad 310 de descodificación entrópica, una unidad 320 de reordenación, una unidad 330 de descuantificación, una unidad 340 de transformada inversa, una unidad 350 de predicción, una unidad 360 de suma, una unidad 370 de filtro y una memoria 380.

Cuando se introduce un flujo continuo de bits que incluye información de vídeo, el aparato 300 de descodificación de vídeo puede reconstruir un vídeo de manera que se corresponda con un proceso en el cual la información de vídeo es procesada por el aparato de codificación de vídeo.

Por ejemplo, el aparato 300 de descodificación de vídeo puede llevar a cabo la descodificación de vídeo usando la unidad de procesado aplicada en el aparato de codificación de vídeo. En este caso, el bloque de unidad de procesado de la descodificación de vídeo puede ser el bloque de unidad de codificación, el bloque de unidad de predicción, o el bloque de unidad de transformada. El bloque de unidad de codificación como bloque de unidad correspondiente a la descodificación se puede dividir a partir del bloque de unidad de codificación máximo de acuerdo con la estructura de árbol cuaternario. El bloque de unidad de predicción como bloque segmentado a partir del bloque de unidad de codificación puede ser el bloque de unidad de la predicción de muestras. En este caso, el bloque de unidad de predicción se puede dividir en subbloques. El bloque de unidad de transformada como bloque de unidad de codificación se puede dividir de acuerdo con la estructura de árbol cuaternario, y puede ser un bloque de unidad para obtener un coeficiente de transformada o un bloque de unidad para obtener una señal residual a partir del coeficiente de transformada.

El módulo 310 de descodificación entrópica puede analizar sintácticamente un flujo continuo de bits y dar salida a información requerida para recuperar un vídeo o imagen. Por ejemplo, el módulo 310 de descodificación entrópica puede descodificar información en el flujo continuo de bits sobre la base de un Golomb exponencial, una CAVLC, una CABAC, etcétera, y dar salida a un valor de un elemento de sintaxis para la recuperación del vídeo, un valor cuantificado de un coeficiente de transformada para un residuo.

Cuando se procesa una pluralidad de vistas con el fin de reproducir el vídeo 3D, puede introducirse el flujo continuo de bits para cada vista. Alternativamente, en el flujo continuo de bits puede multiplexarse información sobre las vistas respectivas. En este caso, la unidad 310 de descodificación entrópica demultiplexa el flujo continuo de bits para analizar sintácticamente el flujo continuo de bits de multiplexado para cada vista.

La unidad 320 de reordenación puede reordenar los coeficientes de transformada cuantificados en forma de bloque 2D. La unidad 320 de reordenación puede llevar a cabo una reordenación de manera que se corresponda con una exploración de coeficientes llevada a cabo por el aparato de codificación.

La unidad 330 de descuantificación descuantifica los coeficientes de transformada cuantificados sobre la base de parámetros (des)cuantificados con el fin de dar salida a los coeficientes de transformada. Desde el aparato de codificación se puede señalizar información para obtener los parámetros cuantificados.

La unidad 340 de transformada inversa transforma inversamente los coeficientes de transformada para obtener las muestras residuales.

La unidad 350 de predicción puede llevar a cabo una predicción para el bloque en curso y generar el bloque de predicción incluyendo muestras de predicción para el bloque en curso. Una unidad de la predicción llevada a cabo por la unidad 350 de predicción puede ser el bloque de codificación, el bloque de transformación, o el bloque de predicción. La unidad 350 de predicción puede decidir si, al bloque en curso, se le aplica la predicción intra o si, al bloque en curso, se le aplica la predicción inter. En este caso, la unidad para decidir si se aplica la predicción intra o la predicción inter y la unidad para generar la muestra de predicción pueden ser diferentes entre sí. Por otra parte, las unidades para generar la muestra de predicción en la predicción inter y la predicción intra también pueden ser diferentes entre sí. En el caso de la predicción intra, la unidad 350 de predicción puede obtener la muestra de predicción para el bloque en curso basándose en el píxel del bloque vecino en la imagen en curso. La unidad 350 de predicción puede obtener la muestra de predicción para el bloque en curso aplicando el modo direccional o el modo no direccional sobre la base de bloques de referencia vecinos del bloque en curso. En este caso, el modo de predicción a aplicar al bloque en curso se puede decidir usando un modo de predicción intra del bloque vecino.

En el caso de la predicción inter, la unidad 350 de predicción puede obtener la muestra de predicción para el bloque en curso basándose en las muestras especificadas por el vector de movimiento sobre la imagen coubicada. La unidad 10 de predicción aplica uno cualquiera de entre el modo de omisión, el modo de fusión y el modo de MVP para obtener la muestra de predicción para el bloque en curso.

En los casos del modo de omisión y el modo de fusión, la unidad 350 de predicción puede usar la información de movimiento del bloque vecino como información de movimiento del bloque en curso. En este caso, el bloque vecino puede incluir un bloque vecino espacial y un bloque vecino temporal.

La unidad 350 de predicción puede configurar la lista de candidatos a la fusión como información de movimiento de un bloque vecino disponible y, como vector de movimiento del bloque en curso, puede usarse información indicada por un índice de fusión en la lista de candidatos a la fusión. El índice de fusión se puede señalizar desde el aparato de codificación. La información de movimiento incluye el vector de movimiento y la imagen coubicada. En el modo de omisión y el modo de fusión, cuando se usa la información de movimiento del bloque vecino temporal, como imagen coubicada puede usarse la imagen que está más alta en la lista de imágenes coubicadas.

En el caso del modo de omisión, a diferencia del modo de fusión no se transmite la diferencia (residuos) entre la muestra de predicción y la muestra original.

En el caso del modo MVP, el vector de movimiento del bloque vecino se usa como predictor de vector de movimiento (MVP) para obtener el vector de movimiento del bloque en curso. En este caso, el bloque vecino puede incluir el bloque vecino espacial y el bloque vecino temporal.

En el caso de la codificación de la vista dependiente, la unidad 350 de predicción puede llevar a cabo la predicción inter vista. En este caso, la unidad 350 de predicción puede configurar la lista de imágenes coubicadas incluyendo la imagen de otra vista.

Para la predicción inter-vista, la unidad 350 de predicción puede obtener el vector de disparidad. La unidad 350 de predicción puede especificar el bloque de profundidad en la vista de profundidad basándose en el vector de disparidad y puede llevar a cabo la configuración de la lista de fusión, la predicción de movimiento inter-vista, la compensación de iluminación (IC), la síntesis de vistas, y similares.

El vector de disparidad para el bloque en curso se puede obtener a partir del valor de profundidad usando el parámetro de cámara o se puede obtener a partir del vector de movimiento o el vector de disparidad del bloque vecino en la vista en curso u otra vista. El parámetro de cámara se puede señalizar desde el aparato de codificación.

Cuando el modo de fusión se aplica al bloque en curso de la vista dependiente, la unidad 350 de predicción puede añadir a la lista de candidatos a la fusión el IvDC correspondiente a la información de movimiento temporal de la vista de referencia, el IvDC correspondiente al vector de disparidad, el IvMC de desplazamiento obtenido mediante el desplazamiento del vector de disparidad, el candidato a fusión de textura (T), obtenido a partir de la textura correspondiente al caso en el que el bloque en curso es el bloque del mapa de profundidad, el candidato a fusión obtenido por disparidad (D) que se obtiene a partir del candidato a fusión de textura usando la disparidad, el candidato a fusión por predicción de síntesis de vistas (VSP) obtenido sobre la base de la síntesis de vistas, y similares.

En este caso, el número de candidatos incluidos en la lista de candidatos a la fusión aplicada a la vista dependiente se puede limitar a un valor predeterminado.

Además, la unidad 350 de predicción puede predecir el vector de movimiento del bloque en curso sobre la base del vector de disparidad aplicando la predicción por vectores de movimiento inter-vista. En este caso, la unidad 350 de predicción puede usar el bloque de la vista de referencia especificada por el vector de disparidad como bloque de referencia. La unidad 350 de predicción puede usar el vector de movimiento del bloque de referencia como parámetro de movimiento candidato o candidato a predictor de movimiento del bloque en curso y usar el vector de disparidad vector de disparidad candidato para la DCP.

La unidad 360 de suma suma la muestra residual y la muestra de predicción para reconstruir el bloque en curso o la imagen en curso. La unidad 360 de suma suma la muestra residual y la muestra de predicción por la unidad del bloque para reconstruir la imagen en curso. Cuando se aplica el modo de omisión, puesto que no se transmite el residuo, la muestra de predicción puede convertirse en muestra de reconstrucción. En la presente, la unidad 360 de suma se describe como un componente independiente, pero la unidad 360 de suma puede formar parte de la unidad 350 de predicción.

La unidad 370 de filtro puede aplicar el filtrado antibloques y/o una compensación (offset) a la imagen reconstruida. En este caso, la compensación se puede aplicar adaptativamente como compensación de la unidad de muestra.

La memoria 380 puede almacenar la imagen reconstruida o información requerida para la descodificación. Por ejemplo, la memoria 380 puede almacenar imágenes usadas para la predicción inter/predicción inter-vista. En este caso, las imágenes usadas para la predicción inter/predicción inter-vista se pueden designar mediante el conjunto de imágenes coubicadas o la lista de imágenes coubicadas. La imagen reconstruida se puede usar como imagen coubicada.

Además, la memoria 380 puede dar salida a las imágenes reconstruidas de acuerdo con un orden de salida. Para reproducir la imagen 3D, aunque no se ilustra, una unidad de salida puede visualizar una pluralidad de diferentes vistas. En el ejemplo de la FIG. 3, se describe que un aparato de descodificación descodifica la vista independiente y la vista dependiente, pero esto es así para facilitar la descripción, y la presente invención no se limita a ello. Por ejemplo, cada aparato de descodificación puede funcionar para cada vista y un aparato de descodificación puede incluir una unidad operativa (por ejemplo, una unidad de predicción) correspondiente a cada vista en el mismo.

Cuando se codifica un vídeo multi-vista, los dispositivos de codificación y descodificación pueden mejorar la eficiencia de la codificación de vídeo para una vista en curso, usando datos codificados para una vista diferente perteneciente a la misma unidad de acceso (AU) que una imagen en curso. En relación con esto, las imágenes que tienen el mismo POC (Contaje de Orden de Imágenes) pueden definir una única AU. POC hace referencia al orden de visualización de una cierta imagen.

Los dispositivos de codificación y descodificación pueden codificar vistas sobre la base de cada unidad de AU, y/o pueden codificar imágenes sobre la base de cada unidad de vista. La codificación puede avanzar para las vistas sobre la base de un orden predeterminado. A una vista que se va a codificar en primer lugar se le puede hacer referencia como vista base o vista independiente. A una vista que se va a codificar en referencia a una vista diferente después de codificar la vista independiente se le puede hacer referencia como vista dependiente. Además, cuando una vista en curso es una vista dependiente, a una vista diferente que se va a referenciar para la codificación (codificación/descodificación) de la vista en curso se le puede hacer referencia como vista de referencia.

La FIG. 4 ilustra esquemáticamente un método de codificación inter-vista. En un ejemplo de la FIG. 4, se lleva a cabo una codificación sobre la base de cada unidad de AU, y V0 es una vista independiente, y V1 es una vista dependiente. La predicción de imágenes inter se puede llevar a cabo, por ejemplo, para un bloque A en una imagen 410 en curso en referencia a otra imagen 430 de la misma vista que la imagen 410 en curso usando un vector de movimiento. A dicha predicción de imágenes inter se le puede hacer referencia como predicción compensada en movimiento (MCP). En una alternativa, la predicción de imágenes inter se puede llevar a cabo, por ejemplo, para un bloque B de la imagen 410 en curso en referencia a una imagen 420 de una vista diferente con respecto a la imagen 410 en curso aunque existente en la misma unidad de acceso, es decir, que tiene el mismo POC que la imagen 410 en curso usando un vector de disparidad. A dicha predicción de imágenes inter se le puede hacer referencia como predicción compensada en disparidad (DCP).

Cuando se codifica un vídeo multi-vista, la predicción de imágenes inter puede utilizar un mapa de profundidad además de la imagen de la vista diferente con respecto a la vista en curso que contiene el bloque en curso.

En referencia a la FIG. 5, un bloque (bloque 505 en curso) en una imagen 500 en curso de una vista en curso se puede codificar (codificar/descodificar) usando un mapa 510 de profundidad. En relación con esto, un valor de profundidad d para una posición (x, y) de una muestra 520 en el mapa 510 de profundidad correspondiente a una posición (x, y) de una muestra 515 en el bloque 505 en curso se puede transformar en un vector 525 de disparidad. El valor de profundidad d se puede obtener basándose en la distancia entre el píxel de muestra y una cámara.

Los dispositivos de codificación y descodificación pueden sumar un vector 525 de disparidad a la posición (x, y) de la muestra 530, para determinar, así, una posición de una muestra 535 de referencia en una imagen 540 en curso de una vista de referencia. El vector de disparidad puede tener solamente una componente axial x. Por lo tanto, el valor del vector de disparidad puede ser un valor (disp, 0). De este modo, la posición (xr, y) de la muestra 540 de referencia se puede determinar de manera que sea una posición (x+disp, y).

Los dispositivos de codificación y descodificación pueden utilizar un parámetro de movimiento para el bloque 545 de referencia incluyendo un píxel 535 de referencia como parámetro de movimiento candidato para el bloque en curso. Por ejemplo, cuando una imagen 550 de referencia en la vista de referencia es una imagen de referencia para el bloque 545 de referencia, el vector 555 de movimiento para el bloque 545 de referencia se puede obtener a partir de un vector 560 de movimiento para el bloque 505 en curso. En relación con esto, la imagen 565 puede ser una imagen de referencia en la vista en curso.

Al mismo tiempo, según se ha descrito anteriormente, en la descodificación de un vídeo multi-vista, puede referenciarse información sobre una vista diferente usando un vector de disparidad.

En la codificación (codificación/descodificación) de una imagen de una vista dependiente, cuando hay un bloque codificado por DCP entre bloques vecinos ya codificados, un vector de disparidad del bloque codificado por DCP se puede usar como vector de disparidad a aplicar a un bloque en curso. Aquí, el vector de disparidad obtenido a partir del bloque vecino, es decir, el vector de disparidad del bloque codificado por DCP, se puede usar como vector de disparidad para aplicar una predicción por movimiento inter-vista (IVMP) y una predicción residual inter-vista (IVRP) al bloque en curso.

En primer lugar, se describirá un caso en el que un vector de movimiento del bloque en curso se determina por IVMP. Cuando un candidato obtenido a partir de un vector de movimiento de un bloque correspondiente en una imagen de referencia inter-vista se selecciona como vector de movimiento aplicado al bloque en curso en un modo de predicción por vector de movimiento (MVP), un modo de predicción por vectores de movimiento avanzado (AMVP), un modo de fusión, o un modo de omisión, el bloque en curso se codifica por MCP.

A un bloque con un vector de movimiento predicho por IVMP entre los bloques codificados por MCP se le hace referencia como bloque de DV-MCP.

La FIG. 6 ilustra esquemáticamente un bloque de DV-MCP. La FIG. 6 ilustra la predicción inter de un bloque 620 en curso en una imagen 610 en curso de una vista en curso.

En referencia a la FIG. 6, un vector de movimiento MV1 de un bloque vecino 630 usado para la predicción inter del bloque 620 en curso se obtiene a partir de un bloque correspondiente 650 de una imagen 640 de referencia en una vista base. aquí, el bloque correspondiente se especifica mediante un vector de disparidad DV 660. El vector de movimiento MV1 del bloque vecino 630, usado como bloque candidato para la predicción inter del bloque 620 en curso, se puede configurar con un vector de movimiento MV2 del bloque correspondiente 650 ó se puede obtener a partir de MV2.

Aquí, la imagen 640 de referencia de la vista base y la imagen 610 en curso pueden tener el mismo POC. Al bloque vecino 630, al cual se aplica el vector de movimiento MV1 predicho a partir del vector de movimiento MV2 del bloque correspondiente 650 de una vista diferente, se le puede hacer referencia como bloque de DV-MCP.

Los dispositivos de codificación y descodificación pueden almacenar información sobre el vector de disparidad usado para la predicción del vector de movimiento del bloque de DV-MCP con el fin de utilizar la información para un proceso de obtención de un vector de disparidad de un bloque vecino.

La FIG. 7 ilustra esquemáticamente un ejemplo de bloques vecinos de un bloque en curso. Los bloques vecinos de la FIG. 7 son bloques que ya han sido descodificados y son accesibles en el momento en el que se descodifica el bloque en curso.

Los bloques vecinos del bloque 710 en curso incluyen vecinos espaciales A0, A1, B0, B1 y B2 y bloques vecinos temporales cou-centro (cou-CTR) y cou-inferior derecho (cou-RB). Las posiciones de los bloques vecinos espaciales se especifican basándose en una posición del bloque 710 en curso.

Las posiciones de los bloques vecinos temporales se especifican basándose en una posición 720 correspondiente al bloque en curso en una imagen coubicada como imagen de referencia. Entre los bloques temporales, un bloque de codificación que incluye un píxel situado en el centro de un bloque 720 en curso en una imagen coubicada designada en el momento en el que se descodifica una imagen en curso o una franja (slice) en curso es cou-CTR. Además, cuando un píxel inferior derecho del bloque 720 en curso en la imagen coubicada está situado (x, y), el bloque de codificación que incluye un píxel en un (x+1, y 1) es cou-RB. En esta memoria descriptiva, por comodidad, cou-CTR se representa también con CTR, y cou-RB con RB en lo sucesivo.

La imagen coubicada puede ser una seleccionada para obtención del vector de disparidad temporal entre imágenes de referencia temporales incluidas en una lista de imágenes de referencia para una imagen en curso o franja en curso. La imagen coubicada se puede indicar a un descodificador a través de un encabezamiento de franja. Por ejemplo, en un encabezamiento de franja se puede señalizar información que indique qué imagen se usa como imagen coubicada. Al mismo tiempo, en la reconstrucción del bloque en curso usando la predicción inter-vista, cuando se aplica el modo de fusión al bloque en curso, puede obtenerse una muestra de predicción por bloque de predicción (PU) o subbloque de predicción (sub-PU).

Por ejemplo, cuando un bloque de predicción en curso está en una textura y la franja en curso incluye al menos un bloque de referencia inter-vista, unidades de predicción de los dispositivos de codificación y descodificación pueden especificar un bloque correspondiente al bloque en curso sobre la base de un vector de disparidad y obtener una muestra de predicción en un nivel de PU ó nivel de sub-PU usando el bloque correspondiente.

Cuando, en la descodificación del vídeo multi-vista, se aplica al bloque en curso una predicción que usa el modo de fusión, las unidades de predicción de los dispositivos de codificación y descodificación pueden construir una lista de candidatos a la fusión en el mismo método que para la vista base y añadir, a la lista de candidatos a la fusión, un candidato a la fusión inter-vista (IvMC) usando un vector de movimiento de un bloque correspondiente en una vista de referencia, un candidato a vector de disparidad inter-vista (IvDC) usando un vector de disparidad de un bloque correspondiente en una vista de referencia, un IvMC desplazado y un IvDC desplazado adquiridos, respectivamente, desplazando el IvMC y el IvDC, y un candidato a la fusión de predicción de síntesis de vistas (VSP) obtenido sobre la base de la profundidad.

A continuación, se describirán esquemáticamente en la presente los candidatos a la fusión de la lista de candidatos a la fusión.

En primer lugar, se obtienen vectores de movimiento disponibles a partir de bloques vecinos espaciales de la misma manera que para una lista de candidatos a la fusión usada para la vista base. Aquí, los bloques vecinos espaciales del bloque en curso son bloques vecinos del bloque 710 en curso de la FIG. 7, A0, A1, B0, B1, y B2.

Además, como candidato a la fusión para el bloque en curso se puede usar información sobre un bloque correspondiente en una vista de referencia diferente con respecto a la vista en curso. El bloque correspondiente se puede especificar mediante un vector de disparidad. El vector de disparidad se puede obtener a partir de un vector de disparidad o vector de movimiento de un bloque vecino con DCP ó MCP aplicada o puede ser un valor generado modificando el vector de movimiento obtenido con el uso de un mapa de profundidad. Por comodidad, a un vector de disparidad obtenido a partir de un bloque vecino se le hace referencia como vector de disparidad de bloque vecino (NBDV), y a un vector de disparidad obtenido a partir de un NBDV usando un valor de profundidad se le hace referencia como NBDV orientado a profundidad (DoNBDV).

Las unidades de predicción de los dispositivos de codificación y descodificación pueden usar, como candidato a la fusión inter-vista (IvMC), un vector de movimiento usado para compensación de movimiento temporal de un bloque de referencia en una vista de referencia especificada por un vector de disparidad. Es decir, como candidato a vector de movimiento del bloque en curso se puede usar un vector de movimiento de un bloque con MCP aplicada en la vista de referencia. Aquí, el vector de disparidad usado para especificar el bloque de referencia puede ser un NBDV ó DoNBDV obtenido sobre la base de un bloque vecino del bloque en curso o puede ser un valor obtenido sobre la base de un mapa de profundidad. Al mismo tiempo, para obtener un IvMC se puede usar un método de obtención en un nivel de PU a un nivel de sub-PU.

Las unidades de predicción de los dispositivos de codificación y descodificación pueden usar un vector de disparidad de un bloque correspondiente en la vista de referencia como candidato a vector de disparidad inter-vista (IvDC).

Las unidades de predicción de los dispositivos de codificación y descodificación pueden desplazar el vector de disparidad en un valor específico para obtener un vector de movimiento del bloque correspondiente especificado por el vector de disparidad desplazado como IvMC desplazado (IvMCShift). Las unidades de predicción pueden desplazar el vector de disparidad usando la altura y la anchura del bloque de predicción en curso. Por ejemplo, cuando la altura del bloque en curso es nPbH y la anchura del bloque en curso nPbW, las unidades de predicción pueden desplazar el vector de disparidad en nPbW*2+2 en una dirección del eje x y en nPbH*2+2 en una dirección del eje y para obtener un IvMCShift. Cuando el IvMC y el IvMCShift no son iguales, las unidades de predicción pueden añadir el IvMCShift como candidato a la fusión para el bloque en curso.

Las unidades de predicción de los dispositivos de codificación y descodificación pueden desplazar el vector de disparidad en un valor específico para añadir el IvDC desplazado (IvDCShift) como candidato a la fusión para el bloque en curso. Por ejemplo, las unidades de predicción pueden usar un vector de disparidad, generado desplazando el IvDC en una distancia predeterminada (por ejemplo, 4) solamente en el eje x, como IvDCShift. Además, las unidades de predicción pueden obtener el IvDCShift teniendo en cuenta que se aplica la VSP. Por ejemplo, cuando está disponible la VSP, las unidades de predicción pueden fijar un componente y del IvDCShift a 0.

Al mismo tiempo, cuando se añade un vector de movimiento a la lista de candidatos a la fusión sobre la base de una predicción inter-vista, las unidades de predicción de los dispositivos de codificación y descodificación pueden obtener un candidato basado en información sobre un mapa de profundidad.

Por ejemplo, las unidades de predicción pueden aplicar la herencia de parámetros de movimiento (MPI) la cual utiliza información de movimiento de una señal de vídeo sobre la base de la similitud entre la señal de vídeo y una señal de profundidad. En este caso, de una textura se pueden heredar diferentes vectores de movimiento por sub-PUs segmentados de una PU de profundidad. Cuando el bloque en curso es un bloque del mapa de profundidad y se aplica la MPI, las unidades de predicción pueden añadir, como candidatos a la fusión, un candidato a la fusión T usando un vector de movimiento heredado de la textura y un candidato a la profundidad D obtenido sobre la base de T. Cuando se usa D, las muestras de predicción se pueden fijar como valores de profundidad obtenidos a partir de vectores de disparidad correspondientes.

Finalmente, las unidades de predicción de los dispositivos de codificación y descodificación pueden añadir un vector de disparidad por VSP como VSP candidata a la fusión. Las unidades de predicción pueden añadir un vector de disparidad de un bloque vecino como candidato a la fusión para el bloque en curso, y obtener información de profundidad sobre el bloque en curso basándose en un valor de profundidad de un bloque correspondiente especificado en el mapa de profundidad usando este vector de disparidad.

Las unidades de predicción de los dispositivos de codificación y descodificación pueden construir una lista de candidatos a la fusión usando los candidatos a la fusión antes mencionados de la manera siguiente. Los candidatos a la fusión se pueden disponer en la lista de candidatos a la fusión de acuerdo con el siguiente orden.

(1) Las unidades de predicción añaden T y D a la lista de candidatos a la fusión como candidatos MPI. Específicamente, las unidades de predicción determinan si está disponible T, y añaden T en caso de que esté disponible. Las unidades de predicción determinan si está disponible D, y añaden D en caso de que esté disponible.

(2) Las unidades de predicción insertan IvMC junto a D en la lista de candidatos a la fusión cuando está disponible IvMC, es decir, cuando T no está disponible ó T e IvMC son diferentes.

(3) Las unidades de predicción añaden A1 a la lista de candidatos a la fusión si A1 está disponible. Para evitar la duplicación de candidatos a la fusión, las unidades de predicción pueden comparar un candidato a la fusión ya añadido y A1 en términos de equivalencia. El candidato a la fusión ya añadido N puede ser T, si se usa la profundidad, y puede ser IvMC, si no se usa profundidad. Las unidades de predicción pueden excluir A1 de los candidatos a la fusión cuando A1 y N son iguales.

(4) Las unidades de predicción añaden B1 a la lista de candidatos a la fusión si B1 está disponible. Para evitar la duplicación de candidatos a la fusión, las unidades de predicción pueden excluir B1 de los candidatos a la fusión cuando B1 es igual a un candidato ya añadido.

(5) Las unidades de predicción pueden añadir B0 a la lista de candidatos a la fusión si B0 está disponible.

(6) Las unidades de predicción pueden añadir IvDC a la lista de candidatos a la fusión si IvDC está disponible. Aquí, para mejorar la eficiencia de la codificación y evitar redundancia, las unidades de predicción pueden añadir IvMC a la lista de candidatos a la fusión (i) cuando A1 no está disponible ó A1 e IvDC son diferentes, (ii) cuando B1 no está disponible ó B1 e IvDC son diferentes, y (iii) el número de candidatos a la fusión añadido hasta el momento no supera un número máximo de candidatos en la lista de candidatos a la fusión.

(7) Las unidades de predicción pueden añadir el vector de disparidad obtenido por VSP (en lo sucesivo en la presente, “VSP”) a la lista de candidatos a la fusión cuando VSP está disponible y el número de candidatos a la fusión añadido hasta el momento no supera el número máximo de candidatos en la lista de candidatos a la fusión. En este caso, para mejorar la eficiencia de la codificación, las unidades de predicción pueden añadir VSP a la lista de candidatos a la fusión con la condición de que no se usen métodos de codificación adicionales, por ejemplo, compensación de iluminación (IC). De este modo, cuando se usa un método de codificación adicional que incluye la TC, el VSP se puede excluir de los candidatos a la fusión, lo cual se describirá posteriormente.

(8) Las unidades de predicción pueden añadir A0 a la lista de candidatos a la fusión cuando A0 está disponible y el número de candidatos a la fusión añadido hasta el momento no supera el número máximo de candidatos en la lista de candidatos a la fusión.

(9) Las unidades de predicción pueden añadir B2 a la lista de candidatos a la fusión cuando B2 está disponible y el número de candidatos a la fusión añadidos hasta el momento no supera el número máximo de candidatos en la lista de candidatos a la fusión.

(10) Las unidades de predicción pueden añadir IvMCShift a la lista de candidatos a la fusión (a) cuando IvMCShift está disponible y el número de candidatos a la fusión añadido hasta el momento no supera el número máximo de candidatos de la lista de candidatos a la fusión y (b) cuando IvMC no está disponible ó IvMC e IvMCShift no son iguales.

(11) Las unidades de predicción pueden añadir IvDCShift a la lista de candidatos a la fusión cuando IvDCShift está disponible y el número de candidatos a la fusión añadido hasta el momento no supera el número máximo de candidatos de la lista de candidatos a la fusión.

Tal como se ha descrito anteriormente, cuando una muestra para predecir a través del modo de fusión se refiere a la profundidad, se pueden usar candidatos T y D por MPI. Si no, no se pueden usar T y D.

La FIG. 8 ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión cuando no se usan T y D. Además, la FIG. 8 ilustra un ejemplo de construcción de una lista de candidatos a la fusión que excluye un candidato temporal y un candidato combinado.

Aquí, en referencia a la FIG. 8, cuando se aplica el modo de fusión o el modo de omisión a una PU en curso para la reconstrucción, puede construirse una lista de candidatos a la fusión de acuerdo con el siguiente orden. Por comodidad en la descripción, se ilustra que las unidades de predicción de los dispositivos de codificación y descodificación construyen una lista de candidatos a la fusión.

(i) Las unidades de predicción pueden especificar un bloque correspondiente en una imagen de referencia usando un DoNBDV para una Pu con vistas a la reconstrucción (en lo sucesivo en la presente, “PU en curso”). Las unidades de predicción pueden generar información de movimiento a partir del bloque correspondiente. Por ejemplo, las unidades de predicción pueden obtener información de movimiento sobre el bloque correspondiente, como candidato a la fusión para la PU en curso, basándose en una muestra superior central o izquierda del bloque correspondiente.

(ii) Las unidades de predicción pueden generar información de movimiento a partir de una posición izquierda de la PU en curso. Por ejemplo, las unidades de predicción pueden obtener información de movimiento sobre un bloque izquierdo L mostrado en la FIG. 8 como candidato a la fusión para la PU en curso.

(iii) Las unidades de predicción pueden generar información de movimiento a partir de una posición superior de la PU en curso. Por ejemplo las unidades de predicción pueden obtener información de movimiento sobre un bloque superior A mostrado en la FIG. 8 como candidato a la fusión para la PU en curso.

(iv) Las unidades de predicción generan información de movimiento a partir de una posición superior derecha de la PU en curso. Por ejemplo, las unidades de predicción pueden obtener información de movimiento sobre un bloque superior derecho AR mostrado en la FIG. 8 como candidato a la fusión para la PU en curso.

(v) Las unidades de predicción pueden añadir un vector de disparidad obtenido sobre la base de un bloque vecino de la PU en curso como candidato a la fusión. Por ejemplo, las unidades de predicción pueden añadir el DoNBDV para la PU en curso, es decir, un vector de disparidad obtenido sobre la base de un bloque vecino de la PU en curso y un mapa de profundidad, a la lista de candidatos a la fusión como candidato a la fusión (información de movimiento) para la Pu en curso.

(vi) Las unidades de predicción pueden añadir un VSP para la PU en curso como candidato a la fusión. Por ejemplo, las unidades de predicción pueden añadir un vector de disparidad obtenido aplicando VSP a la PU en curso (por ejemplo, NBDV) a la lista de candidatos a la fusión como candidato a la fusión (información de movimiento) para la PU en curso. (vii) Las unidades de predicción pueden generar información de movimiento a partir de una posición inferior izquierda de la PU en curso. Por ejemplo, las unidades de predicción pueden obtener información de movimiento sobre un bloque inferior izquierdo BL mostrado en la FIG. 8 como candidato a la fusión para la PU en curso.

(viii) Las unidades de predicción generan información de movimiento a partir de una posición superior izquierda de la PU en curso. Por ejemplo, las unidades de predicción pueden obtener información de movimiento sobre un bloque superior izquierdo LA mostrado en la FIG. 8 como candidato a la fusión para la PU en curso.

(ix) Las unidades de predicción pueden especificar un bloque correspondiente a la PU en curso en la imagen de referencia usando un vector de disparidad y obtener información de movimiento a partir de una posición inferior derecha del bloque especificado. Es decir, las unidades de predicción pueden desplazar un vector de movimiento inter-vista obtenido usando el vector de disparidad y añadir el vector desplazado como candidato a la fusión. Las unidades de predicción pueden usar información de movimiento obtenida a partir de un bloque inferior derecho BR del bloque correspondiente mostrado en la FIG. 8 como candidato a la fusión.

(x) Las unidades de predicción pueden usar información de movimiento generada modificando el vector de disparidad obtenido a partir del bloque vecino de la PU en curso como candidato a la fusión. Por ejemplo, las unidades de predicción pueden desplazar el vector de disparidad de la PU en curso en un valor predeterminado para usar el vector de disparidad desplazado como candidato a la fusión.

Al mismo tiempo, la información de movimiento desplazada y la información de disparidad desplazada obtenidas, respectivamente, en (ix) y (x), pueden corresponderse con el IvMCShift y el IvDCShift descritos anteriormente en los puntos (10) y (11).

Además, al ejemplo de la FIG. 8 también se puede aplicar una determinación de equivalencia entre candidatos a la fusión aplicados anteriormente en los puntos (1) a (11). De este modo, se determina la equivalencia entre elementos de información de movimiento añadidos a la lista de candidatos a la fusión en los puntos (i) y (x) y candidatos a la fusión añadidos previamente, y los candidatos a la fusión equivalentes a aquellos añadidos previamente se pueden excluir de los candidatos a la fusión.

En la lista de candidatos a la fusión se pueden incluir, con las mismas condiciones que las descritas anteriormente en los puntos (1) a (11), candidatos a la fusión basados en una predicción inter-vista, por ejemplo, un candidato obtenido usando la profundidad, un candidato de un vector de disparidad, y candidatos obtenidos usando un vector de disparidad. Cuando se aplica el modo de omisión, el bloque en curso puede ser una CU en curso, en lugar de la PU en curso. Tal como se ha descrito anteriormente, cuando no se usan T y M (cuando una PU para la reconstrucción no es una PU de una vista de profundidad), las unidades de predicción pueden construir una lista de candidatos a la fusión usando información de movimiento usada para bloques reconstruidos que son vecinos de la PU en curso e información de movimiento nueva (información de movimiento obtenida sobre la base de información de movimiento sobre un bloque vecino).

La información de movimiento de los puntos (i) a (x) puede incluir vectores de movimiento, e información de movimiento obtenida a partir de un bloque de DCP puede incluir un vector de disparidad o utilizar un vector de disparidad como candidato a la fusión igualmente con un vector de movimiento. De manera similar, cuando se aplica la MCP a un bloque reconstruido que es vecino de la PU en curso (en un caso de un bloque de MCP), como candidato a la fusión en la lista de candidatos a la fusión se puede incluir información de MCP (por ejemplo, un vector de movimiento, un índice de imagen de referencia, etcétera).

Es decir, las unidades de predicción pueden obtener información de MCP, DCP y VSP a partir de bloques vecinos reconstruidos de la PU en curso para construir una lista de candidatos a la fusión.

En particular, para almacenar información de movimiento sobre una VSP, puede usarse una lista de banderas de VSP como información adicional para la lista de candidatos a la fusión. Cuando un bloque vecino reconstruido es un bloque con VSP aplicada, en la lista de banderas de VSP puede memorizarse como 1 un valor de bandera de VSP para el bloque. Cuando un bloque vecino reconstruido es un bloque con DCP ó MCP aplicada, en la lista de banderas de VSP puede memorizarse como 0 un valor de bandera de VSP para el bloque.

Es decir, esto significa que puede haber una pluralidad de candidatos de VSP, DCP y MCP en la lista de candidatos a la fusión, en los cuales, (v) y (x) entre los puntos (i) a (x) son candidatos a la fusión obtenidos por DCP.

Al mismo tiempo, a la predicción inter-vista se le puede aplicar una compensación de iluminación (IC) que calibra una diferencia de iluminación entre vistas. Por ejemplo, puesto que, en la codificación de una codificación inter-vista, se referencian mutuamente imágenes tomadas por cámaras diferentes desde puntos de vista diferentes al mismo tiempo, puede producirse una diferencia de iluminación dependiendo de las condiciones de las cámaras y de los entornos fotográficos.

De este modo, una diferencia de iluminación se puede compensar en un proceso de obtención de una muestra de predicción referenciando una vista diferente. La IC se puede aplicar en una forma de compensación lineal, en la que un valor de muestra se puede modificar usando un factor de ponderación y una compensación obtenidos sobre la base de un valor predeterminado o señalizado.

No obstante, cuando existe una diferencia insignificante en la distribución de píxeles entre una imagen en curso y una imagen de referencia, o las diferencias en las condiciones fotográficas entre vistas o imágenes no tienen una importancia significativa, la IC puede no aplicarse para evitar un aumento de la complejidad y un deterioro de la eficiencia de codificación que pueden surgir como consecuencia.

De este modo, es necesario examinar cómo ajustar el candidato a la fusión en función de si se aplica la IC.

En primer lugar, cuando no se aplica la IC a la PU para la reconstrucción (bloque en curso), puede añadirse información de movimiento sobre bloques reconstruidos vecinos del bloque en curso tal como se encuentran a la lista de candidatos a la fusión según se ha descrito anteriormente.

Es decir, tal como se ha descrito anteriormente en los puntos (1) a (11) y (i) a (x), pueden añadirse candidatos de MCP, DCP y VSP tal como se encuentren a la lista de candidatos a la fusión.

Cuando se aplica IC a la PU para la reconstrucción (bloque en curso), la información de movimiento obtenida por VSP se excluye de la lista de candidatos a la fusión. Por ejemplo, cuando se aplica IC, un VSP para obtener una muestra de una imagen de textura usando una muestra de una imagen de profundidad tomada en condiciones similares puede excluirse de los candidatos a la fusión. Al mismo tiempo, cuando la información de movimiento obtenida a partir de los bloques reconstruidos vecinos del bloque en curso es DSP ó MCP, la MCP y DCP obtenidas se pueden añadir a la lista de candidatos a la fusión de la misma manera que cuando no se aplica IC.

De este modo, cuando se aplica IC, el candidato a la fusión de VSP se excluye de la lista de candidatos a la fusión. Cuando no se aplica IC, el candidato a la fusión de VSP se puede incluir en la lista de candidatos a la fusión tal como se obtiene sin modificaciones. Teniendo en cuenta esto, se ha descrito en el punto (7) que, cuando se aplica un método de codificación adicional, es decir, IC, una VSP se puede excluir de los candidatos a la fusión.

Además, cuando se construye la lista de candidatos a la fusión, las unidades de predicción de los dispositivos de codificación y descodificación pueden memorizar un valor de bandera de VSP como 0, si se aplica IC, y añadir un vector de disparidad de un bloque vecino obtenido en la aplicación de la VSP a la lista de candidatos a la fusión como candidato de DCP.

La FIG. 9 ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión cuando no se aplica IC.

Tal como se ha descrito anteriormente, cuando no se aplica IC, una VSP se puede usar como candidato a la fusión tal como se obtiene. De este modo, un candidato de VSP se puede incluir en una lista 910 de candidatos a la fusión si cumple otras condiciones referentes a la disponibilidad.

Tal como se ha descrito anteriormente, cuando se aplica IC, como candidato a la fusión no se usa la VSP. De este modo, de una lista 1010 de candidatos a la fusión se excluye el candidato de VSP.

Tal como se ha descrito anteriormente, cuando se aplica IC, la VSP no se usa como candidato a la fusión. Aquí, una unidad de predicción que construye una lista de candidatos a la fusión puede incluir un vector de disparidad obtenido en un proceso de VSP como candidato de DCP, en lugar de un candidato de VSP, en una lista 1110 de candidatos a la fusión.

Aunque las FIGS. 9 a 11 ilustran que las listas de candidatos a la fusión se construyen incluyendo una pluralidad de candidatos de VSP y una pluralidad de candidatos de DCP en orden aleatorio, estos ejemplos se muestran por comodidad en cuanto a la descripción. Alternativamente, las listas de candidatos a la fusión de las FIGS. 9 a 11 se pueden construir de acuerdo con los puntos (1) a (11) y (i) a (x).

Por ello, las unidades de predicción de los dispositivos de codificación y descodificación pueden determinar si añadir un candidato de VSP a una lista de candidatos a la fusión en función de si se aplica la IC. Cuando no puede añadirse una VSP, el candidato de VSP se excluye meramente de la lista de candidatos a la fusión o se considera como candidato de DCP a añadir a la lista de candidatos a la fusión.

El anterior candidato de VSP es similar en cuanto a la predicción interior vista a la DCP convencional. Tal como se ha descrito anteriormente, a diferencia de la DCP, la VSP se lleva a cabo en referencia a un mapa de profundidad. Aquí, el mapa de profundidad para la referencia puede ser un mapa de profundidad ya descodificado (reconstruido).

El mapa de profundidad para la referencia (mapa de profundidad reconstruido) puede ser un mapa de profundidad de una vista vecina que tiene el mismo POC que la imagen en curso o puede ser un mapa de profundidad reconstruido previamente de la vista en curso.

Por comodidad en la descripción, a continuación se ilustra que la VSP se lleva a cabo por unidades de predicción de los dispositivos de codificación y descodificación. Cuando se aplica VSP a la PU para la reconstrucción (bloque en curso), en primer lugar las unidades de predicción especifican un bloque de profundidad correspondiente al bloque en curso. Las unidades de predicción pueden usar un vector de movimiento o vector de disparidad para especificar el bloque de profundidad. Aquí, el vector de disparidad o vector de movimiento usado puede ser un vector de disparidad o vector de movimiento de un bloque vecino.

La FIG. 12 ilustra esquemáticamente un método de especificación de un bloque de profundidad correspondiente con el fin de aplicar la VSP a un bloque en curso.

En referencia a la FIG. 12, un bloque correspondiente 1240 a un bloque 1220 en curso en una imagen 1210 en curso se especifica en un mapa 1230 de profundidad. Aquí, la imagen 1210 en curso es una imagen de textura de una vista en curso. La imagen 1210 en curso y el mapa 1230 de profundidad pueden ser imágenes al mismo tiempo (con el mismo POC). El mapa 1230 de profundidad referenciado por el bloque 1220 en curso es una imagen completamente codificada o reconstruida en el momento en el que se codifica el bloque en curso.

Una unidad de predicción puede generar un bloque de predicción virtual a través de warping usando información sobre el bloque 1240 de profundidad especificado por un vector de movimiento o vector de disparidad en el mapa 1230 de profundidad. Alternativamente, la unidad de predicción puede llevar a cabo una DCP sobre el bloque en curso usando un vector de disparidad convertido a partir de un valor de profundidad del bloque 1240 de profundidad.

Para especificar el bloque 1240 de profundidad, la unidad de predicción puede usar un vector de movimiento, si el mapa 1230 de profundidad es una imagen en la misma vista, y puede usar un vector de disparidad, si el mapa 1230 de profundidad es una imagen de una vista diferente. Aquí, el vector de disparidad se puede obtener a partir de un bloque vecino del bloque en curso.

Tal como se ha descrito anteriormente, para llevar a cabo la predicción usando la VSP, puede aplicarse una predicción inter-vista referenciando el valor de profundidad del bloque de profundidad correspondiente al bloque en curso. En este caso, el bloque en curso (bloque de predicción en curso) se puede segmentar en bloques específicos, y las unidades de predicción de los dispositivos de codificación y descodificación pueden llevar a cabo una predicción inter-vista de la manera siguiente.

1) Las unidades de predicción segmentan el bloque de predicción en curso (PU en curso) en bloques específicos (sub bloques de predicción).

2) Las unidades de predicción pueden llevar a cabo los siguientes procesos 2-A a 2-D por sub-bloques de predicción segmentados.

2-A) Las unidades de predicción pueden especificar un bloque de profundidad correspondiente a cada sub-bloque de predicción. Aquí, las unidades de predicción pueden usar un vector de disparidad que especifique el bloque de profundidad correspondiente al bloque de predicción en curso y una posición que especifique cada sub-bloque de predicción con respecto a la predicción en curso para especificar el bloque de profundidad correspondiente a cada sub bloque de predicción.

2-B) Las unidades de predicción pueden extraer un valor de profundidad representativo del bloque de profundidad correspondiente a sub-bloque de predicción.

2-C) Las unidades de predicción pueden convertir el valor de profundidad representativo en un vector de disparidad. 2-D) Las unidades de predicción pueden llevar a cabo una DCP por sub-bloque de predicción usando el vector de disparidad.

Por ello, las unidades de predicción pueden segmentar el bloque de predicción en bloques específicos (sub-bloques de predicción) para aplicar la DCP.

La FIG. 13 ilustra esquemáticamente un método de realización de DCP por sub-bloque aplicando la VSP.

En referencia a la FIG. 13, las unidades de predicción de los dispositivos de codificación y descodificación pueden segmentar una PU 1310 en curso de una imagen 1300 de textura de una vista en curso, en sub-bloques (sub-bloques de predicción) B0, B1, B2 y B3.

Las unidades de predicción pueden especificar un bloque 1330 de profundidad correspondiente de una imagen 1320 de profundidad a través de un vector de disparidad. Aquí, el vector de disparidad se puede obtener a partir de un bloque vecino (por ejemplo, un bloque de DCP) de la PU en curso.

Las unidades de predicción pueden segmentar y especificar el bloque 1330 de profundidad correspondiente en sub bloques B0', B1', B2', y B3' de profundidad correspondientes a los sub-bloques B0, B1, B2 y B3 de predicción. Las unidades de predicción pueden obtener valores de profundidad (valores de profundidad representativos) de los sub bloques de profundidad. Las unidades de predicción pueden convertir los valores de profundidad de los sub-bloques de profundidad para obtener vectores de disparidad para los sub-bloques de predicción respectivos.

Por ejemplo, para un sub-bloque B1 de predicción, las unidades de predicción pueden especificar un bloque B' de profundidad correspondiente y obtener un vector de disparidad MV 1350 sobre la base de un valor de profundidad de B1'.

Las unidades de predicción pueden llevar a cabo una DCP por sub-bloque de predicción usando los vectores de disparidad obtenidos. Por ejemplo, las unidades de predicción pueden especificar un bloque de referencia B1'' 1360 de una imagen 1340 de referencia usando el vector de disparidad MV 1350 obtenido para el sub-bloque de predicción B1 y usar una muestra de B'' 1360 como muestra de predicción para el sub-bloque de predicción B1.

Tal como se ha descrito anteriormente, la VSP se puede llevar a cabo segmentando una PU en curso en sub-PUs específicas, en la cual una PU en curso se segmenta en sub-PUs mediante el siguiente método ilustrativo.

A) En primer lugar, las unidades de predicción de los dispositivos de codificación y descodificación pueden segmentar una PU para la reconstrucción (PU objetivo ó PU en curso) en unidades de bloque de 8 x 8 píxeles (es decir, sub-PUs de 8 x 8).

B) Las unidades de predicción pueden llevar a cabo los siguientes procesos B-1 a B-4 por unidades de bloque de 8 x 8 píxeles.

B-1) Las unidades de predicción pueden especificar un bloque de profundidad correspondiente a los bloques de 8 x 8 píxeles. Aquí, las unidades de predicción pueden especificar un bloque de profundidad correspondiente a cada uno de los bloques 8 x 8 (sub-PUs) usando un vector de disparidad que especifica un bloque de profundidad correspondiente a la PU en curso y un tamaño de la sub-PUs (8 x 8).

B-2) Las unidades de predicción pueden comparar valores de profundidad en cuatro vértices de los bloques de profundidad correspondientes a los bloques de 8 x 8.

B-3) Las unidades de predicción pueden segmentar, además, los bloques de 8 x 8 en dos sub-bloques de 8 x 4 ó dos sub-bloques de 4 x 8 a través de una comparación de los valores de profundidad de los vértices.

B-4) Las unidades de predicción pueden llevar a cabo los siguientes procesos B-4-1 a B-4-4 sobre los sub-bloques de 8 x 4 ó sub-bloques de 4 x 8 segmentados adicionalmente.

B-4-1) Las unidades de predicción pueden especificar un bloque de un mapa de profundidad (bloque de profundidad) correspondiente a los sub-bloques (sub-bloques de 8 x 4 ó sub-bloques de 4 x 8).

B-4-2) Las unidades de predicción pueden extraer un valor de profundidad (valor de profundidad representativo) del bloque de profundidad correspondiente a los sub-bloques.

B-4-3) Las unidades de predicción pueden convertir el valor de profundidad representativo extraído en un vector de disparidad.

B-4-4) Las unidades de predicción pueden llevar a cabo una DCP por sub-bloques (sub-bloques de 8 x 4 ó sub-bloques de 4 x 8) usando el vector de disparidad generado a partir del valor de profundidad representativo.

Por ello, las unidades de predicción pueden volver a segmentar la PU para la reconstrucción (PU en curso) en los sub bloques (sub-bloques de 8 x 4 ó sub-bloques de 4 x 8) a partir de una unidad básica de bloques de 8 x 8 y llevar a cabo la DCP por sub-bloques.

La FIG. 4 ilustra esquemáticamente otro método de realización de la DCP por sub-bloque aplicando una VSP. La FIG.

14 ilustra esquemáticamente un ejemplo de VSP descrito anteriormente en A) a B).

En referencia a la FIG. 14, unidades de predicción de los dispositivos de codificación y descodificación pueden segmentar una PU 1410 en curso en unidades de bloque de 8 x 8.

Las unidades de predicción pueden especificar un bloque 1420 de profundidad correspondiente a la PU 1410 en curso. Aquí, el bloque 1420 de profundidad se puede especificar usando un vector de disparidad obtenido a partir de un bloque vecino de la PU 1410 en curso.

Las unidades de predicción pueden especificar bloques de profundidad (sub-bloques de profundidad) correspondiente a bloques de 8 x 8 en la PU en curso.

Las unidades de predicción pueden especificar una forma de segmentación adicional usando valores de profundidad de cuatro vértices (vértice 1, vértice 2, vértice 3 y vértice 4) de los sub-bloques de profundidad. Por ejemplo, las unidades de predicción pueden determinar la forma de segmentación adicional para los bloques de 8 x 8 según la Tabla 1.

[Tablal _

<

q

En referencia a la Tabla 1, puede determinarse una dirección de segmentación para los sub-bloques comparando valores de profundidad de dos vértices encarados diagonalmente entre sí.

Por ejemplo, en referencia a la FIG. 14, cuando el valor de profundidad del vértice 1 (profundidad [1]) en los bloques de profundidad correspondientes es menor que el valor de profundidad del vértice 4 (profundidad [4]) y el valor de profundidad del vértice 2 (profundidad [2]) es menor que el valor de profundidad del vértice 3 (profundidad [3]), los bloques de 8 x 8 de la PU en curso se pueden segmentar en dos sub-bloques (bloques de 8 x 4) en la dirección horizontal. Además, el valor de profundidad del vértice 1 (profundidad [1]) en los bloques de profundidad correspondientes es mayor que el valor de profundidad del vértice 4 (profundidad [4]) y el valor de profundidad del vértice 2 (profundidad [2]) es mayor que el valor de profundidad del vértice 3 (profundidad [3]), los bloques de 8 x 8 de la PU en curso también se pueden segmentar en dos sub-bloques (bloques de 8 x 4) en la dirección horizontal. En otros casos diferentes a los dos casos anteriores, los bloques de 8 x 8 de la PU en curso se pueden segmentar en dos sub bloques (bloques de 4 x 8) en la dirección vertical.

En referencia de nuevo a la FIG. 14, los bloques de 8 x 8 de la PU 1430 en curso se pueden segmentar en la dirección horizontal o la dirección vertical. La FIG. 14 ilustra que la PU 1430 se segmenta en dos bloques 1440 y 1450 de 8 x 4 en la dirección horizontal.

Al mismo tiempo, se puede considerar otro método de definición de una PU para la reconstrucción (PU en curso) por unidad de bloque particular. Específicamente, las unidades de predicción de los dispositivos de codificación y descodificación pueden comparar valores de profundidad de un bloque de profundidad correspondientes a cuatro esquinas de la PU en curso para determinar una forma de segmentación para sub-PUs antes de segmentar la PU en curso en bloques de 8 x 8.

En este caso, las unidades de predicción pueden llevar a cabo una VSP sobre la PU en curso de la manera siguiente. a) Las unidades de predicción pueden comparar valores de profundidad en cuatro esquinas de un bloque de profundidad correspondiente a una PU en curso. Las unidades de predicción pueden especificar el bloque de profundidad correspondiente a la PU en curso usando un vector de disparidad obtenido a partir de un bloque vecino de la PU en curso.

b) Las unidades de predicción pueden segmentar uniformemente la PU en curso en sub-bloques de 8 x 4 ó sub-bloques de 4 x 8 a través de una comparación de los valores de profundidad. Por ejemplo, en un primer caso en el que el valor de profundidad en una esquina superior izquierda del bloque de profundidad correspondiente a la PU en curso es menor que el valor de profundidad en una esquina inferior derecha y el valor de profundidad en una esquina superior derecha es menor que el valor de profundidad en una esquina inferior izquierda, y en un segundo caso en el que el valor de profundidad en la esquina superior izquierda es mayor que el valor de profundidad en la esquina inferior derecha y el valor de profundidad en la esquina superior derecha es mayor que el valor de profundidad en la esquina inferior izquierda, las unidades de predicción pueden segmentar la PU en curso en sub-bloques de 8 x 4 (sub-PUs). En otros casos diferentes al primer caso y al segundo caso como consecuencia de la comparación de los valores de profundidad en las cuatro esquinas del bloque de profundidad, las unidades de predicción pueden segmentar la PU en curso en sub bloques de 4 x 8 (sub-PUs).

c) Las unidades de predicción pueden llevar a cabo los siguientes procesos c-1 a c-3 por sub-bloque segmentado. c-1) Las unidades de predicción pueden especificar un bloque de profundidad correspondiente a los sub-bloques. Aquí, las unidades de predicción pueden especificar un bloque de profundidad correspondiente a cada sub-bloque (sub-PU) del bloque de profundidad correspondiente a la PU en curso usando el tamaño de los sub-bloques (4 x 8 ó 8 x 4). c-2) Las unidades de predicción pueden convertir un valor de profundidad del bloque de profundidad correspondiente a cada sub-bloque, en un vector de disparidad. Las unidades de predicción pueden especificar un valor de profundidad representativo del bloque de profundidad correspondiente a cada sub-bloque y obtener un vector de disparidad usando el valor de profundidad representativo.

c-3) Las unidades de predicción pueden llevar a cabo una DCP por sub-bloque usando el vector de disparidad obtenido. Por ejemplo, las unidades de predicción pueden obtener una muestra de predicción de una sub-PU en curso usando una muestra de un bloque de referencia, especificada por un vector de disparidad obtenido por sub-bloque, en una vista de referencia de la PU en curso. Aquí, el bloque de referencia puede ser una imagen que tenga la misma PU que la PU en curso en la vista de referencia de la PU en curso.

La FIG. 15 ilustra esquemáticamente todavía otro método de realización de la DCP por sub-bloque aplicando una VSP. La FIG. 15 ilustra esquemáticamente un ejemplo de VSP descrito anteriormente en los puntos a) a c).

En referencia a la FIG. 15, unidades de predicción de los dispositivos de codificación y descodificación pueden especificar un bloque 1520 de profundidad correspondiente a una PU 1510 en curso.

Las unidades de predicción pueden especificar el bloque 1520 de profundidad correspondiente a la PU 1510 en curso en un mapa de profundidad. Aquí, el bloque 1520 de profundidad se puede especificar usando un vector de disparidad obtenido a partir de un bloque vecino de la PU 1510 en curso.

Las unidades de predicción pueden especificar una forma de segmentación de sub-bloques usando valores de profundidad de 4 muestras esquineras (muestra esquinera 1, muestra esquinera 2, muestra esquinera 3, vértice 4 de muestra esquinera) del bloque 1520 de profundidad. Por ejemplo, las unidades de predicción pueden determinar la forma de segmentación de sub-bloques de acuerdo con la Tabla 2.

[Tabla 2 _

<

q

En referencia a la Tabla 2, la dirección de segmentación para la PU en curso se puede determinar comparando valores de profundidad de dos muestras esquineras encaradas diagonalmente entre sí en el bloque de profundidad.

Por ejemplo, en referencia a la FIG. 15, cuando el valor de profundidad de la muestra esquinera 1 (profundidad [1]) en el bloque 1520 de profundidad es menor que el valor de profundidad de la muestra esquinera 4 (profundidad [4]) y el valor de profundidad de la muestra esquinera 2 (profundidad [2]) es menor que el valor de profundidad de la muestra esquinera 3 (profundidad [3]), tal como se muestra, la PU 1510 en curso se puede segmentar en sub-bloques 1530 en la dirección horizontal, es decir, los sub-bloques 1530 de 8 x 4. Además, el valor de profundidad de la muestra esquinera 1 (profundidad [1]) en el bloque 1520 de profundidad es mayor que el valor de profundidad de la muestra esquinera 4 (profundidad [4]) y el valor de profundidad de la muestra esquinera 2 (profundidad [2]) es mayor que el valor de profundidad de la muestra esquinera 3 (profundidad [3]), tal como se muestra, la PU 1510 en curso también se puede segmentar en sub-bloques 1530 en la dirección horizontal, es decir, los sub-bloques 1530 de 8 x 4. En otros casos diferentes a los dos casos anteriores, aunque no se muestran, la PU en curso se puede segmentar en sub-bloques en la dirección vertical, es decir, sub-bloques de 4 x 8.

La FIG. 16 es un diagrama de flujo que ilustra esquemáticamente un método de construcción de una lista de candidatos a la fusión de acuerdo con la presente invención. El método de la FIG. 16 puede ser realizado por dispositivos de codificación y descodificación, en los cuales se ilustra que el método es llevado a cabo por unidades de predicción de los dispositivos de codificación y descodificación por comodidad en la descripción.

En referencia a la FIG. 16, las unidades de predicción pueden determinar un modo de predicción para un bloque en curso (S1610). Las unidades de predicción pueden determinar si aplicar la predicción intra o la predicción inter al bloque en curso, y determinar si aplicar el modo de omisión, el modo de fusión o el modo de predicción por vectores de movimiento si se aplica la predicción inter.

En el caso del dispositivo de descodificación, el modo de predicción para el bloque en curso se puede determinar basándose en información señalizada desde el dispositivo de codificación.

Como consecuencia de la determinación del modo de predicción para el bloque en curso, cuando se aplica el modo de fusión o el modo de omisión al bloque en curso, las unidades de predicción pueden obtener información de movimiento a partir de bloques vecinos como candidato a la fusión (S1620). La información de movimiento incluye un vector de movimiento y un índice de imagen de referencia.

Aquí, la información de movimiento obtenida puede ser igual que los candidatos espaciales que forman una lista de candidatos a la fusión cuando se aplica el modo de fusión a una vista base. En la construcción de una lista de candidatos a la fusión antes descrita, la información de movimiento en calidad de candidato a la fusión es igual a los A1, B1, B0, A0 y B2 de la FIG. 7.

Las unidades de predicción pueden construir una lista de candidatos a la fusión usando la información de movimiento y la información de disparidad (S1630). Tal como se ha descrito anteriormente, la información de movimiento incluye un vector de movimiento y un índice de imagen de referencia, y la información de disparidad puede incluir un vector de disparidad y un índice de vista de referencia. El vector de disparidad se puede obtener usando información sobre un bloque vecino y/o información de profundidad y, si fuera necesario, puede ser un valor desplazado.

Anteriormente se han descrito métodos específicos de construcción de candidatos a la fusión y de una lista de candidatos a la fusión.

La FIG. 17 es un diagrama de flujo que ilustra esquemáticamente un método de realización de VSP según la presente invención. El método de la FIG. 17 se puede realizar por parte de dispositivos de codificación y descodificación, en los cuales se ilustra que el método lo realiza en unidades de predicción de los dispositivos de codificación y descodificación por comodidad en la descripción.

En referencia a la FIG. 17, las unidades de predicción pueden especificar un bloque de profundidad correspondiente a un bloque en curso (S1710). El bloque en curso puede ser un bloque de predicción, y el bloque de profundidad correspondiente se puede especificar sobre un mapa de profundidad (imagen de profundidad) usando un vector de disparidad obtenido. Aquí, el vector de disparidad usado para especificar el bloque de profundidad se puede obtener usando información sobre un bloque vecino del bloque en curso. Además, el mapa de profundidad puede ser una imagen previamente codificada (codificada/descodificada) de la misma vista que una imagen en curso que incluye el bloque en curso, o una imagen de profundidad que tenga el mismo POC que la imagen en curso en una vista diferente. El POC es un valor que especifica el orden de salida de las imágenes.

Las unidades de predicción pueden comparar valores de cuatro muestras esquineras del bloque de profundidad correspondiente (S1720). Las unidades de predicción pueden comparar valores de una muestra esquinera superior izquierda, una muestra esquinera inferior izquierda, una muestra esquinera superior derecha, y una muestra esquinera inferior derecha del bloque de profundidad.

Las unidades de predicción pueden segmentar el bloque en curso en sub-bloques usando el resultado de comparación de las muestras esquineras del bloque de profundidad (S1730). En un (primer) caso en el que el valor de profundidad de la muestra esquinera superior izquierda es menor que el valor de profundidad de la muestra esquinera inferior derecha y el valor de profundidad de la muestra esquinera superior derecha es menor que el valor de profundidad de la muestra esquinera inferior izquierda, las unidades de predicción pueden segmentar el bloque en curso en sub-bloques en la dirección horizontal. En un (segundo) caso en el que el valor de profundidad de la muestra esquinera superior izquierda es mayor que el valor de profundidad de la muestra esquinera inferior derecha y el valor de profundidad de la muestra esquinera superior derecha es mayor que el valor de profundidad de la muestra esquinera inferior izquierda, las unidades de predicción pueden segmentar el bloque en curso en sub-bloques en la dirección horizontal. En otros casos que no sean el primer caso y el segundo caso, las unidades de predicción pueden segmentar el bloque en curso en sub bloques en la dirección vertical.

Aquí, los sub-bloques en la dirección horizontal pueden ser sub-PUs de 8 x 4, y los sub-bloques en la dirección vertical pueden ser sub-PUs de 4 x 8.

Las unidades de predicción pueden obtener un vector de disparidad por sub-bloque (S1740). El vector de disparidad se puede obtener usando un valor de profundidad y un parámetro de cámara. Las unidades de predicción pueden especificar un bloque de profundidad correspondiente a cada sub-bloque para obtener un vector de disparidad para cada sub-bloque usando un valor de profundidad del bloque de profundidad.

Las unidades de predicción pueden llevar a cabo una predicción por sub-bloque del bloque en curso (S1750). Por ejemplo, las unidades de predicción pueden llevar a cabo una DCP sobre cada sub-bloque usando el vector de disparidad obtenido por sub-bloque.

Anteriormente se han descrito métodos de VSP específicos y métodos específicos de descodificación de un bloque en curso usando la VSP.

Aunque los métodos en el sistema ejemplificativo antes mencionado se han descrito sobre la base de diagramas de flujo que incluyen una serie de etapas o bloques, la invención no se limita al orden de las etapas y una cierta etapa se puede llevar a cabo en una etapa o un orden diferente al descrito anteriormente, o simultáneamente con el descrito anteriormente. Las realizaciones antes mencionadas pueden incluir varios ejemplos. Por lo tanto, la invención incluye todas las sustituciones, correcciones y modificaciones que forman parte de las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Método de construcción de una lista de candidatos a la fusión en la codificación de un vídeo multi-vista, por parte de un aparato de descodificación de vídeo, comprendiendo el método:

(S1610) determinar un modo de predicción para un bloque en curso;

(S1620) obtener, en calidad de candidato a la fusión, información de movimiento de bloques vecinos del bloque en curso cuando el modo de predicción para el bloque en curso es un modo de fusión o un modo de omisión; y (S1630) construir una lista de candidatos a la fusión usando la información de movimiento de los bloques vecinos e información de disparidad obtenida a partir de un bloque vecino del bloque en curso,

caracterizado por que

la lista de candidatos a la fusión incluye un candidato a la fusión inter-vista y candidatos a la fusión espaciales, el candidato a la fusión inter-vista se obtiene a partir de información de movimiento de un bloque de referencia en una vista de referencia especificada por la información de disparidad obtenida a partir del bloque vecino del bloque en curso,

los candidatos a la fusión espaciales incluyen

un primer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque izquierdo del bloque en curso,

un segundo candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior del bloque en curso,

un tercer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior derecho del bloque en curso,

un cuarto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque inferior izquierdo del bloque en curso, y

un quinto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior izquierdo del bloque en curso,

la construcción de la lista de candidatos a la fusión (S1630) comprende determinar si se aplica compensación de iluminación al bloque en curso, y cuando se aplica la compensación de iluminación al bloque en curso la lista de candidatos a la fusión no incluye un candidato a la fusión de predicción por síntesis de vistas, y cuando no se aplica la compensación de iluminación al bloque en curso la lista de candidatos a la fusión incluye, además, el candidato a la fusión de predicción por síntesis de vistas, y

el candidato a la fusión de predicción por síntesis de vistas se deduce a partir de la información de disparidad. 2. Método de la reivindicación 1, en el que la construcción de la lista de candidatos a la fusión (S1630) determina la disponibilidad de candidatos a la fusión comprendidos en la lista de candidatos a la fusión, y cuando el número de candidatos a la fusión disponibles es mayor que el número máximo de candidatos en la lista de candidatos a la fusión, se obtiene un candidato a la fusión inter-vista modificado, y la lista de candidatos a la fusión incluye, además, el candidato a la fusión inter-vista modificado.

3. Método de la reivindicación 1, en el que el candidato a la fusión de predicción por síntesis de vistas se obtiene para cada sub-bloque segmentando el bloque en curso en sub-bloques con el uso de valores de profundidad de cuatro muestras esquineras de un bloque de profundidad correspondiente al bloque en curso y usando bloques de profundidad correspondientes a los sub-bloques.

4. Método de la reivindicación 3, en el que, en relación con una primera muestra como muestra esquinera superior izquierda del bloque de profundidad correspondiente al bloque en curso, una segunda muestra como muestra esquinera superior derecha, una tercera muestra como muestra esquinera inferior izquierda, y una cuarta muestra como muestra esquinera inferior derecha, cuando el valor de profundidad de la primera muestra es menor que el valor de profundidad de la cuarta muestra y el valor de profundidad de la segunda muestra es menor que el valor de profundidad de la tercera muestra, los sub-bloques del bloque en curso son sub-bloques de 8x4.

5. Método de construcción de una lista de candidatos a la fusión en la codificación de un vídeo multi-vista, por parte de un aparato de codificación de vídeo, comprendiendo el método:

(S1610) determinar un modo de predicción para un bloque de predicción en curso;

(S1620) obtener, en calidad de candidato a la fusión, información de movimiento de bloques vecinos del bloque de predicción en curso cuando el modo de predicción para el bloque de predicción en curso es un modo de fusión o un modo de omisión;

(S1630) construir una lista de candidatos a la fusión usando la información de movimiento de los bloques vecinos e información de disparidad obtenida a partir de un bloque vecino del bloque de predicción en curso; y caracterizado por que

la lista de candidatos a la fusión incluye un candidato a la fusión inter-vista y candidatos a la fusión espaciales, el candidato a la fusión inter-vista se obtiene a partir de información de movimiento de un bloque de referencia en una vista de referencia especificada por la información de disparidad obtenida a partir del bloque vecino del bloque de predicción en curso,

los candidatos a la fusión espaciales incluyen

un primer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque izquierdo del bloque de predicción en curso,

un segundo candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior del bloque de predicción en curso,

un tercer candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior derecho del bloque de predicción en curso, un cuarto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque inferior izquierdo del bloque de predicción en curso, y un quinto candidato a la fusión espacial que representa información de movimiento obtenida a partir de un bloque superior izquierdo del bloque de predicción en curso, y la construcción de la lista de candidatos a la fusión (S1630) comprende determinar si se aplica compensación de iluminación al bloque de predicción en curso, y cuando se aplica la compensación de iluminación al bloque de predicción en curso la lista de candidatos a la fusión no incluye un candidato a la fusión de predicción por síntesis de vistas, y cuando no se aplica la compensación de iluminación al bloque de predicción en curso la lista de candidatos a la fusión incluye, además, el candidato a la fusión de predicción por síntesis de vistas, y

el candidato a la fusión de predicción por síntesis de vistas se deduce a partir de la información de disparidad. 6. Soporte de almacenamiento legible por descodificador para almacenar el flujo continuo de bits generado por el método de codificación de la reivindicación 5.