ES2524973T3 - Codificación y decodificación de imágenes multivista usando corrección de iluminación y de color localizada - Google Patents
Codificación y decodificación de imágenes multivista usando corrección de iluminación y de color localizada Download PDFInfo
- Publication number
- ES2524973T3 ES2524973T3 ES10743600.8T ES10743600T ES2524973T3 ES 2524973 T3 ES2524973 T3 ES 2524973T3 ES 10743600 T ES10743600 T ES 10743600T ES 2524973 T3 ES2524973 T3 ES 2524973T3
- Authority
- ES
- Spain
- Prior art keywords
- image
- view synthesis
- correction
- decoding
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/18—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
Un método de codificación de imágenes multivista en el que una imagen de entrada de un objeto que es fotografiado por una primera cámara se divide en una pluralidad de zonas objeto de codificación y, usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen de entrada y a partir de una imagen ya codificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, se realiza codificación predictiva para cada una de las zonas objeto de codificación, que comprende una etapa de codificación de imagen (A12) durante la cual, usando la imagen de síntesis de vistas, se codifica una señal de imagen de la imagen objeto de codificación de manera que se crean datos codificados, siendo los datos codificados decodificados de manera que se crea una imagen decodificada para la zona objeto de codificación en una etapa de decodificación de imagen (A13); estando el método de codificación de imágenes multivista caracterizado porque comprende: - una etapa de determinación de profundidad representativa (A6) durante la cual se establece la información de profundidad representativa para un objeto fotografiado en la zona objeto de codificación, - una etapa de determinación de grupo de píxeles de muestra (A6) durante la cual en la imagen de entrada se determina un grupo de píxeles en el que se ha fotografiado el mismo objeto que en la zona objeto de codificación seleccionando píxeles de una zona ya codificada que es adyacente a la zona objeto de codificación, en la que la diferencia absoluta entre un valor de profundidad de la misma y el valor de profundidad representativo es menor que un umbral predefinido y el grupo de píxeles se establece como un grupo de píxeles de muestra, - una etapa de estimación de parámetros de corrección (A8) durante la cual, basándose en la imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de píxeles de muestra, se estiman los parámetros de corrección para corregir al menos una de las ausencias de correspondencia de iluminación o de color de manera que se reduzca al mínimo la suma de valores que representan un error entre los valores de píxel de la imagen decodificada para el grupo de píxeles de muestra y los valores de píxel de la imagen de síntesis de vistas para el grupo de píxeles de muestra que son corregidos usando un modelo de corrección para el grupo de píxeles de muestra, y - una etapa de corrección de imágenes de síntesis de vistas (A9) durante la cual la imagen de síntesis de vistas para el objeto es corregida de manera que se crea una imagen de síntesis de vistas corregida aplicando una función de corrección definida por los parámetros de corrección para la imagen de síntesis de vistas; en el que la señal de imagen de la imagen objeto de codificación se codifica usando la imagen de síntesis de vistas corregida en la etapa de codificación de imagen (A12).
Description
Codificación y decodificación de imágenes multivista usando corrección de iluminación y de color localizada
La presente invención se refiere a un método de codificación de imágenes multivista y un dispositivo para codificar imágenes fotografiadas por una pluralidad de cámaras que están fotografiando un objeto en particular, y también a un método de decodificación de imágenes multivista y un dispositivo para decodificación de datos codificados que han sido codificados usando este método de codificación de imágenes multivista, y también a un programa de codificación de imágenes multivista que se usa para implementar este método de codificación de imágenes multivista, y a un programa de decodificación de imágenes multivista que se usa para implementar este método de decodificación de imágenes multivista.
El término ’imágenes multivista’ se refiere a una pluralidad de imágenes obtenidas fotografiando el mismo objeto y el fondo usando una pluralidad de cámaras, mientras que el término imágenes en movimiento multivista (es decir, ’vídeo multivista’)’ se refiere a imágenes en movimiento obtenidas de esta manera.
La predicción con compensación de movimiento y la predicción con compensación de disparidad se han propuesto como tecnologías para su uso en la codificación de imágenes en movimiento general y la codificación de imágenes en movimiento multivista.
25 La predicción con compensación de movimiento es un método que se emplea también en las normas internacionales para los formatos de codificación de imágenes en movimiento de los últimos años tipificados por H.264. En este método, el movimiento de un objeto se compensa entre una trama destinada a codificación y una trama de referencia que ya ha sido codificada de manera que se obtiene una diferencia inter-trama para la señal de imagen, y sólo se codifica esta señal de diferencia (véase el documento no patente 1).
En cambio, en la predicción con compensación de disparidad, al compensar las disparidades en un objeto usando una trama fotografiada por una cámara diferente a la de la trama de referencia, la codificación puede realizarse como las diferencias inter-trama entre las señales de imagen que se están obteniendo (véase el documento no patente 2).
35 El término ’disparidad’ que se usa en el presente documento se refiere a diferencias en las posiciones en los planos de imagen de cámaras colocadas en diferentes posiciones en las que se proyecta la misma posición en un objeto. En la predicción con compensación de disparidad, esto se representa mediante vectores bidimensionales y después se codifica. Tal como se muestra en la figura 9, dado que las disparidades son información cuya creación depende de la posición de la cámara y de la distancia desde la cámara (es decir, la profundidad), existe un método conocido como predicción de síntesis de vistas (predicción de interpolación de vistas) que usa este principio.
En la predicción de síntesis de vistas (predicción de interpolación de vistas), existe un método en el que la profundidad de un objeto se estima usando la información de la posición de la cámara y la teoría de la triangulación
45 para los vídeos multivista obtenidos en el lado de codificación o el lado de decodificación, y las tramas destinadas a su codificación se sintetizan (es decir, se interpolan) usando esta información de profundidad estimada de manera que se crea una imagen de predicción (véanse el documento no patente 1 y el documento no patente 3). Debe observarse que si la profundidad se estima en el lado de codificación, es necesario codificar la profundidad que se usa.
En la predicción que usa imágenes fotografiadas usando estas cámaras separadas, si existen diferencias individuales entre las respuestas de los elementos de obtención de imágenes de las cámaras, o si se aplica control de ganancia o corrección gamma en cada cámara, o si los ajustes de la profundidad de campo o la apertura o similares son diferentes en cada cámara, o si existe un efecto de iluminación dependiente de la dirección en la
55 escena, o similares, entonces la eficacia de codificación se deteriora. Esto se debe a que la predicción se realiza con la suposición de que la iluminación y el color del objeto son los mismos tanto en la trama destinada a codificación como en la trama de referencia.
Se están investigando métodos tales como compensación de iluminación y corrección de color como formas de abordar los cambios en la iluminación y el color de un objeto. En estos métodos, usando una trama de referencia cuya iluminación y cuyo color hayan sido corregidos como trama que se usa para realizar una predicción, es posible limitar a un mínimo la magnitud de la predicción residual que se codifica.
En H.264, se adopta la predicción ponderada en la que se usa una función lineal como modelo de corrección (véase
65 el documento no patente 1), mientras que en el documento no patente 3 se propone un método en el que las correcciones se realizan usando una tabla de colores.
[DOCUMENTOS DE LA TÉCNICA ANTERIOR]
[Documento de patente 1] Solicitud de patente japonesa abierta a consulta por el público (JP-A) nº 2007-036.800 5 "Método de codificación de vídeo, método de decodificación de vídeo, programa de codificación de vídeo, programa de decodificación de vídeo y medio de grabación legible por ordenador en el que se graban estos programas"
[Documento no patente 1]
ITU-T Rec. H.264/ISO/IEC 11496-10, "Codificación de vídeo avanzada para los servicios audiovisuales genéricos", Borrador de Comité Final, Documento JVT-E022d7, septiembre de 2002. (pág. 10-13, pág. 62-73)
[Documento no patente 2]
15 Hideaki Kimata y Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV)", documento M10976 MPEG Redmond Meeting, julio de 2004.
[Documento no patente 3]
K. Yamamoto, M. Kitahara, H. Kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura y Y. Yashima, "Multiview Video Coding Using View Interpolation and Color Correction”, IEEE Transactions on Circuits and System for Video Technology, Vol. 17, nº 11, pág. 1436-1449, noviembre de 2007.
25 Problema que debe ser resuelto por la invención
Cuando se realiza una codificación usando la compensación de iluminación y corrección de color mencionada anteriormente se producen los dos problemas siguientes.
El primer problema es el aumento en la cantidad de código que procede de la adición de parámetros para compensación de iluminación y corrección de color y similares. En predicción con compensación de disparidad normal y predicción de síntesis (interpolación) de vistas, dado que se hace necesario codificar parámetros para compensación de iluminación y corrección de color y similares que anteriormente no habían necesitado codificación,
35 existe un deterioro en la eficacia de codificación.
El segundo problema es la exactitud de la corrección. En caso de fundido y parpadeo en la codificación normal de imágenes en movimiento, dado que toda la pantalla cambia de la misma forma, es posible realizar una compensación de iluminación y una corrección de color y similares satisfactorias usando un único parámetro de corrección. Sin embargo, las ausencias de correspondencia (es decir, las discrepancias en iluminación y color) que son causadas porque el objeto no es un reflector difuso completo, o porque la profundidad de campo y el enfoque no guardan una total correspondencia en cada cámara no dependen de la escena, sino del objeto. En consecuencia, en la corrección que se basa en un único parámetro de corrección, se producen casos en los que, dependiendo del objeto, se incrementa la ausencia de correspondencia.
45 Para contrarrestar este problema, puede considerarse un método en el que se usa una pluralidad de parámetros de corrección con el fin de abordar la ausencia de correspondencia en cada objeto individual. Sin embargo, si se usa este método, entonces además de la cantidad de código requerida para codificar una pluralidad de parámetros de corrección, es necesario también codificar información que muestre el parámetro de corrección que deberá usarse en cada zona de imagen. En consecuencia, la cantidad de código aumenta todavía más, y no es posible resolver el primer problema.
La presente invención se concibió a la luz de las circunstancias descritas anteriormente, y un objeto de la misma es proporcionar una nueva tecnología de codificación y decodificación de imágenes multivista que consiga una
55 codificación altamente eficaz incluso en imágenes multivista (es decir, imágenes estáticas e imágenes en movimiento multivista) en las que se genere una ausencia de correspondencia localizada de iluminación y color entre las cámaras, y que consiga también una reducción en la cantidad de código requerida cada vez que se emplee esta nueva codificación.
Medios para resolver el problema
[1] Idea tecnológica básica que subyace a la presente invención
Con el fin de resolver los problemas descritos anteriormente, en la presente invención, se han ideado los medios
65 siguientes para los casos en que una trama destinada a codificación-decodificación se divida primero en zonas, y a continuación se realice codificación y decodificación de imágenes multivista en cada zona.
En primer lugar, se determina la información de profundidad para un objeto que se va a fotografiar en una zona destinada a tratamiento. A continuación, en una zona adyacente a la zona destinada a tratamiento en la que ya se ha completado la codificación (decodificación), a partir de la información de profundidad se determina un grupo de
5 píxeles en el que se ha fotografiado el mismo objeto que en la zona destinada a tratamiento y se establece como un grupo de píxeles de muestra. A continuación, se crea una imagen de síntesis de vistas para los píxeles contenidos en este grupo de píxeles de muestra, y se crea también una imagen de síntesis de vistas para los píxeles contenidos en la zona destinada a tratamiento. A continuación, se estiman los parámetros de corrección para corregir la ausencia de correspondencia en iluminación y color a partir de la imagen de síntesis de vistas y de la imagen decodificada en el grupo de píxeles de muestra. A continuación, mediante corrección de la imagen de síntesis de vistas creada para la zona destinada a tratamiento usando los parámetros de corrección estimados, se crea una imagen de predicción que se usará para codificar (decodificar) señales de imagen en la zona destinada a tratamiento.
15 En el caso del método convencional en el que se calculan los parámetros de corrección comparando la trama destinada a codificación con una trama de referencia, dado que la trama destinada a codificación no puede ser adquirida por el lado de decodificación, es necesario codificar los parámetros de corrección.
En cambio, en la presente invención, los parámetros de corrección se calculan comparando señales de imagen de zonas ya codificadas/decodificadas de una trama destinada a codificación/decodificación con información de una imagen de síntesis de vistas creada usando una trama de referencia. Dado que estas señales pueden ser adquiridas por el lado de decodificación, no es necesario codificar los parámetros de corrección. Es decir, es posible, por medio de la presente invención, resolver el problema de un aumento en la cantidad de código.
25 Por otra parte, dado que la codificación es un proceso en el que las señales de entrada son convertidas de la forma más correcta posible, puede considerarse que las señales de imagen que han sido ya codificadas/decodificadas son sustancialmente las mismas que las señales de imagen destinadas a codificación. Es decir, los parámetros de corrección calculados por medio de la presente invención pueden llevar la imagen sintetizada extraordinariamente cerca de la imagen destinada a codificación, y la predicción residual que debe codificarse puede reducirse significativamente.
Por otra parte, en la presente invención, los parámetros de corrección se estiman usando la información de zonas adyacentes en las que ha sido fotografiado el mismo objeto que el objeto fotografiado en la zona destinada a tratamiento. Al actuar de esta manera, es posible corregir la iluminación y el color que dependen del objeto. Debe
35 observarse que dado que en esta determinación del objeto se usa la información de profundidad que se requiere cuando se va a crear una imagen de síntesis de vistas, no hay necesidad de codificar y transmitir información adicional.
En la codificación/decodificación multivista descrita anteriormente, comparando la variación de información de profundidad en una zona destinada a tratamiento con un valor umbral predefinido, es posible determinar si una pluralidad de objetos ha sido fotografiada o no dentro de una zona destinada a tratamiento. Si una pluralidad de objetos ha sido fotografiada, entonces se establece la información de profundidad y el grupo de píxeles de muestras para cada objeto, y se estiman los parámetros de corrección. Debe observarse que al tratar los objetos que tienen menos de un número fijado de píxeles en una zona destinada a tratamiento con otros objetos, es posible evitar todo
45 incremento en la cantidad de cálculos.
Además, en la codificación/decodificación de imágenes multivista descrita anteriormente, los modelos de corrección de los cuales existe una pluralidad (es decir, el número de parámetros de corrección) se modifican basándose en el número de píxeles presentes en un grupo de píxeles de muestra.
[2] Estructura de la presente invención
A continuación, se describirá la estructura del dispositivo de codificación de imágenes multivista y el dispositivo de decodificación de imágenes multivista de la presente invención.
55 [2-1] Estructura del dispositivo de codificación de imágenes multivista de la presente invención
El dispositivo de codificación de imágenes multivista de la presente invención es un dispositivo que codifica imágenes multivista (es decir, imágenes estáticas e imágenes en movimiento fotografiadas desde múltiples puntos de vista) dividiendo una imagen de entrada de un objeto que es fotografiado por una primera cámara en una pluralidad de zonas objeto de codificación y, usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen de entrada y a partir de una imagen ya codificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, realizando codificación predictiva para cada una de las zonas objeto de codificación, y que incluye: (1) una unidad de 65 determinación de profundidad representativa que establece la información de profundidad representativa para un objeto fotografiado en la zona objeto de codificación; (2) una unidad de determinación de grupo de píxeles de
muestra que, basándose en la información de profundidad para una zona ya codificada que es adyacente a la zona objeto de codificación y en la información de profundidad representativa, determina un grupo de píxeles en el que ha sido fotografiado el mismo objeto que en la zona objeto de codificación y establece el grupo de píxeles como un grupo de píxeles de muestra; (3) una unidad de estimación de parámetros de corrección que, basándose en la
5 imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de píxeles de muestra, estima los parámetros de corrección para corregir las ausencias de correspondencia de iluminación o de color; (4) una unidad de corrección de imágenes de síntesis de vistas que, usando los parámetros de corrección, corrige la imagen de síntesis de vistas para la zona objeto de codificación de manera que se crea una imagen de síntesis de vistas corregida; (5) una unidad de codificación de imagen que, usando la imagen de síntesis de vistas corregida, codifica una señal de imagen de la imagen objeto de codificación de manera que se crean datos codificados; y (6) una unidad de decodificación de imagen que decodifica los datos codificados de manera que se crea una imagen decodificada para la zona objeto de codificación.
También es posible que al dispositivo de codificación de imágenes multivista según una realización de la presente
15 invención se le proporcione además (7) una unidad de determinación de objetos que divide los píxeles en la zona objeto de codificación en uno o varios grupos usando la información de profundidad para los píxeles pertinentes como referencia. En este caso, también es posible que la unidad de determinación de profundidad representativa establezca la información de profundidad representativa para cada grupo determinado por la unidad de determinación de objetos, que la unidad de determinación de grupo de píxeles de muestra establezca un grupo de píxeles de muestra para cada grupo determinado por la unidad de determinación de objetos, que la unidad de estimación de parámetros de corrección estime los parámetros de corrección para cada grupo determinado por la unidad de determinación de objetos y que la unidad de corrección de imágenes de síntesis de vistas corrija una imagen de síntesis de vistas para cada grupo determinado por la unidad de determinación de objetos.
25 Por otra parte, también es posible que al dispositivo de codificación de imágenes multivista según una realización de la presente invención se le proporcione además (8) una unidad de selección de modelo de corrección que seleccione un modelo de corrección para corregir la imagen de síntesis de vistas para la zona objeto de codificación de acuerdo con el número de píxeles en el grupo de píxeles de muestra. En este caso, también es posible que la unidad de estimación de parámetros de corrección estime los parámetros de corrección para el modelo de corrección seleccionado por la unidad de selección de modelo de corrección, y que la unidad de corrección de imágenes de síntesis de vistas corrija la imagen de síntesis de vistas usando el modelo de corrección seleccionado por la unidad de selección de modelo de corrección.
El método de codificación de imágenes multivista de la presente invención que se implementa como resultado de
35 cada uno de los dispositivos de tratamiento mencionados anteriormente que realizan sus operaciones respectivas puede aplicarse también por medio de un programa informático. Este programa informático es suministrado grabado en un medio de grabación adecuado legible por el ordenador, o es suministrado a través de una red. Cuando vaya a aplicarse la presente invención, el programa informático se instala en un ordenador y la presente invención se consigue cuando el programa informático se ejecuta en una unidad de control tal como una CPU.
[2-2] Estructura del dispositivo de decodificación de imágenes multivista de la presente invención
El dispositivo de decodificación de imágenes multivista de la presente invención es un dispositivo que decodifica datos codificados para imágenes multivista (es decir, imágenes estáticas e imágenes en movimiento fotografiadas 45 desde múltiples puntos de vista) dividiendo una imagen objeto de decodificación de un objeto que es fotografiado por una primera cámara en una pluralidad de zonas objeto de decodificación y, usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen objeto de decodificación y a partir de una imagen decodificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, realizando decodificación predictiva para cada una de las zonas objeto de decodificación, y que incluye: (1) una unidad de determinación de profundidad representativa que establece la información de profundidad representativa para un objeto fotografiado en la zona objeto de decodificación; (2) una unidad de determinación de grupo de píxeles de muestra que, basándose en la información de profundidad para una zona ya decodificada que es adyacente a la zona objeto de decodificación y en la información de profundidad representativa, determina un grupo de píxeles en el que el mismo objeto que en la zona objeto de decodificación ha
55 sido fotografiado y establece el grupo de píxeles como un grupo de píxeles de muestra; (3) una unidad de estimación de parámetros de corrección que, basándose en la imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de píxeles de muestra, estima los parámetros de corrección para corregir las ausencias de correspondencia de iluminación o de color; (4) una unidad de corrección de imágenes de síntesis de vistas que, usando los parámetros de corrección, corrige la imagen de síntesis de vistas para la zona objeto de decodificación de manera que se crea una imagen de síntesis de vistas corregida; y (5) una unidad de decodificación de imagen que, usando la imagen de síntesis de vistas corregida, decodifica una señal de imagen de la imagen objeto de decodificación.
También es posible que al dispositivo de decodificación de imágenes multivista según una realización de la presente
65 invención se le proporcione además (6) una unidad de determinación de objetos que divide los píxeles en la zona objeto de decodificación en uno o varios grupos usando la información de profundidad para los píxeles pertinentes
como referencia. En este caso, también es posible que la unidad de determinación de profundidad representativa establezca la información de profundidad representativa para cada grupo determinado por la unidad de determinación de objetos, que la unidad de determinación de grupo de píxeles de muestra establezca un grupo de píxeles de muestra para cada grupo determinado por la unidad de determinación de objetos, que la unidad de
5 estimación de parámetros de corrección estime los parámetros de corrección para cada grupo determinado por la unidad de determinación de objetos y que la unidad de corrección de imágenes de síntesis de vistas corrija una imagen de síntesis de vistas para cada grupo determinado por la unidad de determinación de objetos.
También es posible que al dispositivo de decodificación de imágenes multivista según una realización de la presente
10 invención se le proporcione además (7) una unidad de selección de modelo de corrección que selecciona un modelo de corrección para corregir la imagen de síntesis de vistas para la zona objeto de decodificación de acuerdo con el número de píxeles en el grupo de píxeles de muestra. En este caso, la unidad de estimación de parámetros de corrección estima los parámetros de corrección para el modelo de corrección seleccionado por la unidad de selección de modelo de corrección, y la unidad de corrección de imágenes de síntesis de vistas corrige la imagen de
15 síntesis de vistas usando el modelo de corrección seleccionado por la unidad de selección de modelo de corrección.
El método de decodificación de imágenes multivista de la presente invención que se implementa como resultado de cada uno de los dispositivos de tratamiento descritos anteriormente que realizan sus operaciones respectivas también puede conseguirse por medio de un programa informático. Este programa informático se suministra grabado
20 en un medio de grabación adecuado legible por el ordenador, o se suministra a través de una red. Cuando vaya a aplicarse la presente invención, el programa informático se instala en un ordenador y la presente invención se consigue cuando el programa informático se ejecuta en una unidad de control tal como una CPU.
Efecto de la invención
25 Según la presente invención, incluso en casos en los que tiene lugar una ausencia de correspondencia de iluminación y de color entre cámaras localmente, es posible reducir la predicción residual dado que los parámetros de corrección se determinan para cada objeto por separado y de forma local. En consecuencia, es posible conseguir una codificación y una decodificación altamente eficaces de imágenes multivista e imágenes en movimiento
30 multivista.
Por otra parte, según la presente invención, dado que los parámetros de corrección se determinan de una forma que no necesita codificación/decodificación adicional, es posible reducir considerablemente la cantidad de código necesaria cuando se realiza esta codificación y decodificación de imágenes multivista e imágenes en movimiento
35 multivista.
La figura 1 es un diagrama de bloques que muestra un dispositivo de codificación de vídeo multivista según una 40 primera realización de la presente invención.
La figura 2 es un organigrama que muestra el tratamiento ejecutado por el dispositivo de codificación de vídeo multivista según la primera realización de la presente invención.
45 La figura 3 es un organigrama que muestra detalles del tratamiento ejecutado por el dispositivo de codificación de vídeo multivista según la primera realización de la presente invención.
La figura 4 es un organigrama que muestra el tratamiento ejecutado por el dispositivo de codificación de vídeo multivista según la primera realización de la presente invención.
50 La figura 5 es un diagrama de bloques que muestra un dispositivo de decodificación de vídeo multivista según una segunda realización de la presente invención.
La figura 6 es un organigrama que muestra el tratamiento ejecutado por el dispositivo de decodificación de vídeo 55 multivista según la segunda realización de la presente invención.
La figura 7 es un organigrama que muestra detalles del tratamiento ejecutado por el dispositivo de decodificación de vídeo multivista según la segunda realización de la presente invención.
60 La figura 8 es un diagrama de bloques que muestra una unidad de creación de parámetros de corrección en las realizaciones primera y segunda de la presente invención.
La figura 9 es una vista que muestra un modo de predicción con compensación de disparidad.
65 Realizaciones para llevar a cabo la invención
A continuación se describirá la presente invención en detalle con referencia a los dibujos que ilustran las realizaciones de la presente invención.
Debe observarse que en la siguiente descripción, al asociar la información de posición (en concreto, valores de
5 coordenadas o índices que pueden asociarse con valores de coordenadas) rodeada por el símbolo [ ] para vídeo (es decir, tramas) y la información de profundidad, se muestran las señales de imagen y la información de profundidad (definida para cada píxel) de los objetos fotografiados en los píxeles en esa posición.
[1] Dispositivo de codificación de vídeo multivista según una primera realización de la presente invención
En la figura 1 se muestra la estructura de un dispositivo de codificación de vídeo multivista 100 según la primera realización de la presente invención.
Tal como se muestra en la figura 1, en el dispositivo de codificación de vídeo multivista 100 de la presente
15 realización, una unidad de entrada de imágenes objeto de codificación 101 recibe entradas de imágenes (es decir, tramas) de un objeto o escena fotografiados por una primera cámara como un objeto de codificación. La memoria de imágenes objeto de codificación 102 almacena las tramas objeto de codificación introducidas desde la unidad de entrada de imágenes objeto de codificación 101. Las tramas objeto de codificación almacenadas son suministradas a una unidad de codificación de imagen 109.
Una unidad de entrada de imágenes de síntesis de vistas 103 recibe entradas de imágenes de síntesis de vistas para codificar imágenes objeto. Las imágenes de síntesis de vistas han sido generadas usando las imágenes ya codificadas en las que se fotografió el mismo objeto o escena por las segundas cámaras colocadas en posiciones diferentes a la de la primera cámara. La memoria de imágenes de síntesis de vistas 104 almacena las imágenes de
25 síntesis de vistas introducidas desde la unidad de entrada de imágenes de síntesis de vistas 103. Las imágenes de síntesis de vistas almacenadas son suministradas a una unidad de creación de parámetros de corrección 107 y una unidad de corrección de imágenes de síntesis de vistas 108.
Una unidad de entrada de información de profundidad 105 recibe entradas de información de profundidad para tramas destinadas a codificación. La memoria de información de profundidad 106 almacena la información de profundidad introducida desde la unidad de entrada de información de profundidad 105. La información de profundidad almacenada es suministrada a la unidad de creación de parámetros de corrección 107.
La unidad de creación de parámetros de corrección 107 estima los parámetros de corrección usando imágenes de
35 síntesis de vistas, información de profundidad e imágenes decodificadas usadas en zonas periféricas de una zona objeto de codificación, y usando la información de profundidad usada en la zona objeto de codificación. La unidad de corrección de imágenes de síntesis de vistas 108 corrige las imágenes de síntesis de vistas de la zona destinada a codificación usando los parámetros de corrección estimados.
La unidad de codificación de imagen 109 codifica señales de imagen de una zona objeto de codificación usando las imágenes corregidas de síntesis de vistas como señales de predicción. La unidad de decodificación de imagen 110 decodifica las señales de imagen codificadas. La memoria de imágenes decodificadas 111 almacena las imágenes decodificadas por la unidad de codificación de imagen 109. Las imágenes decodificadas almacenadas en la memoria de imágenes decodificadas 111 son suministradas a la unidad de creación de parámetros de corrección
45 107.
Tal como se muestra en la figura 8, la unidad de creación de parámetros de corrección 107 tiene una unidad de determinación de objetos 107a a la que se suministra la información de profundidad desde la memoria de información de profundidad 106, y una unidad de determinación de profundidad representativa 107b y una unidad de determinación de grupo de píxeles de muestra 107c que están conectadas en esta secuencia con el lado de flujo descendente de la unidad de determinación de objetos 107a. Una unidad de selección de modelo de corrección 107d y una unidad de estimación de parámetros de corrección 107e están conectadas en esta secuencia con el lado de flujo descendente de la unidad de determinación de grupo de píxeles de muestra 107c. Las imágenes decodificadas de la memoria de imágenes decodificadas 111 y las imágenes de síntesis de vistas de la memoria de
55 imágenes de síntesis de vistas 104 son suministradas a la unidad de estimación de parámetros de corrección 107e, y los parámetros de corrección estimados usando las imágenes decodificadas suministradas y las imágenes de síntesis de vistas son suministrados a la unidad de corrección de imágenes de síntesis de vistas 108.
La figura 2 muestra el flujo de tratamiento ejecutado por el dispositivo de codificación de vídeo multivista 100 de la presente realización que se construye de la manera que se ha descrito anteriormente.
A continuación se describirá en detalle el tratamiento ejecutado por el dispositivo de codificación de vídeo multivista 100 de la presente realización de acuerdo con este flujo de tratamiento.
65 En primer lugar, se introduce una trama Org que está destinada a codificación por la unidad de entrada de imágenes objeto de codificación 101, y se almacena en la memoria de imágenes objeto de codificación 102. Se introduce una
imagen de síntesis de vistas Sint para la trama objeto de codificación Org por medio de la unidad de entrada de imágenes de síntesis de vistas 103, y se almacena en la memoria de imágenes de síntesis de vistas 104. Se introduce la información de profundidad Profundidad para la trama objeto de codificación Org por medio de la unidad de entrada de información de profundidad 105, y se almacena en la memoria de información de profundidad 106
La imagen de síntesis de vistas y la información de profundidad que se introducen aquí son las mismas que las obtenidas en el dispositivo de decodificación. El motivo de ello es que, al usar la misma información que la información obtenida en el dispositivo de decodificación, puede suprimirse la generación de ruidos de codificación tales como la deriva. Sin embargo, si la generación de dicho ruido de codificación es admisible, también es posible entonces que se introduzca la información de precodificación original.
Debe observarse que la información de profundidad se proporciona desde el exterior del dispositivo de codificación de vídeo multivista 100, sin embargo, tal como se describe en el Documento no de patente 3, también es posible
15 obtener la información de profundidad estimándola a partir de las tramas ya codificadas en otras cámaras. En consecuencia, no es esencial que la información de profundidad sea transmitida desde el lado de emisión al lado de recepción. La imagen de síntesis de vistas se genera usando tramas ya codificadas en cámaras distintas a la primera cámara y la información de profundidad.
A continuación, la trama objeto de codificación se divide en una pluralidad de zonas objeto de codificación, y la señal de imagen de la trama objeto de codificación se codifica por medio de la unidad de codificación de imagen 109 con corrección de la imagen de síntesis de vistas para cada una de estas zonas [A2-A15].
Es decir, si un índice del bloque de tratamiento de codificación se expresa como blq, y si el número total de todos los
25 bloques de tratamiento de codificación se expresa como numBlqs, entonces después de que blq se haya inicializado a 0 [A2], se repiten las etapas siguientes [A3-A13] añadiéndose 1 a blq [A14] hasta que blq llegue a numBlqs [A15].
En el tratamiento que se repite para cada bloque de tratamiento de codificación, el dispositivo de codificación 100 primero determina un grupo de píxeles Nblq de zonas periféricas ya codificadas al bloque blq (es decir, la zona objeto de codificación) [A3].
Para estas zonas periféricas pueden usarse varios tipos de unidad tales como bloques de tratamiento de codificación que son adyacentes al bloque blq, o píxeles adyacentes o similares. Aunque puede usarse una diversidad de definiciones para las zonas periféricas, es necesario que se use la misma definición que se usó en el
35 lado de decodificación.
A continuación, la unidad de determinación de objetos 107a de la unidad de creación de parámetros de corrección 107 agrupa píxeles en el bloque blq usando la información de profundidad proporcionada para cada píxel como referencia [etapa de determinación de objeto A4].
El índice de cada grupo resultante de lo anterior se expresa como obj, el número de grupos se expresa como numObjs, y los píxeles pertenecientes al grupo obj se expresan como Cobj.
Para esta operación de agrupación puede usarse cualquier método, sin embargo, es necesario que se use el mismo
45 método que el usado en el lado de decodificación. El método de agrupación más sencillo es uno en el que se calcula la variación de la información de profundidad para píxeles en el bloque blq, y si el valor de la misma es igual o inferior a un valor umbral entonces todos los píxeles se establecen como un grupo, mientras que si el valor es mayor que el valor umbral, entonces se fija el promedio de los valores de profundidad como un límite y los píxeles se dividen en dos grupos. En este caso, una vez que las variaciones de la información de profundidad de los píxeles en cada grupo se hacen iguales o inferiores a un valor umbral determinado, se pone fin a la agrupación.
Un método de agrupación más complejo es aquél en el que, al inicio, se considera que cada píxel va a formar un grupo. A continuación, cuando se fusionan conjuntamente dos grupos cualesquiera, la fusión se lleva a cabo en secuencia a partir de los grupos que tienen el incremento más reducido en la variación de la información de
55 profundidad de los píxeles dentro del grupo. En este caso, si un grupo que tiene una variación que es superior a un valor umbral determinado termina por crearse sin que importe cuáles son los grupos en particular que se fusionan entre sí, entonces se pone fin a la agrupación.
Debe observarse que dado que la cantidad de cálculo aumenta cuando se incrementa el número de grupos, también es posible definir con antelación un número máximo de grupos. Al poner fin a la operación de agrupación una vez que el número de grupos alcanza este valor máximo, o al definir por adelantado un número mínimo de píxeles que estará contenido dentro de un único grupo de manera que no se creen grupos pequeños, es posible prevenir el crecimiento del número de grupos. Si el tamaño de bloque es 16 x 16 píxeles, que es un tamaño de bloque típico de una unidad para codificación de imagen, entonces en general es raro que se fotografíe un gran número de objetos
65 en el mismo bloque. En consecuencia, puede conseguirse una agrupación altamente precisa incluso si el número máximo de grupos es dos.
Una vez que ha terminado la operación de agrupación, se crea una imagen de predicción Pred corrigiendo la imagen de síntesis de vistas para cada píxel de cada grupo [A5-A11].
Es decir, después de que el índice de grupo obj se ha inicializado a 0 [A5], se llevan a cabo las etapas [A6-A8] en las que, con un incremento de obj en 1 [A10], se estiman los parámetros de corrección con el fin de corregir la imagen de síntesis de vistas en la unidad de creación de parámetros de corrección 107 hasta que obj alcanza el valor numObjs [A11]. Junto con las etapas, en la unidad de corrección de imágenes de síntesis de vistas 108, se lleva a cabo una etapa [A9] para crear una imagen de predicción corrigiendo las imágenes de síntesis de vistas para píxeles contenidos en el grupo obj mediante el uso de los parámetros de predicción estimados.
En el tratamiento de estimación de parámetros de corrección, en primer lugar, basándose en la información de profundidad, se determina un grupo de píxeles Nblq,obj (es decir, un grupo de píxeles de muestra) en el que se fotografía el mismo objeto que en el grupo obj y que se incluye en el grupo de píxeles Nblq en las zonas ya codificadas periféricas al bloque blq (es decir, la zona objeto de codificación) [etapa de determinación de profundidad representativa y etapa de determinación de grupo de píxeles de muestra A6].
Específicamente, en este tratamiento, en primer lugar, en la unidad de determinación de profundidad representativa 107b, se determina un valor de profundidad representativo Dobj para el grupo obj (etapa de determinación de profundidad representativa). Puede usarse cualquier método para determinar el valor de profundidad representativo Dobj siempre que sea posible determinar un único valor de profundidad a partir de la información de profundidad en los píxeles Cobj dentro del grupo obj. Sin embargo, es necesario usar el mismo tratamiento que el que se usó en el lado del decodificador. Por ejemplo, puede usarse un valor promedio o un valor medio o similares. En el caso de que se usen valores promedio, el valor de profundidad representativo Dobj puede expresarse mediante la Fórmula (1) siguiente. Debe observarse que || || muestra el número de píxeles en el conjunto.
1 ∑ [] (1)
Dobj =
∈
pC
obj
Cobj
Debe observarse que algunos métodos de agrupación, en los que se dividen los píxeles en varios grupos usando la información de profundidad como referencia en la etapa de determinación de objeto A4, determinan los píxeles y/o la información de profundidad que representa cada grupo como parte de su proceso. Si se usa este tipo de método, puede usarse la información de profundidad para el píxel usado como representativo del grupo en ese momento y también la información de profundidad que muestra el grupo como valores de profundidad representativos. En este caso, el tratamiento de la etapa de determinación de profundidad representativa se lleva a cabo al mismo tiempo en la etapa de determinación de objeto A4. La propagación de afinidad es uno de los métodos más conocidos en el que la decisión del valor representativo del grupo y el tratamiento de agrupación se realizan de forma simultánea. Los detalles de este método se describen en "Clustering by Passing Messages Between Data Points", B. J. Frey y D. Dueck, Science 2007, Vol. 315(5814): pág. 972-976.
Cuando el valor de profundidad representativo Dobj se ha determinado de esta manera, a continuación, en la unidad de determinación de grupo de píxeles de muestra 107c, se determina un grupo de píxeles Nblq,obj (es decir, un grupo de píxeles de muestra) en el que se fotografía el mismo objeto que en el grupo obj y que es un subconjunto del grupo Nblq (etapa de determinación de grupo de píxeles de muestra). Tal como se muestra mediante la fórmula (2) siguiente, el grupo Nblq,obj puede definirse seleccionando los píxeles en los que la diferencia absoluta entre su valor de profundidad y el valor de profundidad representativo es menor que el umbral predefinido umbMismoObj.
blq obj blq
,
obj
Después de haber determinado el grupo Nblq,obj, se selecciona un modelo de corrección mediante la unidad de selección de modelo de corrección 107d a partir de modelos de corrección predefinidos basándose en el número de píxeles en este grupo [etapa de selección de modelo de corrección A7].
Es posible preparar varios modelos de corrección, sin embargo, es necesario que se prepare también el mismo modelo de corrección en el lado de decodificación, y asimismo es necesario usar los mismos criterios para decidir un modo de corrección que se usará. Por otra parte, si sólo se ha preparado un modelo de corrección, entonces puede omitirse esta etapa.
El tratamiento para crear una imagen de predicción corrigiendo una imagen de síntesis de vistas que se lleva a cabo en la etapa 9A (descrita más adelante) puede expresarse como una función que tiene una imagen de síntesis de vistas como entrada y que produce en salida una imagen de predicción. El término modelo de corrección se refiere a un modelo de la función usado en este momento. Puede tratarse, por ejemplo, de una corrección basada en
desplazamiento, una corrección que emplea una función lineal o un tratamiento de filtro lineal bidimensional que tiene una longitud de derivación k. Cuando el píxel que se va a corregir se denota como p, lo anterior puede expresarse mediante la fórmula (3) a la fórmula (5) siguientes, respectivamente.
Pred [ p]= Sint [ p]+ desplazamiento (3)
Pred [ p]=α⋅ Sint [ p]+β (4)
i =kj =k
Pred p = F ⋅ Sint ⎡p + i, jr ⎤ + o
[] ∑∑ ( ij , ( )) (5)
⎣⎦
i =−kj =−k
La corrección basada en desplazamiento y la corrección que emplea una función lineal son ejemplos típicos de corrección que se basan en tratamiento de filtro lineal. Debe observarse que no es necesario que el tratamiento de corrección sea un tratamiento lineal y también es posible usar un filtro no lineal siempre que sea posible la estimación del parámetro de corrección. Un ejemplo de un método de corrección no lineal es la corrección gamma. La corrección gamma puede expresarse mediante la fórmula (6) siguiente.
[ ] = Sint [ ] − a)γ (6)
Pred p ( p + b
En los ejemplos de estos modelos de corrección, desplazamiento, (α, β), ({Fi,j}, o)y(γ, a, b) forman respectivamente los parámetros de corrección. Es decir, el número de parámetros de corrección cambia dependiendo del modelo de corrección.
Cuando el número de parámetros de corrección aumenta, se hace posible realizar una corrección más precisa, sin embargo, con el fin de decidir estos parámetros de corrección, es necesario que el número de muestras sea igual o superior al número de parámetros de corrección. Tal como se describe más adelante, dado que esta muestra forma una imagen de síntesis de vistas y una imagen decodificada de los píxeles de muestra contenidos en el grupo Nblq,obj, descrito anteriormente decidiendo el modelo de corrección de acuerdo con el número de píxeles del grupo Nblq,obj, se hace posible realizar correcciones precisas. Debe observarse que usando el máximo número de muestras posible en la estimación de los parámetros de corrección se facilita una estimación más robusta de los parámetros de corrección. En consecuencia, es deseable seleccionar el modelo de corrección de manera que asegure una robustez suficiente.
Después de haber seleccionado un único modelo de corrección, en la unidad de estimación de parámetros de corrección 107e, se toman como muestras una imagen de síntesis de vistas Sint y una imagen decodificada Dec para los píxeles de muestra contenidos en el grupo Nblq,obj, y se estiman los parámetros de corrección en el modelo de corrección seleccionado [etapa de estimación de parámetros de corrección A8].
En la estimación de los parámetros de corrección realizada en este caso, se supone que el valor de precorrección y el valor ideal corregido son la imagen de síntesis de vistas y la imagen decodificada, respectivamente. A continuación se determinan los parámetros de corrección de manera que se reduzca al mínimo la suma de error, para todos los píxeles en el grupo Nblq,obj entre el valor ideal y el valor que es consecuencia de la corrección usando el modelo de corrección de cada píxel.
Por ejemplo, si se usa tratamiento lineal para la corrección, entonces los parámetros de corrección pueden decidirse usando el método de los mínimos cuadrados. Es decir, cuando M denota la corrección, la estimación puede realizarse mediante la minimización de un valor expresado por la fórmula (7) siguiente:
∑ Dec [] p − M Sint [ ] ))
(( p (7)
p∈N
blq obj
,
Es decir, es posible determinar los parámetros de corrección resolviendo ecuaciones simultáneas en las que la derivada parcial de la fórmula (7) con respecto a cada parámetro de corrección es igual a 0.
Una vez que se han estimado los parámetros de corrección, en la unidad de corrección de imágenes de síntesis de vistas 108, mediante la corrección de la imagen de síntesis de vistas Sint para el grupo obj del bloque blq usando los parámetros de corrección, se crea una imagen de predicción Pred para el grupo obj del bloque blq [etapa de corrección de imágenes de síntesis de vistas A9].
Específicamente, tal como se muestra en el flujo de tratamiento en la figura 3, el tratamiento para crear esta imagen de predicción Pred se realiza para cada píxel. En este caso, en el flujo de tratamiento de la figura 3, pix indica información de identificación de píxel, y numPixblq,obj indica el número de píxeles en el grupo obj del bloque blq.
5 Por ejemplo, en el caso de corrección que se realiza usando valores de desplazamiento, la imagen de predicción Pred se crea de acuerdo con la fórmula (3) descrita anteriormente.
Para la creación de esta imagen de predicción Pred, se describe un ejemplo en el que la corrección de la fórmula (3) que emplea valores de desplazamiento se realiza como el método de corrección (es decir, el modelo de corrección). Tal como se muestra en la figura 4, en la etapa de estimación de parámetros de corrección A8, estimando el desplazamiento cuando los valores de píxel de las imágenes de síntesis de vistas para el mismo objeto que está presente en zonas periféricas que ya han sido codificadas se toman como Entrada, y los valores de píxel de imágenes decodificadas de ese objeto se toman como Salida, se construye una ecuación de conversión para píxeles como modelo de corrección. A continuación, en la etapa S9, se realiza un tratamiento para generar la imagen de
15 predicción para el grupo obj del bloque blq sustituyendo los valores de píxel de la imagen de síntesis de vistas en el grupo obj del bloque blq en Entrada de la ecuación de conversión construida.
Después de que haya terminado la creación de la imagen de predicción para el bloque blq, en la unidad de codificación de imagen 109, se realiza codificación de la trama objeto de codificación Org para el bloque blq [etapa de codificación de imagen A12] con la imagen de predicción Pred creada en la etapa A9 usada para la señal de predicción.
En esta etapa de codificación A12, no existen restricciones en las que pueda usarse el método de codificación, sin embargo, en un método de codificación típico tal como H.264, la codificación se lleva a cabo aplicando codificación
25 DCT-cuantificación-binarización-entropía en la diferencia entre Org y Pred.
El tren de bits resultante de la codificación forma la salida del dispositivo de codificación de vídeo multivista 100. Por otra parte, el tren de bits resultante de la codificación es decodificado por la unidad de decodificación de imagen 110 para cada bloque, y una imagen decodificada Dec que es el resultado obtenido de la decodificación se almacena en la memoria de imágenes decodificadas 111 que se usará para estimar parámetros de corrección en otros bloques [etapa de decodificación de imagen A13].
De esta manera, incluso en casos en los que se producen ausencias de correspondencia de iluminación o de color entre cámaras de una forma localizada de acuerdo con el objeto, el dispositivo de codificación de vídeo multivista
35 100 que se construye de la manera mostrada en la figura 1 determina los parámetros de corrección para compensar estas ausencias de correspondencia de una forma localizada de acuerdo con el objeto con el fin de hacer posible la codificación de vídeo multivista con un alto nivel de eficiencia. Por otra parte, con el fin de evitar cualquier incremento en la cantidad de código, este dispositivo de codificación de vídeo multivista 100 determina estos parámetros de corrección de tal manera que es innecesario codificar/decodificar los parámetros de corrección obtenidos mientras el vídeo multivista se codifica con la corrección local de iluminación y de color.
En la presente realización, se ha descrito un caso en el que la señal de imagen del bloque blq se codifica con el uso de imágenes de síntesis de vistas que son esenciales, sin embargo, puede usarse también la predicción que usa imágenes de síntesis de vistas descritas en la presente realización como un modo de predicción de entre una
45 pluralidad de modos de predicción.
[2] Dispositivo de decodificación de vídeo multivista según una segunda realización de la presente invención
En la figura 5 se muestra la estructura de un dispositivo de decodificación de vídeo multivista 200 según la segunda realización de la presente invención.
Tal como se muestra en la figura 5, en el dispositivo de decodificación de vídeo multivista 200 de la presente realización, una unidad de entrada de datos codificados 201 recibe datos codificados de imagen (es decir, tramas) de un objeto o escena fotografiado por una primera cámara como un objeto de decodificación. La memoria de datos
55 codificados 202 almacena datos codificados introducidos desde la unidad de entrada de datos codificados 201. Los datos codificados almacenados son suministrados a una unidad de decodificación de imagen 209.
Una unidad de entrada de imágenes de síntesis de vistas 203 recibe entradas de imágenes de síntesis de vistas para decodificación de imágenes objeto. Las imágenes de síntesis de vistas han sido generadas usando las imágenes ya decodificadas en las que se fotografió el mismo objeto o escena por segundas cámaras colocadas en diferentes posiciones a la de la primera cámara. La memoria de imágenes de síntesis de vistas 204 almacena imágenes de síntesis de vistas introducidas desde la unidad de entrada de imágenes de síntesis de vistas 203. Las imágenes de síntesis de vistas almacenadas son suministradas a una unidad de creación de parámetros de corrección 207 y una unidad de corrección de imágenes de síntesis de vistas 208.
65 Una unidad de entrada de información de profundidad 205 recibe entradas de información de profundidad para
tramas destinadas a decodificación. La memoria de información de profundidad 206 almacena información de profundidad introducida desde la unidad de entrada de información de profundidad 205. La información de profundidad almacenada es suministrada a la unidad de creación de parámetros de corrección 207.
5 La unidad de creación de parámetros de corrección 207 estima los parámetros de corrección usando imágenes de síntesis de vistas, información de profundidad e imágenes decodificadas usadas en zonas periféricas de una zona objeto de decodificación, y usando la información de profundidad usada en la zona objeto de decodificación. La unidad de corrección de imágenes de síntesis de vistas 208 corrige imágenes de síntesis de vistas de la zona destinada a decodificación usando los parámetros de corrección estimados.
La unidad de decodificación de imagen 209 decodifica señales de imagen de la zona objeto de decodificación usando las imágenes de síntesis de vistas corregidas como señales de predicción. (10) La memoria de imágenes decodificadas 210 almacena imágenes decodificadas por la unidad de decodificación de imagen 209.
15 Tal como se muestra en la figura 8, la unidad de creación de parámetros de corrección 207 tiene una unidad de determinación de objetos 207a a la que se suministra información de profundidad desde la memoria de información de profundidad 206, y una unidad de determinación de profundidad representativa 207b y una unidad de determinación de grupo de píxeles de muestra 207c que están conectadas en esta secuencia con el lado de flujo descendente de la unidad de determinación de objetos 207a. Una unidad de selección de modelo de corrección 207d y una unidad de estimación de parámetros de corrección 207e están conectadas en esta secuencia con el lado de flujo descendente de la unidad de determinación de grupo de píxeles de muestra 207c. Las imágenes decodificadas de la memoria de imágenes decodificadas 210 y las imágenes de síntesis de vistas de la memoria de imágenes de síntesis de vistas 204 son suministradas a la unidad de estimación de parámetros de corrección 207e, y los parámetros de corrección estimados usando las imágenes decodificadas y las imágenes de síntesis de vistas
25 suministradas son suministrados a la unidad de corrección de imágenes de síntesis de vistas 208.
La figura 6 muestra el flujo de tratamiento ejecutado por el dispositivo de decodificación de vídeo multivista 200 de la segunda realización que está estructurado de la manera que se ha descrito anteriormente.
A continuación se describirá en detalle el tratamiento ejecutado por el dispositivo de decodificación de vídeo multivista 200 de la presente realización de acuerdo con este flujo de tratamiento.
En primer lugar, los datos codificados para una trama que está destinada a decodificación son introducidos por la unidad de introducción de datos de decodificación 201, y se almacena en la memoria de datos codificados 202. Una
35 imagen de síntesis de vistas Sint para el objeto de decodificación trama es introducida por la unidad de entrada de imágenes de síntesis de vistas 203, y se almacena en la memoria de imágenes de síntesis de vistas 204. La información de profundidad Profundidad para la trama objeto de decodificación es introducida por la unidad de entrada de información de profundidad 205, y se almacena en la memoria de información de profundidad 206 [B1].
La imagen de síntesis de vistas y la información de profundidad que se introducen en este caso son las mismas que las obtenidas por el dispositivo de codificación. El motivo de ello es que, usando la misma información que la información obtenida en el dispositivo de codificación, puede suprimirse la generación de ruidos de codificación como la deriva. Sin embargo, si la generación de dicho ruido de codificación es admisible, entonces también es posible que se introduzca una información diferente de la obtenida por el dispositivo de codificación.
45 Debe observarse que la información de profundidad es proporcionada desde el exterior del dispositivo de decodificación de vídeo multivista 200, sin embargo, tal como se describe en el Documento no de patente 3, también es posible obtener la información de profundidad estimándola a partir de tramas ya decodificadas en otras cámaras. En consecuencia, no es esencial que la información de profundidad sea transmitida desde el lado de emisión al lado de recepción. La imagen de síntesis de vistas se genera usando tramas ya decodificadas en cámaras distintas a la primera cámara e información de profundidad.
A continuación, el objeto de decodificación trama se divide en una pluralidad de zonas objeto de decodificación, y la señal de imagen de la trama objeto de decodificación es decodificada por la unidad de decodificación de imagen 209
55 corrigiendo la imagen de síntesis de vistas para cada una de estas zonas [B2-B14].
Es decir, si un índice del bloque de tratamiento de decodificación se expresa como blq, y si el número total de todos los bloques de tratamiento de decodificación se expresa como numBlqs, entonces después de que blq se haya inicializado a 0 [B2], se repiten las etapas siguientes [B3-B12] añadiendo 1 a blq [B13] hasta que blq llegue a numBlqs [B14].
En el tratamiento que se repite para cada bloque de tratamiento de decodificación, el dispositivo de decodificación 200 determina primero un grupo de píxeles Nblq de zonas ya decodificadas periféricas al bloque blq (es decir, la zona objeto de decodificación) [B3].
65 Pueden usarse varios tipos de unidad para estas zonas periféricas tales como bloques de tratamiento de
decodificación que son adyacentes al bloque blq, o píxeles adyacentes o similares. Aunque puede usarse una variedad de definiciones para las zonas periféricas, es necesario que se use la misma definición que se usó en el lado de codificación.
5 A continuación, la unidad de determinación de objetos 207a de la unidad de creación de parámetros de corrección 207 agrupa píxeles en el bloque blq usando la información de profundidad proporcionada para cada píxel como referencia [etapa de determinación de objeto B4].
El índice de cada grupo resultante de ello se expresa como obj, el número de grupos se expresa como numObjs y los píxeles pertenecientes al grupo obj se expresan como Cobj. El tratamiento realizado en este caso es el mismo que el llevado a cabo en la etapa de determinación de objeto A4 de la primera realización.
Una vez que ha terminado la agrupación, se crea una imagen de predicción Pred corrigiendo la imagen de síntesis de vistas para cada píxel de cada grupo [B5-B11].
15 Es decir, después de que se ha inicializado el índice del grupo obj a 0 [B5], se realizan las etapas [B6-B8] en las que, con incremento de obj en 1 [B10], se estiman los parámetros de corrección con el fin de corregir la imagen de síntesis de vistas en la unidad de creación de parámetros de corrección 207 hasta que obj llega a numObjs [B11]. Junto con las etapas, en la unidad de corrección de imágenes de síntesis de vistas 208, se lleva a cabo una etapa [B9] para crear una imagen de predicción corrigiendo las imágenes de síntesis de vistas para píxeles contenidos en el grupo obj usando los parámetros de predicción estimados.
El tratamiento en esta etapa B9 es el mismo que en la etapa A9 de la primera realización y, tal como se muestra en el flujo de tratamiento en la figura 7, se realiza para cada píxel. En este caso, en el flujo de tratamiento en la figura 7,
25 pix indica información de identificación de píxel, y numPixblq,obj indica el número de píxeles en el grupo obj del bloque blq. Las etapas de estimación de parámetros de corrección [B6-B8] que son realizadas por la unidad de determinación de profundidad representativa 207b, la unidad de determinación de grupo de píxeles de muestra 207c, la unidad de selección de modelo de corrección 207d y la unidad de estimación de parámetros de corrección 207e son las mismas que en las etapas A6-A8 de la primera realización.
Después de que ha terminado la creación de la imagen de predicción para el bloque blq, en la unidad de decodificación de imagen 209, la imagen objeto de decodificación Dec se decodifica para el bloque blq [B12] con la imagen de predicción Pred creada en la etapa B9 usándose para la señal de predicción.
35 Es necesario que el tratamiento de decodificación realizado en este caso se corresponda con el método usado cuando se crearon los datos codificados. Por ejemplo, si la codificación se realizó usando H.264, entonces el tratamiento de decodificación se realiza añadiendo la señal de predicción a la señal residual decodificada aplicando decodificación de entropía, multiplexación de valores, cuantificación inversa y DCT inversa.
La imagen decodificada resultante de la decodificación forma la salida del dispositivo de decodificación multivista 200, y se almacena en la memoria de imágenes decodificadas 210 que se usará para estimar los parámetros de corrección en otros bloques.
De esta manera, el dispositivo de decodificación de vídeo multivista 200 que está estructurado de la forma descrita
45 anteriormente tal como se muestra en la figura 5 decodifica los datos codificados de la decodificación multivista de vídeo creada por el dispositivo de codificación de vídeo multivista 100 tal como se muestra en la figura 1.
En la presente realización, se ha descrito un caso en el que el bloque blq se codifica con el uso de imágenes de síntesis de vistas que son esenciales. Incluso en casos en los que los datos codificados se decodifican empleando como uno de una pluralidad de modos de predicción existentes un modo de predicción que hace uso de imágenes de síntesis de vistas, las imágenes sólo se decodifican de acuerdo con el flujo de tratamiento descrito anteriormente cuando este modo de predicción se está usando, aun cuando se estén usando otros modos de predicción, las imágenes pueden decodificarse usando un método de decodificación convencional que corresponde al del modo de predicción (es decir, a uno de estos otros modos de predicción).
55 En las realizaciones primera y segunda descritas anteriormente, se realizan correcciones en todos los bloques, sin embargo, también es posible emplear una estructura en la que se elige si se realiza o no una corrección codificando un bit de información de bandera en cada bloque.
Por otra parte, también existe un método en el que se mide la fiabilidad de los parámetros de corrección, y a continuación se elige realizar o no una corrección basándose en el grado de la fiabilidad en lugar de codificar un bit de información de bandera.
Específicamente, es posible, después de haber determinado los parámetros de corrección en la etapa A8 y la etapa 65 B8, calcular un valor que expresa la viabilidad y la eficacia de la corrección, por ejemplo, usando las fórmulas (8) a
(10) siguientes. Las unidades de corrección de imágenes de síntesis de vistas 108 y 208 corrigen la imagen de
síntesis de vistas en la etapa A9 y la etapa B9 y la envían como imágenes de predicción sólo cuando el valor calculado es mayor que un valor umbral predefinido, mientras que en todos los demás casos, la imagen de síntesis de vistas sin correcciones se envía como imagen de predicción.
R = ∑ Dec [ p]− Sint [ p]− Dec [ p]− Pred [ p]
(8)
p∈N
blq obj
,
[] [] − Dec p − Pred p
R = ∑ Dec p − Sint p 2
p∈N
blq obj
,
Dec p − Pred p
p∈N
,
blq obj
R = 1−
2 (10)
⎛⎞
⎜ Dec p − Dec q ⎟
∑ ( [] ) ⎟
N
p∈N q∈N
,
blq obj
,
blq obj
,
blq obj
⎝ ⎠
El primer término de la fórmula (8) muestra la suma de diferencias absolutas entre la imagen decodificada Dec y la imagen de síntesis de vistas Sint, mientras que el segundo término muestra la suma de diferencias absolutas entre la imagen decodificada Dec y la imagen de predicción Pred. Es decir, la fórmula (8) muestra cuántas veces se ha reducido la suma de diferencias absolutas entre el valor verdadero y el valor de predicción mediante la corrección. Por otra parte, el primer término de la fórmula (9) muestra la suma de las diferencias al cuadrado entre la imagen decodificada Dec y la imagen de síntesis de vistas Sint, mientras que el segundo término muestra la suma de las diferencias al cuadrado entre la imagen decodificada Dec y la imagen de predicción Pred. Es decir, la fórmula (9) muestra la magnitud en que se ha reducido la suma de las diferencias al cuadrado entre el valor verdadero y el valor de predicción mediante la corrección. La fórmula (10) muestra la viabilidad del modelo de corrección en las muestras. En este caso, dado que todos estos valores se determinan usando valores no procedentes del bloque objeto de tratamiento, sino de zonas periféricas del mismo, sólo es necesario codificar aquellos valores umbral que se usan universalmente y después proporcionar estos valores al lado de decodificación.
Debe observarse que en la presente realización, se ha descrito el tratamiento para codificar o decodificar una trama de una cámara, sin embargo, repitiendo este tratamiento para cada trama, es posible conseguir la codificación o decodificación de un vídeo multivista. Además, repitiendo este tratamiento para cada cámara, es posible conseguir la codificación o decodificación del vídeo multivista de una pluralidad de cámaras.
El tratamiento descrito anteriormente puede conseguirse también mediante un ordenador y un programa de software, y dicho programa puede ser suministrado grabándolo en un medio de grabación legible por el ordenador, o puede ser suministrado a través de una red.
Por otra parte, en las realizaciones descritas anteriormente, la descripción se centra en un dispositivo de codificación de vídeo multivista y un dispositivo de decodificación de vídeo multivista, sin embargo, el método de codificación de vídeo multivista de la presente invención puede conseguirse por medio de etapas que corresponden a las operaciones de cada parte de este dispositivo de codificación de vídeo multivista. De la misma forma, el método de decodificación de vídeo multivista de la presente invención puede conseguirse por medio de etapas que corresponden a las operaciones de cada parte de este dispositivo de decodificación de vídeo multivista.
Si bien anteriormente se han descrito e ilustrado realizaciones preferidas de la invención, debe entenderse que estas realizaciones constituyen ejemplos de la invención y no deben considerarse como limitativas. Pueden realizarse añadidos, omisiones, sustituciones y otras modificaciones sin apartarse del alcance de la presente invención. En consecuencia, no debe considerarse que la invención está limitada por la descripción precedente y está limitada únicamente por el alcance de las reivindicaciones adjuntas.
La presente invención puede aplicarse a métodos de codificación de imagen multivista. Aplicando la presente invención, es posible conseguir una codificación y decodificación altamente eficaz de imagen multivista y vídeo multivista en las que existen ausencias de correspondencia de iluminación o de color locales y dependientes del objeto entre cámaras, y que es capaz de reducir enormemente la cantidad de código necesaria en los casos en los que se emplea esta nueva invención.
Símbolos de referencia
100 Dispositivo de codificación de vídeo multivista
101 Unidad de entrada de imágenes objeto de codificación 102 Memoria de imágenes objeto de codificación 103 Unidad de entrada de imágenes de síntesis de vistas 104 Memoria de imágenes de síntesis de vistas
5 105 Unidad de entrada de información de profundidad 106 Memoria de información de profundidad 107 Unidad de creación de parámetros de corrección 108 Unidad de corrección de imágenes de síntesis de vistas 109 Unidad de codificación de imagen
10 110 Unidad de decodificación de imagen 111 Memoria de imágenes decodificadas 200 Dispositivo de decodificación de vídeo multivista 201 Unidad de entrada de datos codificados 202 Memoria de datos codificados
15 203 Unidad de entrada de imágenes de síntesis de vistas 204 Memoria de imágenes de síntesis de vistas 205 Unidad de entrada de información de profundidad 206 Memoria de información de profundidad 207 Unidad de creación de parámetros de corrección
20 208 Unidad de corrección de imágenes de síntesis de vistas 209 Unidad de decodificación de imagen 210 Memoria de imágenes decodificadas
Claims (8)
- REIVINDICACIONES1. Un método de codificación de imágenes multivista en el que una imagen de entrada de un objeto que es fotografiado por una primera cámara se divide en una pluralidad de zonas objeto de codificación y, usando una5 imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen de entrada y a partir de una imagen ya codificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, se realiza codificación predictiva para cada una de las zonas objeto de codificación, que comprende una etapa de codificación de imagen (A12) durante la cual, usando la imagen de síntesis de vistas, se codifica una señal de imagen de la imagen objeto de codificación de manera que se crean datos codificados, siendo los datos codificados decodificados de manera que se crea una imagen decodificada para la zona objeto de codificación en una etapa de decodificación de imagen (A13); estando el método de codificación de imágenes multivista caracterizado porque comprende:
- -
- una etapa de determinación de profundidad representativa (A6) durante la cual se establece la información de 15 profundidad representativa para un objeto fotografiado en la zona objeto de codificación,
- -
- una etapa de determinación de grupo de píxeles de muestra (A6) durante la cual en la imagen de entrada se determina un grupo de píxeles en el que se ha fotografiado el mismo objeto que en la zona objeto de codificación seleccionando píxeles de una zona ya codificada que es adyacente a la zona objeto de codificación, en la que la diferencia absoluta entre un valor de profundidad de la misma y el valor de profundidad representativo es menor que un umbral predefinido y el grupo de píxeles se establece como un grupo de píxeles de muestra,
- -
- una etapa de estimación de parámetros de corrección (A8) durante la cual, basándose en la imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de
25 píxeles de muestra, se estiman los parámetros de corrección para corregir al menos una de las ausencias de correspondencia de iluminación o de color de manera que se reduzca al mínimo la suma de valores que representan un error entre los valores de píxel de la imagen decodificada para el grupo de píxeles de muestra y los valores de píxel de la imagen de síntesis de vistas para el grupo de píxeles de muestra que son corregidos usando un modelo de corrección para el grupo de píxeles de muestra, y- -
- una etapa de corrección de imágenes de síntesis de vistas (A9) durante la cual la imagen de síntesis de vistas para el objeto es corregida de manera que se crea una imagen de síntesis de vistas corregida aplicando una función de corrección definida por los parámetros de corrección para la imagen de síntesis de vistas;
35 en el que la señal de imagen de la imagen objeto de codificación se codifica usando la imagen de síntesis de vistas corregida en la etapa de codificación de imagen (A12). - 2. El método de codificación de imágenes multivista según la reivindicación 1, en el que:
- -
- se proporciona una etapa de determinación de objeto (A4) durante la cual los píxeles en la zona objeto de codificación se dividen en uno o varios grupos usando la información de profundidad para los píxeles pertinentes como referencia, y
- -
- en la etapa de determinación de profundidad representativa, se establece la información de profundidad 45 representativa para cada grupo determinado en la etapa de determinación de objeto,
- -
- en la etapa de determinación de grupo de píxeles de muestra, se establece un grupo de píxeles de muestra para cada grupo determinado en la etapa de determinación de objeto,
- -
- en la etapa de estimación de parámetros de corrección, se estiman los parámetros de corrección para cada grupo determinado en la etapa de determinación de objeto, y
- -
- en la etapa de corrección de imágenes de síntesis de vistas, se corrige una imagen de síntesis de vistas para cada grupo determinado en la etapa de determinación de objeto.
- 3. El método de codificación de imágenes multivista según la reivindicación 1 ó 2, en el que:
- -
- se proporciona una etapa de selección de modelo de corrección (A7) durante la cual se selecciona un modelo de corrección para corregir la imagen de síntesis de vistas para la zona objeto de codificación de acuerdo con el número de píxeles en el grupo de píxeles de muestra, y
- -
- en la etapa de estimación de parámetros de corrección, se estiman los parámetros de corrección para el modelo de corrección seleccionado en la etapa de selección de modelo de corrección, y
65 -en la etapa de corrección de imágenes de síntesis de vistas, se corrige la imagen de síntesis de vistas usando el modelo de corrección seleccionado en la etapa de selección de modelo de corrección. - 4. Un método de decodificación de imágenes multivista en el que una imagen objeto de decodificación de un objeto que es fotografiado por una primera cámara se divide en una pluralidad de zonas objeto de decodificación, y usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen objeto de5 decodificación y a partir de una imagen decodificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, se realiza decodificación predictiva para cada una de las zonas objeto de decodificación, que comprende una etapa de decodificación de imagen (B12) en la que, usando la imagen de síntesis de vistas, se decodifica una señal de imagen de la imagen objeto de decodificación; estando el método de decodificación de imágenes multivista caracterizado porque comprende:
- -
- una etapa de determinación de profundidad representativa (B6) durante la cual se establece la información de profundidad representativa para un objeto fotografiado en la zona objeto de decodificación,
- -
- una etapa de determinación de grupo de píxeles de muestra (B6) durante la cual se determina un grupo de píxeles
15 en el que el mismo objeto que en la zona objeto de decodificación ha sido fotografiado en la imagen objeto de decodificación seleccionando píxeles de una zona ya codificada que es adyacente a la zona objeto de codificación, en la que la diferencia absoluta entre un valor de profundidad de la misma y el valor de profundidad representativo es menor que un umbral predefinido y el grupo de píxeles se establece como un grupo de píxeles de muestra,- -
- una etapa de estimación de parámetros de corrección (B8) durante la cual, basándose en la imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de píxeles de muestra, se estiman los parámetros de corrección para corregir al menos una de las ausencias de correspondencia de iluminación o de color de manera que se reduzca al mínimo la suma de valores que representan un error entre los valores de píxel de la imagen decodificada para el grupo de píxeles de muestra y los valores de
25 píxel de la imagen de síntesis de vistas para el grupo de píxeles de muestra que son corregidos usando un modelo de corrección para el grupo de píxeles de muestra, y- -
- una etapa de corrección de imágenes de síntesis de vistas (B9) durante la cual se corrige la imagen de síntesis de vistas para el objeto de manera que se crea una imagen de síntesis de vistas corregida aplicando una función de corrección definida por los parámetros de corrección para la imagen de síntesis de vistas;
en el que la señal de imagen de la imagen objeto de decodificación se decodifica usando la imagen de síntesis de vistas corregida en la etapa de decodificación de imagen (B12).35 5. El método de decodificación de imágenes multivista según la reivindicación 4, en el que:- -
- se proporciona una etapa de determinación de objeto (B4) durante la cual los píxeles en la zona objeto de decodificación se dividen en uno o varios grupos usando la información de profundidad para los píxeles pertinentes como referencia, y
- -
- en la etapa de determinación de profundidad representativa, se establece la información de profundidad representativa para cada grupo determinado en la etapa de determinación de objeto,
- -
- en la etapa de determinación de grupo de píxeles de muestra, se establece un grupo de píxeles de muestra para 45 cada grupo determinado en la etapa de determinación de objeto,
- -
- en la etapa de estimación de parámetros de corrección, se estiman los parámetros de corrección para cada grupo determinado en la etapa de determinación de objeto, y
- -
- en la etapa de corrección de imágenes de síntesis de vistas, se corrige una imagen de síntesis de vistas para cada grupo determinado en la etapa de determinación de objeto.
- 6. El método de decodificación de imágenes multivista según la reivindicación 4 ó 5, en el que:55 -se proporciona una etapa de selección de modelo de corrección (B7) durante la cual se selecciona un modelo de corrección para corregir la imagen de síntesis de vistas para la zona objeto de decodificación de acuerdo con el número de píxeles en el grupo de píxeles de muestra, y
- -
- en la etapa de estimación de parámetros de corrección, se estiman los parámetros de corrección para el modelo de corrección seleccionado en la etapa de selección de modelo de corrección, y
- -
- en la etapa de corrección de imágenes de síntesis de vistas, se corrige la imagen de síntesis de vistas usando el modelo de corrección seleccionado en la etapa de selección de modelo de corrección.
65 7. Un dispositivo de codificación de imágenes multivista que codifica imágenes multivista dividiendo una imagen de entrada de un objeto que es fotografiado por una primera cámara en una pluralidad de zonas objeto de codificacióny, usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen de entrada y a partir de una imagen ya codificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, realizando codificación predictiva para cada una de las zonas objeto de codificación, que comprende una unidad de codificación de imagen (109) que, usando la imagen de5 síntesis de vistas, codifica una señal de imagen de la imagen objeto de codificación de manera que se crean datos codificados, siendo los datos codificados decodificados de manera que se crea una imagen decodificada para la zona objeto de codificación mediante una unidad de decodificación de imagen (110), estando el dispositivo de codificación de imágenes multivista caracterizado porque comprende:- -
- una unidad de determinación de profundidad representativa (107b) que establece la información de profundidad representativa para un objeto fotografiado en la zona objeto de codificación,
- -
- una unidad de determinación de grupo de píxeles de muestra (107c) que determina un grupo de píxeles en el que el mismo objeto que en la zona objeto de codificación ha sido fotografiado en la imagen de entrada seleccionando
15 píxeles de una zona ya codificada que es adyacente a la zona objeto de codificación, en la que la diferencia absoluta entre un valor de profundidad de la misma y el valor de profundidad representativo es menor que un umbral predefinido y el grupo de píxeles se establece como un grupo de píxeles de muestra,- -
- una unidad de estimación de parámetros de corrección (107e) que, basándose en la imagen de síntesis de vistas para el grupo de píxeles de muestra y en una imagen decodificada que ya ha sido decodificada para el grupo de píxeles de muestra, estima los parámetros de corrección para corregir al menos una de las ausencias de correspondencia de iluminación o de color de manera que se reduzca al mínimo la suma de valores que representan un error entre los valores de píxel de la imagen decodificada para el grupo de píxeles de muestra y los valores de píxel de la imagen de síntesis de vistas para el grupo de píxeles de muestra que son corregidos usando un modelo
25 de corrección para el grupo de píxeles de muestra, y- -
- una unidad de corrección de imágenes de síntesis de vistas (108) que corrige la imagen de síntesis de vistas para el objeto de manera que se crea una imagen de síntesis de vistas corregida aplicando una función de corrección definida por los parámetros de corrección para la imagen de síntesis de vistas;
en el que la unidad de codificación de imagen (109) codifica la señal de imagen de la imagen objeto de codificación usando la imagen de síntesis de vistas corregida. - 8. Un dispositivo de decodificación de imágenes multivista que decodifica datos codificados para imágenes multivista35 dividiendo una imagen objeto de decodificación de un objeto que es fotografiado por una primera cámara en una pluralidad de zonas objeto de decodificación y, usando una imagen de síntesis de vistas que se sintetiza a partir de la información de profundidad para la imagen objeto de decodificación y a partir de una imagen decodificada del mismo objeto fotografiado por una segunda cámara que está situada en una posición diferente a la de la primera cámara, realizando decodificación predictiva para cada una de las zonas objeto de decodificación, que comprende una unidad de decodificación de imagen (209) que, usando la imagen de síntesis de vistas, decodifica una señal de imagen de la imagen objeto de decodificación; estando el dispositivo de decodificación de imágenes multivista caracterizado porque comprende:
- -
- una unidad de determinación de profundidad representativa (207b) que establece la información de profundidad 45 representativa para un objeto fotografiado en la zona objeto de decodificación,
- -
- una unidad de determinación de grupo de píxeles de muestra (207c) en la que en la imagen objeto de decodificación se determina un grupo de píxeles en el que ha sido fotografiado el mismo objeto que en la zona objeto de decodificación seleccionando píxeles de una zona ya codificada que es adyacente a la zona objeto de codificación, en la que la diferencia absoluta entre un valor de profundidad de la misma y la profundidad representativa es menor que un umbral predefinido y el grupo de píxeles se establece como un grupo de píxeles de muestra,
- -
- una unidad de estimación de parámetros de corrección (207e) que, basándose en la imagen de síntesis de vistas
55 para el grupo de píxeles de muestra y en una imagen decodificada que ha sido decodificada para el grupo de píxeles de muestra, estima los parámetros de corrección para corregir al menos una de las ausencias de correspondencia de iluminación o de color de manera que se reduzca al mínimo la suma de valores que representan un error entre los valores de píxel de la imagen decodificada para el grupo de píxeles de muestra y los valores de píxel de la imagen de síntesis de vistas para el grupo de píxeles de muestra que son corregidos usando un modelo de corrección para el grupo de píxeles de muestra, y- -
- una unidad de corrección de imágenes de síntesis de vistas (208) que corrige la imagen de síntesis de vistas para el objeto de manera que se crea una imagen de síntesis de vistas corregida aplicando una función de corrección definida por los parámetros de corrección para la imagen de síntesis de vistas;
65 en el que la unidad de decodificación de imagen (209) decodifica la señal de imagen de la imagen objeto dedecodificación usando la imagen de síntesis de vistas corregida. -
- 9.
- Un programa de codificación de imágenes multivista que permite la ejecución del método de codificación de imágenes multivista según una cualquiera de las reivindicaciones 1 a 3 en un ordenador.
-
- 10.
- Un programa de decodificación de imágenes multivista que permite la ejecución del método de decodificación de imágenes multivista según una cualquiera de las reivindicaciones 4 a 6 en un ordenador.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009038786 | 2009-02-23 | ||
JP2009038786 | 2009-02-23 | ||
PCT/JP2010/001213 WO2010095471A1 (ja) | 2009-02-23 | 2010-02-23 | 多視点画像符号化方法、多視点画像復号方法、多視点画像符号化装置、多視点画像復号装置、多視点画像符号化プログラムおよび多視点画像復号プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2524973T3 true ES2524973T3 (es) | 2014-12-16 |
Family
ID=42633758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10743600.8T Active ES2524973T3 (es) | 2009-02-23 | 2010-02-23 | Codificación y decodificación de imágenes multivista usando corrección de iluminación y de color localizada |
Country Status (11)
Country | Link |
---|---|
US (1) | US8548228B2 (es) |
EP (1) | EP2400759B1 (es) |
JP (1) | JP5521202B2 (es) |
KR (1) | KR101344425B1 (es) |
CN (1) | CN102326391B (es) |
BR (1) | BRPI1008500B1 (es) |
CA (1) | CA2752567C (es) |
ES (1) | ES2524973T3 (es) |
RU (1) | RU2498522C2 (es) |
TW (2) | TWI517674B (es) |
WO (1) | WO2010095471A1 (es) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5436458B2 (ja) * | 2009-02-12 | 2014-03-05 | 日本電信電話株式会社 | 多視点画像符号化方法、多視点画像復号方法、多視点画像符号化装置、多視点画像復号装置、多視点画像符号化プログラムおよび多視点画像復号プログラム |
KR101344425B1 (ko) * | 2009-02-23 | 2013-12-23 | 고쿠리츠 다이가쿠 호우징 나고야 다이가쿠 | 다시점 화상 부호화 방법, 다시점 화상 복호 방법, 다시점 화상 부호화 장치, 다시점 화상 복호 장치, 다시점 화상 부호화 프로그램 및 다시점 화상 복호 프로그램 |
JP5858381B2 (ja) * | 2010-12-03 | 2016-02-10 | 国立大学法人名古屋大学 | 多視点画像合成方法及び多視点画像合成システム |
KR20120082606A (ko) * | 2011-01-14 | 2012-07-24 | 삼성전자주식회사 | 깊이 영상의 부호화/복호화 장치 및 방법 |
RU2480941C2 (ru) | 2011-01-20 | 2013-04-27 | Корпорация "Самсунг Электроникс Ко., Лтд" | Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности |
US9363500B2 (en) * | 2011-03-18 | 2016-06-07 | Sony Corporation | Image processing device, image processing method, and program |
US20140044347A1 (en) * | 2011-04-25 | 2014-02-13 | Sharp Kabushiki Kaisha | Mage coding apparatus, image coding method, image coding program, image decoding apparatus, image decoding method, and image decoding program |
JP5711636B2 (ja) * | 2011-09-26 | 2015-05-07 | 日本電信電話株式会社 | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム |
JP5729825B2 (ja) * | 2011-09-26 | 2015-06-03 | 日本電信電話株式会社 | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム |
WO2013068491A1 (en) | 2011-11-11 | 2013-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-view coding with exploitation of renderable portions |
EP2777256B1 (en) | 2011-11-11 | 2017-03-29 | GE Video Compression, LLC | Multi-view coding with effective handling of renderable portions |
JP2013110555A (ja) * | 2011-11-21 | 2013-06-06 | Sharp Corp | 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム |
US9288506B2 (en) | 2012-01-05 | 2016-03-15 | Qualcomm Incorporated | Signaling view synthesis prediction support in 3D video coding |
CN104081780A (zh) * | 2012-01-31 | 2014-10-01 | 索尼公司 | 图像处理装置和图像处理方法 |
WO2013162272A1 (ko) * | 2012-04-24 | 2013-10-31 | 엘지전자 주식회사 | 비디오 신호 처리 방법 및 장치 |
CN103379349B (zh) * | 2012-04-25 | 2016-06-29 | 浙江大学 | 一种视点合成预测编码方法、解码方法、对应的装置及码流 |
WO2013159330A1 (en) * | 2012-04-27 | 2013-10-31 | Nokia Corporation | An apparatus, a method and a computer program for video coding and decoding |
US20130329800A1 (en) * | 2012-06-07 | 2013-12-12 | Samsung Electronics Co., Ltd. | Method of performing prediction for multiview video processing |
US9615089B2 (en) | 2012-12-26 | 2017-04-04 | Samsung Electronics Co., Ltd. | Method of encoding and decoding multiview video sequence based on adaptive compensation of local illumination mismatch in inter-frame prediction |
CN107318027B (zh) | 2012-12-27 | 2020-08-28 | 日本电信电话株式会社 | 图像编码/解码方法、图像编码/解码装置、以及图像编码/解码程序 |
WO2014103967A1 (ja) * | 2012-12-27 | 2014-07-03 | 日本電信電話株式会社 | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体 |
JPWO2015037473A1 (ja) * | 2013-09-11 | 2017-03-02 | ソニー株式会社 | 画像処理装置および方法 |
JP2016134803A (ja) * | 2015-01-20 | 2016-07-25 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
US10699476B2 (en) * | 2015-08-06 | 2020-06-30 | Ams Sensors Singapore Pte. Ltd. | Generating a merged, fused three-dimensional point cloud based on captured images of a scene |
KR101764531B1 (ko) | 2016-02-29 | 2017-08-04 | 한경대학교 산학협력단 | 네트워크 기반 다중 카메라 영상 처리 및 데이터 전송 방법 및 그 시스템 |
US11653023B2 (en) * | 2017-12-01 | 2023-05-16 | Sony Corporation | Encoding device, encoding method, decoding device, and decoding method |
CN114466174B (zh) * | 2022-01-21 | 2023-04-28 | 南方科技大学 | 一种多视点3d图像编码方法、设备、系统和存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4875095A (en) * | 1987-06-30 | 1989-10-17 | Kokusai Denshin Denwa Kabushiki Kaisha | Noise-shaping predictive coding system |
US6055330A (en) | 1996-10-09 | 2000-04-25 | The Trustees Of Columbia University In The City Of New York | Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information |
US7064783B2 (en) * | 1999-12-31 | 2006-06-20 | Stmicroelectronics, Inc. | Still picture format for subsequent picture stitching for forming a panoramic image |
JP3519673B2 (ja) * | 2000-07-07 | 2004-04-19 | 松下電器産業株式会社 | 動画データ作成装置及び動画符号化装置 |
RU2237283C2 (ru) * | 2001-11-27 | 2004-09-27 | Самсунг Электроникс Ко., Лтд. | Устройство и способ представления трехмерного объекта на основе изображений с глубиной |
RU2296379C2 (ru) * | 2002-10-15 | 2007-03-27 | Самсунг Электроникс Ко., Лтд. | Носитель для хранения информации со структурой данных для многоракурсного показа и устройство для этого носителя |
KR101201930B1 (ko) * | 2004-09-16 | 2012-11-19 | 톰슨 라이센싱 | 국부적 밝기 변동을 이용한 가중화된 예측을 가진 비디오 코덱 |
US7671894B2 (en) * | 2004-12-17 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for processing multiview videos for view synthesis using skip and direct modes |
JP4414379B2 (ja) | 2005-07-28 | 2010-02-10 | 日本電信電話株式会社 | 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN101371571B (zh) * | 2006-01-12 | 2013-06-19 | Lg电子株式会社 | 处理多视图视频 |
US20070177671A1 (en) | 2006-01-12 | 2007-08-02 | Lg Electronics Inc. | Processing multiview video |
KR100943914B1 (ko) * | 2006-01-12 | 2010-03-03 | 엘지전자 주식회사 | 다시점 비디오의 처리 방법 및 장치 |
US20100232506A1 (en) * | 2006-02-17 | 2010-09-16 | Peng Yin | Method for handling local brightness variations in video |
JP2007257287A (ja) * | 2006-03-23 | 2007-10-04 | Tokyo Institute Of Technology | 画像レジストレーション方法 |
KR100934674B1 (ko) * | 2006-03-30 | 2009-12-31 | 엘지전자 주식회사 | 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치 |
JP5124583B2 (ja) | 2006-10-18 | 2013-01-23 | トムソン ライセンシング | 明示的な信号伝達なしでの局所的な輝度および色の補償のための方法および装置 |
JP5436458B2 (ja) * | 2009-02-12 | 2014-03-05 | 日本電信電話株式会社 | 多視点画像符号化方法、多視点画像復号方法、多視点画像符号化装置、多視点画像復号装置、多視点画像符号化プログラムおよび多視点画像復号プログラム |
KR101344425B1 (ko) * | 2009-02-23 | 2013-12-23 | 고쿠리츠 다이가쿠 호우징 나고야 다이가쿠 | 다시점 화상 부호화 방법, 다시점 화상 복호 방법, 다시점 화상 부호화 장치, 다시점 화상 복호 장치, 다시점 화상 부호화 프로그램 및 다시점 화상 복호 프로그램 |
US8363721B2 (en) * | 2009-03-26 | 2013-01-29 | Cisco Technology, Inc. | Reference picture prediction for video coding |
JP4986086B2 (ja) * | 2010-02-26 | 2012-07-25 | ブラザー工業株式会社 | 画像形成装置、及び、ずれ量測定プログラム |
-
2010
- 2010-02-23 KR KR1020117018934A patent/KR101344425B1/ko active IP Right Grant
- 2010-02-23 BR BRPI1008500-9A patent/BRPI1008500B1/pt active IP Right Grant
- 2010-02-23 EP EP10743600.8A patent/EP2400759B1/en active Active
- 2010-02-23 US US13/201,049 patent/US8548228B2/en active Active
- 2010-02-23 TW TW103106224A patent/TWI517674B/zh active
- 2010-02-23 CN CN201080007503.1A patent/CN102326391B/zh active Active
- 2010-02-23 TW TW099105126A patent/TWI433544B/zh active
- 2010-02-23 JP JP2011500540A patent/JP5521202B2/ja active Active
- 2010-02-23 CA CA2752567A patent/CA2752567C/en active Active
- 2010-02-23 RU RU2011133831/07A patent/RU2498522C2/ru active
- 2010-02-23 WO PCT/JP2010/001213 patent/WO2010095471A1/ja active Application Filing
- 2010-02-23 ES ES10743600.8T patent/ES2524973T3/es active Active
Also Published As
Publication number | Publication date |
---|---|
WO2010095471A1 (ja) | 2010-08-26 |
RU2011133831A (ru) | 2013-03-27 |
US20120027291A1 (en) | 2012-02-02 |
EP2400759A4 (en) | 2012-09-05 |
EP2400759B1 (en) | 2014-08-27 |
US8548228B2 (en) | 2013-10-01 |
BRPI1008500A2 (pt) | 2016-03-08 |
TW201424406A (zh) | 2014-06-16 |
CN102326391B (zh) | 2014-07-09 |
TWI517674B (zh) | 2016-01-11 |
CN102326391A (zh) | 2012-01-18 |
JPWO2010095471A1 (ja) | 2012-08-23 |
KR101344425B1 (ko) | 2013-12-23 |
TWI433544B (zh) | 2014-04-01 |
CA2752567A1 (en) | 2010-08-26 |
RU2498522C2 (ru) | 2013-11-10 |
CA2752567C (en) | 2014-11-18 |
TW201103339A (en) | 2011-01-16 |
BRPI1008500B1 (pt) | 2021-08-24 |
KR20110119709A (ko) | 2011-11-02 |
JP5521202B2 (ja) | 2014-06-11 |
EP2400759A1 (en) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2524973T3 (es) | Codificación y decodificación de imágenes multivista usando corrección de iluminación y de color localizada | |
TWI432034B (zh) | 多視點圖像編碼方法、多視點圖像解碼方法、多視點圖像編碼裝置、多視點圖像解碼裝置、多視點圖像編碼程式及多視點圖像解碼程式 | |
US11997303B2 (en) | Bidirectional optical flow based video coding and decoding | |
ES2535314T3 (es) | Método de codificación de vídeo, método de decodificación, dispositivo de los mismos, programa de los mismos, y medio de almacenamiento que contiene el programa | |
ES2905473T3 (es) | Procedimiento y dispositivo para optimizar la codificación/descodificación de desplazamientos de compensación para un conjunto de muestras reconstruidas de una imagen | |
JP5303754B2 (ja) | 多視点映像符号化方法、多視点映像復号方法、多視点映像符号化装置、多視点映像復号装置、及びプログラム | |
ES2651133T3 (es) | Dispositivo de codificación de vídeo, procedimiento de codificación de vídeo, programa de codificación de vídeo, dispositivo de decodificación de vídeo, procedimiento de decodificación de vídeo y programa de decodificación de vídeo | |
JP2009188996A (ja) | 動画像コーデック装置及びその方法 | |
US20150365698A1 (en) | Method and Apparatus for Prediction Value Derivation in Intra Coding | |
JP5219199B2 (ja) | 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2012213207A (ja) | 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 |