ES2388080T3 - Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas - Google Patents

Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas Download PDF

Info

Publication number
ES2388080T3
ES2388080T3 ES07706352T ES07706352T ES2388080T3 ES 2388080 T3 ES2388080 T3 ES 2388080T3 ES 07706352 T ES07706352 T ES 07706352T ES 07706352 T ES07706352 T ES 07706352T ES 2388080 T3 ES2388080 T3 ES 2388080T3
Authority
ES
Spain
Prior art keywords
parallax
area
image
data
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07706352T
Other languages
English (en)
Inventor
Masayuki Tanimoto
Toshiaki Fujii
Kenji Yamamoto
Masaki Kitahara
Hideaki Kimata
Shinya Shimizu
Kazuto Kamikura
Yoshiyuki Yashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38228325&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2388080(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nagoya University NUC, Nippon Telegraph and Telephone Corp filed Critical Nagoya University NUC
Application granted granted Critical
Publication of ES2388080T3 publication Critical patent/ES2388080T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/64Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Un método de codificación de vídeo, para codificar imágenes de vídeo como una imagen de vídeo de puntos devista múltiples, utilizando la compensación del paralaje que efectúa la predicción utilizando el paralaje espacial entrelas imágenes de video, comprendiendo el método:un paso (S103) de ajuste del paralaje de referencia, para ajustar el paralaje de referencia para cada pixel de unaimagen objetivo a codificar, donde se estima el paralaje de referencia utilizando imágenes de referencia sin usar laimagen objetivo;un paso (S1067) de ajuste de la división del área, para ajustar la división del área en un fotograma de una imagen;un paso (S1062) de ajuste del desplazamiento del paralaje, para ajustar el desplazamiento del paralaje para cadaárea dividida fijada en el paso de ajuste de la división del área, donde se define el desplazamiento del paralaje comola diferencia entre el paralaje de referencia y el paralaje real utilizado para generar una imagen de predicción para lacompensación del paralaje, y tiene un valor común dentro de cada área dividida;un paso de generación de la imagen de predicción, para generar una imagen de predicción para la compensacióndel paralaje, para cada pixel de la imagen objetivo, utilizando el paralaje real obtenido para el pixel como una unidadañadiendo el paralaje de referencia ajustado al desplazamiento del paralaje común fijado para el área a la cualpertenece el pixel;un paso (S109) de codificación de los datos de la división del área, para codificar los datos de la división del áreapara indicar la división del área que ha sido ajustada en el paso de ajuste de la división del área; yun paso (S109) de codificación de los datos de desplazamiento del paralaje, para codificar los datos dedesplazamiento del paralaje para indicar el desplazamiento del paralaje que ha sido fijado en el paso de ajuste deldesplazamiento del paralaje.

Description

Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas 5
Campo técnico
La presente invención está relacionada con técnicas de codificación y descodificación de imágenes de vídeo de puntos de vista múltiples.
Técnica anterior
Las imágenes de vídeo de puntos de vista múltiples son imágenes de vídeo obtenidas fotografiando el mismo objeto y fondo del mismo, utilizando una pluralidad de cámaras en posiciones diferentes. En lo que sigue, una imagen de
15 vídeo obtenida por una sola cámara es denominada “imagen de vídeo bidimensional”, y un conjunto de imágenes de vídeo bidimensionales, obtenidas fotografiando el mismo objeto y fondo del mismo, es denominada “imagen de vídeo de puntos de vista múltiples”. Hay una fuerte correlación entre las imágenes de vídeo bidimensionales (de diferentes cámaras) incluidas en la imagen de vídeo de puntos de vista múltiples. Si las cámaras están sincronizadas entre sí, los fotogramas (de las cámaras) correspondientes al mismo momento han capturado el objeto y el fondo del mismo enteramente en el mismo estado, de manera que hay una fuerte correlación entre las cámaras.
En primer lugar, se ilustrarán las técnicas convencionales relativas a la codificación de imágenes de vídeo bidimensionales. En muchos métodos conocidos de codificación de imágenes de vídeo bidimensionales, tal como el
25 H.264, MPEG-4, MPEG-2 (que son estándares internacionales de codificación), y similares, se efectúa una codificación altamente eficiente por medio de la compensación del movimiento, la transformación ortogonal, la cuantificación, la codificación de longitud variable o similares.
Por ejemplo, en el H.264, cada fotograma I puede ser codificado por medio de una correlación dentro de los fotogramas (intrafotograma); cada fotograma P puede ser codificado por medio de una correlación entre fotogramas (interfotograma), junto con una pluralidad de fotogramas transcurridos; y cada fotograma B puede ser codificado por medio de una correlación interfotograma junto con una pluralidad de fotogramas transcurridos o futuros.
Aunque el documento no-patente 1 divulga las técnicas H.264 en detalle, a continuación se describirá el perfil de las
35 mismas. En cada fotograma I, el fotograma se divide en bloques (denominados “macrobloques”, el tamaño de cada bloque es 16 x 16 (pixeles)), y la predicción intrafotograma (intra-predicción) se efectúa en cada macrobloque. En la intra-predicción, cada macrobloque se divide además en bloques más pequeños (denominados a continuación “subbloques”), y se puede aplicar un método individual de intra-codificación a cada sub-bloque.
En cada fotograma P, la intra-predicción o la inter-predicción (predicción interfotograma) puede ser realizada en cada macrobloque. La intra-predicción aplicada a un fotograma P es similar a la aplicada a un fotograma I. En la inter-predicción, se realiza la compensación del movimiento. También en la compensación del movimiento, cada macrobloque se divide en bloques más pequeños, y cada sub-bloque puede tener un vector de movimiento individual y una imagen de referencia individual.
45 También en cada fotograma B se puede efectuar la intra-predicción o la inter-predicción. En la inter-predicción de un fotograma B, además de un fotograma transcurrido, se puede hacer referencia a un fotograma futuro como imagen de referencia en la compensación del movimiento. Por ejemplo, cuando se codifica una secuencia de fotogramas de “I→B→B→P”, los fotogramas pueden ser codificados en el orden de “I→P→B→B”. Además, en cada fotograma B, se puede realizar la compensación del movimiento haciendo referencia a un fotograma I o P. Adicionalmente, de forma similar al fotograma P, cada sub-bloque (obtenido dividiendo un macrobloque) puede tener un vector de movimiento individual.
Cuando se realiza una intra o inter-predicción, se obtiene una predicción residual. En cada macrobloque, un bloque
55 de predicción residual está sometido a una DCT (transformada discreta del coseno), para realizar la cuantificación. Los valores cuantificados obtenidos de los coeficientes DCT son sometidos después a una codificación de longitud variable.
En un método de codificación conocido para imágenes de vídeo de puntos de vista múltiples, las imágenes de vídeo de puntos de vista múltiples son codificadas con una alta eficiencia por medio de la “compensación del paralaje” en la cual se aplica la compensación del movimiento a imágenes obtenidas por cámaras diferentes al mismo tiempo. En este caso, el “paralaje” es la diferencia entre posiciones, a las cuales se proyecta el mismo punto en un objeto, sobre un plano de imágenes de cámaras que están dispuestas en posiciones diferentes.
65 La figura 9 es una vista esquemática que muestra el concepto del paralaje generado entre tales cámaras. En la vista esquemática, un plano de imágenes de cámaras, cuyos ejes ópticos son paralelos entre sí, está visto hacia abajo verticalmente. Generalmente, tales puntos, a los cuales se proyecta el mismo punto en un objeto, en un plano de imágenes de cámaras diferentes, son denominados “puntos correspondientes”. Como el paralaje puede ser representado como una diferencia posicional en el plano de imagen relevante, puede ser representado como datos de un vector bidimensional.
5 En la compensación del paralaje, el punto correspondiente de la imagen de una cámara de referencia, que se corresponde con un pixel objetivo en una imagen de cámara objetivo para la codificación relevante, se estima utilizando una imagen de referencia, y el valor del pixel de referencia se predice utilizando un valor de pixel asignado al punto correspondiente. A continuación, tal “paralaje estimado” es denominado también “paralaje” por conveniencia de la explicación.
El documento no-patente 2 divulga un método de codificación utilizando una compensación del paralaje y, en tal método, los datos de paralaje y cada predicción residual son codificados con respecto a los pixeles de una imagen objetivo a codificar. Más específicamente, en el método relevante, la compensación del paralaje se efectúa para
15 cada bloque como una unidad, donde tal paralaje para cada bloque unitario se representa utilizando un vector bidimensional. La figura 10 es una vista esquemática que ilustra un vector de paralaje. Esto es, en este método, se codifican los datos de paralaje como vector bidimensional y la predicción residual relevante. Como este método no utiliza parámetros de la cámara en la codificación, es eficaz cuando los parámetros de la cámara son desconocidos.
Además, cuando hay una pluralidad de imágenes de referencia obtenidas por cámaras diferentes, la compensación del paralaje puede efectuarse utilizando una técnica de imágenes de puntos de vista arbitrarios. El documento nopatente 3 divulga la compensación del paralaje utilizando una técnica de imágenes de puntos de vista arbitrarios. Más específicamente, cada valor de pixel de una imagen obtenida por una cámara objetivo para la codificación relevante, se predice por medio de la interpolación utilizando los valores de pixel de los puntos correspondientes
25 (pertenecientes a cámaras diferentes) que se corresponden con el pixel relevante. La figura 11 es una vista esquemática que muestra tal interpolación. En la interpolación, el valor del pixel m en una imagen objetivo a codificar se predice efectuando la interpolación entre los pixeles m’ y m’’ de las imágenes de referencia 1 y 2, donde los pixeles m’ y m’’ se corresponden con el pixel m.
Cuando hay dos o más imágenes de referencia obtenidas por cámaras diferentes (como se divulga en el documento de patente 3), el paralaje de cada pixel de una imagen objetivo (a codificar) para cada imagen de referencia, puede ser estimado sin utilizar la imagen objetivo. La figura 12 es una vista esquemática para ilustrar el concepto de tal estimación del paralaje.
35 Como se ilustra en la figura 12, en el verdadero paralaje, los valores de pixel de los puntos correspondientes entre las imágenes de referencia relevantes deben ser casi idénticos entre sí. Por tanto, en muchos métodos de estimación del paralaje, con respecto a cada una de las diversas profundidades, se comparan entre sí los valores de pixel de los puntos correspondientes entre las imágenes de referencia, y el paralaje se puede estimar basándose en la profundidad que contiene los valores de pixel más cercanos. Tal proceso puede ser aplicado a cada pixel de una imagen objetivo a codificar.
Como se ha descrito anteriormente, cuando hay dos o más imágenes de referencia obtenidas por cámaras diferentes, y es posible la estimación del paralaje en el lado de la descodificación, se puede efectuar entonces la compensación del paralaje en el lado de la descodificación utilizando los datos del paralaje para cada pixel, sin
45 proporcionar datos del paralaje, que se codifican explícitamente en el lado de la codificación, al lado de la descodificación.
Documento no-patente 1: ITU-T Rec.H.264/ISO/IEC 11496-10, “Codificación avanzada de vídeo”, Borrador Final del Comité, Documento JVT-E022, Septiembre de 2002.
Documento no-patente 2: Hideaki Kimata y Masaki KItahara, “Resultados preliminares sobre la codificación de vídeo de vistas múltiples (3DAV)”, documento M10976, Reunión de Redmont del MPEG, Julio de 2004.
Documento no-patente 3: Masayuki Tanimoto, Toshiaki Fujii, “Respuesta a la Llamada a la Evidencia en la 55 Codificación de Vídeo de Vistas Múltiples”, documento Mxxxxx, Reunión de Hong Kong del MPEG, Enero de 2005.
En las técnicas convencionales, cuando hay dos o más imágenes de referencia obtenidas por cámaras diferentes, y es posible la estimación del paralaje en el lado de la descodificación, la compensación del paralaje puede efectuarse entonces en el lado de la descodificación utilizando datos del paralaje para cada pixel, sin proporcionar datos de paralaje, que son codificados explícitamente en el lado de la codificación, al lado de la descodificación. Tal paralaje con respecto a una imagen objetivo a codificar o descodificar, que puede ser estimado en el lado de la codificación o descodificación sin utilizar la imagen objetivo (para la descodificación, sin descodificar la imagen relevante), es denominado “paralaje de referencia”.
65 Sin embargo, el paralaje de referencia, que es estimado en el lado de la descodificación, no es un paralaje óptimo considerando la eficiencia de la predicción, y la cantidad de código asignada a la predicción residual puede ser incrementada. Cuando se calcula el paralaje para maximizar la eficiencia de la predicción en el lado de la codificación, y se codifica la diferencia (denominada en lo que sigue “desplazamiento del paralaje”) entre el paralaje calculado y el paralaje de referencia para cada pixel, la eficiencia de la predicción puede ser mejorada, mejorando con ello la eficiencia de la codificación con respecto a la predicción residual.
5 Sin embargo, en tal técnica que puede ser fácilmente anticipada, como se codifica el desplazamiento del paralaje para cada pixel, la cantidad de código de datos de paralaje aumenta, de manera que la eficiencia total de la codificación no puede ser alta.
Divulgación de la invención
Con el fin de resolver el problema anterior, un objeto de la presente invención es disminuir la cantidad de código de datos de paralaje sin hacer un sacrificio considerable de la precisión de compensación del paralaje.
15 La característica más distintiva de la presente invención en comparación con las técnicas convencionales, es que con el fin de resolver los problemas anteriormente descritos, se efectúa un proceso de determinación para cada bloque de la división de bloques, y un proceso de codificación de los datos de la división de bloques determinada y de los datos de desplazamiento del paralaje, y tales datos son manejados como datos codificados.
En un primer modo de los métodos de codificación y descodificación de vídeo de la presente invención, basándose en la división del área, que se fija de acuerdo con la característica de una imagen objetivo a codificar, se pueden codificar los datos de desplazamiento del paralaje para cada área dividida.
Generalmente, el desplazamiento del paralaje tiene una correlación espacial en un fotograma de imagen. Por tanto,
25 cuando se fija la división de área apropiada, y se codifica el desplazamiento del paralaje para cada área dividida, la cantidad de código de datos del paralaje puede reducirse entonces sin degradar la eficiencia de la predicción de la compensación del paralaje.
En el lado de la codificación del vídeo, en un paso de ajuste del paralaje de referencia, se fija el paralaje para una imagen objetivo a codificar (es decir, el paralaje de referencia) utilizando los datos ya codificados (es decir, la imagen de referencia), y en un paso de ajuste de la división del área, se fija la división del área en un fotograma de la imagen objetivo. En un paso de ajuste del desplazamiento del paralaje, se fija el desplazamiento del paralaje para cada área dividida que se ha fijado en la división del área. Adicionalmente, en el paso de codificación de datos de la división de área, se codifican los datos de la división de área para indicar la división de área, y en un paso de
35 codificación de los datos de desplazamiento del paralaje, se codifican los datos de desplazamiento del paralaje.
Como el paralaje de referencia fijado en el paso de ajuste del paralaje de referencia, (i) el paralaje estimado utilizando imágenes de referencia basándose en el principio ilustrado en la figura 12 (se hace referencia a un tercer modo que se explicará más adelante); (ii) el paralaje basado en una imagen de paralaje o un modelo tridimensional, que es codificado por otro dispositivo, por ejemplo para generar una imagen de punto de vista arbitrario, y es enviado al lado de la descodificación; o (iii) el paralaje proporcionado por otro método.
En el lado de descodificación, en un paso de ajuste del paralaje de referencia, similar al lado de la codificación, se fija el paralaje de referencia para una imagen objetivo a descodificar, utilizando datos ya descodificados (es decir, la
45 imagen de referencia). En un paso de descodificación de los datos de división del área, se descodifican los datos de división del área, y en un paso de descodificación de los datos del desplazamiento del paralaje, se descodifican los datos del desplazamiento del paralaje para cada área, de acuerdo con los datos de división del área.
Un segundo modo de los métodos de codificación y descodificación de la presente invención es básicamente similar al primer modo anteriormente descrito. Sin embargo, en el segundo modo, se efectúa la división del área para generar bloques rectangulares. Más específicamente, se define la división de bloques rectangulares (se hace referencia a la figura 10 que se explica más adelante) para cada macrobloque. Los datos para tal división de bloques pueden ser codificados eficientemente utilizando una técnica conocida de codificación de entropía (por ejemplo, codificación de entropía en H.264).
55 Un tercer modo de los métodos de codificación y descodificación de la presente invención es básicamente similar a los primero y segundo modos anteriormente descritos. Sin embargo, en el tercer modo, se utiliza el paralaje de referencia, que es estimado por una pluralidad de imágenes de referencia sin utilizar una imagen objetivo a codificar (es decir, de acuerdo con el principio anteriormente descrito como se ilustra en la figura 12). Cuando se estima el paralaje de referencia utilizando imágenes de referencia como se ha explicado anteriormente, puede ser estimado utilizando solamente datos que han sido ya enviados al lado de la descodificación. Por tanto, es posible no generar datos adicionales a codificar, para estimar el paralaje de referencia.
De acuerdo con la presente invención, en los métodos de codificación y descodificación de vídeo para estimar el
65 paralaje utilizando imágenes de referencia, se utiliza la correlación espacial de los datos de desplazamiento del paralaje, de manera que la cantidad de código de los datos del desplazamiento del paralaje puede reducirse sin degradar la eficiencia de la predicción en la compensación del paralaje, mejorando con ello la eficiencia total de la codificación.
Breve descripción de los dibujos
5 La figura 1 es un diagrama que muestra un dispositivo de codificación de vídeo como modo de realización de la presente invención.
La figura 2 es un diagrama que ilustra relaciones de referencia entre cámaras en el modo de realización.
La figura 3 es un diagrama que ilustra la disposición de las cámaras en el modo de realización.
La figura 4 es un diagrama de flujo de la codificación en el modo de realización.
15 La figura 5 es un diagrama de flujo detallado del paso S106 de la figura 4.
La figura 6 es un diagrama que muestra ejemplos de la división de bloques en cada macrobloque.
La figura 7 es un diagrama que muestra un dispositivo de descodificación de vídeo en el modo de realización.
La figura 8 es un diagrama de flujo de la descodificación en el modo de realización.
La figura 9 es una vista esquemática que muestra el concepto de paralaje generado entre cámaras.
25 La figura 10 es una vista esquemática que muestra un vector de paralaje.
La figura 11 es una vista esquemática que muestra la interpolación de valores de pixel.
La figura 12 es una vista esquemática que muestra el concepto de estimación del paralaje.
Mejor modo de llevar a cabo la invención
La figura 1 es un diagrama que muestra la estructura de un dispositivo de codificación de vídeo, como un modo de realización de la presente invención.
35 El dispositivo 100 de codificación de vídeo incluye una parte 101 de entrada de imágenes en la cual se introduce cada imagen original de la cámara C (es decir, la imagen objetivo a codificar); una parte 102 de entrada de la imagen de referencia en la cual se introducen imágenes descodificadas (como imágenes de referencia) de las cámaras A y B; una memoria 103 de imágenes de referencia para almacenar cada imagen de referencia; una parte 104 de ajuste del paralaje de referencia para obtener el paralaje de referencia utilizando imágenes de referencia; una parte 105 del ajuste del desplazamiento del paralaje para obtener el desplazamiento del paralaje; una parte 106 de ajuste de la división de bloques para ajustar el estado de la división del bloques; una parte 107 de codificación de los datos de la división de bloques para codificar los datos de la división de bloques; una parte 108 de codificación de los datos del desplazamiento del paralaje para codificar los datos del desplazamiento del paralaje; y una parte
45 109 de codificación de la predicción residual para codificar la predicción residual relevante.
La figura 2 es un diagrama que muestra las relaciones de referencia entre cámaras en el presente modo de realización. Como se ilustra en la figura 2, en el presente modo de realización para codificar las imágenes de vídeo de puntos de vista múltiples, obtenidas por tres cámaras, las imágenes de vídeo de la cámara C son codificadas utilizando imágenes descodificadas de las cámaras A y B, como imágenes de referencia.
Las flechas de la figura 2 representan relaciones de referencia en la compensación del paralaje. Con el fin de codificar cada imagen de la cámara C, las imágenes descodificadas (de las cámaras A y B) que tienen el mismo tiempo de presentación, son codificadas como imágenes de referencia. En el proceso relevante, se genera una
55 imagen de predicción calculando el valor medio entre los valores de pixel de los correspondientes puntos que pertenecen a las cámaras A y B (cada punto correspondiente es un pixel indicado por un vector que es proporcionado por la suma del vector de desplazamiento del paralaje relevante y del vector del paralaje de referencia).
La figura 3 es un diagrama que muestra la disposición de las cámaras en el presente modo de realización. En el presente modo de realización, como se ilustra en la figura 3, los puntos de vista de las tres cámaras se alinean a lo largo de una línea recta a intervalos regulares, y los ejes ópticos de las cámaras son perpendiculares a la línea recta. Es decir, los ejes ópticos de las tres cámaras son paralelos entre sí.
65 Además, el sistema de coordenadas x - y en el plano de imágenes relevantes puede ser obtenido mediante una traslación paralela (no se efectúa rotación o similar) con respecto a la línea recta sobre la cual se disponen las cámaras, y se forman los pixeles dividiendo cada uno de los ejes x e y del plano de la imagen a intervalos regulares para cada cámara. Es decir, cada cámara tiene la misma resolución, y un paralaje de P pixeles entre las cámaras C y A se corresponde con un paralaje de P pixeles entre las cámaras C y B.
5 La figura 4 es un diagrama de flujo de la codificación del presente modo de realización. La figura 5 es un diagrama de flujo detallado del paso S106 de la figura 4.
En el presente modo de realización, se utiliza como unidad un macrobloque consistente en 16 x 16 pixeles (en las direcciones vertical y horizontal), y se designa la división de bloques (estado) de cada macrobloque. Se obtienen los datos del desplazamiento del paralaje para cada bloque definido en la división de bloques (denominado simplemente “bloque” por conveniencia) y se codifican.
El paralaje de referencia se representa utilizando un vector bidimensional. Por tanto, en el lado de descodificación (y en el lado de codificación), se obtiene un vector bidimensional (es decir, el paralaje de referencia) para cada imagen
15 de referencia y para cada pixel, utilizando la imagen de referencia.
Por otra parte, se codifica para cada bloque un solo desplazamiento del paralaje (para la cámara A) representado por un vector bidimensional. En este caso, de forma similar al cálculo del paralaje de referencia, se supone una condición de restricción física en la cual cada vector (de paralaje) (utilizado para la compensación del paralaje), que es proporcionada como la suma del vector del paralaje de referencia y un vector del paralaje de referencia para cada pixel de cada una de las imágenes de referencia, designa la misma posición en el objeto. En este caso, si se conoce el vector del paralaje de referencia para la cámara A, el vector del desplazamiento del paralaje para otra cámara se determina unívocamente.
25 En lugar de eso, el desplazamiento del paralaje para cada imagen de referencia puede ser calculado independientemente y codificado sin suponer tal condición de restricción. Sin embargo, tal método puede ser fácilmente implementado como una variación del presente modo de realización, y se omiten explicaciones específicas del mismo.
Hay muchos estados posibles de división de bloques aplicables a cada macrobloque. La figura 6 muestra ejemplos de los mismos. Como se ilustra en la figura 6, “blkMode” es un índice para indicar el tipo de división de bloques, y el número de bloques para cada “blkMode” está indicado como “maxBlk[blkMode]”.
Bajo las condiciones anteriores, la operación de codificación será explicada con referencia al diagrama de flujo de la 35 figura 4.
En primer lugar, se introduce una imagen de la cámara C en la parte 101 de entrada de imágenes (véase el paso S101) donde las imágenes descodificadas, que pertenecen a las cámaras A y B y tienen el mismo tiempo de presentación, han sido almacenadas en la memoria 103 de imágenes de referencia a través de la parte 102 de entrada de imágenes de referencia.
A continuación, se introducen las imágenes relevantes descodificadas de las cámaras A y B desde la memoria 103 de imágenes de referencia (véase el paso S102), y se obtiene el paralaje de referencia para cada pixel de una imagen objetivo a codificar, para cada imagen de referencia de entrada utilizando las imágenes de referencia (véase
45 el paso S103). Es decir, dos imágenes de referencia, que pertenecen a las cámaras A y B, son introducidas en la parte 104 de ajuste del paralaje de referencia, y se obtiene el paralaje de referencia de cada pixel de la imagen objetivo de la cámara C.
Consecuentemente, se obtienen dos “vectores bidimensionales” para cada pixel de la imagen objetivo de la cámara
C. Para las coordenadas (x, y) en el plano de la imagen de la cámara C (x e y son cada una de ellas un entero que indica un valor de coordenada del pixel relevante), los vectores del paralaje de referencia para las cámaras A y B están indicados respectivamente por dA[x, y] y dB[x, y].
Además, “MBBlk” es un índice para indicar cada macrobloque, y el número de macrobloques está indicado por 55 “maxMBBlk”.
Después de que el índice MBBlk para cada macrobloque se haya inicializado en cero (véase el paso S104), se aplican repetidamente los pasos siguientes (S105 a S111) a cada macrobloque, mientras que se añade “1” al índice MBBlk (véase el paso S110).
En primer lugar, después de que el blkMode de la división de bloques (índice) se haya inicializado en cero (véase el paso S105), se calcula un coste de distorsión de la velocidad para el macrobloque relevante MBBlk y el blkMode de la división de bloques (véase el paso S106) mientras que se añade “1” al blkMode de la división de bloques (véase el paso S107), hasta que el blkMode de la división de bloques alcanza el valor máximo del índice “maxBlkMode”
65 (véase el paso S108). Es decir, en la parte 105 de ajuste del desplazamiento del paralaje, se calcula el coste de la distorsión de la velocidad “MBCost” para cada blkMode de la división de bloques.
El coste de la distorsión de la velocidad MBCost para cada blkMode de la división de bloques se obtiene calculando el coste de la distorsión de la velocidad blkCost para cada bloque (el número total de bloques se indica con “maxBlk[blkMode]”), y calculando la suma total de los costes de distorsión de la velocidad blkCost.
5 El coste de la distorsión de la velocidad blkCost para cualquier bloque puede obtenerse como valor mínimo del coste de la distorsión de la velocidad “cost” obtenido cuando se utiliza en vector de desplazamiento del paralaje. Por tanto, para cada bloque, debe calcularse el vector del desplazamiento del paralaje para minimizar el “cost” y el propio “cost”.
En este caso, se efectúa la búsqueda del desplazamiento del paralaje utilizado para la codificación, en la proximidad del paralaje de referencia relevante. Es decir, se definen “e0, e1, … eN-1” como candidatos para el vector de desplazamiento del paralaje, y se repite un proceso de cálculo del coste de la distorsión de la velocidad para el vector de paralaje “dA[x ,y]+en” para “n = 0, 1, …, N-1”, para codificar el vector de paralaje óptimo para el bloque
15 presente.
Con el fin de calcular el “cost”, en primer lugar se calcula la suma total “SAD[en]” de los valores absolutos de la predicción residual para el bloque relevante, que se obtiene cuando se utiliza el vector en del desplazamiento del paralaje. Además, se calcula también una cantidad estimada R[en] de código del vector de desplazamiento del paralaje, que se obtiene cuando se codifica el vector en del desplazamiento del paralaje. El “cost” se calcula con la siguiente fórmula:
Cost = SAD[en] + AR[en]
25 (1)
A continuación, en la parte 106 de ajuste de la división de bloques, se calcula el “bestBlkMode” de la división de bloques para minimizar el coste MBCost de la distorsión de velocidad, para cada macrobloque MBBlk (el correspondiente vector de desplazamiento del paralaje ha sido ya obtenido).
La figura 5 muestra el proceso detallado del paso S106.
En primer lugar, se inicializa en cero el coste MBCost de la distorsión de la velocidad del macrobloque relevante y el valor índice del bloque “blk” (véase el paso S1061), y se obtiene el vector del desplazamiento del paralaje para
35 minimizar el coste blkCost de la distorsión de velocidad del bloque “blk” (véase el paso S1062).
Después de que el coste blkCost obtenido de la distorsión de la velocidad es añadido al coste MBCost de distorsión de la velocidad del macrobloque (véase el paso S1063), se añade “1” al bloque “blk”, y se repiten los pasos S1062 y S1064 hasta que el bloque “
blk” alcanza el número total maxBlk[blkMode] de bloques (véase el paso S1065).
Cuando el bloque “blk” alcanza el número total maxBlk[blkMode] de bloques, se determina si el coste MBCost de la distorsión de la velocidad del macrobloque actualmente calcula es menor o no que el coste actualmente mínimo de
45 distorsión de la velocidad minMBCost del macrobloque (véase el paso S1066). Si es menor, se almacena el coste MBCost de distorsión de la velocidad como el coste mínimo de distorsión de la velocidad minMBCost, y se almacena el correspondiente blkMode de división de bloques como el óptimo bestBlkMode de la división de bloques (véase el paso S1067).
De acuerdo con la operación anterior, se obtienen los datos “bestBlkMode” de la división de bloques, los datos del desplazamiento del paralaje (es decir, el vector de desplazamiento del paralaje) y la predicción residual generada por la compensación del paralaje, que se utilizan para la compensación del paralaje del macrobloque MBBlk. A continuación, se codifican los datos “bestBlkMode” de la división de bloques en la parte 107 de codificación de datos de la división de bloques, y se codifican los datos del desplazamiento del paralaje correspondientes al bestBlkMode
55 en la parte 108 de codificación de datos del desplazamiento del paralaje (véase el paso S109).
Además, la predicción residual correspondiente a los datos del desplazamiento del paralaje son codificados en la parte 109 de codificación de la predicción residual.
La figura 7 muestra un dispositivo de descodificación de vídeo utilizado en el presente modo de realización. El dispositivo 200 de descodificación de vídeo incluye una parte 201 de descodificación de los datos de la división de bloques; una parte 202 de descodificación de los datos del desplazamiento del paralaje; una parte 203 de descodificación de la predicción residual; una parte 204 de compensación del paralaje; y una memoria 205 de imágenes de referencia.
65 La figura 8 es un diagrama de flujo de la descodificación utilizando el dispositivo 200 de descodificación de vídeo en el presente modo de realización. Este diagrama de flujo muestra la operación de descodificar un fotograma de la cámara C, y será explicado con detalle a continuación. En este caso, los fotogramas de las cámaras A y B del mismo tiempo han sido descodificados por adelantado, y las imágenes descodificadas han sido almacenadas en la memoria 205 de imágenes de referencia.
5 En primer lugar, las imágenes descodificadas relevantes de las cámaras A y B son introducidas desde la memoria 205 de imágenes de referencia (véase el paso S201), y se obtiene el paralaje de referencia para cada pixel de la imagen objetivo a codificar, utilizando cada imagen de referencia (véase el paso S202). Es decir, se introducen dos imágenes de referencia que pertenecen a las cámaras A y B en la parte 204 de compensación del paralaje, y se
10 obtiene la compensación del paralaje para cada pixel de la imagen relevante de la cámara C. Consecuentemente, se obtienen dos “vectores bidimensionales” para cada pixel en la imagen de la cámara C.
A continuación, después de que se haya inicializado en cero el índice MBBlk del macrobloque (véase el paso S203), se repiten los pasos siguientes (S204 a S212) para cada macrobloque del fotograma relevante, mientras que se
15 añade “1” al MBBlk (véase el paso S211) (“maxMBBlk” indica el número de macrobloques de un fotograma). Consecuentemente, se descodifica el fotograma relevante de la cámara C.
En la descodificación de cada macrobloque, en primer lugar, se descodifican los datos de la división de bloques bestBlkMode del macrobloque MBBlk por medio de la parte 201 de descodificación de los datos de la división de
20 bloques (véase el paso S204). A continuación, después de haber inicializado a cero el valor del índice del bloque “blk” (véase el paso S205), se repiten los pasos siguientes (S206 a S209) para cada bloque “blk” (“maxBlk[blkMode]” indica el número máximo de bloques).
En primer lugar, en la parte 202 de descodificación de los datos del desplazamiento del paralaje, se descodifican los
25 datos del desplazamiento del paralaje para el bloque “blk” (véase el paso S206), y se genera una imagen de predicción para el bloque “blk”, utilizando los datos del desplazamiento del paralaje y del paralaje de referencia (es decir, efectuando la interpolación entre los valores de pixel de las cámaras A y B) (véase el paso S207).
De acuerdo con el proceso de repetición anterior para el bloque “blk”, se genera una imagen de predicción para el
30 macrobloque MBBlk. Por tanto, la predicción residual para el macrobloque MBBlk se descodifica en la parte 203 de descodificación de la predicción residual, y la parte 204 de compensación del paralaje calcula la suma de la imagen de predicción y de la predicción residual, obteniendo con ello una imagen descodificada del macrobloque MBBlk (véase el paso S210).
35 La operación anterior se repite para cada macrobloque del fotograma relevante (véanse los pasos S211 y S212), descodificando con ello el fotograma de la cámara C.
En el presente modo de realización, se codifica una imagen de la cámara C haciendo referencia a las otras cámaras (A y B). Sin embargo, tal caso de efectuar la codificación refiriéndose a las otras cámaras y otro caso de efectuar la
40 compensación del movimiento haciendo referencia a una imagen descodificada, pueden ser conmutados adaptativamente en un fotograma de imagen (es decir, para una imagen).
Más específicamente, se puede efectuar la conmutación entre la compensación del paralaje y la compensación del movimiento para cada bloque dividido ilustrado en la figura 6. En este caso, el lado de codificación de vídeo debe
45 codificar los datos para indicar qué compensación de paralaje y compensación de movimiento han sido utilizadas, y el lado de la descodificación de vídeo debe descodificar los datos.
Los procesos de codificación y descodificación de vídeo anteriormente descritos pueden ser implementados utilizando un ordenador y un programa de software. Tal programa puede ser proporcionado almacenándolo en un
50 medio de almacenamiento legible por ordenador, o a través de una red.
Aplicación industrial
En los métodos de codificación y descodificación de vídeo para estimar el paralaje utilizando imágenes de
55 referencia, se utiliza la correlación espacial de los datos de desplazamiento del paralaje, de manera que la cantidad de código de los datos de desplazamiento del paralaje pueden ser reducidos sin degradar la eficiencia de la predicción en la compensación del paralaje, mejorando con ello la eficiencia total de la codificación.

Claims (10)

  1. REIVINDICACIONES
    1. Un método de codificación de vídeo, para codificar imágenes de vídeo como una imagen de vídeo de puntos de
    vista múltiples, utilizando la compensación del paralaje que efectúa la predicción utilizando el paralaje espacial entre 5 las imágenes de video, comprendiendo el método:
    un paso (S103) de ajuste del paralaje de referencia, para ajustar el paralaje de referencia para cada pixel de una imagen objetivo a codificar, donde se estima el paralaje de referencia utilizando imágenes de referencia sin usar la imagen objetivo;
    un paso (S1067) de ajuste de la división del área, para ajustar la división del área en un fotograma de una imagen;
    un paso (S1062) de ajuste del desplazamiento del paralaje, para ajustar el desplazamiento del paralaje para cada área dividida fijada en el paso de ajuste de la división del área, donde se define el desplazamiento del paralaje como
    15 la diferencia entre el paralaje de referencia y el paralaje real utilizado para generar una imagen de predicción para la compensación del paralaje, y tiene un valor común dentro de cada área dividida;
    un paso de generación de la imagen de predicción, para generar una imagen de predicción para la compensación del paralaje, para cada pixel de la imagen objetivo, utilizando el paralaje real obtenido para el pixel como una unidad añadiendo el paralaje de referencia ajustado al desplazamiento del paralaje común fijado para el área a la cual pertenece el pixel;
    un paso (S109) de codificación de los datos de la división del área, para codificar los datos de la división del área para indicar la división del área que ha sido ajustada en el paso de ajuste de la división del área; y
    25 un paso (S109) de codificación de los datos de desplazamiento del paralaje, para codificar los datos de desplazamiento del paralaje para indicar el desplazamiento del paralaje que ha sido fijado en el paso de ajuste del desplazamiento del paralaje.
  2. 2. El método de codificación de vídeo, de acuerdo con la reivindicación 1, en el que:
    el ajuste de la división del área en el paso de ajuste de la división del área, se efectúa por medio de un método seleccionado entre una pluralidad de métodos de división del área para realizar la división del área en bloques rectangulares.
  3. 3. Un método de descodificación de vídeo, para descodificar imágenes de vídeo como una imagen de vídeo de puntos de vista múltiples, utilizando la compensación del paralaje que realiza la predicción, utilizando el paralaje espacial entre las imágenes de vídeo, comprendiendo el método:
    un paso (S202) de ajuste del paralaje de referencia, para fijar el paralaje de referencia para cada pixel en una imagen objetivo a descodificar, donde el paralaje de referencia se estima utilizando imágenes de referencia sin utilizar la imagen objetivo;
    un paso (S204) de descodificación de datos de la división de área, para descodificar los datos de división del área 45 para indicar la división del área, donde los datos de división de área están incluidos en los datos codificados;
    un paso (S206) de descodificación de los datos de desplazamiento del paralaje, para descodificar los datos del desplazamiento del paralaje para cada área indicada por los datos de división del área, que son descodificados en el paso de descodificación de datos de la división del área, donde los datos del desplazamiento del paralaje están incluidos en los datos codificados, y el desplazamiento del paralaje se define como la diferencia entre el paralaje de referencia y el paralaje real utilizado para generar una imagen de predicción para la compensación del paralaje y tiene un valor común dentro de cada área indicada por los datos de división del área; y
    un paso (S207) de generación de la imagen de predicción, para generar la imagen de predicción para la
    55 compensación del paralaje para cada pixel de la imagen objetivo, utilizando el paralaje real obtenido para el pixel como una unidad, añadiendo el paralaje de referencia ajustado al desplazamiento del paralaje común que se ha fijado para el área a la cual pertenece el pixel.
  4. 4. El método de descodificación de vídeo, de acuerdo con la reivindicación 3, en el que:
    los datos de división del área descodificados en el paso de descodificación de los datos de la división del área indican un método seleccionado entre una pluralidad de métodos de división de área para efectuar la división del área en bloques rectangulares.
    65 5. Un dispositivo de codificación de vídeo para codificar imágenes de vídeo como una imagen de vídeo de puntos de vista múltiples, utilizando la compensación del paralaje que realiza la predicción utilizando el paralaje espacial entre
    imágenes de vídeo, comprendiendo el dispositivo:
    un dispositivo (104) de ajuste del paralaje de referencia, para fijar el paralaje de referencia para cada pixel de una imagen objetivo a codificar, donde el paralaje de referencia se estima utilizando imágenes de referencia sin utilizar la 5 imagen de referencia;
    un dispositivo (106) de ajuste de la división del área, para fijar la división del área en un fotograma de una imagen;
    un dispositivo (105) de ajuste del desplazamiento del paralaje, para fijar el desplazamiento del paralaje para cada área dividida fijada por el dispositivo de ajuste de división del área, donde el desplazamiento del paralaje está definido como la diferencia entre el paralaje de referencia y el paralaje real utilizado para generar una imagen de predicción para la compensación del paralaje, y tiene un valor común dentro de cada área dividida;
    un dispositivo (109) de generación de imágenes de predicción, para generar la imagen de predicción para la
    15 compensación del paralaje, para cada pixel de la imagen objetivo, utilizando el paralaje real que es obtenido para el pixel como unidad, añadiendo el paralaje de referencia fijado al desplazamiento del paralaje común que es fijado por el área a la cual pertenece el pixel;
    un dispositivo (107) de codificación de datos de división del área, para codificar los datos de división del área para indicar la división de área que ha sido fijada por el dispositivo de ajuste de división del área; y
    un dispositivo (108) de codificación de los datos del desplazamiento del paralaje, para codificar los datos de desplazamiento del paralaje para indicar el desplazamiento del paralaje que se ha fijado por el dispositivo de ajuste de desplazamiento del paralaje.
  5. 6. Un dispositivo de descodificación de vídeo, para descodificar imágenes de vídeo como una imagen de vídeo de puntos de vista múltiples, utilizando la compensación del paralaje que efectúa la predicción utilizando el paralaje espacial entre las imágenes de vídeo, comprendiendo el dispositivo:
    un dispositivo (204) de ajuste del paralaje de referencia, para ajustar el paralaje de referencia para cada pixel en una imagen objetivo a descodificar, donde el paralaje de referencia se estima utilizando imágenes de referencia sin utilizar la imagen objetivo;
    un dispositivo (201) de descodificación de los datos de división del área, para descodificar los datos de división del 35 área para indicar la división del área, donde los datos de división del área están incluidos en los datos codificados;
    un dispositivo (202) de descodificación de los datos de desplazamiento del paralaje, para descodificar datos del desplazamiento del paralaje para cada área indicada por los datos de división del área, que son descodificados por el dispositivo de descodificación de datos de división del área, donde los datos del desplazamiento del paralaje están incluidos en los datos codificados, y el desplazamiento del paralaje se define como la diferencia entre el paralaje de referencia y el paralaje real utilizado para generar una imagen de predicción para la compensación del paralaje, y tiene un valor común dentro de cada área indicada por los datos de división del área; y
    un dispositivo (204) de generación de imágenes de predicción, para generar la imagen de predicción para la
    45 compensación del paralaje, para cada pixel de la imagen objetivo, utilizando el paralaje real que se obtiene para el pixel como una unidad, añadiendo el paralaje de referencia fijado al desplazamiento del paralaje común, que está fijado para el área a la cual pertenece el pixel.
  6. 7.
    Un programa de codificación de vídeo, para hacer que un ordenador ejecute el método de codificación de vídeo de acuerdo con la reivindicación 1.
  7. 8.
    Un programa de descodificación de vídeo, para hacer que un ordenador ejecute el método de codificación de vídeo de acuerdo con la reivindicación 3.
    55 9. Un medio de almacenamiento legible por ordenador, que almacena un programa de descodificación de vídeo para hacer que un ordenador ejecute el método de codificación de vídeo de acuerdo con la reivindicación 1.
  8. 10.
    Un medio de almacenamiento legible por ordenador, que almacena un programa de descodificación de vídeo para hacer que un ordenador ejecute el método de descodificación de vídeo de acuerdo con la reivindicación 3.
  9. 11.
    El método de codificación de vídeo, de acuerdo con la reivindicación 1, en el que:
    en el paso de generación de imágenes de predicción, la imagen de predicción se genera basándose en los valores de los pixeles de las imágenes de referencia.
  10. 12. El método de codificación de vídeo, de acuerdo con la reivindicación 11, en el que: en el paso de generación de imágenes de predicción, la imagen de predicción se genera calculando un promedio entre los valores de los pixeles de las imágenes de referencia.
    5 13. El método de descodificación de vídeo, de acuerdo con la reivindicación 3, en el que: en el paso de generación de imágenes de predicción, la imagen de predicción se genera basándose en los valores de los pixeles de las imágenes de referencia. 10 14. El método de descodificación de vídeo, de acuerdo con la reivindicación 13, en el que: en el paso de generación de imágenes de predicción, la imagen de predicción se genera calculando un promedio entre los valores de los pixeles de las imágenes de referencia. 15 15. El dispositivo de codificación de vídeo, de acuerdo con la reivindicación 6, en el que: el dispositivo de generación de imágenes de predicción genera la imagen de predicción basándose en los valores de los pixeles de las imágenes de referencia. 20 16. El dispositivo de codificación de vídeo, de acuerdo con la reivindicación 15, en el que: el dispositivo de generación de imágenes de predicción genera la imagen de predicción calculando el promedio entre los valores de los pixeles de las imágenes de referencia. 25 17. El dispositivo de descodificación de vídeo, de acuerdo con la reivindicación 7, en el que: el dispositivo de generación de imágenes de predicción genera la imagen de predicción basándose en los valores de los pixeles de las imágenes de referencia. 30 18. El dispositivo de descodificación de vídeo, de acuerdo con la reivindicación 17, en el que:
    el dispositivo de generación de imágenes de predicción genera la imagen de predicción calculando el promedio entre los valores de los pixeles de las imágenes de referencia.
ES07706352T 2006-01-05 2007-01-04 Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas Active ES2388080T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006000393 2006-01-05
JP2006000393 2006-01-05
PCT/JP2007/050005 WO2007077989A1 (ja) 2006-01-05 2007-01-04 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Publications (1)

Publication Number Publication Date
ES2388080T3 true ES2388080T3 (es) 2012-10-08

Family

ID=38228325

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07706352T Active ES2388080T3 (es) 2006-01-05 2007-01-04 Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas

Country Status (11)

Country Link
US (1) US8451894B2 (es)
EP (1) EP1971155B1 (es)
JP (1) JP5234587B2 (es)
KR (1) KR100977255B1 (es)
CN (1) CN101361371B (es)
BR (1) BRPI0706214B1 (es)
CA (1) CA2634050C (es)
ES (1) ES2388080T3 (es)
RU (1) RU2384971C1 (es)
TW (1) TW200806040A (es)
WO (1) WO2007077989A1 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023262B1 (ko) 2006-09-20 2011-03-21 니폰덴신뎅와 가부시키가이샤 화상 부호화 방법 및 복호 방법, 이들의 장치 및 이들의 프로그램과 프로그램을 기록한 기억매체
JP4999853B2 (ja) * 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US8634462B2 (en) * 2007-03-13 2014-01-21 Matthias Narroschke Quantization for hybrid video coding
US20080225947A1 (en) 2007-03-13 2008-09-18 Matthias Narroschke Quantization for hybrid video coding
CN101170702B (zh) * 2007-11-23 2010-08-11 四川虹微技术有限公司 多视角视频编码方法
KR101628383B1 (ko) 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
JP2011199396A (ja) * 2010-03-17 2011-10-06 Ntt Docomo Inc 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法、及び動画像予測復号プログラム
KR101529992B1 (ko) * 2010-04-05 2015-06-18 삼성전자주식회사 픽셀 그룹별 픽셀값 보상을 위한 비디오 부호화 방법과 그 장치, 및 픽셀 그룹별 픽셀값 보상을 위한 비디오 복호화 방법과 그 장치
CN105847799B (zh) 2010-04-13 2019-04-05 三星电子株式会社 视频解码设备
ES2887236T3 (es) * 2010-07-20 2021-12-22 Ntt Docomo Inc Método de decodificación predictiva de imágenes
US9648334B2 (en) * 2011-03-21 2017-05-09 Qualcomm Incorporated Bi-predictive merge mode based on uni-predictive neighbors in video coding
CN103765902B (zh) * 2011-08-30 2017-09-29 英特尔公司 多视角视频编码方案
JP5485969B2 (ja) * 2011-11-07 2014-05-07 株式会社Nttドコモ 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法及び動画像予測復号プログラム
JP6012014B2 (ja) * 2012-03-30 2016-10-25 サン パテント トラスト 画像符号化方法および画像復号方法
TWI632805B (zh) * 2012-06-11 2018-08-11 三星電子股份有限公司 視訊解碼方法、視訊編碼方法、視訊解碼裝置、視訊編碼裝置以及非暫態的電腦可讀取儲存媒體
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
JP2014082541A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
WO2014075236A1 (en) 2012-11-14 2014-05-22 Mediatek Singapore Pte. Ltd. Methods for residual prediction with pseudo residues in 3d video coding
CN104782128B (zh) * 2012-11-14 2017-10-24 寰发股份有限公司 用于三维或多维视图视频编码的方法及其装置
CN104885462A (zh) * 2012-12-28 2015-09-02 日本电信电话株式会社 视频编码装置和方法、视频解码装置和方法、以及其程序
CN105359529B (zh) * 2013-07-16 2018-12-07 寰发股份有限公司 用于三维或多视图视频编码的方法及装置
WO2015006922A1 (en) * 2013-07-16 2015-01-22 Mediatek Singapore Pte. Ltd. Methods for residual prediction
CN114793279A (zh) * 2016-02-03 2022-07-26 Oppo广东移动通信有限公司 运动图像解码装置、编码装置、以及预测图像生成装置
CN112702598B (zh) * 2020-12-03 2024-06-04 浙江智慧视频安防创新中心有限公司 基于位移操作进行编解码的方法、装置、电子设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130094A (ja) * 1988-11-10 1990-05-18 Nippon Telegr & Teleph Corp <Ntt> ステレオ動画像の動きベクトル情報符号化方式
JP3055438B2 (ja) * 1995-09-27 2000-06-26 日本電気株式会社 3次元画像符号化装置
JPH09261653A (ja) 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JP3693407B2 (ja) * 1996-04-04 2005-09-07 シャープ株式会社 多視点画像符号化装置および復号装置
US6163337A (en) * 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
JP3477023B2 (ja) * 1996-04-05 2003-12-10 松下電器産業株式会社 多視点画像伝送方法および多視点画像表示方法
JP3263807B2 (ja) 1996-09-09 2002-03-11 ソニー株式会社 画像符号化装置および画像符号化方法
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
US6269175B1 (en) * 1998-08-28 2001-07-31 Sarnoff Corporation Method and apparatus for enhancing regions of aligned images using flow estimation
JP2003259377A (ja) * 2002-03-06 2003-09-12 Matsushita Electric Ind Co Ltd 動画像符号化方法、動画像復号化方法および符号列フォーマット
US7903742B2 (en) 2002-07-15 2011-03-08 Thomson Licensing Adaptive weighting of reference pictures in video decoding
CN1204757C (zh) * 2003-04-22 2005-06-01 上海大学 一种立体视频流编码/解码器及其立体视频编解码系统
JP3790764B2 (ja) 2004-04-02 2006-06-28 一成 江良 投写型表示装置および投写型表示システム
JP4379221B2 (ja) 2004-06-17 2009-12-09 ブラザー工業株式会社 ミシンおよびその制御方法

Also Published As

Publication number Publication date
WO2007077989A1 (ja) 2007-07-12
KR100977255B1 (ko) 2010-08-23
EP1971155A4 (en) 2010-06-16
KR20080078697A (ko) 2008-08-27
BRPI0706214B1 (pt) 2020-02-11
BRPI0706214A2 (pt) 2011-03-15
US20100220784A1 (en) 2010-09-02
CA2634050C (en) 2013-08-20
RU2384971C1 (ru) 2010-03-20
EP1971155A1 (en) 2008-09-17
CA2634050A1 (en) 2007-07-12
TWI364992B (es) 2012-05-21
US8451894B2 (en) 2013-05-28
CN101361371A (zh) 2009-02-04
TW200806040A (en) 2008-01-16
EP1971155B1 (en) 2012-05-16
JPWO2007077989A1 (ja) 2009-06-11
CN101361371B (zh) 2010-11-03
JP5234587B2 (ja) 2013-07-10
RU2008125839A (ru) 2009-12-27

Similar Documents

Publication Publication Date Title
ES2388080T3 (es) Método de codificación de vídeo y método de descodificación, dispositivo para los mismos, programas para los mismos y medios de almacenamiento para almacenar los programas
Zhang et al. An improved framework of affine motion compensation in video coding
CA2663084C (en) Image encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
JP5234586B2 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
KR101131756B1 (ko) 도메인 변환을 이용한 메시 기반 비디오 압축
CN102905150B (zh) 一种新的多视点视频分形编码压缩与解压缩方法
CN103597831A (zh) 方向帧内预测方法及其装置
CN102970529B (zh) 一种基于对象的多视点视频分形编码压缩与解压缩方法
CN102291579B (zh) 一种快速的多目立体视频分形压缩与解压缩方法
CN101990103B (zh) 用于多视点视频编码的方法和装置
TWI489876B (zh) A Multi - view Video Coding Method That Can Save Decoding Picture Memory Space
KR20160079068A (ko) 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법, 및 그 프로그램
WO2015056712A1 (ja) 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
JP2009164865A (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
CN102263953B (zh) 一种基于对象的快速多目立体视频分形压缩与解压缩方法
Wang et al. Fast mode selection based on texture segmentation and view prediction in JMVC
JP2005260464A (ja) 画像符号化装置,画像復号装置,画像符号化方法,画像復号方法,画像符号化プログラム,画像復号プログラム,画像符号化プログラム記録媒体および画像復号プログラム記録媒体
Wong et al. Horizontal scaling and shearing-based disparity-compensated prediction for stereo video coding
Morvan et al. Incorporating depth-image based view-prediction into H. 264 for multiview-image coding
Qiao et al. Fast disparity estimation utilizing depth information for multiview video coding
Gao et al. An error robust distortion model for depth map coding in error prone network
Liu et al. Multi-View Video Coding Based on Vector Estimation and Weighted Disparity Interpolation
Ho et al. Overview of view synthesis prediction for multi-view video coding